Veel toepassingen die te maken hebben met ongestructureerde data toegang tot de tekstuele inhoud van geformatteerde of gemarkeerde documenten vereisen. Organisaties die documenten te archiveren vaak toegang tot de tekstuele inhoud nodig om de documenten doorzoekbaar te maken en in staat content aggregatie, rapportage en mijnbouw van het document archieven. Zoek en retrieval applicatie moeten ook extraheren en tokenize tekst van verschillende bestandsformaten.
Één standaard mechanisme om toegang te krijgen tot en kopieert tekst uit documenten wordt geleverd door de IFilter plug-in-interface gebruikt in Microsoft zoekmachines. Er zijn een paar IFilter implementaties ontwikkeld door Microsoft en andere leveranciers die een verscheidenheid aan bestandsformaten te dekken. De standaard of betrouwbaarheid en tekst extractie kwaliteit varieert over meerdere IFilter ontwikkelaars.
Opait Tekstfilters is een klein hulpprogramma programma met een eenvoudige interface om IFilters die al op de host-computer, evenals een paar aangepaste tekst extractie filters die direct werken met bestandsformaten en verbeteren op de standaard IFilter implementaties zijn geïnstalleerd.
. De interface om tekst te extraheren wordt geleverd door een kleine klasse bibliotheek genaamd Opait.Filters dat is inbegrepen en kan worden gebruikt om tekst filters integreren in .NET applicaties
Eisen :
.NET Framework 4.5
Reacties niet gevonden