Apache Tika is ontwikkeld als een low-level toolkit voor het zoeken van inhoud in andere bestanden.
Tika niet veel op zijn eigen wezen een eenvoudige bibliotheek te doen, maar het kan worden geïntegreerd in meer krachtige tools, zoals zoekmachines, digital asset management systemen of CMS tot een volledig functioneel in-file search systeem.
De bibliotheek kan toegang header gewoon het bestand voor snelle totale bestand informatie, of het kan gaan echt diep en zoek zelfs in het lichaam van het bestand van verschillende soorten data, in tekst of binaire indeling.
Een breed scala aan bestandstypen worden ondersteund en Tika kan ook gebruikt worden met andere programmeertalen dankzij een reeks van derden bindingen en wrappers.
Wat is nieuw in deze release :
- Deze release bevat bugfixes en nieuwe functies, waaronder een nieuwe Tesseract OCR-parser; een nieuw GDAL parser; meer ondersteunde formaten, en de algehele verbeteringen in de stabiliteit van Tika.
Wat is nieuw in versie 1.8:
- Deze release bevat bugfixes en nieuwe functies, waaronder een nieuwe Tesseract OCR-parser; een nieuw GDAL parser; meer ondersteunde formaten, en de algehele verbeteringen in de stabiliteit van Tika.
Wat is nieuw in versie 1.7:
- Deze release bevat bugfixes en nieuwe functies, waaronder een nieuwe Tesseract OCR-parser; een nieuw GDAL parser; meer ondersteunde formaten, en de algehele verbeteringen in de stabiliteit van Tika.
Wat is nieuw in versie 1.6:
- Deze release bevat bugfixes en nieuwe functies, waaronder een nieuwe vertaling API, meer ondersteunde formaten, en de algehele verbeteringen in de stabiliteit van Tika.
Wat is nieuw in versie 1.5:.
- Fixed bug in de afhandeling van ingebedde bestanden verwerken in PDF's
- Toegevoegd SourceCodeParser om Java-ondersteuning, Groovy, C ++ bestanden.
- Bijgewerkt Tika Server multipart / form-data payloads ondersteunen.
- Bijgewerkt Tika Server CXF 2.7.8.
- Bijgewerkt Tika Server aanvragen via wildcard adressen accepteren.
- Optie toegevoegd om alternatieve NonSequentialPDFParser gebruiken.
- Content uit PDF AcroForms is nu gehaald.
- Vast ongeldig sterretjes van meester dia in PPT.
- Toegevoegd testcases voor de behandeling van auto-date te bevestigen in PPT en PPTX.
Wat is nieuw in versie 1.4:
- Verwijderd een test HTML-bestand met een slecht gekozen GPL tekst in het.
- Verbeteringen aan tika-server in staat te stellen om tekst / html en tekst / xml-inhoud te produceren.
- De verbeteringen werden aangebracht aan de Compressor Parser om g'zipped bestanden dat de optie decompressConcatenated ingesteld op waar nodig te behandelen.
- Geadresseerd een typografische fout die werd voorkomen van detectie van awk bestanden.
Wat is nieuw in versie 1.2:
- Apache Tika 1.2 bevat een aantal verbeteringen en bug fixes.
Wat is nieuw in versie 1.0:
- Apache Tika 1.0 bevat een aantal verbeteringen en bug fixes.
Wat is nieuw in versie 0.9:.
- Deze release bevat een aantal belangrijke bugfixes en nieuwe functies
Wat is nieuw in versie 0.8:
- identificatie Taal is nu dynamisch configureerbaar, beheerd via een configuratiebestand geladen uit de classpath.
- Tika ondersteunt nu parsing feeds door het wikkelen van de onderliggende Rome bibliotheek.
- Een quick-start handleiding voor Tika parsing werd bijgedragen.
- Een benadering voor sanitair door middel van XHTML attributen werd toegevoegd.
- Type Media hiërarchie informatie wordt nu rekening gehouden bij het selecteren van de beste parser voor een bepaalde ingang document.
- Ondersteuning voor het ontleden van gemeenschappelijke wetenschappelijke data formaten, inclusief NetCDF en HDF4 / 5 werd toegevoegd.
- Unit tests voor Windows zijn vastgesteld, waardoor TestParsers te voltooien.
Wat is nieuw in versie 0.7:
- MP3-bestand parsing is verbeterd, met inbegrip van het Kanaal en SampleRate extractie en ID3v2 ondersteuning. Verder werd audio parsing mime detectie ook verbeterd voor de MIDI-formaat.
- Tika vertrouwt niet meer op X11 voor zijn RTF parsing functionaliteit.
- Een Draad-safe bug in de AutoDetectParser werd ontdekt en aangepakt.
- Upgrade naar PDFBox 1.0.0. De nieuwe versie verbetert PDFBox PDF parsing prestaties en lost een aantal SMS-extractie problemen.
Eisen
- Java 6 of hoger
Reacties niet gevonden