Apache Tika

Software screenshot:
Apache Tika
Software informatie:
Versie: 1.4
Upload datum: 20 Feb 15
Licentie: Gratis
Populariteit: 6

Rating: nan/5 (Total Votes: 0)

Apache Tika is een open source toolkit ontworpen om te detecteren en te extraheren metadata, alsmede gestructureerde tekst content van verschillende documenten, met behulp van niets anders dan bestaande parser bibliotheken.
Apache Tika ondersteunt de volgende bestandsformaten: HyperText Markup Language (HTTP), XML en afgeleide formaten, Microsoft Office-document formaten, OpenDocument Format (ODF), Portable Document Format (PDF), elektronische publicatie Format (EPF), Rich Text Format (RTF ), compressie en verpakking formats, tekst / audio / foto / video formaten, het mbox-formaat, en Java-klasse bestanden en archieven.
Voorheen Apache Tika was een sub-project van de Apache Lucene software bibliotheek. Nu wordt verspreid als een standalone pakket door de Apache Software Foundation

Wat is nieuw in deze release:.

  • Verwijderd een -test HTML-bestand met een slecht gekozen GPL tekst in het (TIKA-1129).
  • Verbeteringen aan tika-server om deze te text / html en text / xml-inhoud (TIKA-1126, TIKA-1127) te produceren.
  • Er zijn verbeteringen aangebracht aan de Compressor Parser om g'zipped bestanden dat de optie decompressConcatenated ingesteld op true (TIKA-1096) nodig te behandelen.
  • Geadresseerd een typografische fout die werd voorkomen van detectie van awk bestanden (TIKA-1081).
  • Toegevoegd een nieuw eindpunt te Tika's JAX-RS REST server die alleen de media-type op basis van een klein deel van de (TIKA-1047) ingediend document detecteert.
  • RTF:. Geordende en ongeordende lijsten worden nu uitgepakt (TIKA-1062)
  • MP3: Audio duur is nu uitgepakt (TIKA-991)
  • Java Class-bestanden:. Opgewaardeerd van ASM 3.1 tot ASM 4.1 voor het ontleden van de Java bytecodes (TIKA-1053)
  • Mime Types: Definities uitgebreid met optioneel Link (URL) en UTI, samen met de details voor diverse gangbare formaten (TIKA-1012 / TIKA-1083)
  • Uitzonderingen bij het ontleden van OLE10 ingesloten documenten, bij het ontleden van beknopte informatie uit Office-documenten, en bij het opslaan ingebed documennts in TikaCLI bent nu aangemeld in plaats van afbreken extractie (TIKA-1074)
  • MS Word: lijn tabelvorm karakter is nu vervangen door een nieuwe regel (TIKA-1128)
  • XML: ElementMetadataHandlers kan nu optioneel accepteren dubbele en lege waarden (TIKA-1133)
  • .

Eisen

  • Java 2 Standard Edition Runtime Environment

Andere software van ontwikkelaar The Apache Software Foundation

Apache Hive
Apache Hive

19 Feb 15

Apache Solr
Apache Solr

23 Jan 15

Reacties op Apache Tika

Reacties niet gevonden
Commentaar toe te voegen
Zet op de beelden!