Software informatie:
Versie: 2.6.0
Upload datum: 20 Feb 15
Licentie: Shareware
Prijs: 1900.00 $
Populariteit: 2
PDFTextStream project is een PDF-tekst en metadata extractie bibliotheek beschikbaar voor Java, Python, en .NET.
Het ondersteunt alle versies van het PDF-document-specificatie, (inclusief v1.6, gebruikt door Acrobat 7), extractie van tekst gecodeerd met double-byte tekensets (waaronder Chinees, Japans en Koreaans), decryptie van 40-bits en 128- bit gecodeerde documenten, en extractie van alle metagegevens van documenten die door PDF-documenten (zoals vorm van gegevens, bladwijzers en annotaties).
Eenvoudige integratie met Jakarta Lucene is inbegrepen
Wat is nieuw in deze release:.
- Deze versie bevat een aantal verbeteringen gemaakt om ervoor te zorgen PDFTextStream kan extraheren tekst uit PDF-documenten die zijn niet-conforme aan de PDF-specificatie.
- Het bevat ook een aantal prestatieverbeteringen.
Wat is nieuw in versie 2.3.0:
- Toegevoegd een methode .isStruckThrough () om com. snowtide.pdf.TextUnit, die aangeeft of een personage heeft een doorhaling getrokken doorheen.
- Verbeterde ondersteuning PDFTextStream's voor embedded karakter mappings.
- De berekening van witruimte tussen woorden is vastgesteld om goed rekening te houden met witruimte die expliciet wordt gecodeerd in de bron PDF-documenten.
- Verbeterde afhandeling van composiet inhoud coderingen, die eerder zou kunnen mislukken resulteert in een aantal reeksen van PDF-inhoud wordt 'genegeerd' tijdens extractie PDFTextStream's.
- Fixed a bug in VisualOutputTarget waar tekst uit een enkele lijn zou worden verdeeld over meerdere regels
- Verbeterde verticale uitlijning van tekst geëxtraheerd met behulp van VisualOutputTarget
- Verbeterde VisualOutputTarget geproduceerde extracten om valse extra witruimte tussen nauw-aangrenzende woorden elimineren
Wat is nieuw in versie 2.2.5:
- Deze versie voegt ondersteuning toe voor de extractie van XFA formulieren gegevens als XML.
- Het verbetert aanzienlijk de prestaties van de tekst extractie met behulp van VisualOutputTarget. Ondersteuning voor PDF-documenten die groter zijn dan 2 GB.
- Een oplossing voor een bug waar de coderingen van ingebedde Type1 lettertypen waren voorheen niet correct worden toegepast in sommige omstandigheden.
- Een oplossing voor een probleem waar de nieuwere inhoud in bijgewerkte PDF-documenten werd soms genegeerd.
- Een oplossing voor een probleem waar-PDFDocEncoding gecodeerde bladwijzers en metagegevens waren niet goed gedecodeerd.
- Een .getDestinationName () methode in com.snowtide.pdf.Bookmark.
Eisen
- Apache Lucene
Reacties niet gevonden