PDFTextStream

Software screenshot:
PDFTextStream
Software informatie:
Versie: 2.6.0
Upload datum: 20 Feb 15
Licentie: Shareware
Prijs: 1900.00 $
Populariteit: 2

Rating: nan/5 (Total Votes: 0)

PDFTextStream project is een PDF-tekst en metadata extractie bibliotheek beschikbaar voor Java, Python, en .NET.
Het ondersteunt alle versies van het PDF-document-specificatie, (inclusief v1.6, gebruikt door Acrobat 7), extractie van tekst gecodeerd met double-byte tekensets (waaronder Chinees, Japans en Koreaans), decryptie van 40-bits en 128- bit gecodeerde documenten, en extractie van alle metagegevens van documenten die door PDF-documenten (zoals vorm van gegevens, bladwijzers en annotaties).
Eenvoudige integratie met Jakarta Lucene is inbegrepen

Wat is nieuw in deze release:.

  • Deze versie bevat een aantal verbeteringen gemaakt om ervoor te zorgen PDFTextStream kan extraheren tekst uit PDF-documenten die zijn niet-conforme aan de PDF-specificatie.
  • Het bevat ook een aantal prestatieverbeteringen.

Wat is nieuw in versie 2.3.0:

  • Toegevoegd een methode .isStruckThrough () om com. snowtide.pdf.TextUnit, die aangeeft of een personage heeft een doorhaling getrokken doorheen.
  • Verbeterde ondersteuning PDFTextStream's voor embedded karakter mappings.
  • De berekening van witruimte tussen woorden is vastgesteld om goed rekening te houden met witruimte die expliciet wordt gecodeerd in de bron PDF-documenten.
  • Verbeterde afhandeling van composiet inhoud coderingen, die eerder zou kunnen mislukken resulteert in een aantal reeksen van PDF-inhoud wordt 'genegeerd' tijdens extractie PDFTextStream's.
  • Fixed a bug in VisualOutputTarget waar tekst uit een enkele lijn zou worden verdeeld over meerdere regels
  • Verbeterde verticale uitlijning van tekst geëxtraheerd met behulp van VisualOutputTarget
  • Verbeterde VisualOutputTarget geproduceerde extracten om valse extra witruimte tussen nauw-aangrenzende woorden elimineren

Wat is nieuw in versie 2.2.5:

  • Deze versie voegt ondersteuning toe voor de extractie van XFA formulieren gegevens als XML.
  • Het verbetert aanzienlijk de prestaties van de tekst extractie met behulp van VisualOutputTarget. Ondersteuning voor PDF-documenten die groter zijn dan 2 GB.
  • Een oplossing voor een bug waar de coderingen van ingebedde Type1 lettertypen waren voorheen niet correct worden toegepast in sommige omstandigheden.
  • Een oplossing voor een probleem waar de nieuwere inhoud in bijgewerkte PDF-documenten werd soms genegeerd.
  • Een oplossing voor een probleem waar-PDFDocEncoding gecodeerde bladwijzers en metagegevens waren niet goed gedecodeerd.
  • Een .getDestinationName () methode in com.snowtide.pdf.Bookmark.

Eisen

  • Apache Lucene

Reacties op PDFTextStream

Reacties niet gevonden
Commentaar toe te voegen
Zet op de beelden!