PDFMiner werkt door eerst het nemen van de inhoud van een PDF-bestand en te converteren naar een meer kneedbaar formaat zoals HTML.
Vandaar gaat tekst en data geëxtraheerd en geanalyseerd op basis van de vooraf gedefinieerde regels afgescheiden en aan de gebruiker of naar andere krachtigere gegevensanalyse instrumenten.
Als tekstanalyse is niet wat je van plan te doen, kunt u eenvoudig configureren PDFMiner om gewoon te halen of gewoon PDF-gegevens om te zetten ook.
Zijn functies kunnen afzonderlijk werken van elkaar en laat een breder gebruik van spectrum dankzij deze
Eigenschappen .
- 100% Python code, geen C of C ++
- Parse PDF
- Analyseer PDF
- converteren PDF's naar andere formaten
- ToC afzuigkap
- Krijg alleen tagged inhoud
- Ondersteuning voor een groot aantal van de tekst PDF-functies
- Ondersteuning voor een groot aantal lettertypen in PDF-bestanden
- Basic encryptie (RC4) support
Wat is nieuw in deze release:
- methode PDFDocument.initialize () is verwijderd en niet langer nodig . Een wachtwoord wordt gegeven als een argument van een PDFDocument constructeur.
Wat is nieuw in versie 20110515:.
- API veranderingen
- LTPolygon klasse werd omgedoopt tot LTCurve.
Wat is nieuw in versie 20110227:.
- Bug fixes en verbeteringen layout analyse
Wat is nieuw in versie 20101226:.
- Een paar bugfixes en kleine verbeteringen
Wat is nieuw in versie 20101017:.
- Een paar bugfixes en een kleine verbetering
Wat is nieuw in versie 20100424:.
- Bugfixes en kleine verbeteringen op TOC extractie
Eisen
- Python 2.4 tot 3
Beperkingen .
- PDFMiner kan 20 keer trager dan C / C ++ - gebaseerde software
Reacties niet gevonden