Software informatie:
Versie: 3.4
Upload datum: 10 Dec 15
Licentie: Gratis
Populariteit: 105
Het kan server-side en client-side-tags bewerken, terwijl het reproduceren letterlijk elke herkende of ongeldige HTML.
Het biedt ook high-level HTML-formulier manipulatie functies
Eigenschappen .
- De aanwezigheid van slecht geformatteerde HTML niet interfereert met het interpreteren van de rest van het document, dat de bibliotheek ideaal voor gebruik maakt met & quot; real-world & quot; HTML die andere parsers verstikt.
- ASP, JSP, PSP, PHP en Mason server tags worden expliciet erkend door de parser. Dit betekent dat de normale HTML nog goed ontleed zelfs als er server markeringen in hen, die gemeenschappelijk bijvoorbeeld bij dynamische instelelement kenmerken.
- Een nieuwe stroom gebaseerd parsing optie met de StreamedSource klasse, die het geheugen efficiënte verwerking van grote bestanden met behulp van een evenement iterator maakt. Dit is in wezen een StAX alternatief met de mogelijkheid om HTML en niet- valideren XML, evenals verschillende andere functies die niet beschikbaar zijn in andere streaming parsers verwerken.
- In haar standaardformulier het is noch een evenement of boom parser gebaseerd, maar maakt gebruik van een combinatie van een eenvoudige zoekopdracht tekst, efficiënte tag erkenning en een tag positie cache. De tekst van de gehele bron document wordt eerst in het geheugen geladen, en dan alleen de relevante segmenten gezocht naar de relevante tekens van elke zoekactie.
- opzichte van een boom gebaseerde parser zoals DOM, het geheugen en de benodigde middelen kan veel beter zijn als slechts kleine gedeelten van het document moeten worden ontleed of gewijzigd. Onjuiste of slecht geformatteerde HTML kunnen gemakkelijk worden genegeerd, in tegenstelling tot de boom gebaseerde parsers die elk knooppunt in het document van boven moet identificeren naar beneden.
- vergelijking met een gebeurtenis gebaseerde parser zoals SAX is de interface op een hoger niveau en intuïtief, en een boomrepresentatie van het document element hiërarchie gemakkelijk gemaakt indien nodig.
- Het begin en einde posities in het brondocument van alle ontleed segmenten toegankelijk zijn, waardoor aanpassing van alleen geselecteerde segmenten van het document zonder dat u het hele document te reconstrueren van een boom.
- De rij en kolom nummer van elke positie in het brondocument zijn gemakkelijk te bereiken.
- Biedt een eenvoudige, maar uitgebreide interface voor de analyse en manipulatie van HTML-formulier controle, met inbegrip van de winning en de bevolking van de beginwaarden, en conversie naar alleen-lezen of gegevens display modes. Analyse van de vorm controles ook kunnen gegevens ontvangen van het formulier te worden opgeslagen en gepresenteerd in een passende wijze.
- De ingebouwde functionaliteit om alle tekst uit HTML opmaak, geschikt voor het voeden in een text zoekmachine zoals Apache Lucene halen.
- De ingebouwde functionaliteit om HTML-opmaak met eenvoudige tekstopmaak te maken.
- De ingebouwde functionaliteit om HTML broncode die elementen inspringen volgens hun diepte in het document element hiërarchie opmaken. (Klik hier voor een online demonstratie)
- De ingebouwde functionaliteit om compacte HTML-broncode door het verwijderen van alle overbodige witte ruimte.
- Aangepaste soorten tag kan gemakkelijk worden gedefinieerd en geregistreerd voor erkenning door de parser.
Wat is nieuw in deze release:.
- Toegevoegd Source (File) constructeur
- methode Toegevoegd OutputDocument.getSegment ().
- Toegevoegd OutputDocument.remove (int begin, int einde) methode.
- methode Toegevoegd Renderer.setHRLineLength ().
- Toegevoegd RenderToText.jsp webapp monster.
- methode Toegevoegd Segment.getRowColumnVector ().
- Encoding detectie negeert nu algemeen coderingen vermeld in meta-tags die een code-eenheid grootte onverenigbaar is met de voorlopige codering.
Wat is nieuw in versie 3.1:
- Bug Fixes:
- De oneindige lus op Segment.getAllStartTags ()
- De oneindige lus op Segment.getAllElements ()
- Segment.getFirst * methoden terug segmenten buiten de begrenzende segment.
- Segment.getAllElements methoden niet alle ingesloten elementen terugkeren in sommige omstandigheden.
- Vast documentatie fouten in Segment.getAllElements methoden.
- Toegevoegd StreamedSource klasse.
- Wijzigingen die het gedrag van de bestaande programma's zou kunnen beïnvloeden:
- Veranderd ParseText van klas tot de interface.
- Segment.getNodeIterator () geeft nu karakter referenties als afzonderlijke knooppunten.
- tag Toegevoegd zoekmethodes gebaseerd op attribuutwaarde reguliere expressies.
- tag Toegevoegd zoekmethodes gebaseerd op HTML class attribuut.
- Toegevoegd statische Source.LegacyNodeIteratorCompatabilityMode woning tijdelijk naar Segment.getNodeIterator () functionaliteit herstellen naar die van de vorige versies.
- Removed char [] gebaseerde zoekmethodes in ParseText.
- Toegevoegd CharacterReference.appendCharTo (appendable) methode.
- Toegevoegd OutputDocument (Segment) constructeur.
- Toegevoegd StreamedSourceCopy monster programma.
Reacties niet gevonden