Jericho HTML Parser

Software screenshot:
Jericho HTML Parser
Software informatie:
Versie: 3.3
Upload datum: 20 Feb 15
Ontwikkelaar: Martin Jericho
Licentie: Gratis
Populariteit: 3

Rating: nan/5 (Total Votes: 0)

Jerich HTML-parser is een open source, eenvoudige, maar krachtige bibliotheek volledig geschreven in Java.
Het stelt programmeurs te manipuleren en delen van een HTML-document te analyseren.
Jerich HTML-parser bevat ook op hoog niveau HTML-formulier manipulatie functies

Wat is nieuw in deze release:.

  • Bug Fixes:
  • [3581664] CharacterReference.decode () niet entiteiten met cijfers te decoderen - & frac12; & Frac14; & Frac34; & SUP1; & Sup2; & Sup3; & There4;
  • [3311286] SourceCompactor niet respecteert TEXTAREA-
  • [3519131] Renderer uitgang onjuist wanneer gebouwd met een Element object.
  • [3538829] Renderer output van lettertype decoratie op blokgrenzen onjuist.
  • Segment.getAllStartTags (naam) en Segment.getFirstElement (naam) werken niet als het argument bevat hoofdletters.
  • De eindafbakening van een gemeenschappelijk server-tag in een ontsnapte server tag wordt ten onrechte gezien als het einde scheidingsteken van de ontsnapte tag.
  • veranderingen die kon hebben voor het GEDRAG van bestaande programma's:
  • [3427073] Segment.getStyleURISegments () bevat nu stijlelement inhoud als stijlkenmerk waarden.
  • [3427927] Segment.getURIAttributes () bevat nu het archief attributen van het object en applet elementen.
  • Reacties niet meer opgenomen in het script elementen tijdens volle sequentiële parse. Voorheen werden ze erkend voor compatibiliteit met grote browsers, maar moderne browser gedrag is veranderd.
  • Veranderde de log niveau van alle parsing fouten van INFO naar fouten, en het logniveau van de Source.fullSequentialParse () adviserende boodschap van WARN naar INFO. De vorige niveaus gaf de afwezigheidsmelding een hogere ernst dan de parsing fouten, het voorkomen van logging systemen van het verbergen van de afwezigheidsmelding terwijl het tonen van parsing fouten. Tekencodering waarschuwingen blijven ongewijzigd op WARN niveau.
  • Veranderd het gedrag van de methode Renderer.renderHyperlinkURL (StartTag), zodat de relatieve URL's niet worden weergegeven.
  • Veranderd het gedrag van de Renderer zodat hyperlink element inhoud niet wordt weergegeven als het is hetzelfde als de hyperlink URL, het negeren van elk http:. // Prefix of / suffix
  • EndTag.tidy () verwijdert nu witruimte vóór het haakje sluiten.
  • Toegevoegde Bron (File) constructeur.
  • methode Toegevoegd OutputDocument.getSegment ().
  • Toegevoegde OutputDocument.remove (int begin, int end) methode.
  • methode Toegevoegd Renderer.setHRLineLength ().
  • Toegevoegd RenderToText.jsp webapp monster.
  • methode Toegevoegd Segment.getRowColumnVector ().
  • Encoding detectie negeert nu voorkomende coderingen aangegeven in meta tags die een code eenheid omvang onverenigbaar is met de voorlopige codering.
  • Upgrade naar de volgende logger API's: SLF4J-api-1.7.2, log4j-1.2.17

Wat is nieuw in versie 3.1:

  • Bug Fixes:
  • [2793556] Oneindige lus op Segment.getAllStartTags ()
  • De oneindige lus op Segment.getAllElements ()
  • Segment.getFirst * methoden terug segmenten buiten de begrenzende segment.
  • Segment.getAllElements methoden niet alle afgesloten elementen terug in sommige omstandigheden.
  • Vaste documentatie fouten in Segment.getAllElements methoden.
  • Toegevoegd StreamedSource klasse.
  • veranderingen die kon hebben voor het GEDRAG van bestaande programma's:
  • Veranderd ParseText uit de klas te gebruiken interface.
  • Segment.getNodeIterator () geeft nu zedelijk opzicht afzonderlijke knooppunten.
  • Toegevoegd tag zoekmethoden op basis van attribuutwaarde reguliere expressies.
  • Toegevoegd tag zoekmethoden gebaseerd op HTML-class attribuut.
  • Toegevoegd statische Source.LegacyNodeIteratorCompatabilityMode woning tijdelijk te Segment.getNodeIterator () functionaliteit te herstellen aan die van voorgaande versies.
  • Removed char [] gebaseerd zoekmethoden in ParseText.
  • Toegevoegde CharacterReference.appendCharTo (appendable) methode.
  • Toegevoegde OutputDocument (Segment) constructeur.
  • Toegevoegd StreamedSourceCopy monster programma.

Wat is nieuw in versie 3.0:

  • Bug Fixes:
  • Karakterreferenties vertegenwoordigen unicode aanvullende tekens zijn niet correct gedecodeerd naar UTF-16 code eenheid paren.
  • [2188446] Element.getDepth () en Element.getParentElement () terug onjuiste resultaten als genoemd in parse on demand modus.
  • Reacties worden nu binnen & lt erkend; script & gt; elementen.
  • API wijzigingen die nog niet zijn backwards compatible:
  • Veranderd pakket naam aan net.htmlparser.jericho
  • Attribuutwaarden moet nu String in plaats van CharSequence.
  • Verwijderd alle verouderde methoden / klassen van vorige versies.
  • Alle vinden * methoden verouderd ten opzichte van krijgen * methoden met het oog op een consistente naamgeving van toepassing in alle tag zoekmethoden.
  • Tag, Element en HTMLElements klassen niet langer de uitvoering van de HTMLElementName interface. (Gebruik statische import plaats)
  • Alle collecties nu stongly getypt met behulp van generieke geneesmiddelen.
  • Veranderd FormControlOutputStyle klasse enum.
  • Veranderd FormControlType klasse enum.
  • Toegevoegde CharStreamSource.appendTo (appendable) methode.
  • methode Toegevoegd Source.iterator ().
  • Bron implementeert nu Iterable.
  • Intern gebruikt StringBuilder voor betere prestaties.
  • Toegevoegde Source.getNextStartTag (StartTagType) methode.
  • Toegevoegde Source.getNextEndTag (EndTagType) methode.
  • Toegevoegde Source.getPreviousStartTag (StartTagType) methode.
  • Toegevoegde Source.getPreviousEndTag (EndTagType) methode.
  • Toegevoegde Segment.getAllStartTags (StartTagType) methode.
  • Toegevoegd alle Segment.getFirst * methoden.
  • Toegevoegde Renderer.renderHyperlinkURL (StartTag) methode.
  • Toegevoegd HTMLSanitiser monster programma.
  • Upgrade naar SLF4J-api-1.5.6

Eisen

  • Java 2 Standard Edition Runtime Environment

Vergelijkbare software

Beautiful Soup
Beautiful Soup

14 Apr 15

RTextDoc
RTextDoc

17 Feb 15

Wiki2Beamer
Wiki2Beamer

11 May 15

Atomsphere
Atomsphere

14 Apr 15

Andere software van ontwikkelaar Martin Jericho

Reacties op Jericho HTML Parser

Reacties niet gevonden
Commentaar toe te voegen
Zet op de beelden!