Mooie Soep project is een Python HTML / XML-parser ontworpen voor snelle turnaround projecten zoals screen-scraping. Drie functies maken het krachtiger:
Mooie Soep zal niet stikken als je het slechte opmaak. Het levert een parse boom die ongeveer net zoveel zin heeft als uw originele document. Dit is meestal goed genoeg om de gegevens die u nodig hebt te verzamelen en weg te lopen.
Mooie Soep biedt een aantal eenvoudige methodes en Pythonic idioom voor het navigeren, zoeken, en het wijzigen van een parse boom: een toolkit voor het ontleden van een document en het extraheren van wat je nodig hebt. Je hoeft niet om een aangepaste parser voor elke toepassing te creëren.
Mooie Soep converteert automatisch inkomende documenten naar Unicode en uitgaande documenten naar UTF-8. Je hoeft niet na te denken over coderingen, tenzij het document niet een codering opgeeft en Mooie Soep kan niet detecteren één. Dan hoef je alleen maar naar de originele codering opgeeft.
Mooie Soep ontleedt alles wat je geven, en doet de boom traversal spullen voor je. Je kan zien dat het "Vind alle schakels", of "Vind alle schakels van de klasse externalLink", of "Vind alle schakels waarvan urls overeen" foo.com ", of" Zoek de tafel rubriek die heeft vetgedrukte tekst, dan geven me dat de tekst. "
Waardevolle gegevens die ooit opgesloten zat in slecht ontworpen websites is nu binnen uw bereik. . Projecten die zou hebben genomen uren duren slechts enkele minuten met Mooie Soep
Eisen
- Python
Reacties niet gevonden