Methabot

Software screenshot:
Methabot
Software informatie:
Versie: 1.6.0.1
Upload datum: 3 Jun 15
Ontwikkelaar: Emil Romanus
Licentie: Gratis
Populariteit: 9

Rating: nan/5 (Total Votes: 0)

Het Methabot software is een snelheid geoptimaliseerd, scripts en zeer configureerbare web, ftp en lokale bestandssysteem crawler. Het ondersteunt scripted filetype parsing, een breed scala van customization opties en is gemakkelijk geconfigureerd om anyones specifieke behoeften.
Met het gebruik van de module-systeem en scripttaal, kunnen gebruikers de volledige of gedeeltelijke controle over het crawlproces nemen en beslissen echter Methabot moeten web data, statistieken en nog veel meer op te slaan.
Gewoon door het uitvoeren Methabot vanaf de command line kunt u configureren aangepaste bestandstypen, filteren uitdrukkingen, gedrag, en nog veel meer, dus je hoeft niet naar een scripter zijn

Eigenschappen :

  • Het is snel, ontworpen vanaf de grond en met de snelheid-optimalisatie in het achterhoofd.
  • Scriptable door middel van Javascript met E4X
  • de gebruiker gedefinieerde filetype filtering (op basis van MIME-type, bestandsextensie of UMEX expressie)
  • Multi-threaded
  • Zeer configureerbaar vanaf de command line
  • Extensible module systeem, de ondersteuning op maat gegevens parsers en filters.
  • De eenvoudige maar krachtige filtering van URL's door middel van UMEX.
  • Geautomatiseerde downloaden
  • Ondersteuning voor Automatische cookie-verwerking bij het uitvoeren via HTTP
  • Betrouwbare, fouttolerante netwerken
  • Portable, met succes getest op 32-bit / 64-bit Linux 2.6, 32-bit / 64-bit FreeBSD 6.x / 7.0, Windows XP en Mac OS X. Zou moeten werken op vrijwel ieder Unix-achtige OS.

Wat is nieuw in deze release:

  • Bugfix, wanneer de externe-peek werd gebruikt de diepte limiet was verknald.

  • Gebruik
  • Geheugen opschonen fixes
  • dynamische-url optie is niet meer ingesteld op opzoeken standaard, omdat het vertraagt ​​de aanzienlijk kruipen
  • Build-systeem maakt nu en installeert sommige header-bestanden die modules kan gebruiken bij het koppelen
  • metha-config hulpmiddel toegevoegd
  • lmm_mysql verhuisde buiten dit pakket

Wat is nieuw in versie 1.5.0:

  • Wijzigingen en nieuwe functies:
  • Ondersteuning voor het lezen van intial buffer van stdin
  • - type en --base-url command line opties toegevoegd, samen met de initial_filetype optie in configuratiebestanden
  • Cookies en DNS-informatie is nu goed gedeeld tussen werknemers bij het uitvoeren van multithreaded
  • Toegevoegd aantal voorbeeld gebruik commando's om --examples
  • Grote verbeteringen aan de inter-thread communicatie, nu sneller en meer georganiseerd
  • Ondersteuning voor functies 'init' aan scripts. Lees meer over init functies op http://bithack.se/projects/methabot/docs/e4x/init_functions.html
  • libmetha niet bevriest bij het doen van meerdere gelijktijdige HTTP HEAD verzoeken meer. De reden voor het bevriest een bug in libcurl die nu is bevestigd. Sommige oplossingen werden toegevoegd aan libmetha te voorkomen dat het bevriest van optredende bij gebruik van het defect libcurl versies gemaakt.
  • Ondersteuning voor oudere libcurl versies 7.17.x en 7.16.x
  • Nieuwe informatie is beschikbaar in de & quot; dit & quot; doel van javascript parsers, content-type en de overdracht de status code. Lees meer op http://bithack.se/projects/methabot/docs/e4x/this.html
  • - verbose optie vervangen --silent, omdat verbose mode nu standaard
  • De aanvankelijke steun voor FTP kruipende en de optie ftp_dir_url crawler
  • Diepte beperken is nu crawler-specifieke
  • Toegevoegd de command line opties --crawler en --filetype
  • Ondersteuning voor de uitbreiding en dwingende reeds gedefinieerde crawlers en bestandstypes
  • Ondersteuning voor de kopie zoekwoord in configuratiebestanden
  • Ondersteuning voor het dynamisch schakelen van de actieve crawler, dit laat je kruipen verschillende websites in totaal verschillende manieren in een kruipen sessie. Lees meer over crawler schakelen op http://bithack.se/projects/methabot/docs/crawler_switching.html
  • libev versie upgraden naar 3.51
  • De onder richtlijn configuratiebestanden maakt het nu zeker van de meegeleverde configuratie bestand niet al is geladen, om te voorkomen dat onder-loops en meerdere filetype / crawler definities.
  • Diverse SpiderMonkey garbage collection fixes, libmetha niet meer crasht bij het opruimen na een multithreaded sessie
  • Toegevoegd wat extra informatie aan de --info optie
  • De 'externe' optie is nu opgelost en weer ingeschakeld
  • Nieuwe optie --spread-werknemers
  • Nieuwe libmetha API-functie lmetha_global_setopt () maakt het veranderen van de globale fout / bericht / warning reporter
  • Toegevoegd initiële implementatie van een test suite voor ontwikkelaars
  • Beter fout melden bij het laden van configuratiebestanden
  • Bugfix wanneer een HTTP-server niet een Content-Type header terug te keren na een HEAD-verzoek
  • Bugfix bij het sorteren URLs na meerdere HTTP HEAD verzoeken
  • Bugfix in de html naar xml converter wanneer de HTML-pagina niet over een & lt; html & gt; tag
  • Bugfix, de optie extless-url niet werken
  • Bugfix, html naar xml converter niet meer verslikt byte-order merken of andere tekst voor de eigenlijke HTML
  • Bugfix, verhinderd libmetha van probeert u toegang tot URL's van protocollen die niet worden ondersteund
  • Bugfix bij het afsluiten na een fout.
  • Bugfix, onoplosbare URLs niet breken de retry lus na drie pogingen
  • Zeer experimenteel en onstabiele ondersteuning voor Win32, vooral bedoeld voor ontwikkelaars
  • Nieuwe configuratiebestanden:
  • google.conf, uit te voeren google zoekopdrachten
  • youtube.conf, youtube zoeken
  • meta.conf, prints meta-informatie zoals trefwoorden en beschrijving van HTML-pagina's
  • title.conf, drukt de titel van de HTML-pagina's
  • ftp.conf, voor het crawlen FTP-servers

Wat is nieuw in versie 1.4.1:

  • Configure kon het niet vinden jsapi.h op sommige systemen Dit moet nu worden vastgesteld.
  • Configuratie bestanden zijn nu in staat om crawler en bestandstype vlaggen aan te passen, voegde de opties 'externe' en 'external_peek'
  • Bugfix, Methabot zou soms crashen bij het opruimen van lege URL na meerdere HTTP HEAD
  • Fixed a crash die plaatsvond toen synchroon lopen.
  • Build systeem onder fix wanneer jsconfig.h niet kon worden gevonden.

Eisen

  • SpiderMonkey headers
  • cURL

Vergelijkbare software

edtFTPnet/Free
edtFTPnet/Free

11 May 15

GSL shell
GSL shell

20 Feb 15

posh
posh

3 Jun 15

Mosh
Mosh

17 Feb 15

Reacties op Methabot

Reacties niet gevonden
Commentaar toe te voegen
Zet op de beelden!