Apache Nutch

Software screenshot:
Apache Nutch
Software informatie:
Versie: 2.3
Upload datum: 1 Mar 15
Licentie: Gratis
Populariteit: 36

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch werd gebouwd op de top van de Apache Lucene , een krachtige Java zoekmachine.
Nutch ontwikkelaars wijzigde de Lucene codebase, het transformeren van de data-agnostische Lucene codebase in een project dat zich toelegt voor het zoeken van gegevens op het web in het bijzonder.
Deze technologie kan worden gebruikt om te zoeken op uw eigen webpagina's als een ingebouwde zoekfunctie server, of kruipen het web op zoek naar gegevens te ontleden en te schrapen in uw database.
Nutch kan draaien op een enkele machine, maar werkt beter in Hadoop clusters.
Verschillende plugins zijn beschikbaar voor de uitbreiding van zijn gebruik van het spectrum

Wat is nieuw in deze release:.

  • Zorg ervoor duplicaat-tags niet bestaan in microformat-reltag tag set.
  • Een betere terugvallen waarde voor datum veld.
  • Te ontdoen van de gevreesde.
  • Upgrade naar Hadoop 1.2.0.
  • Upgrade naar Tika 1.3.

Wat is nieuw in versie 2.0:.

  • Hernoemd HTMLParseFilter in ParseFilter
  • Verwijder resterende robots / IP blokkeren code in lib-http.
  • Port logging om SLF4J.
  • Externe parser ondersteunt encoding attribuut.
  • Ivy configuratie-instellingen omvatten niet Gora.
  • Injector moet de metadata toe te voegen voordat u belt injectedScore.
  • Port Nutch benchmark Nutchbase.
  • Voeg parse-html terug.
  • MoreIndexingFilter ontbrekende datumnotatie.
  • Time-out voor de parser.
  • Interval tussen pogingen in crawl datum is ingesteld op 0.
  • Genereer log output voor solr indexer en dedup.
  • Verbeterde NutchConfiguration.
  • SolrDeleteDuplicates nodig heeft om de SolrRecord objecten te klonen.
  • Native Hadoop libs niet beschikbaar via Maven.
  • Scheid de opbouw en runtime-omgevingen.

Wat is nieuw in versie 1.5:

  • Deze release bevat een aantal verbeteringen waaronder upgrades van een aantal belangrijke componenten, waaronder tika 1.1 en Hadoop 1.0.0, verbeteringen aan LinkRank en WebGraph elementen, evenals een aantal nieuwe plugins die op de zwarte lijst, filtering en het ontleden van een paar te noemen.

Wat is nieuw in versie 1.4:.

  • Toegevoegde Solr 4x (stam) voorbeeld schema
  • Toegevoegd '/ runtime' SVN negeren.
  • Applicatie / xhtml + xml moet worden ingeschakeld in plugin.xml van parse-html; kunnen meerdere mimetypes voor plugin.xml.
  • Vaste parse-tika en ontleden-html naar relatieve URL resolutie per RFC-3986 te gebruiken.
  • Upgrade naar Tika 0,10. OPMERKING:. Tika's nieuwe RTF-parser kan meer tekst in misvormde documenten dan eerder negeren - zie TIKA-748 voor meer informatie
  • Toegevoegd Sonar doelstellingen om Ant build.xml.
  • Verbeterde SolrJ naar versie 3.4.0.
  • Ant pmd doel is gebroken.
  • Upgraded Solr schema naar versie 1.4.

Wat is nieuw in versie 1.3:

  • Deze release bevat een aantal verbeteringen (verbeterde RSS parsen ondersteuning, strakker integratie met Apache Tika, externe parsing ondersteuning, verbeterde taal identificatie en een orde van grootte kleiner source versie tarball -!. slechts ongeveer 2MB)

Wat is nieuw in versie 1.2:.

  • Maak index-meer plug-in configureerbare
  • Configureerbare file protocol ouderfolder kruipen.
  • Time-out voor de parser.
  • De website is nog Lucene gebrandmerkt.
  • Interval tussen pogingen in crawl datum is ingesteld op 0.

Wat is nieuw in versie 1.0:.

  • Laat parsers om meerdere Parse objecten terug
  • Removed redundante commons-logging jar van ontologie plugin.
  • Bug in SegmentReader veroorzaakt oneindige lus.
  • Scoren filter moet score distribueren naar alle outlinks tegelijk.
  • Verminder het aantal waarschuwingen in nutch kern.

Vergelijkbare software

Elastica
Elastica

6 Mar 16

Searchkick
Searchkick

10 Feb 16

Apache Blur
Apache Blur

13 Apr 15

Fuzzysearch
Fuzzysearch

12 Apr 15

Andere software van ontwikkelaar Apache Software Foundation

Apache JDO
Apache JDO

11 Apr 15

Apache Helix
Apache Helix

13 Apr 15

Apache Sentry
Apache Sentry

1 Oct 15

Reacties op Apache Nutch

Reacties niet gevonden
Commentaar toe te voegen
Zet op de beelden!
Zoek op categorie