Arch is een open source uitbreiding van Apache Nutch (een populaire, zeer schaalbare algemene zoekmachine) voor intranet zoeken. Niet tevreden met uw zakelijke zoekmachine? Niet verwonderlijk, heel weinig mensen zijn. Voor zover ons bekend, zijn er geen intranet motoren die evenals de Google's wereldwijde zoektocht Web werkt. Er is een fundamentele reden: de algoritmes van Google op de wereldwijde web (of soortgelijke) niet werken bijna even goed op intranetten voor het gebrek aan statistische gegevens. Arch (eindelijk!) Lost dit probleem op. Het maakt gebruik van een nieuwe methode om hoge precisie zoekresultaten die werkt geweldig te leveren. Geloof het niet? Blinde test evaluatie-instrumenten zijn opgenomen. U kunt Arch implementeren en zijn prestaties te vergelijken met uw huidige zoekmachine en / of Google (op het openbare gedeelte van uw site) met behulp van een blinde test methodologie.
In aanvulling op de uitstekende kwaliteit zoeken, Arch heeft vele functies van cruciaal belang voor zakelijke omgevingen:
- Document beveiliging. Gebruikers kunnen alleen documenten die ze mogen zien.
- Goedkoop index updates. Arch is in staat om indexen up-to-date te houden en te voorkomen dat regelmatige complete site opnieuw wordt gecrawld.
- 24/7 beschikbaarheid. Er is altijd een werkende index beschikbaar, zelfs als een crawl mislukt.- Ondersteuning voor gelijktijdige indexeren en doorzoeken van meerdere websites, met de mogelijkheid om te zoeken en afzonderlijk beheer van een site, indien nodig. Dynamisch toevoegen en verwijderen van websites is eenvoudig.
- Een automatisch gegenereerde website directory.
- Low cost steun eenmaal geactiveerd.
- Dual-interface (PHP en Java) voor eenvoudige implementatie en maatwerk.
- Facet zoeken "out of the box".
- Een uitgebreid en uitbreidbare set van parsers voor het ontleden van een verscheidenheid aan bestandsformaten: HTML, PHP, PDF, MS Office, Open Office, enz.
- Een modulair, plugin-gebaseerde architectuur die gemakkelijk kan worden aangepast en uitgebreid.
- De broncode is inbegrepen.
- Hoge prestaties en schaalbaarheid. Boog kan worden uitgevoerd op computer clusters te indexeren zeer grote datasets
Wat is nieuw in deze release:.
Versie 1.9.2: verbeterde document parsing, geport op Nutch 1.9 .
Wat is nieuw in versie 1.7:.
Extra beveiliging scannen, geport op Nutch 1,7
Eisen
Java 1.7, Cygwin
Reacties niet gevonden