ASPseek is een zoekmachine op internet software ontwikkeld door SWsoft en gelicentieerd als vrije software onder de GNU GPL.
ASPseek bestaat uit een indexering robot, een zoektocht daemon, en een CGI zoeken frontend. Het kan indexeren zo veel als een paar miljoen URL's en zoeken naar woorden en zinnen, gebruik van wildcards, en doe een Booleaanse zoekopdracht. Zoekresultaten kunnen worden beperkt tot tijd gegeven site of webruimte (set van websites) en gesorteerd op relevantie (PageRank wordt gebruikt) of datum.
ASPseek is geoptimaliseerd voor meerdere sites (schroefdraad index, asynchrone DNS lookups, groeperen resultaten door de site, Web spaties), maar kan worden gebruikt voor het zoeken van een site als goed. ASPseek kan werken met meerdere talen / coderingen tegelijk (inclusief multibyte coderingen zoals Chinees) als gevolg van Unicode-opslag mode. Andere functies zijn onder meer stopwoorden en ispell-ondersteuning, een karakterset en taal rader, HTML templates voor zoekresultaten, fragmenten en zoekwoorden te markeren.
ASPseek is geschreven in C ++ met de STL bibliotheek en gebruikt combinatie van SQL-database en binaire bestanden voor opslag.
Hier zijn een aantal belangrijke eigenschappen van "ASPseek":
Mogelijkheid om te indexeren en zoeken via verschillende miljoenen documenten
· Met behulp van ASPseek, kunt u een database op te bouwen en te zoeken door middel van veel sites, en de resultaten voor elke zoekopdracht snel zal worden teruggegeven, zelfs als je een paar miljoenen documenten geïndexeerd. Natuurlijk, dit is afhankelijk van de hardware, dus verwacht niet dat "good old" i486 machine op elke site in het .com domein behandelen. Alles hangt af van de CPU (s), geheugen, schijf snelheid etc. Dus uw eigen testen voordat je koopt dedicated hardware.
· Het feit dat ASPseek is geoptimaliseerd voor hoge volumes moet je niet stoppen met het gebruik het om uw eigen site die enkele honderden documenten bevat te zoeken - het werkt daar ook.
Zeer goede relevantie van de resultaten
· Het doel van de zoekmachine is te vinden wat de gebruiker wil. Er kunnen duizenden URLs aangetroffen als gevolg van de zoekopdracht, maar kunnen allemaal irrelevant, zodat gebruiker ontevreden.
· Uitvoer resultaten in ASPseek zijn gesorteerd op relevantie (of rang), maar rang berekening is geen gemakkelijke taak. Ontwikkelaars deden hun best om de grootste en nieuwste technieken op te nemen in ASPseek motor met behoud van goede zoeksnelheid.
Ispell ondersteuning
· Wanneer ASPseek wordt gebruikt met ispell steun, searchd (1) kan optioneel vinden alle vormen voor alle opgegeven woorden (bijvoorbeeld: maak -> maken of gemaakt of maakt). Dus, het stelt u in staat om het woord in alle verschillende vormen te vinden.
Unicode-opslag modus
· ASPseek u informatie over documenten in Unicode te slaan, waardoor het mogelijk om de uitvoering van een meertalige zoekmachine. Dus, kunt u indexeren en doorzoeken van de documenten in het Engels, Russisch en zelfs Chinees, alles in een database.
HTTP, HTTPS, HTTP-proxy, FTP (via proxy) protocollen
· Als ASPseek is een Web search engine, gebruikt het HTTP-protocol te indexeren sites. ASPseek ondersteunt ook beveiligde https: // protocol. FTP-protocol wordt niet direct ondersteund, maar u kunt proxy (zoals inktvis) en de index FTP-sites te gebruiken via proxy.
· ASPseek ondersteunt "basic toestemming" eigenschap van HTTP, zodat u kan indexeren wachtwoord beschermde gebieden (bijvoorbeeld privé-informatie in uw intranet).
Text / html en text / plain documenttypen ondersteuning
· ASPseek kunt documenten geschreven in HTML en platte tekst documenten te begrijpen. Dit zijn de meest populaire formaten in Internet.
· Overige formaten, zoals PDF, RTF, etc, kunnen worden ondersteund met de hulp van een extern programma / script dat in staat is om te zetten die formaten naar HTML of platte tekst.
Multithreaded ontwerp, asynchrone DNS resolver etc
· ASPseek gebruikt POSIX threads, dat betekent dat één proces hebben veel threads parallel lopen. Dus index downloads documenten uit vele plaatsen en zoeken daemon processen vele zoekopdrachten tegelijk. Dit helpt niet alleen ASPseek goed schalen op SMP (multiprocessor) systemen, maar verbetert ook het indexeren snelheid, want in het geval van een thread de meeste tijd wordt besteed aan het wachten op gegevens uit het netwerk.
· Een ding dat langzaam indexeren proces in een veel is DNS-lookup (een proces van het vaststellen van IP-adres met de naam server). Om vertraging te voorkomen, worden asynchrone lookups (lookup wordt gedaan door een aparte dedicated processen) en het IP-adres cache geïmplementeerd.
Stopwoorden
· Stopwoorden zijn woorden die geen betekenis hebben door zelf. Voorbeelden: is, zijn bij deze. Zoeken naar op is nutteloos, dus zulke woorden zijn uitgesloten van zoekopdracht. Stopwoorden zijn eveneens uitgesloten uit de database tijdens het indexeren, zodat de database kleiner en sneller.
· Er is geen "ingebouwd" stopwoorden in ASPseek, worden zij bij het opstarten uit bestanden geladen. Veel stopwoord bestanden voor verschillende talen geleverd met ASPseek.
Charset guesse
· Sommige gebroken of onjuist geconfigureerde servers niet clients vertellen de karakterset waarin ze bieden content. Als u het indexeren van dergelijke servers, of het gebruik van ASPseek indexeren ftp servers (FTP-protocol weet niets over charsets), kunnen charset rader worden gebruikt om te gaan met het. Charset rader gebruikt woord frequentie tabellen (de zogenaamde langmaps) om de juiste charset bepalen.
Robot uitsluiting standaard (robots.txt) ondersteuning
· ASPseek steunt deze standaard volledig. Het is bedoeld voor de website auteurs voor het vertellen van de robot (bijvoorbeeld ASPseek de index (1)) om naar het indexeren van sommige mappen van hun sites.
· Voor meer informatie zie http://www.robotstxt.org/wc/robots.html
Instellingen om het netwerk bandbreedtegebruik en webservers load controle
· U kunt netwerkbandbreedte precies besturen die index (1) gebruikt. Precies, kunt u de bandbreedte (uitgedrukt in bytes per seconde) wordt gebruikt door index (1) voor bepaalde tijd van de dag te beperken. Bijvoorbeeld, kunt u de bandbreedte tijdens de kantooruren te beperken, zodat de mensen op kantoor trage internetverbinding niet zullen ervaren.
· U kunt ook de minimale tijd tussen twee queries naar dezelfde webserver, dus het zal niet worden overbelast en kreeg tot zijn knieën, terwijl je index draaien (1).
Real-time asynchrone indexeren
· Sommige zoekmachines vereist dat het zoeken moet worden gestopt voor de tijd van de database update. ASPseek heeft het niet nodig, zodat u non-stop kunt zoeken.
· Meer wil zeggen er is een speciale modus indexeren genaamd "real-time" indexeren. Je kunt het gebruiken voor kleine aantal documenten, en voor zover dat document wordt gedownload en verwerkt, veranderingen zijn direct zichtbaar in de zoekinterface. Deze functie is een grote hulp als je bouwt zoekmachine voor pagina's met snel veranderende inhoud zoals online nieuws etc.
· Merk op dat aantal documenten in "real-time" database is beperkt. Het gaat over 1000 op onze hardware (uw snelheid kan variëren), en de meer documenten die u in "real-time" databank, de langzamer snelheid van indexering in die (en alleen dat) database. Dit heeft geen invloed zoeksnelheid wel.
· Documenten van 'real-time' database verplaatst naar normale databank na het uitvoeren index (1) op een normale manier.
Sorteren resultaten op relevantie of op datum
· Zoekmachines meestal terug meest relevante resultaten eerst. Maar als je op zoek bent naar de nieuwste pagina's kunt u ASPseek vertellen om de resultaten te sorteren op de laatste wijziging datum, zo kort geleden gewijzigd (of gemaakt) pagina's zullen eerst worden getoond.
Fragmenten, zoekwoorden markeren
· Uittreksel is een stukje van gevonden document met woorden gezocht gemarkeerd, alleen maar om een idee van wat het document over te geven. U kunt het aantal fragmenten weergeven en de lengte ervan aan te passen. Als u fragmenten zullen uitschakelen, zal het begin van het document worden weergegeven.
· Iedere gevonden document wordt begeleid met de link 'In cache'. ASPseek houdt een lokale gecomprimeerde kopie van elk document verwerkt, zodat de gebruiker het hele document met een (optioneel) kunt zien gemarkeerde woorden die werden gezocht, zelfs als deze is verwijderd van de oorspronkelijke locatie (dat soms gebeurt).
Groeperen van de resultaten door de site
· Resultaten van de ene site kunnen worden gegroepeerd. Als groepering van sites is op, zijn slechts twee resultaten weergegeven van dezelfde site standaard, en de gebruiker kan andere pagina's van dezelfde site te zien door het volgen van een "Meer resultaten van ..." link.
Klonen
· Klonen identiek documenten op verschillende locaties. Ze worden opgespoord en gegroepeerd, zodat de gebruiker niet zal worden gepresenteerd met een pagina vol met URL's naar de identieke documenten.
· Clone detectie wordt meestal beperkt door een site (zodat identieke documenten uit verschillende sites worden niet meegeteld als klonen), maar u kunt dit veranderen door hercompileren ASPseek met --disable-klonen-by-terrein optie.
Spaces en subsets
· Ruimte is de verzameling van sites. Dus, als je wilt om de zoektocht versmald om wat ruimte te bieden, kunt u een ruimte te creëren en zoeken binnen die ruimte. Slechts gehele sites (bijv http://www.mysite.com/) mogen worden opgenomen in de ruimte.
· Subsets kunnen ook worden gebruikt om het zoeken te beperken. U kunt deelverzameling maken en zet URL masker (zoals http://www.mysite.com/mydir/%) in die, en dan beperken zoekbereik om alleen bepaalde subgroep.
· U kunt zoekbereik beperken tot niet slechts één maar meerdere subsets of spaties.
HTML-sjablonen voor easy-to-past zoekresultaten
· U kunt uw zoekopdracht pagina's aan te passen, zodat ze eruit zal zien en worden naadloos geïntegreerd met de rest van uw site. Dit wordt gedaan door eenvoudige bewerkingen van search template bestand.
Installatie
gzip -dc aspseek-1.2.10.tar.gz | tar xf -
cd aspseek-1.2.10. / configureren
maken
su
make install
Software informatie:
Versie: 1.2.10
Upload datum: 3 Jun 15
Licentie: Gratis
Populariteit: 83
Reacties niet gevonden