WebGraph is een raamwerk voor het web grafiek bestuderen. WebGraph biedt eenvoudige manieren om zeer grote grafieken te beheren, exploiteren van moderne compressietechnieken. Meer bepaald wordt momenteel gemaakt van:
1. Een set van platte codes, de zogenaamde codes, die bijzonder geschikt zijn voor het opslaan van web grafieken zijn (of, in het algemeen, gehele getallen met power-law distributie in een bepaald exponent bereik). Het feit dat deze code goed gemakkelijk empirisch worden getest, maar we proberen ook een uitgebreide statistische analyse.
2. Algoritmes voor het comprimeren van web grafieken die kloof compressie en referentiation (la LINK) exploiteren, intervalisation en codes op een hoge compressieverhouding bieden: bijvoorbeeld, wordt de WebBase grafiek (2001 crawl) gecomprimeerd met 3,08 bits per koppeling, en een momentopname van ongeveer 18.500.000 pagina's van de .uk domein verzameld door UbiCrawler wordt gecomprimeerd op 2.22 bits per schakel (de overeenkomstige cijfers voor de omzetting van grafieken zijn 2,89 bits per verbinding en 1,98 bits per link). De algoritmes worden gecontroleerd door diverse parameters, die verschillende afwegingen tussen toegangssnelheid en compressieverhouding verschaffen.
3. Algoritmen voor toegang tot een gecomprimeerde grafiek zonder daadwerkelijk decomprimeren, met lui technieken dat de decompressie stellen tot het eigenlijk noodzakelijk.
4. Een complete, gedocumenteerde implementatie van de algoritmen boven op Java, in de verpakking it.unimi.dsi.webgraph. Naast een duidelijk gedefinieerde API, het pakket bevat een aantal klassen die het mogelijk maken aan te passen (bv omzetting) of comprimeren van een grafiek, dus om te experimenteren met verschillende instellingen. Het pakket is gebaseerd op fastutil voor een type-specifieke, high-performance collecties kader, op MG4J voor bit-level I / O, op de COLT distributie voor kant-en-klare, efficiënte algoritmen en op GNU getopt voor lijn-commando parsing.
5. Gegevens sets voor zeer grote grafiek (bijvoorbeeld een miljard van verwijzingen). Deze worden ofwel verzameld uit openbare bronnen (zoals WebBase), of geproduceerd door UbiCrawler.
Op het einde, met WebGraph u toegang tot en analyse van een zeer groot web grafiek, zelfs op een PC met zo weinig als 256 MB RAM-geheugen. Met behulp van WebGraph is net zo eenvoudig als het installeren van een paar jar bestanden en het downloaden van een dataset. Dit maakt het bestuderen van fenomenen zoals PageRank, de verdeling van de grafiek eigenschappen van het web grafiek, enz. Heel gemakkelijk
Wat is nieuw in deze release:.
- Deze versie voegt een aantal verbeteringen aan HyperANF, en enkele bugfixes.
- WebGraph is nu te vinden op Maven Centraal.
Wat is nieuw in versie 2.4.5:
- Deze versie bevat een implementatie van HyperANF, een nieuwe schaalbare algoritme voor het berekenen van de omgeving functie van een grafiek en methoden die de gemiddelde kortste pad en andere afgeleide gegevens uit de buurt functie berekenen.
- bovendien een schat aan statistische gegevens wordt nu berekend tijdens de compressie.
Wat is nieuw in versie 2.4.4:.
- een aantal oude opties zijn verwijderd
- Het pand bestanden bevatten nu een schat aan nuttige statistieken.
- heeft Random access snelheid is verbeterd.
Wat is nieuw in versie 2.4.3:
- Vaste ArrayListMutableGraph.addNodes () (met dank aan Erik Lumer voor het vinden en oplossen van deze bug).
- Nieuwe opties aan de uitgang van ASCII grafieken verschuiven.
- RemappedImmutableGraph.successorArray (x) is het verstrekken van dezelfde array bij elk gesprek, waardoor de erfelijke opvolgers (x) methode onbruikbaar te scannen parallel verschillende lijsten. Vaste (nu is het terug een kopie van de array, in plaats daarvan).
- Nieuwe willekeurige transformatie die willekeurig permutes een grafiek.
Wat is nieuw in versie 2.4.2:
- Een nieuwe & quot; componeren & quot; bouwen maakt het mogelijk om te componeren (arc-label) grafieken.
Reacties niet gevonden