Webanalízis, avagy melyik a legértékésebb csúcs egy gráfban?

Hasonló dokumentumok
Hogy keres a Google?

Markov-láncok stacionárius eloszlása

Társadalmi és gazdasági hálózatok modellezése

PageRank algoritmus Hubs and Authorities. Adatbányászat. Webbányászat PageRank, Hubs and Authorities. Szegedi Tudományegyetem.

Gauss-Seidel iteráció

Multimédiás és webes adatbányászat KISS LÁSZLÓ

INTERNETES KERESÉS. Szórád László Óbudai Egyetem TMPK

Hidden Markov Model. March 12, 2013

(Diszkrét idejű Markov-láncok állapotainak

Legyen adott egy S diszkrét halmaz. Leggyakrabban S az egész számoknak egy halmaza, például S = {0, 1, 2,..., N}, {0, 1, 2,... }.

Algoritmuselmélet. Gráfok megadása, szélességi bejárás, összefüggőség, párosítás. Katona Gyula Y.

Tartalom. Google szolgáltatásai. Googol Google. Története. Hogyan működik? Titka

Gráfalgoritmusok ismétlés ősz

Gráfelméleti feladatok. c f

A sorozat fogalma. függvényeket sorozatoknak nevezzük. Amennyiben az értékkészlet. az értékkészlet a komplex számok halmaza, akkor komplex

12. előadás - Markov-láncok I.

22. GRÁFOK ÁBRÁZOLÁSA

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Hadamard-mátrixok Előadó: Hajnal Péter február 23.

6. gyakorlat. Gelle Kitti. Csendes Tibor Somogyi Viktor. London András. jegyzetei alapján

.Kapcsolatok. Már egy jó ideje motorkerékpárt szeretnék vásárolni, Miel tt döntésképtelenségem miatt kétségbe esnék, mint információforrások

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

ECDL Információ és kommunikáció

TOP SEO Trendek 2015-ben. We understand, we deliver.

Algoritmuselmélet 18. előadás

Diszkrét matematika 2. estis képzés

Diszkrét matematika 2.C szakirány

Diszkrét matematika 2.C szakirány

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Diszkrét matematika 2. estis képzés

Centrális határeloszlás-tétel

Internet és világháló

Diszkrét matematika 2.C szakirány

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Algoritmusok bonyolultsága

0,424 0,576. f) P (X 2 = 3) g) P (X 3 = 1) h) P (X 4 = 1 vagy 2 X 2 = 2) i) P (X 7 = 3, X 4 = 1, X 2 = 2 X 0 = 2) j) P (X 7 = 3, X 4 = 1, X 2 = 2)

Matematika szigorlat június 17. Neptun kód:

Véletlenszám generátorok és tesztelésük. Tossenberger Tamás

Diszkrét matematika 2.C szakirány

Teljesen elosztott adatbányászat alprojekt

WEB 2.0 tipikus szolgáltatások

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

SzA II. gyakorlat, szeptember 18.

A számítástechnika gyakorlata WIN 2000 I. Szerver, ügyfél Protokoll NT domain, Peer to Peer Internet o WWW oftp opop3, SMTP. Webmail (levelező)

ismertetem, hogy milyen probléma vizsgálatában jelent meg ez az eredmény. A kérdés a következő: Mikor mondhatjuk azt, hogy bizonyos események közül

A következő feladat célja az, hogy egyszerű módon konstruáljunk Poisson folyamatokat.

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

Utikalauz a keresőmarketing állandóan változó világához

Analízis I. beugró vizsgakérdések

Gráfok 2. Legrövidebb utak, feszítőfák. Szoftvertervezés és -fejlesztés II. előadás. Szénási Sándor

Diszkrét matematika 2. estis képzés

Webes keres rendszerek. Webtechnológiák. Webes keres rendszerek. Webes keres rendszerek. Répási Tibor egyetemi tanársegéd

HAMILTON ÚT: minden csúcson PONTOSAN egyszer áthaladó út

Teszt generálás webes alkalmazásokhoz

SZABADSZAVAS KERESŐK RANGSOROLÁSA

Matematikai geodéziai számítások 6.

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Közösség detektálás gráfokban

HAMILTON KÖR: minden csúcson PONTOSAN egyszer áthaladó kör. Forrás: (

Internetes keresés. Dr. Nyéki Lajos 2019

Algoritmuselmélet. Mélységi keresés és alkalmazásai. Katona Gyula Y.

Diszkrét matematika 2. estis képzés

Statisztikai alap (2009) - main

Diszkrét matematika 2.C szakirány

Használati útmutató Az online példatárhoz

A matematikai feladatok és megoldások konvenciói

A 2015/2016. tanévi Országos Középiskolai Tanulmányi Verseny döntő forduló MATEMATIKA III. KATEGÓRIA (a speciális tanterv szerint haladó gimnazisták)

Minden x > 0 és y 0 valós számpárhoz létezik olyan n természetes szám, hogy y nx.

Matematikai geodéziai számítások 6.

minden x D esetén, akkor x 0 -at a függvény maximumhelyének mondjuk, f(x 0 )-at pedig az (abszolút) maximumértékének.

előadás Diszkrét idejű tömegkiszolgálási modellek Poisson-folyamat Folytonos idejű Markov-láncok Folytonos idejű sorbanállás

Algoritmuselmélet. Legrövidebb utak, Bellmann-Ford, Dijkstra. Katona Gyula Y.

Az információs műveltség fejlesztése A könyvtárak szemléletváltása és feladatai a 21. században

Analízis I. Vizsgatételsor

Adja meg, hogy ebben az esetben mely handshake üzenetek kerülnek átvitelre, és vázlatosan adja meg azok tartalmát! (8p)

RSA algoritmus. P(M) = M e mod n. S(C) = C d mod n. A helyesség igazoláshoz szükséges számelméleti háttér. a φ(n) = 1 mod n, a (a 1,a 2,...

Diszkrét matematika I., 12. előadás Dr. Takách Géza NyME FMK Informatikai Intézet takach november 30.

Összefoglalás és gyakorlás

Az egyenes egyenlete: 2 pont. Az összevont alak: 1 pont. Melyik ábrán látható e függvény grafikonjának egy részlete?

Nemzeti Fejlesztési és Gazdasági Minisztérium támogatásával megvalósuló KKC-2008-V számú projekt B2CR ONLINE KOMMUNIKÁCIÓ

Numerikus módszerek I. zárthelyi dolgozat (2017/18. I., A. csoport) Megoldások

Sorozatok, sorok, függvények határértéke és folytonossága Leindler Schipp - Analízis I. könyve + jegyzetek, kidolgozások alapján

Statisztikai alap (2008) - main

6. Előadás. Megyesi László: Lineáris algebra, oldal. 6. előadás Bázis, dimenzió

end function Az A vektorban elõforduló legnagyobb és legkisebb értékek indexeinek különbségét.. (1.5 pont) Ha üres a vektor, akkor 0-t..

Konjugált gradiens módszer

MATEMATIKA ÉRETTSÉGI február 21. KÖZÉPSZINT I.

I. VEKTOROK, MÁTRIXOK

Gépi tanulás a gyakorlatban. Lineáris regresszió

Véletlen gráfok, hálózatok

Determinánsok. A determináns fogalma olyan algebrai segédeszköz, amellyel. szolgáltat az előbbi kérdésekre, bár ez nem mindig hatékony.

összeadjuk 0-t kapunk. Képletben:

Vektorok, mátrixok, lineáris egyenletrendszerek

Adatkeresés az interneten. Cicer Norbert 12/K.

Valószínűségi modellellenőrzés Markov döntési folyamatokkal

ACTA ACADEMIAE PAEDAGOGICAE AGRIENSIS

WEBOPAC felhasználói leírás. 1. Keresés az adatbázisban. 2. A találatok megjelenítése

Fraktálok. Kontrakciók Affin leképezések. Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék. TARTALOMJEGYZÉK Kontrakciók Affin transzformációk

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2007/2008

Átírás:

Webanalízis, avagy melyik a legértékésebb csúcs egy gráfban? Mátyás Péter 2011. május 16. 1. Bevezetés A World Wide Web megszületése óta eltelt 20 év alatt az Internet az emberek mindennapjainak részévé vált. A kezdetben csak pár oldalból álló hálózat 2009. márciusában már több mint 25 milliárd [1], napjainkban pedig 35 milliárd [2] egymással hiperhivatkozásokon keresztül összekötött oldalt tartalmaz a legváltozatosabb témákról szolgáltatva információt. Manapság egy átlagos felhasználó az Internet elé ülve a rutinszerű tevékenységei (mint például a postafiók és pár gyakran látogatott oldal meglátogatasa) után vagy véletlenszerűen böngészi tovább a világhalót, vagy célirányosan próbál olyan oldalakat meglátogatni, ahol számára releváns információk lehetnek. Tekintettel a World Wide Web nagyságára, a hasznosnak bizonyuló oldalak megtalálása csupán bolyongással nem célravezető. A probléma megoldására hozták létre a keresőket. A felhasználók megadnak a keresőnek egy kérést, ami tipikusan kulcsszavak listájából áll, amire válaszként weboldalak listáját kapják. Általában ezek az oldalak tartalmazzák a keresőkifejezéseket is, de csupán ennyi nem elegendő, hiszen sok ezer, de akár millió oldal is tartalmazhatja ezen kifejezéseket. Ezért fontos, hogy a találati listát valamilyen módon relevancia szerint rangsoroljuk, hiszen a legtöbb felhasználó csak a tlista első oldalán annak is az elején felsorolt oldalakat tekinti meg. A 90-es évek vége felé használatos 4 legelterjedtebb keresőből még csak 1 találta meg saját magát, azaz csak 1-1

nek sikerült a saját találati listáján a top 10-be kerülnie [5], a mai rangsoroló algoritmusoknál ilyen probléma már nem lép fel. Dolgozatom célja röviden felvázolni, hogyan is néz ki egy keresőrendszer, majd pedig bemutatni egy, a web gráfszerkezetén alapuló rangsoroló algoritmust. 2. Webes keresőrendszerek A következőkben tekintsük át egy keresőrendszer általános felépítését [3], melyek a az 1. ábrán látható módon épülnek fel. Legfontosabb részei a weboldalak letöltését végző robot és az őt szabályozó robotvezérlő, a begyűjtött dokumentumokat tároló dokumentumtár, a kulcsszavas keresés alapját szolgáló indexelő modul, az analizáló modul és a rangsorolás. Dokumentumtár Felhasználó Kérések Válaszok Robot(ok) Web Indexelő modul Analizáló modul Lekérdező motor Rangsorolás Robotvezérlő Indexek: Szöveg Hasznosság Linkstruktúra 1. ábra. Egy keresőrendszer általános felépítése A robotok olyan programok, amelyek egy sok hivatkozást tartalmazó oldalról kiindulva böngészik a webet, a meglátogatott oldalakat letöltik és a dokumentumtárban tárolják el. Mivel a meglátogatandó weboldalak száma nagyon nagy, ezért belátható időn belül nem lehet minden oldalt letölteni, nem is beszélve a szükséges tárolókapacitásról. Ezért egy URL-eket tartalmazó listából indul ki. Meglátogatja a listán elsőnek szereplő oldalt, kigyűjti belőle a linkeket, majd 2

átadja a robotvezérlő modulnak. Ez a modul dönti el, hogy mely oldalakat kell a későbbiekben letölteni illetve melyek azok, amelyek lényegtelenek, esetleg már szerepeltek a letöltött oldalak listáján. Ahhoz, hogy a robotvezérlők eldönthessék, mely oldalakat érdemes letölteni, az oldalakhoz különböző fontossági mérőszámokat rendelnek [3]. A dokumentumtárban történik meg az adatok előfeldolgozása a keresőrendszer többi része számára. Ha egy oldal megváltozik, akkor az adatbázisból törölni kell a régi példányát és helyettesíteni kell azt az újjal. Megállapították, hogy az oldalaknak 40 százaléka hetente változik, sőt a.com domain-űeknek csaknem ötöde napi szinten frissül [9]. Ezért a robotoknak óvatosan kell dönteniük az újra meglátogatandó helyeket illetően, hiszen ettől függ majd, mennyire naprakész a gyűjteményünk. Az indexelő modul kigyűjti az összes előforduló szót az adatbázisban szereplő oldalakról és elkésziti au őket tartalmazó URL-ek listáját (kivételek a tiltólistás szavak, pl.: névelők). Amikor rákeresünk egy szóra, akkor a szöveg index jelöli ki azokat az oldalakat, amelyek a végső találati listába kerülhetnek. Többszavas keresés esetén a találathalmazok metszete lesz a lehetséges oldalak listája. A lekérdező motor felelős a felhasználóktól érkező kérések kezeléséért. Az első keresők csupán az oldalakon található szöveges információt használták fel a rangsoroláshoz. A kiinduló ötlet az volt, hogy az az oldal kerüljön előkelőbb helyre a listán, melyben a keresett szó többször szerepel [12]. Ezt a rangsorolást érdemes kombinálni a webgráf linkstruktúráján alapú további algoritmusokkal.a legjobb minőségű rangsoroló eljárások a szöveg és a hivatkozások igen nagy számú tényezőit veszik figyelembe, amelyeket gyakran a gépi tanulás eszközeivel kombinálnak [6]. 3. A PageRank algoritmus A gráf alapú rangsorolás a weboldalak közti linkeken alapul. Feltételezi, hogy egy oldal akkor tartalmaz hiperhivatkozást egy másikra, ha azt a hivatkozás elhelyezője jónak tartja. Magyarul az ott található információ hasznosnak bizonyul számára. Bár az ilyen véleménnyilvánítás eléggé szubjektív, és előfordulhat, hogy a belinkelt oldal nem is annyira hasznos [7], illetve vannak nem linkelt, de sokkal 3

hasznosabb helyek is weben, ennek ellenére a hiperlinkek nagyon jó alapot szolgálnak a rangsoroláshoz. Főleg, ha abba is belegondolunk, hogy az imént említett szubjektivitás okozta eltérések nagy számú oldalnál illetve hivatkozásnál kiátlagolódnak. A World Wide Web egy olyan óriási gráf, ahol az előzőek nyilván teljesülnek. A PageRank algoritmus [8] az elsők közé tartozott, mely a weboldalak közti linkrendszert kihasználva készítette el a rangsorát. Az feltételezés, miszerint egy oldalra akkor hivatkozik valaki, ha azt jónak tartja az illető, helyesnek bizonyult, hiszen az ezen az ötleten alapuló Google kereső óriási sikernek örvendett és örvend ma is. Az algoritmus több, mint a csúcsok befokainak meghatározása, ez ugyanis nagyon könnyen manipulálható [10]. Figyelembe veszi azt is, hogy az adott oldalra mutató linkek mennyire fontos oldalról indulnak ki. Mindez jellemezhető egy sztochasztikus szörfölő gráfon való véletlen sétájával [11]. A szörfölő egyenletes eloszlás szerint választ kiindulópontot a gráf n csúcsa közül, majd arról a csúcsról, ahol éppen tartózkodik, szintén egyenletes eloszlás szerint ugrik valamelyik szomszédjára. Sok idő (lépés) után közelítőleg p i valószínűséggel lesz az i csúcson [8]. Ez a modell nem tudja jól kezelni a gráf azon csúcsait, melyekből nem vezet ki él, vagyis melyeknek a kifoka 0. A szeszélyes sztochasztikus szörfölő ezzel szemben minden lépés után d valószínűséggel megszakítja az útját és egyenletes eloszlás szerint kijelölt véletlen helyre ugrik a gráfban. A többi esetben ugyanúgy viselkedik, mint a sztochasztikus szörfölő (ennek (d 1) a valószínűsége). A d értéket tipikusan 0, 1 és 0, 2 között szokás megválasztani. 3.1. Véletlen bolyongás a Web gráfján A PageRank előkészítése képpen az elugrás nélküli folyamatot írjuk le, amely egy véletlen bolyongás a web gráfján. Tekintsünk egy n csúcsú irányított gráfot. A gráf egy j csúcsába mutató éleinek kezdőpontjai alkotják a B(j) halmazt: B(j) = {k : k j}. Az algoritmus a gráf minden egyes csúcsához egy súlyt 4

rendel, melyek egy n komponensű p vektort határoznak meg: p i = j B(j) p j B(j). (1) Algoritmus szempontjából az egyes p i értékeket iterációval kapjuk meg, ahol az alábbi rekurzív formulát használjuk: i [p i ] 1 := 1 n i [p i ] k := j B(j) (2) [p j ] k 1 B(j). (3) A fenti gondolatokat másképp is meg lehet fogalmazni. Gráfunk, melyet a továbbiakban G-vel jelölünk álljon n csúcsból ( G = n). Definiáljunk egy n n-es A = (a ij ) átmeneti mátrixot, melynek sorait és oszlopait G elemeivel indexeljük. Tegyük fel, hogy az i G csúcsból a G gráf d i darab csúcsához vezet él. Ekkor d i 1 minden i-re. Ezek után legyen a ij = { 1 d i ha i j él benne van G-ben, 0 különben. Ekkor az A mátrix sorsztochasztikus, tehát egy G csúcshalmazú Markov-lánc átmeneti mátrixának tekinthető. Legyen u = ( 1,..., 1 ) egy n komponensű sorvektor. Ha feltesszük, hogy n n p = lim t ua t létezik, akkor p stacionárius eloszlása lesz A-nak, azaz pa = p. Sajnos, amikor a gráf nem aperiodikus ill. nem erősen összefüggő, olyankor a p = lim t ua t határérték nem létezik. (4) További probléma, hogy a fenti módszerrel meghatározott p i értékek könnyedén manipulálhatók [4]. Ha azonban az algoritmusban bevezetjük az elugrást is, vagyis áttérünk a szeszélyes sztochasztikus szörfölő modelljére, akkor a fenti problémák megszüntethetők. 5

3.2. PageRank Egy d valószínűségű elugrás bevezetésével (1) mintájára a PageRank érték: Ez alapján az iterációs képlet: p i = (1 d) j B(j) p j B(j) + d n, (5) i [p i ] 1 := 1 n i [p i ] k := (1 d) j B(j) (6) [p j ] k 1 B(j) + d n. (7) egy Másképp ez úgy is fogalmazható meg, hogy az eddigi A mátrixunk helyett B := (1 d) A + d U (8) írja le a sétát, ahol az n n-es U mátrix minden sora egy n elemű egyenletes eloszlás u = ( 1 n,, 1 n) vektora. Vagyis: u 1 1 n n u U =. =...... (9) 1 1 n n u Mivel az így generált B mátrix is sorsztochasztikus, ezért ez egy Markov-lánc mátrixa, amely jól leírja a szeszélyes szörfölőt. 3.3. A stacionárius eloszlás létezése Tekintsük π i -t az i csúcs fontosságának. A p vektor pontos értékét nem kell ismernünk, ugyanis a rangoroláshoz elegendő a komponenseket összehasonlítani. Az ub t vektorok iterációval számolhatók az ub t = ub t 1 B azonosság alapján. Az 1. tétel bizonyításából következik, hogy a konvergencia legalább olyan gyors, mint az (1 d) hányadosú mértani soré. Ezért elegendő az első pár iterációs 6

lépésig elmenni. A következőkben bebizonyítjuk az ub t sorozat konvergenciáját. 1. Tétel. Legyen 0 < d < 1 egy valós szám. Ekkor tetszőleges π kezdőeloszlás esetén a π((1 d)a + du) t sorozat konvergál egy csupa pozitív elemű p stacionárius eloszláshoz, ahogy t tart a végtelenhez. A p független a π kezdőeloszlástól. Bizonyítás: A zárójeleket felbontva π((1 d)a + du) t = cx t X t 1 X 2 X 1 adódik, ahol olyan t hosszúságú X t X 2 X 1 szorzatokat összegzünk, melyek minden tényezője A vagy U. A c együttható értéke d k (1 d) t k, ha a sorozatban pontosan k darab U található. Az eddigieket úgy szemléltethetjük, hogy egy (d, 1 d)-érmét dobunk fel t-szer (az érmedobások egymástól függetlenek). Ha az i-edik dobás fej, akkor X i = U, ha írás, akkor pedig X i = A. Az X t X 2 X 1 együtthatója (c j ) éppen az előfordulásának valószínűségét adja majd meg. Mivel a pénzfeldobások geometriai eloszlást követnek, ezért c j = d(1 d) j. (10) Az A mátrix sorsztochasztikus, ezért AU = UU = U teljesül. Ha tehát az X t X 2 X 1 szorzatnál j + 1 a legkisebb index, melyre X j+1 = U, akkor X t X 2 X 1 = UA j. Ezt figyelmbe véve t 1 ((1 d)a + du) t = (1 d) t A t + c j UA j (11) alakba írható. Ezek alapján a πu = u így írható: t 1 π((1 d)a + du)) t = π(1 d) t A t + d(1 d) j ja j (12) Mivel πa t egy eloszlásvektor, vagyis minden tagja legfeljebb 1, ezért (12) jobb- j=0 j=0 7

oldalának első tagja nullvektorhoz tart. A π((1 d)a + du)) t tehát a d(1 d) j ua j -hoz (13) j=0 fog tartani. Ez a sorösszeg létezik, ugyanis komponensenként majorálható a j=0 d(1 d)j sorral. Másrészt az összegvektor minden komponense legalább d n az első tag miatt. Ezzel igazoltuk a tétel állítását. 4. Webgráf és random gráf vizsgálata Mathematicával 4.1. Crawler Első feladatként egy, a Mathematicával megírt Crawlert tanulmányoztunk. Ez azt tudta, hogy egy adott csúcsból (linkről) kiindulva bejárta annak szomszédjait egy adott mélységig. A teszteléshez készítettünk egy teszt weboldalt több linkkel. Azt tapasztaltuk, hogy a jól megírt weboldalakat ügyesen be tudta barangolni. Viszont egy teljesen véletlen oldalt beírva kezdőcsúcsnak, hibaüzeneteket kaptunk. Ez azzal magyarázható, hogy a bennük szereplő linkeket nem tudta követni. Ez a feladat igazából csak szemlélteti, hogy mennyire összetett a World Wide Web linkstruktúrája. A továbbiakban véletlen gráfokat használtunk a vizsgálatainkhoz. 4.2. Véletlen bolyongás és PageRank A következőkben a PageRank számítására alkalmas függvényt írtunk meg és ellenöriztük működését. A mellékelt matyas_peter.nb fájl tartalmazza ezen eredményeket. Azt tapasztaltuk, hogy a szeszélyes sztochasztikus szörfölő modellje valóban kielégíti a felteteleket. Olyankor ugyanis szemmel láthatóan konvergál a stacionárius eloszláshoz a PageRank vektor. Továbbá módszerünket igazolja az is, hogy a Mathematica beépített függvénye is ugyanazt az eredményt adta. 8

Hivatkozások [1] Wikipedia www szócikk. http://en.wikipedia.org/wiki/www, 2011. május 7., 15:03. [2] A World Wide Web mérete. http://www.worldwidewebsize.com, 2011. május 7., 15:15. [3] A. Arasu, J. Cho, H. Garcia-Molina, A. Paepcke, and S. Raghavan. Searching the Web. ACM Transactions on Internet Technology, 1(1), 2001. [4] Paolo Boldi, Massimo Santini, and Sebastiano Vigna. Pagerank as a function of the damping factor. In Proceedings of the 14th World Wide Web Conference (WWW), pages 557 566, 2005. [5] Sergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, 30(1-7):107 117, 1998. [6] O. Chapelle, Y. Chang, and T-Y Liu. The yahoo! learning to rank challenge, 2010. [7] Brian D. Davison. Recognizing nepotistic links on the web. In AAAI-2000 Workshop on Artificial Intelligence for Web Search, Austin, TX, pages 23 28. Artificial Intelligence for Web Search, Technical Report WS-00-01, July 30 2000. [8] D. Easley and J. Kleinberg. Networks, Crowds and Markets. Cambridge University Press, 2010. [9] Dennis Fetterly, Mark Manasse, Marc Najork, and Janet L. Wiener. A Large-Scale Study of the Evolution of Web Pages. Software Practice and Experience - Special issue: Web technologies, 34(2), 2004. [10] Z. Gyöngyi and H. Garcia-Molina. Web spam taxonomy. In First International Workshop on Adversarial Information Retrieval on the Web. Citeseer, 2005. 9

[11] Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. The pagerank citation ranking: Bringing order to the web. Technical Report 1999-66, Stanford InfoLab, November 1999. [12] Stephen E. Robertson and Karen Sparck Jones. Relevance weighting of search terms. In Document retrieval systems, pages 143 160. Taylor Graham Publishing, London, UK, UK, 1988. 10