A Google jelenség technológiai szemszögből Halácsy Péter 2006. október
Keresők működése Search engines Crawler: egy program, ami folyamatosan letölti a weboldakat. Szövegek kinyerése (html eldobás). Adatbázis építése. Keresés, rangsorolás. Probléma: hatalmas adatbázis: 10 9 10 5 = 10 1 4
1995, Digital Corp. elindítja az Altavista-t
altavista 1996 1996 májusára több mint 30,000,000 weboldal 12 millió keresés naponta 4 gép közül az egyik: AlphaServer 8400 5/300, 10 processors, 6 GB memory, 210 GB RAID disk. This model is the most powerful computer built by Digital. 800,000 USD
Méretháború indul az AltaVista a piacra belépve mindenkinél nagyobb elkezdődik a,,kinek nagyobb az indexe verseny ésszel jön a Northern Light
Méretháború II. a fiatal Google 2000-ben fölényesen elhúz azóta is a legnagyobb és a legelső (kb 8 milliárd weboldal)
egy kis háttér
Mi történik kereséskor? kikeresni minden szót a táblázatban minden szóhoz tartozó dokumentumlistát összefűzni rendezni relevancia szerint
sok adatod van? vagy nem Te vagy a Digital? oszd szét a dokumentumokat két gépre mindegyikben keress külön a végén fűzd össze a listát nem is lesz lassabb blue sky? használj sok olcsó gépet, egy drága helyett
mi történik egy kereséskor? első fázisban a terabyte méretű invertált indexből ki kell keresni a dokumentumokat (párhuzamosítás) a docid-ból a letöltött web alapján kikeresni: cím, url, kivonat, stb. (párhuzamosítás)
fokozható még? a központban egy helyi elosztó választ egy webszervert elosztó
fokozható még? a központban egy helyi elosztó választ egy webszervert DNS feloldáskor a világ valamely Google központjába megy a keresés elosztó
Rangsorolás Eddig: melyik oldalon szerepel az a szó, hogy házi kávépörkölés Megj: bag of words modell (vö. Dániel értelmes gépei) Rendezni kell a találatokat relevancia szerint Minél ritkább egy szó, egyezése annál értékesebb Minél többször van egy szó a szövegben, annál több pont Hosszú szövegben való egyezés nem ér annyit
PageRank Nem csak a szöveg számít. Minden weboldalnak van egy apriori értéke. Egy jó weboldalra sokan hivatkoznak. Ha egy jó weboldal hivatkozik valakire, akkor az is feltehetőleg jó. PageRank(i) = (1 d) + d PageRank(j), L(j) j M(i) ahol M(i) azoknak az oldalaknak a halmaza, amik tartalmaznak linket az i. oldalra, L(j) pedig a j. oldalról kimenő linkek száma.
PageRank másképp A véletlen szörfös véletlenszerűen kattintgat Minden oldalon egyenletes valószínűséggel választ a kimenő linkek között. De a hurkok elkerülésére végett 1 d valószínűséggel teleportál Az oldal PageRankje - annak valószínűsége, hogy egy weboldalt megtalál. P(i) = (1 d) + d P(j) L(j), j M(i)
PageRank értelmezése Kevés, de értékes link is számíthat. Kb. népszerűség.
google - minden a skálázhatóság amiről nem beszéltünk crawlernek párhuzamosan kell sok gépről letöltenie online fel kell dolgozni a dokumentumokat pagerank számolás CPU igényes (a teljes gráf a memóriában?) index építés sokkal nehezebb, mint a keresés de tudjuk olcsó PC-ket használtak a Standfordon jó programozóként megoldották az adatok tömörítését hackerként módosították a linuxot mindent elosztotottan, párhuzamosan csináltak
Google géppark: szegények vagy okosak? Boltban kapható, olcsó, akár megbízhatatlan PC-kből építkezve 2001-ben 80 db. PC egy nagy gép CPU 160 8 Mem 160Gb 64Gb Disk 6,4TB 8Tb ár 278,000$ 758,000$ ár/hónap 7,700$ 21,055$
Google géppark: szegények vagy okosak? Boltban kapható, olcsó, akár megbízhatatlan PC-kből építkezve 2001-ben 80 db. PC egy nagy gép CPU 160 8 Mem 160Gb 64Gb Disk 6,4TB 8Tb ár 278,000$ 758,000$ ár/hónap 7,700$ 21,055$ P 10kW 1kW fogyasztás 10MW-h 1MW-h
Google géppark: szegények vagy okosak? Boltban kapható, olcsó, akár megbízhatatlan PC-kből építkezve 2001-ben 80 db. PC egy nagy gép CPU 160 8 Mem 160Gb 64Gb Disk 6,4TB 8Tb ár 278,000$ 758,000$ ár/hónap 7,700$ 21,055$ P 10kW 1kW fogyasztás 10MW-h 1MW-h 1500$ 150$
teljesítmény nő, de a fogyasztás is
három év múlva az elektromos művek adja a gépet
google dance, 64 adatközpont a világon
Mit tud a google? mindent, ami párhuzamosítható, elosztható amihez nagy tárolókapacitás kell olcsón, gyorsan skálázható az igényeknek PageRank, keresés, AdWords, videó, google maps, stb. nem jelent problémát becslések szerint 150,000-170,000 gépe van izomból lenyom mindent: lásd gmail célunk a világ minden adatának összegyűjtése és kezelése, beleértve a személyes információkat is
2005 végén 5000 CPU, 3.5 petabyte disk egy éjszaka alatt kipakolható feltehetőleg a 300 legnagyobb internetcsomópontra
Google OS + google box egyszer csak a Google lesz a vezető telefontársaság videó és mozi szolgáltató a szélessávú üzlet tartalom disztributora
2006 január - video.google.com ingyenes és fizetős videók üzletet kötött sok tartalomgyárossal (pl. AOL) ugyanakkor mindenki tölthet fel
Mi a Google? kereső? tartalomszolgáltató? média cég? az új média kábelcége? disztributor? célunk a világ minden adatának összegyűjtése és kezelése, beleértve a személyes információkat is
miből él a google? 1. rész Az Adwords
adwords szavakra célzott hirdetés megadható, hogy mennyit ér egy kattintás mennyit akarunk naponta költeni
adwords szavakra célzott hirdetés megadható, hogy mennyit ér egy kattintás mennyit akarunk naponta költeni minden keresésre a szóért versengőket online sorbarendezi figyelembe veszi a napi limitet kattintás esetén számláz, amennyit a helyünk megtartásához kell
szemantikai elemzés: adsense
adwords - adsense mindenkinek lehet célzott hirdetési felülete akarmályin kicsi költségvetéssel lehet hirdetni akárhol minél jobb a kereső, annál többet fizetnek a hirdetők
adwords - adsense mindenkinek lehet célzott hirdetési felülete akarmályin kicsi költségvetéssel lehet hirdetni akárhol minél jobb a kereső, annál többet fizetnek a hirdetők gmail vs. freemail gmailen 100x annyi tárhelyet kapok helyesírás-ellenőrzés interaktívabb, jobban használható nem kérdezi meg az érdeklődési körömet, koromat, nememet no akkor miből él?
gmail chat nincs többé különbség a chat kliensek és a webböngészők között
google suggest figyeljünk a technológiára! nincs többé különbség a saját gépemen tárolt adat és a google-nél tárolt adat között
interaktív weboldalak
interaktív weboldalak mindent a böngészőből adatok interaktív megjelenítése, navigáció, keresés (google finance) adatok szerkesztése mindent akárhonnan gmail chat mobiltelefonról google map taxis gps-ben google news a google finance-ben akár kollaboratívan is közös calendar közösen szerkesztett dokumentum közös várostérkép
AJAX technológia Asynchronous JavaScript and XML a hagyományos weben, minden kattintáskor várni kell a böngésző nem tud más, mint megjeleníteni a webes programok fapadosok voltak
AJAX technológia - hagyományos HTTP
AJAX technológia
google map API
google map API bárki fejleszthet programot, ami google map-t használ
google map API
google calendar
google calendar API bárki fejleszthet programot, ami google calendar-t használ fodrásznál időpontfoglalás weboldalról kulturális programok a calendaromban megjelennek (és térképen mutatja a helyet) iskola órarend, változásokról google talk api-n értesítenek autóm szervizben időpontot foglal
mash up a szolgáltatások más programokból is használhatóak új szolgáltatások összerakhatók, mixelhetők web mint plattform, web os blog, mail, calendar, word, map, video, adwords, homepage (flickr, ebay, yahoo local stb.)
wired véleménye a keresés csak a kezdet és nem a végcél rájöttek, hogy a Google újfajta felhasználásait nem ők, hanem a felhasználók fogják kitalálni ezért adnak ki API-kat, ami lehetővé teszi, hogy fejlesztők új alkalmazásokat építsenek. We get clever hacks, educational uses, and wacky stuff, says Nelson Minar, who runs the API effort. We love to see people do creative things with our product. http://www.wired.com/wired/archive/12.03/google.html?pg=10
Mi a Google? egy hardver és szoftver cég ahol okos mérnökök saját gépparkot, plattformot építettek tartalom infrastruktúrát építettek fel egy szolgáltató cég az infrastruktúrát kihasználva szexi alkalmazások de az infrastruktúráját odaadja mindenkinek lényeg: nála legyen az adat, ő ahhoz ért