Hogy keres a Google?

Hasonló dokumentumok
Webanalízis, avagy melyik a legértékésebb csúcs egy gráfban?

Tartalom. Google szolgáltatásai. Googol Google. Története. Hogyan működik? Titka

PageRank algoritmus Hubs and Authorities. Adatbányászat. Webbányászat PageRank, Hubs and Authorities. Szegedi Tudományegyetem.

Internet és világháló

Társadalmi és gazdasági hálózatok modellezése

Tartalomjegyzék. Tartalomjegyzék 2 Korai évek 3 A fejlődés 4 Újabb eredmények 5. Google ünnepi emblémák 5

Készítette: Farkas Bálint

Multimédiás és webes adatbányászat KISS LÁSZLÓ

TOP SEO Trendek 2015-ben. We understand, we deliver.

Tematikus tartalom. Impresszum:

Önszerveződő adatbázisok

A WEBEN LÉVŐ INFORMÁCIÓK HOZZÁFÉRHETŐSÉGE 1. BEVEZETÉS

Utikalauz a keresőmarketing állandóan változó világához

INTERNETES KERESÉS. Szórád László Óbudai Egyetem TMPK

Nemzeti Fejlesztési és Gazdasági Minisztérium támogatásával megvalósuló KKC-2008-V számú projekt B2CR ONLINE KOMMUNIKÁCIÓ

.Kapcsolatok. Már egy jó ideje motorkerékpárt szeretnék vásárolni, Miel tt döntésképtelenségem miatt kétségbe esnék, mint információforrások

Kőrösi Csoma Sándor Két Tanítási Nyelvű Baptista Gimnázium

Teszt generálás webes alkalmazásokhoz

Tartalomjegyzék 3 Szerző 6 I. Bevezető 7 II. A keresőoptimalizálás alapjai 9 SEO vs Google Ads 9 Miért pont a Google? 12 Internetes keresők 12 Miért

BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv?

Új eredmények a nem teljesen kitöltött páros összehasonlítás mátrixok témájában (2. rész)

2. Konferencia. Informatika és Versenyképesség

Vajda Éva. Keresőoptimalizált üzleti honlap

Internetes keresés. Dr. Nyéki Lajos 2019

Keress! Hogyan alakítja át kultúránkat, üzleti életünket a Google és az internetes keresés

WEB MARKETING ÉS KERESŐOPTIMALIZÁLÁS. Tarcsi Ádám

KERESŐMARKETING A BANKSZFÉRÁBAN

SZABADSZAVAS KERESŐK RANGSOROLÁSA

Internetes fogalomtár 1.0

1. előadás Keresőmotorok használata

Informatika 10. évf.

Hozzáférés és újrahasznosítás

internet-en dr. Nyári Tibor

Statisztikai alap kia.hu (2002)

I. Az internet alapjai

A fehérjehálózatok vizsgálatának matematikai módszereiről. ELTE Matematikai Intézet Protein Információs Technológia Csoport & URATIM Kft.

erettsegizz.com Érettségi tételek

Entity Resolution azonosságfeloldás

KERESÉS A NETEN DR. KÓNYA LÁSZLÓ: KERESÉS A NETEN KERESÉS MÓDSZERE, KERESŐPROGRAMOK

ESZES ISTVÁN * Kicsi tű a nagy szénakazalban Avagy az internetes keresőgép marketing néhány kérdése

Kicsi tű a nagy szénakazalban

ALAPOK. I. A keresőoptimalizálásról általában

E.4 Markov-láncok E.4 Markov-láncok. Sok sorbanállási hálózat viselkedése leírható "folytonos idejű Markovláncok " segítségével.

Könyvtárhasználati kurzusok és kompetenciák. Kristóf Ibolya, Szent István Egyetem Kosáry Domokos Könyvtár és Levéltár

Szélesség (cm) 60 x 60. Magasság (cm) 60. Mélység (cm) 30. Felső sarok ferde konyhabútor elem. Ajtó típus ÁR kulcsrakész ÁR lapraszerelt

Szélesség (cm) 60 x 60. Magasság (cm) 60. Mélység (cm) 30. Felső sarok L konyhabútor elem. Ajtó típus ÁR kulcsrakész ÁR lapraszerelt

Közösség detektálás gráfokban

WWW Kliens-szerver Alapfogalmak Technológiák Terv. Web programozás 1 / 31

Diszkrét idejű felújítási paradoxon

MATEMATIKA.

Az egyetemi nyílt hozzáférésű publikációk és kiadói tevékenység tudománymetriai vizsgálata

HÁROM EGYETEM KÉT KONTINENS EGY TANTEREM:

!! Jogi!nyilatkozat!! A! az! oldalra! történő!

Statisztikai alap (2009) - main

Lineáris algebra Gyakorló feladatok

Boltban. Belépünk. Keressük meg. Keressük meg a jó részleget. a pénztárat. nem. Biztos hogy a jó helyen vagyunk. igen. Fizessünk.

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

A PROJEKT ADATAI: A PROJEKT CÍME: Kódolás Kertváros körül

Debreceni Egyetem Informatika Kar. Keresőmarketing és weblap optimalizálás. Témavezető: Készítette:

Lineáris algebra gyakorlat

0,424 0,576. f) P (X 2 = 3) g) P (X 3 = 1) h) P (X 4 = 1 vagy 2 X 2 = 2) i) P (X 7 = 3, X 4 = 1, X 2 = 2 X 0 = 2) j) P (X 7 = 3, X 4 = 1, X 2 = 2)

Kutatásértékelési szolgáltatások szakmai szemmel: felhasználásához

Keresőmarketing ONLINE MARKETING III. ELŐADÁS KOVÁCS ISTVÁN. BME Menedzsment és Vállalatgazdaságtan Tanszék

Tittel Pál Könyvtár és Médiacentrum Gál Tibor szeptember 12.

Sajátértékek és sajátvektorok. mf1n1a06- mf1n2a06 Csabai István

Statisztikai alap kia.hu (2005)

A Google jelenség technológiai október

Statisztikai alap kia.hu (2004)

Statisztikai alap kia.hu (2006)

Tervezés: a jövő absztrakciója

Internet és világháló I-II. Forczek Erzsébet Orvosi Fizikai és Orvosi Informatikai Intézet

Az információs portáloktól a tudásportálokig

TESZTKÉRDÉSEK ECDL Online alapismeretek Szilágyi Róbert S.

Web spam szűrési módszerek

LINKRÖVIDÍTÉS. (összeállította: Szabó G. Tibor szakinformátor)

Statisztikai alap kia.hu (2009) - main

MINTA. Kedves Elsőéves Egyetemi POLGÁRUNK!

SZTE Nyílt Forrású Szoftverfejlesztő és Minősítő Kompetencia Központ

Statisztikai alap (2006) - main

Lineáris algebra 2. Filip Ferdinánd december 7. siva.banki.hu/jegyzetek

Előfizetés 30 napos jelentés

Kétféle ismeret van: magunk rendelkezünk a szükséges információval, vagy tudjuk, hogy az hol lelhető fel. Samuel Johnson

InCites bemutató. Tóth Szász Enikő Solution Specialist

Ez a weboldal elég gyorsan betöltődik. A weboldal mérete (kilobyte) megfelelő. A betöltődő adatok száma elfogadható. Keresőbarát a weblap URL címe.

2012. november 4. IX. előadás: Statikus és dinamikus weboldalak, adatbázisok

Zöld energiával a zöld Magyarországért weboldal marketing szempontú elemezése

Impakt faktor, hivatkozások

Az igazság pillanatai

Statisztikai alap (2008) - main

MKE 44. Vándorgyűlés Győr,

Kovács Zsó a Matematika Bsc Matematikai elemz szakirány

MATEMATIKA TANTERV Bevezetés Összesen: 432 óra Célok és feladatok

A Word Wide Web 1992-ben indult hódító útjára, hogy behálózza a világot. Jellemzői:

ScienceDirect. Dr. Kocsis Dénes Elsevier megbízott oktató

Generációk - kultúrák : információszolgáltatás A - Z-ig

Viselkedés alapú célzás (behavioral targeting)

Accor Hospitality komplex distribution rendszere

Átírás:

Hogy keres a Google? Kevei Péter SZTE Bolyai Intézet Kutatók Éjszakája 208. szeptember 28.

WWW Könyvtár 25 milliárd (25 0 9 ) dokumentummal, és nincs könyvtáros (a Somogyi Könyvtárban 900 000, a Bolyai könyvtárában kb. 20 000 könyv van). Bárki bármikor feltölthet dokumentumokat. A dokumentumok nagy része hosszú (több 0 000 szó). Somogyi Könyvtár 2. emelet (http://www.sk-szeged.hu)

Keresőprogramok feladata Feltérképezi a nyilvános elérésű weboldalakat. Olyan formába rendszerezi ezeket, hogy kereshető legyen (kulcsszó). Mi a fontos, mi nem? Rangsorolja a találatokat. Hogyan rangsorol?

Keresőprogramok 994: WebCrawler, go.com, Lycos, Infoseek 995: Yahoo, AltaVista, Excite, SAPO A 997 novemberében a 4 legnépszerűbb keresőprogram közül csak egy találja meg saját magát. - Brin, Page: The Anatomy of a Large-Scalce Hypertextual Web Search Engine (998) 998: Google

Google 998-ban alapította Sergey Brin és Larry Page (PhD hallgatók a Stanfordon) By Joi Ito, via Wikimedia Commons By Marcin Mycielski, from Wikimedia Commons keresőprogram, lényegében a PageRank algoritmus googol 0 00 (hatalmas adathalmazban keres)

Google 998

Google 208

Rangsorolás Fontosság definiálása Objektív rangsor: a világháló szerkezetéből adódjon a rangsor

WWW modell A Hivatkozó hiperlinkek száma? Nem jó, mert számít, hogy honnan jön a hivatkozás. B C D E Pr(A) = Pr(B) mert A-ra van hiperlink B-ből? Nem jó, mert B fontossága többször szerepel. Osszuk el a fontosságot azok közt az oldalak közt, ahova van hiperlink!

Rangsor A Pr(A) = 2 Pr(B) B C E Pr(B) = 2 Pr(A) + 3 Pr(C) Pr(C) = 2 Pr(A) + 2 Pr(D) Pr(D) = Pr(C) + Pr(E) 3 D Pr(E) = 2 Pr(B) + 3 Pr(C) + 2 Pr(D)

Egyenletrendszer - sajátérték, sajátvektor 0 2 0 0 0 Pr(A) Pr(A) 2 0 3 0 0 Pr(B) 2 0 0 2 0 Pr(C) 0 0 3 0 Pr(D) = Pr(B) Pr(C) Pr(D) Pr(E) Pr(E) 0 2 3 2 0 Egy megoldás (ha mindet megszorzom 3-mal, akkor is megoldást kapok): Pr(A) = 0, 045, Pr(B) = 0, 09; Pr(C) = 0, 205; Pr(D) = 0, 364; Pr(E) = 0, 295.

Rangsor 0,045 A 0,09 B 0,205 C E 0,295 0,364 D

Bevezetés A PageRank algoritmus A PageRank manipulálása?? Na akkor most oldjunk meg egy 25 milliárd ismeretlenes egyenletrendszert?

Véletlen szörfös - A B C E D

Véletlen szörfös - 2 A B C E D

Véletlen szörfös - 3 A B C E D

Véletlen szörfös - 4 A B C E D

Véletlen szörfös - 5 A B C E 2 D

Véletlen szörfös - 6 A B C E 2 2 D

Véletlen szörfös - 7 A B C E 2 2 D

Véletlen szörfös - 0000 0,045 502 A 0,09 979 B 2032 C 0,205 E 2930 0,295 3557 D 0,364

Markov-láncok A véletlen szörfös modell egy Markov-lánc, azaz a következő lépés véletlen, de csak attól függ, hogy éppen hol van a szörfös. Ha sokáig követjük a folyamatot (a szörföst), akkor beáll egy stacionárius eloszlás, ami azt mutatja, hogy az idő milyen részében volt az egyes állapotokban (weboldalakon). Pontosan ez az egyes weboldalak fontossága. A stacionárius eloszlás független attól, hogy honnan indult az első lépésben. Azaz a folyamat ergodikus. A PageRank iteratív módon is kiszámolható. Valójában csak így számolható ki. 50 iteráció elég (Brin & Page, 998).

Iteráció - Kezdeti érték: a 0 =, b 0 = c 0 = d 0 = e 0 = 0. a = 2 b 0 = 0 b = 2 a 0 + 3 c 0 = 0.5 c = 2 a 0 + 2 d 0 = 0.5 d = 3 c 0 + e 0 = 0 e = 2 b 0 + 3 c 0 + 2 d 0 = 0 A megoldás: (0, 045, 0, 09, 0, 205, 0, 364, 0, 295).

Iteráció - 2 Kezdeti érték: a = 0, b = 0.5, c = 0.5, d = e = 0. a 2 = 2 b = 0, 25 b 2 = 2 a + 3 c = 0, 67 c 2 = 2 a + 2 d = 0 d 2 = 3 c + e = 0, 67 e 2 = 2 b + 3 c + 2 d = 0, 47 A megoldás: (0, 045, 0, 09, 0, 205, 0, 364, 0, 295).

Iteráció - 3 a 3 = 2 b 2 = 0, 083 b 3 = 2 a 2 + 3 c 2 = 0, 25 c 3 = 2 a 2 + 2 d 2 = 0, 208 d 3 = 3 c 2 + e 2 = 0, 47 e 3 = 2 b 2 + 3 c 2 + 2 d 2 = 0, 67 A megoldás: (0, 045, 0, 09, 0, 205, 0, 364, 0, 295).

Iteráció - 0 a 0 = 2 b 9 = 0, 005 b 0 = 2 a 9 + 3 c 9 = 0, 084 c 0 = 2 a 9 + 2 d 9 = 0, 24 d 0 = 3 c 9 + e 9 = 0, 344 e 0 = 2 b 9 + 3 c 9 + 2 d 9 = 0, 308 A megoldás: (0, 045, 0, 09, 0, 205, 0, 364, 0, 295).

Iteráció - 20 a 20 = 2 b 9 = 0, 045 b 20 = 2 a 9 + 3 c 9 = 0, 09 c 20 = 2 a 9 + 2 d 9 = 0, 205 d 20 = 3 c 9 + e 9 = 0, 363 e 20 = 2 b 9 + 3 c 9 + 2 d 9 = 0, 296 A megoldás: (0, 045, 0, 09, 0, 205, 0, 364, 0, 295).

Csak a PageRank! Minél fontosabb egy oldal, annál nagyobb a PageRank értéke. Minél nagyobb a PageRank, annál fontosabb az oldal. Google Toolbar.0 (2000. december) az oldalak PageRank értéke (valamiféle közelítése) nyilvános. Hogy lehet becsapni az algoritmust?

Google Toolbar - PageRank 2000. december (Google Toolbar.0) - 0 (logaritmikus) skálán mutatja a PageRank értéket??

Rangsor 0,045 A 0,09 B 0,205 C E 0,295 0,364 D

Rangsor2 - E újragondolja 0,045 A 0,09 B 0 F 0 G 0 H 0,205 C E 0,295 0,364 D

Rangsor3 - E jobban újragondolja 0,029 A 0,057 B F 0,86 0,29 C E 0,37 0,229 D

Manipulálás vs. objektív rangsor Linkfarmok (egymásra mutató oldalak, melyeken nincs információ). Spam linkek (megjegyzésekben szereplő linkek). Ezeket szűri (nofollow), bünteti az algoritmus. Google Toolbarban 206. áprilisától nincs PageRank mérő. A PageRank algoritmust továbbra is használják.

PageRank általános algoritmus gráfokon, sok alkalmazással Twitter neuronhálózatok (orvostudomány) proteinhálózatok úthálózatok nyelvészet (szavak közötti kapcsolatok) tudománymetria (újságok fontossági sorrendje): SCImago Journal Ranking.

Irodalomjegyzék Sergey Brin, Lawrence Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine. Seventh International World-Wide Web Conference (WWW 998) Kurt Bryan, Tanya Leise: The $25,000,000,000 eigenvector. The linear algebra behind Google. David Austin: How Google Finds Your Needle in the Web s Haystack? AMS Feature Column, 2006.