Webtechnológiák Webes keresrendszerek Répási Tibor egyetemi tanársegéd Miskolc Egyetem,Gépészmérnöki kar, Infomatikai és Villamosmérnöki Tanszékcsoport (IVM) Általános Informatikai Tanszék Iroda: Inf.Int. 108. Tel: 2101 A keresés lehetsége egyids a hipertext ötlettel. Keresés a weben: Nagyon nagy adatmennyiség: nagyon sok oldal nagyon gyakori változás sok új oldal adatbázis jelleg keresés igénye hipertext tartalom: többnyire szöveg linkek a szövegben Webes keresrendszerek Webes keresrendszerek Adatbányászat: nagy adatmennyiségek strukturált adatok rejtett összefüggések felderítése Szövegbányászat: adatbányászat kiterjesztése strukturálatlan adatokra osztályozási, klaszterezési feladatok Web-bányászat: szövegbányászat kiterjesztése a web, szemi-strukturált, hipertext-rendszerére Keresmotorok feladatai: feldolgozandó dokumentumok kijelölése dokumentumok letöltése dokumentumok szóhalmazának elállítása dokumentumok metaadatainak elállítása dokumentumok hatákony tárolása keresési adatszótárak nyilvántartása keresésfeldolgozó megvalósítása keresési megaadatok feldolgozása
Webes keresrendszerek Webes keresrendszerek Minségi mérszámok: pontosság (precision): releváns válaszok aránya válasz dokumentumaihoz felidézés (recall): kiválaszott dokumentumok aránya a releváns dokumentumokhoz tartalomegyezés (exhaustivity): kiválasztott dokumentumok és a kereskifejezés egyezésének mértke kifejezer (power): a leíró kulcsszavak szelektivitásának és hosszának aránya eliminálhatóság (eliminalibity): irreleváns dokumentumok felismerhetsége érthetség (clarity): a kulcsszavak közérthetsége megjósolhatóság (predictability): keresési eredmények elrejelezhetsége Webes keresrendszerek Webrobot - begyjt A keresmotor felhasználói igényei: széleskörség: minden fontos weboldalt megtaláhasson naprakészség: az index legyen aktuális, kövesse nyomon a web változásait rangsorolás: a lekérdezés által kiválasztott dokumentumok legyenek rangsorolhatóak relevanciájuk szerint megjelenítés: eredmények megjelenítése legyen lényegre tör, informatív és használható Hármas szerep a web kapcsolatrendszerének felderítése dokumentumok letöltése indexelésre indexelt dokumentumok ismételt letöltése Teljes letöltés lehetetlen, a web mérete végtelennek tekinthet. A robotok korlátos erforrásokat igényelnek, mködésüket szabályozni kell.
Webrobot - begyjt Webrobot - begyjt Szabályozó elvek: kiválasztási elv (selection policy): mely dokumentumok töltsük le? újralátogatási elv (re-visit policy): melyik dokumentumot kell újra letölteni? udvariassági elv (politeness policy): milyen hatást gyakorolhat a robot a webre? párhuzamos feldolgozási elv (parallelization policy): párhuzamosan dolgozó robotok összehangolása kiválasztási elv: minden dokumentum tartalmaz linkeket minden link újabb dokumentumot tár fel Melyeket érdemes letölteni? Header-bl kiderül a tartalom típusa, nem szöveges tartalmat nem érdemes Headerek letöltésének csökkentésére vizsgáljuk az URL-t relevancia alapú kiválasztás Webrobot - begyjt Webrobot - begyjt Újralátogatási elv: az index naprakészsége múlik rajta nagyobb index --> több újralátogatás több újralátogatás --> kevesebb új dokumentum az újralátogatási arány igen érzékeny paramétere a keresrendszernek újralátogatás aging algoritmus alapján: uniform: minden dokumentum egyformán öregszik arányos: dokumentumonként hangolt újralátogatási gyakoriság Udvariassági elv: a robot sokkal gyorsabban olvas, mint az ember a robot nagyon kíváncsi két alapelv: a robot ne okozzon jelentsen nagyobb terhelést egy webszerveren, mint egy ember a weblap gazdájának legyen lehetsége a robotot befolyásolni (robots.txt, HTML fejrész)
Webrobot - begyjt Webrobot Párhuzamos feldolgozási elv: több robot --> nagyobb letöltési teljesítmény elosztott robotok --> elosztott hálózati terhelés többes letöltés veszélye a letöltend URL-eket hozzá kell rendelni a robotokhoz: dinamikus hozzárendelés statikus hozzárendelés Harvester típusú (aratórobot): nem csak az adott URL-t tölti le: inkrementálisan darabolja az URL-t www.uni-miskolc.hu/uni/dept/facilties/ www.uni-miskolc.hu/uni/dept/ www.uni-miskolc.hu/uni/ www.uni-miskolc.hu/ Crawler típusú (kúszórobot): az oldalon talált (in-site) linkeket is bejárja az off-site linkeket kigyjti késbbi feldolgozásra Indexelés Indexelés Kivonatolás: kulcsszavak kinyerése szelektivitás biztosítása Indexstruktúra: indexek hatékony tárolása kulcsszavak hozzárendelése dokumentumokhoz Dokumentum kivonatok tárolása. Technikák: Szó és kifejezés alapú szavak, kifejezések és azok pozícióját rögzíti az index Szöveg és metaadat alapú a dokumentum szavak halmaza, csak gyakoriság alapú index metaadatok: témakör (tagging), dokumentumszekciópozíció, formátuminformációk Tartalom és struktúra alapú a szöveg mellett a kapcsolatrendszer is számít
Keresés feldolgozás Rangsorolás Keresési szavakra illeszked dokumentumok kiválasztása: logikai kapcsolatok stopszavak szrése szemantikus kapcsolatok szinonimák kezelése gépelési hibák felismerése finomítható keresés Tucatnyi technika Kiválasztott dokumentumok rendezése Google PageRank: számítása: kulcsszavak gyakorisága hivatkozások (linkek) fontossága (PR) felkeresési gyakoriság (hitrate) véletlen szörföz modell kiválaszt egy lapot követheti a lap valamelyik linkjét, vagy új lapra ugorhat Deep web a mély háló A Google A mély háló (deep web): közvetlenül el nem érhet dokumentumok sziget dokumentumok lekérdezés eredményeként elállított dokumentumok dinamikusan (AJAX alkalmazásban) elállított dokumentumok Hagyományos robot számára elérhetetlen! Keresrendszerekben nem kereshet! kb. 20-25 milliárd indexelt dokumentum (2006) Googleplex: komplex hardver és szoftver környezet olcsó PC-k (száz-) ezreibl áll többszörösen redundáns, hierarchikus felépítés állományok tárolása 3-6 szoros redundancia operációs rendszere: testreszabott linux webszervere: GWS egy testreszabott apache
A Google A Google Indexelés: hibrid szó és dokumentum alapú: dokumentumok és azok metaadatai URL és dokumentumok összerendelési adatai szavak és metaadataik szavak elforulása Rangsorolás: kulcsszó gyakoriság felkeresési gyakoriság PageRank PageRank: Modellje a véletlen barangoló (random surfer) modell: kiválaszt egy URL-t véletlenszeren, linkeken lépeget tovább, véletlen számú (alfa faktor) lépés után abba hagyja és új dokumentumról indul újra. Egy oldal PageRank-je annak valószínsége, hogy a véletlen barangoló megtalálja. Számítása, regressziós képlet alapján az oldalra mutató linkek PageRank-kel súlyozott összege, az oldalról máshova mutató linkek összege. Keresoptimalizálás Keresoptimalizálás Célok: keres jól indexelje jó PageRank-et kapjon Elny: Keywords meta-mez szöveges tartalom kevés kimutató link (csak lényegesek!) rámutató linkek Felhasználói érdekldés Hátrány: szövegtartalom képekben (pl. menü gombok, flash menü) tartalom beágyazott objektumokban (applet, flash, activex, stb.) AJAX és minden asszinkron tartalom lekérdezés alapú hozzáférés Capcha ezek együttese!
Ajánlott irodalom Tikk Domonkos (szerk.) Szövegbányászat, Typotex kiadó, 2007