Webes keres rendszerek. Webtechnológiák. Webes keres rendszerek. Webes keres rendszerek. Répási Tibor egyetemi tanársegéd



Hasonló dokumentumok
KERESÉS A NETEN DR. KÓNYA LÁSZLÓ: KERESÉS A NETEN KERESÉS MÓDSZERE, KERESŐPROGRAMOK

Java Server Pages - JSP. Web Technológiák. Java Server Pages - JSP. JSP lapok életciklusa

Web-fejlesztés NGM_IN002_1

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján

INTERNETES KERESÉS. Szórád László Óbudai Egyetem TMPK

TOP SEO Trendek 2015-ben. We understand, we deliver.

A szemantikus Web. Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 0.

Mai program. Web Technológiák. Webalkalmazások. Webalkalmazás, mint UI

ECDL Információ és kommunikáció

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Vajda Éva. Keresőoptimalizált üzleti honlap

Utikalauz a keresőmarketing állandóan változó világához

Web harvesztelés. Automatikus módszerekkel

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / Mezei Ferenc üzletág-igazgató

Önálló labor feladatkiírásaim tavasz

Tartalom. Google szolgáltatásai. Googol Google. Története. Hogyan működik? Titka

WEB 2.0 tipikus szolgáltatások

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

Bevezetés s a szemantikus technológi

Keresőmarketing ONLINE MARKETING III. ELŐADÁS KOVÁCS ISTVÁN. BME Menedzsment és Vállalatgazdaságtan Tanszék

A szemantikus világháló oktatása

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

Az információs portáloktól a tudásportálokig

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Beszédfelismerés alapú megoldások. AITIA International Zrt. Fegyó Tibor

Tudásalapú információ integráció

Tartalomjegyzék 3 Szerző 6 I. Bevezető 7 II. A keresőoptimalizálás alapjai 9 SEO vs Google Ads 9 Miért pont a Google? 12 Internetes keresők 12 Miért

Ez a weboldal elég gyorsan betöltődik. A weboldal mérete (kilobyte) megfelelő. A betöltődő adatok száma elfogadható. Keresőbarát a weblap URL címe.

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)

Elosztott rendszer architektúrák

Multimédiás adatbázisok

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Országos Területrendezési Terv térképi mel ékleteinek WMS szolgáltatással történő elérése, Quantum GIS program alkalmazásával Útmutató 2010.

Internet és világháló

SZÓBELI ÉRETTSÉGI TÉMAKÖRÖK

Hálózatok állapotfelmérése - Integrált informatikai rendszer bevezetése az ELMŰ ÉMÁSZ társaságcsoportnál

Parametrikus tervezés

Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 0. A Wolfram Alpha tudásgép.

Felhasználói kézikönyv. Verzió: 1.01

Teszt generálás webes alkalmazásokhoz

API tervezése mobil környezetbe. gyakorlat

Intelligens adatelemzés

KUTATÁSTÁMOGATÁS SOROZAT. Felhasználói segédlet Academic Search Complete adatbázisban idézők kereséséhez

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs

FEJLETT INFORMÁCIÓKERESÉSI TECHNOLÓGIA A FELSŐOKTATÁSBAN

A Békés Megyei Könyvtár Elektronikus Könyvtárának kialakítása

Adatszerkezetek 1. előadás

Nemzeti Alaptanterv Informatika műveltségterület Munkaanyag március

Behatolás detektálás. Behatolás megel!zés. IDS rendszerek. Detektálás Eltérítés Elhárítás. (ellenlépések) Megel!z! csapás Küls! megel!

Multimédiás és webes adatbányászat KISS LÁSZLÓ

Tisztelt Felhasználó!

Nyilvántartási Rendszer

A DALNET24 projekt aktualitásai

Miért érdemes duplikált tartalmakkal és oldalakkal

Siki Zoltán DigiKom Kft. BME ÁFGT. KÖRINFO Konferencia május 28-án

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek

A J2EE fejlesztési si platform (application. model) 1.4 platform. Ficsor Lajos Általános Informatikai Tanszék Miskolci Egyetem

Információ és kommunikáció

MTMT adminisztrátori felület és teendők. Mátyás Melinda, Szabó Panna november 4. ELTE Egyetemi Könyvtár

VIR alapfogalmai. Előadásvázlat. dr. Kovács László

Hálózati réteg. WSN topológia. Útvonalválasztás.

Internet marketing, Google hirdetési, analitikai eszközök

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs

Big Data technológiai megoldások fejlesztése közvetlen mezőgazdasági tevékenységekhez

A vezetői jelentésrendszer alapjai. Információs igények, irányítás, informatikai támogatás

Keresımarketing. 1.1 PPC Pay per Click kampány

A Google jelenség technológiai október

Az adatbázisrendszerek világa

3D számítógépes geometria és alakzatrekonstrukció

Neurális hálózatok bemutató

A személyre szabás lehetőségei az internet és a mobiltelefon korában

Összeállította Horváth László egyetemi tanár

Virtuális Obszervatórium. Gombos Gergő

Komputeralgebra rendszerek

Információs társadalom

HELYI TANTERV. Informatika

április 24. INFO Savaria április 24. INFO Savaria április 24. INFO Savaria

Komputeralgebra rendszerek

Első lépések a KRÉTA-Poszeidon modul használatához. Gyors Áttekintő Segédlet

Felhasználói kézikönyv MAGYAR NEMZETI BANK. ERA keretrendszer

Földmérési és Távérzékelési Intézet

BEVEZETÉS AZ INTERNET ÉS A WORLD WIDE WEB VILÁGÁBA. Kvaszingerné Prantner Csilla, EKF

Statisztikai alap (2009) - main

SZABADSZAVAS KERESŐK RANGSOROLÁSA

ÉRETTSÉGI TÉTELCÍMEK 2018 Informatika

AZ INTERNET ÉS KERESŐESZKÖZEI

INFORMATIKA 5. évfolyam

WWW Kliens-szerver Alapfogalmak Technológiák Terv. Web programozás 1 / 31

Magyar Nemzeti Bank - Elektronikus Rendszer Hitelesített Adatok Fogadásához ERA. Elektronikus aláírás - felhasználói dokumentáció

Az Oracle Text további lehetőségei

PIAC_ Nemzetközi Határozatkereső rendszer fejlesztése. Szakmai fórum február 29.

Miért olyan fontos a minıségi pont?

Útmutató a MATARKA adatbázisból való adatátvételhez

HTML és CSS. Horváth Árpád május 6. Óbudai Egyetem Alba Regia M szaki Kar (AMK) Székesfehérvár

Önszerveződő adatbázisok

Statisztikai alap (2008) - main

Átírás:

Webtechnológiák Webes keresrendszerek Répási Tibor egyetemi tanársegéd Miskolc Egyetem,Gépészmérnöki kar, Infomatikai és Villamosmérnöki Tanszékcsoport (IVM) Általános Informatikai Tanszék Iroda: Inf.Int. 108. Tel: 2101 A keresés lehetsége egyids a hipertext ötlettel. Keresés a weben: Nagyon nagy adatmennyiség: nagyon sok oldal nagyon gyakori változás sok új oldal adatbázis jelleg keresés igénye hipertext tartalom: többnyire szöveg linkek a szövegben Webes keresrendszerek Webes keresrendszerek Adatbányászat: nagy adatmennyiségek strukturált adatok rejtett összefüggések felderítése Szövegbányászat: adatbányászat kiterjesztése strukturálatlan adatokra osztályozási, klaszterezési feladatok Web-bányászat: szövegbányászat kiterjesztése a web, szemi-strukturált, hipertext-rendszerére Keresmotorok feladatai: feldolgozandó dokumentumok kijelölése dokumentumok letöltése dokumentumok szóhalmazának elállítása dokumentumok metaadatainak elállítása dokumentumok hatákony tárolása keresési adatszótárak nyilvántartása keresésfeldolgozó megvalósítása keresési megaadatok feldolgozása

Webes keresrendszerek Webes keresrendszerek Minségi mérszámok: pontosság (precision): releváns válaszok aránya válasz dokumentumaihoz felidézés (recall): kiválaszott dokumentumok aránya a releváns dokumentumokhoz tartalomegyezés (exhaustivity): kiválasztott dokumentumok és a kereskifejezés egyezésének mértke kifejezer (power): a leíró kulcsszavak szelektivitásának és hosszának aránya eliminálhatóság (eliminalibity): irreleváns dokumentumok felismerhetsége érthetség (clarity): a kulcsszavak közérthetsége megjósolhatóság (predictability): keresési eredmények elrejelezhetsége Webes keresrendszerek Webrobot - begyjt A keresmotor felhasználói igényei: széleskörség: minden fontos weboldalt megtaláhasson naprakészség: az index legyen aktuális, kövesse nyomon a web változásait rangsorolás: a lekérdezés által kiválasztott dokumentumok legyenek rangsorolhatóak relevanciájuk szerint megjelenítés: eredmények megjelenítése legyen lényegre tör, informatív és használható Hármas szerep a web kapcsolatrendszerének felderítése dokumentumok letöltése indexelésre indexelt dokumentumok ismételt letöltése Teljes letöltés lehetetlen, a web mérete végtelennek tekinthet. A robotok korlátos erforrásokat igényelnek, mködésüket szabályozni kell.

Webrobot - begyjt Webrobot - begyjt Szabályozó elvek: kiválasztási elv (selection policy): mely dokumentumok töltsük le? újralátogatási elv (re-visit policy): melyik dokumentumot kell újra letölteni? udvariassági elv (politeness policy): milyen hatást gyakorolhat a robot a webre? párhuzamos feldolgozási elv (parallelization policy): párhuzamosan dolgozó robotok összehangolása kiválasztási elv: minden dokumentum tartalmaz linkeket minden link újabb dokumentumot tár fel Melyeket érdemes letölteni? Header-bl kiderül a tartalom típusa, nem szöveges tartalmat nem érdemes Headerek letöltésének csökkentésére vizsgáljuk az URL-t relevancia alapú kiválasztás Webrobot - begyjt Webrobot - begyjt Újralátogatási elv: az index naprakészsége múlik rajta nagyobb index --> több újralátogatás több újralátogatás --> kevesebb új dokumentum az újralátogatási arány igen érzékeny paramétere a keresrendszernek újralátogatás aging algoritmus alapján: uniform: minden dokumentum egyformán öregszik arányos: dokumentumonként hangolt újralátogatási gyakoriság Udvariassági elv: a robot sokkal gyorsabban olvas, mint az ember a robot nagyon kíváncsi két alapelv: a robot ne okozzon jelentsen nagyobb terhelést egy webszerveren, mint egy ember a weblap gazdájának legyen lehetsége a robotot befolyásolni (robots.txt, HTML fejrész)

Webrobot - begyjt Webrobot Párhuzamos feldolgozási elv: több robot --> nagyobb letöltési teljesítmény elosztott robotok --> elosztott hálózati terhelés többes letöltés veszélye a letöltend URL-eket hozzá kell rendelni a robotokhoz: dinamikus hozzárendelés statikus hozzárendelés Harvester típusú (aratórobot): nem csak az adott URL-t tölti le: inkrementálisan darabolja az URL-t www.uni-miskolc.hu/uni/dept/facilties/ www.uni-miskolc.hu/uni/dept/ www.uni-miskolc.hu/uni/ www.uni-miskolc.hu/ Crawler típusú (kúszórobot): az oldalon talált (in-site) linkeket is bejárja az off-site linkeket kigyjti késbbi feldolgozásra Indexelés Indexelés Kivonatolás: kulcsszavak kinyerése szelektivitás biztosítása Indexstruktúra: indexek hatékony tárolása kulcsszavak hozzárendelése dokumentumokhoz Dokumentum kivonatok tárolása. Technikák: Szó és kifejezés alapú szavak, kifejezések és azok pozícióját rögzíti az index Szöveg és metaadat alapú a dokumentum szavak halmaza, csak gyakoriság alapú index metaadatok: témakör (tagging), dokumentumszekciópozíció, formátuminformációk Tartalom és struktúra alapú a szöveg mellett a kapcsolatrendszer is számít

Keresés feldolgozás Rangsorolás Keresési szavakra illeszked dokumentumok kiválasztása: logikai kapcsolatok stopszavak szrése szemantikus kapcsolatok szinonimák kezelése gépelési hibák felismerése finomítható keresés Tucatnyi technika Kiválasztott dokumentumok rendezése Google PageRank: számítása: kulcsszavak gyakorisága hivatkozások (linkek) fontossága (PR) felkeresési gyakoriság (hitrate) véletlen szörföz modell kiválaszt egy lapot követheti a lap valamelyik linkjét, vagy új lapra ugorhat Deep web a mély háló A Google A mély háló (deep web): közvetlenül el nem érhet dokumentumok sziget dokumentumok lekérdezés eredményeként elállított dokumentumok dinamikusan (AJAX alkalmazásban) elállított dokumentumok Hagyományos robot számára elérhetetlen! Keresrendszerekben nem kereshet! kb. 20-25 milliárd indexelt dokumentum (2006) Googleplex: komplex hardver és szoftver környezet olcsó PC-k (száz-) ezreibl áll többszörösen redundáns, hierarchikus felépítés állományok tárolása 3-6 szoros redundancia operációs rendszere: testreszabott linux webszervere: GWS egy testreszabott apache

A Google A Google Indexelés: hibrid szó és dokumentum alapú: dokumentumok és azok metaadatai URL és dokumentumok összerendelési adatai szavak és metaadataik szavak elforulása Rangsorolás: kulcsszó gyakoriság felkeresési gyakoriság PageRank PageRank: Modellje a véletlen barangoló (random surfer) modell: kiválaszt egy URL-t véletlenszeren, linkeken lépeget tovább, véletlen számú (alfa faktor) lépés után abba hagyja és új dokumentumról indul újra. Egy oldal PageRank-je annak valószínsége, hogy a véletlen barangoló megtalálja. Számítása, regressziós képlet alapján az oldalra mutató linkek PageRank-kel súlyozott összege, az oldalról máshova mutató linkek összege. Keresoptimalizálás Keresoptimalizálás Célok: keres jól indexelje jó PageRank-et kapjon Elny: Keywords meta-mez szöveges tartalom kevés kimutató link (csak lényegesek!) rámutató linkek Felhasználói érdekldés Hátrány: szövegtartalom képekben (pl. menü gombok, flash menü) tartalom beágyazott objektumokban (applet, flash, activex, stb.) AJAX és minden asszinkron tartalom lekérdezés alapú hozzáférés Capcha ezek együttese!

Ajánlott irodalom Tikk Domonkos (szerk.) Szövegbányászat, Typotex kiadó, 2007