Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 0. A szemantikus Web
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 1. A hagyományos Web jellemzői Exponenciális sebességű gyarapodás: napi 3 milliárd tartalom megosztása, benne 250 millió kép, 200 millió tweet a Twitteren, stb. The Big Data: Hatalmas tárolt adatmennyiség: 1 milliárd kép, 23 Mrd Google-indexált weblap Különleges indexelő technikák a gyors kereshetőséghez
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 2. Hagyományos keresés a Weben Keresés speciális indexeléssel: A Google kb. 100 tényezőt elemez a weboldalon a PageRank számításakor, hogy megállapítsa, az oldal mennyire felel meg a keresési feltételeknek. Faktorok: az oldal népszerűsége, a keresett szó gyakorisága és pozíciója a weboldalon, egymáshoz való közelségük, a kereső személy profiljának aktuális jellemzői, stb.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 3. Hagyományos keresés a Weben A Google szabadalmaztatott keresőtechnikát alkalmaz:
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 4. Hagyományos keresés a Weben A gond: A keresés jóformán csak szintaktikai elemeket tartalmaz. A jelentés szintjei: - szintaktikai - szemantikai - pragmatikus - intencionális Irma: Frédi ugyanúgy dohányzott, mint Te! Béni: Miért, mi van vele? Irma: Tüdőrák. Feldobta a bocskorát.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 5. Hagyományos keresés a Weben Feldobta a bocskorát jelentése a különféle szinteken: - Szintaktikai: Múlt idejű állítmány és tárgy. - Szemantikai: Felhajította a lábbelijét. - Pragmatikai: Meghalt - Intencionális: Ne dohányozz, mert Te is úgy jársz! A hagyományos webkeresők (Google, Bing, Yahoo) gyakorlatilag csak szintaktikai szinten keresnek. Nem értik a kérdést, nem látnak a sorok mögé. Csak a szavak egyezését nézik. akar = akár
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 6. Hagyományos keresés a Weben A számítógép még nem érti, mit kérdezünk tőle Forrás: Szemantikus web, folkszonómia, taxonómia http://tarsadalominformatika.elte.hu/tananyagok/trendkutatas/lecke4_lap1.html
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 7. Hagyományos keresés a Weben A nemértés oka: A html dokumentumleíró nyelv, nem tárolja az információstruktúrát. Ahhoz, hogy a gép értse a kérdést, a tartalmakhoz járulékos adatokat, az adatokra vonatkozó metaadatokat kell csatolni. Metaadatok: az adat kategóriája, típusa, kapcsolódásai, forrása, stb. A metaadatok megteremtik az adatok kapcsolatbahozásának, besorolásának, szinonímája megtalálásának, stb. lehetőségét. A kereső mélyebb elemzéseket végezhet.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 8. A komolyabb kérdések megválaszolása igényli a Weben tárolt adatok kombinálását: - az információösszetevők több oldalon elosztva találhatók meg - az információösszetevők eltérő adatbázisokban tárolódnak, stb. Pl. Ki a barátnője a G1BG3 legjobb fiú tanulójának? - barátnő a fotón - legjobb tanuló a Neptun nyilvántartásban. Az embereknek nem gond ilyen kérdések megválaszolása, mert - könnyen kezelik a hasonló jelentésű szavakat - könnyen értelmezik a képeket - boldogulnak hiányos, vagy sérült információkkal is.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 9. Valamilyen más adatszervezésre van szükség a Weben: - Szemantikus Web-re! Mi a Szemantikus Web? Tim Berners Lee: olyan adattárolási forma, amely a nyers adatokat kiegészítő metaadatok révén a ráépülő alkalmazásokkal lehetővé teszi a tárolt adatok integrálását, az adatok által reprezentált jelentés megragadását és felhasználását. Meg kell jegyezni, hogy a mesterséges metaadat hozzáadással szemben vannak szkeptikus vélemények is, melyet a tárgy előadója is oszt, hiszen a jelentés benne van a szövegkörnyezetben, tágabb értelemben az adathoz kapcsolódó összes jellemző halmazában.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 10. Az ördög a részletekben lakozik. - egy közös modellt kell a gépek számára nyújtani az adatok és kapcsolataik leírására, lekérdezéséhez, stb. - a fogalmak osztályozása nagyon komplex feladattá válhat bizonyos tudásterületeken, és ezek azok a szituációk, amikor az ún. ontológiák, tezauruszok, stb. elengedhetetlenek.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 11. A szemantikus web létrehozása és keresés rajta 1. Képezzük le a változatos adatokat egy egységes absztrakt adatreprezentációval 2. Hozzuk kapcsolatba a kialakult reprezentációkat 3. Kezdjünk el lekérdezéseket az ily módon kialakult adatszerkezeteken! A metaadatok támogatják és teszik lehetővé ezt az eljárást.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 12. Egyszerű példa könyvesbolt adatbázissal Adatkészlet A :
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 13. Az egységes szemléltetéshez használjunk RDS (Resource Description Framework) keretrendszert! Az RDS egy triplet, melynek elemei: alany, állítmány, tárgy. Az állítmányt helyettesítheti tulajdonság. Pl: Pista szereti Gizit Pista jegye jeles A tripleteket az alanytól a tárgy felé mutató, az állítmánnyal felcímkézett nyíllal szokták ábrázolni. Pista szereti Gizit
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 14. A könyvesbolti példa leképezése:
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 15. A gráf csomópontjai a weben fellelhető erőforrások: URI-k, Uniform Resource Identifier-ek, melyek lehetnek URL-ek, vagy szövegek. Egy gráf leképezheti csak egy részletét is az adathalmaznak. Adatkészlet F :
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 16. Reprezentáljuk a második adatkészletet:
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 17. Egyesítsük a lekérdezéshez az adatokat:
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 18. Egyesítsük a lekérdezéshez az adatokat.. Azonos Azonos erőforrás
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 19. Egyesített adatokkal:
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 20. Az A adatkészlet tulajdonosa most kérdezhet ilyet: Add meg a címét (Title) az Eredetinek (Original) Ez az információ nem található meg az A adatkészletben de megtalálható a hozzákötött F ben!
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 21. De több is kinyerhető: érezzük, hogy az a:author és az f:auteur ugyanaz. De egy automatikus egyesítés nem tudja ezt! Adjunk némi többlet információt az egyesített adatokhoz: - a:author ugyanaz mint f:auteur mindkettő egy Person -t azonosít - egy fogalmat, melyet a közösség már definiált: - egy Person egyértelműen azonosított a nevével és, mondjuk a homepage-ével - ez bizonyos erőforrások számára kategóriaként használható
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 22. Aknázzuk ki a többlet tudást!.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 23. Végezzünk gazdagabb lekérdezést! - Az F most kérdezheti: donnes-moi la page d accueil de l auditeur de l originale - nos give me the homepage of the original s auteur Az információ nem található sem az A, sem az F adatkészletben - de az A és F egyesítése révén elérhetővé vált - hozzáadva három egyszerű állítást mint egy ragasztót.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 24. Eltérő adatkészletekkel történő kombinálás A Person használatával pl. az adatkészletet más külső adatkészletekkel kombinálhatjuk. Például, a Wikipédiában található adat kinyerhető dedikált szoftvereszközökkel - pl. a dbpedia project már képes kinyerni az infobox információt a Wikipédiából
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 25. A Wikipédia adattal egyesítve.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 26. A Wikipédia adattal egyesítve...
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 27. A Wikipédia adattal egyesítve...
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 28. Meglepő? Annak néz ki, de nem kellene meglepőnek lennie. Minden nap ez történt az automata erőforrások révén a Web használóknál. Az eltérés: egy kis többlet, hogy a gépek szintén meg tudják ezt csinálni.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 29. Mit is csináltunk? Különféle adatkészleteket kombináltunk, amelyek - megtalálhatók valahol a weben, - eltérő formátumúak (mysql, Excel sheet, XHTML, stb.) - különböző neveket használnak a kapcsolatokra. Kombinálhattuk az adatokat, mert egyes URI-k azonosak voltak (jelen esetben az ISBN-ek) Hozzá tudtunk adni egy kis extra információt (ragasztóként), valószínűleg általános technikákat alkalmazva, melyet a közösség hozott létre Ezek eredményeként új kapcsolatokat találtunk és hívtunk elő.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 30. És ez még többre is képes lehet Az egyesített adatkészletekhez többlet tudást adhatunk - pl. a teljes osztályozását különféle könyvtári adatoknak Ez az a terület, ahol az ontológiák, extra szabályok stb. szerephez jutnak És még erőteljesebb lekérdezések is elvégezhetők ezeknek köszönhetően.