Bevezetés s a szemantikus technológi giákba
Szemantikus technológi giák Rendszerelemek jelentés logikai formula Elvárások logikai formula Az elvárások megvalósítása sa a rendszerelemek segíts tségével logikai következtetés Pl: Szemantikus integráci ció Szemantikus világh gháló
Cél: Szemantikus világh gháló Világh ghálón n elérhet rhető informáci ció gépi feldolgozásra alkalmassá tételetele A gép g p ne csak olvassa, értse is az informáci ciót Eszközök: k: Metainformáci ció társítás Ontológia giaépítés háttértudás s formalizálása Automatikus következtetk vetkeztetési módszerekm
A kurzus felépítése I. rész: r A szemantikus világh gháló alapjai A világh gháló napjainkban RDF metainformáci ciók RDFS egyszerű háttértudás s formalizálás RDF használata
A kurzus felépítése II. rész: r Ontológi giák és s leíró logikák Leíró logikák: k: AL, ALC, SHIQ TBox (Terminology Box) háttértudás ABox (Assertion Box) - metainformáci ciók Következtetés s leíró logikákon: kon: tabló alapú algoritmusok Egy egyszerű következtető megvalósítása sa Haskellben
A kurzus felépítése III. rész: r Ontológi giák k használata Ontológi giák k a Weben: OWL Web Ontology Language Protegé ontológia giaépítő eszköz A DLog Prolog alapú következtető rendszer
A Világh gháló napjainkban Heterogén n szemantikájú és s szintaktikájú dokumentumok Eltérő típusok (szöveg, kép, k hang, video ) Eltérő formátumok (pdf, ps, word, txt ) Eltérő nyelvek (magyar, angol, pascal, c ) c Nem ellenőrz rzött (bárki bármit b közzk zzétehet)
Keresés s a világh ghálón Oldalak begyűjt jtése (keresőbotok) Indexelés s (tárgymutat rgymutató készítés, s, fontos kifejezések kigyűjt jtése) Kérdés értelmezése, keresés s az indexben Találatok latok sorrendezése se és s visszaadása sa
Oldalak begyűjt jtése Hosszadalmas (rengeteg adat) Rendszeres frissités s szüks kséges Nincs link, nincs begyűjt jtés
Indexelés Dokumentum elemzése nehéz z feladat Mik a fontos kifejezések? Előbb meg kellene érteni Szavak gyakorisága ga jój heurisztika, de félrevezethet Gépelési hibák, nem szabványos html Eredménye egy jól l karbantartott, tömör, strukturált lt,, viszonylag kicsi adathamaz
Keresés Vektortér r modell Minden dokumentum és s a kérdk rdés s egy-egy vektornak felel meg Vektorok közti k távolst volságokat számítunk Természetes nyelven megfogalmazott kérdésre jój Kulcsszavas keresésre sre nem jój
Bool modell Keresés Csak azt figyeljük, hogy milyen kifejezések fordulnak elő az oldalon illetve a kérdk rdésben A hangsúly a keresés s utáni rangsoroláson son Rangsoroláshoz shoz különfk nféle heurisztikák Szavak gyakorisága, ga, előfordul fordulás s helye (cím, bevezetés), fontméret, szín, korábbi felhasználók k reakciói
Sorrendezés s linkstruktura alapján A fenti szempontok mind könnyen k manipulálhat lhatóakak Nehezen befolyásolhat solható kritériumok riumok előtérbe kerülnek Többet számít t az, amit más m s mond rólunk, r mint amit mi mondunk magunkról l (link körüli k szöveg) Az az oldal, amire többen t hivatkoznak, valósz színűleg értékesebb (csupán n linkstruktura alapján)
Mérőszámok a keresés jellemzésére Precizitás: : releváns visszadott / visszaadott Visszahívás: : releváns visszaadott / releváns Egymás s ellen dolgoznak Manapság g tipikusan Kis precizitás s (rengeteg érdektelen találat) lat) Nagy relevancia (ritka, hogy a számunkra fontos oldalat ne találja lja meg a kereső)
Problémák k a Webes kereséssel ssel Hatalmas és s változv ltozékony a világh gháló Mély Web Lekérdezhet rdezhető adatbázisban tárolt t tartalom (Web nagyrésze!!!) Nem szöveges tartalom Szemantika hiánya Jelentés s helyett szöveges alakkal dolgozunk Függ az informáci ció tényleges reprezentáci ciójától Nyelvi korlátok Képekhez, hangokhoz semmilyen jelentést nem tudunk társt rsítani Nem tudunk következtetni k (szinonimák, taxonómi miák)
Problémák k a Webes kereséssel ssel Megoldás Metakeresők: k: összevetjük k az eredményeket Fókuszált keresők: k: kisebb méret, m könnyebb k frissíteni, jobb precizitás és s visszahívás Szemantika megragadása
Szemantika megragadása Kézi indexelés Katalógust készk szítünk (YAHOO) Ember szolgáltatja ltatja a szemantikát Garantált minőség Lassú Mellékt ktémák k kimaradnak Következtetés s továbbra is hiányzik
Szemantika megragadása Helyezzünk el metainformáci ciót t a Weben Informáci ció,, mely informáci cióról l szól, leírja, hogy ez utóbbi miről l szól Pl. link egy másik m oldalról, l, szerző neve, dokumentum módosm dosítási si ideje Jelenleg a metainformáci ció is heterogén formában van
Szemantikus Világh gháló Az oldalakhoz kapcsolódó metainformáci ció és s a következtetk vetkeztetéshez szüks kséges háttértudás s egységes ges és s feldolgozható alakban törtt rténő leírása
Szemantikus Világh gháló Erőforr forrásainkhoz metaadatokat társt rsítunk Mi lehet erőforr forrás? Bármi, B ami egyedileg azonosíthat tható (egy honlap, honlap része, r kép p video, egy hardware eszköz, z, állomány) HTML-ben van metaadat: <META> tag Nagyon korlátozott, csak néhány n ny attribútum tum Csak a honlap egész széről l szólhat
Szemantikus Világh gháló A különfk nféle formátum tumú adatforrásaink számára lehetővé tesszük, hogy metaadatot szolgáltassanak ltassanak magukról A metaadat már m r egységes, ges, strukturált Géppel fel tudjuk dolgozni