Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 0. Szemantikus Keresés A szintaktikai keresőktől a szemantikus keresőkig A szintaktikai keresés és a szemantikai keresés összevetése
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 1. A szintaktikai keresés és a szemantikai keresés összevetése Használom a Google-t mielőtt buta kérdéseket teszek fel.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 2. A szintaktikai keresés és a szemantikai keresés összevetése A Google - Egy szöveginput ablakot nyújt, melybe szabad formájú szöveges lekérdezést adhatunk be - Alapvetően kulcsszókeresésre alapozott dokumentumelőhívást végez - A keresőalgoritmus szöveg/mintaillesztésen, statisztikus gyakoriságokon és a Page-rank-on, az adott weblapra mutató hivatkozások számán alapszik - Némi enyhe szemantika felfedezhető: amikor ismert objektumokra, vagy publikus adatokra keresünk, a Google ismeri ezeket az entitástípusokat és tényszerű választ ad.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 3. A szintaktikai keresés és a szemantikai keresés összevetése Aktuális válaszok a tényszerű kérdésekre.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 4. A szintaktikai keresés és a szemantikai keresés összevetése Publikus adatok keresése
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 5. A szintaktikai keresés és a szemantikai keresés összevetése Publikus adatok összevetése
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 6. A szintaktikai keresés és a szemantikai keresés összevetése Az aktuális állapot - A keresők mai generációja eléggé korlátozott a felhasználó szándékainak és a webtartalomnak a megértésében - A szemantikus keresés nagyobb figyelmet kapott a múlt évben, elsősorban a Szemantikus Web egésze miatt - Maga a Szemantikus Keresés fogalma eléggé népszerű ahhoz, hogy túlhasználtnak tartsuk - Azonban általában ez olyan módszereket takar, amelyek a szintaktikus szint kulcsszóillesztését valamennyivel meghaladják
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 7. A szintaktikai keresés és a szemantikai keresés összevetése A szintaktikai és a szemantikai keresés - Szintaktikus keresés Tudja ellenőrizni a következőket: - a források szöveges tartalmának indexe - URI-k (URL-ek, URN-ek) a rendszerben - literálok az RDF metaadatban - vagy az előzőek kombinációja, lehetőleg a következőket felhasználva: - Exakt, prefix vagy résztring egyeztetés és szótövezés, vagy minimális szerkesztési távolság. - Szemantikus keresés a szintaktikus keresésen felül ellenőrzi: - a mondatok jelentésének indexelését - szemantikus tudás struktúráját és elemzését - az RDF metaadat gráfszerkezetét, - vagy az előzőek kombinációját, lehetőleg a következőket felhasználva: query expanzió, osztályozás/kategorizálás, tagging, gráfábrázolás, mikroformátumok, RDF, OWK következtetés
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 8. A szintaktikai keresés és a szemantikai keresés összevetése Meg tudja ezt a szemantikus keresés válaszolni? - Hello, Bob! Apa vagyok ismét. Van egy másik kérdésem az új számítógépemmel kapcsolatban. Tudom én rögzíteni a filmet a videomagnómon, majd átjátszani CD-re, utána emailhez csatolva átküldeni a bátyám mobiljára hogy csinálhasson egy másolatot róla a szomszéd gépére?
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 9. A szintaktikai keresés és a szemantikai keresés összevetése Szemantika és NLP - A szemantika a nyelvészet egy alterülete amely a jelentés tanulmányozására szolgál, ahogy szavakkal, kifejezésekkel, mondatokkal és még nagyobb szövegegységekkel kifejezzük - A természetes nyelv feldolgozás Natural Language Processing, NLP a mesterséges intelligencia és a számítógépes nyelvészet egy alterülete amely az emberi nyelv számítógéppel történő automatikus generálásának és megértésének a problémáját tanulmányozza - A Szemantikus NLP a fentieket integrálja, hogy a jelentést és megértést nyújtsa a számítógépes alkalmazás környezetén belül.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 10. A szintaktikai keresés és a szemantikai keresés összevetése A Szemantikus keresés általánosságban - Kollektív módszerek, melyek az egyes szavak és frázisok mögötti információt nézik - A szemantikus keresés módszerei eltérőek és a következő területek egy tartományát fedik le: - Információelőhívás, Természetes nyelv feldolgozás, Szemantikus elemzés, a Szemantikus WEB, Adatbázisok, Információkinyerés, Információ megjelenítés, stb. - A tartalom megértése a szemantikai szinten szintén lehetővé teszi hogy összegyűjtsünk, összehasonlítsunk és megokoljunk a tartalommal, mint strukturált adattal. - Megengedi az embereknek, hogy tetszőlegesen összetett kérdéseket begépeljenek, majd értelmezi azokat és végrehajtja.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 11. A szemantikus keresőgépek típusai - Szemantikus WEB keresők - a Szemantikus WEB adatain keresnek (RDF, OWL, stb.) - Szemantikailag továbbfejlesztett keresőmotorok - többnyire felnagyítják és finomítják a kijelzett eredményeket - NLP-alapú keresőgépek - főként a keresés indexelési és lekérdező oldalán dolgoznak - Szemantikus NLP alapú keresőgépek - szemantikai tudásszerkezeteket és elemzést alkalmaznak - Számítási-NLP alapú keresőgépek - egy következtetőgépet alkalmaznak amely következtetésre és számításokra is képes.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 12. A szemantikus keresőgépek típusai - Szemantikus WEB keresés (nem elemezzük) - a Szemantikus WEB adatain keresnek (RDF, OWL, stb.) - Szemantikailag továbbfejlesztett keresés (alig tárgyaljuk itt) - Google Orion, Yahoo!, SearchMonkey, MS Kumo (?), - NLP-alapú keresés - Meta web freebase, MS Powerset, - Szemantikus NLP alapú keresés - hakia, Cognition, (Readware?), - Számításos NLP alapú keresés - True Knowledge, (Wolfram Alpha?), -
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 13. Az itt használt minte lekérdezések - A lekérdezés magába foglalja a fogalmak kifejtését - Mesterséges intelligencia - A lekérdezés magába foglal többértelmű szavakat - Jaguar, Cycle - A lekérdezés magába foglal adatösszesítést - Mit csinált Albert Einstein? - A lekérdezés magába foglal következtetést - Mikor született Kalifornia kormányzója? - A lekérdezés magába foglal számítást - Mennyi a Miskolc - London távolság? -
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 14. A szintaktikai keresés és a szemantikai keresés összevetése Az itt használt minta lekérdezések eredményei Fogalomkifejtés Többértelműség Adatösszes. Következtetés Számítás
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 15. Szemantikailag továbbfejlesztett keresés Google Orion - Technológia, amely jobban megérti a keresésre vonatkozó az asszociációkat és a fogalmakat - Kapcsolódást talál a lekérdezések és a vonatkozó fogalmak között és azokat keresési finomításként prezentálja: - A lapokat valós időben szkenneli be a Google miután a lekérdezést beadtuk. - A fogalmilag és context alapján összefüggő oldalakat beazonosítja és növelt finomítással adja. - Hosszabb szövegrészleteket is ad (a kulcsszót közvetlenül tartalmazó részlet) amikor a felhasználó három, vagy többszavas lekérdezéseket ad be. -
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 16. A szintaktikai keresés és a szemantikai keresés összevetése Orion keresés általi finomítások
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 17. Yahoo! Search Monkey - A Search Monkey platform alapvetően a Semantic Web megközelítésen alapszik - A keresési eredmények megjelenítési plugin-ok segítségével változtathatók - A tartalomszolgáltatók vagy külső fejlesztők saját adatkinyerő szolgáltatásokat fejleszthetnek, mellyel kinyerik az adatokat a weboldalról - A kinyert sajátosságok definiálása után egy fejlettebb képernyő nyújtható
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 18. Yahoo! Search Monkey
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 19. NLP alapú keresés MetaWeb Freebase - Nyitott, megosztott adatbázis a világ tudásáról amely a webről gyűjti az adatokat, hogy egy masszív, együttműködően szerkesztett adatbázisát hozza létre a keresztbelinkelt adatokból - Bárki szabadon lekérdezhet, közreműködhet, építhet rá alkalmazást vagy beintegrálhatja a weboldalába - A hangsúly a komplex adatszerkezetek szervezésén és menedzselésén van Szemantikus Web technológiák felhasználásával - Lehetővé teszi rendezett tudás kinyerését az olyan káoszból, mint az aktuális web.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 20. NLP alapú keresés MetaWeb Freebase
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 21. A Freebase raktár - Témák milliói kategóriák százaiban - A Freebase strukturált információt tartalmaz sok népszerű témában, mint a mozi, zene, emberek és helyszínek, az összes összehangolt és szabadon elérhető - A alap a weboldal egy új fajtája amelyet a Freebase használatával bárki tud építeni; Egy olyan hely, ahol egy egyéni témáról szervezhetünk és oszthatunk meg információt - A Freebase két kereső interfésszel bír: - Free form queries; egy szövegkereső doboz - MQL (MetaWeb Query language) lekérdezések.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 22. A Freebase szerkezete - A Freebase átfedi a tartományokat, de igényli, hogy egy résztéma csak egyszer létezzen, még ha normálisan több bázisban is megtalálható - Pl. Arnold Schwarzeneggernek meg kellene jelennie a mozi bázisban, mint színész, a politikai bázisban, mint kormányzó és a testépítő bázisban mint Mr. Universe - A Freebase rendszerben csak egy téma van Arnold Schwarzenegger részére, de mind a három szegmenssel az ő személyéről, egyesítve.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 23. A Freebase és a Wikipédia összehasonlítása - A különbség az információtárolás módjában van - A Wikipédia az információt cikkekben rendezi el - A Freebase a tényeket és a statisztikákat listázza - A listaformája nem csak azon emberek számára jó, akik tényekkel akarnak tündökölni, de azoknak is, akik arra akarják használni az adatokat, hogy másik weboldalt / szoftvert fejlesszenek - A Freebase által lefedett témák magukba foglalnak olyan témákat is, melyek túl jelentéktelenek a Wikipédia számára.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 24. A lekérdezés magába foglalja a fogalmak kinyerését
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 25. A lekérdezés magába foglalja a többértelmű fogalmakat
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 26. A lekérdezés magába foglalja az adatok összesítését
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 27. A lekérdezés magába foglalja az adatok összesítését (2)
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 28 A lekérdezés magába foglalja a következtetést
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 29. A lekérdezés magába foglalja a számítást
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 30. Microsoft Powerset - Egy NLP alapú keresőgép - A Powerset elolvas és megért minden mondatot a weboldalon és lehetővé teszi a kérdezést normál angol nyelven - A Powerset keresési és felfedezési tapasztalata jelenleg a Wikipédia és a Freebase adatain alapszik - Nagy vonalakban, a Powerset megpróbálja egyeztetni a lekérdezésnek a jelentését a Wikipédia mondatainak jelentésével, ill. a Freebase tényeinek jelentésével
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 31. Microsoft Powerset - Éppen azt csinálja, mint az előadó Tudor nevű programja: L. Dudás: A Semantic-distance Based Sentence Searching System and a Few Possible Applications Proceedings of MicroCAD'2003 International Computer Science Conference, 6-7 March 2003, Section N, Miskolc pp.23-28 Wikipedia: Powerset is a Microsoft owned company based in San Francisco, California, that, in 2006, was developing a natural language search engine for the Internet On July 1, 2008, Microsoft signed an agreement to acquire Powerset for an estimated $100 million
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 32. Microsoft Powerset
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 33. Microsoft Powerset Szolgáltatások - A keresősorba beadhatunk kulcsszavakat, kifejezéseket, vagy egyszerűen kérdést. - A találati lapon a Powerset pontosabb válaszokat ad, gyakran közvetlenül megválaszolva a kérdést, és összesítve az információt több cikkből. - A Powerset technológiája a Wikipédia cikkeinek jobb elérését és bennük jobb navigálást eredményez.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 34. Microsoft Powerset Tények: Factz - A Factz tömör reprezentációja a mondatokból kinyert információnak - Három részből állnak: alany, reláció és tárgy (pl.: Oswald lelőtte Kennedyt.) - A Fatz nem ad mindig igazat, inkább előfelevéseket, melyek a Wikipédia szövegében vannak. - A kereési eredmény lapon általános témakeresésekhez is találunk eredményt, ezek a Wikipédia lapokról lettek kigyűjtve. - Egy egyedi témalapon a Factz az adott lapról kigyűjtött adatokat jeleníti meg.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 35. Microsoft Powerset Részlet az Eredmények lapról
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 36. Microsoft Powerset - A lekérdezés magába foglalja a fogalmak kinyerését is
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 37. Microsoft Powerset - A lekérdezés magába foglalja a kétértelmű szavak kezelését
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 38. Microsoft Powerset - A lekérdezés magába foglalja az adatok összesítését
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 39. Microsoft Powerset - A lekérdezés magába foglalja a következtetést
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 40. Microsoft Powerset - A lekérdezés magába foglalja a számítást
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 41. Szemantikus + NLP alapú keresőgépek - Ezek közé tartozik a Powersetre emlékeztető hakia, továbbá a Cognition. - Inkább jelentés, semmint kulcsszó alapú keresést folytatnak, Ontologia, Fuzzy logika, statisztikus nyelvészet alkalmazásával.