Networkshop 2009. Szemantikusan annotált tartalom létrehozása intelligens szövegfeldolgozó eszközök támogatásával. Héder Mihály MTA SZTAKI

Hasonló dokumentumok
Szemantikusan annotált dokumentumok létrehozása szövegfeldolgozó eszközök támogatásával. Héder Mihály MTA SZTAKI.

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs

Hely- és kontextusfüggő alkalmazások fejlesztését támogató keretrendszer mobil környezetben

Fülöp Csaba, Kovács László, Micsik András

matematikus-informatikus szemével

Objektum Vezérelt Szoftverek Analízise

Szemantikus világháló a BME-n

Emerald: Integrált jogi modellező keretrendszer

Pozícióinformáció. Sikeres helyfüggő szolgáltatások mobilra

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs

Interaktív, grafikus környezet. Magasszintû alkalmazási nyelv (KAL) Integrált grafikus interface könyvtár. Intelligens kapcsolat más szoftverekkel

Steps Towards an Ontology Based Learning Environment. Anita Pintér Corvinno Technologia Transzfer Kft

Adatbázisok MSc. 12. téma. Ontológia és SPARQL

Bevezetés s a szemantikus technológi

Szemantikus technológiák területei. Rácz Gábor,

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Boros Andrea és Ignéczi Lilla Neumann-ház, Budapest. Networkshop 2004 konferencia Győr, április 4 7.

A szemantikus Web. Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 0.

Önálló labor feladatkiírásaim tavasz

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

A HUNGLISH PÁRHUZAMOS KORPUSZ

mikroformátumok avagy a kisbetűs szemantikus web SZÁNTAI KÁROLY Magyarországi Web Konferencia 2008

Ficsor Lajos Általános Informatikai Tanszék Miskolci Egyetem

Webkezdő. A modul célja

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Komplex feliratok készítése Maplex-el. Beke Dániel

A Szemantikus Web 2. Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 0.

Adatbázis rendszerek. 4. előadás Redundancia, normalizálás

3. modul - Szövegszerkesztés

Szolgáltatásintegráció (VIMIM234) tárgy bevezető

Kognitív megközelítés

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

SZEMANTIKUS WEB. Méréstechnika és Információs Rendszerek Tanszék

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)

Kiss Gergő, Kovács László, Micsik András, Moldován István

6. Óravázlat. frontális, irányított beszélgetés. projektor, vagy interaktív tábla az ismétléshez,

ECDL Információ és kommunikáció

Adatbázismodellek. 1. ábra Hierarchikus modell

Tudásalapú információ integráció

Intelligens biztonsági megoldások. Távfelügyelet

API-MÁGIA MILLIÓ SORNYI ADAT ÚJRARENDEZÉSE. Előadó: Jaksa Zsombor, drungli.com

Jelentésváltozás nélküli interkulturális üzenetváltások a neten

HELYI TANTERV / INFORMATIKA

Több zónás landing page sablonok

ADATBÁZIS-KEZELÉS. Relációs modell

Név: Neptun kód: április

MATEMATIK A 9. évfolyam. 2. modul: LOGIKA KÉSZÍTETTE: VIDRA GÁBOR

Adatbázisok-1 előadás Előadó: dr. Hajas Csilla

Elképzelés és megvalósítás. Linked Data. Linked Data. Felhasznált alapfogalmak (1)

Produktív környezetben használt, nyílt forráskódú komplex térinformatikai megoldások dr. Siki Zoltán

A Java EE 5 plattform

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

3. modul - Szövegszerkesztés

IT biztonsági keretek és követelmények. Budapesti Műszaki és. Informatikai Központ. Szigeti Szabolcs. Networkshop 2009

A Kárpát-medence interaktív irodalomtörténeti térképe

DSD. A W3C Magyar Iroda Akadálymentesítési Törekvései Pataki Máté, Kovács László

A szemantikus világháló oktatása

SZEMANTIKUS WEB. Integrációs és ellenőrzési technikák VIMIAC04, tavasz

Felkészítés a könyvtárhasználati tehetségfejlesztésre a Bod Péter Országos Könyvtárhasználati Verseny új koncepciójának tükrében MÓDSZEREK

Adatbázis rendszerek Definíciók:

Fontos tudnivalók az Önkiszolgáló Ügyfélportálról Tartalom

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Semantic Web. Gombos Gergő

Fogalomtár bevezetése a Magyar Telekomnál

Siket diákok egyéni különbségeinek vizsgálata az idegennyelv-tanulásban: Egy kérdőíves kutatás néhány eredménye

Szolgáltatásintegráció (VIMIM234) tárgy bevezető

Ötletek a magyar mint idegen nyelv tanításához feladattípusok szerint

DRUPAL 7. újdonságai. Hojtsy Gábor Drupal Hétvége, Budapest november 14. Angela Byron fóliái alapján

Szövetségi (föderatív) jogosultságkezelés

Web design. Accessibility

Elérhető szótárak a magyar nyelv oktatásában és használatában. M. P i n t é r T i b o r

SZOLGÁLATI TITOK! KORLÁTOZOTT TERJESZTÉSŰ!

Ungváry Rudolf: Relex Relációkat és lexikai egységeket kezelő névtérszerkesztő a weben

PClinuxOS Magazine szeptember

WWW Kliens-szerver Alapfogalmak Technológiák Terv. Web programozás 1 / 31

Programozási technikák Pál László. Sapientia EMTE, Csíkszereda, 2009/2010

Internet és világháló

Jelentésváltozás nélküli interkulturális üzenetváltások a neten

Informatikai alapismeretek Földtudományi BSC számára

Képszerkesztés. Letölthető mintafeladatok gyakorláshoz: Minta teszt 1 Minta teszt 2. A modul célja

Képzési projektterv felvétele Képző Szervezetek részére Kitöltési útmutató

Internet és világháló I-II. Forczek Erzsébet Orvosi Fizikai és Orvosi Informatikai Intézet

JavaScript bűvésztrükkök, avagy PDF olvasó és böngésző hackelés

Változások, tendenciák a bibliográfiai szolgáltatásban

Cikk előkalkuláció - Művelet - Egyéb fix és változó költségek

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

Adatbázis rendszerek. dr. Siki Zoltán

1. fejezet Bevezetés a web programozásába (Balássy György munkája) Az internet működése... 11

Gépekkel emberi nyelven

Kézikönyv. Szelekciós jegyzék létrehozása

Adatbázis, adatbázis-kezelő

Alap és legfontosabb cél. Továbbtanulás szempontjából. Speciális ismeretek, képességek

HELYI TANTERV. Informatika

Szolgáltatások és alkalmazások (VITMM131)

Rámpát a honlapokra úton az akadálymentes honlapok felé Pataki Máté

Új prezentáció létrehozása az alapértelmezés szerinti sablon alapján.

Átírás:

Networkshop 2009 Szemantikusan annotált tartalom létrehozása intelligens szövegfeldolgozó eszközök támogatásával Héder Mihály MTA SZTAKI mihaly.heder@sztaki.hu

Problémafelvetés

RDF RDF Hármas: Alany Reláció vagy tulajdonság Objektum vagy érték Az első és második tag egy Uniform Resource ( URI ) Identifier <Aladár>,<születési éve>,<1984> <Aladár>,<testvére>,<Béla> Reifikált állítások, kontextusok

Szemantikus annotáció formátumok HTML Metadata <META name="author" content="m Héder"> GRDDL grddl:transformation="glean_title.xsl http://www.w3.org/2001/sw/grddlwg/td/getauthor.xsl" RDFa <div xmlns:dc="http://purl.org/dc/elements/1.1/"> <h2 property="dc:title">the trouble with Bob</h2> <h3 about="#ch1" property="dc:creator">alice</h3> </div> Microformat: hcalendar, hcard

Annotáló eszközök Nagyon sok van A kicsit komplextől a nagyon komplexig terjed a skála COHSE Melita, AktiveDok, MnM Semantic MediaWiki Annotea, Annozilla Protégé, Amaya, Topbraid Komplexitás

Szemantikus Wikik Semantic Mediawiki, PHPWiki, IkeWiki, SWiM,MindWiki, Rhizome, SemperWiki, Confluence+wikidsmart '''Berlin''' is the capital of [[capital of::germany]] and also its largest city; the city is now home to [[population::3,391,407]], down from a peak of 4.5 million before [[World War II]]. It measures [[area::891.69 square kilometers]] and has the coordinates [[coordinates::52 31'N; 13 24'E]]. Berlin is located in the north of [[located in::germany]] [[Category:City]][[Category:sample pages]]

Szakértői eszközök Swedt (Eclipse), Apolda (GATE), Katia ( plugin Annotea, Amaya, Annozilla (Firefox Mangrove, Melita, ActiveDoc, MnM S-CREAM, OntoMat, QBLS, Cohse, MagPie, Smore OntoGloss, WebKB, Protégé, TopBraid

Így visszük be a szöveget

Docuphet - Áttekintés 1.A szöveg bevitele 2.A szöveg küldése AJAXszal 3.A szöveg elemzése 4.Javaslatok megfogalmazása 5.Felhasználói megerősítés 6.Annotáció elhelyezése

Formalizálás Információkeret - felismerés Az információkeret fogalma Egy RDF <alany,predikátum,tárgy> hármas, amely legalább egyik tagja ismert, a többit változónevek helyettesítik. Az ismeretlenek RDF típusa lehet ismert. Példa: <X(személy),született, D(dátum)> Feladat: Információkeret-példányokat felismerni azonosítani a szövegben ( formalizálni (+Szöveges kérdést

Információkeret-felismerés példa

Felismerési stratégiák: névelemek JNER névelemfelismerő keretrendszer Bemenet: tokenszekvencia Reguláris kifejezések, katalógusok, egyéb programok Példa: Információkeret: <#bekezdés1, kapcsolatos, Ybl Miklós>

Felismerési stratégiák: Mondathatár Feltevés: többismeretlenes információkeret egy mondaton belül JSentence szabályalapú mondathatárfelismerő.

Felismerési stratégiák: kategória Bármely (pl. hitec3) kategorizálómotor Információkeret: <#, kategória, életrajz>

Problémák, megfontolások Az annotációkat létrehozni könnyebb, mint karbantartani Mozgatási, szerkesztési problémák Mikor kell frissíteni?

Felmerülő probléma: változások kezelése Eredeti szöveg: A policisztás ovárium szindróma definíciója - szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg Új szöveg: A policisztás ovárium szindróma korábbi definíciója szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg szöveg Általában: Elírás javítása, paragrafusok felcserélése, copy-paste... Mi történjen az annotációkkal?

Robusztus Annotációk ( Bodain-Robert ) Robusztus horgonyok Részletek elrejtése: elsősorban a szöveg Tetszőleges ontológia Tetszőleges granularitás Frissítések kezelése

Megerősítéses annotációval kapcsolatos javaslatok Ugyanazt a kérdést soha ne tegyük fel kétszer Minden (elutasított/elfogadott) javaslatot tárolni kell (Hogyan értelmezzük az elutasított (? javaslatokat Ne tegyünk fel egyszerre sok kérdést Vezessünk be annotáció típusokat a frissítés szükségessége szerint: egyszerű összetett

Annotáció-típusok Egyszerű: Tartalma csak az annotált szövegrésztől függ. Csak akkor kell felülvizsgálni, ha ez változik, pl.: <Ybl Miklós, szófaj, személynév> Származtatott Függ másik (egyszerű vagy származtatott) annotációtól, vagy egyéb feltételtől. Módosítani kell minden esetben, ha a függőségi gráf bármely eleme módosult.

Többismeretlenes, származtatott információkeretek Névelemfelismerés + keretfelismerés Egy mondaton vagy paragrafuson belül Példa:

Alkalmazási példák BioBase - nevek, alany - születési adatok - foglalkozás - stb... FlatBase - hely, utcaszinten - típus - fűtés típus - stb...

Összefoglalás A szöveges kérdések miatt a lehető legszélesebb felhasználói célcsoport Nem építünk ontológiát, fix keretek, korlátozott domain Korpusz hiányában nehéz mérni a pontosságot/felidézést Az alapfunkciók (névelemek, semantic role labeling) általánosan is használhatóak

Továbbfejlesztés Több domain feldolgozása, FrameNet adatbázis felhasználása Wikipedia szerkesztő -alternatív szerkesztő -infoboxok kitöltése

Networkshop 2009 Köszönöm a figyelmet! Kérdések?

Adatbázisos és szöveges adat A (relációs) adatbázisok adatainak általában van valamilyen szemantikája, mert lehet tudni, hogy mi az oszlopok jelentése - lásd még: mélyhálós keresés A szöveges adattal kapcsolatban alapvetően nem állnak rendelkezésre szemantikus adatok De a dokumentumokat el lehet látni annotációkkal

DCE - Screenshot

Frame Semantics Szemantikus keretek illesztése a mondatokra Tervez keret: frame(tervez), inherit(alkot), frame_elements(tervező (=ALKOTÓ), ÉPÜLET(=MŰ) ), ( ÉPÜLET scenes(tervező tervez FrameNet projekt (Berkeley), NewsPro Projekt (MTA NYI, Szegedi TE, Morphologic, Magyar (. I Gallup Ez az válhat az információkeretek felismerésének általános módjává

Felismerési Stratégiák Semantic Role Labeling A szöveg nyelvtani elemzése, a szemantikus szerepek felismerése: Ybl alany,cselekvő személy,agent az Operaházat tárgy,object 1879-ben időhatározó,date tervezte. állítmány, tervez ige, múltidő, egyes szám

BioBase

FlatBase

Szemantikus Web Miről szól? A gépek (alkalmazások) legyenek képesek érteni egymás adatait Okosabb keresés Következtetések - ontológiák segítségével