Intelligens elektronikus szótár és lexikai adatbázis



Hasonló dokumentumok
Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

SZÖVEGES LEJEGYZÉSBŐL NYELVI ADATBÁZIS

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Lexikon és nyelvtechnológia Földesi András /

Mezőgazdasági külső információs rendszerek fejlesztése

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Különírás-egybeírás automatikusan

Dokumentumformátumok Jelölő nyelvek XML XML. Sass Bálint Bevezetés a nyelvtechnológiába 2. gyakorlat szeptember 20.

Az XCZ állományban szereplő állományok nevének UTF-8 kódolásúnak kell lennie. Probléma esetén használjon ékezet nélküli állományneveket.

Önálló labor feladatkiírásaim tavasz

Fülöp Csaba, Kovács László, Micsik András

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola


CAD Rendszerek I. Sajátosság alapú tervezés - Szinkron modellezés

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Nyelv-ész-gép Új technológiák az információs társadalomban

EGY MÓDSZERTANI KÍSÉRLET A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES MEGJELENÍTÉSE

A vezetői jelentésrendszer alapjai. Információs igények, irányítás, informatikai támogatás

NAV online számla regisztráció SAP rendszerhez

Nyilvántartási Rendszer

A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES FELDOLGOZÁSA: ADATMODELLEZÉS ÉS SZABVÁNYOK

Érettségi eredmények 2005-től (Békéscsabai Andrássy Gyula Gimnázium és Kollégium)

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Logikai adatmodell kialakítása

Az adatbázisrendszerek világa

A DALNET24 projekt aktualitásai

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs

Egy szónak is száz a vége

API tervezése mobil környezetbe. gyakorlat

ÍTÉLETKALKULUS (NULLADRENDŰ LOGIKA)

Mesterséges Intelligencia Elektronikus Almanach

Megújult az ARTISJUS Szerzői Információs Rendszere (SZIR) Online adatszolgáltatás szerzőknek bármikor, bárhonnan

Közigazgatási informatika tantárgyból

Vetési Albert Gimnázium, Veszprém. Didaktikai feladatok. INFORMÁCIÓTECHNOLÓGIAI ALAPISMERETEK (10 óra)

2 Access 2016 zsebkönyv

Elektronikus Információs és Nyilvántartási Rendszer a Doktori Iskolák fiatal kutatói részére

Hamburger György, PTE Egyetemi Könyvtár informatikai osztályvezető

Szalai Ferenc

Információ (jelentés) Adat (reprezentáció) Hagyományos megvalósítás. Személyes/szervezeti információ

Elosztott rendszerek


Adatbázis rendszerek I

Egy szónak is száz a vége

Célkitűzések Az Oracle10 g felépítésének, használatának alapszíntű megismerése

BOC Information Technologies Consulting GmbH. Minőségmenedzsment

Tudásalapú információ integráció

SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb.

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

Név: Neptun kód: április

Egy informatikai tankönyv bemutatása, kritikája

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

Korpuszlekérdezők evolúciója

Az előadás célja. Információrendszer fejlesztés módszertana, Dr. Molnár Bálint egyetemi docens 1

LEADER. Helyi Fejlesztési Stratégiák. tervezését támogató alkalmazás

Szakdolgozat feltöltési útmutató

A Mazsola KORPUSZLEKÉRDEZŐ

FORD B-MAX BMAX_2014_V3_Cover.indd /10/ :32:13

A szoftver-folyamat. Szoftver életciklus modellek. Szoftver-technológia I. Irodalom

Név: Neptun kód: május 23. Komplex MI alkalmazások vizsga Rendelkezésre álló idő: 75 perc 1. Vizsgálja meg a következő RDF leírást:

A genetikus algoritmus, mint a részletes modell többszempontú és többérdekű "optimálásának" általános és robosztus módszere

Java Server Pages - JSP. Web Technológiák. Java Server Pages - JSP. JSP lapok életciklusa

Hálózat hidraulikai modell integrálása a Soproni Vízmű Zrt. térinformatikai rendszerébe

Tanítja: JUHÁSZ ORSOLYA. Vetési Albert Gimnázium, Veszprém. Didaktikai feladatok. INFORMÁCIÓTECHNOLÓGIAI ALAPISMERETEK (13 óra)

A digitális korszak kihívásai és módszerei az egyetemi oktatásban

A szemantikus világháló oktatása

XML alapú adatbázis-kezelés. (Katona Endre diái alapján)

Tartalomjegyzék. Köszönetnyilvánítás. 1. Az alapok 1

PÁRHUZAMOS IGEI SZERKEZETEK

EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA

ADATBÁZIS-KEZELÉS. Modellek

Hitelintézeti Szemle Lektori útmutató

Adatszolgáltatás a Postai Informatikai Rendszer számára. Dr. Nyuli Attila Alkalmazásfejlesztési és Üzemeltetési Osztály

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

Ungváry Rudolf: Tezauruszok mint kisvilágok. Kapcsoltság a fogalmak között

TÉRINFORMATIKAI ALGORITMUSOK

A CMMI alapú szoftverfejlesztési folyamat

Interaktív controlling egy tradicionális intézményben

A PiFast program használata. Nagy Lajos

Számítógépes Hálózatok. 3. gyakorlat

A Magyar Nemzeti Múzeum, mint szabványos alapokra helyezett magyar múzeumi aggregátor

Marton József BME-TMIT. Adatbázisok VITMAB november 11.

Új fejlesztések, együttműködések a Magyar Elektronikus Könyvtárban, 2011-ben

Intelligens partner rendszer virtuális kórházi osztály megvalósításához

Dr. Szaló Péter területrendezési és építésügyi helyettes államtitkár

Földmérési és Távérzékelési Intézet

Adatbázisok MSc. 12. téma. Ontológia és SPARQL

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / Mezei Ferenc üzletág-igazgató

IV/4. sz. melléklet: Kontrolling és döntéstámogatás funkcionális specifikáció

Clang Static Analyzer belülről

7. BINÁRIS FÁK 7.1. A bináris fa absztrakt adattípus 7.2. A bináris fa absztrakt adatszerkezet

Vezetői információs rendszerek

Forrás és idéző közlemények felvitele importtal

Temporális adatbázisok. Kunok Balázs szakdolgozata alapján

Elnevezési rendszerek. 7. előadás

Átírás:

Intelligens elektronikus szótár és lexikai adatbázis IHM-ITEM 48/2002 Oravecz Csaba MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály oravecz@nytud.hu

Bevezetés a jelenlegi helyzet: nincs az informatikai rendszerekben alkalmazható, megfelelő kifejtettségű nyelvi információt tartalmazó elektronikus szótár, lexikai adatbázis cél: nagyméretű lexikai adatbázis (LAB) kifejlesztése kiindulópont: tartalmi: Magyar értelmező kéziszótár (ÉKsz.) átdolgozott változat; kb. 70.000 címszó technológiai: CONCEDE (Consortium for Central European Dictionary Encoding) COPERNICUS projekt eszköz: CONCEDE technológia + humán erőforrás

Szótárak és lexikai adatbázisok könyv alakú szótár a nyelvet értő emberi olvasásra készült egyedi szerkezeti felépítésű szerkezeti elemek jelölése tipográfiai jegyekkel erősen tömörített, nehezen formalizálható információ szerkezeti, tartalmi, tipográfiai hibákkal

Szótárak és lexikai adatbázisok géppel olvasható szótár lényegében papírszótár vmilyen elektronikus formátumban nagyszámú szerkezeti elem egyértelmű interpretáció nélkül lexikai adatbázis (LAB) sztenderdizált, jól definiált szerkezet elkülönített szerkezeti és tartalmi elemek nyelvtechnológiai szempontból releváns információ kevés elem, jól definiált interpretációval előállítás: tartalmi és szerkezeti explikációval (up-translation)

Az ÉKsz könyvváltozata hegedül tn és ts ige 1. Hegedűn játszik (vmit). 2. vál <Tücsök> ciripel. felépítés: címszó szótári alak; bevezető rész; értelmező és szemléltető rész információ feldolgozása, "kinyerése": a nyelvet (és a használati útmutatót is) jól ismerő olvasó által a címszó lineáris feldolgozása során végzett számos implicit "nyelvfeldolgozó", értelmező művelet (pl. tömörítések feloldása)

Az ÉKsz könyvváltozata hegedül tn és ts ige 1. Hegedűn játszik (vmit). 2. vál <Tücsök> ciripel. felépítés: címszó szótári alak; bevezető rész; értelmező és szemléltető rész információ feldolgozása, "kinyerése": a nyelvet (és a használati útmutatót is) jól ismerő olvasó által a címszó lineáris feldolgozása során végzett számos implicit "nyelvfeldolgozó", értelmező művelet (pl. tömörítések feloldása)

Az ÉKsz könyvváltozata hegedül tn és ts ige 1. Hegedűn játszik (vmit). 2. vál <Tücsök> ciripel. felépítés: címszó szótári alak; bevezető rész; értelmező és szemléltető rész információ feldolgozása, "kinyerése": a nyelvet (és a használati útmutatót is) jól ismerő olvasó által a címszó lineáris feldolgozása során végzett számos implicit "nyelvfeldolgozó", értelmező művelet (pl. tömörítések feloldása)

Az ÉKsz könyvváltozata hegedül tn és ts ige 1. Hegedűn játszik (vmit). 2. vál <Tücsök> ciripel. felépítés: címszó szótári alak; bevezető rész; értelmező és szemléltető rész információ feldolgozása, "kinyerése": a nyelvet (és a használati útmutatót is) jól ismerő olvasó által a címszó lineáris feldolgozása során végzett számos implicit "nyelvfeldolgozó", értelmező művelet (pl. tömörítések feloldása)

Az első elektronikus változat Példa \entry{\lemma{hegedül\qlemma} \gramgrp{\subc{tn\qsubc} \pos{ige\qpos}\qgramgrp} \es{} \gramgrp{\subc{ts\qsubc} \pos{ige\qpos}\qgramgrp} \sense{\num{1.} \defi{hegedűn játszik \hint{vmit\qhint}.\qdefi} \qsense{1.}} \sense{\num{2.} \usg{vál\qusg} \defi{\gloss{tücsök\qgloss} ciripel.\qdefi} \qsense{2.}} \qentry}

Az első elektronikus változat félúton a papírszótár és a géppel olvasható szótár között kísérlet a címszó elemeinek és a köztük lévő hierarchikus viszonyoknak a leképezésére következetlen kódolás, nehezen azonosítható hibák gépi ellenőrzés nem alkalmazható

A géppel olvasható szótár az ÉKsz elektronikus változata, ezért ugyanabban a lineáris és tömörített formában hordozza az információt tipográfia még mindig elsődleges szabványos XML kódolású szócikkelemek elemszerkezet DTD által meghatározott "megengedő" DTD, nagyszámú elem, nem egyértelmű interpretáció

A kiinduló XML változat Példa <entry id="id-1300300"> <lemma>hegedül</lemma> <gramgrp> <subc>tn <logi type="es"/> ts</subc> <pos>ige</pos> </gramgrp> <sensevar> <def>hegedűn játszik <hint>vmit</hint>.</def> </sensevar> <sensevar> <usg>vál</usg> <def><gloss>tücsök</gloss> ciripel.</def> </sensevar> </entry>

Szócikkszerkezet DTD: kiterjesztett környezetfüggetlen nyelvtan (ECFG) leírt szerkezet egy fában ábrázolható lemma subc entry gramgrp sensevar sensevar pos def usg def 1. ábra. A példaszócikk elemágrajza.

Szócikkszerkezet a szócikk emberi feldolgozásának gépi modellje (információkinyerés): fabejárás problémák: milyen elemek vezetnek be új információs csomópontot? hogyan "áramlik" az információ egyik csomópontról a másikra? (szülő csomópontról öröklődik SUBC??) def: hegedűn játszik (vmit) lemma: hegedül pos: ige subc: tn,ts usg: vál def: <tücsök> ciripel

Szócikkszerkezet a szócikk emberi feldolgozásának gépi modellje (információkinyerés): fabejárás problémák: milyen elemek vezetnek be új információs csomópontot? hogyan "áramlik" az információ egyik csomópontról a másikra? (szülő csomópontról öröklődik SUBC??) def: hegedűn játszik (vmit) subc: tn,ts?? lemma: hegedül pos: ige subc: tn,ts usg: vál def: <tücsök> ciripel subc: tn,ts??

A lexikai adatbázis szerkezeti elem: információs csomópontot reprezentál (STRUC) értelmezés: diszjunktív; az adott címszó egy-egy elemi használati módját reprezentálja tartalmi elemek: információt hordoznak (jegy-érték reprezentációban: jegy = elem neve; érték = elem tartalma) értelmezés: konjunktív; egy szerkezeti elem közvetlen leszármazott tartalmi elemei által hordozott információ mind érvényes az adott csomópontban

A lexikai adatbázis információáramlás: öröklődés a csomópontok között kumulatív: a csomópontok bejárása során az azonos jegyek értéke összeadódik (pl. USG?) felülíró: az azonos jegyek közül az adott csomópontban a legközelebbi értéke érvényes tartalmi elemek meghatározása: azon információtípusok, ahol a felülírás nem áll fenn, különböző elemekként jelennek meg (USG REG, GEO, DOMAIN stb.) egymást felülíró információtípusok: azonos elem különböző tartalom (POS, SUBC stb)

Az adatbázis formátum Példa <entry id="hegedül.1"> <hw>hegedül</hw><orth>hegedül</orth><pos>ige</pos> <struc id="hegedül.1.1" type="sense"> <subc>tn</subc> <def>hegedűn játszik</def> </struc> <struc id="hegedül.1.2" type="sense"> <subc>ts</subc> <def>hegedűn játszik <obj/></def> </struc> <struc id="hegedül.1.3" type="sense"> <subc>tn</subc><reg>vál</reg><agent>tücsök</agent> <def>ciripel</def> </struc> </entry>

Szócikkszerkezet a LAB-ban hw orth pos struc (1) entry struc (2) struc (3) subc (tn) def subc (ts) def subc (tn) reg agent def 2. ábra. A példaszócikk elemágrajza a LAB-ban.

Szócikkszerkezet a LAB-ban subc: tn def: hegedűn játszik hw: hegedül orth: hegedül pos: ige subc: ts def: hegedűn játszik OBJ subc: tn usg: vál agent: tücsök def: ciripel 3. ábra. A fabejárás során kiolvasható információ a LAB-ban.

Információkinyerés a LAB-ból a szócikkszerkezet minden egyes csomópontjához egyértelmű és kimerítő információ tartozik

Információkinyerés a LAB-ból a szócikkszerkezet minden egyes csomópontjához egyértelmű és kimerítő információ tartozik 1. az adott csomópontnál van megadva

Információkinyerés a LAB-ból a szócikkszerkezet minden egyes csomópontjához egyértelmű és kimerítő információ tartozik 1. az adott csomópontnál van megadva 2. öröklődik magasabb csomópontból

Információkinyerés a LAB-ból a szócikkszerkezet minden egyes csomópontjához egyértelmű és kimerítő információ tartozik 1. az adott csomópontnál van megadva 2. öröklődik magasabb csomópontból minél alacsonyabb szintű csomópont a fában, annál specifikusabb információt tartalmaz az adott címszó egy elemi használatáról

Információkinyerés a LAB-ból hw: hegedül orth: hegedül pos: ige subc: tn def: hegedűn játszik subc: ts def: hegedűn játszik vmit subc: tn usg: vál agent: tücsök def: ciripel

Információkinyerés a LAB-ból subc: tn def: hegedűn játszik hw: hegedül orth: hegedül pos: ige subc: tn def: hegedűn játszik vmit ö hw: hegedül subc: tn usg: vál agent: tücsök def: ciripel

Információkinyerés a LAB-ból subc: tn def: hegedűn játszik hw: hegedül orth: hegedül pos: ige subc: tn def: hegedűn játszik vmit örö hw: hegedül orth: hegedül subc: tn usg: vál agent: tücsök def: ciripel

Információkinyerés a LAB-ból subc: tn def: hegedűn játszik hw: hegedül orth: hegedül pos: ige subc: tn def: hegedűn játszik vmit örököl hw: hegedül orth: hegedül pos: ige subc: tn usg: vál agent: tücsök def: ciripel

Feladatok a LAB kialakítása során tipográfiai szempontú kódolás átalakítása (különböző elemek azonos tipográfiával következetlen kódolás) szótári tömörítés feloldása szerkezeti (v.ö. "hegedül") tartalmi bronz... 1. Réznek és ónnak az ötvözete.... 2. biz Ebből készült (mű)tárgy, kül. érem. ad... Vmire v. vminek adja magát v. a fejét: vmire szánja, ill. vminek átengedi magát.

Feladatok a LAB kialakítása során nem releváns információ törlése (központozás, nyelvhelyességi "útmutató"), hibajavítás validáció szerkezeti: XML validáló elemző tartalmi: manuális ellenőrzés kiválasztott elemeken

A projekt várható eredménye nagyméretű, szabványos formátumú lexikai adatbázis explicit, jól definiált, géppel értelmezhető reprezentáció számítógépes nyelvfeldolgozó alkalmazások alapja hálózati lekérdező felület strukturált formában kinyerhető információ többszempontú lekérdezési lehetőség

VÉGE Typeset by FoilTEX Powered by Linux