Magyar WordNet: az első magyar lexikális szemantikai adatbázis 1

Hasonló dokumentumok
Magyar főnévi WordNet-ontológia létrehozása automatikus módszerekkel

Főnevek a Magyar WordNetben

A Mazsola KORPUSZLEKÉRDEZŐ

YANG ZIJIAN GYŐZŐ 杨子剑

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Intelligens elektronikus szótár és lexikai adatbázis

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Igekötős szerkezetek a magyarban

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Nem lexikalizált fogalmak a Magyar WordNetben

A HUNGLISH PÁRHUZAMOS KORPUSZ

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Különírás-egybeírás automatikusan

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Lexikon és nyelvtechnológia Földesi András /

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

RDFS. (Resource Description Frameworks Schema) Méréstechnika és Információs Rendszerek Tanszék

Javaslat a magyar igei WordNet kialakítására

Szemantika, lexikográfia: jelentés-egyértelműsítés, wordnetek. Nyelvészet az informatikában informatika a nyelvészetben november 13.

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Diszlexiások/diszgráfiások anyanyelvi és idegen nyelvi szókincsszerkezete

Szinonimák a terminológiában 1

Elérhető szótárak a magyar nyelv oktatásában és használatában. M. P i n t é r T i b o r

A Hunglish Korpusz és szótár

A magyar létige problémái a számítógépes nyelvi elemzésben

SEGÉDKÖNYVEK A NYELVÉSZET TANULMÁNYOZÁSÁHOZ XXVIII. Szerkesztette KIEFER FERENC

Mi is volt ez? és hogy is volt ez?

Adatbázis rendszerek Definíciók:

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

PÁRHUZAMOS IGEI SZERKEZETEK

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *

Többnyelvű tezaurusz építése és szolgáltatása webes környezetben

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában

KOVÁCS BÉLA, MATEMATIKA I.

EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA

A Tinta e-book könyvtár/lexikontár címei:

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Mesterséges Intelligencia Elektronikus Almanach

22. GRÁFOK ÁBRÁZOLÁSA

Átlag (standard hiba)

ZIJIAN GYŐZŐ YANG 杨子剑 Language technology expert specialized in machine translation evaluation

Bánki Zsolt István Csáki Zoltán Petőfi Irodalmi Múzeum Könyvtár és Informatika. Networkshop 2014 Pécs

Ismeretlen kifejezések és a szófaji egyértelm sítés

Adatbázismodellek. 1. ábra Hierarchikus modell

Honlap szerkesztés Google Tudós alkalmazásával

A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS

2

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Nyelv-ész-gép Új technológiák az információs társadalomban

SZEMANTIKA ÉS PRAGMATIKA A TERMINOLÓGIÁBAN

Aspektus-orientált nyelvek XML reprezentációja. Kincses Róbert Debreceni Egyetem, Informatikai Intézet

Sémi összehasonlító nyelvészet

Steps Towards an Ontology Based Learning Environment. Anita Pintér Corvinno Technologia Transzfer Kft

szakmai önéletrajz Bánhalmi András Személyes információk: Végzettségek, képzések: Idegen nyelv: Oktatás:

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

A CMMI alapú szoftverfejlesztési folyamat

Mezőgazdasági külső információs rendszerek fejlesztése

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

Adatbázisok 2018-ban ADT- ARCANUM DIGITÁLIS TUDOMÁNYTÁR AKADÉMIAI KIADÓ FOLYÓIRATAI AKADÉMIAI KIADÓ MERSZ ADATBÁZIS AKADÉMIAI KIADÓ SZÓTÁRAI CAMBRIDGE

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

FIATAL MŰSZAKIAK TUDOMÁNYOS ÜLÉSSZAKA

VI. Magyar Földrajzi Konferencia

Publikációs lista. Gódor Győző július 14. Cikk szerkesztett könyvben Külföldön megjelent idegen nyelvű folyóiratcikk...

Programozási nyelvek Java

KOPI. Többnyelvű dokumentum nyelvének megállapítása MTA SZTAKI DSD. Vajna Miklós Pataki Máté MSZNY Department of Distributed Systems

Felhasználói segédlet a Scopus adatbázis használatához

A MAGYAR REKURZÍV BIRTOKOS SZERKEZET ELSAJÁTÍTÁSA A NEMZETKÖZI KUTATÁSOK TÜKRÉBEN

Egy nyelvészbarát szövegfeldolgozó eszköz: a NooJ

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

Elliptikus listák jogszabályszövegekben

A terminológiai adatbázisok gyakorlati haszna a terminológia és a fordító- tolmácsképzésben. Networkshop Április , Pécs

Nagytömegű adatok (gyors) kartografálása. Rostás Sándor százados. MH GEOSZ Műszaki és információs osztály térképész főtiszt (ov. h.

Rostás Sándor szds. MH GEOSZ Műszaki és információs osztály térképész főtiszt (ov. h.)

Agrárinformatikai kutatások helyzetének áttekintése

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

A szótárról. 1. Mi ez?

BGF. 4. Mi tartozik az adatmodellek szerkezeti elemei

Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával

Szakterületi modell A fogalmak megjelenítése. 9. fejezet Applying UML and Patterns Craig Larman

AZ IVÓVÍZMINŐSÉG-JAVÍTÓ PROGRAM SZABOLCS- SZATMÁR-BEREG MEGYEI SAJÁTOSSÁGAI

HALLGATÓI KÉRDŐÍV ÉS TESZT ÉRTÉKELÉSE

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek

Adatmodellezés. 1. Fogalmi modell

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben november 13.

AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

Novák Attila (2003): Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem,

Igei wordnet és igei eseményszerkezet ábrázolása

Dokumentumformátumok Jelölő nyelvek XML XML. Sass Bálint Bevezetés a nyelvtechnológiába 2. gyakorlat szeptember 20.

Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata:

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

Tudományos segédmunkatárs (MTA TK SZI) nők a tudományban, műszaki tudományok, magánélet és munka egyensúlya, gyermekvállalás

RADPLAN. A Mentum Planet, Mentum Ellipse az InfoVista bejegyzett védjegye, minden jog fenntartva!

Mindent olyan egyszerűvé kell tenni, amennyire csak lehet, de nem egyszerűbbé.

Átírás:

Magyar WordNet: az első magyar lexikális szemantikai adatbázis 1 Prószéky Gábor Miháltz Márton MorphoLogic 1126 Budapest, Orbánhegyi út 5. proszeky@morphologic.hu, mihaltz@morphologic.hu Benyújtva: 2008. március 3.; elfogadva: 2008. március 3. Abstract: WordNet is an electronic lexical semantic database, a network of linguistic concepts and their relationships, represented by synonym sets (synsets) interconnected by a vast number of semantic relations of different types (hypernym, meronym, antonym etc.) Our paper describes the construction of Hungarian WordNet, which was carried out by 3 intstitutions in a 3-year project, resulting in 40,000 Hungarian synsets by 2007, most of them connected to English WordNet and through it to wordnets of other languages. We describe the general structure of mono- and multilingual wordnets, and the design considerations, methods and results of the Hungarian WordNet project, together with the solutions for the Hungarian language-specific phenomena. Keywords: Hungarian WordNet, wordnet, ontology, computational linguistics Absztrakt: A wordnet olyan elektronikus lexikális szemantikai adatbázis, melyben a nyelvi fogalmak hálózatba szerveződnek. A fogalmakat szinonima-halmazok (synsetek), a közöttük lévő kapcsolatokat szemantikai relációk (hipernima, meronima, antonima stb.) reprezentálják. Cikkünkben bemutatjuk a Magyar WordNetet létrehozó projektet, melyben három magyar intézmény vett részt 3 éven keresztül. A projekt eredményeképpen 2007-re létrejött mintegy 40.000 magyar synset, melyek nagy meg van feleltetve ekvivalens angol WordNet synsetekkel, így implicit módon más nyelvek wordneteivel is. Bemutatjuk az egy- és többnyelvű wordnetek 1 A jelen írás a magyar WordNet létrehozására irányuló munkálatok összefoglalása, mellyel a szerzők 2001-ben kezdtek el foglalkozni a MorphoLogicnál. A kutatás-fejlesztés 2005. februárja és 2007. májusa között a GVOP 3.1.1-2004-05-0191/3.0 pályázat támogatásával folyt. Ebben Csirik János, Kocsor András, Prószéky Gábor és Váradi Tamás irányítása mellett Alexin Zoltán, Almási Attila, Csendes Dóra, Cziczelszki Judit, Gyarmati Ágnes, Hatvani Csaba, Kamper Gergely, Kiss Gábor, Kurdi Benedek, Kuti Judit, Laczkó Tamás, Lejtovicz Katalin, Légrádi Ágnes, Mészáros Ágnes, Miháltz Márton, Nagy Anikó, Nagy Viktor, Oravecz Csaba, Papp Kornélia, Péri Márton, Sass Bálint, Serly Julianna, Szarvas György, Szauter Dóra, Szécsi Anikó, Szécsi Katalin, Tóth Marianna, Tóth Zsófia, Trepák Mónika, Vajda Péter, Varasdi Károly és Vincze Veronika vett részt. 1

általános szerkezetét, valamint a Magyar WordNet létrehozása során kidolgozott alapelveket, módszereket és eredményeket, a magyar nyelv sajátosságait figyelembe vevő megoldásokkal. Kulcsszavak: Magyar WordNet, wordnet, ontológia, számítógépes nyelvészet, nyelvtechnológia A magyar nyelvre irányuló számítógépes alkalmazásfejlesztések egyre nagyobb mértékben igénylik nyelvünk szókincsének gépi eljárásokkal is kezelhető adatbázisának kialakítását. Az ontológia szó eredeti értelemben ennél ugyan lényegesen többet takar, ám ez a terminus az elmúlt húsz év alatt az ember gondolkodási képességeinek szimulálását kitűző alkalmazások jelentéstani adatbázisa megnevezéseként jelent meg a nyelvtechnológia területén. A számítógépes nyelvészetben tehát az ontológia a formálisan definiált fogalmak és relációk adatszerkezetét jelenti, méghozzá úgy, hogy segítségével számítógépes szemantikai következtetések is végezhetők (Gómez-Perez et al. 2004). A magyar nyelvű ontológia kialakítását egy már meglevő rendszer, az ún. WordNet (Miller et al. 1990, Fellbaum 1998) magyar nyelvi anyaggal való feltöltésével szándékoztuk elérni. A munka folyamán olyan nyelvspecifikus problémákkal találkoztunk, melyek komoly nyelvészeti meggondolásokat igényeltek, bár a tevékenységet sokan puszta adatbázis-feltöltésnek gondolták. Az ontológiák világában egyébként szokás elkülöníteni az ún. felső szintű ontológiákat, melyek a világ legalapvetőbb fogalmainak általában nyelvektől független leírását adják (Gómez-Perez et al. 2004). Ezek problematikájával a magyar WordNet létrehozása kapcsán nem foglalkoztunk, hiszen a magyar nyelv általános szókincsének gépi reprezentációja volt a főcél. Ezt egészítette ki egy még specifikusabb terület, az üzleti szaknyelv kifejezéseit tartalmazó részontológia létrehozása, mely valójában egy terminológiai adatbázis WordNet-reprezentációjaként is felfogható. 1. A WordNet kialakulása és típusai A WordNet egy a lehetséges ontológiák közül. Amiért a magyar számítógépes jelentéstani adatbázis kidolgozásánál épp erre a rendszerre esett a választás, az elsősorban a rendszer elterjedtsége, többnyelvű alkalmazásokban való felhasználhatósága és egyszerű hozzáférhetősége volt. Még húsz éve sincs, hogy George Miller és munkatársai a Princeton Egyetem Kognitív Tudományi Laboratóriumában olyan lexikális szemantikai hálózatot készítettek, amely az angol nyelv szavai és fogalmai köré szerveződött (Miller et al. 1990, Fellbaum 1998). Ez volt a WordNetnek nevezett szinkron nyelvi tudást reprezentáló speciális szemantikai hálózat. Az efféle rendszereket azóta nyelvi ontológiának és lexikális tudásbázisnak is szokás nevezni. Fontos megemlíteni, hogy a WordNet nem a széles körű számítógépes felhasználhatóság céljára, hanem a pszicholingvisztikai 2

kísérletek és elméletek által motivált számítógépes szótárként, azaz a mentális lexikon szerveződésének számítógépes modelljeként született meg. A wordnet szónak ma már sok nyelvben létezik egyfajta köznévi használata, mely az eredeti angol nyelvű WordNet (Princeton WordNet, PWN) felépítését követő nyelvi adatbázisokra utal (v.ö. xeroxozás). Írásunkban a továbbiakban mi is fogjuk használni a szót a fenti köznévi értelemben. A wordnetek építőelemei, a szemantikai hálózat csomópontjai a valamilyen szövegkörnyezetben azonos értelmű szavakból, szinonimákból alkotott halmazok, a synsetek. Például, a {dolog#1, tárgy#1} synsetben a tárgy és dolog szavak első szótárbeli jelentésükkel szerepelnek, vagyis ebben az értelmükben ekvivalensek csak. A szótő a # -jellel egybeírt számmal, azaz a szójelentés sorszámával együtt azonosítja a szójelentést. Ennek a számnak a wordnetekben jelentés-azonosító (sense number/sense id) a neve. A wordnetekben minden synsethez tartozik egy rövid szöveges definíció is. Természetesen ez nem a gép, hanem az emberi felhasználó számára fontos, az adott jelentés könnyebb azonosításához. Pl. az előbbi {dolog#1, tárgy#1} synsetet a következő definícióval írhatjuk le: fizikai (látható vagy tapintható) entitás. A {dolog#2, munka#1} synset a dolog szó második jelentését reprezentálja, melynek a munka szó első jelentése a szinonimája ( felelősség valaminek az elvégzésére ). A wordnetekben a synsetek közötti élek a közöttük fennálló szemantikai relációkat jelentik. Egy ilyen hálózat természetesen az ún. tartalmas szóosztályok (főnevek, igék, melléknevek és határozószók) jelentéseit és az azok között fennálló kapcsolatokat reprezentálja. A különböző szemantikai relációk fennállása az anyanyelvi beszélők számára nyelvi tesztek segítségével ellenőrizhető. Ezek legtöbbje egyszerű behelyettesítéses teszt, melyekben a tesztelő egy adott szerkezetű tesztmondatba behelyettesítve a kérdéses elemeket a mondat szemantikai jólformáltságának (olykor természetesen szubjektív) megítélésével dönthet a reláció fennállásáról. A legfontosabb, a synsetek összetételét meghatározó szemantikai reláció a szinonímia, mely azonban a többi relációval ellentétben nem synsetek között, hanem magukon a synseteken belül, maguk közt a terminusok közt áll fenn. George Miller a szinonimitást (vagy ahogy ő hívja: a szemantikai hasonlóságot ) a következőképpen definiálja a WordNet számára: két kifejezés egymással szinonim egy C nyelvi környezetben, ha a C-ben az egyiket a másikkal felcserélve a mondat igazságértéke nem változik (Miller et al. 1990). A szinonímia szimmetrikus reláció, ugyanis ha X szinonimája Y-nak, akkor Y is szinonimája X-nek. A később bemutatandó EuroWordNet rendszer létrehozása során Vossen (1998) a szemantikai hasonlóság meghatározását kiegészíti azzal, hogy két szemantikailag hasonló szó az entitások ugyanazon tartományát denotálja, függetlenül a regiszterbeli, stílusbeli, dialektusbeli különbségektől, vagy a szavak pragmatikai használatától. Az előbbi homogenitási feltételből következően két szinonim szó között nem állhat fent másféle 3

szemantikai reláció. Emiatt például az alábbi literálok egyetlen synsetbe tartoznak: {rendőr, zsaru, yard, fakabát}. Ugyanakkor a rendőrség szó nem lehet a synset tagja, mivel van egy másik reláció (az ún. holonima), ami a rendőr és a rendőrség fogalmak között fennáll, noha a hétköznapi nyelvhasználatban gyakran egymással felcserélhetők. Pl. kijött a rendőr/rendőrség (metonimikus nyelvhasználat). 2. A jelentések közti relációkról A következő részekben elsősorban Miller et al. (1990) és Vossen (1998) gondolataira építve bemutatjuk a különböző szófajú synsetek között lehetséges relációkat és az ellenőrzésükhöz használható nyelvi teszteket. A WordNet a főnévi synsetek között az alább bemutatandó alaprelációkat értelmezi: antonima, hiponima és meronima. A főneveket és a más szófajokat összekapcsoló relációk az attribútum-érték reláció (egy tulajdonság és annak egy lehetséges értéke közötti reláció, pl. hőmérséklet-meleg), mely valójában egy főnév és melléknév közti reláció, valamint a különböző morfológiai relációk morfológiailag rokon (képzett) alakok között (pl. {fekvés}-{fekszik}-{fekvő}). Az antonima reláció ellentétet, szembenállást fejez ki, melyet azonban nehéz pontosan definiálni (Miller 1990, Vossen 1998). Az antoníma szimmetrikus reláció, mely nem a szójelentések, tehát a synsetek, hanem ezek elemei, azaz a szavak között áll fenn. Könnyen belátható, hogy sokszor egy antonima-relációban álló szópár szinonimáira nem állítható egyértelműen, hogy ők is egymás antonímái lennének. Emiatt az antoníma-relációban álló synsetek elemei esetén egyértelműen specifikálni kell, hogy az antonímia a synsetek mely tagjai között áll fenn. Az antonimák általában egy adott dimenzión belül alkotnak szembenálló kategóriákat, azaz egy antonima nem csak eltér egy vagy több jegy értékében a párjától (pl. élő/élettelen), hanem egy közös hipernimán 2 is kell osztozniuk, azaz valamilyen ésszerű denotációs tartományon belül kell egymással versenyezniük. Az utóbbi feltétel kizárja, hogy egymással szembe lehessen állítani olyan irreleváns párokat, mint pl. jég és asztal. Az antoníma-teszt ezért két részből áll: egyfelől a szembenállás kifejezéséből, másfelől a közös dimenzió vagy hipernima biztosításából. A főnévi fogalmak között a legfontosabb reláció a hipernima (ill. inverze: hiponima), mely hierarchikus alá-/fölérendeltséget, specifikus/generikus, faj/nem, IS-A öröklődési viszonyt fejez ki (pl. {toll}-{írószer}, {bokor}-{növény}). Speciális altípusa hipernimia reláció, mely tulajdonnevekhez kapcsolódó, individuumoknak megfelelő és általánosabb, osztályoknak megfelelő fogalmak között állhat fent (pl. {Magyarország}-{európai ország}). 4

A hipernimiához hasonló hierarchikus reláció a meronima (inverzének neve: holonima), mely rész-egész viszonyt fejez ki. Három fajtája van: egyén-csoport (pl. {fa}-{erdő}), alkotóanyag-tárgy (pl. {cellulóz}-{papír}) és alkatrész-egész (pl. {kerék}-{bicikli}) viszonyt kifejező. A domén (domain) reláció egy tetszőleges fogalom (domain term) és egy témát, fogalmi osztályt reprezentáló fogalom között áll fenn. Három fajtája van: kategória (szemantikai mező, téma), pl. {teniszütő}-{tenisz}, régió (nyelvhasználók földrajzi helye szerint), pl. {ballup, balls-up}-{united Kingdom, Great Britain} és használat (nyelvréteg szerinti besorolás), pl. {parázik}-{szleng, argó}. Az igei synsetek között is értelmezett egy, a hipernima-relációhoz hasonló hierarchikus reláció, ennek troponima a neve. Speciális, igei synsetek közötti reláció az előfeltételezést kifejező kapcsolat, pl. {horkol}-{alszik}, illetve az okozás, pl. {meggyújt}-{elég}. Doménrelációk, illetve más szófajokhoz kapcsolódó derivációs relációk ezeknél a szófajoknál is vannak. A mellékneveknél a legfontosabb strukturáló reláció az antonima, mely az ellentétpárral rendelkező (ún. relációs) mellékneveket bipoláris klaszter-struktúrákba rendszerezi. Ennek lényege, hogy az ellentétes, illetve velük hasonló értelmű fogalmak (pl. meleg, forró, tüzes, izzó vs. hideg, fagyos, jeges, hűvös stb.) egy központi, kitüntetett antonimapár (ebben a példában: meleg-hideg), mint tengely köré szerveződnek úgy, hogy a többi hasonló kifejezés a tengely két végéhez kapcsolódik (a similar_to relációval). Ezeknek a szatellit-fogalmaknak így antonimájuk csak indirekt úton, a klaszter középpontján keresztül van. A határozószavaknak megfelelő synsetek csak más szófajú fogalmakhoz kapcsolódnak derivációs morfológiai relációkkal. 3. A többnyelvű ontológiák felé A Princeton WordNet elvei alapján megindult más nyelvek lexikális szemantikájának a kidolgozása. Európai kezdeményezésre létrejött egy olyan többnyelvű lexikális adatbázis a EuroWordNet (EWN), melyben a különböző nyelvek közti jelentéskapcsolatok is megjelentek. A projekt első fázisa az Európai Közösség által finanszírozott kutatás keretében valósult meg 1996 márciusa és 1999 júliusa között, és ebben az angolon kívül először a holland, az olasz és a spanyol WordNet-verzió készült el (Vossen 1998). Az EWN-ben az egyes nyelveken belüli synsetek közötti relációkon felül minden synsethez kapcsolódik egy ekvivalencia-reláció is, méghozzá egy új struktúra, a nyelvközi index (Inter-Lingual Index, ILI) egy fogalmához. Az ILI a PWN 1.5 változatának synsetjeire épült, de további hozzáadott jelentéseket is tartalmazott a különböző nyelvek fogalmi leírásai közötti minél teljesebb kapcsolat érdekében. Az ILI ekvivalencia-relációi lehetővé teszik tehát az átmenetet az egyes nyelvi wordnetek 5

synsetjei között, hiszen az ugyanahhoz az ILI-rekordhoz kapcsolt nyelvspecifikus synsetek azonos jelentésűek a nyelvek között. A EWN alapja így ILI-fogalmak rendezetlen listája, ahol egy-egy ILIrekord a synsetből, a definícióból, a szófaj-címkéből és az eredetre utaló hivatkozásból áll. Az ILIrekordok között nincsenek kapcsolatok. Annak érdekében, hogy a EWN-ben a különböző nyelvi wordnetek szókészlete egységes legyen, azaz általánosságban ugyanazokkal a doménekkel vagy fogalmi területekkel foglalkozzanak, meghatároztak egy közös alapfogalom-készletet (Common Base Concepts, CBC). Ennek minden eleme egy alapfogalom (Base Concept, BC), azaz a lokális wordnetekben megjelenő legfontosabb, általános jelentés, melyek együtt a többnyelvű adatbázis magját alkotják. A mag-wordnetek kialakítása vagyis: az alapfogalmak, továbbá azok közvetlen szemantikai környezetének, közvetlen hipernímáinak és hiponímáinak reprezentációja az egyes nyelvekben eleinte hosszas kézi munkával történt. Ám a wordnetek továbbépítéséhez a kutatók a rendelkezésre álló erőforrások segítségével, a CBC felülről lefelé történő kiterjesztésével egyre több félautomatikus módszert hoztak létre (Atserias et al. 1997, Farreres et al.1998, Barbu et al. 2005). Az alapfogalmakat a wordnetek felső ontológiája, a felső szintű ontológia (Top Ontology, TO) rendszerezi. Ez nem más, mint nagyon magas szintű, nyelvfüggetlen fogalmak hierarchiája, melynek minden csomópontja egy ún. magas szintű fogalom (Top Concept, TC). Ezeket a fogalmakat olyan meghatározó szemantikaelméletek alapján alakították ki, mint pl. a Qualiák elmélete (Pustejovsky 1995), vagy az Aktionsart igeosztályozás (Comrie 1976). A közös fogalomkészlet kialakításakor az EWN-ben sok szempontot kellett figyelembe venni. A szókincsnek egyrészt tartalmaznia kellett a gyakran használt jelentéseket, de az is fontos, hogy a különböző nyelvű wordnetekben nagyjából azonos területekről kerüljenek ki a lefedett fogalmak., miközben ehhez a rendelkezésre álló erőforrások különbözősége miatt nem lehetett egyetlen egységes, mindenki számára megfelelő építési módszert kialakítani. A EWN CBC előállítása úgy indult, hogy minden résztvevő meghatározta saját nyelvén a szókincs egy fragmentumát, azonos kritériumok alapján, a saját erőforrásai felhasználásával. Ezeket lokális alapfogalmaknak (Local Base Concepts, LBC) nevezték el. Sajnos a legtöbb nyelv esetében nem állt és ma sem áll rendelkezésre megfelelő mennyiségű adat a jelentések gyakoriságáról, így csak szógyakoriságokkal lehetett operálni. Ezt követően a lokálisan kiválasztott tételeket lefordították a PWN 1.5 verziójának synsetjeire, majd megvizsgálták a kiválasztott fordítások közötti átfedéseket, és ezek alapján létrehoztak egy közös halmazt, a közös alapfogalmak (Common Base Concepts 6, CBC) 6 6

halmazát. Végül minden résztvevő hozzáadta a közös halmazban szereplő, de az általa eredetileg nem kiválasztott fogalmakat a saját alapkészletéhez. Így az elkészült alaprendszer végül 1059 synsetet tartalmazott (796 főnévi, 263 igei synset). A CBC megállapítása után minden résztvevő a CBC-ben szereplő, de nála hiányzó elemeket leképezte saját nyelvi synsetekre. Az olyan esetekben, amikor egy CBC-fogalomnak nem volt pontos ekvivalense egy adott nyelven, a fogalomhoz legközelebb eső létező fogalmat adták hozzá a lokális halmazhoz. A lokális synsetek és az ILI rekordok közötti ekvivalencia-reláció neve eq_synonym, ha 1-1 megfeleltetés van a két fogalom között, ha pedig nem, akkor az alább komplex relációk egyike: eq_near_synonym: ha egy lokális fogalom több ILI-rekordhoz tartozik, vagy ha több synset kapcsolódik ugyanahhoz az ILI-rekorhoz, vagy valamiért bizonytalan a pontos megfeleltetés. A relációban álló synseteknek nem kell ugyanolyan szófajúaknak lennie. A megfeleltetés általában több-a-többhöz. eq_has_hyperonym: ha egy lokális fogalom specifikusabb a rendelkezésre álló ILI-rekordoknál. A reláció azonos szófajú fogalmak között áll fenn. Általában több-az-egyhez megfeleltetés. eq_has_hyponym: ha egy lokális fogalmat csak specifikusabb ILI-rekordokhoz tudunk kapcsolni. A reláció azonos szófajú fogalmak között áll fenn. A megfeleltetés általában egy-a-többhöz. A fentieken kívül további 15, a nyelveken belüli relációkkal párhuzamos komplex ekvivalenciareláció biztosítja a lokális fogalmak és az ILI-rekordok közötti rugalmas kapcsolatot. A EWN-2 projekt keretében az EuroWordNethez 1998-ban további négy nyelv a francia, a német, a cseh és az észt csatlakozott. A kibővítéssel a CBC anyagát is hozzá kellett igazítani az új nyelvek követelményeihez. Az új CBC-t két fő különböző az összevonásos és a kiterjesztéses módszer segítségével alakították ki. Az összevonásos módszerben (Merge Model) a lokális alapfogalmakat valamilyen saját erőforrásból kiindulva választották ki, belőlük a synseteket és az azok között lévő relációkat önállóan fejlesztették ki, majd az ekvivalencia-relációkkal leképezték őket PWN 1.5 synsetekre. A kiterjesztéses módszer (Expand Model) ezzel szemben úgy működött, hogy a lokális alapfogalmakat a PWN 1.5-ből választották ki és a synsetjeit (kétnyelvű szótárak segítségével) lefordították az ekvivalens saját synsetekre. Ebben a megközelítésben a belső relációkat a PWN-ből örökölték, és a továbbiakban, amennyire lehetett, egynyelvű erőforrások segítségével ellenőrizték őket. A 2001. szeptemberétől 2004. augusztusáig megvalósított és szintén az Európai Közösség által finanszírozott BalkaNet projekt célja a EuroWordNet kiterjesztése volt további, délkelet-európai nyelvekkel: a bolgárral, a göröggel, a románnal, a szerbbel és a törökkel. A konzorciumhoz az 7

EWN-nel való kompatibilitás biztosítása céljából csatlakozott még két korábbi EWN-résztvevő is: a csehek és a franciák. A projekt céljai közt szerepelt nyelvenként mintegy 8000 synset kifejlesztése, melyek valós alkalmazásokban használható szókincset fednek le, de mindezt úgy, hogy az EWN keretében kifejlesztett wordnetekkel kompatibilisek legyenek. Kiinduláskor tehát az EWN infrastruktúráját használták, de kialakítottak egy saját közös platformot is: egy egységes XML formátumot, mely egyben a projekt számára fejlesztett VisDic többnyelvű adatbázis-böngésző és -szerkesztőprogram [Holak-Smrz 2004] adatformátuma is lett. A BalkaNet egyik lényeges eltérése az EWN-től, hogy csak egyfajta ekvivalencia-relációt használtak, mely megfelelt a EWN eq_synonym relációjának. A VisDic program XML-formátumára konvertált ILI-rekordokban az azonosító kulcsok jelzik, hogy melyik PWN verzióból származik a synset, mi volt ott az offset-je és a szófaja (pl. ENG20-00001740-n a PWN 2.0-ból származó főnévi synset). A lokális wordnetekben az ekvivalens synsetek ugyanezeket a kulcsot kapják, ez expliciten jelzi az eq_synonym relációkat. A komplex ekvivalenciák esetében, amikor egy ILI-rekordnak egy nyelven nincs pontos ekvivalense, csak pl. ekvivalens hiponimája (eq_has_hyponym reláció a EWNben) a következő stratégiát alkalmazták: üres synsettel, ún. nem lexikalizált fogalom megjelöléssel felvették a hiányzó fogalmat a lokális wordnetbe. A nem lexikalizált synsetek jelenléte a hierarchiában redundáns, de céljuk a megfelelő ekvivalencia-reláció biztosítása az ILI-rekord és a legközelebbi lokális lexikalizált jelentés között. Ezzel a módszerrel tudták szimulálni a komplex ekvivalencia-relációkat (mivel a VisDic relációs reprezentációjában csak egy-az-egyhez kapcsolatok ábrázolására volt lehetőség). A EWN CBC-jének megfelelő közös kiinduló fogalmi készlet, a BCS (BalkaNet Concept Set) végül 8516 fogalmat tartalmazott (5896 főnévi, 2318 igei és 302 melléknévi synset). A BCS PWN-ből származó fogalmait minden résztvevőnek meg kellett valósítania saját nyelvi synsetekkel. A EuroWordNet ILI-ben az ILI-rekordok fölött nincsen nyelvfüggetlen struktúra definiálva, az ILI a fogalmak rendezetlen halmazából áll. A BN projektben a megfelelő ekvivalencia-relációk meghatározása közben az ILI strukturálatlansága gyakran nehézségekhez vezetett. Sokszor az ILIrekordhoz tartalmazó definíció nem volt elég informatív, amikor az ILI-rekord megfelelő fordítását kellett előállítani, és az ILI fogalom hierarchikus kontextusának ismerete nélkül a feladat túl nehézzé vált. Az ILI strukturálatlansága az egyik tervezett alkalmazás, az információ-visszakeresés számára is problémát okozott. Mindezek miatt a BN projektben a rendezetlen ILI-rekordok halmazát felváltották a PWN struktúrájával (az ILI rekordokat a PWN relációi szerint strukturálták). A lokális wordnetek építésekor a kiterjesztéses módszer követése során a strukturált ILI jobb eredményekhez vezetett. Az 8

összevonásos építési módszer alkalmazásakor az ILI rendszerezettsége javította a synsetek nyelvek közötti megfeleltetését. A PWN hierarchiáján kívül a BN ILI kapott még egy magasabb szintű szemantikai struktúrát, melyet a Suggested Upper Merged Ontology (SUMO) ontológiából (Niles-Pease 2001) importáltak. A SUMO általános fogalmakat definiáló felsőszintű ontológia, mely különböző publikus ontológiai tartalmak egyesítésével született. A SUMO választása mellett szólt, hogy a PWN synsetjei és a SUMO kategóriái között már létezett megfeleltetés, valamint hogy a SUMO ötvözte több különböző terület erőforrásait és szabadon hozzáférhető volt. 4. Az ontológiakészítés minőségbiztosítási módszerei A nemzetközi wordnetek minőségének és konzisztenciájának folyamatos ellenőrzése fontos hangsúlyt kapott a többnyelvű projektek során. Az ellenőrzések elsősorban két dolgot érintettek: egyfelől az egyes lokális wordnetek szerkezetének és tartalmának, másfelől az egyes wordnetek közötti (a nyelvek közötti) kapcsolatok minőségének és konzisztenciájának ellenőrzését. A lokális wordnetekben alkalmazott szintaktikai jellegű ellenőrzések a következők voltak (Tufiş et al. 2004, Christodoulakis 2004, Srmz 2004): 1. az XML formátumú adatbázisok jólformáltságának ellenőrzése és validációja a BalkaNet DTDhez képest 2. literálok és jelentés-azonosítók ellenőrzése: minden synsetben minden literálnak kell legyen jelentés-azonosítója; egy synsetben nem lehet két azonos literál (jelentés-azonosítótól függetlenül); egy literál ugyanazzal a jelentés-azonosítóval nem fordulhat elő egynél több synsetben (ugyanabban a szófajban); egy literál jelentés-azonosítóinak számozása folytonos (esetleg újra kell számozni); a literálok helyesírását is ellenőrizni kell. 3. Synset ID ellenőrzés: az azonosítóknak egyedinek kell lennie, 4. Szófaj-ellenőrzés: minden synset csak a következő 4 szófajkód egyikével lehet megjelölve: n, v, a, b 5. Belső (lokális) relációk ellenőrzése: nem lehetnek duplikátumok (ugyanaz a reláció 2 synset között kétszer felvéve); a reláció (neve) a standard BN szemantikai relációk (nevének) egyike; nincsenek irányított körök a relációk szerint; a hiperníma vagy holoníma relációkban álló synsetek azonos szófajúak; a hierarchiák gyökér-csomópontjai a BCS-ben (PWN-ben) definiált gyökér-csomópontok; ha egy synset megfelel egy BCS synsetnek, akkor kapcsolatban kell állnia a BCS által meghatározott kapcsolódó synsetekkel (hiperníma, holoníma); egy synsethez kapcsolódó relációknak kompatibiliseknek kell lennie egymással (pl. egy synset nem lehet 9

egyszerre hipernimája és hiponimája ugyanannak a másik synsetnek). 6. A wordnetek összefüggőségének ellenőrzése: nem lehetnek másokkal kapcsolatban nem álló csomópontok; minden synsetnek kell hogy legyen hipernímája, hacsak nem legfelső szintű (gyökér) fogalomnak felel meg; nem létező synsetekkel alkotott relációk javítása/törlése. 7. A synsetekhez tartozó definíciók és használati példák ellenőrzése: a definíció ne legyen üres; a definíció a saját nyelven legyen megfogalmazva; a helyesírás rendben legyen. 8. Minden BCS fogalomnak legyen megfelelője a lokális wordnetekben. 9. Az ILI-rekordok és a velük ekvivalens lokális synsetek közötti kapcsolat egy-az egyhez legyen. A fentieken kívül a wordnetek ellenőrzésekor az egyes résztvevők rendszeresen lefuttatták saját anyagaikon az alábbi lekérdezéseket. Ezek eredményeinek manuális ellenőrzésével ki lehet szűrni az olyan gyanús, nagy valószínűséggel hibát tartalmazó elemeket, mint a nem lexikalizált synsetek, a literálok sok jelentéssel, a többszörös öröklődések (synsetek, melyek egyszerre több, ugyanolyan típusú relációban vesznek részt), az egymással hipernima vagy hiponima relációban álló, azonos literált tartalmazó synsetek, a hasonló definíciók, a definiált literál (hibás) előfordulása a definíció szövegében, a relációk közötti helytelen függések (pl. közeli antonímák, melyeknek eltérő a hipernímája), vagy a strukturális különbségek a PWN-hez képest. Míg az egyes wordnetek helyességének ellenőrzése a közösen kidolgozott metodológia alapján az egyes partnerek felelőssége volt, a nyelvek közötti kapcsolatok helyességének ellenőrzésére a konzorcium egy külön, többnyelvű párhuzamos korpuszon alapuló módszert alkalmazott, melyet a román résztvevő implementált (Ion-Tufiş, 2004). A művelethez felhasznált párhuzamos korpusz George Orwell 1984 c. regénye volt, melyet a Multext-East projekt (http://nl.ijs.si/me/) keretében több szóban forgó nyelvre is szinkronizáltak. A morfológiai annotációval ellátott és mondatszinten szinkronizált párhuzamos korpuszt a BN projekt keretében szó-szinten szinkronizálták mind a 7 nyelvre (6 BN nyelv + angol). Az angol szöveg szóanyagából kiválasztottak 211 többértelmű szót, melyek legalább 2 különböző synsetben szerepeltek a BCS-ben. A párhuzamos korpuszon egy speciális, a többnyelvű BalkaNet-erőforrásra támaszkodó jelentés-egyértelműsítő algoritmus próbálta meghatározni a többértelmű szavak egyes előfordulásainak jelentéseit. Ahol az automatikus jelentésegyértelműsítés nem működött, ott a releváns nyelvek közötti megfeleltetés nagy valószínűséggel hibát tartalmazott. 5. Erőforrások a HuWN létrehozásához A projekt számára releváns, felhasználható erőforrások két csoportba oszthatók: nyelvi adatbázisokra és szoftvereszközökre. A rendelkezésre álló erőforrások meghatározzák a kitűzött célokat és az azt 10

megvalósító építési módszertant. A felhasználható szoftvereszközök közül kiemelhető a VisDic többnyelvű lexikális adatbázis szerkesztő és böngésző program (Horak-Smrz 2004). Ezt a programot kifejezetten wordnet-felépítésű, többnyelvű szemantikai adatbázisok szerkesztéséhez tervezték, de gyakorlatilag bármilyen XML formában rendelkezésre álló nyelvi adatbázishoz használható. A programmal akár 10 különböző szótári adatbázis anyaga egyszerre böngészhető és szerkeszthető. A szócikkek megjelenítése és a szótárak szerkesztési funkciói teljes mértékben testre szabhatók. Külön beépített funkciók támogatják többnyelvű wordnet-adatbázisok fejlesztését a kiterjesztéses modellben: synset importálása egyik wordnetből a másikba, wordnetek nézetének szinkronizálása az ekvivalencia-relációk alapján, konzisztencia-ellenőrző műveletek stb. További segédeszközként használhattuk a MorphoLogic nyelvi elemző és nyelvhelyességi eszközeit, legfőként a magyar és angol nyelvi HuMor morfológiai elemzőt és a Helyes-e? helyesírás-ellenőrzőt (Prószéky 1995). Érthető módon elsősorban angol nyelvű erőforrások voltak hozzáférhetők projektünk indulásakor. Először is a PWN 2.0 verziója, méghozzá a BalkaNet XML-formátumában, mely a SUMO-hoz való megfeleltetéseket, valamint egy doménontológia kategóriái alá történő besorolást is kapott. Lényeges forrás volt a BalkaNet fogalomhalmaza (a BCS), mely 8516 synsetet (5896 főnévit, 2318 igeit és 302 melléknévit) tartalmazott, méghozzá a PWN 2.0 szemantikai relációival és SUMOmegfeleltetésekkel. Természetesen hozzáférhető volt maga a SUMO ontológia és az EWN Top Ontology, mindkettő a VisDic XML-formátumában. A kétnyelvű erőforrások közt rendelkezésünkre állt a MorphoLogic alap angol-magyar szótára, XML illetve plain text (fordítási párok listája) formátumban, mintegy 20 ezer angol és 32 ezer magyar címszóval, elérhető volt továbbá az Akadémiai Kiadó Országh-Magay-féle Angol-magyar nagyszótára, a MorphoLogic MobiMouse Plus felületével. Ez irányonként kb. 120 ezer címszót, illetve szókapcsolatot tartalmaz, de a szótár anyagát közvetlenül nem volt jogunk felhasználni, ezért elsősorban a kétnyelvű fordításokat támogató referenciaként használtuk. Az egynyelvű erőforrások közül rendelkezésünkre állt a Magyar értelmező kéziszótár (ÉKSz) 1978-as első és a 2003-es második kiadás közötti állapotának leszűkített tartalmú változata (csak definíciók, illetve szemantikai/pragmatikai nyelvhasználati kódok), XML-formátumban. Ebben a mintegy 68 ezer címszóhoz 121 ezer szöveges definíció és nyelvhasználati kód (kb. 43 ezer főnév, 14 ezer ige, 11 ezer melléknév) tartozott. A ÉKSz főnévi definíciós anyagában egy korábbi projektben gépi módszerrel azonosítottunk a címszavakkal valamilyen szemantikai relációban lévő szavakat (Miháltz 2003), méghozzá 64 ezer főnévi definícióból 53 ezerben hipernímát, 10 ezerben szinonimát, és 1400-ban holonimát vagy meronimát. Hozzáférésünk volt az MTA Nyelvtudományi Intézetében 11

készült igei vonzatkeret-leíró adatbázishoz is, mely a különböző magyar igei vonzatkeretek szintaktikai és szemantikai leírását tartalmazza mintegy 17 ezer rekordra. Ezen kívül rendelkezésre állt XML-formátumban a MorphoLogic tezaurusza, mely 12.981 címszóhoz 36.228 szinonimát tartalmazott. A BalkaNet projekt szabadon hozzáférhető erőforrásai jelentős hatással voltak a magyar WordNet kialakítására, hiszen kiindulópontul nem az EWN CBC-jét, hanem a BalkaNet-fogalomhalmaz (BalkaNet Concept Set, BCS) synsetjeit választottuk olyan megfontolásokból, mint például az alapfogalmak lefedettsége további 5 európai nyelven (összesen tehát 13 nyelv többnyelvű WN-jének felépítésében hasznosnak tartott információk által összeállított kiinduló halmaz). Nem kevésbé lényeges, hogy a BCS a PWN újabb, 2.0-s verziójára alapul, az EWN még csak a PWN 1.5-ösre. A mennyiség is a BalkaNet alkalmazása mellett szólt, hiszen a BCS 8516 synsetet tartalmaz, a CBC 1310-et, így a nagyobb mennyiségű synset teljesebb kiindulási alapot adott a létező wordnetek szókincsének jobb lefedéséhez. Ezen kívül a BCS fölött rendelkezésre álló további két struktúra a PWN, illetve SUMO hierarchiák szintén rendkívül hasznosaknak tűntek az általunk is követett kiterjesztéses modell követéséhez. A fejlesztés során figyelembe vettük az ún fogalmi sűrűség elvét is (Tufis et al. 2004). Ennek értelmében mindannyiszor, amikor egy angol főnévi vagy igei synsetet megvalósítottunk magyarul, ellenőriztük, hogy minden hiponima-reláció szerinti őse szintén szerepel-e az ontológiában. Ennek köszönhetően a hálózat sűrű maradt, vagyis nem maradtak fogalmi űrök a hierarchiákban. 6. A HuWN létrehozásának lépései 6.1 Alapheurisztikák A korábbi hasonló projektek eredményei alapján kifejlesztett, automatikus synset-fordító heurisztikákat alkalmaztuk a 8.516 BCS-synset magyarra fordításához. Az alábbiakban röviden bemutatjuk őket: Egyjelentésű angol szavak: ha egy magyar szó valamelyik angol fordítása egyértelmű a wordnetben, vagyis csupán egyetlen synsetbe tartozik, akkor létrehoztunk egy kapcsolatot a magyar szó és a synset között Többjelentésű angol szavak egyértelmű fordítással: ha egy angol szónak csak egyetlen, egyértelmű magyar fordítása van (a magyar szónak csak ez az egyetlen angol fordítása), és az angol szó a wordnet-ben több synsethez is tartozik, a magyar fordítást hozzárendeltük ezekhez 12

Variánsok: ha egy wordnet synset kettő vagy több olyan angol szót tartalmaz, melyeknek csupán egyetlen magyar fordításuk van, és az ugyanaz a magyar szó, akkor a magyar szót hozzárendeltük a közös synsethez Szinonimák: a magyar szó angol fordításaihoz tartozó synsetek közül azt választottuk ki, amely a legtöbbet tartalmazza a szó szinonimáinak angol fordításai közül (de legalább kettőt) Latin nevek: ha egy magyar szóhoz rendelkezésre áll latin megfelelő (állat- és növényfajok, rendszertani kategóriák stb.), akkor azt az angol synsetet választottuk, ami az angol fordításon kívül a latin nevet is tartalmazza Minimális fogalmi távolság: ha létezik egy adott szóhoz tartozó magyar hipernima, akkor képeztük ezek fordításainak lehetséges synsetjeit, majd belőlük megkerestük azt a párt, ami a wordnet fogalmi hálózatában a legközelebb helyezkedik el egymáshoz, és a magyar címszót a minimális távolságú pár megfelelő tagjához rendeltük Mivel a BCS-synsetek 87%-ában volt legalább egy szinonimának magyar fordítása a kétnyelvű szótárunkban, ez volt az automatikus fordítás által elérhető elméleti maximum. A heurisztikák kombinált eredményei ennek mintegy 59%-át, vagyis a teljes BCS anyagának mintegy a felét voltak képesek lefedni. 6.2 A magyar főnévi wordnet létrehozása A magyar főnévi wordnet megalkotásához meghatároztuk a magyar nyelvben fontosnak ítélt, de a BCS-ben nem szereplő, úgynevezett lokális főnévi alapfogalmakat (Local Base Concepts) reprezentáló synseteket. Ehhez korpuszstatisztikai módszereket alkalmaztunk, valamint a Magyar Nemzeti Szövegtár főnévi gyakorisági listáját, illetve a Magyar értelmező kéziszótár főnévi definícióinak szemantikai elemzéseit. Az leggyakoribb MNSZ-beli, valamint ÉKSz-definícióban genus proximumként 7 szereplő főneveknek heurisztikusan megállapítottuk a leggyakoribb jelentéseit. A BCSHu-ban felvett ÉKSz-azonosítók segítségével meghatároztuk ezek közül azokat a fogalmakat, amelyekhez még nem létezett synset a BCSHu-ban. Ezek alapján vettünk fel új synseteket, illetve ÉKSz-hivatkozásokat létező, megegyező jelentésű synsetekhez. A magyar főnévi BCS ezek után nagy valószínűséggel tartalmazza a BalkaNet/EuroWordnet alapfogalmain túl a magyar nyelvben fontos kiinduló jelentéseket is. A kiinduló halmaz elkészülte után azt több iterációs lépésben bővítettük az angol wordnet alapján, további hiponimák hozzáadásával és fordításával. Az egyes lépésekben elérhető lehetséges hiponimák 13

közül többféle heurisztika kombinációjával választottuk ki a HuWN anyagába bekerülő fogalmakat: heurisztikus fordítómódszer elérhető a synsethez; korpuszgyakoriság (Brititish National Corpus, American National Corpus First Release, SemCor); átfedés más nemzeti wordnetekkel; relációk száma (a kezdő lépésekben a több elérhető relációval rendelkező synseteket választottuk annak érdekében, hogy a hálózat összetettebb és tovább bővíthető legyen.) Az ontológia enciklopédikus tudását igyekeztünk néhány fontosnak tartott területen teljessé tenni, ezért bizonyos területeken minden PWN-ben ismert fogalmat lefordítottunk. Ilyen területek voltak a földrajzi nevek, az emberi nyelvek, az embercsoportok, a világ országainak pénzegységei, illetve nélkülözhetetlen szakkifejezések a gazdaság, a vállalkozás és a kereskedelem területéről. Ezen felül számos főnévi synsetet a magyar kultúra szempontjából fontosnak tartott tulajdonnevek (magyar városok, történelmi személyek, események stb.) adnak. Ezek révén összesen 3000 fogalommal bővült a Magyar WordNet. A BCS-en belüli doménrelációk ellenőrzéséhez szükség volt az eddig még fel nem vett doménfogalmak megalkotására is. Ez további 400 synset felvételét jelentette. 6.3 A gazdasági szaknyelv ontológiájának fejlesztése Az üzleti fogalmakat elsősorban a főnévi wordnet kiegészítéséhez alapvetően a www.magyarország.hu portálról gyűjtöttük korpuszalapú módszerekkel, teljes PWN-részfák átvételével és a projekt keretei között fejlesztett információ-kivonatoló rendszer ún. esemény-leíró kereteinek figyelembevételével. Így az ontológiába bekerültek a mindennapi hivatalos ügyek intézéséhez szükséges közigazgatási, jogi és gazdasági terminusok. Az üzleti ontológiát így több mint 2000 eleműre bővítettük. 6.4 A magyar igei wordnet létrehozása Miután az MTA Nyelvtudományi Intézet vonzatkeret-adatbázisának vonzatkereteit azonosítottuk az MNSZ egy 10 millió szavas részkorpuszában, a lemmagyakorisági adatokra támaszkodó módszert felváltottuk az MNSZ-részkorpuszban azonosított leggyakoribb vonzatkeretek synsetté formálásával és az angol ekvivalens jelentéseknek való megfeleltetésével. A vonzatkeretek azonosítási eljárásának finomításával kijelölt fogalmak felvétele, valamint a fogalmi háló sűrítésének érdekében szükségesnek érzett fogalmak felvételével alakult ki a magyar wordnet igei része. Az alkalmazott módszertani lépések a EWN-struktúra kiterjesztését, illetve az azon túlmutató szerkezeti változtatásokat hozta magával. Tovább finomítottuk az igei jelentésekben jelölt aspektuális tulajdonságoknak a skáláját azáltal, hogy bevezettünk egy új, a progresszivizálhatóságot kifejező ún. nukleusz-komponenst. Ennek a megléte arra utal, hogy egy ige nyelvtanilag nem tartalmaz előkészítő folyamatot, de mégis meg kell különböztetni a pontszerű történésektől. Ezután a nukleuszok közötti 14

öröklődés pontos hátterét is kidolgoztuk (Kuti et al. 2006). Az igei nukleusz-struktúra wordnetbe való integrációja igen fontos lépésnek bizonyult a magyar WordNet létrehozásában, mivel a magyar igék rendszere nagy mértékben eltér az angol igékétől. 6.5 A magyar melléknévi wordnet létrehozása A melléknévi wordnet bővítése az angol wordnet BCS-beli melléknévi csomópontjaiból kiinduló teljes melléknévi klaszterek magyarításával és a klasztert definiáló near_antonym és similar_to relációk ellenőrzésével történt. A projekt során a BCS-ből kiinduló összes klaszter magyarításával további melléknévi fogalmakat is felvettünk. Ezzel párhuzamosan újabb, a BCS-en kívül eső klaszterek magyarítását is elvégeztük, mely során olyan melléknévi klaszterek felvételét tűztük ki célul, melyek a már elkészült nemzeti wordnetekben minél nagyobb átfedésben megtalálhatók, és amelyeket ezért központi jelentőségűnek ítéltünk. A magyar WordNetben az angol struktúrától eltérően bizonyos esetekben a bipoláris klaszterek mellett háromértékű, körkörös antonima-reláció mentén szerveződő csoportokat is létrehoztunk (Gyarmati et al. 2006). 6.6 A magyar határozószói wordnet létrehozása A projekttervezés során meghatározott szófaji arányok alapján mintegy ezer magyar határozószói synset elkészítését irányoztuk elő. Mivel nem álltak rendelkezésünkre magyar szójelentés-gyakorisági adatok, a felvételre kijelölt határozószói synseteket angol gyakorisági adatok alapján a PWN 2.0-ból választottuk ki. Ez egyébként 3664 határozószói synsetet tartalmaz, amiből leggyakrabban használt ezret választottuk ki. Ezek magyar fordításai alkotják tehát a HuWN határozószói részének kiinduló részét. A PWN jelentés-azonosítóival annotált, angol nyelvű, 360 ezer szavas SemCor (Semantic Concordance) korpusz segítségével minden PWN határozószói synsethez hozzárendeltünk egy gyakorisági értéket. Ezt a gyakorisági listát f >=1-nél elvágtuk, ez 1575 db synsetet hagyott meg. Ezután a POS-taggelt, lemmatizált, tízmillió szavas ANC-ben (American National Corpus) meghatároztuk a határozószavak töveinek gyakoriságait. Ennek segítségével a PWN 2.0 határozószói synsetjeihez gyakorisági értékeket rendeltünk olyan módon, hogy minden synsetre összeadtuk a benne szereplő literálok ANC-beli gyakoriságait. Ezt a listát f >=1 gyakoriságnál elvágva 1927 synsetjelöltet kaptunk. Ezután képeztük a két korpusz alapján kapott listák metszetét, ez összesen 1013 synsetet eredményezett, melyeket a PWN 2.0-ból a szokásos módon lefordítottunk magyarra. Ezek után több lépésben ellenőriztük és javítottuk a lefordított synseteket, hogy megfeleljenek a magyar nyelv morfológiai és szemantikai rendszerének (jelentések különválasztása és teljessé tétele 15

idő- és helyhatározói jelentéssel is bíró határozószóknál; helyhatározói csoportok elkülönítése és teljessé tétele az irány alapján stb.) 7. Összefoglalás Bemutattuk a magyar WordNet alapjait jelentő Princeton WordNet, EuroWordNet és BalkaNet rendszereket, és azokat az elveket, melyekre építve elkezdhettük a magyar WordNet kidolgozását. A különböző munkafázisok bemutatásával megpróbáltuk illusztrálni, hogy a munka nem puszta adaptáció volt, hanem egy új rendszer létrehozása. Az elkészült ontológiai rendszer gyakorlati felhasználhatóságát bizonyítja, hogy az elkészült adatbázist mind az információkinyerés területén (Alexin et al. 2006, Miháltz et al. 2008), mind a folyó szövegekben megtalálható távoli hivatkozások (anaforák) feloldására (Miháltz et al. 2007) sikerült alkalmazni. Irodalom Alexin, Z. Csirik, J. Szarvas, Gy. Kocsor, A. Miháltz, M. 2006. Construction of the Hungarian EuroWordNet Ontology and its Application to Information Extraction. In: Proceedings of the Third International WordNet Conference, Seogwipo, Jeju Island, Korea, January 22-26, 2006, 291-292. Atserias, J., S. Climent, X. Farreres, G. Rigau, H. Rodríguez, H. (1997). Combining multiple methods for the automatic construction of multilingual WordNets. Proc. of Int. Conf. on Recent Advances in Natural Language Processing, Tzigov Chark. Barbu, E. Barbu V. M. 2005. Automatic Building of Wordnets. In: Proceedings of Recent Advances in Natural Language Processing, Borovets, Bulgaria. Christodoulakis, D. N. (ed.) 2004. Design and Development of a Multilingual Balkan Wordnet. BalkaNet Final Report. http://www.ceid.upatras.gr/balkanet/ deliverables/finalreport_sub.pdf Comrie, B. 1976. Aspect: An Introduction to the Study of Verbal Aspect and Related Problems. Cambridge: Cambridge University Press. Farreres, X., G. Rigau, H. Rodriguez, H. 1998. Using WordNet for building Wordnets. Proc. of COLING/ACL Workshop on Usage of WordNet in Natural Language Processing Systems, Montreal. Fellbaum, C. (ed.) 1998. WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press. Gómez-Pérez, A. Fernández-López, M. Corcho, O. 2006. Ontological Engineering. London: Springer-Verlag. 16

Gyarmati Á. Almássi A. Szauter D. 2006. A melléknevek beillesztése a Magyar WordNetbe. In: IV. Magyar Számítógépes Nyelvészet Konferencia, Szeged. 117 126. Hatvani Cs. Kocsor A. Miháltz M. Szarvas Gy. Szécsi K. 2006. Főnevek a Magyar WordNetben. IV. Magyar Számítógépes Nyelvészeti Konferencia, Szeged, 109-116. Hatvani Cs. Kuti J. Miháltz M. Szarvas Gy. 2007. A Magyar EuroWordNet építése. GVOPzárójelentés. Horak, A. Smrz, P. 2004. New Features of Wordnet Editor VisDic. Romanian Journal of Information Science and Technology Special Issue volume 7, No. 1-2, pp. 201-213. Ion, R. Tufiş, D. 2004. Multilingual Word Sense Disambiguation Using Aligned Wordnets. Romanian Journal of Information Science and Technology Special Issue (volume 7, No. 1-2), pp. 183-200. Kuti J. Varasdi K. Cziczelszki J. Gyarmati Á. Nagy A. Tóth M. Vajda P. 2006. Igei wordnet és igei eseményszerkezet ábrázolása. In: IV. Magyar Számítógépes Nyelvészet Konferencia, Szeged, 2006, 97 108. Krauth P. 2007. Számítógépes szövegelemzés. Tanulmány. NHIT Információs Társadalom Technológiai Távlatai (IT3). http://www.nhit-it3.hu/it3-cd/28.szamitogepes_szovegelemzes.pdf Miháltz M. 2003. Magyar fõnévi WordNet létrehozása automatikus módszerekkel. Első Magyar Számítógépes Nyelvészeti Konferencia (MSzNy-2003), Szeged, 153-160. Miháltz, M. Prószéky, G. 2004. Results and Evaluation of Hungarian Nominal WordNet v1.0. In Proceedings of the Second International WordNet Conference (GWC 2004), Brno, Czech Republic, 175-180. Miháltz M. 2005. Ontológiaépítési tanulmány. Magyar EuroWordNet Projekt projektdokumentum. Miháltz M. Naszódi M. Vajda P. Varasdi K. 2007. NP-koreferenciák feloldása magyar szövegekben a Magyar WordNet ontológia segítségével. In: V. Magyar Számítógépes Nyelvészeti Konferencia, Szeged, 38 146. Miháltz, M. Hatvani, Cs. Kuti, J. Szarvas, Gy. Csirik, J. Prószéky, G. Váradi, T. 2008. Methods and Results of the Hungarian WordNet Project. In: Proceedings of The Fourth Global WordNet Conference, Szeged, Hungary, 11 321. Miller, G. Beckwith, R. Fellbaum, C. Gross, D. Miller, K. 1990. Five Papers on WordNet. CSL Report 43. Cognitive Science Laboratory. Princeton University. Niles, I. Pease, A. 2001. Towards a Standard Upper Ontology. In: Proceedings of the 2nd International Conference on Formal Ontology in Information Systems (FOIS-2001), Chris Welty and Barry Smith, eds, Ogunquit, Maine, October 17-19, 2001. 17

Prószéky, G. 1995. Humor: a Morphological System for Corpus Analysis. In: Rettig, H. Pajzs, J. Kiss, G. (eds.): Language Resources for Language Technology, 149 158. TELRI, Tihany, Hungary, 1995. Pustejovsky, J. 1995. The Generative Lexicon. Cambridge, MA.: MIT Press. Smrz, P. 2004. Quality Control and Checking for Wordnets Development: A Case Study of BalkaNet. Romanian Journal of Information Science and Technology Special Issue (volume 7, No. 1-2), pp. 173-181. Tufiş, D. Cristea, D. Stamou, S. 2004. BalkaNet: Aims, Methods, Results and Perspectives. A General Overview. Romanian Journal of Information Science and Technology Special Issue, vol. 7, no. 1-2, pp. 9-43. Vossen, P. (ed.) 1999. EuroWordNet General Document, Version 3. University of Amsterdam 18