Magyar főnévi WordNet-ontológia létrehozása automatikus módszerekkel



Hasonló dokumentumok
Lexikon és nyelvtechnológia Földesi András /

Magyar WordNet: az első magyar lexikális szemantikai adatbázis 1

Főnevek a Magyar WordNetben

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

YANG ZIJIAN GYŐZŐ 杨子剑

Ismeretlen kifejezések és a szófaji egyértelm sítés

Nem lexikalizált fogalmak a Magyar WordNetben

Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában

Szemantika, lexikográfia: jelentés-egyértelműsítés, wordnetek. Nyelvészet az informatikában informatika a nyelvészetben november 13.

Különírás-egybeírás automatikusan

2. Halmazelmélet (megoldások)

A relációs adatmodell

Tevékenység szemléletű tervezés magyarországi felsőoktatási intézmények pályázataiban

Intelligens elektronikus szótár és lexikai adatbázis

Szinonimák a terminológiában 1

Javában taggelünk.

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Diszlexiások/diszgráfiások anyanyelvi és idegen nyelvi szókincsszerkezete

RDFS. (Resource Description Frameworks Schema) Méréstechnika és Információs Rendszerek Tanszék

ABR ( Adatbázisrendszerek) 1. Előadás : Műveletek a relációs medellben

Beszédfelismerés, beszédmegértés

3. Vírusmentes e-levelemet a kolléga számítógépe fert½ozte meg érkezéskor.

Javaslat a magyar igei WordNet kialakítására

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

1./ Az els fokú hatóság fenti számú határozatát. m e g v á l t o z t a t o m. akként, hogy a kivetett közigazgatási bírság mértékét 100.

A nyelvtechnológia hatása napjaink lexikográfiájára

P (A) = i. P (A B i )P (B i ) P (B k A) = P (A B k)p (B k ) P (A) i P (A B i)p (B i )

KÉPALKOTÁSRA ALAPOZOTT RUHAIPARI

A magyar nyelv Ausztriában és Szlovéniában.

Igekötős szerkezetek a magyarban

IV/4. sz. melléklet: Kontrolling és döntéstámogatás funkcionális specifikáció

1. A k-szerver probléma

JAVÍTÁSI-ÉRTÉKELÉSI MATEMATIKA ÚTMUTATÓ ÉRETTSÉGI VIZSGA KÖZÉPSZINT% ÍRÁSBELI. ÉRETTSÉGI VIZSGA február 21. OKTATÁSI MINISZTÉRIUM

Szakmai beszámoló. az OTKA F számú kutatási projektről

Novák Attila (2003): Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem,

Doktori (Ph.D.) értekezés tézisei. A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával.

1. tétel Halmazok és halmazok számossága. Halmazműveletek és logikai műveletek kapcsolata.

alkalmas automatikus módszer kidolgozása a Hat Szigma módszerével

MATEMATIKA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Többnyelv dokumentum nyelvének megállapítása

Elérhető szótárak a magyar nyelv oktatásában és használatában. M. P i n t é r T i b o r

SZEMANTIKA ÉS PRAGMATIKA A TERMINOLÓGIÁBAN

Milyen a még jobb Humor?

Előszó. V. Skouris A Bíróság elnöke

Adatbázis rendszerek Definíciók:

Adatbázisok. 4. gyakorlat. Adatmodellezés: E-K modellb l relációs adatbázisséma. Kötelez programok kiválasztása szeptember 24.

Térképek jelentése és elemzése

Adatbázis-kezelés. alapfogalmak

Függvények határértéke, folytonossága

A HIBRID LINEÁRIS LÉPTET MOTOR HATÉKONYSÁGÁNAK NÖVELÉSI MÓDOZATAIRÓL

Javaslat AZ EURÓPAI PARLAMENT ÉS A TANÁCS HATÁROZATA

Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával

Pszichometria Szemináriumi dolgozat

Hely- és kontextusfüggő alkalmazások fejlesztését támogató keretrendszer mobil környezetben

Biztosítási ügynökök teljesítményének modellezése

Az első és az egyetlen. Beszélő fordítógép, beszélő szótár, beszélő kifejezés gyűjtemény

Helyi Esélyegyenlőségi Program Felülvizsgálata. Táborfalva Nagyközség Önkormányzata

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

ZIJIAN GYŐZŐ YANG 杨子剑 Language technology expert specialized in machine translation evaluation

MIT IS MONDOTT? HOGY IS HÍVJÁK? ELIGAZODÁS A KÁRTEVŐK VILÁGÁBAN

A SZERENCSI KISTÉRSÉG

Lenti és Térsége Vidékfejlesztési Egyesület LEADER HELYI FEJLESZTÉSI STRATÉGIÁJA

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

matematikus-informatikus szemével

MÉRNÖK-SZÓTÁR. számítógépes program rendszer. magyar-angol-német-orosz és más nyelvek. Mérnökök által összeállított szakmai szótárak, szakembereknek!

Gabonacsíra- és amarant fehérjék funkcionális jellemzése modell és komplex rendszerekben

Angol nyelvű összetett kifejezések automatikus azonosítása i

A MUNKÁLTATÓK TÁVMUNKÁVAL SZEMBENI BEÁLLÍTOTTSÁGAI

Kaszás Tímea: Corvina OPAC az SZTE Mez gazdasági Könyvtárában

Mveletek a relációs modellben. A felhasználónak szinte állandó jelleggel szüksége van az adatbázisban eltárolt adatok egy részére.

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

ÁEEK Kataszter. Felhasználói útmutató

EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA

Tallózás a víziközmű világsajtóban

Tervezett erdőgazdálkodási tevékenységek bejelentése

A közfoglalkoztatás megítélése a vállalatok körében a rövidtávú munkaerő-piaci prognózis adatfelvétel alapján

Az alapvető jogok biztosának Jelentése Az AJB-492/2016. számú ügyben (Előzmény: AJB-4069/2014.)

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

A MetaMorpho projekt története

Relációk. 1. Descartes-szorzat. 2. Relációk

Vezetéses Totó kulcsok Enciklopédiája I.

Modern Fizika Labor Fizika BSC

MAGASÉPÍTÉSI PROJEKT KOCÁZATAINAK VIZSGÁLATA SZAKMAI INTERJÚK TÜKRÉBEN 1 CSERPES IMRE 2

I. Az állategység számítás szempontjai

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

tezaurusz 2. kötet Témaorientált változat 4.2. kiadás / magyar Melléklet az Európai Unió Hivatalos Lapjának tárgymutatójához

2

E L Ő T E R J E S Z T É S. A Komárom-Esztergom Megyei Közgyűlés november 28-ai ülésére

A Hunglish Korpusz és szótár

KÖVETELMÉNYEK A SZABADALMI ELJÁRÁSBAN FELHASZNÁLT DOKUMENTUMOK ALÁÍRÁSÁVAL ÉS HITELESÍTÉSÉVEL KAPCSOLATBAN**

A szakképző iskolát végzettek iránti kereslet és kínálat várható alakulása 2011

KUTATÁSMÓDSZERTAN 4. ELŐADÁS. A minta és mintavétel

13. Egy január elsejei népesség-statisztika szerint a Magyarországon él k kor és nem szerinti megoszlása (ezer f re) kerekítve az alábbi volt:

A döntésorientált hibamód és hatáselemzés módszertanának tapasztalatai az AUDI Motor Hungária Kft.-nél

FŐNÉVI VONZATOK A MAGYAR NYELVBEN

A BIZOTTSÁG JELENTÉSE AZ EURÓPAI PARLAMENTNEK ÉS A TANÁCSNAK. a halászati és akvakultúra-termékek uniós ökocímkerendszerére vonatkozó lehetőségekről

számított mező, számított tétel

BENEDEK GÁBOR. Dupla vagy semmi. Duplikációbecslés szimulációs módszerekkel

Átírás:

Magyar főnévi WordNet-ontológia létrehozása automatikus módszerekkel Miháltz Márton MorphoLogic Kft. 1118 Budapest, Késmárki utca 8. mihaltz@morphologic.hu Kivonat. A cikk bemutatja a folyamatban lév, magyar f névi WordNet adatbázis létrehozását célul kit z munkálatok módszereit és legfrissebb eredményeit. Bemutatjuk azt a 9 különböz számítógépes módszert, melyek célja magyar f nevek automatizált hozzárendelése az angol nyelv, 1.6-os verziójú WordNet synsetjeihez. A felhasznált magyar f nevek egy elektronikus magyarangol kétnyelv szótár szóanyagából származnak. A heurisztikus hozzárendelések támogatásához a kétnyelv mellett az egynyelv magyar Értelmez Kéziszótár számítógéppel feldolgozható anyagából nyertünk ki strukturális és szemantikai információkat. A különböz folyamatok eredményeinek pontosságát egy kézzel egyértelm sített etalon halmaz segítségével becsültük meg, majd a f névi adatbázist a validált eredményhalmazok különböz szint pontosságot meghaladó kombinációival állítottuk el. Kulcsszavak: WordNet-építés, Magyar F névi WordNet, automatikus szemantikai információ-szerzés 1 Bevezetés Napjainkban az intelligens számítógépes nyelvészeti alkalmazások természetes nyelvi szövegek gépi feldolgozását segít eszközök, keres motorok, fordítóprogramok fejlesztésében egyre inkább szükség mutatkozik természetes nyelvi fogalomtárak, ontológiák, lexikális tudásbázisok alkalmazására. Az egyik legelterjedtebb nyelvi ontológiai formalizmus a WordNet (WN), mely eredetileg a mentális lexikon számítógépes modelljeként született ([5]). A WN a tartalmas szóosztályok (f nevek, igék, melléknevek és határozószók) lexikai elemeinek szemantikai hálózata, ahol a fogalmi csomópontokat synsetek, szinonima-halmazok alkotják, közöttük olyan szemantikai kapcsolatokkal, min például a hiperníma ( Az-egy ) reláció. A magyar WordNet létrehozását megcélzó projekt 2000-ben indult, els lépésként a legkiterjedtebb tartalmas szóosztály, a f nevek adatbázisának létrehozását megjelölve ([6]). Munkánk során automatikus eljárásokat alkalmaztunk az ún. kiterjesztési módszer ( Extend method, [8]) megvalósítására, melynek lényege, hogy a szabadon hozzáférhet, angol nyelv Princeton WordNet f névi synsetjeit megfeleltetjük magyar f nevekkel. Mivel feltételezzük, hogy a f névi fogalmak mind az angol, mind a magyar nyelvben hasonló szemantikai rendszerbe szervez dnek, hiszen ugyanazt a

világot írják le, ezzel a módszerrel gyorsan és hatékonyan el állítható egy magyar f névi ontológia kiinduló változata, mely szemantikai kapcsolatait az angol WN-t l örökli. 2 A felhasznált számítógépes erőforrások Az alapfeladat (magyar f nevek angol synsetekhez kapcsolása) megvalósításának kiinduló anyaga a MorphoLogic Kft. angol-magyar szótári adatbázisa volt, mintegy 17 700 magyar f névi címszóval, melyekhez 12 400, az angol WN által lefedett angol fordítás tartozik. Az illesztési folyamat támogatására felhasznált másik er forrás az XML formátumba konvertált Magyar Értelmez Kéziszótár (ÉKSz, [3]) anyaga volt. Az ÉKSz mintegy 42 000 f névi címszót tartalmaz, melyekhez több mint 64 000 különböz szöveges definíció tartozik. 3 Az alkalmazott módszerek Mivel a kétnyelv szótár magyar címszavainak nagy része egynél több (az egész szótár anyagában átlagosan 1,7) angol fordítással rendelkezik, az angol megfelel k pedig az angol WN-ben gyakran többértelm ek, azaz egynél több (átlag 2,16) synsethez tartoznak, a megfeleltetés során egyértelm síteni kellett, vagyis a lehetséges angol synsetek közül kiválasztani azokat, amelyekhez a magyar szó tartozik (jelenti ket). Ezt a feladatot automatikus módon, 9 különböz részben korábbi, hasonló projektek során ([1], [2]), részben általunk kifejlesztett heurisztikus eljárás alkalmazásával oldottuk meg. Ezzel a módszerrel a költséges manuális munka csupán az eredmények ellen rzésére redukálódik. 3.1 A kétnyelv szótár anyagával támogatott módszerek A heurisztikák els csoportja a kétnyelv szótárból kinyerhet információkon alapszik. Ezek egy része, melyeket a eredetileg a spanyol WordNet létrehozásakor fejlesztettek ki Atserias és munkatársai ([1]), a kétnyelv szótár magyar és angol szavai, illetve az angol címszavak és a WN megfelel synsetjei közötti kapcsolatokból kinyerhet információkat hasznosítják. A következ heurisztikákat alkalmaztuk: EGYJELENTÉS FORDÍTÁSOK: ha egy magyar szó valamelyik angol fordítása egyértelm a WN-ben, vagyis csupán egyetlen synsetbe tartozik, akkor létrehozunk egy kapcsolatot a magyar szó és a synset között. VARIÁNSOK: ha egy WN synset kett vagy több olyan angol szót tartalmaz, melyeknek csupán egyetlen magyar fordításuk van, és az ugyanaz a magyar szó, akkor a magyar szót hozzárendeljük a közös synsethez. METSZET MÓDSZER: a magyar szavakat hozzárendeli azokhoz a synsetekhez, amelyek legalább kett t tartalmaznak a szó angol fordításai közül.

Egy negyedik, általunk kifejlesztett heurisztika a kétnyelv szótár magyar oldalából kinyerhet morfo-szemantikai információkon alapul. A magyar címszavak egy része termékeny endocentrikus (f név+f név) szóösszetétel Az ilyen összetétel szavak egy részének jellemz tulajdonsága, hogy a szerkezet alaptagja az összetétel utótagja többnyire meghatározza azt a szemantikai mez t, amelynek az összetétel által jelölt dolog eleme ([4]). Így például a hangversenyzongora összetett szót számítógépes morfológiai elemzéssel felbontva a hangverseny+zongora morfémákra, az utótag kiválasztásával megkapjuk az összetett szó DERIVÁCIÓS HIPERNÍMÁJÁT ( a hangversenyzongora az egy (fajta) zongora ). Ez az információ a következ részben leírt, módosított fogalmi távolság formula segítségével felhasználható a lehetséges angol synsetek feletti egyértelm sítéshez. 3.2 Az Értelmez Kéziszótár anyagát hasznosító módszerek A Magyar Értelmez Kéziszótár f névi definícióit a Humor morfológiai elemz programmal ([6]) dolgoztuk fel, majd ez elemzett szövegben morfo-szintaktikai mintázatok heurisztikus keresésével ismertettünk fel szemantikai relációkat. Ezáltal képesek voltunk a címszóhoz 53 300 f névi definícióban hipernímákat, 10 500 definícióban szinonimákat, illetve további 826 definícióban holonímákat és 584 esetben meronímákat azonosítani. Ezeknek a szemantikai információknak egy részét az alábbi módszerekkel használtuk fel a magyar címszavak WN-hez képest történ egyértelm - sítéséhez: SZINONIMÁK: a magyar címszó angol fordításaihoz tartozó synsetek közül azt választjuk ki, amely a legtöbbet tartalmazza a szinonima angol fordításai közül (de legalább kett t). HIPERNÍMÁK: azokban az esetekben, ahol mind a magyar címszónak, mind a hozzá azonosított hiperníma szónak volt angol fordítása a kétnyelv szótárban, az 1. Ábrán bemutatott, módosított fogalmi távolság formula alkalamazásával választottuk ki a megfelel angol synsetet. Az eredeti formulát Atserias és munkatársai fejlesztették ki ([1]). Fig. 1. A módosított fogalmi távolság formulát magyar f névek és hipernímáik angol fordításainak párjaira alkalmaztuk. A képlet azt a két WN synsetet adja vissza, amely a WN hiperníma-hálózatában a legközelebb helyezkedik el egymáshoz. A magyar címszót a mélyebben lév (a címszóhoz tartozó) synsethez rendeljük Egy harmadik heurisztika a mintegy 1 500 ÉKSz címszóhoz megtalálható LATIN megfelel ket használja fel. Ezek általában állat- és növényfajok, rendszertani kategóriák, betegségek stb. latin nevei, melyek az angol WordNetben is megtalálhatók, így a latint egyértelm sít közvetít nyelvként felhasználva vihetjük végbe a hozzárendeléseket.

A kétnyelv és az értelmez szótáron alapuló módszerek eredményeit az 1. Táblázat ismerteti. Table 1. A különböz illesztési módszerek eredményei: illesztett magyar f nevek és WN synsetek, valamint a közöttük létrejött kapcsolatok számai Módszer Magyar f nevek WN 1.6 synsetek Kapcsolatok Egyértelm fordítások 8 387 5 369 9 917 Metszet módszer 2 258 2 335 3 590 Variáns módszer 164 180 180 DerivHip + FT 1 869 1 857 2 119 ÉKSz szinonimák 927 707 995 ÉKSz hipernímák + FT 5 432 6 294 9 724 ÉKSz latin megfelel k 1 697 838 848 3.3 Módszerek a lefedettség további növelésére Azoknál a magyar f neveknél, ahol a magyar-angol szótár nem tartalmazott angol fordítást az ÉKSz alapján hozzájuk azonosított hiperníma vagy szinonima szavakhoz, két további módszerrel jutottunk angol fordítással rendelkez (derivációs) hipernímákhoz. Az els módszer a 3.1 részben ismertetett eljárással, illetve termékeny f név-f név képzések felismerésével (pl. ruhadarab ruha) keres derivációs hipernímákat a szinonimákhoz és hipernímákhoz. Mivel a hiperníma-reláció tranzitív, a címszó hipernímájának (vagy szinonimájának) hipernímája is hipernímája lesz a címszónak. A második eljárás kikeresi az azonosított hiperníma (vagy szinonima) szót az ÉKSz címszavai között, és amennyiben az egyértelm (egyetlen definíciója van csak, tehát nincs szükség a jelentések közötti egyértelm sítésre), az ahhoz azonosított hiperníma szót használja fel (ha az rendelkezik angol fordítással). Ezzel a két módszerrel 9,2%-os emelkedést tudtunk elérni az automatikusan illesztett magyar f nevek lefedettségében. Az automatikus módszerek összesen 13 948 magyar f nevet rendeltek hozzá 12 085 angol WN synsethez, 22 169 kapcsolatot létrehozva. 4. Az eredmények validációja és egyesítése A különböz módszerek eltér megbízhatóságúak, különböz pontosságú eredményeket produkálnak. Ezek pontos ellen rzéséhez a kétnyelv szótár teljes magyar oldalának anyagából véletlenszer en kiválasztottunk 400 f nevet, melyek az angol fordításaikon keresztül összesen 2 201 lehetséges WN synsethez tartoznak. A lehetséges kapcsolatokat kézzel egyértelm sítettük, kiválasztva azokat, amelyek fennállnak és kitörölve azokat, amelyek nem állnak fenn a magyar szavak és az angol synsetek között. Ezzel a módszerrel létrehoztunk egy etalon halmazt, melynek segítségével elvégezhet a részeredmények megbízhatóságának becslése.

Els ként megvizsgáltuk a 9 automatikus módszer eredményeit. Minden heurisztika esetében megállapítottuk a heurisztika és az etalon halmaz által közösen lefedett magyar szavak halmazát, az ezekhez a heuriszitka, illetve az etalon által rendelt kapcsolatokat, valamint ezeknek a kapcsolathalmazoknak a metszetét. Két mér számmal jellemeztük egy adott heurisztika megbízhatóságát. A pontosság (precision) érték a metszet halmaz és a heurisztika által létrehozott kapcsolathalmaz, a fedés (recall) érték pedig a metszet és az etalonban található kapcsolatok arányát jelzi. Az eredmények a 2. Táblázatban láthatók. Ebben azt is feltüntettük, hogy az adott módszer a kétnyelv szótár teljes magyar oldalának milyen arányához rendelt kapcsolatokat (lefedettség (coverage) érték). Table 2. Az etalon halmaz alapján számított pontosság és fedés értékek, valamint a kétnyelv szótár magyar oldalának lefedettsége a különböz automatikus módszerek esetében, pontosság szerint csökken sorrendben. A latin ekvivalenseket felhasználó módszert nem tudtuk ezzel a módszerrel értékelni, mivel az jórészt szaknyelvi, az etalon halmaz általános szókincsében nem szerepl szavakhoz rendelt synseteket. Kézi mintavételezéssel és ellen rzéssel ennek a módszernek a pontosságát kb. 80%-osra becsültük Módszer Pontosság Fedés Lefedettség Variánsok 92.01% 50.00% 0.50% Szinonimák 80.00% 39.44% 8.00% DerivHip 70.31% 69.09% 17.50% Lef. növ. 1. 67.65% 46.94% 7.50% Egyért. ford. 65.15% 55.49% 69.25% Metszet 58.56% 35.33% 17.50% Lef. növ. 2. 58.06% 28.57% 6.00% Hipernímák 48.55% 41.71% 49.25% A különböz forrásokból származó eredmények egyesítésében a spanyol WN készít i által alkalmazotthoz hasonló módszert követtük ([1], [2]). Els ként meghatároztunk két megbízhatósági küszöbértéket (70%, illetve 65%), majd egyesítettük azokat az eredményhalmazokat, amelyek az etalon halmaz segítségével végzett pontosságbecslések alapján elérték, vagy meghaladták ezeket a küszöbértékeket. Így létrejött két eredményhalmaz, körülbelül 70, illetve 65 százalékos becsült pontossággal. Ezután létrehoztuk azoknak az eredmény-halmazoknak a páronkénti metszeteit, amelyek nem szerepeltek a fenti két halmazban, majd ezekre is elvégeztük a pontosságbecslést az etalon halmaz segítségével. A lehetséges 13 metszethalmaz közül 9 becsült pontosság-értéke lett 65 százalék, vagy annál magasabb (ebb l 8 metszethalmaz 70% vagy magasabb becsült pontosságú). Ezeket a kiválasztott metszethalmazokat hozzáadtuk a két alaphalmazhoz, így tovább tudtuk növelni a lefedettséget anélkül, hogy a pontosság jelent sen csökkent volna. A dolog mögött az az elgondolás húzódik, hogy az alacsonyabb pontosságú módszerek is adhatnak a küszöbértéket meghaladó pontosságú eredményeket, amennyiben több külön forrás is meger síti ket. A két kiinduló halmaz, a kombinált metszethalmazok, valamint a két végleges halmaz adatai a 3. Táblázatban láthatók.

Table 3. A különböz eredmények kombinációiból el álló halmazokban található magyar szavak, angol synsetek és kapcsolataik száma, a halmazok becsült pontosságával Eredményhalmaz Szavak Synsetek Kapcsolatok Pontosság 1. alaphalmaz 2 445 2 170 2 722 76,14% További metszethalmazok 7 183 6 142 8 579 76,70% 1. végleges halmaz 7 927 6 551 9 635 75,38% 2. alaphalmaz 12 275 11 597 20 439 65,11% További metszethalmazok 3 110 2 698 3 431 66,91% 2. végleges halmaz 12 839 12 004 22 169 63,35% 5. Összegzés, további munka A magyar f névi WordNet adatbázis kiinduló változatait különböz automatikus módszerek eredményeinek kombinációival állítottuk össze. Egy manuálisan létrehozott etalon halmaz segítségével becsült pontosságértékek alapján két, eltér méret és pontosságú halmazt hoztunk létre a további munka számára. A továbbiakban szeretnénk f ként kézi munka alkalmazásával (a helytelen kapcsolatok kisz résével) növelni az eredmények megbízhatóságát, illetve tovább növelni a lefedett magyar szavak számát (a legpontosabbnak bizonyult heurisztikák alkalmazásával további kétnyelv szótármodulokra). Hivatkozások 1. Atserias, J., S., Climent, X., Farreres, G., Rigau, H., Rodríguez: Combining multiple methods for the automatic construction of multilingual WordNets. Proc. of Int. Conf. on Recent Advances in Natural Language Processing, Tzigov Chark (1997) 2. Farreres, X., G., Rigau, H., Rodriguez: Using WordNet for building Wordnets. Proc. of COLING/ACL Workshop on Usage of WordNet in Natural Language Processing Systems, Montreal (1998) 3. Juhász, J., I., Sz ke, G. O. Nagy, M. Kovalovszky (szerk.): Magyar Értelmez Kéziszótár. Akadémiai Kiadó, Budapest (1972) 4. Kiefer, F.: Jelentéselmélet. Corvina, Budapest (2001) 5. Miller, G. A., R. Beckwith, C. Fellbaum, D. Gross, K. J. Miller: Introduction to WordNet: an on-line lexical database. Int. J. of Lexicography 3 (1990) 235 244. 6. Prószéky, Gábor: Humor: a Morphological System for Corpus Analysis. Language Resources and Language Technology, Tihany (1996) 149 158 7. Prószéky, G. M. Miháltz: Automatism and User Interaction: Building a Hungarian WordNet. Proc. of the Third International Conference on Language Resources and Evaluation, Las Pa mas de Gran Canaria, Spain (2002) 8. Vossen, P.: Right or Wrong. Combining lexical resources in the EuroWordNet project. Proceedings of Euralex-96, Goetheborg (1996)