WordNet egy számítógépes lexikai adatbázis Somogyi Gábor



Hasonló dokumentumok
Lexikon és nyelvtechnológia Földesi András /

A Mazsola KORPUSZLEKÉRDEZŐ

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

A HUNGLISH PÁRHUZAMOS KORPUSZ

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

SZEMANTIKA ÉS PRAGMATIKA A TERMINOLÓGIÁBAN

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Sémi összehasonlító nyelvészet

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Beszédfelismerés, beszédmegértés

Többnyelvű tezaurusz építése és szolgáltatása webes környezetben

Magyar főnévi WordNet-ontológia létrehozása automatikus módszerekkel

SEGÉDKÖNYVEK A NYELVÉSZET TANULMÁNYOZÁSÁHOZ XXVIII. Szerkesztette KIEFER FERENC

Alkalmazott Nyelvészeti Tanszékek 7. Országos Találkozója

Adatbázis rendszerek Definíciók:

Az MS Access adatbázis-kezelő program

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Önálló labor feladatkiírásaim tavasz

Adatbázis rendszerek. dr. Siki Zoltán

EGYÜTTHALADÓ. migráns gyermekek az. iskolában. Európai Integrációs Alap

Informatikai alapismeretek Földtudományi BSC számára

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben november 13.

Térinformatika amit tudni kell Márkus Béla

Adatmodellezés. 1. Fogalmi modell

Felhasználói kézikönyv. Verzió: 1.01

2

Kognitív nyelvészet. Kognitív szemantika Kognitív grammatika

Informatika A versenyzők a feladatlapot mindkét kategóriában a II. kategória első fordulójának kivételével csak elektronikus formában kapják meg

A munkavédelmi kultúra gyors ütemű átalakítása egy globális vállalatnál

Honlapkoncepció. Miskolc város hivatalos honlapjához

Boros Andrea és Ignéczi Lilla Neumann-ház, Budapest. Networkshop 2004 konferencia Győr, április 4 7.

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

Leképezések. Leképezések tulajdonságai. Számosságok.

Lexikológia, lexikográfia a MID oktatásában

MŰVELTSÉGTERÜLET OKTATÁSA TANTÁRGYI BONTÁS NÉLKÜL AZ ILLYÉS GYULA ÁLTALÁNOS ISKOLA 5. A OSZTÁLYÁBAN

Informatika Informatika

MS ACCESS 2010 ADATBÁZIS-KEZELÉS ELMÉLET SZE INFORMATIKAI KÉPZÉS 1

Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 0. A Wolfram Alpha tudásgép.

Miskolci Egyetemi Publikációs Adatbázis

Igekötős szerkezetek a magyarban

Adatbáziskezelés alapjai. jegyzet

Az emberi információfeldolgozás modellje. Az emberi információfeldolgozás modellje. Alakészlelés. Más emberek észlelése.

7. Gyakorlat A relációs adatmodell műveleti része

SSADM Dokumentáció Adatbázis Alapú Rendszerek

Angol szótár V

Értékelés a BUS programhoz elkészült termékek magyar változatáról Készítette: Animatus Kft. Jókay Tamás január 07.

A KÖZÉPSZINTŰ ÉRETTSÉGI VIZSGA INFORMATIKA TÉMAKÖREI: 1. Információs társadalom

A NYÍREGYHÁZI CIVIL FÓRUM STRATÉGIÁJA

A TANTÁRGY ADATLAPJA

Szemantikus Technológia

Nem minden könyvtáros grafikus, nem minden grafikus könyvtáros avagy annak (is) kell(ene) lennünk?

18. századi folyóiratok komplex feldolgozása a Debreceni Egyetemen

KOPI. KOPI Online Plágiumkereső és Információs Portál DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

Módszertani útmutató a természet adta javak és szolgáltatások nem pénzbeli értékeléséhez

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

Programozás alapjai Bevezetés

5. INDEXELÉS. Összeáll. dr. Pálvölgyi Mihály. BDF KIT, tanév, 1. félév

A BIOLÓGIAÉRETTSÉGI VIZSGA MÓDOSÍTÁSAI

Azaz az ember a szociális világ teremtője, viszonyainak formálója.

Az interakció stílusai

INFORMATIKA TANMENET SZAKKÖZÉPISKOLA 9.NY OSZTÁLY HETI 4 ÓRA 37 HÉT/ ÖSSZ 148 ÓRA

DIGITÁLIS KOMPETENCIA FEJLESZTÉSE TANÍTÁSI ÓRÁKON

Multimédia és felnőttképzés. Dr. Krisztián Béla.

Szemantika, lexikográfia: jelentés-egyértelműsítés, wordnetek. Nyelvészet az informatikában informatika a nyelvészetben november 13.

Matematikai modellezés

A TANKÖNYVFEJLESZTÉS ÚJ MODELLJÉNEK TAPASZTALATAI ÉS EREDMÉNYEI KOJANITZ LÁSZLÓ

Software Engineering Babeş-Bolyai Tudományegyetem Kolozsvár

Fogalmak: Adatbázis Tábla Adatbázis sorai: Adatbázis oszlopai azonosító mező, egyedi kulcs Lekérdezések Jelentés Adattípusok: Szöveg Feljegyzés Szám

6. Óravázlat. frontális, irányított beszélgetés. projektor, vagy interaktív tábla az ismétléshez,

A befogadó értékelés alkalmazása

Az üzleti versenyképességünk növelésének lehetőségei az ERASMUS programmal

J/55. B E S Z Á M O L Ó

Steps Towards an Ontology Based Learning Environment. Anita Pintér Corvinno Technologia Transzfer Kft

A számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete

Fogyatékossággal élő emberek életminősége és ellátási költségei különböző lakhatási formákban

ALAPOK. 0 és 255 közé eső számértékek tárolására. Számértékek, például távolságok, pontszámok, darabszámok.

NEMZETKÖZI MOZGALOM AZ INTERNET SZABADSÁGÁÉRT

Az élet szép, környezetünk tele van fákkal, virágokkal, repdeső madarakkal, vidáman futkározó állatokkal.

Az informáci. Forczek Erzsébet SZTE, ÁOK Orvosi Informatikai Intézet május

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / Mezei Ferenc üzletág-igazgató

Adatszolgáltatás a Postai Informatikai Rendszer számára. Dr. Nyuli Attila Alkalmazásfejlesztési és Üzemeltetési Osztály

OOP. Alapelvek Elek Tibor

Mi legyen az informatika tantárgyban?

SZÓBELI ÉRETTSÉGI TÉMAKÖRÖK

Informatika tagozat osztályozóvizsga követelményei

Egy nyelvészbarát szövegfeldolgozó eszköz: a NooJ

Adatbázis-kezelő rendszerek. dr. Siki Zoltán

SZAKDOLGOZAT ÓBUDAI EGYETEM. Neumann János Informatikai kar Alba Regia Egyetemi Központ

A Tinta e-book könyvtár/lexikontár címei:

Használd jól a könyvtári katalógust!

BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv?

Beszámoló a 13. ECDL (European Conference on Digital Libraries) konferenciáról

5. osztály. 1. Az informatikai eszközök használata:

Adatbázisok I Adatmodellek komponensei. Adatbázis modellek típusai. Adatbázisrendszer-specifikus tervezés

CAD Rendszerek I. Sajátosság alapú tervezés - Szinkron modellezés

Január 7. hétfő. I. Beszédtechnológia, fonológia

Miben fejlődne szívesen?

Átírás:

WordNet egy számítógépes lexikai adatbázis Somogyi Gábor SZTE BTK angol kommunikáció szak hpl_hu@freemail.hu A számítástechnika rohamos fejlődése, az internetnek mint a legnagyobb, vagyis világméretű hálózatnak katonai körökből a civil szférába (a hétköznapokba) való kikerülése, valamint az a nagyarányú technológiai fejlődés, amely mind a háttértárak és egyéb komputerperifériák fizikai méretében, mind pedig tárolókapacitásukban vagy gyorsaságukban történt robbanásszerű változásában is megmutatkozik, roppant összetett, értékes és intelligens szoftverek megalkotását tette lehetővé, hiszen már rendelkezésükre állt a programozóknak és a felhasználóknak a roppant nagy kapacitású személyi számítógép. A mesterséges intelligencia, a kibertér, az intelligens elektronikus robotok fogalmaival mára már nem csak a sci-fi magazinok hasábjain, hanem informatikai és műszaki szaklapok oldalain is találkozhatunk. Az ember és a gép közti kommunikáció mindig jelek, tehát szavak, parancsok, mondatok formájában valósult meg, vagyis egy mesterséges intelligenciával rendelkező rendszer megtervezése során az egyik legfontosabb kérdés a kommunikáció kialakításának módja. A gép, nem rendelkezvén a metakommunikáció luxusával, csakis szavakban fejezheti ki magát, csakis betűkkel és számokkal válaszolhat a programozó kérdéseire. Válaszai így egyértelműek, félreérthetetlenek lesznek, és kevésbé válnak kultúra- és kontextusfüggővé, mint a gesztusnyelv és az egyéb nonverbális beszédformák. A mesterséges intelligencia kutatása körül megnövekedett érdeklődést tükrözi az, hogy a számítógépes nyelvészetnek már nemcsak a nyelvi feldolgozás vagy a számítógépes lexikográfia, hanem a nagyméretű, sok millió rekordot tartalmazó szövegadatbázisok (korpuszok) létrehozása és további vizsgálatokra való felhasználása is kiemelten fontos területévé vált. Ezek a lexikai mátrixok például a WordNet nem csupán milliónyi szót és kifejezést tartalmaznak, hanem ezen tartalmi elemek tulajdonságai is megjelennek az adatok között. A tartalmi kapcsolatok nemcsak a rokonértelműségre vagy a más nyelvű fordításra terjedhetnek ki, ( ) hanem például a szó jelentését tartalmazó magasabb kategóriáról (például: kutya háziállat állat), alacsonyabb kategóriáról, fajtáról (például: kutya vizsla magyar vizsla), funkcióról (kutya házőrző, vakvezető stb.) vagy egyéb jelentésbeli kapcsolatról [is szó eshet]. E kapcsolatok felismerése viszont megkívánja, hogy a számítógép olyan szótárral rendelkezzen, amely az egyes szavak és kifejezések jelentését ábrázolja. Próbálták már a jelentést elvonatkoztatással, mesterséges világmodell segítségével ábrázolni, ennek azonban a web általános környezetében ahol szinte bármilyen információ előfordulhat nincs tere (nem dolgozható ki). Ha azonban jobban szemügyre vesszük a fenti példákat, láthatjuk, hogy a tartalmi kapcsolatok szótári szavak közötti kapcsolatokra vannak visszavezetve. A számítógép tehát azzal ábrázolhatja a szavak jelentését, hogy az erre szolgáló speciális szótárban különböző típusú kapcsolatokat (kategória, funkció stb.) tart fenn a címszavak között. [1] Ilyen szótár a WordNet is, amelynek bemutatása során a 213

Christiane Fellbaum által szerkesztett WordNet: an Electronic Lexical Database (MIT Press, Cambridge, 1998) könyv szövegére, valamint a Szegedi Tudományegyetem Bölcsészettudományi Karán a 2003/2004. tanév tavaszi szemeszterre általánosan művelő tantárgyként meghirdetett Számítógépes lexikai adatbázisok című szemináriumon elhangzottakra támaszkodom. Rövid történeti áttekintés George A. Millernek, a WordNet megálmodójának és csapatának annak ellenére, hogy már az 1970-es évek második felétől felmerült bennük egy komplex lexikon létrehozásának a gondolata nem volt pontos elképzelése arról, hogy lényegében mik is azok a főbb irányelvek, amelyek mentén a rendszert létre kívánják hozni. 1978-ban Miller a National Institute of Educationnak írt levelében vetette fel a lehetőségét és előnyeit egy automatizált szótárnak, amelyet elsősorban az oktatás terén lehetne felhasználni. 1984-ben el is készült a WordNet őse, egy IBM személyi számítógépen futó és 45 főnév szemantikai hálóját tartalmazó szoftver. Donald Walker és csapata felfigyelt a kezdeményezésre, és igen segítőkésznek bizonyult, így a WordNet továbbfejlesztéséhez a Bellcore és a Princeton Egyetem adott otthont. Az igazi munka tehát 1985-ben indult be. Még ebben az évben tartott konferencián merült fel az az ötlet, hogy az egyes fogalmak reprezentálására szinonimakészletet (synsets) hozzanak létre, amely kapcsolatot teremtene a mátrixban a szóalak és a jelentés között. Az alkotók előtt tehát ott lebegett már a feladat immár kissé körülhatároltabb megfogalmazása: egy online számítógépes szótár, amely mindinkább szemantikai bázisokat, mintsem csupán ABC-sorrendben elhelyezett szavakat tartalmaz. A project a Princeton Egyetem Kognitív Tanszékén folyó kutatások egyike lett, és a munkálatok beindulását az Office of Naval Research, vagyis egy katonai szervezet támogatta. A WordNet kiépítéséhez a legfontosabb programnak a Grinder bizonyult, amely a nyelvészek által kiegészített forrásfájlokat beépítette az adatbázisba. Forráskorpuszként a Brown Corpust használták, már csak azért is, mert ez a lista elkülöníti egymástól a különböző szófajokat. 1993-ban a COMLEX-szel kölcsönösen felfrissítették az adatbázisaikat. A megnövekvő adattömeg rendezett tárolására szintaktikai kategóriákat hoztak létre: a főnevekét, az igékét és a melléknevekét, majd 1992-től a határozószókét is. A rendezés ellenére is túl sok, részletesebb osztályozást kívánó szó maradt, a nyitottság leginkább a főnevek osztályán mutatkozott meg. P. N. Johnson-Laird vetette fel azt a problémát, miszerint a WordNetnek jeleznie kellene a melléknév jelentésében bekövetkezett változást, amikor az egy főnév előtt állva módosítja azt. Végül 266 antonímiapár készült el aszerint, hogy milyen főnevek jelentését módosítják. Ezzel a főneveket további 25 alkategóriába tudták besorolni. 1987-ben Christiane Fellbaum is csatlakozott a teamhez, első feladataként az igéket kategorizálta, így már csak a melléknevek osztálya maradt rendezetlen. 1989-ben Antonio Romero kifejleszti a Grinder új verzióját, amellyel megjegyzéseket és akár példamondatokat is hozzáfűzhetnek a synsetek egyes bejegyzéseihez. Ezt az új szolgáltatást az adatok drasztikus megnövekedése tette indokolttá. 1995-re a synsetek száma meghaladta a 90 ezret, a glosszáké pedig a 75 214

ezret. Még ugyancsak 1989-ben Susan Chipman tanácsára megalkották a Word Filter nevű programot, amely beolvas egy szövegfájlt, és kiértékeli a benne foglalt szavakat. A programot először tengerészeti-katonai tartalmú szövegfájlok analizálásánál futtatták, és a program segítségével a nem használatos, ritka szavakat, valamint a terminus technikusokat közkeletűbb, gyakorta használt szinonimákkal cserélték fel. Ezek után már csak egy probléma adódott, amely nyelvi jelenséget az inflekciós morfológia ír le, nevezetesen: a szavak, főleg az igék bizonyos esetekben toldalékot kapnak. Az angol nyelvben a gyenge igék E/3-as ragozása egy s vagy -es szuffixekben jelenik meg, és a d vagy az ed jelzi a múlt időt. A főnevek pedig a rendhagyók kivételével egy s ragot kapnak, ha többes számba tesszük őket. De akár az a probléma is felmerülhet, hogy az egyes ragozott szavak többértelműek lehetnek: a ships jelenthet hajókat, de akár a hajózni, hajóval szállítani ige E/3-as alakja is lehet. A megoldást Richard Beckwith és Michael Colon Morphy nevű programja jelentette, amely egyszerűen levágta a szótőről a toldalékokat, amennyiben az az adott szó nem szerepelt a kivétellistán. Claudia Leacock és Brian Gustafson nevéhez pedig a ConText program fűződik, amely feldolgozza a szöveget, és megjeleníti annak WordNet bejegyzéseit. 1993-ban új változat készül el, amelynél a programozók minél jobban törekedtek a feldolgozás alatt előforduló többértelmű kifejezések helyes feldolgozására. Komputerek és lexikonok A WordNet megalkotása kezdetén a készítők három fontos elvárást támasztottak leendő adatbázisukkal szemben. Az első az elkülönítés hipotézise volt, vagyis a nyelvek lexikális komponensei elkülönítve, önmagukban is vizsgálhatók; egyes nyelvészek szerint ez a szavak szintjén történhet. Habár ezek az elemek nem teljesen függetlenek, nagyon is izolálhatók. A következő elvárás a szerkezeti sémák hipotézise, amely azt mondja ki, hogy a természetes nyelvhasználat addig nem valósul meg lexikális tudáshalmaz felhasználásával, amíg nem vagyunk tisztában a használati sémákkal (patterns) és a szavak jelentései közti kapcsolatokkal. A különböző nyelvkönyvekben a szerző egy-egy szemantikai teóriát 20 50 példával illusztrál, pedig akár 100 ezer példa is felhozható. A harmadik hipotézis, a teljeskörűség elmélete szerint a számítógépes adatbázisoknak úgy kell a nyelvet használni, ahogyan azt a valóságban is teszik az emberek. Tehát egy könnyen hozzáférhető, böngészhető, kereshető és széles körű lexikai adatbázisra van szükség. A szerzők nem győzik elégszer megemlíteni, hogy az e filozófián alapuló WordNet a mesterséges intelligenciakutatás terén mekkora előrelépésekhez vezethet. 1985-re a kognitív pszichológusok és informatikus nyelvészek körében általánosan bevett szokás volt, hogy elképzeléseiket, megfigyeléseiket diagramokkal és hálómodellekkel ábrázolják. A WordNet készítői felismerték ennek az előnyeit, és egyértelművé vált számukra, hogy az egyetlen lehetséges út a lexikális szemantikai vizsgálatokhoz a relációs, hierarchikus rendszerfelépítésen nyugszik. Mára a komputerek egyre gyorsabban és olcsóbban tudnak olyan feladatokat is elvégezni, amelyeket az ember csak nagyon nehezen. A nyelvészeti teóriák az emberi nyelvek működését, nyelvtanát hivatottak ábrázolni, de olyan adatokon nyugszanak, amelyek nincsenek a mindennapi használat számára jól dokumentálva. 215

Manapság már elérhető számos nyelvi korpusz, ezek szolgáltatnak kísérleti környezetet a teóriák, nyelvészeti rendszerezések teszteléseinek. Az emberek gondolataikat is a nyelvvel formázzák meg, szavak rendszerei alapján. A WordNet egy hierarchikus struktúrává vált. A nyelvészet számos területein (fonológia, morfológia, szintaxis, szemantika) lefektetett szigorú szabályok számítógépen való modellezése izgalmas kihívásnak tűnik a szakemberek számára. Ám egy effajta adatbázis felállítása számos technikai kérdést vet fel. A rendszer adatokkal való feltöltése kétféle úton történhet: szótárak szkennelésével, amely során a nyomtatott szöveg átalakul adatokká. Ezeket utólag még fel kell dolgozni, és rendszerezni kell. A legtöbb lexikai adatbázis ezzel a szisztémával készül, amely hátránya az, hogy a program nem mindig ismeri fel helyesen az adott szöveget. A gyorsaságot növelheti az automatikus akvizíció módszere. A másik alternatíva a szótárak begépelése. Ez lassú, hosszadalmas és unalmas munka, de előnye az, hogy már előre, célirányosan készíthetünk bejegyzéseket, és a hibajavítást is kiküszöbölhetjük, vagyis ez a módszer minimális feldolgozást igényel; a WordNet így készült. A második kérdés az, hogy mit tartalmazzon az adatbázis. Habár a WordNet számos állandósult szókapcsolatot (pl. phrasal verb) és idiomatikus kifejezéseket is tartalmaz, alapegysége a szó, annak is a szótári alakja. A tartalom szó alatti részekre nem terjed tehát ki, továbbá nem tartalmaz szó feletti szervezőegységeket (script, frame) sem, ám például a buy (venni) és a sell (eladni) ige közt relációt tart fenn, amely szisztéma hasonlít Fillmore és Atkins FrameNetjéhez. Az egyes nyitott osztályok szemantikai hálóba való felosztása azt is mutatja, hogy a WordNet nem tartalmazza a szavak szintagmatikai tulajdonságait. Egy átlagos szótártól eltérően, a WordNet rövidebb frázisokat is tartalmaz, például a bad person (rossz ember), amely nem fejezhető ki teljesen kizárólag egy szóval. Az effajta szókapcsolatok a WordNet relációs struktúrájából következnek, amely két fogalmat egy olyan harmadikon keresztül kapcsol össze, amelyre az angolban nincs egyszavas kifejezés. A nyelvészek és pszichológusok gyakran különböztetik meg a lexikai (fogalmi) tudást az enciklopédikus tudástól. A szótárak az előzőt, az enciklopédiák pedig az utóbbi tudást hordozzák. Ám a határok napjainkban egyre jobban összemosódnak. Annak a tudása, hogy megütni valakit egy erőszakos tett, az enciklopédikus tudáskörünkbe tartozik, míg az, hogy az ütni ige többnyire tárgyas vonzatú, és szinonimája a bántalmazni (eufemisztikus) ige, már a lexikális tudásunkhoz tartozik. Ám a világban való eligazodásunkhoz mindkét terület ismerete szükséges. Kay szerint egy olyan típusú szótár, amely mindkét ágat tartalmazza, bizonyosan sikeres lenne. A WordNet, habár erre nem vállalkozik, számos tekintetben eleget tesz ennek a követelménynek, mert például egyes kifejezések megértését példamondatok segítik, valamint a nem hétköznapi szavaknál, állat- vagy növényneveknél mindkét terület tudása be van ágyazva. A harmadik fő kérdés az adatbázis kivitelezésére, dizájnjára vonatkozik. Egy számítógépes szótár nagy előnye az, hogy nem szorul alfabetikus szisztéma szerinti feltöltésre, mert a program úgyis helyes sorrendbe teszi az egyes rekordokat. A keresőrendszer pillanatok alatt megtalálja az adott kritériumoknak megfelelő értékeket. Habár a WordNet se nem tradicionális szótár, se nem tezaurusz (fogalomkörök alapján készített szótár), számos hasonló tulajdonságot mutat velük. 216

A WordNet annyiban tezaurusz, hogy a benne foglalt szavak utalnak a fogalmilag hozzá kapcsolódó más szavakra, kifejezésekre. Ez azt jelenti, hogy egy szó kikeresésénél lehetőség van annak szinonimáit, valamint más, logikailag és szemantikailag összetartozó szavakat kilistázni. A kapcsolatok pontosak és felcímkézettek, a felhasználó kiválaszthatja a számára megfelelőt. Ám ennek is van határa. A korábban már említett bad person kifejezésnek számos alárendelt szinonimája van, például az offender (bűnöző) és a libertine (kicsapongó). Ha a bad person kifejezés nem referálna erre a két kifejezésre, amelyek ugyan szinonimák, de nem teljesen jelentik ugyanazt, akkor ezek az alárendelt kifejezések egyet jelentenének és kapcsolódnának az adventurer (kalandor), a lover (szerető) vagy a worker (munkás) szóhoz. A bad person és a lover pedig már teljesen mást jelent. A WordNet pedig annyiban szótár, hogy példamondatokat és definíciókat is rendel az egyes szavakhoz, információt ad a morfológiailag kapcsolódó szavakról, és néha a különböző szinonimákat más-más példával illusztrálják. Relációk a WordNetben A jelentésbeli relációkkal való foglalkozás során érdekes kérdéseket vetett fel az ún. tenisz probléma. A WordNetben a relációkat a hasonlóság és a jelentésbeli kontraszt is meghatározza. A megengedhetőség tűréshatára véges, tehát az adatbázis nem tartalmaz semmiféle szinonímiai kapcsolatot a racquet (teniszütő), a ball (labda) és a net (háló) szavak közt. Ezek összekapcsolása vetné fel a tenisz problémát. A fogalmak analógiák révén függnek össze. Olyan szabály nincs, amely eleve eldönthetné, hogy jó vagy rossz-e egy-egy analógia, hiszen bármi bármihez hasonlítható, valamilyen összefüggésben. [2] Számos megoldási javaslat született: Hirst és St-Onge egy lexikai lánc alkalmazását írja le, amely lényegében a főnevek szemantikai relációin alapuló, kontextusban elhelyezett főnév-szekvencia. Al-Haimi és Kazman a lexikai fa fogalmát alkotta meg, amely hasonló alapokon derivál témainformációt. Harabagiu és Moldovan szerint növelni kellene a szemantikai kapcsolódásokat a szavak közt, ezzel lehetővé válna a témainformáció kivonatolása és a szövegkoherencia megteremtése. Új perspektívák Számos felhasználói kritika azt rótta fel a készítőknek, hogy az adatbázis kevés szintaktikai információt tartalmaz, de ennek elsősorban az az oka, hogy a WordNet egy szemantikai-hálós adatbázisnak készült. Különösen az igék esetében lenne fontos a szintaktikai megjelölés. Ennek ellenére, a szintaktikai megkötések szabályai jól érzékelhetők például a mellékneveken. Jelenleg az egyes kereteknek bizonyos alapvető információt történő szolgáltatása már minden igei synset része, még mindig kevés információ nyerhető ki az egyes argumentumok természetéről. Kohl, Jones, Berwick és Nomura ezért egy olyan szolgáltatást dolgozott ki, amely növeli a szintaktikai keretek számát, felhasználva Levin angol igéket osztályozó rendszerét. A kutatók 200 mondatsémát vizsgáltak, programjuk több, mint 10 ezer példamondatot generált 2600 szóformából. Amennyiben valamely oknál fogva rossz 217

mondat generálódott (például szemantikailag helytelen igeszinonima felhasználásakor), a program helytelen mondatként meg is jelölte azt. Ezek az esetek azt mutatták, hogy a szemantikai szempontból hasonló igék szintaxisa korántsem mindig ugyanaz. Egyértelműsítés A beszélők a többértelmű szavaknak az adott kontextus alapján tulajdonítják a helyes értelmezést, amely többnyire beválik, ennek ellenére annak a kérdése, hogy hogyan tudjuk felismerni, úgymond megérezni, hogy az adott szónak éppen melyik jelentésváltozatával találkoztunk, még viszonylag megválaszolatlan. A számítógépes programok többé-kevésbé helyesen értelmezik a szavakat, de persze itt nagyobb kötöttségek fordulnak elő, mint az emberek esetében. Voorhees azt is kimutatta, hogy egy számunkra szükséges dokumentum megtalálása egy hatalmas, heterogén környezetben csakis egy eredményes kereséssel érhető el, amely során egyezés van a keresőszó és a dokumentumcím vagy a -kivonat közt. Kísérletei azt igazolták, hogy csak akkor növekedett a helyes visszakeresések száma, amikor a fogalmakat (elhelyezve a WordNet synsetjeiben) manuálisan, az adott jelentés tudatában választották ki. A WordNet magyar nyelvű fejlesztéséről [3] A WordNet magyar nyelvre való átültetése Prószéky Gábor (Morphologic) és Miháltz Márton (ELTE) nevéhez fűződik, akik a munkálatokat 2000-ben kezdték el. Legfőbb alapelvük a Princeton-féle eredeti WordNet alapstruktúrájára való támaszkodás volt, amely adatbázist magyar nyelvű főnevekkel töltötték fel. Az eljárást két módszer szerint végezték el: kézi egyértelműsítés az absztrakt szintek érdekében, valamint automatikus egyértelműsítés egy korábbi projekt heurisztikai rendszere alapján. A magyar nominális WordNet egynyelvű szótár alapján történő kiépítésének minél könnyebbé tételéhez számos alternatíva mutatkozott. Számítógépes programok segítségével elemezték ki az egyes szótári bejegyzéseket és bontották ki azok szemantikai információit. A definíciók 83%-ában a logikailag hierarchikusan fölérendelt szavakat (genus words) be tudták azonosítani: koala: marsupial mammal resembling a bear, native in Australia. Vagyis a koala a mammal (emlős) alárendeltje, hiszen minden koala emlős. 1700 esetben a fölérendelt szó vagy gyűjtőnév, vagy pedig csak részben hozható kapcsolatba az adott szóval: alphabet: the set of letters used for ; face: the part of the head that Számos internetes alkalmazást fejlesztettek ki a korábban már említett többértelmű szavak helyes értelmezésének céljából. A felhasználóknak a rendszer egy olyan weblapot jelenít meg, amely űrlapként funkcionál: ezen válaszolhat a készítő a központi adatbázis feltöltése során. A magyar kifejezések itt úgy értelmeződnek, mint az angol kifejezések egyes szinonimái. Akkor kerülnek be az adatbázisba, amennyiben a felhasználó úgy találja, hogy a magyar és az angol kifejezés ugyanazt jelenti. A fejlesztés jelenleg is tart, a csapat jövőbeli tervei közt szerepel az egyes rekordok felcímkézése, valamint még több szinonimai kapcsolat hozzáadása. 218

Referenciák [1] Prószéky Gábor Kis Balázs: Globális társadalom globális nyelv: a nyelvi processzorok világa. URL: www.morphologic.hu. [2] Eco, Umberto: A Foucault-inga. Európa Könyvkiadó, Budapest, 748. o. (2003) [3] Prószéky Gábor Miháltz Márton: Semi-automatic Development of the Hungarian WordNet. URL: www.morphologic.hu. 219