Javában taggelünk.

Hasonló dokumentumok
PurePos: hatékony morfológiai egyértelműsítő modul

Ismeretlen kifejezések és a szófaji egyértelm sítés

Morfológiai újítások a Szeged Korpusz 2.5-ben

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Milyen a még jobb Humor?

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

MSD-KR harmonizáció a Szeged Treebank 2.5-ben

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

magyarlanc 2.0: szintaktikai elemzés és felgyorsított szófaji egyértelműsítés

Analogikus általánosítási folyamatok a gyereknyelvben c. kutatási projekthez

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására

Az e-magyar digitális nyelvfeldolgozó rendszer

STATISZTIKAI GÉPI FORDÍTÁS

Egy általános célú morfológiai annotáció kiterjesztése

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Igekötős szerkezetek a magyarban

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Lexikon és nyelvtechnológia Földesi András /

HunLearner: a magyar nyelv nyelvtanulói korpusza

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

1. A k-szerver probléma

Többnyelv dokumentum nyelvének megállapítása

A MAGYAR NEMZETI SZÖVEGTÁR EGYMILLIÁRD SZAVAS ÚJ VÁLTOZATA

A Hunglish Korpusz és szótár

O & ko zèpmaǵar zoalactanÿ èlèmzo

AZ ÉPÍTÉSI MUNKÁK IDŐTERVEZÉSE

Magyar nyelv klinikai rekordok morfológiai egyértelm sítése

TANIT Magyar nyelvű szövegeket elemző eszköz összehasonlító digitális bölcsészeti feladatokhoz

Ismeretlen szavak helyes kezelése kötegelt

Doktori (Ph.D.) értekezés tézisei. A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával.

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Mély neuronhálók alkalmazása és optimalizálása

MAGYAR MINT IDEGEN NYELV TANKÖNYVEK NYELVI ANYAGÁNAK SZÁMÍTÓGÉPES ELEMZÉSE 5

az összetettszó-kezelés, alkalmassá teszik bonyolult agglutináló nyelvek algoritmusok futásidőben feldolgozott nyelvspecifikus célra optimalizált

A Humor új Fo(r)mája

YANG ZIJIAN GYŐZŐ 杨子剑

Dr. Saxné Dr. Andor Ágnes Márta. Immateriális javak a számviteli gyakorlatban

Domének közti hasonlóságok és különbségek a szófajok és szintaktikai viszonyok eloszlásában

NYELVHELYESSÉGI GYAKORLATOK

OSZTÁLYOZÓ VIZSGA Orosz, 2. idegen nyelv. 9. évfolyam

HOGYAN LELJÜNK BARÁTOKAT A KORPUSZBAN?

Magyar nyelvű néprajzi keresőrendszer

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre

Január 7. hétfő. I. Beszédtechnológia, fonológia

Novák Attila (2003): Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem,

Online algoritmusok. Algoritmusok és bonyolultságuk. Horváth Bálint március 30. Horváth Bálint Online algoritmusok március 30.

28 millió szintaktikailag elemzett mondat és igei szerkezet

A HIBRID LINEÁRIS LÉPTET MOTOR HATÉKONYSÁGÁNAK NÖVELÉSI MÓDOZATAIRÓL

ZÁRÓ TANULMÁNY a "FoglalkoztaTárs társ a foglalkoztatásban" kiemelt projekt (TÁMOP / ) keretében

Magyar nyelv webes szövegek számítógépes feldolgozása

PureToken: egy új tokenizáló eszköz

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *

VI. Magyar Földrajzi Konferencia

Útmutató a szakdolgozat elkészítéséhez

MODELLALAPÚ SZEMANTIKUS KERESŐ RENDSZER KIDOLGOZÁSA

SZEKERES DIÁNA 1. A bírósági mediáció kapujában

Magyar főnévi WordNet-ontológia létrehozása automatikus módszerekkel

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A szógyakoriság és helyesírás-ellenőrzés

Programozás alapjai Bevezetés

Szakmai beszámoló és elemzés a békéltető testületek évi tevékenységéről

Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával

A magyar létige problémái a számítógépes nyelvi elemzésben

Bázistranszformáció és alkalmazásai 2.

1. A környezet fogalma. A természeti környezet (víz, talaj, levegő, élővilág)

Penta Unió Zrt. Az Áfa tükrében a zárt illetve nyílt végű lízing. Név:Palkó Ildikó Szak: forgalmi adó szakirámy Konzulens: Bartha Katalin

ДВНЗ «УЖГОРОДСЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ» Приймальна комісія

A mezõgazdaság gazdaságstruktúrája és jövedeleminformációs rendszerei

A népesség iskolázottságának előrejelzése 2020-ig

Szeged Megyei Jogú Város Közgyűlésének. Kohári Nándor önkormányzati képviselő

Orosz C nyelvi programkövetelmény

Szótáralapú kémiai NE-felismer rendszer

MÉLYFÚRÁSI GEOFIZIKAI ADATOK ÉRTELMEZÉSÉNEK MODERN INVERZIÓS MÓDSZEREI

Beszédfelismerés, beszédmegértés

DR. VINCZE VERONIKA. SZEMÉLYES ADATOK Születési idő: július 1. Állampolgárság: magyar

Képi információk hatékony feldolgozása széles társadalmi rétegeket érintő egészségügyi problémákban

Tantárgyi útmutató. 1. A tantárgy helye a szaki hálóban. 2. A tantárgyi program általános célja. Statisztika 1.

Vizuális tervgazdálkodás

Zsemlyei János A MAI MAGYAR NYELV SZÓKÉSZLETE ÉS SZÓTÁRAI

Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában

Magyar C nyelvi programkövetelmény

E-LEARNING ALAPÚ TÁVOKTATÁS A SZÉCHENYI ISTVÁN EGYETEMEN

Kádár István 1 Dr. Nagy László 1 1 Budapesti Műszaki és Gazdaságtudományi Egyetem,

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Félig kompozicionális szerkezetek automatikus azonosítása magyar és angol nyelven

KONFERENCIA TÁMOGATÓI CSOMAGOK

GÉPELEMEK GÉP. Gépegység /Részegység/ Alkatrész /Gépelem/ Alkatrész. Alkatrész GÉPELEMEK CSOPORTOSÍTÁSA

A hagyományos pedagógiai kultúra csődje

Tűgörgős csapágy szöghiba érzékenységének vizsgálata I.

formalizmusa Egy morfológiai elemző kimeneti formalizmusának három, egymásnak gyakran

Egyszerű programozási tételek

magyar nyelvű szövegekben

II. A mosdóhigiéniai üzletágra vonatkozó speciális rendelkezések és szolgáltatási szintek.

Tartalomjegyzék. 2./Húsipari- húseldolgozó vállalkozások akcióellenőrzése 10

Tárgy: Kiskunmajsa Város Önkormányzatának évi költségvetési koncepciója.

Lineáris algebra 2. Filip Ferdinánd december 7. siva.banki.hu/jegyzetek

Átírás:

336 VIII. Magyar Számítógépes Nyelvészeti Konferencia Javában taggelünk Novák Attila 1, Orosz György 2, Indig Balázs 2 1 MorphoLogic Kft., 1116 Budapest, Kardhegy utca 5. novak@morphologic.hu 2 Pázmány Péter Katolikus Egyetem Információs Technológiai Kar, oroszgy@itk.ppke.hu dlazesz@gmail.com Kivonat: A szófaji egyértelm sítés (POS tagging) a számítógépes nyelvfeldolgozás egyik alapfeladata. A feladat megoldására számtalan algoritmus sok különböz programozási nyelven megírt implementációja létezik. Az egyes szövegszavakhoz rendelend morfológiai címkék megállapítása azonban csak az egyik részfeladat, amelyet a szöveg morfológiai annotációjakor el kell végezni: a címkén kívül a szótövet is azonosítani kell. A nem túl gazdag morfológiájú analitikus angol nyelv esetében egy szófaji egyértelm sít és egy egyszer tövesít egymás után kapcsolása elfogadható eredményt ad. A magyarhoz hasonló ragozó nyelvek esetében azonban sokkal jobb eredményt kapunk, ha a szófaji egyértelm sítést és a szót megállapítását egyaránt elvégz morfológiai elemz t tartalmazó integrált eszközt használunk. 1 Bevezetés Cikkünkben egy olyan új nyílt forráskódú eszközt mutatunk be, amely egyszerre végzi el a szófaji egyértelm sítést és a szót megállapítását, tehát teljes egyértelm sített morfológiai annotációt ad. Az eszköz szófaji egyértelm sít algoritmusa a TnT és HunPoS taggerekben implementált rejtett Markov-modell (HMM) algoritmuson alapul. Emellett tartalmaz egy olyan felületet, amelynek használatával morfológiai elemz illeszthet hozzá, amely nemcsak a tanítóanyagban nem látott szavak morfológiai címkéjének egyértelm sítését teszi sokkal pontosabbá, hanem a szavak szótövét is megadja. Az eszközt Java nyelven implementáltuk. 2 A korpusz reprezentativitása Ha a magyarhoz hasonló agglutináló nyelveket az angollal hasonlítjuk össze abból a szempontból, hogy egy adott méret korpusz milyen arányban tartalmazza az adott nyelv lehetséges szóalakjait, akkor azt tapasztaljuk, hogy míg egy azonos méret korpuszban sokkal több különböz szóalak szerepel az agglutináló nyelvek esetében, mint az angolban, ezek ugyanakkor mégis sokkal kisebb részét fedik a korpuszban szerepl szótövek lehetséges alakjainak. A korpusz tehát sokkal kevésbé reprezenta-

Szeged, 2011. december 1 2. 337 tív a szókincs szempontjából, mint az angol esetében. 10 millió szavas korpuszméret esetében például az angolban általában 100 000-nél kevesebb különböz szóalakot találunk, ugyanakkor a magyarban jóval 800 000 feletti a különböz szóalakok száma. Ugyanakkor míg az angolban egy nyílt szóosztályba tartozó szónak legfeljebb 4 6 alakja van, a magyarban több száz vagy több ezer különböz alakot kapunk attól függ en, hogy a produktív szóképzés eseteivel is számolunk-e. Természetesen a sokkal több lehetséges szóalak azt jelenti, hogy a lehetséges szófaji címkék száma is jóval magasabb a magyar esetében (több ezer szemben az angol néhány tucat címkéjével). Ezért egy magyar korpusz a szóalakok szintjén több szempontból is sokkal hiányosabban reprezentálja a nyelvet, mint az angol esetében: a szövegekben szerepl lemmák lehetséges ragozott alakjainak túlnyomó többsége teljesen hiányzik; az el forduló szóalakok is sokkal kevesebbszer szerepelnek; sokkal kevesebb példa van az adott konkrét morfológiaicímke-sorozatokra, s t a lehetséges címkék nagy része egyáltalán nem szerepel a korpuszban. A tanítóanyagban nem látott szavak kezelésére (illetve pl. a maximum entrópia modellt használó taggerek esetében a tanítóanyagban látott szavak esetében is) a szófaji egyértelm sít eszközök általában tartalmaznak valamilyen mechanizmust, amely a szavak végz déseit vizsgálja a címke megjósolásához. A magyar esetében az el forduló hosszú toldaléksorozatok miatt jóval hosszabb szóvégek figyelembevételére van szükség, mint a nem agglutináló nyelvek esetében (ez különösen így van, ha a ragok mellett bizonyos produktív képz ket is azonosítani szeretnénk). 3 A morfológiai elemz hatása A magyarhoz hasonló nyelvek esetében a rendszer tanítóanyagában nem szerepl szóalakok nagy része olyan szó, amelynek más ragozott alakjai el fordulnak a tanítóanyagban. Oravecz és Dienes [5], valamint Halácsy és mtsai. [4] bemutatták, hogy morfológiai elemz felhasználásával az általa ismert szóalakok esetében sokkal pontosabban meg lehet állapítani a tanítóanyagban nem szerepl szavak címkéjét, mint pusztán a tanítóanyagon betanított nyelvfüggetlen szóvégz dés-felismer vel. Az utóbbi téves javaslatait a morfológiai elemz kimenetével megsz rve a tanítóanyagban nem látott szavakra a szófaji egyértelm sítés pontossága hatékonyan javítható. A morfológiai elemz pontosságot javító hatása annál jelent sebb, minél kisebb a rendelkezésre álló kézzel egyértelm sített tanítóanyag. Az imént idézett eredmények nem olyan rendszerrel készültek, amely valóban integrált morfológiai elemz t tartalmazott volna, hanem az annotálandó szövegen offline lefuttatott morfológiai elemz által visszaadott címkéket táblázat formájában betöltve szimulálták a morfológiai elemz hatását. Ez a fajta megoldás azonban nem használható bizonyos alkalmazásokban, például ha a taggert webszolgáltatásként szeretnénk üzemeltetni. Többek között ezért döntöttünk úgy, hogy olyan eszközt implementálunk, amely integrált morfológiai elemz t tartalmaz. A morfológiai elemz t nemcsak arra használjuk, hogy a tanítóanyagban nem látott szavak címkézésének pontosságát javítsuk, hanem szükségünk van rá a szótövek megállapításához is. A morfológiai elemz számára sem ismert szavak kezelése (legf képpen a szótövük megállapítása) morfo-

338 VIII. Magyar Számítógépes Nyelvészeti Konferencia lógiai guesser (toldalékelemz ) beépítésével oldható meg. Ezért az eszköz két csatolófelületet tartalmaz: egyet a morfológiai elemz, egyet pedig a guesser illesztésére. 4 Az optimális t kiválasztása A morfológia és f leg a sokkal lazább megszorításokkal dolgozó guesser gyakran több olyan lehetséges t jelöltet is visszaad, amely a tagger által választott címkével kompatibilis. Sokszor tehát nem triviális a helyes szót kiválasztása. A magyarban az egyik ilyen többértelm ségi osztály az az azonos töv ikes iktelen igepároké. A lexikális tör/törik, (fel)dolgoz/dolgozik típusú párok mellett a produktív -z/-zik képz pár szinte korlátlan mennyiségben hozza létre az ilyen típusú többértelm ségeket. Emellett a két ragozási paradigma lényegében csak abban az egyetlen E/3 jelen idej kijelent módú alakban tér el, amely a lemmát adja, az összes többi igealak többértelm a t szempontjából, ezért egyben ez a leggyakoribb olyan t többértelm ség-típus, amely a morfológiai elemz által felismert szóalakok körében fellép. A t egyértelm sítésére legegyszer bb alapmodellként egy egyszer unigram modellt használtunk. Ebben a modellben a szóalakként leggyakrabban el forduló alakot választjuk a lehetséges tövek közül. Ennek az egyszer modellnek el nye, hogy nincs szükség a statisztika alapját képez korpusz semmiféle annotációjára. Ezért nem kell a rendelkezésünkre álló annotált korpuszra szorítkoznunk, hanem tetsz leges méret anyagot használhatunk, még maga az annotálandó szöveg is hozzáadható a statisztika alapját képez anyaghoz. Ez a modell magyarra elég jó teljesítményt ad az ismeretlen szavak túlnyomó részét adó névszók esetében, mert ezeknek a leggyakoribb alakja a toldalékolatlan alanyeset. Az egyik leggyakoribb többértelm ségi osztály, ahol az egyszer t választási algoritmus hibázik, a magas hangrend ikes iktelen igepárok esete (ahol az ik nélküli ige tárgyas). Ezeknek az ik vég alakja is többértelm : T/3 alanyú határozott tárgyas alak is lehet, és az ennél az igeosztálynál sokszor gyakoribb az ik nélküli lemmánál (pl. a nevezik alak 4-szer olyan gyakori, mint a nevez). Ezt a problémát részben lehet kezelni egyrészt úgy, hogy a morfológiai elemz ben letiltjuk a nevez-hez hasonló gyakori igék produktív képzéssel el állított felbontását (ezzel a név+ezik = nevezik képzett alakot). Emellett az egyszer unigram szóalak-gyakorisági modell annotált korpuszból vett adatokkal nyelvspecifikus módon kombinálva, illetve a tövek megelemzése után a tagger által választott elemzéssel inkompatibilis tövek kisz résével a t meghatározás pontossága növelhet. 5 Morfológiailag annotált korpusz építése nulláról Azon nyelveknek jelent s része, amelyekre nem léteznek kézzel annotált tanítóanyagok, a magyarhoz hasonlóan bonyolult morfológiával rendelkezik. Ezen nyelvekre morfológiailag annotált egyértelm sített korpusz létrehozására egy olyan iteratív eljárás t nik a leghatékonyabb módszernek, amelynek során morfológiai elemz létrehozását követ en a rendelkezésre álló korpusz egy kis részhalmazát elemeztetjük,

Szeged, 2011. december 1 2. 339 és ezt kézzel egyértelm sítve a taggert betanítjuk. A korpusz következ részletét az így betanított taggerrel el egyértelm sítjük, majd az annotációt kézzel javítjuk, ezt a folyamatot addig ismételve, amíg elegend annotált korpuszhoz nem jutunk. Nulláról épített annotált korpuszok esetében a minimális méret tanítóanyag miatt a korábban vázolt adathiány-probléma még súlyosabb. Minél kevesebb tanítóanyag áll rendelkezésre, annál jelent sebb az integrált morfológiai elemz jótékony hatása az automatikus morfológiai címkézés pontosságára. Az annotáció kézi javítása is sokkal hatékonyabban végezhet, ha a morfológiai elemz egyéb elemzései is rendelkezésre állnak a tagger által választott elemzés mellett, és egyszer en választani lehet az elemzések közül, mint ha ténylegesen mindig kézi javítgatásra van szükség. Az iteratív korpuszannotációs eljárás használhatóságának fontos feltétele, hogy a tagger újratanítása ne vegyen igénybe túlzottan hosszú id t. A betanítás sebességének szempontjából a rejtett Markov-modell alapú szófaji címkéz eszközök nagyságrendekkel felülmúlják a bonyolultabb maximum entrópia vagy CRF-alapú algoritmusokat, amelyeknek betanítási ideje jóval hosszabb. (Konkrétan a HMM-alapú HunPoS [4] betanítása a Szeged korpuszon [6] kevesebb, mint egy percet vesz igénybe, szemben a maximum entrópia alapú OpenNLP hat órás betanítási idejével ugyanazon a gépen.) Mindemellett a HMM-alapú eszközök számos nyelvre többek között magyarra is az egyértelm sítés pontosságában is élen járnak. Bár a magyar nyelvre már létezik egy olyan nyelvspecifikus eszköz, amely tartalmaz morfológiai elemz t, és platformfüggetlen implementációval rendelkezik: a magyarlanc [7], ennek azonban nyelvspecifikus mivolta mellett komoly hátránya az alapjául szolgáló Stanford POS tagger nagy er forrásigénye és a betanítás lassúsága. 6 Az új eszköz Az elérhet HMM-alapú megoldások nem tartalmaznak beépített morfológiai elemz t. A népszer és megenged licensz HunPos tagger kiegészíthet lenne a kívánt funkcionalitással, de az implementációjához használt programozási nyelv csekély ismertsége ennek (és a tagger integrálásának) korlátját jelenti. Egy, az iparban elterjedtebb nyelv használata könnyebb szerves integrációt tesz lehet vé olyan nyelvfüggetlen keretrendszerekhez, mint az UIMA vagy a GATE. Ezért döntöttünk egy új, a tanítási sebességét tekintve jól használható, nyelvfüggetlen, morfológiai elemz vel könnyen integrálható szófaji egyértelm sít implementációja mellett. Az új, nyílt forráskódú, Java nyelven implementált, rejtett Markov modellen alapuló POS-tagger, melynek alapjául a TnT [1] és a HunPos rendszerek szolgálnak, a korábban említett problémák kiküszöbölése érdekében a szófaji egyértelm sítés és a szótövezés problémáját egy feladatként kezeli. A rendszer képes morfológiai elemz és guesser aktív használatára a szófaji egyértelm sítés közben, továbbá az elemzés kimenetét a szót meghatározására is felhasználja. Az eszközt olyan alkalmazásprogramozási felülettel láttuk el, amelyen keresztül egyszer en illeszthet hozzá tetsz leges morfológiai elemz. Mivel gyakran az egyértelm sített taghez tartozó t sem egyértelm (különösen nem az azoknak a szóalakoknak az esetében, amiket a morfológiai elemz nem ismer, hanem a lehetséges töveiket a guesser állítja el ), olyan

340 VIII. Magyar Számítógépes Nyelvészeti Konferencia mechanizmussal is kiegészítettük a rendszert, amely a lehetséges többértelm tövek közül is hatékonyan választ. Bibliográfia 1. Brants, T.: TnT A Statistical Part-of-Speech Tagger. In: Proceedings of the sixth conference on Applied natural language processing (2000) 2. Farkas, R., Szeredi, D., Varga, D., Vincze, V.: MSD-KR harmonizáció a Szeged Treebank 2.5-ben. In: VII. Magyar Számítógépes Nyelvészeti Konferencia (2010) 349 353 3. Halácsy, P., Kornai, A., Oravecz, Cs., Trón, V., Varga, D.: Using a morphological analyzer in high precision POS tagging of Hungarian. In: Proceedings of LREC (2006) 2245 2248 4. Halácsy, P., Kornai, A., Oravecz, Cs.: HunPos: an open source trigram tagger. In: Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions (2007) 209 212 5. Oravecz, Cs., Dienes, P.: Efficient Stochastic Part-of-Speech Tagging for Hungarian. In: Third International Conference on Language Resources and Evaluation (2002) 710 717 6. Vincze, V., Szauter, D., Almási, A., Móra, Gy., Alexin, Z., Csirik, J.: Hungarian Dependency Treebank. In: Proceedings of the Seventh Conference on International Language Resources and Evaluation (2010) 7. Zsibrita, J., Nagy, I., Farkas, R.: Magyar nyelvi elemz modulok az UIMA keretrendszerhez. In: VI. Magyar Számítógépes Nyelvészeti Konferencia (2009) 394 395