MSD-KR harmonizáció a Szeged Treebank 2.5-ben



Hasonló dokumentumok
Morfológiai újítások a Szeged Korpusz 2.5-ben

Ismeretlen kifejezések és a szófaji egyértelm sítés

Javában taggelünk.

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Egy általános célú morfológiai annotáció kiterjesztése

Magyar nyelv webes szövegek számítógépes feldolgozása

Magyar nyelvű néprajzi keresőrendszer

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

magyarlanc 2.0: szintaktikai elemzés és felgyorsított szófaji egyértelműsítés

Igekötős szerkezetek a magyarban

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

formalizmusa Egy morfológiai elemző kimeneti formalizmusának három, egymásnak gyakran

HunLearner: a magyar nyelv nyelvtanulói korpusza

Lexikon és nyelvtechnológia Földesi András /

PurePos: hatékony morfológiai egyértelműsítő modul

Domének közti hasonlóságok és különbségek a szófajok és szintaktikai viszonyok eloszlásában

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *

Doktori (Ph.D.) értekezés tézisei. A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával.

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Január 7. hétfő. I. Beszédtechnológia, fonológia

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Ismeretlen szavak helyes kezelése kötegelt

a Szeged FC Treebankben

Az e-magyar digitális nyelvfeldolgozó rendszer

1.ábra: A Beszédmester nyitóképe

A Hunglish Korpusz és szótár

Milyen a még jobb Humor?

Az URaLUID adatbázis bemutatása

PureToken: egy új tokenizáló eszköz

YANG ZIJIAN GYŐZŐ 杨子剑

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

A HunOr magyar-orosz párhuzamos korpusz

Novák Attila (2003): Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem,

A Humor új Fo(r)mája

ALAKTAN ELŐADÁS 1-2. Alaktan, morfológia tárgya. Morfológia és mondattan viszonya. Morfológia univerzalitása. A szó fogalma I. Alaktan belső ügyei

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

DR. VINCZE VERONIKA. SZEMÉLYES ADATOK Születési idő: július 1. Állampolgárság: magyar

Vezetéses Totó kulcsok Enciklopédiája I.

MAGYAR MINT IDEGEN NYELV TANKÖNYVEK NYELVI ANYAGÁNAK SZÁMÍTÓGÉPES ELEMZÉSE 5

Események detektálása természetes nyelvű szövegekben

Pedagógiai program. IX. kötet

morphdb.hu: magyar morfológiai nyelvtan és szótári adatbázis

11. NEMZETKÖZI VÁNDORLÁS. Gödri Irén FŐBB MEGÁLLAPÍTÁSOK

Ungarisch. Grammatische Strukturen/lexikalische Einheiten Nével : Határozott, határozatlan

Szerkezetek és kategóriák. Szerkezetek és kategóriák. Szerkezetek és kategóriák. Szerkezetek és kategóriák

É. Kiss Katalin A szibériai kapcsolat - avagy miért nem tárgyasan ragozzuk az igét 1. és 2. személyű tárgy esetén Magyar Nyelvjárások 41.

Az Ómagyar Korpusz bemutatása

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására

Különírás-egybeírás automatikusan

Szenczi Beáta AZ OLVASÁSI MOTIVÁCIÓ VIZSGÁLATA 8 14 ÉVES TANULÓK KÖRÉBEN

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában

Szótáralapú kémiai NE-felismer rendszer

Javaslat AZ EURÓPAI PARLAMENT ÉS A TANÁCS RENDELETE

MemoLuX Kft. MINİSÉGÜGYI KÉZIKÖNYV. Jelen példány sorszáma: 0. Verzió: Lapszám: Fájlnév: 4/0 1/30 MMKv4.doc

Arany Dániel Matematikai Tanulóverseny 2017/2018-as tanév 2. forduló Haladók II. kategória

Többnyelv dokumentum nyelvének megállapítása

Helyi tanterv. Szakiskolát végzettek középiskolája. Közismeret

Mesterséges Intelligencia Elektronikus Almanach

28 millió szintaktikailag elemzett mondat és igei szerkezet

A BIZOTTSÁG JELENTÉSE AZ EURÓPAI PARLAMENTNEK ÉS A TANÁCSNAK. Az Europass kezdeményezés értékelése

Analogikus általánosítási folyamatok a gyereknyelvben c. kutatási projekthez

A digitális televíziózásra történő átállás társadalmi hatásainak elemzése

TÁJÉKOZTATÓ - A Képviselő-testülethez - Nagykálló Város Önkormányzata I.-III. negyedévi gazdálkodásának végrehajtásáról

A magzat életének védelme az új alkotmányban

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Szitás Katalin: Választási Válaszút

Hivatali Tájékoztató. Tartalom V. ÉVFOLYAM ÉVI 1. SZÁM

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

A nemzeti fejlesztési miniszter

KHEOPS Tudományos Konferencia, AMBRUS ATTILÁNÉ Egyetemi főtanácsadó 1, NYME KTK, Sopron. Az egyéni vállalkozók adó és járulékterheinek alakulása

Hódmezővásárhely Megyei Jogú Város Közgyűlésének november 6-i rendes ülésére beterjesztett anyagok. I./D kötet

Félig kompozicionális szerkezetek a SzegedParalell angol magyar párhuzamos korpuszban

Önértékelési kézikönyv KOLLÉGIUMOK SZÁMÁRA

Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások

A MAGYAR NEMZETI SZÖVEGTÁR EGYMILLIÁRD SZAVAS ÚJ VÁLTOZATA

Természetesnyelv-feldolgozás. Mesterséges intelligencia május 9.

ZÁRÓ TANULMÁNY a "FoglalkoztaTárs társ a foglalkoztatásban" kiemelt projekt (TÁMOP / ) keretében

SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer

Akilencvenes évek elejétõl a magyar gazdaság és társadalom gyors átrendezõdésen. tanulmány

Magyar nyelvtan tanmenet 4. osztály

KOREFERENCIAVISZONYOK AZ ENYHE KOGNITÍV ZAVARBAN SZENVEDŐK BESZÉDÁTIRATAIBAN. Kovács Viktória SZTE Nyelvtudományi Doktori Iskola

2015/25. SZÁM TARTALOM. 29/2015. (VI. 29. MÁV-START Ért. 25.) sz. vezérigazgatói utasítás a MÁV-START Zrt. Biztonságirányítási Kézikönyvéről...

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

AZ EGYSZER ELJÁRÁS AJÁNLATTÉTELI FELHÍVÁSA Kbt. harmadik rész VI. fejezet 251. (2) bek. szerint

MEGFELELÉSI PROGRAM ÉV

Ellátási lánc optimalizálás P-gráf módszertan alkalmazásával mennyiségi és min ségi paraméterek gyelembevételével

A kutatás vezetője: Dr. Vissy Beatrix. A kutatás résztvevői: Dr. Navratil Szonja Dr. Simon Éva Dr. Szabó Máté Dániel Dr.

KIEMELT PROJEKT ÚTMUTATÓ a Társadalmi Megújulás Operatív Program

MORFOLÓGIAI FELÉPÍTÉS

A Kbt (1) bekezdés b) pontja alapján hirdetmény közzétételével induló tárgyalásos eljárás orvosi műszerek beszerzése érdekében.

J/9457. B E S Z Á M O L Ó

magyar nyelvű szövegekben

Készült: Szentes Város Önkormányzata Polgármesteri Hivatala Közgazdasági Osztályán, 2005 novemberében.

Ebben az írásban a pedagógusképzés finanszírozásának egy-két sajátosságát

B E S Z Á M O L Ó a Polgármesteri Hivatal évi munkájáról

Átírás:

Szeged, 2010. december 2 3. 349 MSD-KR harmonizáció a Szeged Treebank 2.5-ben Farkas Richárd 1, Szeredi Dániel 2, Varga Dániel 2, Vincze Veronika 3 1 MTA-SZTE, Mesterséges Intelligencia Tanszéki Kutatócsoport rfarkas@inf.u-szeged.hu 2 BME Média Oktató és Kutató Központ daniel@bme.mokk.hu, daniel@szeredi.hu 3 Szegedi Tudományegyetem, Informatikai Tanszékcsoport vinczev@inf.u-szeged.hu Kivonat: A magyar morfológiai er források közül az egyik legelterjedtebben használt a morphdb.hu, amelynek morfológiai annotációs formalizmusa az úgynevezett KR-kódolás. A legnagyobb, kézzel egyértelm sített magyar nyelvi korpusz, a Szeged Treebank kódrendszere ezzel szemben az MSD-kódolást követi. A két kódolás nem kompatibilis egymással. Ez azt jelenti, hogy ha egy statisztikus módszerekkel tanított nyelvi elemz komponensben (POS-tagger, konstituenselemz, dependenciaelemz stb.) mindkét er forrást ki kívánjuk aknázni, akkor nehézkes, információvesztéssel járó konverziós m veleteket kell végeznünk. Ebben a munkában beszámolunk a két kódrendszer (MSD és KR) közös nevez re hozásáról, harmonizációjáról, amely megoldja a fenti problémát. A munka mindkét er forrásban alapvet átalakításokkal járt. A konfliktusok nagyobb részében a harmonizációt közös finomítással igyekeztünk elvégezni, melynek hozadékaként jelent s mennyiség manuális munka befektetésével a Szeged Treebank 2.5 által hordozott morfológiai információ részletgazdagabbá vált az el z verziókhoz képest. 1 Bevezetés A magyar vonatkozású nyelvtechnológiai kutatásoknak és fejlesztéseknek alapfeltétele, hogy rendelkezésre álljon egy (lehet leg egységes) nyelvi el feldolgozó alapeszköztár. A rendelkezésre álló nyelvi elemz k egységesítésének legnagyobb akadálya a különböz morfológiai kódrendszerek használata. Cikkünkben beszámolunk két magyarra alkalmazott kódrendszer (MSD és KR) közös nevez re hozásáról, harmonizációjáról. Ehhez tételesen ismertetjük a kódolások közötti elméleti különbségeket, majd az összehangolás során meghozott kompromisszumos döntésekr l is beszámolunk. Az átalakított kódrendszernek megfelel en a morphdb.hu-ban [4] is változásokat eszközöltünk és a Szeged Treebank [2] szövegállományát is újrakódoltuk (a létrejött új verziót Szeged Treebank 2.5-nek kereszteltük). Célunk, hogy az egységes morfológiának köszönhet en létrejöhessen egy olyan morfológiai elemz, amely a Szeged Korpusszal is kompatibilis, annak érdekében, hogy a morfológiai elemz re egy olyan POS-tagger legyen építhet, amely a magasabb szint elemzé-

350 VII. Magyar Számítógépes Nyelvészeti Konferencia sekhez, illetve alkalmazásokhoz (dependenciaelemzés, információkinyerés) hasznos bemenetet szolgáltat. 2 Morfológiai kódrendszerek a magyar nyelvre Az MSD morfológiai kódrendszer [3] több nyelvre, többek közt a magyarra lett kifejlesztve. A kódokon belül az els pozíció adja meg a f szófaji kategóriát, míg a további pozíciók egyéb nyelvtani információkat tartalmaznak (pl. ige esetében az ige típusát, módját, idejét, számát, személyét, ragozását: a Vmis2s---y kód például egy kijelent módú, múlt idej, egyes szám második személy tárgyas ragozású f igét jelöl). A KR kódrendszer a magyar nyelv morfológiáját szem el tt tartva lett kidolgozva, bár alapvet szintaxisa nyelvfüggetlen, és a kés bbiekben több más nyelvhez is készült a szintaxisra és a kódrendszer alapelveire épül morfológiai er forrás [4]. Magyar nyelvre történ implementációja, a morphdb.hu morfológiai elemz er forrás létrehozásakor a legfontosabb célkit zések a teljesség és az elméleti nyelvészeti szempontból való megalapozottság voltak, valamint hangsúlyos szempont volt a nyílt forráskódú szabad hozzáférhet ség. A kódrendszer hierarchikus jegy-érték struktúrában kódolja a nyelvészeti információkat: vannak alapértelmezett (default) jegyek (például egyes szám, harmadik személy), és csak az ett l eltér k jelennek meg a kódban. A fenti példa KR-kódolása a következ : VERB<PAST><PERS<2>><DEF>. A kódok inflexiós és derivációs információt is tartalmaznak. A HUMor morfológiai kódrendszer az unifikációs nyelvleíráson alapul, azaz a tövek és morfémák más morfémákkal való együttes el fordulásra való képességük alapján jegyekkel vannak ellátva. E jegyek lehetnek egymást megenged k vagy egymásnak ellentmondók: egy szóalak csak olyan morfémákból épülhet fel, amelyek jegyei nem zárják ki egymást [5]. Az elemzés eredményeképpen a szó morfémákra bontott változatát kapjuk, minden morféma mögött szerepel a szófaji megjelölése, és ha eltér a szótári alakja, az is (megy~me), például: mehetsz -- megy[ige]=me+het[hat]+sz[e2]. Mivel a Szeged Korpusz építéséhez a szófaji el elemzést a HUMor morfológiai elemz program végezte, melynek végeredményét automatikusan konvertálni kellett MSD-kódokra [1], az MSD és a HUMor kódrendszer harmonizációja már korábban megtörtént: a végeredmény a Szeged Treebank szófaji kódjaiban is tükröz dik. Jelen cikkben a KR és MSD kódrendszerek összehangolására teszünk kísérletet. 3 A KR és MSD kódrendszerek harmonizációja A kódrendszerek összehangolásában azt az alapelvet követtük, hogy a morfológiai kódoknak olyan (és csak olyan) információkat kell tartalmazniuk, amelyek a kés bbi feldolgozás (szintaxis, különféle alkalmazások) szempontjából hasznosak. Ennek fényében mérlegeltük az egyes esetekben, hogy az MSD vagy pedig a KR rendszer megközelítését építsük-e be a harmonizált morfológiába.

Szeged, 2010. december 2 3. 351 Az egyik lényegi különbség a képzések kezelésében nyilvánul meg: míg a KR abszolút, addig az MSD relatív szótövekkel dolgozik. Ennek megfelel en a képz k nincsenek is kódolva MSD-ben, míg KR-ben igen, így adott esetben a szóalakok lemmája is eltér egymástól. A képzés hiányából adódóan az MSD kódrendszer nem tudja megkülönböztetni például ugyanannak az igének a m veltet vagy ható képz s alakjait a kód szintjén (természetesen a lemma eltér ) ezzel szemben a KR-ben a lemma ugyanaz, de a kód különbözik. Megoldásunk ebben az esetben az lett, hogy mindkét rendszerb l átvesszük az indokolható megkülönböztetéseket. A relatív lemmák általában elég információt szolgáltatnak az alkalmazásoknak (pl. információ-visszakeresés), és a képz k annotálása a Szeged Korpuszban irreálisan nagy feladat lett volna, így a harmonizált kódrendszer is relatív lemmákkal dolgozik. Néhány esetben azonban indokolt volt kivételt tenni. A m veltet, gyakorító és ható 1 igék esetében fontos, hogy a képz csak aspektuális, illetve modális változást jelent, melyeket más nyelvek más nem morfológiai, hanem például szintaktikai eszközökkel fejeznek ki, aminek például a gépi fordításban lehet jelent sége. Ha pl. egy m veltet igealakot tartalmazó mondatot akarunk gépi úton angolra fordítani, akkor az MSD-kódolást használva abba a problémába ütközünk, hogy nagy valószín séggel nem találunk a lemmának megfelel szóalakot a szótárban. A KR-elemzést tekintve azonban a szótárban is megtalálható lemmából indulunk ki, és ha megfelel fordítási szabályokat rendelünk a m veltetés (például használd a have + tárgy + ige 3 alakja szerkezetet) megfelel kezeléséhez, akkor eljuthatunk a helyes fordításhoz. Ezek alapján fontosnak tartottuk, hogy ezek az információk kódolva legyenek az MSD kódrendszerben is. Az igetípus pozíciójában azt is megjelöljük, hogy az ige m veltet (kódja: s), ható (kódja: o) vagy gyakorító (kódja: f) alakban szerepel-e. Egy másik nagy elvi különbség a kódrendszerek között a névmások kezelése. Míg az MSD-ben külön szófaji kategóriának számítanak, addig a KR a helyettesített szófaj szerint kódolja ket. Az egységesítés eredményeképpen a KR rendszerbe is bevezettük a névmásokat PRONOUN jelöléssel. A határozószavak kezelésében is mutatkoznak eltérések: az MSD-ben alosztályokba vannak sorolva, a KR-ben pedig egységesen <ADV> kóddal rendelkeznek. Az egységesítés folyamán az alosztályok megkülönböztetését választottuk, ugyanis ennek például a fokozásban van jelent sége. Az MSD kódrendszer képes jelölni a határozószavak fokozását, míg a KR-b l ez hiányzik: a lejjebb, közelebb alakok lemmája lejjebb, közelebb, kódolása pedig ADV. Az MSD-n belül mindez Rxc kódú (a c jelöli a középfokot), a lemmák pedig lent és közel. Viszont nem minden határozószó fokozható (a kérd vagy általános határozószók például nem), ezért úgy szükséges módosítani a KR-kódolást, hogy csak bizonyos altípusok esetén legyen megengedve a fokozás lehet sége. Az ún. személyes névmási határozószavak kérdése jelentette az egyik legjelent sebb elvi különbséget a két kódrendszer között. Míg MSD-ben a határozószavak egy altípusaként voltak kódolva (pusztán számot és személyt kódolva), addig a KR-ben 1 Megjegyezzük, hogy az eredeti KR rendszerben a -hat toldalék inflexióként jelenik meg, a harmonizált kódrendszerben azonban hasonlóképpen kezeljük a m veltet és gyakorító igeképz khöz, ezért itt tárgyaljuk.

352 VII. Magyar Számítógépes Nyelvészeti Konferencia f névként: a határozórag alapúaknál (pl. nekem, veled) a személyes névmás szerepelt lemmaként, és a f névi paradigmához hasonlóan kaptak esetet, a névutóból képzettek (mögötted, szerintünk) kódja pedig tartalmazta az eredeti névutót. Néhány példa: a nekem KR-elemzése én/noun<cas<dat>>, az MSD-elemzése Rl--s1 (neki lemmával), a szerintem szó esetében pedig én/noun<postp<szerint>>, illetve Rl--s1 (szerinte). A példákból ismét csak megmutatkozik az az eltérés a kódrendszerek között, hogy míg MSD-ben a kódolások megegyeznek, de a lemmák eltérnek, a KR rendszerén belül a lemmák megegyeznek, de a kódok különböznek. Ennél a problémakörnél teljes egészében egyik rendszer megoldását sem vettük át. Mivel személyes névmásokból származtatjuk az alakokat, ezért a személyes névmási rendszerbe illesztjük be ket. Szavak és szóalakok szófaji besorolását tekintve is találhatunk különbségeket a két kódrendszer között: jellemz en a köt szavak és a határozószavak csoportjában fordul el, hogy az egyik kódrendszerben köt szó, a másikban határozószó az adott szóalak (pl. majd, persze). Ezek státuszáról egyenként hoztunk döntést, nyelvi disztribúciójukat mérlegelve. Néhány kisebb horderej különbség is megfigyelhet a két kódrendszer között. A f nevek kategóriáján belül ilyen például a köznév-tulajdonnév megkülönböztetés, mely az MSD sajátja. Mivel úgy gondoljuk, hogy nem a morfológiai elemz feladata eldönteni egy adott f névr l, hogy az tulajdonnév-e vagy sem (hanem egy NEfelismer é), úgy döntöttünk, hogy az MSD-n belül sem érdemes ezt az elkülönítést alkalmazni. A familiáris többes számot a KR külön kódolja <FAM> jeggyel, az MSD-ben azonban ez nem szerepel. Mivel alkalmazási szempontból nem t nt szignifikánsnak a többes szám kétféle jelölése, az egységes morfológiában csak egy általános többes számot használunk. A Szeged Treebank 2.5 munkálatai nem csak elvi morfológiai átalakításokban öltöttek testet: a helyesírási hibát vagy elírást tartalmazó szóalakok mellé felvettük azok helyes alakját is annak lehetséges MSD-kódjaival együtt, majd a szövegkörnyezetnek megfelel en kiválasztottuk az aktuális kódot. 4 Konklúzió Az el z fejezetben bemutatott harmonizációs lépéseket a morphdb.hu és a Szeged Korpusz manuális átalakításával valósítottuk meg. A két nyelvi er forrás átalakításának statisztikai mutatóinak bemutatására hely hiányában nincs lehet ségünk, de részleteiben is elérhet ek a www.inf.u-szeged.hu/rgai/krmsd honlapon. A cikkben bemutatott egységes morfológiának köszönhet en lehet vé vált olyan morfológiai elemz építése, amelynek kimenete a Szeged Treebankkel teljes összhangban van, és ezért a rá épül, magasabb szint nyelvi elemzést végz szövegfeldolgozó rendszerek (mint a magyarlanc 2 és hun* eszközláncok) a Szeged Treebank által hordozott minden morfológiai információt ki tudják használni statisztikus modelljeik tanításakor. 2 www.inf.u-szeged.hu/rgai/magyarlanc

Szeged, 2010. december 2 3. 353 Köszönetnyilvánítás A kutatást részben a TEXTREND és a MASZEKER kódnev projektek keretében az NKTH támogatta. Bibliográfia 1. Alexin, Z., Csirik, J., Gyimóthy, T., Bibok, K., Hatvani, Cs., Prószéky, G., Tihanyi, L.: Manually Annotated Hungarian Corpus. In: Proceedings of the Research Note Sessions of the 10th Conference of the European Chapter of the Association for Computational Linguistics EACL'03. Budapest, Hungary, 15-17 April (2003) 53-56 2. Csendes, D., Csirik, J., Gyimóthy, T., Kocsor, A.: The Szeged Treebank. In: Proceedings of the Eighth International Conference on Text, Speech and Dialogue (TSD 2005). Karlovy Vary, Czech Republic 12-16 September, and LNAI series Vol. 3658 (2005) 123-131 3. Erjavec, T. (ed.): MULTEXT-East morphosyntactic specifications. Version 3 (2004) http://nl.ijs.si/me/v3/msd/msd.pdf 4. Kornai, A., Rebrus, P., Vajda, P., Halácsy, P., Rung, A., Trón, V.: Általános célú morfológiai elemz kimeneti formalizmusa. In: II. Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Szeged (2004) 172 176 5. Prószéky, G., Tihanyi, L.: Humor: High-Speed Unification Morphology and Its Applications for Agglutinative Languages. La tribune des industries de la langue 10, OFIL, Paris, France (1993) 28 29