Morfológiai újítások a Szeged Korpusz 2.5-ben

Hasonló dokumentumok
MSD-KR harmonizáció a Szeged Treebank 2.5-ben

Ismeretlen kifejezések és a szófaji egyértelm sítés

Magyar nyelv webes szövegek számítógépes feldolgozása

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

magyarlanc 2.0: szintaktikai elemzés és felgyorsított szófaji egyértelműsítés

Magyar nyelvű néprajzi keresőrendszer

Javában taggelünk.

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Igekötős szerkezetek a magyarban

Egy általános célú morfológiai annotáció kiterjesztése

Morfológia. Nyelvészet az informatikában informatika a nyelvészetben október 2.

HunLearner: a magyar nyelv nyelvtanulói korpusza

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Domének közti hasonlóságok és különbségek a szófajok és szintaktikai viszonyok eloszlásában

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

a Szeged FC Treebankben

Magyar nyelvtan tanmenet 4. osztály

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Magyar nyelv 6. osztály. Főbb témakörök

Doktori (Ph.D.) értekezés tézisei. A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával.

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

MAGYAR MINT IDEGEN NYELV TANKÖNYVEK NYELVI ANYAGÁNAK SZÁMÍTÓGÉPES ELEMZÉSE 5

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Magyar nyelv és irodalom Fejlesztési terv

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Milyen a még jobb Humor?

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Igetövek rendszere. igényel-het, igényl-ő, csörög-ni, csörg-ő

formalizmusa Egy morfológiai elemző kimeneti formalizmusának három, egymásnak gyakran

Események detektálása természetes nyelvű szövegekben

Különírás-egybeírás automatikusan

MORFOLÓGIAI FELÉPÍTÉS

A szóképzés. A szóalkotásnak az a módja, amikor a szótőhöz egy képző hozzájárulásával új szó jön létre.

1.ábra: A Beszédmester nyitóképe

28 millió szintaktikailag elemzett mondat és igei szerkezet

PurePos: hatékony morfológiai egyértelműsítő modul

Január 7. hétfő. I. Beszédtechnológia, fonológia

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

A szófajok rendszere

Beszámoló az MTA Magyar nyelvészeti munkabizottsága évi tevékenységérıl

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre

Szabályalapú szintaktikai elemző szintaktikai szabályok nélkül

A HunOr magyar-orosz párhuzamos korpusz

Szótáralapú kémiai NE-felismer rendszer

Tartalomjegyzék. Tartalomjegyzék. A főnév 10 A főnevek neme 10 A főnevek többes száma 14 A főnév a mondatban 16 Gyakorlatok 17

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Az Ómagyar Korpusz bemutatása

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában

Beszédadatbázis irodai számítógép-felhasználói környezetben

A magyar létige problémái a számítógépes nyelvi elemzésben

Magyar nyelv. 5. évfolyam

Az e-magyar digitális nyelvfeldolgozó rendszer

TANTÁRGYI PROGRAM. 2. osztály. Éves óraszám: 74 óra 2 óra/hét. fogalmak, ismeretek Új tantárgyunk: az anyanyelv. Bevezetés. A beszéd és az írás.

A kibővített Magyar történeti szövegtár új keresőfelülete

1. Mik a szófajok elkülönítésének általánosan elfogadott három szempontja? 2. Töltsd ki a táblázatot az alapszófajok felsorolásával!

A Mazsola KORPUSZLEKÉRDEZŐ

MAGYAR NYELV a 8. évfolyamosok számára. MNy2 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Az enyhe kognitív zavar automatikus azonosítása beszédátiratok alapján

magyar nyelvű szövegekben

XI. Magyar Számítógépes Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila Varga Viktor Vincze Veronika

A nyelvtani szabályok bemutatási módjai három magyar nyelvkönyvben

Félig kompozicionális szerkezetek automatikus azonosítása magyar és angol nyelven

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

DR. VINCZE VERONIKA. SZEMÉLYES ADATOK Születési idő: július 1. Állampolgárság: magyar

(Nem jogalkotási aktusok) RENDELETEK

BELÉNYI GYULA: AZ ALFÖLDI VÁROSOK ÉS A TELEPÜLÉSPOLITIKA ( )

Klasszikus héber nyelv 4.: Szintaxis

Ungarisch. Grammatische Strukturen/lexikalische Einheiten Nével : Határozott, határozatlan

ASPEKTUS ÉS ESEMÉNYSZERKEZET A MAGYARBAN

Ismeretlen szavak helyes kezelése kötegelt

NT MAGYAR NYELV ÉS KOMMUNIKÁCIÓ 6. TANMENETJAVASLAT. (heti 2 óra, azaz évi 74 óra)

Grammatikalizálódott kopula és prenominális módosítok a magyarban

Lexikon és nyelvtechnológia Földesi András /

Zsemlyei János A MAI MAGYAR NYELV SZÓKÉSZLETE ÉS SZÓTÁRAI

Analogikus általánosítási folyamatok a gyereknyelvben c. kutatási projekthez

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Általános szerződési feltételek a megtett úttal arányos elektronikus útdíj szolgáltatási rendszer igénybevételére kötendő egyedi szerződésekhez

Kari Adminisztrátor. Funkcionális leírás

Szekeres Bernadett * A MAGYAR ÉS A NÉMET KÖNYVVIZSGÁLÓI KAMARA MINİSÉG-ELLENİRZÉSI SZABÁLYZATÁNAK ÖSSZEHASONLÍTÓ ELEMZÉSE

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

J E G Y Z Ő K Ö N Y V készült a bizottság február 21-i nyilvános üléséről. XV. kerületi Polgármesteri Hivatal, Kossuth terem

Harmati Gábor. OROSZ IGE Szótár segédkönyv

A gazdálkodók képzettsége és a tanácsadás

Klasszikus héber nyelv 4.: Szintaxis

SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer

Ebben az írásban a pedagógusképzés finanszírozásának egy-két sajátosságát

B1 Junior írásbeli feladatsor

Az e-magyar rendszer GATE környezetbe integrált magyar szövegfeldolgozó eszközlánca

Angol nyelvű összetett kifejezések automatikus azonosítása i

Adamikné Jászó Anna Hangay Zoltán Nyelvi elemzések kézikönyve. Mozaik Oktatási Stúdió. Szeged.

III.A Az 1-4. évfolyam részletes helyi tanterve

Kompetenciafejlesztés

Magyarajkú, nem-magyar állampolgárságú tanulók nevelésének, oktatásának helyzete a magyar közoktatásban. Készítette: Kováts András és Medjesi Anna

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

Klasszikus héber nyelv 4.: Szintaxis

Jó és rossz gyakorlatok környezetvédelmi szemszögből

Természetesnyelv-feldolgozás. Mesterséges intelligencia május 9.

Online kérd íves felmérés a Gazdálkodás olvasóinak és szerz inek körében

Átírás:

332 X. Magyar Számítógépes Nyelvészeti Konferencia Morfológiai újítások a Szeged Korpusz 2.5-ben Vincze Veronika 1,2, Varga Viktor 2, Simkó Katalin Ilona 2, Zsibrita János 2, Nagy Ágoston 2, Farkas Richárd 2 1 MTA-SZTE, Mesterséges Intelligencia Kutatócsoport 2 Szegedi Tudományegyetem, Informatikai Tanszékcsoport {vinczev,zsibrita,nagyagoston,rfarkas}@inf.u-szeged.hu {viktor.varga.1991,kata.simko}@gmail.com Kivonat: A Szeged Korpusz a legnagyobb, kézzel annotált adatbázis, amely a szóalakok lehetséges morfológiai kódjait és lemmáit is tartalmazza. Ebben a munkában bemutatjuk a korpusz újabb változatát, amelyben az új, harmonizált KR-MSD kódrendszernek megfelel morfológiai kódok találhatók, illetve a rossz helyesírású szavak nagy részéhez is hozzárendeltük a szándékolt szónak megfelel morfológiai kódot. 1 Bevezetés A Szeged Korpusz a legnagyobb, kézzel annotált magyar adatbázis, melyben a szavak lehetséges és a szövegkörnyezetnek megfelel morfológiai kódjai, illetve a szavak lemmái kézzel be vannak jelölve [1]. A korpusz 2.0 verziójában található morfológiai kódok az MSD kódrendszernek felelnek meg [2]. Ebben a munkában bemutatjuk a korpusz újabb változatát, amelyben az új, harmonizált KR-MSD kódrendszernek megfelel morfológiai kódok találhatók, illetve a rossz helyesírású szavak nagy részéhez is kézzel hozzárendeltük a szándékolt szónak megfelel morfológiai kódot. 2 Harmonizált morfológiai kódok Egy korábbi munkánkban már lefektettük a KR [3] és MSD [2] kódrendszerek harmonizálásának alapelveit [4]: a harmonizálás során arra törekedtünk, hogy az új morfológiai kódoknak olyan (és csak olyan) információkat kell tartalmazniuk, amelyek a kés bbi feldolgozás (szintaxis, különféle alkalmazások) szempontjából hasznosak. A 2.5 verzióban így a korábbi 2.0-s verzióhoz képest az alábbi morfológiai újítások találhatók: a gyakorító, ható és m veltet igék lemmája a képz nélküli iget lett, és a kódban jelöljük azt, hogy az ige milyen alakban áll; a melléknévi igenevek önálló kódot kaptak (korábban a melléknevek és az igenevek nem voltak elkülöníthet k MSD-kóduk alapján); tulajdonnév és köznév elkülönítésének megszüntetése; a személyes névmási határozószóknak a névmási rendszerbe való beillesztése.

Szeged, 2014. január 16 17. 333 A fenti esetekben az egyes szóalakok mellé felvettük az új morfológiai kódokat, valamint szófajilag is egyértelm sítettük a szövegeket, azaz manuálisan kiválasztottuk, hogy melyik lehetséges kód illik az adott szövegkörnyezetbe. Az alábbiakban részleteiben is ismertetjük az egyes morfológiai újításokat. 2.1 Gyakorító, ható és m veltet igék A KR kódrendszer a gyakorító és m veltet igéket (pl. olvasgat, futtat) az alapalakból képzett igének tekinti, tehát a gyakorító és m veltet szuffixumokat képz ként kezeli. A ható igék (mehet) toldaléka ezzel szemben inflexiós toldaléknak számít a KR rendszerében. Az MSD kódrendszer eredetileg mindezen toldalékokat a lemma részeként kezelte, azaz míg például az olvastak és olvashattak morfológiai kódja azonos volt (Vmis3p---n), addig lemmájuk eltért: olvas és olvashat. A harmonizációnak köszönhet en a Szeged Korpuszban is jelöljük azt, hogy az ige gyakorító, m veltet vagy pedig ható-e. Az igei MSD-kód második pozíciójában jelenítjük meg ezeket az információkat, lemmának pedig az ige toldalékolatlan alakját tüntetjük fel. Arra is figyelmet fordítottunk, hogy ezen toldalékok nem zárják ki egymást, tehát egy adott igealak lehet egyszerre például m veltet és ható is. Így a toldalékok lehetséges kombinációját is meg tudjuk jeleníteni a harmonizált kódrendszerben. Az alábbi táblázat mutatja be a harmonizált kódokat: 1. táblázat: Igei harmonizált kódok. Leírás Kód Toldalék Példa f (main) m - megy segéd (auxiliary) a - fogok (menni) ható (modal) o -hat mehetek gyakorító (frequentative) f -gat pofozgat m veltet (causative) s -(t)at etet gyakorító+ható 1 -gathat boncolgathat m veltet +ható 2 -(t)athat fektethet m veltet +gyakorító 3 -(t)atgat etetget m veltet +gyakorító+ható 4 -(t)atgathat futtatgathat Az igék újrakódolásakor különös figyelmet fordítottunk a kétértelm esetekre, amikor ugyanaz az igealak jeleníti meg a m veltet és nem m veltet alakot. Ez el-

334 X. Magyar Számítógépes Nyelvészeti Konferencia s dlegesen a múlt idej igealakoknál fordult el, amikor például a festetted alak jelölheti a fest és a festet múlt idej E/2. tárgyas ragozású alakját is, kontextustól függ en. 2.2 Melléknévi igenevek Míg a KR kódrendszer a melléknevekt l elkülönítve kezelte a melléknévi igeneveket, addig az MSD-ben az A szófaji kód vonatkozott a melléknevekre és a melléknévi igenevekre egyaránt. Azonban a melléknevek és a melléknévi igenevek morfológiai és szintaktikai viselkedése eltér vonásokat mutat: a melléknevek fokozhatók, míg a melléknévi igenevek nem, vö. az okos fiú az okosabb fiú és az énekl fiú - *az énekl bb fiú, továbbá a melléknévi igenév igen gyakran meg rzi az eredeti ige vonzatszerkezetét: a slágert jó hangosan énekl fiú. Mivel úgy gondoljuk, hogy e különbségek kihatással vannak a mondatok szintaktikai elemzésére is, a harmonizált kódrendszerben is bevezettük e megkülönböztetést. A melléknévi MSD-kód második pozíciójában jelenítjük meg azt az információt, hogy melléknévr l vagy melléknévi igenévr l van-e szó, illetve utóbbi esetben megadjuk a melléknévi igenév típusát is (folyamatos, befejezett vagy beálló). A kódokat az alábbi táblázat részletezi: 2. táblázat: Melléknévi (igenévi) harmonizált kódok. Leírás Kód Képz Példa melléknév f - friss folyamatos melléknévi p -Ó sétáló igenév befejezett melléknévi s -t/-tt megvásárolt igenév beálló melléknévi igenév u -AndÓ felveend Bizonyos szóalakok mind melléknévként, mind melléknévi igenévként használatosak, vö. éget kérdések a kertben tüzet éget gondnok. Az egyértelm sítés során is a fenti különbségeket (fokozás, vonzatok) használtuk nyelvi tesztként. 2.3 Köznevek és tulajdonnevek Az MSD kódrendszer korábbi verziójában a köznevek és tulajdonnevek külön kóddal rendelkeztek. Azonban úgy gondoljuk, hogy a köznév-tulajdonnév elkülönítés nem bír jelent séggel a morfológia szintjén, így egy morfológiai elemz nek nem is lehet feladata a tulajdonnevek felismerése, meghagyva az a névelem-felismer alkalmazásoknak. Mindezekb l kifolyólag a Szeged Korpusz 2.5-ös változatában eltöröltük a köznév-tulajdonnév megkülönböztetést, így minden f névi kód egységesen Nn- kezdettel rendelkezik.

Szeged, 2014. január 16 17. 335 2.4 Személyes névmási határozószók A magyar nyelvben a hagyományos terminológiával személyes névmási határozószóknak hívott szóalakok két csoportra bonthatók. Az els csoportot azok alkotják, amelyek etimológiájukat tekintve határozóragra vezethet k vissza (bennem, neki). A második csoportba azok tartoznak, amelyek névutóból eredeztethet k (szerinted, mögöttünk). Az eredeti MSD-rendszerben e szóalakok egységesen a határozószavak egy alosztályát képezték, míg a KR rendszerében mindkét csoport f névként szerepeltek (bár a morfológiai kód felépítése eltért a két esetben). A harmonizált kódrendszerben egyik megoldást sem vettük át, hanem névmásként kezeljük ezeket az alakokat, a személyes névmási rendszerbe illesztve. A névutóból eredeztethet alakok esetében lemmaként a névutót tüntetjük fel, a határozóragból eredeztethet alakoknál pedig a személyes névmást. Néhány példát mutatunk az alábbiakban: 3. táblázat: Névmási harmonizált kódok. Szóalak Lemma Morfológiai kód szerintem szerint Pp1-sn nálunk mi Pp1-p3 Ezek az alakok automatikusan lettek átcímkézve, esetükben nem volt szükség kézi egyértelm sítésre. 2.5 Írásjelek Az írásjelek morfológiai kódolásán szintén változtattunk. Az alábbi 8 írásjelet tekintjük relevánsaknak (az írásjelek mögött az ASCII kódjuk szerepel):!(33),(44) -(45).(46) :(58) ;(59)?(63) (8211). A releváns írásjelek lemmája maga az írásjel lesz, morfológiai kódja szintén. Egyéb nem releváns írásjelek (olyan karaktersorozatok, melyek nem tartalmaznak sem bet t, sem számot) lemmája szintén maga az írásjel lesz, de kódja K (központozás) lesz. 2.6 Elváló igeköt k Az elváló igeköt t tartalmazó igei elemek (igék, f névi, melléknévi és határozói igenevek) lemmájában megjelöltük az igeköt -igei elem közti morfémahatárt. Mivel bizonyos szintaktikai m veletek hatására az ige és igeköt elválhat egymástól, úgy döntöttünk, hogy ezekben az esetekben jelöljük a morfémahatárt a lemmában. 3 Helyesírási hibák javítása A morfológiai javítások mellett figyelmet fordítottunk a helyesírási hibák javítására is. A korpusz 2.0 változatában külön MSD-kóddal rendelkeztek a rossz helyesírású

336 X. Magyar Számítógépes Nyelvészeti Konferencia (elírt, elgépelt) szavak (pl. kiráj), illetve azok, melyek értelmes magyar szavak, azonban a szövegkörnyezetbe nem illettek bele (mer úgy gondolom vs. mert úgy gondolom). Amennyiben a helyes és az elírt alak azonos tokenszámú egységet tartalmazott, úgy a helyesírási hibát vagy elírást tartalmazó szóalakok mellé felvettük azok helyes alakját is annak lehetséges MSD-kódjaival együtt, majd a szövegkörnyezetnek megfelel en kiválasztottuk az aktuális kódot. Azokban az esetekben pedig, ahol a helyes és helytelen alakok tokenszáma között eltérés mutatkozott (pl. areggel vs. a reggel), a f szóalak morfológiai kódját vettük fel (pl. egy egybeírt nével és f név esetén a f névi címkét). 4 Statisztikai adatok A Szeged Korpusz 2.0 verziója 1,2 millió tokent tartalmazott (egy tokennek számítva a többtagú tulajdonneveket). Ezek közül 11 461 token min sült ismeretlen vagy rossz helyesírású szónak. A 2.5-ös verzióban e szavak száma mindösszesen 1563 lett, azaz a morfológiai elemzés számára problematikus szavak aránya 1%-ról 0,13%-ra csökkent, ami jelent s egy nagyságrendnyi változást jelent: a problémás szavak 86,4%-át sikerült kijavítani. A korpusz jelen változatában az ismeretlen szavak legnagyobb része angol számítástechnikai terminus. Ez arra vezethet vissza, hogy a számítógépes szövegek alkorpuszban gyakran szerepelnek az eredeti angol megnevezések is a felhasználói kézikönyvek szövegeiben. A korpusz 2.5 változatában összesen 1315 morfológiai kód szerepel. Az alábbi táblázat mutatja be az újonnan bevezetett kódok el fordulásait: 4. táblázat: Új kódok gyakorisága Leírás Kód El fordulás Folyamatos melléknévi igenév Ap* 23483 Befejezett melléknévi igenév As* 12588 Beálló melléknévi igenév Au* 520 Melléknévi igenév összesen Ap*, As*, Au* 36591 M veltet ige Vs* 1698 Ható ige Vo* 8415 Gyakorító ige Vf* 327 M veltet /ható/gyakorító kombinációja V1*, V2*, V3*, V4* 67 M veltet /ható/gyakorító igék összesen Vs*, Vo*, Vf*, V1*, V2*, V3*, V4* 10057 A személyes névmási határozószók újrakódolása további 8232 tokent érintett. Ha összegezzük tehát a megváltozott kódú szavakat (melléknévi igenevek, m veltet /ható/gyakorító igék, személyes névmási határozószók, javított helyesírási hibák), akkor összesen 64 788 szóalak kódja változott meg, ami a korpusz szavainak 4,36%-a.

Szeged, 2014. január 16 17. 337 5 Morfológiai elemz A Szeged Korpusz 2.5 változata lehet vé tette, hogy a magyarlanc nev adatvezérelt nyelvi elemz [5] morfológiai és szófaji egyértelm sít moduljait az új adatbázison tanítsuk be, létrehozva ezzel az elemz újabb változatát, mely a morfológiai elemzés és szófaji egyértelm sítés végeredményeként az új harmonizált morfológiának megfelel kódokat ad vissza. A korpusz teljes állományát véletlenszer en osztottuk fel tanító és kiértékel adatbázisra 80:20 arányban, majd a tanítást követ en értékeltük a szófaji egyértelm sít teljesítményét. Akkor fogadtuk el helyesnek a magyarlanc által adott elemzést, ha mind a lemma, mind pedig a morfológiai kód egyezett az etalon korpuszban lév vel. Eredményeink szerint a magyarlanc szófaji egyértelm sít modulja az új kódrendszer használatával 96,32%-os pontosságot ér el, ami megegyezik a korábban publikált, Szeged Korpusz 2.0 verzión tanított rendszer eredményességével [5], vagyis az elemzés min ségét nem befolyásolja érdemben a megnövekedett kódhalmaz. 6 Összegzés Ebben a munkában bemutattuk a Szeged Korpusz 2.5 változatát, amelyben az új, harmonizált KR-MSD kódrendszernek megfelel morfológiai kódok találhatók, illetve a rossz helyesírású szavak nagy részéhez is hozzárendeltük a szándékolt szónak megfelel morfológiai kódot. A korpusz lehet vé tette azt is, hogy a magyarlanc morfológiai elemz és szófaji egyértelm sít modulját az új szófaji kódokra tanítsuk be. Eredményeink alapján a szófaji egyértelm sítés min sége változatlanul magas a megnövekedett kódhalmaz ellenére is. A korpusz kutatási és oktatási célokra szabadon hozzáférhet a http://www.inf.uszeged.hu/rgai/szegedtreebank oldalon. Köszönetnyilvánítás A kutatás részben a futurict.hu nev, TÁMOP-4.2.2.C-11/1/KONV-2012-0013 azonosítószámú projekt keretében az Európai Unió és az Európai Szociális Alap társfinanszírozása mellett valósult meg. Hivatkozások 1. Csendes, D., Csirik, J., Gyimóthy, T., Kocsor, A.: The Szeged Treebank. In: Proceedings of the Eighth International Conference on Text, Speech and Dialogue (TSD 2005). Karlovy Vary, Czech Republic 12-16 September, and LNAI series Vol. 3658 (2005) 123-131 2. Erjavec, T. (ed.): MULTEXT-East morphosyntactic specifications. Version 3 (2004) http://nl.ijs.si/me/v3/msd/msd.pdf

338 X. Magyar Számítógépes Nyelvészeti Konferencia 3. Kornai, A., Rebrus, P., Vajda, P., Halácsy, P., Rung, A., Trón, V.: Általános célú morfológiai elemz kimeneti formalizmusa. In: II. Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Szeged (2004) 172 176 4. Farkas, R., Szeredi, D., Varga, D., Vincze, V.: MSD-KR harmonizáció a Szeged Treebank 2.5-ben. In: VII. Magyar Számítógépes Nyelvészeti Konferencia (2010) 349 353 5. Zsibrita, J., Vincze, V., Farkas, R.: magyarlanc: A Toolkit for Morphological and Dependency Parsing of Hungarian. In: Proceedings of RANLP-2013, Hissar, Bulgaria (2013)