Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *



Hasonló dokumentumok
Ismeretlen kifejezések és a szófaji egyértelm sítés

A félig kompozicionális szerkezetek gépi fordításainak lehetőségéről

Igekötős szerkezetek a magyarban

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

1.ábra: A Beszédmester nyitóképe

Félig kompozicionális főnév + ige. szerkezetek: elméleti kérdések és. számítógépes nyelvészeti elemzések

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Doktori (Ph.D.) értekezés tézisei. A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával.

A szótárról. 1. Mi ez?

A nem tipikus szövegek jelentésreprezentációjának egy kérdéséről

YANG ZIJIAN GYŐZŐ 杨子剑

DR. VINCZE VERONIKA. SZEMÉLYES ADATOK Születési idő: július 1. Állampolgárság: magyar

IT biztonsági szintek és biztonsági kategorizálási minta

A nyelvtechnológia alapjai

Egy háromnyelvő, német-magyar-angol turisztikai tanulói szakszótár koncepciójának a bemutatása

Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk

FŐNÉVI VONZATOK A MAGYAR NYELVBEN

KREATÍVAN HASZNÁLHATÓ IDEGENNYELV-TUDÁS MEGSZERZÉSÉNEK NYELVPEDAGÓGIÁJA NEUROLINGVISZTIKAI MEGKÖZELÍTÉSBEN

LOVASKOCSIVAL AZ INFORMÁCIÓS SZUPERSZTRÁDÁN. információtartalma /1

Szabályozási irányok 2. változat a szélsıséges idıjárás hatásának kezelésére a Garantált szolgáltatás keretében

Maróti Orsolya Szia, professzor úr! Pragmatikai hibák idegen ajkúak magyar nyelvhasználatában *

Elliptikus listák jogszabályszövegekben

1994. évi országgyűlési képviselőválasztás

1. A dolgozat tárgya és célkitőzései

Összetett kifejezések automatikus. azonosítása természetes nyelvű. szövegekben. Nagy T. István A DOKTORI ÉRTEKEZÉS TÉZISEI

Összetett kifejezések automatikus. azonosítása természetes nyelvű. szövegekben. Nagy T. István A DOKTORI ÉRTEKEZÉS TÉZISEI

I. A TÖRVÉNYJAVASLATHOZ

A magyar létige problémái a számítógépes nyelvi elemzésben

Az NFSZ ismer tségének, a felhasználói csopor tok elégedettségének vizsgálata

Beszédadatbázis irodai számítógép-felhasználói környezetben

Félig kompozicionális szerkezetek a SzegedParalell angol magyar párhuzamos korpuszban

Számítógépes nyelvészet

Divatos termék-e a kondenzációs kazán?

SZAKMAI ZÁRÓJELENTÉS OTKA Nyilvántartási szám: F

Félig kompozicionális szerkezetek automatikus azonosítása magyar és angol nyelven

SZABOLCS-SZATMÁR-BEREG MEGYE INNOVÁCIÓS

Asszociációs vizsgálatok alkalmazási lehetőségei márkák kutatásában Kovács László Bevezetés Az asszociációs vizsgálatok viszonylag hosszú múltra

I. RÉSZ SZERVEZETI ÉS MŰKÖDÉSI REND

Szakmai önéletrajz. Főbb tevékenységek elméleti nyelvészeti kutatások alkalmával asszisztensi feladatok ellátása

Az irodalomtanítás, a teniszlabda és a gyufaszálak Kooperatív technikák a magyartanításban

HUNG. KÖZL. 17. ÉVF (64-65.) SZ L. NOVI SAD - ÚJVIDÉK SZEPTEMBER-DECEMBER 553 ÉS A LEXIKOGRÁFIA IDŐSZERŰ KÉRDÉSEI

Milyen a még jobb Humor?

Fazakas Emese Teret hódító igekötőink és a nyelvművelés

SZEMLE. Szemle 89. Cambridge University Press, Cambridge, lap

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

A fordítási hiba fogalma funkcionális megközelítésben

28 millió szintaktikailag elemzett mondat és igei szerkezet

A KÖZGAZDASÁGTAN TANSZÉK PLÁGIUMSZABÁLYZATA

Ingatlanvagyon értékelés

Tanácsadás az ápolásban: Ápolóhallgatók tanácsadói kompetenciájának vizsgálata. Doktori tézisek. Papp László

szövegértésük, az átlagosnál gyengébb a kommunikációs képességük, kevés támogatást, biztatást kapnak a szülői háttértől. Mindezek tükrében az

A közlésfolyamat fonológiai szerveződése: szerkezetismétlő műveletek afáziások beszédében

TIOP 2.6. Egyeztetési változat! október 16.

Berényi Lajos elnök Közbeszerzések Tanácsa. Tisztelt Elnök Úr!

Mellékletek jegyzéke

Az Egyetem testületei A Szenátus /A A Konzisztórium Tanulmányi és Szociális Bizottság /A Hallgatói Jogorvoslati

Igei szerkezetek gyakorisági szótára

A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS

VI. Magyar Földrajzi Konferencia Darabos Enikı 1 Lénárt László

SZAKMAI ÖNÉLETRAJZ. Alapadatok: Név: E -mail: Telefonszám: Dr. Dévényi Márta devenyi@ktk.pte.hu /

Integrált rendszerek az Európai Unió országaiban Elınyeik és hátrányaik

V E R S E N Y T A N Á C S

2 Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma, 4029 Debrecen, Csengı u. 4.

Az óvodai és iskolai étkezés, napközi /tények és vélemények/

FMEA alkalmazása a Veronica varrógép kritikus pontjainak feltárása érdekében

4. sz. KÉZIKÖNYV. Készítette: Muzamel Ernő

MultiMédia az oktatásban

VÍZMINİSÉGI TÁJÉKOZTATÓ

Alkalmazott Nyelvészeti Közlemények, Miskolc, IV. évfolyam, I. szám, (2009) pp

Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában

Strukturált nyelvi adatbázis létrehozása gépi tanulási módszerekkel. Kutatási terv

Diszharmóniás jelenségek a szinkrontolmácsok célnyelvi beszédprodukciójában

OTKA T LEHETŐSÉGEINEK KULTURÁLIS ALAPJAI. Fejlesztési javaslatunk alapja egy empirikus tapasztalatok alapján kiigazított értékelési módszertan.

KÖZPONTI ELEKTRONIKUS NYILVÁNTARTÁS A SZOLGÁLTATÁST IGÉNYBEVEVİKRİL (KENYSZI) FELHASZNÁLÓI KÉZIKÖNYV ADATSZOLGÁLTATÓK RÉSZÉRE. Budapest,

Dr. Vermes Attila: Szállítmánybiztosítás és felelısség

A kétféle igemódosítóról

J E G Y Z İ K Ö N Y V Szeged Megyei Jogú Város Közgyőlés Egészségügy és Szociális Bizottságának december 8. napján tartott nyílt ülésérıl

Hátrányos helyzet = nyelvi hátrány?

Magyar nyelvű néprajzi keresőrendszer

Novák Attila (2003): Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem,

Pályázat. az Eötvös Loránd Tudományegyetem. Egyetemi Doktorandusz Önkormányzatának. elnöki tisztségére a 2014/2015-ös tanévben

MULTIMÉDIA ALAPÚ OKTATÁSI TECHNOLÓGIÁK GYAKORLATI ALKALMAZÁSÁNAK VIZSGÁLATA A KATONAI SZAKNYELVOKTATÁSBAN

Szemantika, lexikográfia: jelentés-egyértelműsítés, wordnetek. Nyelvészet az informatikában informatika a nyelvészetben november 13.

DOKTORI (PhD) ÉRTEKEZÉS MIZSEINÉ NYIRI JUDIT

Az ember, a korpusz és a számítógép *

Árpád-kori erdélyi településnevek névrendszertani vizsgálatának tanulságai*

J E G Y Z İ K Ö N Y V. Nógrádi Zoltán polgármester, Csányi László alpolgármester, Dr. Szántó Mária jegyzı. Mucsi György alpolgármester,

Kollár László Péter Személyes honlap:

SAJTÓANYAG BEMUTATTÁK A BALATONRÓL KÉSZÜLT KUTATÁSOK EREDMÉNYEIT

ÁPOLÓI KOMPETENCIÁK MÉRÉSE KÜLÖNÖS TEKINTETTEL A TERÜLETI GYAKORLATOKRA Doktori tézisek Tulkán Ibolya

SZAKMAI ÖNÉLETRAJZ. megnevezés évszám kibocsátó intézmény Informatika - angol nyelv és irodalom 2009 Debreceni Egyetem

V E R S E N Y T A N Á C S

S Z AB Á L Y Z AT A A S Z T E K E R E T E I K Ö Z Ö T T F O L Y T AT O T T P Á L Y Á Z AT I T E V É K E N Y S É G RİL

Alkalmazott Nyelvészeti Közlemények, Miskolc, VIII. évfolyam, 2. szám (2013), pp

LINGDOK 10. NYELVÉSZ-DOKTORANDUSZOK DOLGOZATAI. Szerkesztette: Gécseg Zsuzsanna

ÚTMUTATÓ A SZÓTÁR HASZNÁLATÁHOZ

A MAGYAR TURIZMUS ZRT. KONGRESSZUSI IGAZGATÓSÁGÁNAK TÁJÉKOZTATÓJA. a Magyarországon 2012-ben megrendezett nemzetközi rendezvényekrıl

MAGYAR KÖZTÁRSASÁG KORMÁNYA. H/ számú. országgyőlési határozati javaslat

A fenntarthatóság szerepe a környezeti nevelésben. Doktori (PhD) értekezés tézisei. Kosáros Andrea

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Átírás:

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben * Vincze Veronika 1. Bevezetés A dolgozat a kollokációk egy altípusának, a félig kompozicionális szerkezeteknek más néven funkcióigés szerkezeteknek (az elnevezésrıl l. Langer 2004 és Vincze 2009a) lehetséges számítógépes nyelvészeti (NLP) kezelési módjait tekinti át, különös tekintettel a gépi fordítás, jelentés-egyértelmősítés és információkinyerés részterületekre. A dolgozat felépítése a következı. Elıször a félig kompozicionális szerkezetek speciális NLP-kezelésének szükségességét mutatjuk be, különös figyelmet fordítva a gépi fordítás, a jelentés-egyértelmősítés és az információkinyerés részterületekre. A szerkezetek pontos azonosítása elengedhetetlen az NLP-alkalmazások mőködéséhez, így egy algoritmusra van szükség, mely képes automatikusan felismerni azokat. Egy ilyen algoritmus létrehozását megkönnyítené egy annotált adatbázis, melynek létrehozását szintén bemutatjuk statisztikai adatokkal együtt. 2. A félig kompozicionális szerkezetek NLP-kezelése A félig kompozicionális szerkezetek több okból kifolyólag is különleges figyelmet érdemelnek az NLP-alkalmazásokban. Elıször is, mivel jelentésük nem teljesen kompozicionális, azaz nem számítható ki a kollokáció részeinek jelentésébıl és azok kapcsolódási módjából, a részek szó szerinti lefordítása (szinte) soha nem tekinthetı a kollokáció megfelelı fordításának. Másodszor, a félig kompozicionális szerkezetek (ajánlatot kap) szintaktikai szerkezete gyakran megegyezik más, produktív fınév + ige szerkezetekével (pulóvert kap), illetve idiómákkal (vérszemet kap), ezért azonosításuk nem alapulhat pusztán szintaktikai mintákon. Harmadszor, mivel a szerkezet szintaktikai feje és szemantikai feje nem egyezik meg (a szintaktikai fej az ige, a szemantikai a fınév), a szintaktikai és szemantikai elemzéskor különleges figyelmet igényelnek: az angol vonzatos igékhez (phrasal / prepositional verbs) hasonlóan komplex predikátumot képeznek. Ezért érdemes lehet a speciális szintaktika-szemantikai kapcsolatukat külön jelezni, például függıségi nyelvtanokban az újonnan bevezetett QUASI-ARGUMENT szerep szolgálhat erre a célra. 3. Korábbi munkák A többszavas kifejezések, ezen belül a félig kompozicionális szerkezetek azonosítása nem magától értetıdı feladat, mivel a hasonló felépítéső szerkezetek (például fınév + ige szerkezetek) több osztályba sorolhatók a produktivitás szempontjából (produktív szerkezetek, félig kompozicionális szerkezetek és idiómák). Emiatt a többszavas szerkezetekre annotált korpuszok elengedhetetlen erıforrásai a többszavas kifejezések azonosítására képes algoritmusok fejlesztésének és tesztelésének. Például, Grégoire (2007) egy többszavas kifejezéseket tartalmazó holland adatbázis kialakításáról számol be. A többszavas igéket tekintve pedig létezik egy észt nyelvő korpusz (Kaalep és Muischnek 2006, 2008), illetve a német PP-igék adatbázisa (Krenn 2008). 4. Lexikai függvények a számítógépes nyelvészeti alkalmazásokban * A tanulmány létrejöttét az NKTH a MASZEKER kódnevő kutatás-fejlesztési projekt keretében támogatta. Ezúton mondok köszönetet Farkas Richárdnak a tanulmány egy korábbi változatához főzött értékes megjegyzéseiért, hasznos tanácsaiért.

A lexikai függvények elmélete az Értelem Szöveg Modell részeként jött létre (a modellrıl l. pl. Mel'čuk et al. 1995). A modell egyik legfontosabb elméleti hozadéka a lexikai függvények elmélete, amely univerzális: minden nyelvben képes leírni az adott nyelv lexémái között létezı nem teljesen kompozicionális szintaktikai-szemantikai viszonyokat. A szintagmatikus lexikai függvények egy csoportja (Oper, Func, Labor, illetve Real, Fact, Labreal) adja meg a félig kompozicionális szerkezetek fınévi és igei komponense közti viszonyokat. Néhány NLP-alkalmazás már hasznosítja a lexikai függvényeket. Apresjan et al. (2007) áttekinti a többfunkciós ETAP-3 nyelvi feldolgozón alapuló NLP-rendszereket a gépi fordítás, szintaktikai és lexikai egyértelmősítés, idiomatikus kifejezések megtalálása és a megnyilatkozások átfogalmazása területeken. A következıkben a gépi fordítás, a jelentés-egyértelmősítés és az információkinyerés területein tekintjük át a félig kompozicionális szerkezetek kezelését. Megvitatjuk a felmerülı problémákat és az azokra nyújtható lehetséges megoldásokat. 4.1. Gépi fordítás A kollokációk fordításakor két fı probléma merül fel: egyrészt, ha a kollokáció részei nem közvetlenül egymás mellett fordulnak elı a mondatban, akkor a számítógépnek elıször fel kell ismernie, hogy összetartoznak (Oravecz et al. 2004), amihez a kollokáció többszavas környezetét kell figyelembe venni. Másrészt, a kompozicionalitás hiánya vagy alacsony foka miatt a szó szerinti fordítás nem bizonyul járható útnak (Siepmann 2005, 2006). Magyar nyelvő anyagon végzett korábbi vizsgálatok (Vincze 2005, 2008) eredményei arra engednek következtetni, hogy egyfelıl a fınév szemantikai típusa képes megjósolni, milyen igei komponens szerepel vele az adott lexikai függvény által kifejezett viszonyban, másfelıl bizonyos igék tipikusan egy adott lexikai függvény értékeként fordulnak elı (l. fentebb). Továbbá a félig kompozicionális szerkezetek csoportjai megfeleltethetık a lexikai függvények csoportjainak (Vincze 2009a). Így tehát a magyarban bizonyos mértékig képesek vagyunk megjósolni azt, hogy a félig kompozicionális szerkezetek esetében egy adott kulcsszó (fınév) mellett milyen ige fog elıfordulni egy adott szintaktikai viszony kapcsán. Ezek az eredmények a gépi fordításban is alkalmazhatóak. Az eredményes fordításhoz azonban az kell, hogy ezek a viszonyok mindkét nyelvre meg legyenek adva. Ha mindkét nyelvben megtalálható az a lista, amely a lexikai függvényeknek például a remény kulcsszóra adott értékeit tartalmazza, akkor a gépi fordítás jelentısen könnyebbé és pontosabbá tehetı, hiszen csak a két listát kell összevetni (a kifejezések magyar megfelelıjét is lexikai függvény formájában tüntetjük fel): Oper 1 (nadežda) = [~u] pitat Oper 1 (hope) = cherish Oper 1 (remény) = [~t] táplál A félig kompozicionális kifejezések gépi fordítása tehát két úton is megkönnyíthetı. Egyrészt a kifejezések lexikai függvények formájában történı tárolása segíthet, ebben az esetben a fordítóprogram szótárának mérete nı ugyan, de a fordítás pontos lesz. Másrészt a fınév és ige szemantikai tartalma közti kapcsolat (l. fentebb) segítségével adhatunk meg fordítást az adott kifejezéshez. Ez a módszer statisztikai alapú: minden, egy adott szemantikai típushoz sorolható fınév mellett nagy valószínőséggel egy adott ige fordul elı, például a beszédaktusokat jelölı fınevek a magyar nyelvben nagyon gyakran az ad, tesz és hoz igék valamelyikével együtt alkotnak félig kompozicionális szerkezetet (Vincze 2005), az orosz nyelvben pedig a davat vagy a delat igékkel használatosak az ugyanebbe a szemantikai csoportba sorolt fınevek (Apresjan 2004). A fordítóprogram az adott szemantikai típusú fınevekhez társított igék közül az adott fınévhez tartozó megfelelı igét egy tanulókorpusz

alapján készített gyakorisági mutató segítségével választja ki. Így az esküt tesz szerkezet fordítása során a kljatva szó mellé a davat kerül, mivel a davat kljatvu szókapcsolat sokkal gyakoribb, mint a?delat kljatvu. 4.2. Jelentés-egyértelmősítés A számítógépes nyelvészet egy másik részterületén, a jelentés-egyértelmősítésben is hasznosíthatók a félig kompozicionális szerkezetek. Esetükben az a kérdés merül fel, hogy fenntartsunk-e egy speciális funkcióigei jelentést az ige számára. Ez a lehetıség akkor tőnik hasznosnak, amikor nincs szükség túl finom jelentésmegkülönböztetésre. Vannak azonban olyan esetek is, amikor a félig kompozicionális szerkezetben szereplı ige több markáns szemantikai csoportot alkotó fınévvel együtt szerepel, mindegyik mellett enyhén eltérı jelentésárnyalatot hordozva (Apresjan et al. 2007). Ilyen a magyarban a hoz funkcióige, mely háromféle szemantikai osztályba tartozó fınévvel alkothat félig kompozicionális szerkezetet: Nyereséget vagy veszteséget jelentı fınév: nyereséget hoz Cselekvést jelentı fınév: intézkedést hoz Állapotot jelentı fınév: zavarba hoz. Az ige jelentése a három csoportban a következıképpen írható körül: termel, létrehoz, vmilyen állapotba juttat. Az elsı két jelentés azonban összevonható a létrehoz jelentéscímke alatt. Az összevonás igazolható az azonos vonzatkerettel is: mindkét esetben a fınévi komponens az ige tárgya. Így a hoz igének két funkcióigei ( létrehoz, vmilyen állapotba juttat ) és három fıigei ( vmit közelebbi helyre juttat, együtt jár vmivel, termel ) jelentést tulajdoníthatunk, összhangban azzal a feltevéssel, hogy a jelentés-egyértelmősítés során 3-5 jelentéssel érdemes dolgozni az optimális hatékonyság elérése érdekében (Vincze et al. 2008). Példaként tekintsük a nyilvánosságra hoz szerkezetet! A fınévi komponensnek két lehetséges jelentése van: vminek nyilvános volta és a közvéleményt képviselı emberek. Tehát amikor a szerkezet fınévi és igei komponensének jelentését kívánjuk meghatározni, összesen tíz (kétszer öt) lehetıség merül fel. A megfelelı kombináció kiválasztásában a következı lépések segítenek. Tegyük fel, hogy a pontos jelentésdefiníciók rendelkezésre állnak. Ha a számítógépes algoritmus felismeri, hogy a szóban forgó kombináció félig kompozicionális szerkezet, akkor a fıigei jelentéseket már nem kell figyelembe venni. A maradék két jelentés közül pedig a fınévi komponens morfoszintaktikai elemzése segítségével lehet kiválasztani a megfelelıt: a hoz jelentése a szerkezetben: vmilyen állapotba juttat. Ez az igei jelentés az állapotot jelölı fınevekkel együtt fordul elı, így a nyilvánosság fınévhez is az állapotot jelölı vminek nyilvános volta jelentés tartozik. A fentiek alapján elmondható, hogy a félig kompozicionális szerkezetek morfoszintaktikai információkkal és pontos jelentésekkel gazdagított szócikkei elısegítik a jelentésegyértelmősítési feladat eredményes megvalósítását. 4.3. Információkinyerés Információkinyerésnél, különösen relációk kinyerésekor rendkívül fontos a mondatok megfelelı szintaktikai elemzése. A félig kompozicionális szerkezetek fınévi komponensének azonosítása azonban bonyolultabb, hiszen ez az igének egy kvázi-argumentuma, amely nem összekeverendı más argumentumokkal (Alonso Ramos 1998). A szintaktikai elemzınek ezért fel kell ismernie a kvázi-argumentum speciális helyzetét. Erre mutat példát az alábbi két mondat: A cég bérbe vette a raktárt.

A cég kibérelte a raktárt. Az igei variánst tartalmazó mondatban a bérlési esemény két argumentumot tartalmaz: a cég, a raktár. A félig kompozicionális szerkezetet tartalmazó mondatban ugyanezek az argumentumok találhatók meg, ámde szintaktikai státusuk vitatott: kérdés, hogy a fınév, az ige vagy a szerkezet vonzatainak tekintsük-e ıket (vö. Alonso Ramos 2007). Információkinyerés szempontjából talán a komplex predikátum feltételezése a legígéretesebb: a szerkezetet egy egységként kezeljük, és ennek vannak vonzatai. Így például A cég bérbe vette a raktárt mondatból kinyerhetı viszonyok a következık: bérbe vétel esemény, szereplıi: a cég, a raktár. Ezzel szemben, ha az elemzı nem ismeri fel a fınévi komponens különleges szintaktikai státusát, a következı (helytelen) eredményt adja: vétel esemény, szereplıi: a cég, bér, a raktár. Ennek kiküszöbölésére érdemes a szerkezetnek olyan szintaktikai struktúrát tulajdonítani, amely segítségével egy elemzı program is a megfelelı eredményt nyújtja. 5. A korpusz A lexikai függvények formájában kódolt félig kompozicionális szerkezetek adatbázisa és egy annotált korpusz jó szolgálatot tehet a szerkezetek automatikus felismerésében, mivel tanító és tesztadatbázisként hasznosíthatók a szerkezetek azonosítását végzı algoritmus fejlesztésében. Jelenleg is zajlik az elsı olyan magyar nyelvő korpusz létrehozása, melyben a félig kompozicionális fınév + ige szerkezetek be vannak jelölve (Vincze 2009b). Az annotáció alapját a Szeged Treebank 2.0 képezi (Csendes et al. 2005), mivel ez az adatbázis már tartalmaz morfoszintaktikai annotációt és szintaktikai elemzést is. Az annotáció során a szerkezet <FX></FX> tagek közé kerül, és jelölni lehet a szerkezet altípusát (fınév + ige kombinációja <verb>, igenév <part>, fınévi képzett alak <nom>, különálló szerkezet <split>) is. Jelenleg (2010 januárja) az üzleti hírek és az újsághírek annotációja készült el teljesen, a jogi szövegeké folyamatban van, azonban terveink szerint a teljes korpusz anyagára kiterjesztjük az annotációt. Az elkészült korpusz statisztikai adatai a következık: 1. táblázat: Félig kompozicionális szerkezetek a Szeged Korpuszban verb part nom split összesen üzleti hírek 565 58,6% 270 30% 90 9,3% 40 4,1% 965 újsághírek 458 59% 197 25,3% 55 7,1% 67 8,6% 777 jogi szövegek 62 19,2% 130 40,2% 92 28,5% 39 12,1% 323 összesen 1085 52,5% 597 29,9% 237 11,5% 146 7,1% 2056 Az adatokból azt láthatjuk, hogy az üzleti hírekben és újsághírekben meglehetısen hasonló eloszlást mutatnak a különbözı altípusok. Ezzel szemben a jogi szövegekben jóval több a fınévi változat és az igenév, mint a hírekben ez valószínőleg a jogi szaknyelv sajátosságainak köszönhetı. A korpusz egyéb szövegrészeinek annotációja további érdekes tendenciákra deríthet fényt. 6. Összegzés A dolgozatban bemutattuk a félig kompozicionális fınév + ige szerkezetek kezelését számítógépes nyelvészeti szempontokból, különös figyelmet fordítva a gépi fordítás, jelentésegyértelmősítés és információkinyerés részterületekre. Az alkalmazások pontos mőködését elısegítheti egy, a szerkezetek automatikus felismerését végzı algoritmus, melynek kifejlesztéséhez elengedhetetlen egy tanító adatbázis, melynek építése jelenleg is zajlik. A jövıben remélhetıleg megtörténik az algoritmus kifejlesztése, így a fenti alkalmazások is hatékonyabbá válhatnak.

7. Irodalom Alonso Ramos, M. 1998. Étude sémantico-syntaxique des constructions à verbe supporte. Thèse de doctorat. Université de Montréal, Montréal. Alonso Ramos, M. 2007. Towards the Synthesis of Support Verb Constructions. In: Wanner, L. (ed.) Selected Lexical and Grammatical Issues in the Meaning-Text Theory. In Honour of Igor Mel'čuk. Amsterdam: Benjamins. 97-138. Apresjan, Ju. D. 2004. O semantičeskoj nepustote i motivirovannosti glagol nyx leksičekix funkcij. Voprosy jazykoznanija 4. 3-18. Apresjan, Ju. D., Boguslavsky, I. M., Iomdin, L. I., Tsinman, L. L. 2007. Lexical Functions in Actual NLP-Applications. In: Wanner, L. (ed.) Selected Lexical and Grammatical Issues in the Meaning-Text Theory. In Honour of Igor Mel'čuk. Amsterdam: Benjamins. 203-233. Csendes, D., Csirik, J., Gyimóthy, T., Kocsor, A. 2005. The Szeged TreeBank. In: Matousek, V., Mautner, P., Pavelka, T. (eds.) Proceedings of 8th International Conference on Text, Speech and Dialogue (TSD 2005). Berlin / Heidelberg: Springer Verlag. 123-132. Grégoire, N. 2007. Design and Implementation of a Lexicon of Dutch Multiword Expressions. In: Proceedings of the Workshop on A Broader Perspective on Multiword Expressions. Association for Computational Lingustics. 17-24. Kaalep, H.-J., Muischnek, K. 2008. Multi-Word Verbs of Estonian: a Database and a Corpus. In: Proceedings of the LREC Workshop Towards a Shared Task for Multiword Expressions (MWE 2008). Marrakech, Morocco. 23-26. Krenn, B. 2008. Description of Evaluation Resource German PP-verb data. In: Proceedings of the LREC Workshop Towards a Shared Task for Multiword Expressions (MWE 2008). Marrakech, Morocco. 7-10. Langer, S. 2004. A Linguistic Test Battery for Support Verb Constructions. Lingvisticae Investigationes 27. évf. 2. 171-184. Mel'čuk, I., Clas, A., Polguère, A. 1995. Introduction à la lexicologie explicative et combinatoire. Louvain-la-Neuve: Duculot. Oravecz Cs., Varasdi K., Nagy V. 2004. Többszavas kifejezések számítógépes kezelése. In: Alexin Z., Csendes D. (szerk.) MSzNy 2004 II. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: Szegedi Tudományegyetem. 141-154. Siepmann, D. 2005. Collocation, colligation and encoding dictionaries. Part I: Lexicological Aspects. International Journal of Lexicography 18. évf. 4. 409-444. Siepmann, D. 2006. Collocation, colligation and encoding dictionaries. Part II: Lexicographical Aspects. International Journal of Lexicography 19. évf. 1. 1-39. Vincze V. 2005. Funkcióigés szerkezetek vizsgálata lexikai függvények segítségével. Elhangzott: Nyelvészdoktoranduszok 9. Országos Konferenciája. Szeged. 2005. november 18. Vincze V. 2008. A puszta köznév + ige komplexumok státusáról. In: Kenesei I. (szerk.) LingDok 7. Nyelvész-doktoranduszok dolgozatai. Szeged: Szegedi Tudományegyetem. 265-283. Vincze, V. 2009a. On the Machine Translatability of Semi-Compositional Constructions. In: Váradi T. (szerk.) Válogatás az I. Alkalmazott Nyelvészeti Doktorandusz Konferencia elıadásaból / Selected Papers from the First Applied Linguistics PhD Conference. Budapest: Nyelvtudományi Intézet. 166-178. Vincze V. 2009b. Félig kompozicionális szerkezetek a Szeged Korpuszban. In: Tanács A., Szauter D., Vincze V. (szerk.): VI. Magyar Számítógépes Nyelvészeti Konferencia (MSzNy 2009). Szeged: Szegedi Tudományegyetem, Informatikai Tanszékcsoport. 390-393. Vincze, V., Szarvas, Gy., Almási, A., Szauter, D., Ormándi, R., Farkas, R., Hatvani, Cs., Csirik, J. 2008. Hungarian Word-Sense Disambiguated Corpus. In: Proceedings of 6th International Conference on Language Resources and Evaluation. Marrakech, Morocco.