Igekötős szerkezetek a magyarban

Hasonló dokumentumok
Az igekötők gépi annotálásának problémái Kalivoda Ágnes

A magyar létige problémái a számítógépes nyelvi elemzésben

Magyar nyelvű történeti korpuszok

Ablak által világosan Vonzatkeret-egyértelműsítés az igekötők és az infinitívuszi vonzatok segítségével

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

YANG ZIJIAN GYŐZŐ 杨子剑

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Nem mind VP, ami állít A névszói állítmány azonosítása számítógépes elemzőben

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Szakmai önéletrajz. Főbb tevékenységek elméleti nyelvészeti kutatások alkalmával asszisztensi feladatok ellátása

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

A Mazsola KORPUSZLEKÉRDEZŐ

A kibővített Magyar történeti szövegtár új keresőfelülete

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

SZAKMAI ÖNÉLETRAJZ Farkas Judit

Ismeretlen kifejezések és a szófaji egyértelm sítés

Anaforafeloldás menet közben

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában

I. Alkalmazott Nyelvészeti Doktorandusz Konferencia. Budapest,

Szabó Martina Katalin

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

XI. Magyar Számítógépes Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila Varga Viktor Vincze Veronika

Különírás-egybeírás automatikusan

XIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY Szerkesztette: Vincze Veronika

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Strukturált nyelvi adatbázis létrehozása gépi tanulási módszerekkel. Kutatási terv

ZIJIAN GYŐZŐ YANG 杨子剑 Language technology expert specialized in machine translation evaluation

Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában

Anaforafeloldás menet közben névmások egy pszicholingvisztikailag motivált elemzőben

Január 7. hétfő. I. Beszédtechnológia, fonológia

PTE BTK Magyar Nyelv- és Irodalomtudományi Intézet Nyelvtudományi Tanszék

Félig kompozicionális főnév + ige. szerkezetek: elméleti kérdések és. számítógépes nyelvészeti elemzések

PurePos: hatékony morfológiai egyértelműsítő modul

Doktori (Ph.D.) értekezés tézisei. A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával.

Korpuszlekérdezők evolúciója

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A HUNGLISH PÁRHUZAMOS KORPUSZ

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

PÁZMÁNY PÉTER KATOLIKUS EGYETEM BÖLCSÉSZETTUDOMÁNYI KAR

Developing and harmonizing the modules of a multi-threaded text analyser program

szakmai önéletrajz Bánhalmi András Személyes információk: Végzettségek, képzések: Idegen nyelv: Oktatás:

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

DR. VINCZE VERONIKA. SZEMÉLYES ADATOK Születési idő: július 1. Állampolgárság: magyar

PÁRHUZAMOS IGEI SZERKEZETEK

Pirmajer Attila

A két projekt valamelyikét említő előadásaink listája

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

Magyar nyelvű néprajzi keresőrendszer

Analogikus általánosítási folyamatok a gyereknyelvben c. kutatási projekthez

2018. március 12-e Aktuális közlemények a Pécsi Tudományegyetem Nyelvtudományi Doktori Iskolájának Működési Szabályzata kiegészítéseképpen

28 millió szintaktikailag elemzett mondat és igei szerkezet

Félig kompozicionális szerkezetek a SzegedParalell angol magyar párhuzamos korpuszban

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására

Nyelvészet. I. Témakör: Leíró nyelvtan

Összetett kifejezések automatikus. azonosítása természetes nyelvű. szövegekben. Nagy T. István A DOKTORI ÉRTEKEZÉS TÉZISEI

Összetett kifejezések automatikus. azonosítása természetes nyelvű. szövegekben. Nagy T. István A DOKTORI ÉRTEKEZÉS TÉZISEI

Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk

BÍRÁLATOK ÉS KONFERENCIÁK

A MAGYAR NEMZETI SZÖVEGTÁR EGYMILLIÁRD SZAVAS ÚJ VÁLTOZATA

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Lexikon és nyelvtechnológia Földesi András /

HunLearner: a magyar nyelv nyelvtanulói korpusza

HOGYAN LELJÜNK BARÁTOKAT A KORPUSZBAN?

AZ ANGOL IGE + VISZONYSZÓS SZERKEZETEK ELEMZÉSE KOVÁCS ÉVA

Beszámoló a XI. Alkalmazott Nyelvészeti Doktoranduszkonferenciáról

Hány VAN nincs? A létige zéró váltakozás korpuszvezérelt vizsgálata

Magyarország, 4031, Debrecen szeptemberétől jelenleg is Ph.D. tanulmányok folytatása

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

A Hunglish Korpusz és szótár

A Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály jelentése a évről. Kiemelkedő kutatási és más jellegű eredmények

2017. november 9 10-én KÖLCSÖNHATÁSOK

Nyelv-ész-gép Új technológiák az információs társadalomban

Angol-Amerikai Intézet (SEAS): ANN/AKN/AMN/AFN BBN BMA TANM-ANG ekvivalenciák

NY/NYKK - Nyelvtudományi Doktori Iskola. Interkulturális nyelvészet doktori oktatási program

MAGYAR MINT IDEGEN NYELV TANKÖNYVEK NYELVI ANYAGÁNAK SZÁMÍTÓGÉPES ELEMZÉSE 5

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Kongresszusi részvétel (előadás vagy poszter) Magyar nyelvű, hazai rendezvényeken

Búza tartalékfehérjék mozgásának követése a transzgénikus rizs endospermium sejtjeiben

TANIT Magyar nyelvű szövegeket elemző eszköz összehasonlító digitális bölcsészeti feladatokhoz

KOREFERENCIAVISZONYOK AZ ENYHE KOGNITÍV ZAVARBAN SZENVEDŐK BESZÉDÁTIRATAIBAN. Kovács Viktória SZTE Nyelvtudományi Doktori Iskola

Önkormányzati Választások Polgármester jelöltek. Elekes Balázs Lehet Más A Politika ,81%

SZAKMAI ÖNÉLETRAJZ. megnevezés évszám kibocsátó intézmény Informatika - angol nyelv és irodalom 2009 Debreceni Egyetem

Lexikális behelyettesítés magyarul

Adatlap törzstagok számára

AKTUÁLIS INFORMÁCIÓK (Eredmények)

Az URaLUID adatbázis bemutatása

Publikációk. Könyvek, könyvfejezetek:

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Tanulmányok a középmagyar kor mondattana köréből

Igei szerkezetek gyakorisági szótára

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Átírás:

Igekötős szerkezetek a magyarban Kalivoda Ágnes 2018. június 26., Budapest PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor

A kutatás célja az igekötős szerkezetek minél teljesebb leírása korpuszvezérelt módszerrel, a performancia oldaláról a Manócska igei vonzatkeret adatbázis fejlesztése (Indig et al. 2017) igekötős szerkezetek kezelése az AnaGramma elemzőben (Prószéky et al. 2016)

I. Az igekötők mondatbeli pozícióinak feltérképezése Kapcsolódó publikációk: (Kalivoda 2017a), (Kalivoda 2018)

Motiváció és módszer Probléma: Az elvált igekötő és az ige összekapcsolása mire készítsük fel a gépi elemzőt? Megoldás: Igekötő finit ige távolságok kimérése az MNSZ 2.0.3 korpuszon (Oravecz et al. 2014)

A preverbális igekötő és a finit ige távolsága IK pozíciók -4-3 -2-1 0 (FIN) elmond meg is nyeri el sem nagyon jutnánk vissza most már nem szívhatom találatszám 6 91 102768 13715093 százalék - - 0,74 99,26

A posztverbális igekötő és a finit ige távolsága FIN +1 +2 +3 +4 +5 +6 +7 jelenik meg lát majd el fordulhat még egyszer elő adok én most itt elő beszélek még mindig egy kicsit haza fut a HÉV a vidám néppel ki csábítson téged a nagy retyezáti barna medve oda 7527308 163993 5156 1193 267 101 27 97,98 2,13 0,07 0,02 - - -

Mitől függhet az ige igekötő távolság? A szöveg szerkesztettsége (1) akármi is dobja valakinek az egyéniségét a hullámhegyre fel, (2) azért nem merül ez a kérdés ilyen sarkallatosan föl, (3) Azért mentem egy kicsit a popzene felé el,

Mitől függhet az ige igekötő távolság? Fonológia: A növekvő összetevők törvénye A rövidebb összetevő megelőzi a hosszabbat, ha ezt szintaktikai szabály nem gátolja. (Behaghel 1932) Magyar: az ige utáni mondatszakaszra érvényes ez a tendencia. (É. Kiss 2007) Alkorpusz Átlag szóhossz Gyakoriság +1-es IK 2,8 4,1 4,9 97,78% +2-es IK 3,0 3,2 4,5 2,13% +3-as IK 3,3 5,2 4,1 0,07%

II. Az igekötők annotációjának javítása Kapcsolódó publikáció: (Kalivoda 2017b)

Homográf szóalakok hibás annotáció

Az igekötők annotációjának javítása Szabály-alapú javítás (a kontextus mintázatai alapján) Kiértékelés: az MNSZ 2.0.4-ből vett 5000 mondaton Teljesítmény a tesztkorpuszon (%): pontosság: 88.2 fedés: 57.5 F-mérték: 69.6 Miért csak ennyi? nehéz kontextusra támaszkodni, ha rossz a kontextus rengeteg az eĺırás, hibás szóköz

III. Az eredmények felhasználása

Az eredmények felhasználása Manócska egységesített igei vonzatkerettár: https://github.com/ppke-nlpg/manocska Kapcsolódó publikációk: (Vadász Kalivoda Indig 2018) (Kalivoda Vadász Indig 2018) VFrame keresőeljárás: https://github.com/ppke-nlpg/vframe Kapcsolódó publikáció: (Vadász Indig Kalivoda 2017)

IV. Diakrón vizsgálatok

Hat prototipikus igekötő (meg, el, fel, ki, be, le) vizsgálata Korpusz Mondatok Pozíciók Preverbális Posztverbális ÓMK 4873 [-2; +4] 83,3% 16,7% TMK 26160 [-3; +7] 76,2% 23,8% MTSZ 364902 [-3; +7] 71,0% 29,0% MNSZ 21516014 [-4; +11] 64,2% 35,8% Példák az eltávolodásra: (1) Jelentette vala az Úristen meg asszony Jacobának, (2) küldém Szokoly Albertet mindjárást mintegy posta módon el, (3) nem ülepedhetik a víz a kávéval annyira meg a testben, (4) metszik a zsidók egy keresztény fiúcska nyakát el.

A tagadó szórend változása Preverbális igekötő: megszakított szórend (meg nem teszed) Posztverbális igekötő: fordított szórend (nem teszed meg)

További tervek

A disszertáció váza 1 Mik az igekötők? 2 Az igekötős szerkezetek szintaxisa 3 Az igekötők és az igei vonzatkeret 4 Diakrón vizsgálatok

Hivatkozások I. - Behaghel, Otto (1932). Deutsche Syntax IV. Heidelberg, Carl Winters. - É. Kiss Katalin (2007). Az ige utáni szabad szórend magyarázata. Nyelvtudományi Közlemények 104. p. 124 152. - Indig Balázs, Vadász Noémi, Kalivoda Ágnes (2017). Manócska integrált igei vonzatkeret adatbázis. Elérhető: https://github.com/ppke-nlpg/manocska - Kalivoda Ágnes (2017a). Hungarian particle verbs in a corpus-driven approach. In: Computational Linguistics and Intelligent Text Processing 18th International Conference (CICLing 2017), 2017. április 17 23. Budapest. Megjelenés alatt. - Kalivoda Ágnes (2017). Az igekötők gépi annotálásának problémái. In: Ludányi Zsófia (szerk.): Doktoranduszok tanulmányai az alkalmazott nyelvészet köréből. XI. Alkalmazott Nyelvészeti Doktoranduszkonferencia (Alknyelvdok 2017). 2017. február 3. Budapest, MTA Nyelvtudományi Intézet. pp. 100 109.

Hivatkozások II. - Kalivoda Ágnes (2018). Az igekötős igék szintaxisa korpuszvezérelt megközeĺıtésben. In: Scheibl György (szerk.): Nyelvészdoktoranduszok dolgozatai (LingDok 17). 2016. november 30. december 1. Szeged. Szegedi Tudományegyetem, Nyelvtudományi Doktori Iskola. pp. 159 176. - Kalivoda Ágnes, Vadász Noémi, Indig Balázs (2018). Manócska: A Unified Verb Frame Database for Hungarian. In: 21st International Conference on Text, Speech and Dialogue (TSD 2018), 2018. szeptember 11 14. Brno, Csehország. Megjelenés alatt. - Oravecz Csaba, Váradi Tamás, Sass Bálint (2014). The Hungarian Gigaword Corpus. In: Calzolari, Nicoletta, et al. (szerk.): Proceedings of the 9th International Conference on Language Resources and Evaluation. Reykjavík, Izland. ELRA. p. 1719 1723. - Prószéky Gábor, Indig Balázs, Vadász Noémi (2016). Performanciaalapú elemző magyar szövegek számítógépes megértéséhez. In: Szavad ne feledd! : Tanulmányok Bánréti Zoltán tiszteletére. p. 223 232.

Hivatkozások III. - Vadász Noémi, Indig Balázs, Kalivoda Ágnes (2017). Ablak által világosan Vonzatkeret-egyértelműsítés az igekötők és az infinitívuszi vonzatok segítségével. In: Vincze Veronika (szerk.): XIII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2017). Szeged, 2017. január 26 27. pp. 3 12. - Vadász Noémi, Kalivoda Ágnes, Indig Balázs (2018). Egy egységesített magyar igei vonzatkerettár építése és felhasználása. In: Vincze Veronika (szerk.): XIV. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2018). Szeged, 2018. január 18-19. pp. 3 15.