Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Hasonló dokumentumok
Igekötős szerkezetek a magyarban

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

A Mazsola KORPUSZLEKÉRDEZŐ

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

A HUNGLISH PÁRHUZAMOS KORPUSZ

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Ablak által világosan Vonzatkeret-egyértelműsítés az igekötők és az infinitívuszi vonzatok segítségével

A Hunglish Korpusz és szótár

Magyar nyelvű történeti korpuszok

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

A kibővített Magyar történeti szövegtár új keresőfelülete

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

A nyelvtechnológia hatása napjaink lexikográfiájára

Nem mind VP, ami állít A névszói állítmány azonosítása számítógépes elemzőben

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

MORFOLÓGIAI FELÉPÍTÉS

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Különírás-egybeírás automatikusan

PurePos: hatékony morfológiai egyértelműsítő modul

HOGYAN LELJÜNK BARÁTOKAT A KORPUSZBAN?

Bevezetés a programozásba I.

A szótárról. 1. Mi ez?

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Korpuszlekérdezők evolúciója

Korpuszneveink helyesírásáról

Véletlenszám generátorok és tesztelésük HORVÁTH BÁLINT

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

MagyarOK 1. tanmenetek

PÁRHUZAMOS IGEI SZERKEZETEK

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

A MAGYAR NEMZETI SZÖVEGTÁR EGYMILLIÁRD SZAVAS ÚJ VÁLTOZATA

Minta. Javítási-értékelési útmutató az emelt szintű írásbeli vizsgához. Íráskészség

Javában taggelünk.

A magyar létige problémái a számítógépes nyelvi elemzésben

XXV. EGVE MEN Konferencia KVIK-BFR bérfeldolgozó és bérfelosztó rendszer. ifj. Bakallár Sándor ügyvezető

MagyarOK 1. tanmenetek

TÁJÉKOZTATÓ A SZAKDOLGOZATRÓL FORDÍTÓ ÉS TOLMÁCS MESTERSZAK FORDÍTÓ SPECIALIZÁCIÓ

A közbeékelt parentézis megszakítja a folyó megnyilatkozás folyamatosságát

KONYHABÚTOR FELSŐK ELEMJEGYZÉKE

Az e-magyar rendszer GATE környezetbe integrált magyar szövegfeldolgozó eszközlánca

Hogyan írjunk tudományt? Schimmel

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

Felsőoktatás helyzete. Kisgyörgy Lajos

TANIT Magyar nyelvű szövegeket elemző eszköz összehasonlító digitális bölcsészeti feladatokhoz

Korpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22.

1. Mik a szófajok elkülönítésének általánosan elfogadott három szempontja? 2. Töltsd ki a táblázatot az alapszófajok felsorolásával!

2018. évi határozatok kivonata

Magyar nyelvű néprajzi keresőrendszer

A magyar doktori iskolák nemzetköziesedésének vizsgálata. Dr. Kovács Laura Tempus Közalapítvány június 5.

AWK programozás, minták, vezérlési szerkezetek

Keresés korpuszban október 19., SZTE JGYPK Sass Bálint MTA Nyelvtudományi Intézet

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN

Idegennyelv-tanulás támogatása statisztikai és nyelvi eszközökkel

Csima Judit BME, VIK, november 9. és 16.

28 millió szintaktikailag elemzett mondat és igei szerkezet

Az új magyar Braille-rövidírás kialakítása

Varga András. Õsi magyar nyelvtan

A szóhasonlóság mértékének tesztelése CVCVC szerkezetű hangkivető főnevekkel. Rung András BME Fizikai Intézet

Anaforafeloldás menet közben

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

YANG ZIJIAN GYŐZŐ 杨子剑

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

A KÖZBESZERZÉSI TÖRVÉNY MEGÚJÍTÁSA: ÁTTÖRÉS A VERSENY ÉS A MINŐSÉGI BESZERZÉS TERÉN SZEPTEMBER 4.

KÖFOP VEKOP A jó kormányzást megalapozó közszolgálat-fejlesztés

Gépi tanulás a gyakorlatban. Bevezetés

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Egy nyelvjárási szintaxisvizsgálat háttere és eredményei Őrség és Hetés területén

ALPROJEKT DR. PILLÓK PÉTER MONITORING IGÉNYEK ÉS MEGOLDÁSI JAVASLATOK

Nyelvtechnológia a lexikográfia szolgálatában Pajzs Júlia

Az intézményi nemzetköziesítésben rejlő perspektívák. Sonkoly Gábor, ELTE BTK

User explorer riport a Google Analyticsben. "Tartsd magadhoz közel a barátaidat, de még közelebb a potenciális vásárlóidat"

Lexikon és nyelvtechnológia Földesi András /

Üzleti szemlélet és a magyar nyelv támogatása a többnyelvű világban

105 ezer diák közül mintegy 72 ezret vettek fel, 72 ezer diákból jutott be állami

Szótáralapú kémiai NE-felismer rendszer

TestLine - Nyelvtan és irodalom bemeneti mérés Minta feladatsor

Intelligens partner rendszer virtuális kórházi osztály megvalósításához

NYELVÉSZETI SZÖVEGKERESŐK, NEMZETI KORPUSZPORTÁL

Az URaLUID adatbázis bemutatása

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Nehogy a nyúl visz a puska! Mondat ez? Bizonyára te is látod,

Hivatkozásokra vezérlő kalauz

2017-től felvett hallgatóknak. A mesterképzési szakon szerezhető végzettségi szint és a szakképzettség oklevélben szereplő megjelölése:

Megerősítéses tanulás 7. előadás

ÖSSZEADÁS, KIVONÁS AZ EGY 0-RA VÉGZŐDŐ SZÁMOK KÖRÉBEN

XI. Magyar Számítógépes Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila Varga Viktor Vincze Veronika

Bevezetés a programozásba I 3. gyakorlat. PLanG: Programozási tételek. Programozási tételek Algoritmusok

I. EXPOZÍCIÓS PROGRAMOK FÉLAUTOMATA PROGRAMOK...

Átírás:

Az igekötők gépi annotálásának problémái Kalivoda Ágnes Budapest, 2017. február 3. PPKE BTK

Bevezetés Mi a probléma? Homográf szóalakok hibás szófaji címkét kaphatnak Mi a megoldás? Szabály alapú javítás (kontextus mintázatai) Mi a haszna? Jobb annotáció jobb alapanyag Az előadás felépítése 1. Módszertan, a felhasznált korpuszok 2. Homográfia példákkal, halmazokkal 3. A javítás lépései (script) 4. Kiértékelés: pontosság, fedés, f-mérték 5. Összegzés, további teendők

Módszertan Felhasznált korpuszok: Pázmány Korpusz (Endrédy 2016) Magyar Nemzeti Szövegtár v2.0.4 (Oravecz Váradi Sass 2014) Igekötő állomány (egytagú, elvált igekötők): Pázmány: 76, MNSZ2: 79 (+ alább, benn, közé) Munkafázisok: minden IK-nak elemzett szó lekérése a Pázmány Korpuszból ugyanezen szavak lekérése nem-ik-ként hibatípusok megállapítása (Unix pipeline commands) szabályok megfogalmazása (Python3.4 script) tesztelés: MNSZ2, pszeudo-random 5000 mondat

Homográfia példákkal Más magyar szófaj Más nyelvű szóalak Rövidítés, mozaikszó + Elírás Ha a karbantartó sokáig vacakol, akkor az a konklúzió, hogy nem ért hozzá. 4 telót rendeltem online tudom mit ír ki. [...] és a szingapúri Clara Vong Van Ki. [...] vitte a Sharm el Sheiki kórházból a per helyszínére. LE (lóerő), OTT (oxytocin terheléses teszt) [...] mert amit meg ad számot azon nem lehet! ért valamihez? hozzáér? kiír valamit? (vala)ki ír? én kivagyok, ő kivan... elvitte? megad? és amit ad?

Homográfia halmazokkal Más magyar szófaj (1) be (1): Nem jött be. Se ki, se be. Be rút teremtés! be (2): It must be late. be (3): BE = Bowling Egyesület tova meg be el ki agyon teli ott Más nyelvű szóalak (2) Rövidítés, mozaikszó (3)

A javítás lépései (script) 1. Beolvassuk a mondatot tejet/tej/fn.acc meg/meg/ik ilyeneket/ilyen/mn_nm.pl.acc 2. Keressük az igekötőnek jelölt elemet, mik a hibatípusai? meg = [1] 3. Adott hibatípusban több szabály, van illeszkedő? [névszó+esetrag] [0-3 nem.?!] [meg] [0-3 nem.?!] [névszó+esetrag] 4. Ha valamelyik szabály talált: nem igekötő, különben igekötő Egyelőre egy irányban működik (igekötő nem igekötő) Igekötő+ige kombinációkat is keresgél (csak bizonyos igekötőknél, pl. észre, létre)

Kiértékelés: módszer 5000 igekötős mondat az MNSZ2-ből, majdnem véletlenszerűen fő szempont: az igekötők arányát tekintve az MNSZ2 kicsinyített mása (alább %-ok) egyéb 40.3 meg 29.4 ki 11.2 el 19.1 összesen: 5000 / 1033 hibás 20.6 % meg: 1470 / 510 hibás 34.7 % ki: 560 / 100 hibás 17.8 %

Kiértékelés: eredmények Pontosság: a hibásnak jelölt annotációk közül mennyi valóban hibás? Fedés: az összes hibás annotáció közül hányat talált meg? F-mérték: a pontosság és fedés harmonikus közepe Teljesítmény a tesztkorpuszon (%): Pontosság: 88.2 Fedés: 57.5 F-mérték: 69.6 Miért ennyi? 1. Nehéz kontextusra támaszkodni, ha rossz a kontextus: ír/ír/mn.nom alá/alá/ik 2. Rengeteg az elírás, hibás szóköz, ezt egyáltalán nem kezeljük fél fel, még meg, el le...

Összegzés A helyzet javult, de bőven van még mit csinálni További kérdések, teendők a fedés javítása de mit lehet kezdeni az elírásokkal? javítás a másik irányból (nem-ik IK) az igekötő állomány vizsgálata kicsit elméletibben nem konzisztens: ha a zokon igekötő, a cserben miért nem? határozószó vs. igekötő, névmás vs. igekötő: nagyon sokszor nem dönthető el, pl. oda [IK HA]? rövid válaszok kezelése Megtartottad az előadást? Én meg. (igekötő) Te megint ülsz le játszani Én meg? (kötőszó)

Köszönöm a figyelmet!

Hivatkozások Endrédy István (2016): Nyelvtechnológiai algoritmusok korpuszok automatikus építéséhez és pontosabb feldolgozásukhoz. PhD. disszertáció. Kalivoda Ágnes (2016): A magyar igei komplexumok vizsgálata. Mesterszakos szakdolgozat. Budapest, Pázmány Péter Katolikus Egyetem, Bölcsészet- és Társadalomtudományi Kar. Makrai Márton (2007): Többértelműségek magyar mondatok számítógépes elemzésében a meg szó szófajának vizsgálata gyakoriságokkal. Témalabor dolgozat. Oravecz Csaba Váradi Tamás Sass Bálint (2014): The Hungarian Gigaword Corpus. In: Proceedings of LREC 2014. Reykjavík. 1719 1723.