Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Ligeti-Nagy Noémi Pázmány Doktori Konferencia Budapest, 2016. február 5.
Háttér Performancia-alapú elemzés néhány kulcsmotívuma: Balról jobbra Nem mondatot, hanem megnyilvánulást Többféle statisztika a gyakori szerkezetek prioritása elemzés közben Ami nincs, azzal nem foglalkozunk
Előbbiekből következik Meg kell nézni (többek között), miből van sok és miből nincs egy sem Első lépés: NP-kinyerés - főnévi csoportok és mondatvázak mintázatainak (reguláris) keresése a szövegkorpuszban Nulladik lépés: a korpusz alkalmassá tétele az NP-kinyerésre megfelelő kategóriarendszer kialakítása az új elvű elemzéshez
Az előadás menete Ismétlés: A meglévő morfológiai kódrendszer (a címkekészlet) módosítása Új anyag: NP-kivonatolás automatikusan, szabályalapúan főnévi csoportok és mondatvázak mintázatainak vizsgálata
Az előadás menete Ismétlés: A meglévő morfológiai kódrendszer (a címkekészlet) módosítása Új anyag: NP-kivonatolás automatikusan, szabályalapúan főnévi csoportok és mondatvázak mintázatainak vizsgálata
A korpusz: A címkekészlet InfoRádió 4.2 millió token txt, annotált Szeged Treebank 2.0 1.2 millió szó 6 különböző domain Szintaktikailag annotált, kézzel
A címkekészlet Cél: NP-ket kivágni, elsősorban a címkékre támaszkodva Jelenlegi címkék nem jók erre javaslat sok új kategória bevezetésére N Nom N Nom N Acc Angela Merkel beszédet Angela Merkel kancellárt
A címkekészlet Javaslatok (Ligeti-Nagy 2015a): Tulajdonnevek Napok, hónapok, dátumok Tisztségnevek, foglalkozások (és földrajzi jellegű nevek): miniszterelnök, bíró, labdarúgó, tartomány Liter, kiló, zsák mértékegységek új névutók : során, révén, követően, megelőzően Központozás jelölése: nem PUNCT, hanem COMMA, EXCL stb.
A címkekészlet Mindez a gyakorlatban: InfoRádió címkéinek cseréje Mit várunk ettől? N N N N PROP FIRST N PROP SUR N Angela Merkel beszédet N PROP FIRST N PROP SUR N OCCUP Angela Merkel kancellárt
Az előadás menete Ismétlés: A meglévő morfológiai kódrendszer (a címkekészlet) módosítása Új anyag: NP-kivonatolás automatikusan, szabályalapúan főnévi csoportok és mondatvázak mintázatainak vizsgálata
Az előadás menete Ismétlés: A meglévő morfológiai kódrendszer (a címkekészlet) módosítása Új anyag: NP-kivonatolás automatikusan, szabályalapúan főnévi csoportok és mondatvázak mintázatainak vizsgálata
NP-kivonatolás Az, hogy Det és esetrag (vagy névutó, vagy ige, vagy pont stb.) között főnévi csoport van, kevés. Definiáljunk olyan szabályokat, amikkel a lehető legpontosabban tudjuk az NP-ket (és így a mondatvázakat) előteremteni az InfoRádió-korpuszból amik az új címkékre támaszkodnak amik lehetőség szerint a balról-jobbra történő feldolgozás elvét követik
NP-kivonatolás Balról-jobbra haladás: szóköztől szóközig (egyszerre egy token) tudom, hogy mit olvastam eddig pl. már egy NP-ben vagyok, mert azt láttam, hogy DET Most ilyen címkéjű elemet látok az eddigiek függvényében most ezt fogom csinálni (pl. jött egy esetragos főnév, akkor azt hozzácsapom a névelőhöz, és együtt egy NP)
NP-kivonatolás Számszerűsítve (InfoRádió): 598 000 NP (1 410 000 szó) token 293 000 NP type Ebből pontosság: ~90% Problémás esetek: a Nemzeti Adó- és Vámhivatal (NAV) munkatársai a brüsszeli testület soron kívül
NP-kivonatolás Mire jó? NP-lista: hivatalos kérelemmel kedden az Európai Bizottsághoz Lettország a brüsszeli testület...
NP-kivonatolás Mire jó? kategóriaminták: 27653 [DET] [N][CAS] 27123 [N][CAS] 24915 [DET] [N][NOM] 22152 [DET] [N PROP][NOM] 18991 [N PROP][NOM] 17141 [ADJ][NOM] [N][CAS] 16397 [DET] [ADJ][NOM] [N][CAS]
NP-kivonatolás Mire jó? Mondatváz NP-vel fordult NP-n az NP-hez NP, hogy az NP készítsen NP-t NP-ről, hogy megfelel-e az NP az NP-nek, NP az NP-hez kellenek.
NP-kivonatolás Teendők még: Eredmény korrekt kiértékelése a) Szeged Korpusz újraannotálása b) algoritmus futtatása ezen c) eredmények kiértékelése, összehasonlítása Speciális esetek pontosabb kezelése (pl. konjunkció)
Az előadás menete Ismétlés: A meglévő morfológiai kódrendszer (a címkekészlet) módosítása Új anyag: NP-kivonatolás automatikusan, szabályalapúan főnévi csoportok és mondatvázak mintázatainak vizsgálata
A mondatvázak
(Szeged Treebank 2.0) A mondatvázak 6929 ige type 118449 ige token (még javításra szorul, ld.: A francia Michelin Cie gumiipari cég első félévi adózott#adózik eredménye )
A mondatvázak Mihez kezdjünk velük? Segítsünk az elemzőnek!
Ige-igekötő távolság: mennyire kell messzire tekintenie az igének?
1.: 7511 2.: 250 3.: 47 4.: 1 (?) 5.: 1 (?) Nem tartotta#tart#[v] - - már amennyire vissza#vissza#[ik] NP-t de már a(z)np-ban/ben is NP-val/vel ismerkedhettem#ismerkedik#[v] ( volna ) meg#meg#[ik] NP
1.: 7511 2.: 250 3.: 47 (?) Hozott#hoz#[V] NP-t is meg#meg#[ik] NP-t is
A mondatvázak További példák: - NP végét jelző elemek - Birtokos és birtok távolsága - Ige és vonzatai: elhelyezkedés, távolság
A továbbiak 1. NP-kivonatoló algoritmus korrekt kiértékelése 2. és javítása (= a 100 % közelítése) 3. Szeged Treebank újraannotálása, géppel (morfológia) 4. Szeged Treebank javítása, kézzel (szintaxis) 5. Már hibátlan mondatvázak generálása 6. Igék és vonzatok kérdéskör kidolgozása
Bibliográfia (néhány fontosabb tétel) Csendes, D. Csirik, J. Gyimóthy, T. Kocsor, A. 2005. The Szeged Treebank. In Matoušek, V. Mautner, P. Pavelka, T. (szerk.): Text, Speech and Dialogue. 8th International Conference, TSD 2005, Karlovy Vary, Czech Republik, September 12-15, 2005, Proceedings. Springer. 123 131. Endrédy, I. (2014). Corpus driven research: ideas and attempts. In: T. Roska, G. Prószéky, P. Szolgay (szerk.): PhD Proceedings Annual Issues of the Doctoral School. Faculty of Information Technology and Bionics, Pázmány Péter Catholic University, Budapest. Budapest, Hungary: Pázmány University epress, 2014, pp. 137 140. Ligeti-Nagy, N. (2015a). Szövegkorpuszok pontosabb annotációja gépi elemzéshez. In Benő, A., Fazekas, E., Zsemlyei, B. (szerk.), Többnyelvűség és kommunikáció Kelet-Közép- Európában. XXIV. Magyar Alkalmazott Nyelvészeti Kongresszus. Erdélyi Múzeum- Egyesület, Kolozsvár, 421 429. Ligeti-Nagy, N. (2015b). Noun Phrases And What They Leave Behind Rule-based NP-chunking in Hungarian Corpora. In: Ligeti-Nagy, N. (ed.) Computational Linguistic Methods In Aplied Linguistics. Jedlik Laboratories Reports, Vol.III/No.5. Budapest: Pázmány University epress, 35 58.