Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Hasonló dokumentumok
Igekötős szerkezetek a magyarban

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Doktori (Ph.D.) értekezés tézisei. A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával.

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *

28 millió szintaktikailag elemzett mondat és igei szerkezet

Ismeretlen kifejezések és a szófaji egyértelm sítés

A magyar létige problémái a számítógépes nyelvi elemzésben

Morfológiai újítások a Szeged Korpusz 2.5-ben

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

1.ábra: A Beszédmester nyitóképe

Egy általános célú morfológiai annotáció kiterjesztése

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Strukturált nyelvi adatbázis létrehozása gépi tanulási módszerekkel. Kutatási terv

YANG ZIJIAN GYŐZŐ 杨子剑

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

MSD-KR harmonizáció a Szeged Treebank 2.5-ben

Magyar nyelv webes szövegek számítógépes feldolgozása

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

szakmai önéletrajz Bánhalmi András Személyes információk: Végzettségek, képzések: Idegen nyelv: Oktatás:

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

HunLearner: a magyar nyelv nyelvtanulói korpusza

Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk

Bokor Judit PhD. Szerz, cím, megjelenés helye, Szerz, cím, megjelenés helye, Szerz, cím, megjelenés. helye, PUBLIKÁCIÓ. Könyv, idegen nyelv

JÓVÁHAGYÁS. szervezet. Név Dr. Szakonyi Lajos KPI Oktatási Minisztérium

Klasszikus héber nyelv 4.: Szintaxis

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

magyarlanc 2.0: szintaktikai elemzés és felgyorsított szófaji egyértelműsítés

Szakmai önéletrajz. Főbb tevékenységek elméleti nyelvészeti kutatások alkalmával asszisztensi feladatok ellátása

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Természetesnyelv-feldolgozás. Mesterséges intelligencia május 9.

Bevezetés az e-magyar programcsomag használatába

Angol Nyelvészeti Tanszék DELITE március 12. A Lexikai-Funkcionális Grammatikai Kutatócsoport: ParGram > HunGram > Treebank

A HUNGLISH PÁRHUZAMOS KORPUSZ

Publikációs lista. Gódor Győző július 14. Cikk szerkesztett könyvben Külföldön megjelent idegen nyelvű folyóiratcikk...

Nem mind VP, ami állít A névszói állítmány azonosítása számítógépes elemzőben

Január 7. hétfő. I. Beszédtechnológia, fonológia

Domének közti hasonlóságok és különbségek a szófajok és szintaktikai viszonyok eloszlásában

Magyar nyelvű néprajzi keresőrendszer

Publikációk. Könyvek, könyvfejezetek:

Nyelvi tudásra épülő fordítómemória

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

Önéletrajz. Személyi adatok. Szakmai tapasztalat. Időtartam szeptember. Főbb tevékenységek és feladatkörök

Ács Péter. Béres Csaba Zoltán Filó Csilla.: E-neighbourhood, azaz a hipertér lokális perspektívái in: Kultúra és Közösség 2003/1

Drótposta: ; ; Honlapom:

A japán tanszék profiljába sorolható szakmai közlemények

Baranyáné Dr. Ganzler Katalin Osztályvezető

Hughes, M.- Dancs, H.( 2007) (eds): Basics of Performance Analysis, Cardiff- Szombathely, Budapest

Anaforafeloldás menet közben

TUDOMÁNYOS ÖNÉLETRAJZ

Összetett kifejezések automatikus. azonosítása természetes nyelvű. szövegekben. Nagy T. István A DOKTORI ÉRTEKEZÉS TÉZISEI

Összetett kifejezések automatikus. azonosítása természetes nyelvű. szövegekben. Nagy T. István A DOKTORI ÉRTEKEZÉS TÉZISEI

SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer

Klasszikus héber nyelv 4.: Szintaxis

SZAKMAI ÖNÉLETRAJZ. Alapadatok: Név: E -mail: Telefonszám: Dr. Dévényi Márta devenyi@ktk.pte.hu /

A Mazsola KORPUSZLEKÉRDEZŐ

Publikációs jegyzék (Pánovics János)

ZIJIAN GYŐZŐ YANG 杨子剑 Language technology expert specialized in machine translation evaluation

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre

PureToken: egy új tokenizáló eszköz

Klasszikus héber nyelv 4.: Szintaxis

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

SZAKMAI ÖNÉLETRAJZ. NÉV: Dombi Edina. TEL.: 62/ MUNKAHELY, BEOSZTÁSOK:

Magyarország, 4031, Debrecen szeptemberétől jelenleg is Ph.D. tanulmányok folytatása

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Kongresszusi részvétel (előadás vagy poszter) Magyar nyelvű, hazai rendezvényeken

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására

A MAGYAR NEMZETI SZÖVEGTÁR EGYMILLIÁRD SZAVAS ÚJ VÁLTOZATA

PÁRHUZAMOS IGEI SZERKEZETEK

Analogikus általánosítási folyamatok a gyereknyelvben c. kutatási projekthez

A MAGYAR REKURZÍV BIRTOKOS SZERKEZET ELSAJÁTÍTÁSA A NEMZETKÖZI KUTATÁSOK TÜKRÉBEN

ÖNÉLETRAJZ ÉS A SZAKMAI TEVÉKENYSÉG BEMUTATÁSA IDŐRENDBEN

PurePos: hatékony morfológiai egyértelműsítő modul

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

Publikációs lista. Dr. Molnárka-Miletics Edit Széchenyi István Egyetem Matematika és Számítástudományi Tanszék

Roska Tamás Műszaki és Természettudományi Doktori Iskola a PPKE Információs Technológiai és Bionikai Karán

VÁLTOZTATÁSMENEDZSMENT A HAZAI GYAKORLATBAN

Klasszikus héber nyelv 4.: Szintaxis

DR. KOKOVAY ÁGNES. Személyes információk. Születési hely, idő: május 30. Várpalota. Képzettség

Publikációs lista Szabó Szilárd

Pécsi Tudományegyetem Közgazdaságtudományi Kar Regionális Politika és Gazdaságtan Doktori Iskola

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

a Szeged FC Treebankben

Abari Kálmán publikációs jegyzéke

Tempus konferencia műhelymunka

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

5. Automatikus korpuszépítés és a benne való keresés

MIT IS MONDOTT? HOGY IS HÍVJÁK? ELIGAZODÁS A KÁRTEVŐK VILÁGÁBAN

PUBLIKÁCIÓS LISTA MAGYAR NYELVEN, LEKTORÁLT FOLYÓIRATBAN MEGJELENT:

Osztatlan angol nyelv és kultúra tanára képzés tanterve (5+1) és (4+1) A képzési és kimeneti követelményeknek való megfelelés bemutatása

Korpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22.

és alkalmazások, MSc tézis, JATE TTK, Szeged, Témavezető: Dr. Hajnal Péter

Semmelweis Egyetem április Budapest, Üllői út 26. (Semmelweis University) 25 April Budapest, Üllői str. 26.

Klasszikus héber nyelv 4.: Szintaxis

Tevékenység szemléletű tervezés magyarországi felsőoktatási intézmények pályázataiban

MEDDŐHÁNYÓK ÉS ZAGYTÁROZÓK KIHORDÁSI

NT MAGYAR NYELV ÉS KOMMUNIKÁCIÓ 6. TANMENETJAVASLAT. (heti 2 óra, azaz évi 74 óra)

Anaforafeloldás menet közben névmások egy pszicholingvisztikailag motivált elemzőben

Átírás:

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Ligeti-Nagy Noémi Pázmány Doktori Konferencia Budapest, 2016. február 5.

Háttér Performancia-alapú elemzés néhány kulcsmotívuma: Balról jobbra Nem mondatot, hanem megnyilvánulást Többféle statisztika a gyakori szerkezetek prioritása elemzés közben Ami nincs, azzal nem foglalkozunk

Előbbiekből következik Meg kell nézni (többek között), miből van sok és miből nincs egy sem Első lépés: NP-kinyerés - főnévi csoportok és mondatvázak mintázatainak (reguláris) keresése a szövegkorpuszban Nulladik lépés: a korpusz alkalmassá tétele az NP-kinyerésre megfelelő kategóriarendszer kialakítása az új elvű elemzéshez

Az előadás menete Ismétlés: A meglévő morfológiai kódrendszer (a címkekészlet) módosítása Új anyag: NP-kivonatolás automatikusan, szabályalapúan főnévi csoportok és mondatvázak mintázatainak vizsgálata

Az előadás menete Ismétlés: A meglévő morfológiai kódrendszer (a címkekészlet) módosítása Új anyag: NP-kivonatolás automatikusan, szabályalapúan főnévi csoportok és mondatvázak mintázatainak vizsgálata

A korpusz: A címkekészlet InfoRádió 4.2 millió token txt, annotált Szeged Treebank 2.0 1.2 millió szó 6 különböző domain Szintaktikailag annotált, kézzel

A címkekészlet Cél: NP-ket kivágni, elsősorban a címkékre támaszkodva Jelenlegi címkék nem jók erre javaslat sok új kategória bevezetésére N Nom N Nom N Acc Angela Merkel beszédet Angela Merkel kancellárt

A címkekészlet Javaslatok (Ligeti-Nagy 2015a): Tulajdonnevek Napok, hónapok, dátumok Tisztségnevek, foglalkozások (és földrajzi jellegű nevek): miniszterelnök, bíró, labdarúgó, tartomány Liter, kiló, zsák mértékegységek új névutók : során, révén, követően, megelőzően Központozás jelölése: nem PUNCT, hanem COMMA, EXCL stb.

A címkekészlet Mindez a gyakorlatban: InfoRádió címkéinek cseréje Mit várunk ettől? N N N N PROP FIRST N PROP SUR N Angela Merkel beszédet N PROP FIRST N PROP SUR N OCCUP Angela Merkel kancellárt

Az előadás menete Ismétlés: A meglévő morfológiai kódrendszer (a címkekészlet) módosítása Új anyag: NP-kivonatolás automatikusan, szabályalapúan főnévi csoportok és mondatvázak mintázatainak vizsgálata

Az előadás menete Ismétlés: A meglévő morfológiai kódrendszer (a címkekészlet) módosítása Új anyag: NP-kivonatolás automatikusan, szabályalapúan főnévi csoportok és mondatvázak mintázatainak vizsgálata

NP-kivonatolás Az, hogy Det és esetrag (vagy névutó, vagy ige, vagy pont stb.) között főnévi csoport van, kevés. Definiáljunk olyan szabályokat, amikkel a lehető legpontosabban tudjuk az NP-ket (és így a mondatvázakat) előteremteni az InfoRádió-korpuszból amik az új címkékre támaszkodnak amik lehetőség szerint a balról-jobbra történő feldolgozás elvét követik

NP-kivonatolás Balról-jobbra haladás: szóköztől szóközig (egyszerre egy token) tudom, hogy mit olvastam eddig pl. már egy NP-ben vagyok, mert azt láttam, hogy DET Most ilyen címkéjű elemet látok az eddigiek függvényében most ezt fogom csinálni (pl. jött egy esetragos főnév, akkor azt hozzácsapom a névelőhöz, és együtt egy NP)

NP-kivonatolás Számszerűsítve (InfoRádió): 598 000 NP (1 410 000 szó) token 293 000 NP type Ebből pontosság: ~90% Problémás esetek: a Nemzeti Adó- és Vámhivatal (NAV) munkatársai a brüsszeli testület soron kívül

NP-kivonatolás Mire jó? NP-lista: hivatalos kérelemmel kedden az Európai Bizottsághoz Lettország a brüsszeli testület...

NP-kivonatolás Mire jó? kategóriaminták: 27653 [DET] [N][CAS] 27123 [N][CAS] 24915 [DET] [N][NOM] 22152 [DET] [N PROP][NOM] 18991 [N PROP][NOM] 17141 [ADJ][NOM] [N][CAS] 16397 [DET] [ADJ][NOM] [N][CAS]

NP-kivonatolás Mire jó? Mondatváz NP-vel fordult NP-n az NP-hez NP, hogy az NP készítsen NP-t NP-ről, hogy megfelel-e az NP az NP-nek, NP az NP-hez kellenek.

NP-kivonatolás Teendők még: Eredmény korrekt kiértékelése a) Szeged Korpusz újraannotálása b) algoritmus futtatása ezen c) eredmények kiértékelése, összehasonlítása Speciális esetek pontosabb kezelése (pl. konjunkció)

Az előadás menete Ismétlés: A meglévő morfológiai kódrendszer (a címkekészlet) módosítása Új anyag: NP-kivonatolás automatikusan, szabályalapúan főnévi csoportok és mondatvázak mintázatainak vizsgálata

A mondatvázak

(Szeged Treebank 2.0) A mondatvázak 6929 ige type 118449 ige token (még javításra szorul, ld.: A francia Michelin Cie gumiipari cég első félévi adózott#adózik eredménye )

A mondatvázak Mihez kezdjünk velük? Segítsünk az elemzőnek!

Ige-igekötő távolság: mennyire kell messzire tekintenie az igének?

1.: 7511 2.: 250 3.: 47 4.: 1 (?) 5.: 1 (?) Nem tartotta#tart#[v] - - már amennyire vissza#vissza#[ik] NP-t de már a(z)np-ban/ben is NP-val/vel ismerkedhettem#ismerkedik#[v] ( volna ) meg#meg#[ik] NP

1.: 7511 2.: 250 3.: 47 (?) Hozott#hoz#[V] NP-t is meg#meg#[ik] NP-t is

A mondatvázak További példák: - NP végét jelző elemek - Birtokos és birtok távolsága - Ige és vonzatai: elhelyezkedés, távolság

A továbbiak 1. NP-kivonatoló algoritmus korrekt kiértékelése 2. és javítása (= a 100 % közelítése) 3. Szeged Treebank újraannotálása, géppel (morfológia) 4. Szeged Treebank javítása, kézzel (szintaxis) 5. Már hibátlan mondatvázak generálása 6. Igék és vonzatok kérdéskör kidolgozása

Bibliográfia (néhány fontosabb tétel) Csendes, D. Csirik, J. Gyimóthy, T. Kocsor, A. 2005. The Szeged Treebank. In Matoušek, V. Mautner, P. Pavelka, T. (szerk.): Text, Speech and Dialogue. 8th International Conference, TSD 2005, Karlovy Vary, Czech Republik, September 12-15, 2005, Proceedings. Springer. 123 131. Endrédy, I. (2014). Corpus driven research: ideas and attempts. In: T. Roska, G. Prószéky, P. Szolgay (szerk.): PhD Proceedings Annual Issues of the Doctoral School. Faculty of Information Technology and Bionics, Pázmány Péter Catholic University, Budapest. Budapest, Hungary: Pázmány University epress, 2014, pp. 137 140. Ligeti-Nagy, N. (2015a). Szövegkorpuszok pontosabb annotációja gépi elemzéshez. In Benő, A., Fazekas, E., Zsemlyei, B. (szerk.), Többnyelvűség és kommunikáció Kelet-Közép- Európában. XXIV. Magyar Alkalmazott Nyelvészeti Kongresszus. Erdélyi Múzeum- Egyesület, Kolozsvár, 421 429. Ligeti-Nagy, N. (2015b). Noun Phrases And What They Leave Behind Rule-based NP-chunking in Hungarian Corpora. In: Ligeti-Nagy, N. (ed.) Computational Linguistic Methods In Aplied Linguistics. Jedlik Laboratories Reports, Vol.III/No.5. Budapest: Pázmány University epress, 35 58.