HunGram 2.0 és a HG-2 Treebank Nyelvtanfejlesztés, implementáció és korpuszépítés

Hasonló dokumentumok
Angol Nyelvészeti Tanszék DELITE március 12. A Lexikai-Funkcionális Grammatikai Kutatócsoport: ParGram > HunGram > Treebank

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Zárójelentés a K számú OTKA-projektről

Laczkó Tibor. Aspects of Hungarian Syntax from a Lexicalist Perspective (A magyar mondattan sajátságai lexikalista szemszögből)

a Szeged FC Treebankben

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

SZAKMAI ÖNÉLETRAJZ. megnevezés évszám kibocsátó intézmény Informatika - angol nyelv és irodalom 2009 Debreceni Egyetem

Dr. Laczkó Tibor egyetemi docens Angol Nyelvészeti Tanszék, Angol-Amerikai Intézet. SZAKMAI ÖNÉLETRAJZ (2014. október 31-ig)

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Klasszikus héber nyelv 4.: Szintaxis

1.1. Bevezetés (A) összetevős szerkezet (ö-szerkezet) funkcionális szerkezet (f-szerkezet)

Laczkó Tibor (Mondattan, alaktan)

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Különírás-egybeírás automatikusan

Január 7. hétfő. I. Beszédtechnológia, fonológia

magyar morfoszintaxis lexikalista generatív keretben MTA doktori értekezés legfontosabb (al)fejezeteinek a megírása

11/11/ Bevezetés. 2. Az LFG-s előzményekről Bevezetés Bevezetés

Novák Attila (2003): Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem,

Szintaxis. Tóth Ildikó, PhD. Bevezetés a nyelvtudományba. 5. előadás 2009 Pázmány Péter Katolikus Egyetem

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Igekötős szerkezetek a magyarban

Lexikon és nyelvtechnológia Földesi András /

SZAKMAI ÖNÉLETRAJZ Farkas Judit

Magyar nyelvű néprajzi keresőrendszer

Boros Andrea és Ignéczi Lilla Neumann-ház, Budapest. Networkshop 2004 konferencia Győr, április 4 7.

Klasszikus héber nyelv 4.: Szintaxis

A HUNGLISH PÁRHUZAMOS KORPUSZ

Intelligens elektronikus szótár és lexikai adatbázis

Korpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22.

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

A TOTÁLIS LEXIKALIZMUS ELMÉLETÉTŐL

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Klasszikus héber nyelv 4.: Szintaxis

Kutatási terv. Gazdik Anna június 22.

Tudás Reflektor. Copyright 2011; Kodácsy Tamás;

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

A magyar létige problémái a számítógépes nyelvi elemzésben

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Szabályalapú szintaktikai elemző szintaktikai szabályok nélkül

Ismeretlen kifejezések és a szófaji egyértelm sítés

Mezőgazdasági külső információs rendszerek fejlesztése

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Nyelvi tudásra épülő fordítómemória

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

A LEXIKAI-FUNKCIONÁLIS GRAMMATIKA MONDATTANÁNAK ALAPFOGALMAI

Modellező eszközök, kódgenerálás

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

Bevezetés az e-magyar programcsomag használatába

Nyelvészeti módszerek és irányzatok, bibliai és rabbinikus héber

PureToken: egy új tokenizáló eszköz

Az Ómagyar Korpusz bemutatása

Bevezetés a nyelvtudományba. 5. Szintaxis

Egészítsük ki a Drupal-t. Drupal modul fejlesztés

A kibővített Magyar történeti szövegtár új keresőfelülete

MŰSZAKI DOKUMENTÁCIÓ. Aleph WebOPAC elérhetővé tétele okostelefonon. Eötvös József Főiskola 6500 Baja, Szegedi út 2.

SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb.

A kétféle igemódosítóról

Morfológia. Nyelvészet az informatikában informatika a nyelvészetben október 2.

Klasszikus héber nyelv 4.: Szintaxis

Aspektus-orientált nyelvek XML reprezentációja. Kincses Róbert Debreceni Egyetem, Informatikai Intézet

Élő webes alkalmazások rendszerfelügyelete cím- és tartalomteszteléssel

Klasszikus héber nyelv 4.: Szintaxis

Ez a dokumentum az egyetemi tanári előléptetésemre benyújtott pályázatom rövidített anyaga. Laczkó Tibor

Klasszikus héber nyelv 4.: Szintaxis

Anaforafeloldás menet közben

Tibor Laczkó s list of publications ( )

Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat.

A szürke háttérrel jelölt fejezet/alfejezet szövege a CD-mellékleten található. A CD-melléklet használata. 1. Elméleti áttekintés 1

DR. VINCZE VERONIKA. SZEMÉLYES ADATOK Születési idő: július 1. Állampolgárság: magyar

MAGYAR NYELVÉSZETI TÁRGYAK ISMERTETÉSE BA NYELVTECHNOLÓGIAI SZAKIRÁNY

Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk

A hitelezési folyamatok hatékonyságának növelése - Autonomy alapú iratkezelés. Szűcs István HP Informatikai Kft. E-banking konferencia 2014 március 6.

Internetes keresés. Dr. Nyéki Lajos 2019

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

KOPI. Plágiumkeresés különböző nyelvek között MTA SZTAKI DSD. Pataki Máté. Department of Distributed Systems

Megújult az ARTISJUS Szerzői Információs Rendszere (SZIR) Online adatszolgáltatás szerzőknek bármikor, bárhonnan

Események detektálása természetes nyelvű szövegekben

Természetesnyelv-feldolgozás. Mesterséges intelligencia május 9.

Klasszikus héber nyelv 4.: Szintaxis

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

Önálló labor feladatkiírásaim tavasz

A Feldspar fordító, illetve Feldspar programok tesztelése

OSZTATLAN ANGOL NYELV ÉS KULTÚRA TANÁRA KÉPZÉS TANTERVE (5+1) ÉS (4+1)

Klasszikus héber nyelv 4.: Szintaxis

Számonkérési formák a BME-n a Deklaratív programozás című tárgyban

A kutató-fejlesztő munkára fordított idő arányában teljes munkaidejű dolgozókra átszámított létszám ráfordítás (full time equivalent, FTE).

A szemantikus világháló oktatása

References to Tibor Laczkó s publications ( )

A wiki módszer. Internetes tartalom kooperatívan, szabad szoftveres alapon. Gervai Péter

10. Morfológia és statisztikai grammatika Morfémák és variációszámok

(1) A magyar fonémaállomány rendszere. Oppozíciók és simító folyamatok

LiLe projekt: Adatbázis mint dinamikus korpusz

Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

Sémi összehasonlító nyelvészet

Osztatlan angol nyelv és kultúra tanára képzés tanterve (5+1) és (4+1) A képzési és kimeneti követelményeknek való megfelelés bemutatása

Egy általános célú morfológiai annotáció kiterjesztése

CabMap hálózat-dokumentáló rendszer

iphone és Android két jó barát...

Átírás:

HunGram 2.0 és a HG-2 Treebank Nyelvtanfejlesztés, implementáció és korpuszépítés Laczkó Tibor & Rákosi György Debreceni Egyetem, Angol Nyelvészeti Tanszék Korpuszok és nyelvtechnológiai eszközök a bölcsészet- és társadalomtudományokban Debrecen, 2019.02.07.

Az előadás felépítése A nyelvelméleti keretünkről ParGram HunGram HunGram-ParGram HunGram 2.0 HG-2 Treebank 2

A nyelvelméleti keretünkről (1) Lexikai-Funkcionális Grammatika (LFG) a 70-es évek második fele alternatív (nem chomskyánus = nem transzformációs) generatív nyelvtani modell Joan Bresnan Stanford University Ronald Kaplan Palo Alto Research Center (PARC) 3

A nyelvelméleti keretünkről (2) lexikon (gazdag) összetevős szerkezet (nyelvspecifikus) szórend fonológia funkcionális szerkezet (egyetemes) grammatikai funkciók szemantika reprezentációs modell szintaxis 4

összetevős szerkezet A nyelvelméleti keretünkről (3) Az ö-szerkezetbeli funkciós annotációk biztosítják két szerkezet közötti megfelelő leképezési viszonyokat: (2)a. A fiú látja a lányt. b. A fiú a lányt látja. c. Látja a fiú a lányt. d. Látja a lányt a fiú. e. A lányt látja a fiú. f. A lányt a fiú látja. ( X)= & = S (2b) = VP ( SUBJ)= ( TOP)= NP ( OBJ)= ( FOC)= NP a fiú a lányt = V látja PRED lát <SUBJ,OBJ> funkcionális szerkezet: függőségi viszonyok, vö. LMNY: szintaxis SUBJ TOP fiú CASE nom OBJ FOC lány CASE acc 5

ParGram (1) Parallel Grammar Párhuzamos Nyelvtan Egy LFG alapú, nagyszabású számítógépes nyelvtanfejlesztő projekt, központ: PARC (volt) az LFG-t eleve úgy tervezték meg, hogy implementálni lehessen (Ronald Kaplan) a közös számítógépes nyelvtanírási platform: XLE (Xerox Linguistic Environment Xerox Nyelvészeti Környezet a PARC és a XEROX cég együttműködéséből) 6

ParGram (2) Főbb célkitűzések az LFG generatív elméleti modelljének tesztelése: valóban alkalmas keret-e egy egyetemes (univerzális) nyelvtani megközelítés kidolgozására? elvszerűen és pszichológiailag plauzibilis módon megragadhatók-e vele az emberi nyelvek közötti rendszerszerű hasonlóságok és különbözőségek? (vö. funkcionális szerkezet vs. összetevős szerkezet) ipari hasznosíthatóság szabály alapú gépi fordítás (a funkcionális szerkezet kiemelt szerepe) intelligens webes keresőprogramok kidolgozása 7

ParGram (3) kiterjedt, aktív, rendszeres nemzetközi együttműködés, számos nyelv beható vizsgálata: angol, német, francia, ír, japán, kínai, norvég, török, vietnámi, arab, spanyol, urdu, indonéz, magyar stb. évente egy vagy két műhelytalálkozó 2011: Debrecen & PARC 2012: Bali 2013: Debrecen (ParGram Műhelytalálkozó & LFG 13 Nemzetközi Konferencia) 2014: Varsó 2015: Konstanz eltökélt törekvés az elemzési eszközök (kategóriák, szabályok stb.) minél egységesebb kialakítására, alkalmazására 8

HunGram (1) 2005/2006, Laczkó Tibor Fulbright ösztöndíj: Stanford Egyetem & PARC a HunGram alapvetése 2008: Lexikai-Funkcionális Grammatikai Kutatócsoport 9

HunGram (2) 2008: Lexikai-Funkcionális Grammatikai Kutatócsoport (Debreceni Egyetem, Angol Nyelvészeti Tanszék) Laczkó Tibor elméleti kutatás, nyelvtanírás, implementálás Rákosi György elméleti kutatás, nyelvtanírás, implementálás Tóth Ágoston implementálás, programozás Csernyi Gábor implementálás, programozás + Szűcs Péter elméleti kutatás, nyelvtanírás, implementálás http://hungram.unideb.hu 10

HunGram (3) Tóth Ágoston Laczkó Tibor Rákosi György Csernyi Gábor Szűcs Péter 11

HunGram (4) OTKA pályázat, 2008-2013 a magyar nyelv lexikai-funkcionális grammatikája a grammatika implementálása az XLE platformján ParGram-es könyezetben: HunGram 1.0 TÁMOP (kutatóegyetemi) pályázat, 2010-2012 HunGram 2.0 kifejlesztése HG-2 Treebank létrehozása (a HunGram 2.0 révén) 12

HunGram (5) TOKENIZÁLÓ MORFOLÓGIAI LEXIKON SZINTAXIS ELEMZŐ tokenizálás morfológiai elemzés lexikai kikeresés szerkezeti elemzés 13

HunGram (6) a tokenizáló az adott szófűzért tokenekre bontja bemenet a morfológiai komponens, egy véges állapotú átalakító (finite state transducer (FST)) számára az FST tageket rendel minden morfhoz (1) játékot: játék "+Noun" "+Sg" "+Acc" (2) ették: eszik "+Verb" "+Past" "+Def" "+Pl" "+3P" a tageknek (funkcionális annotációval is ellátott) önálló lexikai tételeik vannak (3) +Acc N_SFX XLE (^ CASE)= acc. (4) +Pl N_SFX XLE (^ NUM)= pl; V_SFX XLE (^ SUBJ NUM)= pl 14

HunGram (7) hungram1.lfg FIRST HUNGARIAN CONFIG (1.0) ROOTCAT ROOT. FILES common.templates.lfg hun_lex_core.lfg hun_lex_p.lfg hun_templates.lfg hun_morphconfig.lfg hun_rules.lfg common.features.lfg hungarian.features.lfg. LEXENTRIES (CORE HUNGARIAN) (PARTICLES_AND_POSTPOSITIONS HUNGARIAN). CHARACTERENCODING utf-8. MORPHOLOGY (STANDARD HUNGARIAN). RULES (FIRST HUNGARIAN). FEATURES (STANDARD COMMON) (FIRST HUNGARIAN). TEMPLATES (STANDARD COMMON) (FIRST HUNGARIAN). GOVERNABLERELATIONS SUBJ OBJ POSS OBL OBL-?+ COMP XCOMP PREDLINK. hun_rules.lfg FIRST HUNGARIAN RULES (1.0) "**************************** NOUN PHRASE RULES ****************************" a) Jánosnak a könyvét b) ezt a köyvet 15

HunGram (8) hun_lex_core.lfg CORE HUNGARIAN LEXICON (1.0) "***************************************VERBS ***************************************" hun_templates.lfg FIRST HUNGARIAN TEMPLATES (1.0) ADJUNCT =! $ (^ ADJUNCT). "assigns the ADJUNCT GF to non-dps (as member of set)" @ADJUNCT "************************************** TAGS **************************************" 16

HunGram (9) hun_morphconfig.lfg STANDARD HUNGARIAN MORPHOLOGY (1.0) TOKENIZE: P!initdown.fst prts.fst basic-parse-tok.fst #G!default-gen-tok.fst ANALYZE: hun-lexicon.fst rm.fst hungarian.features.lfg FIRST HUNGARIAN FEATURES (1.0) PRT-FORM: -> $ { agyon át be bele benn benne bent el érte észre fel föl hozzá ide keresztül ki le meg neki rá rajta oda össze szét vissza volna utána}. +CASE: -> $ { inessive elative superessive essive-formal terminative ablative allative adessive illative delative sublative translative causal-final }. 17

HunGram (10) szublexikális (= szószint alatti) szerkezet, funkcionális információ SZÓ TAG-SPECIFIKÁCIÓ a. hív-ott hív +Verb +Past +Indef +Sg 3P b. lány-t lány +Noun +Sg +Acc 18

HunGram (11) 19

HunGram (12) Az okos fiú felhívott két szép lányt. 20

HunGram-ParGram (1) Links to ParGram Groups Here are some links to the Wikis or sites of individual grammar groups. It might be useful to check out languages that are similar to the one you wish to work on (or are working on). If you would like to obtain a particular ParGram grammar, you should contact the groups directly. For example, the Polish grammar is available under the GNU General Public License (version 3). HunGram Hungarian Grammar: http://hungram.unideb.hu POLFIE Polish LFG/XLE grammar: http://zil.ipipan.waw.pl/lfg Urdu ParGram Grammar: http://ling.uni-konstanz.de/pages/home/pargram_urdu Norwegian ParGram Grammar: http://clarino.uib.no/redmine/projects/inesspublic/wiki/norgram_documentation Sulger, Sebastian, Miriam Butt, Tracy Holloway King, Paul Meurer, Tibor Laczkó, György Rákosi, Cheikh Bamba Dione, Helge Dyvik, Victoria Rosén, Koenraad De Smedt, Agnieszka Patejuk, Ozlem Cetinoglu, I Wayan Arka and Meladel Mistica. 2013.ParGramBank: The ParGram Parallel Treebank. In: Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, Sofia, Bulgaria, August 4-9, 2013, 550 560. (14 társszerző) 21

HunGram-ParGram (2) Parallel treebankek 22

HunGram-ParGram (3) 23

HunGram 2.0 (1) cél: a treebank kielégítése automatikus elemzés minél kevesebb többértelműség DE: nyelvészeti szempontból teljes és megbízható elemzés, nem sekély(es) nyelvtan inkább: pontosság, kevésbé: lefedettség menetközben volt (több körös) (véletlenszerű) tesztelés, módosítás, javítás kiérlelt nyelvtanváltozat csak ö-szerkezet, nincs f-szerkezet 24

HunGram 2.0 (2) leegyszerűsített (jóval laposabb) frázisstruktúrák kevésbé hierarchikus főnévi csoport lapos mondatszerkezet (pl. nincs kitüntetett topik és fókusz pozíció) (a) S HG1.0 (b) S HG2.0 (topik) XP* VP XP* V XP* (fókusz) XP V V XP* 25

HunGram 2.0 (3) kizártuk a pusztán nyelvészeti szempontból érdekes kétértelműségeket: a dzsungel könyve 26

27 Treebank 27

28 Treebank: Jellemzők HunGram 2.0 nyelvtanra épülő (első) treebank tagsetek (XLE) o morfológia: XEROX - Basis Technology o mondattan: HunGram 2.0 forrás: Magyar Webkorpusz 1.5 millió szó o 1 elemzés: 152778 (752159 szó) o 2 elemzés: 131008 (771716 szó) 28

29 Treebank: Implementációs feladatok Mondatok elemeztetése a HunGram nyelvtannal feltöltött XLE elemzővel, és a kimenet rögzítése (alternatív elemzésekkel). Az összes lehetséges elemzés összetevős szerkezetének kibontása és tárolása. A korpuszt ettől a ponttól XML dokumentumban tároljuk (TigerXML formátumban). Alkorpuszok kezelése: o korpuszfájlok darabolása és egyesítése, o statisztikák készítése (faszélesség, famélység, szavak és mondatok száma, elemzések száma) MySQL back-end adatbázis On-line lekérdezési felület, ahol szavakra vagy lemmákra kereshetünk, ehhez szűréseket állíthatunk be. 29

30 Treebank: Online lekérdező felület keresés szóra vagy lemmára keresés szűrése morfológiai jegyekre és a keresett szót tartalmazó összetevőre (szűrés beállítása űrlap segítségével) a találatok megjelenítése a találati listából kiválasztott mondatelemzés ágrajzának megjelenítése. 30

31 Treebank: Online lekérdező felület keresési eredmények számának megjelenítése találati eredmények oszlopai találatok rendezési elve kiemelési szempontok 31

32 Treebank: Online lekérdező felület talált elemzések megjelenítése a phpsyntaxtree (v1.10) segítségével. 32

33 Treebank: Kétértelműségek A magyar nyelvtan megadja a választ. 33

34 Treebank: Kétértelműségek Ehhez nem kell nyelvtan. 34

35 Treebank: Kétértelműségek Vajon ez milyen kapcsolatban áll az eleven nyelv grammatikájával? 35

36 Treebank: Kétértelműségek A nyuszi egy tüskebokor körül fut a kutya elől. 36

37 Treebank: Kétértelműségek Csak a rajzon nem fut tovább a fény. 37

38 Treebank: A projekt tagjai Laczkó Tibor A HunGram Kutatócsoport vezetője nyelvtanírás, nyelvészeti háttérkutatások Rákosi György nyelvtanírás, nyelvészeti háttérkutatások Tóth Ágoston korpuszmondatok elemzése (XLE elemző, NIIF szuperszámítógépes szolgáltatás felhasználásával) a korpuszt tartalmazó Tiger-XML-alapú leírónyelv elemeinek kidolgozása Csernyi Gábor adatbázistervezés és implementálás a webes interfészhez XLE kimenet átalakításának programozási munkái webes interfész programozása 38

39 Közvetlen tervek: Egy névmási korpusz o A jelenleg futó OTKA-projektünkben végzett kutatások részeként a HunGram 2.0 fejlesztése a névmásokra és a névmásokat tartalmazó szerkezetekre fókuszálva. o Ezzel a bővített nyelvtanváltozattal egy újabb, névmási elemeket tartalmazó mondatokra specializált korpusz létrehozása. o A nyelvtanszfejlesztési munkákba Szűcs Péter is bekapcsolódott. 39

40 Köszönetnyilvánítás, referencia A 111918 számú projekt (Új megközelítések a magyar névmások nyelvtanának leírásában) a Nemzeti Kutatási Fejlesztési és Innovációs Alapból biztosított támogatással, az K pályázati program finanszírozásában valósult meg. Laczkó Tibor, Rákosi György, Tóth Ágoston & Csernyi Gábor. 2013. Nyelvtanfejlesztés, implementálás és korpuszépítés: A HunGram 2.0 és a HG-1 Treebank legfontosabb jellemzői. In Tanács Attila & Vincze Veronika szerk. IX. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: Szegedi Tudományegyetem Informatikai Tanszékcsoport. 85-96. 40