Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Hasonló dokumentumok
Egy általános célú morfológiai annotáció kiterjesztése

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

A magyar létige problémái a számítógépes nyelvi elemzésben

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Különírás-egybeírás automatikusan

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

formalizmusa Egy morfológiai elemző kimeneti formalizmusának három, egymásnak gyakran

Doktori (Ph.D.) értekezés tézisei. A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával.

a Szeged FC Treebankben

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Javában taggelünk.

magyarlanc 2.0: szintaktikai elemzés és felgyorsított szófaji egyértelműsítés

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Magyar nyelvű néprajzi keresőrendszer

Ismeretlen kifejezések és a szófaji egyértelm sítés

Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában

Korpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22.

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Érettségi eredmények 2005-től (Békéscsabai Andrássy Gyula Gimnázium és Kollégium)

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Mély neuronhálók alkalmazása és optimalizálása

Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

A Hunglish Korpusz és szótár

Morfológiai újítások a Szeged Korpusz 2.5-ben

Grammatikalizálódott kopula és prenominális módosítok a magyarban

PurePos: hatékony morfológiai egyértelműsítő modul

Bevezetés az e-magyar programcsomag használatába

Nem mind VP, ami állít A névszói állítmány azonosítása számítógépes elemzőben

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

A MAGYAR REKURZÍV BIRTOKOS SZERKEZET ELSAJÁTÍTÁSA A NEMZETKÖZI KUTATÁSOK TÜKRÉBEN

Igekötős szerkezetek a magyarban

SZAKMAI ÖNÉLETRAJZ Farkas Judit

Hunpars: mondattani elemző alkalmazás

Analogikus általánosítási folyamatok a gyereknyelvben c. kutatási projekthez

Hócza András. Doktori értekezés. Témavezet : Gyimóthy Tibor, PhD

MSD-KR harmonizáció a Szeged Treebank 2.5-ben

Beszédfelismerés, beszédmegértés

Angol Nyelvészeti Tanszék DELITE március 12. A Lexikai-Funkcionális Grammatikai Kutatócsoport: ParGram > HunGram > Treebank

Anaforafeloldás menet közben

Tartalomelemzés. Magyar nyelvű előfeldolgozási feladat szövegelemzéshez. Készítették: Halányi Ferenc Paróczi Zsombor Porohnavec József

A HUNGLISH PÁRHUZAMOS KORPUSZ

Dr. Laczkó Tibor egyetemi docens Angol Nyelvészeti Tanszék, Angol-Amerikai Intézet. SZAKMAI ÖNÉLETRAJZ (2014. október 31-ig)

HunGram 2.0 és a HG-2 Treebank Nyelvtanfejlesztés, implementáció és korpuszépítés

Lexikon és nyelvtechnológia Földesi András /

"A tízezer mérföldes utazás is egyetlen lépéssel kezdődik."

5. Automatikus korpuszépítés és a benne való keresés

Nyelvi tudásra épülő fordítómemória

TrendMiner (Politikai témájú SM üzenetek (szociál)pszichológiai vizsgálata)

7. előadás Környezetfüggetlen nyelvtanok

Feladatok. 6. A CYK algoritmus segítségével döntsük el, hogy aabbcc eleme-e a G = {a, b, c}, {S, A, B, C}, P, S nyelvtan által generált nyelvnek!

Bevezetés a nyelvtechnológiába 9. Gépi fordítás. Prószéky Gábor A nyelvtechnológia alapjai november 30.

PureToken: egy új tokenizáló eszköz

A Formális nyelvek vizsga teljesítése. a) Normál A vizsgán 60 pont szerezhet, amely két 30 pontos részb l áll össze az alábbi módon:

Zárójelentés a K számú OTKA-projektről

KÜLÖNÖS KÖZZÉTÉTELI LISTA DEBRECENI TAGINTÉZMÉNY 1. Pedagógusok:

A magyar mutató névmási módosító és a birtokos szerkezet történeti vizsgálata

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására

Az e-magyar digitális nyelvfeldolgozó rendszer

TÁJÉKOZTATÓ A SZÓBELI FELVÉTELIRŐL

Főnévi csoportok azonosítása magyar-angol párhuzamos korpuszban

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

AZ ESÉLY AZ ÖNÁLLÓ ÉLETKEZDÉSRE CÍMŰ, TÁMOP / AZONOSÍTÓSZÁMÚ PÁLYÁZAT. Szakmai Nap II február 5.

Pontfelhő létrehozás és használat Regard3D és CloudCompare nyílt forráskódú szoftverekkel. dr. Siki Zoltán

KONYHABÚTOR FELSŐK ELEMJEGYZÉKE

YANG ZIJIAN GYŐZŐ 杨子剑

Tantárgyi követelmények. Német nyelv. 9. oszt.

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

2700 Cegléd, Rákóczi út 46. tel: (53) , (53) fax:(53)

Digitális terminológus

Angol Nyelv Kezdőknek Tájékoztató

Angol Fejlesztési terv

AZ OFI KÍNÁLATA NÉMET NYELVBŐL

A szemantikus elemzés elmélete. Szemantikus elemzés (attribútum fordítási grammatikák) A szemantikus elemzés elmélete. A szemantikus elemzés elmélete

Szabályalapú szintaktikai elemző szintaktikai szabályok nélkül

Teljes visszalépéses elemzés

Korpuszlekérdezők evolúciója

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

Számítógépes alkalmazásai

SPECIALISTA A MUNKABALESETEK ÉS FOGLALKOZÁSI MEGBETEGEDÉSEK KIVIZSGÁLÁSA TERÜLETÉN

Fordító Optimalizálás

Ionogram releváns területeinek meghatározása és elemzésének automatikus megvalósítása

Domének közti hasonlóságok és különbségek a szófajok és szintaktikai viszonyok eloszlásában

Helyi tanterv 1. idegen nyelv NÉMET ( ostály) Heti óraszámok:

A tananyagfejlesztés céljai és a digitális tananyag szerkezete Angol nyelv

A főnévi csoport történetéből: újraelemzés a bal periférián Egedi Barbara MTA Nyelvtudományi Intézet

Fordító részei. Fordító részei. Kód visszafejtés. Izsó Tamás szeptember 29. Izsó Tamás Fordító részei / 1

A Formális nyelvek vizsga teljesítése. a) Normál A vizsgán 60 pont szerezhet, amely két 30 pontos részb l áll össze az alábbi módon:

DSD. Szkennelt szövegek digitalizálása során keletkező hibák elemzése magyar szövegek esetében. Pataki Máté Tóth Zoltán MTA SZTAKI DSD

Január 7. hétfő. I. Beszédtechnológia, fonológia

Bevezetés a nyelvtechnológiába 9. Gépi fordítás. Prószéky Gábor A nyelvtechnológia alapjai november 25.

MINIMÁLIS KÖVETELMÉNYEK NÉMET NYELVBŐL

Szintaxis. Tóth Ildikó, PhD. Bevezetés a nyelvtudományba. 5. előadás 2009 Pázmány Péter Katolikus Egyetem

Helyesírás.hu Nyelvtechnológiai megoldások automatikus helyesírási tanácsadó rendszerben

Átírás:

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel MTA SZTAKI Nyelvtechnológiai Kutatócsoport recski@sztaki.hu TLP20 2010. november 25.

Tartalom Előzmények A feladat A hunchunk rendszer A magyar NP-nyelvtan A parser építése Szabályok és a KR-kód Chunkolás A nyelvtan bővítése és javítása Hibrid megoldás

A feladat NP-chunking: diszjunkt NP-szósorozatok azonosítása jellemzően a nem-rekurzív NP-ket keresi gépi tanuló algoritmusok kedvelt terepe angol nyelvre 94 96% közötti pontosság

A hunchunk rendszer Maximum Entrópiás tanulást és Rejtett Markov Modellt (HMM) használ minimális és maximális NP-ket is keres nem-rekurzív magyar NP-ken 94.75%-os F-pontszám

A magyar NP-nyelvtan környezetfüggetlen nyelvtan (CFG) 38 újraírószabály Hivatkozik morfológiai jegyekre projekciós szintekre

A nyelvtan és a KR-kód NLTK parser KR-kód nyílt forráskódú, Python nyelven írt számos parser algoritmust implementál támogatja a jegyekre hivatkozó újraírószabályokat KR: morfológiai annotációs formalizmus a KR-kódok a nyelvtan terminális szimbólumai a KR-beli jegyek és a nyelvtan által használt jegyek között egyértelmű megfeletetés van

Példa óráján NLTK KR NOUN[POSS=1, CAS=[SUE=1]] NOUN<POSS><CAS<SUE>>

Névmások elkülönítése a névmásokat a KR-kód nem különbözteti meg a főnevektől nekünk szükségünk lesz rá: ez mindenki valami aki ki NOUN<PRON<DEM>> NOUN<PRON<GEN>> NOUN<PRON<INDEF>> NOUN<PRON<REL>> NOUN<PRON<WH>>

Egyéb kiegészítések Alapértelmezett jegyek megjelenítése NOUN NOUN[PERS=0, PRON=0, CAS=0, PLUR=0, POSS=0] Képzési adatok kódolása harmadikkal NUM[ORD]/NUM<CAS<INS>> NUM[CAS=[INS=1], SRC=[STEM=NUM, DERIV=ORD]]

A nyelvtan bővítése A nyelvtan használatához szükség lesz AdjP-nyelvtanra ADJ -> ADJ ADJ ADJ -> ADV ADJ NumP-nyelvtanra NUM -> NUM NUM NUM -> ADV NUM NUM -> ADJ NUM

A nyelvtan javítása (1) Amiért szükség volt a névmásokra: (1) minden pofon (2) néhány villanykörte (1) NOUN -> NOUN[PRON=GEN] NOUN (2) NOUN -> NOUN[PRON=INDEF] NOUN

A nyelvtan javítása (2) A mutató névmás egyezése: ez a pincér ezek a hajók attól a pasastól A szükséges szabály: NOUN[POSS=?a, PLUR=?b, CAS=?c, D=?d] -> -> NOUN[PRON=DEM, BAR=0, POSS=?a, PLUR=?b, CAS=?c] ART NOUN[PRON=0, BAR=2, POSS=?a, PLUR=?b, CAS=?c, D=0]

A nyelvtan javítása (3) Az AdjP-nyelvtan egy hiányossága: (1) a korsónak támasztott könyvet olvasta (2) az ókori mór hódítóktól származó esküvést hallották A szükséges szabály: (1) ADJ -> NOUN ADJ[SRC=[STEM=VERB[], DERIV= PERF PART ]] (2) ADJ -> NOUN ADJ[SRC=[STEM=VERB[], DERIV= IMPERF PART ]]

A pontosság javulása A parsert lépésenként kiértékeltük a Szeged Treebank alapján készült NP-korpuszon Fejlesztés F-pontszám Kornai 1985 81.76% AdjP, NumP 84.18% Névmások 85.45% Ez a szerkezet 86.68% Deverbális melléknevek 87.87% Írásjelek és kötőszavak 89.36% Ez az eredmény még elmarad a hunchunk 94.75%-os teljesítményétől

Hibrid megoldás A hunchunk rendszer tanításakor felhasználjuk a szabályalapú elemző kimenetét. A parser kimenetét megfeleltetjük a hunchunk által használt chunk-címkéknek (B-NP, I-NP, E-NP, 1-NP, O) Pontosság Fedés F-pontszám hunchunk 94.61% 94.88% 94.75% hunchunk+parser jegyek 95.29% 95.68% 95.48%

Köszönöm a figyelmet! Kornai A. The internal structure of Noun Phrases. Approaches to Hungarian, 1:79 92, 1985. S. Bird, E. Klein, and E. Loper. Natural language processing with Python. O Reilly Media, 2009. Recski G., Varga D., Zséder A., and Kornai A. Fonévi csoportok azonosítása magyar-angol párhuzamos korpuszban. VI. Magyar Számitógépes Nyelvészeti Konferencia, 2009. Rebrus P., Kornai A., and Varga D. Egy általános célú morfológiai annotáció. Általános Nyelvészeti Tanulmányok, 2010.