Bevezetés az e-magyar programcsomag használatába

Hasonló dokumentumok
emtsv Egy formátum mind felett

Az e-magyar digitális nyelvfeldolgozó rendszer

Az e-magyar rendszer GATE környezetbe integrált magyar szövegfeldolgozó eszközlánca

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

A magyar létige problémái a számítógépes nyelvi elemzésben

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Korpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22.

A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Dokumentumformátumok Jelölő nyelvek XML XML. Sass Bálint Bevezetés a nyelvtechnológiába 2. gyakorlat szeptember 20.

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Az Ómagyar Korpusz bemutatása

Számítógépes nyelvészet

a Szeged FC Treebankben

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Egy szónak is száz a vége

Különírás-egybeírás automatikusan

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Nem mind VP, ami állít A névszói állítmány azonosítása számítógépes elemzőben

Egy szónak is száz a vége

Intelligens elektronikus szótár és lexikai adatbázis

Lexikon és nyelvtechnológia Földesi András /

A CLARIN ERIC és a HUNCLARIN bemutatása

Események detektálása természetes nyelvű szövegekben

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

Egy általános célú morfológiai annotáció kiterjesztése

Tartalomelemzés. Magyar nyelvű előfeldolgozási feladat szövegelemzéshez. Készítették: Halányi Ferenc Paróczi Zsombor Porohnavec József

A számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete

Hierarchikus mondatrész struktúrákat is tartalmazó magyar mondatok ontológiai elemzése

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre

Domének közti hasonlóságok és különbségek a szófajok és szintaktikai viszonyok eloszlásában

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

AWK programozás, minták, vezérlési szerkezetek

AWK programozás Bevezetés

Magyar nyelvű néprajzi keresőrendszer

Az URaLUID adatbázis bemutatása

A szupraszegmentális jellemzők szerepe és felhasználása a gépi beszédfelismerésben. Szaszák György

Ismeretlen kifejezések és a szófaji egyértelm sítés

TestLine - Nyelvtan és irodalom bemeneti mérés Minta feladatsor

Anaforafeloldás menet közben névmások egy pszicholingvisztikailag motivált elemzőben

formalizmusa Egy morfológiai elemző kimeneti formalizmusának három, egymásnak gyakran

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

A Hunglish Korpusz és szótár

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

Klasszikus héber nyelv 4.: Szintaxis

magyarlanc 2.0: szintaktikai elemzés és felgyorsított szófaji egyértelműsítés

Adatbányászati feladatgyűjtemény tehetséges hallgatók számára

2. Készítsen awk szkriptet, amely kiírja az aktuális könyvtár összes alkönyvtárának nevét, amely februári keltezésű (bármely év).

A kibővített Magyar történeti szövegtár új keresőfelülete

Tagolatlan mondat szavakra tagolása, helyes leírása Ellenőrzés

XML / CSV specifikáció

TrendMiner (Politikai témájú SM üzenetek (szociál)pszichológiai vizsgálata)

Intelligens orvosi műszerek VIMIA023

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Programozási tételek. Dr. Iványi Péter

Egy sok szálon futó nyelvelemző program moduljainak kialakítása és harmonizációja

Novák Attila (2003): Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem,

Megjegyzés: A programnak tartalmaznia kell legalább egy felhasználói alprogramot. Példa:

Intelligens közlekedési rendszerek (ITS)

Mondatkiegészítés adott. Az írásmódtól eltérô. Mondatalkotás. pótlása. Hosszú mássalhangzós. Másolás. Mondatvégi írásjelek

Az alábbi kód egy JSON objektumot definiál, amiből az adtokat JavaScript segítségével a weboldal tartalmába ágyazzuk.

A beadandó 4 db feladatból áll. Mindegyik feladatra külön jegyet kap, amelyek beszámítanak a félév végi jegybe.

Beszéd- és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért

Digitális elektronika gyakorlat. A VHDL leírástípusok

Nyelvi tudásra épülő fordítómemória

Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk

Negatív alapú számrendszerek

GRÁFELMÉLET. 7. előadás. Javító utak, javító utak keresése, Edmonds-algoritmus

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Fordító részei. Fordító részei. Kód visszafejtés. Izsó Tamás szeptember 29. Izsó Tamás Fordító részei / 1

Anaforafeloldás menet közben

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

PurePos: hatékony morfológiai egyértelműsítő modul

Operációs rendszerek gyakorlat

Klasszikus héber nyelv 4.: Szintaxis

Írásjelek helyes szedése. Szabó Csaba. Mondatvégi írásjelek. Központozás. Kötőjelfélék. Szabó Csaba november 18.

Teljes visszalépéses elemzés

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Kapcsolat vizsgálat II: kontingencia táblák jelentősége és használata az epidemiológiában, diagnosztikában: RR, OR. ROC analízis.

Természetesnyelv-feldolgozás. Mesterséges intelligencia május 9.

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

PureToken: egy új tokenizáló eszköz

Segédanyagok. Formális nyelvek a gyakorlatban. Szintaktikai helyesség. Fordítóprogramok. Formális nyelvek, 1. gyakorlat

Tanulók szóértésének felmérése a tankönyvekben előforduló szövegek alapján

Függvények II. Indítsuk el az Excel programot! A minta alapján vigyük be a Munka1 munkalapra a táblázat adatait! 1. ábra Minta az adatbevitelhez

Megoldások a mintavizsga kérdések a VIMIAC04 tárgy ellenőrzési technikák részéhez kapcsolódóan (2017. május)

A magyar nyelv oktatása(1) a csatlakozás(2) után

Óbudai Egyetem. Doktori (PhD) értekezés. Adatpárhuzamos sejtmagkeresési eljárás fejlesztése és paramétereinek optimalizálása Szénási Sándor

1. gyakorlat. Mesterséges Intelligencia 2.

Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések. 1. Mi a programozás?

Érettségi eredmények 2005-től (Békéscsabai Andrássy Gyula Gimnázium és Kollégium)

Számításelmélet. Második előadás

HORVÁTH ZSÓFIA 1. Beadandó feladat (HOZSAAI.ELTE) ápr 7. 8-as csoport

7. Régió alapú szegmentálás

Általános nyomtató meghajtó útmutató

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Átírás:

Bevezetés az e-magyar programcsomag használatába Vadász Noémi 2019. február 7. MTA Nyelvtudományi Intézet vadasz.noemi@nytud.mta.hu

Az előadás felépítése 1. szövegelemzés számítógéppel elemzési lépések elemzőláncok az e-magyar működése 2. az e-magyar használata 1/26

Szövegfeldolgozó lépések 1. szöveg felbontása kezelhető egységekre: mondatszegmentálás és tokenizálás 2. a szavak elemzése: morfológiai elemzés 3. az elemzések egyértelműsítése a mondatban 4. főnévi csoportok, tulajdonnevek meghatározása 5. függőségi és összetevős mondatelemzés A lépéseket láncba köthetjük, ahol az alsóbb szintű elemzési lépés kimenete a felsőbb szintű elemzés bemenetét képezi. Elemzőláncok magyarra: magyarlanc és e-magyar 2/26

Az e-magyar elemzőlánc felépítése 3/26

Tokenizálás Két feladat: 1. mondatszegmentálás rövidítések, római számok, sorszámok (pont van a végén) mondatok idézetben vagy zárójelben 2. tokenizálás detokenizálhatóság páros írásjelek (zárójel, idézőjel, aposztróf) kezelése kérdőpartikula kezelése Miért kell tokenizálni? a szintaktikai elemző mondatokon dolgozik a morfológiai elemző tokeneken dolgozik 4/26

emtoken szabályalapú a leggyakoribb rövidítéseket ismeri (kb. 450 rövidítés) a kimenetben xml-tagek jelölik a szó- és mondathatárokat A kutya váratlanul ugatni kezdett. Ettől úgy megijedt dr. Thorotzkay Alfréd, hogy hanyatt esett az aszfalton. Felesége, aki egyébként a BKV Zrt.-nél dolgozik, egyből rohant hozzá, amint ezt megtudta. <s>... </s> <w>... </w> <c>... </c> <ws>... </ws> mondat szó írásjel whitespace 5/26

emtoken <s><w>a</w><ws> </ws><w>kutya</w><ws></ws><w>váratlanul</w><ws> </ws><w>ugatni</w><ws></ws><w>kezdett</w><c>.</c></s><ws> </ws> <s><w>ettől</w><ws> </ws><w>úgy</w><ws> </ws><w>megijedt</w><ws> </ws><w>dr.</w><ws> </ws><w>thorotzkay</w><ws> </ws><w>alfréd</w><c>,</c><ws> </ws><w>hogy</w><ws> </ws><w>hanyatt</w><ws> </ws><w>esett</w><ws> </ws><w>az</w><ws> </ws><w>aszfalton</w><c>.</c></s><ws> </ws><s><w>felesége</w><c>,</c><ws> </ws><w>aki</w><ws> </ws><w>egyébként</w><ws> </ws><w>a</w><ws> </ws><w>bkv</w><ws></ws><w>zrt.-nél</w><ws> </ws><w>dolgozik</w><c>,</c><ws></ws><w>egyből</w><ws> </ws><w>rohant</w><ws> </ws><w>hozzá</w><c>,</c><ws> </ws><w>amint</w><ws> </ws><w>ezt</w><ws> </ws><w>megtudta</w><c>.</c></s> 6/26

emtoken A kutya váratlanul ugatni kezdett. Ettől úgy megijedt dr. Thorotzkay Alfréd, hogy hanyatt esett tsv fájl minden sor egy token mondatok között üres sor 7/26

Morfológiai elemzés és tövesítés a tokenhez hozzárendeljük az összes lehetséges elemzést különböző címkekészletek léteznek a címkékben lehetnek: morfoszintaktikai információk a jelentésre vonatkozó információk a hangalakra vonatkozó információk (allomorfia) szófajkód lemma morfológiai szegmentumok 8/26

emmorph és emlem tőtár, toldaléktár és nyelvtan szabályalapú morfológiai elemző (véges állapotú transzdúcer) szabályalapú tövesítés a tőalkotó morfémák figyelembevételével szemét 1. szem[/n]=szem+e[poss.3sg]=é+t[acc]=t 2. szem[/n]=szem+é[anp]=é+t[acc]=t 3. szemét[/n]=szemét+[nom]= 9/26

Két morfológiai címkekészlet emmorph nem tükrözi a morfológiai jelöltséget derivációt, szóösszetételt is kódol tartalmazza a lemmát, a morfológiai szegmentumokat, allomorfot adtad ad[/v]=ad+tad[pst.def.2sg]=tad UD (Universal Dependencies) külön szófajkód linearizált jegy érték struktúra nem tükrözi a morfológiai jelöltséget képzést, derivációt nem kódol, csak inflexiót nem tartalmazza a lemmát, a morfológiai szegmentumokat adtad ad VERB Definite=Def Mood=Ind Number=Sing Person=2 Tense=Past VerbForm=Fin Voice=Act 10/26

Morfológiai egyértelműsítés minden tokenhez megvan az összes lehetséges elemzése el kell dönteni, hogy az aktuális mondatban melyik elemzést válasszuk tehát az egyértelműsítő már mondatokat néz a lehetséges elemzések legvalószínűbb láncát keresi Péter Marira vár. Statisztikai alapú egyértelműsítés: Péter a vár előtt áll. sok, már elemzett és emberek által egyértelműsített mondatot megnézett a program ebből megtanulja, hogy mik a gyakori mintázatok a szövegben nem egyszerűen azt nézi, hogy a vár gyakrabban ige, mint főnév hanem azt, hogy egy névelőt sokkal gyakrabban követ főnév, mint ige és azt, hogy a -ra esetragsú főnév után valószínűbb az ige, mint a főnév 11/26

emtag A kastély nem vár. A kastély nem vár senkire. A a [/Det art.def] kastély kastély [/N][Nom] nem nem [/Adv] vár vár [/N][Nom].. [/PUNCT] A a [/Det art.def] kastély kastély [/N][Nom] nem nem [/Adv] vár vár [/V][Prs.NDef.3Sg] senkire senki [/N Pro][Subl].. [/PUNCT] 12/26

Függőségi mondatelemzés bemenete a mondat egyértelműsített tokenekkel kimenete a függőségi fa függőség: a szavak közötti reláció a fa minden csomópontja egy szó a csomópontok közötti él a gyerek (függő) csomóponttól mutat a szülő felé az élcímkék a függőségi viszony típusai Az e-magyarba épített függőségi mondatelemző statisztikai megközelítésű. 13/26

emdep Az exkatonát kórházba szállították, ahol két műtétet is végrehajtottak rajta. 1 Az 2 DET 2 exkatonát 4 OBJ 3 kórházba 4 OBL 4 szállították 0 ROOT 5, 4 PUNCT 6 ahol 10 LOCY 7 két 8 ATT 8 műtétet 10 OBJ 9 is 8 CONJ 10 végrehajtottak 4 ATT 11 rajta 10 OBL 12. 0 PUNCT 14/26

emdep Az okos tanuló gyorsan másolja le a bonyolult példamondatokat. 15/26

Összetevős mondatelemzés bemenete a mondat egyértelműsített tokenekkel kimenete az összetevős fa a mondatot frázisokra bontja a fa levelei a mondat szavai (terminálisok) a fa nem-levél csomópontjai a frázisok (nem-terminálisok) az élek címkézetlenek Az e-magyarba épített összetevős mondatelemző statisztikai megközelítésű. 16/26

emcons Az exkatonát kórházba szállították, ahol két műtétet is végrehajtottak rajta. 1 Az (ROOT(CP(NP* 2 exkatonát *) 3 kórházba (NP*) 4 szállították (V_(V0*)) 5, * 6 ahol (ADVP*) 7 két (NP* 8 műtétet *) 9 is (C0*) 10 végrehajtottak (V_(V0*)) 11 rajta (NP*) 12. *)) 17/26

emcons Az okos tanuló gyorsan másolja le a bonyolult példamondatokat. 18/26

A főnévi csoportok és a tulajdonnevek felismerése ún. szekvenciális címkézési feladatok főnévi csoport keresése: maximális NP (olyan főnévi csoport, amely nem része főnévi csoportnak) tulajdonnevek keresése és névkategóriákba sorolása (személynév, intézménynév, földrajzi név, egyéb) statisztikai gépi tanuláson alapul, a HunTag3 program végzi sok szöveget látott, amelyben be vannak jelölve az NP-k/tulajdonnevek és hogy milyen tulajdonságokra figyeljen a tanuláskor (nagybetűvel kezdődött, mondat elején van, szófaj) összefüggéseket talál a tulajdonságok és a címkék között, amelyből valószínűségi modellt épít 19/26

emchunk A szállásunk egy Balaton melletti kis üdülőfaluban, Zamárdiban volt. A B-NP szállásunk E-NP egy B-NP Balaton I-NP melletti I-NP kis I-NP üdülőfaluban I-NP, I-NP Zamárdiban E-NP volt O. O 20/26

emner [...] közölte Wolf László, az OTP Bank vezérigazgató-helyettese az MTI érdeklődésére. közölte 0 Wolf B-PER László E-PER, 0 az 0 OTP B-ORG Bank E-ORG vezérigazgató-helyettese 0 az 0 MTI 1-ORG érdeklődésére 0. 0 21/26

A nyelvi elemző korlátai gold standard: kézzel címkézett anyag, amihez hasonlítunk cél pozitív cél negatív eredmény pozitív True positive (TP) False positive (FP) eredmény negatív False negative (FN) True positive (TN) Egy példa: egy kép gépi feldolgozása egy gép eldönti 1 000 képről, hogy van-e rajta kismacska az 1 000 képet ember is kiértékeli (ez lesz a gold standard) összevetjük az ítéleteket összeszámoljuk a TP, TN, FN találatokat a számok segítségével értékeljük a gép teljesítményét 22/26

A nyelvi elemző korlátai pontosság (precision): TP/(TP+FP) A macskásnak ítélt képek közül hány tartalmaz az ember szerint is kismacskát? fedés (recall): TP/(TP+FN) Megtalálta-e a gép az összes macskás felvételt? F-mérték: a pontosság és a fedés harmonikus közepe 23/26

Az e-magyar háromféle használata 1. GATE nyelvfeldolgozó keretrendszer grafikus felület platformfüggetlen egységes annotációs modell más elemzőeszközök is beilleszthetők a láncba jól dokumentált soklépéses, viszonylag bonyolult telepítés 2. emtsv terminálból működtethető egységes adatformátum a modularitásért az elemzőlánc lépései között ki- és beléphetünk a kimenet egy könnyen feldolgozható fejléces tsv kétféle morfológiai címkekészlet: emmorph és UD 3. honlap a modulok és a lánc kipróbálására max. 6 000 karakter hosszú szövegek elemzésére kétféle formátumban letölthető kimenet: xml és tsv 24/26

GATE (General Architecture for Text Enineering) 25/26

Hasznos linkek e-magyar honlap http://e-magyar.hu e-magyar GATE https://github.com/dlt-rilmta/hunlp-gate emtsv https://github.com/dlt-rilmta/emtsv magyarlanc http://rgai.inf.u-szeged.hu/index.php?lang=en&page= magyarlanc morfológiai címkekészletek https://github.com/dlt-rilmta/panmorph 26/26