Egy szónak is száz a vége

Hasonló dokumentumok
Egy szónak is száz a vége

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

PurePos: hatékony morfológiai egyértelműsítő modul

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A számítógépes nyelvészet elmélete és gyakorlata. A számítógépes feldolgozás szempontjából fontos természetes nyelvi jelenségek

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Intelligens elektronikus szótár és lexikai adatbázis

Bevezetés az e-magyar programcsomag használatába

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

A Hunglish Korpusz és szótár

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

A magyar létige problémái a számítógépes nyelvi elemzésben

Javában taggelünk.

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Az Ómagyar Korpusz bemutatása

Igekötős szerkezetek a magyarban

SZÖVEGES LEJEGYZÉSBŐL NYELVI ADATBÁZIS

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

FORD FOCUS FOCUS_2016_V8_MASTER_240x185 Cover.indd /10/ :52:23





Lexikon és nyelvtechnológia Földesi András /

HOGYAN LELJÜNK BARÁTOKAT A KORPUSZBAN?

O & ko zèpmaǵar zoalactanÿ èlèmzo

FORD FIESTA FIESTA_2014_240x185 Cover_V3.indd /10/ :49:22

A kibővített Magyar történeti szövegtár új keresőfelülete

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására

Ismeretlen kifejezések és a szófaji egyértelm sítés

Az e-magyar rendszer GATE környezetbe integrált magyar szövegfeldolgozó eszközlánca

Nem mind VP, ami állít A névszói állítmány azonosítása számítógépes elemzőben

A HUNGLISH PÁRHUZAMOS KORPUSZ

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Korpuszlekérdezők evolúciója

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Az e-magyar digitális nyelvfeldolgozó rendszer

ő ű í ő ú í í Á ű í ő ő ő ő í É í í ő Ö Ö Ö Á Í Á ő ő ő ő É ő ő ú ú ú í ő Á Ö ő ő

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

Nyelvi tudásra épülő fordítómemória

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

A MAGYAR NEMZETI SZÖVEGTÁR EGYMILLIÁRD SZAVAS ÚJ VÁLTOZATA

Események detektálása természetes nyelvű szövegekben

FORD B-MAX BMAX_2014_V3_Cover.indd /10/ :32:13

A szótárról. 1. Mi ez?

Beszéd- és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért

Különírás-egybeírás automatikusan

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

A Mazsola KORPUSZLEKÉRDEZŐ

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

ö ü ü Á ö ü ö ö ö Í ü ü ö ö ú ö ű ű Í ü

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Fordítóprogramok felépítése, az egyes programok feladata. A következő jelölésmódot használjuk: program(bemenet)(kimenet)

emtsv Egy formátum mind felett

Önálló labor feladatkiírásaim tavasz

ServiceTray program Leírás

FORD C-MAX + FORD GRAND C-MAX

Magyar nyelvű történeti korpuszok

Simon Eszter április 19. MTA Nyelvtudományi Intézet. Korpuszépítés ómagyar kódexekből. Simon Eszter. Bemutatás. Anyaggyűjtés.

HELYI TANTERV AZ ÉLŐ IDEGEN NYELV tanításához Szakközépiskola évfolyam

Számítógépes alkalmazásai

Ismeretlen szavak helyes kezelése kötegelt

ó ó é é é ó ü é é Í ő ő ó ó é ö é ó é ő ü é é ó í é é é ű ő ő ő é é ő í é í é é é ú é é é ó í é ö é ő ö é é é ö ü í é é ő é é ü é é í Ú ő ó ö é ő ö ö

ó ó ó ö ü ő ö ó ú ő ó ö ó ó ő ü ő ó ő ü ö ő ő ó ó ő ó ö ö ú ó ő ö ó ő ő ó É ó ő ü ö ú ű ü ő ő ú ó ö ú ó ó ó ó ő ó ö ú Á ő ő ő Á ó ó ü É ö ú

Nyelvtechnológia a lexikográfia szolgálatában Pajzs Júlia

Keresés korpuszban október 19., SZTE JGYPK Sass Bálint MTA Nyelvtudományi Intézet

magyarlanc 2.0: szintaktikai elemzés és felgyorsított szófaji egyértelműsítés

Természetesnyelv-feldolgozás. Mesterséges intelligencia május 9.

az összetettszó-kezelés, alkalmassá teszik bonyolult agglutináló nyelvek algoritmusok futásidőben feldolgozott nyelvspecifikus célra optimalizált

A HANGOK TANÁTÓL A BESZÉDTECHNOLÓGIÁIG. Gósy Mária. MTA Nyelvtudományi Intézet, Kempelen Farkas Beszédkutató Laboratórium


Az URaLUID adatbázis bemutatása

Beninca KEN 600 N garázskapu mozgató motor

ContractTray program Leírás

Mahrlights. Őszi akció. MarSurf. M300 hordozható érdességmérő RD8 előtolóegységgel. Az Akciós árak érvényesek 2012 december 31-iG

Számításelmélet. Második előadás

DebitTray program Leírás

Egy általános célú morfológiai annotáció kiterjesztése

HunLearner: a magyar nyelv nyelvtanulói korpusza

SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer

STATISZTIKAI GÉPI FORDÍTÁS

Rajz és vizuális kultúra érettségi vizsga Középszint

Mozaik nyelvmodell az AnaGramma elemzőhöz

Tartalomelemzés. Magyar nyelvű előfeldolgozási feladat szövegelemzéshez. Készítették: Halányi Ferenc Paróczi Zsombor Porohnavec József

XI/3. XI. Kiegészítő tevékenységek, létesítmények. 90. Takarítási munkák. TERC Kft

KONYHABÚTOR FELSŐK ELEMJEGYZÉKE

Teljes visszalépéses elemzés

Korpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22.

TrendMiner (Politikai témájú SM üzenetek (szociál)pszichológiai vizsgálata)

PureToken: egy új tokenizáló eszköz

Szövegbányászat és dokumentum kezelés

Használati útmutató 1

Átírás:

Egy szónak is száz a vége Oravecz Csaba MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály oravecz@nytud.hu Magyar tudomány napja, MTA, 2003. 11. 04.

Bevezetés mit lát a számítógép a természetes nyelvi megnyilatkozásokból? karaktersorozatokat a z a v a r s í r : 11 azonos típusú elemi egység a beszélők számára azonban számos fontos tulajdonsággal rendelkező jelek 1

Bevezetés mit lát a számítógép a természetes nyelvi megnyilatkozásokból? karaktersorozatokat a z a v a r s í r : 11 azonos típusú elemi egység a beszélők számára azonban számos fontos tulajdonsággal rendelkező jelek Az őszi avar sír a lába alatt. 1

Bevezetés mit lát a számítógép a természetes nyelvi megnyilatkozásokból? karaktersorozatokat a z a v a r s í r : 11 azonos típusú elemi egység a beszélők számára azonban számos fontos tulajdonsággal rendelkező jelek Az őszi avar sír a lába alatt. Csak az veri fel az erdő csendjét, mivel az avar sír eddig feltáratlan maradt. 1

Számítógép és nyelvi elemzés homogén karakterfüzérből nyelvi jel(ek): határozzuk meg a kiterjedését és adjuk meg a tulajdonságait első lépésben a szóalakok mint elemi egységek szintjén 1 kódoló személy MNSZ: 150 millió szó; 2 sec/szó (napi 24 órában) 9 év, 187 nap automatikus eljárás morfoszintaktikai annotáció morfológiai elemzés egyértelműsítés 2

Morfológiai elemzés miért? 3

Morfológiai elemzés miért? Szótő Fn Birtokos van nincs Szám Szem. 3 2 1 Szám "-é(i)" nincs Eset Nom(-) Acc(-t) Dat(-nAk) Sub(-rA)...... 3

Morfológiai elemzés miért? Szótő Fn Birtokos van nincs Szám Szem. 3 2 1 Szám "-é(i)" nincs Eset Nom(-) Acc(-t) Dat(-nAk) Sub(-rA)...... lapjaitokéinak 3

Morfológiai elemzés miért? Szótő Fn Birtokos van nincs Szám Szem. 3 2 1 Szám "-é(i)" nincs Eset Nom(-) Acc(-t) Dat(-nAk) Sub(-rA)...... lapjaitokéinak lapokéit 3

Morfológiai elemzés miért? Szótő Fn Birtokos van nincs Szám Szem. 3 2 1 Szám "-é(i)" nincs Eset Nom(-) Acc(-t) Dat(-nAk) Sub(-rA)...... lapjaitokéinak lapokéit 681 lehetséges alak 3

A bemenő XML szöveg Példa <div type="test"> <head>mire jó a nyelvtechnológia?</head> <opener> <dateline>mta <date iso8601="2003-11-04">2003. november 4.</date> </dateline> </opener> <p> Az őszi avar sír a lába alatt. Csak az veri fel az erdő csendjét, mivel az avar sír eddig feltáratlan maradt. </p> </div> 4

Szegmentálás és morfológiai elemzés bemenő folyó szöveg mondatokra tagolása és a mondatok szavakra bontása morfológiai elemző: karakterfüzérekhez mint szóalakokhoz hozzárendeli minden lehetséges morfológiai elemzésüket 5

Morfológiailag elemzett szöveg Példa... 4*1 TOK MTA BOS MTA*[N][NOM] 5*1 DATE 2003._november_4. EOS 2003._november_4.*[DATUM] # )SENT </S> # (SENT <S> 7*1 TOK Az BOS az*[det] az*[pro][nom] 7*4 TOK őszi őszi*[a][nom] 7*9 TOK avar avar*[a][nom] avar*[n][nom] 7*14 TOK sír sír*[n][nom] sír*[v][e3] 7*18 TOK a a*[det] 7*20 TOK lába láb*[n][pse3][nom] 7*25 TOK alatt alatt*[adv] alatt*[nu] 7*30 PTERM. EOS.*SPUNCT # )SENT </S> # (SENT <S> 6

8*1 TOK Csak BOS csak*[adv] 8*6 TOK az az*[det] az*[pro][nom] 8*9 TOK veri ver*[v][te3] 8*14 TOK fel fel*[adv] fel*[n][nom] fel*[pre] 8*18 TOK az az*[det] az*[pro][nom] 8*21 TOK erdő erdő*[n][nom] 8*26 TOK csendjét csend*[n][pse3][acc] 8*34 PUNCT,,*WPUNCT 9*1 TOK mivel mivel*[con] mi*[pro][ins] mivel*[adv] 9*7 TOK az az*[det] az*[pro][nom] 9*10 TOK avar avar*[a][nom] avar*[n][nom] 9*15 TOK sír sír*[n][nom] sír*[v][e3] 9*19 TOK eddig ez*[pro][ter] 9*25 TOK feltáratlan feltáratlan*[a][nom] 9*37 TOK maradt maradt*[mib][nom] marad*[v][me3] 9*43 PTERM. EOS.*SPUNCT # )SENT </S> 7

Többértelműség kezdtek, végeztek, terem, állam, köröm, hullám, tanára, művére, női, sort, bájt, termet, nemzeti, feji, telefon, mondat, lejár, élek, sírok, laknak, falnak, halnak, telefonnak, váza, kacsa, héja, léptet, ereszt, béget, sikerül, települ, diák, torok, tubák, törtet, kopaszt, horpaszt, kisebben, fürgébben, adunk, kapunk, tudatunk 8

Mire jó a nyelvtechnológia? MTA, 2003.11.04. Többértelműség kezdtek, végeztek, terem, állam, köröm, hullám, tanára, művére, női, sort, bájt, termet, nemzeti, feji, telefon, mondat, lejár, élek, sírok, laknak, falnak, halnak, telefonnak, váza, kacsa, héja, léptet, ereszt, béget, sikerül, települ, diák, torok, tubák, törtet, kopaszt, horpaszt, kisebben, fürgébben, adunk, kapunk, tudatunk az Nm avar Fn sír Fn az Det avar Mn sír I eddig feltáratlan maradt MI maradt I 8

Morfoszintaktikai egyértelműsítés lehetséges elemzések közül a szövegkörnyezetbe, az adott mondatba illő kiválasztása 1 kódoló személy MNSZ: 150 millió szó; kb. 23% többértelmű; 1 sec/szó (napi 24 órában) 1 év, 35 nap nagy mennyiségű, változatos típusú szöveg gyors, a változatosságot jól kezelő automatikus módszer relatív gyakoriságon alapuló eljárás: az elemzések gyakoriságát, valamint (legfeljebb) szóhármasok elemzésének gyakoriságát veszi figyelembe (másodrendű rejtett Markov-modell) 9

Morfoszintaktikai egyértelműsítés a számítógépet meg kell tanítani a helyes elemzés kiválasztására 270 ezer szavas kézzel egyértelműsített tanító korpusz (17 óra) nyelvi modell adott kontextusban legvalószínűbb elemzés kiválasztása a nyelvi modellben tárolt információ alapján egyszerű modell: 97.5 98%-os teljesítmény 10

Szabály alapú modul egyértelműen megadható feltételek fennállása esetén 100%-os pontossággal működő szabályok 10%-kal csökkenthető a rosszul egyértelműsített esetek száma 2. az([pro] [Det]) - choose [Det] if followed by [N] beginning with vowel - choose [Pro] if followed by [Det] or [V] or [Con] or small case consonant or az? x.token=az x.msd={[pro],[det]} + [Det] f.msd=[n] f.bw=aáeéiíoóöőuúüűaáeéiíoóöőuúüű + [Pro] f.msd={[det],[v],[con]} + [Pro] f.bw=qwrtpsdfghjklmnbvcxz,:;.?! + [Pro] f.token=az 1. ábra. Egy egyértelműsítő szabály 11

Az egyértelműsítő eszközlánc XML bemenet = Szegmentáló Tokenizáló = HUMOR m. elemző = Szabály alapú szűrő = TnT tagger Nyelvi modell = XML konverzió Annotált = kimenet 2. ábra. Az egyértelműsítő lánc komponensei 12

Mire jó a nyelvtechnológia? MTA, 2003.11.04. A kiválasztott elemzés az Nm avar Fn az Det avar Mn sír Fn sír I eddig feltáratlan maradt MI maradt I 13

Mire jó a nyelvtechnológia? MTA, 2003.11.04. A kiválasztott elemzés az Nm avar Fn az Det avar Mn sír Fn sír I eddig feltáratlan maradt MI maradt I 13

A végleges XML kimenet Példa <div type="test"> <head> <s> <w lemma="mire" msd="adv">mire</w> <w lemma="jó" msd="a.nom">jó</w> <w lemma="a" msd="det">a</w> <w lemma="nyelvtechnológia" msd="n.nom">nyelvtechnológia</w> <c lemma="?" msd="spunct">?</c> </s> </head> <opener> <dateline> <w lemma="mta" msd="n.nom">mta</w> <date iso8601="2003-11-04"> 14

<w lemma="2003._november_4." msd="datum">2003._november_4.</w> </date> </dateline> </opener> <p> <s> <w lemma="az" msd="det">az</w> <w lemma="őszi" msd="a.nom">őszi</w> <w lemma="avar" msd="n.nom">avar</w> <w lemma="sír" msd="v.e3">sír</w> <w lemma="a" msd="det">a</w> <w lemma="láb" msd="n.pse3.nom">lába</w> <w lemma="alatt" msd="nu">alatt</w> <c lemma="." msd="spunct">.</c> </s> <s> <w lemma="csak" msd="adv">csak</w> <w lemma="az" msd="pro.nom">az</w> 15

<w lemma="ver" msd="v.te3">veri</w> <w lemma="fel" msd="pre">fel</w> <w lemma="az" msd="det">az</w> <w lemma="erdő" msd="n.nom">erdő</w> <w lemma="csend" msd="n.pse3.acc">csendjét</w> <c lemma="," msd="wpunct">,</c> <w lemma="mivel" msd="adv">mivel</w> <w lemma="az" msd="det">az</w> <w lemma="avar" msd="a.nom">avar</w> <w lemma="sír" msd="n.nom">sír</w> <w lemma="ez" msd="pro.ter">eddig</w> <w lemma="feltáratlan" msd="a.nom">feltáratlan</w> <w lemma="marad" msd="v.me3">maradt</w> <c lemma="." msd="spunct">.</c> </s> </p> </div> 16

Összefoglalás már a gépi nyelvfeldolgozás kezdetén is számos olyan feladatot kell megoldani, ami a beszélők számára triviális megkerülhetetlen lépések minden további nyelvfeldolgozó alkalmazás számára a bemutatott eljárás gyakorlati alkalmazása: MNSZ egyértelműsítése 17

VÉGE Typeset by FoilTEX Powered by Linux