Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu



Hasonló dokumentumok
Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Lexikon és nyelvtechnológia Földesi András /

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Intelligens elektronikus szótár és lexikai adatbázis

A HUNGLISH PÁRHUZAMOS KORPUSZ

Különírás-egybeírás automatikusan

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Nyelvtechnológia - nyelvészeknek

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Egy nyelvészbarát szövegfeldolgozó eszköz: a NooJ

Bevezetés az e-magyar programcsomag használatába

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

A kibővített Magyar történeti szövegtár új keresőfelülete

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

A Formális nyelvek vizsga teljesítése. a) Normál A vizsgán 60 pont szerezhet, amely két 30 pontos részb l áll össze az alábbi módon:

TrendMiner (Politikai témájú SM üzenetek (szociál)pszichológiai vizsgálata)

Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak

PurePos: hatékony morfológiai egyértelműsítő modul

Helyesiras.mta.hu az intelligens helyesíró portál

A Formális nyelvek vizsga teljesítése. a) Normál A vizsgán 60 pont szerezhet, amely két 30 pontos részb l áll össze az alábbi módon:

HOGYAN LELJÜNK BARÁTOKAT A KORPUSZBAN?

Természetesnyelv-feldolgozás. Mesterséges intelligencia május 9.

Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Korpuszlekérdezők evolúciója

Ismeretlen kifejezések és a szófaji egyértelm sítés

Nyelvtechnológia a lexikográfia szolgálatában Pajzs Júlia

Az Ómagyar Korpusz bemutatása

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

A számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete

Formális nyelvek és automaták vizsgához statisztikailag igazolt várható vizsgakérdések

A Hunglish Korpusz és szótár

Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

Január 7. hétfő. I. Beszédtechnológia, fonológia

A Mazsola KORPUSZLEKÉRDEZŐ

Egy szónak is száz a vége

Reguláris kifejezések 1.

Egy szónak is száz a vége

Ügyviteli rendszerek hatékony fejlesztése Magic Xpa-val mobilos funkciókkal kiegészítve. Oktatók: Fülöp József, Smohai Ferenc, Nagy Csaba

NAV online számla regisztráció SAP rendszerhez

Mi ez pontosan? Miért készült? Miért nehéz?

PureToken: egy új tokenizáló eszköz

Egyszerű programozási tételek

Beszéd- és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért

Igekötős szerkezetek a magyarban

A Humor új Fo(r)mája

Algoritmusok bonyolultsága

OpenOffice.org mint fejlesztési platform

Automaták mint elfogadók (akceptorok)

Milyen a még jobb Humor?

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre

A szótárról. 1. Mi ez?

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

EGYÜTTHALADÓ. migráns gyermekek az. iskolában. Európai Integrációs Alap

Az első és az egyetlen. Beszélő fordítógép, beszélő szótár, beszélő kifejezés gyűjtemény

a Szeged FC Treebankben

Nyelvi tudásra épülő fordítómemória

Számítógépes alkalmazásai

Flex tutorial. Dévai Gergely

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Klasszikus héber nyelv 4.: Szintaxis

Elérhető szótárak a magyar nyelv oktatásában és használatában. M. P i n t é r T i b o r

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

Mathematica automatikusan dolgozik nagy pontossággal, például 3 a 100-dik hatványon egy szám 48 tizedes jeggyel:

Speciális ügyfélkapcsolati igények Önkiszolgáló ügyfelektől az előfizető nyilvántartásig

LiLe projekt: Adatbázis mint dinamikus korpusz

A szavak feldolgozása. Ladányi Enikő

Véges állapotú gépek (FSM) tervezése

Keresés korpuszban október 19., SZTE JGYPK Sass Bálint MTA Nyelvtudományi Intézet

Egy általános célú morfológiai annotáció kiterjesztése

Segédanyagok. Formális nyelvek a gyakorlatban. Szintaktikai helyesség. Fordítóprogramok. Formális nyelvek, 1. gyakorlat

Operációs rendszerek gyakorlat

magyarlanc 2.0: szintaktikai elemzés és felgyorsított szófaji egyértelműsítés

Bevezetés a programozásba

Érettségi eredmények 2005-től (Békéscsabai Andrássy Gyula Gimnázium és Kollégium)

formalizmusa Egy morfológiai elemző kimeneti formalizmusának három, egymásnak gyakran

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben november 13.

HELYI TANTERV NÉMET NYELV. I. idegen nyelv. 4. évfolyam 6. évfolyam 8. évfolyam 10. évfolyam 12. évfolyam. nem A1 A2 B1 mínusz B1 megadható

LOGIKA ÉS ÉRVELÉSTECHNIKA

Az ArcGIS platform bevezetése a MAVIR-ban

Nem mind VP, ami állít A névszói állítmány azonosítása számítógépes elemzőben

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Vajda Éva. Keresőoptimalizált üzleti honlap

Magatartás Szorgalom Olvasás írás 1.oszt. Matematika 1.oszt. Környezetismeret 1.osztály 2. oszt. első félév

A TANULMÁNYOK ALATTI VIZSGÁK SZABÁLYZATA

Formális nyelvek és automaták

Operációs rendszerek. 11. gyakorlat. AWK - szintaxis, vezérlési szerkezetek UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED

Javában taggelünk.

SZÖVEGES LEJEGYZÉSBŐL NYELVI ADATBÁZIS

Magyar nyelvű néprajzi keresőrendszer

Lexikológia, lexikográfia a MID oktatásában

2

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP

TANTÁRGYI ÚTMUTATÓ. Vállalatirányítási szoftverek. tanulmányokhoz

Átírás:

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer Váradi Tamás varadi@nytud.hu

Vázlat A történet eddig Az INTEX rendszer A magyar modul Az INTEX korlátai premier előtt: NooJ konklúziók, további teendők

Rövid történeti háttér LADL Maurice Gross lexikai nyelvtan, véges állapotú technológia 1993 INTEX Max Silberztein elterjedtség több mint 20 kutatóintézetben alkalmazzák francia, angol, szerb, portugál,spanyol éves konferenciák Magyar? Premier itt és most!

Integrált nyelvelemző környezet Három eszköz egyben korpuszelemző nyelvtanfejlesztő oktató Egységes (véges állapotú) technológia Robosztus, jól kidolgozott lexikon morfoszintaktikai, szemantikai jegyek Grafikus felület

INTEX a korpuszkezelő eszköz.txt szövegfile azonnali lekérdezés keresés reguláris kifejezések gráfok (nyelvtanok) kimenet: konkordancia

A szöveg betöltése Kérünk előfeldolgozást?

egyszerű szöveglekérdezés

A szöveg előfeldolgozása Mondatokra bontás {S} címke beillesztésével Többszavas kifejezések bejelölése Nem szabványos alakok standard alakra konvertálása (aszem-> azt hiszem) Az alapszótárak lefuttatása Mondatok véges állapotú automatákba szervezése

A korpusz teljes feldolgozása Szöveg + szintaktikai szihtaktikai és lexikai szabályok Előfeldolgozás Norrmál Normál alakra hozott szöveg Elektronikus szótárak készlete Lexikai elemzés Felismert szavak morf-szint kódban Szótárak, egyértelműsítő szabályok Egyértelműsítés A helyes kód kiválasztása Véges állapotú transzducerek Nyelvtani elemzés Szintaktikai, szemantikai szerk. Annotált szöveg Lekérdezés Konkordancia

Lexikai erőforrások szótárak véges számú, lexikalizált elemek morfológiai, szintaktikai, szemantikai jegyek lexikai szabályok (lexikai transzducerek) hagyományos szótárak által ignorált elemek nyitott lexikai osztályok (pl. képzett elemek) számok, dátumok, nevek (nyílt tokenosztályok)

Az INTEX szótárak központi szerep robosztus, gyors, nyitott, bővíthető 4 féle szótár DELAF egyelemű szóalakok DELACF többszavas kifejezések(szóalakok) DELAE idiomatikus kifejezések DELAS morfológiai generáló szótár

A DELAF szótár Szóalak Szótári alak (lemma) adásvételtől,adásvétel.n+abstract:m addig,az.pro:g addigi,addigi.a:0 addiginál,addigi.a:l adhat,adhat.v:e3 adhatják,adhat.v:tt3 Szófaj morfológiai kód Szintaktikai, szemantikai jegy

A DELACF szótár Egyesült Államok,Egyesült Államok.N+hely:p0 ezzel együtt, ezzel együtt.adv taláros testület,alkotmánybíróság.n:0 Belügyminisztérium, Home Office.N:0

A lexikai kódolás Az alapszótár toldalékolt szóalakok listája Több százezer szavas szótárak Tetszőleges információ kódolható szint./szem. jegy formájában Morfológai jegy kódja csak egy betű lehet Célszerű igazodni a kialakult gyakorlathoz A szótárak láncba szervezhetők és ki-be kapcsolhatók

A lexikai elemzés eredménye

Lekérdezés képlettel <van> = lemma, illeszkedik a van összes ragozott alakjára + = a logikai vagy művelet jele a zárójelben szereplő elemek közül az egyik Szóköz = konkatenáció

A lekérdezés eredménye

Lekérdezés gráffal Kiinduló pont a vizsgált szöveg tetszőleges pontja itt vagyunk, ha a szövegben szerepel a van egy ragozott alakja erre megyünk, ha a van után a szövegben szerepel egy VHIN kódú alak A gráf csak akkor illeszkedik, azaz csak akkor van találat, ha ide el tudtunk jutni: igy vagy úgy de végig! a vagy relációt ugyannabból a pontból ugyanabba a pontba vezető több ággal jelezzük Végpont a vizsgált szöveg azon pontja, ahova a gráf illesztése után eljutottunk

véges állapotú felismerő gráf (fsa)

véges állapotú transzducer (fst) nemcsak felismer, hanem ki is ad jelsorozatot ha ide értünk, ezt a jelsorozatot teszi hozzá a szöveghez a gráf

Lexikai szabályok Lexikai transzducerek képzők, szóösszetételek elemzésére tulajdonnevek felismerésére Lexikai megszorításokkal ellenőrizhetjük az elemek érvényességét Kimenetük új szótári elemek, melyeket hozzátehetünk az alapszótárhoz

végső tulajdonnév szabály

lexikai megszorítások Tetszőleges betűsorozatot beolvasunk és a $Tő nevű változóba teszünk itt történik az ellenőrzés: az Tő alakját e-vel megtoldott alaknak léteznie kell igeként a szótárban Ha minden rendben megírhatjuk a szótári bejegyzést: storable,store.v+able

Lokális nyelvtan időkifejezésekre

Magyar változat Kulcskérdés: a lexikai modul elkészítése szótár egyben morfológiai elemzést is ad a magyar morfológia listázással nem megoldható Kompromisszum: óriási korpuszok elemzett szókincse HUMOR morfológiai elemzővel elemezve Magyar Nemzeti Szövegtár 150 m szó Magyar webkorpusz (MOKK) 2500m szó

Az INTEX korlátai Gyors, hatékony, de sok beépített korlát egyszerre egy nyelvvel lehet dolgozni zárt rendszer könnyű bevinni szövegeket, de nehéz kivinni őket nincs xml kimenet egyszerre egyetlen szöveggel lehet dolgozni a szöveg annotációja lépcsőzetes elemzésnél nehézkes

JÖN! NooJ! Teljesen átdolgozott, többnyelvű, rugalmas, áttekinthetőbb rendszer INTEX utódja elveiben azonos, de továbbfejlesztett változat Első nyilvános változat: december 15-én! A magyar változat hónapok óta előkészületben

Magyar NooJ Működő morfológiai elemző több változatban nyers erő morfológiai gráfok jegyek alkalmazásával online elemző szótár paradigmatáblák használatával Az Értelmező Kéziszótár szókincse teljeskörű ragozással

Részlet a magyar NooJ szótárból

A felismert szavak listája

A tővariánsjegyek ellenőrzése

a kötőhang kiválasztása

Összegzés INTEX/NooJ általános célú integrált nyelvelemző rendszer Nemcsak számítógépes nyelvészeknek http://corpus.nytud.hu/intex Közreadjuk a magyar nyelvi eszközeinket a szakmai nagyközönség számára Várunk érdeklődőket, önkéntes segítőket, a kutatási eredmények megosztását

Végül, de nem utolsósorban Külön köszönet kollégáimnak, akiknek a munkájáról szólt ez a beszámoló: Gábor Kata Nagy Viktor Vajda Péter Sass Bálint Oravecz Csaba Dancsecs Erzsébet Mészáros Ágnes Héja Enikő