Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Hasonló dokumentumok
Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

A Mazsola KORPUSZLEKÉRDEZŐ

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

A HUNGLISH PÁRHUZAMOS KORPUSZ

Igekötős szerkezetek a magyarban

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

A magyar létige problémái a számítógépes nyelvi elemzésben

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Nem mind VP, ami állít A névszói állítmány azonosítása számítógépes elemzőben

A szótárról. 1. Mi ez?

Klasszikus héber nyelv 4.: Szintaxis

PÁRHUZAMOS IGEI SZERKEZETEK

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

Tartalomjegyzék. Bevezetés Az ige mondatalkotó képessége. 2. Az Objekt"-ek sorrendje főnevek, ill. névmások esetében.

Tartalomjegyzék. Tartalomjegyzék. A főnév 10 A főnevek neme 10 A főnevek többes száma 14 A főnév a mondatban 16 Gyakorlatok 17

A Hunglish Korpusz és szótár

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

Mazsola eszköz a magyar igék bővítményszerkezetének vizsgálatára

IGEI SZERKEZETEK GYAKORISÁGI SZÓTÁRA

Lexikon és nyelvtechnológia Földesi András /

Klasszikus héber nyelv 4.: Szintaxis

Korpuszlekérdezők evolúciója

Igei szerkezetek gyakorisági szótára

E. KISS KATALIN - KIEFER FERENC - SIPTAR PETER ÚJ MAGYAR NYELVTAN

Tartalomjegyzék. Tartalomjegyzék

Klasszikus héber nyelv 4.: Szintaxis

E. KISS KATALIN - KIEFER FERENC - SIPTAR PÉTER ÚJ MAGYAR NYELVTAN

Magyar nyelvtan tanmenet 4. osztály

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Magyar nyelv és irodalom Fejlesztési terv

28 millió szintaktikailag elemzett mondat és igei szerkezet

Magyar nyelvtan. 5. osztály. I. félév I. A kommunikáció

a Szeged FC Treebankben

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

Szabályalapú szintaktikai elemző szintaktikai szabályok nélkül

Adamikné Jászó Anna Hangay Zoltán Nyelvi elemzések kézikönyve. Mozaik Oktatási Stúdió. Szeged.

I. Alkalmazott Nyelvészeti Doktorandusz Konferencia. Budapest,

Klasszikus héber nyelv 4.: Szintaxis

Babeş-Bolyai Tudományegyetem, Kolozsvár Bölcsészkar es tanév III. év, II. félév. I. Általános információk

Nyelvtechnológia a lexikográfia szolgálatában Pajzs Júlia

Nehogy a nyúl visz a puska! Mondat ez? Bizonyára te is látod,

Igei szerkezetek gyakorisági szótára félautomatikus szótárkészítés nyelvtechnológiai eszközök segítségével

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

A kibővített Magyar történeti szövegtár új keresőfelülete

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

Nagy Erika. Nyelvtanból Ötös. A magyar nyelvtan érthetően kicsiknek és nagyoknak.

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

A szóképzés. A szóalkotásnak az a módja, amikor a szótőhöz egy képző hozzájárulásával új szó jön létre.

MAGYAR NYELV a 8. évfolyamosok számára. MNy2 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

A MAGYAR ÖSSZETETT KÖTŐSZÓK TÖRTÉNETÉHEZ

KORPUSZNYELVÉSZETI ESZKÖZ A MAGYAR IGÉK B VÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA

MAGYAR NYELV a 8. évfolyamosok számára. MNy2 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Magyar nyelvű néprajzi keresőrendszer

Intelligens elektronikus szótár és lexikai adatbázis

Klasszikus héber nyelv 4.: Szintaxis

Tantárgyi követelmények. Német nyelv. 9. oszt.

Igei bővítménykeretek fordítási ekvivalenseinek kinyerése mélyen elemzett párhuzamos korpuszból

Mondatkiegészítés adott. Az írásmódtól eltérô. Mondatalkotás. pótlása. Hosszú mássalhangzós. Másolás. Mondatvégi írásjelek

Anaforafeloldás menet közben

TARTALOM. Tartalom. 1. (Bevezető) fejezet A MAGYAR NYELV oldal. A határozott névelő: a gitár, az autó

MINIMÁLIS KÖVETELMÉNYEK NÉMET NYELVBŐL

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Egy nyelvjárási szintaxisvizsgálat háttere és eredményei Őrség és Hetés területén

A nyelvtani szabályok bemutatási módjai három magyar nyelvkönyvben

A szófajok rendszere

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

MAGYAR NYELV a 8. évfolyamosok számára. MNy1 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Szövetségi (föderatív) jogosultságkezelés

Reported Speech Függő beszéd

DAT adatcserefájl AutoCAD MAP DWG mapobject konvertáló program dokumentáció

LINGUA GAYA. A Lingua Gaya nyelv nyelvtana. 2002, Gajárszki László

Anaforafeloldás menet közben névmások egy pszicholingvisztikailag motivált elemzőben

Mérési eredmények adatai, elemzése (országos mérések, kompetenciamérés eredménye öt tanévre visszamenőleg):

középső o Nyelv eleje magasabban magas hátulja magasabban mély o Ajak kerekítés (labiális) rés (illabiális) o Hossz rövid hosszú Mássalhangzók o Idő

Az autorizáció részletes leírása

1. Mik a szófajok elkülönítésének általánosan elfogadott három szempontja? 2. Töltsd ki a táblázatot az alapszófajok felsorolásával!

Nyelvtan összefoglaló 5. o.-tól. A hangok találkozásának szabályszerűségei

TANANYAGCSOMAGOK WORD AND SENTENCE STRUCTURE MANAGE YOUR ENGLISH SZÓSZERKEZETEK

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

A kettős állítmány jelenségének vizsgálata a mai magyar nyelvben. Horváth Krisztina

A seprűvel is söprögetünk

Hány VAN nincs? A létige zéró váltakozás korpuszvezérelt vizsgálata

Az értékelés során következtetést fogalmazhatunk meg a

Az informáci. Forczek Erzsébet SZTE, ÁOK Orvosi Informatikai Intézet május

Grammatikalizálódott kopula és prenominális módosítok a magyarban

Dr`avni izpitni center MAGYAR NYELV ÉS IRODALOM. 1. feladatlap. Nem művészi szöveg elemzése május 29., hétfő / 60 perc

Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk

Klasszikus héber nyelv 4.: Szintaxis

Magyar nyelvi Ellenõrzõ dolgozatok

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Irodalom Szövegértés, szövegfeldolgozás 9. NY Órakeret:36 óra

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

Klasszikus héber nyelv 4.: Szintaxis

Átírás:

IGEI VONZATKERETEK AZ MNSZ TAGMONDATAIBAN Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2006 Szeged, 2006. december 7 8.

1 BEVEZETÉS 2 TAGMONDATRA BONTÁS 3 FELÜLET 4 FEJLESZTÉSI LEHETŐSÉGEK, ALKALMAZÁS

1 BEVEZETÉS 2 TAGMONDATRA BONTÁS 3 FELÜLET 4 FEJLESZTÉSI LEHETŐSÉGEK, ALKALMAZÁS

BEVEZETÉS Cél: a magyar igei vonzatkeret-rendszer feltérképezése korpusznyelvészeti eszköztár előzmények most ismert keretek azonosítása egyszerű mondatokban új keretek keresése, azonosítása: igék és a velük egy tagmondatban lévő NP-k statisztikai feldolgozása + idiómasági mérés tagmondatra bontás vonzatkeretek online prezentálása, lekérdezése

ÚJ FELDOLGOZÁSI LÉPÉSEK főnévi igenév mindig kerethordozó igekötőragasztás (heurisztika) egyértelműsítetlen igetövek részleges kezelése (heurisztika) képzők levágása: -hat

1 BEVEZETÉS 2 TAGMONDATRA BONTÁS 3 FELÜLET 4 FEJLESZTÉSI LEHETŐSÉGEK, ALKALMAZÁS

MOTIVÁCIÓ Szükségesek: egyvonzatkeretes egységek egyszerű mondatok

MOTIVÁCIÓ Szükségesek: egyvonzatkeretes egységek egyszerű mondatok nyilvánvalóan nem reprezentálják a valós nyelvhasználatot (?)

MOTIVÁCIÓ Szükségesek: egyvonzatkeretes egységek egyszerű mondatok nyilvánvalóan nem reprezentálják a valós nyelvhasználatot (?) helyettük: tagmondatok

MOTIVÁCIÓ Szükségesek: egyvonzatkeretes egységek egyszerű mondatok nyilvánvalóan nem reprezentálják a valós nyelvhasználatot (?) helyettük: tagmondatok tetszőleges szöveg feldolgozhatóvá válik

KORÁBBI EREDMÉNYEK magyar nyelvre alkalmazható, részletesen ismertetett, reprodukálható tagmondatra bontó módszerről nem tudok két kézirat szabályalapú módszer tagmondatok és koordináció ÁLTALÁNOS ELV A ragozott (finit) ige vonzatai az igét tartalmazó tagmondaton belül vannak.

KORÁBBI EREDMÉNYEK magyar nyelvre alkalmazható, részletesen ismertetett, reprodukálható tagmondatra bontó módszerről nem tudok két kézirat szabályalapú módszer tagmondatok és koordináció ÁLTALÁNOS ELV A ragozott (finit) ige vonzatai az igét tartalmazó tagmondaton belül vannak. ragozott ige ragozott ige vagy főnévi igenév

SZABÁLYALAPÚ MÓDSZER különféle reguláris szabályok kötőszavakra és központozásra építve bizonyos pozíciókon tagmondathatárt helyez el végül: lehetséges tagmondathatárként megjelöli az összes kötőszót, mely két olyan ige között helyezkedik el, melyek között még nincs tagmondathatár

TAGMONDATOK ÉS KOORDINÁCIÓ a szöveg kötőszavairól dönt: szerkezeteket koordinálnak vagy tagmondatokat kötnek össze eljárás az első előtti és az utolsó utáni kötőszó koordináció két ragozott ige között egyetlen kötőszó TMH majd: a kötőszó melletti két frázis összehasonlítása, ha egyeznek koordináció; ha különbözőek TMH problémák névszói állítmány kötőszó nélküli tagmondatok

A MÓDSZER (1/2) A fent ismertetett első módszerre építek. 1 [, -] @ [kötőszó határozószó]? [vonatkozó névmás] 2 [, -] @ [bármi NP AdjP]? [pedig akár azonban viszont ellenben mihelyt tehát ugyanis] 3 [, -] @ [határozószó]? [nehogy mintha] 4 [,] @ [kötőszó, kivéve: de illetve illetőleg mintegy] 5 [, -] @ [múlt idejű, egyes szám harmadik személyű ige] 6 [,] @ [kérdőszó] 7 [,] @ [az szótőként]? [határozói igenév]

A MÓDSZER (2/2) a kettőspont és a pontosvessző mindig tagmondathatár meg kötőszó és ki kérdőszó az ezekre épülő szabályokat elhagytam frázisok helyett: 1, 2, 3 tetszőleges szó csak az ige vonzatai vannak az ige tagmondatában ige-koordnáció nincs, két ige között mindig van TMH. ha két ige között egyetlen kötőszó van: TMH kiegészítés központozás ugyanolyan jó, mint a kötőszó ha több van, akkor az utolsót választom (heurisztika)

KIÉRTÉKELÉS Tesztkorpusz: 200 mondat Útmutató 1 Jelöljük be a szövegben a tagmondatokat. 2 Minden ige külön tagmondatba kerüljön. 3 A tagmondatvégi központozás minden esetben a megelőző tagmondathoz tartozzon. 171 TMH: 148-at megtalált, 23-at kihagyott, 29 téves pontosság = 83,6% lefedés = 86,5% bonyolult jogi szöveg, sok helyen rossz a régi mondatra bontás tipikus hibahelyek nincs kötőszó névszói állítmány

1 BEVEZETÉS 2 TAGMONDATRA BONTÁS 3 FELÜLET 4 FEJLESZTÉSI LEHETŐSÉGEK, ALKALMAZÁS

MAZSOLA http://corpus.nytud.hu/mazsola Közzétett korpuszok: 3-10 szavas mondatok (8mió szó) Magyar Nemzet (12mió szó) Index fórum (18mió szó)

MAZSOLA http://corpus.nytud.hu/mazsola Közzétett korpuszok: 3-10 szavas mondatok (8mió szó) Magyar Nemzet (12mió szó) Index fórum (18mió szó)

MAZSOLA http://corpus.nytud.hu/mazsola Közzétett korpuszok: 3-10 szavas mondatok (8mió szó) Magyar Nemzet (12mió szó) Index fórum (18mió szó)

MAZSOLA http://corpus.nytud.hu/mazsola Közzétett korpuszok: 3-10 szavas mondatok (8mió szó) Magyar Nemzet (12mió szó) Index fórum (18mió szó)

MAZSOLA http://corpus.nytud.hu/mazsola Közzétett korpuszok: 3-10 szavas mondatok (8mió szó) Magyar Nemzet (12mió szó) Index fórum (18mió szó)

MAZSOLA http://corpus.nytud.hu/mazsola Közzétett korpuszok: 3-10 szavas mondatok (8mió szó) Magyar Nemzet (12mió szó) Index fórum (18mió szó)

ESETTANULMÁNY (1/2) PÉLDA ad ACC keret a Magyar Nemzetben és az Index fórumban

ESETTANULMÁNY (1/2) PÉLDA ad ACC keret a Magyar Nemzetben és az Index fórumban közös elemek

ESETTANULMÁNY (1/2) PÉLDA ad ACC keret a Magyar Nemzetben és az Index fórumban eltérések

ESETTANULMÁNY (2/2) PÉLDA ad hangacc DAT a Magyar Nemzetben és az Index fórumban

ESETTANULMÁNY (2/2) PÉLDA ad hangacc DAT a Magyar Nemzetben és az Index fórumban közös elemek

ESETTANULMÁNY (2/2) PÉLDA ad hangacc DAT a Magyar Nemzetben és az Index fórumban

1 BEVEZETÉS 2 TAGMONDATRA BONTÁS 3 FELÜLET 4 FEJLESZTÉSI LEHETŐSÉGEK, ALKALMAZÁS

FEJLESZTÉSI LEHETŐSÉGEK, ALKALMAZÁS szintaktikai elemzést követően is lehessen alkalmazni a tagmondatra bontást névszói állítmányok kezelése prédikátum-azonosító adott ige összes lehetséges keretére irányuló lekérdezés párhuzamos eloszlás több bővítményre Korpuszalapú német magyar valenciaszótár terve Akadémiai Nagyszótár

HOZZÁFÉRÉS http://corpus.nytud.hu/mazsola Igényeljen jelszót a joker@nytud.hu címen!

HOZZÁFÉRÉS http://corpus.nytud.hu/mazsola Igényeljen jelszót a joker@nytud.hu címen! Köszönöm a figyelmet!