Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu



Hasonló dokumentumok
Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

A Mazsola KORPUSZLEKÉRDEZŐ

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

A szótárról. 1. Mi ez?

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

A HUNGLISH PÁRHUZAMOS KORPUSZ

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Lexikon és nyelvtechnológia Földesi András /

PÁRHUZAMOS IGEI SZERKEZETEK

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Igei szerkezetek gyakorisági szótára

IGEI SZERKEZETEK GYAKORISÁGI SZÓTÁRA

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Igei szerkezetek gyakorisági szótára

Különírás-egybeírás automatikusan

Intelligens elektronikus szótár és lexikai adatbázis

Igekötős szerkezetek a magyarban

28 millió szintaktikailag elemzett mondat és igei szerkezet

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

a Szeged FC Treebankben

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

A Hunglish Korpusz és szótár

A vonzatosság alternatív felfogása

A kibővített Magyar történeti szövegtár új keresőfelülete

Igei szerkezetek gyakorisági szótára félautomatikus szótárkészítés nyelvtechnológiai eszközök segítségével

Nem mind VP, ami állít A névszói állítmány azonosítása számítógépes elemzőben

Érettségi eredmények 2005-től (Békéscsabai Andrássy Gyula Gimnázium és Kollégium)

Strukturált nyelvi adatbázis létrehozása gépi tanulási módszerekkel. Kutatási terv

A magyar létige problémái a számítógépes nyelvi elemzésben

. Argumentumszerkezet: Lexikai szabályok, vagy konstrukciók? Kálmán László március 6.

Tanmenet a 10. évfolyam számára

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

HOGYAN LELJÜNK BARÁTOKAT A KORPUSZBAN?

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Magyar nyelvtan tanmenet 4. osztály

HELYI TANTERV. Nyelvtan

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

MORFOLÓGIAI FELÉPÍTÉS

HunLearner: a magyar nyelv nyelvtanulói korpusza

Vonzatkeretek vizsgálata orvostudományi tárgyú, angol nyelv szabadalmi szövegeken

Klasszikus héber nyelv 4.: Szintaxis

Bevezetés a nyelvtudományba. 7. Szemantika. Gerstner Károly Magyar Nyelvészeti Tanszék

Mazsola eszköz a magyar igék bővítményszerkezetének vizsgálatára

Babeş-Bolyai Tudományegyetem, Kolozsvár Bölcsészkar es tanév III. év, II. félév. I. Általános információk

Az anyanyelv hatásának tükrözõdése a spanyol névszórendszerben a magyar tanulóknál

Beszédfeldolgozási zavarok és a tanulási nehézségek összefüggései. Gósy Mária MTA Nyelvtudományi Intézete

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

Nagy munka ez! Nem mértem én ezt azonban. Csak a cél volt előttem. (Reguly Antal)

Igei bővítménykeretek fordítási ekvivalenseinek kinyerése mélyen elemzett párhuzamos korpuszból

Nyelvtechnológia a lexikográfia szolgálatában Pajzs Júlia

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Hátrányos helyzet = nyelvi hátrány?

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

FŐNÉVI VONZATOK A MAGYAR NYELVBEN

Nyelvtechnológia - nyelvészeknek

0. előadás Motiváció

TANMENET NYELVTAN ÉS FOGALMAZÁS

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

SZÖVEGES LEJEGYZÉSBŐL NYELVI ADATBÁZIS

Analogikus általánosítási folyamatok a gyereknyelvben c. kutatási projekthez

LiLe projekt: Adatbázis mint dinamikus korpusz

nyelvi korpusz alapján

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben november 13.

Az Ómagyar Korpusz bemutatása

Magyar nyelvű néprajzi keresőrendszer

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *

HELYI TANTERV. Magyar Nyelv

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre

Beszéd- és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért

Magyar nyelvű történeti korpuszok

MAGYAR MINT IDEGEN NYELV

Futó Iván: Természetes nyelvek. Jegyzet

Hány VAN nincs? A létige zéró váltakozás korpuszvezérelt vizsgálata

Korpuszlekérdezők evolúciója

0. előadás Motiváció. Dr. Kallós Gábor

Klasszikus héber nyelv 4.: Szintaxis

MAGYAR NYELV ÉS IRODALOM

Bevezetés a nyelvtudományba. 5. Szintaxis

Természetesnyelv-feldolgozás. Mesterséges intelligencia május 9.

KORPUSZNYELVÉSZETI ESZKÖZ A MAGYAR IGÉK B VÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA

Bevezetés az e-magyar programcsomag használatába

Lexikológia, lexikográfia a MID oktatásában

Egy szónak is száz a vége

Információkereső tezaurusz

/Gyula Szent István út 38./ Szakiskolát végzettek szakközépiskolai érettségire történő felkészítésének helyi tanterve

Egy szónak is száz a vége

MAGYAR NYELV Tömbösített tanmenet 7. b évfolyam

Él vagy élettelen? 1. Bevezetés. Szeged, december Sass Bálint. Hogyan fordítanánk angolra az alábbi két magyar mondatot?

Prószéky Gábor opponensi véleménye a. Németh T. Enikő. által az MTA doktora címért benyújtott. Interaction between grammar and pragmatics:

ÚTMUTATÓ A SZÓTÁR HASZNÁLATÁHOZ

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP

Az OTKA F Narratív struktúra, mint az aktuális érzelmi állapot minőségének indikátora. című pályázat záró jelentése

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában

Önálló labor feladatkiírásaim tavasz

Átírás:

VONZATKERETEK A MAGYAR NEMZETI SZÖVEGTÁRBAN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály MSZNY2005 Szeged, 2005. december 8-9.

1 MOTIVÁCIÓ 2 ESZKÖZÖK ÉS ELJÁRÁSOK Vonzatkeretek Korpuszfeldolgozó eszköz A vonzatkeret-felismerés menete Jelenlegi állapot 3 EREDMÉNYEK Példák Esettanulmányok Mutatvány a vonzatkeret-gyakorisági szótárból 4 TÁVLAT Alkalmazás Fejlesztési lehetőségek

1 MOTIVÁCIÓ 2 ESZKÖZÖK ÉS ELJÁRÁSOK Vonzatkeretek Korpuszfeldolgozó eszköz A vonzatkeret-felismerés menete Jelenlegi állapot 3 EREDMÉNYEK Példák Esettanulmányok Mutatvány a vonzatkeret-gyakorisági szótárból 4 TÁVLAT Alkalmazás Fejlesztési lehetőségek

MOTIVÁCIÓ CÉL vonzatkeretek felismerése vonzatkeret-gyakorisági szótár elkészítése MIÉRT? szótárak, ontológiák jelentéskincse empirikus alapokon a vonzatkeret-táblázat fejlesztése gépi szövegértés

1 MOTIVÁCIÓ 2 ESZKÖZÖK ÉS ELJÁRÁSOK Vonzatkeretek Korpuszfeldolgozó eszköz A vonzatkeret-felismerés menete Jelenlegi állapot 3 EREDMÉNYEK Példák Esettanulmányok Mutatvány a vonzatkeret-gyakorisági szótárból 4 TÁVLAT Alkalmazás Fejlesztési lehetőségek

VONZATKERETEK forrás: a Nyelvtudományi Intézetben készült lexikai adatbázis igei vonzatkeret-táblázata 9000 ige 18000 vonzatkerete teljesen kompozicionális szerkezetek nélkül

KORPUSZFELDOLGOZÓ ESZKÖZ a projekt keretében készülő általános célú eszköz elemzett, egyértelműsített korpuszból indul ki részletes morfológiai reprezentáció többszintű reguláris nyelvtan hasznos kiegészítő funkciók pozíció megadása tagadás szerkezetek öröklik a fej tulajdonságait többszintű tagek annotáció törlése

A VONZATKERET-FELISMERÉS MENETE 1 Tagmondatokra bontás 2 Tulajdonnév felismerés 3 NP-felismerés 4 Vonzatkeret-illesztés

JELENLEGI ÁLLAPOT TELJES FELISMERÉSI FOLYAMAT Elemzett szöveg nyers vonzatkeret-gyakorisági szótár Egyszerűsítések: tesztkorpusz: írásjel nélküli, 9 szavas mondatok primitív tulajdonnév- és NP-felismerő egyszerűbb keretek: adott igető + névszói alany, tárgy, vonzatok; megadható: szófaj, eset, konkrét szóalak, szótő

1 MOTIVÁCIÓ 2 ESZKÖZÖK ÉS ELJÁRÁSOK Vonzatkeretek Korpuszfeldolgozó eszköz A vonzatkeret-felismerés menete Jelenlegi állapot 3 EREDMÉNYEK Példák Esettanulmányok Mutatvány a vonzatkeret-gyakorisági szótárból 4 TÁVLAT Alkalmazás Fejlesztési lehetőségek

PÉLDÁK egybevet vmit vmivel: Az önellenőrzés során a dolgozó egybeveti a munkáját a követelményekkel. utasít vkit vmire: A Közgyűlés utasítja a Polgármestert a szükséges intézkedések megtételére.

ESETTANULMÁNY: vág alulspecifikált: vág vmit vág vmit vmire (szeletekre, darabokra) vág vmit vmibe nagy fába vágta a fejszéjét elvág vmit torkát ill. vmit vmitől elhagyandó: vág vmiben, vág vkit vmin nincs: levág vmit vmiből, kettévág vmit kiegészítendő: pofát vág + grimaszt ill. fát pofon vág + kupán

ESETTANULMÁNY: vesz vonzatkeret db ÉKSz. jelentés részt vesz vmi(be)n 227 5. tudomásul vesz 23 16. fordulatot vesz 8 18. semmibe vesz 2 nincs benne! feleségül vesz 1 11.

MUTATVÁNY A VONZATKERET-GYAKORISÁGI SZÓTÁRBÓL # vonzatkeret db 1. részt vesz vmiben 124 2. részt vesz vmin 103 3. kérdést tesz fel 27 4. tudomásul vesz 23 5. győzelmet arat 16 6. szert tesz vmire 16 7. figyelmet fordít vmire 13 8. hatást gyakorol vmire 12 9. világra jön 9 10. letartóztatásba helyez vkit 9

1 MOTIVÁCIÓ 2 ESZKÖZÖK ÉS ELJÁRÁSOK Vonzatkeretek Korpuszfeldolgozó eszköz A vonzatkeret-felismerés menete Jelenlegi állapot 3 EREDMÉNYEK Példák Esettanulmányok Mutatvány a vonzatkeret-gyakorisági szótárból 4 TÁVLAT Alkalmazás Fejlesztési lehetőségek

ALKALMAZÁS szótárak, ontológiák jelentéskincse empirikus alapokon Magyar EuroWordNet Projekt a vonzatkeret-táblázat továbbfejlesztése ritka kereteket (1) elhagyni vagy (2) jobban specifikálni gyakori hiányzó kereteket hozzáadni gépi szövegértés jelentéshozzárendelés formailag azonos, eltérő jelentésű kereteket külön kódolni szintaktikai elemzők támogatása

FEJLESZTÉSI LEHETŐSÉGEK jobb/részletesebb nyelvtanok/felismerők tagmondatra bontó modul szemantikai jegyek feldolgozása szabad határozók kiszűrése

FEJLESZTÉSI LEHETŐSÉGEK jobb/részletesebb nyelvtanok/felismerők tagmondatra bontó modul szemantikai jegyek feldolgozása szabad határozók kiszűrése Köszönöm a figyelmet!