A Mazsola KORPUSZLEKÉRDEZŐ

Hasonló dokumentumok
Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

A szótárról. 1. Mi ez?

28 millió szintaktikailag elemzett mondat és igei szerkezet

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

Korpuszlekérdezők evolúciója

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

PÁRHUZAMOS IGEI SZERKEZETEK

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

A HUNGLISH PÁRHUZAMOS KORPUSZ

Mazsola eszköz a magyar igék bővítményszerkezetének vizsgálatára

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Igei szerkezetek gyakorisági szótára

A magyar létige problémái a számítógépes nyelvi elemzésben

IGEI SZERKEZETEK GYAKORISÁGI SZÓTÁRA

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Igei szerkezetek gyakorisági szótára félautomatikus szótárkészítés nyelvtechnológiai eszközök segítségével

Lexikon és nyelvtechnológia Földesi András /

Igekötős szerkezetek a magyarban

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

A kibővített Magyar történeti szövegtár új keresőfelülete

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

KORPUSZNYELVÉSZETI ESZKÖZ A MAGYAR IGÉK B VÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA

SEGÉDKÖNYVEK A NYELVÉSZET TANULMÁNYOZÁSÁHOZ XXVIII. Szerkesztette KIEFER FERENC

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

NYELVÉSZETI SZÖVEGKERESŐK, NEMZETI KORPUSZPORTÁL

Keresés korpuszban október 19., SZTE JGYPK Sass Bálint MTA Nyelvtudományi Intézet

TARTALOM. Tartalom. 1. (Bevezető) fejezet A MAGYAR NYELV oldal. A határozott névelő: a gitár, az autó

. Argumentumszerkezet: Lexikai szabályok, vagy konstrukciók? Kálmán László március 6.

MagyarOK 1. tanmenetek

2

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben november 13.

Lexikológia, lexikográfia a MID oktatásában

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Tartalomjegyzék. Bevezetés Az ige mondatalkotó képessége. 2. Az Objekt"-ek sorrendje főnevek, ill. névmások esetében.

Igei szerkezetek gyakorisági szótára

Magyar nyelvtan tanmenet 4. osztály

MagyarOK 1. tanmenetek

Tartalomjegyzék. Tartalomjegyzék

Babeş-Bolyai Tudományegyetem, Kolozsvár Bölcsészkar es tanév III. év, II. félév. I. Általános információk

Magyar nyelvű néprajzi keresőrendszer

0. előadás Motiváció

A nyelvtechnológia hatása napjaink lexikográfiájára

MORFOLÓGIAI FELÉPÍTÉS

A vonzatosság alternatív felfogása

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

Klasszikus héber nyelv 4.: Szintaxis

Magyar nyelvű történeti korpuszok

I. Alkalmazott Nyelvészeti Doktorandusz Konferencia. Budapest,

Nyelvtechnológia a lexikográfia szolgálatában Pajzs Júlia

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

Bevezetés a nyelvtudományba. 5. Szintaxis

FŐNÉVI VONZATOK A MAGYAR NYELVBEN

Klasszikus héber nyelv 4.: Szintaxis

A Hunglish Korpusz és szótár

2013/14. tanév. 3.osztály

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

Idegennyelv-tanulás támogatása statisztikai és nyelvi eszközökkel

0. előadás Motiváció. Dr. Kallós Gábor

A szóhasonlóság mértékének tesztelése CVCVC szerkezetű hangkivető főnevekkel. Rung András BME Fizikai Intézet

Strukturált nyelvi adatbázis létrehozása gépi tanulási módszerekkel. Kutatási terv

Nem mind VP, ami állít A névszói állítmány azonosítása számítógépes elemzőben

A tudásszint mérésének és mérhetőségének egy lehetőségéről

Számítógépes nyelvészet

Grammatikalizálódott kopula és prenominális módosítok a magyarban

A terminológiai adatbázisok gyakorlati haszna a terminológia és a fordító- tolmácsképzésben. Networkshop Április , Pécs

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Az angol nyelv logikája 6 MONDATSZERKEZET 1. A kijelentés

A számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete

Tagolatlan mondat szavakra tagolása, helyes leírása Ellenőrzés

Klasszikus héber nyelv 4.: Szintaxis

Piros és vörös színneveink korpuszalapú kognitív nyelvészeti vizsgálata: produktivitás, figurativitás és alapszínnévi státusz 1

MONDATTAN SZEMINÁRIUM A mellérendelő szintagma

Magyar nyelv és irodalom Fejlesztési terv

A Tinta e-book könyvtár/lexikontár címei:

Szakterületi modell A fogalmak megjelenítése. 9. fejezet Applying UML and Patterns Craig Larman

Sémi összehasonlító nyelvészet

Prószéky Gábor opponensi véleménye a. Németh T. Enikő. által az MTA doktora címért benyújtott. Interaction between grammar and pragmatics:

Klasszikus héber nyelv 4.: Szintaxis

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

A nem tipikus szövegek jelentésreprezentációjának egy kérdéséről

A félig kompozicionális szerkezetek gépi fordításainak lehetőségéről

RDFS. (Resource Description Frameworks Schema) Méréstechnika és Információs Rendszerek Tanszék

Kovács Dávid : FRANCIA ÉS MAGYAR KOLLOKÁCIÓK Tézisfüzet Témavezetők: Jean-Pierre Goudaillier et Balogh Péter

Kétnyelvű környezetben élő diákok (szerb és magyar anyanyelvűek) mentális lexikona

Klasszikus héber nyelv 4.: Szintaxis

MAGYAR NYELV a 8. évfolyamosok számára. MNy2 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

ALAKTAN ELŐADÁS 1-2. Alaktan, morfológia tárgya. Morfológia és mondattan viszonya. Morfológia univerzalitása. A szó fogalma I. Alaktan belső ügyei

Szabályalapú szintaktikai elemző szintaktikai szabályok nélkül

Szövetségi (föderatív) jogosultságkezelés

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP

MAGYAR NYELV a 8. évfolyamosok számára. MNy2 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Szintaxis. Tóth Ildikó, PhD. Bevezetés a nyelvtudományba. 5. előadás 2009 Pázmány Péter Katolikus Egyetem

A közbeékelt parentézis megszakítja a folyó megnyilatkozás folyamatosságát

3./ szemantikai határozatlanság (nagybácsi, nagynéni, szomszéd, asztal)

Átírás:

A Mazsola KORPUSZLEKÉRDEZŐ Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet PPKE ITK Eötvös Collegium Budapest, 2012. április 27. 1 / 34

1 HÁTTÉR 2 HASZNÁLAT 3 MIRE JÓ? 4 PÉLDÁK 2 / 34

1 HÁTTÉR 2 HASZNÁLAT 3 MIRE JÓ? 4 PÉLDÁK 3 / 34

IGE + BŐVÍTMÉNYEK Virágzik a cseresznye. A mennyországot a földdel egy híd köti össze, Az évszakhoz képest melegszik az idő hogy ezek, a mostani politikai helyzetből adódó élesebb hangok el fognak csendesülni. Zsoltárok, templomi énekek ritkán kerültek sorra. 4 / 34

IGE + BŐVÍTMÉNYEK Virágzik a cseresznye. ige + alany A mennyországot a földdel egy híd köti össze, elváló igekötő, 3 bővítmény Az évszakhoz képest melegszik az idő névutós bővítmény hogy ezek, a mostani politikai helyzetből adódó élesebb hangok el fognak csendesülni. segédige, elváló igekötő, alany szerkezete Zsoltárok, templomi énekek ritkán kerültek sorra. komplex ige 4 / 34

MONDATMODELL Szabad szórend... mondat = ige + a mellette álló bővítmények halmaza bővítmény = fej + eset PÉLDA A lány vállat vont. von lány váll-t 5 / 34

MONDATMODELL Virágzik a cseresznye. virágzik cseresznye A mennyországot a földdel egy híd köti össze, összeköt híd mennyország-t föld-val Az évszakhoz képest melegszik az idő melegszik idő évszak-hoz=képest hogy ezek, a mostani politikai helyzetből adódó élesebb hangok el fognak csendesülni. elcsendesül hang Zsoltárok, templomi énekek ritkán kerültek sorra. kerül ének sor-ra 6 / 34

MONDATMODELL morfoszintaktikailag (esetragok, névutók által meghatározott) bővítményi pozíciók bővítménykeret bővítményszerkezet = bővítménykeretek összessége PÉLDA von kétségbe -t von váll-t von -t von felelősség-ra -t más keret más jelentés, más igével való fordítás 7 / 34

KOMPLEX IGÉK kitöltött bővítmény elveszti önállóságát, igekötőszerűvé válik komplex ige: önálló ige önálló jelentéssel, önálló bővítményszerkezettel PÉLDÁK vesz -t (-ból) vesz rész-t -ban ad -t (-nak) ad hír-t -ról húz -t húz ujj-t -val Kétféle bővítmény: konkrét kötött szó lexikálisan kötött bővítmény bővítményi hely (esetrag) lexikálisan szabad bővítmény Mindkét típust ugyanazon nyelvi eszközökkel fejezzük ki: vet pillantás-t -ra vet szem-ra -t 8 / 34

FELDOLGOZÁSI LÉPÉSEK forrás: Magyar Nemzeti Szövegtár 187,6 millió szó tagmondatra bontás részleges szintaktikai elemzés funkcionális szerkezet = igető és bővítmények azonosítása a modell szerinti reprezentáció előállítása statisztika a lényeges, jellemző igei kereteket keressük 9 / 34

LÉNYEGESSÉG Lényeges kollokációk megragadására van jó eszközünk: az ún. salience mérték Adott bővítménynek a keret többi részéhez viszonyított salience-ét tudjuk kiszámolni. Ez az érték akkor magas, ha a bővítmény és a keret a vártnál gyakrabban fordul elő együtt, és a bővítmény gyakori. Amit vizsgálni tudunk: Melyek azok a lényeges szótövek, amelyek egy adott keret egy adott bővítményi helyét betölthetik?... beleértve az komplex igéket is. 10 / 34

1 HÁTTÉR 2 HASZNÁLAT 3 MIRE JÓ? 4 PÉLDÁK 11 / 34

A Mazsola HASZNÁLATA képes nagyméretű (10 8 szavas) korpuszok kezelésére a teljes Magyar Nemzeti Szövegtár anyagát tartalmazza melléknevek, főnevek bővítményszerkezetének vizsgálatára is alkalmas http://corpus.nytud.hu/mazsola 12 / 34

A Mazsola HASZNÁLATA képes nagyméretű (10 8 szavas) korpuszok kezelésére a teljes Magyar Nemzeti Szövegtár anyagát tartalmazza melléknevek, főnevek bővítményszerkezetének vizsgálatára is alkalmas http://corpus.nytud.hu/mazsola 12 / 34

A Mazsola HASZNÁLATA képes nagyméretű (10 8 szavas) korpuszok kezelésére a teljes Magyar Nemzeti Szövegtár anyagát tartalmazza melléknevek, főnevek bővítményszerkezetének vizsgálatára is alkalmas http://corpus.nytud.hu/mazsola 12 / 34

A Mazsola HASZNÁLATA képes nagyméretű (10 8 szavas) korpuszok kezelésére a teljes Magyar Nemzeti Szövegtár anyagát tartalmazza melléknevek, főnevek bővítményszerkezetének vizsgálatára is alkalmas http://corpus.nytud.hu/mazsola 12 / 34

A Mazsola HASZNÁLATA képes nagyméretű (10 8 szavas) korpuszok kezelésére a teljes Magyar Nemzeti Szövegtár anyagát tartalmazza melléknevek, főnevek bővítményszerkezetének vizsgálatára is alkalmas http://corpus.nytud.hu/mazsola 12 / 34

A Mazsola HASZNÁLATA képes nagyméretű (10 8 szavas) korpuszok kezelésére a teljes Magyar Nemzeti Szövegtár anyagát tartalmazza melléknevek, főnevek bővítményszerkezetének vizsgálatára is alkalmas http://corpus.nytud.hu/mazsola 12 / 34

13 / 34

13 / 34

14 / 34

A Mazsola MŰKÖDÉSE Kétféle tipikus bővítményt szolgáltat: 1 szó szerinti értelmű szavak, melyek sok esetben szemantikailag egységes csoportot alkotnak vö.: áttekint -t 2 idiomatikus, komplex igék, szólások elemét alkotó szavak vö.: hány -t Ezek legtöbbször keverednek: eszik -t 1 tárgyi bővítményként megjelenő különféle ételek: (kenyér, hús, hal, leves stb.) 2 de: kása nem eszik olyan forrón a kását 15 / 34

PÉLDÁK KOMPLEX IGÉKRE hány -t fitty hány -ra kerül alá rejt alá hoz alá helyez alá vesz alá 16 / 34

PÉLDÁK KOMPLEX IGÉKRE hány -t fitty hány -ra szem kerül alá víz, kalapács, fennhatóság rejt alá véka hoz alá tető helyez alá vád vesz alá górcső, kalap, tűz 16 / 34

1 HÁTTÉR 2 HASZNÁLAT 3 MIRE JÓ? 4 PÉLDÁK 17 / 34

ALKALMAZÁS A MÚLT magyar-angol gépi fordítóprogram igei lexikai adatbázisának fejlesztése: speciálisan forduló szavakat kerestünk a szabad igei keretekhez valós adatok, idiolektustól független, objektív munka; új jelentések, új használati módok felfedezése http://www.webforditas.hu magyar gyakorisági vonzatkeret-szótár alapjául szolgált Sass Váradi Pajzs Kiss: Magyar igei szerkezetek A leggyakoribb vonzatok és szókapcsolatok szótára. Tinta, 2010. 18 / 34

ALKALMAZÁS A JÖVŐ anyanyelvi nevelés igei szinonimák vizsgálata: kever kavar komplex igék vizsgálata: egybeírás, önálló vonzat stílusrétegek összehasonlítása: ad -t Magyar Nemzet: otthon, hír Index fórumok: igaz, tipp magyar mint idegen nyelv oktatása lexikográfia nyelvészeti kutatás gyakorisági vizsgálatok igék szemantikai osztályozása azonos bővítménykeret alapján: nő emelkedik igék szemantikus szelekciójának vizsgálata: visel -t 19 / 34

1 HÁTTÉR 2 HASZNÁLAT 3 MIRE JÓ? 4 PÉLDÁK 20 / 34

21 / 34

22 / 34

22 / 34

23 / 34

24 / 34

24 / 34

25 / 34

26 / 34

27 / 34

28 / 34

28 / 34

29 / 34

30 / 34

30 / 34

31 / 34

32 / 34

33 / 34

HOZZÁFÉRÉS Az MNSZ-szel közös regisztráció után szabadon hozzáférhető. http://corpus.nytud.hu/mazsola ideiglenes felhasználói név: vendeg ideiglenes jelszó: mazsola További infó: http://digitus.itk.ppke.hu/ sass/phd/sass_dolgozat.pdf 34 / 34

HOZZÁFÉRÉS Az MNSZ-szel közös regisztráció után szabadon hozzáférhető. http://corpus.nytud.hu/mazsola ideiglenes felhasználói név: vendeg ideiglenes jelszó: mazsola További infó: http://digitus.itk.ppke.hu/ sass/phd/sass_dolgozat.pdf Köszönöm a figyelmet! sass.balint@nytud.mta.hu 34 / 34