Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Hasonló dokumentumok
A Mazsola KORPUSZLEKÉRDEZŐ

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

PÁRHUZAMOS IGEI SZERKEZETEK

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Korpuszlekérdezők evolúciója

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

A szótárról. 1. Mi ez?

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

28 millió szintaktikailag elemzett mondat és igei szerkezet

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Érettségi eredmények 2005-től (Békéscsabai Andrássy Gyula Gimnázium és Kollégium)

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

A Hunglish Korpusz és szótár

Igekötős szerkezetek a magyarban

KONYHABÚTOR FELSŐK ELEMJEGYZÉKE

Magyar nyelvtan tanmenet 4. osztály

A HUNGLISH PÁRHUZAMOS KORPUSZ

Lexikon és nyelvtechnológia Földesi András /

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

A kibővített Magyar történeti szövegtár új keresőfelülete

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

MORFOLÓGIAI FELÉPÍTÉS

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

Anaforafeloldás menet közben

Igei szerkezetek gyakorisági szótára

Magyar nyelvű néprajzi keresőrendszer


Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

MAGYAR NYELV a 8. évfolyamosok számára. MNy2 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Adatbázis-lekérdezés. Az SQL nyelv. Makány György

Klasszikus héber nyelv 4.: Szintaxis

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

. Argumentumszerkezet: Lexikai szabályok, vagy konstrukciók? Kálmán László március 6.

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Digitális terminológus

Mazsola eszköz a magyar igék bővítményszerkezetének vizsgálatára

KORPUSZNYELVÉSZETI ESZKÖZ A MAGYAR IGÉK B VÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA

ÚTMUTATÓ A SZÓTÁR HASZNÁLATÁHOZ

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Kriopirin-Asszociált Periodikus Szindróma (CAPS)

Nyelvtechnológia a lexikográfia szolgálatában Pajzs Júlia

Tartalomjegyzék. Bevezetés Az ige mondatalkotó képessége. 2. Az Objekt"-ek sorrendje főnevek, ill. névmások esetében.

Igei szerkezetek gyakorisági szótára félautomatikus szótárkészítés nyelvtechnológiai eszközök segítségével

MAKROÖKONÓMIA. Készítette: Horváth Áron, Pete Péter. Szakmai felelős: Pete Péter február

Magyar nyelvű történeti korpuszok

Klasszikus héber nyelv 4.: Szintaxis

Klasszikus héber nyelv 4.: Szintaxis

I. Alkalmazott Nyelvészeti Doktorandusz Konferencia. Budapest,

SEGÉDKÖNYVEK A NYELVÉSZET TANULMÁNYOZÁSÁHOZ XXVIII. Szerkesztette KIEFER FERENC

IGEI SZERKEZETEK GYAKORISÁGI SZÓTÁRA

FŐNÉVI VONZATOK A MAGYAR NYELVBEN

MAGYAR NYELV a 8. évfolyamosok számára. MNy1 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

Klasszikus héber nyelv 4.: Szintaxis

TARTALOM. Tartalom. 1. (Bevezető) fejezet A MAGYAR NYELV oldal. A határozott névelő: a gitár, az autó

Milyen a még jobb Humor?

ALAKTAN ELŐADÁS 1-2. Alaktan, morfológia tárgya. Morfológia és mondattan viszonya. Morfológia univerzalitása. A szó fogalma I. Alaktan belső ügyei

A regisztrált álláskeresők számára vonatkozó becslések előrejelző képességének vizsgálata

NYELVÉSZETI SZÖVEGKERESŐK, NEMZETI KORPUSZPORTÁL

Intelligens elektronikus szótár és lexikai adatbázis

A magyar létige problémái a számítógépes nyelvi elemzésben

2018/89 ELNÖKI TÁJÉKOZTATÓ Budapest, Riadó u Pf Tel.:

Gurály Zoltán. A Budapesten elő hajléktalan emberek egészsége február 3.

A nyelvtani szabályok bemutatási módjai három magyar nyelvkönyvben

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

3. osztály Megoldások és pontozási útmutató

KOPI. Többnyelvű dokumentum nyelvének megállapítása MTA SZTAKI DSD. Vajna Miklós Pataki Máté MSZNY Department of Distributed Systems

Simon Eszter április 19. MTA Nyelvtudományi Intézet. Korpuszépítés ómagyar kódexekből. Simon Eszter. Bemutatás. Anyaggyűjtés.

Access alapok. Megnevezés Művelet Minta. Új adatbázis létrehozása. Új / Üres adatbázis.. Tábla létrehozása tervező nézetben.

Tájékoztató. Használható segédeszköz: -

Adatbázis rendszerek. 4. előadás Redundancia, normalizálás

0. előadás Motiváció

Modális diskurzív szerkezetek Az episztemikus kifejezések kapcsolódásának vizsgálati módszerei szövegkorpuszban

Különírás-egybeírás automatikusan

%XGDSHVW NHU OHW +DYDQQD. (J\V]HPpO\HV Ki]WDUWiV

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

A Zotero hivatkozáskezelő program bemutatása. Mátyás Melinda

Abacom CRM rendszer használati utasítás

TANEGYSÉGLISTA (BA) Szabad bölcsészet alapszak filmelmélet és filmtörténet szakmai modul (specializáció) 2018-tól fölvett hallgatóknak

Matematikai modellezés

Adatbázis rendszerek Definíciók:

Az észlelt kontroll és a személyiség szerepe az egészségi állapot változásában. Egészségmagatartás Osváth Viola

Zsemlyei János A MAI MAGYAR NYELV SZÓKÉSZLETE ÉS SZÓTÁRAI

7. Gyakorlat A relációs adatmodell műveleti része

A KONFLIKTUS, AMI ÖSSZEKÖT A kirekesztéstől a befogadásig

Tanegységlista (BA) Modern filológia képzési ág. Germanisztika alapszak (BA) német szakirány 2019-től fölvett hallgatóknak

4.2. Tétel: Legyen gyenge rendezés az X halmazon. Legyen továbbá B X, amelyre

Idegen nyelvi kommunikátor Kommunikátor

Betegtájékoztató JANUMET 50 MG/1000 MG FILMTABLETTA. Janumet 50 mg/1000 mg filmtabletta szitagliptin/metformin-hidroklorid

Értékelőlap a Kiváló magyar szótár versenyhez

Előterjesztés. Lajosmizse Város Önkormányzata Képviselő-testületének október 22-i ülésére

NYELVHELYESSÉGI GYAKORLATOK

nyelvi korpusz alapján

emtsv Egy formátum mind felett

Egészítsük ki a Drupal-t. Drupal modul fejlesztés

Átírás:

Mazsola mindenkinek Sass Bálint MTA Nyelvtudományi Intézet 2018. január 18. MSZNY 2018, Szeged

Példa http://corpus.nytud.hu/mazsola Lekérdezés: iszik + -t 2/15

Háttér adatbázis Ha a város a tárcáktól pénzt nyer, stem@@nyer ABL@@tárca ACC@@pénz NOM@@város 3/15

Háttér adatbázis Ha a város a tárcáktól pénzt nyer, stem@@nyer ABL@@tárca ACC@@pénz NOM@@város Igető. 3/15

Háttér adatbázis Ha a város a tárcáktól pénzt nyer, stem@@nyer ABL@@tárca ACC@@pénz NOM@@város Bővítmények. 3/15

Háttér adatbázis Ha a város a tárcáktól pénzt nyer, stem@@nyer ABL@@tárca ACC@@pénz NOM@@város Lekérdezés: nyer + -t Mi történik? Megnézi, hogy mely szavak jellegzetesek ezen a helyen. Jellegzetesség: gyakrabban fordul elő ebben a környezetben, mint általában. A jellegzetes szavak között ott lesz a pénz. Hasonlóan: rá lehet kérdezni az igére is. Lekérdezés: pénz-t A jellegzetes igék között ott lesz a nyer. 3/15

Példa http://corpus.nytud.hu/mazsola 4/15

Eredmény: szemantikailag koherens szóosztályok szám méret kicsi nagy 1 sok 5/15

Visszafelé: bővítmény ige Lekérdezés: hideg hátán 6/15

Feladatmegoldás Mazsolával 1/2 kiküszöböli a csorbát (?) csorbát szenved, ejt, kiköszörül (sok), kiküszöböl (kevés) kiköszörül -t csorba kiküszöböl -t (gyakoribb!) számos különféle tárgy, gyakori jelentéselem a valamiféle hiányosság (hiba, hiányosság, probléma, anomália stb.). 7/15

Feladatmegoldás Mazsolával 1/2 kiküszöböli a csorbát (?) csorbát szenved, ejt, kiköszörül (sok), kiküszöböl (kevés) kiköszörül -t csorba kiküszöböl -t (gyakoribb!) számos különféle tárgy, gyakori jelentéselem a valamiféle hiányosság (hiba, hiányosság, probléma, anomália stb.). A gyakoribb és nagyon hasonló hangzású kifejezés magába olvasztotta a ritkább, hasonló jelentésű kifejezést. 7/15

Feladatmegoldás Mazsolával 2/2 össze és -val 1. jellemzően -val ragos bővítménnyel: összefügg, összeköt, összehasonlít, összekever, stb. 2. jellemzően -val ragos bővítmény nélkül: összegyűlik, összeállít, összehív, összeszed stb. 8/15

Feladatmegoldás Mazsolával 2/2 össze és -val 1. jellemzően -val ragos bővítménnyel: összefügg, összeköt, összehasonlít, összekever, stb. 2. jellemzően -val ragos bővítmény nélkül: összegyűlik, összeállít, összehív, összeszed stb. két dolgot állítunk relációba sok dolgot állítunk relációba két csoportra osztva strukturálhatjuk az össze igekötő jelentéseit (az alapigétől függetlenül) mondhatjuk: a -val az első esetben az igekötő vonzata 8/15

Cél A közzététel célja: a fentiekhez hasonló, magyar igék és bővítmények viszonyainak vizsgálatára alkalmas eszközt bárki készíthessen a saját adataival. 9/15

Cél A közzététel célja: a fentiekhez hasonló, magyar igék és bővítmények viszonyainak vizsgálatára alkalmas eszközt bárki készíthessen a saját adataival. Vagy akár más nyelvre. 9/15

Cél A közzététel célja: a fentiekhez hasonló, magyar igék és bővítmények viszonyainak vizsgálatára alkalmas eszközt bárki készíthessen a saját adataival. Vagy akár más nyelvre. Vagy akár párhuzamos korpuszra. 9/15

Cél A közzététel célja: a fentiekhez hasonló, magyar igék és bővítmények viszonyainak vizsgálatára alkalmas eszközt bárki készíthessen a saját adataival. Vagy akár más nyelvre. Vagy akár párhuzamos korpuszra. Vagy akár egyéb strukturákra. 9/15

Cél A közzététel célja: a fentiekhez hasonló, magyar igék és bővítmények viszonyainak vizsgálatára alkalmas eszközt bárki készíthessen a saját adataival. Vagy akár más nyelvre. Vagy akár párhuzamos korpuszra. Vagy akár egyéb strukturákra. Minden esetben ugyanúgy igaz lesz: az adott pozíciókban előforduló jellegzetes entitásokat fogja eredményül adni a Mazsola. Minden azon múlik, hogy az adatbázisban mit hogyan reprezentálunk. Alkalmasan választott kódolással a fentiek megvalósíthatók. 9/15

Párhuzamos korpusz nl_deze te vertalen in wiskundige formules. / fr_les traduire en expressions mathématiques. stem@@nl_vertalen+fr_traduire fr_en@@expression nl_in@@formule 10/15

Párhuzamos korpusz nl_deze te vertalen in wiskundige formules. / fr_les traduire en expressions mathématiques. stem@@nl_vertalen+fr_traduire fr_en@@expression nl_in@@formule Nyelvek címkével megjelölve. 10/15

Párhuzamos korpusz nl_deze te vertalen in wiskundige formules. / fr_les traduire en expressions mathématiques. stem@@nl_vertalen+fr_traduire fr_en@@expression nl_in@@formule Igepár. 10/15

Párhuzamos korpusz nl_deze te vertalen in wiskundige formules. / fr_les traduire en expressions mathématiques. stem@@nl_vertalen+fr_traduire fr_en@@expression nl_in@@formule Bővítmények. 10/15

Párhuzamos korpusz nl_deze te vertalen in wiskundige formules. / fr_les traduire en expressions mathématiques. stem@@nl_vertalen+fr_traduire fr_en@@expression nl_in@@formule Lekérdezés: nl_maken+fr_faire nl_acc=deel fr_acc=? partie 10/15

Párhuzamos korpusz modell ige NOM ACC INS... w 1 w 2 w 3 11/15

Párhuzamos korpusz modell ige ige 1 +ige 2 NOM ACC INS... NOM 1 NOM 2 ACC 1... w 1 w 2 w 3 w 1 w 2 w 3 11/15

Főnévre szabad szemmel stem@@szem ADJ@@szabad CAS@@INS NUM@@sg 12/15

Főnévre szabad szemmel stem@@szem ADJ@@szabad CAS@@INS NUM@@sg A főnévi fej. 12/15

Főnévre szabad szemmel stem@@szem ADJ@@szabad CAS@@INS NUM@@sg A főnévi csoport jellemzői. Ezek a jellemzők eltérő típusúak. 12/15

Főnévre szabad szemmel stem@@szem ADJ@@szabad CAS@@INS NUM@@sg Lekérdezés: fül CAS=-rA NUM=PL ADJ=? 12/15

Főnévre szabad szemmel stem@@szem ADJ@@szabad CAS@@INS NUM@@sg Lekérdezés: fül CAS=-rA NUM=PL ADJ=? süket 12/15

Főnévre modell ige NOM ACC INS... w 1 w 2 w 3 13/15

Főnévre modell ige fn NOM ACC INS... ADJ CAS NUM... w 1 w 2 w 3 w c sg/pl 13/15

Főnévre modell ige fn NOM ACC INS... ADJ CAS NUM... w 1 w 2 w 3 w c sg/pl összekever szezont fazonnal süket fülekre Megj: a klasszikus igés Mazsola csak a szótöveket tekintette, a morfológiai jegyeket figyelmen kívül hagyta, most tekintetbe vesszük a számot, így adott esetben ki is tud jönni jellegzetesként. 13/15

Elérhető https://github.com/sassbalint/mazsola Itt megtalálható: minta-adatbázisok installálás leírása config-minták új adatbázishoz Böngészőből használható. http://corpus.nytud.hu/mazsola3 itt elérhető egy ideiglenes install mintaadatokkal 14/15

Összegzés Szabadon elérhető, használható a Mazsola eszköz. Más/saját korpusz használatával bárki egyszerűen készíthet hasonló funkcionalitású kutatóeszközt. A Mazsola általánossága révén alkalmazható... nem csak magyar nyelvű, hanem más nyelvű szövegek kezelésére is; nem csak egynyelvű, hanem párhuzamos korpuszra is; nem csak igék és bővítmények, hanem egyéb struktúrák vizsgálatára is. 15/15