Korpuszlekérdezők evolúciója

Hasonló dokumentumok
KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

NYELVÉSZETI SZÖVEGKERESŐK, NEMZETI KORPUSZPORTÁL

A Mazsola KORPUSZLEKÉRDEZŐ

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A kibővített Magyar történeti szövegtár új keresőfelülete

Keresés korpuszban október 19., SZTE JGYPK Sass Bálint MTA Nyelvtudományi Intézet

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP

Magyar nyelvű történeti korpuszok

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

A HUNGLISH PÁRHUZAMOS KORPUSZ

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Az Ómagyar Korpusz bemutatása

Igekötős szerkezetek a magyarban

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

SZÖVEGES LEJEGYZÉSBŐL NYELVI ADATBÁZIS

Beszéd- és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

28 millió szintaktikailag elemzett mondat és igei szerkezet

Érettségi eredmények 2005-től (Békéscsabai Andrássy Gyula Gimnázium és Kollégium)

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Feleletválasztós gyakorlófeladatok a Hangtan II. jegyzethez Magánhangzók

Az URaLUID adatbázis bemutatása

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

PÁRHUZAMOS IGEI SZERKEZETEK

A Hunglish Korpusz és szótár

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

Intelligens elektronikus szótár és lexikai adatbázis

Különírás-egybeírás automatikusan

KONYHABÚTOR FELSŐK ELEMJEGYZÉKE

KERESÉS KORPUSZBAN: A KIBŐVÍTETT MAGYAR TÖRTÉNETI SZÖVEGTÁR ÚJ KERESŐFELÜLETE

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

A szóképzés. A szóalkotásnak az a módja, amikor a szótőhöz egy képző hozzájárulásával új szó jön létre.

Igei szerkezetek gyakorisági szótára

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Lexikon és nyelvtechnológia Földesi András /

Ismerkedjünk meg a Linuxszal!

I. Alkalmazott Nyelvészeti Doktorandusz Konferencia. Budapest,

Nyelvtechnológia a lexikográfia szolgálatában Pajzs Júlia

MÉRTÉK MÉDIAELEMZŐ MŰHELY NAVRATIL SZONJA SAJTÓSZABADSÁG 2012

Korpuszneveink helyesírásáról

Simon Eszter április 19. MTA Nyelvtudományi Intézet. Korpuszépítés ómagyar kódexekből. Simon Eszter. Bemutatás. Anyaggyűjtés.

A magyar létige problémái a számítógépes nyelvi elemzésben

Az új magyar Braille-rövidírás kialakítása

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

E-Kataszteri rendszer ismertető

PartSoft Informatikai Kft. KÖNNY felhasználói kézikönyv 1 Általános információk Számítástechnikai alapok Felhasználói ismeretek...

Egy hirtelen ötlet december 30. felmerült egy kérdés: Vajon mi jellemző a magyar fiatalok közösségi média használatára?

Önálló labor feladatkiírásaim tavasz

ELTE TáTK Közgazdaságtudományi Tanszék ESSZÉÍRÁS. Készítette: Reich Orsolya. Szakmai felelős: Wessely Anna június

Klasszikus héber nyelv 4.: Szintaxis

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

API-MÁGIA MILLIÓ SORNYI ADAT ÚJRARENDEZÉSE. Előadó: Jaksa Zsombor, drungli.com

Abban a farmerba nem mehetsz színházba. A (bvn) variabilitásának vizsgálata a BUSZI tesz9eladataiban

Elektronikus szolgáltatás igénylés megvalósítása a NIIFI-ben. 2011/11/10 HBONE Workshop. Kiss Zoltán

Ablak által világosan Vonzatkeret-egyértelműsítés az igekötők és az infinitívuszi vonzatok segítségével

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

A természet éltető ereje - interjú Szőke Andrással

Nyelvészet. I. Témakör: Leíró nyelvtan

Strukturált nyelvi adatbázis létrehozása gépi tanulási módszerekkel. Kutatási terv

XI. Magyar Számítógépes Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila Varga Viktor Vincze Veronika

8. Gyermek-és Ifjúsági Színházi Szemle a Marczin

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában

A hangok a fejemben, avagy: mi a fonológia?

AZ ALGORITMUS. az eredményt szolgáltatja

Alkalmazott Nyelvészeti Tanszékek 7. Országos Találkozója

Adatbázis, adatbázis-kezelő

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

A számítógépes nyelvészet elmélete és gyakorlata. A számítógépes feldolgozás szempontjából fontos természetes nyelvi jelenségek

Él vagy élettelen? 1. Bevezetés. Szeged, december Sass Bálint. Hogyan fordítanánk angolra az alábbi két magyar mondatot?

Beszédkutatás a technológiai fejlődés tükrében. Gráczi Tekla Etelka MTA Nyelvtudományi Intézet, Fonetikai osztály

Megújult az ARTISJUS Szerzői Információs Rendszere (SZIR) Online adatszolgáltatás szerzőknek bármikor, bárhonnan

w w w. h a n s a g i i s k. h u

O & ko zèpmaǵar zoalactanÿ èlèmzo

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

középső o Nyelv eleje magasabban magas hátulja magasabban mély o Ajak kerekítés (labiális) rés (illabiális) o Hossz rövid hosszú Mássalhangzók o Idő

OSZTHATÓSÁG. Osztók és többszörösök : a 3 többszörösei : a 4 többszörösei Ahol mindkét jel megtalálható a 12 többszöröseit találjuk.

INFORMATIKA TANMENET SZAKKÖZÉPISKOLA 9.NY OSZTÁLY HETI 4 ÓRA 37 HÉT/ ÖSSZ 148 ÓRA

Az MTA Nyelvtudományi Intézet évi fő kutatási céljai. Nyelvtudományi alapkutatások végzése

Orsolya egyetemi docens. egyetemi docens dr. Beretzky Ágnes egyetemi docens dr. Sárosdyné dr. Szabó Judit egyetemi docens. Szabó Judit egyetemi docens

Kérdőív. Intézettípus kódja: 41. A felmérésben részt vevő intézetek:

Tartalomjegyzék. Köszönetnyilvánítás. 1. Az alapok 1

HOGYAN LELJÜNK BARÁTOKAT A KORPUSZBAN?

Kódolás. A számítógép adatokkal dolgozik. Értelmezzük az adat és az információ fogalmát.


Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben november 13.

2013/2014.tanév TANMENET

TARTALOM. Tartalom. 1. (Bevezető) fejezet A MAGYAR NYELV oldal. A határozott névelő: a gitár, az autó

Szeretetotthoni működés minőségügyi szemléletben A cél az út maga

Éjszakai járatok közlekedése

E-Kataszteri rendszer ismertető

Bevezetés az informatikába

PurePos: hatékony morfológiai egyértelműsítő modul

Ismertetés keretében adható. Dr. Popp Gábor KEB tag (AIPM/Servier)

Átírás:

Korpuszlekérdezők evolúciója Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály 2015. november 10.

korpusz? lekérdező? 2 / 19

korpusz = sok szöveg lekérdező? 2 / 19

korpusz = sok szöveg lekérdező? 2 / 19

korpusz = sok szöveg lekérdező = szavakat keresünk benne 2 / 19

korpusz = sok szöveg lekérdező = szavakat keresünk benne 2 / 19

korpusz = sok szöveg lekérdező = szavakat keresünk benne + nyelvészetileg releváns kérdéseket fogunk feltenni + számítógépes rendszerek 2 / 19

korpusz = sok szöveg lekérdező = szavakat keresünk benne + nyelvészetileg releváns kérdéseket fogunk feltenni + számítógépes rendszerek Nyelvészeti szövegkeresők fejlődése 2 / 19

1230: Biblia és konkordancia 3 / 19

1230: Biblia és konkordancia konkordancia: a Bibliához készült tárgymutató, hol szerepel az adott szó. az elsőt 1230-ban készítették domonkos szerzetesek tartalmi, fogalmi nem nyelvészeti 3 / 19

1998: 4 / 19

1998: Ugyanaz! :) Sok szövegben szavakat keresünk. 4 / 19

Korpuszlekérdező = nyelvészeti szövegkereső Nyelvi tudású keresőt szeretnénk, ami nyelvi adatot szolgáltat a nyelvészeti kutatás, a magyar nyelv vizsgálata számára. Mi benne a nyelvi tudás? Annotált. Mitől nyelvészeti? Nyelvészetileg releváns kérdésekre válaszol. Nem csak adott szavakat, hanem nyelvészeti szempontok szerint megadott szóosztályokat lehet keresni. körülültük, felszedegettük, elsimítottuk, végigcsináltuk forrásokban, fellegekben, falvakban, fejekben cél, csal, csaj, csel, dzsal + adott tulajdonságú szavak sorozatai mi? + milyen gyakran? milyen környezetben? 5 / 19

2005: MNSZ1 a Magyar Nemzeti Szövegtár első változata 187 millió szó szépirodalom, hivatalos, tudományos, sajtó, internetes fórumok hazai és határon túli anyag MNSZ1 100m 6 / 19

2005: MNSZ1 ember 6 / 19

2005: MNSZ1 fut után 6 / 19

2009: Mazsola az MNSZ1 anyaga más szempontból igék és bővítmények vizsgálata a szórend fölött általánosítunk 7 / 19

2009: Mazsola az MNSZ1 anyaga más szempontból igék és bővítmények vizsgálata a szórend fölött általánosítunk hagy? -t = mi a tárgy? 7 / 19

2009: Mazsola az MNSZ1 anyaga más szempontból igék és bővítmények vizsgálata a szórend fölött általánosítunk hagy? -t = mi a tárgy? kívánnivalót, nyomot, kétséget, üzenetet 7 / 19

2009: Mazsola az MNSZ1 anyaga más szempontból igék és bővítmények vizsgálata a szórend fölött általánosítunk hagy? -t = mi a tárgy? kívánnivalót, nyomot, kétséget, üzenetet? hideg hátán = mi az ige? 7 / 19

2009: Mazsola az MNSZ1 anyaga más szempontból igék és bővítmények vizsgálata a szórend fölött általánosítunk hagy? -t = mi a tárgy? kívánnivalót, nyomot, kétséget, üzenetet? hideg hátán = mi az ige? végigfut, futkos, futkározik 7 / 19

2012: BUSZI Budapesti Szociolingvisztikai Interjú 270000 szó részletesen lejegyzett beszélt nyelvi korpusz gazdag annotáció 8 / 19

2012: BUSZI Budapesti Szociolingvisztikai Interjú 270000 szó részletesen lejegyzett beszélt nyelvi korpusz gazdag annotáció... bizonyos dógokban mmm tát, hogy ööö lustább annál, mint amilyennek elkép*zel*tem,... 8 / 19

2012: BUSZI Budapesti Szociolingvisztikai Interjú 270000 szó részletesen lejegyzett beszélt nyelvi korpusz gazdag annotáció... bizonyos dógokban mmm tát, hogy ööö lustább annál, mint amilyennek elkép*zel*tem,... Majnem mindig kiesik a d. 8 / 19

2013: Ómagyar Korpusz az összes ómagyar kódex szövege 2 millió szó egységes forma, kódolás, annotáció speciális karakterek: ý, ÿ... ómagyar morfológia 9 / 19

2013: Ómagyar Korpusz az összes ómagyar kódex szövege 2 millió szó egységes forma, kódolás, annotáció speciális karakterek: ý, ÿ... ómagyar morfológia szórendi vizsgálat: nem futott ki ki nem futott 9 / 19

2013: Ómagyar Korpusz az összes ómagyar kódex szövege 2 millió szó egységes forma, kódolás, annotáció speciális karakterek: ý, ÿ... ómagyar morfológia szórendi vizsgálat: nem futott ki ki nem futott Ver touaba kÿ nem futott egyenes szórend! 9 / 19

2014: MNSZ2 összetett szavak, fonológiai jegyek, képzők szűrés, gyakorisági listák, kollokációvizsgálat 10 / 19

2014: MNSZ2 összetett szavak, fonológiai jegyek, képzők szűrés, gyakorisági listák, kollokációvizsgálat megállapítás, fantazmagória, ötlet, marhaság, fantáziálás, dolog, érvelés, állítás, vád 10 / 19

2014: MNSZ2 összetett szavak, fonológiai jegyek, képzők szűrés, gyakorisági listák, kollokációvizsgálat megállapítás, fantazmagória, ötlet, marhaság, fantáziálás, dolog, érvelés, állítás, vád légbőlkapott 10 / 19

2014: MNSZ2 11 / 19

2014: MNSZ2: farmerban vagy farmerben (1/4) 11 / 19

2014: MNSZ2: farmerban vagy farmerben (1/4) magas hangrendű szóhoz magas hangrendű toldalék, mély és vegyes hangrendűhöz pedig mély hangrendű toldalék kapcsolódik. (Wikipedia) mély / hátulképzett: öőüű neutrális: eéií magas / elölképzett: aáoóuú bánatban örömben neutrális: átmegy rajta a harmónia : Sanyival Bözsivel kérdés: farmerban vagy farmerben? a neutrális e miatt farmerban-t várunk 12 / 19

2014: MNSZ2: farmerban vagy farmerben (2/4) lekérdezések: {con}{bck}{con}{con}{neu}{con}ban {con}{bck}{con}{con}{neu}{con}ben 13 / 19

2014: MNSZ2: farmerban vagy farmerben (2/4) lekérdezések: {con}{bck}{con}{con}{neu}{con}ban = 11103 db {con}{bck}{con}{con}{neu}{con}ben = 15020 db -ban 185 féle szó csak -ban: 163 féle szó mindkettő: 22 féle szó -ben 267 féle szó csak -ben: 245 féle szó 13 / 19

2014: MNSZ2: farmerban vagy farmerben (3/4) csak -ban: kastély, Madrid, szomszéd, pótlék, kasmír, szándék ezt vártuk csak -ben: két csoport látszik háttér, napfény, tárgyév, módszer, raktér, nagyrész, gyógyszer, csapvíz garden, tajpej, harlem, tandem... és mi van középen? 14 / 19

2014: MNSZ2: farmerban vagy farmerben (3/4) csak -ban: kastély, Madrid, szomszéd, pótlék, kasmír, szándék ezt vártuk csak -ben: két csoport látszik összetett szavak: háttér, napfény, tárgyév, módszer, raktér, nagyrész, gyógyszer, csapvíz (itt ezt vártuk) garden, tajpej, harlem, tandem... és mi van középen? 14 / 19

2014: MNSZ2: farmerban vagy farmerben (3/4) csak -ban: kastély, Madrid, szomszéd, pótlék, kasmír, szándék ezt vártuk csak -ben: két csoport látszik összetett szavak: háttér, napfény, tárgyév, módszer, raktér, nagyrész, gyógyszer, csapvíz (itt ezt vártuk) idegen szavak: garden, tajpej, harlem, tandem (!)... és mi van középen? 14 / 19

2014: MNSZ2: farmerban vagy farmerben (4/4) ban ben ban ben honvéd 160 15 11x farmer 155 156 1x 1x gundel 18 19 1x 1x koffer 16 29 2x (!) bunker 62 214 3x (!) gallen 4 23 6x (!) carmen 3 25 8x (!) hamlet 6 78 13x (!) dzsungel 30 569 19x (!) 15 / 19

2014: MNSZ2: farmerban vagy farmerben (4/4) ban ben ban ben honvéd 160 15 11x farmer 155 156 1x 1x gundel 18 19 1x 1x koffer 16 29 2x (!) bunker 62 214 3x (!) gallen 4 23 6x (!) carmen 3 25 8x (!) hamlet 6 78 13x (!) dzsungel 30 569 19x (!) esetleg: -ban/-ben arány idegenség? 15 / 19

2014: MNSZ2: éles lekérdezés kérdés: az öcsém öcsém [msd=".*ige.*" & msd!=".*_okep.*"] [msd="det"] [lemma="(öcs húg báty nővér)" & msd=".*pse1.*"] = 481 [msd=".*ige.*" & msd!=".*_okep.*"] [lemma="(öcs húg báty nővér)" & msd=".*pse1.*"] = 219 az esetek kb. negyede névelőtörléses 16 / 19

Összefoglalás A korpuszlekérdezők fejlődésének területei az elmúlt 15 évben: 1 egyre nagyobb teljesítményű számítógépek nagyobb korpuszok, gyorsabb lekérdezés 2 egyre jobb, fejlődő korpuszkezelő rendszerek ezért nem egységes a használt rendszer 3 egyre jobb, fejlődő elemzőeszközök ezeknek köszönhető az annotáció 17 / 19

Lehetséges jövő Nemzeti Korpuszportál minden meglévő korpusz együtt, egy helyen minden meglévő korpuszlekérdező funkció együtt, egy helyen minden funkció azokra a korpuszokra alkalmazva, amire lehetséges valamint: bárki hozzáadhassa a saját korpuszát, hozzárendelhessen funkciókat, és így közzétehesse 18 / 19

Elérhetőség MNSZ1 és MNSZ2: Mazsola: BUSZI: Ómagyar korpusz: http://mnsz.nytud.hu http://corpus.nytud.hu/mazsola http://buszi.nytud.hu http://omagyarkorpusz.nytud.hu 19 / 19

Elérhetőség MNSZ1 és MNSZ2: Mazsola: BUSZI: Ómagyar korpusz: http://mnsz.nytud.hu http://corpus.nytud.hu/mazsola http://buszi.nytud.hu http://omagyarkorpusz.nytud.hu Köszönöm a figyelmet! Sass Bálint sass.balint@nytud.mta.hu 19 / 19