KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Hasonló dokumentumok
Korpuszlekérdezők evolúciója

NYELVÉSZETI SZÖVEGKERESŐK, NEMZETI KORPUSZPORTÁL

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

A kibővített Magyar történeti szövegtár új keresőfelülete

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A Mazsola KORPUSZLEKÉRDEZŐ

Keresés korpuszban október 19., SZTE JGYPK Sass Bálint MTA Nyelvtudományi Intézet

A HUNGLISH PÁRHUZAMOS KORPUSZ

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Magyar nyelvű történeti korpuszok

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Az Ómagyar Korpusz bemutatása

A Hunglish Korpusz és szótár

KERESÉS KORPUSZBAN: A KIBŐVÍTETT MAGYAR TÖRTÉNETI SZÖVEGTÁR ÚJ KERESŐFELÜLETE

Beszéd- és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért

PartSoft Informatikai Kft. KÖNNY felhasználói kézikönyv 1 Általános információk Számítástechnikai alapok Felhasználói ismeretek...

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Igekötős szerkezetek a magyarban

SZÖVEGES LEJEGYZÉSBŐL NYELVI ADATBÁZIS

Orsolya egyetemi docens. egyetemi docens dr. Beretzky Ágnes egyetemi docens dr. Sárosdyné dr. Szabó Judit egyetemi docens. Szabó Judit egyetemi docens

Ügyfélszolgálati Portál (használati segédlet)

28 millió szintaktikailag elemzett mondat és igei szerkezet

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat.

Különírás-egybeírás automatikusan

PÁRHUZAMOS IGEI SZERKEZETEK

Önkormányzati Hivatali Portál használata. Általános Kitöltési útmutató

Az URaLUID adatbázis bemutatása

A magyar létige problémái a számítógépes nyelvi elemzésben

Diósd, Álmos fejedelem u. 27. laborexpert.hu Tel: Fax:

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

A Statisztikai adatszolgáltatás menüpont alatt végezhető el az adatlap kitöltése. 3 Statisztikai adatszolgáltatás menetének részletes bemutatása

Médiaajánlat

Tisztelt Ügyfelünk! Változások a 6-os verzióhoz képest:

Új Jogtár. uj.jogtar.hu. Online elérés. Egyszerű használat Aktuális jogi dokumentumok. Teljes Jogtár tartalom

Egy hirtelen ötlet december 30. felmerült egy kérdés: Vajon mi jellemző a magyar fiatalok közösségi média használatára?

Tájékoztató. A folyószámla adatok lekérdezésének bemutatása az 1. számú mellékletben található. Budapest, VPRK

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

TÁJÉKOZTATÓ az OTH Szakrendszeri Információs Rendszerbe (OSZIR) történő regisztráció és belépés menetéről külföldi partner nevében

Kezdeti Útmutató a Szolgáltatáselemző Rendszer használatához. vezetők számára. Tartalom

Megújult az ARTISJUS Szerzői Információs Rendszere (SZIR) Online adatszolgáltatás szerzőknek bármikor, bárhonnan

Címtár Felhő Projektfeladat specifikáció

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

On-line képzési program nyilvántartás

Playlist.hu Kiadói kézikönyv

TÁJÉKOZTATÓ az OTH Szakrendszeri Információs Rendszerbe (OSZIR) történő regisztráció és belépés menetéről külföldi partner nevében

Médiaajánlat. KIDSOASIS KFT Dunakeszi, Pallag u. 26. T: Fax:

Milyen sütiket és mire használ az OTP Bank?

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Műszaki online hibabejelentő kézikönyv

Foglalkoztatási és Szociális Adatbázis

Szám-Adó Kft Október 27. Előadó: Lengyel Zoltán. Szociális Intézmények III. Szakmai Találkozója

A Síelők.hu hirdetési ajánlata szállások számára

Angol szótár V

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

A Felsőoktatási Információs Rendszertől az elektronikus felvételiig. -olyan szülőknek, akik nem bíznak az elektronikus út megbízhatóságában-

A tankönyvvé nyilvánítás folyamatát elektronikusan támogató rendszer az OKÉV számára

Médiaajánlat

Köszönetnyilvánítás... xv Bevezetés az otthoni hálózatok használatába... xvii. A könyv jellegzetességei és jelölései... xxi Segítségkérés...

Érettségi eredmények 2005-től (Békéscsabai Andrássy Gyula Gimnázium és Kollégium)

Igei szerkezetek gyakorisági szótára

Egzinet Partner Portál

Nyelvtechnológia a lexikográfia szolgálatában Pajzs Júlia

1. JELENTKEZŐ ADATBÁZIS MODUL

A Síelők.hu hirdetési ajánlata síoktatók számára

A mobil alkalmazás. Felhasználói útmutató - ios

TELEKOM VESZPRÉM MESSENGER CHATBOT EBOOK

w w w. h a n s a g i i s k. h u

ÁVF oktatási és közösségi portál

SZOLGÁLTATÓI NYILVÁNTARTÁSI RENDSZER FELHASZNÁLÓI KÉZIKÖNYV

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

Sütik (cookie) kezelése

Példa az E-felvételi használatára. A következőkben bemutatjuk az E-felvételin keresztül történő jelentkezés lépéseit.

Az ATON szakfolyóirat indítása

A Betéti- és megtakarítás kereső (BMK) programmal kapcsolatos tudnivalók (a lekérdező felület működése, határidők)

Tanulmányok a középmagyar kor mondattana köréből

Nemzeti Társadalmi Felzárkóztatási Stratégia indikátor rendszer

VÁLTOZÁSOK AZ ÉTDR MŰKÖDÉSÉBEN

Nyelvészet. I. Témakör: Leíró nyelvtan

Országos Rendezési Tervkataszter

ÁVF oktatási és közösségi portál

Felhasználói kézikönyv. ÜFT szolgáltatás. Magyar Nemzeti Bank

INGATLANVAGYON-KATASZTER SZAKRENDSZER

Az új magyar Braille-rövidírás kialakítása

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

HVK Adminisztrátori használati útmutató

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

Participant Portal (URF) Regisztrációs tudnivalók

médiaajánlat Szilveszter.hu

Tudományos láthatóság vizsgálata a gazdálkodás- és szervezéstudományok területén

Átírás:

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály DHU2015 WS Számítógép az irodalomtudományban 2015. november 24.

korpusz? lekérdező? 2 / 29

korpusz = sok szöveg lekérdező? 2 / 29

korpusz = sok szöveg lekérdező? 2 / 29

korpusz = sok szöveg lekérdező = valamiket keresünk benne 2 / 29

korpusz = sok szöveg lekérdező = valamiket keresünk benne 2 / 29

3 / 29

Ez pont ez! :) Sok szövegben szavakat keres. 3 / 29

1998: Ez pont ez! :) Sok szövegben szavakat keres. 3 / 29

1998: Ez pont ez! :) Sok szövegben szavakat keres. De: Kilgarriff (2007): Googleology is Bad Science 3 / 29

Kilgarriff (2007): ology is Bad Science 4 / 29

Kilgarriff (2007): ology is Bad Science Szeretnénk pontosan megadni, hogy... hol keresünk mit keresünk 4 / 29

Kilgarriff (2007): ology is Bad Science Szeretnénk pontosan megadni, hogy... hol keresünk sajtószövegek, egy adott regény, Petőfi összes műve mit keresünk 4 / 29

Kilgarriff (2007): ology is Bad Science Szeretnénk pontosan megadni, hogy... hol keresünk sajtószövegek, egy adott regény, Petőfi összes műve mit keresünk szavakat 4 / 29

Kilgarriff (2007): ology is Bad Science Szeretnénk pontosan megadni, hogy... hol keresünk sajtószövegek, egy adott regény, Petőfi összes műve mit keresünk szavakat szókapcsolatokat 4 / 29

Kilgarriff (2007): ology is Bad Science Szeretnénk pontosan megadni, hogy... hol keresünk sajtószövegek, egy adott regény, Petőfi összes műve mit keresünk szavakat szóosztályokat szókapcsolatokat 4 / 29

Kilgarriff (2007): ology is Bad Science Szeretnénk pontosan megadni, hogy... hol keresünk sajtószövegek, egy adott regény, Petőfi összes műve mit keresünk szavakat szóosztályokat szókapcsolatokat szóosztályok kapcsolatait 4 / 29

Kilgarriff (2007): ology is Bad Science Szeretnénk pontosan megadni, hogy... hol keresünk sajtószövegek, egy adott regény, Petőfi összes műve mit keresünk szavakat szóosztályokat szókapcsolatokat szóosztályok kapcsolatait Nyelvészetileg releváns kérdéseket szeretnénk feltenni. A válasz általában: egy szóosztály. 4 / 29

KORPUSZLEKÉRDEZŐ Nyelvi tudású keresőt szeretnénk, ami adatot szolgáltat a magyar nyelv, a magyar nyelvű szövegek vizsgálatához. Meghatározott szöveganyagon nyelvészetileg releváns kérdésekre tud válaszolni. Nyelvi tudást tartalmaz: annotált. Nem csak adott szavakat, hanem nyelvészeti szempontok szerint megadott szóosztályokat lehet keresni.? körülültük, felszedegettük, elsimítottuk, végigcsináltuk? forrásokban, fellegekben, falvakban, fejekben? cél, csal, csaj, csel, dzsal mi? + milyen gyakran? milyen környezetben? 5 / 29

2005: MNSZ1 a Magyar Nemzeti Szövegtár első változata 187 millió szó szépirodalom, hivatalos, tudományos, sajtó, internetes fórumok hazai és határon túli anyag MNSZ1 100m 6 / 29

2005: MNSZ1 fut után 6 / 29

KI MIT TUD? tartalmi, nyelvi szótő morfológia MNSZ1 formai, keresőfunkció konkordancia szókapcsolat 7 / 29

2009: MAZSOLA az MNSZ1 anyaga más szempontból igék és bővítmények vizsgálata a szórend fölött általánosítunk 8 / 29

2009: MAZSOLA az MNSZ1 anyaga más szempontból igék és bővítmények vizsgálata a szórend fölött általánosítunk hagy? -t = mi a tárgy? 8 / 29

2009: MAZSOLA az MNSZ1 anyaga más szempontból igék és bővítmények vizsgálata a szórend fölött általánosítunk hagy? -t = mi a tárgy? kívánnivalót, nyomot, kétséget, üzenetet 8 / 29

2009: MAZSOLA az MNSZ1 anyaga más szempontból igék és bővítmények vizsgálata a szórend fölött általánosítunk hagy? -t = mi a tárgy? kívánnivalót, nyomot, kétséget, üzenetet? hideg hátán = mi az ige? 8 / 29

2009: MAZSOLA az MNSZ1 anyaga más szempontból igék és bővítmények vizsgálata a szórend fölött általánosítunk hagy? -t = mi a tárgy? kívánnivalót, nyomot, kétséget, üzenetet? hideg hátán = mi az ige? végigfut, futkos, futkározik 8 / 29

KI MIT TUD? MNSZ1 Mazsola tartalmi, nyelvi szótő morfológia szórendfüggetlen formai, keresőfunkció konkordancia szókapcsolat korpuszpéldák 9 / 29

2012: BUSZI Budapesti Szociolingvisztikai Interjú 270000 szó beszélt nyelvi korpusz gazdag annotáció 10 / 29

2012: BUSZI Budapesti Szociolingvisztikai Interjú 270000 szó beszélt nyelvi korpusz gazdag annotáció... bizonyos dógokban mmm tát, hogy ööö lustább annál, mint amilyennek elkép*zel*tem,... 10 / 29

2012: BUSZI Budapesti Szociolingvisztikai Interjú 270000 szó beszélt nyelvi korpusz gazdag annotáció... bizonyos dógokban mmm tát, hogy ööö lustább annál, mint amilyennek elkép*zel*tem,... Majnem mindig kiesik a d. 10 / 29

2012: BUSZI ÖSSZEFOGLALÓ TÁBLÁZAT 11 / 29

2012: BUSZI ÖSSZEFOGLALÓ TÁBLÁZAT 11 / 29

KI MIT TUD? MNSZ1 Mazsola BUSZI tartalmi, nyelvi szótő morfológia szórendfüggetlen beszélt nyelvi formai, keresőfunkció konkordancia szókapcsolat korpuszpéldák összefoglaló táblázat 12 / 29

2013: ÓMAGYAR KORPUSZ az összes ómagyar kódex szövege 2 millió szó egységes forma, kódolás, annotáció speciális karakterek: ý, ÿ... ómagyar morfológia 13 / 29

2013: ÓMAGYAR KORPUSZ az összes ómagyar kódex szövege 2 millió szó egységes forma, kódolás, annotáció speciális karakterek: ý, ÿ... ómagyar morfológia szórendi vizsgálat: nem futott ki ki nem futott 13 / 29

2013: ÓMAGYAR KORPUSZ az összes ómagyar kódex szövege 2 millió szó egységes forma, kódolás, annotáció speciális karakterek: ý, ÿ... ómagyar morfológia szórendi vizsgálat: nem futott ki ki nem futott Ver touaba kÿ nem futott egyenes szórend! 13 / 29

2013: ÓMAGYAR KORPUSZ PÁRHUZAMOS MEGJELENÍTÉS 14 / 29

KI MIT TUD? MNSZ1 Mazsola BUSZI Ómagyar tartalmi, nyelvi szótő morfológia szórendfüggetlen beszélt nyelvi speciális karakterek formai, keresőfunkció konkordancia szókapcsolat korpuszpéldák összefoglaló táblázat párhuzamos megjelenítés 15 / 29

2014: MNSZ2 összetett szavak képzők fonológiai jegyek szűrés gyakorisági listák kollokációvizsgálat 16 / 29

2014: MNSZ2 összetett szavak képzők fonológiai jegyek szűrés gyakorisági listák kollokációvizsgálat megállapítás, fantazmagória, ötlet, marhaság, fantáziálás, dolog, érvelés, állítás, vád 16 / 29

2014: MNSZ2 GYAKORISÁGI LISTA 17 / 29

2014: MNSZ2 GYAKORISÁGI LISTA légbőlkapott 17 / 29

KI MIT TUD? MNSZ1 Mazsola BUSZI Ómagyar MNSZ2 tartalmi, nyelvi szótő morfológia szórendfüggetlen beszélt nyelvi speciális karakterek összetett szavak, fonológia formai, keresőfunkció konkordancia szókapcsolat korpuszpéldák összefoglaló táblázat párhuzamos megjelenítés szűrés, gyaklisták, kollokáció 18 / 29

A KORPUSZLEKÉRDEZŐK FEJLŐDÉSE 1 egyre nagyobb teljesítményű számítógépek nagyobb korpuszok, gyorsabb lekérdezés 2 egyre jobb, fejlődő elemzőeszközök ezeknek köszönhető az annotáció 3 egyre jobb, fejlődő korpuszkezelő rendszerek új, eltérő funkciók ezért nem egységes a használt rendszer 19 / 29

KI MIT TUD? MNSZ1 Mazsola BUSZI Ómagyar MNSZ2 tartalmi, nyelvi szótő morfológia szórendfüggetlen beszélt nyelvi speciális karakterek összetett szavak, fonológia formai, keresőfunkció konkordancia szókapcsolat korpuszpéldák összefoglaló táblázat párhuzamos megjelenítés szűrés, gyaklisták, kollokáció 20 / 29

KI MIT TUD? MNSZ1 Mazsola BUSZI Ómagyar MNSZ2 tartalmi, nyelvi szótő morfológia szórendfüggetlen beszélt nyelvi speciális karakterek összetett szavak, fonológia formai, keresőfunkció konkordancia szókapcsolat korpuszpéldák összefoglaló táblázat párhuzamos megjelenítés szűrés, gyaklisták, kollokáció 20 / 29

NEMZETI KORPUSZPORTÁL KEZDEMÉNYEZÉS CÉLOK Együtt, egy helyen minden meglévő... magyar nyelvű, online lekérdezhető korpusz korpuszlekérdező funkció 21 / 29

NEMZETI KORPUSZPORTÁL KEZDEMÉNYEZÉS CÉLOK Együtt, egy helyen minden meglévő... Mire jó? magyar nyelvű, online lekérdezhető korpusz korpuszlekérdező funkció az összegyűjtött korpuszok közvetlen használata Cél: hozzáférést biztosítson az elérhető magyar nyelvű korpuszokhoz, népszerűsítse őket, tudjunk róluk a szakma és a nagyközönség is. Nyelvészek, irodalmárok, bölcsészek, magyartanárok, érdeklődők. Akár iskolai keretek között is végezhető nyelvi vizsgálatokhoz. 21 / 29

NEMZETI KORPUSZPORTÁL KEZDEMÉNYEZÉS CÉLOK Együtt, egy helyen minden meglévő... Mire jó? magyar nyelvű, online lekérdezhető korpusz korpuszlekérdező funkció az összegyűjtött korpuszok közvetlen használata Cél: hozzáférést biztosítson az elérhető magyar nyelvű korpuszokhoz, népszerűsítse őket, tudjunk róluk a szakma és a nagyközönség is. Nyelvészek, irodalmárok, bölcsészek, magyartanárok, érdeklődők. Akár iskolai keretek között is végezhető nyelvi vizsgálatokhoz. a korpuszhasználók tudjanak a többi korpuszról ( reklám ) 21 / 29

NEMZETI KORPUSZPORTÁL KEZDEMÉNYEZÉS CÉLOK Együtt, egy helyen minden meglévő... Mire jó? magyar nyelvű, online lekérdezhető korpusz korpuszlekérdező funkció az összegyűjtött korpuszok közvetlen használata Cél: hozzáférést biztosítson az elérhető magyar nyelvű korpuszokhoz, népszerűsítse őket, tudjunk róluk a szakma és a nagyközönség is. Nyelvészek, irodalmárok, bölcsészek, magyartanárok, érdeklődők. Akár iskolai keretek között is végezhető nyelvi vizsgálatokhoz. a korpuszhasználók tudjanak a többi korpuszról ( reklám ) az elszigetelten létező korpuszos műhelyek tudjanak egymásról megoldások tanulmányozása, alkalmazása saját korpuszra szakmai kapcsolatok felvétele, kiaknázása 21 / 29

AZ NKP SZINTJEI : 0. SZINT A JELEN Minden korpuszhoz: név 3 link = főoldal + kereső + regisztráció (ha szükséges) kapcsolat = egy emailcím, akihez lehet fordulni a lehető legkevesebb adat egyebeknek az adott korpusz honlapján lehet utánajárni 22 / 29

AZ NKP SZINTJEI : 0. SZINT A JELEN Minden korpuszhoz: név 3 link = főoldal + kereső + regisztráció (ha szükséges) kapcsolat = egy emailcím, akihez lehet fordulni a lehető legkevesebb adat egyebeknek az adott korpusz honlapján lehet utánajárni Ezzel nagyjából meg is valósíthatók a kitűzött célok. :) 22 / 29

AZ NKP SZINTJEI : 1. SZINT A JÖVŐ Egy nagy táblázat a korpuszokról. Lényeg: milyen annotáció + milyen keresőfunkciók? További jellemzők: létrehozás ideje egymondatos leírás esetleg 2 1 mondat: milyen szövegeket tartalmaz + korpuszépítés tömör leírása angol felület van-e egy illusztratív kattintható példa hogyan hivatkozzunk a korpuszra 23 / 29

AZ NKP SZINTJEI : 2. SZINT A JÖVŐ... ahol az eddig bárhol létező összes korpuszlekérdező funkció elérhető lenne az eddig bárhol elérhető összes korpuszra. Lekérdezőfunkciók mint önálló entitások. Minden funkció azokra a korpuszokra alkalmazva, amire lehetséges, amire az annotációja megengedi. Saját elemzett korpuszt ( XML-t ) lehessen közzétenni. Feltölteni és automatikusan hozzárendelni a rendelkezésre álló, ráillő keresőfunkciókat. 24 / 29

AZ NKP SZINTJEI : 3. SZINT A JÖVŐ Elemzőeszközök a portálon. Saját elemzetlen korpuszt ( TXT-t ) lehessen közzétenni. Tetszés szerint alkalmazni rá a portálon (majd egyszer) elérhető nyelvi elemzőeszközöket. 25 / 29

AZ NKP SZINTJEI ÖSSZEFOGLALÁS Ez a távoli jövőben valahogy így nézne ki: veszünk egy szöveget; pl. Petőfi művei vagy Kovács Pisti facebook-bejegyzései sima szövegként feltöltjük, megmondjuk, hogy szükségünk van mondatra bontásra, szótövesítésre, morfológiai elemzésre; 3. szint illetve konkordanciára, gyakorisági listára, kollokációkeresésre; 2. szint automatikusan előáll a táblázat; 1. szint plusz a bejegyzés az NKP nyitólapján. 0. szint És kész lehet kutatni, lekérdezni! :) 26 / 29

NKP V0.1 Legelső kezdetleges verzió: 0. szint. Ezek általános célú korpuszok. A portálra bármilyen speciális korpuszt szívesen fogadunk. 27 / 29

A CSATLAKOZÁS FELTÉTELEI magyar nyelvű korpusz szóalapú online lekérdező működő link! kapcsolat = egy emailcím kérés: link az NKP-ra A... a Nemzeti Korpuszportál tagja. 28 / 29

ELÉRHETŐSÉG NEMZETI KORPUSZPORTÁL http://corpus.nytud.hu/nkp 29 / 29

ELÉRHETŐSÉG NEMZETI KORPUSZPORTÁL http://corpus.nytud.hu/nkp Köszönöm a figyelmet! Sass Bálint sass.balint@nytud.mta.hu 29 / 29