A kibővített Magyar történeti szövegtár új keresőfelülete

Hasonló dokumentumok
Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP

Keresés korpuszban október 19., SZTE JGYPK Sass Bálint MTA Nyelvtudományi Intézet

KERESÉS KORPUSZBAN: A KIBŐVÍTETT MAGYAR TÖRTÉNETI SZÖVEGTÁR ÚJ KERESŐFELÜLETE

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Korpuszlekérdezők evolúciója

A HUNGLISH PÁRHUZAMOS KORPUSZ

Igekötős szerkezetek a magyarban

Ó Ó É ü É ü ü

Magyar nyelvű történeti korpuszok

Ö Ó Ó Ó

Ö Ö É Ő Ú É

Ö


A Mazsola KORPUSZLEKÉRDEZŐ

Ü ű Ü É ű ű É Ü Ü

ű ű ű Ö ű ű ű Ú ű ű ű Ö ű ű ű ű ű ű ű

Ó ű ű ű ű ű ű É É É

Ú Ú Ü Ü ű ű ű É Ú É ű

Ó Ó ú ú ú ú ú É ú

Ü Ü Ó Ü Ó

Ó ú É ú É É É Ő ú ú ű Ó Ö É É ú Ü ú É ú

É ö

ű ő ű ű ű ö ő ú ö ő ő ő ő ő ő ő ű ő ő ő ő ü ü ő ü ü ő ú ü ő ő ü ü ü ő ú ü

Ó ú É Ú

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

é ü ó ö é Ö é ü é é ó ö é ü ü é é ó ó ó é Á é é ü ó é ó ó é ö ö ö é é ü é ü é é ö ü ü é ó é é é é é é ö é é é é é é ö é ó ö ü é é é ü é é ó é ü ó ö é

Ó Ó ó ö ó

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

É É Ö ű Ú Ú É ű

ó Ó ú ó ó ó Á ó ó ó Á ó ó ó ó Á ó ú ó ó ó

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Á ű ó ó

A Szótári Osztály évi jelentése

Ó é é Ó Ó ő ű Ó Ö ü Ó é Ó ő Ó Á Ö é Ö Ó Ó é Ó Ó Ó Ó ú Ó Ó Ó Ó ű Ö Ó Ó Ó é Ó Ó ö Ö Ó Ö Ö Ó Ó Ó é ö Ö é é Ü Ó Ö Ó é Ó é ö Ó Ú Ó ő Ö Ó é é Ö ú Ó Ö ö ű ő

ó ő ő ó ő ö ő ő ó ó ó ö ő ó ó ó ö ő ó ő ő ö Ö ő ö ó ő ö ő ő ú ö ö ü ö ó ö ö ö ő ö ö Ö ú ü ó ü ő ő ő ő ó ő ü ó ü ö ő ö ó ő ö ő ö ü ö ü ő ö ö ó ö ő ő ö

ű ű ű Ú Ú Á ű Ö ű ű Ú Ő É

ű Ö ű Ú ű ű ű Á ű

Á Ó ű ű Á É ű ű ű ű Ú Ú

Á Á ő ő Ö ő ő ö É ö ő ö ő ő ö ő ő ö ő ő ü ö

Ú ű É ű ű Ü Ü ű ű Ú É ű ű Ü ű ű ű ű ű ű ű Ú ű ű

Á Ö Ö Ö Ö ú ú Ö Ö Ó Ó ú ú Ü ú Ó Ö Ö Ü Ó Ö Ö Á Ó ú ú ú ű Ö Ö Ö Ö Á Ó Ö Ó ú ú Ö

ű Ú ű ű É Ú ű ű

ő ű É Ó Ü É É É É Ü Ö É É É ű É Ö É Ü É Ú Ó ő Ó

Ó Ó ö ú ö ö ö ö ü ú ú ö ö ö ú ú ö ö ö ú ú ú ű ö ö ú ö ü ö ö ö ö ü ú Á ö ü Á ö ö ö ö ö ö

ö ö Á Á Ó Á ö ö ö ö ö ú ű ö ö Á Á ű ű ö ö ö ö ű

Á Ü É Ü Ú Ü É

ü ü Ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü É ü ü

ő ü ó í í í ő ó Ó í

ú Ó ú ú ú ú ú ú ú É Á

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

ú ö ö ö ö ö ö Á ö ö ö á á á ű Ü ű ö ö Á á Á

ö ö É ő ó ó ő ü ó ó Ü É É ö ö ó ű ü ó ó ö ű Í ö ó ö Í ő ü ü ö ö ő ö ó ö ó ó É ó ő ö ö ó Ö ü ő Í ű ó ő ü ő Ó Ö ű Í ó Ó ő ő ö ő ő ő ö

ü É ü Ö ü ü ü Ü ü ü Í

í í í í í

Á ó ó ó Ü Ü ó ó Ü ó ó ú ú ó ó Ü ó ó ó Ü ó ó

É Á Á Ö Á

ű ő ő ő

É É Ö

ö ü í ú í ö ö í ú ü í ü ö í ú ö ü í ö ü ö ö ö Í ö ö

É É Í É É ö Í í í í ű ü ö í í Í

É ó Í É


ü ö í ü ö í ü ö ű í í í ö Ü í ü ü ö í í ü ö í ű í ö í í ú ö ö í í ü ű ö ü í í ü í ü í í ö ü í ö ö ü í ö ű ö í í ö ú ö í ö í ű ö ö ö í í í í ö ö

ü ú ú ü ú ú ú ú

ú ü ú ü ú

ű ú ú ö ö ö É ö ú ú ú ö ű Ó ű Ö Ö ú

ö ő ü ö ő ő ü ü ő ő ő ü ö ü ü ő ú ő ő ő ü ő ő ő ő ő ú ő ő ü ő ő ő ü ö ü ú ő ő ő ő ü ü ő ő ú

ö ű ü ü ö ü ö ö ü ö ö Í Ö ö ü ö Í ű ö ű ü ü ö ú ö ű ü ü ö ö ö ü ű ü ö ü ű ű ú ö ö ö ű ü ú ú

ű ű ű ű ű ű Ú Ú ű ű ű Ö ű ű ű ű ű ű

í ö ó í ö í Í ó ú ó ö ű ó ű ö í ó ó ó ó ó Í ú í ó í í ó Í ö ö ú í ú ó ö Í ó ó Í í ó ó ö ö ö ö ö í ö ó ű í ó ó ö ú ó ó ö ö ó í ö ö ó ó ö ö í ö ó í ű ö

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.


SZÖVEGES LEJEGYZÉSBŐL NYELVI ADATBÁZIS

ű ö ű ö í í ö É ö ü ö ú ü ű ü ü ű ö ö ü ü ü ö ü ü ű ü ü ű í ü ü ö Ö ü í ű ö Ö ü ű

ű í ú í ú í ü ü í í í Ö í Í É í ú í í í ű ű í í Í í í É í í í

NYELVÉSZETI SZÖVEGKERESŐK, NEMZETI KORPUSZPORTÁL

É ú É ö ö ű ö ö ö ú ú ú ű ű ú ö ű ö ű ű ü ö ö ü ű ö ü ö ö ö ö ú ü ö ö ö ú ö ö ú ö ö ú ü ú ú ú ű ü ö ö ű ú ű ű ü ö ű ö ö ö ű ú ö ö ü ú ü ö ö ö ü ú ö ű

É ö Ű ő ű ő ő ű ű

ű ú Í Ó Á ú Ű ű Ő Ö Á ú Ű Ü ú ú Á ú ű

ú Ü Í ú ú ú ú ú ú

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Önálló labor feladatkiírásaim tavasz

É Í Á Á É Ü Ó É É É É Í Ó Ó Ő Á Á É Á É É É É Á É É Á Á É É Á É Í

Ö Ö Ú Ó Ö ű Ő Ő ű ű Ü Ő Ó Ő

Ü

É Ö Á Í Á Ó Ö ü

é ú é é é é é é é é é é é é ú é ö é é é ö Ő é é é ú é é é é é é é é ö é é é ö é Ö é é ö é ö é é é ű é ö ö é ö é é ö ö é é ö ö é ö é Ö é ú é é é é é é

ö ő ő ü ü Ó ü ö ű Á ő ő ö ő Á Ó ű ö ü ő ő ű

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Ö Ö Ö Ö Ö Á Ű É Ö Ö Ö

ő ó ü ö ő ö ö ő ö ó ű ö ő ó ó ü ő ü ö ű ö ő ó ó ő ö ö ó ő ö ö ő ű ö ő ű ö ö ő ő ő ö ö ú ó ö ö ö ő ő ó ő ü ó ó ű ö ö ü ő ü ö ő ü ő ó ű ö ö ö ó ö ö ö ü

Ó ű ű Á ú ű ű ú ú ú ű ű É ú É Á Á ú ű Ü Á Ü Á ű Ö Ú É Ó É Á Á Á Ű Á úá Á Ö É Ö É Ü

ó ú ú ü ú ő ó ő ő ó ó ó ö ó ü ő ó ő ö ü ü ó ö ő É ó ö ö ö ó ó ö ü ü ö ü ó ó ő ó ü ó ü ü ö ö É ú ó ó ö ú ö ü ü ó ó ó ü Á ö ö ü ó ö ó ö ö ö ö ó ó ö ó ó

í í É í ó ó É ö í ó í ó í ó ó í ó í í ó ó ó í ö ö ö ö í í í ó ó ö ó

ú ú ö ö ü ü ü ü ű ü ü

Á Á Ö Ö Ü É Ö É É Á Ú É É É É Á Á Ö Ö Ő

ó É ó í ó ó í í ö í ó í ö ö ö ü ö ó ó ó ü ú ö ü ó ó ö ö ü ü ü ö ö ó ö í ó ű Ü ó í ú í ö í ö í Í ó ó í í ö ü ö ö í ö í ö ö ö ü ó í ö ö ó í ú ü ó ö

Ü ü Ü Ö Ó ö ü ö Ó Ú Ó ü Ó ö ö Á ö ö ö ö ü

Átírás:

A kibővített Magyar történeti szövegtár új keresőfelülete Sass Bálint MTA Nyelvtudományi Intézet sass.balint@nytud.mta.hu A nyelvtörténeti kutatások újabb eredményei IX. 2016. április 27., Szeged

Nszt és Mtsz http://nszt.nytud.hu/nszt.html Magyar történeti szövegtár 30 millió szövegszó 1772-2010-ig 240 év 2015-ben készült el a bővítés 2/18

1. Az Mtsz használata 3/18

Az Mtsz felülete egyszerű keresés: de viszont Ami látszik: nagybetű/kisbetű nem számít sőt: ſ strukturális információk (oldal, bekezdés, (vers)sor): zölddel találatok időrendben Ami nem látszik: évszám katt: részletes bibliográfiai adatok találat katt: nagyobb kontextus funkciók: alkorpuszok, mentés, szűrés, gyaklisták, kollokációk CQL = Corpus Query Language formális lekérdezőnyelv elérhetőség: http://clara.nytud.hu/mtsz 4/18

CQL reguláris kifejezések Bizonyos tulajdonságú karaktersorozatok megadására.. tetszőleges karakter * a megelőző karakterből bármennyi (0 vagy több) [ab] a vagy b karakter Példák: (1) tejf.l (2).* (3).*bb (4) nélk[üű ü]l 5/18

CQL Corpus Query Language [..] egy tokenre vonatkozó megkötések x="y" x attribútum értéke legyen y Mtsz: csak word attribútum van x!="y" x attribútum értéke ne legyen y & és kapcsolat megkötések között Példák: 1. [] [] 2. [word="majd"] 3. "majd" 4. [word!="a.*"] 6/18

Mtsz példalekérdezés Feladat. Keressünk ilyet: tárgyesetű szó + múltidejű E/3 ige! 7/18

Mtsz példalekérdezés Feladat. Keressünk ilyet: tárgyesetű szó + múltidejű E/3 ige! ".*t" ".*tt" 8/18

Mtsz példalekérdezés Feladat. Keressünk ilyet: tárgyesetű szó + múltidejű E/3 ige! ".*t" ".*tt" most itt??? 9/18

Mtsz példalekérdezés a vizsgálat lépései 1. CQL: ".*t" ".*tt" 2. Gyakoriságok / szóalakok 3. p erőt vett 4. Milyen szó jön utána? Gyakoriságok: 1R 5. p rajta 6. Rendezés / jobb: hogy mi vesz erőt rajta félelem, féltékenység, habozás, kacagás, kishitűség, kiváncsiság... 10/18

Diakrón vizsgálat: nélkül helyesírása 11/18

2. Az Mtsz építése 12/18

Az Mtsz építése Mi mindent kell csinálni ahhoz, hogy sima szövegből ilyen korpuszlekérdezőfelület legyen? 1. Unicode (UTF-8) karakterkódolás é ő ſ ö 2. XML saját / TEI korpuszkezelő rendszer: NoSketchEngine (NoSkE) https://nlp.fi.muni.cz/trac/noske 3. NoSkE XML XSLT 13/18

NoSkE XML <doc mtsz_id="7021030" author="baróti Szabó Dávid" wdate="1808"...> <oldal oldalszam="18"> <par> Ám de viſzont hallá <g/>, hogy... <br/>... további tokenek </par>... további bekezdések </oldal>... további oldalak </doc> 14/18

NoSkE XML <doc mtsz_id="7021030" author="baróti Szabó Dávid" wdate="1808"...> <oldal oldalszam="18"> <par> Ám de viſzont hallá <g/>, hogy... <br/>... további tokenek </par>... további bekezdések </oldal>... további oldalak </doc> 15/18

Az Mtsz építése Mi mindent kell csinálni ahhoz, hogy sima szövegből ilyen korpuszlekérdezőfelület legyen? 1. Unicode (UTF-8) karakterkódolás é ő ſ ö 2. XML saját / TEI korpuszkezelő rendszer: NoSketchEngine (NoSkE) https://nlp.fi.muni.cz/trac/noske 3. NoSkE XML XSLT 4. tokenizálás (... és egyéb elemző lépések) 5. indexálás = a korpusz betöltése a korpuszkezelőbe 16/18

Nemzeti Korpuszportál (NKP) Együtt, egy helyen minden meglévő... magyar nyelvű, online lekérdezhető korpusz korpuszlekérdező funkció http://corpus.nytud.hu/nkp Cél: a korpuszok népszerűsítése a szakma és a nagyközönség felé Távlati cél: automatizálás 17/18

A kibővített Magyar történeti szövegtár új keresőfelülete Sass Bálint MTA Nyelvtudományi Intézet sass.balint@nytud.mta.hu A nyelvtörténeti kutatások újabb eredményei IX. 2016. április 27., Szeged