Magyar nyelvű történeti korpuszok

Hasonló dokumentumok
Az Ómagyar Korpusz bemutatása

Igekötős szerkezetek a magyarban

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Korpuszlekérdezők evolúciója

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

A két projekt valamelyikét említő előadásaink listája

A kibővített Magyar történeti szövegtár új keresőfelülete

Tanulmányok a középmagyar kor mondattana köréből

SZAKMAI ÖNÉLETRAJZ Farkas Judit

A két projekt munkatársainak hivatkozással ellátott publikációi (OTKA K 81189, NKFIH OTKA K )

A Mazsola KORPUSZLEKÉRDEZŐ

A MAGYAR ÖSSZETETT KÖTŐSZÓK TÖRTÉNETÉHEZ

Az URaLUID adatbázis bemutatása

A HUNGLISH PÁRHUZAMOS KORPUSZ

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában

Bevezetés a nyelvtudományba. A nyelv leírása

Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. A doktori disszertáció tézisei. Kuna Ágnes

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

A zsidóság nyelvei. Biró Tamás március 10.

Nyelvészet. I. Témakör: Leíró nyelvtan

A MAGYAR REKURZÍV BIRTOKOS SZERKEZET ELSAJÁTÍTÁSA A NEMZETKÖZI KUTATÁSOK TÜKRÉBEN

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

Peredy Márta. Aspektus és/vagy információs szerkezet a magyarban

A magyar létige problémái a számítógépes nyelvi elemzésben

Simon Eszter április 19. MTA Nyelvtudományi Intézet. Korpuszépítés ómagyar kódexekből. Simon Eszter. Bemutatás. Anyaggyűjtés.

Magyar generatív történeti mondattan Kutatási beszámoló

Grammatikalizálódott kopula és prenominális módosítok a magyarban

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

Lexikon és nyelvtechnológia Földesi András /

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

KÖVETELMÉNYEK. Tantárgyfelelős tanszék kódja. A foglalkozáson való részvétel:

Ablak által világosan Vonzatkeret-egyértelműsítés az igekötők és az infinitívuszi vonzatok segítségével

Az ige és igemódosítók szórendje a Károli-bibliában (és más bibliafordításokban)

A főnévi csoport történetéből: újraelemzés a bal periférián Egedi Barbara MTA Nyelvtudományi Intézet

A magyar mutató névmási módosító és a birtokos szerkezet történeti vizsgálata

MAGYAR NYELV 5 8. Javasolt óraszámbeosztás

Magyar nyelvű néprajzi keresőrendszer

PÁZMÁNY PÉTER KATOLIKUS EGYETEM BÖLCSÉSZETTUDOMÁNYI KAR

MA zárószigorlati tételek magyar nyelvből

Esszéírás 1X1. Mire kell ügyelni esszéírásnál? Dr. Török Erika oktatási dékánhelyettes január 6.

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

KÖVETELMÉNYEK. A vizsgára bocsátás feltételei: A TVSZ. előírása szerinti részvétel az előadásokon

ó Ó ú ó ó ó Á ó ó ó Á ó ó ó ó Á ó ú ó ó ó

Syllabus. Partiumi Keresztény Egyetem, Nagyvárad Bölcsészettudományi Kar Magyar nyelv és irodalom

A seprűvel is söprögetünk

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Kerettantervi ajánlás a helyi tanterv készítéséhez az EMMI kerettanterv 51/2012. (XII. 21.) EMMI rendelet 2. sz. melléklet

É Á Á Ö Á

Ó Ó ó ö ó

É É Ö

ö ő ü ö ő ő ü ü ő ő ő ü ö ü ü ő ú ő ő ő ü ő ő ő ő ő ú ő ő ü ő ő ő ü ö ü ú ő ő ő ő ü ü ő ő ú

Alkalmazott Nyelvészeti Tanszékek 7. Országos Találkozója

Fonetika és fonológia

ü ü Ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü É ü ü

ű Ö ű Ú ű ű ű Á ű

Ú ű É ű ű Ü Ü ű ű Ú É ű ű Ü ű ű ű ű ű ű ű Ú ű ű

Á ű ó ó

ű ő ő ő

12. osztály nyelvtan anyaga: Nyelvi szinkrónia és diakrónia; a nyelv eredete és típusai

ű ű ű Ú Ú Á ű Ö ű ű Ú Ő É

Á Ó ű ű Á É ű ű ű ű Ú Ú

ú Ó ú ú ú ú ú ú ú É Á

A szláv írásbeliség kialakulása. Lőrinczné dr. Bencze Edit

ű Ú ű ű É Ú ű ű

Á Ü É Ü Ú Ü É

Á Á ő ő Ö ő ő ö É ö ő ö ő ő ö ő ő ö ő ő ü ö

Á ó ó ó Ü Ü ó ó Ü ó ó ú ú ó ó Ü ó ó ó Ü ó ó

Ó é é Ó Ó ő ű Ó Ö ü Ó é Ó ő Ó Á Ö é Ö Ó Ó é Ó Ó Ó Ó ú Ó Ó Ó Ó ű Ö Ó Ó Ó é Ó Ó ö Ö Ó Ö Ö Ó Ó Ó é ö Ö é é Ü Ó Ö Ó é Ó é ö Ó Ú Ó ő Ö Ó é é Ö ú Ó Ö ö ű ő

Á Ö Ö Ö Ö ú ú Ö Ö Ó Ó ú ú Ü ú Ó Ö Ö Ü Ó Ö Ö Á Ó ú ú ú ű Ö Ö Ö Ö Á Ó Ö Ó ú ú Ö

Ó Ó ö ú ö ö ö ö ü ú ú ö ö ö ú ú ö ö ö ú ú ú ű ö ö ú ö ü ö ö ö ö ü ú Á ö ü Á ö ö ö ö ö ö

ö ö Á Á Ó Á ö ö ö ö ö ú ű ö ö Á Á ű ű ö ö ö ö ű

ó ő ő ó ő ö ő ő ó ó ó ö ő ó ó ó ö ő ó ő ő ö Ö ő ö ó ő ö ő ő ú ö ö ü ö ó ö ö ö ő ö ö Ö ú ü ó ü ő ő ő ő ó ő ü ó ü ö ő ö ó ő ö ő ö ü ö ü ő ö ö ó ö ő ő ö

É. Kiss Katalin: Mit adhat a magyar nyelv és a magyar nyelvészet az általános nyelvészetnek?

ú ö ö ö ö ö ö Á ö ö ö á á á ű Ü ű ö ö Á á Á

ELTE TáTK Közgazdaságtudományi Tanszék ESSZÉÍRÁS. Készítette: Reich Orsolya. Szakmai felelős: Wessely Anna június

é ü ó ö é Ö é ü é é ó ö é ü ü é é ó ó ó é Á é é ü ó é ó ó é ö ö ö é é ü é ü é é ö ü ü é ó é é é é é é ö é é é é é é ö é ó ö ü é é é ü é é ó é ü ó ö é

ü ú ú ü ú ú ú ú


Cs. Nagy Lajos. Dialektológiai kutatások a PPKE BTK Magyar Nyelvészeti Tanszékén

Szükséges kredit: 120 Félévek száma: 4 Tantermi órák száma:. Gyakorlati képzés: %.

ä ä

Szakmai önéletrajz. Főbb tevékenységek elméleti nyelvészeti kutatások alkalmával asszisztensi feladatok ellátása

DIPLOMAFORDÍTÁS - KÖVETELMÉNYEK


Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

AZ ANGOL IGE + VISZONYSZÓS SZERKEZETEK ELEMZÉSE KOVÁCS ÉVA

Egy nyelvjárási szintaxisvizsgálat háttere és eredményei Őrség és Hetés területén

ME BTK MAGYAR NYELV ÉS IRODALOM RÖVID CIKLUSÚ TANÁRKÉPZÉS. Mintatanterv

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

ü ű í ú ú ü ü ü ű ü ű ü ű ü ű ü í ü ű í í ü í í í í í ü í ű

Lexikológia, lexikográfia a MID oktatásában

A TANTÁRGY ADATLAPJA

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Átírás:

Magyar nyelvű történeti korpuszok Simon Eszter Debrecen, 2019. február 7. MTA Nyelvtudományi Intézet

Az előadás vázlata 1. A történeti korpuszok jellemzői 2. A történeti szövegek feldolgozása 3. A korpuszok és amire használni lehet őket 1

A történeti korpuszok jellemzői

A történeti korpusz... szövegek vagy szövegrészletek véges elektronikus gyűjteménye, amely jól körülhatárolt és nyelvészetileg releváns kritériumok alapján lett válogatva, valamint legalább törekszik a reprezentativitásra; azzal a céllal készül, hogy reprezentálja egy nyelv régi állapotait és/vagy hogy tanulmányozni lehessen rajta a nyelv változásait; legalább egy generációnyit visszanyúlik a mai nyelvállapot előttre. 2

A történeti korpusz típusai szinkrón diakrón Century of Prose Corpus Helsinki Corpus of English Texts (1680 1780) (750 1710) általános Helsinki Corpus of English Texts specifikus Electronic Beowulf 3

Időkeret Az időkeret a történeti korpuszok esetében kiemelt fontosságú. Kevesebb anyag áll rendelkezésre a régebbi korokból még a szinkrón korpuszok is legalább egy évszázadot fognak át. A méret összefügg az időkerettel. Minél nagyobb az időkeret, annál nagyobb a korpusz. 4

Korlátozó tényezők A történeti korpuszok jellemzően kisebbek, mint a modernek. a történeti szövegek feldolgozása nagyobb kihívást jelent az anyag elérhetősége (történeti okok) az anyag elérhetősége (gyakorlati szempontok) 5

Reprezentativitás nyelven kívüli tényezők a fennmaradt szövegek köre csak egy random mintát szolgáltatnak a múltbeli nyelvről, nem reprezentálják a nyelv teljes változatosságát a beszélt nyelvi adatok hiánya a különféle műfajok, regiszterek aránya az írott nyelvváltozaton belül is kiegyensúlyozatlan sok a vallási irodalom, kevés az informális, a sajtó, a tudományos stílus szociolingvisztikai kiegyensúlyozatlanság a fennmaradt szövegek a társadalmi elit és az értelmiség nyelvét reprezentálják 6

A történeti szövegek feldolgozása

Kézzel írott kódexek, nyomtatott kiadások 7

Speciális karakterek 52 latin alapkarakter 42 diakritikus jel 10 szám 15 speciális karakter 34 szövegtagoló és egyéb jel 3 görög betű Összesen: 156 karakter + ezek kombinációi 8

Heterogén helyesírás, normalizálás a már nem létező jelenségeket megőrizni ýsa pur es chomuv uogmuc isa, por és hamu vagyunk lata o napat fèkette látá ő napát fekette a helyesírási esetlegességeket eltörölni meden menden mendun mendē mendė miden minden mynden my nden my ndē mýden mýnden mýndew mÿnden mÿndon mēden mēdèn mēdē mēdėn mėnden ṁēden minden 9

Nyelvi annotáció az elérhető elemzők a modern nyelvállapotra készültek a régi nyelvállapot elemzésére alkalmas eszközöket kell fejleszteni az adaptáció nem triviális több kézi ellenőrzést igényel 10

A korpuszok és amire használni lehet őket

Magyar nyelvű történeti korpuszok 1. Ómagyar Korpusz MTA Nyelvtudományi Intézet http://omagyarkorpusz.nytud.hu 896 1526 & 1526 1772 2. Történeti Magánéleti Korpusz MTA Nyelvtudományi Intézet http://tmk.nytud.hu/ 1772 előtt 3. Magyar Történeti Szövegtár MTA Nyelvtudományi Intézet http://www.nytud.hu/hhc/ 1772 után 11

Egyéb források 1. Számítógépes Nyelvtörténeti Adattár a {Jókai-kódex, Birk-kódex, Guary-kódex, Apor-kódex, Festetics-kódex} ábécérendes adattára http://mnytud.arts.unideb.hu/sznyta.php Margit-legenda a készülő kritikai szövegkiadás online változata http://deba.unideb.hu/deba/margit-legenda_szent_ Margit_elete_1510/index.html 12

Egyéb források 2. Magyar Antikvakorpusz válogatás a magyar nyelvű könyvnyomtatás első fél évszázadából (1527 1576) http://korpusz.ektf.hu/hu Sermones a késő középkori és kora újkori magyarországi prédikációirodalom forrásszövegei http://sermones.elte.hu/ 13

A korpuszkeresők... segítségével elő tudunk állítani konkordancialistát és gyakorisági listát is; alkalmasak arra, hogy történeti lexikológiai és szociolingvisztikai kutatásokhoz segítséget nyújtsanak; a morfológiai elemzést is tartalmazó korpuszok lehetőséget adnak történeti morfológiai vizsgálatok folytatására is, illetve bizonyos szintaktikai jelenségek is kutathatóak rajtuk. 14

Hipotézis É. Kiss (2014), Gugán (2015, 2017) kétféle tagadó szerkezet létezik a magyarban az egyenes szórendű (igekötő tagadószó ige, pl. meg ne fogd) régebbi a fordított szórendű (tagadószó ige-igekötő, pl. ne fogd meg) újabb hipotézis: a fordított szórend is létezett a magyar nyelv korábbi szakaszaiban is, de csak a 19. századtól vált uralkodóvá É. Kiss, K. (2014): A tagadó és a kérdő mondatok változásai. In: É. Kiss (szerk.): Magyar generatív történeti mondattan, 34 49. o. Akadémiai Kiadó, Budapest. Gugán, K. (2015): És mégis: mozog? Tagadás és igemódosítók az ómagyarban és a középmagyarban. Általános Nyelvészeti Tanulmányok, 27:153 178. Gugán, K. (2017): A magyar tagadó mondatok szórendje és a konstansráta-hipotézis. In: Nyelvelmélet és diakrónia 3., 91 110. o. Pázmány Péter Katolikus Egyetem BTK; Szt. István Társulat, Budapest; Piliscsaba 15

Vizsgálat Kalivoda (2017) prototipikus igekötők (meg, el, fel, ki, be, le) szintaktikai viselkedését vizsgálta az ómagyar kortól napjainkig a tagadó és a tiltó mondatokra jellemző preverbális (ige előtti) és a posztverbális (ige utáni) igekötők arányát vizsgálta Ómagyar Korpusz (ÓMK) Történeti Magánéleti Korpusz (TMK) Magyar Történeti Szövegtár (MTSz) Magyar Nemzeti Szövegtár (MNSz) Kalivoda, Á. (2017): Prototipikus igekötők mondatbeli helye az ómagyar kortól napjainkig. Előadás a PPKE BTK Nyelvtudományi Doktori Iskolájának házi doktoranduszkonferenciáján. 16

Eredmények % 100 80 60 40 Preverbális igekötő Posztverbális igekötő 20 0 OMK TMK MTSZ MNSZ 17

Javasolt olvasmányok Claudia Claridge: Historical corpora. In: Lüdeling, A. and Kytö, M. (eds.): Corpus Linguistics. An International Handbook. Walter de Gruyter, Berlin, 2008. 242 259. Matti Rissanen: Corpus linguistics and historical linguistics. In: Lüdeling, A. and Kytö, M. (eds.): Corpus Linguistics. An International Handbook. Walter de Gruyter, Berlin, 2008. 53 68. Anne Curzan, Ann Arbor: Historical corpus linguistics and evidence of language change. In: Lüdeling, A. and Kytö, M. (eds.): Corpus Linguistics. An International Handbook. Walter de Gruyter, Berlin, 2008. 1091 1109. Claire Bowern, Bethwyn Evans (eds.): The Routledge Handbook of Historical Linguistics. Routledge, London New York, 2015. 18

Köszönöm a figyelmet! simon.eszter@nytud.mta.hu http://www.nytud.hu/oszt/korpusz/ Simon_Eszter.html 18