Simon Eszter. 2012. április 19. MTA Nyelvtudományi Intézet. Korpuszépítés ómagyar kódexekből. Simon Eszter. Bemutatás. Anyaggyűjtés.

Hasonló dokumentumok

Az Ómagyar Korpusz bemutatása

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Magyar nyelvű történeti korpuszok

Az URaLUID adatbázis bemutatása

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

A Hunglish Korpusz és szótár

avagy Simon Eszter, Sass Bálint MTA Nyelvtudományi Intézet, Budapest Kivonat

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

A kibővített Magyar történeti szövegtár új keresőfelülete

Intelligens elektronikus szótár és lexikai adatbázis

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

O & ko zèpmaǵar zoalactanÿ èlèmzo

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Különírás-egybeírás automatikusan

Igekötős szerkezetek a magyarban

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Magyar generatív történeti mondattan Kutatási beszámoló

Szakmacsoportos szakmai előkészítő érettségi tantárgyak versenye (2009. április 8.)

Korpuszlekérdezők evolúciója

Dokumentumformátumok Jelölő nyelvek XML XML. Sass Bálint Bevezetés a nyelvtechnológiába 2. gyakorlat szeptember 20.

Az új magyar Braille-rövidírás kialakítása

A Mazsola KORPUSZLEKÉRDEZŐ

MATEMATIKA. Helyezés Név Osztály Pont

EGYÉNI VÉGEREDMÉNY. Héraklész 2016, Téli Kupa 2.ford. - Ifi 'A' leány. Bp.-Székesfehérvár / HUN MÖSZ-Volán Fehérvár

SZÖVEGES LEJEGYZÉSBŐL NYELVI ADATBÁZIS

PurePos: hatékony morfológiai egyértelműsítő modul

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

HÉTFŐ KEDD SZERDA CSÜTÖRTÖK PÉNTEK Matematika Testnevelés Matematika Matematika Matematika

Egészítsük ki a Drupal-t. Drupal modul fejlesztés

Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések. 1. Mi a programozás?

Eredménylista Fürkész verseny, körzeti szakasz,

Yonex Nagydíj ranglisták a 6. forduló után

Magyar nyelvű kódexek digitális alapú feldolgozása

Be Kezd Ki Kedd

5. Az ómagyar kor magánhangzórendszere

Hunfoglalás - Kékes-Vertikál, Kékestető 1 kör - 6 km nemenkénti és kategóriánkénti eredménylista

A HUNGLISH PÁRHUZAMOS KORPUSZ

Hunfoglalás - Kékes-Vertikál, Kékestető 1 kör - 6 km nemenkénti és kategóriánkénti eredménylista

Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat.

Egyéni végeredmény. Két és Háromtusa Országos Bajnokság - Ifi 'B' leány. Érd / HUN Magyar Öttusa Szövetség Volán Fehérvár (1)

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Futakeszi. 10 km nemenkénti eredménylista. Férfi. Hely Rsz Név Szév Nettó idő 1. kör 2. kör 3. kör 4. kör

Az XCZ állományban szereplő állományok nevének UTF-8 kódolásúnak kell lennie. Probléma esetén használjon ékezet nélküli állományneveket.

TORNA DIÁKOLIMPIA ORSZÁGOS ELŐDÖNTŐ BUDAPEST BAJNOKSÁG 2007/2008 tanév. Budapest, február 23. I-II. korcsoport "B" kategória fiú csapatbajnokság

Az ö hang jelölése és a fonéma gyakorisága közötti lehetséges összefüggések vizsgálata Svetkovics Katalin levelezésében

MATEMATIKAI KOMPETENCIATERÜLET A

MAGYAR NYELV ÉS IRODALOM 5-8. MAGYAR NYELV. 5. évfolyam

Egy szónak is száz a vége

Jelentkezési űrlap. Tanuló neve Felkészítő neve Iskola neve Település Tollbamon dás

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

A PiFast program használata. Nagy Lajos

Győrújbaráti Terepfutás km Terepfutás abszolút eredmények Absz Hely. R.sz. Név Nem Bruttó cél Diff. Tempó

Középtáv Év kategória szerinti eredménylista

VERSENYJEGYZŐKÖNYV. Verseny rendezője: Szerencs Város Sportegyesülete és Szerencs Város Önkormányzata

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

Reumatológia klinika tanterme Élettan 8:00-8:45

A GAZDAGRÉT-CSIKIHEGYEK ÁLTALÁNOS ISKOLA TANTESTÜLETE ÉS A NEVELŐ-OKTATÓ

2002/2003-as tanév versenyeredményei. Aszalós Krisztina, Busi Alma Mater Oktatási Központ Száraz Anna 5.b 13.

Lexikon és nyelvtechnológia Földesi András /

I-SZÁMLA KFT. VEVŐI FELHASZNÁLÓI FIÓK HASZNÁLATI ÚTMUTATÓ

2012. január 16., Városi B kategóriás úszó diákolimpia, Nagykanizsa

I. OrfűFitt Pécsi-tó Át-és Körbeúszás eredményei

OKLEVÉL- ÉS KÖNYVJUTALMAK ÖS TANÉV

Tájékoztató. a évi Bolyai János Kutatási Ösztöndíj nyertes pályázatairól. Sorsz. Név Tudományág Munkahely

Tanuló neve azonosító felvételi sorrend Megjegyzés

PÁRHUZAMOS IGEI SZERKEZETEK

Descendants of Urbanus Benedek

Kezdő fiúk III. oszály - Baieti - incepatori clasa III. Hátúszás -25 m- Spate

Egy szónak is száz a vége

BEJELENTKEZÉS AZ EPK RENDSZERÉBE

Felnőtt Férfi Tőr Válogató és Előválogató Verseny Gerevich Aladár Nemzeti Sportcsarnok május 26.

Képzőművészeti tagozat elméleti vizsga beosztás

XI. Fóti-Futi. 5 km nemenkénti és kategóriánkénti eredménylista

Végleges felvételi jegyzék a 2009/2010. tanévre. Tagozatkód : 02 emelt óraszámú angol nyelvi képzés Keretszám: 18 fő Felvettek száma: 18 fő

AWK programozás, minták, vezérlési szerkezetek

TORNA DIÁKOLIMPIA ORSZÁGOS DÖNTŐ 2006/2007 tanév Makó, március I-II. korcsoport "B" kategória fiú csapatbajnokság

A magyar helyesírás főbb jellemzői

2. oldal Dolhai Balázs Dombi Ádám dr. Buséter Gábor dr. Galó Zsolt dr. Gyürke Bettina dr. Kovács Nikolett dr. Nagy Dóra Zita dr. Németh István dr. Sán

B U D A P E S T I Ü G Y V É D I K A M A R A V Á L A S Z T Á S S Z A V A Z A T S Z Á M L Á L Ó B I Z O T T S Á G

Gépi tanulási módszerek ómagyar kori szövegek normalizálására

A Békés Megyei Könyvtár Elektronikus Könyvtárának kialakítása

Automatică și informatică aplicată, A0 Automatika és alkalmazott informatika, A0

Iskolai versenyek. Név Osztály Tantárgy Helyezés Felkészítő tanár

Tanulmányok a középmagyar kor mondattana köréből

HELYI TANTERV. Nyelvtan

FOLYAMATAUDIT JELENTÉS ELEKTRONIKUS VÁLTOZATA

A HunTéka elektronikus könyvtár modulja

Helyesiras.mta.hu az intelligens helyesíró portál

XVIII. FUTABONY és Magas István Emlékverseny Eredménylista

PEDAGÓGIAI RENDSZEREK

TÁMOP /1-2 Referencia-intézmények országos hálózatának kialakítása és felkészítése. 4S PÁLYÁZATI INFORMÁCIÓS NAP Budapest, július 5.

1.a. A verseny szintje / helyezés, fokozat. osztály. Bosnyák Boglárka 1.a Helyes Márton 1.a bendegúz nyelvész Zákány Laura 1.a 1.

TDVT2018 VELENCEBIKE MTB MARATON RT/KT/HT EREDMÉNYEK

Átírás:

MTA Nyelvtudományi Intézet 2012 április 19

Az előadás vázlata 1 A projekt bemutatása 2 A korpusz anyagának összegyűjtése 3 A korpusz anyagának feldolgozása A betűhű szöveg előállítása 4 5 6 i elemzés és egyértelműsítés 7 A korpusz felépítése 8 A korpuszlekérdező eszköz 9

A projekt A projekt: Magyar Generatív Történeti Szintaxis (MGTSz) OTKA projekt É Kiss Katalin vezetésével 20090401 20130331

A projekt célja elektronikus nyelvtörténeti adatbázis: a teljes (896 1526) és válogatott középmagyar (1526 1772) anyag i összegyűjtjük és egységesítjük a már meglevő elektronikus nyelvtörténeti anyagokat ii a számítógép által olvasható és feldolgozható formára hozzuk az elektronikusan nem elérhetőeket iii normalizáljuk a szövegeket iv a korpusz egy részét morfológiailag elemezzük és egyértelműsítjük

Az korpusz anyaga a feldolgozandó anyag: 48 kódex 27 rövidebb szövegemlék 244 misszilis összesen kb 2 millió szövegszó, amelyből több mint 850 ezer már kereshető

: szöveges formátumok 1 különböző források UTF-8 sima szöveg 2 Számítógépes Nyelvtörténeti Adattár: a kódexbeli szavakat mai magyar változatuk szerint ábécérendbe sorolva adják táblázatos formában a betűhű, a normalizált és a morfológiailag egyértelműsített szövegszintek rekonstrukciója sorbarendezés a lelőhely alapján átalakítás UTF-8 kódolású tab separated sima szöveggé a normalizált szóalakok rekonstrukciója a kódok átalakítása az általunk használt morfológiai elemző kimeneti formalizmusára bizonyos nyelvi jelenségek átkódolása

Számítógépes Nyelvtörténeti Adattár

oldal sor betűhű norm tő elemzés 001 01 Mÿ mi mi ProNom Gen 001 01 vronknac urunknak úr NPxP1Dat Gen 001 01 iesus Jézus Jézus N:PNom 001 01 cristusnac Krisztusnak Krisztus N:PDat Gen 001 01 gyczeretÿre dicséretire dicséret NPxS3=iSub 001 02 es és és C 001 02 gyczewsegere dicsőségére dicsőség NPxS3Sub 001 02 es és és C 001 02 my mi mi ProNom Gen 001 02 atyancnak atyánknak atya NPxP1Dat Gen 001 03 bodog boldog boldog Adj 001 03 ferencznek Ferencnek Ferenc N:PDat Gen

: nem szöveges formátumok for codex in codices: if codex is short: typewriting else: scanmanualcheck

néhány kódex beszkennelt verziója megtalálható a MEK-ben, és ezek egy része ún szendvics PDF, DE a képek felbontása nem elég jó az -ezéshez a mögöttes szöveg nem az szövegeken tanított programmal készült, és nincs ellenőrizve minden kódexet nagy felbontásban beszkenneltünk

kulcsszempont: taníthatóság Abby FineReader 90 Professional edition az program kiértékelésénél Kniezsa (1952) helyesírási kategorizálását követtük 1 mellékjel nélküli: a latinban nem szereplő magyar hangokat több betű kombinációjával írja le, pl cs ch cz chy chi cy 2 mellékjeles: egy rokonhang betűjének mellékjeles változatával írja le ezeket, pl cs ć l l 3 keverék, pl cs ch chy cyh c chi ch cz ts ć l l lh lz

Az kiértékelése kódex helyesírás token felismert WAcc (%) KulcsK mellékjel nélküli 36321 35258 97,07 MunchK mellékjeles 74657 50790 68,03 CzechK keverék 11478 7910 68,91 mai 5121 5068 98,97

A betűhű szöveg nem törekszünk paleográfiai pontosságra: az átirat szerkesztőjének konvencióit követjük Példa P Balázs (1981) Jakab (2002) ıeſus iesus ſcent scent ahol egyedi indokkal mégis eltérünk ettől, azt külön jelezzük

Unicode nemzetközi szabvány a világ összes nyelvének összes karakterét egy kódolási rendszerbe foglalja minden platformon elérhető lehetőséget nyújt az alapkarakterek és a diakritikus jelek kombinációjára, pl e + + = è az egész korpuszra kiterjedő szigorúan egységes formátum, DE: előfordulnak olyan régi karakterek, melyek a Unicode-ban nincsenek reprezentálva helyettesítő karakter, pl l č UTF-8 kódolású sztenderd Unicode karakterek

Prószéky-kódok a szövegeket Prószéky-kódokkal is tároljuk betű-szám kombinációk a Magyar Történeti Korpusz kódtábláját bővítettük ki ékezet kód példa kombináció 1 á a1 2 ö o2 3 ű u3 4 è e4

Heterogén helyesírási rendszer problémás hangjelölés: a magyar nyelv hangrendszerének több eleme a latinban ismeretlen, ezek jelölésére új jeleket kellett bevezetni nincs egységes helyesírás egy kódexet több kéz is jegyezhetett egy emléken belül ingadozik egy-egy hang jelölésmódja, pl Vylag uilaga [világ világa] kettős hangértéke van egy-egy betűnek, pl zerzete zerent [szerzete szerint] néhány betű utalhat magán- és mássalhangzóra is, pl az u,v,w jelölheti az u,ú,ü,ű,v,β hangok bármelyikét

A alapelvei 1 A ma nem létező összes szót, toldalékot, morfológiai konstrukciót megtartjuk, vagyis morfémát nem toldunk be, és nem hagyunk el betűhű normalizált értelmezés villamik villamik villámlik/villanik isa isa bizony iesek jeszek jövök ymaduam imádvám imádva E/1

A alapelvei 2 Elhagyjuk az összes fonológiai és helyesírási esetlegességet, vagyis egységes, amennyire lehet, a mainak megfelelő helyesírásra törekszünk Ez az egységesség elve: egy adott szót mindig ugyanúgy írunk le betűhű mēden menden minden algyu agyu strumlast normalizált minden minden minden ágyú ágyú ostromlást

Szavakra és mondatokra bontás

A mondatokra bontás elvei a korabeli központozásra nem támaszkodhatunk kézi mondatra bontás az alárendelő tagmondatot nem választjuk el a főmondattól, a mellérendelőt igen kétséges esetben inkább nem teszünk mondathatárt

A nevek egységesítése a bibliai tulajdonneveket a Szent István Társulati bibliafordítás alapján egységesen normalizáljuk Példa betűhű normalizált Rutthot Rutot Ruth Rut Rutnac Rutnak a SzIT-ben sem egységes névváltozatok közül a gyakoribbat használjuk

a legjobb n normalizált alakot tartalmazó lista a manuális annotáció redukálható a felkínált alakok közötti választásra Példa ygen (igen) -10,8729908279143 igén -11,3178857141749 igen -11,5989613202567 igény -13,4229320257043 igyen*

i elemzés és egyértelműsítés félautomatikus automatikus morfológiai elemzés félautomatikus egyértelműsítés Humor bővített lexikonnal és szabályhalmazzal

Szövegfeldolgozottsági szintek az egyes szövegszavakhoz tartozó annotációs szintek párhuzamosan alakulnak a szövegfeldolgozottsági szintekkel: (1) kiadott kódex szkennelve (2) nyers -kimenet kézi javítás, kódolás (3) betűhű elektronikus forma félautomatikus (4) normalizált forma automatikus morfológiai elemzés (5) szótövesített és morfológiailag elemzett forma félautomatikus egyértelműsítés (6) egyértelműsített korpusz

Az annotációs szintek a korpuszban minden egyes szövegszó mellett szerepelnek a következő adatok: betűhű forma (3): adÿad normalizált alak (4): adjad szótő (6) alapján: ad morfológiai elemzés (6): VSubS2Def

A korpusz anyaga vertikális fájlformátum kéz könyv oldal fejezet vers betűhű norm ért megj 1 Rut 4 2 8 Es és 1 Rut 4 2 8 monda mondá 1 Rut 4 2 8 Booz Boász 1 Rut 4 2 8 [Noėminèc] FAIL 1 Rut 4 2 8 Rutnac Rutnak: 1 Rut 4 2 8 1 Rut 4 2 8 Halgaſſad hallgassad, 1 Rut 4 2 8 leaṅom leányom:

Metaadatok lókuszjelölők: az adott szó helye az eredeti kódexben kéz bibliai fejezet- és versszámozás értelmezés: a normalizált alak mai magyarra való fordítása megjegyzés: TITLE, LANG{nyelv}, ADD, RECO, STRIKE, FAIL, FRAG

minden szinten a lekérdező lényege, hogy bármely szinten meg lehet fogalmazni a lekérdezésünket Példa Milyen szavak szerepelnek egy igealak és egy igekötő között?: (6) gyakorisági lista a korpusz egy részéből: a szótöveken (6) alapján az m -et tartalmazó szavak: (3)

A korpuszlekérdező felülete http://corpusnytudhu/rmk/

A lekérdezés eredménye

Hogy keressünk rá arra, ami nincs ott? a mai magyartól eltér az névelőhasználat: sok helyen nincs névelő, ahol ma van Példa JokK 140o: Es azert ewkewztewk zent ferencz czudalatost gÿczerÿuala teremtewtt [És azért őköztük Szent Ferenc csodálatost dicséri vala Teremtőt] megoldás: két olyan szóra keresünk rá, amelyek között várnánk a névelőt [W FOCUS w 6e 'V*Def'] [W FOCUS w 6e 'N*Acc']

a teljes anyag betűhű formában való előállítása és kereshetővé tétele a különböző korokban kiadott nyomtatott kódexátiratok tipográfiai esetlegességeinek kiküszöbölése középmagyar anyagok összegyűjtése és feldolgozása

Közreműködők Bácskai-Atkári Júlia Novák Attila Blahó Sylvia Oravecz Csaba Egedi Barbara Peredy Márta É Kiss Katalin Pólya Katalin Farkas Judit Sass Bálint Gerőcs Mátyás Szeredi Dániel Hegedűs Veronika Szőke Johanna Kacskovics-Reményi Andrea Tánczos Orsolya Kántor Gergely Tóth Ildikó Mihály Eszter Váradi Tamás Mittelholcz Iván

Köszönöm a figyelmet!