Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Hasonló dokumentumok
Simon Eszter április 19. MTA Nyelvtudományi Intézet. Korpuszépítés ómagyar kódexekből. Simon Eszter. Bemutatás. Anyaggyűjtés.

Az Ómagyar Korpusz bemutatása

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Magyar nyelvű történeti korpuszok

Korpuszlekérdezők evolúciója

avagy Simon Eszter, Sass Bálint MTA Nyelvtudományi Intézet, Budapest Kivonat

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A kibővített Magyar történeti szövegtár új keresőfelülete

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

A Mazsola KORPUSZLEKÉRDEZŐ

SZÖVEGES LEJEGYZÉSBŐL NYELVI ADATBÁZIS

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Intelligens elektronikus szótár és lexikai adatbázis

Magyar generatív történeti mondattan Kutatási beszámoló

Igekötős szerkezetek a magyarban

Az URaLUID adatbázis bemutatása

Magyar nyelvtan tanmenet 4. osztály

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Nyilvántartási Rendszer

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

DSD. Szkennelt szövegek digitalizálása során keletkező hibák elemzése magyar szövegek esetében. Pataki Máté Tóth Zoltán MTA SZTAKI DSD

Programozási nyelvek II. JAVA

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

MAGYAR NYELV a 8. évfolyamosok számára. MNy2 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

O & ko zèpmaǵar zoalactanÿ èlèmzo

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

A Hunglish Korpusz és szótár

Ó Ó É ü É ü ü

Ö Ó Ó Ó

Ö Ö É Ő Ú É

Ö

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint


Ü ű Ü É ű ű É Ü Ü

ű ű ű Ö ű ű ű Ú ű ű ű Ö ű ű ű ű ű ű ű

Ó ű ű ű ű ű ű É É É

Ú Ú Ü Ü ű ű ű É Ú É ű

Ó Ó ú ú ú ú ú É ú

Ü Ü Ó Ü Ó

Ó ú É ú É É É Ő ú ú ű Ó Ö É É ú Ü ú É ú

É ö

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Ó ú É Ú

ű ő ű ű ű ö ő ú ö ő ő ő ő ő ő ő ű ő ő ő ő ü ü ő ü ü ő ú ü ő ő ü ü ü ő ú ü

A két projekt valamelyikét említő előadásaink listája

Lexikon és nyelvtechnológia Földesi András /

Keresés korpuszban október 19., SZTE JGYPK Sass Bálint MTA Nyelvtudományi Intézet

Az új magyar Braille-rövidírás kialakítása

Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések. 1. Mi a programozás?

A számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES FELDOLGOZÁSA: ADATMODELLEZÉS ÉS SZABVÁNYOK

ľ ő ö ö ü ö ü ö ő ö ó ľ ó ő ő ő ö ő ó ź ő ü ę ű ö ő ő ő ö ę ź ü ő ö ó ó ľ ľ ü ú ö đ Ą ő ő ő ľü ľ ę ó ö ő ő ü ó ó ó ő ő ő ľ ź ó ľ ęľ ő ľ ó Ü É ü ó ő ľ

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

MAGYAR NYELV a 8. évfolyamosok számára. MNy2 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Kedves Openhouse-os munkatársak!

Grammatikalizálódott kopula és prenominális módosítok a magyarban

2013/14. tanév. 3.osztály

Shannon és Huffman kód konstrukció tetszőleges. véges test felett

Magyar nyelvű kódexek digitális alapú feldolgozása

XML / CSV specifikáció

é ü ó ö é Ö é ü é é ó ö é ü ü é é ó ó ó é Á é é ü ó é ó ó é ö ö ö é é ü é ü é é ö ü ü é ó é é é é é é ö é é é é é é ö é ó ö ü é é é ü é é ó é ü ó ö é

Ó Ó ó ö ó

PTE BTK Magyar Nyelv- és Irodalomtudományi Intézet Nyelvtudományi Tanszék

A Békés Megyei Könyvtár Elektronikus Könyvtárának kialakítása

Cikkarchívum fejlesztése

A MNyA. és a RMNyA. integrált dialektometriai elemzése

É É Ö ű Ú Ú É ű

SZAKMAI ÖNÉLETRAJZ Farkas Judit

A HUNGLISH PÁRHUZAMOS KORPUSZ

ó Ó ú ó ó ó Á ó ó ó Á ó ó ó ó Á ó ú ó ó ó

Á ű ó ó

EGYSZERŰSÍTJÜK AZ IRODAI MUNKÁT.

Ó é é Ó Ó ő ű Ó Ö ü Ó é Ó ő Ó Á Ö é Ö Ó Ó é Ó Ó Ó Ó ú Ó Ó Ó Ó ű Ö Ó Ó Ó é Ó Ó ö Ö Ó Ö Ö Ó Ó Ó é ö Ö é é Ü Ó Ö Ó é Ó é ö Ó Ú Ó ő Ö Ó é é Ö ú Ó Ö ö ű ő

NYELVÉSZETI SZÖVEGKERESŐK, NEMZETI KORPUSZPORTÁL

Ĺ ĺ Í ť Ż ú ĺ ü Ü ĺ ĺ ú Ö ü Ü Ż ö ĺ ü ü đ ü Ż ĺ ĺí ü ú Ö ü Ü Š ĺ ĺĺ ę

Online információkeresés. Dr. Nyéki Lajos 2016

ű ű ű Ú Ú Á ű Ö ű ű Ú Ő É

ó ő ő ó ő ö ő ő ó ó ó ö ő ó ó ó ö ő ó ő ő ö Ö ő ö ó ő ö ő ő ú ö ö ü ö ó ö ö ö ő ö ö Ö ú ü ó ü ő ő ő ő ó ő ü ó ü ö ő ö ó ő ö ő ö ü ö ü ő ö ö ó ö ő ő ö

ű Ö ű Ú ű ű ű Á ű

Á Ó ű ű Á É ű ű ű ű Ú Ú

Á Á ő ő Ö ő ő ö É ö ő ö ő ő ö ő ő ö ő ő ü ö

Ú ű É ű ű Ü Ü ű ű Ú É ű ű Ü ű ű ű ű ű ű ű Ú ű ű

Á Ö Ö Ö Ö ú ú Ö Ö Ó Ó ú ú Ü ú Ó Ö Ö Ü Ó Ö Ö Á Ó ú ú ú ű Ö Ö Ö Ö Á Ó Ö Ó ú ú Ö

ű Ú ű ű É Ú ű ű

ő ű É Ó Ü É É É É Ü Ö É É É ű É Ö É Ü É Ú Ó ő Ó

Ó Ó ö ú ö ö ö ö ü ú ú ö ö ö ú ú ö ö ö ú ú ú ű ö ö ú ö ü ö ö ö ö ü ú Á ö ü Á ö ö ö ö ö ö

ő ó ő ö Í ű ü ó ó ő ö ó ő ü ű ö ü ľ ő ó ő ő ü ó ü ö ö ö í ő ó í ľ ő ő í ľ í ö ő ó ö ó ö ľ ü ü ű ó ź ó ö í ő ó ö ľ ó ű ó í ú ú í ú ü í ú ú ú ľ ó í ö Ĺ

ö ö Á Á Ó Á ö ö ö ö ö ú ű ö ö Á Á ű ű ö ö ö ö ű

Szabályalapú szintaktikai elemző szintaktikai szabályok nélkül

Á Ü É Ü Ú Ü É

ü ü Ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü É ü ü

ő ü ó í í í ő ó Ó í

Átírás:

A készülő MGTSz adatbázis felépítése Blaho Sylvia, Sass Bálint & Simon Eszter MTA Nyelvtudományi Intézet 2010. február 4.

Az előadás vázlata 1 A projekt bemutatása A szöveg feldolgozásának szintjei A korpusz felépítése Egységes beviteli formátum Kézi kódolás A kódolási szabályzat A normalizálás alapelvei 2 A szövegek egyszerűsített átirata 3,,Régi magyar konkordancia

Outline 1 A projekt bemutatása A szöveg feldolgozásának szintjei A korpusz felépítése Egységes beviteli formátum Kézi kódolás A kódolási szabályzat A normalizálás alapelvei 2 A szövegek egyszerűsített átirata 3,,Régi magyar konkordancia

A projekt A projekt: Magyar Generatív Történeti Szintaxis (MGTSz) OTKA projekt É. Kiss Katalin vezetésével 2009.04.01. 2013.03.31.

A projekt célja elektronikus nyelvtörténeti adatbázis: a teljes ómagyar és válogatott középmagyar anyag i. összegyűjtjük és egységesítjük a már meglevő elektronikus nyelvtörténeti anyagokat ii. a számítógép által olvasható és feldolgozható formára hozzuk az elektronikusan nem elérhetőeket iii. a betűhű változat mellett előálĺıtunk egy egyszerűsített változatot is iv. normalizáljuk a szövegeket v. a korpuszt morfológiailag elemezzük és egyértelműsítjük vi. a korpusz egy részét szintaktikailag is elemezzük.

A szöveg feldolgozásának szintjei Az eredeti kódextől a morfológiailag elemzett elektronikusan tárolt szövegig a következő szintek vannak: (0) fac simile feldolgozás, kiadás (1) betűhű átirat szkennelés, OCR (2) OCR-ezett szken javítás, kódolás (3a) betűhű szöveges elektronikus forma (txt) egyszerűsítési szabályok

A szöveg feldolgozásának szintjei (3b) egyszerűsített változat normalizálás (4) normalizált alak automatikus morfológiai elemzés (5) elemzett forma automatikus morfológiai egyértelműsítés (6) egyértelműsített forma

A korpusz felépítése A korpuszban minden egyes szövegszó mellett szerepelni fognak a következő adatok: betűhű forma (3a): adÿad egyszerűsített alak (3b): adyad normalizált alak (4): adjad szótő (6) alapján: ad morfológiai elemzés (6) alapján: ad[v.sub.s2.def]

Lekérdezés minden szinten a lekérdező lényege, hogy bármely szinten meg lehet fogalmazni a lekérdezésünket Példa Milyen szavak szerepelnek egy igealak és egy igekötő között? : (6) gyakorisági lista a korpusz egy részéből: a szótöveken (6) alapján az m -et tartalmazó szavak: (3a)

Kézi kódolás A kódolók munkájának lényege a (3a) és a (4) alak előálĺıtása. egységes beviteli formátum: a kódolási szabályzat alapján

A kódolási szabályzat lókuszjelölők Prószéky-kódolás mondatrabontás a szkriptor javításainak kódolása a normalizálás alapelvei

A normalizálás alapelvei 1. A ma nem létező összes szót, toldalékot, morfológiai konstrukciót meg kell tartani, nem szabad, hogy ilyen információ elvesszen. (3a) (4) értelmezés villamik villamik villámlik/villanik isa isa bizony iesek jeszek jövök

A normalizálás alapelvei 2. El kell hagyni az összes fonológiai és helyesírási esetlegességet, egységes, amennyire lehet, a mainak megfelelő helyesírásra kell törekedni. (3a) (4) me8den minden menden minden minden minden algyu agyu srumlast ágyú ágyú ostromlást

Outline 1 A projekt bemutatása A szöveg feldolgozásának szintjei A korpusz felépítése Egységes beviteli formátum Kézi kódolás A kódolási szabályzat A normalizálás alapelvei 2 A szövegek egyszerűsített átirata 3,,Régi magyar konkordancia

Betűhű változat a betűhű változat elkészítésekor nem a szövegek kézzel írott változatát, hanem az általunk használt átirat szerkesztőjének konvencióit követtük. ezért előfordul, hogy a különböző forrás alapján feldolgozott szövegek más és más egyszerűsítéseket tartalmaznak az eredetihez képest.

Betűhű változat a betűhű változat elkészítésekor nem a szövegek kézzel írott változatát, hanem az általunk használt átirat szerkesztőjének konvencióit követtük. ezért előfordul, hogy a különböző forrás alapján feldolgozott szövegek más és más egyszerűsítéseket tartalmaznak az eredetihez képest. Példa Jókai kódex: Z vs. ÿ vs. ŸZ a szerkesztő mindhármat Z-ként írja át

Betűhű változat a betűhű változat elkészítésekor nem a szövegek kézzel írott változatát, hanem az általunk használt átirat szerkesztőjének konvencióit követtük. ezért előfordul, hogy a különböző forrás alapján feldolgozott szövegek más és más egyszerűsítéseket tartalmaznak az eredetihez képest. Példa Jókai kódex: Z vs. ÿ vs. ŸZ a szerkesztő mindhármat Z-ként írja át s vs. S, z vs. Z, y vs. ẏ vs. ÿ

Betűhű változat a betűhű változat elkészítésekor nem a szövegek kézzel írott változatát, hanem az általunk használt átirat szerkesztőjének konvencióit követtük. ezért előfordul, hogy a különböző forrás alapján feldolgozott szövegek más és más egyszerűsítéseket tartalmaznak az eredetihez képest. Példa Jókai kódex: Z vs. ÿ vs. ŸZ a szerkesztő mindhármat Z-ként írja át s vs. S, z vs. Z, y vs. ẏ vs. ÿ palatalizált mássalhangzók: ṫ vs. t

Betűhű változat a betűhű változat elkészítésekor nem a szövegek kézzel írott változatát, hanem az általunk használt átirat szerkesztőjének konvencióit követtük. ezért előfordul, hogy a különböző forrás alapján feldolgozott szövegek más és más egyszerűsítéseket tartalmaznak az eredetihez képest. Példa Jókai kódex: Z vs. ÿ vs. ŸZ a szerkesztő mindhármat Z-ként írja át s vs. S, z vs. Z, y vs. ẏ vs. ÿ palatalizált mássalhangzók: ṫ vs. t

Egyszerűsített átirat célja, hogy az ómagyar szövegek olvasásában nem járatos felhasználó számára megkönnyítse az olvasást, minimalizálja a speciális karakterek használatából adódó problémák előfordulásának esélyét elkészítésekor a következő szempontokat tartottuk szem előtt: nyelvészeti relevancia gyakrabban használt karakterek egységesítés

Nyelvészeti relevancia Az egyszerűsített változatból kimaradnak olyan speciális karakterek és diakritikumok, amelyek paleográfiai, stb. jelentőséggel bírnak, nyelvészetivel azonban nem. Példa S Z ẏ ÿ s z y y

Gyakrabban használt karakterek A következő szempont az volt, hogy az egyszerűsített átiratban minél kevesebb, a magyar betűkészletben nem meglévő karakter és mellékjel szerepeljen. Példa t ty o ö

Gyakrabban használt karakterek Ahol mégis a magyarban nem haszált betűre volt szükség, előnyben részesítettük az ismertebb, európai nyelvekben gyakran használt karaktereket. Példa ē ẽ

Gyakrabban használt karakterek Ahol mégis a magyarban nem haszált betűre volt szükség, előnyben részesítettük az ismertebb, európai nyelvekben gyakran használt karaktereket. Példa ē ẽ Ez egyrészt az olvasás és a régi magyar példák számítógépes bevitelének megkönnyítését szolgálja (pl. cikkekben, prezentációk segédanyagaiban), másrészt csökkenti a különböző programok fonthasználatából adódó hibák eséyét.

Egységesítés Azokat a nyelvészetileg releváns karaktereket és diakritikumokat, amelyek különböző nyelvemlékekben eltérő módon jelölik ugyanazt a betűt, illetve tulajdonságot, igyekeztünk egységesíteni. Példa ṫ ẗ ty ty ty ty

A legfontosabb szempont az egyszerűsített átirat elkészítésénél azonban az, hogy a betűhű változathoz képest semmilyen, nyelvészetileg releváns információ ne vesszen el.

Inkonzisztencia egyes kódexek között: Példa ġ [g] g [é] vs. g [g] ġ [é]

Inkonzisztencia egyes kódexek között: Példa ġ [g] g [é] vs. g [g] ġ [é] Példa ugyanazon a kódexen belül: Müncheni kódex: tő g ġ gyermek 22 0 hogy 670 0 míg 5 3 ország 137 51

Outline 1 A projekt bemutatása A szöveg feldolgozásának szintjei A korpusz felépítése Egységes beviteli formátum Kézi kódolás A kódolási szabályzat A normalizálás alapelvei 2 A szövegek egyszerűsített átirata 3,,Régi magyar konkordancia

Korpusz Formátum: egységes, szabványos, hordozható XML: adatbázisszerkezet egymásba ágyazott objektumok + attribtumok mondat és szó + a megfelelő szintek adatai szavanként UTF-8: különleges karakterek kódolására Anyag Cél: teljes ómagyar kori anyag Jelenleg: (3a) (4) (6) kisebb nyelvemlékek + + Bécsi kódex + Jókai kódex + +

Lekérdezőfelület

Eredmény konkordancia

Eredmény gyakorisági lista

Példák (1/4) névutók lekérdezése (Hegedűs Vera) [W FOCUS w_6e ~ Pp ] 340 db, ebből ragozott 100 db (mind E/3) ragozott főnévi igenevek lekérdezése (Tóth Ildikó) [W FOCUS w_6e ~ Inf.Px ] 1 2 3 132 db, eloszlás: egyes szám 23 23 70 többes szám 5 6 5

Példák (2/4),,Hol nincs ott a névelő, pedig várnánk? (Egedi Barbara) Olyat keresünk, ami nincs ott. Adjunk meg konkrét ilyen helyzeteket. Lekérdezés: definit ige után tárgyesetű főnév [W FOCUS w_6e ~ V.*Def ] [W FOCUS w_6e ~ N.*Acc ] Egy találat,,es azert ewkewztewk zent ferencz czudalatost gÿczerÿuala teremtewtt

Példák,,Míg a mai magyarban a tagadott igekötős ige (egy-két szerkezetet kivéve) fordított szórendű, a korai ómagyar korban az igekötő az esetek nagyobb részében megelőzi a tagadott igét. (É. Kiss Katalin) [W FOCUS w_6e ~ Mod ] [W FOCUS w_6e ~ V\. ] [W FOCUS w_6e ~ Vpfx ] [W FOCUS w_6e ~ Vpfx ] [W FOCUS w_6e ~ Mod ] [W FOCUS w_6e ~ V\. ] (3/4) Egy találat,,ver touaba kÿ nem futott

Példák (4/4),,Míg a mai magyarban a tagadószó hordozza a tagadást, és a se-névmások csupán a tagadószóval egyeztetett alakok, a korai ómagyar korban a se-névmásoknak is lehetett tagadó erejük. (É. Kiss Katalin) Lekérdezés: senki/semmi után tagadószótól különböző szó [W FOCUS w_6s ~ ^6s\(\(se[nm][km]i\)\)$ ] [W FOCUS NOT(w_6e ~ ^6e\(\(Mod\)\)$ )] Egy találat,,mendenestewlfoguan maganac semÿtt meg tarttuan

Elérhetőség A lekérdezőfelület szabadon elérhető: http://corpus.nytud.hu/rmk Köszönjük a figyelmet!