Az URaLUID adatbázis bemutatása

Hasonló dokumentumok
Az Ómagyar Korpusz bemutatása

OTKA 71707: OBI-UGOR MORFOLÓGIAI ELEMZŐK ÉS KORPUSZOK

Magyar nyelvű történeti korpuszok

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Nyelvészet. I. Témakör: Leíró nyelvtan

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Korpuszlekérdezők evolúciója

Bevezetés a számítástechnikába

SZAKMAI ÖNÉLETRAJZ Farkas Judit

A kibővített Magyar történeti szövegtár új keresőfelülete

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Különírás-egybeírás automatikusan

A Szótári Osztály évi jelentése

Adatbázis rendszerek. 4. előadás Redundancia, normalizálás

DSD. Szkennelt szövegek digitalizálása során keletkező hibák elemzése magyar szövegek esetében. Pataki Máté Tóth Zoltán MTA SZTAKI DSD

Tanegységlista (BA) Modern filológia képzési ág. Germanisztika alapszak (BA) német nemzetiségi szakirány. a 2015-tól fölvett hallgatóknak

Webdesign II Oldaltervezés 3. Tipográfiai alapismeretek

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Félévi óraszám Ajánlott félév. Követelmény. Heti óraszám. Felvétel típusa. Kreditpont. Felvétele. típusa

PureToken: egy új tokenizáló eszköz

Könyvtári szabványok és szabályzatok jegyzéke

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Simon Eszter április 19. MTA Nyelvtudományi Intézet. Korpuszépítés ómagyar kódexekből. Simon Eszter. Bemutatás. Anyaggyűjtés.

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

XML / CSV specifikáció

A HUNGLISH PÁRHUZAMOS KORPUSZ

Lexikon és nyelvtechnológia Földesi András /

1. feladat: A decimális kódokat az ASCII kódtábla alapján kódold vissza karakterekké és megkapod a megoldást! Kitől van az idézet?

A Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály jelentése a évről. Kiemelkedő kutatási és más jellegű eredmények

Igekötős szerkezetek a magyarban

A Humor új Fo(r)mája

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

(4 félév, 20+30=50 kredit; nappali)

formalizmusa Egy morfológiai elemző kimeneti formalizmusának három, egymásnak gyakran

3. melléklet: Innovációs és eredményességi mutatók Összesített innovációs index, 2017 (teljesítmény a 2010-es EU-átlag arányában)

Optikai karakterfelismerés

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Intelligens elektronikus szótár és lexikai adatbázis

Készítette: Molnár Dávid. Beszédadatbázisok. A BUSZI és a nyelvjárási hangarchívumok

Újdonságok az OpenOffice.org Lingucomponent moduljában

ME BTK MAGYAR SZAKOS OSZTATLAN TANÁRKÉPZÉS

Bevezetés az e-magyar programcsomag használatába

Tananyagok. = Feladatsorok. Hogyan készült? Adaptált tartalom Interdiszciplinaritás

Nyelv-ész-gép Új technológiák az információs társadalomban

Adatbázis Rendszerek II. 5. PLSQL Csomagok 16/1B IT MAN

Tanulmányok a középmagyar kor mondattana köréből

ME BTK MAGYAR SZAKOS OSZTATLAN TANÁRKÉPZÉS

Osztatlan némettanár képzés tanterve (5+1) és (4+1) A képzési és kimeneti követelményeknek való megfelelés bemutatása

Tanegységlista (BA) Modern filológia képzési ág. Germanisztika alapszak (BA) néderlandisztika szakirány. a 2017-től fölvett hallgatóknak

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Gyakorló 9. feladat megoldási útmutató

szeptemberétől

MSD-KR harmonizáció a Szeged Treebank 2.5-ben

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

Elérhető szótárak a magyar nyelv oktatásában és használatában. M. P i n t é r T i b o r

Tartalomjegyzék Bevezető...1 Adatátvétel Windows alkalmazásból...1 Adatátvétel webes alkalmazásból...2 Adatforrás formátuma...2 Megvalósítás...

Megyei statisztikai profil a Smart Specialisation Strategy (S3) megalapozásához Csongrád megye

Laborgyakorlat 3 A modul ellenőrzése szimulációval. Dr. Oniga István

Angol-Amerikai Intézet 3 tanszékbıl áll

ELEKTRONIKUS ŰRLAP A NYILVÁNTARTÁSOK REGISZTERÉBE

BA Germanisztika alapképzés mintatanterve (180 kredit, 6 félév)

Az új magyar Braille-rövidírás kialakítása

b o o k s 2 e b o o k s. e u

Karán című konferencián, október 28-án elhangzott előadás szerkesztett változata.

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

GERMANISZTIKA ALAPSZAK (BA) MINTATANTERVE NÉMET szakirány Germanisztika fakultatív modul NAPPALI TAGOZAT Érvényes a 2014/2015.

PTE BTK Magyar Nyelv- és Irodalomtudományi Intézet Nyelvtudományi Tanszék

magyar (BA)-BTK XXX-MAGTANB2/ képzési terv

Tanegységlista (BA) Modern filológia képzési ág. Germanisztika alapszak (BA) néderlandisztika szakirány. a 2015-től fölvett hallgatóknak

Angol-Amerikai Intézet 3 tanszékbıl áll

Tanegységlista (BA) Modern filológia képzési ág

Egy általános célú morfológiai annotáció kiterjesztése

Üzleti szemlélet és a magyar nyelv támogatása a többnyelvű világban

Mély neuronhálók alkalmazása és optimalizálása

2015. június Osztály:Gyermekfogászat

KÖZBESZERZÉSI ADATBÁZIS (KBA) A KBT. NOVEMBER 1-JEI VÁLTOZÁSAI

A Mazsola KORPUSZLEKÉRDEZŐ

w w w. h a n s a g i i s k. h u

PurePos: hatékony morfológiai egyértelműsítő modul

A 2017 szeptemberétől érvényes kurzuslisták BA major szakosok nyelvészeti tárgyai

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Tanóra / modul címe: A MAGYAR İSTÖRTÉNET PROBLÉMÁI

HTML é s wéblapféjlészté s

Szemle Beregszászi Anikó és Csernicskó István: itt mennyit ér a szó? Írások a kárpátaljai magyarok nyelvhasználatáról.

Szavazókör nyitvatartása

Tanegységlista (BA) Modern filológia képzési ág. Germanisztika alapszak (BA) német szakirány 2019-től fölvett hallgatóknak

Tanegységlista (BA) 2015-től fölvett hallgatóknak

Programozás. (GKxB_INTM021) Dr. Hatwágner F. Miklós május 6. Széchenyi István Egyetem, Gy r

1999-ben beadott pályázatok adatai

Obi-ugor nyelvek digitális adatbázisa

KOPI. Többnyelvű dokumentum nyelvének megállapítása MTA SZTAKI DSD. Vajna Miklós Pataki Máté MSZNY Department of Distributed Systems

Interdiszciplináris Doktori Iskola. A Kárpát-medence és a szomszédos birodalmak között Doktori Program. Képzési program

Nyelvi tudásra épülő fordítómemória

Java programozási nyelv 6. rész Java a gyakorlatban

Hagyjuk vagy fejlesszük? A magyar műszaki nyelv jelenéről és jövőjéről. Dr. Balázs Géza tszv. egyetemi tanár ELTE Mai Magyar Nyelvi Tanszék

MAGYAR SZAKOS OSZTATLAN TANÁRKÉPZÉS, LEVELEZŐ

Külgazdasági és Külügyminisztérium. 1. sz. Melléklet

Átírás:

Hatás alatt álló nyelvek Az URaLUID adatbázis bemutatása Simon Eszter MTA Nyelvtudományi Intézet 2017. január 13. 29. Finnugor Szeminárium Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 1 / 19

Az előadás vázlata 1 Projekt 2 Szöveggyűjtés 3 Szövegfeldolgozás Transzkripció és transzliteráció Morfológiai elemzés Fordítások Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 2 / 19

Projekt A projekt Az uráli nyelvek mondattanának változása aszimmetrikus kontaktushelyzetben a Nemzeti Kutatási, Fejlesztési és Innovációs Hivatal támogatásával (ERC 15 HU, OTKA 118079) 2016. február 2017. július MTA Nyelvtudományi Intézet projektvezető: É. Kiss Katalin interdiszciplináris csapat: kutatók a finnugor, a nyelvtechnológiai és az elméleti nyelvészeti osztályról Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 3 / 19

Szöveggyűjtés Koncepció régi és új szövegek lehetőleg beszélt nyelvi vagy ahhoz közel álló műfaj ideális esetben a dialektális és szociolingvisztikai tényezők ki vannak egyensúlyozva 4000 token/kor/nyelv mennyiségű anyag teljes annotációval ellátva ha kevés munkával megszerezhető, akkor jöhet minden más anyag is, de az nem feltétlenül lesz végigannotálva Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 4 / 19

Szöveggyűjtés Szöveggyűjtés Udmurt régi: Munkácsi (1885), déli, folklór Wichmann (1901), déli és északi, folklór új: Мынам малпанъёсы (2014), blog Марайко (2014), blog Tundrai nyenyec régi: Lehtisalo (1947), keleti és középső, folklór új: Нярьяна Нгэрм (1998 2011), középső, újságcikkek Лабанаускас (1995), keleti, folklór Пушкарёва-Хомич (2001), keleti, folklór Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 5 / 19

Szöveggyűjtés Szöveggyűjtés Szinjai hanti régi: Steinitz (1937), déli, folklór új: interjúk (Ruttkay-Miklián Esztertől) Szurguti hanti régi: Paasonen (1901), jugáni, folklór új: Песикова-Волкова (2013), interjúk Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 6 / 19

Szövegfeldolgozás Szövegfeldolgozottsági szintek eredeti szöveg cirill FUT lejegyzés(ek) IPA fordítás angol orosz német magyar morfológiai információk lemma szófajkód inflexiós kódok Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 7 / 19

Szövegfeldolgozás Az eredeti szöveg előálĺıtása Transzkripció és transzliteráció beszkennelt könyv OCR kézi javítás eredeti szöveg egységes karaktertábla: minden nyelv minden lejegyzési, átírási és írásrendszerének minden karaktere szerepel a Unicode-kódjával, -nevével és Prószéky-kódjával ezekkel a karakterekkel történik a hangzó szövegek lejegyzése, ezekre a karakterekre tanítjuk be az optikai karakterfelismerőt, ezekre a karakterekre normalizáljuk a különböző forrásokból származó szövegeket, és ezek szolgáltatják a különböző irányú konverziók bemeneti és kimeneti karakterállományát is Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 8 / 19

Szövegfeldolgozás Transzkripció és transzliteráció Karakterszintű normalizálás különböző források UTF-8 kódolású plain text fájlok normalizálás: nem Unicode-karakterek lecserélése Unicode-karakterekre idegen nyelvű részek eltávoĺıtása latin karakterek cirillre cserélése a cirill szövegben, pl. ван!= вaн az általunk használt összes karakter megjeleníthető a Charis SIL fontkészlettel (+ a böngészőben be kell álĺıtani a karakterkódolást: View/Text encoding/unicode) Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 9 / 19

Szövegfeldolgozás Transzkripció és transzliteráció Transzkripció és transzliteráció eredeti szöveg átírási szabályok automatikus konverzió átirat ahol az eredeti szöveg lehet cirill vagy valamilyen FUT, az átirat pedig lehet cirill, valamilyen FUT vagy IPA FUT-ok: Steinitz, RME, SzOCh, Munkácsi, Wichmann, Hajdú, Mus Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 10 / 19

Konverzió Szövegfeldolgozás Transzkripció és transzliteráció összesen 12 konverziós irány szinjai hanti: Steinitz2IPA, Steinitz2RME szurguti hanti: cirill2szoch, SzOCh2IPA udmurt: Munkácsi2IPA, Wichmann2IPA, IPA2cirill, cirill2ipa tundrai nyenyec: Hajdú2Mus, Hajdú2IPA, Hajdú2cirill, cirill2ipa Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 11 / 19

Szövegfeldolgozás Transzkripció és transzliteráció Konverzió példa #in first syllable: s/([ ( ][čjgklmnńnprstw])a/\15:/g s/ a/ 5:/g s/\(a/\(5:/g s/ k a/ k 5:/g s/ t a/ t 5:/g #else: s/a/5/g Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 12 / 19

Szövegfeldolgozás Morfológiai elemzés Morfológiai elemzés A cél: angol glosszázás az általunk létrehozott glosszázási rövidítéseket tartalmazó táblázat alapján A táblázat az alábbi nemzetközi sztenderdek alapján készült: Leipzig Glossing Rules kódtábla a Wikipédia Glossing abbreviations című oldalának kódjai kurrens szakirodalom Leképezés és konverzió: az elérhető morfológiai elemzők kimenete a mi kódtáblánk Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 13 / 19

Morfológiai elemzők Szövegfeldolgozás Morfológiai elemzés Udmurt: MorphoLogic & Giellatekno Tundrai nyenyec: Giellatekno Szinjai hanti: MorphoLogic Szurguti hanti: nincs Zipf törvénye alapján: a néhány leggyakoribb szó lefedi a teljes szöveg nagy százalékát a min. ötször előforduló szavak kilistázása elemzések hozzájuk rendelése kézzel a szöveg több mint 60%-ához automatikusan hozzárendelődik az elemzés Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 14 / 19

Szövegfeldolgozás Morfológiai elemzés Morfológiai annotáció Amit kapunk: lemma szófajkód inflexiós kódok derivációs kódok morféma szinten szegmentált szóalak és kódok magyar lemma angol lemma Ami kell nekünk: lemma szófajkód inflexiós kódok angol lemma Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 15 / 19

Példa Szövegfeldolgozás Morfológiai elemzés YRK Hajdú: jā mīdaxana amkerta jankūwi YRK Mus: ja midaxana amkerta jankuwi YRK IPA: ja mi:daxana ămkerta jănkuwi YRK cirill: я мыдахана амкэрта яңкувы lemma: я мы ңамгэ яңгось szófaj: N Ptcp Pron.neg V glossza: earth create.ipfv.ptcp.loc nothing neg.ex.infer ENG: GER: HUN: when the earth was created, there was nothing zur zeit der erschaffung der erde gab es nichts a Föld teremtésének idején nem volt semmi Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 16 / 19

Fordítások Szövegfeldolgozás Fordítások Udmurt régi: Munkácsi: angol, magyar Wichmann: angol, német új: Мынам малпанъёсы: Марайко: Tundrai nyenyec régi: Lehtisalo: angol, német, magyar új: Нярьяна Нгэрм: Лабанаускас: Пушкарёва-Хомич: magyar és orosz készül Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 17 / 19

Szövegfeldolgozás Fordítások Fordítások Szinjai hanti régi: Steinitz: angol, magyar, német új: interjúk (Ruttkay-Miklián Esztertől): Szurguti hanti régi: Paasonen: angol, magyar, német, orosz új: Песикова-Волкова: orosz; angol, magyar készül Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 18 / 19

Szövegfeldolgozás Fordítások Köszönöm a figyelmet! simon.eszter@nytud.mta.hu http://www.nytud.hu/oszt/elmnyelv/urali Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 19 / 19