Hatás alatt álló nyelvek Az URaLUID adatbázis bemutatása Simon Eszter MTA Nyelvtudományi Intézet 2017. január 13. 29. Finnugor Szeminárium Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 1 / 19
Az előadás vázlata 1 Projekt 2 Szöveggyűjtés 3 Szövegfeldolgozás Transzkripció és transzliteráció Morfológiai elemzés Fordítások Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 2 / 19
Projekt A projekt Az uráli nyelvek mondattanának változása aszimmetrikus kontaktushelyzetben a Nemzeti Kutatási, Fejlesztési és Innovációs Hivatal támogatásával (ERC 15 HU, OTKA 118079) 2016. február 2017. július MTA Nyelvtudományi Intézet projektvezető: É. Kiss Katalin interdiszciplináris csapat: kutatók a finnugor, a nyelvtechnológiai és az elméleti nyelvészeti osztályról Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 3 / 19
Szöveggyűjtés Koncepció régi és új szövegek lehetőleg beszélt nyelvi vagy ahhoz közel álló műfaj ideális esetben a dialektális és szociolingvisztikai tényezők ki vannak egyensúlyozva 4000 token/kor/nyelv mennyiségű anyag teljes annotációval ellátva ha kevés munkával megszerezhető, akkor jöhet minden más anyag is, de az nem feltétlenül lesz végigannotálva Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 4 / 19
Szöveggyűjtés Szöveggyűjtés Udmurt régi: Munkácsi (1885), déli, folklór Wichmann (1901), déli és északi, folklór új: Мынам малпанъёсы (2014), blog Марайко (2014), blog Tundrai nyenyec régi: Lehtisalo (1947), keleti és középső, folklór új: Нярьяна Нгэрм (1998 2011), középső, újságcikkek Лабанаускас (1995), keleti, folklór Пушкарёва-Хомич (2001), keleti, folklór Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 5 / 19
Szöveggyűjtés Szöveggyűjtés Szinjai hanti régi: Steinitz (1937), déli, folklór új: interjúk (Ruttkay-Miklián Esztertől) Szurguti hanti régi: Paasonen (1901), jugáni, folklór új: Песикова-Волкова (2013), interjúk Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 6 / 19
Szövegfeldolgozás Szövegfeldolgozottsági szintek eredeti szöveg cirill FUT lejegyzés(ek) IPA fordítás angol orosz német magyar morfológiai információk lemma szófajkód inflexiós kódok Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 7 / 19
Szövegfeldolgozás Az eredeti szöveg előálĺıtása Transzkripció és transzliteráció beszkennelt könyv OCR kézi javítás eredeti szöveg egységes karaktertábla: minden nyelv minden lejegyzési, átírási és írásrendszerének minden karaktere szerepel a Unicode-kódjával, -nevével és Prószéky-kódjával ezekkel a karakterekkel történik a hangzó szövegek lejegyzése, ezekre a karakterekre tanítjuk be az optikai karakterfelismerőt, ezekre a karakterekre normalizáljuk a különböző forrásokból származó szövegeket, és ezek szolgáltatják a különböző irányú konverziók bemeneti és kimeneti karakterállományát is Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 8 / 19
Szövegfeldolgozás Transzkripció és transzliteráció Karakterszintű normalizálás különböző források UTF-8 kódolású plain text fájlok normalizálás: nem Unicode-karakterek lecserélése Unicode-karakterekre idegen nyelvű részek eltávoĺıtása latin karakterek cirillre cserélése a cirill szövegben, pl. ван!= вaн az általunk használt összes karakter megjeleníthető a Charis SIL fontkészlettel (+ a böngészőben be kell álĺıtani a karakterkódolást: View/Text encoding/unicode) Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 9 / 19
Szövegfeldolgozás Transzkripció és transzliteráció Transzkripció és transzliteráció eredeti szöveg átírási szabályok automatikus konverzió átirat ahol az eredeti szöveg lehet cirill vagy valamilyen FUT, az átirat pedig lehet cirill, valamilyen FUT vagy IPA FUT-ok: Steinitz, RME, SzOCh, Munkácsi, Wichmann, Hajdú, Mus Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 10 / 19
Konverzió Szövegfeldolgozás Transzkripció és transzliteráció összesen 12 konverziós irány szinjai hanti: Steinitz2IPA, Steinitz2RME szurguti hanti: cirill2szoch, SzOCh2IPA udmurt: Munkácsi2IPA, Wichmann2IPA, IPA2cirill, cirill2ipa tundrai nyenyec: Hajdú2Mus, Hajdú2IPA, Hajdú2cirill, cirill2ipa Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 11 / 19
Szövegfeldolgozás Transzkripció és transzliteráció Konverzió példa #in first syllable: s/([ ( ][čjgklmnńnprstw])a/\15:/g s/ a/ 5:/g s/\(a/\(5:/g s/ k a/ k 5:/g s/ t a/ t 5:/g #else: s/a/5/g Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 12 / 19
Szövegfeldolgozás Morfológiai elemzés Morfológiai elemzés A cél: angol glosszázás az általunk létrehozott glosszázási rövidítéseket tartalmazó táblázat alapján A táblázat az alábbi nemzetközi sztenderdek alapján készült: Leipzig Glossing Rules kódtábla a Wikipédia Glossing abbreviations című oldalának kódjai kurrens szakirodalom Leképezés és konverzió: az elérhető morfológiai elemzők kimenete a mi kódtáblánk Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 13 / 19
Morfológiai elemzők Szövegfeldolgozás Morfológiai elemzés Udmurt: MorphoLogic & Giellatekno Tundrai nyenyec: Giellatekno Szinjai hanti: MorphoLogic Szurguti hanti: nincs Zipf törvénye alapján: a néhány leggyakoribb szó lefedi a teljes szöveg nagy százalékát a min. ötször előforduló szavak kilistázása elemzések hozzájuk rendelése kézzel a szöveg több mint 60%-ához automatikusan hozzárendelődik az elemzés Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 14 / 19
Szövegfeldolgozás Morfológiai elemzés Morfológiai annotáció Amit kapunk: lemma szófajkód inflexiós kódok derivációs kódok morféma szinten szegmentált szóalak és kódok magyar lemma angol lemma Ami kell nekünk: lemma szófajkód inflexiós kódok angol lemma Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 15 / 19
Példa Szövegfeldolgozás Morfológiai elemzés YRK Hajdú: jā mīdaxana amkerta jankūwi YRK Mus: ja midaxana amkerta jankuwi YRK IPA: ja mi:daxana ămkerta jănkuwi YRK cirill: я мыдахана амкэрта яңкувы lemma: я мы ңамгэ яңгось szófaj: N Ptcp Pron.neg V glossza: earth create.ipfv.ptcp.loc nothing neg.ex.infer ENG: GER: HUN: when the earth was created, there was nothing zur zeit der erschaffung der erde gab es nichts a Föld teremtésének idején nem volt semmi Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 16 / 19
Fordítások Szövegfeldolgozás Fordítások Udmurt régi: Munkácsi: angol, magyar Wichmann: angol, német új: Мынам малпанъёсы: Марайко: Tundrai nyenyec régi: Lehtisalo: angol, német, magyar új: Нярьяна Нгэрм: Лабанаускас: Пушкарёва-Хомич: magyar és orosz készül Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 17 / 19
Szövegfeldolgozás Fordítások Fordítások Szinjai hanti régi: Steinitz: angol, magyar, német új: interjúk (Ruttkay-Miklián Esztertől): Szurguti hanti régi: Paasonen: angol, magyar, német, orosz új: Песикова-Волкова: orosz; angol, magyar készül Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 18 / 19
Szövegfeldolgozás Fordítások Köszönöm a figyelmet! simon.eszter@nytud.mta.hu http://www.nytud.hu/oszt/elmnyelv/urali Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január 13. 19 / 19