Gépi tanulási módszerek ómagyar kori szövegek normalizálására



Hasonló dokumentumok
Igekötős szerkezetek a magyarban

Ismeretlen kifejezések és a szófaji egyértelm sítés

Az Informatika Elméleti Alapjai

Javában taggelünk.

1 Rendszer alapok. 1.1 Alapfogalmak

Simon Eszter április 19. MTA Nyelvtudományi Intézet. Korpuszépítés ómagyar kódexekből. Simon Eszter. Bemutatás. Anyaggyűjtés.

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában

Az új magyar Braille-rövidírás kialakítása

Lexikon és nyelvtechnológia Földesi András /

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Magyar nyelvű történeti korpuszok

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Mély neuronhálók alkalmazása és optimalizálása

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Ügyszám: JNO-82- /2010

Taylor-polinomok. 1. Alapfeladatok április Feladat: Írjuk fel az f(x) = e 2x függvény másodfokú Maclaurinpolinomját!

Az üzletrész-átruházási szerződésről

Mérési struktúrák

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Informatikai Rendszerek Alapjai

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Magyar nyelv. 5. évfolyam

Az URaLUID adatbázis bemutatása

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Tanulás melletti munkavállalás a Debreceni Egyetemen

Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával

L'Hospital-szabály március 15. ln(x 2) x 2. ln(x 2) = ln(3 2) = ln 1 = 0. A nevez határértéke: lim. (x 2 9) = = 0.

Vizsgálati jelentés. A QUAESTOR Értékpapírkereskedelmi és Befektetési Nyrt. célvizsgálatáról

A Mazsola KORPUSZLEKÉRDEZŐ

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

módszertan 1. Folyamatosság - Kockák 2. Konzultáció 2 Konzulens, szakértők 4. Bibliográfia - Jegyzetek

Nemzeti Adó- és Vámhivatal EMCS projekt. Tájékoztató az EMCS rendszer mőködésérıl v2.2

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

JÁSZAPÁTI VÁROS ÖNKORMÁNYZATÁNAK SZERVEZETFEJLESZTÉSE

E l ő t e r j e s z t é s

SZKA_106_29. A modul szerzője: Nahalka István. é n é s a v i l á g SZOCIÁLIS, ÉLETVITELI ÉS KÖRNYEZETI KOMPETENCIÁK 6. ÉVFOLYAM

YANG ZIJIAN GYŐZŐ 杨子剑

Novák Attila (2003): Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem,

A Markowitz modell: kvadratikus programozás

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

A kibővített Magyar történeti szövegtár új keresőfelülete

Folyadékszcintillációs spektroszkópia jegyz könyv

Különírás-egybeírás automatikusan

EMLÉKEZTETŐ. Az OKA tizenkettedik üléséről (2007. szeptember :00, SZMM, Tükörterem)

Egy helytelen törvényi tényállás az új Büntető törvénykönyv rendszerében

Szakmai beszámoló A MAGYAR GZDASÁG SZEMÉLYI TÉNYEZŐINEK MINŐSÉGI REPRODUKCIÓJA

sallang avagy Fordítótervezés dióhéjban Sallai Gyula

KUTATÁS, FEJLESZTÉS, PÁLYÁZATOK ÉS PROGRAMOK A FELSŐOKTATÁSBAN AZ OKTATÁSI MINISZTÉRIUM FELSŐOKTATÁS-FEJLESZTÉSI ÉS TUDOMÁNYOS ÜGYEK FŐOSZTÁLYÁNAK

Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások

LOGISZTIKA A TUDOMÁNYBAN ÉS A GAZDASÁGBAN

Kommunikatív nyelvi tesztek kritériumai 1

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Útmutató a szakdolgozat elkészítéséhez

szakmai önéletrajz Bánhalmi András Személyes információk: Végzettségek, képzések: Idegen nyelv: Oktatás:

Valószín ségszámítás és statisztika

Relációk. 1. Descartes-szorzat. 2. Relációk

Valószín ségszámítás és statisztika Gyakorlat (Kétmintás próbák)

Az informatika tárgy oktatásának folyamata. Dr. Nyéki Lajos 2015

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Penta Unió Zrt. Az Áfa tükrében a zárt illetve nyílt végű lízing. Név:Palkó Ildikó Szak: forgalmi adó szakirámy Konzulens: Bartha Katalin

A tervezésben résztvevő döntéshozóknak szóló ajánlások a TÁMOP as program tapasztalatai alapján

Online algoritmusok. Algoritmusok és bonyolultságuk. Horváth Bálint március 30. Horváth Bálint Online algoritmusok március 30.

Informatikai Rendszerek Alapjai

Ellátási lánc optimalizálás P-gráf módszertan alkalmazásával mennyiségi és min ségi paraméterek gyelembevételével

avagy Simon Eszter, Sass Bálint MTA Nyelvtudományi Intézet, Budapest Kivonat

BELÜGYI RENDÉSZETI ISMERETEK

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

A magyar létige problémái a számítógépes nyelvi elemzésben

Térinformatikai algoritmusok Elemi algoritmusok

Regressziószámítás alkalmazása kistérségi adatokon

A/D és D/A konverterek vezérlése számítógéppel

Flex tutorial. Dévai Gergely

Az őrültek helye a 21. századi magyar társadalomban

Konfliktuselemzés. A tananyag alcíme. Szerző: Dr. Balogh Eszter Lektor:Domschitz Mátyás TÁMOP A/1-11/ INFORMÁCIÓ - TUDÁS ÉRVÉNYESÜLÉS

A Dunaújvárosi F iskola jelenlegi és volt hallgatóinak képesség-, készség- és kompetencia-kutatása

KÖVETKEZETESSÉG ÉS RÉSEK A KÖRNYEZETTUDATOS SZERVEZETI MAGATARTÁSBAN

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Többnyelv dokumentum nyelvének megállapítása

VASS LAJOS ÁLTALÁNOS ISKOLA HELYI TANTERVE

MŰSZAKI TUDOMÁNY AZ ÉSZAK-KELET MAGYARORSZÁGI RÉGIÓBAN 2012

Útmutató. a szakdolgozat elkészítéséhez. Szegedi Tudományegyetem Egészségtudományi és Szociális Képzési Kar

A nem tipikus szövegek jelentésreprezentációjának egy kérdéséről

AZ ELIDEGENITÉS FOGALMA A KÁNONJOGBAN

Az állandósult szókapcsolatokról, különös tekintettel a szórendre 1

MARKETINGELMÉLET. A stratégiai marketingtervezés alapjai. Kutatási módszerek

Indexszámítási módszerek; Simpson-paradoxon

Tanulmányok alatti vizsgák részei és értékelése

Miért válaszd az E-business menedzsment szakirányt?

A támogatott döntéshozatal érvényesülése az egészségügyi jog területén

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

értékel függvény: rátermettségi függvény (tness function)

Valószín ségszámítás. Survey statisztika mesterszak és földtudomány alapszak Backhausz Ágnes 2018/2019.

Jegyzőkönyv. Készült: Szeged Megyei Jogú Város Közgyűlése Oktatási Bizottságának án tartott ülésén.

Gépi tanulás és Mintafelismerés

Mintaillesztő algoritmusok. Ölvedi Tibor OLTQAAI.ELTE

Igazgatói beszámoló. a tatabányai Árpád Gimnázium között végzett munkájáról

Gépi tanulás a gyakorlatban. Bevezetés

ERserver. iseries. Szolgáltatási minőség

Átírás:

Szeged, 2009. december 34. 990 Gépi tanulási módszerek ómagyar kori szövegek normalizálására Oravecz Csaba, Sass Bálint, Simon Eszter MTA Nyelvtudományi Intézet e-mail:{oravecz,sass.balint,eszter}@nytud.hu Kivonat A nyelvemlékek számítógéppel segített feldolgozása és elemzése számos problémát felvet, a nyelvtörténeti kérdésekt l az egészen konkrét technológiai nehézségekig. A többféle, különböz nyelvtörténeti szakmai érvekkel alátámasztható lehetséges feldolgozási forgatókönyv egyik gyakori közös átalakító lépése a szokásos betüh átírásban kiadott szövegek mai modern helyesírású változatának el állítása. Ez a szövegnormalizáló konverzió analóg több klasszikus nyelvfeldolgozási probléma során jelentkez feladattal, ezért az azokban sikerrel alkalmazott zajos csatorna modellt adaptáljuk és vizsgáljuk ennek eredményességét a transzliterációs feladatban. Kulcsszavak: gépi tanulás, zajos csatorna modell, nyelvtörténet, normalizálás, transzliteráció 1. Bevezetés A Nyelvtudományi Intézetben április óta folyik egy projekt, melynek a célja egy elektronikus nyelvtörténeti adatbázis létrehozása. Az adatbázis tartalmazza az összes ómagyar szövegemléket, a középmagyar korból pedig különféle szempontok szerinti arányosan válogatást úgy, hogy minden nyelvjárás, m faj, regiszter súlyának megfelel en legyen képviselve benne. Ehhez els lépésben össze kell gy jteni az összes elektronikus formában elérhet szöveget, majd egységes formátumra hozni ket. A szövegemlékek eredeti, bet h változatukban és egy ún. normalizált változatban is elérhet k, kereshet k lesznek. Ez a normalizálási lépés a szövegfeldolgozási munkafolyamatnak az a lépése, amikor az eredeti bet h szóalakokat mai magyar helyesírású szavakra alakítjuk át. A többféle, különböz nyelvtörténeti szakmai érvekkel alátámasztható lehetséges feldolgozási forgatókönyvek egyik gyakori közös átalakító lépése ez a fajta normalizálás (pl. (McEnery és Hardie, 2003)). A folyamat számítógépes modellezésének célja az, hogy választ kapjunk arra a nagyon fontos gyakorlati kérdésre, hogy a rendkívül id igényes manuális átírási munka kiváltható-e gépi eljárással, így a szükséges emberi er forrás alkalmazása lesz kíthet -e a tanuló adatok el állításának feladatára. Mivel ez a szövegnormalizáló konverzió analóg több klasszikus nyelvfeldolgozási probléma során jelentkez feladattal, így feltétlen érdemesnek t nik az

Szeged, 2009. december 34. 991 azokban sikerrel alkalmazott módszerek adaptálása és eredményességének vizsgálata. A dolgozat központi kérdése annak meghatározása, hogy az átírási feladat miként illeszthet be meghatározott gépi tanulási modellekbe, és melyek azok a paraméterek, amelyek felhasználása ezekben a modellekben a feladat elfogadható pontosságú megoldását eredményezi. Ennek érdekében szükség van az adott modellben használt jegyeket tartalmazó specikusan annotált tanító szövegekre, melyekb l jelenleg korlátozott mennyiség áll a rendelkezésünkre lévén a normalizálás nyelvtörténeti szakértelmet kívánó, id igényes munka. További nehézséget jelent, hogy az egyes nyelvemlékek írásmódja, a bennük el forduló speciális ómagyar karakterek halmaza is meglehet sen különbözik egymástól. A könyvméret magyar írásosságot a latin nyelv és vallásos tárgyú irodalom fordításának igénye hívta életre, de a latin ábécé magyarra alkalmazása számos problémát vetett fel. A legf bb gond abból fakadt, hogy nyelvünk hangrendszerének több eleme a latinban ismeretlen, így ezek jelölésére új jeleket kellett bevezetni. A 14-16. században a helyesírás még egyáltalán nem volt egységesítve, s t egy kódexet akár több kéz is jegyezhetett, ami további egyenetlenségeket okoz a szövegekben. Ezért nehéz egyértelm konverziós szabályokat meghatározni, valamint emiatt kritikus kérdés az, hogy a tanult modellek milyen mértékben általánosíthatók az eltér nyelvemlékekre. Mindezek miatt célszer a problémát valamilyen valószín ségi alapú paradigma keretei között vizsgálni, egyik legkézenfekv bb erre Shannon zajos csatorna modellje (Shannon, 1948). Esetünkben a normalizálás tulajdonképpen egybeesik azzal a fogalommal, amit a nyelvtörténészek értelmezésnek hívnak. Az értelmezés hagyományosan a régi nyelvi adatoknak mai magyar nyelvre való fordítását jelenti. A különböz helyesírási rendszerekben is ritka az egy hangegy bet megfelelés (vagyis amikor egy hang jelölésére mindig ugyanaz a bet használatos, és az adott bet - nek mindig egy hangértéke van), de egy alakulóban lev helyesírási rendszerben ilyenfajta következetesség még annyira sem várható el. S t inkább az a tipikus, hogy egy emléken belül is ingadozik egy-egy hang jelölésmódja (pl. ÓMS: Vylag uilaga [világ világa]), vagy kett s hangértéke van egy-egy bet nek (pl. MK: zerzete zerent [szerzete szerint]). Tovább bonyolítja a helyzetet, hogy néhány bet egyaránt utalhat magánhangzóra és mássalhangzóra is (pl. az u,v,w több évszázadon át jelölhette az u,ú,ü,,v hangok bármelyikét). A dolgozat a következ képpen épül fel. A 2. rész rövid leírást ad az eddigi rokonítható kezdeményezésekr l. A 3. rész az eljárás elméleti alapjait tárgyalja, míg a 4. részben a modell tanításának folyamatát mutatjuk be. Az 5. rész a modell alkalmazásáról és a lehetséges kiértékelési módszerr l ad leírást. Rövid összefoglalás zárja a dolgozatot a 6. részben. 2. Kitekintés A kit zött feladat egyrészt lényegében tekinthet két reprezentáció közötti fordítási feladatnak, így közvetlenül rokonítható azokkal a megközelítésekkel, ahol a szövegnormalizáláshoz komplex gépi fordítási modelleket használnak (Raghunat-

992 VI. Magyar Számítógépes Nyelvészeti Konferencia han és Krawczyk, 2009; Kobus et al., 2008; Aw et al., 2006). További kapcsolódó problémakör a graféma-fonéma konverzió, ahol Lucassen és Mercer (1984) korai valószín ségi modelljére támaszkodik a legtöbb megoldási javaslat. Damper et al. (1999) tartalmaz részletes összehasonlítást, ahol kimutatja, hogy a gépi tanulási módszereket használó modellek jobb eredményeket adnak, mint a kézzel írt szabályokon alapulók. Számos analógiás továbbá rejtett Markov-modellen alapuló eljárást is eredményesen alkalmaztak (Bellegarda, 2005; Taylor, 2005). Az általunk használt módszer el zménye Kernighan et al. (1990) helyesírás-ellen rzésre kidolgozott eljárása, illetve ennek továbbfejlesztett csatorna-modellt alkalmazó változatai (Brill és Moore, 2000; Toutanova és Moore, 2002). 1 A következ fejezet ezt modellt ismerteti részletesen. A fentiekt l eltér paradigmájú, szabály alapú megközelítésre példa Kiss et al. (2001). 3. Zajos csatorna alapú szövegnormalizáló modell 1. ábra. Szövegnormalizálás zajos csatorna modellben. Az 1. ábrán látható modellben az eredeti szöveget úgy tekintjük, mint a normalizált változat egy zajos kommunikációs csatornán átment eltorzított változatát. Jelölje M a modern helyesírású normalizált szövegváltozat pl. egy (rész)mondatnyi sztringjét, E pedig ennek eredeti betüh átiratát. A dekódoló feladata annak az M karaktersorozatnak a megtalálása, melyre a P (M E) feltételes valószín ség maximális, illetve a szokványos átalakítással: ˆM = argmax M ˆM = argmax P (M E) (1) M P (E M)P (M) P (E) = argmax P (E M)P (M) (2) M A feladat tehát egyrészt a P (E M) transzliterációs modell-eloszlás (csatornamodell) és a P (M) normalizált szövegmodell-eloszlás (forrásmodell) meghatározása. Forrásmodellként a normalizált szövegb l készült karakter N-gram modelleket használhatunk, ahol vizsgálható a módszer pontossága N függvényében. 1 Természetesen számos további gépi tanulási paradigma is alkalmazható a feladat megoldására, a döntési fáktól a log-lineáris osztályozókig.

Szeged, 2009. december 34. 993 Mivel a normalizált szöveg alapvet en mai magyar nyelv anyag, a forrásmodell felépítésében nagy mennyiség adat hozzáférhet és használható, így N a szómodelleknél megszokott 3-nál nagyobb is lehet. A transzliterációs modell paramétereinek meghatározására többféle lehet ség kínálkozik, melyeknek el feltétele olyan tanító korpusz, amely M j i E l k megfeleléseket tartalmaz.2 Az 1-nél hosszabb sztringekre deniált megfeleltetésekkel a transzliterációs modell kontextuális információt is képes reprezentálni. A modell paramétereit a tanító korpuszból becsüljük, míg a lehetséges modern szövegváltozatok halmazát a megfeleltetésekb l generáljuk. Az alkalmazott eljárás hasonló Brill és Moore (2000) gépelési hibákat javító módszeréhez, melynek alapján a transzliterációs modell formálisan az alábbi módon írható le. Legyen Part(M) a modern nyelvváltozatú sztring minden lehetséges nemkeresztez partíciójának halmaza (hasonlóan Part(T ) az eredeti alakra). Egy adott R Part(M) partícióra, ahol R R = j darab szegmentumból áll, legyen R i az i-edik szegmentum. Ekkor ( T = R esetén, ahol T Part(E)) P (E M) = R Part(M) P (R M) T Part(E) i=1 j P (T i R i ) (3) Egy meghatározott illesztés megfelel adott M j i Ek l megfeleltetések halmazának. Csupán a legjobb particionálást tekintve (3) az alábbira egyszer södik: j P (E M) = max P (R M) P (T i R i ) (4) R Part(M),T Part(E) Brill és Moore (2000) modelljéhez hasonlóan P (R M) meghatározásával egyel re mi sem foglalkozunk, vagyis ezt a tényez t nem vesszük gyelembe (illetve a partíciók felett jobb híján jelenleg egyenletes eloszlást feltételezünk). 4. A modell tanítása 4.1. A transzliterációs modell tanító korpuszának el állítása A tanító korpusz két ómagyar kori szövegemlék nyelvtörténészek által kézzel normalizált változatából állt el. A Müncheni emlék (Haader, 2005) a 16. század elejér l származó, sajátos nyelvemlékünk. Sajátossága abban rejlik, hogy egyszerre tartalmaz egyházi és világi szövegeket, valamint latin és német nyelv részleteket is (ezeket a normalizálás és a tanító korpusz építése során kihagytuk). A Szabács viadala (Imre, 1958) a 15. század második felében keletkezett, eredeti magyar nyelv vers. A legrégebbi ránk maradt históriás ének, a Mátyás király egyik haditettét elbeszél 150 sor egy hosszabb költeménye része lehetett. A két nyelvemlék tokenszáma (a nem magyar nyelv részek elhagyásával) összesen 1525. 2 i < j, k < l karakterek közötti pozíciókat jelöl indexek, j = i + 1, l = k + 1 esetben karakter karakter megfeleltetést kapunk. i=1

994 VI. Magyar Számítógépes Nyelvészeti Konferencia A bet h lejegyzés normalizálásánál két alapvet szempontot tartottunk szem el tt: az egységességet, és ugyanakkor az eredetihez való h séget legalábbis a morfoszintaktikai reprezentáció szintjén. A normalizált alaknak alkalmasnak kell lennie arra, hogy automatikus morfológiai elemzést végezzünk rajta, ezért az erre a reprezentációs szintre való leképezésnél azokat a helyesírási és hangtani különbségeket neutralizáltuk, amelyek az egyébként azonos szóalakokat (ugyanazon lexikai szó ugyanazon morfoszintaktikai jegyekkel bíró el fordulásait) az eredeti szövegekben véletlenszer módon megkülönbözteti. Hogy a normalizálást a lehet legegyszer bb legyen megvalósítani, az automatikus elemzéshez használandó morfológiai elemz elkészítése minél kevesebb adaptációs munkát igényeljen, és minél kevesebb bizonytalansági tényez legyen a leképezés során, a normalizált alakok formáját úgy határoztuk meg, hogy azok a lehet legnagyobb mértékben kövessék a mai magyarban érvényes helyesírási konvenciókat. A korpusz alapesetben mintegy 10000 M j i El k, j = i + 1, l = k + 1, j = l 1-1 megfeleltetést tartalmaz, továbbá nem egyenl hosszú egymásnak megfelel sztringek esetén olyan nem hosszúságtartó leképezéseket is, ahol a leképezés megfelel oldalán üres szimbólum áll. A kiinduló leképezéseket kiterjesztjük olyan továbbiakkal, ahol a két oldalhoz konkatenáljuk adott N szomszédos leképezésb l származó szimbólumokat. Körülbelül 7000 kiterjesztés adódik az eredeti megfeleltetésekhez. Az üres szimbólumot tartalmazó leképezések önmagukban nem, csak az összevont leképezésekben szerepelnek. Példaképpen legyen N = 3, M = te, E = the, ekkor az alábbi kiinduló leképezések kerülnek a tanítókorpuszba: t t ɛ h e e melyekb l továbbá az alábbi helyettesítések generálódnak: t th e he te the A tanítókorpusz manuális el állítását gépi eszközökkel támogattuk. Automatikusan el állítottunk egy olyan változatot, ahol a régi szöveg karakterszinten közelít leg párhuzamosítva volt a modern szöveggel. Ezt már csak javítani kellett kézzel, így nagy mértékben csökkent a manuális munkaigény. A Prószéky-kóddal kódolt régi szövegek esetében természetesen egy karakternek vettük a különféle Prószéky-kódokat (pl. 'y2', 's43'). A kimenet pontosságának javítása érdekében a következ heurisztikákat alkalmaztuk: ha a Prószéky-kód bet je egyezett a mai bet vel, elfogadtuk jó illeszkedésnek ha a jelen karakterpár nem egyezett, de a következ igen, akkor elfogadtuk ezt az eltérést az illeszkedésben ezt kiterjesztettük két egymás utáni nem egyez karakterpár esetére is

Szeged, 2009. december 34. 995 ha a jelen karakterpár nem egyezett, de vagy a régi vagy a mai szövegben alkalmazott egy elcsúsztatással egyezést találtunk, akkor megfelel en beillesztettünk egy ɛ k vagy k ɛ illeszkedést, és csak az egyik szövegben léptünk tovább egy karakterrel. Ezután az egyes helyettesítések valószín sége a következ képpen számítható: P (α β) = C(α β) C(α) (5) C(α β) a tanítókorpuszban látott α β helyettesítések, C(α) pedig az α sztring el fordulásainak száma. 4.2. A forrásmodell A forrásmodell mintegy 10 millió szóból, 65 millió karakterb l készült az MNSZ egyik alkorpuszából. Ilyen mennyiségben karakter alapú modelleknél különösebb jelent sége a szöveg regiszterének nincsen, ez a modell paramétereit lényegesen nem befolyásolja. Ugyancsak kevésbé sarkalatos kérdés ilyenkor az alkalmazott simító eljárás. A modell építésénél a CMU nyelvmodell készletet használtuk (Clarkson és Rosenfeld, 1997), és az alapbeállítású Good-Turing simítást alkalmaztuk (más eljárás kiválasztása nem változtatott az eredményen, így maradtunk az alapbeállításnál). 5. A modell alkalmazása Adott E eredeti sztring esetén az argmax M P (E M)P (M) értéket kell kiszámítanunk. Ennek általunk alkalmazott (jelenleg teljesen nem optimalizált) módja a következ. Az eredeti szöveg minden partíciójából a transzliterációs modell helyettesítéseib l a lehetséges modern változatokat legeneráljuk, melyekhez a modell hozzárendeli a valószín ségüket is. Ennek alapján kapunk egy rangsort a kapott változatokra, amit aztán a nyelvmodell segítségével újrarendezünk, így alakul ki a az eljárás végleges kimenete. 5.1. Kiértékelés A projekt kezdeti szakaszában egyel re csak el zetes eredmények állnak rendelkezésre. Ennek illusztrációja a 2. ábrában látható. Az alkalmas kiértékelési módszer legjobb n-es listák vizsgálata, és ezekben a pontosság vizsgálata (a fedés ebben az esetben nem hordoz újabb információt). A módszer valós használhatósága abban mutatkozik meg, hogy a manuális annotáció redukálható a felkínált alakok közötti választásra, ami jelent sen felgyorsítja a szövegnormalizálás elkerülhetetlen kézi ellen rzését. Kézenfekv, hogy az alapmodell kiegészíthet az egyes tokenek feletti szóalapú n-gram nyelvmodellel, és a kimenet sz rhet illetve átrangsorolható morfológiai elemzés segítségével.

996 VI. Magyar Számítógépes Nyelvészeti Konferencia fwl (fül)=> ygen (igen)=> -8,80780895229285 föl -10,8729908279143 igén -10,7227286786192 fel -11,3178857141749 igen -11,0558158154337 fül -11,5989613202567 igény -11,2756412387919 f l -13,4229320257043 igyen -12,4574295350367 fol -14,3578433608162 igin -12,790296695296 ful -14,478835649955 igyén -13,519092302452 fely honneg (honnét)=> sabach (szabács)=> -19,1117218113907 honneg -17,2582527599661 szabács -19,5230300429664 honnég -18,1187648297282 sabács -20,8376176340216 honnét -18,6771909747334 szabacs -21,8538140705439 honyneg -19,1848409742852 sábacs -22,2098585020436 honynég -19,5520665992527 szabach -22,5639991398073 hónneg -19,9685260661797 szabách 2. ábra. Legjobb n listák különböz bemenetekre. 6. Összefoglalás és további feladatok A dolgozatban megmutattuk, hogy egyszer sztochasztikus modellek miként alkalmazhatók két reprezentációs szint közötti fordítási feladatra. A további kutatásban számos újabb, a 2. részben említett gépi tanulási módszer alkalmazására van lehet ség (Chen, 2003; Marchand és Damper, 2000; Taylor, 2005), melyek kiértékelése megalapozottan kimutathatja, hogy a vizsgált modellek között melyik a leghatékonyabb, ezzel együtt pedig választ adhat arra a nagyon fontos gyakorlati kérdésre, hogy a manuális átírás hatékonyan kiváltható-e gépi eljárással, így a szükséges emberi er forrás alkalmazása lesz kíthet -e a tanuló adatok el állításának feladatára illetve minimális kézi ellen rzésre. Az itt használt megközelítés is számos részletében nomítható, így a szóhatárok kezelésére illetve a lehetséges partíciók feletti eloszlásra is kidolgozható modell, és természetesen a jelenlegi implementáció hatékonysága is nagy mértékben növelhet.

Irodalomjegyzék Aw, AiTi, Zhang, Min, Xiao, Juan és Su, Jian. A phrase-based statistical model for SMS text normalization. In: Proceedings of the COLING/ACL, Sydney, Australia. Association for Computational Linguistics, 2006, 3340. Bellegarda, Jerome R. Unsupervised, language-independent grapheme-tophoneme conversion by latent analogy. Speech Communication, 2005, 46(2): 140152. Brill, Eric és Moore, Robert C. An Improved Error Model for Noisy Channel Spelling Correction. In: ACL-00, Hong Kong. 2000, 286293. Chen, Stanley F. Conditional and Joint Models for Grapheme-to-Phoneme Conversion. In: EUROSPEECH-03, 2003. Clarkson, P. R. és Rosenfeld, R. Statistical language modeling using the CMU- Cambridge toolkit. In: EUROSPEECH-97, 1. kötet, 1997, 27072710. Damper, Robert I., Marchand, Yves, Adamson, M. J. és Gustafson, K. Evaluating the pronunciation component of text-to-speech systems for English: A performance comparison of dierent approaches. Computer Speech and Language, 1999, 13(2):155176. Haader, Lea. A Müncheni emlék. Magyar Nyelv, 2005, (101):161178. Imre, Samu. A Szabács Viadala. Aladémiai Kiadó, Budapest, 1958. Kernighan, Mark D., Church, Kenneth W. és Gale, William A. A Spelling Correction Program Base on a Noisy Channel Model. In: COLING-90, II. kötet, Helsinki. 1990, 205211. Kiss, Gabriella, Kiss, Margit és Pajzs, Júlia. Normalisation of Hungarian Archaic Texts. In: Proceedings of COMPLEX 2001. University of Birmingham, 2001, 8394. Kobus, Catherine, Yvon, François és Damnati, Géraldine. Normalizing SMS: are two metaphors better than one? In: Proceedings of the 22nd International Conference on Computational Linguistics, 1. kötet, Manchester, United Kingdom. Association for Computational Linguistics, 2008, 441448. Lucassen, J. és Mercer, Robert L. An information theoretic approach to the automatic determination of phonemic baseforms. In: ICASSP-84, 9. kötet, 1984, 304307. Marchand, Yves és Damper, Robert I. A multi-strategy approach to improving pronunciation by analogy. Computational Linguistics, 2000, 26(2):195219. McEnery, Tony és Hardie, Andrew. Lancaster Newsbooks Corpus, 2003. http://www.lancs.ac.uk/fass/projects/newsbooks/default.htm. Raghunathan, Karthik és Krawczyk, Stefan. Investigating SMS Text Normalization using Statistical Machine Translation. Stanford University, 2009. Shannon, C. E. A Mathematical Theory of Communication. Bell System Technical Journal, 1948, 27(3):379423. Taylor, Paul. Hidden Markov Models for Grapheme to Phoneme Conversion. In: INTERSPEECH-05, Lisbon, Portugal. 2005, 19731976.

998 VI. Magyar Számítógépes Nyelvészeti Konferencia Toutanova, Kristina és Moore, Robert C. Pronunciation Modeling for Improved Spelling Correction. In: ACL-02, Philadelphia, PA. 2002, 144151.