Magyar nyelvű nagyszótáras beszédfelismerési feladatok adatelégtelenségi problémáinak csökkentése nyelvi modell interpoláció alkalmazásával

Hasonló dokumentumok
Lexikai modellezés a közlés tervezettségének függvényében magyar nyelvű beszédfelismerésnél

Magyar nyelvű, kísérleti diktáló rendszer

Magyar nyelvű, élő közéleti- és hírműsorok gépi feliratozása

Beszédfelismerés alapú megoldások. AITIA International Zrt. Fegyó Tibor

Mély neuronhálók alkalmazása és optimalizálása

Szerkesztők és szerzők:

Kutatási beszámoló február. Tangens delta mérésére alkalmas mérési összeállítás elkészítése

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Beszédfelismerés. mit jelent, hogyan működik, kinek éri meg. Tibor Fegyó SpeechTex Kft.

Hadházi Dániel.

A glejes talajrétegek megjelenésének becslése térinformatikai módszerekkel. Dr. Dobos Endre, Vadnai Péter

XVII. econ Konferencia és ANSYS Felhasználói Találkozó

Szabályozói tőkeköltségszámítás december 31-re vonatkozóan

Gépi tanulás a gyakorlatban. Bevezetés

Dr. Dobos Endre, Vadnai Péter. Miskolci Egyetem Műszaki Földtudományi Kar Földrajz Intézet

Szabályozói tőkeköltség-számítás a távközlési piacon december 31-re vonatkozóan

szakmai önéletrajz Bánhalmi András Személyes információk: Végzettségek, képzések: Idegen nyelv: Oktatás:

Statisztikai módszerek a skálafüggetlen hálózatok

Mérési struktúrák

Folyamatos, középszótáras, beszédfelismerô rendszer fejlesztési tapasztalatai: kórházi leletezô beszédfelismerô

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

A regisztrált álláskeresők számára vonatkozó becslések előrejelző képességének vizsgálata

1. ábra Modell tér I.

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

kodolosuli.hu: Interaktív, programozást tanító portál BALLA TAMÁS, DR. KIRÁLY SÁNDOR NETWORKSHOP 2017, SZEGED

A Hunglish Korpusz és szótár

3D számítógépes geometria és alakzatrekonstrukció

A klímamodellek eredményei mint a hatásvizsgálatok kiindulási adatai

Rejtett Markov Modell

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

AUTOMATIKUS FONETIKUS ÁTÍRÁS MAGYAR NYELVŰ BESZÉDFELISMERÉSHEZ. Mihajlik Péter Tatai Péter

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Kiválósági ösztöndíjjal támogatott kutatások az Építőmérnöki Karon c. előadóülés

Spontán magyar nyelvű beszéd gépi felismerése nyelvspecifikus szabályok nélkül

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

TÁMOP : ÁTFOGÓ MINŐSÉGFEJLESZTÉS A KÖZOKTATÁSBAN

Nemzetközi tanulói képességmérés. szövegértés

Matematikai geodéziai számítások 6.

YANG ZIJIAN GYŐZŐ 杨子剑

Szabályozói tőkeköltség-számítás a távközlési piacon december 31-re vonatkozóan

Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban

I. BESZÁLLÍTÓI TELJESÍTMÉNYEK ÉRTÉKELÉSE

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Diszkréten mintavételezett függvények

Szoftver újrafelhasználás

IX. Magyar Számítógépes Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila Vincze Veronika

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

A CMMI alapú szoftverfejlesztési folyamat

Numerikus integrálás

Szabályozói tőkeköltség-számítás a távközlési piacon december 31-re vonatkozóan

HÁZI DOLGOZAT. Érmefeldobások eredményei és statisztikája. ELTE-TTK Kémia BSc Tantárgy: Kémia felzárkóztató (A kémia alapjai)

Nehézségi gyorsulás mérése megfordítható ingával

Mérési hibák

8. Pontmegfeleltetések

Számítógép-rendszerek fontos jellemzői (Hardver és Szoftver):

A HŐMÉRSÉKLET ÉS A CSAPADÉK HATÁSA A BÜKK NÖVEKEDÉSÉRE

Akusztikai tervezés a geometriai akusztika módszereivel

Beszédtechnológia a médiában. Tibor Fegyó SpeechTex Kft.

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Szabályozói tőkeköltség-számítás a távközlési piacon december 31-re vonatkozóan

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

1. ábra: Magyarországi cégek megoszlása és kockázatossága 10-es Rating kategóriák szerint. Cégek megoszlása. Fizetésképtelenné válás valószínűsége

Gibbs-jelenség viselkedésének vizsgálata egyszer négyszögjel esetén

3D-s számítógépes geometria és alakzatrekonstrukció

e-gépész.hu >> Szellőztetés hatása a szén-dioxid-koncentrációra lakóépületekben Szerzo: Csáki Imre, tanársegéd, Debreceni Egyetem Műszaki Kar

Beszédfelismerő szoftver adaptálása C# programozási nyelvre

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

Az adatszolgáltatás technológiájának/algoritmusának vizsgálata, minőségi ajánlások

Feladatunk, hogy az alábbiakban látható tízgépes elrendezésre meghatározzuk az operátorok optimális kiosztását a vevői igények függvényében.

Beszédadatbázis irodai számítógép-felhasználói környezetben

8.3. Az Információs és Kommunikációs Technológia és az olvasás-szövegértési készség

Kettőnél több csoport vizsgálata. Makara B. Gábor

A Jövő Internet Nemzeti Kutatási Program bemutatása

A bemeneti feszültség 10 V és 20 V között van. 1. ábra A fuzzy tagsági függvény

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Posztanalitikai folyamatok az orvosi laboratóriumban, az eredményközlés felelőssége

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

VÍZGŐZKONCENTRÁCIÓ-MÉRÉS DIÓDALÉZERES FOTOAKUSZTIKUS MÓDSZERREL

Írjon olyan programot a standard könyvtár alkalmazásával, amely konzolról megadott valós adatokból meghatározza és kiírja a minimális értékűt!

Földi radaradattal támogatott csapadékmező-rekonstrukció és vízgazdálkodási alkalmazásai

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Bevezetés az informatikába

Grafikonok automatikus elemzése

Matematikai geodéziai számítások 6.

HOGYAN JELEZHETŐ ELŐRE A

Szintetizált beszéd természetesebbé tétele

Szabályozói tőkeköltség-számítás a távközlési piacon december 31-re vonatkozóan

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Osztott algoritmusok

ESZKÖZTÁMOGATÁS A TESZTELÉSBEN

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / Mezei Ferenc üzletág-igazgató

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Esetszintű költséggyűjtés: felesleges teher vagy a hatékonyság záloga?

A Markovi forgalomanalízis legújabb eredményei és ezek alkalmazása a távközlő hálózatok teljesítményvizsgálatában

Idő-multiplexelt biztonsági felvételek elemzése

KUTATÁSI JELENTÉS. Multilaterációs radarrendszer kutatása. Szüllő Ádám

Smart Strategic Planner

Átírás:

Magyar nyelvű nagyszótáras beszédfelismerési feladatok adatelégtelenségi problémáinak csökkentése nyelvi modell interpoláció alkalmazásával Tarján Balázs 1 és Mihajlik Péter 1,2 1 Budapesti Műszaki és Gazdaságtudományi Egyetem, Távközlési és Médiainformatikai Tanszék {tarjanb, mihajlik}@tmit.bme.hu 2 THINKTech Kutatási Központ Nonprofit Kft. Kivonat: A lineáris interpolációt elterjedten alkalmazzák in-domain és out-ofdomain nyelvi modellek egyesítésére folyamatos, nagyszótáras gépi beszédfelismerési feladatokon. Nyelvünk gazdag morfológiája azonban szükségessé teszi, hogy morféma alapon is megvizsgáljuk a módszer hatékonyságát, és öszszevessük az interpolációs és a tanítókorpuszok sima egyesítésével kapható eredményeket. Cikkünkben bemutatunk egy új megközelítést morféma alapú nyelvi modellek interpolációjára, mellyel 3gram modellek esetén sikerült megjavítani a korpuszegyesítéses módszer eredményét. A nyelvi modell komplexitást 4gram-ra növelve azonban az interpolációval nyerhető előny eltűnik, így megítélésünk szerint a morféma alapú interpolációra vonatkozóan további vizsgálatok szükségesek. Kísérleteink során sikerült 12% alá csökkenteni a szóhiba arányt a tesztelési célokra használt hangoskönyv részleten, mely legjobb tudomásunk szerint az eddigi legalacsonyabb eredmény magyar nyelvű, nagyszótáras feladaton. 1 Bevezetés A nagyszótáras beszédfelismerő rendszerek pontosságát döntően befolyásolja a nyelvi modell mérete és minősége. Minél nagyobb és a felismerési feladathoz jól illeszkedő szövegkorpusz áll rendelkezésünkre a rendszer tanításához, annál precízebben írható le a szótári elemek kapcsolata az n-gram modellben. Azonban a gyakorlati tapasztalat szerint jó minőségű tanítóanyagok csak korlátozott mennyiségben hozzáférhetők, így a nyelvi modell robosztusságát gyakran a feladathoz nem vagy csak lazán kapcsolódó tanítóadat bevonásával kell növelni. Több megoldás is létezik arra, hogy különböző szöveges tudásforrások egy közös nyelvi modellben hasznosuljanak. Szokás a rendelkezésre álló szövegeket egyszerűen összemásolni, és az így létrejött korpusszal tanítani egy n-gram modellt. Az eljárás hátránya, hogy egy nagyméretű kiegészítő korpusz könnyedén elnyomhatja a kisebb, de a feladat szempontjából releváns tanítószöveg szókapcsolati statisztikáit. Erre kínál megoldást a nyelvi modell interpoláció, mellyel különböző nyelvi modellek n-gram becslései egyesíthetőek tetszőlegesen megválasztott súlyozó tényezővel. A nyelvi modell interpolációs technikák közül az egyik legegyszerűbb, ám igen hatékony eljá-

rás a nyelvi modellek ún. lineáris interpolációja [6]. Megvalósítása az alábbi képlet alapján történik. (1) Ahol w jelöli az interpolált modell megbecsülendő szótári elemét, h az előtörténetet, S a forrásmodellek összességét, míg és a s-dik modellhez tartozó interpolációs súlyt, valamint nyelvi modell becslést. Új modell generálásakor értékek változtatásával tudjuk az egyes forrásmodellek részvételi súlyát változtatni. Az interpolációban részvevő modellek optimális arányának megállapítása általában indomain szöveg perplexitás vizsgálatán alapul. A lineáris interpoláció kiforrott és elterjedten használt technikának számít szó alapú nyelvi modellek esetén. Azonban a morfológiailag gazdag nyelveknél mint amilyen a magyar a jelentős szóalaki változatosság miatt fellépő adatelégtelenség megkérdőjelezi a szó alapú megközelítés létjogosultságát. Összehasonlító kísérletek bizonyítják, hogy magyar nyelven szó alapú helyett morféma alapú nyelvi modelleket használva szignifikáns felismerési pontosság-növekedés érhető el [9,11]. Felvetődik tehát a kérdés, hogy morfémákra cserélve az egyesítendő nyelvi modellek alapját, vajon a szó alapú megközelítéshez hasonló mértékben növekszik-e a felismerési pontosság, illetve ha nem, milyen módon növelhető mégis a morféma alapon interpolált nyelvi modellek teljesítőképessége. Kísérleteink során megvizsgáljuk, milyen módszerekkel interpolálhatók hatékonyan a morféma alapú nyelvi modellek, és összevetjük a szó alapú nyelvi modell interpolációs eredményekkel. Emellett, hogy az interpoláció hatékonyságát általában is értékelni tudjuk, összehasonlítjuk az interpolált és az egyszerű korpuszegyesítéses modellek eredményeit is. Cikkünk további részében először a kísérletekhez használt tanító- illetve tesztadatbázist ismertetjük, majd kitérünk az akusztikus és nyelvi modellek tanításánál alkalmazott módszerek bemutatására. A felismerési feladat részletes áttekintése után kiértékeljük a különböző interpolációs technikákat egy e célból létrehozott tesztanyagon, míg végül összefoglalását adjuk kísérleteink legfontosabb következményeinek. (1) 2 Felismerési feladat és módszertan A bevezetésben felvetett kérdések megválaszolásához először egy olyan felismerési feladatot kellett találnunk, mely alkalmas a különféle interpolációs módszerek vizsgálatára. Választásunk egy beszédfelismerési kísérletekhez már korábban is felhasznált [12] hangoskönyvre esett, mely Krúdy Gyula Szindbád történeteinek felvételét tartalmazza Gáspár Sándor előadásában. Fontos szempont volt, hogy olyan feladatot válasszunk, melyhez könnyen elérhető jól illeszkedő tanítószöveg, illetve hogy egy a feladattól távolabb álló, de műfajában kötődő, nagyobb méretű tanítókorpusz is gyűjthető legyen hozzá. Emellett további előnye a hangoskönyvnek, hogy a felvételeken a háttérzaj és a beszéd spontán jegyeiből adódó artikulációs pontatlanságok hatása elhanyagolható, így biztosított, hogy a felismerési pontosságok változása valóban a nyelvi modellek eltérő teljesítményéhez köthető. A rendelkezésünkre álló felvételt a

[12]-ben leírtakkal megegyező módon két részre osztottuk. A nagyobbik, 186 perces részt az akusztikus modell tanításához használtuk fel, míg a kisebbik, 26 perceset a felismerő hálózatok tesztelésére. 2.1 Akusztikus modell tanítása Akusztikus modell tanításhoz a hangoskönyv teszteléshez nem használt része, összesen 186 perc állt rendelkezésre. Figyelembe véve, hogy ez a több mint 3 óra egyetlen beszélőtől származik, úgy döntöttünk, hogy egy új, beszélőfüggő akusztikus modellt tanítunk. Először egy az MRBA [13] beszédadatbázison tanított beszélőfüggetlen akusztikus modell segítségével kényszerített felismerést hajtottunk végre a tanítóanyagon, melyhez felhasználtuk az érintett Szindbád novellák szövegét is. Ezután a kényszerített felismerés kimenete alapján háromállapotú, balról-jobbra struktúrájú, környezetfüggő rejtett Markov-modelleket tanítottunk. A létrejött akusztikus modell 1400 egyenként 7 Gauss-függvényből álló állapotot tartalmaz. A felismerési kísérletek során mindvégig ezt az akusztikus modellt használtuk. 2.2 Tanítószövegek gyűjtése és előkészítése Mint a bevezetőben kitértünk rá, a nyelvi modell interpolációs technikát gyakorta használják arra, hogy egy a feladathoz jól illeszkedő kisebb és egy feladathoz csak lazán kötő nagyobb nyelvi modell előnyeit egyesítsék. Esetünkben a feladathoz jól illeszkedő modell tanításához tanítószövegként Krúdy Gyula műveinek gyűjteménye szolgált. A létrehozott korpusz 1,4 millió szót tartalmaz, forrása a Magyar Elektronikus Könyvtár [8]. Ez az általunk jól illeszkedő (JI) korpusznak keresztelt szöveg nem tartalmazza, sem a tesztanyag, sem az akusztikus modell tanításhoz használt felvételek leiratát. A JI korpusz kiegészítéséhez három forrásból gyűjtöttünk, további összesen 16,6 millió szót tartalmazó tanítószöveget: Magyar Elektronikus Könyvtár, Digitális Irodalmi Akadémia [3], Elektronikus Periodika Archívum és Adatbázis [4]. Ez a tanítószöveg melyre a továbbiakban gyengén illeszkedő (GYI) korpuszként fogunk hivatkozni Krúdy Gyula kortársainak, és hozzá stílusban közel álló szerzők szépirodalmi műveire épül. Szó alapú tanítószöveg előállítás Egy beszédfelismerési alkalmazás a szöveges tanítóadatok előfeldolgozását követeli meg. A rendszer tanításához felhasznált szépirodalmi szövegek olyan elemeket is tartalmaznak, melyeket nem lehet, vagy eredeti alakjukban nem lehet beszédhangokkal leírni. Ennek megfelelően az írásjeleket eltávolítottunk a tanítószövegből, míg a számokat szöveges átiratukkal helyettesítettük. Végül minden karaktert kisbetűsre alakítottunk. Az így előállt előfeldolgozott tanítószöveget használtuk a szó alapú nyelvi modellek tanításához.

Morféma alapú tanítószöveg előállítás A morféma alapú tanítószövegek előállításához további lépések szükségesek. Először speciális szóhatár jelölő karaktereket (<w>) helyeztünk a szövegbe, melyeket külön morfémaként kezeltünk a nyelvi modellben. Szerepük abba rejlik, hogy segítségükkel vissza tudjuk állítani a morféma alapú kimenetben a szóhatárokat. Ezután létre kellett hozni egy a szavakat morfémák sorozatára átíró szótárat. Cikkünkben felhasznált morféma alapú tanítószövegek az ún. Morfessor Baseline (MB) statisztikai szegmentáló eljárással [2] készültek. A MB egy felügyelet nélküli, nyelvfüggetlen morfémaszegmentáló eljárás, melyet kifejezetten beszédfelismerési célokra fejlesztettek ki finn kutatók. Segítségével csupán a szótár megadásával összerendelhetők a szavak morfémabontásukkal. A szóhatár jelölő szimbólummal ellátott, előfeldolgozott tanítószövegben ezután már csak a szavakat kellett morféma-szegmentálásukkal helyettesíteni. Kétféle elv szerint hoztuk létre a tanítószövegekhez tartozó morféma készleteket. Először a két tanítószöveghez tartozó szótáron egymástól függetlenül alkalmaztuk a MB szegmentálást. Ezt a megoldást független szótáras (FSZ) megközelítésnek neveztük el. Bár morféma alapú hálózatok interpolációjával kapcsolatban nemzetközileg is kevés a tapasztalat, a független szótáras megoldás alkalmazása felvet egy problémát. Ha a statisztikai feldolgozó egymástól függetlenül szegmentálja az interpolálandó nyelvi modellek szótárát, akkor nagy valószínűséggel merőben eltérő morfémakészlet keletkezik. Ennek következtében a nyelvi modellek összefűzése során kevés közös n-gram lesz a két szótárban, ami ronthatja az interpoláció hatásfokát. A probléma kezelésére több módszert kidolgoztunk, melyek közül egy ún. közös szótáras (KSZ) megközelítés vált be a legjobban. Ennek lényege, hogy a két tanítószöveg szótárát egyesítettük, majd ezen a közös szótáron futtattuk a statisztikai szegmentálást. A két tanítószövegben így minden közös szó ugyanarra a morféma sorozatra íródott át, ezzel biztosítva a lehető legtöbb közös n-gram-ot nyelvi modellekben. A kétféle módszert csak interpolációban részt vevő nyelvi modellek esetén alkalmaztuk. Korpuszegyesítés esetén a szótár a két részkorpusz közös szótárának adódik, így az itt alkalmazott szó-morféma átírás megegyezik a közös szótáras módszernél kapottal. A tanítószövegekkel kapcsolatos részletes statisztikákért lásd az 1. táblázatot. Tanítókorpusz 1. táblázat: A nyelvi modell tanító-adatbázisokhoz kapcsolódó statisztikák FSZ KSZ Szó Méret Szótár morfémakészlekészlet morféma- perplexitás [millió szó] [ezer szó] [ ] [ezer morf.] [ezer morf.] OOV arány [%] JI 1,4 152 18 36 1559 4,9 GYI 16,6 800 64 65 2905 2,6 Egyesített 18,0 840 66 2121 1,9 2.3 Nyelvi modellek tanítása Mind a JI, GYI, mind az egyesített korpuszból készült nyelvi modellek módosított Kneser-Ney simítás [1] használatával készültek az SRI-LM [10] nyelvi modellező toolkit segítségével. Modellmetszést egyetlen esetben sem alkalmaztuk. Az interpolált nyelvi modellek előállításához azt az elterjedten használt technikát [7] alkalmaztuk,

Perplexitás Szóhiba arány mely szerint egy kisebb méretű, in-domain (JI) és egy nagyobb méretű, out-of-domain (GYI) nyelvi modellt tanítottunk egymástól függetlenül, majd ezeket az SRI-LM toolkit-be épített lineáris interpolációs eljárás segítségével különböző arányban egyesítettük. A tanítókorpuszokra vonatkozó perplexitás értékek és szótáron kívüli szóarányok jól illusztrálják (1. táblázat), hogy bár GYI korpusz kevésbé illeszkedik jól a tesztanyaghoz, több a tesztanyagban előforduló szót képes modellezni, mint JI. 3 Felismerési eredmények A tesztfelvétel lényegkiemeléséhez 39 dimenziós, delta és delta-delta értékkel kiegészített mel-frekvenciás kepsztrális komponenseken alapuló jellemzővektorokat hoztunk létre és ún. vak csatornakiegyenlítő eljárást is alkalmaztunk. A súlyozott véges állapotú átalakítókra (WFST) épülő felismerő hálózatok generálását és optimalizálását az Mtool keretrendszer programjaival végeztük, míg a tesztelés során alkalmazott egyutas mintaillesztéshez a VOXerver [5] nevű WFST dekódert használtuk. A felismerő rendszerek teljesítményének értékeléséhez szóhiba arányt (WER) számoltunk. Az egyes rendszerekkel elérhető WER értékek összehasonlításához a (2) képletben definiált mérőszámot használtuk. WER referencia WERúj Relatív WER csökkenés 100% (2) WER referencia 3.1 Szó alapú 3gram eredmények 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Interpolációs súly 1.1 ábra Szó perplexitás az interpolációs súly függvényében 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Interpolációs súly 1.2 ábra Szóhiba arány az interpolációs súly függvényében Az 1.1 ábrán látható, hogyan alakul a tesztanyagon vizsgálva a különböző interpolációs súllyal készült szó alapú 3gram nyelvi modellek perplexitása. A súly értéke a GYI korpuszból készült modell részarányát jelöli. Megfigyelhető, hogy a kiegészítő korpusz részarányának növelése egy pontig csökkenti a perplexitást, majd a 0,3-as értéktől kezdve az újra növekedni kezd. Hasonló tendencia figyelhető meg a 1.2 ábrán, mely a szóhiba arányokat ábrázolja a súly függvényében. Mindkét grafikonon szaggatott vonal jelöli a korpuszegyesítéses módszerrel elérhető perplexitást, illetve

Szóhiba arány szóhiba arányt. Az a tény, hogy a folytonos vonal nagy része a szaggatott vonal alatt halad, szemléletesen mutatja, hogy szó alapú modellek esetén az interpoláció hatékonyabb, mint a korpuszok egyszerű egyesítése. Az elérhető legnagyobb pontosság esetén az interpolációval kapható relatív WER csökkenés 3%-ot tesz ki. 3.2 Morféma alapú 3gram eredmények A morféma alapú nyelvi modellek előállításához két különböző szegmentálási módszert is alkalmaztunk. Az első ún. független szótáras (FSZ) esetén nem készítjük fel a nyelvi modelleket az interpolációra, így azok morfémakészlete egymástól független optimalizálás eredménye (2. ábra). Ezt a megközelítést alkalmazva láthatóan egyetlen interpolációs súly esetén sem tudjuk javítani a korpuszegyesítéssel kapható szóhiba arányt. Ezzel szemben, ha a morféma-szegmentálás az általunk bevezetett közös szótáras (KSZ) módszerrel történik, akkor szó alapú eredményekhez hasonlóan csökkenteni lehet interpolációval a szóhiba arányt. A korpuszegyesítéses módszerhez képest mérhető maximális relatív WER csökkenés (7%) felülmúlja a szó alapon kaphatót. FSZ Korpuszegyesítés KSZ 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Interpolációs súly 2. ábra Morféma alapú 3gram szóhiba arányok az interpolációs súly függvényében 3.3 Morféma alapú 4gram eredmények Korábbi kutatásaink során többször tapasztaltuk, hogy morféma alapú nyelvi modellezéskor 3-ról 4gram-ra növelve a nyelvi modell komplexitását szignifikánsan növekedett a felismerési pontosság [9,11]. Ezért fontosnak láttuk morféma alapon a 4gram modellek vizsgálatát is. Némi meglepetésre 4gram nyelvi modellek interpolációjakor nem sikerült javítani a korpuszegyesítéssel kapható felismerési eredményen. Azonban a közös szótáras (KSZ) megoldás itt is felülmúlja a független szótárasat (FSZ) felismerési pontosság tekintetében. (3. ábra)

Szóhiba arány FSZ Korpuszegyesítés KSZ 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Interpolációs súly 3. ábra Morféma alapú 4gram szóhiba arányok az interpolációs súly függvényében 4 Összefoglalás Cikkünkben a nyelvi modellek lineáris interpolációjának alkalmazási lehetőségeit vizsgáltuk elsősorban morféma alapú beszédfelismerő rendszerek esetén. Felismerési feladatként egy képzett beszélőtől származó hangoskönyv részletet használtunk, melyhez egy kisebb in-domain és egy nagyobb out-of-domain tanítószöveget gyűjtöttünk. Az idealisztikus körülményeknek hála, sikerült 12% alá szorítani rendszerünk szóhiba arányát, mely legjobb tudomásunk szerint az eddig publikált legalacsonyabb érték nagyszótáras, folyamatos magyar nyelvű beszédfelismerési feladaton. Az interpolációval és a tanítókorpuszok sima egyesítésével kapható eredményeket folyamatosan összevetettük, hogy képet kapjunk az interpolációval járó előnyökről. Hagyományos szó alapú interpolációval 3%-os WER javulást tudtunk regisztrálni. Ez a javulás 7%-osra nőtt 3gram morféma alapú felismerővel, ám csak abban az esetben, ha az általunk bevezetett új, a morféma-szegmentálást a tanítókorpuszok közös szótárán végző módszerrel hajtottuk végre. Ha a szótárakon függetlenül végeztük a morfémabontást, az interpoláció hatástalan eljárásnak bizonyult. Növelve a morféma alapú nyelvi modell komplexitását 3-ról 4gramra eltűnt az interpolációval kapható előny, és a korpuszegyesítéses módszerrel nagyobb felismerési pontosságot értünk el. Jelen kísérletünkben nagyobb komplexitású morféma alapú nyelvi modell esetén a lineáris interpoláció nem növelte a pontosságot a standard eljáráshoz képest. Annak eldöntéséhez, hogy ez a megfigyelés általános érvényű, vagy csupán felismerési feladat sajátosságaiból következik, további vizsgálatok szükségesek. Éppen ezért a későbbiekben vizsgálni szeretnénk a lineáris interpolációt olyan feladatokon, melyekhez a mostaninál nagyobb tesztanyag érhető el, így kiküszöbölve a mérési hibát. Illetve ki szeretnénk próbálni a közös szótáras morféma interpolációt olyan esetekre is, amikor a jelenleginél sokkal kevesebb adat áll rendelkezésre in-domain nyelvi modell tanításához.

Köszönetnyilvánítás Ezúton szeretnénk köszönetet mondani az AITIA International Zrt.-nek és a THINKTech Kutatási Központ Nonprofit Kft.-nek a rendelkezésünkre bocsátott eszközökért. Kutatásunkat részben a KMOP-1.1.3-08/A-2009-0006-os és TAMOP-4.2.2-08/1/KMR-2008-0007-es projekt támogatta. Bibliográfia 1. S. F. Chen and J. Goodman, An Empirical Study of Smooting Techniques for Language Modeling, Technical Report TR-10-98, Computer Science Group, Harvard University, 1998. 2. M. Creutz and K. Lagus, Unsupervised Morpheme Segmentation and Morphology Induction from Text Corpora Using Morfessor 1.0., in Comp. and Inf. Sci., report A81, HUT, March 2005. 3. Digitális Irodalmi Akadémia. http://www.irodalmiakademia.hu 4. Elektronikus Periodika Archívum és Adatbázis. http://epa.oszk.hu 5. T. Fegyó, P. Mihajlik, M. Szarvas, P. Tatai and G. Tatai, VOXenter - Intelligent voice enabled call center for Hungarian, in EUROSPEECH-2003, pp. 1905-1908. 6. F. Jelinek and R.L. Mercer, Interpolated estimation of Markov source parameters from sparse data, in Proc.Workshop on Pattern Recognition in Practice, 1980. 7. F. Liu et al., IBM Switchboard progress and evaluation site report, in LVCSR Workshop, Gaithersburg, MD. National Institute of Standards and Technology, 1995. 8. Magyar Elektronikus Könyvtár. http://www.mek.oszk.hu 9. P. Mihajlik, Z. Tüske, B. Tarján, B. Németh and T. Fegyó, Improved Recognition of Spontaneous Hungarian Speech Morphological and Acoustic Modeling Techniques for a Less Resourced Task, in IEEE Transactions on Speech and Audio Processing, Vol. 18 Issue 6, pp. 1588-1600, 2010. 10. A. Stolcke, SRILM an extensible language modeling toolkit, in Proc. Intl. Conf. on Spoken Language Processing, pp. 901 904, Denver, 2002. 11. B. Tarján and P. Mihajlik, On Morph Based LVCSR Improvements, in Proc. of the 2 nd Int. Workshop on Spoken Language Technologies for Under-resourced Languages, pp. 10-15, 2010. 12. Tóth L., Beszédfelismerési kísérletek hangoskönyvekkel, in VI. Magyar Számítógépes Nyelvészeti Konferencia, Szeged, Magyarország, pp. 206-216, 2009. 13. Vicsi Klára, Kocsor András, Teleki Csaba, Tóth László, Beszédadatbázis irodai számítógép-felhasználói környezetben, in II. Magyar Számítógépes Nyelvészeti Konferencia, Szeged, Magyarország, pp. 348-359, 2004.