A szupraszegmentális jellemzők szerepe és felhasználása a gépi beszédfelismerésben. Szaszák György



Hasonló dokumentumok
Beszédadatbázis irodai számítógép-felhasználói környezetben

EGÉSZSÉGÜGYI DÖNTÉS ELŐKÉSZÍTŐ

Regressziószámítás alkalmazása kistérségi adatokon

6. RADIOAKTIVITÁS ÉS GEOTERMIKA

A szótárról. 1. Mi ez?

HELYI TANTERV NÉMET NYELV. I. idegen nyelv. 4. évfolyam 6. évfolyam 8. évfolyam 10. évfolyam 12. évfolyam. nem A1 A2 B1 mínusz B1 megadható

Növelhető-e a csőd-előrejelző modellek előre jelző képessége az új klasszifikációs módszerek nélkül?

1. A kutatás célja, a munkatervben vállalt kutatási program ismertetése

Az alábbi áttekintés Délkelet-Európa (a volt Jugoszlávia országai

AZ EGÉSZSÉGI ÁLLAPOT EGYENLŐTLENSÉGEI

Pszichológia témájú tájékoztató vélemény. Általános tájékoztató

Doktori munka. Solymosi József: NUKLEÁRIS KÖRNYEZETELLENŐRZŐ MÉRŐRENDSZEREK. Alkotás leírása

A KÖRNYEZETI INNOVÁCIÓK MOZGATÓRUGÓI A HAZAI FELDOLGOZÓIPARBAN EGY VÁLLALATI FELMÉRÉS TANULSÁGAI

A magyar közvélemény és az Európai Unió

A foglalkoztatottak munkába járási, ingázási sajátosságai

6. AZ EREDMÉNYEK ÉRTELMEZÉSE

statisztikai menürendszere Dr. Vargha András 2007

Az anyanyelv hatásának tükrözõdése a spanyol névszórendszerben a magyar tanulóknál

A évi integritásfelmérések céljai, módszertana és eredményei

ACÉLÍVES (TH) ÜREGBIZTOSÍTÁS

A év agrometeorológiai sajátosságai

BIATORBÁGY FORGALOMTECHNIKAI TERVE

A korai kéttannyelvű oktatás hatása a kisiskolások anyanyelvi szövegértési és helyesírási kompetenciájára

Beszédfelismerés és szintézis tételek:

Hosszú élettartamú fényforrások megbízhatóságának vizsgálata Tóth Zoltán. 1. Bevezetés

4. sz. Füzet. A hibafa számszerű kiértékelése 2002.

Szakmai zárójelentés

T Zárójelentés

Varga András. Õsi magyar nyelvtan

KIFEJEZÉSE: A GAMMA KOEFFICIENS. Csapó Benő Szegedi Tudományegyetem, Neveléstudományi Tanszék MTA-SZTE Képességkutató Csoport

A 2008/2009. tanévi fővárosi 9. évfolyamos kompetenciaalapú angol és német nyelvi bemeneti mérések eredményeinek elemzése

SZENT ISTVÁN EGYETEM

Elméleti összefoglalók dr. Kovács Péter

SAJTÓSZABADSÁG-INDEX 2012 AZ ÚJSÁGÍRÓK, A MÉDIAVÁLLALKOZÁSOK ÉS A KÖZÖNSÉG VÉLEMÉNYE A SAJTÓSZABADSÁG HELYZETÉRŐL. Vezetői összefoglaló

Komputer statisztika gyakorlatok

Budapest Főváros XI. Kerület Újbuda Önkormányzata

XVIII-XIX. SZÁZADBAN KÉZMŰVES TECHNOLÓGIÁVAL KÉSZÍTETT KOVÁCSOLTVAS ÉPÜLETSZERKEZETI ELEMEK VIZSGÁLATA

5 Egyéb alkalmazások. 5.1 Akkumulátorok töltése és kivizsgálása Akkumulátor típusok

1. kompetencia Szakmai feladatok, szaktudományos, szaktárgyi, tantervi tudás

A magyarországi bankközi klíringrendszer működésének vizsgálata az elszámolás modernizációjának tükrében PhD értekezés tézisei

meghatározása műanyagok ultrahangos hegesztése közben, a bemeneti villamos impedancia alapján

A vízfogyasztás csökkenésének vizsgálata SPSS szoftver segítségével, befolyásoló tényezőinek meghatározása. 1. Bevezetés

A TALAJOK PUFFERKÉPESSÉGÉT BEFOLYÁSOLÓ TÉNYEZŐK ÉS JELENTŐSÉGÜK A KERTÉSZETI TERMESZTÉSBEN

Öregedés és nyugdíjba vonulás

Rövidtávú munkaerő-piaci prognózis 2012

Fiáth Attila Nagy Balázs Tóth Péter Dóczi Szilvia Dinya Mariann

Monetáris politika Magyarországon

és élelmiszer-ipari termékek hozhatók forgalomba, amelyeket a vonatkozó jogszabá-

KÖZPONTI STATISZTIKAI HIVATAL ÉVI MIKROCENZUS 7. Lakások, lakáskörülmények

Korszerű raktározási rendszerek. Szakdolgozat

Kapacitív áramokkal működtetett relés áramkörök S: B7:S21.3S2.$

Építkezők Országos Egyesülete:

HITELESÍTÉSI ELŐÍRÁS HE

14-469/2/2006. elıterjesztés 1. sz. melléklete. KOMPETENCIAMÉRÉS a fıvárosban

A évi Baross Gábor Program pályázati kiírásaira a Dél-alföldi Régióban benyújtott pályaművek statisztikai elemzése

JANUS PANNONIUS TUDOMÁNYEGYETEM. Schipp Ferenc ANALÍZIS I. Sorozatok és sorok

Központi Statisztikai Hivatal. A gazdaság szerkezete az ágazati kapcsolati. mérlegek alapján

Hátrányos helyzet = nyelvi hátrány?

Technológiai Elôretekintési Program EMBERI ERÔFORRÁSOK

Molnár Katalin A rendészettudósok új generációja? Kiemelkedő szakdolgozatok a Rendőrtiszti Főiskola MA szakának első évfolyamán

A Taní tó i/tana ri ké rdó ívré békü ldó tt va laszók ó sszésí té sé

SÍ- ÉS A MAGASHEGYI TÚRÁZÁS, NORDIC WALKING

A SZAKÉRTŐI ÉRTÉKELÉS JELENTŐSÉGÉRŐL 1

Mössbauer Spektroszkópia

AutoN cr. Automatikus Kihajlási Hossz számítás AxisVM-ben. elméleti háttér és szemléltető példák február

A tanulás affektív tényezõi. Józsa Krisztián. Fejes József Balázs

Vállalkozás alapítás és vállalkozóvá válás kutatás zárójelentés

Mesterséges intelligencia, 7. előadás október 13. Készítette: Masa Tibor (KPM V.)

KVANTITATÍV MÓDSZEREK

Analízisfeladat-gyűjtemény IV.

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Kerettantervi ajánlás a helyi tanterv készítéséhez az EMMI kerettanterv 51/2012. (XII. 21.) EMMI rendelet 2. sz. melléklet

Tapasztalatok a Nemzeti Köznevelés Portál (NKP) tesztrendszerének használatáról az adaptivitás tükrében

Szeminárium-Rekurziók

HÍRADÁSTECHNIKA SZÖVETKEZET

Működési kockázati önértékelések veszteségeloszlás-alapú modellezése

FAUR KRISZTINA BEÁTA, SZAbÓ IMRE, GEOTECHNIkA

Lakóhelyi szuburbanizációs folyamatok a Budapesti agglomerációban

A villamosenergia-szolgáltatással kapcsolatos fogyasztói elégedettség mérésének évi eredményei

Az elektrosztatika törvényei anyag jelenlétében, dielektrikumok

Nagy adattömbökkel végzett FORRÓ TI BOR tudományos számítások lehetőségei. kisszámítógépes rendszerekben. Kutató Intézet

Az 5-2. ábra két folyamatos jel (A és B) azonos gyakoriságú mintavételezését mutatja ábra

Fogyatékossággal élő emberek életminősége és ellátási költségei különböző lakhatási formákban

Veres Judit. Az amortizáció és a pénzügyi lízingfinanszírozás kapcsolatának elemzése a lízingbeadó szempontjából. Témavezető:

Beszédfelismerés, beszédmegértés

AZ EURÓPAI KÖZÖSSÉGEK BIZOTTSÁGA A BIZOTTSÁG KÖZLEMÉNYE A TANÁCSNAK

Visszatérítő nyomaték és visszatérítő kar

LAKÁSVISZONYOK,

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 6. MA3-6 modul. A statisztika alapfogalmai

ZÁRÓTANULMÁNYOK TECHNOLÓGIA ÉS VERSENYKÉPESSÉG. - Technológia alprojekt zárótanulmánya -

Az informatika tantárgy idegen nyelv oktatása a középfokú oktatási intézményekben

TELEPÜLÉSFEJLESZTÉSI STRATÉGIAI TERV

A HEVES-BORSODI-DOMBSÁG MORFOMETRIAI ELEMZÉSE TÉRINFORMATIKAI MÓDSZEREKKEL. Utasi Zoltán 1. A terület elhelyezkedése

Egyetemi doktori (PhD) értekezés tézisei A BÚZATERMELÉS, A TERMÉNYMANIPULÁCIÓ ÉS A LISZTGYÁRTÁS KOMPLEX ÜZEMTANI ELEMZÉSE.

MISKOLC MJV ENERGETIKAI KONCEPCIÓJA

Eötvös Loránd Tudományegyetem Társadalomtudományi Kar ALAPKÉPZÉS

Mikrohullámok vizsgálata. x o

DOKTORI (PhD) ÉRTEKEZÉS

Bevezető Mi a statisztika? Mérés Feldolgozás Adatok rendezése Adatok jellemzése Időbeli elemzés Feladatok. Statisztika I.

2,6 millió magyar család életében szeptember 1-je fordulópontot jelent. Ekkortól lépett életbe az Európai Unió új szabálya, mely alapjaiban

Átírás:

Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszék A szupraszegmentális jellemzők szerepe és felhasználása a gépi beszédfelismerésben Szaszák György Tézisfüzet Tudományos vezető Dr. Vicsi Klára, DSc Budapest, 2008

1 Bevezetés Napjainkban, az információs társadalomban és a mesterséges intelligencia korában alapvető igényként jelentkezik az emberi képességek gép általi minél hűebb megvalósítása. Nincs ez másként a beszédfelismerésben sem, az ember régi vágya, hogy gépeivel saját nyelvén kommunikálhasson. Jóllehet a kezdetek óta jelentős eredményeket értek el a beszédfelismerés történetében, maga a beszédfelismerés problémaköre napjainkban sem tekinthető még megoldott problémának. Sőt, ha arra gondolunk, hogy a valódi beszédfelismerés tulajdonképpen a beszéd gép általi értelmezését, megértését is jelenti, még messzebb érezhetjük magunkat a céltól. Különösen, ha a magyar nyelvre gondolunk, amelynek agglutináló azaz toldalékoló jellege miatt az indoeurópai, illetve angol nyelvekre kidolgozott beszédfelismerési módszerek alkalmazása egyáltalán nem egyszerű feladat, nagyszótáras, általános témakörű irodai diktálásra alkalmas beszédfelismerő mind a mai napig nem is létezik a magyar nyelvre. Ezzel együtt a klasszikus beszédfelismerésben lassan bő évtizede egyfajta egyhelyben topogás mutatkozik. A napjainkban leghatékonyabb és leginkább alkalmazott statisztikai eljárásokkal az adott technikai színvonalon elérhető eredmények megszülettek, azokat lényegében már csak továbbragozni lehet. Ennek ellenére a kutatók figyelme csak az utóbbi időben fordult az emberi beszéd más dimenziói felé, és mostanra terjedt el az a szemlélet, amely a beszédet a kommunikáció egy részének, egyik lehetséges csatornájának tekinti, és megpróbálja a beszéddel párhuzamosan megjelenő egyéb információforrásokat is kiaknázni (pl. multimodális beszédfelismerés). Maga a beszéd mint információhordozó sincs még azonban teljesen kihasználva a szűkebben vett beszédfelismerésben sem. A hagyományos, statisztikai alapú folyamatos beszédfelismerés a beszédet fonémaszekvenciának tekinti és így is dolgozza fel [1, 7]: a beszédfelismerésben a szegmentális (beszédhang léptékű) tartományba eső fonetikai szerveződési szintet, majd e felett a szavak, sőt inkább a szókapcsolatok szintjét veszik figyelembe, előbbit a fonéma modellek, utóbbit a nyelvi modell testesítik meg a beszédfelismerőkben. Ebben a feldolgozási láncban a beszéd mint akusztikai produktum csak a legelső szinten, szegmentális tartományban jelenik meg, utána nem veszik figyelembe. Meggyőződésem, hogy a beszéd szupraszegmentális tartományban akusztikailag is alátámasztja a szókapcsolati szintet, és így információforrásként hozzájárulhat a teljesebb beszédfelismeréshez, megnyitva az utat a valódi beszédértés irányába is. Gondoljunk csak arra, hogy a szupraszegmentálisan (prozódiailag) rosszul megformált közlemény azaz helytelenül hangsúlyozott, nem megfelelő hanglejtésű vagy éppen túl monoton beszéd az emberi beszédértést megzavarja, sőt, meg is tévesztheti, mégis ritkaságszámba mennek a szupraszegmentális tartománybeli kutatások, a szupraszegmentális tartomány akusztikailag is megjelenő elemeit a szupraszegmentális beszédjellemzőket pedig nem használják a 1

beszédfelismerésben. Árnyalja a képet, hogy a fonetikai és fonológiai tudomány sem egységes részletekbe menően már a szupraszegmentális jellemzők pontos meghatározása kérdésében sem, nemhogy az egyes jellemzők mérnöki tudományokban is jól felhasználható egzakt leírásában. Úgy gondolom, a magyar nyelvre a már említett agglutináló sajátosság és az ebből fakadó problémák miatt különösen érdemes a szupraszegmentális tartományt, illetve az általa hordozott információt a beszédfelismerés menetébe integrálni. Amellett, hogy magának a beszédfelismerésnek eredményességét is javíthatja a szupraszegmentális tartomány figyelembe vétele, alapját képezheti a szintaktikai és szemantikai szintű feldolgozásnak is. A prozódia beszédfelismerésben való alkalmazását viszonylag kevesen vizsgálták, konkrét gyakorlati alkalmazást pedig, amely kihasználná ezt a lehetőséget, még kevesebbet mutattak be a tudományos életben. Természetesen azért akadnak kivételek is: a beszédfelismerés szakirodalmában két összefoglaló jellegű munkát [10, 21] is fellelhetünk a prozódia felhasználási lehetőségeiről, ezzel együtt ezen munkák sokszor egész fejezetei az elméletileg lehetséges síkján maradnak, számos vélt alkalmazási lehetőséget azzal indokolnak, hogy az a nyelvészeti kutatások alapján valószínűnek látszik, ám a gyakorlati beszédtechnológiába csak részlegesen ültetik át azokat. A prozódia beszédfelismerésben való felhasználását meg is valósító alkalmazások közül tudomásom szerint a prozódiailag igen gazdag japán nyelvben a szavak alapfrekvenciamintázatát ismerték már fel Markov modellekkel [5]. Vizsgálataikat sajnos csak két beszélőre végezték, ekkor a félszótag felismerési arány javult a prozódia figyelembe vételével. E módszer speciálisan a japán nyelvre lett kidolgozva, melyben az alapfrekvencia jellegzetes változásokat mutat a szavak szintjén, indoeurópai, illetve a magyar nyelvekre ez a módszer aligha adaptálható. Amerikai angol nyelvre döntési fás osztályozóval olyan rendszert implementáltak [19], amely a beszédben a szünetek és hangsúlyok mintázatát a felismerési hipotézisek szintaktikai és szemantikai elemzővel legenerált referenciamintázatával veti össze, és ennek alapján újrarangsorolja a legvalószínűbb hipotéziseket. A figyelembe vett szupraszegmentális jellemző elsősorban az időtartam, amely az amerikai angol nyelvben a legfontosabb jellemző a hangsúlyozás szempontjából. A módszerrel a hipotézisek között a helyes hipotézis rangsorbeli helyzete közeledett az első helyhez. A hipotézisgráfok prozódiai információn alapuló újrasúlyozását német nyelvre is vizsgálták [10, 11]. Az Indiában beszélt bengáli nyelvre is készítettek szóhatár detektálót [12] részben munkámmal párhuzamosan, de azt beszédfelismerőbe nem építették be. A prozódiai frázisok és a mondatok határainak automatikus detektálása viszonylag gyakori alkalmazásnak számít [3, 10, 11, 16, 21]. 2

2 Kutatási célkitűzések Dolgozatomban a beszéd szupraszegmentális (prozódiai) jellemzőinek automatikus beszédfelismerésbeli felhasználhatóságát vizsgálom. Munkám célja annak tudományos bemutatása és igazolása, hogy a prozódia által hordozott és ki nem használt információ hozzájárulhat a beszédfelismerés eredményeinek javításához, illetve szintaktikai és szemantikai szinten lényeges többletet is adhat hozzá. Emellett feladatomnak tekintem, hogy a prozódiai jellemzők olyan feldolgozását valósítsam meg, amely akusztikai szinten biztosítja a szupraszegmentális szerkezet követhetőségét és felhasználását a beszédfelismerésben, illetve amely alapvető osztályozási feladatok elvégzésével szintaktikai tagolással (fonológiai frázisokra való tagolás) és szemantikai feldolgozással (modalitásfelismerés) plusz információt ad a hagyományos beszédfelismeréssel kapott szöveges kimenethez, illetve ezt kiegészítendő, támpontokat jelenthet a magasabb szintű szintaktikai és a szemantikai feldolgozás robusztusabbá tételéhez. Vizsgálataim középpontjában a magyar nyelv áll, de igyekszem olyan struktúrákban gondolkozni, amely a más nyelvekre történő általánosítást is lehetővé teszi. Éppen ezért a kidolgozott módszerek más nyelvekre történő adaptálhatóságát is vizsgálom. Célkitűzéseim között szerepel annak igazolása, hogy az alapfrekvencia és energia mint prozódiai (szupraszegmentális) beszédjellemzők alapján a magyar nyelvben a hangsúly detektálható, és kötött hangsúlyú nyelvekre ennek alapján megvalósítható a szóhatárok jelentős részének detektálása csúcskereséssel, illetve fonológiai frázisok dallammenetének alakfelismerésére visszavezetett statisztikai osztályozással. Igazolom azt is, hogy az ezzel a módszerrel detektált szóhatárok figyelembe vétele a hagyományos statisztikai, fonéma alapú, folyamatos gépi beszédfelismerés eredményét javítja, ha felismerés során előálló hipotézisgráfban az élsúlyokat a szóhatárok helyzetének megfelelően módosítjuk. Az újrasúlyozás [19] a prozódiai információ (szegmentálás, azaz beszédfolyam-tagolás) felismerési folyamatba való becsatolásának eszköze, amely alkalmazkodik a hagyományos gépi beszédfelismerők felépítéséhez és működéséhez, így azokhoz kiegészítő modulként csatlakoztatható. E lehetőséget különösképpen az agglutináló (toldalékoló) nyelvek (ilyen a magyar nyelv is) szempontjából vizsgálom, amelyek esetében a manapság elterjedten használt n-gram szó alapú nyelvi modellezés a szóalakok nagyon magas száma miatt korlátozottan alkalmazható. Célom a tagmondat- és mondathatárok pontos detektálása is, illetve a mondattípusok (modalitás) felismerése automatikusan, az akusztikailag mérhető szupraszegmentális beszédjellemzők alapján statisztikai módszerrel, HMM alapú osztályozót felhasználva. Egy ilyen, szintén a beszédfelismerőkhöz csatlakoztatható modul szemantikai feldolgozásban nagy 3

segítséget jelentene, például a megfelelő írásjelek használatában a szöveges kimeneten, de a szemantikai elemzők működését is támogathatja az akusztikai információ beszédjelből való kinyerése és feldolgozása révén. 3 Módszertan A dolgozatomban bemutatott kutatásokhoz a beszédtechnológiában, ezen belül is a beszédfelismerés területén elterjedt módszereket vettem alapul. A beszédet szupraszegmentális tartományban vizsgálom. A szupraszegmentális jellemzők akusztikai szintű feldolgozását az alapfrekvencia és az intenzitás (illetve jelenergia) alapján végzem. Az időtartamok mérését előzetes tájékozódó vizsgálataim során nem találtam célravezetőnek a megfogalmazott feladatra. Az akusztikailag feldogozott szupraszegmentális tartományra egy-egy adott szupraszegmentális jellemzőre (pl. hangsúly, beszéddallam) osztályozási feladatot fogalmazok meg. Ennek legegyszerűbb formája igen-nem típusú döntés (pl. van-e hangsúly egy adott szótagon), de történhet a döntés több osztályra is (pl. milyen az adott beszédszakasz jellemző dallamsémája). A döntést csúcskeresési algoritmussal, illetve az eljárás finomításával a későbbiekben HMM alapú osztályozóval végzem. Az osztályozás eredménye alapján fonológiai frázis-, illetve mondathatár-detekciót is megvalósítok. Az osztályozó révén ekkor beszédfolyam-szegmentálás történik. A megfogalmazott feladathoz elkészült osztályozó- vagy felismerő egység (illetve az ezekből származtatott funkcionális modul) teljesítményét teszteléssel határozom meg az előzetesen rögzített mérőszámokkal, amelyek a rendszer, illetve az implementált algoritmusok teljesítményét (pontosságát, eredményességét, hatékonyságát) mérik. Az algoritmusokat iteratívan optimalizálom a főbb paraméterek külön-külön való változtatásával, ennek során a viszonyítási alap mindig a kiindulási rendszer. 4 Új eredmények 4.1 Szóhatár-detekció hangsúlydetekció alapján A hangsúly a beszédben valamely szó egy szótagjának kiemelése, megkülönböztetése a többi szótagtól [4]. Egy adott nyelvben a hangsúly kötött, ha mindig a hangsúlyos szó azonos szótagján realizálódik, kötetlen, ha a hangsúlyozandó szótag ugyanazon szón belül 4

vándorolhat. A magyar nyelv kötött hangsúlyú, első szótagra eső hangsúllyal. Kötött hangsúlyúak még pl. a finn, cseh és lengyel nyelvek. Az angol nyelv kötetlen hangsúlyozású. A hangsúly létrehozásában három tényező együttesen vagy egyedileg játszhat szerepet [4, 8]. E három tényező (i) az alapfrekvencia kiemelkedése a hangsúlyos szótagon, (ii), a hangsúlyos szótag nagyobb intenzitással való kiejtése és (iii) a hangsúlyos szótag magánhangzójának időtartambeli hosszabbodása. Egyes nyelvekben a hangsúly egyértelműen megfeleltethető e három tényező valamelyikének, a magyar nyelvben azonban a hangsúly lehet nyomatéki, azaz eredhet intenzitástöbbletből [4], de a hangsúlyérzetet jelentősen befolyásolja az alapfrekvencia is. Saját tapasztalataim alapján meghatározóbbnak tartom a hangsúlyban az alapfrekvencia szerepét (vö. [8], [14]). Mindezt a BABEL beszédadatbázison [20] végzett vizsgálataim is alátámasztották. Első tézisemben azt állítom, hogy a magyar nyelvben a kötött hangsúlyozást kihasználva az alapfrekvencia- és az intenzitással arányos energiamenet figyelembevételével a szóhatárok jelentős hányada detektálható. Egészen pontosan azok a szóhatárok detektálhatók, amelyeket hangsúlyos szó követ. Tézis I. [J1, C1] A kötött hangsúlyozású magyar nyelvben a szóhatárok jelentős hányada detektálható a hangsúly, illetve áttételesen a hangsúlyt meghatározó akusztikai-prozódiai jellemzők, az alapfrekvencia és az energia menete alapján. A hangsúlydetekciós eljárást az alapfrekvencia és az energia paraméterekre alapoztam, az időtartammérést viszont elhagytam. A BABEL adatbázison [20] végzett előzetes vizsgálataim alapján ugyanis az időtartamok és a hangsúlyozás között nem találtam kiaknázható, megbízható összefüggést. A prozódiai-akusztikai jellemzők a szótagok magánhangzóinak stacioner szakaszán vagy a teljes beszédjelen is mérhetők. Utóbbi esetben szükségessé válik az alapfrekvencia interpolálása a zöngétlen szakaszokon, illetve számolni kell a zömmel mássalhangzó kapcsolatokban megjelenő mikroprozódiai ingadozások megjelenésével is. Az I. tézis bizonyításához azt mutattam meg, hogy az alapfrekvencia és energia alapján lehetséges a hangsúlydetekció, feltételezve, hogy e két jellemző a hangsúlyos szótagon maximumot ad [14]. A hangsúly detektálását csúcskeresési algoritmussal valósítottam meg. Az algoritmus folyamatosan nyomon követi a beszédjel egy tetszőlegesen időablakolt szakaszán a megfigyelni kívánt prozódiai jellemző(ke)t, és ezek értékeit átlagolva meghatározza az ablakba eső beszédjel-szakaszra várható értéküket (M) és szórásukat (σ) (empirikus közép, ill. tapasztalati szórás). Az értékekből egy küszöböt határozok meg: K = M + k *σ, (1) ahol k tetszőleges konstans, nagyságrendileg 0,5-1,5 közötti értékkel. Ezt követően a választott prozódiai jellemző(k)re azt vizsgálom, nagyobb(ak)-e a K küszöbnél, ha igen, akkor 5

ezt csúcsnak tekintem, és itt az algoritmus hangsúlyos pozíciót detektál. A hangsúlyos pozíció az első szótagra való kötöttsége miatt szóhatárra képezhető (például az energiagörbe minimumára). Közvetlenül az alapfrekvencia és az energia helyett belőlük származtatott mennyiségeket is felhasználhatunk, így az egyes szótagok közötti alapfrekvencia- és energiaszintbeli különbségeket is. Ekkor a csúcskeresést azzal a különbséggel végzem, hogy a várható érték és a szórás számításakor a kapott értékek abszolút értékeit használom. A csúszóablakos számítás ekkor is indokolt, hiszen alkalmazkodnunk kell a mért differenciális jellemzők dinamikatartományának folyamatos változásaihoz. Az így kapott hangsúly- és a ráépülő szóhatár-detektáló rendszer felépítése az 1. ábrán látható. Beszédjel Alapfrekvencia meghatározás Energia kiszámítása Csúcskeresés/ Görbejellegmeghatározás Csúcskeresés/ Görbejellegmeghatározás Hangsúlydetekció Szóhatárok 1. ábra: A csúcskeresésen alapuló hangsúlydetektálás elvi vázlata A tézis bizonyítását kísérletileg végeztem a fenti algoritmus alapján, a csúcskeresési algoritmusra alapozott eljárás teljesítményelemzésére a következő két mérőszámot használtam: A pontossággal (precision) azt jellemzem, hogy az algoritmus mennyire detektálta (azonosította) helyesen a hangsúlyokat, illetve a szóhatárokat: tp p =, (2) tp + fp ahol tp (true positive) a helyesen azonosított hangsúlyos szótagok/szóhatárok száma, fp (false positive) a téves hangsúly-/szóhatár-azonosítások száma. A hatékonysággal (recall vagy sensitivity) mérem, hogy az összes, a mondatokban előfordult szó hány százalékánál detektálta az algoritmus az első szótagot hangsúlyosnak: tp r =, (3) tp + fn ahol fn (false negative) a nem azonosított hangsúlyos szótagok/szóhatárok száma. 6

A (2) és (3) összefüggésekkel meghatározott mutatók ábrázolhatók PR-térben (Precision- Recall space), így a két jellemző alapján történő teljesítménykiértékelés áttekinthetőbb 1. A teljesítményelemzéshez a tesztmintákat a BABEL beszédadatbázisból vettem. Az eredmények az algoritmus felépítésének megfelelően azt mutatták, hogy a pontosság emeléséhez a hatékonyságból fel kell adnunk, az csökkenni fog. A legnagyobb kapott pontosság 91%, 14% hatékonyság mellett. A folyamatos jelleggörbék alapján kapott eredmények az 1. táblázatban láthatók. 1. táblázat: Hangsúlyos pozíció detektálása a teljes beszédjelen mért jelleggörbék alapján Pontosság/Hatékonyság [% / %] F 0 E F 0 &E 70 / 32 69 / 34 91 / 14 4.2 Fonológiai frázisok osztályozása és szóhatár-detektálás alakfelismeréssel A következő tézis a prozódiai információ a beszédfelismerésben is felhasznált statisztikai eszközökkel történő kinyerését és feldolgozását, hasznosítását célozza a beszédfelismerés folyamatában. Tézis II. A. [J1, J2, B1, C1] A kötött hangsúlyozású magyar nyelvben a fonológiai frázisokra alakfelismerésen alapuló szegmentálás valósítható meg rejtett Markov-modellekkel. E szegmentálás alapján a fonológiai frázishatárokra eső szóhatárok is detektálhatók. Ez a tézis azt állítja, hogy a hangsúlyozási mintázat és a dallammenetek által megadott prozódiai struktúra elemei diszjunkt osztályokba sorolhatók úgy, hogy a fonológiai frázishatárra eső szóhatárok detektálhatók a hangsúlyozási minta és a dallammenetek együttes modellezését megvalósító fonológiai frázisosztályok alakfelismerésével, rejtett Markov modell alapú osztályozási eljárásban. Dallammenetek alatt a hangmagasság folyamatos változásai értendők a változás irányától függően [8]. Általában az alábbi dallammeneteket szokás elkülöníteni [4]: eső, ereszkedő, szökő, emelkedő, lebegő. A fonológiai frázis rendszerint néhány (vagy akár egyetlen) szóból áll [18], önálló hangsúllyal és dallammenettel jellemezhető [6]. Pszicholingvisztikai kutatások tanúsága szerint a fonológiai frázisoknak, illetve azonosításuknak a beszédpercepcióban kulcsszerepe van (vö. [2]). A II. A tézist kísérletileg igazoltam. A fonológiai frázisosztályokat (FF-osztályok) dallammenetek alapján különítettem el. A magyar nyelvre 5+1, azaz a szünettel együtt 1 A pontosságot és hatékonyságot PR-térben ábrázolva angol elnevezéseikkel (precision ill. recall) használom, értékkészletük a [0, 1] intervallum. Táblázatokban százalékra átszámítva közlöm értékeiket. 7

összesen 6 osztályt használtam az alábbiak szerint: eső (FA); ereszkedő (DE); lebegő/változatos (FL); emelkedő-eső (RF); emelkedő/szökő (RI); szünet (SIL). A szünet és a lebegő dallammenet kivételével minden fonológiai frázis hangsúllyal indít, határaikat pedig mindig a szóhatároknál rögzítettem, hiszen a fonológiai frázis egy-egy rövidebb szóláncnak felel meg [18]. A szupraszegmentális tartományban működő osztályozót a statisztikai beszédfelismerésre kidolgozott eljárás alapján valósítottam meg [7]. A fonológiai frázisok osztályozásához egy prozódiai-akusztikai, és egy prozódiai-nyelvi modellre van szükség (vö. [5], [19]). Ha a beszédjelhez illeszkedő FF-osztályok sorozata rejtett Markov modellekkel felismerhető, akkor a prozódiai mintaillesztés végén visszakereshető a végül maximális súlyúnak adódott útvonal által fedett rejtett szupraszegmentális állapotsorozat, az állapotok időbeli elhelyezkedését is beleértve. Mivel a FF-osztályok határai szóhatárokra esnek, a megfelelően pontos FF-osztályozás révén a fonológiai frázishatárok detektálhatók, így a nekik megfelelő szavak vagy szóláncok határai is. Innen egyenes út vezet a prozódiai szegmentáló megalkotásáig (lásd 4.3 szakasz). A FF-osztályozó által használt prozódiai nyelvtan nem statisztikai, hanem szabály alapú véges állapotú nyelvtan. A HMM alapú FF-osztályozót HTK keretrendszerben [22] implementáltam. A megvalósított rendszer felépítése a 2. ábrán látható. FFosztályok HMM-jei Beszédjel F0 & energia kinyerése Szupraszegmentális akusztikai előfeldolgozás Szupraszegmentális jellemzővektorok Fonológiai frázisosztályok illesztése FF-osztályok kapcsolódási modelljei Illesztett FF-osztályok 2. ábra: Statisztikai alapú FF-osztályozórendszer blokkvázlata A szupraszegmentális tartományú akusztikai előfeldolgozás során az alapfrekvenciát AMDF-alapú algoritmussal határozom meg, majd 7 pontos medián szűrést hajtok végre. Interpolációt nem használok. Az alkalmazott keretidő 25,6 ms. Az energia esetében 100 ms időablakkal átlagolok, a keretidő szintén 25,6 ms. Mindkét jellemzőhöz kiszámítom első és másodrendű deriváltjaikat is. A jellemzővektorok tehát hatdimenziósak, és 25,6 ms keretidőnként képződnek. Az alkalmazott prozódiai nyelvtan (G FF ) a következő volt: G FF = [SIL] < RF (DE [SIL]) (RI SIL) > SIL, (4) ahol a < > szimbólumok egy vagy több, a { } szimbólumok nulla, egy vagy több 8

ismétlődést jelölnek, a szimbólum kizáró vagy kapcsolatot, a [ ] opcionálisan elmaradó eseményeket jelöl. A nyelvtan választásának indokait részletesen bemutattam az értekezésben. (4) optimalizálását nem elsősorban a FF-osztályozás, hanem a szóhatár-detektálásra való alkalmasság szempontjából végeztem. A kísérletekhez ismét a BABEL beszédadatbázisból vett mintákat használtam. Az FF-osztályok HMM-jeinek betanításához a beszédmintákat az alapfrekvencia és az energia menete alapján FF-osztályokra szegmentáltam. A FF-osztályozó teljesítményét a beszédfelismerésben használatos helyes felismerési (osztályozási) aránnyal mértem. Ha a fonológiai frázishatárra eső szóhatárok detektálásának eredményességét vizsgáljuk, az a szóhatár-detektálásra bevezetett (2) és (3) mérőszámokkal végezhető el, így az eredmények az I. tézis kapcsán kidolgozott módszer eredményeivel is összehasonlíthatók. Ekkor a szóhatárt ismét akkor tekintettem helyesen detektáltnak, ha a fonémaszintű szegmentálással összevetve az a tényleges szóhatár 100 ms-os környezetébe esett (vö. [5]). Teszteléssel vizsgáltam mind a FF-osztályozó, mind az erre épülő, fonológiai frázisok határain szóhatárt detektáló algoritmus teljesítményét. A 3. ábra a FF-osztályozó a (4) nyelvtanban megadott osztályozási feladatban elért helyes osztályozási arányát mutatja. A FF-osztályozás alapú szóhatár-detektálás esetén megvizsgáltam, hogy mely prozódiai jellemzők esetében adódik optimális eredmény a pontosságra és a hatékonyságra. A csak az alapfrekvencia-, illetve csak az energiajel alapján dolgozó modellek nem adtak olyan jó teljesítményt, mint a mindkét jellemzőt felhasználók. A pontosság és a hatékonyság tekintetében a FF-osztályok HMM-jeinek állapotszámát és a kibocsátás eloszlását leíró Gauss függvények komponenseinek számát is optimalizáltam. Előbbire 11 állapot, utóbbira 1-2 komponens adódott optimálisnak. 90 80 Helyes osztályozási arány [%] 70 60 50 40 30 20 10 0 RF DE RI SIL FF-osztály 3. ábra. A FF-osztályozó (4) prozódiai nyelvtan szerinti osztályozási teljesítménye 9

A kapott eredmények tanúsága szerint a szóhatár-detekció pontossága és hatékonysága optimális esetben magyar nyelvre 77,4%, illetve 57,1% (lásd 4. ábra). A szóhatár-detektálás kapcsán vizsgáltam a FF-osztályozó betanító anyagának szempontjából azt is, hány beszélővel adódik optimális eredmény: 14 fő, 4 fő, majd egyetlen fő férfi beszélő anyagával tanítva a pontosság kismértékben változott, legmagasabb a 4 fős betanító halmaz esetében volt. A hatékonyság viszont jelentősebben változott, optimális eredményt a 4 fős betanító halmazra kaptam. Mindez a 4. ábrán is nyomon követhető. A betanító anyag szűkítésekor ügyeltem arra, hogy a beválogatott beszélők kiejtése prozódiailag megfelelő legyen. Precision (p) 0,775 0,774 0,773 0,772 0,771 0,77 0,769 0,768 0,767 0,766 0,765 0,764 4 férfi 1 férfi 14 férfi 0,3 0,35 0,4 0,45 0,5 0,55 0,6 0,65 0,7 Recall (r) 4. ábra. A pontosság (precision) és a hatékonyság (recall) PR-térben ábrázolva magyar nyelvre 1, 4 és 14 férfi beszélő anyagával betanítva, 18 beszélő anyagán tesztelve A FF-osztályokat a későbbiekben tapasztalataim alapján finomítottam, az új osztályozás mondatindító (me), erősen hangsúlyos (fe), gyengén hangsúlyos (fs), prozódiai frázisvégi folytatást jelző (fv), mondatzáró (mv), semleges (s) és szünet (sil) osztályokat különböztet meg. Fontosabb a szupraszegmentális tartomány akusztikai előfeldolgozásának változása, az alapfrekvencia-jelben oktávugrás elleni szűrést használok, a medián szűrés helyett átlagoló szűrővel végzem a simítást. A keretidőt 10 ms-ra csökkentettem. Az újradefiniált FFosztályok bevezetésével és a feldolgozás finomításával a szóhatár-detektálásra kapott pontosság, illetve hatékonyság 79,2%, illetve 58,5%, a szóhatárok időbeli elhelyezésének pontatlansága (a valós szóhatártól való távolság szórása) pedig jelentősen csökkent. Tézis II. B. [J1, B1, C2, C3, C4] A magyar nyelvre, a fonológiai frázisosztályok behatárolására kidolgozott módszer más kötött hangsúlyú nyelvekre is közvetlenül alkalmazható a fonológiai frázishatárokra eső szóhatárok detektálása céljából. 10

A tézist a magyar nyelvű FF-osztályozó finn nyelvre történő adaptálásával igazoltam. Ennek során finn nyelvű beszédadatbázisra elvégeztem ugyanazokat a beszédanyag-előkészítési, FF-osztály szegmentálási, HMM-betanítási feladatokat, amelyeket korábban a magyar nyelvű rendszerre. A betanítás és tesztelés alapjául szolgáló adatbázis a Helsinki University of Technology által készített Finnish Speech Database [17], amely 250 mondatot tartalmaz összesen 4 beszélő bemondásában. A teszteredmények kiértékelését a magyar nyelvre bemutatott eljárással megegyezően végeztem. A finn nyelv esetében is a 11 állapotú, 1 Gaussos HMM modellek adták a legjobb eredményt mind az alapfrekvencia, mind az energiaszint, valamint ezek első és második deriváltjai alapján működő modellekben. A (2) és a (3) összefüggésekkel definiált (pontosság és hatékonyság) eredményességi jellemzők finn nyelvű rendszerrel 69,2%, illetve 76,8%. Ez a magyar nyelvű eredményekkel összevetve alacsonyabb pontosságot, ugyanakkor jóval nagyobb hatékonyságot jelent (lásd 5. ábra). Vizsgáltam a kétnyelvű szóhatár-detektáló rendszer teljesítményét is. A mindkét nyelven betanított rendszer pontossága majdnem eléri az egynyelvű rendszerét, hatékonysága viszont jelentősen nagyobb az egynyelvű esethez képest. Az eredmények az 5. ábrán láthatók PR-térben ábrázolva. Precision (p) 0,78 MM 0,76 VM 0,74 0,72 FM VF 0,7 FF 0,68 MF 0,66 0,4 0,5 0,6 0,7 0,8 0,9 Recall (r) 5. ábra. A pontosság (precision) és a hatékonyság (recall) PR-térben ábrázolva magyar és finn nyelvre, illetve kétnyelvű rendszerekkel. A pontok melletti feliratokon az első betű a betanító, a második a teszthalmazra utal: M=magyar, F=finn, V=vegyes magyar-finn 11

4.3 Szóhatár-detektáló rendszer felhasználása a gépi beszédfelismerésben Megvizsgáltam, hogy a II. A. tézisben bemutatott, FF-osztályozásra visszavezetett szóhatárdetektálóval javítható-e a beszédfelismerés pontossága. Az eredményeim alapján bizonyítandó tézis: Tézis III. [J2, B2, C5] A beszédfelismerésben a helyesen felismert szavak aránya növelhető a II. A. tézisben bemutatott, az alapfrekvencia- és energiamenet alapján működő HMM alapú fonológiai frázisosztályozóval a beszédfolyamon végzett prozódiai szegmentálással. Az állítás bizonyításához a szóhatár-detektálásra használt FF-osztályozót (prozódiai szegmentálót) beszédfelismerőbe építettem, és kétmenetes beszédfelismerésben a hipotézisgráfok újrasúlyozásával vettem figyelembe a prozódiai szegmentálást. A hipotézisgráfok újrasúlyozásának végrehajtásához a szóhatárok időpontbeli helyzetét (t B ) intervallumokba transzformáltam az L B (t)= Acos π ( t)+ A,ha t B 2 T 0 egyébként [ t T,t + T ] B, (5) összefüggés alapján (vö. [10]). Itt T az intervallum hosszát befolyásoló paraméter, értéke kísérleteimben 100 ms volt. L B (t) ily módon tulajdonképpen a szóhatár adott időpontban történő elhelyezkedésének valószínűségével arányos pontszámot ad meg. A beszédfelismerés során előálló hipotézisgráfban azoknak a szavaknak és szóláncoknak megfelelő utak súlyát, amelyek esetén a szavak határai időben egybecsengenek a prozódiai szegmentálás által jelzett határokkal megnövelem (6). Hasonlóképp, azokban az esetekben, amikor a prozódiai szegmentáló által megadott határok szavak belsejébe esnek, az eredetileg hozzárendelt súlyokat csökkentem (7). Sc renum = w a L B ( t start ) + w b L B ( t end ), (6) ahol t start a szó gráf szerinti kezdő, t end a szó gráf szerinti végpontjának felel meg (az időben), w a és w b pedig súlyok. N k 1 i= k + 1 Sc punish = L B ( t i ), (7) ahol N a kiértékelendő szó(lánc)hoz tartozó összes keret száma, k= T. A gráf éléhez tartozó új Sc rescored pontszám értéke: 12

Sc rescored = w O Sc orig + w P ( Sc renum Sc punish ). (8) (6)-ban w a =0,5, w b =0,5; (8)-ban w O =1, w P =2,5 volt a kísérleteim során. A beszédfelismerő, amelybe a prozódiai szegmentálót beépítettem, magyar nyelvű, HTK rendszerben megvalósított radiológiai leletező alkalmazás (39 MFCC, 10 ms keretidő, 37 beszédhang modell, 32 Gauss, 8 óra anyagon tanítva). A szótár elemszáma mintegy 4000 szó, a kísérletben a bi-gram nyelvi modellt binarizáltam. Célom annak kipróbálása, hogy képes-e a prozódiai információ minimális nyelvtani információ mellett a felismerés hatékonyságát javítani. Ezzel a nagyszótáras alkalmazások felé tekintek, ugyanis nagy szótárméret esetén a nyelvi modell elkészítéshez rendkívül nagy szövegadatbázis kell, a nyelvi modell használata pedig rendkívül műveletigényes. Különösen igaz ez az agglutináló nyelvekre így a magyarra is amelyek esetén viszonylag szűk tématerületen is relatíve nagy az előforduló szóalakok száma a toldalékoló jelleg miatt. A 6. ábra alapján felépített kísérleti rendszerrel hasi és kismedencei ultrahangos leletek felismerését vizsgáltam összesen 20 darab leletre (kb. 300 mondaton). A felismerést azonos körülmények között azonos leletekre az alaprendszerrel, majd a prozódiai szegmentálóval kibővített rendszerrel elvégezve a helyesen felismert szavak aránya összességében relatív 3,8%-kal javult. A javulás mértéke leletenként változó, egyes esetekben 10% fölötti eredményt is kaptam, ugyanakkor előfordult, hogy a felismerés a prozódiai szegmentáló hibázása miatt leromlott a referenciához képest. A hibaanalízis során kiderült, hogy ekkor a prozódiai szegmentáló tévedett az alapfrekvencia-detektor hibázásának eredményeként. Az összességében tekintett szignifikáns javulás azonban igazolja a III. tézis állítását. Beszédhang HMM Szótár Nyelvi modell Beszédjel Szegmentális akusztikai előfeldolgozás Szupraszegmentális akusztikai előfeldolgozás Szegmentális tartományú mintaillesztés Prozódiai szegmentálás Hipotézisgráfok újrasúlyozása Útvonalkiértékelés FF-osztályok FF-osztály kapcsolódási modell Felismert szöveg FF-osztály HMM 6. ábra: Prozódiai szegmentálóval kiegészített beszédfelismerő felépítése 13

A relatív 3,8% javulás 4 ezer szavas, igen behatárolt szó- és mondatkészletű beszédfelismerő alkalmazásban véleményem szerint nagyon jó eredmény, ez ugyanis a szótár méretének növelésével, illetve a felismerendő szöveganyag kötetlenebbé választásával még nagyobb teljesítménynövekedést eredményezhet. 4.4 Modalitásfelismerés és tagmondathatár-detektálás A mondat modalitása alatt kizárólag a mondat típusát értem, amelyet elsősorban az intonáció határoz meg. Modalitása szerint a mondat lehet kijelentő, kérdő, felszólító, felkiáltó vagy óhajtó. A hagyományos beszédfelismerésben a mondat típusának automatikus felismerése gyakorlatilag nem lehetséges. Ha a mondattípust mégis meg szeretnénk határozni, próbálkozhatunk a természetes nyelvfeldolgozásban használatos szintaktikai vagy szemantikai eszközökkel, elemzőkkel (pl. [16]). Ezek egyik nagy hátulütője, hogy a felismerő szövegkimenetén dolgoznak, így felmerül az esetleges felismerési hibák továbbterjedése a modalitást meghatározó modulba is. Emellett könnyen elképzelhető olyan eset is, hogy a prozódián kívül semmilyen más elem nem jelzi a modalitást [10]. Írásban a megfelelő írásjelből eldönthetjük, hogy a beszélő állításként vagy kérdésként, esetleg felkiáltásként fogalmaz-e meg egy-egy mondatot. A mondatok tagolásában a vesszők vannak segítségünkre, bár azok nem mindig esnek egybe a prozódiailag megnyilvánuló tagolással [15]. Tézis IV. A. [B3, C6] A fonológiai frázisok osztályozására magyar nyelvre kidolgozott folytonos HMM alapú algoritmus a megfelelő módosításokkal alkalmas a tagmondathatárok detektálására, és a mondat modalitásának meghatározására. A modalitás felismerése elsősorban szemantikai szintű feladat, és legalább egy, de gyakrabban több mondatból álló beszédszegmensre végezhető el. Mivel a modalitás mondat szinten értelmezett, ezért a modalitás felismerésének szintaktikai vonatkozásai is vannak, ez pedig a robusztus mondathatár-, sőt tagmondathatár-detekció. A tagmondatokat úgy értelmeztem, mint az írásban vesszővel jelölendő mondatbeli határokat, míg a mondatok az írásban mondatzáró írásjellel lezárandó nyelvi egységek. Mint említettem, a tagmondatok prozódiai szempontból nem feltétlenül esnek egybe az írásban vesszővel elválasztott tagmondatokkal (bár általában igen [15]). Megfelelően feldolgozott beszédadatbázis hiányában ezt a kérdést nem vizsgáltam. Előzetes feltevésem szerint a modalitásfelismeréshez a szupraszegmentális akusztikai előfeldolgozás során nagyobb időablakokkal szükséges átlagolunk, az optimális 14

ablakméreteket, teljesítményelemzéssel határoztam meg. A II.-III. téziscsoportokban bemutatott esethez képest a HMM alapú rendszer ezúttal a FF-osztályok helyett tagmondatokra készült, a mondatszintű intonációt leíró prozódiai-akusztikai modellek használatával. Fontos különbség FF-osztályozó és a modalitásfelismerő rendszer között, hogy előbbi esetben az illesztett FF-osztály gyakorlatilag közömbös volt, a lényeges információt csak az egyes osztályok határai adták a szóhatár-detektálásra használt alkalmazásban, míg most az illesztett tagmondatosztály adja meg a mondat modalitását (ha mondatzáró tagmondatról van szó), így ez is informatív, hiszen ennek alapján lesz lehetséges az írásjelek kitétele a felismert szövegben, ha a modalitásfelismerőt beszédfelismerőbe építjük be. A modalitásfelismerő betanításához a szupraszegmentális tartományban (alapfrekvencia és energia) feldolgozott beszédet tagmondat szinten szegmentáltam és címkéztem, hasonlóan a szóhatár-detektálásra bemutatott esethez. Az optimális osztályozáshoz szükséges osztályokra való felbontást iteratívan szűkítettem a végső összesen 7 osztályra (ebből 1 a szünet): Nem mondatzáró tagmondat (T) Kijelentő mondat záró tagmondata (S) Kiegészítendő kérdés (K) Eldöntendő kérdés (E) Felszólítás/felkiáltás (X) Óhajtó mondat (O) Szünet (U) Eltérő intonációs mintája miatt az eldöntendő (igen/nem válasz) és kiegészítendő (explicit válasz) kérdéseket a szakirodalmi nyelvészeti osztályozásnak megfelelően különválasztottam [13]. A felkiáltó és a felszólító mondatok intonációja közötti szerény különbség miatt ezeket egymástól nem különböztettem meg. Ez egyébként a megfelelő írásjel (felkiáltójel) kitételében nem okoz majd problémát. Az összeállított tagmondathatár-detektáló és modalitásfelismerő rendszer blokkvázlata a 7. ábrán látható. Az alapfrekvencia és az energia kinyerése a 4.3 szakaszban bemutatott eljárással egyezik. Az akusztikai előfeldolgozó nagyobb átfogású ablakokra átlagol. Tagmondat intonációs HMM-ek Beszédjel F0 & energia kinyerése Szupraszegmentális akusztikai előfeldolgozás Szupraszegmentális jellemzővektorok Tagmondat osztályok illesztése Tagmondat és mondathatárok, modalitás és írásjelek Tagmondatok kapcsolódási modelljei 7. ábra: Statisztikai alapú tagmondathatár-detektáló és modalitásfelismerő rendszer blokkvázlata 15

A tagmondatok kapcsolódási modelljeit megadó nyelvtan (G tm ) a beszédet opcionális szünet, opcionális nem mondatzáró tagmondatok, és kötelezően megjelenő záró tagmondatok sorozataként adja meg (jelölések magyarázatát lásd pl. a (4) nyelvtannál): G tm = [U] < [T] ( S E X K O ) [U] > [U] (9) Az osztályozási (modalitásfelismerési) teljesítményt ezúttal a beszédfelismerésben szokásos helyes felismerési aránnyal (10) mértem, miután az osztályozás maga sem közömbös. H Corr = 100%, (10) N ahol H a helyesen felismert, N az összes tagmondatok száma a teszthalmazban. A munkám során folyamatosan optimalizált mintegy 18 ezer tagmondattal betanított osztályozóra a helyesen felismert tagmondatok aránya az egyes tagmondattípusokra a 8. ábrán látható. 100 80 Corr [%] 60 40 20 0 S T K E X O U Tagmondat-osztály 8. ábra: A tagmondattípusokra lebontott felismerési ráta 11-es állapotszám és a 40 keretnyi átlagolási intervallum mellett, gyermek adatbázison Meglepő, ugyanakkor a modalitásfelismerésre is a 11 állapotú rejtett Markov tagmondatmodellek adtak optimális eredményt, az időátlagolás mértéke pedig 100-400 ms átfogású tartományban nem változtatta tendenciózusan az eredményeket. Míg a kötött hangsúlyra épülő szóhatár-detekció viszonylag nyelvspecifikus, hiszen csak kötött hangsúlyú nyelvekre alkalmazható a magyar nyelven kívül, addig a tagmondathatárdetekció és modalitásfelismerés a nyelvek jóval nagyobb körére általánosítható, mivel a prozódiai frázis végének emelkedő intonációval való jelzése, illetve a létező mondattípusok a hangsúlyozásnál univerzálisabb tulajdonságok. 16

Tézis IV. B. [C7] A magyar nyelvre kidolgozott HMM alapú tagmondatszintű szegmentáló és modalitásfelismerő eljárás más, a modalitást mondatintonációban kifejező nyelvekre közvetlenül alkalmazható. A tézist a magyar nyelvű tagmondatszintű szegmentáló és modalitásfelismerő német nyelvre történő adaptálásával igazoltam. Ennek során német nyelvű beszédadatbázisra elvégeztem ugyanazokat a beszédanyag-előkészítési, tagmondat szegmentálási, HMM-betanítási feladatokat, amelyeket a korábban a magyar nyelvű rendszerre. A betanításhoz használt szöveganyagot a Kiel Corpus-ból [9] vettem. Az összeállított német rendszer felépítése tehát mindenben megfelel a magyar nyelvűének, az alapfrekvencia- és energiamenet feldolgozása is azonosan történt. A német nyelvű adatbázis szűkösebb mérete miatt 5 tagmondatosztályt különítettem el: Nem mondatzáró tagmondat (T) Kijelentő mondat záró tagmondata (S) Kérdés (eldöntendő és kiegészítendő) (K) Felszólítás/felkiáltás (X) Szünet (U) A kiegészítendő és eldöntendő kérdéseket tehát összevontam, közöttük ugyanis a Kiel Corpus elemzésekor nem találtam meggyőzőnek az intonációbeli különbséget, sőt, a két kérdéstípus meglepően hasonló intonációval realizálódott a legtöbb esetben. Az óhajtó tagmondat adat hiányában nem szerepel az osztályozásban. A német nyelvre a modalitásfelismeréshez használt nyelvtan (G GER ): G GER = [U] < [T] (S E FF ) [U] > [U] (11) Minden egyéb feltétel megegyezik a magyar nyelvű rendszerre bemutatottal. A (10) összefüggéssel definiált felismerési arány szerinti eredmények német nyelvre a 9. ábrán láthatók tagmondat, illetve mondattípus szerinti bontásban. Az egyes mondatvégi írásjeleknek megfelelő tagmondat-osztályok felismerése eléri (kérdő, illetve felkiáltó és felszólító mondatok), illetve meghaladja (kijelentő mondat) a 70%-ot. A nem mondatzáró tagmondatok alacsony felismerési aránya utalhat a vesszővel jelölt, és a prozódiailag ténylegesen realizálódó tagmondatok közötti különbségekre. Mivel a Kiel Corpus meseolvasás és információ-lekérdezés jellegű bemondásokat tartalmaz, így valószínűsítem, hogy a környezetükből kiragadott, a beszédadatbázis bemondóinak szemszögéből konkrét kommunikációs célhoz nehezen társítható, egymással lazán összefüggő mondatokból álló magyar anyaghoz képest lényegesen kisebb a vesszővel jelzett és a ténylegesen realizálódó prozódiai mondattagolás közötti átfedés. Az eredmények alapján a német nyelvű 17

modalitásfelismerő és tagmondathatár-detektáló rendszert mindenképpen a gyakorlatban is használhatónak tartom. Corr [%] 100 90 80 70 60 50 40 30 20 10 0 T E X S U Tagmondat-osztály 9. ábra: A tagmondattípusokra lebontott felismerési arány a 11-es állapotszám és a 40 keretnyi átlagolási intervallum mellett 5. Az eredmények alkalmazhatósága Az I. tézis elvi jelentősége mellett hangsúlydetekció alapú beszédfolyam-szegmentálást tesz lehetővé. A II. téziscsoporttal együtt a hangsúly-, a fonológiai frázis-, illetve a rá visszavezetett szóhatár-detektálás magasabb szintű, szintaktikai és szemantikai feldolgozásnak képezheti alapját, a beszédfelismerést valóban a beszédértés felé elmozdítva. Segítheti a szintaktikai tagolást és elemzést a természetesnyelv-feldolgozásban (pl. beszédalapú tartalmi kivonatolás a fontos, így hangsúlyozott információhordozó elemek kiemelésével; mondatelemzés gépi fordítórendszerekben, stb.). Igen fontos alkalmazás a közvetlenül a beszédfelismerésben való felhasználás, amelyet emiatt a III. tézisben külön vizsgáltam. A műszaki alkalmazásokon kívül az I.-II téziscsoportok eredményei felhasználhatók nyelvészeti kutatásokhoz is, különösen a spontán beszéd vizsgálatára. A III. tézis önmagában egy alkalmazás, nagyszótáras beszédfelismerés esetén azonban jelentős előrelépést hozhat a tézisben lefektetett módszerek alkalmazása a toldalékoló nyelvek esetében. A IV. téziscsoport eredményei a beszédfelismerés során előálló szöveges kimenet írásjelekkel való automatikus ellátását teszik lehetővé, egyben a II. tézishez hasonlóan a természetesnyelvfeldolgozásban a szintaktikai és szemantikai szinteken jelentős információt adhatnak a 18

feldolgozáshoz (pl. topik-komment osztályozás a mondattagolás szempontjából, mondatelemzés, fókuszdetektálás). Lehetővé teszik a beszédfolyam mondatokra tagolását, a prozódiai frázisok határait (levegővétel) igen pontosan detektálhatóvá teszik. A II. és IV. téziscsoport eredményei számítógépes beszédoktató alkalmazásokban a helyes hangsúlyozás és hanglejtés elsajátításához adnak kiindulási alapot. Ez az alkalmazás francia partnerrel már fejlesztés alatt áll. Felhasznált irodalom [1] Bechetti, C., Prina-Ricotti L.: Speech Reognition. Theory and C++ Implementation. Fondazione Ugo-Bordoni, Rome, Italy. 1999. [2] Cristophe, A., Peperkamp, S., Pallier, C., Block, E., Mehler, J.: Phonological Phrase Boundaries Constrain Lexical Access I. Adult Data. Journal of Memory and Language, Vol. 51, 2004. Elsevier. pp. 523 547. [3] Gallwitz, F., Niemann, H., Nöth, E., Warnke, W.: Integrated recognition of words and prosodic phrase boundaries. Speech Communication, 36(2002): 81-95. [4] Gósy Mária: Fonetika, a beszéd tudománya. Osiris, Budapest, 2004. pp.182-243. [5] Hirose, K.; Minematsu, N.; Hashimoto, Y.; Iwano, K.: Continuous Speech Recognition of Japanese Using Prosodic Word Boundaries Detected by Mora Transition Modeling of Fundamental Frequency Contours, Proceedings of ISCA Tutorial and Research Workshop on Prosody in Speech Recognition and Understanding, Red Bank, NJ, USA, pp.61-66. 2001. [6] Hunyadi, László: Hungarian Sentence Prosody and Universal Grammar. Peter Lang, 2002. [7] Jelinek, Frederick: Statistical Methods of Speech Recognition. MIT-Press, USA, 1998. [8] Kassai Ilona: Fonetika. Nemzeti Tankönyvkiadó, Budapest, 1998. [9] KIEL Corpus of read Speech, Volume I. Institut für Phonetik und digitale Sprachverarbeitung der Christian-Albrechts-Universitat zu Kiel, Dec. 1994. [10] Kompe, Ralf: Prosody in Speech Understanding Systems. LNAI 1307, Springer. 1997. [11] Kompe, R.; Kießling, A.; Niemann, H.; Nöth, E.; Schukat- Talamazzini, E.G.; Zottmann, A.; Batliner, A.: Prosodic scoring of word hypotheses graphs. In: Proc. European Conf. on Speech Communication and Technology (European Conf. on Speech Communication and Technology, Madrid, September 1995) Vol. 2, pp. 1333-36. 1995. [12] Mandal, S.; Gupta, B. Datta, K.: Word boundray Detection Based on Suprasegmental Feaures, a Case Study on Bangla Speech. International Journal of Speech Technology, Vol. 9. Num. 1-2 pp. 17-28. 2007. [13] Olaszy Gábor: A magyar kérdés dallamformáinak és intenzitásszerkezetének fonetikai vizsgálata. In: Beszédkutatás'2002 Szerk.: Gósy Mária, MTA Nyelvtudományi Intézet, Budapest, 2002. pp. 83-99. 19

[14] Olaszy Gábor: Az alapfrekvencia és a hangsúlyozás kapcsolata a magyarban. In: Kísérleti fonetika - Laboratóriumi fonológia 2002. (szerk.: Hunyadi László) Kossuth Egyetemi Kiadó, Debrecen, 2002. [15] Olaszy Gábor: Prozódiai szerkezetek jellemzése a hírfelolvasásban, a mesemondásban, a novellaés a reklámok felolvasásában. In: Gósy Mária (szerk.): Beszédkutatás 2005. MTA Nyelvtudományi Intézet, Budapest 2005. [16] Shriberg, E., Stolcke, A., Hakkani-Tür, D. and Tür, G.: Prosody-based automatic segmentation of speech into sentences and topics. Speech Communication, vol. 32, no. 1-2, pp. 127-154, 2000. [17] Vainio, M., Altosaar, T., Karjalainen, M., Aulanko, R., Werner, S.: Neural network models for Finnish prosody. Proceedings of ICPhS 1999, San Francisco (1999) 2347-2350. [18] Varga László: A magyar mellékhangsúly fonológiai státusáról. In: Magyar Nyelvőr, 124. évfolyam 1. szám. 2000. pp. 91-108. [19] Veilleux, N. M., Ostendorf, M.: Prosody/parse scoring and its application in ATIS. Proc. ARPA Human Language Technology Workshop '93. pp 335-40. 1993. [20] Vicsi K., Vig, A.: Az első magyar nyelvű beszédadatbázis, Beszédkutatás 98, MTA Nyelvtudományi Intézete, Budapest, pp. 163-177. 1998. [21] Waibel, Alex: Prosody and Speech Recognition. Pitman, London, UK. 1988. [22] Young, S. et al.: The HTK Book (for version 3.3). Cambridge University. 2005. Publikációim [J] Folyóiratok (Journals) [J1] Vicsi, K., Szaszák, Gy.: Automatic Segmentation of Continuous Speech on Word Level Based on Supra-segmental Features. International Journal of Speech Technology, Vol. 8, Num. 4, pp. 363-70. (2005) [J2] Szaszák, Gy., Vicsi, K.: Using prosody for the improvement of automatic speech recognition. Infocommunications Journal (English issue of Híradástechnika). Vol. LXIII. Num 7. pp. 35-40. (2008) [J3] Szaszák György: Ejtésvariáció modellezés a beszédfelismerésben. Akusztikai szemle VI:(1) pp. 3-12. (2005) [J4] Vicsi K., Velkei Sz., Szaszák Gy., Borostyán G., Gordos G.: Development experiences of a Hungarian speaker independent continuous speech recognizer. Híradástechnika Info- Communications Technology LXI:(7) pp. 22-27. (2006) 20

[B] Publikációk szerkesztett könyvben (Publications in Edited Books) [B1] Vicsi K., Szaszák Gy.: Prosodic Cues for Automatic Word Boundary Detection in ASR. In: A. Esposito, M. Bratanic, E. Keller, M. Marinaro (eds.): Fundamentals of Verbal and Nonverbal Communication and the Biometric Issue. (NATO Security through Science Series; Vol. 18. IOS Press, Amsterdam pp. 161-170. (2007) [B2] Szaszák, Gy; Vicsi, K: Using Prosody in Fixed Stress Languages for Improvement of Speech Recognition. In: A. Esposito et al. (eds): Verbal and Nonverbal Communication Behaviours, Springer, pp. 138-150. (2007) [B3] Vicsi K., Szaszák Gy., Németh Zs: Folyamatos magyar beszéd mondatfajtáinak automatikus felismerése. In: Gósy Mária (szerk): Beszédkutatás 2007. pp. 162-172. (2007) [B4] Vicsi K., Szaszák Gy.: A magyar nyelv kiejtésvariációi és felhasználásuk a beszédfelismerésben I. In: Gósy Mária (szerk): Beszédkutatás 2002. szám: pp. 216-234. (2002) [B5] Vicsi K., Szaszák Gy.: A magyar nyelv kiejtésvariációi és felhasználásuk a beszédfelismerésben II. In: Gósy Mária (szerk): Beszédkutatás 2003. pp. 163-176. (2003) [C] Konferenciacikkek (Conference Papers) [C1] Szaszák Gy., Vicsi K., Borostyán G.: Folyamatos beszéd szó- és frázisszintű automatikus szegmentálása szupraszegmentális jegyek alapján. II. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY-2004). Szeged, Magyarország, 2004. december. pp. 319-325. [C2] Vicsi K., Szaszák Gy.: Automatic Segmentation of continuous speech on word and phrase level based on supra-segmental features. Forum Acusticum. Budapest, Magyarország, 2005. május, pp. 2669-73. [C3] Szaszák Gy., Vicsi K.: Folyamatos beszéd szó- és frázisszintű automatikus szegmentálása szupraszegmentális jegyek alapján: II. rész: Statisztikai eljárás, finn-magyar nyelvű összehasonlító vizsgálat. III. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, Magyarország 2005. december. pp. 360-370. [C4] Vicsi K., Szaszák Gy.: Prosodic Cues for Automatic Phrase Boudary Detection in ASR. Text, Speech and Dialogue: 9th International Conference on Text, Speech and Dialogue TSD 2006. Brno, Csehország 2006. szeptember. pp. 547-554. [C5] Szaszák Gy., Vicsi K.: Speech recognition supported by prosodic information for fixed stress languages. Text, Speech and Dialogue: 10th International Conference on Text, Speech and Dialogue TSD 2007. Plzen, Csehország 2007. szeptember. Springer, 2007. pp. 262-269. 21

[C6] Vicsi, K.; Szaszák Gy.; Németh Zs.: Prozódiai információ használata az automatikus beszédfelismerésben; mondat modalitás felismerése, V. Magyar Számítógépes Nyelvészeti Konferencia, Szeged, 2007. december. pp. 69-80. [C7] Vicsi, K.; Szaszák, Gy.: Using Prosody for the Imporvement of ASR - Sentence Modality Recognition, Interspeech 2008, Brisbane, Australia, 2008. szeptember. [C8] Szaszák Gy., Vicsi K.: Examination of Pronunciation Variation from Hand-Labelled Corpora. Text, Speech and Dialogue: 7th International Conference Proceedings, TSD 2004. Brno, Csehország 2004. szeptember. Springer, 2004. pp. 473-480. [C9] Vicsi K., Kocsor A., Tóth Sz. L., Szaszák Gy., Teleki Cs., Bánhalmi A., Paczolay D.: A magyar referencia adatbázis és alkalmazása orvosi diktáló rendszerek kifejlesztéséhez. III. Számítógépes Nyelvészeti Konferencia. Szeged, Magyarország 2005. december. pp. 435-438. [C10] Vicsi K., Velkei Sz., Szaszák Gy., Borostyán G., Teleki Cs., Tóth Sz. L.: Középszótáras, folyamatos beszédfelismerő rendszer fejlesztési tapasztalatai: III. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, Magyarország 2005. december. pp. 348-359. 22