BESZÉDKORPUSZ TERVEZÉSE MAGYAR NYELV, REJTETT MARKOV-MODELL ALAPÚ SZÖVEGFELOLVASÓHOZ. Tóth Bálint Németh Géza Olaszy Gábor

Átírás

1 278 BESZÉDKORPUSZ TERVEZÉSE MAGYAR NYELV, REJTETT MARKOV-MODELL ALAPÚ SZÖVEGFELOLVASÓHOZ Tóth Bálint Németh Géza Olaszy Gábor Bevezetés A gépi beszéd-el állítás lehet ségét el ször Kempelen Farkas alkotta meg 1791-ben (Nikléczy Olaszy 2004), de a számítógépes szöveg-beszéd átalakítók fejl dése is több évtizedes múltra tekint vissza mind nemzetközi (Moulines Charpentier 1990; Hunt Black 1996; Black Lenzo 2000; Möbius 2000), mind pedig hazai viszonylatban (Kiss Olaszy 1982). A gépi szöveg-beszéd átalakítás általánosságban két f lépésb l áll: a szövegfeldolgozó és a beszéd-el állító részekb l (1. ábra). 1. ábra A gépi szöveg-beszéd átalakítás általános struktúrája A szövegfeldolgozó modul a bemeneti szövegen végez különböz átalakításokat, majd az eredmény alapján egy leíró adatmátrixot hoz létre, melyben szerepelnek a bemeneti szöveget reprezentáló beszédhangok és a bemeneti szövegre jellemz szegmentális és szupraszegmentális információk. Ezt a leíró mátrixot kapja meg a beszéd-el állító modul, amelyb l el állítja a gépi beszéd hullámformáját. Az elmúlt évtizedekben különböz megközelítésekkel modellezték az emberi beszéd-el állítás mechanizmusát. A gépi beszéd-el állító modul két nagy csoportját különböztetjük meg: a szabály- és az adatvezérelt beszédhang-el állítást. Szabályvezérelt beszédhang-el állítás esetén mérésekb l és tapasztalati úton szerzett információk alapján felállított szabályok szerint állítjuk el a gépi beszédhangot. Ilyen megoldás például az artikulációs (Mermelstein 1973), illetve a formánsszintézis (Kiss Olaszy 1982; Klatt Klatt 1990) és a hullámforma-összef zésen alapuló diád- és triádalapú rendszerek (Moulines- Charpentier 1990; Olaszy et al. 2000).

2 Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell 279 Adatvezérelt beszédhang-el állítás esetén úgynevezett beszédkorpuszokból kinyert információk alapján állítjuk el a gépi beszédhangot. A beszédkorpusz tartalma és felépítése alapvet en meghatározza az eredményt. Általában több órányi emberi beszédet használnak, továbbá annak fonemikus átiratát, a hanghatárokat és még további lehetséges információkat (pl. hangsúlyok). Adatvezérelt megoldás például a korpuszalapú elemkiválasztásos beszédszintézis (Möbius 2000; Németh et al. 2006) és a rejtett Markovmodell (Hidden Markov Model, HMM) alapú beszédszintézis (Yoshimura et al. 1999; Black et al. 2007). Az els, magyar nyelvre készített rejtett Markovmodell alapú szövegfelolvasó fejlesztésének részleteit Tóth és Németh (2010) tanulmánya tartalmazza. Napjainkban a rejtett Markov-modell alapú szövegfelolvasó rendszerek a leginkább elterjedtek számos el nyös tulajdonságuk miatt. Kisméret (1,5-2 Mbyte) beszédadatbázisból képesek jó, közel állandó min ség, érthet beszédet el állítani, amely hordozza a beszél hangszínezeti tulajdonságait is (Yoshimura et al. 1999). Ezen túl jelent s el ny más megoldásokkal szemben, hogy lehet ség van viszonylag kicsi (5-10 percnyi) beszédkorpusz segítségével a jellemz paraméterfolyamok, és így a gépi beszédhang karakterisztikájának adott célbeszél höz való adaptációjára (Tamura et al. 1998; Ogata et al. 2006; Yamagishi Kobayashi 2007). Hátránya is van az eljárásnak, nehéz a teljes prozódiai rendszert megvalósítani (kérdés, óhajtás stb.), az el állított beszéd hangkimeneti korrektsége nem hibamentes (rossz hangid tartamok, hangkimaradások el fordulhatnak). További hátrány, hogy a felmerül hangzási hibák korrigálása nehéz, hiszen nem látunk bele a tanulási és szintetizálási folyamat részleteibe. Célkit zés Célunk az volt, hogy megállapítsuk, hogy a rejtett Markov-modell alapú szövegfelolvasás esetén javul-e a hangmin ség, ha a beszédkorpusz automatikusan végzett címkézését utólagosan kézi ellen rzésnek vetjük alá, és az esetleges címkehibák számát így gyakorlatilag nullára csökkentjük. Rejtett Markov-modell alapú szövegfelolvasás A 2. ábra egy általános HMM-alapú szöveg-beszéd átalakító blokkdiagramját mutatja be. Az eljárás két f részb l áll: tanítási és szintézis szakaszból. A tanítási szakaszban a tanító beszédkorpusz hullámformáiból kinyerjük a gerjesztési és spektrális paramétereket, majd ezen paramétereket és a beszédkorpuszhoz tartozó további információkat (pl. fonemikus átirat, hanghatárok, szegmentális és szupraszegmentális információk) adjuk át a HMM tanítási szakasznak. A tanító beszédkorpusz néhány órányi, lehet leg stúdiómin ség felvételt tartalmaz egy beszél t l, illetve a hanganyag fonemikus átiratát és minél pontosabb hanghatárjelöléseket. Tehát el ször a jellemz gerjesztési és spektrális paramétereket kinyerjük a beszédkorpuszból, majd ezen paraméterek sokaságát generatív modellekkel helyettesítjük. A modell paramétereinek becslésére a következ képlet

3 280 Tóth Bálint Németh Géza Olaszy Gábor szerint általában a maximum likelihood (ML) vagy ahhoz hasonló becslést alkalmaznak: ˆ = arg max{ p( O W, )} (1) ahol a modell paramétereit, O a beszédkorpuszból származó jellemz paramétereket (tanítóadatok) és W az O-hoz tartozó szósorozatot jelöli. A címkék a hullámforma szövegének fonemikus átiratán és az id zítéseken túl számos szegmentális és szupraszegmentális információt tartalmaznak hang-, szótagmag-, szó-, mondatrész- és mondatszinten (Zen et al. 2007). Ezeket a címkéket környezetfügg címkéknek is nevezzük. A környezetfügg címkék lehetséges kombinációja túl nagy (> ) ahhoz, hogy megfelel en reprezentatív beszédkorpuszt tudjunk hozzá készíteni, ezért a paraméterfolyamokat döntési fák segítségével csoportokba soroljuk (Yoshimura et al. 1999). Külön-külön döntési fa tartozik az egyes paraméterfolyamokhoz. Például 40 beszédhanggal számolva a kvinfón (a vizsgált hang és az el tte, ill. utána következ 2-2 hang) lehetséges változatainak száma 40 5 = , melyhez hozzávéve a további környezetfügg címkéket óriásira növeljük az állapotteret. A HMM tanítási szakaszában a gerjesztési, a spektrális és az id zítési paraméterekhez készítünk generatív modelleket. A folytonos paraméterfolyamokat (pl. spektrális paraméterek) Gauss-eloszlásokkal közelítjük (Yoshimura et al. 1999), míg a diszkrét/folytonos paraméterfolyamokat (pl. gerjesztési paraméterek esetén diszkrét módon jelezzük a zöngétlen hangot, zöngés esetben pedig folytonos módon az alapfrekvenciát) többter valószín ségi eloszlású HMMekkel (Multi-Space Probability Distribution HMM, MSD-HMM) modellezzük (Tokuda et al. 1999). Annak érdekében, hogy a hangok és a mondat ritmikáját megfelel en modellezni tudjuk, a HMM-állapotok közötti átmeneti valószín ségeket nem egy értékkel, hanem Gauss-eloszlásokkal írjuk le. A tanítási folyamat végére el áll az úgynevezett HMM adatbázis, mely a beszédkorpusz jellemz paraméterfolyamainak generatív modelljeit tartalmazza. A szintézis során ezen modellek segítségével fogunk gépi beszédhangot el állítani a következ módon. A w szósorozathoz és becsült modell paraméterekhez tartozó o paraméterek kimeneti valószín ségét maximalizáljuk az alábbiak szerint: ô = arg max{p(o w, ˆ )} (2) o Tehát a (2)-es egyenlet maximalizálását hajtjuk végre: a HMM generatív modellekb l a bemeneti szöveg alapján el állított környezetfügg címkehalmazra legjellemz bb paraméterfolyamokat generáljuk. Ebb l a paraméterfolyamból állítjuk el a gépi beszédhangot olyan beszédkódoló eljárással, mint például az impulzus-zaj gerjesztésen alapuló LPC beszédkódoló.

4 Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell ábra HMM-alapú szövegfelolvasó tanítási és szintézis fázisának blokkdiagramja Rejtett Markov-modell alapú beszél adaptáció Az el z részben a beszél függ tanítást mutattuk be. A HMM-alapú beszédszintézis egyik nagy el nye, hogy képes a beszél adaptációra. A beszél adaptáció annyit jelent, hogy a rendszer hangkarakterisztikáját képesek vagyunk egy adott célbeszél höz hasonlóra kialakítani. Más megoldásokkal szemben a rejtett Markov-modellek esetén el ny, hogy a beszél adaptációhoz viszonylag rövid, 5-10 perces beszédkorpusz elegend. A beszél adaptált tanítás folyamata hasonló a beszél függ esethez, azonban itt a tanítást két f részre oszthatjuk: el ször egy átlaghangot tanítunk, melyet utána a célbeszél hangkarakteréhez igazítunk (3. ábra). Ebben az esetben így áll el a szintézis alapját képez HMM-adatbázis. Ezután a beszédhang el állításának módszere megegyezik a beszél függ esetben használt módszerrel (2. ábra alsó része). Az átlaghang el állításához több beszél -

5 282 Tóth Bálint Németh Géza Olaszy Gábor t l (legalább 4-5), minél hosszabb (személyenként legalább 1-1,5 óra) hangfelvételre, annak fonemikus átiratára és pontos hanghatárjelöléseire van szükség. Ezután a HMM-eket az összes beszél adatbázisa alapján tanítjuk be az átlaghangra, melyben jelen vannak minden egyes beszél re az alapfrekvencia, hangid tartam és spektrális paraméterek. 3. ábra A beszél adaptált tanítás blokkdiagramja Az átlaghang tanításához használhatunk férfihangot, n it vagy mindkett t. A gyakorlatban a kevert nem átlaghang-el állítást célszer választanunk, majd ebb l adaptálni mind férfi, mind n i hangra. Meg lehet csinálni, hogy el-

6 Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell 283 lentétes nem átlaghangból adaptálunk n i/férfihangra, azonban Isogai és munkatársai (2005) kutatásában ez jelent s min ség- és természetességcsökkenést okozott a végs hangnál a nemenkénti átlaghanghoz képest. Yamagishi és munkatársai (2007) olyan eljárásról számolnak be, mely segítségével kevert nem átlaghangból a nemenkénti átlaghanghoz képest minimális min ség- és természetességromlás mellett lehet n i és férfi hangra adaptálni. Miután elkészültek az átlaghang HMM modelljei, a célbeszél t l származó hangfelvételekkel tudjuk a modellt az adott személy hangkarakteréhez és beszédstílusához igazítani, adaptálni. A beszél adaptációjára alapvet en kétfajta lehet ségünk van. Amennyiben kevés (5-10 perc) hanganyag áll rendelkezésre a célbeszél t l, akkor el nyös maximum likelihood linear regression (MLLR) alapú adaptációt választani (Ogata et al. 2006). Tamura és munkatársai (1998) kísérlete alapján akár már öt mondat is elegend lehet ahhoz, hogy a célszemély hangkarakterét és beszédstílusát visszaadja a gépi beszédhang. Amennyiben hosszabb (több mint 1 óra) adaptációs hanganyag is elérhet, akkor a maximum a posteriori (MAP) technikát érdemes használni (Yamagishi et al. 2007), mely az el z nél jobb min ség mesterségesen generált hangot eredményez. Ennek a technológiának az új változatai, mint például a CSMAPLR (constrained structural maximum a posteriori linear regression) közel azonos min séget és természetességet képviselnek, mint a beszél függ tanítás esetén el állított mesterséges beszéd (Yamagishi et al. 2009). A beszél adaptáció során MLLR eljárást használtunk. Az MLLR lineáris transzformációk segítségével az átlaghang HMM modell paramétereit a célhang irányába módosítja. Az állapotkimenetek ekkor a következ képp alakulnak: b o ) = N( o ; ˆ µ ; ˆ ) (3) j( t t j j ˆ µ = A µ + b (4) j r ( j) j r( j) ˆ = H H (5) j T r( j) j r( j) ahol µˆ j és ˆ j a j-edik állapotra jellemz kimeneti s r ségfüggvényhez tartozó várható értékvektor, ill. kovarianciamátrix a lineáris transzformáció után. A r( j), b r( j) és H r( j) a várható érték lineáris-transzformációs mátrixa, a hozzá tartozó eltolásvektor és a kovariancia lineáris-transzformációs mátrixa az r(j)-edik regressziós osztályban. Az adott állapotokra jellemz kimeneti s r ségfüggvényeket regressziós fa segítségével osztályokba soroljuk, egy adott osztályban azonos lineáris-

7 284 Tóth Bálint Németh Géza Olaszy Gábor transzformációs mátrixokat és eltolásvektort használunk. A regressziós fa méretének az adaptációs anyag mennyiségéhez való igazításával tudjuk szabályozni az adaptáció komplexitását és általánosítható képességét. Alapvet en az MLLR két fajtáját különböztetjük meg: azonos A és H lineáristranszformációs mátrixok esetén korlátozott MLLR-r l (constrained MLLR, CMMLR), egyébként pedig korlátozás mentes MLLR-r l (unconstrained MLLR) beszélünk. A jelen cikkben ismertetett rendszer esetén CMLLR-t használtunk. Anyag és módszer A kutatásaink során adott szövegkorpuszokból felolvasással beszédkorpuszokat készítettünk. Ezen beszédkorpuszokat címkékkel láttuk el (szegmentálás). Megvizsgáltuk a fonématévesztés hibaarányát (phone error rate, PER), valamint a címketévesztés hatását a hangmin ségre. Az eredmények szubjektív értékelése céljából meghallgatásos tesztet végeztünk. Beszédkorpuszok Beszédkorpuszon a következ t értjük: hanganyag, a felolvasott szöveg fonemikus átirata és szegmentálási címkék halmaza. A betanításhoz felhasznált beszédkorpuszok felolvasott beszédb l készültek. Minden bemondó egységesen ugyanazt a szöveget olvasta fel, amely fonetikailag kiegyensúlyozott mondatokat (Vicsi et al. 2004) tartalmazott (kb mondat). Öt beszédadatbázis készült, 4 férfi bemondó (életkoruk 60, 50, 30, 29 év) és egy n i (33 év) hangból. A beszédkorpusz digitalizálási adatai: 16 khz, 16 bit. Az öt beszédadatbázishoz (1. táblázat) az eredeti szövegkorpuszok automatikus módszerrel készített fonemikus átiratát használtuk, ugyanakkor az F1 és N1 beszédadatbázison kézileg is ellen riztük a fonemikus átirat és a szegmentálás pontosságát. A kés bbiekben ez utóbbi két változatot tekintjük referenciának. A beszél függ tanítás során egyszer az F1 és N1 adatbázis automatikus módszerekkel elkészült változatát, majd a kézi ellen rzésen is átesett változatait használtuk fel (összesen 4 darab). Beszél adaptált esetben az átlaghangot az automatikus módszerekkel elkészített öt beszédkorpusszal tanítottuk. Ezután a beszél adaptációt az F1 és N1 adatbázisok egy részhalmazával végeztük el (szintén a kézi és automatikus változatokkal, összesen itt is 4 darab). Az átlaghang tanítása során a szövegek fonemikus átírása kizárólag automatikus úton történt az eredeti szövegb l. Megjegyezzük, hogy az ideális eset az lenne, ha az átlaghang adatbázisai mind kézzel ellen rzöttek lennének. Kutatásunk jelenlegi szakaszában azonban még nem állt rendelkezésre az összes beszédkorpusz kézi átirata javított hanghatárokkal, ezért a konzekvens adatbázis-építés elvét alkalmaztuk, mindegyik beszédkorpuszból az automatikus átiratot használtuk.

8 Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell táblázat: A kutatás során használt beszédkorpuszok Beszél Mondatszám Id tartam Feldolgozás 1. férfi beszél (F1) perc automatikus és kézi ellen rzés 2. férfi beszél (F2) perc automatikus 3. férfi beszél (F3) perc automatikus 4. férfi beszél (F4) perc automatikus 1. n i beszél (N1) perc automatikus és kézi ellen rzés Fonématévesztési hibaarány Módszert dolgoztunk ki a fonématévesztések hibaarányának (PER) megállapítására. A következ hibafajtákat kezeltük: A bemondó mást olvas fel, mint ami a szövegben van. 1. példa: szöveg: és, fonetikai átirat: és, kimondva: s. 2. példa: szöveg: lehtetlen, átirat: lehtetlen, kimondva: lehetetlen. A fonetikai átíró mást jelöl, mint az elhangzott elem. Példa: szöveg: 900, fonetikai átirat: kilencszáz, kimondva: kilencáz. A javítás módszere: a gépileg felcímkézett adatállományokat kézi ellen rzésnek vetjük alá. Ennek során a fonemikus átiratot és az elhangzott hanganyagot egybevetjük, és a hibákat javítjuk a megfelel helyen. Minden esetben a kézzel javított fonemikus átiratot tekintjük referenciának. A kézzel javított átiratról feltételezzük, hogy hangról hangra azt tartalmazza, ami a beszédkorpusz hanganyagában szerepel. A fonématévesztések hibaarányának meghatározása során a referenciához képest vizsgáljuk az automatikusan készített fonemikus átiratot. A fonématévesztések hibaarányának számítása közben a fontos jellemz k: Fonémák száma: az összes fonéma száma a beszédkorpuszban. Helyes fonémák száma: a kézi átirathoz képest mennyi fonéma azonos. Törlések: az automatikus átiratban a kézi átirathoz képest kitöröltünk egy fonémát. Helyettesítés: az automatikus átiratban a kézi átirathoz képest helyettesítettünk egy fonémát. Beszúrás: az automatikus átiratban a kézi átirathoz képest beszúrtunk egy fonémát. A javítások száma a törlések, helyettesítések és beszúrások számának öszszege. A fonématévesztések hibaarányát a következ képp számoltuk (Young et al. 2006): HelyesFonémákSzáma PER = (6) FonémákSzáma

9 286 Tóth Bálint Németh Géza Olaszy Gábor Szegmentálás Szegmentáláson azt a folyamatot értjük, mely során a hangfelvételek hullámformáján címkével bejelöljük minden hang és szünet kezdetét (hanghatárok). Szegmentálási szempontból kétféle címkét különböztetünk meg, a hang elejét jelz jelölést és a szünetek elején elhelyezett címkét (hangsor belseji szünet és hangsor végi). Ezeket a hanghatárokat automatikus módszerrel, úgynevezett kényszerített felismeréssel (forced alignment) határoztuk meg, ami gépi beszédfelismerési módszeren alapul (Mihajlik et al. 2002). Ekkor a beszédfelismer a bemeneti szöveget elemezve jelöli ki a hanghullámban a hangokat és a hanghatárokat. Az eljárást azért hívják kényszerített felismerésnek, mert a szövegb l adódik, hogy milyen hangok követik egymást, továbbá hogy a hanghullámban csak annyi hangot jelölhet be az algoritmus, amennyi a szövegb l következik. Fontos figyelembe vennünk, hogy hibátlan fonemikus átirat esetén is lehetnek hibás hanghatárcímkék. Ezért a kényszerített felismerés szegmentálási eredményét kézi ellen rzéssel javítottuk (4. ábra). Mivel a kézi ellen rzés nagy emberi er forrást igényel, ezért ezt a használt beszédkorpuszoknak csak egy részében végeztük el (lásd 1. táblázat). 4. ábra A hanghatárok automatikus, gépi elhelyezése (fent) és a kézi javítás eredménye (lent) az Itt volt, de már elment. mondatban A hanghatárhibákat osztályokba soroltuk be attól függ en, hogy hány ms eltérés van a referencia és az automatikus hanghatár-meghatározás között a következ képp: 0,1 9 ms, ms, ms, ms, ms, ms, ms, ms, ms, 90 ms-nál több. A szegmentálás végeztével el áll(nak) a HMM-tanításhoz, illetve adaptációhoz szükséges beszédkorpusz(ok). Az automatikus és kézi ellen rzéssel történ beszédkorpuszok el állítási folyamatát az 5. ábra szemlélteti. Az ábrán szürke dobozokkal jelöltük a tanítás/adaptáció során felhasznált elemeket. A gépi beszéd el állítása A HMM-szintézishez a HTS 2.1-es rendszer módosított, magyar változatát használtuk kevert gerjesztéssel (Tóth Németh 2010). A lényegkiemeléshez

10 Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell ms-os Hanning-ablakot használtunk 5 ms eltolással. A jellemz paraméterfolyam 39 mel-kepsztrális együtthatót, a log{f 0 }-t, a zöngésségi arányt és az ezekhez tartozó delta és delta-delta együtthatókat tartalmazta. Kutatásunk során vizsgáltuk a beszél függ és beszél adaptált eseteket is. 5. ábra A beszédkorpuszok el állítási folyamata kézi ellen rzéssel (bal) és automatikusan (jobb) Meghallgatásos teszt Az eredmények kiértékelése céljából meghallgatásos tesztet állítottunk össze. A korábban ismertetett módon összesen 8 különböz gépi beszédel állító rendszert hoztunk létre a teszthez: BF-F1-kézi, BF-F1-automatikus, BF-N1-kézi, BF-N1-automatikus, BA-F1-kézi, BA-F1-automatikus, BA-N1- kézi, BA-N1-automatikus. A meghallgatásos teszt két részb l állt. Az els részben a tesztalanyok a hangminták hangzásának természetességét osztályozták a következ rendszerek esetén: BF-F1-kézi BF-F1-automatikus, BF-N1-kézi BF-N1-automatikus, BA-F1-kézi BA-F1-automatikus, BA-N1-kézi BA-N1-automatikus.

11 288 Tóth Bálint Németh Géza Olaszy Gábor A meghallgatásos teszt els részében minden rendszerb l 10 hangmintát (mondatot) használtunk fel, páronként a minták szövege azonos volt. Egy tesztel a 10 mintából 2 mintapárt hallgatott meg a beszél függ férfi és n i, illetve beszél adaptált férfi és n i HMM-rendszerek által generált hangminták közül. A tesztalanyok ötelem skálán osztályozhatták, hogy a mintapár mintái ugyanolyan természetesek-e, illetve hogy valamelyik mintát kicsit vagy sokkal természetesebbnek érzik-e a másik mintánál. A mintapárokat mindkét sorrendben lejátszottuk a tesztalanyoknak, hogy ellen rizzük az ítéletalkotás következetességét. Amennyiben jelent s eltérés volt az osztályozásban a különböz sorrendek esetén, akkor ezen méréseket nem vettük figyelembe a tesztek során. Ilyen jelleg eltérés csupán néhány esetben volt észlelhet, de nem volt jellemz sem a beszél re, sem a tesztalanyokra. A meghallgatásos teszt második felében az eredeti beszél természetes bemondásához hasonlították a tesztalanyok a gépi beszédet, hogy mennyire adja vissza annak hangzását. Ebben az esetben mind a nyolc rendszer részt vett a tesztben. A meghallgatásos teszt második felében is összesen 10 hangmintát használtunk fel, egy tesztalany egy rendszerb l egy hangmintát hallgatott meg, és 1-t l 5-ig kellett a mintákat osztályoznia. Az 1-es osztályzat itt azt jelentette, hogy egyáltalán nem adja vissza az eredeti beszél hangkarakterét, az 5-ös pedig, hogy a szintetizált hangminta összetéveszthet az eredeti beszél vel. A meghallgatásos teszt mindkét részében minden tesztalany esetén másmás sorrendben játszottuk le a hangmintákat, így zárva ki az esetleges memóriahatásokat (van Santen 1993). A tesztet összesen 29-en végezték el, 14 férfi és 15 n. Az átlagéletkor 31 év volt, a legfiatalabb tesztalany 20, a legid sebb 65 éves volt. 6 tesztalany beszédszakért volt. A teszt internetalapú volt, böngész b l lehetett kitölteni, a hangminták MP3 kódolással voltak tárolva 128 kbps, 16 bit min ségben. Eredmények A korábbiak alapján az eredmények ismertetését három részre bontjuk: megvizsgáljuk a fonématévesztések hibaarányát (PER) a beszédkorpuszokban, ismertetjük az automatikus és kézi szegmentálás különbségeit, illetve meghallgatásos tesztekkel vizsgáljuk a pontos címkézés hatását a gépi beszéd min ségére. Fonéma tévesztések hibaarányának vizsgálata A kísérleteink során összesen 8-féle beszédkorpuszt vizsgáltunk: 4 korpuszt a beszél függ tanításhoz és 4 korpuszt a beszél adaptált változathoz (ezek a korábbi korpuszokat, illetve azoknak részhalmazait tartalmazták). Az adaptációs kis beszédkorpuszt az F1 és N1 korpuszból származtattuk, és elemeit úgy választottuk ki, hogy az adott F1 és N1-b l az összes törlés, helyettesítés és beszúrás szerepeljen benne. Ezáltal az automatikus fonemikus átiratból a legtöbb hibát tartalmazó részeket tartottuk meg, továbbá véletlen

12 Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell 289 módon kiválasztottunk hozzá annyi hanganyagot, hogy 10 perc körüli id tartam álljon rendelkezésünkre. Az eredményeket a 2. és a 3. táblázat mutatja. BF-fel jelöljük a beszél függ, BA-val a beszél adaptált eljárásokhoz tartozó korpuszokat. A 2. táblázat alapján megállapíthatjuk, hogy a beszél függ esetekben a hibák száma elenyész a teljes korpusz nagyságához képest. A 3. táblázat pedig megmutatja, hogy az adaptációs beszédkorpusz esetén már nagyobb mérték hibaaránnyal kell számolnunk. 2. táblázat: A beszél függ tanításhoz felhasznált beszédkorpuszok BF-F1- kézi BF-F1- automatikus BF-N1- kézi BF-N1- automatikus Mondatszám Id tartam 190 perc 190 perc 128 perc 128 perc Fonémaszám A helyes fonémák száma Törlések Helyettesítések Beszúrások A javítások száma PER 0% 0,83% 0% 0,52% 3. táblázat: A beszél adaptációhoz felhasznált beszédkorpuszok BA-F1- kézi BA-F1- automatikus BA-N1- kézi BA-N1- automatikus Mondatszám Id tartam 10 perc 10 perc 11 perc 11 perc Fonémaszám A helyes fonémák száma Törlések Helyettesítések Beszúrások A javítások száma PER 0% 15,5% 0% 6% A szegmentálás vizsgálata A hanghatárhibák összehasonlításából származó eredményeket beszél függ tanítás során felhasznált beszédkorpusz esetén a 6., 7., beszél adaptált esetben pedig a 8. és 9. ábrák mutatják be.

13 290 Tóth Bálint Németh Géza Olaszy Gábor A hangok száma (db) Hanghatárhiba (ms) 6. ábra Az automatikus hanghatár-meghatározás pontossága BF-F1 esetben A hangok száma (db) Hanghatárhiba (ms) 7. ábra Az automatikus hanghatár-meghatározás pontossága BF-N1 esetben A hangok száma (db) Hanghatárhiba (ms) 8. ábra Az automatikus hanghatár-meghatározás pontossága BA-F1 esetben

14 Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell 291 A hangok száma (db) Hanghatárhiba (ms) 9. ábra Az automatikus hanghatár-meghatározás pontossága BA-N1 esetben Az adaptációs beszédkorpusz esetén is megvizsgáltuk a hanghatárokat, hogy az automatikus módszer mennyire tér el a kézi javítástól. Az arányok hasonlóak voltak, mint a beszél függ esetben, a hanganyag hossza miatt azonban a hibák száma jóval alacsonyabb. Az eredményeket a 7. és 8. ábra mutatja. A 2. táblázatban szerepl fonémák számát a 8. és 9. ábrákkal, illetve a 3. táblázatban feltüntetett fonémák számát a 10. és 11. ábrákkal összevetve megállapítható, hogy a beszédkorpuszban szinte az összes hanghatár módosítva lett kisebb (0,1 9 ms) és kicsit nagyobb (10 19 ms, ms, ms, ms) mértékben. A meghallgatásos teszt eredményei Kutatásunk célja a kialakult szövegfelolvasó rendszerek hangjának összehasonlítása volt annak a céljából, hogy megállapítsuk, hogy a kézi címkézés okoz-e min ségbeli javulást beszél függ és beszél adaptált esetekben. A meghallgatásos teszt eredményeit a 10. (els teszt) és a 11. ábra (második) mutatja. A 10. ábra bal oldalán jelöljük, hogy melyik rendszereket hasonlítjuk össze, a jobb oldalán pedig rendre ábrázoljuk a rendszerek összehasonlításának eredményeit (balról jobbra: az els sokkal jobb, mint a második; az els jobb, mint a második; ugyanolyan mindkét rendszer; a második jobb, mint az els ; a második sokkal jobb, mint az els ). Az eredmények alapján nem volt szignifikáns különbség egyik esetben sem a kézi és az automatikus címkézés között. A szignifikanciát egymintás t-próbával ellen riztük. Egyedül a férfi beszél vel tanított beszél függ rendszer esetén volt tapasztalható szignifikáns eltérés a kézi ellen rzés javára (legalsó sor). A meghallgatásos teszt második részében az eredeti beszél természetes bemondásaihoz kellett a tesztalanyoknak a mintákat hasonlítaniuk. Megfigyelhet, hogy a min ség mindegyik rendszer esetén hasonló volt. Az eredményeket páronként megfigyelve (els -második, harmadik-negyedik, ötödikhatodik, hetedik-nyolcadik oszlop) láthatjuk, hogy a természetes bemondás-

15 292 Tóth Bálint Németh Géza Olaszy Gábor hoz képest sem volt szignifikáns eltérés a kézi és automatikus módszerek között. A szignifikanciát a várható értékre vonatkozó kétmintás párosított t- próbával ellen riztük. A beszél adaptált n i hang esetén a kézi ellen rzés minimálisan rosszabb pontokat kapott, mint az automatikus módszer. Ez a nem várt eredmény a mérést terhel zajból származhat, nagyobb számú tesztalany esetén ez a különbség vélhet leg megsz nne. 0% 20% 40% 60% 80% 100% BF-F1-kézi és BF-F1-auto BF-N1-kézi és BF-N1-auto BA-F1-kézi és BA-F1-auto BA-N1-kézi és BA-N1-auto Kézi sokkal jobb Kézi jobb Ugyanolyan Auto jobb Auto sokkal jobb 10. ábra A meghallgatásos teszt els részének eredményei: páros összehasonlítás a különböz gépi rendszerek között Pontszám 5,00 4,00 3,00 2,00 1,00 BF-F1- kézi BF-F1- auto BF-N1- kézi BF-N1- auto BA-F1- kézi BA-F1- auto BA-N1- kézi BA-N1- auto 11. ábra A meghallgatásos teszt második részének eredményei: páros összehasonlítás a gépi rendszerek és az eredeti beszél között Következtetések Az eredmények alapján egyedül egy esetben okozott szignifikáns min ségjavulást a kézi ellen rzés az automatikussal szemben (BF-F1), azonban a meghallgatásos teszt második része során ugyanebben az esetben már nem volt észlelhet szignifikáns min ségbeli különbség. Ez azzal magyarázható,

16 Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell 293 hogy a teszt els részében összehasonlítást végeztünk két rendszer között (relatív min sítés), ami a kis eltéréseket is jelent sen fel tudja nagyítani. A teszt második felében a rendszereket külön-külön vizsgáltuk meg (abszolút min sítés), és az így kapott eredményeket hasonlítottuk össze, és ekkor már nem mutatkozott BF-F1 esetén sem szignifikáns különbség. Az összes többi esetben (BA-F1, BF-N1, BA-N1) a kézi hanghatárjelölés és kézi fonemikus átirat nem okozott szignifikáns javulást a jelenlegi magyar nyelven m köd rejtett Markov-modell alapú szövegfelolvasó rendszerben. Ezt azzal lehet magyarázni, hogy a rejtett Markov-modell alapú szövegfelolvasó generatív modelleket épít a tanító beszédkorpuszból. A beszédkorpuszban szerepl fonémák nagyszámú el fordulásának köszönhet en az automatikus eljárások által a rendszerben jelenlév hibák a statisztikai módszerek hatására kiátlagolódnak, és így nem okoznak észlelhet min ségromlást a végs rendszerekben. A cikkben bemutatott eredmények alapján kiderül, hogy jelenleg nem feltétlen a címkézés és a fonemikus átirat pontossága határozza meg a jó hangmin séget HMM-alapú gépi beszédkeltés esetén. Elképzelhet, hogy más, min séget befolyásoló tényez k (pl. hangsúlyok pontos meghatározása) javítása után a fonemikus átirat és hanghatárcímkék pontossága is már szignifikáns mértékben fogja befolyásolni a gépi beszéd min ségét. Az eredmények alapján fontos vizsgálni, hogy mi az a hibahatár, ami már jelent s min ségromlást okoz beszél függ és beszél adaptált esetben. Amennyiben a generatív modellek nagyobb hibák esetén is még megfelel min séget képesek produkálni, lehetséges lehet automatikus beszédfelismer és kényszerített felismerés alapján felügyelet nélküli tanítás és beszél adaptáció (Tóth Németh 2011). A HMM-alapú szövegfelolvasók min ségével a korpuszalapú elem-összef zéses rendszerek min sége összemérhet, ezért fontos az alkalmazott módszerek elvi lehet ségét mindkét eljárás esetén megvizsgálni. A korpuszalapú elem-összef zéses szövegfelolvasó rendszerek esetén fontos szerepet játszik a gépi beszéd min ségében a pontos fonemikus átirat és a pontos hanghatárjelölés. Az automatikus módszerekb l ered hibák az elemkiválasztás és -összef zés során hibákat visznek be a rendszerbe, és így elkerülhetetlen, hogy amennyiben a felolvasandó szöveg a hibásan megjelölt elemek közül választ, az rosszabb min ség gépi beszédet okoz. Összefoglalás Jelen cikkünkben bemutattuk a rejtett Markov-modell alapú felolvasás alapjait, és röviden ismertettük a beszél függ rendszer és a beszél adaptáció legfontosabb lépéseit. A kutatás keretein belül beszédkorpuszokat készítettünk a rejtett Markov-modell alapú szövegfelolvasó rendszerek tanításához. Elkészítettük a korpuszok automatikus címkézését, majd annak kézi ellen rzés alapú javítását a fonemikus átiratra és a hanghatárokra vonatkozóan. Statisztikát készítettünk az automatikus eljárásokat összevetve a kézi címkézés-

17 294 Tóth Bálint Németh Géza Olaszy Gábor sel, és nyolc különböz HMM-adatbázist hoztunk létre. Ezek alapján meghallgatásos tesztet terveztünk annak érdekében, hogy megállapítsuk, hogy okoz-e szignifikáns min ségjavulást a kézi fonemikus átirat és kézi hanghatárjelölés az automatikus módszerekkel szemben. Eredményeink megmutatták, hogy a magyar nyelv rejtett Markov-modell alapú szövegfelolvasó rendszerekben a kézi fonemikus átirat és hanghatárjelölés nem okoz szignifikáns min ségjavulást. Ezen eredményekre támaszkodva a jöv ben a nagy mennyiség kézi címkézés helyett használhatunk automatikus módszereket, illetve további kutatási célunk a beszédkorpusz pontossága és a HMM-alapú gépi beszéd min sége közötti összefüggések vizsgálata. Irodalom Black, Alan Lenzo, Kevin Limited domain synthesis. In: Proceedings of ICSLP Black, Alan Zen, Heiga Tokuda, Keiichi Statistical parametric speech synthesis. In: Proceedings of ICASSP Hunt, Andrew Black, Alan Unit selection in a concatenative speech synthesis system using a large speech database. In: Proceedings of ICASSP Isogai, Juri Yamagishi, Junichi Kobayashi, Takao Model adaptation and adaptive training using ESAT algorithm for HMM-based speech synthesis. In: Proceedings of EUROSPEECH Kiss Gábor Olaszy Gábor Interaktív beszédszintetizáló rendszer számítógéppel és OVE III beszédszintetizátorral. Magyar Fonetikai Füzetek Klatt, Dennis H. Klatt, Laura C Analysis, synthesis, and perception of voice quality variations among female and male talkers. Journal of the Acoustical Society of America 87/ Mermelstein, Paul Articulatory model for the study of speech production. Journal of the Acoustical Society of America Möbius, Bernd Corpus-based speech synthesis: Methods and challenges. Speech and Signals - Aspects of Speech Synthesis and Automatic Speech Recognition Moulines, Eric Charpentier, Francis Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones. Speech Communications Németh Géza Olaszy Gábor Fék Márk Új rendszer, korpusz alapú gépi szövegfelolvasó fejlesztése és kísérleti eredményei. Beszédkutatás Nikléczy, Péter Olaszy, Gábor Kempelen s speaking machine from 1791: Possibilities and limitations. (Recovering a 200 year-old technology.) Grazer linguistische Studien Ogata, Katsumi Tachibana, Makoto Yamagishi, Junichi Kobayashi, Takao Acoustic model training based on linear transformation and MAP modification for HSMM-based speech synthesis. In: Proceedings of ICSLP Olaszy, Gábor A phonetically based data and rule system for the real time textto-speech synthesis of Hungarian. In: Proceedings of the Xth International Congress of Phonetic Sciences. Volume

18 Beszédkorpusz tervezése magyar nyelv, rejtett Markov-modell 295 Olaszy, Gábor Németh, Géza Olaszi, Péter Kiss, Géza Zainkó, Csaba Gordos, Géza Profivox a Hungarian TTS System for telecommunications applications. International Journal of Speech Technology van Santen, Jan P. H Perceptual experiments for diagnostic testing of text-tospeech systems. Computer Speech and Language Tamura, Masatsune Masuko, Takashi Tokuda, Keiichi Kobayashi, Takao Speaker adaptation for HMM-based speech synthesis system using MLLR. In: Proceedings of ESCA/COCOSDA Workshop on Speech Synthesis Tokuda, Keiichi Masuko, Takashi Miyazaki, Noboru Kobayashi, Takao Hidden markov models based on multi-space probability distribution for pitch pattern modeling. In: Proceedings of ICASSP Tóth, Bálint Németh, Géza Improvements of Hungarian hidden Markov model-based Text-to-Speech synthesis. Acta Cybernetica 19/ Tóth, Bálint Németh, Géza The effects of phoneme errors in speaker adaptation for HMM speech synthesis. In: 12th Annual Conference of the International Speech Communication Association Vicsi Klára Kocsor András Teleki Csaba Tóth László Beszédadatbázis irodai számítógép-felhasználói környezetben. In: Second Conference on Hungarian Computational Linguistics (MSZNY 2004) Yamagishi, Junichi Kobayashi, Takao Nakano, Yuji Ogata, Katsumi Isogai, Juri Analysis of speaker adaptation algorithms for HMM-based speech synthesis and a constrained SMAPLR adaptation algorithm. IEEE Audio, Speech, & Language Processing 17/ Yamagishi, Junichi Kobayashi, Takao Renals, Steve King, Simon Zen, Heiga Toda, Tomoki Tokuda, Keiichi Improved average-voice-based speech synthesis using gender-mixed modeling and a parameter generation algorithm considering GV. In: Proceedings of ISCA SSW Yamagishi, Junichi Kobayashi, Takao Average-voice-based speech synthesis using HSMM-based speaker adaptation and adaptive training. In: IEICE Transactions on Inf. & Syst. E90-D/ Yoshimura, Takayoshi Tokuda, Keiichi Masuko, Takashi Kobayashi, Takao Kitamura, Tadashi Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis. In: Proceedings of Eurospeech Young, Steve Evermann, Gunnar Gales, Mark Hain, Thomas Kershaw, Dan Liu, Xunying Moore, Gareth Odell, Julian Ollason, Dave Povey, Dan Valtchev, Valtcho Woodland, Phil The HTK Book, Version Zen, Heiga Nose, Takashi Yamagishi, Junichi Sako, Shinji Masuko, Takashi Black, Alan Tokuda, Keiichi The HMM-based speech synthesis system version 2.0. In: Proceedings of ISCA SSW A kutatást a BelAmi: ALAP /2005, a TÁMOP /1/KMR , a TÁMOP-4.2.1/B-09/1/KMR és CESAR (No271022) projektek támogatták.