Magyar nyelvû, kötött témájú korpusz-alapú beszédszintézis és a kötetlenség felé vezetô út vizsgálata

Magyar nyelvû, kötött témájú korpusz-alapú beszédszintézis és a kötetlenség felé vezetô út vizsgálata ZAINKÓ CSABA BME Távközlési és Médiainformatikai Tanszék zainko@tmit.bme.hu Lektorált Kulcsszavak: korpusz-alapú beszédszintézis, beszédadatbázisok, prozódiai modul A beszédszintetizátorok között a korpusz-alapú szintetizátorral lehet jelenleg a legjobb minôségû beszédet elôállítani. Ennek ára, hogy csak adott témájú szövegek szintetizálását tudja ilyen minôségben garantálni. A cikk azt tárgyalja, hogy ha egy ilyen kötött témájú korpuszos szintetizátort kívánunk kötetlen szövegekre kibôvíteni, akkor annak milyen lehetôségei és korlátai vannak. A vizsgálat során a szintetizátor beszédadatbázisát elemeztük és megvizsgáltuk, hogy elegendôen változatos-e tetszôleges szöveghez, illetve megfelelô számú elemet tartalmaz-e a jó minôséghez. Végül a szintetizált mondatokat egy meghallgatásos teszt keretében értékeltettük tesztelôkkel. 1. Bevezetés A korpusz-szintetizátorokat általában meghatározott témájú szövegek szintetizálására fejlesztik (például idôjárásjelentés, menetrendi tájékoztató, árlista felolvasó) [1]. A szintetizátor egy válogató algoritmusból és a hozzá tartozó beszédadatbázisból áll. Egy új témakörre való fejlesztés során általában csak a beszédadatbázist kell elkészíteni, mivel a szintetizátor válogató algoritmusa már megfelelôen tesztelt, jól válogat. A munka nagy részét ebben az esetben az adatbázis elkészítése jelenti, azaz a megadott témájú szövegek felolvasása és elôkészítése a szintézishez (tisztítás, címkézés, zöngészöngétlen határok bejelölése stb.). Ezek után a szintetizátor az adott témában tetszôleges mondatokat képes beszéddé alakítani, amely a technológiából adódóan közel emberi minôségû. A kísérletben megvizsgáljuk, hogy a BME-TMIT-en készített, kötött tematikára készült beszédadatbázisok összeépítésével (egyazon bemondó hangjára) milyen minôségben lehet tetszôleges tartalmú mondatokat szintetizálni. A kutatás irányt ad arra is, hogy a korpuszos technológiánál milyen problémákkal kell számolni, ha kötetlen, általános beszédszintézist kívánunk megcélozni. Az elsô részben bemutatjuk a szintetizátor mûködését, majd a beszédadatbázist vizsgáljuk meg, hogy milyen a mennyiségi és a minôségi összetétele. Alapvetôen ez határozza meg, hogy milyen mondatok szintetizálására alkalmas a rendszer. A beszédadatbázis részletes elemzése után bemutatjuk, hogy milyen kísérleti mondatokat állítottunk elô és azokat a tesztelôk hogyan értékelték. Az utolsó részben végül megvizsgáljuk a hangminôség javításának lehetôségeit. 2. Kötött témakörre fejlesztett korpuszalapú beszédszintetizátor mûködése A korpusz-alapú, elemkiválasztásos szintetizátor továbbiakban korpuszos szintetizátor egy olyan beszédgenerátor, amely nagy mennyiségû elôre rögzített beszédbôl (beszédkorpuszból) válogatja ki a megfelelô elemeket és állítja elô ezek felhasználásával a szintetizált beszédet. A mûködés menetét az 1. ábrán látjuk. A példamondat a következô: Szép idô lesz. A szintetizátor a beszédkorpuszból válogat, meghatározza, hogy melyek azok a beszédrészletek (fôleg szavak), a- melyek felhasználhatók a mondat elôállításához. Ezeket az ábrán a szavak alatt található ellipszisek jelölik, 1. ábra Példa az elemek kiválasztására és költségeire 12 LXIII. ÉVFOLYAM 2008/5

Magyar nyelvû, kötött témájú korpusz-alapú beszédszintézis amelyek most szó-méretû elemek, de lehetnek kisebbek is. A talált jelölteket egy mérôszámmal (célegyezési target költséggel, az ábrán C txy ) látja el, amely meghatározza, hogy mennyire alkalmas az adott elem a keresett pozícióra. A költség egyfajta büntetés, minél nagyobb, annál kevésbé alkalmas az adott helyre. Az egymás melletti pozícióra kiválasztott jelöltek között is kiszámol egy költséget a rendszer (összefûzési concatenation költséget, az ábrán C cxyz ), amely megadja, hogy mennyire illeszkedik a két elem egymáshoz. Itt is annál nagyobb a költség, minél rosszabbul illeszkedik a két elem. A végsô elemsor kiválasztásához az összköltség minimalizásának segítségével jutunk el, amely a felhasznált elemek célegyezési és összefûzési költségeinek összegébôl áll. A mondat a legkisebb összköltségû elemsorból fog elôállni. Ezt a válogatást a Viterbi algoritmus határozza meg [2]. A számításhoz egy kezdô- és végelemet is felhasználunk, amely egy szünet- vagy csendjellegû elem, ezeket az ábrán C t01 és C t41 -el jelöltük. Az ábrán a példamondat elôállításához kiválasztott elemeket megvastagítva láthatjuk. Ennek az elemsornak a költsége: C t01 + C c013 + C t13 + C c131 + C t21 + C c212 + C t32 + C c321 + C t41. Abban az esetben ha nem található meg a keresett szó, akkor a szóhoz tartozó beszédhangokat keresi a rendszer. Ha a példában szereplô idô szó nem szerepelne az adatbázisban, akkor az i d ô hangokat keresi a rendszer a megfelelô környezetben és a szavakhoz hasonlóan számolja a cél- és az összefûzési költségeket. Mint korábban említettük, az elôállított beszéd minôsége nagy részben függ attól, hogy a szintetizálni kívánt mondat mennyire illeszkedik a beszédkorpusz témájához. Ha hasonló szavakból álló mondatot szeretnénk elôállítani, mint amilyenek a korpuszban szerepelnek, akkor hosszabb beszédelemekbôl (szavak, szófüzérek) tudja a szintetizátor elôállítani a mondatot, a jelöltek is többen lesznek egy-egy pozícióra, így nagyobb eséllyel tud jobban illeszkedôt találni. Az elemek összeillesztésének száma is kevesebb lesz, így az esetleges illesztetlenségi hibák is kisebb számban és mértékben jelennek meg az elôállított beszédben. Összefoglalva azt mondhatjuk, hogy ebben az esetben kevésbé sértjük meg azt a tételt, ami azt mondja, hogy az optimális beszédjel egyedi és egyszeri produktum. (Ezt például a dadogó megsérti, mivel szaggatottá teszi a jelet, ezért beszéde távol lesz a köznapi normától). A tétel vonatkoztatása az adatbázisra azt jelenti, hogy minél hosszabb beszédegységeket sikerül kiválasztani, annál optimálisabb lesz a hangzás. A legoptimálisabb az a helyzet, amikor a teljes keresett mondat benne van az adatbázisban. Ilyenkor az elôbbi tétel teljes mértékben teljesül [3]. Ha eltérô tematikájú mondatot szintetizálunk, akkor kisebb elemeket kell használni, azok az adatbázis különbözô helyeirôl származhatnak, az ottani elemeket egymástól eltérô idôpontokban ejtette a bemondó, tehát az elôbbi tétel sérül. Ennek eredménye a több illesztési pont szükségszerû megjelenése is, amely a percepció számára is jól hallható hangzásingadozást okozhat. A szintetizált beszéd elôállításakor a hangsorozat kialakítása mellett a prozódiát is meg kell valósítani. A prozódia alatt a hangsúlyok helyét, a dallammenetet, a szüneteket és a tempóváltást értjük, amely fizikailag az egyes hangok hangmagasságában, energiájában és idôtartamában jelenik meg. A korlátozott tematikára fejlesztett szintetizátor nem tartalmaz külön prozódia generáló és megvalósító egységet, hanem az az elemkiválasztó algoritmusba van beépítve [2]. Mivel az adatbázis elemei természetes emberi bemondásokból származnak, tartalmazzák annak a mondatnak a prozódiáját is, amelyben szerepelnek. A prozódiai információk figyelembevétele a célegyezési költéségben (C t ) történik. A költségben büntetve van, ha a mondat más részébôl venné az elemet a válogató algoritmus. A példamondatunkban szereplô lesz szó dallammenete csak akkor megfelelô, ha szintén a mondat végérôl származik. Ha mondat közepérôl vagy elejérôl származó lesz szót használna a szintetizátor ebben a pozícióban, akkor természetellenes hangzást kapnánk. 3. Mi kell egy általános korpusz-alapú szintetizátorhoz? Az általános tematikájú szintetizáláshoz két ponton kell vizsgálnunk a korpuszos, kötött témakörû szintetizátor adatbázisát. Az egyik az, hogy a szükséges hangsorépítô elemek rendelkezésre állnak-e a beszédadatbázisban a tetszôleges mondatok elôállításához. A második pedig az, hogy a korlátozott tematikájú szintetizátor algoritmusai mennyire alkalmasak arra, hogy tetszôleges mondatot állítsanak elô prozódiai szempontból. 3.1. Beszédadatbázis A vizsgálathoz három különbözô tematikájú, ugyanazon bemondótól rögzített beszédkorpuszt egyesítettünk. Az elsô rész idôjárásjelentés-típusú mondatokból 1. táblázat A vizsgálathoz felhasznált adatbázisok méretei LXIII. ÉVFOLYAM 2008/5 13

HÍRADÁSTECHNIKA állt, amely különbözô idôjárási internetes oldalak tartalma alapján készült. A második rész egy állomás menetrendi információit felolvasó rendszer adatbázisa, amely a járatok érkezésével és indulásával kapcsolatos bemondásokat tartalmazza. A harmadik rész egy olyan adatbázis, amely 1200 többjegyû szám felolvasását tartalmazza [4]. Az adatbázisok néhány jellemzô adatát az 1. táblázat mutatja. Mindhárom adatbázis felvételei azonos körülmények között, azonos stúdióban, azonos mikrofonnal készültek. Látható, hogy az elsô idôjárásos adatbázis a legnagyobb. Az adatbázisból a szintetizátor az aktuális prognózisokat olyan minôségben tudja felolvasni, hogy a hangzás minôsége az emberi bemondásokkal közel azonos [2]. Az adatbázis tematikája a napi prognózisoknál bôvebb, orvos- és közlekedésmeteorológiai témájú mondatokat is tartalmaz. A második adatbázis kisebb és a mondatok változatossága sem túl nagy, sok azonos szerkezetû és jellegû mondat is található benne. A harmadik adatbázis csak számokat tartalmaz, a három közül ez a legszûkebb tematikájú. Ez az adatbázis a többihez képest kis mérete ellenére alkalmas a számok 1 milliárdig történô emberi minôségû szintetizálására. Ez azért lehetséges, mert a felolvasott többjegyû számok a fonetikai kapcsolódások figyelembevételével, alapos tervezés után lettek meghatározva [4]. 3.1.1. Szó-méretû elemek A korpuszos szintetizátor általában akkor adja a legjobb hangminôséget, amikor a leghosszabb, egybefüggô beszédrészleteket tudja felhasználni az adatbázisból. Ebben a vizsgálatban a szó az alapelem, amelybôl az összesített adatbázis 112602 db-ot tartalmaz. A különbözô szóalakok száma 6281. A nyelvben elôforduló gyakoriságukat figyelembe véve meghatározhatjuk, hogy ezek a szavak a szintetizálandó mondatok szavainak hány százalékát teszik ki. A szavak statisztikai elemzéséhez egy saját gyûjtésû, korábbi szövegadatbázis adatait használtuk fel [5]: Digitális Irodalmi Akadémia, internetes újságok cikkei és a Magyar Nemzeti Szövegtár (1999), összesen 80 millió szó. A 2. ábrán látható, hogy a nyelv leggyakoribb szavai a teljes nyelv szavainak hány százalékát fedik le. Amennyiben tehát a leggyakoribb 6000 szó állna rendelkezésünkre, akkor csak a 67%-ot tudnánk lefedni (nyíllal jelezve az ábrán). Méréseink szerint a rendelkezésünkre álló nem a leggyakoribb 6281 szóval a mért szövegadatbázis 45%-a fedhetô le, ami a szintetizálás szempontjából azt jelenti, hogy hozzávetôlegesen minden második szó esetén tudunk szó-méretû elemet felhasználni, a közbensô szavakat kisebb egységekbôl kell elôállítani. Ez öszszehasonlítva a korlátozott tematikájú rendszerekkel, lényegesen rosszabb minôséget prognosztizál. A szûk tematika esetén átlagosan csak minden 15. szót állítunk elô kisebb elemekbôl, ami biztosítja a jó minôséget. 3.1.2. Szónál kisebb méretû elemek A 45%-os szófedési adatból következik, hogy a kisebb elemekre gyakran lenne szükség a szintézis során. A kisebb elemek közül az egyedi hangok, a hangkapcsolatok, és a hanghármasok elôfordulását vizsgáltuk meg. A magyar nyelvû szintézishez minimálisan 33 különbözô hang szükséges a szünetet mint a hang induló és befejezô szakaszát is beleértve. Vizsgálatainknál a dz, dzs hangokat ritka elôfordulásuk miatt, valamint a rövid-hosszú oppozíciót nem vettük figyelembe. Az így mért adatbázisban 534162 hang szerepel. Egyedi hangok összefûzésébôl azonban nem lehet jó minôségû beszédet elôállítani, figyelembe kell venni a hangkörnyezetet is. Az egymásra hatások miatt az adatbázis fonetikai gazdagságáról jobb képet ad, ha a hangkapcsolatokat vizsgáljuk meg. Ilyen hangkapcsolatoknak nevezzük a kettôs hangkapcsolatokat (diádok), amelyek más szintézistechnikákban rendszeresen használt elemek. Egy diád egy hangkapcsolatban szereplô két egymás melletti félhangból áll. Az összesített adatbázisban több, 2. ábra Leggyakoribb szavak fedése 14 LXIII. ÉVFOLYAM 2008/5

Magyar nyelvû, kötött témájú korpusz-alapú beszédszintézis mint félmillió diád szerepel. A matematikailag lehetséges 1089 (33*33) darab különbözô diádból csupán 855 dbot találtunk meg az összesített adatbázisban. Ha csak azokat az diádokat számoljuk, amelyek legalább 15-ször elôfordultak, akkor csak 703 különbözô diád áll a rendelkezésünkre. A nagyon ritkán elôforduló diádokkal az lehet a probléma a szintetizáláskor, hogy a kevés jelölt miatt, nagyon korlátozott azoknak az utaknak a száma, amelybôl a szintetizátor kiválaszthatja a legjobbat, így a minôség várhatólag rosszabb lesz. Az 1089 különbözô diád élô nyelvben nem létezik, mert a nyelvtani és fonológiai szabályok miatt bizonyos kapcsolatok nem valósulhatnak meg. Például kizárólag a mássalhangzókat vizsgálva, a gyakorlatban csak 423 ilyen kettôs kapcsolat van jelen a beszédben [6], amennyiben az abszolút hangsorkezdô-záró állapotot is ide számoljuk. Annak megállapítására, hogy melyek azok a diádok, amelyek tetszôleges szöveg szintetizálásakor szükségesek lehetnek, a szavaknál mutatott statisztikai módszerhez hasonlót használtunk. A szószablya [7,8] magyar webkorpusz (mint független adatbázis) mondatait a szintetizátor betû-hang átalakító rendszerével átírattuk fonetikus formába, majd elôállítottuk ezekbôl ugyanazokat az adatokat, amelyeket az összesített adatbázisból is. A szószablya korpusz adatai a 2. táblázatban láthatók. Egy mondat átlagosan 83 diádból épül fel. A különbözô diádok száma itt már nagyobb, mint az összesített adatbázisban. A gyakorisági adatok szerint azok a diádok amelyek a szószablya webkorpuszban szerepelnek, de az összesített adatbázisban nem, az összes diád 1%-át teszik ki, ami azt jelenti, hogy átlagosan minden századik felhasználandó diád hiányozni fog. Ha csak diádokból építenénk fel a mondatot, akkor átlagosan 1,2 mondatonként lenne hiányzó diádunk, ami ha csak ebbôl a szempontból vizsgáljuk jó minôséget eredményezhetne. A hanghármasok vizsgálatára azért van szükség, mert a korpuszos szintetizátor hang-alapú mûködése során akkor lehet a legjobb a kiválasztott hang minôsége, ha a szintetizálandó mondat minden hangját (a környezetével együtt) megtaláljuk a beszédadatbázisban is. Ezt úgy biztosíthatjuk a keresésnél, hogy egy hang bal és jobb oldali szomszédját is figyelembe vesszük a célegyezési költség számításakor. Akkor optimális a helyzet, ha a szomszédos hangok ugyanazok, mint a szintetizált mondatban. Az adatbázis vizsgálatakor tehát most azt nézzük, hogy az ott megtalálható hanghármasok mennyire fedik le a magyar nyelvben használtakat. Az összesített adatbázisban 8727 db különbözô hanghármas található, amibôl 5748 db fordult elô legalább ötször. A hanghármasok statisztikai vizsgálatához a diádoknál is használt szószablya webkorpuszt használtuk. Az elkészített fonetikus átiratban megvizsgáltuk, hogy milyen hanghármasok fordultak elô a webkorpuszban. Összesen 27982 különbözô hanghármast találtunk, melyek közül 16643 fordult elô gyakran (legalább ezerszer). Abban az esetben, ha az összesített adatbázisban elôforduló összes hanghármas fedését vizsgáljuk, akkor az ott találtak a webkorpusz 96%-át fedik le. Ha a 15 vagy többször elôforduló hanghármasokat vesszük csak figyelembe, akkor a fedés csak 82%-os. Ezt az adatot annak függvényében kell vizsgálni, hogy jó minôségû beszédet abban az esetben is elô lehet állítani, ha az adott hanghármas nincs meg pontosan, csak a hang artikulációs pozíciója egyezik. Az azonos képzési helyû mássalhangzók (consonant-c) hatása a hozzájuk kapcsolódó magánhangzókra (vowel-v) hasonló [9]. Tehát ha egy VCV kapcsolatban a C-re csak azonos képzési helyû C1 helyettesítôt találunk, akkor a C1-hez kapcsolódó magánhangzó ugyanolyan akusztikai szerkezettel fog rendelkezni, mint a VCV kapcsolatban, a helyettesítés tehát nem rontja az akusztikai eredményt. Az összesített adatbázisról általánosságban elmondhatjuk tehát, hogy hang-szinten alkalmas tetszôleges beszéd elôállítására, hosszabb elemek szintjén azonban túl hiányos. 3.2. Prozódia Az emberi minôséghez közelítô szintetizált beszéd elôállításához nem elég az, ha az adatbázisban megtalálhatók az elôállítandó hangsornak megfelelô hangsorépítô elemek, hanem szükség van arra is, hogy a szintetizált mondat megfelelô prozódiával is rendelkezzen. Ha a prozódia nem megfelelô, a hallgató nem fogadja el természetes hangzású beszédnek a mondatot. A prozódia helyes elôállítása legalább olyan nehéz feladat, mint a hangsorépítô elemek biztosítása. A vizsgált, korlátozott tematikájú szintetizátorok adatbázisa csak kijelentô mondatokat tartalmaz. Mivel a kérdô mondat prozódiája jelentôsen eltér ezektôl, ezért a kérdô mondatokat az aktuális algoritmusok ezzel az adatbázissal nem képesek elôállítani. A kérdô mondatok elôállításához vagy olyan adatbázis kell, amely nagy számban tartalmaz kérdô mondatokat is, vagy olyan prozódia kiválasztó és megvalósító algoritmusok szükségesek, amelyek ezeket meg tudják valósítani. A továbbiakban már csak azt vizsgáljuk, hogy kijelentô mondatok esetében milyen esély van a helyes prozódia megvalósítására. A vizsgált kötött témájú korpusz-alapú szintetizátorban a prozódia modellezése úgy történik, hogy figyeljük a szavak mondatbeli pozícióját [3]. A mondatokat elsô lé- 2. táblázat A szószablya korpusz fôbb adatai LXIII. ÉVFOLYAM 2008/5 15

HÍRADÁSTECHNIKA pésben tagmondatokra bontjuk, majd ezen belül is meghatározzuk a szó helyzetét. A talált szóalakok vizsgálata során láthattuk, hogy azok átlagosan 45%-ban fedik le a magyar nyelvet, tehát a helyes prozódia is ilyen arányban állhat elô a szavakból a legjobb esetben. Az adatbázisban kis számban elôforduló szavak esetén az is elôfordulhat, hogy a szó ugyan egészben szerepel az adatbázisban, de nem a megfelelô mondatbeli pozícióban, ezért nem a megfelelô prozódiai információt hordozza. Abban az esetben, ha kisebb elemekbôl, építi fel a mondatot a szintetizátor, akkor már nem veszi figyelembe ezeket a mondatbeli pozíció információkat. Elôfordulhat tehát, hogy egy hangsúlyos szót olyan szavak elemeibôl állít elô, amelyek hangsúlytalanok, ezért a kimenet is hangsúlytalan lesz. Aprozódia megvalósításáról tehát összegezve azt mondhatjuk el, hogy csak akkor várható el viszonylag elfogadható hangzás, ha a szintézis szó szinten tudja biztosítani a hangsorépítô elemeket és ezekbôl is elég számú van a beszédadatbázisban, amelyek a prozódiai változatosságot biztosítják. 4. Meghallgatásos tesztek A beszédszintézis rendszerek minôségét meghallgatásos tesztek során végzett szubjektív minôsítéssel lehet összehasonlítani. Ennek egyik módja a MOS (Mean Opinion Score átlagos szubjektív osztályzat) teszt alkalmazása. A tesztekhez mondatokat válogattunk két témakörbôl. Az elsôben hírolvasásból, a másodikban egy mesébôl származtak a mondatok. Az elôállított tesztanyag 5-5 szintetizált mondatot tartalmazott, amelyek eltérô hosszúságúak voltak. A mondatokat meghallgató és értékelô személyek számára az volt az utasítás, hogy egy 5-ös skálán értékeljék a minôséget (5-ös a legjobb érték). A tesztben továbbá szerepeltek a korpuszos szintetizátor eredeti mondatai is, amelyek a tematikának megfelelô idôjárás jelentések voltak. A teszt internetes elérhetôségû volt, a tesztelôk a mondatokat véletlen sorrendben hallgatták meg. A teszt tartalmazott egy bevezetô részt is, amely azt a célt szolgálta, hogy a tényleges értékelés elôtt már képet kapjanak arról, hogy milyen minôségû mondatokat fognak hallani. A teszt során a tesztelôk nyilatkoztak arról is, hogy milyen eszközön, milyen környezetben hallgatják a mondatokat. Atesztet 10 személy értékelte ki; 3 nô és 7 férfi. Az átlagéletkor 32 év volt. A tesztelôk mindegyike csendes környezetben hallgatta meg a mondatokat, a legtöbben átlagos minôségû eszközökön. A tesztelôk fele-fele arányban használtak hangszórót és fejhallgatót. A 3. ábrán az elsô oszlop mutatja a korpuszos szintetizátorral elôállított, a témakörbe vágó mondatok értékelését. A második, vonalazott oszlop a hír és mese témakörökbôl válogatott mondatok átlaga. Az utolsó két oszlopon a két témakör külön-külön számított átlaga látható. A tematikán kívüli mondatok érthetôsége roszszabb és kevésbé természetesek, mint az adatbázisnak megfelelô tematikájú korábban szintetizált mondatok. A különbség a két átlag között több mint 2, ami azt jelenti, hogy a minôségromlás jelentôs. Az eredményekbôl az is megállapítható, hogy az eredeti tematikához közelebb álló hírjellegû mondatok jobbak, mint a tematikától messze álló meserészlet, bár ezek eltérése kicsi, ha a témakörbe vágó mondatokhoz viszonyítjuk. A meghallgatás utáni szabad véleményalkotás során kiderült, hogy a tesztelôk szerint a mondatok egyes részei mind prozódiában, mind akusztikai szerkezetben lényegesen különböztek egymástól. Voltak részek, amelyek sokkal jobb osztályzatot kaptak volna, de a mondat többi része lehúzta az értékelést. A legtöbbet említett jelenség az egyenetlen minôség volt. 5. Fejlesztési lehetôségek Az adatbázisok elemzésébôl látható, hogy méretük növelése egyértelmûen javíthatja a generálandó szintetizált beszéd minôségét. Ezt a kötött témakörû rendszerek fejlesztése során már többször alkalmaztuk. Ha újabb mondatok szintetizálásának igénye jelent meg és a szintézis hangminôsége nem volt megfelelô, akkor egy jól megtervezett hangfelvétellel az adatbázist úgy bôvítettük, hogy ezután ezeket az újabb mondatokat is jó minôségben tudta elôállítani a rendszer. Amennyiben viszont azt szeretnénk, hogy tetszôleges tematikájú mondatot is szintetizálni tudjunk megfelelô minôségben, akkor az adatbázist olyan mértékben kellene bôvíteni ezzel a módszerrel, amely nehezen vagy gyakorlati szempontból egyáltalán nem megoldható. A jelenleg használt adatbázis 6281 különbözô szót tartalmaz. Ha azt szeretnénk elérni, hogy az adatbázisban a magyar szavak 95%-a szerepeljen, akkor a 2. ábrából leolvashatjuk, hogy ehhez hozzávetôlegesen 150 3. ábra Szubjektív minôsítés átlagai az egyes tematikákra 16 LXIII. ÉVFOLYAM 2008/5

Magyar nyelvû, kötött témájú korpusz-alapú beszédszintézis ezer szót kellene felvenni legalább ötfajta mondatbeli pozícióban. Ez azt jelenti, hogy a meglévô adatbázishoz képest körülbelül 700 ezer szót tartalmazó mondatkorpuszt kellene a bemondóval bemondatni és feldolgozni. Ez a meglévô adatbázis 10 órájához képest, nagyságrendileg újabb 100 óra felvételt jelentene, ha sikerülne egyáltalán ezeket a mondatokat megalkotni. Ennek teljesítése irreális követelmény. A másik megközelítés lehet a minôség javítására, hogy a korábbi szintetizátortechnikáknál használt prozódiai modulok kimeneti információit használjuk fel az általános korpuszos szintetizátorban. Tapasztalatból tudható azonban, hogy az emberi hangminôség amelyet a szintetizátor akkor nyújt, amikor a saját tematikájának megfelelô mondatokat állít elô nem érhetô el ezzel a technikával. Ezzel a módszerrel azonban ki lehet egyenlíteni azokat a minôségbeli durva egyenetlenségeket, amelyek a meghallgatásos teszt során az észlelôk kifogásoltak. Egy korábbi, elemösszefûzéses technikájú szintetizátor 2,5-es szubjektív minôsítést ért el egy hasonló meghallgatásos teszt során[2]. Tehát ha ennek a szintetizátornak a prozódiai információt és a korpuszos szintetizátor bôvebb hangadatbázisát egyesíteni tudjuk, akkor várhatóan a mostani 2 körüli minôsítést a régebbi technikájú szintetizátor 2,5-es minôsége fölé tudjuk vinni. 6. Összefoglalás A korlátozott tematikára tervezett beszédadatbázis és a hozzá kapcsolódó korpuszos beszédszintetizátor változtatás nélkül nem alkalmas tetszôleges tematikájú mondatok elôállítására. Amennyiben mégis ilyen irányú fejlesztést kívánunk elindítani, akkor a szintetizátor minôségének egyik javítási megoldása lehet az adatbázis növelése. Ez a jelentôs mennyiségû adatbôvülés miatt nehezen megvalósítható. A másik megoldás a prozódiai modul fejlesztése, a- mellyel az érthetôség jól javítható. Ennek a hátránya, hogy további jelfeldolgozást kíván meg, amely a természetes hangzást ronthatja, de elkerülhetô vele az egyenetlen minôség a hangzásban. Köszönetnyilvánítás Irodalom [1] Németh Géza, Olaszy Gábor, Fék Márk: Új rendszerû, korpusz alapú gépi szövegfelolvasó fejlesztése és kísérleti eredményei. Beszédkutatás 2006. Szerk.: Gósy Mária. MTA Nyelvtudományi Intézet, 2006, pp.183 196. [2] Fék M., Pesti P., Németh G., Zainkó Cs.: Generációváltás a beszédszintézisben. Híradástechnika, 2006/3. pp.21 30. [3] Olaszy Gábor: A korpusz alapú beszédszintézis nyelvi, fonetikai kérdései. Híradástechnika 2006/3. pp.43 50. [4] Olaszy G., Németh G.: IVR for Banking and Residential Telephone Subscribers Using Stored Messages Combined with a New Number-to-Speech Synthesis Method. In: Human Factors and Voice Interactive Systems, Ed.: Daryle Gardner-Bonneau. Kluwer Academic Publishers, 1999, pp.237 256. [5] G. Németh, Cs. Zainkó: Multilingual Statistical Text Analysis, Zipf s Law and Hungarian Speech Generation, Acta Linguistica Hungarica, Vol. 49. (3-4), 2002, Akadémiai Kiadó, pp.385 405. [6] Olaszy Gábor: Mássalhangzó-kapcsolódások a magyar beszédben. Tinta Kiadó, Budapest, 2007. [7] Halácsy Péter, Kornai András, Németh László, Rung András, Szakadát István, Trón Viktor: Creating open language resources for Hungarian, In: Proc. of the 4th International Conference on Language Resources and Evaluation (LREC) 2004. [8] Kornai, A., Halácsy, P., Nagy, V., Oravecz, Cs., Trón, V., Varga, D.: Web-based frequency dictionaries for medium density languages, In: Proc. of the 2nd Int. Workshop on Web as Corpus, Ed.: Adam Kilgarriff, Marco Baroni, ACL-06, 2006, pp.1 9. [9] Olaszy Gábor: Az artikuláció akusztikai vetülete a hangsebészet elmélete és gyakorlata. KIFLAF 2003, Szerk.: Hunyadi László. Debreceni Egyetem, pp.241 254. Köszönöm a BME TMIT Beszédtechnológiai laboratórium munkatársainak segítségét, bátorítását. A kutatást részben az NKFP 2. programja támogatta (szerzôdésszám: 2/034/2004). A szerzôrôl Zainkó Csaba 1999-ben végzett a BME Villamosmérnöki és Informatikai Kar Médiainformatika szakirányon és azóta a Távközlési és Médiainformatikai Tanszék Beszédtechnológiai laboratóriumában dialógusrendszerek és az ahhoz kapcsolódó komponensek kutatásával és fejlesztésével foglalkozik. Részt vett az elsô magyar nyelvû elektronikus levél felolvasó és a számszerinti tudakozó fejlesztésében. Jelenleg a korpusz-alapú beszédszintézis technológiájának vizsgálata áll kutatási témájának középpontjában. LXIII. ÉVFOLYAM 2008/5 17