Virtuális emondó CZAP LÁSZLÓ Miskolci Egyetem, Villmosmérnöki Intézet, Automtizálási Tnszék czp@mzsol.iit.uni-miskolc.hu Reviewed Kulcsszvk: eszédérthetôség, vizuális eszédszintézis, eszéd- és hllássérültek távközlése Mgyr nyelvû, vizuális szövegfelolvsó fejlesztésérôl számol e cikk. Az nimáció háromdimenziós fejmodell mozgtásán lpul. Az rtikuláció kilkításához felhsználtuk fellelhetô hnglumok nygát, dinmikus vizsgáltnál sját vizuális eszédfelismerési kuttási eredményekre támszkodtunk. A kortikulációs htások figyeleme vételéhez jellemzôket domináns, ruglms és htároztln osztályok soroltuk, ezek lpján htároztuk meg mozgásfázisok közötti interpolációt. A természetesség jvítás érdekéen töek között álvéletlen fejmozgásokt és pislogást progrmozunk. A fejmodell mûködtetése során megvlósítjuk lpérzelmek kifejezését is. 1. Bevezetés 1. ár Fotorelisztikus és trnszprens megjelenítés Mindenki elôtt ismert, hogy eszéd érthetôségét jvítj, h látjuk eszélô személy rcát, ezzel együtt z rtikulációját. Ez vizuális információ különösen sokt segít zjos környezeten és hllássérültek esetéen. A gépi eszédkeltés jól kidolgozott rendszereinek természetes kiegészítôje mesterséges eszélô fej. Az rcnimáció megvlósítás eszédrtikuláció modellezésére mindössze két évtizeddel ezelôtt kezdôdött. A mi szemmel kezdetleges eszközökkel végzett elsô próálkozások vizuális eszédszintézis úttörômunkáját jelentették. A 3D modellezés fejlôdése, számítástechniki eszközök kpcitásánk ronásszerû ôvülése és természetes rtikuláció nlízise életszerû, fotorelisztikus finomságú modellek kidolgozását tette lehetôvé. Az elmúlt évtizeden terület dinmikusn fejlôdött, egyre tö lklmzás jelenik meg. Az emergép kpcsoltn új távltokt nyitht z udio-vizuális eszédszintézis és eszédfelismerés. Dilógus és okttó rendszereken z érthetôséget és z ttrktivitást ngyn jvítj eszédnimáció. Multimédiás lklmzásokn virtuális emondó vgy szereplô tágítj mûvészi szdság htárit. Hllássérültek eszélni tnítását segítheti helyesen rtikuláló virtuális emondó, mely átlátszó rcávl természetes eszélônél jon megmuttj hngképzés részleteit. Hngvezérelt eszélô fejek fejlesztésén dolgoznk hllássérültek segítésére távközlési lklmzásokn. A fejlett mgyr nyelvû kusztikus eszédszintézis mellett hiánypótló célzttl kezdtünk vizuális eszédszintetizátor fejlesztéséhez. 2. A eszédnimáció Az elsô mûködôképes vizuális eszédszintetizátorok kétdimenziós modell mozgásfázisink elôállításár épültek, kezdeten elôre tárolt képek elôhívásávl. A kulcskeretek közötti fázisokt gykrn képmorfológii módszerekkel állították elô. A kétdimenziós modell nem teszi lehetôvé természetes fejmozgások, eszédet kísérô gesztusok és érzelmek kifejezését. A testmodellezés fejlôdése háromdimenziós modellezésre terelte kuttók figyelmét. 2. ár Kétdimenziós fejmodell elemei [1] LIX. ÉVFOLYAM 2005/1 7
HÍRADÁSTECHNIKA A3D modellek egyik típus z rcizmok megfeszítésével szimulálj z rckifejezéseket. Az ilyen modellek vlósághû eredményt nyújtnk, de kívánt rckifejezés elôállítás rendkívül számításigényes és vlóságos izomtónusok nem mérhetôk. M még ígéretese pusztán felületi htásokt utánzó, ôrszövettel orított drótváz lkításár lpozott nimáció. Ennek prméterei megfigyeléssel, vgy képfeldolgozási módszerekkel természetes eszélôk képeirôl leolvshtók [2]. Minden modell mozgtásánál külön figyelmet kell fordítni jellemzôk összehngolt változttásár, mert könnyen természetellenes htás lkulht ki. nem jelzett hosszú mgánhngzók rövid párjuknál szûke szájnyílássl vnnk jelen z rtikuláció elôállításához ennél ôve készlettel dolgozunk A 4. ár vizémák jkméreteit és intenzitási tényezôit árázolj. 2.1. A eszéd vizuális lpegysége A eszéd legkise kusztikus egységének, fonémánk (hngzó) vizuális megfelelôje, vizém. A vizémák készlete szûke fonémákénál, hiszen néhány foném rtikulációj vizuálisn megegyezik. Nem láthtó például zöngésség, de képzés helyéen megegyezô, idôtrtmn vgy intenzitásn eltérô hngok is zonos rtikulációs mozgásokkl jelennek meg. A hngképzô szervek jellemzô helyzete mgyr eszédhngokr megtlálhtó lpvetô munkákn [4,5,6]. A 3. árán példát muttunk e rr, hogy mennyire hsonló egy fényképen láthtó [5] és egy 3D-s eszélô fejen eállított ugynzon hngr jellemzô rtikuláció [6]. 60 50 40 30 20 10 0, p, m f, v t,d,n r sz,z,c,dz l s, zs, cs, dzs ty, gy, j, ny k,g h k 4. ár A vizémák jkszélessége (), jknyílás () és szájnyílás átlgos világosság (intenzitás, k). A méretek pixelen, z intenzitás fehér (255) világosságánk rányán láthtó 3. ár A eszélô fényképe és 3D fejmodell A mgyr eszédhngok vizém készletét [4]-en megdott mintszvk rtikulációs jellemzôiôl lkítottuk ki. Az eredményt z 1. tálázt muttj, hngokt mgyr helyesírási etûképükkel jelöljük. 1. tálázt A mgyr nyelv vizém készlete Mgánhngzók Másslhngzók e, p, m é f, v i t, d, n ö, o r ü, u sz, z, c, dz á l s, zs, cs, dzs ty, gy, j, ny k, g h Az eddig megjelent eszédhngok tlsz [4], illetve mgyr hnglumok [5,6] lpján meghtározhtók vizémák legfontos prméterei, ezekôl lkul ki z kulcskeret (keyfrme) készlet, mely z rtikuláció kiindulási lpj [7]. A legfontos jellemzôk z jkk és nyelv mûködtetéséhez trtoznk. Az lpvetô jkjellemzôk: nyitás (tág-szûk), szélesség (széles-keskeny), Az jkk nyitás szoros összefüggésen vn z állkpocs mozgásávl (nyitott - zárt ). A száj szélessége tehát z jknyitássl és z jkkerekítéssel, illetve z jkréssel, áll összefüggésen. Az állkpocs helyzete nyitás mellett fogk láthtóságávl is összefügg. A nyelvállást (5. ár) nyelv függôleges helyzete (fent-lent), 5. ár Jellemzô nyelvállások: lr z n, jor k-g hngokr Néhány megjegyzés vizémák osztályozásához: csoportosítás elsôsorn jkform lpján történt, nem láthtó nyelvállás eltérô lehet (pl.: o-ö, u-ü) 8 LIX. ÉVFOLYAM 2005/1
Virtuális emondó vízszintes mozgás (elül-hátul), hjlítás (domorú-homorú), és nyelvhegy formáj (széles-keskeny, vékony-vstg) efolyásolják. A sttikus jellemzôk lpján eállíthtók eszédhngok állndósult szkszár jellemzô rtikulációs prméterek, kulcskeretek. 2.2. Dinmikus mûködés A folymtos mgyr eszéd dinmikus jellemzôinek átfogó leírás még várt mgár. Az nlízis során hnglumokn tlálhtó pillntképek korlátozottn hsználhtók, és csk mintszvkr vontkoztthtók. A dinmikus nlízis másik forrás sját, vizuális eszédfelismerési kuttások során nyert eredményekôl összeállított dtázis [8]. Eôl szármznk z jkk nyitásánk és szélességének idôeli változásár vontkozó dtok, vlmint nyelv és fogk láthtóságát reprezentáló intenzitás fktor, szájüregre vontkozón. Ezek kulcskeretek közötti interpoláció megválsztásán nyújtnk segítséget. A kortikulációs htások figyeleme vételéhez túl kellett lépnünk z úgynevezett keyfrme modellen. A vizémák minden jellemzôjét (például jk- és nyelvállások) osztályoztuk domináns jellegük lpján. Egyes prméterek környezettôl függetlenül felveszik jellegzetes értékeiket, mások környezetüke simulnk. A vizuális eszédfelismerés dtink szórás lpján vizémák jellemzôit három ktegóriá soroltuk: domináns nem enged kortikulációs htásoknk ruglms környezete efolyásolj z dott jellemzôt htároztln környezete lkítj ki z dott jellemzôt 6. ár A vizémák jellemzôinek szórás A dominnci meghtározásához elsôsorn jellemzôk szórását hsználtuk fel, de segítséget nyújt láthtó jellemzôk grfikus árázolás, z átmeneti és z állndósult szkszok eloszlás is. A 7. árán eltérô árnylttl láthtók z s hng átmeneti és kvázistcionárius szkszánk jkméretei. A szomszédos hngok áltl meghtározott kezdeti- és végállpotok között z jkméretek egy szûke területet fogllnk el. 7. ár Az s hng átmeneti (.) és állndósult (*) szkszánk jkszélessége () és jknyílás () Az jkméretek eloszlás j hng átmeneti és állndósult trtományár 8. árán láthtó. Az jkszélesség trtomány lényegéen megegyezik z átmeneti és z állndósult idôszkn, tehát széles trtományn környezetéhez igzodik, htároztln osztály sorolhtó. Az jknyílás z állndósult szkszn szûke trtományt fed le, z jknyílás tekintetéen j vizém domináns jelleget mutt. 8. ár Aj vizém jkméreteinek eloszlás (átmeneti (.) és állndósult (*) szksz) LIX. ÉVFOLYAM 2005/1 9
HÍRADÁSTECHNIKA Az jkméretek változásánk trjektóriáj is támpontot d dominnci osztály meghtározásához. A 9. ár z e hng jkméreteinek változását muttj. A görék egyenként nem követhetôk, de láthtón tetszôleges kezdeti- és végállpot mellett áthldnk egy sûrûn ehálózott területen. Jól láthtó mgánhngzók jkméreteire jellemzô domináns jelleg. 9. ár Az e vizém jkméreteinek változás A domináns változókkl ellentéten, htároztln jellemzôk nem trtnk jól meghtározhtó értékekhez. A h hnghoz trtozó trjektóri példáit látjuk 10. árán. (A változások követhetôsége végett csk néhány göre szerepel.) 10. ár Ah vizém jkméreteinek változás. * jelzi kezdôpontot, o végpontot A 2. tálázt muttj vizémák jkformár, 3. tálázt nyelv vízszintes helyzetére vontkozó csoportosítását. 2. tálázt Dominnci jellemzôk z jkformár nézve Domináns Htároztln Vegyes 3. tálázt Dominnci jellemzôk nyelv vízszintes helyzetére nézve Domináns Ruglms Htároztln mgánhngzók, s, zs, cs, dzs k, g, r, h p,, m, l, j, n, ny, f, v, sz, z, c, dz,, d, t, ty, gy (jknyílás domináns, szélesség htároztln) t, d, n, r, l, ty, gy, j, ny, s, zs, cs, dzs, sz, z, c, dz mgánhngzók p,, m, f, v, k, g, h A dominnci eállítási prméterek interpolációját htározzák meg. A továi módosítások például hosszú mgánhngzóknál állndósult szksz eikttás finomítják z rtikulációt. 3. A természetesség jvítás A eszélô természetes fejmozgását, mimikáját hírolvsó emondók felvételein tnulmányoztuk. Ennek nyomán álvéletlen mozgásokt, például visszfogott ólogtást, fej enyhe oldlr illentését és átlg körül szóródó pislogási periódust lklmztunk. A prozódi tükrözôdése fejmozgásn, illetve z rcmimikán nehezen lgoritmizálhtó, így például mondthngsúly kifejezése nehézségeke ütközik. Az intonáció zonn felhsználhtó szemöldök mozgtásánk vezérlésére. A mondthngsúlynál is emelhetô szemöldök. A szemmozgást fejmozgás korrigálásár hsználjuk, hogy tekintet egy pontr szegezôdjön, egyé szemmozgtás kézi evtkozást igényel. Dilógus rendszereken szerepváltást segíthetik gesztusok, z értô figyelést szemöldök emelésével jelezhetjük, ólogtássl is visszigzolhtjuk figyelmes hllgtásunkt. Ezek mûveletek mnuálisn állíthtók e. 3.1. Elôrtikuláció és szûrés A kimondás megkezdése elôtt k. 300 ms idôtrtmú csendet ikttunk e. Ez ltt z idô ltt levegôvételt imitáljuk z jkk megnyitásávl. Ezután z jkk lphelyzetéôl elkezdjük z elsô domináns vizém kilkítását. Ezzel kiegészítéssel mit elôrtikulációnk neveztünk el már z elsô hng megszóllás elôtt kilkul z jkform, hsonlón természetes kimondáshoz. A természetes vgy szintetizált eszédhez szinkronizálás folymán különözô seességû eszéddel szemesültünk. Lssú eszédnél vizémák jellemzôi megközelítik névleges értéküket, gyors eszédnél z rtikuláció elngyolt. A ruglms csoport sorolt jellemzôkre is igz, hogy gyors eszédnél lekerekítés ngyo. A ruglms jellemzôk kilkításár medián szûrést lklmztuk: A szûrésen résztvevô mintákt ngyság szerint sor rendezzük, és középsô lesz szûrt érték. A szûrést három mintár végezzük. Egy jellemzô idôfüggvényét három lépésen lkítjuk ki: A domináns és ruglms vizémák értékei között htároztlnok nélkül lineáris interpolációt végzünk. Aruglms vizémák környezetéen végrehjtjuk medián szûrést. Ez kevese mint gyors eszéd esetén ngyo csúcslevágást okoz. Az így kpott értékeken még egy simítást végzünk, mely z ktuális, két megelôzô és követô mintákt érinti. A szûrt érték négy mint súlyozott összege. A súlyozás állndó, nem függ eszéd seességétôl. A simító szûrés egyrészt finomítj mozgást, másrészt gyors eszédnél jon lekerekíti csúcsokt. A szintetizált eszéd nlízise lpján szûrés htás elôre erôse (két keret) mint hátr (egy keret). 10 LIX. ÉVFOLYAM 2005/1
Virtuális emondó A 11. árán gyors és lssú eszédnél követhetjük medián szûrés és simítás htását pl.: nyelv vízszintes helyzetére. A példán lssú eszéd kétszer nnyi keretôl áll, mint gyors kimondás. Az árán jól követhetô gyors eszédnél érvényesülô lekerekítés, medián szûrés és simítás htásár egyránt. 11. ár Péld domináns (1. csúcs) és ruglms (2. csúcs) jellemzô szûrésére és lssú (1.) illetve gyors (2.) eszéd simításár. A lineáris interpoláció eredménye ( ), medián szûrés ( ) és simítás (---) után. 4. Összefogllás és kitekintés A cikk célj vizuális szövegfelolvsó rendszer fejlesztésének emuttás. A jelen fázisn z rtikuláció dinmikus jellemzôinek továi finomítását végezzük. A természetes vgy gépi eszédhez szinkronizálás még nem teljesen utomtikus, következô feldtunk ennek megoldás. A fejlesztôrendszerünk eszélô fej videó nygát hosszdlms számításokkl állítj elô, mi tö órás feldolgozási idôt is jelenthet. Jelenleg nnk ellenére, hogy rendszerünk szövegfelolvsásr is lklms csk olyn lklmzásokr gondolhtunk, hol elôzetesen rögzített üzeneteket jelenítünk meg. Reményeink szerint rel-time nimáció közeli jövôen szuperszámítógépek nélkül is megvlósíthtó lesz és ezzel tényleges virtuális emondói, felolvsói lklmzások is megvlósíthtók lesznek. A vizuális eszédszintetizátor mûködésére példák tlálhtók z lái címen: http://mzsol.iit.uni-miskolc.hu/~czp/mintk Irodlom 3.2. Érzelmek kifejezése A eszéd multimodális jellegéhez hozzátrtoznk gesztusok is. A testeszéddel árnyljuk mondndónkt, megerôsítjük vgy éppen cáfoljuk verális üzenetünket. Arcnimációs rendszerünken z rckifejezések érzelmi töltését próáltuk meg lgoritmizálni és progrmozni. Az Ekmn [9] áltl meghtározott hét érzelem közül válszthtunk: semleges, hrgos, ellenszenves, szorongó, oldog, szomorú, meglepett. Erre láthtunk példát 12. árán. 12. ár Ellenszenves és oldog rckifejezés [1] Costto E., Grft H. P. (1998): 2D Photo-relistic Tlking Hed Computer Animtion, Phildelphi, Pennsylvni, pp.103 110. [2] Mssro, D.W. (1998): Perceiving Tlking Fces, The MIT Press Cmridge, Msschusetts London, Englnd, pp.359 390. [3] Bernstein, L.E., Auer, E.T. (1996): Word Recognition in Speechreding. Speechreding y Humns nd Mchines. Springer-Verlg, Berlin Heidelerg, Germny, pp.17 26. [4] Molnár József: A mgyr eszédhngok tlsz, Tnkönyvkidó, Budpest, 1986. [5] Boll Kálmán: Mgyr fonetiki tlsz, A szegmentális hngszerkezet elemei, Nemzeti Tnkönyvkidó, Budpest, 1995. [6] Boll Kálmán: Mgyr hnglum, A mgyr eszédhngok rtikulációs és kusztiki sjátsági, MTA Nyelvtudományi Intézet, Budpest, 1980. [7] Mátyás János: Vizuális eszédszintézis, Diplomterv, Miskolci Egyetem, 2003. [8] Czp, L.: Lip Representtion y Imge Ellipse, ICSLP 2000 Bejging, Chin, Proceedings Vol. IV., pp.93 96. [9] Ekmn, P., Friesen, W. (1978): Fcil Action Coding System Consulting, Psychologists Press. Inc. LIX. ÉVFOLYAM 2005/1 11