Multimédia az audiovizuális beszédfeldolgozásban. dr. Czap László

Multimédia az audiovizuális beszédfeldolgozásban dr. Czap László Miskolci Egyetem Villamosmérnöki Intézet Automatizálási Tanszék Miskolc, Egyetemváros e-mail: czap@mazsola.iit.uni-miskolc.hu Abstract Audio-visual speech processing takes into consideration not only the voice but also the lip movements and gestures of the speaker. Software and hardware multimedia tools enable joint processing of voices and images. Human lip-reading experiments can improve the efficiency of speech reading by machines as well. Talking heads can support the speech recognition of hearing impaired people. Bevezetés +D D EHV]pOQHN QHP FVDN D KDQJMiW KDQHP D V]iMPR]JiViW pv JHV]WXVDLW LV ILJ\HOHPEH vesszük a beszéd felismerése vagy szintézise során, audiovizuális beszédfeldolgozásról beszélünk. A kép és a hang kezelése kínálja a multimédia eszközök alkalmazását. Az emberi NRPPXQLNiFLyEDQQDJ\VHJtWVpJ QNUHYDQKDOiWMXNDEHV]pOW(]EiWRUtWiVWDGDUUDKRJ\D jelenséget felhasználjuk a gépi beszédfeldolgozásban is. Egyrészt a vizuális jel javíthatja a EHV]pGIHOLVPHU IHOLVPHUpVL DUiQ\iW PiVUpV]W KD D JpSL EHV]pGHW JUDILNXVDQ V]LQWHWL]iOW EHV]pO IHM NpSpYHO NtVpUM N VRNDW MDYtWKDWXQN SO D QDJ\RWKDOOyN EHV]pGIHOLVPHUpVpQ $] audiovizuális beszédfelismerés és a videó beszédszintézis szorosan kapcsolódik a NpSIHOGROJR]iVIHMOGpVpKH]DPRGHUQV]iPtWiVWHFKQLNiKR] 1. Audiovizuális beszédszintézis $ ]DMRV EHV]pGUH ILJ\HO HPEHU KDVRQOy KHO\]HWEHQ OHKHW PLQW D EHV]pG IHOLVPHUpVében NRUOiWR]RWWQDJ\RWKDOOy. ]LVPHUWKRJ\DVLNHWHNNpSHVHNV]iMUyOROYDVQL1DJ\MHOHQWVpJH van az olyan kutatásoknak, amelyek szintetizált képpel próbálják utánozni a természetes EHV]pO KDQJNpS]pVpW DXGLRYL]XiOLV HV]N ] NNHO VHJtWYH D EHV]pG PHJpUtését. Egyes UHQGV]HUHN P&IHMHW ieui]roqdn >1] Az arc mimikáját háromdimenziós modell alapján XWiQR]]iN$YL]VJiODWRNV]HULQWDWHUPpV]HWHVHPEHULDUFRWPHJN ]HOtWPpUWpNEHQMDYtWMDD P&IHMDEHV]pGPHJpUWpVpW]DMRVN UQ\H]HWEHQpVKDOOiVVpU OWHNQpO$grafikusan szintetizált YL]XiOLV EHV]pG RO\DQ HOQ\ NHW LV NtQiO DPHO\HN D YDOyViJRV EHV]pOQpO MREEDQ PHJN QQ\tWLNDV]iMUyOROYDViVW3ODIRJDNpVDQ\HOYPR]JiVDOiWKDWyYiWHKHWIpOLJiWOiWV]y szintetizált arcon keresztül. A szintetizált mozgás kódolása rendkívül tömör, mindössze néhány száz bit másodpercenként. $YL]XiOLVV]LQWHWL]iWRURNPiVLNUpV]H>@YDOyViJRVEHV]pODGDWDLQDNIHOYpWHOpEODODNXOW NL (EEHQ D] HVHWEHQ D EHV]pO IHOLVPHUKHW XJ\DQ~J\ PLQW D] HPEHUL KDQJIRV]OiQ\RNEyO építkez DNXV]WLNXV V]LQWHWL]iWRU HVHWpQ eughnhv NXWDWiV HUHGPpQ\H D KiURPGLPHQ]LyV modell megalkotása a kétdimenziós képek alapján. Ennek látványos demonstrációja volt, DPLNRUHJ\PR]LILOPHJ\LNNRFNiMiWyONH]GYHDIKVDUFiWDNXWDWyDVDMiWDUFiUDFVHUpOWH[4]

2. Audiovizuális beszédfelismerés 5pJyWDLVPHUWKRJ\KDOiWMXNLVDEHV]pOWQHPFVDNDKDQJMiWKDOOMXNMREEDQIHOLVPHUM ND beszédet különösen zajos környezetben. [5] Annak vizsgálatához, hogy mit várhatunk az DXGLRYL]XiOLV JpSL IHOLVPHUWO KDVznos, ha ismerjük, hogy az emberi beszédmegértést mennyire támogatja a vizuális jel. A vizsgálatok szerint különösen a hang képzési helyének felismerését segíti. Ebben a kísérletben a természetes beszédhez meghatározott pillanatnyi energiájú zajt adtunk. A képet a vizsgált szó sorszámával feliratoztuk. Csak akusztikus jelnél a sorszám látszott, audio-yl]xiolv YL]VJiODWQiO D EHV]pO NpSH LV >@ %HQRît és társai azt vizsgálták, hogy az arc mely részei a legfontosabbak a beszéd felismeréséhez. [7] A legtöbb segítséget a száj adja, de szinte az egész test alátámasztja (vagy éppen cáfolja) a PRQGDQLYDOyW $ EHV]pGIHOLVPHU UHQGV]HUHN WHUYH]pVHNRU D N YHWNH] NpUGpVHN PHU OQHN IHO+RJ\DQWDOiOMXNPHJDNpSHQDEHV]pODUFiWD]DMNDLWYDJ\PiV beszédes testrészeit? +RJ\DQHPHOKHWM NNLDOpQ\HJHVYL]XiOLVLQIRUPiFLyWDYLGHRMHOEO"0HO\HNDOHJIRQWRVDEE YL]XiOLVMHOOHP]N"+RJ\DQOHKHWD]DXGLRpVYL]XiOLVFVDWRUQDLQIRUPiFLyLWLQWHJUiOQL" A vizuális információ kinyerésére olyan algoritmusra van szükség, amely nem érzékeny a PHJYLOiJtWiV YiOWR]iVDLUD D EUV]tQUH D EHV]pO WiYROViJiUD PR]JiViUD D] DUFV]U]HWUH VPLQNUH VWE 1pKiQ\ UHQGV]HUEHQ D NDPHUD U J]tWHWW D EHV]pO IHMpKH] NpSHVW SO VSHFLiOLV VLVDNNDO+DDEHV]pOV]DEDGRQPR]RJKDWHOVIHODGDWDz arc megtalálása. Ez rendszerint a EUV]tQDODSMiQW UWpQLN$EUV]tQH]HWHHOpJpU]pNHWOHQDPHJYLOiJtWiVN O QEVpJHLUHpVDOLJ függ az emberi rasszoktól. Fekete- fehér képen a mozgás figyelése vezethet eredményre. A EHV]pOV]iMDpViOODYpJ]LDOHJLQWenzívebb mozgást.[8] A hang és képi információk egyesítésére két módszer terjedt el: az elején vagy a végén HJ\HVtWKHWM NDNpW~WRQNDSRWWHUHGPpQ\HNHW+DD]HOHMpQLQWHJUiOXQNDIHOLVPHUEHPHQHWL jeleként használjuk az akusztikus és a vizuális informiflywpvhj\ WWGROJR]]XNIHONHW+DD végén integrálunk, a külön-külön feldolgozott eredményeket a végén vetjük össze. Létezik N ]EHQVPyGV]HULVDPHO\D]HJ\LNMHOIHOGROJR]iVDN ]EHQYHV]LILJ\HOHPEHDPiVLNMHOHW Máig megválaszolatlan kérdés, hogy az ember hogyan integrálja az akusztikus és vizuális jelet. Ennek vizsgálatára használják a McGurk hatást. 3. A McGurk hatás McGurk és MacDonald 1976-ban publikált cikkében adta közre a felfedezést, amely szerint, ha egy hangot hallunk egy másik hang képével párosítva, gyakran egy harmadik hangot érzékelünk. Tipikus példa, hogy b-t hallunk, g-t látunk és d-t érzékelünk. A jelenséget McGurk hatásnak nevezik. Az utóbbi két évtizedben az effektust igen intenzíven kutatják. (J\LNRNDD]pUGHNOGpVQHND]KRJ\D]RQNHYpVOHKHWVpJHNHJ\LNpUOYDQV]yDPLNRUWLV]WD - zaj illetve torzításmentes KDQJJDOYpJH]KHW QNNtVpUOHWHW$]DMHOOHP]XJ\DQLVKRJ\D WLV]WDEHV]pGYL]XiOLVUiVHJtWpVQpON OLVW NpOHWHVHQpUWKHWtJ\DEHV]pGYL]XiOLVWiPRJDWiVD nem érzpnhokhw$0f*xunkdwivshgljwlv]wdehv]pgqpolvihoops Egyetemi hallgatók bevonásával a McGurk hatás zajfüggését és magánhangzó függését YL]VJiOWXN,VPHUHWHLP V]HULQW PDJ\DU DQ\DQ\HOY& KDOOJDWyViJJDO *UDVVHJHU YpJ]HWW kísérleteket, de a tesztelt szöyhjrv]wuindnfhqwxv~qpphwq\hoy&yrow

$] HOV NtVpUOHWEHQ 6, 0, illetve +6 db-es jel-zaj viszonyú beszéd esetén vizsgáltuk a 0F*XUN KDWiVW $ N O QE ] V]yWDJRNKR] XJ\DQD]W D KDQJRW V]LQNURnizáltuk. A hallgatók mindig b-t hallottak és b-t, d-t, g-t, vagy gy-t láttak. B válasz esetén hang dominanciát, d-b párnál d válasz esetén kép dominanciát állapítottunk meg. Ha g-t vagy gy-t láttak, b-t hallottak és d-t válaszoltak, McGurk hatást regisztráltunk. Az eredmények (1. ábra) 0 db-nél a Mc Gurk illúziypd[lpxpiwpxwdwmin5rvv]deeplqvpj&ehv]pgqpomreedqkdj\dwnr]xqn a vizuális jelre, amit kép dominancia formájában is tapasztalhattunk. +6 db-nél a hang ad több támpontot, amit hang dominancia formájában is érzékelhetünk. 0-dB jel-zaj viszony körül alakul ki a McGurk hatás maximuma. A csatolt videón Ön is kipróbálhatja a McGurk hatást. Az anyagon szótagokat hall és lát, PLQGHJ\LNHWNpWV]HUHJ\PiVXWiQ$]DNXV]WLNXVpVYL]XiOLVMHOHOWpU0LQGHQEHPRQGásnál be -t hallunk és mást-mást látunk. (PróbálMXNPHJKDOOJDWQLFVXNRWWV]HPPHO$]HOVV]yWDJ a be (kétszer), nincs ellentmondás a kép és a hang között. A második szótag a de. Ha de -t hallunk, a vizuális jel dominál. Ezután ge és gye látszik és ahogy már megszoktuk be hallatszik. Ha de -t érzékelünk, érvényesült a McGurk hatás.

G% G% G% 1. ábra A McGurk hatás 6, 0 és +6 db jel-zaj viszonynál (%). $ N YHWNH] NtVpUOHWEHQ D] HOEEL PiVVDOKDQJ]yNDW a, e, illetve i magánhangzók követték. Az eredmények e környezetben jóval több illúziót mutattak, mintµd KDQJHOWWpV kicsivel többet mint i HOWW D H L ieud0f*xunkdwivn O QE ]PDJiQKDQJ]yNN UQ\H]HWpEHQ $0F*XUNKDWiVHOWpUDUiQ\iQDNHJ\OHKHWVpJHVPDJ\DUi]DWDKRJ\DKiURPKDQJN ] OH]D legnyíltabb, itt látható legjobban a hangképzés. Összefoglalás $ URKDPOpSWHNEHQ IHMOG V]iPtWiVWHFKQLNDL HV]N ] N pv V]RIWYHUHN OHKHWYp WHV]LN RO\DQ PXOWLPpGLDDQ\DJRNHOiOOtWiViW DPHO\HN D] DXGLRYL]XiOLVHPEHULEHV]pGPHJpUWpVNXWDWiViW segítik. Olyan alkalmazásokat fejlesztenek, amelyek megkönnyíthetik a nagyothallók beszédmegértését és a gépi beszédfelismerés hatékonyságát is javíthatják.

Irodalomjegyzék 1. D. W. Massaro: Perceiving Talking Faces MIT Press, 1998. 2. T. Kuratate: Kinematics Based Syntesis of Realistic Talking Faces AVSP 98 Sydney, 1998. 3. Philip Rubin, Eric Vatikiotis-Bateson: Talking Heads AVSP 98 Sydney, 1998 4. S. Morishima: Real-time Talking Head Driven by Voice and its Application to Communication and entertainment AVSP 98 Sydney, 1998 5. N. M. Brooke: Talking Heads and Speech Recognisers That Can See D.G. Stork, M. E. Hennecke: Speechreading by humans and machines Springer-Verlag 1996. 6. L. Czap: Audio and Audio-visual Perception of Consonants Disturbed by White Noise and Cocktail Party ICSLP 98 Sydney 7. C. Benoit, T. G. Marigny, B. Le Goff, A. Adjoudani: Which Components of the Face do Humans and Machines Best Speechread? D.G. Stork, M. E. Hennecke: Speechreading by humans and machines Springer-Verlag 1996. 8. M. E. Hennecke, D. G. Stork, K. V. Prasad: Visionary Speech: Looking Ahead to Practical Speechreading Systems D.G. Stork, M. E. Hennecke: Speechreading by humans and machines Springer-Verlag 1996. 9. H. McGurk, J. W. MacDonald: Hearing Lips and Seeing Voices. Nature, 264. 1976. 10. K. P. Green: The Use of Auditory and Visual Information in Phonetis Perception D.G. Stork, M. E. Hennecke: Speechreading by humans and machines Springer-Verlag 1996.