Multimédia az audiovizuális beszédfeldolgozásban. dr. Czap László



Hasonló dokumentumok
Multimédia az audiovizuális beszédfeldolgozásban. dr. Czap László

Audiovizuális beszédfelismerés és beszédszintézis. PhD értekezés tézisei. Czap László. Tudományos vezetők: Dr. Gordos Géza Dr. Vicsi Klára 2004.

A beszéd. Segédlet a Kommunikáció-akusztika tanulásához

PARAMÉTERES GÖRBÉK ALKALMAZÁSA VALÓSIDE- JŰ DIGITÁLIS HANGFELDOLGOZÁS SORÁN

Beszédtechnológia az információs esélyegyenlőség szolgálatában

AZ AKUSZTIKUS ÉS VIZUÁLIS JEL ASZINKRONITÁSA A BESZÉDBEN

A modern e-learning lehetőségei a tűzoltók oktatásának fejlesztésében. Dicse Jenő üzletfejlesztési igazgató

Audiovizuális beszédfelismerés és beszédszintézis. PhD értekezés. Czap László. Tudományos vezetők: Dr. Gordos Géza Dr. Vicsi Klára

A beszédhang felfedezése. A hangok jelölése a fonetikában

A hangtan irányai, fajai Olvasnivaló: Bolla Kálmán: A leíró hangtan vázlata. Fejezetek a magyar leíró hangtanból. Szerk. Bolla Kálmán. Bp., 1982.

VIII. Szervezeti kommunikáció

A HANGOK TANÁTÓL A BESZÉDTECHNOLÓGIÁIG. Gósy Mária. MTA Nyelvtudományi Intézet, Kempelen Farkas Beszédkutató Laboratórium

NOE Egészségközpont Katona Erzsébet dr

Hazánkban hozzávetõleg ezer hallássérült ember használ anyanyelvként

Multi-modális ember-gép kapcsolatok

Háromdimenziós képi adatokra épülő ökológiai folyamatok modellezése

A DIPLOMAMUNKA FORMAI KÖVETELMÉNYEI JAVASLAT

FEJMOZGÁS MÉRTÉKEK HANGANYAGBÓL TÖRTÉNŐ MEGÁLLAPÍTÁSÁNAK KEZDETI EREDMÉNYEI

A magánhangzó-formánsok és a szubglottális rezonanciák összefüggése a spontán beszédben

Viselkedési vizsgálatok II.

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Plágium, vagy mások eredményeinek

Szerkesztők és szerzők:

Mérési eljárások kidolgozása látók és látássérültek lokalizációs képességeinek összehasonlítására

Információ megjelenítés Diagram tervezés

A PÁLYÁZAT LEFOLYÁSA, SZEMÉLYI, TARTALMI VÁLTOZÁSAI

A DOE (design of experiment) mint a hat szigma folyamat eszköze

20 éves a Térinformatika Tanszék

Kognitív Infokommunikáció: egy ébredő interdiszciplína. Baranyi Péter DSc

MPEG-4 modell alkalmazása szájmozgás megjelenítésére

A TÉRINFORMATIKA OKTATÁSA ÉS ALKALMAZÁSI LEHETÕSÉGEI

A Margit híd pillérszobrának 3D-s digitális alakzatrekonstrukciója Nagy Zoltán 1 Túri Zoltán 2

A mezőgazdaság jövője

Cloud computing. Cloud computing. Dr. Bakonyi Péter.

A mindennapi sikeres együttműködés és kommunikáció záloga a logisztikában az idegen nyelv?!

EEG mérések hardveres és szoftveres validációja

Óvodás és kisiskolás gyermekek interpretált beszédének vizsgálata

Audiovizuális beszéd-adatbázis és alkalmazásai

BT Drive Free


OLAJOS Péter Európai parlamenti képviselõ (EPP-ED / MDF) Uniós Energiapolitika, közvetlen támogatások a geotermikus energia

Digitális mérőműszerek. Kaltenecker Zsolt Hiradástechnikai Villamosmérnök Szinusz Hullám Bt.

Önálló labor feladatkiírásaim tavasz

Mi van a Lajtner Machine hátterében?

Informatika a valós világban: a számítógépek és környezetünk kapcsolódási lehetőségei

szakmai önéletrajz Bánhalmi András Személyes információk: Végzettségek, képzések: Idegen nyelv: Oktatás:

AUDIOVIZUÁLIS TARTALMAK BEFOGADÁSÁT SEGÍTŐ ESZKÖZÖK HATÉKONYSÁGA

A feladat sorszáma: 4. Standardszint: 5-6. szövegben, szövegelemző műveletek, információkeresés.

Döntéstámogatás terepi gyakorlatokon

A BESZÉDASSZISZTENS KONCEPCIÓ

Életében először fog kipróbálni egy hallókészüléket?

SAR AUTOFÓKUSZ ALGORITMUSOK VIZSGÁLATA ÉS GYAKORLATI ALKALMAZÁSA 2

Beszédészlelés 1: Beszédpercepció. A beszédpercepció helye a beszédmegértési folyamatban

2. Local communities involved in landscape architecture in Óbuda

szolgáltatás ismertető

1. Fejezet: Számítógép rendszerek

SZOFTVEREK A SORBANÁLLÁSI ELMÉLET OKTATÁSÁBAN

(11) Lajstromszám: E (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA

MOBIL KURZUS 2013 MÉDIASZOLGÁLTATÁS-TÁMOGATÓ ÉS VAGYONKEZELŐ ALAP

Hol hallod a sz hangot?

Leíró művészet, mint modalitás

Útjelzések, akadályok felismerése valós időben

Kísérleti doboz Vasporos doboz Mágnesrúd. Játékmezők Fémlemezek. Gemkapcsok. Kivágható ívek Arcok Tengelyklipsz és rúd

Számítógépes grafika

Fiatal lány vagy öregasszony?

Tapasztalatok az infokommunikációs akadálymentesítés területén létező példák bemutatásával

Járműinformatika Bevezetés

Tömörítés. I. Fogalma: A tömörítés egy olyan eljárás, amelynek segítségével egy fájlból egy kisebb fájl állítható elő.

Szintetizált beszéd természetesebbé tétele

(11) Lajstromszám: E (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA. (51) Int. Cl.: B29C 45/27 ( ) 1. ábra

Kommunikációelmélet. VII-VIII. előadás. A nem verbális kommunikáció és főbb tudományterületei. A testbeszéd kutatásának története

Kicsi készülék óriási lehetőségekkel

Audiovizuális beszéd-adatbázis és alkalmazásai

BT HS

Beszédinformációs rendszerek 5. gyakorlat Mintavételezés, kvantálás, beszédkódolás. Csapó Tamás Gábor

ALKÍMIA MA Az anyagról mai szemmel, a régiek megszállottságával.

AUDIOVIZUÁLIS BESZÉDSZINTETIZÁTORBAN ALKALMAZOTT VIZÉMÁK ILLESZTÉSÉNEK FINOMÍTÁSA 1 REFINING OF VIZEMES-FITTING IN AUDIO-VISUAL SPEECH SYNTHESIZERS

Informatika Rendszerek Alapjai

A genetikus algoritmus, mint a részletes modell többszempontú és többérdekű "optimálásának" általános és robosztus módszere

Számítógép összeszerelése

Videós Webinár. Monday, October 15, 12

Gingl Zoltán, Szeged, :14 Elektronika - Alapok

Sexual Education for Adults with Disabilities

Szabó Gábor tantárgyprogramjai

SZEMLÉLETES RÉSZINFORMÁCIÓK INTEGRÁCIÓS PROBLÉMÁINAK VIZSGÁLATA A VIRTUÁLIS VALÓSÁGOT TEREMTŐ SZIMULÁTOROK ALAPJÁN

OOP. Alapelvek Elek Tibor

TECHNIKAI RENDSZEREK ÁLLAPOTLEÍRÁSÁNAK KÉRDÉSEI QUESTIONS REGARDING THE DESCRIPTION OF THE STATE OF TECHNICAL SYSTEMS

Informatika Rendszerek Alapjai

Phonak Virto TM. Hozzáférés megadva

KOMMUNIKÁCIÓ. Dr. Vincze Zoltán. Semmelweis Egyetem Egyetemi Gyógyszertár Gyógyszerügyi Szervezési Intézet

KOMMUNIKÁCIÓ. Dr. Vincze Zoltán Semmelweis Egyetem Egyetemi Gyógyszertár Gyógyszerügyi Szervezési Intézet

K+F gyakornoki pozíciók a Dolphio Consultingnál. ELTE, szeptember 14.

1. Magyarországi INCA-CE továbbképzés

PRÓBAMÉRÉSEK TEREPI KÖRÜLMÉNYEK KÖZÖTT KÖNNYŰ EJTŐSÚLYOS DINAMIKUS TERHELŐTÁRCSÁVAL

Diagnosztikai szemléletű talajtérképek szerkesztése korrelált talajtani adatrendszerek alapján

IT KOCKÁZATOK, ELEMZÉSÜK, KEZELÉSÜK

Angol Középfokú Nyelvvizsgázók Bibliája: Nyelvtani összefoglalás, 30 kidolgozott szóbeli tétel, esszé és minta levelek + rendhagyó igék jelentéssel

Acta Acad. Paed. Agriensis, Sectio Mathematicae 29 (2002) PARTÍCIÓK PÁRATLAN SZÁMOKKAL. Orosz Gyuláné (Eger, Hungary)

Bemutatkozik a BLUE OCEAN PROMOTION KFT. SZÉKHELY 1222 BUDAPEST GYÁR U. 15. IRODA 1055 BUDAPEST BAJCSY-ZSILINSZKY U. 76. I. EMELET 4.

Kitekintés a jövőbe: új technológiák és modellek a fogyatékkal élők szolgálatában

Átírás:

Multimédia az audiovizuális beszédfeldolgozásban dr. Czap László Miskolci Egyetem Villamosmérnöki Intézet Automatizálási Tanszék Miskolc, Egyetemváros e-mail: czap@mazsola.iit.uni-miskolc.hu Abstract Audio-visual speech processing takes into consideration not only the voice but also the lip movements and gestures of the speaker. Software and hardware multimedia tools enable joint processing of voices and images. Human lip-reading experiments can improve the efficiency of speech reading by machines as well. Talking heads can support the speech recognition of hearing impaired people. Bevezetés Ha a beszélőnek nem csak a hangját, hanem a szájmozgását és gesztusait is figyelembe vesszük a beszéd felismerése vagy szintézise során, audiovizuális beszédfeldolgozásról beszélünk. A kép és a hang kezelése kínálja a multimédia eszközök alkalmazását. Az emberi kommunikációban nagy segítségünkre van, ha látjuk a beszélőt. Ez bátorítást ad arra, hogy a jelenséget felhasználjuk a gépi beszédfeldolgozásban is. Egyrészt a vizuális jel javíthatja a beszédfelismerő felismerési arányát, másrészt, ha a gépi beszédet grafikusan szintetizált beszélő fej képével kísérjük, sokat javíthatunk pl. a nagyothallók beszédfelismerésén. Az audiovizuális beszédfelismerés és a videó beszédszintézis szorosan kapcsolódik a képfeldolgozás fejlődéséhez, a modern számítástechnikához. 1. Audiovizuális beszédszintézis A zajos beszédre figyelő ember hasonló helyzetben lehet, mint a beszéd felismerésében korlátozott nagyothalló. Közismert, hogy a siketek képesek szájról olvasni. Nagy jelentősége van az olyan kutatásoknak, amelyek szintetizált képpel próbálják utánozni a természetes beszélő hangképzését, audiovizuális eszközökkel segítve a beszéd megértését. Egyes rendszerek műfejet ábrázolnak. [1] Az arc mimikáját háromdimenziós modell alapján utánozzák. A vizsgálatok szerint a természetes emberi arcot megközelítő mértékben javítja a műfej a beszéd megértését zajos környezetben és hallássérülteknél. A grafikusan szintetizált vizuális beszéd olyan előnyöket is kínál, amelyek a valóságos beszélőnél jobban megkönnyítik a szájról olvasást. Pl. a fogak és a nyelv mozgása láthatóvá tehető félig átlátszó szintetizált arcon keresztül. A szintetizált mozgás kódolása rendkívül tömör, mindössze néhány száz bit másodpercenként. A vizuális szintetizátorok másik része [2, 3] valóságos beszélő adatainak felvételéből alakult ki. Ebben az esetben a beszélő felismerhető, ugyanúgy, mint az emberi hangfoszlányokból építkező akusztikus szintetizátor esetén. Érdekes kutatás eredménye a háromdimenziós modell megalkotása a kétdimenziós képek alapján. Ennek látványos demonstrációja volt, amikor egy mozifilm egyik kockájától kezdve a főhős arcát a kutató a saját arcára cserélte. [4]

2. Audiovizuális beszédfelismerés Régóta ismert, hogy ha látjuk is a beszélőt, nem csak a hangját halljuk, jobban felismerjük a beszédet különösen zajos környezetben. [5] Annak vizsgálatához, hogy mit várhatunk az audiovizuális gépi felismerőtől, hasznos, ha ismerjük, hogy az emberi beszédmegértést mennyire támogatja a vizuális jel. A vizsgálatok szerint különösen a hang képzési helyének felismerését segíti. Ebben a kísérletben a természetes beszédhez meghatározott pillanatnyi energiájú zajt adtunk. A képet a vizsgált szó sorszámával feliratoztuk. Csak akusztikus jelnél a sorszám látszott, audio-vizuális vizsgálatnál a beszélő képe is. [6] Benoît és társai azt vizsgálták, hogy az arc mely részei a legfontosabbak a beszéd felismeréséhez. [7] A legtöbb segítséget a száj adja, de szinte az egész test alátámasztja (vagy éppen cáfolja) a mondanivalót. A beszédfelismerő rendszerek tervezésekor a következő kérdések merülnek fel: Hogyan találjuk meg a képen a beszélő arcát, az ajkait vagy más beszédes testrészeit? Hogyan emelhetjük ki a lényeges vizuális információt a videojelből? Melyek a legfontosabb vizuális jellemzők? Hogyan lehet az audio és vizuális csatorna információit integrálni? A vizuális információ kinyerésére olyan algoritmusra van szükség, amely nem érzékeny a megvilágítás változásaira, a bőrszínre, a beszélő távolságára, mozgására, az arcszőrzetre, sminkre stb. Néhány rendszerben a kamera rögzített a beszélő fejéhez képest, pl. speciális sisakkal. Ha a beszélő szabadon mozoghat, első feladat az arc megtalálása. Ez rendszerint a bőrszín alapján történik. A bőr színezete elég érzéketlen a megvilágítás különbségeire és alig függ az emberi rasszoktól. Fekete- fehér képen a mozgás figyelése vezethet eredményre. A beszélő szája és álla végzi a legintenzívebb mozgást.[8] A hang és képi információk egyesítésére két módszer terjedt el: az elején vagy a végén egyesíthetjük a két úton kapott eredményeket. Ha az elején integrálunk, a felismerő bemeneti jeleként használjuk az akusztikus és a vizuális információt, és együtt dolgozzuk fel őket. Ha a végén integrálunk, a külön-külön feldolgozott eredményeket a végén vetjük össze. Létezik közbenső módszer is, amely az egyik jel feldolgozása közben veszi figyelembe a másik jelet. Máig megválaszolatlan kérdés, hogy az ember hogyan integrálja az akusztikus és vizuális jelet. Ennek vizsgálatára használják a McGurk hatást. 3. A McGurk hatás McGurk és MacDonald 1976-ban publikált cikkében adta közre a felfedezést, amely szerint, ha egy hangot hallunk egy másik hang képével párosítva, gyakran egy harmadik hangot érzékelünk. Tipikus példa, hogy b-t hallunk, g-t látunk és d-t érzékelünk. A jelenséget McGurk hatásnak nevezik. Az utóbbi két évtizedben az effektust igen intenzíven kutatják. Egyik oka az érdeklődésnek az, hogy azon kevés lehetőségek egyikéről van szó, amikor tiszta - zaj illetve torzításmentes hanggal végezhetünk kísérletet. Az a jellemző ugyanis, hogy a tiszta beszéd vizuális rásegítés nélkül is tökéletesen érthető, így a beszéd vizuális támogatása nem érzékelhető. A McGurk hatás pedig tiszta beszédnél is fellép. Egyetemi hallgatók bevonásával a McGurk hatás zajfüggését és magánhangzó függését vizsgáltuk. Ismereteim szerint magyar anyanyelvű hallgatósággal Grasseger végzett kísérleteket, de a tesztelt szöveg osztrák akcentusú német nyelvű volt. Az első kísérletben 6, 0, illetve +6 db-es jel-zaj viszonyú beszéd esetén vizsgáltuk a McGurk hatást. A különböző szótagokhoz ugyanazt a hangot szinkronizáltuk. A hallgatók

mindig b-t hallottak és b-t, d-t, g-t, vagy gy-t láttak. B válasz esetén hang dominanciát, d-b párnál d válasz esetén kép dominanciát állapítottunk meg. Ha g-t vagy gy-t láttak, b-t hallottak és d-t válaszoltak, McGurk hatást regisztráltunk. Az eredmények (1. ábra) 0 db-nél a Mc Gurk illúzió maximumát mutatják. Rosszabb minőségű beszédnél jobban hagyatkozunk a vizuális jelre, amit kép dominancia formájában is tapasztalhattunk. +6 db-nél a hang ad több támpontot, amit hang dominancia formájában is érzékelhetünk. 0-dB jel-zaj viszony körül alakul ki a McGurk hatás maximuma. A csatolt videón Ön is kipróbálhatja a McGurk hatást. Az anyagon szótagokat hall és lát, mindegyiket kétszer egymás után. Az akusztikus és vizuális jel eltérő. Minden bemondásnál be -t hallunk és mást-mást látunk. (Próbáljuk meghallgatni csukott szemmel.) Az első szótag a be (kétszer), nincs ellentmondás a kép és a hang között. A második szótag a de. Ha de -t hallunk, a vizuális jel dominál. Ezután ge és gye látszik és ahogy már megszoktuk be hallatszik. Ha de -t érzékelünk, érvényesült a McGurk hatás.

70 60 50 40 30 20 10 0-6 db 0 db 6 db 1. ábra A McGurk hatás 6, 0 és +6 db jel-zaj viszonynál (%). A következő kísérletben az előbbi mássalhangzókat a, e, illetve i magánhangzók követték. Az eredmények e környezetben jóval több illúziót mutattak, mint a hang előtt és kicsivel többet mint i előtt. 80 70 60 50 40 30 20 10 0 a e i 2. ábra McGurk hatás különböző magánhangzók környezetében (%). A McGurk hatás eltérő arányának egy lehetséges magyarázata, hogy a három hang közül ez a legnyíltabb, itt látható legjobban a hangképzés. Összefoglalás A rohamléptekben fejlődő számítástechnikai eszközök és szoftverek lehetővé teszik olyan multimédia anyagok előállítását, amelyek az audiovizuális emberi beszédmegértés kutatását segítik. Olyan alkalmazásokat fejlesztenek, amelyek megkönnyíthetik a nagyothallók beszédmegértését és a gépi beszédfelismerés hatékonyságát is javíthatják.

Irodalomjegyzék 1. D. W. Massaro: Perceiving Talking Faces MIT Press, 1998. 2. T. Kuratate: Kinematics Based Syntesis of Realistic Talking Faces AVSP 98 Sydney, 1998. 3. Philip Rubin, Eric Vatikiotis-Bateson: Talking Heads AVSP 98 Sydney, 1998 4. S. Morishima: Real-time Talking Head Driven by Voice and its Application to Communication and entertainment AVSP 98 Sydney, 1998 5. N. M. Brooke: Talking Heads and Speech Recognisers That Can See D.G. Stork, M. E. Hennecke: Speechreading by humans and machines Springer-Verlag 1996. 6. L. Czap: Audio and Audio-visual Perception of Consonants Disturbed by White Noise and Cocktail Party ICSLP 98 Sydney 7. C. Benoit, T. G. Marigny, B. Le Goff, A. Adjoudani: Which Components of the Face do Humans and Machines Best Speechread? D.G. Stork, M. E. Hennecke: Speechreading by humans and machines Springer-Verlag 1996. 8. M. E. Hennecke, D. G. Stork, K. V. Prasad: Visionary Speech: Looking Ahead to Practical Speechreading Systems D.G. Stork, M. E. Hennecke: Speechreading by humans and machines Springer-Verlag 1996. 9. H. McGurk, J. W. MacDonald: Hearing Lips and Seeing Voices. Nature, 264. 1976. 10. K. P. Green: The Use of Auditory and Visual Information in Phonetis Perception D.G. Stork, M. E. Hennecke: Speechreading by humans and machines Springer-Verlag 1996.