Látható beszéd: beszédhang alapú fejmodell animáció siketeknek



Hasonló dokumentumok
MPEG-4 modell alkalmazása szájmozgás megjelenítésére

Jelen cikkünkben beszámolunk az ez irányú kutatásokról: valamint saját erfeszítéseinkrl és a jövbeni törekvéseinkrl.

MPEG-4 modell alkalmazása szájmozgás megjelenítésére

MPEG-4 modell alkalmazása szájmozgás megjelenítésére

Hibadetektáló rendszer légtechnikai berendezések számára

Audiovizuális beszéd-adatbázis és alkalmazásai

Audiovizuális beszéd-adatbázis és alkalmazásai

Beszédjel átalakítása mozgó száj képévé siketek kommunikációjának segítésére

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Gépi tanulás és Mintafelismerés

Tárgy. Forgóasztal. Lézer. Kamera 3D REKONSTRUKCIÓ LÉZERES LETAPOGATÁSSAL

Mély neuronhálók alkalmazása és optimalizálása

Infobionika ROBOTIKA. X. Előadás. Robot manipulátorok II. Direkt és inverz kinematika. Készült a HEFOP P /1.0 projekt keretében

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

A VIZSGA LEÍRÁSA KÖZÉPSZINT VIZSGA. Írásbeli vizsga

Méréselmélet és mérőrendszerek 2. ELŐADÁS (1. RÉSZ)

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

JAVÍTÁSI-ÉRTÉKELÉSI MATEMATIKA ÚTMUTATÓ ÉRETTSÉGI VIZSGA KÖZÉPSZINT% ÍRÁSBELI. ÉRETTSÉGI VIZSGA február 21. OKTATÁSI MINISZTÉRIUM

Távérzékelés, a jöv ígéretes eszköze

Üzleti kommunikációs igények és piaci lehetségek

5. mérés: Diszkrét Fourier Transzformáció (DFT), Gyors Fourier Transzformáció (FFT), számítógépes jelanalízis

A KLT (Kanade Lucas Tomasi) Feature Tracker Működése (jellegzetes pontok választása és követése)

Robotok inverz geometriája

Piri Dávid. Mérőállomás célkövető üzemmódjának pontossági vizsgálata

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Digitális hangszintmérő

Multi-modális ember-gép kapcsolatok

Populációbecslések és monitoring

Egészségügyi Stratégiai Kutató Intézet Informatikai és Tájékoztatási Iroda

A mintavételezéses mérések alapjai

Mérés: Millikan olajcsepp-kísérlete

Audiovizuális beszédfelismerés és beszédszintézis. PhD értekezés tézisei. Czap László. Tudományos vezetők: Dr. Gordos Géza Dr. Vicsi Klára 2004.

BUDAPESTI MŐSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM

Algoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8.

Érdekes informatika feladatok

1. tétel. 1. Egy derékszögű háromszög egyik szöge 50, a szög melletti befogója 7 cm. Mekkora a háromszög átfogója? (4 pont)

Méréselmélet és mérőrendszerek

Szoftver fő funkciói. Diszpécser rádió GPS nyomkövetés Adatátvitel és tárolás Telefonhívások kezelése 1 / 7

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Gauss-Seidel iteráció

Neurális hálózatok bemutató

11.3. A készségek és a munkával kapcsolatos egészségi állapot

Kép mozaik és piramis készítése LANDSAT űrfelvételből dr. Siki Zoltán 2011

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

2018. MAGYAR KERESKEDELMI ÉS IPARKAMARA. Szakma Kiváló Tanulója Verseny. Elődöntő KOMPLEX ÍRÁSBELI FELADATSOR. Szakképesítés:

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Függvények növekedési korlátainak jellemzése

Mi van a Lajtner Machine hátterében?

Modern Fizika Labor. Fizika BSc. Értékelés: A mérés dátuma: A mérés száma és címe: 5. mérés: Elektronspin rezonancia március 18.

A digitális témahét program-tervezete

Képfeldolgozás. 1. el adás. A képfeldolgozás m veletei. Mechatronikai mérnök szak BME, 2008

MATEMATIKA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Láthatósági kérdések

AZ ÁLTALÁNOS ISKOLÁSOK IDEGENNYELV-TANULÁSI ATTITŰDJEI ÉS MOTIVÁCIÓJA

Gyarmati Andrea: A tevékenységadminisztráció informatizálásának lehetőségei a gyermekvédelemben

Modern Fizika Labor Fizika BSC

Képfeldolgozás Szegmentálás Osztályozás Képfelismerés Térbeli rekonstrukció

Diplomaterv. MPEG-4 paraméterekkel vezérelhető fej-animáció rendszer. Srancsik Bálint. Témavezető: Takács György

Az IVSZ.HU portál értékelése használhatósági szempontból

elemér ISKOLAI ÖNÉRTÉKELŐ RENDSZER TANULÓI KÉRDŐÍV

Populációbecslések és monitoring

Online algoritmusok. Algoritmusok és bonyolultságuk. Horváth Bálint március 30. Horváth Bálint Online algoritmusok március 30.

Példák jellemzőkre: - minden pixelérték egy jellemző pl. neurális hálózat esetében csak kis képekre, nem invariáns sem a megvilágításra, sem a geom.

1. Generátorrendszer. Házi feladat (fizikából tudjuk) Ha v és w nem párhuzamos síkvektorok, akkor generátorrendszert alkotnak a sík vektorainak

x = cos αx sin αy y = sin αx + cos αy 2. Mi a X/Y/Z tengely körüli forgatás transzformációs mátrixa 3D-ben?

Mozgáselemzés MEMS alapúgyorsulás mérőadatai alapján

Robotika. Relatív helymeghatározás Odometria

3. gyakorlat. 1/7. oldal file: T:\Gyak-ArchiCAD19\EpInf3_gyak_19_doc\Gyak3_Ar.doc Utolsó módosítás: :57:26

Normális eloszlás tesztje

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

A beszéd. Segédlet a Kommunikáció-akusztika tanulásához

10. Koordinátageometria

1 Rendszer alapok. 1.1 Alapfogalmak

Gépi tanulás a gyakorlatban. Bevezetés

III. Az állati kommunikáció

FELMÉRÉS A ROMÁN NYELV OKTATÁSÁRÓL

AUDIOVIZUÁLIS TARTALMAK BEFOGADÁSÁT SEGÍTŐ ESZKÖZÖK HATÉKONYSÁGA

[Biomatematika 2] Orvosi biometria

Nanokeménység mérések

Technikai követelmények: Ausztrál Nagydíj (2011)

Önálló labor beszámoló Képek szegmentálása textúra analízis segítségével. MAJF21 Eisenberger András május 22. Konzulens: Dr.

Multi-20 modul. Felhasználói dokumentáció 1.1. Készítette: Parrag László. Jóváhagyta: Rubin Informatikai Zrt.

Andó Mátyás Felületi érdesség matyi.misi.eu. Felületi érdesség. 1. ábra. Felületi érdességi jelek

Papp Ferenc Barlangkutató Csoport. Barlangtérképezés. Fotómodellezés. Holl Balázs negyedik változat hatodik kiegészítés 4.6

JAVÍTÁSI-ÉRTÉKELÉSI MATEMATIKA ÚTMUTATÓ ÉRETTSÉGI VIZSGA KÖZÉPSZINT% ÍRÁSBELI. ÉRETTSÉGI VIZSGA május 6. MINISZTÉRIUMA EMBERI ERFORRÁSOK

Távérzékelés a precíziós gazdálkodás szolgálatában : látvány vagy tudomány. Verőné Dr. Wojtaszek Malgorzata

Kontráné Hegybíró Edit, Sáfár Anna és Csizér Kata

Szerb Köztársaság FELADATOK AZ ÁLTALÁNOS OKTATÁS ÉS NEVELÉS ZÁRÓVIZSGÁJÁRA. a 2017/2018-as tanévben TESZT MATEMATIKÁBÓL UTASÍTÁS A TESZT MEGÍRÁSÁHOZ

Gépi tanulás a Rapidminer programmal. Stubendek Attila

A fejlesztés várt eredményei a 1. évfolyam végén

LOKÁLIS IONOSZFÉRA MODELLEZÉS ÉS ALKALMAZÁSA A GNSS HELYMEGHATÁROZÁSBAN

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ A MATEMATIKA KÖZÉPSZINTŰ ÍRÁSBELI 1. FELADATSORHOZ

Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás

Dinamikus programozás - Szerelőszalag ütemezése

Ismétlés nélküli kombináció

Balatonőszöd, június 13.

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

15. LINEÁRIS EGYENLETRENDSZEREK

Átírás:

Látható beszéd: beszédhang alapú fejmodell animáció siketeknek Feldhoffer Gergely 1, Bárdi Tamás 1 1 Pázmány Péter Katolikus Egyetem, Információs Technológiai Kar, 1083 Budapest, Práter utca 50/a, Magyarország {flugi, bardi}@itk.ppke.hu Kivonat: Elkészült egy fej-animációs rendszer, ami siketek számára beszédjelbl olyan szájmozgást állít el, hogy a siket felhasználó azt megérthesse. Egy olyan audiovizuális adatbázis készült el hozzá, amihez professzionális jeltolmácsok közremködését kértük. Az animációs részhez szabványos MPEG-4 fejmodellt használtunk. Sikerült olyan reprezentációt találni fkomponens analízis segítségével, aminél egy neuronháló képes volt az akusztikus jellegvektorokból kiszámítani az animációs paramétereket. A rendszer fontosabb elemei mobiltelefonra is elkészültek. Siket felhasználókkal végzett teszt 50% körüli felismerési pontosságot mutatott ki a képi adatokból és a hangból számolt animációra is. 1 Bevezetés Ennek a cikknek a témája egy olyan rendszer, ami siketeknek próbál segítséget nyújtani, hogy a kommunikációs lehetségek egy újabb irányát használni tudják. A legtöbb siket ember gyermekkorában a halló emberekkel való kommunikálásnak legalapvetbb módjaként a szájról olvasást tanulja meg. Emellett jeltolmácsok, illetve az írásbeli lehetségek azok, amiket használni tudnak, hogy a halló emberek üzeneteit megértsék. A másik irány, a siket ember üzenete a halló emberekhez, szintén tanulható. A siket fiatalok megtanulnak bizonyos szintig beszélni, ami ugyan árulkodik a képességbeli elmaradásról, de kis tanulással illetve megszokással érthet. Ez azt jelenti, hogy a telefonos kommunikációnak csak az egyik iránya hiányzik, a halló ember üzenetét nem tudja fogadni a siket, de a siket tud beszélni. Ha tehát a beszédjelbl olyan szájmozgás animációt tudunk elállítani, amit a siket meg tud érteni, akkor nincs akadálya a kétirányú kommunikációnak. A szakirodalom szerint a szájmozgás hangból történ teljes pontosságú visszaállítása lehetetlen feladat, mert többféle hanghoz tartozhat ugyanaz a mozgás, illetve többféle mozgáshoz tartozhat ugyanazon hang. Amit ebben a cikkben bemutatunk, az nem mond ellent ennek a tézisnek. Ennek az az oka, hogy nem az a cél, hogy az eredeti szájmozgást számoljuk ki a beszédjelbl, elegend, ha az egyik olyan animációt sikerül elállítani, ami az adott beszédhang-sorozatra olyan mértékben jellemz, hogy a siket ember képes megérteni. A rendszerünk egyik legfontosabb tulajdonsága, hogy elkerültük a diszkrét osztályozást, többek között a fonémákra vagy vizémákra való bontást, ezzel elvi akadálya

nincs a nyelvfüggetlenségnek, az kizárólag az adatbázis összeállításán múlik. Létezik vizéma alapú rendszer [5][2], ami egy beszédfelismer és egy arc szintetizátor összekötése. Ez a rendszer siketek számára nem elegenden életh. A mi megoldásunk egyik fontos elnye, hogy megtartja a természetes ritmust, és nem vét hibás fonéma meghatározásból ered hibát. Szintén fontos tulajdonsága a rendszernek, hogy programozható mobiltelefonon megvalósítható módszerekre szorítkoztunk. Ennek az oka az, hogy a siket felhasználó nem szívesen használ olyan eszközt, ami felhívja a figyelmet a fogyatékosságára, a mobiltelefon viszont társadalmilag nem megbélyegz. 2 Adatbázis 2.1 Elzetes felmérések A munka eltt felmértük, hogy milyen típusú kommunikációs formát tudnának a siketek megérteni és elfogadni. Ennek a felmérésnek már az elején világossá vált, hogy nem szívesen használnának olyan vizualizációt, amit tanulniuk kell, így a beszél száj animációjában találtuk meg azt a formát, ami megoldható és használható is. Természetesen kényelmesebb lenne a siket embernek a szöveggé alakítás, mert szájról olvasni kimerít tevékenység, de folyamatos beszéd felismerése telefonon keresztül máig egy igen nehéz, nagy adatbázisokat és számítási kapacitást igényl feladat, ami programozható telefonon a mai teljesítmény mellett nem reális cél. A feladat rögzítése után felmértük, hogy milyen paraméterek befolyásolják a beszél emberrl készült felvételek érthetségét. A felmérések azt igazolták, hogy egy mobiltelefon méret kijelzn, aminek a felbontása 320x208 pixel, érthet egy olyan felvétel, amin csak a száj környéke látható. Ugyanakkora felismerési arányt tapasztaltunk nagyobb felbontású, vagy nagyobb kijelzkön, és idbeli felbontásban elegendnek bizonyult 12 kép/másodperc is. Ez azt jelenti, hogy a mobiltelefonon megvalósított rendszer érthetségét a készülék technikai paraméterei nem korlátozzák. Ennek a felmérésnek a legfontosabb tanulsága az volt, hogy az érthetség minden technikai paraméternél jobban függ attól, hogy a beszél mennyire képes igazodni a siketek igényeihez. Azt a felvételt, amin a beszél már sokat foglalkozott siket emberekkel, a legrosszabb technikai körülmények között is majdnem pontosan értették, míg a gyakorlatlan beszélket a felszereléstl függetlenül kevéssé. Egy másik felmérésben arra voltunk kíváncsiak, hogy a felismerésben számít-e az, hogy a felvételen látható arc árnyalataiból az eredeti háromdimenziós fej rekonstruálható. Az erre a kérdésre adott válasz dönti azt el, hogy szükség van-e a száj mozgásának háromdimenziós rögzítésére, vagy elegend kétdimenziós, pontkövet vagy kontúrkeres algoritmusok használata. A felvételeket torzítottuk, hogy eltnjenek az árnyalatok, bizonyos felvételeken csak a szájkontúr volt kivehet. A felismerend szavak véletlen kétjegy számok voltak. A siketek a torzított videókat ugyanolyan pontosan megértették, mint az eredetieket. Ezért használtunk a késbbiekben olyan rögzítési eljárást, ami egyetlen kamerának a képébl dolgozva nyeri ki a száj állapotát.

A teszteléshez fontos a siketek kontextus követésének elemzése. Írásbeli és írásosmozgóképes vegyes teszteket végeztünk, ahol meggyzdtünk arról, hogy annak ellenére, hogy írásban sok nyelvtani hibával kommunikálnak, a kontextust jól megértik, történetek szereplinek cselekményeit akkor is követni tudják, ha az nyelvtanilag csak a toldalékokból derül ki, holott a toldalékokat írásban nem használják. Kiderült az is, hogy a siketek szókincse szk, például, amikor egy állatról szólt a szövegkörnyezet, akkor a gebe szót azért nem ismerték fel, mert nem tartozik a szókincsükhöz. A feladat szempontjából ez nem okoz problémát. 2.2 MPEG-4 A világban sokféle arc-animációs rendszer terjedt el, többségükben az MPEG-4 szabvány szerint paraméterezhetek. Ez a szabvány rögzíti az arc fbb pontjait (feature point, továbbiakban tartópont), azokat képes normálni, és így arc állapotokat lehet különböz alakú fejre illeszteni. Léteznek MPEG-4 szabvány szerint mköd szövegfelolvasó rendszerek, amik egy beszédszintetizátor és egy fejmodell párhuzamos meghajtásával mködnek. Munkánkhoz a Cosi és társai [3] által létrehozott Lucia fejmodellt használtuk. Fig. 1. Az MPEG-4 általunk is használt tartópontjai. A tartópontokon kívl létezik az MPEG-4-ben magas szint animációs leírás is, ami vizémákra alapul, ami a fonémákhoz tartozó száj-állapotokat jelenti. Ezeket nem használtuk, mert a rendszerünk nem dolgozik fonémaszinten.

2.3 Az adatbázis rögzítése Az elzetes felmérések tanulsága szerint az adatbázist hivatásos jeltolmácsok szereplésével készítettük. A száj körüli tartópontokat kellett tehát adatbázisban rögzíteni. Ezeket olyan videó felvételekkel készítettük el, ahol a modell arcán megjelöltük az FP pontokat. A videó felvételt automatikus módszerekkel dolgoztuk fel, ami a következ lépéseket jelenti: színkiemelés, binarizálás, dilatáció, erózió. A kapott eredményeket manuálisan javítottuk, ahol az automatikus módszer hibázott. Ezek a helyzetek jellemzen a felpattanók gyors mozgása, vagy a csücsörítés megváltozott fényviszonyai miatt léptek fel. A felvétel közben jó minség hangfelvétel készült (48kHz, 16 bit), amit szinkronizáltunk a videó felvétellel. (Fig. 2) Fig. 2. A szeptember szó az adatbázisban. Az ábrán az energia, a beszédjel, és a száj küls kontúrja látható az idben. A beszédjelen a videó sebességéhez igazított ablakozást használtunk, a PAL rendszer 25 kép/másodperc sebességénél ez 40ms. Így minden képhez tartozott egy hangszakasz. Ez a hangszakasz 48kHz mintavételezés mellett 1920 mintát jelent. Ezen szakaszhosszból kiválasztottuk a maximális ketthatványt, ez 1024 jel, amin Radix-2 FFT algoritmust futtattunk Hamming ablakkal. Az eredményt mel skála szerint 16 sávban összegeztük, majd cosinus transzformációval kiszámítottuk a cepstrumot (MFCC).

A telefonon futó alkalmazásnál 8kHz mintavételezés mellett az ablakméretek 320- nak illetve 256-nak adódnak. A magasabb mintavételezéssel tanított hálózatot használni lehet az alacsonyabb mintavételezés készülékeken a mel skála igazításával. A videó felvételbl nyert pontokon lényegkiemelést végeztünk fkomponens analízissel (1). Az els 6 fkomponens használatával az eredeti adatok 1-2%-os hibával történ rekonstruálása lehetséges, ami átlagosan 1 pixel elmozdulást jelent a PAL szabványú képen. Ez a hiba elhanyagolható, hiszen 720x576 pixeles felbontás mellett van tartópont, ami 120 pixelnyi tartományban mozog. w 1...6 = P 1 B p 1 1.. p A 16 dimenziós hangi és a 6 dimenziós képi adatokat neuronháló tanításával kapcsoltuk össze. A neuronháló bemenete 5 egymást követ MFCC ablak, a kimenete pedig a középs ablakhoz tartozó képkocka fkomponens-térben adódó koordinátái. A neuronháló 40 rejtett neuront tartalmaz. Felmerül a kérdés, hogy az itt használt 40ms hosszú ablak alkalmas-e a beszédbl szájmozgássá alakításhoz. A beszédfeldolgozó rendszerek mindig rövidebb ablakot használnak. A beszédre jellemz szájmozgásnál a küls szemlél azt a hatást látja, amit a szájmozgató izmok okoznak. Ezek az izmok jóval lassabban képesek csak mozogni, mint a nyelv, vagy más, a hangot befolyásoló izmok. Még ennél is fontosabb, hogy megkülönböztethetünk fonémákat dominancia szempontból. [4] Azt nevezzük domináns fonémának, ami meghatározza a száj állását, ilyenek a magánhangzók és az ajakhangok. A domináns fonémák a szomszédos nem domináns fonémákra es szájállást is befolyásolják. A rendszer 5 egymást követ szakasszal dolgozik, melyek összesen 200ms idtartamot fognak át. Ez az átlagos fonémahosszak alapján valószínsíti, hogy az 5 ablak közül legalább egy domináns fonéma tiszta fázisába essen. (Fig. 3) Ez a neuronhálózat tanulása szempontjából már elegend. A 200ms késés nem jelent problémát, mert az információ csak ebben a modalitásban érkezik, és a 200ms belül van az emberi dialógusok toleranciahatárán. 1 6 (1) Fig. 3. Az öt egymást követ ablak. Két ablak kezdpontja között 40ms a távolság.

2.4 Az adatbázis tartalma Az adatbázisban szerepelt egy rövid általános tanító rész, ami a magánhangzókat egyenl számban tartalmazta. Az adatbázis nagyobbik részét olyan anyag teszi ki, ami lehetséget ad közvetlen tesztelésre siket felhasználókkal. A rendszer minségének a mérésére ugyanis úgy kerülhet sor, ha a felhasználók látnak olyan szintetizált képet is, amit az adatbázis képi anyagából nyerünk, és ennek a lehet legjobb minség módja az, ha az adatbázisban rögzítünk olyan frázisokat, amik a tesztelés során egyben felhasználhatóak. A teszt során olyan szituációt modelleztünk, amiben figyelembe vettük a siketek jó kontextus követését, ezért megszorítottuk az anyagot olyan tartalomra, mint egy- és kétjegy számok, hónapok nevei, hét napjai. Ezek folyó szövegben mindig úgy helyezkednek el, hogy a kontextusból tudható a halmaz, de az, hogy melyik elem a több közül, az bizonytalan. 3 A rendszer A kész rendszer fbb alkotóelemei a hangkezel rész, ami a telefon mikrofonját olvasva elvégzi az adott hosszúságú ablakokra vágást, a jellegvektorok kiszámítása, neuronháló, fkomponens analízis, és fejmodell szintetizálás. (Fig. 4) Az MFCC adatok elállításához Radix-2 FFT algoritmust használunk, ami egy programozható mobiltelefonon is alkalmas valósidej elemzésre. Akusztikus lényegkiemelés MFCC NN PCA -1 MPEG4 alapú mozgó száj megjelenítés w 1 w 6 fkomponens súlytényezk FP Tartópont koordináták Fig. 4. A rendszer áttekintése.

3.1 Neuronháló A tesztelt rendszer neuronhálózata 80 bemenettel rendelkezik, ami 5 keret, egyesével 16 MFCC együttható. A kimeneten 6 érték jelenik meg, ami az adatbázis adataiból nyert fkomponensek els 6 összetev által kifeszített térben 6 koordináta. A neuronhálózat egy hagyományos hiba visszaterjesztéses neuronháló (backpropagation), aminek a számítási kapacitását egy mátrixszorzásra alapuló technikával gyorsított fel Davide Anguita. [1] Ez a neuronháló 1 000 000 epoch tanítás után került tesztelésre siket felhasználókkal. 3.2 PCA A fkomponens analízisnek több elnye van. Elssorban a rendszer mködképességének szempontjából fontos, hogy komolyabb adatveszteség nélkül dimenziót lehet csökkenteni. Ez esetünkben a 30 dimenziós pixeltér és a 6 dimenziós fkomponensek által kifeszített tér közötti különbség. A PCA használata eltt futtattunk neuronháló tanításokat pixeltérben is, és több mint 300 millió epoch után sem volt használható a hálózat kimenete. Az ilyenformán tanított neuronhálózat is egyetlen szabadsági fok mentén mozdult el: az állkapocs nyílása. A probléma az volt, hogy neuronhálózatnak kellett megtanulnia azt is, hogy a száj körüli pixelek általában hogyan helyezkednek el, és az együtt mozgásuk általában milyen. Ezt a terhet veszi le a neuronhálóról a PCA térben felírt száj állapot leírás. A PCA koordinátarendszerében ugyanis az általános mozdulat-összetevk már megvannak, egyszeren ezek együtthatóival reprezentáljuk az állapotot. A másik elnye a PCA-nak, hogy igen egyszer használni. A pixeltérbe való viszszaszámolás egy konstans mátrixszorzással megoldható. (2) B k = ( w + c) P k Matlab kódot készítettünk, ami a gyjtött adatbázisból automatikusan kiszámítja a fkomponenseket, átírja az adatbázis pixeltérben rögzített értékeit PCA térbe, és elkészíti azt a C kódrészletet, amivel a visszakódolás elvégezhet. Azért használunk generált kódot kimentett értékek fájlkezeléssel való feldolgozása helyett, mert a mobil platformon így jóval egyszerbb dolgozni. A PCA további lehetségeket is rejt. Ezek közül a legérdekesebb az, hogy a PCA alkalmas arra, hogy objektív véleményt formálhassunk az adatbázishoz készített felvétel minségérl az olvashatóság tekintetében. Azt figyeltük meg, hogy a siketekkel dolgozó, a szájmozgására tudatosan figyel és rutinos személyek fkomponensei jól megkülönböztethetek a képzetlen szereplkétl. A különbség a fkomponensek sorrendjében van. A fkomponens analízis ugyanis fontossági sorrendbe állítja a fkomponenseket, az els fkomponens az az iránya a sokdimenziós pontfelhnek, amerre a szórás a legnagyobb. Esetünkben az állkapocs nyitásához kapcsolódó fkomponens az, aminek a súlya lényegesen megelzi a többit, a szórás körülbelül 70%- áért felels. Ebben minden szerepl közös: az els fkomponens mindig ez. A másodiktól a negyedikig azonban eltér a sorrend. A képzett, professzionális beszél fkomponensei mind vizéma megkülönböztet szerepet töltenek be, olyan mozdulato- (2)

kat, mint a száj széthúzása ( csííz ), vagy a csücsörítés. (Fig. 5) A képzetlen beszélknél igen komoly helyezést érnek el, a vizémákat nem megkülönböztet, beszédszokásokhoz, emóciókhoz kapcsolható mozdulatok, mint például a száj tekerése, oldalra elhúzásával nyitása.(fig. 6) Fig. 5. Profi beszél fkomponensei. Látható az els három mozdulatkomponens vizéma megkülönböztet szerepe. Fig. 6. Gyakorlatlan beszél fkomponensei. Már a második fkomponens 3.3 Fejmodell A folyamat végén a fejmodell áll, ami megkapja azon pixelek koordinátáját, ahol a tartópontoknak lenniük kell a 2 dimenziós felvételen. Ebbl ki lehet számolni a 3 dimenziós MPEG-4 tartópontokat.[6] Ez úgy lehetséges, hogy a legtöbb mélységi komponenst elhanyagoljuk, csak az állkapocs hátramozdulását számítjuk bele a koordinátákba, illetve, hogy a száj normál állapotától vett távolságokból fejezzük ki az egyes tartópontok helyét. Az így kapott tartópontok alapján az arc szintézise azon alapul, hogy értelmezünk minden tartópont köré egy hatókört, ami azt a brfelületet reprezentálja, amit a tartópont magával húz, amikor mozog. Ez a technika a száj vonalánál igényel körültekintést, a hatóköröket úgy kell megadni, hogy az alsó és a fels ajak között ne legyen átfedés, különben a száj bels kontúrja nem nyílna ki. Az állka-

pocsnál is van egy kis probléma: az állkapcson elhelyezett tartópontnak az egész állkapcsot mozgatnia kell, de ez nyers formában olyan rajzfilmszer mozgást eredményez, mintha az állkapocscsont függlegesen eltolódva nyitná a szájat, nem pedig elfordulva. Ezt a problémát úgy oldottuk meg, hogy tettünk egy el nem mozduló tartópontot az állkapocs tengelyének két oldalára. Ezzel elértük, hogy a súlyozott elmozdulások eredje jól imitálja az állkapocs lefelé elfordulását. 4 Eredmények, fejlesztési lehetségek A rendszer által elállított animációkat bemutattuk siketeknek. Kontrollként valódi videó felvételt is mutattunk, illetve azt a fej-animációt is, aminek a paramétereit nem a hangból, hanem egyenesen az adatbázisban rögzített mozgásból állítottunk el. Ezt az tette lehetvé, hogy az adatbázisban tárolt paraméterek és a fejmodell paramétereit igyekeztünk egyformára csinálni. A arcra felfestett pontok pontatlanságát utólag korrigáltuk, hogy a fejmodell mozgása a lehet legpontosabban kövesse az eredeti felvételt. Összesen 70 rövid mozgóképet mutattunk, egy- és kétjegy számokat, hónapneveket és a hét napjait. A mozgóképek között volt valódi felvétel, az adatbázishoz készült felvétel egy-egy részlete. Volt a képi adatok felhasználásával meghajtott szintetizált fej, és volt hangból számított fejmozgás. A valódi videó felismerési aránya 97% volt. Annak az animációnak, ami a képi adatok felhasználásával készült, 55%-os lett. A hangból számított animáció felismerése 48%-os volt. Recognised words 0% 50% 100% 97,10% 54,90% A B C 47,90% Fig. 7. Felismerési pontosságok a különböz mintákon: eredeti felvétel professzionális jeltolmáccsal (A), szintetikus arc, aminek a paraméterei az adatbázis képi adataiból származik (B), illetve hangból számolt szintetikus arc (C) Ebbl az a következtetés vonható le, hogy a fejmodellünk részletessége a f probléma. Nyilvánvaló hiányosság, hogy nincs információ a száj bels kontúrjáról, a fogak és a nyelv láthatóságáról. Ezeket a paramétereket nem lehet pontok felfestésével megoldani, ezért a jelenlegi kutatás ebben az irányban is zajlik, új képfeldolgozó eljáráso-

kat vizsgálunk meg. Ugyancsak kutatás folyik abban az irányban is, hogy hogyan lehet összekapcsolni több személy adatait, a jelenlegi rendszer ugyanis csak egy ember hangjának és szájmozgásának összekapcsolását tudja megtanulni. Köszönetnyilvánítás Ezúton köszönjük az együttmködést a Siketek és Nagyothallók Országos Szövetségének, és a siketeknek, akik segítettek tesztelni, a T-Mobile-nak, Dr Takács Györgynek, Tihanyi Attilának, Srancsik Bálintnak, és Harczos Tamásnak. Bibliográfia 1. Anguita D.:Matrix Back Propagation An efficient implementation of the BP algorithm. Technical report, DIBE University of Genova (1993) 2. Beskow J.: Talking Heads, Model and Applications for Multimodal Speech Synthesis: Doctoral Dissertation, Stockholm (2003) 3. Cosi P., Fusaro A., Tisato G.: Lucia a New Italian Talking Head Based on a Modified Cohan-Massaro s Labial Coarticulation Model. Proceedings of Eurospeech 2003, Geneva, Switzerland (2003) 2269 2272 4. Czap L., Mátyás J.: Virtual Speaker, Híradástechnika, selected papers (2005) 2-5 5. Granström B., Karlsson I., Spens K-E.: SYNFACE a project presentation, Proc of Fonetik, TMH-QPSR (2002) 93-96 6. Takács Gy., Tihanyi A., Bárdi T., Feldhoffer G., Srancsik B.: MPEG-4 modell alkalmazása szájmozgság megjelenítésére, Híradástechnika 2006 8.