MPEG-4 modell alkalmazása szájmozgás megjelenítésére



Hasonló dokumentumok
MPEG-4 modell alkalmazása szájmozgás megjelenítésére

MPEG-4 modell alkalmazása szájmozgás megjelenítésére

ADALÉKOK A DUNA HAJÓZÁSI CÉLÚ FEJLESZTÉSÉVEL

Számítógépes Arc Animáció

NYÍREGYHÁZI FŐISKOLA TANÍTÓKÉPZŐ INTÉZET. Útmutató a szakdolgozat készítéséhez tanító szakon

Szakmai beszámoló. az OTKA F számú kutatási projektről

Zalaegerszegi Intézet 8900 Zalaegerszeg, Gasparich u. 18/a, Pf. 67. Telefonközpont: (06-92) Fax: (06-92)

ERserver. iseries. Szolgáltatási minőség

Szemle Beregszászi Anikó és Csernicskó István: itt mennyit ér a szó? Írások a kárpátaljai magyarok nyelvhasználatáról.

Diplomaterv Oroszi Balázs Témavezető: Takács György

TANULMÁNY A BÍRÓSÁGOK KÖZÉRDEKŐ ADATOK KÖZLÉSÉNEK GYAKORLATÁVAL KAPCSOLATBAN VÉGZETT KUTATÁSRÓL

A beszerzési logisztikai folyamat tervezésének és működtetésének stratégiái II.

GÁZMINŐSÉGEK VIZSGÁLATA AZ EGYSÉGES EURÓPAI GÁZSZOLGÁLTATÁSI SZABVÁNY VONATKOZÁSÁBAN

GPS-mérések abszolút feldolgozását terhelô hibahatások vizsgálata

A CSUKA ZOLTÁN VÁROSI KÖNYVTÁR I. FÉLÉVI BESZÁMOLÓJÁNAK SZÖVEGES ÉRTÉKELÉSE

Alapfokú nevelés-oktatás szakasza, alsó tagozat, 1 4. évfolyam

4. sz. Füzet. A hibafa számszerű kiértékelése 2002.

SZAKMAI JAVASLATOK AZ ÚJ SZÉCHÉNYI TERV KÖZÖS TERVEZÉSÉHEZ SZEPTEMBER 15.

SZTEREO (3D-S) FOTÓLABOR AZ INFORMATIKATEREMBEN

(11) Lajstromszám: E (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA. (51) Int. Cl.: A61B 17/17 ( ) 11. ábra

PENTA UNIÓ Zrt. A nemzetközi munkaerő-kölcsönzés személyi jövedelemadó kérdésének vizsgálata Magyarországon és egyes tagállamokban NÉV: SZABADOS ÉVA

INFORMATIKA HELYI TANTERV

Kerettanterv Alapfokú nevelés-oktatás szakasza, alsó tagozat, 1 4. évfolyam

Hajdúsági Kistérség Területfejlesztési Koncepciója és Programja HELYZETÉRTÉKELÉS 2005.

Felhasználói kézikönyv M1090 Marine típusú szelepmotor 3-utas szelepekhez

Zalaegerszegi Intézet 8900 Zalaegerszeg, Gasparich u. 18/a, Pf. 67. Telefonközpont: (06-92) Fax: (06-92)

Projekt: ÁROP-1.A Gyöngyös Város Önkormányzatának szervezetfejlesztése

A controlling integrálódása az oktatási szférában

ÉSZREVÉTELEK A JOGI SEGÍTSÉGNYÚJTÁSRÓL SZÓLÓ SZABÁLYOZÁS JANUÁR 31-ÉN LEZÁRT KONCEPCIÓJÁHOZ

1. ábra Légijárm-típus ablak

Irinyi József Általános Iskola 4274 Hosszúpályi Szabadság tér HELYI TANTERV Informatika 4. osztály 2013

MSZAKI ZOMÁNCOK ÉS ÜVEGEK ELLENÁLLÁSI VISEL- KEDÉSE IGEN KORROZÍV KÖZEGBEN Dr. Günter Schäfer - Pfaudler Werke GmbH

17/2001. (VIII. 3.) KöM rendelet

Az építész- és az építőmérnök képzés szerkezeti és tartalmi fejlesztése

2. A 9-es játék. 3. A 8-as játék. 4. A 14/1-es játék

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

A játékok biztonságáról szóló 2009/48/EK irányelv

3. gyakorlat. 1/7. oldal file: T:\Gyak-ArchiCAD19\EpInf3_gyak_19_doc\Gyak3_Ar.doc Utolsó módosítás: :57:26

A fogyasztók élelmiszerekkel kapcsolatos tájékoztatása ***II

JAVO-STANDARD TÖLTŐGÉP (KONTÉNEREZŐGÉP)

1. ZÁRTTÉRI TŰZ SZELLŐZETÉSI LEHETŐSÉGEI

tudod-e? Az elektrét 3-bisz(2-hidroxietil)-ammónium-propil-2-hidroxietil-oktadecil ammónium-fluorid Felhasznált irodalom Máthé Enik II.

Tűgörgős csapágy szöghiba érzékenységének vizsgálata I.

MARKETINGELMÉLET. A stratégiai marketingtervezés alapjai. Kutatási módszerek

TARTALOMJEGYZÉK VÉLEMÉNYEZÉS, ELFOGADÁS, JÓVÁHAGYÁS... HIBA! A KÖNYVJELZŐ NEM LÉTEZIK.

Orvosi diagnosztikai célú röntgenképfeldolgozás

(11) Lajstromszám: E (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA

A közbeszerzési jogorvoslat egy másik útja (vázlat) Bevezetés

AZ EURÓPAI UNIÓ TANÁCSA. Brüsszel, december 1. (03.12) (OR. en) 16555/10 Intézményközi referenciaszám: 2008/0028 (COD)

ZOMÁNCOZOTT ACÉLLEMEZ SZEGMENSEK- BL CSAVARKÖTÉSSEL SZERELT TARTÁ- LYOK ÉS SILÓK: MÚLT ÉS JÖV

több időt ad a tanulónak: pl. egy hét. A tanár ezeket is minden esetben ellenőrzi.

A középfokú szakképzésben tanulók átmenete a munka világába; a munkahelyi elvárásokra és kiválasztási folyamatra való felkészítés vizsgálata

Felhívás észrevételek benyújtására az állami támogatások kérdéskörében a Bizottság általános csoportmentességi rendelettervezetére vonatkozóan

(11) Lajstromszám: E (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA

Papp Gábor Előadás, október 19. Bűnözés és vándorlás

ÜGYVEZETŐK I. BIZTOSÍTÁSI JOGVISZONY. 1. jogviszony-történet

Technikai követelmények: Ausztrál Nagydíj (2011)

Hosszú Zsuzsanna Körmendi Gyöngyi Tamási Bálint Világi Balázs: A hitelkínálat hatása a magyar gazdaságra*

(11) Lajstromszám: E (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA

A BIZOTTSÁG JELENTÉSE AZ EURÓPAI PARLAMENTNEK, A TANÁCSNAK, AZ EURÓPAI GAZDASÁGI ÉS SZOCIÁLIS BIZOTTSÁGNAK ÉS A RÉGIÓK BIZOTTSÁGÁNAK

Érintésvédelemmel kapcsolatos jogszabályok

Az óvodapedagógus és tanító ideát szolgáló gyakorlati képzés fő jellemzőinek meghatározása, alapelvek

A Közbeszerzési Döntőbizottság (a továbbiakban: Döntőbizottság) a Közbeszerzések Tanácsa nevében meghozta az alábbi. HATÁROZAT-ot

Útmutató. a szakdolgozat elkészítéséhez. Szegedi Tudományegyetem Egészségtudományi és Szociális Képzési Kar

Rába Járműipari Holding Nyrt.

Az IVSZ.HU portál értékelése használhatósági szempontból

7 sávos, egyszerű, függőleges körsugárzó

Stratégiai menedzsment

Hallgatók a Tudomány Szolgálatában

Word 2010 magyar nyelvű változat

OBJEKTUMORIENTÁLT TERVEZÉS ESETTANULMÁNYOK. 2.1 A feladat

Emberi jogok és szociális munka modul

1 Rendszer alapok. 1.1 Alapfogalmak

Az ellenőrzés módszertana

SZENT ISTVÁN EGYETEM

9. A FORGÁCSOLÁSTECHNOLÓGIAI TERVEZŐ-RENDSZER FUNKCIONÁLIS STRUKTÚRÁJA

Magyar Bányászati és Földtani Hivatal Szolnoki Bányakapitányság

A madymo program. 1. ábra Madymo alkalmazása

AZ EURÓPAI PARLAMENT ÉS A TANÁCS 138/2004/EK RENDELETE (2003. december 5.) a közösségi mezőgazdasági számlarendszerről. (HL L 33., , 1. o.

Debreceni Egyetem Agrárgazdasági és Vidékfejlesztési kar. Gyümölcsösök szükséges tápanyag-utánpótlását meghatározó program

MŰANYAGOK TULAJDONSÁGAI

ELŐTERJESZTÉS. A Képviselő Testület január 27-én tartandó üléséhez

HEFOP Korszer feln ttképzési módszerek kidolgozása és alkalmazása. A szakképzés rendszere

Az építési műszaki ellenőr képzés a gyakorló szakemberek szemével

Bánhalmi Árpád * Bakos Viktor ** MIÉRT BUKNAK MEG STATISZTIKÁBÓL A JÓ MATEKOSOK?

Az enyhe értelmi fogyatékos fővárosi tanulók 2009/2010. tanévi kompetenciaalapú matematika- és szövegértés-mérés eredményeinek elemzése

beolvadási hibájának ultrahang-frekvenciás kimutatása

Az egyéni és társas gazdaságok gazdasági szerepének f bb jellemz i a magyar mez gazdaságban

MATEMATIKA 5 8. ALAPELVEK, CÉLOK

Dr. Karl Blum et al.: Kórházbarométer 2015 Krankenhaus Barometer 2015 (2. rész) Deutsches Krankenhaus Institut, Düsseldorf, 2015 november (2-19. p.

(11) Lajstromszám: E (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA

6. Ismertesse a tűzoltás módjait és a kézi tűzoltó készüléket! Tűzoltás eredményessége függ: - a tűzeset körűlményétől - a tüzet észlelő személy

J/55. B E S Z Á M O L Ó

Digitális írástudás, társadalmi szegmentáltság

A Győr-Moson-Sopron Megyei Bv. Intézet személyes adatokra vonatkozó Adatvédelmi és Adatbiztonsági Szabályzata

Rain EVO 1-4 Elemes vezérlő automatika

Beszámoló az EU jogi szabályozásáról a NU-AGE projekttel összefüggésben

BIHARKERESZTES VÁROS POLGÁRMESTERI HIVATALA

62/2006. (VIII. 30.) GKM rendelet. az elektromágneses összeférhetőségről

Átírás:

MPEG-4 modell alkalmazása szájmozgás megjelenítésére Takács György, Tihanyi Attila, Bárdi Tamás, Feldhoffer Gergely, Srancsik Bálint Pázmány Péter Katolikus Egyetem Információs Technológia Kar 1083 Budapest Práter utca 50/a Telefon: +(36) 18864763, Fax: +(36) 18864724, email {takacs.gyorgy, tihanyia, bardit, flugi, sraba}@itk.ppke.hu 1. ÖSSZEFOGLALÓ Az MPEG-4 kódolást multimédia alkalmazások, mozgó fejek életh megjelenítése figyelembe vételével fejlesztették. Az általános célú, nyílt forráskódú LUCIA modellt alkalmassá tettük mozgó száj képének megjelenítésére. A fejlesztésben kiemelten kezeltük a siketek speciális igényeit. Törekedtünk számítási erforrások minimális igénybe vételére, hogy az alkalmazás mobil eszközökön is megvalósítható legyen. Fontos eredménynek tartjuk, hogy az MPEG-4 animáció mködik akkor is, ha nem képpontok mintavételezése alapján származtattuk a tartópont paramétereket, hanem beszédjelbl számoltuk azokat. 2. ELZMÉNYEK Egy teljes rendszert dolgoztunk ki, amely alkalmas arra, hogy beszédjelbl mozgó száj képét állítsa el. A mozgó szájról siketek képesek a beszédet leolvasni. A rendszer ismertetése ugyanezen folyóirat számban megtalálható [3]. Itt azokat a részleteket és általános megfontolásokat taglaljuk, amelyek kifejezetten a megjelenít egységre vonatkoznak. 1. ábra Mozgó száj elállítási vázlata Folyamatos beszédjelbl mozgókép folyamot hozunk létre. Ez egy olyan transzformáció amelynek lényegi részét egy neurális hálózat hajtja végre. A neurális hálózat komplexitását korlátok között kellett tartani, ezért elengedhetetlen volt az emberi beszédfolyamat lényegét jól megragadó, tömör és hatékony leírása a vizuális beszédnek. A neurális hálót elfeldolgozott hangadatokkal tanítottunk és képi koordinátákon vártunk a kimeneteken. Fkomponens analízist alkalmaztunk a képi koordináták tömör reprezentálására. Így mindössze 6 kimeneti jellemz kisseb, mint 2% hibával leírta a szükséges képi koordinátákat. A rendszer fejlesztésében külön kezelt probléma volt a mozgókép megjelenítés modellje. 3. AZ MPEG-4 SZABVÁNY FEJMOZGÁSOK TÖMÖRÍTETT KÓDOLÁSÁRA Az MPEG (Moving Picture Expert Group) szabványok f célja a hang és videó jelek tömörítése. A tömörítés alapvet követelményei a hatékonyság és élethség. A multimédia-alkalmazásokban elterjedt az MPEG-2 kódolás. Az ezt meghaladó MPEG-4 kódolás is ígéretes jöv eltt áll, ugyanakkor céljainkat közvetlenül támogatja. Az MPEG-4 nem csak nagy tömörítésre alakították ki, hanem figyelembe vettek olyan multimédia alkalmazásokat is, mint 3D-s jelenetek, animációk, szintetizált hangok, képek, szövegek, grafikák külön vagy akár együttes kezelése és életh megjelenítése. Az MPEG-4 szabvány egyik legösszetettebb része a fej és az emberi test megjelenítése és mozgatása (FBA - Face and Body Animation). Az FBA-ra vonatkozó szabványrész leírja az arc és a test alakjának és mozgásának kódolási alapelveit. Az FBA egyik legfontosabb tulajdonsága tehát, hogy nem adja meg pontosan a kódolási és a dekódolási eljárást, csak a küldött adat formáját és értelmezését. Az MPEG-4 szabvány az arc modelljét az arc normál állapotával írja le, megad a több tartópontot (Feature Point - FP) és az arc mozgását leíró paramétereket (Facial Animation Parameter - FAP), mely lényegében a normál archoz képesti elmozdulást jellemzi. Az elmozdulások méretét és arányát a szabvány szerint mindig az emberi arcra jellemz alapvet méretek alapján fejezi ki. A szakirodalomban ennek elterjedt rövidítése FAPU (Face Animation Parameter Unit). A 6. ábra mutat magyarázatot erre. A FAPU-kat az arc olyan jellegzetes távolságaiból kell számolni, mint például a szemgolyók távolsága vagy a száj szélessége. A szabványban 84 tartóponttal írják le az arcot. (Az adatbázisunk összeállítása során mi 15 FP-t használtunk a száj és környékének leírására).

2. ábra Felhasznált tartópontok A tartópontok f feladata, hogy referenciaként szolgáljanak a FAP-ok számára. A FAP-ok által leírt összetett mozgások mindig a normál tartópontok által leírt fejre vonatkoznak. A normál fej csukott szájat és semleges arckifejezést jelent. Vannak olyan FP-k is, melyekre egy FAP sincs közvetlen hatással (pl.: az orr szélei). Ezeket mindössze az arc alakjának meghatározására használják. Az FP-ket minden MPEG-4 kompatibilis modellen a 3. ábra alapján kell elhelyezni. 3. ábra A tartópontok szabványos elhelyezkedése a fejen FAP-ból a szabvány 68-at különböztet meg, melyet 10 csoportba sorol az alapján, hogy az arc mely részét mozgatja. Az els két FAP magas szint paraméter. Ez azt jelenti, hogy ezekkel elre beállított komplexebb mozgást lehet kivitelezni. Az els FAP egy megadott vizéma szerinti megjelenést határoz meg. A vizéma a fonéma képi megfelelje. A második FAP a hat alap érzelem megjelenítésére szolgál, úgy mint öröm, bánat, harag, félelem, undor és meglepetés. Tovább érzelemkifejezéseket az alap érzelmek keverésébl lehet megjeleníteni. A többi FAP alacsony szint. Ezek abban különböznek a magas szint FAP-októl, hogy itt a mozgás irányát és amplitúdóját kell megadni, nem pedig egy összetett feladatra elre összeszerkesztett mozgásvezérlést kell kezdeményezni. Az alacsony szint FAP-ok általában egy-két tartópontot mozgatnak. Elfordul olyan FAP is, amely az összes FP-t mozgatja, ilyen például a fej forgatása. Az alacsony szint FAP-oknál a szabvány meghatározza, hogy a mi a hozzá ill FAPU, amibl a mozgás mérték alapja. A FAP eljele a tartópont mozgásirányára vonatkozó információt hordoz, például a száj nyitására vonatkozó paraméterek pozitív, a zárásra vonatkozóak negatív eljelek. Ez független attól is, hogy a tartópont a száj alsó vagy fels részéhez tartozik. A mozgatás lehet eltolás, forgatás vagy skálázás. 4. LUCIA MODELL A legtöbb modell, legyen az két- vagy háromdimenziós, hálókból áll. A háló (mesh) több egymáshoz illeszked nem feltétlenül egy síkban lev sokszöget tartalmazó felület. A hálóban a csúcspontok koordinátáin kívül a lapok, az élek és a csúcsok illeszkedési viszonyait is nyilván kell tartani [12]. A modell felületi jellemzi, textúrája erre a rácsra van ráhúzva. Ahogy mozgatjuk a háló csúcspontjait, úgy mozog vele a textúra is. Ám az MPEG-4 szabványban csak az FP-k mozgatására van mód, az egyes hálókéra közvetlenül nincs. Egy modell tetszleges számú és finomságú hálóból állhat, a szabvány erre nem terjed ki. Minden MPEG-4 kompatibilis fejmodell azonban azonos tartópont rendszerre épül. A hálók mozgatása a tartópontok mozgatásával történik. A LUCIA modellt Cosi vezetésével olasz kutatók fejlesztették ki [1]. Ez egy nyílt forráskódú mozgó fejmodell. A LUCIA egy MPEG-4 megvalósítás, ami alkalmas vizémák és érzelmi állapotok FAP paraméter alapú közvetlen megjelenítésére. Az MPEG-4 modell tömörítést kifejt (decompress) része egy grafikus modell mozgatási feladat, alapveten az 5. ábra szemléltetése szerinti információk felhasználásával képes átvinni a mozgás jellegzetességeit. A szabványosított eljárás során az alaphelyzet fej teljes képének meghatározása és vev oldalra történ átvitele valósul meg, és a továbbiakban csak az alaphelyzettl történ eltérések átvitelére van szükség a tömörített adatközlés során.

4. ábra Az MPEG-4 rendszer tömörítés koncepciója Az MPEG-4 tömörítési folyamat (4. ábra) azon az elven mködik, hogy a tömörítend mosolygós fej lényeges paramétereinek valamint az alaphelyzet fej paramétereinek különbségébl meghatározza a tömörített jellemzket. Az MPEG-4 koncepció szerint ez a jellemzsor fej alakjától és környezetétl független adatokat tartalmaz. 5. ábra Az MPEG-4 rendszer visszaállítás koncepciója A visszaállítási folyamat (5. ábra) során a tömörített jellemzkhöz, amely jelenleg a mosolygás adatait tartalmazza hozzáadva egy tetszleges alaphelyzet fej paramétereit egy mosolygós fej képét kapjuk. Az alaphelyzet fej meghatározó adatai között kell elhelyezni a felületi jellemzket valamint az esetleges további adatokat mint például a modell haja szeme stb. A visszaállítás során kell létrehozni a felületeket azok megvilágítástól függ színezésével együtt [2]. és így lehessen változtatni a visszaállítás folyamatát. Az ES0; IRISD0; ENS0; MNS0; MW0; távolságok határozzák meg az adott arcberendezésen alkalmazandó távolságegységek halmazát. A távolságmérésnek ez a módszere biztosítja azt a lehetséget, hogy a visszaállítás során az eredetitl jelentsen eltér felépítés alaphelyzetben álló fejre is visszaállíthatók legyenek a tömörített információk. Az MPEG-4 szabványnak köszönheten az arc mozgásához nem kell képkockáról képkockára megadni a videó minden egyes pixelét, mindössze a mozgatott FP-khez tartozó FAP-okat kell továbbítani. Ennek köszönheten igen alacsony sávszélességen keresztül is elérhet a real-time arcanimáció. Az MPEG-4 szabvány elnyeit leginkább Internetes alkalmazásokban használják. Találkozhatunk olyan rendszerrel, mely az E-mail-eket alakítja át olyan videóvá, ahol az általunk kiválasztott személy mondja el az üzenetet. Léteznek olyan alkalmazások, melyek Internetes áruházakban eladókat alkalmaznak, vagyis egy MPEG-4 szabványú modell ad segítséget az árakról, a minségrl vagy éppen a készletrl. A szintetikusan létrehozott szájmozgás megjelenítésére felhasznált LUCIA modell egy szokásos 3D grafikus modell, amely animálható és így a céljaink megvalósítására alkalmas. Az adatbázis felvételnél az arcra felfestett pontok kis mértékben eltérhetnek a szabványban elírt tartópontok helyétl. Ezt a hibát úgy korrigáltuk, hogy a tartópontokat ráillesztettük a felfestett pontokra úgy, hogy szintetizáláskor egybeessenek. Az 7. ábra bemutatja egy eredetileg vízszintesen elhelyezked négyszögháló felhasználásával készített animáló eljárás hatását abban az egyszer esetben, ha az eredeti helyzetbl függleges irányban felfelé kívánjuk elmozdítani a síknak egyetlen pontját. 6. ábra Az emberi arcra jellemz méretek ES0=szemgolyók távolsága; IRISD0=Az írisz étmér; ENS0=Az orr hossza; MNS0=Az orr és azáj távolsága; MW0=A száj szélessége Az MPEG-4-ban a tömörítés során meghatározott és felhasznált távolság mértékrendszer (6. ábra) lehetséget biztosít arra, hogy a tömörített információ felhasználásával tetszleges más alaphelyzet fejre lehessen alkalmazni a visszaállítást, 7. ábra Az FP függleges elmozdításának hatása a vizszintes felületre A hatókörükben összeér, egymásmellé es pontok egymásra hatását megfelel súlyozással kell kiküszöbölni. Elképzelhet, hogy egy hálórészt több tartópont is mozgatni akar. Ilyenkor természetesen súlyozottan összegzdnek az elmozdulások. A súlyozás meghatározásánál az elmozdítást eredmé-

nyez pont hatását annak távolságával fordított arányban határozzuk meg, ez a módszer azt eredményezi, hogy a modell rácspontjainak elmozdulását a FP-hez közeli rácspontok esetén nagymértékben az FP helyzete határozza meg. A vázolt eljárással lehetséges kijelölt pontok és hozzájuk tartozó területek rögzítése. Ilyen technikával oldottuk meg a 3D-s LUCIA fej állának mozgatását. Annak érdekében, hogy az állcsont a megfelel forgáspont körül elforduljon az állcsúcsot (2.1-es FP) mozgattuk. Az állcsont miatt nagy hatókörrel kell a 2.1-es FP-t mozgatni aminek az a hatása, hogy szembl nézve úgy tnik mintha az egész álla leesne. A jelenséget meg lehet szüntetni oly módon, hogy az arc körvonalához tartozó 2.13 és 2.14- es FP-t minden irányban 0-val mozdítjuk el, ennek hatására a 2.13 és 2.14-ös FP-k nagy súllyal helyben tartják az arc körvonalát és csak elenyész mértékben mozdul a környezetük a 2.1 és 2.10 pontok mozgatásának hatására. Az alkalmazott technika teljesen kiküszöböli az áll leesésének a jelenségét. A LUCIA modell tartalmazza az alsó és fels fogsort valamint a nyelvet is. Az alsó fogsor mozgatását kizárólagosan az állcsúcs mozgása határozza meg, a fels fogsor mozgatását az orr megfelel pontjaihoz kötöttük, így annak elmozdulása minimális, hiszen az orr középpontját tekintettük a munka során referenciának. A nyelv mozgatásával a projekt nem foglalkozott. A mozgatandó felületen a háló törése, szakadása (például szem, száj) azt a problémát jelenti, hogy a szakadási vonalnál tovább azon átnyúlva nem alkalmazhatjuk az elzekben vázolt módszert. Például az alsó ajak mozgatása nem húzza magával a fels ajkak hálórészét, pedig azok a hatókörön belül esnek. Ezzel a módszerrel kezelhet a száj, a szemek természetes nyitása. Azt a módszert választottuk, hogy minden mozgatott FP-hez meghatároztuk a modellünk egy-egy háló csúcspontokkal leírt egybefügg részét. Ez jelentsen gyorsítja a mozgató algoritmusokat, mivel nem kell a teljes fej összes rácspontjának távolságát meghatározni minden egyes FP helyzetétl, hanem elegend a kijelölt részhalmaz pontjainak a figyelembe vétele a számítások folyamán. Az alsó és fels ajakrész szétválasztását szemlélteti a 8. ábra. Az ábrán sötétebb pontok jelölik a száj alsó szélét. Ezekre a pontokra hatnak ezeket mozgatják a 8.2; 8.7; 8.8 tartópontok (3. ábra). Minden FP-hoz tartozik egy mozgatási hatókör - egy gömb alakú térrész- és azon hatókörön belül lev rácspontok elmozdulását határozza meg az adott FP elmozdulása az MPEG-4 rendszerben maghatározott skálázás szerint. 9. ábra LUCIA modellen alkalmzott FP-k A 3D grafikus modellt az MPEG-4 rendszernek megfelelen ki kell egészíteni a 3 dimenzióban értelmezett FP-kel, és azok hatókörének meghatározásával valamint az egyes FP-k által mozgatható rácspontok halmazával (9. ábra). 8. ábra Az alsó szájszélet meghatározó hálópontok 10. ábra Példák magyar nyelv jellegzetes magánhangzó szájáállásokra (vizémákra) A beszédjelbl szájmozgást elállító project során az elzekben részletezett módon kialakított LUCIA modellt alkalmaztuk. A project eredeti elképzelései szerint a megvalósításkor a beszédjelbl közvetlenül az FP mozgatási paramétereket

állítottunk el, tehát nem volt szükség arra, hogy az egyes vizémákat külön-külön meghatározzuk és elállítsuk, de a hosszan kitartott magánhangzók tiszta fázisainál jól megkülönböztethet szájállásokat hozott létre a fejmodell (10. ábra). 5. MÉRÉSI EREDMÉNYEK ÉS KÖVETKEZTETÉSEK Az animációs rendszerünk komponenseinek ellenrzésére szájról olvasási kísérleteket végeztünk siket tesztalanyokkal. A szájról olvasási feladatok nehézségét úgy állítottuk be, hogy körülbelül 95 és 100% közötti felismerési arányt kapjunk a vetített eredeti videó felvételekre, hogy referenciaként szolgálhasson. Ilyen jó arányt az elzetes kísérletek leírásánál [3] már ismertetett módon a felismerend szövegben használt szókincs és nyelvtan ers szkítésével, valamint egy jól artikuláló jeltolmács szerepeltetésével értük el. Ezután mértük a felismerési arányt, úgy, hogy a videó felvétel helyett az animált beszélfej-modell volt látható, ugyanakkor minden más kísérleti körülményt változatlanul hagytunk. A fejmodellre való áttérés két lépcsben történt. Az elsben a felvételeken festékpöttyel megjelölt MPEG-4 pontok koordinátáit igyekeztünk átvinni a modellre: vagyis a fejmodell vázát képez háló megfelel csomópontjait minden képkockán a felvételen mért koordinátájú pozíciókba mozgattuk. Ezzel azt kívántuk elérni, hogy a modell közvetlenül utánozza a jeltolmács artikulációját, ebben a lépésben a hang még nem játszott szerepet. A második lépcsben a beszédhang alapján számított koordináták szerint vezéreltük a fejmodellt. Itt már csak a hangbemenetre volt szükség az animáció elállításához [3]. A kísérlet során a felismerési arányok a következk szerint alakultak: eredeti felvételek (referencia) 97,1%; animáció a jeltolmácsra festett tartópontok alapján vezérelt modell (1. lépcs) 54,9%; animáció a hang alapján (2. lépcs) 47,9%. Jelen cikk szempontjából a felvételekrl a LUCIA modellre való áttérés, vagyis az els lépcs érdekes. Itt elég jelents romlás tapasztalható a felismerési arányban, ennek lehetséges (valószín) okaira térünk ki röviden. Megállapítható, hogy az általunk kiválasztott és a felvételeken megjelölt MPEG-4 pontok helyzete hiányosan (információ veszteséggel) reprezentálja azokat a látható beszédképzési jellemzket, melyek a szájról olvasásban szerepet játszanak. A kísérletek után minden alkalommal kikértük a résztvev siketek véleményét, hogy mely tényezk gátolták ket leginkább a szájról olvasásban. A felvételek és az animációk között talán a legfontosabb különbség, hogy a fejmodellnek nincs nyelve. De ha a LUCIA modell lehetvé tenné a nyelv animálását, akkor is problémát jelentene, hogy nincsenek referencia adataink a nyelv pillanatnyi helyzetérl, nem tudjuk, hogyan is kéne mozgatni. A nyelvre a felvételeken nem festhettünk pontot. A nyelv hiányában pl. kilenc vagy a nulla szavak felismerése gondot okozott az animáció esetében, míg a felvételeken jól látható volt a nyelv föntrl-le csapódása az l hang után, így valamennyi tesztalanyunk könnyedén felismerte azokat. A másik problémánk volt, hogy a felvételekhez csak az ajkak küls kontúrján tudtunk pontokat megjelölni, beljebb nem. Ezek viszont az ajakkerekítésrl kevés információt tartalmaznak. Az animációkon elssorban ajakkerekítéses magánhangzók (pl. u, ü) voltak kifogásolhatók. Szintén a pontok elhelyezésére vezethet vissza, hogy nincs elegend információnk a fogak láthatóságáról. Pedig elssorban ettl függ az ajkakon belüli terület világossága, ami egy igen karakteres és könnyen észlelhet vizuális jellemz [4]. Az MPEG-4 szabvány eredeti célja egy olyan modell megalkotása, aminek segítségével tömöríteni, majd rekonstruálni lehet mozgó fej adatokat. Munkánk során megoldottuk, hogy a szabványra építve olyan minségben mozgatható a száj és környezete, hogy ennek alapján siketek a beszédet képesek szájról leolvasni. További fontos eredménynek tartjuk, hogy az animáció mködik akkor is, ha nem képpontok mintavételezése alapján származtattuk a tartópont paramétereket, hanem beszédjelbl számoltuk. Az eredményeink azt mutatják, hogy igen kis különbség van a mintavételezéssel vezérelt arc, és a beszédjel alapján vezérelt arcmodell felismerhetsége között. További fejlesztést igényel a fejmodell finomítása. A száj küls körvonalán túl a bels kontúr, fogak vagy nyelv láthatósága tnik a továbblépés els lehetségének. 6. KÖSZÖNETNYILVÁNÍTÁS A szerzk ezúton is kifejezik köszönetüket a Nemzeti Kutatási és Technológiai Hivatalnak a 472/04 szerzdés keretében nyújtott támogatásáért. 7. IRODALOM [1] Cosi P., Fusaro A., Tisato G., LUCIA a New Italian Talking-Head Based on a Modified Cohen-Massaro s Labial Coarticulation Model, Proceedings of Eurospeech 2003, Geneva, Switzerland, September 1, 2003, Vol. III, pp. 2269-2272 [2] Szirmai-Kolos László, Antal György, Csonka Ferenc, Háromdimenziós grafika animáciuó és játékfejlesztés, ComputerBook Kiadó Kft, Budapest 2003 [3] Takács György, Tihanyi Attila, Bárdi Tamás, Feldhoffer Gergely, Srancsik Bálint: Beszédjel átalakítása mozgó száj képévé

siketek kommunikációjának segítésére Híradástechnika 2006 xxxx [4] László Czap, János Mátyás Virtual Speaker Híradástechnika, selected papers, 2005 Június. Vol LX. pp 2-5. [4] I. Pandzic and R. Forchheimer, MPEG-4 Facial Animation: The Standard, Implementation and Applications, Wiley, 2002.