Interaktív fonetikai eszköz az artikulációs csatorna keresztmetszet-függvényének meghatározására

Hasonló dokumentumok
Infobionika ROBOTIKA. X. Előadás. Robot manipulátorok II. Direkt és inverz kinematika. Készült a HEFOP P /1.0 projekt keretében

A BESZÉD ARTIKULÁCIÓS SZINTÉZISE AZ ELTE FüNETIKAI TANSZÉKÉN. Szűcs László Eötvös Loránd Tudományegyetem Fonetikai Tanszék

Matematika (mesterképzés)

Vektorgeometria (1) First Prev Next Last Go Back Full Screen Close Quit

10. Koordinátageometria

Mozgatható térlefedő szerkezetek

A beszéd. Segédlet a Kommunikáció-akusztika tanulásához

Bevezetés a nyelvtudományba. 2. Fonetika

Képrekonstrukció 3. előadás

Flynn féle osztályozás Single Isntruction Multiple Instruction Single Data SISD SIMD Multiple Data MISD MIMD

Befordulás sarkon bútorral

3D számítógépes geometria és alakzatrekonstrukció

Sajátértékek és sajátvektorok. mf1n1a06- mf1n2a06 Csabai István

3D - geometriai modellezés, alakzatrekonstrukció, nyomtatás

EGY ABLAK - GEOMETRIAI PROBLÉMA

A dinamikus geometriai rendszerek használatának egy lehetséges területe

Diszkréten mintavételezett függvények

Gépi tanulás és Mintafelismerés

A magánhangzó-formánsok és a szubglottális rezonanciák összefüggése a spontán beszédben

17. előadás: Vektorok a térben

A kísérlet, mérés megnevezése célkitűzései: Váltakozó áramú körök vizsgálata, induktív ellenállás mérése, induktivitás értelmezése.

Koordináta-geometria feladatok (emelt szint)

SZERKEZETFÖLDTANI OKTATÓPROGRAM, VETŐMENTI ELMOZDULÁSOK MODELLEZÉSÉRE. Kaczur Sándor Fintor Krisztián

Fonetika. Tóth Ildikó, PhD. Bevezetés a nyelvtudományba 2. előadás 2009 Pázmány Péter Katolikus Egyetem

Modern Fizika Labor Fizika BSC

A LECSÚSZÓ KÖR ÁBRÁZOLÓ GEOMETRIÁJA. Írta: Hajdu Endre

Robotika. Kinematika. Magyar Attila

Összeállította: dr. Leitold Adrien egyetemi docens

A MAGYAR ÉS A NEMZETKÖZI TUDOMÁNYOS ÉLET ESEMÉNYEI. Björn E. Lindblom 80 éves

Statisztikai módszerek a skálafüggetlen hálózatok

Folyadékszcintillációs spektroszkópia jegyz könyv

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Egy feladat megoldása Geogebra segítségével

Transzformációk. Grafikus játékok fejlesztése Szécsi László t05-transform

I. Vektorok. Adott A (2; 5) és B ( - 3; 4) pontok. (ld. ábra) A két pont által meghatározott vektor:

Kutatási beszámoló február. Tangens delta mérésére alkalmas mérési összeállítás elkészítése

Műholdas és modell által szimulált globális ózon idősorok korrelációs tulajdonságai

Programozási nyelvek 2. előadás

2014/2015. tavaszi félév

Termék modell. Definíció:

Hajder Levente 2018/2019. II. félév

Vonatablakon át. A szabadvezeték alakjának leírása. 1. ábra

CFD alkalmazási lehetıségei a Mátrai Erımőnél Elıadás. Budapest, BME CFD workshop május 11. Egyed Antal

Felügyelt önálló tanulás - Analízis III.

BUDAPESTI MŐSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM

Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Geometria III.

Fonetika és fonológia

A bifiláris felfüggesztésű rúd mozgásáról

MÉSZÁROS JÓZSEFNÉ, NUMERIKUS MÓDSZEREK

Példák jellemzőkre: - minden pixelérték egy jellemző pl. neurális hálózat esetében csak kis képekre, nem invariáns sem a megvilágításra, sem a geom.

KOORDINÁTA-GEOMETRIA

Felső végükön egymásra támaszkodó szarugerendák egyensúlya

1. ábra. 24B-19 feladat

Akusztikai tervezés a geometriai akusztika módszereivel

Geometriai transzformációk

2. ELŐADÁS. Transzformációk Egyszerű alakzatok

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Hajder Levente 2017/2018. II. félév

MATLAB. 6. gyakorlat. Integrálás folytatás, gyakorlás

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Hangfrekvenciás mechanikai rezgések vizsgálata

Helyvektorok, műveletek, vektorok a koordináta-rendszerben

Keresztmetszet másodrendű nyomatékainak meghatározása

A +Q töltés egy L hosszúságú egyenes szakasz mentén oszlik el egyenletesen (ld ábra ábra

Skaláris szorzat: a b cos, ahol α a két vektor által bezárt szög.

Akusztikai mérések SztahóDávid

QGIS. Tematikus szemi-webinárium Térinformatika. Móricz Norbert. Nemzeti Agrárkutatási és Innovációs Központ Erdészeti Tudományos Intézet (NAIK ERTI)

Matematika 11 Koordináta geometria. matematika és fizika szakos középiskolai tanár. > o < szeptember 27.

Gépészeti rendszertechnika (NGB_KV002_1)

Transzformációk. Szécsi László

Mérés és modellezés Méréstechnika VM, GM, MM 1

Robotok inverz geometriája

Henger és kúp metsződő tengelyekkel

2. Elméleti összefoglaló

A térképen ábrázolt vonal: - sík felület egyenese? - sík felület görbéje? - görbült felület egyenese ( geodetikus )? - görbült felület görbéje?

A térképen ábrázolt vonal: - sík felület egyenese? - sík felület görbéje? - görbült felület egyenese ( geodetikus )? - görbült felület görbéje?

R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský

8. előadás. Kúpszeletek

Mérés és modellezés 1

Modern Fizika Labor. 5. ESR (Elektronspin rezonancia) Fizika BSc. A mérés dátuma: okt. 25. A mérés száma és címe: Értékelés:

Összeállította: dr. Leitold Adrien egyetemi docens

Számítógépes Grafika mintafeladatok

Az egyenes ellipszishenger ferde síkmetszeteiről

Circuit breaker control function funkcióhoz block description. Beállítási útmutató az árambemeneti

YANG ZIJIAN GYŐZŐ 杨子剑

Koordináta-geometria feladatgyűjtemény

Bevezetés az elméleti zikába

Klár Gergely 2010/2011. tavaszi félév

MLTSZ Szakmai Konferencia

Grafikonok automatikus elemzése

Példa: Csúsztatófeszültség-eloszlás számítása I-szelvényben

Piri Dávid. Mérőállomás célkövető üzemmódjának pontossági vizsgálata

3D Számítógépes Geometria II.

Bevezetés a nyelvtudományba Fonetika

Példa: Tartó lehajlásfüggvényének meghatározása végeselemes módszer segítségével

Egybevágósági transzformációk. A geometriai transzformációk olyan függvények, amelyek ponthoz pontot rendelnek hozzá.

= Y y 0. = Z z 0. u 1. = Z z 1 z 2 z 1. = Y y 1 y 2 y 1

Normák, kondíciószám

Modern Fizika Labor. A mérés száma és címe: A mérés dátuma: Értékelés: Folyadékkristályok vizsgálata.

Éldetektálás, szegmentálás (folytatás) Orvosi képdiagnosztika 11_2 ea

Átírás:

Interaktív fonetikai eszköz az artikulációs csatorna keresztmetszet-függvényének meghatározására Jani Mátyás 1, Björn Lindblom 2, Sten Ternström 3 1 Pázmány Péter Katolikus Egyetem, ITK, Budapest, Práter utca 50/A, e-mail: janma@digitus.itk.ppke.hu 2 Department of Linguistics, Stockholm University 106 91 Stockholm, Sweden 3 Department of Speech, Music and Hearing, School of Computer Science and Communication, Kungliga Tekniska högskolan (Royal Institute of Technology) 100 44 Stockholm Kivonat A projekt célja annak az eldöntése volt, hogy a SuperCollider programozási környezet mennyire alkalmas egy interaktív artikulációs modell implementálására. Az elkészült szoftver az APEX nevű, 2-dimenziós modellt használja, amit az artikulációs csatorna alakja és a formánsok közötti összefüggés vizsgálatára hoztak létre. Kulcsszavak: artikulációs modell, supercollider, beszédszintézis 1. Bevezetés Manapság a konkatenatív beszédszintetizálásra használt módszer a legelterjedtebb, annak ellenére, hogy az összefűzéssel készített beszédhang minősége elmarad az artikulációs módszer által elméletileg előállítható beszédhang minőségétől. Emiatt újabban egyre nagyobb figyelmet kapnak az artikulációs beszédszintetizálás és egyre több artikulációs modell jön létre [2]. Ezen modellek feladata nem mindig a beszédszintetizálás, használhatók kutató és pedagógiai eszközöknek is. Segítségükkel többek között meg lehet figyelni a formáns frekvenciák és az artikulációs csatorna alakja közötti összefüggést. Jelen munka fő célkitűzése egy meglévő 2-dimenziós artikulációs modell implementálása, valamint a SuperCollider környezet ilyen jellegű feladatra való használhatóságának kiderítése. 2. APEX modell Az eredeti APEX program célja adott artikulációból formáns adatok (frekvencia, sávszélesség) kinyerése volt [6]. A modell egy virtuális 2-dimenziós artikulációs csatornát használ, ennek geometriáját tesztalanyról készített röntgenképekből nyerték ki. A formáns adatok előállításához több lépésre van szükség. Először

2 IV. Magyar Számítógépes Nyelvészeti Konferencia az ajkak, a nyelvcsúcs és nyelv törzs állapotaiból, az állkapocs és a gégefő helyzetéből egy artikulációs profil készül egy mesterséges középvonallal ami az artikulációs csatorna első és hátsó oldala között félúton helyezkedik el. Ezután le lehet mérni a középvonal mentén tetszőleges pontokban az artikulációs csatorna keresztmetszetét. A keresztmetszetek hosszát egy adott szabály felhasználásával keresztmetszeti területekké kell konvertálni, ez már lényegében az artikulációs csatorna csőmodelljének felel meg. Hangszintézis megvalósításának egyik módja a formánsszintézis, ehhez a csőmodellből ki kell nyerni a formánsparamétereket. Az APEX modell az orrüreget nem modellezi, így a nazális hangokat nem tudja megfelelően szintetizálni. 2.1. Adatok kinyerése A körvonalak és egyéb geometriai adatok kinyeréséhez röntgenfelvételekre volt szükség [4]. A röntgenfelvételek fő problémája, hogy a tesztalanyokat sugárzás éri és a biztonság érdekében bizonyos biztonsági előírások korlátozzák a felvételek hosszát és az elszenvedett sugárzási mennyiséget. A hangképzőszervek körvonalai 0,5-1 mm pontossággal határozhatók meg. A keresztmetszetek számításához szükséges együtthatók meghatározásához keresztmetszeti MR (mágneses rezonancia) képeket készítettek az artikulációs csatorna mentén több helyen [3]. A felvétel alatt használt szöveganyag svéd magánhangzókat tartalmazott, és az MR képek mellett videó és hang rögzítés is történt. 2.2. Keresztmetszetek területekké alakítása A 2-dimenziós módszerek közvetlenül csak az artikulációs csatorna oldalnézeti keresztmetszetét tudják felhasználni. A valódi alakzatok nem állnak rendelkezésre, így az artikulációs csatorna irányára merőleges szeletek területét az oldalnézeti keresztmetszet hosszakból kell kiszámolni. Többféleképpen is lehet becsülni ezeket a területeket [5], általában mérésekből adódó együtthatókat felhasználva. A leggyakrabban Heinz és Stevens (1964, 1965) által publikált hatványfüggvényt használják: A = K d α ahol A az artikulációs csatorna irányára merőleges metszet területe, d a mért hossz, K és α pedig együtthatók, melyek értéke függ a tesztalanyon és a vizsgált metszet pozícióján. 2.3. A nyelv alakjának meghatározása A nyelv alakjának paramétereit főkomponens analízis segítségével határozták meg. Körülbelül négyszáz nyelv-körvonalat nyertek ki röntgenképekből, majd

Szeged, dátum 3 ezeket a körvonalakat 25 pontban mintavételezve tárolták [1]. A főkomponens analízis eredménye néhány bázisfüggvény súlyozott lineáris kombinációja: V (x) = N(x) + c 1 (v) P C 1 (x) + c 1 (v) P C 1 (x) +... ahol x a kontúr mintavételezett pontjának indexe, V (x) a kiszámolt nyelvalakzat, N(x) egy semleges nyelv kontúr (a megfigyelt körvonalak átlaga) és P C i (x) az i. bázis függvény. Az egyes c i együtthatók a bázisfüggvények súlyai. c i egy 2-dimenziós vektor, értéke a megszólaltatott magánhangzótól függ, amit bemeneti paraméterként használ a modell. Pontosság: egyetlen P C bázisfüggvénnyel 85,7% pontosságot lehetett elérni, két bázisfüggvénnyel már 96,3%-ot [1]. 2.4. Artikuláció A modellben használt artikuláció egyszerűsített változata a tényleges artikulációnak. Csak a programban megvalósított részeket mutatjuk be. A hangképző szervek közül néhányat rögzített alakzatként kezeltünk, ilyen például az artikulációs csatorna hátulsó fala és a szájpadlás. A mozgatható alakzatok közé tartozik a gége a hangszalagokkal, a nyelv és az egész alsó állkapocs. A gége fix kontúrral rendelkezik, azonban függőleges irányban mozgatható, ezzel lehet rövidíteni illetve hosszabbítani az artikulációs csatornát. 1. ábra. A nyelv alakja három részből tevődik össze A nyelv alakja 3 részből áll (1. ábra). A hátulsó részének formáját a főkomponensanalízissel nyert egyenlettel számoljuk ki. A nyelv csúcsának helyzete (B pont) külön állítható, a csúcspontot Hermite interpolációval készített görbe

4 IV. Magyar Számítógépes Nyelvészeti Konferencia köti össze a hátsó nyelvformával. Ahhoz, hogy a kapcsolódás törésmentes legyen, az első derivált használatára is szükség volt a kapcsolódási pontban (A pont). A nyelv csúcspontja a szájüregben a száj alsó részén egy rögzített ponthoz (C pont) csatlakozik. Ennek a harmadik görbének az alakjához megfigyelt adatokat használtunk fel. 2. ábra. Az alsó állkapocs mozgatása Alsó állkapocs mozgása az alsó állkapocs koordináta rendszerének eltolását és forgatását foglalja magába. Ezzel együtt mozog az alsó fogsor, a szájüreg alsó fele és a nyelv. Az elforgatás szögét az alábbi egyenlettel számoljuk: α deg = j 2 + 7 ahol α deg a szög fokban, j pedig az állkapocs nyitottsága (a távolság az alsó és felső metszőfogak között, mm-ben). A 2. ábrán a kék görbe az artikulációs csatorna hátulsó fele, az U pont a felső állkapocs koodináta rendszerének origója. Ha a nyitottság j-re van állítva, akkor U és L közötti távolság j. Az ábrán jelölt összes szög α. A belső szaggatott piros vonal a j-vel eltolt nyelv, a folytonos piros vonal az eltolt, majd elforgatott nyelv. 3. Megvalósítás A modellt a SuperCollider környezetben implementáltuk. A SuperCollider egy programozási környezet algoritmikus zeneszerzésre és hangfeldolgozásra. Kliens-

Szeged, dátum 5 szerver architektúrájú a felépítése, a kliensben található interpretált, objektumorientált small-talk szerű programozási nyelv felel a szerver vezérléséért. A szerver feladata a gyors jelfeldolgozás valamint a hang be- és kimenet kezelése, natív bővítmények segítségével [7]. 3. ábra. Kommunikáció a SuperCollider szerver és a kliens alkalmazás között A megvalósítandó program első verziója csak a kliens oldalon helyezkedett el, a szerver részt csak a hangszintetizáláshoz használta. A sok geometriai művelet sajnos nem volt elég hatékony az interpretált nyelvben, így később a számításigényes részek átkerültek a szerverre. A kliens-szerver közti aszimmetrikus kommunikáció szinkronizálása sok nehézséget okozott (3. ábra). 4. Eredmények Az APEX modellnek létezik egy korábbi implementációja is, de annak fejlesztése félbe maradt és a program elavult. Az új program még további fejlesztésre szorul, mivel hiányzik a szájüregi rész helyes kezelése (ajkak, fogak, nyelv alatti terület). Ezt leszámítva a modell megvalósítása sikeresnek mondható. Előrelépés a korábbi változathoz képest, hogy a használt környezetnek köszönhetően könnyebb a programot átírni más platformokra (Linux rendszeren készült, Macen is sikerült futtatni). A hangszintézis az elkészült új verzióban interaktív, a bemenetet változtatva azonnal hallható a változás eredménye. A bemenő paraméterekből listát készítve lehet több hangot is összefűzni. A többi artikulációs modellhez hasonlóan az APEX-ben is megfigyelhetőek a hangok közötti átmenetek, a koartikuláció. Az artikulációs modell alkalmas a hangátmenetek beszédszervek tényleges fizikai jellemzőin alapuló interpolációjára.

6 IV. Magyar Számítógépes Nyelvészeti Konferencia 5. Továbblépési lehetőségek Több irányban is tovább lehet folytatni a fejlesztést. A hiányzó rész elkészítésével a teljes modell meg lenne valósítva. A teljes modell leprogramozása után a modell által kiszámolt formánsfrekvenciákat össze lehetne vetni valóságos mérésekkel. A program jelenlegi felépítése a szerver-kliens közötti kommunikáció miatt nem ideális. Ennek egyik kiküszöbölési módja, hogyha a SuperCollider kliens helyett saját, natív klienst készítenénk. Ekkor nem lennénk korlátozva az interpretált nyelv sebességével, másrészt a SuperCollider szerver csak a hang kiadásáért lenne felelős, és csak a formáns adatokat kellene továbbítani. A számítások sebességet tovább lehetne gyorsítani SIMD (Single Instruction Multiple Data) utasításkészlettel, mivel a keresztmetszet függvény kiszámításánál például minden keresztmetszeti szeleten ugyanazt az algoritmust kell végrehajtani. A munka Erasmus ösztöndíj keretében, MSc diplomaterv formájában lett elfogadva a Kungliga Tekniska Högskolan Stockholm Speech, Music and Hearing tanszékén. Hivatkozások 1. Lindblom B. A numerical model of coarticulation based on a principal components analysis of tongue shapes. In 15th Int l Congr Phonetic Sci, Barcelona, 2003. 2. Robert I. Damper Christine H. Shadle. Prospects for articulatory synthesis: A position paper. In 4th ISCA workshop, Pitlochry, Scotland, Aug-Sep 2001. 3. Christine Ericsdotter. Articulatory-Acoustic Relationships in Swedish Vowel Sounds. PhD thesis, Stockholm University, 2005. 4. Branderud P, Lundberg H-J, Lander J, Djamshidpey H, Wäneland I, Krull D, and Lindblom B. X-ray analyses of speech: Methodological aspects. In FONETIK 98, 1998. 5. A. Soquet, V. Lecuit, T. Metens, and D. Demolin. Mid-sagittal cut to area function transformations: Direct measurements of mid-sagittal distance and area with mri. Speech Communication, 36(3-4):169 180, 2002. 6. Johan Stark, Christine Ericsdotter, Peter Branderud, Johan Sundberg, Hans-Jerker Lundberg, and Jaroslava Lander. The apex model as a tool in the specification of speaker-specific articulatory behavior. In Proc XIVth Int l Congr Phonetic Sci (ICPhS 99), San Francisco, August 1999. 7. Scott Wilson, David Cottle, and Nick Collins. The SuperCollider Book. The MIT Press, 2011.