Beszédinformációs rendszerek 6. gyakorlat

Hasonló dokumentumok
Beszédinformációs rendszerek

Beszédtechnológia az információs esélyegyenlőség szolgálatában

Tartalomjegyzék. Rövidítések jegyzéke... EMBER, NYELV, BESZÉD. 1. A beszéd és az információs társadalom... 3

BESZÉDADATBÁZISOK KÉSZÍTÉSE GÉPI BESZÉDELŐÁLLÍTÁSHOZ. Olaszy Gábor MTA Nyelvtudományi Intézet

book 2010/9/9 14:36 page v #5

Szerkesztők és szerzők:

Beszédadatbázisok elôkészítése kutatási és fejlesztési célok hatékonyabb támogatására

Magyar nyelvû, kötött témájú korpusz-alapú beszédszintézis és a kötetlenség felé vezetô út vizsgálata

Generációváltás a beszédszintézisben

V. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2007

Rejtett Markov-modell alapú gépi beszédkeltés

Tóth Bálint, Németh Géza Rejtett Markov-modell alapú mesterséges beszédkeltés magyar nyelven 2

Szintetizált beszéd természetesebbé tétele

Beszédinformációs rendszerek 5. gyakorlat Mintavételezés, kvantálás, beszédkódolás. Csapó Tamás Gábor

Beszédinformációs rendszerek

PRECÍZIÓS, PÁRHUZAMOS, MAGYAR BESZÉDADATBÁZIS FEJLESZTÉSE ÉS SZOLGÁLTATÁSAI. Olaszy Gábor

A HANGOK TANÁTÓL A BESZÉDTECHNOLÓGIÁIG. Gósy Mária. MTA Nyelvtudományi Intézet, Kempelen Farkas Beszédkutató Laboratórium

TDK dolgozat. Szintetizált beszéd természetesebbé tétele. Készítette: Csapó Tamás Gábor Konzulensek:

Beszél(get)ünk a számítógéppel? A beszéd mesterséges előállítása, számítógépes beszéd- és beszélőfelismerés

A BESZÉD ARTIKULÁCIÓS SZINTÉZISE AZ ELTE FüNETIKAI TANSZÉKÉN. Szűcs László Eötvös Loránd Tudományegyetem Fonetikai Tanszék

PROFIVOX A LEGKORSZERŰBB HAZAI BESZÉDSZINTETIZÁTOR ÉS SZÖVEGFELOLVASÓ

A spontán beszéd kísérőjelenségei

Bevezetés a nyelvtudományba. Számítógépes nyelvészet

KORPUSZ-ALAPÚ SZÖVEGFELOLVASÓ RENDSZER FEJLESZTÉSE

Madarassy László, mérnök, BME - Mobil Innovációs Központ. lmadarassy@mik.bme.hu

Akusztikai mérések SztahóDávid

TDK dolgozat. Beszédszintetizátor prozódiai változatosságának növelése. Készítette: Csapó Tamás Gábor

Szöveges adatbázis tervezése rendszerüzenet generátorhoz

DIPLOMATERV VÁLTOZATOS PROZÓDIA MEGVALÓSÍTÁSA SZÖVEGFELOLVASÓ RENDSZEREKBEN. Készítette: CSAPÓ TAMÁS GÁBOR

Beszédinformációs rendszerek. 3. gyakorlat - Elemi jelfeldolgozás (a beszédjel feldolgozásának lépései)

ÉRZELEM KIFEJEZÉSE GÉPI BESZÉDDEL. Fék Márk Olaszy Gábor Szabó János Németh Géza Gordos Géza

Korpusz-alapú beszédszintézis rendszerek megvalósítási kérdései

A magyar beszéd. Beszédkutatás, beszédtechnológia, beszédinformációs rendszerek.

A fonetik ar ol altal aban szeptember 15.

Gépi beszédkeltés infokommunikációs rendszerekben

A mobil nyelvtanár megvalósításának folyamata

Korpusz-alapú beszédszintézis rendszerek megvalósítási kérdései

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Magyar nyelvű szöveg beszéd átalakítás: nyelvi modellek, algoritmusok és megvalósításuk

Beszédkutatás a technológiai fejlődés tükrében. Gráczi Tekla Etelka MTA Nyelvtudományi Intézet, Fonetikai osztály

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Beszédadatbázisok a gépi beszédfelismerés segítésére

Szegmentálási egységek összehasonlítása gépi érzelem felismerés esetén

A beszéd. Segédlet a Kommunikáció-akusztika tanulásához

2000 Szentendre, Bükköspart 74 MeviMR 3XC magnetorezisztív járműérzékelő szenzor

Beszédhangok és spektrális jellemzésük

Informatikus informatikus Térinformatikus Informatikus É 1/6

RoadRecord mobil alkalmazás használati útmutató

Alkalmazások fejlesztése A D O K U M E N T Á C I Ó F E L É P Í T É S E

1. SZÁMÚ FÜGGELÉK MŰSZAKI LEÍRÁS

NAV online számla regisztráció SAP rendszerhez

PhD disszertáció Informatikai Tudományok Doktori Iskola

WP1 Vezérlő Használati Útmutató

Élő webes alkalmazások rendszerfelügyelete cím- és tartalomteszteléssel

Adatbázismodellek. 1. ábra Hierarchikus modell

ADATMENTÉSSEL KAPCSOLATOS 7 LEGNAGYOBB HIBA

Alapvető tudnivalók a tanév elején

Lejegyzési útmutató a BEA Spontánbeszéd-adatbázis háromszintű annotálásához

Rejtett Markov-modell alapú gépi beszédkeltés

HANGIDÔTARTAMOK ÉS IDÔSZERKEZETI ELEMEK A MAGYAR BESZÉDBEN

Az ekovut költségvetés követő alkalmazás web-es környezetben működik, adatait SQL adatbázisban tárolja.

Responsive Web Design. Dr. Nyéki Lajos 2019

LabVIEW példák és bemutatók KÉSZÍTETTE: DR. FÜVESI VIKTOR

GPRS Remote. GPRS alapú android applikáció távvezérléshez. Kezelési útmutató

2. Elméleti összefoglaló

Bevezető Intelligens közlekedési rendszerek

BESZÉDTECHNOLÓGIAI ALAPISMERETEK AZ OKTATÁSBAN. Abari Kálmán (1), Papp Zoltán (2) Összefoglaló

6. évfolyam ANGOL nyelv. Javítási-értékelési útmutató

Regisztrációs útmutató a Közokos- a BME Közoktatási Vezető Képzésének Online Oktatási Rendszeréhez Őszi beíratkozott hallgatók részére

Nyilvántartási Rendszer

1 OLASZY GÁBOR MÁSSALHANGZÓ-KAPCSOLÓDÁSOK A MAGYAR BESZÉDBEN

Digitális technika (VIMIAA02) Laboratórium 5

Digitális technika (VIMIAA02) Laboratórium 5

Hálózatok állapotfelmérése - Integrált informatikai rendszer bevezetése az ELMŰ ÉMÁSZ társaságcsoportnál

Információs technológiák 2. Gy: CSS, JS alapok

elearning TAPASZTALATOK ÉS TERVEK A ZRÍNYI MIKLÓS NEMZETVÉDELMI EGYETEMEN

Mély neuronhálók alkalmazása és optimalizálása

A magánhangzó-formánsok és a szubglottális rezonanciák összefüggése a spontán beszédben

Digitális technika VIMIAA01 9. hét Fehér Béla BME MIT

Digitális technika VIMIAA01 9. hét

Digitális technika (VIMIAA02) Laboratórium 1

RoadRecord mobil alkalmazás használati útmutató

our future our clients + our values Szeptember 16. MEE vándorgyűlés 2010

Brassai Sámuel Gimnázium és Műszaki Szakközépiskola * Pedagógiai Program III évfolyam

nyelv: 2) Kérdezz meg 3 embert a környezetedben arról, milyen nyelven tud beszélni, írni, olvasni. Írd le a válaszaikat!

ITIL alapú IT környezet kialakítás és IT szolgáltatás menedzsment megvalósítás az FHB-ban

ÉS S NYELVI REPREZENTÁCI CIÓ. MTA Nyelvtudományi Intézet

Digitális technika (VIMIAA02) Laboratórium 1

Az énekelt magánhangzók észlelése réshangkörnyezetben

A BESZÉDPRODUKCIÓ ÉS BESZÉDPERCEPCIÓ ÖSSZEFÜGGÉSEI: AZ ELHANGZÓ HÍREK FELDOLGOZÁSA

A gépi beszéd-előállítás természetességének növelése rejtett Markov-modell alapú szövegfelolvasó rendszerben

Beszédfelismerés. Izolált szavas, zárt szótáras beszédfelismerők A dinamikus idővetemítés

IKT trendek és tapasztalatok a BME szemszögéből

Hozd létre az atestat_2011 adatbázisban a diakok táblát a következő szerkezettel: 1. Töltsd fel az adattáblát legkevesebb 5 bejegyzéssel (rekorddal).

A víz szerepe a történelemben

SWARCO TRAFFIC HUNGARIA KFT. Vilati, Signelit együtt. VSB-PLUS BESZÉLŐ HANGJELZŐ Műszaki leírás

Alapadatokkal kapcsolatos módosítások

Abari Kálmán publikációs jegyzéke

TECHNICOLOR TC cable-wifi gateway

TELEPÍTÉSI ÚTMUTATÓ V1.0

Átírás:

Beszédinformációs rendszerek 6. gyakorlat Beszédszintetizátorok a gyakorlatban és adatbázisaik könyv 8. és 10. fejezet Olaszy Gábor, Németh Géza, Zainkó Csaba olaszy,nemeth,zainko@tmit.bme.hu 2018. őszi félév

Példamegoldási stratégia 1. Értelmezni kell a példa szövegét. 2. Fel kell mérni, hogy milyen tanult adatok, módszerek, fogalmak ismeretére van szükség, hogy a megoldás sikeres legyen. 3. Át kell gondolni a 2. pont elemei közötti összefüggéseket, rendszerjellemzőket 4. Mindezek alapján kell a válaszokat megszerkeszteni. 2

1. példa Egy formáns TTS szintetizátor tervezéséhez kell az alapvető adatokra javaslatot tennie. a) Adja meg, hogy milyen vezérlő paraméterekkel működjön! zönge, zörej, F0, F1, F2, F3, hangerő b) Adja meg a javasolt paraméterek fizikai érték tartományát! Zönge (F0): 50-500 Hz F1:200-1000 Hz, F2: 500-2000Hz, F3:2000-4000 Hz Hangerő: 0-tól hangosig pl. 32 lépésben c) Milyen sűrűn kell a vezérlő paramétereket frissíteni a beszéd gépi előállításánál? A beszéd spektrális tartalma milyen sűrűn változhat? Minden zöngés periódusban. Tehát 5-10 ms-onként kell frissíteni. 3

2. példa Diádos elemekből álló beszédelembázist készítünk gépi szövegfelolvasóhoz. a) Mi a diád? Két fél beszédhangnyi hullámforma rész a) Adja meg a bab szó gépi előállításához szükséges diádokat betűjelekkel! #b ba ab b#, tehát 4 db diád b) A mocsár szóból diádokat készítünk. Hol célszerű elvágni a zár-rés hangot, hogy a lehető legkevesebb legyen a torzítás a későbbi elemösszefűzésnél? A zárszakaszban, hiszen ott nulla az amplitúdó c) A magyar nyelvre kb. hány diádot kell elkészíteni, hogy tetszőleges szöveget lehessen felolvastatni egy beszédszintetizátorral? 40 beszédhanggal tervezve 40x40=1600 db diád (a hosszú mássalhangzók időtartamát nyújtással valósítjuk meg) 4

3. példa Diádos és triádos elemekből álló beszédelembázist készítünk hullámforma összefűzéses gépi szövegfelolvasóhoz. a) Adja meg a babáknak szó felépítéséhez felhasználható CVC triádokat betűjelekkel! bab bák nak a) Hol célszerű vágást alkalmazni, ha triádos elemeket készítünk? A mássalhangzó közepén (kivételek vannak) a) A magyar nyelvre optimálisan kb. hány diádot és kiegészítő triádot kell elkészíteni, hogy tetszőleges szöveget lehessen felolvastatni a hullámforma összefűzéses beszédszintetizátorral. 1600 diád 25 C és 14 V esetén 25x25x14= durván 7000 triád 5

4. példa Mit generálunk elsősorban a WaveNet-tel? Hangosságértékeket Ultrahangos felvételeket Hullámformát Gépi tanuláson alapul, mély neurális hálózatot használ. Beszédfelismerő nyelvtant Érzelmi címkéket Kivétel-szótárakat 6

5. példa A beszédválaszú rendszerekben alkalmazott gépi beszédkeltő módszerekről tanultak alapján válaszoljon a következő kérdésre a) Milyen TTS módszereket alkalmazna egy vakok számára készült képernyő felolvasó rendszerben? Adja meg a működésük lényegét és erőforrás igényüket! amiben jól gyorsítható a beszéd, és a hangmagasság paraméterrel állítható Példa alkalmazás: ROBOBRAILLE.org fájl konverter 7

6. példa Egy kis vállalat részére tervezzen kötött szótáras név szerinti tudakozó beszédválaszú rendszert (min. MOS 4,3 az elvárás). Az előfizető telefonszámát kell gépi hangon elmondani. - bemenet: 200 vezeték- és keresztnév (beszédfelismerő megvan) - kimenet minden névhez a megadott 11 jegyű tagolt mobil telefonszám A cég által megadott női bemondó hangján kell szólnia. Tegyen javaslatot az elvégzendő munkafázisokra! Az elhangzó hangüzenetek megtervezése, tipizálása. A telefonszám bemondás elemeinek tervezése Pl. 06 30 34 76 34 4 (3 féle csoport). Vivőmondatok megtervezése (kb. 100 vivő mondat). Hangfelvétel, vágás. Hangelembázis tervezése, programozása,elkészítése. A rendszer vezérlő (elemösszefűző) programjának elkészítése. 8

6. Példa folytatás Egy kis vállalat részére tervezzen kötött szótáras név szerinti tudakozó beszédválaszú rendszert (min. MOS 4,3 az elvárás). Az előfizető telefonszámát kell gépi hangon elmondani. - bemenet: 200 vezeték- és keresztnév - kimenet minden névhez a megadott 11 jegyű tagolt mobil telefonszám A cég által megadott női bemondó hangján kell szólnia. Tegyen javaslatot az elkészítés időtartamára! 1-2 hónap a) Milyen vivőmondatokat alkalmazna? A keresett személy telefonszáma: 06-30- b) Milyen mestermondatot javasolna a fejlesztéshez? NEM KELL MESTERMONDAT, MERT EGY NAP ALATT FELVEHETŐ A HANGANYAG c) Adja meg, hogy milyen eszköz és szakember igényre lenne szüksége a munka sikeres elvégzéséhez! Hangstúdió, bemondó, hangeditáló-vágó, programozó, integrátor 9

7. példa a) Melyik mai módszerhez áll legközelebb Kempelen Farkas beszédkeltő gépe? Ez a gép az artikulációt utánozza. Ehhez legközelebb a formáns szintézis áll a) Mikor és ki adta be a világ első szabadalmát tetszőleges szöveg reprodukálására alkalmas beszélőgépre? Melyik mai módszerre hasonlít? Bánó Miklós magyar mérnök 1916-ban A diád építőelemes beszédszintetizáló rendszerre hasonlít (Profivox BME TMIT) 10

8. példa A Budapest Népliget autóbusz-pályaudvarra tervezzen magyar nyelvű hangos utastájékoztató rendszert. Kellemes női hang a követelmény. a) Milyen gépi beszédelőállítási technológiát alkalmazna ebben a rendszerben? Korpusz alapú elem összefűzés b) Mik az előnyei? Szép hangon szólal meg, természetes hangzású. c) Mik a hátrányai? Nagy szakértelmet kíván mind az elkészítése, mind a működtetése. d) Mi a mestermondat szerepe a rendszer bővítésénél? Biztosítja a hangszínezet megtartását új hangfelvételnél. e) Hány óra beszédet célszerű optimálisan rögzíteni egy ilyen rendszerhez? Sok órányi beszéd. Tervezett szövegbázist kell felolvastatni. 11

9. példa Egy meglévő városi navigációs rendszert fejlesztenek tovább felhő alapú beszédszintetizátor alkalmazásával Budapest területére. Feladat: Az utcaneveket kell felolvasnia a helyesírással megadott formájú adatbázisból a felhasználó gombnyomásos kérésére a GPS koordináták alapján egy jó minőségű gépi hanggal. A korábbi rendszerből csak 20 percnyi hanganyag áll rendelkezésre, az eredeti bemondó már nem elérhető. A továbbfejlesztett rendszernek azonban hasonló hangúnak kell lennie a korábban elkészített promtokhoz. a) Milyen gépi beszédelőállítási technológiát javasolna? Beszédhang adaptálásra is szükség van, ezért HMM alapú adaptálásos TTS. a) Adja meg a rendszer elkészítésének lépéseit! HMM alapú TTS rendszer elkészítése, majd adaptálás a 20 percnyi beszéd alapján. a) Adja meg az alkalmazott technológia előnyeit és hátrányait! A HMM alapú minden hangkapcsolódást jó akusztikai formában elő tud állítani. Hátrány: nagy tudást igényel a fejlesztés és csak team munkában lehet eredményes 12

10. példa Egy magyar nyelvű időjárás jelentést felolvasó alkalmazáshoz korpuszos beszédszintetizátor beszédadatbázisát kell elkészítenie. a) Hogyan készítené el az alkalmazás alapját képező szövegkönyvet? Minden évszakban gyűjtenék szövegeket, sok szöveget. a) Milyen gépi feldolgozás(oka)t alkalmazna és milyen sorrendben, miután a kiválasztott bemondó felolvasta a téma lefedését biztosító szövegkönyvet? fonetikai átirat készítése, hanghatárok bejelölése, mondat szintű beszédadatbázis elkészítése, a vezérlő, válogató program elkészítése, tesztelése a) Adja meg a beszédadatbázis elkészítési műveletsorának lépéseit! Szöveg gyűjtés, hangfelvétel (Mester mondattal), mondatokra vágás, fonetikai átirat és hanghatár bejelölés minden mondatra. a) Milyen prozódiai modellt használna ebben a rendszerben? Helyzet alapút a mondaton belül (kezdő, belső, mondatvégi elemek szerinti válogatás címkézés) 13