Beszédfelismerés és szintézis tételek:



Hasonló dokumentumok
Beszédfelismerés, beszédmegértés

MAGYAR NYELV ÉS IRODALOM 5-8. MAGYAR NYELV. 5. évfolyam

Külső fül: Középfül: Belső fül:

Mesterséges intelligencia, 7. előadás október 13. Készítette: Masa Tibor (KPM V.)

DIPLOMATERV. Siketek beszédértését segítő taktilis kijelző készítéséhez zajtűrő beszédfelismerő algoritmusok áttekintése, fejlesztése

Hulladékgazdálkodás Előadás 15. Települési hulladéklerakók -Hulladéklerakóhelyekfajtái,kialakításilehetőségei, helykiválasztás szempontjai.

18, A zaj fogalma, hullámegyenletek, szintek, műveletek szintekkel,hangszin zaj hatása az emberi fülre..

AutoN cr. Automatikus Kihajlási Hossz számítás AxisVM-ben. elméleti háttér és szemléltető példák február

Automatikus beszédfelismerés Mérési Segédlet

Természetes számok: a legegyszerűbb halmazok elemeinek. halmazokat alkothatunk, ezek elemszámai természetes 3+2=5

Széchenyi István Egyetem, 2005

A szupraszegmentális jellemzők szerepe és felhasználása a gépi beszédfelismerésben. Szaszák György

MAGYAR NYELV 5 8. Javasolt óraszámbeosztás

A VERBIDENT-SD-2 izolált szavas gépi beszédfelismerő

Beszédadatbázis irodai számítógép-felhasználói környezetben

GAZDASÁGI STATISZTIKA

Mády Katalin február 24.

Magyar nyelv. 5. évfolyam

/ Fűtés megújuló energiával. / Tökéletes komfort. / Megfelelő hőmérséklet

MATEMATIKA ÍRÁSBELI ÉRETTSÉGI-FELVÉTELI FELADATOK május 19. du. JAVÍTÁSI ÚTMUTATÓ

Kerettantervi ajánlás a helyi tanterv készítéséhez az EMMI kerettanterv 51/2012. (XII. 21.) EMMI rendelet 2. sz. melléklet

ZAJVÉDŐ FAL HATÁSOSSÁGÁNAK VIZSGÁLATA A BUDAPEST III. KERÜLETI JÉGTÖRŐ ÚTNÁL

Gyakorlat. Hangutánzás. Forrás hullámforma kiszámítása. Formáns-szűrősor kiszámítás. Formánsszűrősor alkalmazása forrás hullámformán

Elektromágneses hullámok, a fény

TARTÁLYKOCSIRA SZERELT AUTOMATIKUS ÜZEMŰ SZINTMÉRŐ- RENDSZEREK

A színházi előadás elemzési szempontjai

Jelek és jeltípusok. A jelek gazdaságosságából következik, hogy sokan és sokféleképpen próbálták őket csoportosítani

Beavatkozószervek

HANGERŐ, ÍRÁS, TESTTARTÁS, TÉRHASZNÁLAT, JELNYELV

Fúvókás sugárbefúvó DSA

DIÓSGYŐRI NAGY LAJOS KIRÁLY ÁLTALÁNOS ISKOLA. Pedagógiai Program 2. sz. melléklet. A sajátos nevelési igényű tanulók nevelésének pedagógiai programja

AKUSZTIKAI ALAPOK. HANG. ELEKTROAKUSZ- TIKAI ÁTALAKITÓK.

Az előállítási folyamat INPUTOKAT transzformál OUTPUTOKKÁ A transzformációs folyamat típusai: Fizikai természetű ( pl. szerelés, csavarozás, rögzítés

AVT hőmérséklet szabályozó biztonsági STM / VG(F) hőmérséklet figyelővel (PN25)

2. OPTIKA 2.1. Elmélet Geometriai optika

CSÁPOSKÚT PERMANENS ÁRAMLÁSTANI FOLYAMATAINAK MODELLEZÉSE

HELYI TANTERV TARTALOMJEGYZÉKE 3

Reuven Tsur Esti Kérdés Előadóművészet

Kódolás, hibajavítás. Tervezte és készítette Géczy LászlL. szló 2002

SL7000. Intelligens kereskedelmi és ipari fogyasztásmérő

Adatbázisok I Adatmodellek komponensei. Adatbázis modellek típusai. Adatbázisrendszer-specifikus tervezés

MUNKAANYAG. Vályi Gábor. A segítő kapcsolat tartalma, kommunikáció. A követelménymodul megnevezése: A szociális segítés alapfeladatai

EMMI kerettanterv 51/2012. (XII. 21.) EMMI rendelet 1. sz. melléklet Matematika az általános iskolák 1 4. évfolyama számára

DT13xx Gyújtószikramentes NAMUR / kontaktus leválasztók

REZGÉSVIZSGÁLAT GYAKORLATI ALKALMAZÁSI LEHETŐSÉGEI A MAGYAR HONVÉDSÉG REPÜLŐCSAPATAINÁL

prímfaktoriz mfaktorizáció szló BME Villamosmérn és s Informatikai Kar

Nyit/Zár (ON/OFF) zónaszelepek AMZ 112, AMZ 113

Bevezető Mi a statisztika? Mérés Feldolgozás Adatok rendezése Adatok jellemzése Időbeli elemzés Feladatok. Statisztika I.

A 2011/2012. tanévi FIZIKA Országos Középiskolai Tanulmányi Verseny első fordulójának feladatai és megoldásai fizikából. I.

Mit lássunk élnek? Hol van az él? Milyen vastag legyen? Hol

XB06 -típusú forrasztott lemezes hőcserélő & IHPT típusú átfolyás-kompenzált hőmérséklet szabályozó beépített p szabályozóval (NO) (PN16)

A DRF 13/03-06 típusú digitális mikrohullámú rádiórelé rendszer

Apor Vilmos Katolikus Iskolaközpont. Helyi tanterv. Matematika. készült. a 51/2012. (XII. 21.) EMMI rendelet 1. sz. melléklet 1-4./1.2.3.

különösen a média közleményeiben való reális tájékozódást. Mindehhez elengedhetetlen egyszerű matematikai szövegek értelmezése, elemzése.

Ének-zene helyi tantárgyi tanterv osztály RPI szakmai munkaanyag

különösen a média közleményeiben való reális tájékozódást. Mindehhez elengedhetetlen egyszerű matematikai szövegek értelmezése, elemzése.

Az Európai Unió Hivatalos Lapja AZ EURÓPAI PARLAMENT ÉS A TANÁCS 95/28/EGK IRÁNYELVE. (1995. október 24.)

Hidraulika. 5. előadás

Anyagszerkezettan és anyagvizsgálat (BMEGEMTAGK1)

Olasz C számú nyelvi programkövetelmény

Időt kezelő modellek és temporális logikák

UEFA A licencmegújító továbbképzés. A gyorsaság és az erő A két kondicionális képesség kapcsolata. Sáfár Sándor Gödöllő

Képfeldolgozási módszerek a geoinformatikában

9. Áramlástechnikai gépek üzemtana

4/26/2016. Légcsatorna hálózatok. Csillapítás. Hangterjedés, hangelnyelés légcsatorna hálózatokban

különösen a média közleményeiben való reális tájékozódást. Mindehhez elengedhetetlen egyszerű matematikai szövegek értelmezése, elemzése.

Következõ: Lineáris rendszerek jellemzõi és vizsgálatuk. Jelfeldolgozás. Lineáris rendszerek jellemzõi és vizsgálatuk

VIZSGABIZTOS KÉPZÉS. 09_2. Kormányzás. Kádár Lehel. Budapest,

MAGYAR NYELV ÉS IRODALOM... 3 TÖRTÉNELEM ÉS ÁLLAMPOLGÁRI ISMERETEK HON- ÉS NÉPISMERET TÁNC ÉS DRÁMA... 43

vonalsugárzók a kiváló beszéd érthetőségért

Tárgyalástechnika.

I R Á N Y E LV E K Az Óvodai nevelés országos alapprogramja a sajátos nevelési igényű gyermekek óvodai nevelésében

4. Programozási nyelvek osztályozása. Amatőr és professzionális

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

FCM szabályzók. Tanúsítvány A termék ISO 9001 minısítéssel rendelkezik

Budapest, szeptember

statisztikai menürendszere Dr. Vargha András 2007

Fejlesztendő területek, kompetenciák:

ZAJCSILLAPÍTOTT SZÁMÍTÓGÉPHÁZ TERVEZÉSE

VHR-23 Regisztráló műszer Felhasználói leírás

Hősugárzás Hővédő fóliák

A tanulói tevékenységre alapozott fizikaoktatás változatos tevékenységkínálatával lehetővé teszi, hogy a tanulók kipróbálhassák és megismerhessék

1 A jelzőlámpás irányítás

Matematika. Specializáció évfolyam

TERMÉSZETES VILÁGÍTÁS

Szálerősített anyagok fröccsöntése Dr. KOVÁCS József Gábor

MATEMATIKA 1-2.osztály

Szerszámgépek. 1999/2000 II. félév Dr. Lipóth András által leadott anyagrész vázlata

A racionális és irracionális döntések mechanizmusai. Gáspár Merse Előd fizikus és bűvész. Wigner MTA Fizikai Kutatóintézet. duplapluszjo.blogspot.

Nagy Sándor: Magkémia

III/1. Kisfeszültségű vezetékméretezés általános szempontjai (feszültségesés, teljesítményveszteség fogalma, méretezésben szokásos értékei.

Akusztikai mérések SztahóDávid

NARVAL ACOUSTICS. Professional audio & Communication. Matrix 16 kommunikációs rendszer ismertetése

Szupraszegmentális szerkezet

A fajok közötti kommunikáció vizsgálata


HITELESÍTÉSI ELŐÍRÁS HE

Az 5-2. ábra két folyamatos jel (A és B) azonos gyakoriságú mintavételezését mutatja ábra

Villamosgépek. összefoglaló kivonat az Elektrotechnika III. tantárgy el adásaiból Dr. Kloknicer Imre egy. adj., okl. eá. vill.

EGÉSZTESTSZÁMLÁLÁS. Mérésleírás Nukleáris környezetvédelem gyakorlat környezetmérnök hallgatók számára

Átírás:

Beszédfelismerés és szintézis tételek: 1. tétel: Emberi beszédlánc, beszéd szerkezete, beszédhang, beszédhangok osztályozása, fonéma A nyelv egy jelrendszer, amelynek elemeihez egy nyelvközösségen belül ugyanaz a jelenség tartozik. A természetes beszédlánc: A beszéd szerkezete: A beszéd egymástól megkülönböztethető elemek szervezett időbeni egymásutánisága soros szerkezet. Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang. A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt. Beszédhang: A legkisebb olyan egységek, amelyek sorozatával egy nyelvet megvalósító beszéd akármilyen részlete az agy számára reprodukálható, beszédhangnak nevezzük. A beszédhangok a beszéd olyan szegmensei, részletei, amelyeket a nyelvet beszélő egymástól elkülöníteni és felismerni teljes biztonsággal képes. Az élő beszéd olyan leírása, amely a beszéd hangzásának leírására törekszik a fonetikai átírás. Ennek elterjedt rendszerei az APhI és a SAMPA. Fonéma: Egy nyelv fonémakészlete elemek olyan minimális számosságú halmaza, amelyből minden szó jelentéshelyesen, de csak egyféleképpen állítható elő. A fonémakészlet elemei a fonémák. Beszédhangok osztályozása:

2. tétel: Az emberi beszédképzés szervei, működésük, beszédképzés és beszédhang osztályok Beszédképzés: rizsa Beszédhang osztályok: ld. 1. tétel

3. tétel: A beszéd, mint lineáris idővariáns rendszer, gördülő spektrum, formánsok A beszéd, mint akusztikus jelenség, egy rendszer bizonyos gerjesztésekre adott válasza: Az eredeti időfüggvényből egy ablak- (vagy súly-)függvénnyel kiveszünk egy részletet. Pl. Hamming-ablak Magánhangzók formánsstruktúrája: gördülő spektrum burkológörbe csúcsai: formánsok (lok.max.) ettől 3 db mélységhez tartozó frekvencia-távolság: a formáns sávszélessége (B 1 -B 2 ) BB3 3 khz fölött van, már nem annyira fontos mássalhangzók (felpattanó zárhangok): minden mgh-val együttállva különbözők lesznek a formánsai. de mindig egy frekvenciáról indul ki a msh-nál: ez a lokusz

4. tétel: Lineáris predikció alapegyenlete, hiba, analízis és szintézis modell, az együtthatók kiszámolási módszerei beszédjel mintákból A lineáris predikció alapegyenlete: A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával. Az α i lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. A p a prediktor fokszáma. Predikciós hiba: - a becslés pontatlanságát jellemzi, mintáról mintára változik. - négyzetes összeg minimalizálása: Analízis és szintézis modell: Beszédfelismerők, beszédszintetizátorok elve:

Az α i lineáris predikciós együtthatók kiszámítása, hogy a négyzetes hiba minimális legyen. deriváljuk: = 0 szélsőértékkeresés:, vagy mátrix alakban:, azaz: Kovariancia módszer: A predikciótól azt kívánjuk meg, hogy az n 0 =p és n 1 =N-1 határok között legyen jó! Tehát az első p elemet nem kell jól becsülnie! Autokorrelációs módszer: A 0 n N-1 indextartományon kívüli jelemeket zérusnak tételezi fel és a hibát n 0 = - és n 1 = + között értelmezi, a megoldandó egyenletrendszer mátrixa szimmetrikus, a főátlóval párhuzamos átlókban azonos elemet tartalmaz, az egyenletrendszer felírásához is csak p+1 darab együtthatót kell meghatározni.,,, azaz

5. tétel: Lineáris predikció és a PARCOR módszer ill. Saito és Itakura gondolata volt bevezetni az előre és visszairányú hibára együttesen jellemző Wp értéket: k: PARciális KORrelációs együttható Rekurzív formula: Először kiszámoljuk k 1 -et minden n-re: s (n) = e 0 (n) = f 0 (n), majd e 1 (n) és f 1 (n) értékeit minden n-re és ez hasonlóan tovább ismételhető. Fontos: k i 1 A PARCOR eljárás olyan beszédfeldolgozási eszköz, amely: 6-20 együtthatóval leírja a beszédjel egy szakaszát, az együtthatók rekurzív képlettel meghatározhatók, amodell stabilitása garantálható, az együtthatókból és valamilyen hibajelből a beszédjel előállítható.

6. tétel: Lineáris predikció és az akusztikus csőmodell A beszédkeltés akusztikus csőmodellje: Vékony cső. Itt a hullámok tengelyirányban terjednek. A hanghullám visszaverődése a csőfalról veszteségmentes. A toldalékcső csatolásmentes. A csőfalak merevek. Állóhullámú minták NEGYEDhullámú rezonátor: bal végén zárt, jobb végén nyitott cső: P(x): hangnyomás, U(x): térfogat-sebesség. ¼, ¾, 5/4 hullámok c f n = 2 4l ( 2n 1 ), n = 1,,... c=340m/s, l=0,17m F 1 =500, F 2 =1500, F 3 =2500 Állóhullámú minták FÉLedhullámú rezonátor: cső zárt, ill. nyitott mindkét végén (1; 2 hullám): c c=340m/s, l=0,17m f n = n, n = 0,1,2,... 2l F1 =0, F 2 =1000, F 3 =2000 A csőmodellen keresztül fizikai tartalom rendelhető a modellhez. A csőmodell paraméterei magából a beszédjelből meghatározhatók!

7. tétel: Prozódikus jelenségek Prozódia: (nem mit, hanem ahogy mondjuk) - a beszéd szupraszegmentális akusztikai jegyeivel foglalkozó tudományág. Szupraszegmentális: több szegmentumon (több fonémán) átívelő jelenség. Intonáció: Hanglejtés. Az alapfrekvencia (F0) változtatásaival produkáljuk. A zöngétlen hangok nem játszanak szerepet a beszéddallam alakításában. Hangerő: Elsősorban a tüdőből kiáramló levegő mennyiségével szabályozzuk. A hang intenzitásához kapcsolódik. Ritmus: Időtartamok. Ide tartozik a beszéd sebesség, bizonyos szótagok vagy fonémák nyújtása, és a szünet. Hangszín: Érzékelhető kommunikációs szerepe van, de hogy pontosan mi a hangszín, azt nehéz megfogalmazni, és még nehezebb mérni. Spektrális tulajdonság. Írásban a prozódiát írásjelekkel, időnként tipográfiai eszközökkel közelítjük. A kapcsolat azonban jóval kevésbé szoros vagy definiált, mint a betűk és az elhangzó fonémák között. Beszéd agyi szerveződése: Aszimmetria: A bal agyfélteke dominál a beszédképzésben és megértésben. A jobb agyfélteke leginkább a beszéd zenei jellemzőivel foglalkozik, vagyis a prozódiával. Embernél tipikus csak, állatoknál nincs aszimmetria. Nyelvenként változnak a prozódikus jelenségek (nyelvcsaládok hasonlóság ) Univerzális szabályszerűségek: biológiai okok: Alapfrekvencia deklináció és terjedelem redukció (fogy a levegő) Hangerő csökkenés (fogy a levegő) Szavak csoportokba szervezése (frázis tagolás) Szillabifikáció (szótagok képződése) Hangerő hangzósság: Azonos képzési erőhöz különböző mérhető hang intenzitás tartozik a különböző fonémáknál. (Az u hangot jóval erősebben kell kimondani, hogy ugyanannyira hallatszódjon, mintha az a-t akarnánk kimondani...) A hangerő megválasztása elsősorban a fizikai és pszichikai távolsághoz igazodik. előadás/párbeszéd; bizalmas/távolságtartó. Szavak csoportokba szervezése: Nem biztosan van biológiai ok. Frázisvégek: jell. Hanglejtés minták (nem mondatvégnél emelkedő dallam) + szünet. Mondat: levegővételtől levegővételig. Eső alapfrekvencia. Utána szünet. Szillabifikáció: Szótagokba sorolás. Érződik, hogy van természetes határ. Alig biztos a biológiai ok.

Prozódia a beszédben: Könnyíti a szöveg értelmezését tagolás, hangsúlyozás. + hangulat, érzelmi állapot, indulatok. Szintaktika (tagolás), pragmatika (milyen cselekvéshez használjuk), ill. szemantika (tonális nyelvek mandarin: más dallam más jelentés) Hangsúlyozás: Több erőt fejtünk ki a hangsúlyos szótagra: ez fontosabb. Ütem-, szakasz-, mondathangsúly. Prozódia a beszédtechnológiában: Beszédszintézis: jó TextToSpeech rendszereknél kb. természetesen hangzó szöveg (hírolvasó). Új: Expressive Speech Synthesis. Beszédfelismerés: gyerekcipőben Dialógus rendszerek: szóátvétel

8. tétel: Alapfrekcencia meghatározó algoritmusok Alapfrekvencia (F 0 ): a hangszalagok pillanatnyi rezgésszáma. Csak akkor értelmezünk, ha zöngés (kváziperiodikus) gerjesztés jelen van a beszédben. Fizikai mennyiség. Pitch: ~ hangmagasság. Érzeti mennyiség. Azonos frekvencia ~ azonos pitch. A hangmagasság változásai a beszédben nyelvi, érzelmi, hangulati, stb. jelentést hordoznak. PDA Pitch Detector Algorithm: a beszédjelből a pitch kontúrt képes előállítani. VDA Voicing Detection Algorithm: A PDA-nak része, amely a zöngés/zöngétlen szakaszok megkülönböztetéséért felelős. Pitch-kontúr előáll: Haladunk ablakról ablakra, mindegyikre adunk egy alapfrekvencia becslést (tipikus hossz: 20 40 ms, lépésköz: 10 ms, általában átfedik egymást). ACF: Auto Correlation Function (autokorreláció függvény): t+ w / 2 i= t w / 2 t ( τ ) = t+ w / 2 r s( i) * s( i τ ) i= t w / 2 s( i) 2 s(t) a beszédjel; w az elemzett ablak hossza * * F = fs / τ ahol τ az r ( ) "legjobb" csúcsa. 0 t τ Csúcskiválasztás Detekciós hibák: - oktávtévesztés, pontatlanságok F 0 -nál, zöngés/ztlen tévesztés. ASDF: Average Squared Difference Function: * * F = fs / τ ahol τ az d ( ) "legjobb" mélypontja. 0 t τ AMDF: Average Magnitude Difference Function: Cepstrum: CEPSTRUM(x) = IFFT ( LOG ( FFT(x) ) ) d d t ( τ ) = t+ w / 2 i= t w / 2 t ( τ ) = t+ w / 2 t+ w / 2 i= t w / 2 [ s( i) s( i τ )] 2* i= t w / 2 s( i) s( i τ ) w s( i) 2 2 LPC: Csúcsokat keresünk a Lineáris Predikciós Együtthatós hibajelben: pitch-mark kijelölés. ACF: sok a hiba előfeldolgozás: aluláteresztő szűrő, középre vágás. s sz c eltűnik. Összetett PD struktúra: PDA kiértékelés beszédadatbázisok, amiben a zöng/ztlen szakaszok, alapfr. értékek címkézve. Laryngográf. Zöng/ztlen megkülönböztetés: csúcsnagyság, beszédablakenergia vs. küszöbérték. Hangmagasság módosítása: PSOLA overlappingolás: LPC határok átfedődése

9. tétel: Beszéd és érzelem Kommunikáció: üzenetváltások közös kód alapján kódolás és dekódolás is történik. Verbális kommunikáció: a kód előzetes megállapodással lett közössé pl. (jel)nyelvek, protokollok Nem verbális kommunikáció: van közös kód, de nem megegyezés eredménye (érzelmi biol. alap) Verbális csatornák: beszélt nyelv, egyezményes jelek Nem verbális csatornák: vokális expresszió, tekintet, gesztusok, távolság, emblémák [vö. prozódia] Kódosztás a csatornák között: Az érzelem felismerése lassabb és bizonytalanabb, ha csökkentjük az elérhető nem-verbális csatornák számát. Brunswick: adó, érez => sok érzelmi csatorna a csatornákat dekódolja => fölfogja az érzést a vevő. Metakommunikáció: komm. a komm.-ról Az emberi közlésfolyamat mindig kétszintű: akaratlagos + spontán ( minősíti érz. tartalom. akarattól független, nem tudjuk kihagyni őszinte). A/D párhuzam. Emóciók belső biol. szabályozás + külső megfigyelő befolyásolása (kommun.) - homeosztázis, hormon-egyensúly billentése, betegségek Elsődleges érzelmek: kéreg alatti területek, szenzoros inputmintákra automatikusan. Őszinte. Másodlagos érzelmek: prefontális kéreg is, mentális képek közbeiktatásával váltódik ki. Féltekei aszimmetriák: az érzelmi prozódia inkább jobb féltekés, a grammatikai inkább balféltekés. Di szkrét emóciók: alapérzelmek: meglepetés, félelem, harag, öröm, szomorúság, undor [by arckifej.] Folytonos emóciók: (feeltrace) aktív passzív, kötöttség +/-, erősség, intenzitás átmenetek. Érzelmes beszéd adatforrások: Érzelem portré: színészek beszéljenek. Valódibb: önkéntesek hangulati befolyásolása.

10. tétel: Beszédszintézis alapelvei, problémái, példa a számfelolvasó 11. tétel: Jóminőségű beszédszintézis megoldásai 12. tétel: Izolált szavas felismerők alapproblémái, a felismerők elemei, idővetemítés 13. tétel: Rejtett Markov Modell a beszédfelismerésben 14. tétel: Folyamatos beszédfelismerő neurális hálózatokkal 15. tétel: Beszédjel tömörítés 16. tétel: Beszélő személy felismerés 17. tétel: Multimodális beszéd