Beszédfelismerés és szintézis tételek: 1. tétel: Emberi beszédlánc, beszéd szerkezete, beszédhang, beszédhangok osztályozása, fonéma A nyelv egy jelrendszer, amelynek elemeihez egy nyelvközösségen belül ugyanaz a jelenség tartozik. A természetes beszédlánc: A beszéd szerkezete: A beszéd egymástól megkülönböztethető elemek szervezett időbeni egymásutánisága soros szerkezet. Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang. A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt. Beszédhang: A legkisebb olyan egységek, amelyek sorozatával egy nyelvet megvalósító beszéd akármilyen részlete az agy számára reprodukálható, beszédhangnak nevezzük. A beszédhangok a beszéd olyan szegmensei, részletei, amelyeket a nyelvet beszélő egymástól elkülöníteni és felismerni teljes biztonsággal képes. Az élő beszéd olyan leírása, amely a beszéd hangzásának leírására törekszik a fonetikai átírás. Ennek elterjedt rendszerei az APhI és a SAMPA. Fonéma: Egy nyelv fonémakészlete elemek olyan minimális számosságú halmaza, amelyből minden szó jelentéshelyesen, de csak egyféleképpen állítható elő. A fonémakészlet elemei a fonémák. Beszédhangok osztályozása:
2. tétel: Az emberi beszédképzés szervei, működésük, beszédképzés és beszédhang osztályok Beszédképzés: rizsa Beszédhang osztályok: ld. 1. tétel
3. tétel: A beszéd, mint lineáris idővariáns rendszer, gördülő spektrum, formánsok A beszéd, mint akusztikus jelenség, egy rendszer bizonyos gerjesztésekre adott válasza: Az eredeti időfüggvényből egy ablak- (vagy súly-)függvénnyel kiveszünk egy részletet. Pl. Hamming-ablak Magánhangzók formánsstruktúrája: gördülő spektrum burkológörbe csúcsai: formánsok (lok.max.) ettől 3 db mélységhez tartozó frekvencia-távolság: a formáns sávszélessége (B 1 -B 2 ) BB3 3 khz fölött van, már nem annyira fontos mássalhangzók (felpattanó zárhangok): minden mgh-val együttállva különbözők lesznek a formánsai. de mindig egy frekvenciáról indul ki a msh-nál: ez a lokusz
4. tétel: Lineáris predikció alapegyenlete, hiba, analízis és szintézis modell, az együtthatók kiszámolási módszerei beszédjel mintákból A lineáris predikció alapegyenlete: A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával. Az α i lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. A p a prediktor fokszáma. Predikciós hiba: - a becslés pontatlanságát jellemzi, mintáról mintára változik. - négyzetes összeg minimalizálása: Analízis és szintézis modell: Beszédfelismerők, beszédszintetizátorok elve:
Az α i lineáris predikciós együtthatók kiszámítása, hogy a négyzetes hiba minimális legyen. deriváljuk: = 0 szélsőértékkeresés:, vagy mátrix alakban:, azaz: Kovariancia módszer: A predikciótól azt kívánjuk meg, hogy az n 0 =p és n 1 =N-1 határok között legyen jó! Tehát az első p elemet nem kell jól becsülnie! Autokorrelációs módszer: A 0 n N-1 indextartományon kívüli jelemeket zérusnak tételezi fel és a hibát n 0 = - és n 1 = + között értelmezi, a megoldandó egyenletrendszer mátrixa szimmetrikus, a főátlóval párhuzamos átlókban azonos elemet tartalmaz, az egyenletrendszer felírásához is csak p+1 darab együtthatót kell meghatározni.,,, azaz
5. tétel: Lineáris predikció és a PARCOR módszer ill. Saito és Itakura gondolata volt bevezetni az előre és visszairányú hibára együttesen jellemző Wp értéket: k: PARciális KORrelációs együttható Rekurzív formula: Először kiszámoljuk k 1 -et minden n-re: s (n) = e 0 (n) = f 0 (n), majd e 1 (n) és f 1 (n) értékeit minden n-re és ez hasonlóan tovább ismételhető. Fontos: k i 1 A PARCOR eljárás olyan beszédfeldolgozási eszköz, amely: 6-20 együtthatóval leírja a beszédjel egy szakaszát, az együtthatók rekurzív képlettel meghatározhatók, amodell stabilitása garantálható, az együtthatókból és valamilyen hibajelből a beszédjel előállítható.
6. tétel: Lineáris predikció és az akusztikus csőmodell A beszédkeltés akusztikus csőmodellje: Vékony cső. Itt a hullámok tengelyirányban terjednek. A hanghullám visszaverődése a csőfalról veszteségmentes. A toldalékcső csatolásmentes. A csőfalak merevek. Állóhullámú minták NEGYEDhullámú rezonátor: bal végén zárt, jobb végén nyitott cső: P(x): hangnyomás, U(x): térfogat-sebesség. ¼, ¾, 5/4 hullámok c f n = 2 4l ( 2n 1 ), n = 1,,... c=340m/s, l=0,17m F 1 =500, F 2 =1500, F 3 =2500 Állóhullámú minták FÉLedhullámú rezonátor: cső zárt, ill. nyitott mindkét végén (1; 2 hullám): c c=340m/s, l=0,17m f n = n, n = 0,1,2,... 2l F1 =0, F 2 =1000, F 3 =2000 A csőmodellen keresztül fizikai tartalom rendelhető a modellhez. A csőmodell paraméterei magából a beszédjelből meghatározhatók!
7. tétel: Prozódikus jelenségek Prozódia: (nem mit, hanem ahogy mondjuk) - a beszéd szupraszegmentális akusztikai jegyeivel foglalkozó tudományág. Szupraszegmentális: több szegmentumon (több fonémán) átívelő jelenség. Intonáció: Hanglejtés. Az alapfrekvencia (F0) változtatásaival produkáljuk. A zöngétlen hangok nem játszanak szerepet a beszéddallam alakításában. Hangerő: Elsősorban a tüdőből kiáramló levegő mennyiségével szabályozzuk. A hang intenzitásához kapcsolódik. Ritmus: Időtartamok. Ide tartozik a beszéd sebesség, bizonyos szótagok vagy fonémák nyújtása, és a szünet. Hangszín: Érzékelhető kommunikációs szerepe van, de hogy pontosan mi a hangszín, azt nehéz megfogalmazni, és még nehezebb mérni. Spektrális tulajdonság. Írásban a prozódiát írásjelekkel, időnként tipográfiai eszközökkel közelítjük. A kapcsolat azonban jóval kevésbé szoros vagy definiált, mint a betűk és az elhangzó fonémák között. Beszéd agyi szerveződése: Aszimmetria: A bal agyfélteke dominál a beszédképzésben és megértésben. A jobb agyfélteke leginkább a beszéd zenei jellemzőivel foglalkozik, vagyis a prozódiával. Embernél tipikus csak, állatoknál nincs aszimmetria. Nyelvenként változnak a prozódikus jelenségek (nyelvcsaládok hasonlóság ) Univerzális szabályszerűségek: biológiai okok: Alapfrekvencia deklináció és terjedelem redukció (fogy a levegő) Hangerő csökkenés (fogy a levegő) Szavak csoportokba szervezése (frázis tagolás) Szillabifikáció (szótagok képződése) Hangerő hangzósság: Azonos képzési erőhöz különböző mérhető hang intenzitás tartozik a különböző fonémáknál. (Az u hangot jóval erősebben kell kimondani, hogy ugyanannyira hallatszódjon, mintha az a-t akarnánk kimondani...) A hangerő megválasztása elsősorban a fizikai és pszichikai távolsághoz igazodik. előadás/párbeszéd; bizalmas/távolságtartó. Szavak csoportokba szervezése: Nem biztosan van biológiai ok. Frázisvégek: jell. Hanglejtés minták (nem mondatvégnél emelkedő dallam) + szünet. Mondat: levegővételtől levegővételig. Eső alapfrekvencia. Utána szünet. Szillabifikáció: Szótagokba sorolás. Érződik, hogy van természetes határ. Alig biztos a biológiai ok.
Prozódia a beszédben: Könnyíti a szöveg értelmezését tagolás, hangsúlyozás. + hangulat, érzelmi állapot, indulatok. Szintaktika (tagolás), pragmatika (milyen cselekvéshez használjuk), ill. szemantika (tonális nyelvek mandarin: más dallam más jelentés) Hangsúlyozás: Több erőt fejtünk ki a hangsúlyos szótagra: ez fontosabb. Ütem-, szakasz-, mondathangsúly. Prozódia a beszédtechnológiában: Beszédszintézis: jó TextToSpeech rendszereknél kb. természetesen hangzó szöveg (hírolvasó). Új: Expressive Speech Synthesis. Beszédfelismerés: gyerekcipőben Dialógus rendszerek: szóátvétel
8. tétel: Alapfrekcencia meghatározó algoritmusok Alapfrekvencia (F 0 ): a hangszalagok pillanatnyi rezgésszáma. Csak akkor értelmezünk, ha zöngés (kváziperiodikus) gerjesztés jelen van a beszédben. Fizikai mennyiség. Pitch: ~ hangmagasság. Érzeti mennyiség. Azonos frekvencia ~ azonos pitch. A hangmagasság változásai a beszédben nyelvi, érzelmi, hangulati, stb. jelentést hordoznak. PDA Pitch Detector Algorithm: a beszédjelből a pitch kontúrt képes előállítani. VDA Voicing Detection Algorithm: A PDA-nak része, amely a zöngés/zöngétlen szakaszok megkülönböztetéséért felelős. Pitch-kontúr előáll: Haladunk ablakról ablakra, mindegyikre adunk egy alapfrekvencia becslést (tipikus hossz: 20 40 ms, lépésköz: 10 ms, általában átfedik egymást). ACF: Auto Correlation Function (autokorreláció függvény): t+ w / 2 i= t w / 2 t ( τ ) = t+ w / 2 r s( i) * s( i τ ) i= t w / 2 s( i) 2 s(t) a beszédjel; w az elemzett ablak hossza * * F = fs / τ ahol τ az r ( ) "legjobb" csúcsa. 0 t τ Csúcskiválasztás Detekciós hibák: - oktávtévesztés, pontatlanságok F 0 -nál, zöngés/ztlen tévesztés. ASDF: Average Squared Difference Function: * * F = fs / τ ahol τ az d ( ) "legjobb" mélypontja. 0 t τ AMDF: Average Magnitude Difference Function: Cepstrum: CEPSTRUM(x) = IFFT ( LOG ( FFT(x) ) ) d d t ( τ ) = t+ w / 2 i= t w / 2 t ( τ ) = t+ w / 2 t+ w / 2 i= t w / 2 [ s( i) s( i τ )] 2* i= t w / 2 s( i) s( i τ ) w s( i) 2 2 LPC: Csúcsokat keresünk a Lineáris Predikciós Együtthatós hibajelben: pitch-mark kijelölés. ACF: sok a hiba előfeldolgozás: aluláteresztő szűrő, középre vágás. s sz c eltűnik. Összetett PD struktúra: PDA kiértékelés beszédadatbázisok, amiben a zöng/ztlen szakaszok, alapfr. értékek címkézve. Laryngográf. Zöng/ztlen megkülönböztetés: csúcsnagyság, beszédablakenergia vs. küszöbérték. Hangmagasság módosítása: PSOLA overlappingolás: LPC határok átfedődése
9. tétel: Beszéd és érzelem Kommunikáció: üzenetváltások közös kód alapján kódolás és dekódolás is történik. Verbális kommunikáció: a kód előzetes megállapodással lett közössé pl. (jel)nyelvek, protokollok Nem verbális kommunikáció: van közös kód, de nem megegyezés eredménye (érzelmi biol. alap) Verbális csatornák: beszélt nyelv, egyezményes jelek Nem verbális csatornák: vokális expresszió, tekintet, gesztusok, távolság, emblémák [vö. prozódia] Kódosztás a csatornák között: Az érzelem felismerése lassabb és bizonytalanabb, ha csökkentjük az elérhető nem-verbális csatornák számát. Brunswick: adó, érez => sok érzelmi csatorna a csatornákat dekódolja => fölfogja az érzést a vevő. Metakommunikáció: komm. a komm.-ról Az emberi közlésfolyamat mindig kétszintű: akaratlagos + spontán ( minősíti érz. tartalom. akarattól független, nem tudjuk kihagyni őszinte). A/D párhuzam. Emóciók belső biol. szabályozás + külső megfigyelő befolyásolása (kommun.) - homeosztázis, hormon-egyensúly billentése, betegségek Elsődleges érzelmek: kéreg alatti területek, szenzoros inputmintákra automatikusan. Őszinte. Másodlagos érzelmek: prefontális kéreg is, mentális képek közbeiktatásával váltódik ki. Féltekei aszimmetriák: az érzelmi prozódia inkább jobb féltekés, a grammatikai inkább balféltekés. Di szkrét emóciók: alapérzelmek: meglepetés, félelem, harag, öröm, szomorúság, undor [by arckifej.] Folytonos emóciók: (feeltrace) aktív passzív, kötöttség +/-, erősség, intenzitás átmenetek. Érzelmes beszéd adatforrások: Érzelem portré: színészek beszéljenek. Valódibb: önkéntesek hangulati befolyásolása.
10. tétel: Beszédszintézis alapelvei, problémái, példa a számfelolvasó 11. tétel: Jóminőségű beszédszintézis megoldásai 12. tétel: Izolált szavas felismerők alapproblémái, a felismerők elemei, idővetemítés 13. tétel: Rejtett Markov Modell a beszédfelismerésben 14. tétel: Folyamatos beszédfelismerő neurális hálózatokkal 15. tétel: Beszédjel tömörítés 16. tétel: Beszélő személy felismerés 17. tétel: Multimodális beszéd