Beszédinformációs rendszerek Beszédkeltés gyakorlat A gyakorlatot előkészítették: Dr. Olaszy Gábor Dr. Németh Géza email: [olaszy, nemeth]@tmit.bme.hu
A gyakorlat anyaga Az emberi beszédkeltésről általában Hangkeltés a gége szintjén, akusztikai paraméterek Artikulációs csatorna és átviteli tulajdonságai A beszédre jellemző fizikai értékek és sarokpontjaik Hullámformák értelmezése hangtípusonként Hangspektrogramok és olvasásuk alapjai
A beszédkommunikáció elemei A beszéd hangteste (a fizikai rezgés): a beszélő közli a mondanivalót Szünet: két közlés közötti szakasz, a hallgatót segíti az elhangzottak megértésében A beszédkommunikációban a beszéd és a szünet váltakozva van jelen
Beszéd hangteste A beszéd biológiai rendszerek között működik, a végeredmény a fiziológiai állapottól függ, egyéni és egyszeri akusztikai jel, rezgésformája a pillanathoz köthető. Minősége mindaddig nem változik, ameddig ezt az egységet nem bontjuk meg (gépi beavatkozás) A beszéd zöngés és nem zöngés hangelemek váltakozása (egy homogén szakasz egy vagy több beszédhangot is magában foglalhat) Példa hullámforma: Lali, kapták A beszéd hangnyomás-idő függvénye az artikuláció akusztikai vetületeként értelmezhető minden időpillanatban KÖVETKEZMÉNY: A spektrális kép folyamatosan változik
A beszéd frekvencia tartománya Forrás: A magyar beszéd 27. o. Fmax= 10 000 Hz (sz, c hangok) Fmin= 70 Hz (férfi Fo a kijelentő mondat végén)
Beszédképzés rendszere Soros akusztikai rendszer: 1. Hangkeltés (forrás jel): tüdő, gége, 2. Hangformálás (szűrő): artikulációs csatorna Az eredmény a hangtest, a beszéd hangzó része A hangtest akusztikai szerkezete a soros rendszerben folyamatosan változik A soros rendszer minden elemét az agy vezérli
Az emberi beszédkeltés szervei Forrás: http://www.kt.tucottbus.de/speech-analysis/
A gége a hangképzés alapja Gége (CD 13. oldal) Gégeállások bemutatása (CD 16. oldal) Zöngeképzés (fix helyhez kötött) 1. Tüdő növeli a nyomást a szubglottális térben (légcső), mialatt a hangszalagokat a gégeizmok összezárják, tehát a levegő nem tud tovább jutni. Nyomásnövekedés. 2. A nyomásnövekedés egy pontján a gégeizmok erőhatása már nem tudja a zárt állapotot tartani, tehát a hangszalagok fokozatosan szétnyílnak (de a gégeizmok záró ereje nem változik). CD 17. oldal, nyitódási-záródási ciklus 3. A nyíláson a levegő kiszökik a gége feletti (szupraglottális) térbe, majd amikor a nyomáskiegyenlítődés létrejön, az izmok ismét összezárják a hangszalagokat. Ez egy periódus a zöngés hangok képzésében. A folyamat az 1. ponttól folytatódik tovább. Ez a nyomásváltozás hallható hang, elnevezése: zöngehang, zönge A hangszalagok nem rezegnek, hanem kényszermozgást végeznek, megszaggaták a tüdőből kiáramló levegőt! Ezt a kváziperiodikus jelet hívják zöngének. Minden zöngés hang alapja a zönge (ez formálódik tovább) A zönge időfüggvénye egyén és frekvenciafüggő! Akár minden időpillanatban más és más lehet a beszéd folyamán! (könyv: 22. o.) A zöngehang hangzása nem beszéd (CD 17. oldal) A zönge komplex periodikus hang
A zönge fizikai tulajdonságai Periódus gyakorisága: alaphang, alapfrekvencia (a periódus időből számítható) Fo (Hz) Jellemző átlagértékek: férfiaknál 100 Hz, nőknél 200 Hz, gyermekeknél 400 Hz Szerepe a beszédben: Az alaphang frekvenciájának változása alakítja ki a beszéd dallamát Alalaphangváltoztatással fejezzük ki a modalitást Az alaphang frekvenciaváltozása a hangsúlyozásban is részt vesz A nyomás-amplitúdó nagysága: hangerő Jellemző átlagérték: normál hangerejű beszélgetésnél 50 db a hangnyomásszint Átfogási sáv a beszéd dinamikájára a suttogástól a kiabálásig: 60 db Egyéb szerepe a beszédben: A beszédhangok specifikus intenzitásai A hangsúlyozás nyomatékának segítése hangerővel A beszéd érzelmi töltésének kifejezése hangerővel A zönge spektruma vonalas. Felharmonikusai 4000 Hz-ig terjednek 12 db/oktáv amplitúdó csökkenéssel A felharmonikusok frekvenciatávolsága egyenlő!
A zönge spektrumképe egyénfüggő gazdag felharmonikus tartalom = karakteres beszéd csökkentett felharmonikus tartalom = fátyolos beszéd
A gége szerepe a zöngétlen hangoknál (fúvó és h állás) A zöngétlen mássalhangzók hangképzése (kivéve a h hangot) a fúvó állással történik Fúvó állás. A tüdő növeli a nyomást a szubglottális térben (légcső), és a levegő megszakítás nélkül, folyamatosan tovább halad az artikulációs csatornába. A h állás csak ehhez a mássalhangzóhoz kötődik (pl. hal, hol, hitel). Ez a hang rendelkezik a legkisebb intenzitással a beszédben.
Hangzási típusok Hangzási formák a gerjesztés függvényében zöngés; zöngétlen (turbulens áramlás van), illetve csend szakasz (nincs jel) Zöngés hangok CD 16., 17. o. a zöngehang fix helyen képződik (gége) V-k és b, d, g, gy, m, n, ny, j, v, l, r Turbulens áramlásos hangok : h, f,sz,s,c, cs Zöngés-zörejes hangok: z, zs, dz, dzs Lökéshullámmal rendelkező hangok: (könyv 54.o.) zöngések: b, d, g, gy (fojtott zönge rész) zöngétlenek: p, t, k, ty (néma fázis, azaz csend szakasz)
A beszédhangok megformálása Artikulációs csatorna (toldalékcső: 14-17 cm) Fix artikulációs szervek CD 23. o. Aktív artikulációs szervek CD 23. o. Az artikulációs csatorna jellemző pontjai CD 24. o. A rezonanciafrekvenciák - formánsok A gége és a toldalékcső független rendszerek (lásd gégeirtottak beszéde, suttogott beszéd) Bemutató a spektrális tér kitöltésére: CD 84/2 o. Az artikulációs csatorna modellezése: forrásjellel gerjesztett szűrő
Mi a formáns? Az artikulációs csatorna rezonanciafrekvenciái által felerősített felhangok nyalábja, azaz a szűrő rezonanciahelyein kialakult felerősített felhangok csoportja. Egy hang hangzását több formáns alakítja ki. http://magyarbeszed.tmit.bme.hu/formans http://magyarbeszed.tmit.bme.hu/cvvc
Mi a formáns? Az artikulációs csatorna rezonanciafrekvenciái által felerősített felhangok nyalábja http://magyarbeszed.tmit.bme.hu/formans http://magyarbeszed.tmit.bme.hu/cvvc
http://magyarbeszed.tmit.bme.hu/formans
Mi a formáns? Az artikulációs csatorna rezonanciafrekvenciái által felerősített felhangok nyalábja http://magyarbeszed.tmit.bme.hu/formans
Mi a formáns? Az artikulációs csatorna rezonanciafrekvenciái által felerősített felhangok nyalábja http://magyarbeszed.tmit.bme.hu/cvvc
Szorgalmi feladat Az eredmény elküldendő: olaszy@tmit.bme.hu Saját nevének hangjait jellemezze (táblázatban) 1. Adja meg a hangsort valamilyen hangjelöléssel. 2. Mennyi az egyes hangok jellemző időtartama? 3. Mely hangokban mérhetők formánsok? 4. Mennyi a mérhető formánsok frekvenciája a mért hangok 50%-os pontjában? F1, F2, F3 értékét kell megadni. 5. Mennyi a V-k közepén az alapfrekvencia hangonként (pontosan)? 6. Mennyi a különbség a legintenzívebb és legkisebb intenzitású hang között a hangsorban? 7. Mely hangoknál van gerjesztésváltás? A FELADAT MEGOLDÁSÁNÁL LEGYEN KREATÍV! http://magyarbeszed.tmit.bme.hu/cvvc http://magyarbeszed.tmit.bme.hu/formans http://magyarbeszed.tmit.bme.hu/mksz A feladat fenti szövege a speechlab-on található!
Hangátmenet. A beszéd nem egymás után kapcsolt hangok sorozata. A beszédhangok hangátmenettel kapcsolódnak egymáshoz. (Forrás: Elektronikus beszédelőállítás)
Hangspektrogram olvasás Mit olvashatunk le egy hangspektrogramról? Frekvenciakomponenseket, intenzitást, időszerkezetet -- Jellemző, hogy milyen frekvenciafelbontással készült: keskeny sávú frekvencia felbontás (széles időablak) Fo + a felhangok látszanak az idő függvényében, Fo leolvasható a frekvenciatengelyen széles sáv (keskeny időablak) formánsok látszanak foltként (összemosódnak a felerősített felhangok), zárfelpattanások jól látszanak (finom az időfelbontás) Fo értéke az időtengely bordázottságából számítható A feketedés foka (3. dimenzió) mutatja a nagy energiájú frekvenciakomponenseket (formánsok, zörejsávok)
Hangspektrogram ábrázolási formák (színes is lehet)
Egy hangsor hullámformája és formánsszerkezete I s t v á nbe k a pcs o l t aa sz á mí t ó g é p e t.
Hullámforma olvasás A beszédhangok hullámformái jellegzetesek, a hangtípustól függnek Magánhangzók nagy amplitúdójú periodikus rezgés Mássalhangzók egyedi amplitúdó formák és nagyságok Gyakorlati bemutató az egyes hangtípusokra beszédszintetizátorral További gyakorlás: http://magyarbeszed.tmit.bme.hu
Vége a gyakorlatnak, várom a kérdéseket.