Beszédinformációs rendszerek órajegyzet- 2005 1. BEVEZETÉS



Hasonló dokumentumok
A beszéd. Segédlet a Kommunikáció-akusztika tanulásához

Akusztikai mérések SztahóDávid

Beszédinformációs rendszerek

2. Az emberi hallásról

1. A hang, mint akusztikus jel

Zaj- és rezgés. Törvényszerűségek

A hang mint mechanikai hullám

Beszédhangok és spektrális jellemzésük

Bevezetés a nyelvtudományba Fonetika

A beszédképzés szervei

A beszédhang felfedezése. A hangok jelölése a fonetikában

A hangtan irányai, fajai Olvasnivaló: Bolla Kálmán: A leíró hangtan vázlata. Fejezetek a magyar leíró hangtanból. Szerk. Bolla Kálmán. Bp., 1982.

Hallás Bódis Emőke november 19.

Mechanikai hullámok. Hullámhegyek és hullámvölgyek alakulnak ki.

11. Egy Y alakú gumikötél egyik ága 20 cm, másik ága 50 cm. A két ág végeit azonos, f = 4 Hz

GPGPU. Hangfeldolgozás és hangszintézis

Hullámok, hanghullámok

Beszédinformációs rendszerek 6. gyakorlat

Hallás időállandói. Következmények: 20Hz alatti hang nem hallható 12Hz kattanás felismerhető

Környezetvédelem műszaki alapjai. alapjai, akusztika

Az emberi hallás. A fül felépítése

Külső fül: Középfül: Belső fül:

Bevezetés a nyelvtudományba. 2. Fonetika

Beszédinformációs rendszerek. 3. gyakorlat - Elemi jelfeldolgozás (a beszédjel feldolgozásának lépései)

Értékelés Összesen: 100 pont 100% = 100 pont A VIZSGAFELADAT MEGOLDÁSÁRA JAVASOLT %-OS EREDMÉNY: EBBEN A VIZSGARÉSZBEN A VIZSGAFELADAT ARÁNYA 15%.

Fizikai hangtan, fiziológiai hangtan és építészeti hangtan

A mássalhangzók. Konszonánsok (consonans) jelölése: C Mássalhangzók vs. magánhangzók? Mi jellemző a mássalhangzókra?

Fourier-sorfejtés vizsgálata Négyszögjel sorfejtése, átviteli vizsgálata

Hullámok tesztek. 3. Melyik állítás nem igaz a mechanikai hullámok körében?

Fonetika. Tóth Ildikó, PhD. Bevezetés a nyelvtudományba 2. előadás 2009 Pázmány Péter Katolikus Egyetem

Rezgés, Hullámok. Rezgés, oszcilláció. Harmonikus rezgő mozgás jellemzői

Mechanikai rezgések Ismétlő kérdések és feladatok Kérdések

Beszédinformációs rendszerek

Audiometria 1. ábra 1. ábra 1. ábra 1. ábra 1. ábra

Hangintenzitás, hangnyomás

Hullámmozgás. Mechanikai hullámok A hang és jellemzői A fény hullámtermészete

ZAJ ÉS REZGÉSVÉDELEM Hallás

A HANGOK TANÁTÓL A BESZÉDTECHNOLÓGIÁIG. Gósy Mária. MTA Nyelvtudományi Intézet, Kempelen Farkas Beszédkutató Laboratórium

A Brüel & Kjaer zajdiagnosztikai módszereinek elméleti alapjai és ipari alkalmazása

Mérés és adatgyűjtés

1. témakör. A hírközlés célja, általános modellje A jelek osztályozása Periodikus jelek leírása időtartományban

Következõ: Lineáris rendszerek jellemzõi és vizsgálatuk. Jelfeldolgozás. Lineáris rendszerek jellemzõi és vizsgálatuk

Ellenőrző kérdések a Jelanalízis és Jelfeldolgozás témakörökhöz

Értékelés Összesen: 100 pont 100% = 100 pont A VIZSGAFELADAT MEGOLDÁSÁRA JAVASOLT %-OS EREDMÉNY: EBBEN A VIZSGARÉSZBEN A VIZSGAFELADAT ARÁNYA 35%.

RENDSZERTECHNIKA 8. GYAKORLAT

Zaj (bevezetés) A zaj hatása Zaj Környezeti zaj Zajimisszió Zajemisszió Zaj szabályozás Zaj környezeti és gazdasági szerepe:

Beszédinformációs rendszerek

Méréstechnika. Rezgésmérés. Készítette: Ángyán Béla. Iszak Gábor. Seidl Áron. Veszprém. [Ide írhatja a szöveget] oldal 1

DINAMIKAI VIZSGÁLAT OPERÁTOROS TARTOMÁNYBAN Dr. Aradi Petra, Dr. Niedermayer Péter: Rendszertechnika segédlet 1

Rezgések és hullámok

Alkalmazás a makrókanónikus sokaságra: A fotongáz

Digitális jelfeldolgozás

5. mérés: Diszkrét Fourier Transzformáció (DFT), Gyors Fourier Transzformáció (FFT), számítógépes jelanalízis

ZAJ ÉS REZGÉSVÉDELEM Rezgéstan és hangtan

Hogyan veheti észre, hogy halláscsökkenésben szenved?

Kiegészítés a Párbeszédes Informatikai Rendszerek tantárgyhoz

Szent István Egyetem Fizika és folyamatirányítási Tanszék FIZIKA. rezgések egydimenziós hullám hangok fizikája. Dr. Seres István

Az Ampère-Maxwell-féle gerjesztési törvény

A magánhangzók fonetikai rendszerezése

Hangfrekvenciás mechanikai rezgések vizsgálata

Jelek és rendszerek 1. 10/9/2011 Dr. Buchman Attila Informatikai Rendszerek és Hálózatok Tanszék

Hang és ultrahang. Sugárzások. A hang/ultrahang mint hullám. A hang mechanikai hullám. Terjedéséhez közegre van szükség vákuumban nem terjed

Orvosi Fizika és Statisztika

Impulzív zaj eredetű halláskárosodás. RPG-7 lövészet által okozott halláskárosodás oka

Gibbs-jelenség viselkedésének vizsgálata egyszer négyszögjel esetén

Az énekelt magánhangzók észlelése réshangkörnyezetben

Felvételi előkészítő. magyar nyelvből. 1. foglalkozás

A hallás és a beszédpercepció

Csillapított rezgés. a fékező erő miatt a mozgás energiája (mechanikai energia) disszipálódik. kváziperiódikus mozgás

Rezgőmozgás. A mechanikai rezgések vizsgálata, jellemzői és dinamikai feltétele

Anyagvizsgálati módszerek

π π A vivőhullám jelalakja (2. ábra) A vivőhullám periódusideje T amplitudója A az impulzus szélessége szögfokban 2p. 2p [ ]

ÁRAMKÖRÖK SZIMULÁCIÓJA

A munkavégzés a rendszer és a környezete közötti energiacserének a D hőátadástól eltérő valamennyi más formája.

Az Informatika Elméleti Alapjai

AKUSZTIKAI ALAPOK. HANG. ELEKTROAKUSZ- TIKAI ÁTALAKITÓK.

Négyszög - Háromszög Oszcillátor Mérése Mérési Útmutató

Wavelet transzformáció

A kísérlet, mérés megnevezése célkitűzései: Váltakozó áramú körök vizsgálata, induktív ellenállás mérése, induktivitás értelmezése.

book 2010/9/9 14:36 page v #5

Idő-frekvencia transzformációk waveletek

Digitális jelfeldolgozás

Valószínűségi változók. Várható érték és szórás

Hangtechnika. Médiatechnológus asszisztens

Beszédinformációs rendszerek. Alapvető beszédakusztika I.

Colin Hargis Elektromágneses összeférhetõség - útmutató erõsáramú mérnökök részére

Tartalomjegyzék. Rövidítések jegyzéke... EMBER, NYELV, BESZÉD. 1. A beszéd és az információs társadalom... 3

ANTAL Margit. Sapientia - Erdélyi Magyar Tudományegyetem. Jelfeldolgozás. ANTAL Margit. Adminisztratív. Bevezetés. Matematikai alapismeretek.

Hang és fény (Akusztika, fénytechnika)

Műszaki akusztikai mérések. (Oktatási segédlet, készítette: Deák Krisztián)

belsı konzulens aláírása Bíráló adatai:

Beszédészlelés 1: Beszédpercepció. A beszédpercepció helye a beszédmegértési folyamatban

Az úszás biomechanikája

Folytonos rendszeregyenletek megoldása. 1. Folytonos idejű (FI) rendszeregyenlet általános alakja

Z v 1 (t)v 2 (t τ)dt. R 12 (τ) = 1 R 12 (τ) = lim T T. ill. periódikus jelekre:

Beszédadatbázis irodai számítógép-felhasználói környezetben

Informatika Rendszerek Alapjai

Hangfrekvenciás mechanikai rezgések vizsgálata

Beszédtechnológia az információs esélyegyenlőség szolgálatában

Hatványsorok, Fourier sorok

Átírás:

1. BEVEZETÉS Átdolgozva: 008. február-április 1.1. Alapfogalmak 1.1.1. Nyelv az emberi kommunikáció illetve az emberi gondolkodás legfontosabb eszköze. a nyelv elsődleges megnyilvánulási formája a beszéd (a beszéd az emberi kommunikációnak nem az egyetlen formája nem verbális kommunikáció) természetes körülmények között az emberi kommunikáció alapvető jellemzője a multimodalitás, de a beszéd az egyetlen olyan kommunikációs eszköz, mely önmagában is érthető, ezért a beszédnek az emberi kommunikációban kiemelt szerepe van 1.1.. A természetes beszédlánc Beszélő ember levegő (átviteli közeg) figyelő (hallgató) ember A visszacsatolás nagyon fontos Hallószerv Beszélőszervek Agy Beszélőszervek Hallószerv Agy Visszacsatolás a saját beszédprodukcióra - hangerő szabályozás - hibajavítás (megakadási jelenségek, hezitálás) - tartalmi ellenőrzés Ha nem működik a visszacsatolás, akkor a beszéd csonkulhat (pl. süketek) 1.1.3. Beszédfeldolgozás (beszédtechnológia) A beszédfeldolgozás a természetes beszédlánc egy vagy több elemének mesterséges (gépi) feldolgozásával foglalkozik Primer alkalmazások beszédátvitel: időbeni vagy térbeli távolságon keresztül és mindezt hatékonyan (sávszélesség éhség). A 30-as években került napirendre az az igény, hogy a beszéd sávszélesség-igényét úgy csökkentsék, hogy a felismerhetősége ne vagy csak alig romoljon. Később ennek módja a digitalizálás és tömörítés (MPEG - Motion Picture Experts Group). beszédszintézis: a beszéd mesterséges előállítása. Célja, hogy géppel is lehessen hangüzenetet átadni, szöveget automatikusan felolvasni (telefonos üzenetátadók, információs rendszerek, pályaudvari tájékoztatók, beszélő autók stb.). 1

Orvosi alkalmazása is lehet. Újfajta hallásvizsgálati eljárást dolgoztak ki (1984-88). Beszédsérültek rehabilitációjában is használható a gépi beszéd alkalmazása. Lényeges terölet a vakok és gyengénlátók támogatása, illetve a beszédsérültek segítése beszédkommunikátor kézi készülékkel. beszédfelismerés beszélő azonosítás: beléptető rendszereknél alkalmazzák, egy előre bemondott mondat alapján azonosítják a beszélőt beszélő felismerés: nagy adattárakban beszédmintákat tárolnak, a rendszernek ez alapján kell felismernie, hogy ki a beszélő, vagy esetleg nincs is rá vonatkozó információ az adatbázisban beszédkorrektor: például a beszéd vizualizálása, hogy a süket ember is megtanulhasson beszélni beszédmanipuláció: pl. megváltoztatni a beszéd sebességét úgy, hogy a hangmagasság (és hangszín) változatlan maradjon ember-gép kapcsolatok megváltozása: a kezelés és szemlélésen keresztül megvalósuló hagyományos ember-gép kapcsolatot felváltja a verbális ember-gép kapcsolat beszédinformációs rendszerek: a beszédfeldolgozás az információs rendszerek belső, inherens részévé válik (pl. bemondott telefonszám alapján működő tudakozó) Történeti áttekintés 1791 Kempelen könyve és beszédkeltő gépe (rekonstruált, működő változat: MTA Nyelvt. Int.) 1876 Bell telefon 1893 Puskás Tivadar telefon hírmondó 1916 Bánó Miklós szövegfelolvasó szabadalom 1938 Reeves PCM elv kidolgozása 1939 VODER első elektronikus beszédkeltő angol nyelvre 1947-50 Békési György Nobel díj 198-83 HUNGAROVOX magyar szövegfelolvasó (MTA Nyelvtudományi Intézet) 1999 Profivox magyar szövegfelolvasó szoftver (BME TMIT) 1.. A hang fizikai leírása a hangot le lehet írni nyomással (p) illetve térfogatsebességgel (v) P 0 szinten lévő nyomás (1 atm) és ezen picurka longitudinális hullámok keletkeznek P = P 0 +p(t) P eff = ( P0 + p( t) dt a hang a levegő nyomásváltozása, a levegőben longitudinális hullámként terjed (a térfogatrészek mozognak) p kg normális viszonyok között: = 410, ha síkhullámnak tekinthető v m s c = fλ = 340m/s W a hang energiát visz magával (intenzitása van), [ I ] = területegységen időegység alatt m áthaladó energia a hangnyomásszint (akusztikai decibel, intenzitásszint), p I L = 0 lg db = 10 lg db ahol lg a 10-es alapú logaritmus 6 1 0 10 Pa 10 W 1.3. Hallás Hallószervek: fülkagyló, külső fülcsatorna (3000Hz rezonanciafrekvencia), dobhártya, halócsontok (kalapács, üllő, kengyel), belső fül

3

A belső fülhöz, a hallócsontokhoz csatlakozik (kengyel, így veszi át a mechanikai hullámokat) egy tömlőcske (auditoria tube), amely folyadékkal van kitöltve. Ennek közepén van az alapmembrán, mely hang hatására rezgésbe jön. A membránon 3 sor ún. szőrsejt (kb. 30000db) helyezkedik el, ezen sejt végéhez idegek csatlakoznak, melyek közvetlenül az agyba mennek. Egy-egy ideg több ilyen szőrsejttel is kapcsolatban lehet. A szőrsejtek hozzáérnek a corti-szerv hártyájához, így a mozgás hatására elektromos kisülések keletkeznek, amely az idegpályákon továbbterjed. Az elektromos kisülés helye arra jellemző, hogy milyen frekvenciájú hangot hallottunk. Tiszta szinuszos hangoknál az ovális ablaktól való távolság számítható. A hang intenziátsát az elektromos impulzusok sűrűsége (frekvenciája) mutatja. A hallás során az agyból is jönnek jelek gátló jelek. Ezek teszik az ember frekvenciameghatározó képességét ilyen pontossá (a legjobban gerjesztett sejtek környezete blokkolódik). 4

ovális ablak kerek ablak 0 khz 0 Hz A hallószervből jövő idegek nem közvetlenül mennek az agykéreg azon területére, ahol a hallásérzet keletkezik (mint pl. a szemidegeknél), hanem 5 központon keresztül. A hallásmechanizmus a legbonyolultabb az emberi érzékelések között, utánzására egyelőre semmi esély. 1.4. A hallás pszichofizikai (pszichoakusztikai) jellemzői A hangjelenséggel kapcsolatos mérhető, fizikai mértékek és a hangérzet között nincs 1-1 értelmű megfeleltetés. fizikai intenzitás spektrum frekvencia hangérzet hangosságérzet hangszín hangmagasság 1.4.1. Azonos hangosságú (phon) görbék Ezeket tiszta, szinuszos hangokra vizsgálják. Az n-phon az a görbe, amelyet az emberek statisztikailag azonos erősségűnek hallanak és 1kHz-en n db az erőssége. 5

db 140 fájdalomküszöb hallásküszöb 0 0 00 1000 0000 mértékegység a [phon] = hangosság szint a phon elég jól megadja a hangosságérzetet, de nem teljesen (pl. 30 phon mennyivel kevesebb, mint 40 phon?) 1.4.. Hangosságérzet általában son-ban adják meg megmutatja, hogy két phon-ban mért hangosságérzet aránya mekkora egységnek a 40 phon-t tekintik: 40 phon = 1 son, 50 phon = son, 60 phon=4 son, 70 phon = 8 phon, és így tovább duplázódik A son értékek összegezhetők (1 son + 1 son = son) 6

Egy hang phon-ban mért hangossága megegyezik a vele azonos hangosságúnak észlelt 1000Hz-es szinusz hang db-ben mért hangnyomás szintjével. 1.4.3. Kritikus sávok alkalmazzunk egy keskenysávú fehérzaj-gerjesztést (ennek intenzitása a görbe alatt lévő terület) a következő vizsgáló jel legyen szélesebb spektrumú, de ugyanolyan intenzitású bizonyos spektrumszélesség fölött a hangosságérzet nő annak ellenére, hogy a kibocsátott zaj intenzitása nem változik kritikus sávnak 1 azt nevezzük, amelyen belül a hangosságérzet nem érzékeny a sávszélességre. a kritikus sávokat kísérlettel határozták meg. A kritikus sávok sávszélessége a frekvencia növekedésével nő (B=100 Hz-től 3500 Hz-ig). A beszéd frekvenciasávja (50-15000 Hz) 4 kritikus sávval lefedhető. bark (Zwicker) skála: két frekvencia különbségét pszicho-akusztikai szempontból megmutató skála; a különbség jellemzője, hogy hányszor lehet felmérni a kritikus sávszélességet. Például a 150Hz-1000Hz-es frekvencia tartományban 8 kritikus sáv van, ez tehát 8 bark távolság. 1.4.4. Elfedés a frekvenciatartományban elfedő hangjelenség: 1000Hz-en megszólaltatunk egy nagy intenzitású hangot, és a kritikus sávszélességen belül szóló kisebb intenzitású hangokat a fülünk nem érzékeli pl. f = 1000 Hz, f = 160 Hz, L = 80 db esetén a 1010Hz-en 40 db intenzitással szóló hangot nem érzékeljük tehát ha van elfedő hang, akkor a többi hang számára a hallásküszöb megemelkedik ezek az elfedési görbék alacsony frekvenciákon keskenyebbek, magasabb frekvenciákon pedig szélesebbek ezeket a tulajdonságokat hangtömörítésnél alkalmazzák elsősorban 1 1 Kitérő: A spektrálsűrűség Tekintsük véletlenszerű függvénysokaság egy elemét (ilyen módon sok mindent érdemes modellezni, pl. emberi beszédet, zajt, stb.). Ezt a sokaságot sztochasztikus folyamatnak nevezzük. Jelöljük a sztochasztikus folyamatot ξ t -vel, ennek egy elemét x a (t)-vel, s ξ (f)-fel pedig ennek a sztochasztikus folyamatnak a Fourier transzformáltját. A x a (t)-t rávezetve egy keskenysávú szűrőre (f a és f b között) mérjük a folyamat teljesítményét. A ξ(t)-sztochasztikus folyamat spektrálsűrűsége megmutatja, hogy f a f b tartományban ennek a sztochasztikus folyamatnak mennyi a teljesítménye. fb P ({ f a, f b}) = sξ ( f ) df fa 7

1.4.5. Elfedés az időtartományban ha van egy nagyobb intenzitású hangjelenség, akkor ha ennél kicsit kisebb intenzitású megszólal, nem vesszük észre ha befejeződik a hangjelenség, a következő megjelenését nem azonnal vesszük észre, a fülnek van egy kis tehetetlensége ez akár 150ms is lehet a fenti jelenség visszafelé is működik, csak sokkal kisebb időértékkel 0ms 1.4.6. Irányérzékenység kisfrekvenciákon az irányérzékenység a két fülbe érkező jel közötti fáziskülönbségből adódik nagyobb frekvenciákon az irányérzékenység az intenzitáskülönbségen alapul 1.4.7. Frekvencia idő felbontóképesség Kérdés: milyen hibával ( f) találjuk el a t ideig tartó hang frekvenciáját? f := σ Harkevics és Gábor Dénes bebizonyították, hogy lineáris rendszerekben f* t 1. Ugyanezt a fül kb. 1000 Hz-ig jobban csinálja, noha különböző maszkolási jelenségekkel becsapható, de azért nem annyira, mint a szem (pl. a szem számára RGB-ből gyakorlatilag minden szín kikeverhető) 1.5. A beszéd nyelvi szerkezete A hangot kétféle szinten vizsgáljuk: akusztikai szinten: valamilyen hanghullám agyi szint: képesek vagyunk ezeket valamiféle diszkrét elemek (hangok) sorozatára bontani (ezen diszkrét elemek a beszédhangok, melyeket a hallás során az ember érzékelni és megkülönböztetni képes) Lehetséges hierarchiaszintek: beszédhang szótag szó mondatrész mondat szöveg ezek nem mindegyike precízen meghatározott egy diszkrét beszédhang megszámlálhatatlanul sokalakú időfüggvényből absztrahálódik intraindividuális: ugyanazon ember ugyanazt a hangot kétszer egymás után nem ugyanolyan hullámformával realizálja interindividuális: két különböző ember ugyanazt a hangot csak nagyjából ejti ugyanúgy A beszéd (nyelvek) úgy alakult(ak) ki, hogy ritkák az átlapolódások. Nem használja ki az összes lehetséges hullámformát (redundáns) 8

Artikulációs (akusztikai) bázisnak nevezzük a beszédkeltés folyamán használt elemi folyamatokat, és percepciós bázisnak hívjuk a beszéd megértése folyamán használt elemi folyamatokat. 1.5.1. Fonetikai megfontolások fonéma készlet elemeknek olyan minimális számosságú halmaza, amelyből minden közlemény jelentéshelyesen, de csak egyféleképpen állítható elő agyi szinten, vagyis ha egy közleményben egy fonémát kicserélünk, akkor megváltozik a közlemény értelme vagy elveszíti értelmét. allofonok egyazon fonéma különböző akusztikai megjelenései (változatok). például a magyarban a nyílt és a zárt e megkülönböztethető (akusztikailag), de egy fonémaként használja a nyelv. harang szóban az ng-t egy hangnak ejtjük, nem külön n és g egymásutánjaként, de ez a hang nem külön fonéma összeállították a magyar nyelv fonémakészletének használati gyakoriságát, a leggyakoribb az e (eke) és legritkábban használt a h hang. 1.5.. Az írás és a beszéd kapcsolata sok nyelvet karakterekkel írnak le, de léteznek olyan karakterek, amelyek szimbólumok (pl. 1, #) ortografikus karakterek: azok a karakterek, amelyeket hangként ki tudunk ejteni graféma a hangot leíró betűk csoportját képviselő egység, pl. az egész szóban az sz hang egy graféma szöveg leírásakor ortografikus karaktereket használunk, de ha a jelentésig el akarunk jutni, akkor a graféma-konverziót meg kell tenni. Ezek már fonémákkal írhatók le. fonetikus leírások: a hangzást is megpróbáljuk leírni IPA átírás ASCII karakterekkel nem írhatók le SAMPA a 7 bites ASCII karakterekkel leírhatók a hangok átmenetekkel kapcsolódnak egymáshoz (ez az artikuláció folyamatosságából ered). A hangármenet a folyamatos beszéd egyik legfontosabb építőeleme. 1.6. A hangképzés A tüdő energiát szolgáltat, levegőt pumpál a légcsőbe. A gégében elhelyezkedő hangszalagokat a hangképzés során vagy használjuk, vagy nem. A levegő a gégéből a garatüregen keresztül a szájilletve az orrüregbe jut. A szájüregben a nyelv, fogak, ajkak is részt vehetnek a hangképzésben. A hangszalagoktól felfelé eső rész, mely részt vesz a hangképzésben az ún. vokális traktus (üregrendszer, toldalékcső). 9

Alapvetően három emberi hangkeltési mechanizmus van (zönge, zaj vagyis turbulens áramlás és túlnyomásból eredő lökéshullám. 1 1.6.1. Zönge Mi a zönge? A hangszalagok segítségével létrejövő, kváziperiodikus levegőlökések sorozata. A nyomásváltozás időfüggvénye háromszöghöz hasonlít. a hangszalagokat tulajdonképpen két rostos, izmos hártya alkotja, melyeket a kannaporcok mozgatnak (összeszoríthatók, szétnyithatók). A kannaporcokat izmok mozgatják. ha az izmok összeszorítják a két hangszalagot, akkor a levegő útját elzárják a száj felé a zönge képződése: a tüdőből kipréselt levegő a hangszalagok előtt túlnyomást hoz létre (mivel útja el van zárva) kb. 3-4cm vízoszlop nyomásának megfelelő, melynek hatására az összezárt hangszalagok rövid időre szétfeszülnek (az idő a túlnyomástól és az összezáró izmok feszítő erejétől függ). Ennek következtében a túlnyomás lecsökken és a hártya ismét visszazár. A folyamat így ismétlődik. Az eredmény: kvázi-periodikus levegőlökések sorozata. Ez a zönge hang (a periódusideje férfiak esetében 8-1 ms, nőknél 4-7 ms). 1.6.. Turbulens áramlás szignifikáns szűkületeket képezünk a vokális traktusban (pl. az f, s hangok képzésénél) a levegőrészecskék a szűkületet elhagyva véletlenszerűen leszakadoznak 11 Léteznek más hangképzési mechanizmusok is (pl. csettintés Afrikai törzseknél), de mi nem használjuk őket. Valószínűleg a hangképzési mechanizmusok és maguknak a hangoknak is a nyelvben lévő előfordulása attól függ, hogy az adott nyelv milyen körülmények között alakult ki (zajviszonyok, stb.) 10

az, hogy a hang hogyan hangzik attól is függ, hogy hol a résképzés helye és milyen csatorna szakasz van utána 1.6.3. Lökéshullám Vannak olyan beszédhangok (zárhangok), amelyek zárrészből és lökéshullámból állnak. A zár lényege, hogy miközben a levegőt préseljük ki a tüdőből, a vokális traktusban (nem a hangszalagokkal) zárat képezünk (például összezárjuk a két ajkunkat). A zár tartama alatt a levegőnyomás növekszik a vokális traktusban. Ha a zárat feloldjuk, ez a levegő kitódul és lökéshullám keletkezik. Mind a zárszakasz, mind a lökéshullám fontos kelléke a beszédnek (egymás nélkül nem léteznek). A zárszakasz és a lökéshullám formáit a hangszalagok szintjén való történések határozzák meg Kétfajta állapot lehetséges: zöngés illetve zöngétlen. A zár lehet zöngétlen, amikor is nincs hangszalagrezgés a zár tartama alatt. Ezt nevezik a hang néma fázisának (nincs hang ez idő alatt, csend van) A zár lehet zöngés, amikor is a hangszalagok rezegnek a zár tartama alatt. Ezt nevezik a hang fojtott zönge szakaszának (zöngés, kis intenzitású zöngehang van jelen a zár alatt) A zárfelpattanás (lökéshullám) lehet zöngétlen, amikor is nincs hangszalagrezgés a zár tartama alatt. (p, t, k, ty hangoknál). A lökéshullám ideje 5-50 ms lehet hangtól függően. A zárfelpattanás (lökéshullám) lehet zöngés, amikor is a hangszalagok rezegnek a zár tartama alatt (b, d, g, gy hangoknál). A lökéshullám ideje 5-50 ms lehet hangtól függően. 1.7. A beszédhangok osztályozása magánhangzók: a, á, e, é,i, o, ö, u, ü (a hangokat a betűjelükkel jelöljük!) mássalhangzók zöngés felpattanó zárhangok (explozívák, plozívák, voiced stops): b, d, g, gy zöngétlen felpattanó zárhangok (explozívák, plozívák, voiceles stops): p, t, k, ty réshangok (frikatívák): zöngések j, v, z, zs; zöngétlenek h, f, sz, s zár-réshangok (affrikáták): zöngések dz, dzs; zöngétlenek c, cs nazálisok: m,n, ny likvida: l pergő: r Megjegyezzük, hogy néhány magyar beszédhangnak több variánsa is van. A h hang esetében: - zöngés h két magánhangzó között nahát; - speciális zöngétlen h technika, doh A j hang esetében: - zöngétlen j bizonyos mássalhangzó torlódásokban lépj ki, hívj fel Az n hang esetében: - g és k hangok előtti helyzetben hangos, minket 11

1.8. Spektrális módszerek 1.8.1. Periodikus jelek Fourier sor f(t) = f (t + kt 0 ), k Z f ( t) = c 0 + π cn cos( nω0t + φ n ), Ω 0 = n= 1 T0 egy jel spektrumán azt értjük, hogy adott frekvencián milyen amplitúdójú és fázisú az adott jel. Tehát a spektrumot a {nω 0, c n, φ n } hármas határozza meg. az időben periodikus jelek vonalas spektrumúak a Fourier sor komplex alakja: e jx e jx + cos( x) = f ( t) = c0 + bevezetve az alábbi jelöléseket: C 0 = c 0, C n n= n= 1 cn cn jφ e n * = és cn jφ C e n n = C n = jnω0 t jnω0t f ( t) =, ahol C = f ( t) dt C ne n t1+ T0 egy általános vonalas spektrumú jel Fourier-sora jω t ( t = D n e n, ahol n= f ) Ω Ω n m t1 e e jφ irracionális is lehet. n e jnω t 0 cn + e jφ n e jnω t 0 1.8.. Egyszeri folyamat Fourier-integrál e jωt F( ω ) = f ( t) dt = F{f(t)} 1

Jelentése: kontinum sok szinuszos hullám összege. Ez egy komplex függvény abszolutértékkel és arkusszal. az időfüggvényt az inverz-fourier transzformációval állíthatjuk elő 1 f ( t) = F( ω) e jωt dw π fontos paraméter még a jel fajlagos energiája és teljesítménye: E = f ( t) dt illetve 1 P = lim T T T f T ( t) dt azért fajlagos, mert megfelelő konstanssal szorozva energiát illetve teljesítményt kapunk periodikus jelek esetében E = és P véges, egyszeri folyamatoknál E véges és P = 0. 1.8.3. Lineáris rendszerek hatása az átvitt jelre a mínusz végtelentől végtelenig való integrálás probléma, hiszen akkor meg kell várni, amíg a teljes folyamat lejátszódik, erre viszont nincs mindig lehetőségünk a teljes folyamatot kiablakozzuk: az időfüggvényt megszorozzuk a t1 időpillanatokra eltolt ablakfüggvénnyel F w (ω,t 1 ) = F{f(t)*a(t,t 1 )}, kérdés, hogy mennyire rontja el az ablakolás a spektrumot F w (ω,t) = F(ω) A(ω,t 1 ) legyakrabban az ún. Hamming-ablakot használják mert ennek spektrumában a főmaximum és a második maximum között 50 db erősítéskülönbség van, tehát a távoli frekvenciákat a konvolúcióban ez az ablakolás gyakorlatilag nem veszi figyelembe. t Hamming-ablak:, a( t) = 0.54 0.46 cos π T a digitális jelfeldolgozás során DFT-ket (Discrete Fourier Transform) alkalmazunk, általában a DFT-nek egy gyorsan elvégezhető módszere az ún. FFT-t (Fast Fourier Transform) spektrogram: gördülő spektrumot tekintve (idő frekvencia sík) ahol a spektrum értéke nagy, ott erősen befeketítjük, a beszédben a spektrális viszonyok az idő függvényében változnak az 1900-as évek közepén az ún. szonagráfot alkalmazták, amely ezt a gördülő spektrumot közelítette (a közelített ábra a szonagram, spektrogram). Ma már számos szoftverrel könnyen előállítható. 1.9. Beszédhangok finom szerkezete 1.9.1. Hosszan tartható zöngés hangok olyan hangok, amelyekben a zöngén kívül nincs más hangkeltési mechanizmus és artikulációjuk egy konfigurációból áll (magánhangzók, továbbá a j, az l hang) a zöngét az időtartományban közel háromszög alakú térfogatsebességgel ábrázoljuk a hangképzés során keletkező beszédhang kvázi-periodikus, ezért Fourier-sorba fejthető (gazdag felharmonikus tartalommal rendelkezik) pl. a telefon átviteli sávja: 300-3400 Hz. A magánhangzókat jól átviszi. ha az alapharmonikus (f 0 ) nincs benne az átvitt jelben, a fül akkor is képes azt kiérezni, mert a felharmonikus tár igen gazdag a vokális traktuson keresztül a hang a száj illetve orrüregen keresztül távozik. Az orrüreg minden hangra hatást gyakorol direkt, illetve indirekt módon. Ezt úgy modellezhetjük, hogy a vokális traktusnak van egy átviteli függvénye: V(ω) létezik egy ún. sugárzás (radiációs) ellenállás: R(ω), ahogy a szájból eltávozik a hang, a magas frekvenciákat kiemeli (6 db/okt.) 13

R(ω)*V(ω) a zönge által keltett hangot formálja P(ω) ezen hang spektrális megjelenése a vonalas spektrumra illeszthető burkológörbe maximumhelyeit formánsoknak nevezzük (F 1, F, F n formáns frekvenciák). A formánsok értéke határozza meg (formálja meg) a hangot. a hosszan tartható zöngés hangok formáns struktúrával rendelkeznek hogyan értelmezzük a burkológörbét: minden spektrumvonalra ültessünk egy sin x x függvényt. Az adott helyen a függvény értéke legyen a spektrumvonal magassága és a hullámátmenetek F 0 távolságban legyenek (ahol F 0 az alapharmonikus frekvenciája). 1.9.1.1. Magánhangzók csoportja a magánhangzókat két formáns közelítőleg, három formáns szinte teljes biztonsággal megkülönbözteti egymástól, érzeti szempontból leglényegesebbek a formánsfrekvenciák. A formánsok amplitúdóit (A 1.. A n) az első formánséra (A 1 ) szokták normálni) a helyi maximumok alatt 3 db-lel meghúzott vonal és a burkológörbe metszéspontja jelöli ki B 1, B, B n formánsok sávszélességét. a magánhangzókat F 1 -F síkon szoktuk ábrázolni a nők F 1 -ben és F -ben is magasabb területre kerülnek, mint a férfiak, további jellegzetes különbség a nők és a férfiak beszéde között, hogy a vonalas spektrum pálcikáit a férfiaknál kb.100 Hz, a nőknél kb. 00 Hz választja el egymástól (ezért pl. a nők magas hangon nem tudják az u hangot kiénekelni, mivel nem képezhető az u F1 formánsa, ami 300 Hz körüli) további érdekesség, hogy a magánhangzók magassági osztályát (mély-magas) az F értéke és nem pedig F 1 határozza meg 1 a magánhangzók hossza széles skálán mozog (0ms 00 ms); egy hang hossza függ a környezetétől, a szóban elfoglalt helyzetétől, a szó hosszától, a mondatban elfoglalt helyzetétől, a mondat hosszától, a produkciótól (spontán, olvasott), a témától (hírek, mese, hirdetés stb. A magyar magánhangzó átlagos hossza 85 ms, a rövideké 78 ms, a hosszúaké 110 ms 1 Tehát pl. az u hang F 1 frekvenciája nagyobb, mint ugyanazon hangmagasságban lévő i-é, de az F már az i-nél magasabb. 14

1.9.1.. Nazálisok 50-300 Hz környékén van az F1, de magasabb frekvenciákon nincsenek formánsok kisebb az energiájuk, mint a magánhangzóknak 1.9.1.3. Likvida van formáns struktúrája (magánhangzó szerű) kisebb az energiájuk, mint a magánhangzóknak 1.9.. Réshangok Gerjesztésük lehet zöngés (j ), lehet zaj (s, sz) és lehet vegyes (v, z, zs). Lényeges, hogy a sz hang hangzását meghatározó frekvenciagócok 5 khz felett vannak (ezért pl. telefonban ezek a hangok torzulnak, az sz, c hangok nemigen hallhatók) a zöngés réshangoknál, akkor erre a zajkomponensre szuperponálódik egy formáns szerkezetű vonalas spektrum Összetett szerkezetű beszédhangok a zárhangok és zár-rés hangok szerkezete összetett, a hang két jól elkülöníthető részből tevődik össze (zárszakasz és az azt követő rész) 1.9.3. Felpattanó zárhangok általános szerkezetük: zárszakasz + zárfelpattanás. Kétfajta zárszakasz lehetséges. zárszakasz = néma fázis, amikor a zárszakaszban nincs hang (csend szakasz). Ilyen zárszakaszuk van a zöngétlen zárhangoknak (p, t, k, ty). A néma fázis 60-10 ms-os. zárszakasz = fojtott zönge, amikor a zárszakaszban a hangszalagok rezegnek, és ez képezi a fojtott zöngét. Mivel nincs levegőkiáramlás a szájból, a fojtott zöngének nincsenek formánsai, csupán az alapharmonikus dominál. Ilyen zárszakaszuk van a zöngés zárhangoknak (b, d, g, gy). A fojtott zönge 40-100 ms-os, az intenzitása sokkal kisebb, mint a magánhangzóé. a hang hosszítása a zárszakasz hosszabbításával történik. 15

A zárfelpattanás akkor jön létre, amikor a zárat feloldjuk. Ez igen rövid idő alatt jön létre (5-40 ms hangtól függően). A zárfelpattanás zörejes komponenseket tartalmaz, ha a zárszakasz néma fázisú, formánsokat tartalmaz, ha a zárszakasz fojtott zöngéjű. A zörejes zárfelpattanás jellemzésére szolgál a VOT (Voice Onset Time) paraméter, amelyik megmondja, hogy a zár felpattanása és a következő magánhangzó első periódusa között mennyi idő telik el (mikor történik meg a gerjesztésváltás). 1.9.4. Zár-rés hangok (affrikáták) általános szerkezetük: zárszakasz + réshang szakasz. A zárszakasz kétféle lehet zárszakasz = néma fázis, amikor a zárszakaszban nincs hang (csend szakasz). Ilyen zárszakaszuk van a zöngétlen zár-rés hangoknak (c, cs). A néma fázis 80-10 ms-os. zárszakasz = fojtott zönge, amikor a zárszakaszban a hangszalagok rezegnek, és ez képezi a fojtott zöngét. Mivel nincs levegőkiáramlás a szájból, a fojtott zöngének nincsenek formánsai, csupán az alapharmonikus dominál. Ilyen zárszakaszuk van a zöngés zárhangoknak (b, d, g, gy). A fojtott zönge 40-100 ms-os, az intenzitása sokkal kisebb, mint a magánhangzóé. a hang hosszítása a zárszakasz hosszabbításával történik. a réshang szakaszban hasonló hangot hozunk létre, mint a réshangoknál, csak az időtartama rövidebb. 1.9.5. Hangámenetek az ember a beszélőszerveit nem tudja ugrásszerűen változtatni, az artikulációs szervek folyamatos mozgást végeznek. Ezért a létrejövő akusztikus jelben is (beszéd közben) átmeneteket képezünk a hangok között (minden hangkapcsolatra a rá jellemzőt) A hangátmeneti szakaszban a formánsok mozognak (a formánsok mozgása hatással van a hang energiájára is, ha távolodnak egymástól, akkor csökkenhet, ha közelednek egymáshoz, akkor nőhet) A hangátmenetekre való hajlam a hangtól függ (vannak olyan hangok, amelyek a maguk képére kényszerítik a megelőző/követő hangot (gy,ty,ny,j), vannak olyanok, amelyek kölcsönösen hatnak egymásra) a hangátmeneteket alapvetően a szomszédos hangok határozzák meg (ritkán a szomszéd után elhelyezkedő hangok is hatással vannak a kiejtett hangra) tipikus vizsgált kombinációk: CV, VC, CVC, VCV 1 1 C: consonant (mássalhangzó), V: vowel (magánhangzó) 16

1.9.5.1. Locus A locus a mássalhangzó képzési helyére jellemző F érték a frekvencia tengelyen. Meghatározása: ha a C után ejtett magánhangzók hangátmeneti részében az F mozgását visszafelé (a C felé) meghosszabbítjuk és a CV csatlakozási ponton megmérjük, akkor ez a frekvenciaérték lesz a mássalhangzóra jellemző locus frekvencia. A locus frekvencia lehet stabil (mindig közel ugyanaz az érték pl. a palatális hangoknál), de változhat is (csúszkál a frekvencia tengelyen a V függvényében (ilyen a g, k hangok locusa) 1.10. A folyamatos beszéd prozódiai szerkezete 1.10.1. Hangsúly a hangsúlyozásnál a beszélő nyomatékot tesz a hangsúlyozott szótagra. Fizikai paraméterekkel ez a nyomatékképzés három elemmel jellemezhető (Fo emelés, intenzitás emelés, hangidőtartam nyújtás) 1.10.. Dallam F 0 (t), a zönge alapfrekvenciájának a változása az időben A dallam változását szó szinten érzékeljük 1 1.10.. Intenzitás rövid idejű energia (a jel által hordozott energia egy ún. kiablakolt energia) ugyanazt a magánhangzót egy kérdő mondatban más intenzitással ejtjük, mint egy kijelentő mondatban 1 Létezik mikrointonáció is (ez egy hangon belüli alapfrekvencia-változás) 17

1.10.3. Ritmus a folyamatos beszédben a hangsor különböző részein változtatjuk az artikulációs sebességet (a hangokat hol gyorsabban, hol lassabban ejtjük). A hangidőtartamok változása ilyenkor 10-0 %- on belül mozog. a nyújtásokat a hosszan tartható hangoknál legfőképpen a tiszta fázis hosszával szabályozzuk, az összetett hangoknál a zárszakasz hosszának változtatásával. 1.10.4. Statisztikai jellemzők a beszédet stacionárius sztochasztikus folyamatként kezeljük tetszőleges helyen kiválasztott valószínűségi változó sűrűségfüggvényével tökéletesen jellemezhető egy stacionárius sztochasztikus folyamat, ez az ún. amplitúdóeloszlás normáljuk ezt a sűrűségfüggvényt a saját szórására a beszédben kb. 30 db dinamikakülönbség van jelen (a hangerőben is lehet ugyanennyi) σ szórás a hangerőre jellemző ugyanezt a folyamatot a frekvenciatartományban vizsgálva a spektrálsűrűség írja le jól s( f ) 10lg, ahol s(f) a spektrálsűrűség a kérdéses frekvencián, s(f r ) pedig a s( f r ) spektrálsűrűség a referenciafrekvencián 18