A BESZÉD AKUSZTIKAI FONETIKAI LEÍRÁSA



Hasonló dokumentumok
A HANG MINT MECHANIKAI HULLÁM

Párhuzamos programozás

[GVMGS11MNC] Gazdaságstatisztika

Beszédinformációs rendszerek. Alapvető beszédakusztika I.

. A zaj környezeti hatásai

Házi dolgozat. Minta a házi dolgozat formai és tartalmi követelményeihez. Készítette: (név+osztály) Iskola: (az iskola teljes neve)

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉPSZINT Függvények

Analízis elo adások. Vajda István október 3. Neumann János Informatika Kar Óbudai Egyetem. Vajda István (Óbudai Egyetem)

Amit a Hőátbocsátási tényezőről tudni kell

Egységes jelátalakítók

EPER E-KATA integráció

A táblázatkezelő felépítése

1. Mintapélda, amikor a fenék lekerekítési sugár (Rb) kicsi

A mérések eredményeit az 1. számú táblázatban tüntettük fel.

A döntő feladatai. valós számok!

A nyugalomban levő levegő fizikai jellemzői. Dr. Lakotár Katalin

2011. március 9. Dr. Vincze Szilvia

A beszédérhetőség szerepe az oktatási intézményekben, tantermekben, előadótermekben

Fordítóprogramok Készítette: Nagy Krisztián

ingyenes tanulmány GOOGLE INSIGHTS FOR SEARCH

A 27/2012 (VIII. 27.) NGM rendelet (12/2013 (III.28) NGM rendelet által módosított) szakmai és vizsgakövetelménye alapján.

Programozás I gyakorlat

1. forduló. MEGOLDÁSOK Pontszerző Matematikaverseny 2015/2016-os tanév

Szerb középszintű szóbeli vizsga értékelési útmutató

KOVÁCS BÉLA, MATEMATIKA I.

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Trigonometria

Azonosító jel: Matematika emelt szint

Üzembehelyezıi leírás

ORSZÁGOS KÖRNYEZETEGÉSZSÉGÜGYI INTÉZET

Agrárgazdasági Kutató Intézet Piac-árinformációs Szolgálat. Borpiaci információk. III. évfolyam / 7. szám április

KÍNAI NYELV JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Mágneses szuszceptibilitás vizsgálata

A középszintű szóbeli vizsga értékelési útmutatója. Minta. Általános jellemzők

1. Metrótörténet. A feladat folytatása a következő oldalon található. Informatika emelt szint. m2_blaha.jpg, m3_nagyvaradter.jpg és m4_furopajzs.jpg.

rezegnek, mások pedig nyugalomban maradnak. Ezek a csomópontok. Ha mindkét végén L = nλ n

Diszkrét matematika I. gyakorlat

Útmutató a vízumkérő lap kitöltéséhez

Hőszivattyú. Zöldparázs Kft

Jelek tanulmányozása

Környezet. A munkakörnyezet ergonómiai. Területei: (Munkatevékenység) (Munkahely-elrendezés) (Használati eszközök) A. Fizikai környezetk

Bevezetés az ökonometriába

FORTE MAP 5.0 Felhasználói tájékoztató

Bár a digitális technológia nagyon sokat fejlődött, van még olyan dolog, amit a digitális fényképezőgépek nem tudnak: minden körülmények között

[MECHANIKA- HAJLÍTÁS]

1. Feladatok a dinamika tárgyköréből

Lineáris algebra gyakorlat

tetszőleges időpillanatban értelmezhető végtelen sok időpont értéke egy véges tartományban bármilyen értéket felvehet végtelen sok érték

A hang terjedés számítása és szemléltetése Irányhallás számítása a vízszintes síkban Műfejbe épített mikrofonokkal

Bevezetés a lágy számítás módszereibe

Áramlástechnikai gépek soros és párhuzamos üzeme, grafikus és numerikus megoldási módszerek (13. fejezet)

A környezettan tantárgy intelligencia fejlesztő lehetőségei

xdsl Optika Kábelnet Mért érték (2012. II. félév): SL24: 79,12% SL72: 98,78%

A jelenség magyarázata. Fényszórás mérése. A dipólus keletkezése. Oszcilláló dipólusok. A megfigyelhető jelenségek. A fény elektromágneses hullám.

Épületvillamosság laboratórium. Villámvédelemi felfogó-rendszer hatásosságának vizsgálata

A Hozzárendelési feladat megoldása Magyar-módszerrel

Analízis elo adások. Vajda István szeptember 24. Neumann János Informatika Kar Óbudai Egyetem. Vajda István (Óbudai Egyetem)

Kombinatorika. 9. előadás. Farkas István. DE ATC Gazdaságelemzési és Statisztikai Tanszék. Kombinatorika p. 1/

Ipari és vasúti szénkefék

Shared IMAP beállítása magyar nyelvű webmailes felületen

Minta. A középszintű szóbeli vizsga értékelési útmutatója

4. sz. Füzet. A hibafa számszerű kiértékelése 2002.

FENNTARTHATÓ FEJLŐDÉS

BOLYAI MATEMATIKA CSAPATVERSENY ORSZÁGOS DÖNTŐ SZÓBELI (2012. NOVEMBER 24.) 3. osztály

Ultrahangos mérőfej XRS-5. Használati utasítás SITRANS. XRS-5 mérőfej Használati utasítás

Az aktiválódásoknak azonban itt még nincs vége, ugyanis az aktiválódások 30 évenként ismétlődnek!

SJ5000+ MENÜBEÁLLÍTÁSOK. E l e c t r o p o i n t K f t., B u d a p e s t, M e g y e r i ú t F s z. 1. Oldal 1

Mérési útmutató Periodikus jelek vizsgálata, egyfázisú egyenirányító kapcsolások Az Elektrotechnika tárgy 5. sz. laboratóriumi gyakorlatához

MATEMATIKA HETI 3 ÓRA

Az infravörös spektroszkópia analitikai alkalmazása

GAZDASÁGMATEMATIKA KÖZÉPHALADÓ SZINTEN

A mérés célkitűzései: Kaloriméter segítségével az étolaj fajhőjének kísérleti meghatározása a Joule-féle hő segítségével.

b) Adjunk meg 1-1 olyan ellenálláspárt, amely párhuzamos ill. soros kapcsolásnál minden szempontból helyettesíti az eredeti kapcsolást!

Arany Dániel Matematikai Tanulóverseny 2011/2012-es tanév első (iskolai) forduló haladók I. kategória

M A G Y A R K O N G R E S S Z U S I I R O D A

11. ÉVFOLYAM FIZIKA. TÁMOP Természettudományos oktatás komplex megújítása a Móricz Zsigmond Gimnáziumban

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

dr.majoros Mária Kinpán Dániel: Költői művek zeneiségének vizsgálata a hangtan alapján

Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Geometria IV.

ÉVKÖZI MINTA AZ EGÉSZSÉGÜGYI BÉR- ÉS LÉTSZÁMSTATISZTIKÁBÓL. (2004. IV. negyedév) Budapest, április

Conjoint-analízis példa (egyszerűsített)

Reológia 2. Bányai István DE Kolloid- és Környezetkémiai Tanszék

Tájékoztató a szerződés módosításáról_munkaruházati termékek szállítása (5. rész)

avagy, hogyan lehetünk hatékonyabbak (nemcsak) a hivatásunkban

Egyszerű áramkörök vizsgálata

BETONACÉLOK HAJLÍTÁSÁHOZ SZÜKSÉGES l\4"yomaték MEGHATÁROZÁSÁNAK EGYSZERŰ MÓDSZERE

REZGÉSDIAGNOSZTIKA ALAPJAI

Mintavételező és tartó áramkörök

A rádió* I. Elektromos rezgések és hullámok.

CONCORDE-VM ABSZOLÚT SZÁRMAZTATOTT BEFEKTETÉSI ALAP

Külső fül: Középfül: Belső fül:

Milyen segítséget tud nyújtani a döntéshozatalban a nem-hagyományos jelfeldolgozás?

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Ha vasalják a szinusz-görbét

Felhasználói útmutató Dahua gyártmányú digitális képrögzítő eszközökhöz

Síkban polarizált hullámok síkban polarizált lineárisan polarizált Síkban polarizált hullámok szuperpozíciója cirkulárisan polarizált

Dr. Schuster György február 21. Real-time operációs rendszerek RTOS

ADATBÁZIS-KEZELÉS. Funkcionális függés, normál formák

Radon, Toron és Aeroszol koncentráció viszonyok a Tapolcai Tavas-barlangban

A Tömegspektrométer elve AZ ATOMMAG FIZIKÁJA. Az atommag szerkezete (40-44 oldal) A tömegspektrométer elve. Az atommag komponensei:

I. Országgyűlés Nemzeti Választási Iroda

Átírás:

A BESZÉD AKUSZTIKAI FONETIKAI LEÍRÁSA Vicsi Klára 1. Bevezetés A pszicholingvisztika többek között a beszélt és írott nyelv feldolgozási folyamataival foglalkozik. A két folyamat különösen az alsóbb feldolgozási szinteken különbözik egymástól. E fejezetben elıször a beszélt és írott nyelv feldolgozási folyamataiban lévı jelentıs különbségekrıl tárgyalunk, majd a beszélt nyelv kiejtésének leírásához elengedhetetlen nemzetközi jelölésrendszereket ismertetjük. Bemutatjuk az írás és beszéd viszonyát, és átírási módját, ami erısen nyelvfüggı. A beszélt nyelv az emberek egymás közötti kommunikációjának az eszköze. A beszélı agyában megszületı nyelvi formába öntött üzenet a beszédprodukció során a levegı közvetítésével továbbítódik a hallgató füléig, ahol az üzenet beszédérzékelési és feldolgozási folyamat során a hallgató agyában újraformálódik. Tehát embertıl emberig a kommunikációban a közvetítı közeg a levegı, amelyben a nyelvi üzenet a hanghullámok formájában továbbítódik. Ezekhez a hanghullámokhoz adódik a környezetben keletkezı zaj, ezeket a hanghullámokat torzítják el a falakról visszaverıdı hullámok, például egy erısen visszhangos teremben. A pszichoakusztika a beszédpercepciós fonetika és a pszicholingvisztika vizsgálja, hogy mi a kapcsolat a produkcióval létrejött beszédhanghullámok akusztikai tulajdonságai és a hallgatóban keletkezı beszédérzet és megértés között. Tehát, a teljes kommunikációs folyamat megismeréséhez a beszédprodukcióval létrehozott beszéd fizikai tulajdonságaival, vagyis a beszéd akusztikai leírásával, is meg kell ismerkednünk. A tárgyalást néhány akusztikai alapfogalom ismertetésével kezdjük, mint például a rezgés frekvenciája, valamint a hangnyomásszint fogalmának bemutatása, majd rátérünk a frekvenciaelemzés rövid vázlatos leírására. Rövid áttekintést adunk a beszéd akusztikai fonetikai fogalmairól, külön tárgyalva a beszéd szegmentális, és szupraszegmentális jellemzıit. A leírás rövid és összefoglaló jellegő. Azt tartottuk szem elıtt, hogy olyan fogalmakat, módszereket ismertessünk röviden, amelyek elengedhetetlenek a kézikönyv Beszédpercepció és Beszéd gépi feldolgozása címő fejezeteinek a megértéséhez. 1.1. A beszélt és írott nyelv közötti különbség A beszélt és írott nyelv feldolgozása lényegesen különbözik egymástól. Annak ellenére, hogy a gyermeki nyelvfejlıdés során a beszélt nyelv feldolgozása alakul ki elıször, a beszélt nyelv feldolgozásáról lényegesen kevesebbet tudunk, mint az írott nyelvrıl (Ferreira, F., Anes, M., 1994). Az egyik nagy különbség a beszélt és írott nyelv feldolgozásában az, hogy az írott nyelvnél az olvasás sebességét az olvasó a feldolgozási sebességéhez illesztheti, lelassíthatja, felgyorsíthatja az olvasást, visszamehet, megállhat, míg a beszélt nyelv esetében a hallgatónak a beszélı tempójához kell alkalmazkodnia. A másik nagy különbség az, hogy a beszéd képzésekor a folyamatos artikuláció következtében létrehozott akusztikai hullámforma folyamatos. A beszédhangok, amelyek a beszédfolyamat minimális egységei, az illetı nyelv hangrendszerében elfoglalt helyétıl függetlenül, nincsenek elkülönülve, az egyik beszédhangból az átmenet a másik beszédhangba folytonos, mint ahogy az artikuláció is az. A szavak nincsenek szünetekkel elválasztva, mint az írásban. Egy mondat hullámformájának (a hangnyomás idıbeli változásának) alakulására példát az 1. ábra mutat.

1. ábra A beszédhangnyomás idıbeli változása az A l m a v a n a l á d á b a n mondat kiejtésekor A szavak között nem tartunk szünetet, egyes fonológiai szabályok a szavak határain túl is érvényesek. Szünetet, ami rendszerint levegıvétellel jár, csak egy-egy frázis vagy mondat végén tartunk. Kontextuális információ kell ahhoz, hogy a szavak határait meg tudjuk határozni. Beszédünk úgy alakult ki, hogy a kontextuális információ mellett a prozódiai információk, a hangsúly, a hanglejtés, a beszédtempó és a hangszín segítik az emberi feldolgozó rendszert a szegmentálásban. A harmadik nagy különbség a beszéd redundanciája. A nyelvi tartalom mellett a beszéd számos egyéb információt hordoz. Például a beszélı nemét tükrözi, kifejezi érzelmi állapotát, fizikai, egészségi kondícióit stb. Nagy különbség továbbá az, hogy egy-egy nyelvi egység - mint például a beszédhang, szótag, szó stb. -, hossza idıben igen erısen változik beszélıtıl függıen és egy beszélınél is, és ez a változás nem egyforma mértékő az egységet felépítı elemeknél. Például egy szóban egyes beszédhangok, beszédhangrészletek hossza különbözı mértékben változik a beszédtempó függvényében. A beszéd bonyolultsága, a beszéddel történı kísérletezés nehézségei, továbbá a beszédkísérletek költséges volta mind-mind hozzájárulhat a beszélt nyelvfeldolgozás elmaradásához az írott nyelvhez képest. 1.. Nemzetközi fonetikai jelölésrendszer A hangjelölı írás kialakulását követıen még közelítıleg 300 év kellett ahhoz, hogy általánossá váljék használata. Szinte lehetetlennek látszott a hangzó beszéd sokszínőségének ábrázolása alig több mint két tucatra tehetı írásjelbıl álló jelkészletekkel. Továbbá, a beszéd zenei elemeinek (prozódiai jellemzık) jelölésére a írásjelek nem, illetve csak nagyon részlegesen adnak lehetıséget. Mindenesetre a hangjelölı írás kialakulásakor a írásjelek megfeleltek a hang-típusoknak. Évszázadok során az írás keveset módosult, viszont a beszélt nyelv dinamikusan változott. Az írás és a kiejtés egyre jobban eltávolodott egymástól (Kassai I., 1998). Szükségessé vált a kiejtés lejegyzése nemzetközi jelölırendszerrel, ami tükrözi egy-egy beszédhang kiejtését. Így alakult ki a nemzetközi jelölésrendszer. 1889-ben a Nemzetközi Phonetikai Társaság létrehozta az IPA International Phonetic Alphabet szimbólumkészletet. A beszéd nyelvi leírásánál azokat a beszédhangokat, amelyeknek a szavakban jelentésmeghatározó szerepük van, fonémáknak nevezik. A magyar nyelvben például a rövid ö hang és a hosszú ı hang két különbözı fonéma, hiszen pl. az öt és az ıt szavak mást jelentenek. Hogy egy-egy beszédhang fonéma vagy nem, az mindig az adott nyelvtıl függ, vagyis a fonémák egy nyelv rendszerén belül definiálhatók. A különbözı fonetikai átírásoknál a fonémák lejegyzésére általában az IPA szimbólumrendszert szokás használni (Lass, N. J. 1996). A magyar nyelvben 64 fonéma, 14 magánhangzó és 50 mássalhangzó van. Sajnos ez az IPA jelölésrendszer nem illeszkedik a számítógép billentyőzetéhez. Különbözı segédprogramok készültek az IPA jelölésrendszer gépi használatához, de a megjelenített

karakterek formái erısen rendszerfüggıek voltak és sok bosszúságot okoztak a kutatóknak. Ezért nemzetközi szinten bevezetésre került egy újfajta, úgynevezett SAMPA jelölésrendszer, amely alkalmazkodik a számítógéppel kezelhetı karakterkészlethez (Wells, J.C., 1997). Ezzel a számítógépes gépelés és továbbítás egyszerően megoldható, ellentétben a hagyományos IPA jelölésrendszerrel. A magyar fonémák SAMPA jelölésének rendszerét az 1. táblázat tartalmazza (Vicsi, K. 1996, Vicsi, K. 1998) 1. táblázat: A magyar nyelv fonémáinak és néhány tipikus allofónjának (kiejtésvariánsnak) SAMPA jelölésrendszere A hosszan ejtett hang jele minden esetben a megfelelı SAMPA szimbólum után tett kettıspont. Évszázadok alatt a beszéd dinamikus változása miatt az írás - beszéd viszonya bonyolult szabályrendszerré vált. A jelenség nyelvfüggı. Magyar nyelvre az írás - beszéd átírás, vagyis az írott szöveg kiejtés szerinti lejegyzése, szabályrendszerrel megoldható. Ilyen szabály például a zöngés hasonulás (napban /nob:on/) vagy a frikatív összeolvadás (metszet /mets:et/) szabályai. Angol nyelvre ez az átírás lényegesen bonyolultabb. Az írott szöveg kiejtés szerinti lejegyzési (fonetikai átírási) szabájaira a beszédtechnológiában például a beszédszintézisnél (automatikus szövegfelolvasó rendszerek) van szükség, a kiejtés írott szöveg átalakítására pedig a gépi beszédfelismerésnél (automatikus beszéd lejegyzı rendszerek)..akusztikai alapfogalmak.1. A rezgı mozgás, a hang keletkezése

A hang rezgés révén jön létre. A rezgı húr, cintányér, hangvilla rezgését átadja a környezı levegı molekuláinak, úgy, hogy a környezı térben a molekulák sőrősödése és ritkulása jön létre. Ezeknek a sőrősödéseknek és ritkulásoknak hatására a környezı levegıben folytonos nyomásingadozások alakulnak ki, amelyek a levegı molekuláinak a segítségével, a molekulák egymás közötti rezgési energiájuk átadásával, hanghullámok formájában a levegıben tovább terjednek és a dobhártyát rezgésbe hozzák. Az észlelt hang egy fizikai testbıl, a hangforrás (cintányér, húr, hangvilla, hangszalag, stb.) rezgésétıl indult el és hanghullámok formájában jutott el a fülünkig a levegı molekuláinak rezgései következtében. Ahhoz, hogy a hangként megjelenı rezgés jellemzıit megérthessük, szükséges a rezgés fogalmát meghatároznunk. Azokat a fizikai folyamatokat nevezzük rezgéseknek, amelyek meghatározott idıközönként újra meg újra ugyanazt az állapotot érik el, vagy ugyanazon állapoton haladnak át (Tarnóczy T., 1984.). Ez az oszcillálás lehet periodikus vagy rendezetlen, véletlenszerő..1.1.harmonikus rezgımozgás A legegyszerőbb rezgés a harmonikus rezgı mozgás, amelynek grafikonját a számítógép képernyıjén kirajzolhatunk. Vegyünk egy rugót. Egyik végét fixen rögzítsük, a másik végére helyezzünk egy m tömeggel bíró testet (egy elméletileg súrlódásmentes felületre), a. ábra szerinti elrendezésben.. ábra Egy rezgı test kitérési grafikonja. Az ábra a periódusidıt, a kitérési amplitúdót, és a frekvenciát szemlélteti. Alaphelyzetben a test nyugalomban van, ez az ábrán a b) pont. Mozdítsuk ki nyugalmi állapotából, úgy hogy például széthúzva rugót, a rugó erejének ellenében F erıkifejtéssel a testet az a) pontba mozdítjuk, és magára hagyjuk. A test ellenkezı irányban a B egyensúlyi helyzeten áthaladva a c) pontig kitér, majd visszafordul és kitér az a) pontig. Ez a mozgás elméleti energiavesztés mentes esetben periodikusan ismétlıdik, tehát egyenlı idıközönként kerül a test ugyanabba az állapotba. A maximális rezgési kitérés, vagyis a rezgés amplitúdója (A) nem változik. A kitérés idıbeli változása szinuszos görbét ír le, ahol a kitérés s = A sin π ωt, ahol a körfrekvencia ω=, és O π = 360 valamint T egy teljes periódus ideje. Egy T periódus idı (T) az idıtartam, amíg a rezgı test elıször kerül újra ugyanabba az állapotba, amelyben a periódus elején volt. Az egységnyi idı alatti ismétlıdések, periódusok száma a frekvencia (f), mértékegysége a hertz [Hz], amelyet Heinrich Hertz német fizikusról neveztek el, és ami az 1[sec] alatti rezgések számát jelenti:

1 1 f = [Hz], vagy T = [sec]. T f A Hz-nél nagyobb egység a kilohertz (1 khz = 1000 Hz). Ha két teljes periódus lezajlik 1 sec alatt, vagyis a periódusidı ½ sec, amint azt a. ábra szemlélteti, akkor a rezgés frekvenciája Hz, ha 0 teljes periódus zajlik le 1 sec alatt, vagyis a periódusidı 1/0 sec, akkor a rezgés frekvenciája 0 Hz. Tehát minél nagyobb a rezgések száma másodpercenként, annál kisebb a rezgési idı. Az ábrán látható test, vagy részecske hangforrásként szerepelhet, amennyiben rezgését átadja a környezı levegı molekuláinak úgy, hogy a környezı térben a molekulák sőrősödése, ritkulása, vagyis nyomásváltozás jön létre. Elektromos átalakítóval, például mikrofonnal ezt a nyomásváltozást vesszük fel. A színuszos görbével leírható harmonikus rezgések, a fülben az ún. tisztahang érzetét keltik, csak amplitúdójukban és frekvenciájukban különböznek egymástól. Az emberi hallástartomány 0Hz-tıl 0 000Hz-ig terjed, tehát a mechanikai rezgésekbıl az emberi fül csak ezt a tartományt képes érzékelni. Idıs korra a felsı frekvenciahatár jelentısen lecsökkenhet. A szinuszos formájú tisztahang ritka jelenség a hangforrások világában. A fenti példánál energiaveszteség mentes rezgést feltételeztünk, vagyis a rezgés amplitúdója konstans. Ez a csillapítatlan rezgés, amely a 3. a. ábrán látható, ahol a periódusidı T=1/ sec. Valójában a környezetünkben az egyensúlyi helyzetébıl kimozdított és magukra hagyott rugalmas testek csökkenı amplitúdójú csillapodó amplitúdójú rezgést végeznek. A rezgı test energiájának egy része a súrlódás révén hıvé alakul át, a másik része pedig hangjelenség formájában kisugárzódik és a rezgés csökkenı amplitúdójú, változatlan frekvenciájú szinuszos rezgés lesz, amelyre példát a 3.b. ábra mutat. Az egyensúlyi helyzetébıl kimozdított és magukra hagyott rugalmas testek (például egy megpendített húr, egy megkoccintott üvegpohár stb.) ilyen csökkenı amplitúdójú, ún. szabad rezgést végeznek, és a rezgés frekvenciája, a testre jellemzıen mindig ugyanaz. Ezt nevezik a test természetes vagy sajátfrekvenciájának. 3.ábra Csillapítatlan (a) és csillapodó (b) rezgésforma, (c) berezgés, lecsengés folyamata.1.1. Kényszerrezgés, rezonancia

A rezgés folyamatossá tétele külsı energia bevitelével lehetséges, azért, hogy az energiaveszteséget pótoljuk. Ha az egyszerő rugó-test példánkon a. ábrán a rugó baloldalán a fixen rögzített pontot külsı erıvel a rugó tengelyében elıre hátra mozgatjuk, akkor a testre kényszerítı erıt fejtünk ki és a test kényszerrezgést végez. A kényszerrezgés frekvenciáját a kényszerítı erı (gerjesztı erı) frekvenciája szabja meg. Az amplitúdó a kényszerítı erı amplitúdójától és a kényszerítı erı frekvenciájától függ. Egy adott amplitúdójú gerjesztı erı esetében a kényszerrezgést végzı test amplitúdója akkor lesz a legnagyobb, ha a kényszerítı (gerjesztı) frekvencia megegyezik a kényszerített (gerjesztett) rendszer sajátfrekvenciájával. Ezt nevezik a rezonancia jelenségének, tehát amikor is maximálisan együtt rezeg a kényszerítı rendszer a kényszerítettel. Azt a frekvenciát, amin ez bekövetkezik, rezonanciafrekvenciának nevezik. A frekvencia függvényében felvett rezgés amplitúdó görbét rezonanciagörbének nevezzük. A kényszerrezgés amplitúdója a kényszerítı rezgés amplitúdójának sokszorosa lehet. A rezonanciagörbe alakja függ a csillapítástól és a súrlódástól. 4. ábra A Hz sajátfrekvenciájú test kényszerrezgésekor kialakuló rezonanciagörbe a kényszerítı frekvencia függvényében. A. ábrán bemutatott rugó-test rendszerünk kényszerrezgésekor a kényszerítı erı frekvenciájának függvényében kialakuló rezonanciagörbét mutatjuk be a 4. ábrán. A függıleges tengelyen a konstans amplitúdójú gerjesztéshez viszonyított rezgés amplitúdó látható. Ha egy rezgésre képes testet rezgésbe hozunk, azt tapasztaljuk, hogy a rezgés amplitúdója csak bizonyos idı múlva éri el a maximumot. Ez a berezgés jelensége, amely a gerjesztés kezdeti pillanatától az állandósult állapot elérésig tartó átmeneti állapot. Az állandósult állapotot a lecsengés követi, amely a gerjesztés megszőnésének pillanatától a nyugalmi állapot eléréséig vagy másik kényszererı belépéséig tartó átmeneti állapot. A berezgést és a lecsengést, amelyet a 3. ábra c képe szemléltet, átmeneti rezgési formának vagy tranziens állapotnak nevezzük... Hang terjedése levegıben A levegı elemi részecskéi nyugalmi állapotban állandó, rendezetlen mozgásban vannak, de úgy, hogy minden részecskének van egy átlagos stabil mozgási állapota, meghatározott távolsága a többi részecskétıl, amelyben szeretnek tartózkodni. Tengerszinten ekkor

p 0 =1[atm] nyomás mérhetı. Ha valami a részecskéket ebbıl az állapotból kimozdítja, olyan erık keletkeznek, amelyek igyekeznek a részecskéket az egyensúlyi helyzetükbe vissza helyezni. Amikor egy test (a hangforrás) rezeg, a szomszédos levegı részecskéit a nyugalmi állapotból kimozdítja, és velük együtt rezeg, kimozdítva némi késéssel a távolabbi szomszédos részecskéket is azok nyugalmi helyzetébıl. Vagyis a zavar hatása terjed tova, a részecskék csak az egyensúlyi helyzetük körül rezegnek, átadva a zavarás hatását a szomszéd részecskéknek. A hanghullámterjedés tehát a zavar mozgásának a terjedése a hangot közvetítı közegben, például levegıben, úgy hogy maguk a részecskék nem haladnak együtt a hullámmozgással. A hanghullámok a levegıben úgy terjednek, hogy a részecskék a hullám terjedési irányában rezegnek. Ezek az úgynevezett longitudinális hullámok, amelyeket az 5. ábra mutatja. A víz felszínén terjedı hullámoknál a részecskék le-föl mozognak merılegesen a terjedés irányára. Ezek a transzverzális hullámok. Itt is a vízrészecskék csak le-föl mozognak, és nem utaznak a hullámmal együtt. A vivı közeg, amely valamilyen mechanikai rezgés hatását közvetíti, lehet légnemő, cseppfolyós, szilárd. 5. ábra T A hang terjedési sebessége(c): λ c = = λ f [m/sec]. A továbbiakban csak a levegıben terjedı hanghullámokkal T foglalkozunk ahol a hang terjedési sebessége c = 331,5[m/sec],.0 C -on és 1 [atm] (100 000 [Pa]) nyomáson. A hang hullámhossza ( λ ), a hanghullám (T) periódusidı alatt megtett útja. A hang hullámhossza és a hang frekvenciája (f) fordított arányban állnak egymással. Egy 0Hz-es hang hullámhossza 16,6m, egy 0 000Hz-es hang hullámhossza 1,66cm. A hanghullámok terjedésénél, mint minden hullámformánál, általában elıfordulnak visszaverıdések és elhajlások. Hangnyomás ( (t) ):A hang terjedésekor a részecskék sőrősödése és ritkulása egy adott p hang pontban p hang (t) nyomásváltozást eredményez. Ez a nyomásingadozás igen kicsi és a légköri (sztatikus) nyomás értékére szuperponálódik, vagyis annak hangfrekvenciás ingadoztatásában nyilvánul meg. A nyomás idıbeli változása tehát

p légköri + p hang (t) alakban jelentkezik. Maga a p hang (t) függvény tartalmazhat periódusos és statisztikusan ingadozó elemeket, de az ún. alapzajtól eltekintve véges ideig tart és rendszerint berezgési és lecsengési elemekkel is rendelkezik. Tehát matematikailag rendkívül bonyolult függvény. Ezért a megismerés formája rendszerint nem az idıbeli lefolyás rögzítése, hanem valamilyen idıbeli átlag, leggyakrabban a négyzetes középérték, az úgynevezett effektív érték megállapítása: p eff = p ( t) = t 1 t t 1 t1 p ( t) dt A négyzetes középérték mérése nemcsak fizikai ok, hanem egyben biológiai tapasztalat is. A fül ugyanis az ún. effektív értéket érzékeli. Tárgyalásaink során hangnyomáson mindig effektív hangnyomást értünk [N/m ], és (p)-vel jelöljük Néhány nyomásérték összehasonlításként: sztatikus nyomás 1 atm 10 5 Pa 10 5 N/m beszéd nyomásingadozás 10-10 -1 Pa -5 hallásküszöbnél a nyomásingadozás 10 Pa fájdalomküszöbnél a nyomásingadozás 0 Pa A hangforrás elsıdleges adata a hangteljesítménye (P): a hangforrás körüli képzett gömbfelületen idıegység alatt átáramlott összes energiamennyiség [Watt]. p P =. S ρ c ahol S a felület [ m ]. A hangteljesítmény tehát független attól, hogy hol végezzük a mérést, de meghatározáshoz sok mérést kell végezni. A hangteljesítmény mennyiségi, tehát összegezı adat: az elemi értéknek, a felületegységre esı teljesítménynek, vagyis az intenzitásnak a sugárzó körüli teljes gömbfelületen vett integrálja. A hang intenzitása (I): egységnyi felületen merılegesen (ld. 6. ábra) idıegység alatt átáramlott energia [W/m ], 6. ábra A hang intenzitása az egységnyi felületen merılegesen idıegység alatt átáramlott energia p I = ρ c ahol ρ c a közegre jellemzı akusztikai keménység, c [m/s], ρ [kg/m 3 ]. hallásküszöb: I 1 5 0 = 10 W / m p0 = 10 Pa

hangos beszéd I = 10-6 W / m p = 10 Pa 1 Fájdalomküszöb I= 1W / m p = 10 Pa.3. Szintérték db fogalma Az a legkisebb hangintenzitás-érték amelyet még épp meghallunk, vagyis az úgynevezett 1 hallásküszöb hangintenzitás-értéke I = 10 W m azaz 0,000 000 000 001W / m, egy 0 / nagyteljesítményő repülıgép zaja 10 m távolságban kb. I= 1 W / m, ami az emberi fájdalomküszöbhöz közeli érték. Ez annyit jelent, hogy a hangintenzitás értéke az emberi hallható tartományban 1 nagyságrendet fog át, vagyis a repülıgép zajának a hangintenzitása az éppen meghallható hang intenzitásának 1 000 000 000 000 szorosa. Olyan esetekben, amikor a kezelt menyiségek mértéke több nagyságrendet átfog, célszerő szintértékként logaritmikus viszonyszámot használni. A gyakorlatban ilyen viszonyszám a decibel[b], ami az adott menyiségek arányának logaritmusa, 10-vel szorozva : X decibel[db]: X db = 10log = 10log X 10log X 0 X 0 Az akusztikában és vele kapcsolódó tudományágakban, mint a fonetika, pszicholingvisztika, digitális beszédfeldolgozás stb. a hangintenzitás és a hangnyomás kezelésére db szintértéket használunk, és a viszonyítási alap a hallásküszöb-intenzitás ill. hangnyomás értéke. A hangintenzitás szintértéke: I L db = 10lg = 10lg I 10lg I 0 [db], I 0 ahol a viszonyítási alap a hallásküszöb intenzitásértéke vagyis I 1 0 = 10 W / m. A hangintenzitás szint tehát a hallásküszöbnél: L = 10 lg1 = 0 db, 6 10 6 a hangos beszédnél: Ldb = 10log = 10log10 = 10 6 = 60dB, 1 10 0 10 1 egy nagyteljesítményő repülıgép zaja esetén Ldb = 10log = 10log10 = 10 1 = 10dB. 1 10 db A hangintenzitás a hangnyomás négyzetével arányos. Szintben kifejezve: I p p p L db = 10log = 10log = 10 lg = 0lg. I po p p 0 A hangnyomás szintértéke: p L db = 0lg = 0lg p 0lg p0 [db], p 0 0 5 ahol a viszonyítási alap a hallásküszöb hangnyomásértéke, vagyis p0 = 10 Pa. Ha tehát hangnyomás arányokkal számolunk db-ben, akkor a hangnyomásarányok logaritmusának húszszorosát kell vennünk Igy akár hangnyomás, akár intenzitásszint értékekkel számolhatunk, a szintértékek nagysága egyenlı. A teljes hallástartomány dinamikában a 7. ábrán látható. 0

7. ábra A teljes hallástartomány dinamikában.4. Összetett rezgés A szinuszos formájú harmónikus rezgés által keltett tisztahang ritka jelenség a hangforrások világában. A hangvilla rezgése szolgáltat tiszta hangot, vagy igen ügyes fütyüléssel egyesek képesek közel tiszta hangot létrehozni. A természetben elıforduló rezgések összetett rezgések. Több, egymástól különbözı rezgımozgást egy anyagi részecske nem végezhet egy idıben. Érvényesül a lineáris szuperpozíció elve, vagyis egyazon pontra ható rezgések egyszerően összeadódnak. Például zárt térben egy hangforrás keltette hanghullám rezgéséhez a falról visszaverıdı hanghullámok rezgései hozzáadódnak. A tiszta szinuszos rezgések párhuzamos összetételébıl egyszerő és összetett, azaz nem tiszta szinuszos periódusos rezgések vagy ezeknek különleges esetei származhatnak. A sokféle kombinációból mi példaként olyan rezgések összetételét vizsgáljuk meg részletesebben, ahol az összetevı rezgések amplitúdója egyenlı, és ahol az összetevı rezgések frekvenciájának aránya egész szám a legalacsonyabb frekvenciájú rezgéshez viszonyítva. Például 100 Hz 00Hz és 300Hz frekvenciájú rezgések esetén a rezgések frekvenciájának hányadosa 00/100, 300/100, vagyis és 3. Az összetétel ismét periódikus rezgést eredményez, melynek frekvenciája megegyezik az összetételben szereplı legkisebb frekvenciával, alakja azonban nem szinuszos, hanem erısen függ az összetevıdı rezgések kezdıfázisától. A 8. ábrán háromféle fázisbeállításban (egymáshoz képest három különbözı idıeltolásban) a. b. és c. esetben mutatjuk be ugyanazokat a részrezgéseket és a keletkezett összetett rezgést (Tarnóczy T., 198). Látható, hogy az egyes részhangok fázisbeállításától mennyire függ a keletkezı rezgés alakja. Az eredı rezgésalak helyességét ellenırizhetjük, ha adott idıpillanatokban az összetevı rezgések amplitúdóit egyszerően, grafikusan összeadjuk.

Ha a részrezgések rezgésszámának hányadosa nem egész szám, hanem tört, az összetett rezgés periódusa meghosszabbodik, míg ha a hányados alakja igen bonyolult, a periodicitás teljesen elveszhet. Ha azonban a rezgésszámok aránya igen nagy, az alaprezgés periódusa ismét kitőnik, mert a nagy szaporaságú összetevı alig észrevehetıen módosítja a periódushatárt. 8 ábra Részrezgések összegzése.5. Összetett rezgések frekvenciaelemzése Mint ahogy azt már említettük a természetben elıforduló rezgések összetett rezgések. Összetett rezgéseket érzékelünk a fülünkkel, és összetett rezgéseket veszünk fel mikrofonokkal hangfelvételkor. Igen gyakran szeretnénk tudni, hogy ezek az összetett rezgések milyen harmonikus komponensekbıl állnak. Azt a folyamatot, amikor egy összetett rezgést (akár periodikus, akár nem) frekvenciakomponenseire bontjuk, frekvenciaelemzésnek nevezzük. Fourier, francia matematikus a 19. század elején kimutatta, hogy lineáris rendszerekben bármely összetett rezgés, amely egyértelmően leírható idıfüggvényével, felbontható különbözı frekvenciájú, amplitúdójú és fázisú harmonikus komponenseire. Frekvencia komponensekre bontáskor az adott összetett rezgés hangnyomás idıfüggvényét, frekvenciafüggvénnyé alakítjuk át. Ezt a frekvenciafüggvényt (frekvencia, amplitúdó és fázis adatok összességét) nevezzük spektrumnak vagy színképnek. A gyakorlatban hang spektruma lehet nyomásamplitúdó-, teljesítmény-, vagy energiaspektrum, attól függıen, hogy az adott idıpontban a frekvenciaösszetevık nyomásamplitúdó, teljesítmény, vagy energia eloszlását adja meg. 9.ábra. A 8. ábra utolsó sorában lévı összetett periodikus rezgések amplitúdó spektruma

A periodikus rezgéseknél az összetett rezgésnek van egy alap ismétlési periódusa, amely az összetett hangot felépítı összes összetevı közül a legmélyebb frekvenciaösszetevö, és amely meghatározza a komplex hang frekvencia komponenseit. Ezt a legmélyebb hangot alaphangnak (f 0 ) nevezzük. A komplex hang többi összetevıjét felhangoknak (f 1 f f n ) nevezzük. A felhangok a legalacsonyabb frekvenciájú alaphang (f 0 ) egész számú többszörösei. A 8. ábra utolsó sorában lévı összetett periodikus rezgések például, amelyek 100Hz alapfrekvenciájúak, de különbözı a hullámformájuk, felbonthatók 100, 00 és 300 Hz-es tiszta szinuszos, egyenlı amplitúdójú frekvencia-összetevıkre. A szokásos amplitúdó spektrum ábrázolásukat a 9. ábra mutatja, ahol az alaphang f 0 =100 Hz, a felhangok f 1 =00Hz és f =300 Hz. Egy hangszeren például amikor lejátszunk egy dallamot, az alaphangot (f 0 ) változtatjuk. A felhangokat a gerjesztés módja, a felhangok amplitúdóját a hangszer rezonanciatulajdonságai szabják meg. Az emberi hallórendszerünk is képes arra, hogy egy komplex periodikus hangból a frekvencia összetevıket bizonyos mértékig kihallja. Ami az érdekes, az az, hogy a 8. a. b. és c. ábrák alsó sorában lévı összetett rezgések annak ellenére, hogy a geometriai alakjuk más és más, ugyanazon hangbenyomást keltik a fülben, vagyis különbözı fázisú, de azonos amplitúdójú és frekvenciájú részhangok összességét azonosnak halljuk. A nem periodikus rezgések esetén, mint például a fehérzaj, vagy impulzus, az összetevı komponenseinek frekvencia aránya nem egész szám. Folyamatos spektrumot adnak. Az energia szétszóródik egy frekvenciatartományban és nem meghatározott frekvenciáknál koncentrálódik. A beszédjel szintén összetett rezgés, amely idıben folyamatosan változó, különbözı rezgésmódok kombinációja. A beszédjel elemzése nem egy egyszerő feladat, különösen két szempontból: 1. A beszéd egy biológiai produktum, ahol a beszédjel idıfüggvényének egyes megvalósulásai, pl. még ugyanazon személy kitartott á hangja idıfüggvénye is esetrıl esetre más és más (nem determinisztikus). Ilyen típusú, de idıben állandó (stacioner) jeleknél viszont a hosszabb idıre vett átlaguk hasonló, így egyetlen realizáció idıátlagából vonjuk le következtetéseket. Ez a következtetés azután más realizációk idıbeli átlagára is jó közelítéssel érvényes lesz. Így a leggyakrabban teljesítményszint vagy intenzitásszint sőrőség spektrumot (Fouriertranszformáltjának négyzete) szokás számolni, vagyis egy meghatározott sávszélességre esı teljesítmény vagy intenzitásszintet [db/hz] (Douglas O Shaughnessy 1987). Valójában meghatározott sávszélességben szőrjük a jelet, és a meghatározott sávszélességbe esı teljesítményt vagy intenzitást számoljuk. Gyakran a jellemzıt sok mérés utáni átlagszámításból adjuk meg. A teljesítményszint spektrum ill. intenzitásszint spektrum: a jel meghatározott idıintervallumában a frekvencia-összetevık teljesítményszint ill. intenzitásszint eloszlását adja meg.. A beszéd-elıállítási folyamat nem a fenn leírt idıben állandó folyamat. A hangképzés folytonos és idıben változó jelet állít elı, amelyben tranziens, közelállandó, és impulzusszerő jelek váltakozva követik egymást. Az ilyen nem stacionárius jelek matematikai kezelése nagyon bonyolult. Többségük azonban, korlátozott idıtartományban közel stacionáriusnak vehetı, és így egy adott idıpontban, hozzá tartozó megfelelı idıablakban, a beszédrészlet közel állandónak vehetı, és az elemezés elvégezhetı. Az ilyen jeleket kvázistacionernek hívjuk. A beszéd is ilyen kvázistacioner részek sorozatának tekinthetı, és spektrum elemzés a

kvázistacioner részeken elvégezhetı úgy, hogy az egymás után kijelölt pontokban(pl. 10-0ms-ként) mindig egy meghatározott idıtartományban (pl. 5ms-ban) meghatározzuk a teljesítményspektrumot. Tehát amikor a változást követni szeretnénk egy teljes beszédszakaszon, akkor az elemzést mindig egy meghatározott idıintervallumban, idı ablakban( t ) kell elvégeznünk, és ezt az idıablakot végig kell görgetni a vizsgált beszédszakaszon. Így kapjuk meg a gördülı teljesítményspektrumot, vagyis a teljesítményspektrogramot (amit a fonetikában szonogramnak neveznek). Tehát a spektrogram a teljesítményspektrum idıbeli változása, vagyis mutatja, a frekvenciaösszetevık, teljesítményszint eloszlásának idıbeli változását. A 10.a. ábrán az Alma van a ládában. mondat idıfüggvénye alatt, a mondat spektrum változásának idıbeli folyamatát, vagyis a spektrogramot mutatunk be, fenn rövid, és lenn hosszú elemzési idıablakkal. Az ábrán a vízszintes tengelyen az idıt mutatjuk szekundumban, a függıleges tengelyen a frekvenciát tüntettük fel 8 khz-ig beállított elemzési frekvenciatartományban. Az adott idıponthoz tartozó intenzitásszint nagysága arányos a feketedés mértékével. Frekvenciaelemzésnél a meghatározott idıintervallum, vagyis az elemzési ablak szélessége ( t ) meghatározza az elemzés frekvenciafelbontását ( f ), vagyis azt, hogy milyen részletességgel kapjuk meg a spektrum összetevıket. A t. f =állandó érték. Finom frekvenciafelbontáshoz hosszú idıablakra van szükség, a pontosabb idıbeli követéshez viszont az ablakszélességet rövidre kell választanunk. A beszédelemzési technikában a spektrumelemzéshez szokásos idıablak 5ms és 50ms közötti (Olaszy G.,1989). A l m a v a n a l á d á b a n

10.a. ábra Alma van a ládában mondat amplitúdó idıfüggvénye (fenn), spektrogramja rövid, 5ms elemzési ablakkal (középen), és spektrogramja hosszú 30ms elemzési idıablakkal (lenn). Az intenzitásszint nagysága arányos a feketedés mértékével. A rövid idıablakú elemzéssel kapott felsı spektrogramon az artikuláció folyamán bekövetkezı változásokat, zárfelpattanásokat hően tudjuk követni, de a frekvenciafelbontás elég rossz. A felhangtartalom összemosódik. A hosszabb idıablakú elemzésnél a változások nem jól követhetıek, de a frekvenciafelbontás sokkal jobb, mint a felsı spektrogramnál. Itt a vízszintes csíkok az egyes felhangok erısségének idıbeli változását szeparáltan mutatják. Régebben, a frekvenciaelemzéseknél 10.a. ábrán mutatott spektrogramokhoz hasonlóan, minden frekvenciatartományban azonos volt az elemzési sáv szélessége (frekvencia felbontása), azonban a fülünk a különbözı frekvenciatartományokban más-más sávszélességgel dolgozik (ld. Mády: Beszédpercepció és pszicholingvisztika c. fejezet), 500 Hz alatt állandó, kb. 100 Hz-es sávszélességgel, 500 Hz. fölött az elemzési sávszélesség a frekvenciával növekszik, 5000 Hz környékén a sávszélesség már több mint 1000 Hz. Az emberi hallásfolyamatban mőködı változó sávszélességő elemzési sávokat kritikus sávoknak nevezzük, és sorrendjüket [Bark]-ban adjuk meg.(zwicker, E. 198). A kritikus sávszélesség változását a sávközépfrekvencia függvényében a. táblázat mutatja. Az ábra jobboldali oszlopai a kritikus sávsorrendeket mutatják.. Táblázat Kritikus sávszélesség a sáv középfrekvencia függvényében (baloldali oszlopok) és a kritikus sávsorrendek (jobboldali oszlopok). Középfrekvencia [Hz] Kritikus sávszélesség [Hz] Frekvencia [Hz]~Mel skálaarány Kritikus sáv sorrend [bark] 50 80 0 0 150 100 100 1 50 100 00 350 100 300 3 450 110 400 4 570 10 510 5 700 140 630 6 840 150 770 7 1000 160 90 8 1170 190 1080 9 1370 10 170 10 1600 40 1480 11 1850 80 170 1 150 30 000 13 500 380 30 14 900 450 700 15 3400 550 3150 16 4000 700 3700 17 4800 900 4400 18 5800 1100 5300 19 7000 1300 6400 0 8500 1800 7700 1 10500 500 9500 13500 3500 1000 3 15500 4

Az amerikai szakirodalomban a kritikus sávokhoz tartozó hangmagasságértékeket igen gyakran mel skála szerint adják meg. Az utóbbi években a legtöbb elemzési eljárás kritikus sávos elemzésen alapul, és a kapott spektrogramot hallási spektrogramnak nevezik (Ghitza, O., 199). Ilyen hallási spektrogramot mutatunk be a 10. b. ábrán, két különbözı 10.b. ábra A station angol szó hallási spektrogramjai két személy ejtésében. A felsı hallási spektrogramon a beszédhangok határai be vannak jelölve. A hallási spektrogramon a világosabb árnyalatok mutatják a nagyobb intenzitásszintet nıi ejtésben, ahol 1-0 Bark sávokban az energiaértékek idıbeli változása látható. Napjainkban sok, a hangelemzés egyszerő elvégzésére alkalmas, szabadon használható program van, amelybıl néhányat felsorolunk: Cooledit - általános akusztikai elemzı http://www.softpedia.com/get/multimedia/audio/audio-editors-recorders/cool-edit- Pro.shtml Wavesurfer - beszédelemzı, szegmentáló http://www.speech.kth.se/wavesurfer/ Wasp- beszédelemzı, szegmentáló http://www.phon.ucl.ac.uk/resource/sfs/wasp.htm Praat - fonetikai elemzı, szerkesztı program http://www.fon.hum.uva.nl/praat/ A fenn felsorolt programok digitális jelfeldolgozással mőködnek. Ezért fontos tudnunk a következıket: A teljes hallástartományban történı hangfelvételeknél, tehát amikor a jelet 0kHz-ig át akarjuk vinni a felvételi rendszeren, a mintavételi frekvenciát minimum 40 khz-re, az amplitúdófelbontást minimum 16 bitre kell beállítani. Beszédjel esetében max. 8 khz frekvencia átvitele elegendı, mivel e felett a frekvencia felett már a beszédben nincsenek jelentıs frekvenciakomponensek. Ekkor 16 kh-es mintavételi frekvenciát állítunk be, igy a frekvenciaelemzést 8kHz-ig végezzük, és az 51 pontos FFT-elemzés elegendı. Az elemzési idıablakot célszerő Hamming-ablakra választani (Gordos-Takács, 1983; F.J. Owens, 1993.)

3. A beszédfolyamat akusztikai-fonetikai jellemzıi A beszéd nyelvi jelentéssel bíró akusztikai produktum, számos nem nyelvi jelentést hordozó információval. A beszédhangrezgéseket bonyolult, összetett és koordinált fiziológiai mőködéssel hozzuk létre. De nemcsak létrehozását tekintve összetett folyamat a beszéd, hanem megjelenési formája, a beszédhangrezgés is mutatja az összetettséget, tehát akusztikailag is összetett jelsorozat, amely idıben, hangerıben és frekvenciában dinamikusan változik. Ha a beszéd nem lenne egyéb, mint az írásjelek hangos megjelenési formája, akkor nem éreznénk kifejezıbbnek, elevenebbnek a nyomtatott vagy írott írásjelnél. A beszéd által hordozott mondanivaló minıségileg különbözik az írott szóalakokkal kifejezett fogalmi jellegő tartalmaktól. A beszédben kifejezésre jutó, nem nyelvi információ, mint például a beszélı neme, fizikai állapota vagy a beszélı által kifejezett érzelmek (harag, izgalom, öröm, panasz, csodálkozás, gyengédség, ijedtség stb.) létrehozását a komplex természető akusztikai jel teszi lehetıvé. Erre a komplex akusztikai jelre jellemzı, hogy a beszéd nem nyelvi és nyelvi jellemzıi együttesen vannak benne jelen, és szétválasztásuk igen nehéz. A hangképzı szervek mőködésével létrehozott beszédhangrezgés objektíven mőszerekkel vizsgálható. Minthogy a beszélık beszélıszervei kisebb-nagyobb mértékben különböznek, és az artikuláció ugyanazon a nyelven belül sem egyforma, a létrehozott beszéd akusztikailag különbözı. A beszéd akusztikai szerkezete a beszélıtıl és a beszédhelyzettıl (átviteli körülmények) függıen változik, de még egy beszélı esetében is, ugyanazon beszédhangot, beszédhangsorozatot képezve az elıállított beszéd akusztikai szerkezete, ha kisebb mértékben is, mint különbözı személyek esetén, de eltér egymástól.. Az emberi beszédfeldolgozás folyamatai azonban biztosítják, hogy az akusztikai különbségek ellenére a fonológiai döntések állandóak maradjanak (nyelvspecifikus beszédészlelés) (Gósy M., 004). Az akusztikai alapfogalmak címő. fejezet alapján elmondható, hogy lényegében 3 alapparaméterrel jellemezhetı a beszédhangrezgés. Ez a három alapparaméter a hangnyomás p[n/m 1 ], a frekvencia f = [Hz] és az idıtartam t[sec]. A beszédparaméterekre általában T jellemzı, hogy mint a legtöbb biológiai produktum paraméterei, nem determinisztikusak. A jellemzı paraméterek legtöbbször hosszú idei áltagból, vagy sok mérés utáni átlagszámításból adhatók meg. a. A beszédhang erısségét jellemzı fizikai alapparaméter a beszédhangnyomás, származtatott jellemzı a beszédenergia, beszédintenzitás, beszédteljesítmény. (A beszédhang energiája, intenzitása és teljesítménye a beszédhangnyomás négyzetével arányos.) A beszédhangnyomás, -energia, -intenzitás, -teljesítmény mindegyikének kezelésére [db] szintértéket használunk. Ez a szintérték a beszédfolyamatban állandóan hullámzik, meg kel különböztetnünk az átlagos szintet a szintcsúcsoktól. A beszédhangnyomás- és beszédintenzitás-szintet a folyamatos beszéd valamely idıközre vonatkoztatott effektív értékével jellemezzük, amint azt a Hang terjedése levegıben c. alfejezetben tárgyaltuk. Az idıköz mértéke szerint megkülönböztetünk pillanatnyi és hosszabb idıközre vonatkoztatott átlagos értéket. A beszédproduktumban az energia nagyobb része a magánhangzókhoz (lásd késıbb) kapcsolódik. Szavakról felvett hangnyomásgörbéken a magánhangzók mindig nagyobb teljesítményértéket mutatnak. b. A hangmagasságra jellemzı fizikai mennyiség a beszéd alapfrekvenciája f 0 [Hz], amely a folyamatos beszéd alaphangját jelenti, férfiaknál 100-00 Hz, nıknél 150-300 Hz, gyermekeknél 50-600 Hz. A beszéd hangmagasságának változásai a mondatok dallamformáit, intonációját alakítják ki.

c. A hang színezetére jellemzı származtatott mennyiség a beszéd intenzitásszint sőrőség spektrum[db/hz], amelyet a.5 fejezetben részleteztünk. A beszéd akusztikumának fontos jellemzıje, amely a frekvencia-összetevık intenzitásszint értékeit adja meg. A beszédhangok megkülönböztetésében van lényeges szerepe. Azonban a megváltozott színkép tükrözıje lehet a beszélı állapotának, jellemzi a beszélıt is; például meg tudjuk a spektrumból ítélni, hogy férfi, nı, vagy gyermek beszél-e. d. A beszédhangok, a beszédhangátmenetek idıtartama[sec], a beszédhangok idıtartam arányai mind, fontos jellemzıi a beszédnek. A beszédsebességre, beszédritmusra jellemzı az idıegység alatt elmondott beszédhangok száma. A tempó és szünetek összefüggésben vannak a beszélı egyén karakterével vagy érzelmi állapotával, de a tempóváltozásnak van logikai funkciója is, például kiemeli a nyomatékos mondanivalót. A beszédben az akusztikai összetevık a legváltozatosabb módon kombinálódnak, s lehetıvé teszik, hogy a beszéd mint komplex akusztikai jelzés az árnyalt és differenciált közlés eszköze legyen. Például, ha a beszélı megemeli a hangját, hangosabban beszél, általában a frekvenciaösszetétel is megváltozik. Nagyobb hangerı esetén a nagyobb frekvenciájú felhangok intenzitása nagyobb mértékben erısödik fel, mint a kis frekvenciájúaké. A beszédre alapvetıen jellemzı továbbá, hogy az információt több szinten hordozza. Ezek a szintek a következık: az akusztikai-fonetikai szint, fonológiai, szintaktikai, szemantikai, pragmatikai szint (Ainsworth, W.A., 1976). A beszéd leírásánál tárgyalhatjuk a beszédhangok vagy azoknál kisebb egységek akusztikai, fonetikai leírását, de vizsgálhatjuk több beszédhang átfogó együttes viselkedését is. A beszéd szegmentális szerkezetének vizsgálatakor a beszédhang vagy a beszédhangnál kisebb egységek akusztikai leírására kerül sor, míg a szupraszegmentális szerkezet tárgyalásakor a beszéd több fonémán átnyúló akusztikai jellemzıinek leírása történik. A továbbiakban a szegmentális és a szupraszegmentális szerkezet különálló tárgyalására kerül sor. 3.1. A beszéd szegmentális leírása Hangképzés során a különbözı akusztikai gerjesztésekkel, a beszédképzıszervek hangolásával olyan akusztikailag különbözı hangrezgéssorozatot állítunk elı, amely a nyelvi tartalom segítségével beszédhangok sorozatává áll össze agyunkban. Különbözı gerjesztési típusokat használunk a beszédhangok képzésénél, melyek eredményeként különbözı beszédhangtípushoz tartozó beszédhangokat hozunk létre. Például a hangszalag rezgésével létrehozzuk a zöngét mint akusztikai produktumot, és ha csak tiszta gerjesztés történik, akkor magánhangzók jönnek létre, vagy diftongusok, vagyis a kettıs magánhangzók, pl. angolban az ai, de a magyar nyelvben diftongusok nincsekek. Ha a hangszalag rezgése mellett más, zörej típusú gerjesztés is létrejön, akkor a zöngés mássalhangzók kölönbözı típusaihoz tartozó beszédhangokat képezzük. A zöngétlen mássalhangzók esetében zörej típusú gerjestés jön létre a hangszallagok rezgése nélkül. A magyar hangkészlet képzés szerinti típusait a. táblázat szemlélteti.. táblázat A magyar hangkészlet képzés szerinti típusai

tiszta gerjesztés vegyes gerjesztés gerjesztés típusa akusztikai produktum Beszédhangtípus és írásjelszimbólumai hangszalag rezeg zönge Magánhangzók i, í, ü, ő, u, ú, e, é, ö, ı, o, ó, a, á résen kiáramló levegı súrlódási zörej Zöngétlen réshangok turbulens áramlása zárfelpattanás hangszalag rezeg + Résen kiáramló levegı turbulens áramlása hangszalag rezeg + zárfelpattanás hangszalag rezeg + Zárfelpattanás + résen kiáramló levegı turbulens áramlása hangszalag nem rezeg + zárfelpattanás + résen kiáramló levegı turbulens áramlása beszédenergia mentes rész + zárfelpattanási zörej Zönge + súrlódási zörej Zönge + Zárfelpattanási zörej Zönge + zárfelpattanási zörej + súrlódási zörej beszédenergia mentes rész + zárfelpattanási zörej. + súrlódási zörej f, sz, s, h Zöngétlen zárhangok p, t, k, ty zöngés réshangok v, z, zs likvidák l, r, j zöngés zárhangok b, d, g, gy nazálisok m, n, ny zöngés affrikáták (zár-réshangok) dz, dzs Zöngétlen affrikáták (zárréshangok) C, cs A beszédhangok gerjesztésekor a gerjesztı jel, másnéven kényszerítı jel (a zönge, a súrlódási zörej, a zárfelpattanási zörej) meghatározott színképő. Ezt a gerjesztı jelet befolyásolja a hangképzı csatorna üregeinek rezonanciája. Ahogy artikuláció közben változtatjuk e csatorna méretét vagy a csatornában a képzés helyét, a hangképzı csatorna változó rezonanciái állandóan befolyásolják az eredeti gerjesztı jel színképét (ld. részletezve a Magánhangzók c.alfejezetet.). A hangképzı csatorna valójában egy levegıvel telt csı, és mint a levegıvel töltött csövek, rezonátorként mőködik, amint azt a.11 fejezetben tárgyaltuk. Ez azt jelenti, hogy a hangképzı csatornának van bizonyos természetes rezgési frekvenciája, és sokkal könnyebben reagál egy olyan hanghullámra, amelynek frekvenciája hasonló ennek rezonáns frekvenciájához, mint egy más frekvenciájú hanghullámra. Tehát egy beszédhang akusztikai tulajdonságait a gerjesztés módja, típusa és a képzés helye (a hangképzı csatorna állapota ) együttesen határozzák meg. A beszédhangok idıtartama 50 ms 150 ms között változik, normál beszédtempó mellett (1 beszédhang/mp). Ritmus változásakor lényegében fıleg a beszédhangok kvázistacioner szakaszának ideje változik, nı vagy rövidül meg. Az átmenet, vagyis a hangok kialakulási szakaszának idıtartama, valamint a tranziens komponensek, mint például a zárfelpattanás közelítıleg változatlanok.

3.1.1. Magánhangzók Hangképzéskor a magánhangzók, valamint a zöngés mássalhangzók zöngébıl eredı színképének kialakulását a 11. ábra szemlélteti. A hangszalag rezgésekor a keletkezı zönge hangnyomás idıfüggvénye egy közel főrészfog jellegő függvény ( T 0 ) alapperiódussal, és a zönge színképi összetevıi az alaphang ( f 0 ) és a felhangok együttese, melyek az alaphang egész számú többszörösei (amint ezt már részleteztük az elızı fejezetben). Ezt a színképet befolyásolja a változó mérető hangképzı csatorna, amely egy üregrendszer, több rezonanciafrekvenciával (Kent Ray D., 199.) A rezonanciafrekvenciákon és azok környezetében a részhangok intenzitása megnı, más helyeken elnyomódik. Így alakulnak ki a magánhangzók, nazális mássalhangzók és a likvidák. A fonetikai szakirodalomban a rezonanciacsúcsokat formánsoknak, a rezonanciafrekvenciákat formánsfrekvenciáknak (F) nevezzük. Az egyes rezonanciacsúcsok szélessége (B) szintén jellemzı az adott üregre. A magánhangzó típusát fıleg az elsı ( F 1 ) és második ( F ) formáns szabja meg. (Chistovich, L.,1980). A magasabb formánsok a színezetre jellemzıek. 11.ábra Magánhangzók spektrumának kialakulása, formánsfrekvenciák (Fi) és rezonancia szélességük (Bi) A képzési hely függvényében a hangképzı üregek térfogata változik, és így változik a színkép is. Erre példát a 1. és 13. ábrákon mutatunk be. A magyar á hangot középen képzett alsó nyelvállású, igen nyílt állkapcsú, nyitott ajakmőködéső, legtágabb hangképzéssel állítjuk elı,

amint azt a 1. ábrán mutatjuk. Spektrumában az F1 és F formánsértékek egymáshoz közel, általában 800-900, ill. 100-1300 Hz környezetében fordulnak elı férfiak ejtésében. 1. ábra Az á beszédhang képzési pozíciója, spektruma, F 1 F formánsfrekvenciái (Sensimetrics, 1997) Az i hangot pedig elöl képzett, felsı nyelvállású, zárt állkapcsú ajakréssel képezzük, amint azt a 13. ábra bal oldala mutatja. Formánsfrekvencái egymástól távol, 30-300, ill. 300-500 Hz környezetében vannak (Magdics K., 1965). 13. ábra Az i és az u beszédhang képzési pozíciója, spektruma, F 1 F formánsfrekvenciái (Sensimetrics, 1997) Általánosságban, nagy vonalakban elmondható, hogy amennyiben a nyelv hátramozdul, és a száj kerekedik, az F csökken, az F 1 közelítıleg állandó. Ez történik, amikor i beszédhangból u hangot képezünk. A nyelv mozgását és a hozzá tartozó formánsfrekven cia-értékeket a 13. ábra bal és jobb oldalán szemléltetjük. Az állkapocsmozgás a nyelv függıleges mozgásával közel szinkronban változik, ha az állkapocs nyílik, az F 1 nı, az F megközelítıleg állandó.

Az F 1 formánsfrekvencia ábrázolása az F függvényében gyakori ábrázolási forma, amely a 14. ábrán tanulmányozható magyar férfi és magyar nıi ejtésben. Az ábrák a mért F 1 és F 14. ábra Magyar férfi magánhangzók F 1, F grafikonja IPhA jelölésrendszerrel (Tarnóczy, 1974) formánsfrekvenciák szórásterületeit mutatják 4 férfi és 4 nıi ejtésben. Az ábra jól szemlélteti, hogy mivel általában a nıi hangképzı üregek kisebb méretőek, mint a férfiak hangképzı üregei, ezért a formánsfrekvenciák nıi ejtésben valamivel magasabbak, mint a férfiaknál, és gyermekeknél még magasabb, természetesen egy adott határon belül. Nemcsak az alaphang és ezzel a felharmonikusok egymás közötti távolsága változik a hangszalag mérete függvényében, hanem a spektrumban a felharmonikusok nagysága, és egymáshoz viszonyított aránya, az F 1 és F értékei is. A folyamatos artikuláció következtében a hangképzı üregek méretei változnak. Normál tempójú beszédben a magánhangzóknak van egy kialakulási, egy kvázistacionárius (célkonfigurációt tükrözı) és egy befejezı szakasza. A színkép, ezzel együtt a formánsfrekvenciák, a kvázistacioner szakaszban tekinthetık közel állandónak. A kialakulási és befejezı szakaszban a színkép a formánsokkal együtt erısen változhat a szomszédos beszédhangok képzési helye függvényében. Erre példát a 15. ábrán mutatunk be, ahol a magánhangzók színképváltozása jól követhetı az ábrázolt mondattöredékben. Gyorsabb beszédtempónál a beszédhangok kvázistacioner szakasza rövidül meg, gyakran el is tőnik. Ma a gépi beszédfeldolgozási eljárásokban nemcsak a formánsfrekvenciákkal dolgoznak, hanem figyelembe veszik a teljes spektrumot (Lass, N.,J 1996. Morgan, G. 000. Tetschner, W. 1993.) 3.1.. Mássalhangzók Képzésük során a szájüregben akadály képzıdik, melyen a levegı átáramolva, vagy az akadályt megszüntetve kisebb, nagyobb erısségő zörej keletkezik. Vannak rezonáns jellegő mássalhangzók és zörej jellegő mássalhangzók, amelyek lehetnek zöngések és zöngétlenek.

A likvidák rezonáns jellegő mássalhangzók. Formánsokkal és antiformánsokkal rendelkeznek, energiájuk jellemzıen kisebb, mint a magánhangzóké. Likvidákra példa az l hang a 15. ábrán. A nazális mássalhangzók szintén rezonáns jellegő mássalhangzók, de itt az orrüreg, egy állandó mérető rezonátorüreg is szerepet kap a hangképzésben. Ez adja meg a nazális beszédhangok jellegzetes színezetét. Amikor levegı áramlik az orrüregen és a szájüregen keresztül nazoorális magánhangzókat, ha csak az orrüregen keresztül nazális mássalhangzókat képezünk. A nazális formáns frekvenciája 50 300 Hz, a többi formánshely a képzés helyétıl függ. Az antiformánshelyek (alacsony (750 150 Hz), középsı (1450 00 Hz) és magas (3000 Hz fölött)) szintén változnak a képzési hellyel. Energiájuk jellemzıen kisebb, mint a magánhangzóké. Nazális hangokra példa az n és m hang a 15. ábrán. f í n o m a l a c s ü l t e t t 15. ábra A finom malacsültet mondattöredék kézzel szegmentált és címkézett spektrogramja A magánhangzók közepén az F 1, F formánsfrekvenciák környezetét a fehér nyilak mutatják Réshangok képzésekor a hangképzı csatornában kiáramló levegı szők résen halad át. Turbulens áramlás keletkezik, amely széles spektrumú súrlódási zörejt eredményez. A képzési hely határozza meg, hogy a keletkezı zörejben hova esnek a színképi súlypontok. Réshangokra példa a 15. ábrán az f és s hang. Amennyiben a képzésnél például a rés a fogmedertıl, a zöngétlen sz és a zöngés z képzési helyétıl, hátrafelé tolódik a velum (lágy szájpad) felé, a zöngétlen s és a zöngés zs képzési helye felé, akkor a színképi energiasúlypont lefelé, a kisebb frekvenciák irányába tolódik. Erre példa a 16. ábra hallási spektrumain látható a zöngétlen sz és a zöngés z,

valamint a zöngétlen s és a zöngés zs esetében. Az ábrán a kritikus frekvenciasávokban mért energiaszintek szórástartománya látható 7 beszélı ejtésében (Vicsi K., 003). A réshangokra általánosan jellemzı, hogy személyfüggésük nincs. 16. ábra Két zöngés és két zöngétlen réshang kritikus frekvenciasávokban mért energiaszintek szórástartománya.. A színképi energiasúlypont változásik a képzési hely függvényében A rövid réshang idıtartama 100-00 ms, hosszúé 00-300 ms, a beszédstílustól függıen. Zárhangok képzésekor a gerjesztés a zár felpattanásával történik. A létrejövı zörej a zárfelpattanási zörej, amelynek színképi súlypontja a képzés helyétıl függ, ugyanúgy, mint a réshangok esetén. Belsı idıszerkezettel jellemezhetı, akusztikailag összetett beszédhang, zárképzési tranziens után következik a zár (vagyis zöngétlen esetben az energiamentes rész, zöngés esetben a fojtott zönge), majd a zárfelpattanási zörej. Igen jellemzıek a zár képzési helyére a zárhangot követı magánhangzók F 1 és F formánsfrekvenciáinak átmenetei a kvázistacioner állapot elérése elıtt. Zárhangokra példa a 15. ábrán a t hang. Affrikáták, vagyis a zár-rés hangok képzésekor zár és rés képzése történik azonnali egymásutánban. Belsı idıszerkezettel jellemezhetı összetett beszédhang, akusztikai komponensei: zárképzési tranziens, zár (vagyis zöngétlen esetben az energiamentes rész, zöngés esetben a fojtott zönge), zárfelpattanási zörej, spiráns zörej. Affrikátára példa a 15. ábrán a c hang. 3.. A beszéd szupraszegmentális leírása A több beszédhang együttes viselkedését leíró jellemzıket nevezzük szupraszegmentális vagy prozódiai jellemzıknek. Ezek a hangsúly, a hanglejtés (intonáció), a beszédtempó és a hangszínezet. A szupraszegmentális leíráshoz használt jellemzı fizikai paraméterek az intenzitás [db], az alaphang [Hz], idıtartam [sec], a spektrum [db/hz]. Néhány mondat mért alaphangjának és intenzitásának idıbeli változását a 17. ábrán mutatjuk be.

17. ábra. Miért nem busszal utazik? Ki hallgatta a rádiót? Hallottál már róla? kérdı mondatok hullámformája, intenzitás és alaphang idıbeli változása Nyelvenként ezeknek a fizikai paramétereknek más-más arányú keverékei jelenhetnek meg ugyanannak a prozódiai jellemzınek a képviseletében. Pl. az orosz hangsúly elıidézésében nagyobb mértékő az idıtartam részesedése, mint a másik két fizikai paraméteré. Ugyanakkor a francia hangsúly észlelésében a hangmagasság a döntı tényezı, így nem ritka, hogy pl. egy francia mondatban a hangsúlyos szótag kevésbé intenzív, mint a hangsúlytalan, viszont hangmagasságban kiemelkedik. Továbbá az oroszban és az angolban például valamely paraméter pozitív értéke mellett negatív módon is kifejezésre jut a hangsúly: a nem hangsúlyos szótagok magánhangzóinak minıségi redukciójában (Kassai I., 1998). 3..1. Hanglejtés A hangmagasságot a beszédben többféleképpen is hasznosítjuk. A beszélı legalacsonyabb és legmagasabb alaphang-értékének a különbségében kifejezıdı hangterjedelmen belül figyelembe vesszük az alaphang-változás irányát, a hangmenetet. Az elıbbi adja a