A hallás és a beszédpercepció
A beszédészlelés/beszédpercepció A hangingerek átalakítása -- nyelvi jelek elérése, azaz nyelvi észlelés. Artikulációs fonetika Pszicholingvisztika Akusztikus fonetika Percepciós fonetika Pszicholingvisztika
A beszédfeldolgozás leegyszerűsített sémája BESZÉDMEGÉRTÉS Nyelvi (szintaktikai, lexikai, pragmatikai) feldolgozás BESZÉDÉSZLELÉS Nyelvi egységek (fonéma, szótag, szó) aktivációja HALLÁS Jelátalakítás
Hallás
A fül anatómiája Fülkagyló (Cochlea)
A fülkürt (Eustach-féle kürt) https://www.youtube.com/watch?v=i7xf8oryapo A belsőfület a dobhártya légmentesen zárja Az egyetlen kimenet a külvilágba a fülkürt (az orrgarat felé) Ezáltal tud kiegyenlítődni a légnyomás a dobhártya két oldalán (és képes ellátni a funkcióját). Nátha átmeneti fülkürt eldugulás halláscsökkenés Hurut nincs légmozgás savós váladéktermelődés középfülgyulladás.
A fül mint jelátalakító Mechanikus rezgés Idegsejtek ingerlése Hangnyomásingadozás Idegi ingerület
1. Hanghullámok mechanikus rezgések: a hallócsontocskák https://www.youtube.com/watch?v=qgdqp-opb1q
1. Hanghullámok mechanikus rezgések: a hallócsontocskák kalapács üllő kengyel ovális ablak dobhártya kerek ablak Huszonkétszeres erősítés
2. Mechanikus rezgés idegi ingerület: a cochlea (csiga) https://www.youtube.com/watch?v=dyenmlufauw
A cochlea (csiga) és a Corti szerv Scala vestibuli (folyadék: perilymph) Scala media (folyadék: endolymph) Corti szerv (megfordítva!) Külső szőrsejtek: A hullám kitéríti a tektoriális membránt nagyobb mértékű érintkezés ingerlés ingerlésre meghosszabbodik a terjedő hullám erősítése hangosítás Scala tympani (folyadék: perilymph) Hallóideg Belső szőrsejtek: A hullám az alaphártyán turbulenciát okoz a folyadékban (Bernoulli) ingerlés idegi impulzus
Az alaphártya frekvenciaérzékenysége Az alaphártya tonotópiás felépítésű: a szomszédos területek szomszédos frekvenciasávokra érzékenyek. A bázisnál vastagabb és keskenyebb magasabb a sajátfrekvenciája magasabb frekvenciákra érzékeny. Felfelé vékonyodik, szélesedik csökken a sajátfrekvenciája. A különböző frekvenciákhoz eltérő méretű területek tartoznak. Nagyobb hangerő több szőrsejt jön mozgásba.
Utazóhullámok Tiszta hang Komplex hang (1000 és 2500 Hz) A periferiális hallórendszer frekvenciafelbontást végez! auditoros spektrogramok! https://auditoryneuroscience.com/book/export/html/13
A hangingerek útja A szőrsejtekre receptorok kapcsolódnak A receptorok (neuronok) axonjai összeállnak és kilépnek a cochleából: hallóideg (a nyolcadik agyideg) A hallóideg először az agytörzsbe jut Innen pedig az elsődleges és másodlagos auditoros kortexbe Az inger az auditoros kortex előtt az adott füllel ellenkező féltekébe érkezik
A saját hang észlelése Saját hangunkat mindig másmilyennek halljuk, mint a környezetünk. Miért? A saját hangunk nem csak a levegőben terjedve jut el a fülünkbe, mert a koponyacsontok rezgése is továbbítja azt. légvezetéses hallás: a hanghullámokat a levegőben terjedve a külső fülbe (fülkagylóba) jutnak. csontvezetéses hallás: a hanghullámokat a koponyacsontok rezgése a belsőfülbe vezeti.
Fizikai jellemző Érzeti vetület Hangnyomás [Pa] vagy intenzitás [W/m 2 ] Hangosság: hangnyomásszint [db] (Alap)frekvencia [Hz] Hangmagasság [Bark] Spektrum Hangszín és hangszínezet Időtartam [ms] Hosszúság ( részben ennek az eredménye nyelvi hosszúság!)
1. Hangosságérzet: hangnyomásszint (db-skála) A hangnyomás (Pa) hallási megfelelője a hangnyomásszint (SPL) Mértékegysége: db A hangnyomás és a hangosságérzet között logaritmikus a kapcsolat kétszer akkora nyomás kétszeres hangosság! Sugárhajtómű (140 db) Társalgás (60 db) 10.000-szeres hangnyomás-növekedés kétszeres hangosságnövekmény Threshold: 1000 Hz-en 20 µpa = 0 db
Ráadásul a valódi hangosságérzet frekvenciafüggő (phon) Hangosságérzet és frekvencia Hallásküszöb: egy 1000 Hz frekvenciájú tiszta hang 0 db-en Phon: azonos hangosságúnak érzékelt hangok változó arányok! (pl. a 40 phon nem kétszer olyan hangos mint 20 phon)
2. Hangmagasság-élmény Hangmagasságérzet és frekvencia összefüggése Nem lineáris kapcsolat! 20 1000 Hz-ig nagyjából lineáris Felette nagyjából logaritmikus MIÉRT? Fizikai hangmagasság (Hz)
Az alaphártya frekvenciaérzékenysége Különböző frekvenciákra különböző helyeken reagál. A különböző frekvenciasávokra különböző méretű részek érzékenyek az alaphártyán magasabb frekvenciákon nem olyan jó a hallás felbontása.
Frekvenciaérzékenység és beszéd Emberi hallásküszöb: 20-20,000 Hz A fül 500 és 5,000 Hz között a legérzékenyebb Az emberi hang alapfrekvenciája Átlagos férfi: 80 200 Hz Átlagos női: 400 Hz-ig A telefon problémája: Levág 300 Hz alatt és ~3000 Hz fölött Az információ egy része elvész (frikatívák, f0 beszélő személy, dallam, pl. kérdés v. kijelentés?) Hogyhogy felismerjük a beszélőt és értjük a beszédet?
Komplex hangok alaphangmagassága Még akkor is halljuk az alaphangot, ha az valójában nem szólal meg (azaz a frekvenciáján nincs energia a spektrumban), mert az elménk képes kikövetkeztetni a felharmonikusokból a hiányzó alaphang problémája. Tiszta hangok: 1-10 felharmonikus: 4-10 felharmonikus: https://auditoryneuroscience. com/topics/missingfundamental
A hiányzó alaphang Mindennapi kihasználása: Telefon (férfi f0: 100 160 Hz, nő: 160 280 Hz, telefon átvitele: 300-30000 Hz) 55 Hz-es orgonasíp nincs, csak egy 110 Hz-es és egy 165 Hz-es és ha a kettő egyszerre szól
Beszédészlelés
A beszédfeldolgozás leegyszerűsített sémája BESZÉDMEGÉRTÉS Nyelvi (szintaktikai, lexikai, pragmatikai) feldolgozás BESZÉDÉSZLELÉS Nyelvi egységek (fonéma, szótag, szó) elérése HALLÁS Jelátalakítás
A beszédfeldolgozás leegyszerűsített sémája BESZÉDMEGÉRTÉS Nyelvi (szintaktikai, lexikai, pragmatikai) feldolgozás Hallás beszédészlelés!!! BESZÉDÉSZLELÉS Nyelvi egységek (fonéma, szótag, szó) elérése HALLÁS Jelátalakítás
A beszédészlelés/beszédpercepció A nyelvi tudás és a nyelvi megértés folyamatai KIMENET: A nyelvi egységek aktiválása/ előhívása (legnagyobb egység: fonémák/szavak) Top-down: A nyelvi ismeretek hatása HALLÁSI és LÁTÁSI ÉSZLELÉS BEMENET: Artikulációs és akusztikai információ, azaz fonetikai információ Bottom-up: A bemeneti ingerek elemzése
A beszédészlelés/beszédpercepció nagy kérdései Az akusztikai jel és a nyelvi észlelés összefüggései. Hogyan válik nyelvi információvá az akusztikai jel? /kaːr/
Szükséges háttérismeretek Beszédprodukció Mi és hogyan hat a beszéd megvalósulására? A percepció megértéséhez szükséges ismernünk az artikulációs működéseket A percepció megértéséhez szükséges ismernünk a beszéd akusztikai szerkezetét Hallási észlelés: A percepció megértéséhez szükséges ismernünk a hallórendszert és a hallási folyamatok működését Beszédpercepció specifikus folyamat + alapvető kognitív folyamat (memória, figyelem, kategorizáció) egyben
A beszédpercepció nagy kérdései Egységek és reprezentáció Mik az észlelés alapegységei? Mit tárol az agy? Szegmentálás A beszéd folyamatos jel ( beszédfolyam ), mégis a hallgatók diszkrét egységekként (beszédhangok/szótagok/szavak sorozataként) észlelik. Hogyan zajlik a tagolás? Variabilitás A beszédjel nagyon változékony! Hogyan ismerhetők fel a nyelvi egységek (fonémák)? A variabilitás forrásai pl.: koartikuláció, beszélő (nem, életkor, stb.), beszédtempó, idiolektus, regiszterek (kisgyermekhez beszélés, informális beszélgetés stb.), környezeti hatások (zaj, további beszélők)
Szegmentálás: szóhatárok és szünetek? És ebben? minden beszédhang zöngés! Hol vannak a szóhatárok a mondatban? Láttam a nyaralásodról készült képeket a fészbukon. idő idő A folyamatos beszédben akkor vannak jelkimaradások, ha levegőt veszünk, szándékosan szünetet akarunk tartani, gondolkodunk, illetve akkor, ha zárhangokat ejtünk (zárat képzünk). A beszédjelben nincs szükségszerűen minden szó, sem minden mondat után szünet!!!
A beszédhangok felismerése HAT /h/ Hangszínkép = spektrum HÉT /h/
HAT HÉT A beszédhangok felismerése Beszédészlelési elméletek egy fontos alapfeltételezése: /h/ /h/ Hangszínkép = spektrum A változatosság ellenére jelen van valami állandó, invariáns! De valójában ez csak a korábbi elméletekre igaz pl. exemplar theory: nincs invariancia!
Akusztikus kulcsok Akusztikus kulcs: olyan akusztikus (azaz fonetikai) információ, amely a fonológiai kategóriák (fonémák) valamely megkülönböztető jegyét az észlelés számára kódolja. Számos (a legelterjedtebb?) beszédészlelési elmélet(ek) azt feltételezi(k), hogy az akusztikus kulcsokban van valami változatlan, invariáns, és a beszédészlelés ezeket azonosítja. Más elméletek ugyanezt az invarianciát az artikulációban (motoros elmélet) vagy magában a hallgatóban (pl. Lindblom H&H elmélete) keresik/feltételezik. Ismét más elméletek egyáltalán nem feltételeznek invarianciát (példányelmélet).
Akusztikus kulcsok Magánhangzók: a formánsok frekvenciaértéke kódolja a magánhangzó-minőséget. Példa: nyelvi kategória akusztikus kulcs elöl képzett magas F2 frekvencia Láttuk, a formánsok frekvenciája nem állandó, de formánsok viszonya egymáshoz már sokkal inkább (pl. elöl képzettek: nagyobb F2-F1 távolság). Mássalhangzók: bonyolultabb helyzet, mert képzésmódonként változó artikulációs és akusztikus tulajdonságaik vannak Példa: nyelvi kategória akusztikus kulcs zöngésség zöngekezdési idő (VOT)
Akusztikus kulcsok Valójában az észlelés minden bizonnyal nem ilyen elszigetelt paraméterekre támaszkodik. Amit tudományosan (kísérletekkel) bizonyítani lehet az csak az, hogy ezek az információk elégségesek lehetnek bizonyos nyelvi tulajdonságok kódolásához. Azt, hogy feltétlenül szükségesek is, illetve, hogy az észlelés valóban ezek alapján ismerné fel az adott tulajdonságokat, nem.
Ráadásul: a környezeti hatások elfedik a beszédjelet Csendben, zajban, telefonon, több ember beszélgetésével a háttérben is észleljük a beszédet. 1. Hogyan különböztetjük meg a beszédet a zajtól? Mesterségesen nem triviális! A digitális zajszűrés komoly kihívás (és általában minőségromláshoz vezet). 2. Hogyan különböztetjük meg a különböző beszédhangokat egymástól, azaz hogyan halljuk ki a megfelelő beszélőt? koktélparti effektus A mesterséges beszédfelismerésben az egyik legnehezebb feladat (az egyszerre beszéléseket kidobják az adatbázisból, beszédtechnológiai célokra nem használható).
A koktélparti jelenség Egy zajos teremben képesek vagyunk kiemelni annak a beszédét, akivel épp társalgunk. Miért? Szelektív hallás: az a perceptuális, auditív folyamat, amely alapján kiválasztjuk, mely ingereket ismerjük fel, és melyeket nem. Hogyan működik? Hanglokalizáció: a hangforrás térbeli elhelyezésének képessége. Mindkét fül kell hozzá az irányok feldolgozása miatt. Binaurális felfedés: egy zaj csak akkor nyom el egy hangot, ha ugyanolyan hangforrásúnak azonosítjuk (pl. mindkettő ugyanabba a fülbe érkezik). Miután felismertük és lokalizáltunk egy hangforrást (= beszélő), képesek vagyunk azt kivonni a zavaró (másik) hangból (= környezet), mert a kettő máshonnan érkezik. Vajon miért nem értjük a beszélgetőtársunkat a telefonban akkor, amikor elsuhan mellette egy mentőautó (és ez miért nem ilyen zavaró élőben)?
Multimodális észlelés: a McGurk effektus https://www.youtube.com/watch?v=pwgeuzttkra
McGurk effektus Multimodális percepció Vizuális: /b/ + auditoros: /b/ = percepció /b/ Vizuális: /d/?/g/? + auditoros: /b/ = percepció /d/ Vizuális: /f/ + auditoros: /b/ = percepció /v/ Az észlelt fonéma a vizuális és auditoros információk kombinációja! Még ép hallás esetén is olvasunk szájról! Még akkoris, ha az auditoros információ egyébként nem félreérthető Segít ha akcentusos beszédet észlelünk, ha zajban észlelünk, vagy szemantikailag nehezen feldolgozható tartalmat észlelünk
Felülről ható (top-down) folyamatok az észlelésben 1. Az anyanyelv hatással van az észlelt kontrasztokra, példák: Japán: /l/ /r/ csak allofón a japán anyanyelvűeknek megkülönböztetési képessége alacsonyabb Kínai: /b/ /p/ csak allofón (zöngésségi kontraszt: [p] - [p h ]) a kínai anyanyelvűeknek megkülönböztetési képessége alacsonyabb De! ezek gyakorolhatók, fejleszthetők (tanult sajátosságok!)
Felülről ható (top-down) folyamatok az észlelésben 2. A lexikai, szemantikai és grammatikai hatások. Lexikai hatások Fonémarestauráció Kevesebb hasonló alakú szomszéddal rendelkező szó egyszerűbb/gyorsabb felismerés (pl. sajt rajt vs. kér kár kór kör vér kar ) A gyakoribb szavakat egyszerűbb/gyorsabb felismerni (pl. mér vs. mór)
Felülről ható (top-down) folyamatok az észlelésben Szintaktikai hatások A szintaktikailag nem passzoló szavakat nem valószínűsítjük Szemantikai hatások A tematikusan nem passzoló szavakat nem valószínűsítjük
Következő órán ZH Fonetikus lejegyzés Szupraszegmentális szerkezet Hallás Beszédpercepció
A hallási észlelés helyettesítése: a cochleáris implantáció A siketek nagy részénél a probléma forrása a szőrsejtek nem megfelelő működése ezt pótolja az implantáció. Szőrsejtek: átalakítás mechanikus rezgésből idegi impulzus. Implantátum: vevő tekercs a koponyacsontba + elektróda a csigába (műtétileg). A külső, látható egységet elektromágnessel rögzítik a vevő tekercsre (a mágnesesség keresztülhatol a fejbőrön). Feladata a cochlea/csiga pótlása: a külső egység (audioprocesszor) felveszi és elektromos jellé alakítja a hangot, elektromos impulzusokat generál és ezekkel az elektróda ingerli a hallóideget. https://www.youtube.com/watch?v=zeg4qtnyopw
A cochleáris implantáció alkalmazása A beültetés feltétele, hogy ép legyen a hallóideg Mivel egy egy kompjúter helyettesíti a csigát, az elemzés eredménye teljesen más hozzá kell szokni és meg kell tanulni hallani vele! Szimuláció: Beszéd Normál hallás Az implantátummal hallott hang (8-channel vocoded speech) Zene https://auditoryneuroscience.com/prosthetics/noise_vocoded_speech https://auditoryneuroscience.com/?q=prosthetics/music