A beszédpercepció nagy kérdései: variabilitás Beszédpercepciós elméletek
A beszédfeldolgozás leegyszerűsített sémája BESZÉDMEGÉRTÉS Nyelvi (szintaktikai, lexikai, pragmatikai) feldolgozás BESZÉDÉSZLELÉS Nyelvi egységek (fonéma, szótag, szó) elérése HALLÁS Jelátalakítás
A beszédfeldolgozás leegyszerűsített sémája BESZÉDMEGÉRTÉS Nyelvi (szintaktikai, lexikai, pragmatikai) feldolgozás BESZÉDÉSZLELÉS Hallás beszédészlelés!!! Nyelvi egységek (fonéma, szótag, szó) elérése HALLÁS Jelátalakítás
A beszédészlelés vagy beszédpercepció A nyelvi tudás hatása és a nyelvi megértés folyamatai KIMENET: A nyelvi egységek aktiválása/ előhívása Top-down: A nyelvi ismeretek hatása HALLÁSI és ÉSZLELÉS LÁTÁSI BEMENET: Artikulációs és akusztikai információ, azaz fonetikai információ Bottom-up: A bemeneti ingerek elemzése
Bottom-up és top-down folyamatok feldolgozás
A beszédészlelés = beszédpercepció központi kérdése Az akusztikai jel és a nyelvi észlelés összefüggései. Hogyan válik nyelvi információvá az akusztikai jel? /kaːr/ Hagyományosan: hogyan azonosítjuk a fonémákat?
A beszédpercepció nagy kérdései Egységek és reprezentáció Mik az észlelés alapegységei? Szegmentálás A beszéd folyamatos jel ( beszédfolyam ), mégis a hallgatók diszkrét egységekként (beszédhangok/szótagok/szavak sorozataként) észlelik. hogyan? Variabilitás A beszédjel nagyon változékony! Beszélő, beszédtempó, idiolektus, kontextus (koartikuláció), regiszterek (beszéd, suttogás, éneklés stb.), környezet (zaj, további beszélők)
A beszédpercepció nagy kérdései Egységek és reprezentáció Mik az észlelés alapegységei? Szegmentálás A beszéd folyamatos jel ( beszédfolyam ), mégis a hallgatók diszkrét egységekként (beszédhangok/szótagok/szavak sorozataként) észlelik. hogyan? Variabilitás A beszédjel nagyon változékony! Beszélő, beszédtempó, idiolektus, kontextus (koartikuláció), regiszterek (beszéd, suttogás, éneklés stb.), környezet (zaj, további beszélők)
A variabilitás (variancia) forrásai 1. Kontextus koartikuláció. 2. A beszélők 1. Eltérő fiziológiai adottságok. 2. Eltérő idiolektus/dialektus. 3. Eltérő artikulációs tempó (beszélőn belül is). 4. Környezeti hatások.
1. Koartikuláció: első példa mássalhangzók Feltevés: a zárhangok képzéshelyét kódolja (kulcs!) a CV átmenetben lévő F2-mozgás. Gond: az átmenet függ a V minőségétől. Kérdés: Mi az, ami miatt egy fonéma számos megvalósulása ugyanahhoz a fonémához kötődik (ami miatt megkülönbözethető más fonémák megvalósulásaitól). Megoldás: Invariancia! Lokuszfrekvenciák (?) Lokusz: a felpattanó mássalhangzó mellett álló V formánsai egy bizonyos pont (frekvencia) felé tartanak.
1. Koartikuláció: második példa mássalhangzók Megfigyelés 1: a /h/ szerkezete más veláris és palatális V-k előtt (nyelvhelyzet! ajakartikuláció!) átveszi a formánsokat. Megfigyelés 2 : a szóban ugyanúgy, de izoláltan másként hangzik. Kérdés: Mi az, ami miatt egy fonéma számos megvalósulása ugyanahhoz a fonémához kötődik? (+ hogyan szegmentálhatók a beszédhangok, ha átfedésben ejtjük őket?) Megoldás: Invariancia!? De talán nem is az akusztikai jelben van? HERENDI HÚS
2. Beszélők első példa fiziológia A toldalékcső hossza befolyásolja a formánsok frekvenciáit eltérő hangszín, hangszínezet. A gége mérete (hangszalagok hossza) befolyásolja az alapfrekvenciát hangmagasság eltér az f0 és a F-ok viszonya Hogyan észlelhetők mégis ugyanúgy? Megoldás: Invariancia! pl. a F értékek és f0 egymáshoz viszonyított (tonotópiás) viszonya (érzeti transzformáció) (?) Hangszínkép = spektrogram http://www.phon.ucl.ac.uk/courses/spsci/ish/isslect7.pdf
2. Beszélők : második példa egyéni beszédjellemzők Dialektusok/idiolektusok eltérő akusztikai szerkezetű megvalósulás, mégis ugyanazon fonémaként azonosítás. Variábilis megvalósítás a beszéd gondozottságában: alulartikulált állásinterjún túlartikulált informális helyzetben (sörözés) kisgyerekhez nagymamához
3. Artikulációs tempó Különböző artikulációs tempó különböző időtartamú hangzók, szótagok. Egy adott beszélő is gyorsít és lassít (pl. megnyilatkozás-végi lassítás és magánhangzónyújtás) Bizonyos fonémákat (részben vagy egészben) az időtartamuk különböztet meg: Rövid hosszú Ck: tolat tollat Frikítva affrikáta Ck: chop shop Zngés zgtlen Ck: had hat
3. Artikulációs tempó A ejtés gondozottságának mértéke is változik gyorsabb tempó célalulmúlás. Megoldás? Annak feltételezése, hogy a hallgató alkalmazkodik a beszélő beszédjellemzőihez (tempó, fiziológia stb.) beszélőnormalizálás: konstanciák! analóg azzal, ahogyan a látásunk kalkulál a perspektívával és az abból fakadó méretbeli különbségekkel. Feltehetjük, hogy bizonyos jellemzőket nyerünk ki a beszédészleléskor a beszélőről ( kapaszkodó, referencia) invariancia a beszélőben: percepciós konstancia.
4. Környezeti hatások Csendben, zajban, telefonon, több ember beszélgetésével a háttérben is észleljük a beszédet. 1. Hogyan különböztetjük meg a beszédet a zajtól? Mesterségesen nem triviális! A digitális zajszűrés komoly kihívás (és általában minőségromláshoz vezet). 2. Hogyan különböztetjük meg a különböző beszédhangokat egymástól (hogyan halljuk ki a megfelelő beszélőt koktélparti effektus )? A mesterséges beszédfelismerésben az egyik legnehezebb feladat (az egyszerre beszéléseket kidobják az adatbázisból, nem használható). Megoldás: szelektív figyelem és a hangforrás lokalizációja (binaurális felfedés).
Az invariancia feltételezése A nagy fokú variancia ellenére úgy tűnik, mintha ugyanazokat a beszédhangokat észlelnénk hiszen képesek vagyunk egy-egy fonéma azonosítására. Emiatt (gazdaságosnak tűnik, ezért) feltételezzük, hogy mégiscsak van valami invariancia a varianciában. A fonéma realitásának és variancia létének bizonyítékai vezetnek oda, hogy a percepciós elméletek a fonémát kódoló invariancia keresésének irányába menjenek. Észlelési elméletek alapvető eltérése: miben feltételezi az invarianciát.
Az invariancia feltételezése Egy lehetséges csoportosítás és példák (részben Lindblom 1991 alapján): 1. Invariancia az artikulációban Motoros elmélet (invariancia a reprezentációban, ami motoros információ!) 2. Invariancia akusztikai jelben Kvantális elmélet 3. Invariancia a beszélőben H&H (hyper and hypospeech) +1. Nincs invariancia TRACE Példányelmélet
Invariáns jellemzők az akusztikai jelben: akusztikus kulcsok Akusztikus kulcs: olyan akusztikus (azaz fonetikai) információ, amely a fonológiai kategóriák (fonémák) valamely megkülönböztető jegyét az észlelés számára kódolja. Azt feltételezzük, hogy az akusztikus kulcsokban van valami változatlan, invariáns. Repp 1982: 89: A cue, then, is a portion of the signal that can be isolated visually, that can be manipulated independently in a speech synthesizer constructed for that purpose, and that can be shown to have some perceptual effect.
Akusztikus kulcsok példák Magánhangzók: a formánsok frekvenciaértéke kódolja a magánhangzóminőséget. Példa: nyelvi kategória akusztikus kulcs elöl képzett magas F2 frekvencia Tudjuk, hogy a formánsok frekvenciája nem állandó Viszont azt is tudjuk, hogy formánsok viszonya egymáshoz már sokkal inkább (pl. elöl képzettek: nagyobb F2-F1 távolság). Mássalhangzók: bonyolultabb helyzet, mert képzésmódonként változó artikulációs és akusztikus tulajdonságaik vannak Példa: nyelvi kategória akusztikus kulcs zöngésség zöngekezdési idő (VOT) (ez artikulációsan komplex!)
Akusztikus kulcs: szükséges vagy elégséges? Akusztikus kulcsok olyan akusztikus információk, amely a fonetikai kategóriák valamely megkülönböztető jegyét az észlelés számára kulcsolja (pl. F2 elöl képzett V) Ezek elégségesek csak, nem szükségesek! Példa: cocheláris implantáció a beszédet zaj reprezentálja (különböző frekvenciasávokban) Szimuláció: Normál hallás Az implantátummal hallott (8-channel vocoded speech) Beszéd Zene https://auditoryneuroscience.com/?q=prosthetics/music https://auditoryneuroscience.com/prosthetics/noise_vocoded_speech
Plusz csavar: multimodális percepció (McGurk) Az észlelt fonéma a vizuális és auditoros információk kombinációja! Még ép hallás esetén is olvasunk szájról! Még akkoris, ha az auditoros információ egyébként nem félreérthető Ezt hogyan implementáljuk az észlelési elméletekbe?
Percepciós modellek
A beszédpercepció néhány modellje Egy lehetséges csoportosítás és példák (részben Lindblom 1991 alapján): 1. Invariancia az artikulációban Motoros elmélet (invariancia a reprezentációban, ami motoros információ!) 2. Invariancia akusztikai jelben Kvantális elmélet 3. Invariancia a beszélőben H&H (hyper and hypospeech) +1. Nincs invariancia TRACE Példányelmélet
Motoros elmélet Liberman és Mattingly; Haskins Laboratories A percepció a beszédprodukcióhoz kötődik. Az észlelés során a hangokat létrehozó artikulációs gesztust létrehozó parancsra, későbbi változat szerint a szándékolt gesztusra következtetünk (ezt észleljük és ezt reprezentáljuk): Art. gesztus 1 Art. gesztus 2 Analízis szintézissel ( legyártás, összevetés). (A következtetésbe belekalkuláljuk a módosító okokat, pl. koartikulációt)
Motoros elmélet Központi folyamata: analízis szintézissel: Az auditív mintázatokat vagy (distinktív) jegyeket nyelvfüggő reprezentációknak (a gesztus mögötti parancs és fonéma one-to-one reprezentációban!) feleltetjük meg. 1. Generálunk (szintetizálunk) egy, az auditív bemeneti egységnek (hang, jegy, stb.) megfelelő auditoros mintázatot ehhez aktiváljuk a motoros funkciókat, 2. Összevetjük a szintetizált mintát a bemenettel, 3. Az eltérést tekintetbe véve korrigáljuk a szintetizált mintát ismét motoros segítséggel, 4. Ez a folyamat folytatódik (iteráció), míg a legjobb illeszkedést kapjuk.
Motoros elmélet Az akusztikai jel lehet variábilis, de a reprezentáció, azaz az a motoros parancs, vagy később a szándékolt artikulációs gesztus ami létrehozza azt a jelet, invariáns és ezt észleljük. Magában hordozza a feltételezést, hogy a beszédpercepció elkülönül a többi hallási percepciós folyamattól!!! moduláris felfogás: a beszédészlelésért külön nyelvészlelő modul felel.
Motoros elmélet Központi elemei: 1. Analízis szintézissel a percepció iteratív, melyben az artikulációnak is szerepe van. 2. A beszédpercepció elkülönült modul csak a beszéd észlelése a szerepe. 3. Az invariancia nem az akusztikai jelben, hanem a beszélőben van (a motoros működések révén). 4. Alapegység: szándékolt artikulációs gesztus (korábbi: art. gesztust) létrehozó motoros parancs (nem feltétlenül vannak szegmensek!) Nagy pro: jól magyarázza a koartikulációt!
Érvek, eredmények és az elmélet kritikája 1. Eredmény: a percepció kategorikussága Pro: a hallgatók tényleg csak azoknak a kontrasztoknak az észlelésére képesek, amiket produkálni is tudnak (vö. pl. japán /l/ - / r/, kínai /b/ - /p/) Kontra: a motoros elmélet nem magyarázza, hogy hogyan lehetséges, hogy a beszédészlelés mindig előrébb jár a nyelvelsajátításban, mint a beszédprodukció! (fis-jelenség) Ráadásul a kategórián belüli észlelési érzékenység (lásd Lindblom kateg. perc. kísérlete) tanulással fokozható.
Érvek, eredmények és az elmélet kritikája 2. Eredmény: audio-vizuális integráció (l. McGurk effektus) Pro: a fonetikai információ mindenféle észlelési forrásból integrálódik az elkülönült modul elméletet támogatja + feltételezés: a vizuális észlelés a gesztust detektálja Kontra: a McGurk effect elérhető nem nyelvi ingerekkel is (pl. pattogó gumilabda és pingponglabda, Mongillo et al, 2008) nem áll meg a beszédészlelő modul elmélet hányszor villant fel a kör? https://www.youtube.com/watch?v=d3z1cxa2tp0
Érvek, eredmények és az elmélet kritikája 3. Tükörneuronok: a cselekvés megfigyelése közben motoros kérgi aktiváció az agyban (kapcsolat az észlelés és a produkció között!) Pro: ha arra következtetünk, hogy úgy észlelünk, hogy aktiválódik a produkciós terület Kontra: a korreláció nem oksági összefüggés!!! medencében megfulladt emberek száma és Nicolas Cage filmjeinek száma 1999-2009 között
Direkt realizmus (Fowler) A motoros elmélet továbbfejlesztett változata A percepció a jeltől az észleletig egy lépés (nem interatív!) Az észlelet az a gesztus, ami létrehozta a jelet (nem pedig a gesztust létrehozó motoros parancs vagy a szándékolt gesztus mint a motoros elméletben) A beszédészlelésért nem külön modul felelős! Kritika: Ua. mint a motoros elméletnél Sokak szerint túlságosan leegyszerűsítő (mert a percepció komplexebb) az az egy lépés nem túl kidolgozott A direktségnek ellentmond, hogy az akusztikumból nem következtethetünk egyértelműen az artikulációra (szürjektív leképezés)
http://haskinslabs.org/research/features-and-demos/gestural-model Artikulációs fonológia Browman & Goldstein, 1990 A motoros elméleten alapuló produkciós elmélet: gestural scores Példák: a fonológiai kontraszt mint artikulációs gesztusok lecserélése
Artikulációs fonológia fonológiai folyamatok leírása Good boy Perfect memory
Liberman et al 1957 Kvantális elmélet & LAFF Kenneth N. Stevens, MIT A (de)kódolás auditoros Kvantális elmélet 2 összefüggése: 1. Az artikuláció és akusztikum összefüggései ugrásszerűek (nem lineársiak). 2. Folyamatos akusztikai jel percepciós kategóriák Pl. /b-d-g/ lokuszai itt is éles, ugrásszerű határok.
Kvantális elmélet & LAFF (lexical access from features) LAFF (szóelérés jegyekből) (Stevens): Kvantális elméleten alapszik Észlelés alapegysége nem a fonéma, hanem bináris distinktív jegyek (feature) a feldolgozás akusztikus landmarkokon (maximális és minimális akusztikus változásokon) alapszik (3 típusa: vokalikus, glide, mássalhangzós) a feldolgozás a distinktív jegyeken alapszik a feldolgozás fázisokból áll (transzformációk és köztes reprezentációk): akusztikus kulcs fonológiai jegy fonéma szó (lexikonból aktiválva)
Kvantális elmélet & LAFF Pro: kézzelfoghatók az egységek vegyük észre pl. hogy Stevensnek köszönhetjük a formánsfrekvenciák és elöl-hátulképzettség [front] illetve nyelvállásfok ([high]) összefüggéseinek részletes leírását! Kontra: ezt szinte csak szintetizált anyagon vizsgálták (és csak azzal lehet vizsgálni, mert nagyon jól kell kontrollálni a kísérletet) OK, hogy így lehet észlelni, de biztosan így is észlelünk? A percepció néha inkább az artikulációt tükrözi, nem az akusztikumot:
Kvantális elmélet & LAFF Amikor a V-minőségét a formánsfrekvenciákban keressük (pl, elöl képzett magas F2) És ezekben (pl, ezek közelségében) keressük az észlelés kulcsait (lásd majd pl, Chistovich és Lublinskaja a V- észlelésben) Gyakorlatilag a kvantális elmélet keretei között mozgunk!
H&H (Lindblom 1990) alulartikulált HYPOSPEECH informális helyzetben (sörözés) állásinterjún túlartikulált HYPERSPEECH kisgyerekhez nagymamához A beszélő ezen a skálán valahol valósítja meg a beszédet a beszélgetőpartner és a kontextus függvényében. (pl. külföldi, gyerek csend, zaj fonológiai szomszédok száma szógyakoriság) Két ellenerő egyensúlya: 1. a gazdaságosság ( ne erőlködjünk fölöslegesen alulartikuláció felé: maximális átfedés és redukció); motoros működések állnak mögötte, és 2. a kommunikatív kontraszt (pl. maximalizált fonológiai kontrasztok túlartikuláció felé); a kommunikáció szándéka (mennyire könnyű a másiknak dekódolni?) áll mögötte. Az invariancia a reprezentáció tulajdonsága.
/d/ /b/ /g/ /d/ /g/ /b/ Lindblom (1963): Bizonyíték az akusztikai cél alulmúlására (vö. Farnetani 1997) Rövidebb Vk a mássalhangzók képzési helye szerint alakuló formánsok (steady state közepe!) Hosszabb Vk a Vra jellemző akusztikai cél elérése (és kisebb variabilitás)
H&H (Lindblom 1990) Kontraszt kiemelt jelentősége ha az érthetőség akadályoztatott, fokozás, Tipikusan ide sorolt kontrasztok pl: akusztikus V tér, időtartamszembenállás (fonológiailag rövid-hosszú párok) erősítése Klasszikusan hyperspeechnek tartott műfajok: Clear speech? Lombard speech (Etienne Lombard 1911 nyomán) érthetőség akadályoztatásakor (pl. külföldivel ordibálás, zajban ordibálás) Motherese vagy IDS (infant directed speech), azaz dajkanyelv Érdekes: sokszor a kontraszt hiányát találjuk ezekben (pl. motherese-ben)! Vajon miért? Néhány lehetőség Nem történik kontraszterősítés Nem az az igazi kontraszt, amit én vizsgálok (vagyis amit annak hiszek)
Példányelmélet Nosofsky 1986, Goldinger 1997, Johnson 1997, Pierrehumbert 2002 A beszélőre és a beszédhangokra vonatkozó információkat párhuzamosan nyerjük ki, átfedő akusztikus kulcsokból. A kulcsokat példányalapú (nem prototípusalapú) emlékreprezentációkra mappeljük, ami részletgazdag ez a redundáns információ is tárolt és felhasznált a felismerésben. Nincs szükség az invariancia feltételezésére.
Példányelmélet A bemenetet a tárolt elemekkel vetjük össze A tárolt elemek a hasonlóság mértéke szerint aktiválódnak a kategorizációt (felismerés) az aktiváció szintje határozza meg.
Példányelmélet Az elméletből következő predikciók és kísérleti eredmények (Pisoni, Nygard et al.): Prototípus helyett példányalapú klasszifikáció. Ismerős beszélők által ejtett fonémákat, szavakat könnyebb felismerni. Memóriafeladatokban is látszódik a reprezentáció részletgazdagsága: kísérletek támasztják alá, hogy a megszokott beszélő hangján gyorsabb a szófelismerés, még ha új szavakról is van szó (Goldinger 1996) szavak/fonémák felismerésében (vagy a visszaidézésben) rosszabb a teljesítmény, ha nem egy beszélő van, hanem több, vegyesen. Következtetés: a beszélő hangja és a beszédhangok nem külön reprezentáltak.
Példányelmélet Pro: A beszélőből és beszédhang-kontextusból fakadó variabilitás hatásait is magyarázza. Kontra: falszifikálhatatlan (nem lehet bebizonyítani, hogy nem igaz).
A TRACE előtt (a TRACE előzménye): Kohort modell (Marslen Wilson és mtsai.) Egy szó kezdete hasonló kezdetű szavakat aktivál jegeskávét /j/ /je/ /jeg/ jutalmat jeget jegeskávét jegyet jeget jegeskávét jegyet jeget jegeskávét /jege/ jeget jegeskávét /jeges / jegeskávét Aktivált lexikai egységek az idő (és elhangzott fonémák) függvényében az aktivált szavak száma bottom-up (a szóelhangzás) ill, top-down folyamatok (pl. kontextus) hatására csökken (pl.: a moziban megvette a jegeskávét), míg a szám eléri az egyet.
Kohort modell (Marslen Wilson és mtsai.) Problémák: Integrálni kell a kontextuális információt. Zajban nem mindig halljuk egy szó kezdetét, de tapasztaljuk, hogy a szóvég is elég (lehet) a felismeréshez), pl. Vettem tegnap kettő **tyát. A folyamatos beszédben nincsenek tiszta morféma (vagy szó)határok. Ez esetben honnan tudjuk, honnan kezdődik a szó? pl. hatalmasok Csak a szó eleji egyezések aktiválják a hasonló lexikai egységeket? Norris (1994) megmutatta, hogy rímelő szavak is aktiválják egymást. Egyéb asszociációk is vannak, pl.: glass beaker bug beetle
TRACE modell (McClelland és mtsai.) Tapasztalat: nemcsak a szó eleji, hanem a szóvégi egyezések (rím) is aktiválnak hasonló elemeket (lásd zaj *tyát). Ezt inkorporálni kell, azaz lazítani kell a modellben a szigorú szekvencialitást TRACE modell. Predikció: ha a modell az idői tényezőt is figyelembe veszi, akkor bár van aktiváció a rímre is, de a szó eleji egyezés a hasonló elemek nagyobb aktivációját váltja ki, mint a szóvégi egyezés: beaker beetle speaker A rím aktiváló erejét kísérletesen is vizsgálni kell.
A TRACE modell tesztelése szemmozgáskövetéssel: Allopenna és mtsai (1998) beaker (cél) speaker (rím) carriage (disztraktor) beetle (kohort) Pick up the beaker and put it above the Hipotézis: i. Ha a kohort is aktiválódik, akkor a célkép hallatán a kohortra is fognak nézni a k. sz.-ek. ii. Ha a rím is aktiválódik, akkor a célkép hallatán a rímre is fognak nézni a k. sz.-ek.
A fixációk számának aránya (%) A TRACE modell tesztelése szemmozgáskövetéssel: Allopenna és mtsai (1998) Pick up the beaker and put it above the szó idő (ms) Az eredmények alátámasztják a hipotézist: i. A kohort is aktiválódik, hiszen arra is esnek nézések. ii. iii. A rím is aktiválódik, hiszen arra is esnek nézések. A kohort aktivációja nagyobb, mint a rímé. A szóelőhívás vizsgált tulajdonságait jól modellezi a TRACE modell. A szóelőhívás során végbemennek top down folyamatok is.
A TRACE modell Konnekcionista (azaz háló)modell (a prototipusrendszerhez hasonló) Három összekötött detektorhalmaz, ami különböző méretű egységeket monitoroz: Jegydetektorok Fonémadetektorok (pl. /d/-detektor) Szódetektorok. A bemenetet az észlelés időszeletekre bontja, és szekvenciálisan dolgozza fel. Bemeneti elem, pl. szókezdő hangok aktiválják a nekik megfelelő lexikai egységeket, nem egyezés esetén módosítják ezek aktivációját (aktiváció gátlás).
A percepció és produkció összefüggései (ism.) Audiovizuális (multimodális) észlelés a vizualitás felülírja (sőt dominálja) az észlelést (McGurk-McDonald 1976) amit észlelünk, nem független a motoros működéseinktől! Fonetikai konvergálás (adaptáció) a beszélők között (pl. map task intonációs adaptációra utaló eredmények) (Gregory-Webster 1996) Lombard speech (zaj hatása) és egyéb percepció- vezérelte produkciós adaptációs folyamatok (V minőség módosítása real-time, fülhallgatóban visszajátszva) hyperspeech mint a hallgatói észlelés észlelt akadályoztatottságának exageráló hatása amit hallunk befolyással van a produkciónkra!