Általános pszichológia Észlelés és figyelem Csépe, Valéria Győri, Miklós Ragó, Anett

Átírás

1 Általános pszichológia Észlelés és figyelem Csépe, Valéria Győri, Miklós Ragó, Anett

2 Általános pszichológia Észlelés és figyelem írta Csépe, Valéria, Győri, Miklós, és Ragó, Anett Publication date Szerzői jog Valéria, Csépe; Miklós, Győri; Anett, Ragó; Szerzők Kivonat A tankönyvsorozat a pszichológia BA szintjének alapozó kurzusához, az általános pszichológia megismerőfolyamatokkal foglalkozó három félévnyi anyagához szükséges "state of the art" ismereteket tartalmazza.

3 Tartalom Bevezetés... xii FEJEZET Érzékelés, észlelés, környezet Észlelés és valóság Észleléselméletek 1970 előtt Közvetlen észlelés: Hermann von Helmholtz Tükrözéselmélet: Kardos Lajos Kontextus és észlelési többlet: Edward Bradford Titchener és William James Valószínűségi értékelés és percepció: Egon Brunswick Perceptuális készenlét: Jerome Bruner Az észlelés egészlegessége: az alaklélektan Észleléselméletek 1970 után Közvetlen észlelés ökológiai észleléselmélet Közvetett észlelés konstruktív észleléselméletek Az észlelés következtetéselmélete: Richard L. Gregory Perceptuális ciklus: Ulrich Neisser Az észlelés háromszintű elmélete: David Marr Észlelés és tudat Küszöb alatti észlelés Vaklátás Perceptuális elhárítás Hogyan tudhatunk meg még többet az észlelésről? Érzékelés és észlelés: az átalakítás folyamatai ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENŐRZŐ KÉRDÉSEK AJÁNLOTT OLVASMÁNYOK FEJEZET Pszichofizika Elmélet Skálatípusok Abszolút és különbségi küszöbök Érzetfüggvények A Fechner-elv és a Weber-Fechner-féle érzetfüggvények A küszöbök kiküszöbölése: a Stevens-féle érzetfüggvények Szignáldetekció A Thurstone-féle skálázás Többdimenziós skálázás Módszerek A pszichometriai függvények mérésére szolgáló klasszikus módszerek A konstans ingerek módszere A határok módszere A beigazítási módszer A klasszikus módszerek fejlődése Szubjektív beszámolón alapuló módszerek, illetve kötelező választás A tévesztések és a pszichometriai függvény határértékei Adaptív eljárások Pszichometriai és pszichofizikai függvények ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENŐRZŐ KÉRDÉSEK AJÁNLOTT OLVASMÁNYOK AJÁNLOTT HONLAPOK LÁTÁS FEJEZET A látás alapvető folyamatai A fénytől a retináig A fény iii

4 Általános pszichológia Észlelés és figyelem 1.2. A szem Szemizmok és szemmozgásirány A szemmozgások dinamikája A retina A fotoreceptorok A retinális kép A retinától a V1-ig Képfeldolgozás: a retinális receptív mezők A V1 architektúrája Irányulásszelektivitás A V1 további térképei Magnocelluláris és parvocelluláris rendszer Látni a fát is és az erdőt is: retinális és agykérgi feldolgozás több téri skálán ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENŐRZŐ KÉRDÉSEK AJÁNLOTT OLVASMÁNYOK FEJEZET Színlátás A színlátás háromszín-elméletének kialakulása Receptorok, színegyezés, színkeverés A színlátás receptorai és a színegyezés Fizikai színkeverés Az átlagtól eltérő színlátás: színtévesztés, illetve tetrakromázia A színek észlelése: az ellenszínelmélet A színek észlelésével kapcsolatos alapvető jelenségek Az ellenszínelmélet A kontrasztszínek problémája A részletes ellenszínelmélet Átfogó kritikák Kromatikus válaszfüggvények és a színlátás idegrendszeri alapjai Színkonstancia és színkontraszt ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENŐRZŐ KÉRDÉSEK AJÁNLOTT OLVASMÁNYOK AJÁNLOTT HONLAPOK FEJEZET Tárgyak, formák és alakok észlelése Alak- és tárgylátás A tárgy-alakzat és a háttér elkülönítése: perceptuális szegregáció Az alakzatokat alkotó körvonalak integrációja és a Gestalt-elmélet Hogyan játszanak szerepet a Gestalt-törvények a körvonalak integrációjában? Illuzórikus kontúrok A tárgylátás modelljei Strukturális felismerési modellek Képalapú modellek Látni tanulni: tanulás az alak- és tárgyészlelésben Kétértelmű képek Tárgyreprezentáció az agykéregben A ventrális vizuális rendszer V4 a színlátás agykérgi központja? Inferior temporális kéreg a tárgylátás központi területe Invarianciák az inferior temporális kéregben Az inferior temporális kéreg oszlopos elrendeződése Az emberi tárgyfeldolgozó rendszer Az emberi agykéreg kategóriaspecifikus területei Az agykérgi reprezentáció elméletei ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENŐRZŐ KÉRDÉSEK iv

5 Általános pszichológia Észlelés és figyelem 2.8. AJÁNLOTT OLVASMÁNYOK AJÁNLOTT HONLAPOK FEJEZET Tér- és mélységészlelés A távlat kulcsai Monokuláris (egyszemes) jelzőmozzanatok Binokuláris (kétszemes) jelzőmozzanatok A megtanult látás a látvány szabályai Nagyságkonstancia Alak-, hely- és mozgáskonstancia Szín- és világosságkonstancia Néhány elemi illúzió a szabályrendszer kivételei A kétszemes látás A Julesz-féle sztereopár ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENŐRZŐ KERDESEK AJÁNLOTT OLVASMÁNYOK AJÁNLOTT HONLAPOK FEJEZET Mozgásészlelés Hogyan keletkezik mozgás? A mozgásészlelés neurális alapjai Irányszelektív idegsejtek Lokális mozgások integrációja A szemmozgások szerepe A biológiai mozgás észlelése ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENŐRZŐ KÉRDÉSEK AJÁNLOTT OLVASMÁNYOK AJÁNLOTT HONLAPOK HALLÁS FEJEZET A hallás alapvető folyamatai A HANG A hang és környezete A hangok létrejötte A hanghullámok jellemzői hangerő és rezgésszám A hangerő A rezgésszám A hangok típusai A fül és a hallórendszer A fül felépítése A hangingerek kódolása Az alaphártya működésének elméletei Frekvenciaelmélet Helyelmélet A hallóideg Spontán aktivitás Frekvenciaszelektivitás A hallópálya és az agy hallóközpontjai ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENŐRZŐ KÉRDÉSEK AJÁNLOTT OLVASMÁNYOK AJÁNLOTT HONLAPOK FEJEZET Egyetlen hang észlelése a szubjektív hang A hangosság észlelése A hangosság észlelésének tartománya Az abszolút küszöb A hangerő közvetlen nagyságbecslése A hangossági szintek v

6 Általános pszichológia Észlelés és figyelem 1.2. A hangosság kódolása A hangosság észlelésének problémái Frekvenciaszelektivitás, zajelfedés és kritikus sávok A zajelfedés A kritikus sávok A hallási szűrök A frekvenciaszelektivitás eredete a hallóidegrostok hangolási görbéje A hangmagasság észlelése A hangmagasság skálázása A hangmagasság-észlelés elméletei A tiszta hangok hangmagassága A komplex hangok hangmagassága Alaphang és felharmonikusok Feldolgozott hangok A maradványhang A komplex hangok magasságának észlelését magyarázó elméletek A mintázatfelismerő modellek Az idői modellek Kísérleti bizonyítékok a két elmélet mellett Moore egyesített elmélete Hangszín ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENŐRZŐ KÉRDÉSEK AJÁNLOTT OLVASMÁNYOK FEJEZET A hallási objektumok észlelése hol és mi Hanglokalizáció A binaurális lokalizáció Az interaurális hangerőkülönbség Az interaurális időkülönbség A binaurális lokalizáció duplexelmélete A monaurális lokalizáció A binaurális lokalizáció speciális esetei A hallási és látási lokalizáció interakciója Elsőbbségi hatás Binaurális felfedés Hallási mintázatok és objektumok észlelése A hallási színtérelemzés A hallási láncok A hallási láncok szekvenciális szerveződése Az idő és a frekvencia szerepe a hallási láncok kialakulásában Figura-háttér hatás a láncra bomlásban Egyéb tényezők szerepe a hallási láncok kialakulásában A hallási láncok spektrális szerveződése Az idő és a frekvencia szerepe a spektrális szerveződésben Egyéb elvek a spektrális szerveződésben ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENŐRZŐ KÉRDÉSEK AJÁNLOTT OLVASMÁNY AJÁNLOTT HONLAP FEJEZET A beszéd észlelése A beszédhangok jellemzői A beszédhangok képzése A beszédhangok csoportosítása A magánhangzók A mássalhangzók A beszédhangok akusztikai jellemzői A beszédhangok észlelése A beszédhangok észlelésének lépései vi

7 Általános pszichológia Észlelés és figyelem A beszédhangok és a fonémák megfeleltetése Beszédkód és beszédmód Agyféltekei különbségek a beszédészlelésben A beszédhangok kategoriális észlelése A kategoriális észlelés kísérleti vizsgálata A kategoriális észlelés újabb eredményei A kategoriális észlelés magyarázata A percepciós bázis A fonéma mint elemi perceptuális egység A fonémarestaurációs hatás A fonémák azonosításának sebessége A magánhangzószekvencia-illúzió A beszédészlelés elméletei A motoros elmélet Megkülönböztető jegyek elmélete vonásdetekció a beszédészlelésben ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENŐRZŐ KÉRDÉSEK AJÁNLOTT OLVASMÁNYOK FEJEZET A zene észlelése A zene és a beszéd észlelése A ritmus észlelése A zenei ritmus észlelése A zenei hangmagasság észlelése A zenei intervallumok észlelése A zenei hangok szimultán szerveződése az akkord A zenei hangok szekvenciális szerveződése a dallam A zene tonális szerveződése Egyéni különbségek a zene észlelésében abszolút hallás, relatív hallás és dallamsüketség Abszolút és relatív hallás Dallamsüketség ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENORZO KÉRDÉSEK AJÁNLOTT OLVASMÁNY AZ ÉRZÉKELÉS MÁS DIMENZIÓI FEJEZET Testérzékelés és fájdalom Testérzés Börérzékelés A bör receptorai Érintés és kultúra Érintés és megismerés Mozgásérzékelés Szervérzékelés Nocicepció A fájdalomingerek továbbítása A fájdalom efferens módosítása A fájdalom leírása és kulturális vonatkozásai A fájdalom kialakulása, a fájdalmi reakciók A tartós és a krónikus fájdalom A fájdalom pszichés tényezői A nem nociceptív eredetű fájdalom ÖSSZEFOGLALÁS ELLENŐRZŐ KÉRDÉSEK AJÁNLOTT OLVASMÁNYOK FEJEZET Kémiai érzékelés Szaglás A szagingerek átalakítása Szagok és illatok Szaglás és viselkedés vii

8 Általános pszichológia Észlelés és figyelem 2. Ízérzékelés Az ízelés mechanizmusa Ízek Az ízek érzékelése Izek és szagok Ízlelés és viselkedés ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENŐRZŐ KÉRDÉSEK AJÁNLOTT OLVASMÁNYOK ÉSZLELÉS ÉS CSELEKVÉS FEJEZET A világ megértése: modalitások kölcsönhatása és a cselekvés Asszociáció és integráció az észlelésben Együttjárás és együtthatás Modalitásközi facilitáció Modalitásközi interakció Multiszenzoros integráció Integráció és szupramodális beszédpercepció Észlelés és cselekvés Fizikai környezet észlelés tudás Észlelés és a cselekvő ember ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENŐRZŐ KÉRDÉSEK FIGYELEM, ÉBRENLÉT, ALVÁS FEJEZET Figyelem: szelekció, téri figyelem A figyelem kutatásának története A laboratóriumi kísérletezés és a valóság Szelektív figyelem Korai vagy késői szelekció Szelekciós jelenségek a hallásban Figyelem és fixáció, implicit és explicit figyelmi váltás Gátlási folyamatok a figyelmi szelekcióban Interferencia és figyelmi szelekció Szelekció és terhelés A téri figyelem kiterjedése ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENŐRZŐ KÉRDÉSEK FEJEZET Figyelem: információfeldolgozás, teljesítmény A figyelem és a tárgyak Az információfeldolgozás folyamata A szakaszelmélet Folyamatos feldolgozás Automatikus és figyelmi folyamatok, a figyelem megosztása A figyelem önkéntelen váltása, orientáció Téri figyelem és szemmozgások A figyelem sötét oldala Figyelmi pislogás Fenntartott figyelem és aktiváció Vigilancia Éberség és teljesítmény ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENORZO KÉRDÉSEK FEJEZET Alvás és álom Érzékelés és észlelés alvás alatt Jelentőségspecifikus ingerfeldolgozás alvásban: képalkotó vizsgálatok Az alvás alatti ingerfeldolgozás mélysége: kiváltott válaszok Az alvás mint válogatás viii

9 Általános pszichológia Észlelés és figyelem 1.4. Mikroébredések az alvásfolyamatban Alvás és biológiai órák Homokóra-mechanizmus az alvásszabályozásban Napszakos alváshajlandóság: a cirkadián ritmus Az alvásciklusok és az ultradián ritmus A biológiai órák kölcsönhatása és az alvás Alvás, álmok, emlékezés Alvás és emlékezeti rögzülés Alvás és explicit memóriarögzülés Alvás és implicit memóriarögzülés Álmok és emlékezés ÖSSZEFOGLALÁS KULCSFOGALMAK ELLENŐRZŐ KÉRDÉSEK AJÁNLOTT OLVASMÁNYOK AJÁNLOTT HONLAPOK Glosszárium Hivatkozott irodalom ix

10 A táblázatok listája táblázat. Bruner észleléselméletének alappillérei táblázat. Az értelmező észlelés és a tudományos hipotézisvizsgálat összehasonlítása (Gregory 1973 nyomán) táblázat. A közvetlen és közvetett észlelés elméleteinek jellemző megállapításai táblázat. Az adekvát ingerek jellemzõi az egyes érzékleti modalitásokban táblázat. A szignáldetekciós helyzet lehetséges kimenetei táblázat. A szövegben említett három hipotetikus kísérleti személy adateloszlása. Az adatok is hipotetikusak; azt tételezzük föl, hogy 100 ingerbemutatásból 50 esetben volt jel, azaz különbség a bemutatott ingerpár tagjai között táblázat. Thurstone-féle skálázáshoz szükséges, páros választási valószínűségeket tartalmazó táblázat táblázat. Többdimenziós skálázás távolságmátrixa táblázat. A színegyezési függvények származtatása. Az oszlopok a monokromatikus tesztfényekhez tartozó három primerfény-intenzitást tartalmazzák. A táblázat soraiban lévő értékek képezik a három színegyezési függvényt, melyek egyszerű matematikai viszonyban állnak a csapok érzékenységi görbéivel. Pusztán szemléltetésként az első precízen kiszámolt színegyezési függvény néhány értékét írtuk a táblázatba táblázat. Az emberi hallórendszer által lefedett hangszinttartomány táblázat. A hangok típusai és jellemzőik táblázat. A magánhangzók csoportosítása (Gósy 2004 nyomán) táblázat. A mássalhangzók csoportosítása táblázat. A zene funkciói (Pap 2002 nyomán) x

11 Általános pszichológia Észlelés és figyelem táblázat. A bőr specializálódott érintési receptorainak jellemzői xi

12 Bevezetés Egy új tankönyvsorozat első kötetét tartja kezében az olvasó. Egy olyan tankönyvét, amely az általános pszichológia Észlelés és figyelem kurzusának alapvető ismereteit foglalja össze. Általános pszichológiának nevezzük, noha a benne foglalt tudásterületek különböző nevet viselnek. Nem új Hogyan nevezzelek? kérdése a pszichológiának az, hogy mi is fejezi ki leginkább mindannak a tudásnak az együttesét, amely az egészséges ember olyan megismerő funkcióival foglalkozik, mint az észlelés, a figyelem, az emlékezés, a tanulás, a nyelvhasználat, a gondolkodás, a tudat, illetve azokat a törvényszerűségeket írja le, amelyek segítségével megérthetők érzelmeink, cselekvésünk motívumai. Az elnevezések mögött felfedezhető a pszichológia egyik történeti jellegzetessége, a szakterületeknek a korszakokra jellemzően változó neve. A pszichológia nagy paradigmaváltásainak, különböző áramlatainak köszönhető, hogy egyre újabb és egyben árnyaltabb, a szakterületet jobban megjelölni kívánó vagy tudó elnevezések jelentek meg. Az általános pszichológiában ilyen a módszertani elkötelezettséget is jelölni kívánó kísérleti pszichológia, a fogalmak rendszerének és a tudományos gondolkodási módnak, vonatkoztatási kereteknek a hetvenes években forradalmian újnak számító aspektusait tükröző kognitív pszichológia, az elmúlt években magának külön helyet követelő, a tudományos megismerés tematikus fókuszát is nevében foglaló affektív pszichológia, illetve az ember biológiai és társas fejlődésmenetének szempontjait előtérbe helyező evolúciós pszichológia. Ma ezek mind együtt alkotnak egy összetartozó egészet, a klasszikus értelemben vett általános pszichológiát. Ezért viseli tankönyvsorozatunk, melynek első kötete az Észlelés és figyelem, ismét az általános pszichológia nevet. Általános pszichológiát mindig is tanultak a leendő pszichológusok. Mindig vegyes érzelmekkel viszonyultak hozzá, jóllehet legkésőbb a szakma gyakorlásakor rá kellett jönniük, hogy ezek az alapismeretek, bár sokszor szárazak, alapvetően fontosak. Ma sok olyan tankönyvnek készült vagy tankönyvként használt könyv érhető el magyar nyelven, amelyből a leendő viselkedéselemzők (a bolognai rendszerben pszichológia BA) és pszichológusok (a bolognai rendszerben pszichológia MA), illetve a pszichológia alapkérdései iránt érdeklődők tanulhatnak, tájékozódhatnak. Miért van akkor szükség egy új általános pszichológia tankönyvre? Többek között azért, mert az angolból fordított tankönyvekben található adatok ma már nem elég frissek, illetve ezekben nem szerepelnek a magyar pszichológia nemzetközileg is megmérettetett eredményei. Ezért vállalkozott a szakma több, egyetemeken és kutatóintézetekben dolgozó képviselője arra, hogy tankönyvet írjon az új típusú képzéshez. Észlelés és figyelem könyvünkhöz etalonként az Atkinson és a Sekuler-Blake szolgált. Igyekeztünk az ezekben megismert ismeretközlési attitűdnek megfelelni, azaz megtalálni az egyensúlyt a klasszikus és a modern, a tudományos és az érthető, a fontos és az érdekes között. Törekedtünk arra, hogy a magyarázatok a megfelelő részletesség és a leegyszerűsítés feltételeinek is megfeleljenek. Ez utóbbinak azonban vannak határai, az általános pszichológia szaktárgyi tudását nem lehet lehúzni a népi pszichológia szintjére. Ehelyett olyan didaktikai eszközöket igyekeztünk alkalmazni, amelyek segítik a megértést, a feldolgozást, a tanulást. A tanulást nem lehet mellőzni, a mankók azonban rendelkezésre állnak. Kötetünk 18 fejezetre tagolódik. Az első fejezetek (1-2.) általános alapozást szolgálnak; ezeket olyan panelek követik, amelyek több fejezetre tagolva (3-14.) a nagy érzékelési/ észlelési modalitásokkal foglalkoznak. Az integráló 15. fejezet a modalitások kölcsönhatása és a cselekvés összefüggéseit, a a figyelem témakörét tárgyalja. A kötetet az alvás és álom kérdéseiről szóló fejezet (18.) zárja. Szokatlannak tűnhet ugyan, hogy ezt a kérdést itt tárgyaljuk, és nem a tudattal foglalkozó kurzusoknál, tartalma miatt azonban ide is jól illeszkedik. Az egyes paneleket egy-egy festménnyel illusztrált rövid történet vezeti be. Ezek a történetek és bevezetők nem csupán esztétikai célt szolgálnak, hanem olyan emlékezeti, esetleg érzelmi kapaszkodók, amelyek segítik az olvasót. A fejezetek törzsszövege képezi az alapvetően fontos ismeretanyagot. A szöveget számos ábra és táblázat illusztrálja. Az illusztrációk szövegei kétfélék. Az egyik típus csak címet ad, az ábra leírása, magyarázata a törzsszövegben található. A másik típus az ábraszövegben is fontos, a bemutatott jelenség megértését szolgáló ismereteket közöl. Ezek is a kívánatos tudás részét képezik. A törzsszövegen belül úgynevezett szövegdobozok találhatók. Ezek többfélék. Az Emlékeztető dobozok olyan, általában a módszertan, az anatómia, az élettan körébe tartozó ismereteket foglalnak össze röviden, amelyeket a pszichológia szakos hallgatónak ismernie kellene korábbi vagy párhuzamosan végzett tanulmányaiból. Ezek a szövegek a szunnyadó ismeretek felfrissítését szolgálják, ezért, ha ebben a formában nem elegendőek, célszerű a vonatkozó tankönyvekhez visszatérni. Az Alkalmazás szövegdobozok olyan témákat mutatnak be, amelyek a megismert jelenségek gyakorlati példái. Nem részei a BA-követelményeknek, de érthetővé teszik, miért fontos az itt megszerezhető xii

13 Bevezetés tudás. Hasonlóan fontosak és érdekesek lehetnek a Kurrens témák és a Kitekintés szövegdobozok, az Arcképcsarnokok szövegei pedig az adott kutatási területen kiemelkedő hatású tudósokat mutatnak be. A felkészülést, elmélyülést szolgálja minden egyes fejezet végén az összefoglalás, a kulcsszavak felsorolása és az ellenőrző kérdések. Egyes fejezetek ajánlanak olvasmányokat és hasznos honlapokat is. Az utóbbiak általában angol nyelvűek, tehát ezeket meglátogatva a pszichológia mai anyanyelvét is gyakorolhatjuk, továbbá számos izgalmas demonstrációval ismerkedhetünk meg. A kötet végén található glosszáriumban felsoroljuk és definiáljuk azokat a legfontosabb szakkifejezéseket, amelyek tudása az általános pszichológia alapismereteinek elsajátításához feltétlenül szükséges. Az irodalomjegyzék adja meg a szövegben hivatkozott művek bibliográfiai leírását, a név- és tárgymutató pedig a kötet anyagában való keresést, eligazodást segíti. Végül ajánljuk kiegészítő olvasmányként azokat a jól bevált tankönyveket, szakkönyveket, amelyek kiegészítő forrásként szolgálva az ismeretek letisztulásának folyamatát segíthetik: Atkinson & Hilgard Pszichológia. Osiris, Budapest. Czigler István A figyelem pszichológiája. Akadémiai Kiadó, Budapest. Pléh Csaba Boross Ottilia Bevezetés a pszichológiába. Osiris, Budapest. Sekuler, R. Blake, R Észlelés. Osiris, Budapest. A Sekuler-Blake-et jó szívvel ajánljuk továbbra is kiegészítő, tudásbővítő olvasmányként. Kötetünknek a látási észleléssel foglalkozó fejezetei sok ott bemutatott kérdést nem ismételnek meg ugyanolyan részletességgel, helyettük a legújabb eredményeket mutatják be bővebb terjedelemben. A könyvünkből felkészülő pszichológia szakos hallgatónak és valamennyi más szakmájú olvasónak sok sikert és kellemes olvasást kívánunk! Budapest, március 1. A szerkesztők nevében: Csépe Valéria xiii

14

15 1. fejezet - 1. FEJEZET Érzékelés, észlelés, környezet 1. Észlelés és valóság Valamennyi észlelési folyamat (percepció), még az is, amelyet igazán egyszerűnek gondolnánk, meglehetősen bonyolult. Ez a bonyolultság jellemzi azokat a szinteket is, amelyeket az észlelés titkainak megismerése során az egyes tudományterületek, mindenekelőtt pedig a pszichológia, az élettan és az idegtudomány, igyekeznek feltárni. Gondoljunk csak arra, miként is következhet be az, hogy a kirakatok előtt elsietve egyszer csak megtorpanunk és visszalépünk, mert észrevettünk valamit, ami érdekes a számunkra. Vagy arra a képes rejtvényformára, amelyben az a feladat, hogy megtaláljuk, észrevegyük, hogy milyen apró eltéréseket mutat két, látszólag azonos kép. A sokat keresett utolsó eltérés gyakran csak hosszú nézegetés után, hirtelen ugrik elő. Ekkor vesszük észre, holott eddig is láttuk. Ezek a furcsa, meglepő jelenségek is rávilágítanak arra, hogy az észlelés, különösen pedig annak az egyén által megélt, azaz szubjektív minősége az emberi elme rejtélyeinek egyike. Tudjuk, hogy az emberi észlelést szolgáló biológiai alapfolyamat, az érzékelés a külvilág fizikai jelei által kiváltott válaszok (érzet, érzéklet) és a minket körülvevő világ megfeleltetése összetett folyamat. Azt is tudjuk, hogy az érzékelés és észlelés között lényeges különbség van, azaz a két fogalom nem egyszerűen szinonimája egymásnak. Az érzékelés során a fizikai jelek az agy számára feldolgozható jellé alakulnak át, az észlelés során viszont ezekhez az érzékleti mintázatokhoz rendeljük hozzá a környezet ingereit, eseményeit. Az észlelés tehát magának az emberi elmének a működéséhez kötött olyan pszichológiai folyamat, amelynek biológiai fundamentuma az érzékelés. Bár az a kérdés, hogy az észlelés valósághű-e, évszázadok óta foglalkoztatja a gondolkodókat, az észlelés mai pszichológiájában mégsem ez a legfőbb kérdés. Tudjuk, hogy környezetünket nem pontosan úgy észleljük, mint amilyen az a fizikai és az ehhez rendelt biológiai (érzékelés) valóságában. Az észlelés ennek ellenére egy olyan, az érzékelésre épülő pszichológiai feldolgozási folyamat, amelynek eredménye megfelel az észleléssel közvetített környezetnek. Az észlelés tehát részben veridikus (valósághű) folyamatnak tekinthető. Ez azt jelenti, hogy az észlelés során a környezethez való alkalmazkodást a leglényegesebb, legfontosabb ingerek, események csaknem teljesen valósághű feldolgozása jellemzi, bár ez alól vannak kivételek. Ezek a különböző okokra visszavezethető feldolgozási torzítások. Ennek ellenére mindkét feldolgozási mód a valósághű és a torzított is jól szolgálja az alkalmazkodást. A kötetünk jelentős részét kitevő, észleléssel foglalkozó fejezetekben alapvetően ezekkel a jelenségekkel ismerkedhetünk meg. Mielőtt azonban ezekre rátérnénk, sorra vesszük azokat az elméleteket és alapvető ismereteket, amelyek eligazodási keretként szolgálnak az észlelés törvényszerűségeinek megértéséhez. Az észleléselméletek története Az észlelés rejtélyével a kísérleti általános lélektan már a kezdetei óta foglalkozik, a filozófusokat pedig még régebb óta izgatják az észlelés szubjektív aspektusai. Az európai filozófiai gondolkodás legnevesebb képviselői már a században behatóan foglalkoztak azzal, hogy milyen is az emberi észlelés (percepció) természete, miként alapozzák meg ezek a folyamatok az emberi gondolkodást. Az érzékelés és észlelés megkülönböztetése sem a pszichológia találmánya, hanem a filozófiáé. A 17. század második felében az angol empiristáknál már megjelenik az a felfogás, hogy az érzékelés és a valóság megfeleltetése az észlelés közvetítésével történik. Ennek lényege, hogy a külvilágról nyert észleleteket az érzékelés közvetíti, vagyis az érzékelés segítségével a tapasztalatból nyerjük őket, azaz a létrejött képzetek vagy ideák ennek a tapasztalatnak az eredményei. Nem véletlen tehát, hogy a korszak nagy hatású filozófusa, John Locke a tapasztalatnak tulajdonítja az értelem kialakulását is. úgy tekinti, hogy a tapasztalatok megjelenése előtt, azaz a születéskor az emberi értelem nem rendelkezik semmilyen, a gondolkodáshoz szükséges tartalommal, az üres laphoz (tabula rasa) hasonlítható. Még a 18. századi gondolkodók is leginkább olyan nyersanyagnak tekintették az érzékelést, amely az agy számára az érzékletet biztosítja, az e felett működő értelmi folyamatok alakítják ki bennünk a világ képét. Ilyen értelmi folyamatoknak vélték a következtetést és az asszociáció Észleléselméletek 1970 előtt Közvetlen észlelés: Hermann von Helmholtz 1

16 1. FEJEZET Érzékelés, észlelés, környezet A pszichológia korai elméletei szerint az észlelést alapvetően a szenzoros folyamatok, azaz az érzékelés alapjelenségei határozzák meg. Ezt nevezzük a közvetlen észlelés elméletének. Ennek klasszikus előfutára Hermann von Helmholtz, aki angolul megjelent, A fiziológiai optika kézikönyve című művében (1925, idézi Marton 1975) úgy fogalmaz, hogy az érzékleteket nemtudatos következtetésekkel (inferenciákkal), a tapasztalatok alapján értelmezzük. A következtetés folyamatai az észlelésbe ágyazottan jelennek meg, és maga a következtetés az, amelynek segítségével képesek vagyunk megtalálni az érzékelés és észlelés eltéréseit, illetve meg tudjuk ezeket érteni. Az érzékleti információra alapozott nemtudatos ítéletek Helmholtz szerint a képzetek asszociációira épülnek, így jöhet létre, hogy a tapasztalatoknak köszönhetően a környezeti ingerek értelmet nyernek. A tapasztalatoknak köszönhetően egyre értelmesebbnek észleljük a bennünket körülvevő világot. Így tanuljuk meg, hogy a retinának a szemzug felé eső részét érő fény az orrnyereg irányából érkezik, és ez mindig így van, azaz az ingerlés helyéből következtethetünk a fény irányára. Így, ennek az ismétlődő tapasztalati azonosságnak az alapján lehetséges, hogy a mutató- és középső ujjunk belső felszínét érintő tárgyat egynek, a külső felszínét érintő (keresztbe tett ujjal lehetséges) tárgyat kettőnek észleljük. Mint az utóbbi példából is látható, ezek a következtetések időnként becsapnak bennünket, ilyenkor jönnek létre az észlelési illúziók vagy csalódások (ezeket nevezi a korai pszichológia, ma pedig leginkább a köznyelv, érzéki csalódásoknak). A közvetlen észlelés korai elmélete szerint tehát a tapasztalat teszi a környezet ingereit értelmezhetővé. Ennek az elméletnek a későbbi, modern változata majd a hetvenes években jelenik meg új formában, és J. J. Gibson munkásságához kötődik (erről az észlelelés 1970 utáni elméleteiről szóló részben lesz majd szó). A pszichológiai észleléselméletek már kezdetben szétválnak aszerint is, hogy milyen módszerrel tanulmányozzák az észlelést. Helmholtz a fiziológia felől közelít, Titchener viszont a pszichológiának a 20. század első évtizedeiben elfogadott módszerét, az intros- pekciót (önmegfigyelés) alkalmazza. Ez különösen érdekes, ha figyelembe vesszük, hogy a korabeli észlelésfelfogás egyik sarkalatos kérdése éppen magának az észlelésnek a szubjektivitása. A saját észlelésünk megfigyelése alapján levonható következtetések a legkevésbé sem lehetnek mentesek ettől a szubjektivitástól. Megfigyelhetjük viszont, hogy már az észleléselméletek kialakulásakor felmerül az a kérdés, hogy az észlelés során valaminek a képviseletével vagy valamilyen eseménnyel van-e dolgunk, azaz már ekkor kialakulnak a közvetettészlelés-elméletek (lásd később) előfutárai is. A környezet leképezésének egy sokáig népszerű, eseményszemléletű elmélete a tükrözéselmélet, amely egy passzív folyamatra utaló metaforával, nevezetesen a tükrözéssel igyekszik megragadni az érzékletek (és nem az észlelés) lényegét táblázat - KARDOS LAJOS Kardos Lajos Rákospalotán született 1899-ben, igen szegény család hatodik gyermekeként. Rákospalotán járt gimnáziumba, egyetemi tanulmányait viszont a numerus clausus miatt már Bécsben folytatta. Itt szerelzett orvosi diplomát 1925-ben, majd pszichológiai tanulmányai befejeztével bölcsészdoktori címet 1929-ben. Szakmai irányultságát alapvetően meghatározták a bécsi évek. A két világháború között Bécs a művészetek és tudományok pezsgő világát jelentette, a pszichológia számára pedig a kísérleti és elméleti irányzatok, valamint a pszichoanalízis bölcsojét. Kardos mesterei voltak többek között a kísérleti pszichológiának olyan, ma már klasszikus alakjai, mint Karl és Charlotte Bühler ben Rockefeller-ösztöndíjjal az Egyesült Államokba utazott. Tovább folytatta tanulmányait, majd ben a Columbia Egyetemen oktatott és kutatott. Az Amerikában töltött öt esztendő szakmai fejlődésében jelentős változást hozott. Jól ismerte a német alaklélektanosok kutatási eredményeit, a pszichológia új irányzatával, a behaviorizmussal való találkozása pedig megter- mékenyítően hatott gondolkodására. Kutatásaiban a Bühler-iskola hagyományait folytatta a percepció, mindenekelőtt pedig a világosságkonstancia vizsgálatában. A kor nagy elméleti kereteit (szerveződés, tükrözés) alkalmazta, és pontos, finom kísérleti technikákat dolgozott ki ben hazatért Magyarországra, pszichológusként azonban nem kapott állást. Szondi Lipót mellett, a Ranschburg Pál által 1902-ben alapított Gyógypedagógiai Lélektani Intézetben dolgozott. A Szondi-féle műhely ekkor egyszerre volt otthona a pszichoanalízisnek és a pszichológiai kutatásoknak. Kardos életében azonban az 1936 és 1944 közötti időszak nem a kutatásról szólt. Zsidó származásúként munkaszolgálatra hívták be, de szerencsére nem került ki a frontra, és családja is megmenekült után egyetemi oktatóként kezdett el dolgozni az ELTE-n. Az ötvenes évek politikája azonban burzsoá tudománynak minősítette a pszichológiát, így oktatása megszűnt, Kardos pedig a Filozófia Tanszékre került. Ezekben az években is 2

17 1. FEJEZET Érzékelés, észlelés, környezet biztosítani tudta azonban a pszichológia folytonosságát: összehasonlító lélektani kutatásokat folytatott, s egy olyan egységes elmélet kialakítására törekedett, amely magyarázni képes a téri tájékozódást és a helytanulást. Hat évtizedes tudományos munkássága során kiemelkedőt alkotott az érzékelés megismerése (konstanciák), az állati tanulás, valamint az emberi és állati emlékezet összehasonlító kutatása területén ban egyetemi tanárrá nevezték ki. Saját beszámolója szerint többek között azért, mert a korabeli politika jó néven vette, hogy Rubinstein oroszból fordított, Az általános pszichológia alapjai című tankönyvében hivatkozott rá. Ezekben az években a lélektan és a pavlovi kutatások összefüggéseivel foglalkozott, erről szólt a tudományok doktora cím elnyeréséhez benyújtott disszertációja is. Kardos Lajos irányításával a hatvanas években újjászerveződött a pszichológia oktatása és a pszichológusképzés is. Általános pszichológia című egyetemi tankönyvének első kiadása 1964-ben jelent meg. A szürke Kardos a pszichológia alapjainak elsajátításához szolgált tankönyvként sok nemzedék számára. Kutatásainak utolsó összefoglaló munkája az állati emlékezésről szólt. Kardost 1985-ben a Magyar Tudományos Akadémia első pszichológus akadémikusként tagjává választotta ben, 84 éves korában hunyt el Londonban. Általános pszichológia azonban ma sincs Kardos Lajos nélkül Tükrözéselmélet: Kardos Lajos A tükrözéselméletek többek között az érzékelés és észlelés megkülönböztetésének vitáiból nőttek ki. A tükrözéselmélet egyik klasszikus képviselője Kardos Lajos. Kardos, aki már a harmincas években az érzékelés törvényszerűségeivel foglalkozik, az érzékelés és észlelés szóhasználatbeli megkülönböztetését nem tartja elfogadhatónak. Ezt a szemléletet képviseli tankönyveiben is. Szerinte az érzékelés-észlelés megkülönböztetésnek vannak elfogadható érvei is, ám tudományos és szigorú értelemben csak az érzékelés és érzéklet kifejezések használhatók. Kardos Lajos felfogásában (1970) a környezetnek az idegrendszerre gyakorolt hatása révén alakulnak ki az érzékletek, és ezek tükrözik a valóságot. A valóság és az érzéklet viszonya összehasonlítható a tárgy és tükörképe közötti viszonnyal, a tükrözési koncepció ennek analógiáira épül. Az érzéklet-valóság-tükrözés viszony jellemzői Kardos szerint a következők: 1. Az érzéklet a külső valósághoz képest másodlagos, azaz érzéklet nem jöhet létre az érzékelt valóságtól függetlenül. 2. Az érzéklet és valóság tükrözési viszonyában a tükröző közeg az idegrendszer, ez fogja fel azokat a környezeti hatásokat, amelyekre az érzéklet megjelenik. 3. A tükörkép közvetítő folyamatait az ingerek (fény, hang) jelentik, érzékleteink viszont ennek eredményei, azaz hasonlóan a fény-tükör-tárgy analógiához tárgyakat és nem ingereket tükröznek. 4. Az érzéklet és az érzékelt tárgy között úgynevezett megfeleléses viszony van, az érzéklet együtt változik, kovariál az érzékelt tárggyal, azaz különböző valóságmozzanatoknak különböző, egyenlőknek egyenlő érzékletek felelnek meg (Kardos 1970, 94.). 5. Az érzékletek nemcsak közvetítik a valóságot, hanem hasonlítanak is arra. Ez azt jelenti, hogy nem csupán jelei, hanem ábrázolásai annak. 6. Kivételes körülmények esetén előfordulhat, hogy az egyenlő valóságmozzanatoknak nem egyenlő érzékletek felelnek meg, azaz a tükrözés pontatlan. Ilyenek Kardos szerint az érzéki csalódások. A pontatlanság azonban nem veszélyezteti a tükrözés jelentőségét, mégpedig két ok miatt: a pontatlanság nem túl gyakori és nem túl nagy arányú, illetve torz tükrözés mellett is felismerhető a valóság. A tükrözéselmélet tehát a közvetlenészlelés-elméletek egyik jellegzetes példája. Jóllehet a tükrözés mellett felbukkannak olyan, később a kognitív pszichológiában megjelenő, a reprezentációra emlékeztető fogalmak, mint a megfeleléses viszony vagy az ábrázolás, a tükrözésanalógiából a mentális folyamatok kizáródnak Kontextus és észlelési többlet: Edward Bradford Titchener és William James Az észlelésnek ugyancsak eseménytípusú felfogása az a koncepció, amely már a 20. század elején megjelenik, és Titchener (1909/1910) nevéhez fűződik. Titchener kontextuselmélete szerint minden percepciónak értelmes jelentése van, azaz az észlelés maga olyan eseménynek tekinthető, amelynek alapja az érzékletekhez hozzátapadó mentális folyamat. Bár ezt a mentális folyamatot a mai kognitív pszichológia reprezentációnak 3

18 1. FEJEZET Érzékelés, észlelés, környezet tekintené, vegyük észre, hogy a pszichológiában ekkor még szó sincs reprezentációról, lehetősége azonban már megjelenik az elméletalkotók gondolkodásában. Titchener elmélete mai fogalmaink szerint tehát egyszerre tekinthető reprezentáció- és eseményszemléletűnek is. Titchener kontextuselmélete és Helmholtz közvetlenészlelés-felfogása bizonyos szempontból egy tőről fakad. Mindegyik azt próbálja megragadni, hogy az észlelés mennyiben több mint az érzékelés, és mi ennek a többletnek a lényege. Az észlelési többlet a kezdetektől fogva erősen foglalkoztatja és hosszú időre meghatározza a pszichológusok gondolkodását. Az észlelési többlet lényegét William James 1890-ben megjelent klasszikus alapkönyvében (Theprinciples of psychology, 1890/1950) szintén a tapasztalatnak tulajdonítja. Ezt a vizuális valósággal kapcsolatban (itt a térérzékelés, -észlelés példáján) a következőképpen fogalmazza meg: A térérzékelésnek veleszületett és rögzített optikai jelzései vannak, a tapasztalat vezet minket abban, hogy néhányat kiválasszunk közülük a valóság kizárólagos hordozóiként, a többi csak jelzi őket, vagy utal rájuk. (James 1890/1950, 239.) Ebben az egy mondatban William James a valóság, az érzékelés és az észlelés viszonyának legalább két lényeges kérdését fogalmazza meg. Az egyik a fizikai valóság és az érzékelés viszonya, a másik pedig az észlelés és valóság viszonya. James az észlelés kibontakozásában a tapasztalatnak meghatározó szerepet tulajdonít, a gyakorlás eredményeként kialakuló diszkriminációt pedig az észlelést befolyásoló tanulás eredményének tekinti. Ne feledjük, hogy James diszkriminációfogalma jelentősen eltér a ma használatostól. Diszkriminációnak nevezi például azokat a változásokat, amelyek a vakok látáskiesését kompenzáló észlelési minőségek megjelenésében figyelhetők meg. A náluk kialakuló kivételes diszkrimináció esetére (ezt ma inkább kompenzációnak és újraszerveződésnek neveznénk) két példát ishoz. Az egyik Laura Bridgman esete. A fiatal nő tapintási/érintési észlelésében a diszkrimináció kivételes fejlődése azt tette lehetővé, hogy akár egy év elteltével is azonosítani tudta azokat a személyeket, akikkel kezet fogott. Julia Brace-nek viszont olyan rendkívül fejlett volt a szaglási diszkriminációja, hogy egy bentlakásos otthonban (Hartford Asylum) az volt a munkája, hogy a kimosott ruhákat azok viselői szerint szétválogassa és csoportokba rendezze (James 1890/1950, 509.; ezt a példát idézi Sekuler és Blake [2000] is az Észlelés című könyvben). Vegyük észre, hogy a vizuális érzékelés kiesését követően más modalitásban megjelenő, fejlett ingerdiszkrimináción nyugvó érzékenység a környezethez való alkalmazkodás során egy másik modalitásban megjelenő kivételes teljesítményhez, azaz fejlett kompenzációhoz vezet. Jamesnek talán legtöbbet idézett klasszikus példája az, amelyben bemutatja, hogy miként tanuljuk meg, hogy két vörösbor (burgundi és claret) között különbséget tegyünk. Ebben kiemeli azt is, hogy az észlelési minőségek megkülönböztetésében milyen szerepe lehet az érzékelési/észlelési eltéréseket jelentésében magában foglaló, azokat azonban ki nem fejtve (implicit) jelölő szavaknak. Azt írja: A claret-íz előhívja saját nevét, tehát azt, hogy ez»claret«, valamint azt is, hogy»ez az a bor, amit ennek az ismerősömnek az asztalánál ittam«, a burgundi-íz pedig a burgundi nevét és másvalaki asztalának emlékét. (James 1890/1950, 511.) Mint ezekből a példákból is láthatjuk, az észleléssel kapcsolatban már ekkor megjelenik az a gondolat, hogy a tanulásnak és emlékezetnek (ma ezeket magasabb szintű megismerési folyamatoknak nevezzük) is szerepe van az észlelésben táblázat - WILLIAM JAMES William James a pszichológia tudományos alapvetésének kiemelkedő alakja, olyan eredeti gondolkodó, aki a fiziológia, a filozófia és a pszichológia területén egyaránt alapos tudással rendelkezett. Az 1890-ben megjelent ThePrinciples of Psychology című ezerkétszáz oldalas mes- termü e három tudományterületnek olyan gazdag ötvözete, amelyben James a személyes reflexiók széles repertoárját alkalmazva, szemléletes új fogalmakat, leírásokat vezet be, és a pszichológia máig ható alapvetését adja ben született New York városban. Tizenhárom éves volt, amikor családja Európába költözött, így több évet Genfben, Párizsban és Boulogne-sur-Merben járt iskolába. Érdeklődése már korán a tudományok és 4

19 1. FEJEZET Érzékelés, észlelés, környezet müvészetek felé fordult, életét azonban sok érdekes szakmai fordulat jellemezte. Szakmai és magánéletének talán az 1855 és 1865 közötti évek jelentették a legviharosabb időszakát. Először Rhode Islandre utazott, hogy festészetet tanuljon William Huntnál. Egy évvel később ismét a tudomány érdekelte leginkább, két évig a Genfi Akadémián tanult ben már Bostonban, a Harvardon kezdte meg orvosi tanulmányait, majd ezt egy évre megszakítva az Amazonas folyóhoz induló expedícióhoz csatlakozott. Az expedícióban annak ellenére végig részt vett, hogy közben himlőben megbetegedett ban orvosi tanulmányait folytatandó, visszatért a Harvardra. Szembántalmak és gerincproblémák gyötörték, depresz- sziótól szenvedett elején egészségügyi és szakmai megfontolásokból két évre ismét Európába utazott. Drezda, Bad Teplitz, Berlin, Genf és Párizs jelentették a főbb állomásokat. Berlinben fiziológiát tanult, filozófiai, pszichológiai tanulmányokat, könyveket olvasott. Ezután visszatért a Har- vardra, befejezte tanulmányait, és 1869-ben megszerezte orvosi diplomáját, ám soha nem praktizált. Ugyanezen év őszén depressziója ismét súlyosbodott, egészségi állapota tovább romlott, ez a következő években sem változott, depressziója sem enyhült. Oktatói munkáját 1872-ben kezdte, összehasonlító élettant és anatómiát tanított a Harvardon ben már pszichológiát tanított, ekkor hozta létre az első amerikai pszichológiai laboratóriumot is. Több évvel később, 1882-ben következett be az a szakmai fordulat, amelyet többek között európai útjának köszönhetett. Ekkor találkozott Ewald Heringgel, Ernst Machhal, Wilhelm Wundt- tal, Jean Charcot-val és sok más olyan tudóssal, akiknek munkássága nagy hatással volt készülő müvére. A The Principles of Psychology 1890-ben jelent meg a bostoni Henry Holt Kiadónál. Az ezt követő években egyre többet publikált, részben filozófiai, részben pszichológiai tárgyú munkákat. Legnagyobb hatású filozófiai munkája az Essays in Radical Empiricism (posztumusz gyűjtemény, 1912) volt. Bár a maga idejében szinte mindegyik munkájának jelentős szakmai visszhangja volt, a pszichológia alapvetése szempontjából változatlanul az 1890-es müvet tartjuk a legfontosabbnak ben vonult nyugdíjba, de továbbra is sokat írt, és számos előadást tartott. Ebben az időben már gyakran gyötörték mellkasi fájdalmak ben Európába utazott, hogy alávesse magát egy kísérleti stádiumban lévő kezelésnek, ez azonban sikertelen volt. Szívrohamban hunyt el 1910 augusztusában. William James tehát az észlelési minőségek alakulásában meghatározó szerepet tulajdonított a tanulás különböző formáinak (tapasztalat, gyakorlás, nyelvi címke). Egy mára csaknem elfeledett kísérletező, Stratton (1897) a kérdéshez másként, nem a leíró, hanem az empirikus szintről közelített. Szellemes eljárással sikerül bizonyítania, hogy milyen jelentős a tapasztalat szerepe az érzékelés és észlelés kapcsolatában, illetve a környezet és a percepció megfeleltetésében. Stratton a vizuális mezőt vertikálisan (fent-lent) megfordító lencsékből álló szemüveget konstruált. A Stratton-szemüveget viselők a feje tete-jére állított világban eleinte koordinálatlanul, mindennek nekiütközve mozogtak, helyváltoztatásuk és tárgymegragadásuk is téves volt. A szemüveg viselése során azonban néhány nap elteltével a mozgások rendeződtek, sőt a tárgyak is visszaálltak eredeti állásukba. A helyváltoztatás és mozgás lehetővé tette a látvány helyreállását, a mozgás és a vizuális kép újbóli összehangolódását. Ezeknek a korai kísérleteknek azonban sokáig nem volt folytatásuk a pszichológiai munkákban. A pszichológia észleléselméleteiben korán megjelent ugyan a tanulás fogalma, a perceptuális tanulás kutatása mégis az ötvenes években került igazán a kísérleti pszichológia érdeklődésének középpontjába. Már ekkor legalább kétféle megközelítés érvényesült. Ezek kérdése a következő volt: 1. Mi a tanulás szerepe a percepcióban, miként függ össze az észlelés a tapasztalattal és a gyakorlással? 2. Mi a percepció szerepe a tanulásban, azaz annak kérdése, hogy észlelés útján is megtanulhatunk-e valamit a világról, vagy csak cselekvéssel? 1.3. táblázat - HAGYOMÁNYOS MÓDSZEREK AZ ÉSZLELÉS ÉS A FIGYELEM VIZSGÁLATÁBAN Viselkedéses mérések Reakcióidő A kísérleti általános pszichológia leghagyományosabb módszereinek egyike a reakcióidő (RI) mérése. A reakcióidő adott inger, esemény megjelenése és az arra adott válasz kezdete között eltelt idő. Ezt az időt eleinte a kronoszkópnak nevezett eszközzel mérték. Ma a különböző típusú reakcióidők mérése számítógép segítségével történik. Maga a reakcióidő egy összetett időmutató, tehát a mért válaszidő több komponensből áll aszerint, hogy a válaszadáshoz milyen mentális müveletek szükségesek. A holland 5

20 1. FEJEZET Érzékelés, észlelés, környezet fiziológus, F. c. Donders osztályozását a mai napig használjuk a pszichológiában. Eszerint az egyszerü reakcióidő (E-RI) egyfajta inger megjelenésére adott válasz. Az E-RI két alapvető összetevője a perceptuális feldolgozás és a motoros válaszszervezés ideje. A választásos (összetett) reakcióidő (V-RI) feladatban két vagy több, véletlenszerü ingerre eltérő választ kell adni. Az így mért válaszidő az egyszerü reakcióidő összetevőin felül magában foglalja az ingerdiszkrimináció és a válaszszelekció idejét is. A szelektív reakcióidő (SZ-RI) mérésére szolgáló helyzetben többféle inger jelenik meg, ezek közül azonban csak a célingerekre kell választ adni. Ebben az angol elnevezés alapján gyakran go/no go néven említett feladathelyzetben a válaszidőt a szelektív reakcióidő helyzethez képest erősen befolyásolja a válaszgátlás. Pszichofizikai mérések A pszichofizikai mérések a kísérleti pszichológia másik hagyományos ágát képviselik. A klasszikus pszichofizika az ingerek detekcióját és diszkriminációját meghatározó ingersajátosságok mérésére, törvényszerüségeinek feltárására irányul. Ezzel részletesen foglalkozik tankönyvünk következő, Pszichofizika című fejezete. Klasszikus pszichofiziológiai eljárások Galvanikus bőrreakció (GBR) A galvanikus bőrreakció (GBR) a bőr elektromos vezetőképességének változása. A galvanikus kifejezés a vezetőképesség mérésére használt eszközre, a galvanométerre utal. A 19. század végén kidolgozott első GBR- (angolul galvanic skin response GSR) mérésekben még gyenge áramot alkalmaztak. Az alkaron a bőr két eltérő pontjára helyezett elektróda között mérték a terjedési időt. A később kifejlesztett eljárásokban már nem használtak külső áramforrást, hiszen a bőr elektromos vezetőképességének változása e nélkül is mérhető. A bőr vezetőképességének változása a bőr verejtékkiválasztásával függ össze, ez pedig a vegetatív (szimpatikus) idegrendszer működésének jó mutatója. A szimpatikus idegrendszeri aktivitás fokozódásakor (pl. félelem, izgalom) a verejtékezés fokozódik, ezáltal a bőr ellenállása csökken, tehát vezetőképessége nő. A módszer széles körű elterjedése a 20. század első évtizedeiben az arousal (aktivációs állapot) és a teljesítmény összefüggéseire irányuló pszichológiai kutatásoknak volt köszönhető (ezekkel a figyelemmel foglalkozó 16. fejezeteben ismerkedhetünk meg). Elektromiográfia (EMG) Az elektromiográfia (EMG) az izmok elektromos aktivitásának elvezetésére szolgáló eljárás. Az izmok működése során keletkező bioelektromos jelek elvezetése az izomzat feletti bőrre helyezett vagy az izomba szúrt elektródákkal történik. Az EMG-t a kísérleti pszichológiában vagy magának a mozgástevékenységnek a vizsgálatára, vagy egyes állapotok változásának (pl. aktiváció, érzelmi állapot) a követésére használják, mint korrelatív mutatót. Elektrokardiográfia (EKG) Az elektrokardiográfia (EKG) a szívizom tevékenysége során keletkező biolektomos jel regisztrálására szolgáló eljárás. A szívműködést kísérő bioelektromos jelek a végtagokon, valamint a mellkason elhelyezett elektródákkal vizsgálhatók. Az EKG-jel P hulláma a pitvarok, QRS hullámegyüttese a kamrák összehúzódásakor keletkezik, T hulláma a szívkamrák repolarizáció- jával összefüggő jel. Nyugalmi állapotban, átlagos szívritmus (kb. 70 ütés/perc) mellett két R hullám között valamivel kevesebb mint egy másodpercnyi idő (850 ms) telik el. A vegetatív mutatókat alkalmazó pszichológiai vizsgálatokban leggyakrabban a szívritmust mérik. Ez az egymást követő EKG-jelek R hullámai közötti idő meghatározására épül. A szívritmust vegetatív mutatóként a kísérleti pszichológiában valamilyen állapot (aktiváció, érzelem) korrelatív mutatójaként alkalmazzák Valószínűségi értékelés és percepció: Egon Brunswick Egon Brunswick (1955) egyik fő kutatási területe a tárgyak állandóságának, az úgynevezett tárgykonstanciának a jelensége volt (ezzel részletesen később, az alak- és tárgyészleléssel foglalkozó 5. fejezetben ismerkedhetünk meg). Hermával közösen végzett kísérletükben (Brunswick-Herma 1951) arra voltak kíváncsiak, hogy az inger és a jelzett tárgy viszonya valószínűségi tanulással alakul-e ki. A részt vevő személyeknek két, egymást követően a bal vagy a jobb kezükbe adott tárgyról kellett megállapítaniuk, hogy melyik a nehezebb. A tárgyak eltérő színűek voltak, a színt véletlenszerű járulékos ingerként (ma ezt jelzőingernek nevezzük) társították a tárgyakkal. A hatás kialakulásának vizsgálatára a kísérlet végén azonos, de eltérő színű tárgyakat adtak a résztvevők kezébe. Ezzel azt kívánták ellenőrizni, hogy változik-e a kontraszthatás (nehéz súly emelését követően a tárgy súlyát alábecsüljük). A szín alapján várt és a valódi súly eltérése miatt kialakuló úgynevezett várakozási csalódás megjelenése azt igazolta, hogy a kísérleti személyek a tárgy színét figyelembe vették. Brunswick erre és a hasonló jelenségekre alapozva alakította ki a valószínűségi értékelés elméletét. Ennek lényege, hogy az észlelés során a szervezethez érkező jelzőingereket a korábbi tapasztalatok alapján kialakult statisztikus, nemtudatos ismeretek alapján értékeljük ki. Brunswick szerint a szervezetet érő inger annak forrását, azaz a távoli (disztális) tárgyat jelzi, és annak néhány tulajdonságán kívül magát a tárgyat nem 6

21 1. FEJEZET Érzékelés, észlelés, környezet határozza meg. Brunswick észlelésmodelljében tehát a beérkező ingereket az ezekkel asszociatív kapcsolatban lévő, az emlékezetben rögzített jelzőingerekhez viszonyítja. A tárgyak azonosítását a jelzőinger és a jelzett tárgy együttjárási valószínűsége határozza meg. A percepció tehát Brunswick szerint a jelzőingerek nemtudatos asszociációjára épülő valószínűségi folyamat. A valószínűségi tanulásnak Brunswick nevéhez fűződő további elméletei a pszichológia implicit tanuláselméleteinek klasszikus előfutárai. A valószínűségi értékelés szerepe azonban nem tűnik el teljesen az észleléselméletekből. Különösen erősen jelenik meg a térészleléssel foglalkozó pszichológiai munkákban. Az Ames-féle torzított szoba esetében vagy más térészlelési jelenségeknél látni fogjuk (bővebben lásd a Tér- és mélységészlelés című fejezetben), hogy adott ingerminta észlelésének tanult változásai mennyire befolyásolják az észlelőrendszer működését táblázat - KÉPALKOTÓ ELJÁRÁSOK Az érzékelés és észlelés vizsgálata hagyományosan az a terület, amelyen a legkorábban megjelentek a technika aktuális fejlődésének köszönhetően kifejlesztett idegtudományi vizsgáló eljárások. Ezek az egyes agyi területek szerkezeti vizsgálatával, illetve a feldolgozást kísérő aktivitás mérésével tették lehetővé az érzékelési/észlelési folyamatok mélyebb megismerését. Itt most elsősorban azokat a módszereket mutatjuk be, amelyeket a pszichológiai kutatásokban a leggyakrabban használnak (és amelyekre a könyvünkben bemutatott empirikus munkáknál is támaszkodunk). A modern képalkotó eljárásokkal az agy szerkezetéről vagy funkcióiról igen jó téri, illetve jó idői felbontású képet kaphatunk. Röntgen (rtg) A röntgen (rtg) az idegrendszer vizsgálatában a szerkezet feltárására használt klasszikus módszer, a röntgenkép maga a röntgensugár felhasználásával készített szerkezeti kép. A kép úgy jön létre, hogy az alkalmazott röntgensugár az élő anyagon (pl. agyon) áthaladva az egyes részek sugárelnyelő tulajdonságai szerint eltérő kontrasztú képet ad. Az agyi képletek a röntgenképen eltérő kontraszttal látszanak, együttesen pedig megfelelő, bár a modern képalkotó technikákkal nyerhető képnél rosszabb felbontású szerkezeti képpel szolgálnak. Számítógépes tomográfia (CT) A számítógépes tomográfia (ct computerized tomography) eljáráshoz röntgensugarakat használnak. A CTfelvétel során röntgenképek sorozata készül (a röntgencső és az ezzel összeépített detektor az agy körül forogva sok felvételt készít). Ezekből a képekből megfelelő matematikai algoritmus felhasználásával, számítógép segítségével rekonstruálják az agy háromdimenziós képét. Ezeket a rétegfelvételnek nevezett képeket egy számítógépes program segítségével tetszőleges síkban lehet megjeleníteni. Mágneses rezonanciás képalkotás (MRI) A mágneses rezonanciás képalkotás (MRI) az atommag elemi mágneses tulajdonságára épít, azaz azt használja ki, hogy a protonok mozgása az atommagon belül mágneses változást hoz létre. Mivel az emberi test atomjainak mintegy kétharmadát kitevő hidrogén atommagjában is hasonlóak a mágneses változások, a kialakított eljárás az agy szerkezetének vizsgálatára is alkalmas. Tudjuk, hogy a protonoknak alapállapotban véletlenszerű az irányulása, adott frekvenciájú mágneses térben azonban a lét- rehozott, úgynevezett háttér mágneses erőtér iránya szerint rendeződnek. Azt, hogy hogyan működik az MRI, úgy érthetjük meg a legjobban, ha elképzeljük, miként is képes az operaénekes hangja (persze főként a magas C) megrepeszteni az üveget. Az üvegrepesztés lényege, hogy az anyag a hanghullámok frekvenciája szerint kezd rezegni, rezonál, azaz olyan erősen rázódik, hogy eltörik. Az eltérő anyagok más frekvenciákon rezegnek, és ez igaz az agyi struktúra elemeire is. A rezgést az MRI-ben a mágneses erőtér hozza létre, és mivel az agyi struktúrák vízsűrűsége eltérő, a szürke- és a fehérállomány eltérő képet ad. Az MRI az agyi szerkezetekről igen jó téri felbontású képet ad. Funkcionális mágneses rezonanciás képalkotás (fmri) A funkcionális mágneses rezonanciás képalkotás (fmri) lényege, hogy a szerkezeti kép készítésekor (MRI) a háttér mágneses térben egységes irányba beálló atommagokba újabb energiát juttatunk be, majd a nyugalmi állapotba visszatérő atommag által kibocsátott elektromágneses jelet (MR-jel) regisztráljuk. Az fmri lényege, hogy a mágneses rezonancia a protonokat magasabb energiaállapotba juttatja. Az MRI-ben tehát egy statikus mutató a szerkezetről, egy dinamikus mutató (az MR-jel visszaállási ideje) pedig a funkcióról ad képet. Ez 7

22 1. FEJEZET Érzékelés, észlelés, környezet utóbbi dinamikus mutató adja az agyi vérátáramlásban bekövetkező változás számítógépes rekonstrukciójához szükséges mérési adatot. Az úgynevezett BOLD- (blood oxi- genation level dependent véroxigénszint-függő) vizsgálatra alkalmas fmri-készülékek a vér deoxi- hemoglobinjának paramagnetikus (mágnesezhető) tulajdonságát használják ki. Az aktivitásváltozás kimutatásának fiziológiai alapja, hogy az aktívabb agyi területeken a nyugalmi helyzethez képest megváltozik a vérben az oxi- és a deoxihemoglobin aránya. A jelentős (statisztikailag szignifikáns) aktivitásváltozás mértéke alapján készülnek a jól ismert színkódolt fmri agytérképek. Pozitronemissziós tomográfia (PET) Az agyi vérátáramlás mérésére kialakított pozitronemissziós tomográfia (PET) eljárásban gyors lebom- lású (felezési idejű), pozitronkibocsátású (emissziójú) izotópokkal jelzett molekulákat juttatnak a szervezetbe (belégzéssel, befecskendezéssel), olyanokat, amelyek ott természetesen is megtalálhatók. így leggyakrabban fluor-, oxigén- és szénizotópokat (F18, O15, C11) használnak. Ezeknek az anyagoknak a felvétele (a fluoré a glükózanyagcsere, az oxigéné a véroxigénszint emelkedése miatt) az agyi aktivitás növekedésével változik. A jelzőmolekulák által kibocsátott sugárzást detektorrendszer érzékeli, a jelek erőssége és eloszlása alapján számítógépes program segítségével megalkotható az az aktivitástérkép, amelynek alapján az egyes agyi területek megváltozott működési jellemzőire lehet következtetni Perceptuális készenlét: Jerome Bruner Bruner (1957/2004) szerint az észlelés alapja, hogy a külvilág tárgyairól beérkező ingereket az ezekből kivonható jelzőingerekre támaszkodva, következtetés útján osztályba soroljuk, kategorizáljuk. Ez az osztályba sorolás maga az azonosítás, az észlelés pedig olyan következtetéseket, döntési, mindenekelőtt pedig kategorizációs folyamatokat foglal magában, amelyeknek nem kell tudatosnak lenniük. Emlékezzünk, az észlelésbe foglalt megismerőfolyamatok nemtudatos természetét hangsúlyozta Helmholtz is és Brunswick is. Az észlelési kategória azonban Brunernél mást jelent. Nevezetesen egy olyan szabályt, amelynek alapján megállapítható, hogy a környezetnek mely tárgyai, eseményei egyenértékűek. A szabály tartalmazza az osztályba sorolás szempontjából kritikus sajátságokat, illetve meghatározza, hogy hol van az adott osztályba sorolás határa. Bruner az észlelésben több szakaszt feltételez. Az első lépés a primitív osztályozás, amely nem tudatos, és amely a tárgyakat, eseményeket csupán perceptuálisan különíti el. Bruner szerint ez a primitív osztályozás az érzékelőrendszer veleszületett folyamataira támaszkodik. Ezt követi a jelző- inger-keresés, és csak ezután következnek a tudatos folyamatok, azaz az úgynevezett előzetes osztályozást következtetések és döntések sora előzi meg. Az egyes érzékleti osztályokban azonban eltérő lehet azoknak a jellemzőknek a sora, amelyek alapján ide sorolódnak a környezet ingerei, eseményei. Ezt Bruner hozzáférhetőségnek nevezi. A hozzáférhetőséget többek között meghatározza, hogy az észlelő számára az adott tárgynak, eseménynek mekkora az előfordulási valószínűsége. Brunernél már megjelenik, hogy a hozzáférhetőség jelentősen változhat a személy szükségletei szerint is. Ez az egyik meghatározó eleme a teljes, általában perceptuális készenlét néven ismertté vált elméletnek, amelyben értelmezhetővé válik a beállítódás, várakozás hatása a percepcióra. Bruner elméletének igen jelentős a hatása mind az emlékezeti szerveződésre (ezzel általában a pszichológia Tanulás és emlékezet kurzusai foglalkoznak, tankönyvsorozatunknak Csépe-Győri-Ragó [szerk.]: Általános pszichológia pedig a 2. kötete) vonatkozó pszichológiai munkákra, mind pedig a percepciókutatásra vonatkozóan. Itt most az 1.1 táblázatban összefoglaljuk, hogy mit is tekintett Bruner az azonos kategóriába történő besorolás kritériumainak, és milyen mechanizmusokat tartott meghatározónak a per- ceptuális készenlét közvetítésében táblázat táblázat. Bruner észleléselméletének alappillérei Azonos kategóriába sorolás szabályai Kritikus tulajdonságértékek A perceptuális készenlét alapja Csoportosítás Ezek alapján sorolunk valamit egy kategóriába, a tulajdonságokat ingersajátságok alkotják. Tulajdonságértékek kombinációja Integráció 8

23 1. FEJEZET Érzékelés, észlelés, környezet Egyszerre (konjunktív), csak bizonyos viszony szerint, illetve vagylagosan érvényesülő (diszjunktív) értékek. Tulajdonságsúlyozás Összeillés és eltérés (össze nem illés) Az ingersajátságokból kialakuló tulajdonságjellemzők meghatározása a kategóriára való következtetésben. Elfogadhatósági határ Szűrés Tulajdonságsáv, amelybe a sajátosságnak bele kell férnie. Hozzáférhetőségi tartomány Szelekció (hozzáférhetőségi rend, sorrend) Meghatározói: váratlanság, valósághűség, előfordulási valószínűség, szükséglet Az észlelés egészlegessége: az alaklélektan A környezet-érzékelés-észlelés hármas empirikus vizsgálataiban és elméletrendszerében egy merőben új irányzat jelenik meg az alaklélektannal. Az alaklélektan korát megelőző úttörője, Christian von Ehrenfels már 1890-ben az alak és az egész viszonyával foglalkozik, s bevezet egy nagyon fontos fogalmat. Alaki tulajdonságoknak (Gestaltqualitaten) nevezi a sajátos egészeknek a részidegen, azaz a részektől független, azok feletti, magasabb rendű tulajdonságait. Ezt Ehrenfels a dallam példájával demonstrálja, s úgy érvel, hogy a dallamnak minden hangja kicserélhető, ha az alaki tulajdonság megmarad, tehát minden hangot egy egész hangközzel emelünk meg. Ez az alaki tulajdonság német szóval Gestalt a később teret hódító pszichológiai irányzat jelszava. Az alakpszichológusok érvelése azonban eltért Ehrenfelsétől, hiszen szerintük az alak több, mint a részek egésze, a sajátos alak pedig a résztulajdonságokkal nem egyenrangú valóságkategória. A Ges- taltpszichológia főbb elméletalkotói úgy vélték, hogy az alakészlelés törvényszerűségei széles tartományban érvényesek az érzékelésre, azaz az idegrendszeri történésekre is. Ennek példája a vizuális mező szerveződéséhez hasonlóan elképzelt agykérgi mező. Bár az alakészlelés elképzelései az agyi mechanizmusok szerveződéséről nem állták meg a helyüket, az alakszerveződés sajátosságainak számos jellemzőjét sikerült leírni (bővebben lásd a Tárgyak, formák és alakok észlelése című fejezetnél) és a kor elméleti kereteinek megfelelően magyarázni Észleléselméletek 1970 után Az 1970 utáni észleléselméleteket két alapvető kérdés foglalkoztatja: 1. Milyen feldolgozási törvényszerűségek jellemzik az észlelést? 2. Milyen folyamatok segítik az észlelőrendszert abban, hogy az észlelő személy a környezetéhez alkalmazkodni tudjon, annak jelzéseire megfelelően reagáljon, azaz adekvát akciókat hajtson végre? Azok az elméletrendszerek, amelyekkel a továbbiakban megismerkedünk, többnyire a már ismertetett klasszikus elméletekből nőttek ki Közvetlen észlelés ökológiai észleléselmélet Az ökológiai észleléselmélet kidolgozása James J. Gibson nevéhez kötődik. Gibsont már egészen korai munkáiban sokkal jobban érdekelte, hogy milyen törvényszerűségek jellemzik valós környezetben az észlelést, mint a laboratóriumi kísérletekből levonható következtetések. Egyik leglényegesebb megállapítása és egyben az elméletrendszer kiindulópontja az, hogy az észlelés aktív és közvetlen folyamat. Az észlelés nem valamifajta vákuumban működik, hanem környezeti kontextusban, továbbá nem reprezentációk közvetítik, emiatt elválaszthatatlan a kontextustól és a cselekvéstől. Az érzékelő-észlelő szervezet közvetlenül veszi fel az információt, mégpedig az evolúció során a környezet ingereinek optimális feldolgozására kialakult, hatékony rendszerek segítségével. Az észlelés ökológiai alapja az, hogy az organizmus műveletei a környezethez alkalmazkodjanak, és biztosítsák a túlélést. A direkt észlelés nélkülözhetetlen eleme a mozgás, ez biztosítja, hogy a vizuális környezetet különböző szögből észleljük, és a vizuális információkat saját mozgásunkra vetítve interpretáljuk. Nincs tehát szükség olyan közvetítő folyamatokra, amelyek az információk értelmezését szolgálják. Gibson 1979-es munkájában a mozgást már olyan fontos és alapvető tényezőnek tekinti, amely nélkül nincs, nem lehet valódi észlelés. 9

24 1. FEJEZET Érzékelés, észlelés, környezet Az érzékelés-észlelés korai elméleteiből Gibson átemeli elméletébe az észlelési többlet koncepcióját, bár nem teljesen úgy határozza meg. A gibsoni elméletben gazdagodásnak nevezett többlet nem azonos az észlelés korai elméleteinek a perceptuális tanuláshoz kötött többletével. A gazdagodás azt jelenti, hogy a környezetről szerzett tapasztalatok azonnal és közvetlenül szolgálják az észlelést. A perceptuális tanulás elméletei az érzékelés és észlelés között többlettörténést feltételeztek, és magát a perceptuális tanulást tekintették a gazdagodás alapfolyamatának. Gibson ettől eltérően abból indult ki, hogy az észlelés közvetett (konstruktív) elméletei feleslegesen vonják be a mentális mechanizmusokat, hiszen a jelentés nélküli érzékletek és az észlelés megfeleltetése nem többlettörténés, hanem sokkal inkább egy ellenkező, elsősorban kivonás jellegű folyamat. Ez azt jelenti, hogy a gazdagodás minőségi változás, azaz az ingerekből kivont megkülönböztető jegyek kiemelésével jobb lesz a megfelelés a környezet és az észlelés között. Még egyszerűbben, a szervezet kivonja az ingerek ismétlődő, változatlan, úgynevezett invariáns mozzanatait, így ezek az invariáns tulajdonságok a környezet fizikai jellegzetességeinek állandóságát tükrözik. így lehetséges, hogy nincs szükség önálló kognitív struktúrák feltételezésére, a környezet és az észlelés egymástól való kölcsönös függésének feltárásával megismerhetők az észlelés törvényszerűségei. Az észlelés tehát nem más, mint a környezeti információknak, mindenekelőtt pedig a változatlan tulajdonságoknak a felvétele. Gibson elméletében az észlelés kapcsolata a környezettel egyszerre direkt és jelentésteli. Ez utóbbinak az alapját az úgynevezett használati tulajdonság, az affordancia (az afford lehetővé tesz, engedélyez angol szóból) jelenti. Az affordancia fontos eleme annak, hogy miként észleljük a tárgyakat. Gibson eredeti példája a kivágott fatörzs, amelyet nem egyszerűen csak lapos felületként észlelünk, hanem annak lehetőségét látjuk benne, hogy mire lehet használni. Ez az úgynevezett tárgy-affordancia. Rá lehet tenni valamit, vagy éppen rá lehet ugrani is, ha például egy békáról vagy egy élénk emberről van szó. Az utóbbi példában már megjelenik a tárgyak közvetlen észleléséhez kapcsolódó cselekvési komponens, az úgynevezett akció-affordancia. Ez utóbbi is elválaszthatatlan része az észlelésnek. Gibson szerint a tárgy rezonál az akció lehetőségeivel, a direkt észlelés pedig magában foglalja ezeket, mégpedig együtt a tárgyra vonatkozó fizikai információkkal. A fizikai valóság környezeti (kontextuális) jelzései tehát elégséges információt adnak az észlelt tárgyakról, személyekről, azok helyzetéről, illetve használati értékéről. Gibson elmélete és az abból kiinduló közvetlenészlelés-elméletek alapvetően adatvezérelt (bottom-up), azaz a fizikai valóság tulajdonságai által irányított feldolgozást feltételeznek Közvetett észlelés konstruktív észleléselméletek A közvetett (indirekt) észlelés elméletei szerint a környezeti ingerek (input) csak pontatlan és szegényes adatokat nyújtanak a világ tárgyairól és eseményeiről, így az észlelés lényegét csak a meghatározó kognitív műveletek, számítások megismerésével érthetjük meg. Ezek eredményeként egészülnek ki, kapnak jelentést a környezetből beérkező ingerek. A konstruktív vagy más néven közvetett észlelés elméleteinek térhódítása a kognitív pszichológia megjelenését és kibontakozását követően figyelhető meg. Az új felfogás eredményeként a pszichológiát megtermékenyítő információfeldolgozási szemlélet bevonul az észlelés folyamatainak értelmezésébe. Az információfeldolgozási modellek az észlelésnek már az első szakaszában olyan egészleges leképezést feltételeznek, amely értékelő folyamatokat indít el. A kognitív pszichológia felfogása szerint a megismerő- (kognitív) rendszerben az információfeldolgozás a beérkező ingerek feldolgozásával veszi kezdetét, következésképpen a megismerőrendszer megértéséhez nélkülözhetetlen az elemi szenzoros és észlelési folyamatok ismerete. Az észlelés a kognitív pszichológia felfogása szerint konstruktív, azaz beavatkozás, tapasztalat-, ismeret- vagy koncepcióvezérelt (az angolban egyszerűen csak top-down) mechanizmus. Az észlelés konstruktív természetének egyik gyakran idézett bizonyítéka a téri dimenziók észlelése, amely a beérkező vizuális információkból újraalkotott és -értelmezett, tehát konstruált három dimenzióra épül. A konstrukció egyik alapműködése, hogy a környezeti ingerek forrására vonatkozó információk sémává alakulnak, és ez lesz az, amely az észlelést mintegy felülről irányítva hangolja. Következésképpen az észlelés nem lehet objektív, hiszen az észlelő az érzékelés során feldolgozott fizikai ingerek alapján felépíti, megkonstruálja az észleletet. Az ilyen, úgynevezett mentális számítások (komputációk) során az észlelő élőlény a feldolgozott ingerekhez illeszti, hozzáteszi saját tapasztalatait, elvárásait. Jusson eszünkbe, hogy már Bruner ehhez eléggé hasonló hatásokat feltételezett a perceptuális készenlét elméletében. A közvetettészlelés-elméletek szerint tehát a világ konstruktív észleléséhez mentális reprezentációra, tudásra, azaz sémákra van szükség Az észlelés következtetéselmélete: Richard L. Gregory Gregory (1973/2004) elmélete jellegzetesen konstruktív, azaz top-down észleléselmélet. Legfőbb megállapítása, hogy annak felfogása, hogy éppen mit látunk, elképzelhetetlen előzetes tapasztalat és tudás nélkül. Gregory szerint az észlelés hipotézis-ellenőrzés, eredménye pedig az aktuális ingerek legvalószínűbb magyarázata, 10

25 1. FEJEZET Érzékelés, észlelés, környezet értelmezése. A legtöbb esetben ez az értelmezés igen pontos, és nincs szükség arra, hogy alternatív értelmezés után kutassunk. Gregory érvrendszerének egyik érdekessége az értelmező észlelés és a tudományos hipotézisvizsgálat összehasonlítása. Ezt mutatja be az 1.2. táblázat. A táblázatban szerepelnek azok az esetek is, amelyeket az jellemzi, hogy az észlelőrendszerben a hipotézistesztelés pontatlan. Ekkor következnek be azok az észlelési illúziók, amelyek Grego- ry észleléselméletének érvrendszerében igen fontos szerepet játszanak. Az észlelési illúziók természete Gregory szerint eltérő aszerint, hogy valamilyen fiziológiai mechanizmus vagy kognitív stratégia áll-e a hátterükben. Előbbieket nevezi Gregory mechanizmusillúzióknak. Mechanizmusillúzió (ilyenekről a látásfejezetekben lesz majd szó) például a negatív utókép (például fekete-fehér minta eltűnése után inverz utóképet látunk), a vízeséshatás (adott irányban mozgó tárgyról elnézve az álló tárgy ellentétes irányban mozog), az autokinetikus hatás (statikus fénypont a sötétben mozogni látszik) és a phi-jelenség (egymás után elég gyorsan felvillanó pontok folyamatos mozgás látszatát keltik). Ezeket az illúziókat Gregory szerint nem kell a perceptuális értelmezés keretében magyarázni, mivel megfelelően magyarázhatók annak alapján, amit a látórendszer működéséről tudunk. Az értelmezésnek köszönhető illúziókat nevezi Gregory stratégiaillúzióknak, és számos formájukat különbözteti meg. Az egyik típusba azokat sorolja, amelyek a vizuális környezet állandóságát biztosítják, ezek az úgynevezett észlelési konstanciák. A stratégiaillúziók további nagy csoportját képezik a kétértelmű tárgyak, a paradox illúziók (az úgynevezett lehetetlen tárgyak ilyenek) és a kreatív illúziók (ilyenek az 1.1. ábrán látható Kanizsa-alakzatok). A hetvenes években számos, Gregory koncepcióvezérelt (top-down) észleléselméletéhez hasonló elképzelés születetett. A messze legkomplexebb Ulrich Neisseré, akinek elméletében egyesül a kognitív pszichológia észlelésfelfogása a szelektív figyelem és a perceptuális készenlét elméleteivel Perceptuális ciklus: Ulrich Neisser A kognitív pszichológia úttörője, Ulrich Neisser (1976) szerint az észlelés, beleértve a figyelmet is, készség típusú, dinamikus aktivitás. Ennek értelmében az észlelés olyan, a megismerőfolyamatokból kialakuló aktív ciklus, amelynek rendeltetése, hogy általa a tapasztalataink értelmet nyerjenek. Az úgynevezett perceptuális ciklus modell lényege, hogy az észlelés során a világnak egy aktív, dinamikus megértése áll elő, mégpedig úgy, hogy ez a megértés az idők folyamán állandóan változik. Többről van tehát szó, mint valamiféle statikus reprezentáció létrejöttéről vagy a világot leképező modell kialakításáról. A koncepció alapmegállapítása, hogy a megismerőrendszer csak ökológiai kontextusában értelmezhető, az észlelés a környezeti tapasztalatok és az ebből kialakuló dinamikus reprezentációk kölcsönhatásában jön létre. Ez egyben azt is jelenti, hogy az észlelés állandóan változik, emiatt két észlelési esemény soha nem lesz azonos. Emlékezzünk az ettől eltérő állításon nyugvó tükrözéselméletre, amelynek egyik lényeges eleme az állandóság táblázat táblázat. Az értelmező észlelés és a tudományos hipotézisvizsgálat összehasonlítása (Gregory 1973 nyomán) Megfelelő hipotézis tudományos Megfelelő észlelés Nem megfelelő tudományos hipotézis Nem megfelelő észlelés Jeleket adatként használ Szenzoros jeleket adatként dolgoz fel A jelekből származó Nem dolgozza fel a adatokat torzítja vagy szenzoros jeleket, adatokat ignorálja A tényekre adatokból következtet A tárgyakra/eseményekre az adatok értelmezésével következtet Az adatokból a tényekre következtetésnél torzít, ignorál Nem sikerül a tárgyakra/eseményekre a szenzoros adatokból következtetni Tágabb következtetéseket az adatokból generalizálva von le Az adatokból generalizál, ezzel szolgálja a perceptuális tanulást Félrevezető általánosításokat fogalmaz meg Félrevezető a szenzoros adatokra támaszkodó generalizáció Logikai, deduktív következtetéseket alkalmaz Perceptuális értelmezésre támaszkodik Félrevezetőek következtetések, értelmezések a A perceptuális következtetések a környezet nem adekvát jellemzőire támaszkodnak 11

26 1. FEJEZET Érzékelés, észlelés, környezet Az ellentmondások feloldásához az adathalmazokra támaszkodik Az ellentmondások feloldásához szenzoros adatokra támaszkodik Szükségtelen ellentmondásokat, bizonytalanságokat generál Nem sikerül az ellentmondások feloldása A felmerülő Szenzoros adatokat paradoxonokat feloldja használ a paradoxonok feloldásánál Paradoxonokat generál Sikertelen a paradoxonok feloldása Újdonságok feltárására törekszik, felfedez és feltalál Megfelelő újdonsághelyzetet létre hoz Az újdonság látszatát kelti Alkalmatlan újdonsághelyzetet létre hoz 1.1. ábra. Az észlelési illúziók jellegzetes példái a Kanizsa-ábrák Neisser perceptuálisciklus-elképzelését szemlélteti az 1.2. ábra. Az ábrán jól látható, hogy a környezetben potenciálisan elérhető információ lényegesen több, mint ami aktuálisan elérhető az észlelőrendszer számára. A lényeges információk felvétele azonban nem esetleges, hanem előzetes tapasztalatainkhoz, pontosabban ezek reprezentációjához igazodik. A környezet perceptuális explorációja (keresés, feltérképezés) befolyásolja az ezekből az információkból történő mintavételt. Ezt az explorációt a korábbi tapasztalatok alapján kialakult reprezentációk, a sémák irányítják. A sémák aktívak, ami azt jelenti, hogy folyamatosan hozzáigazítjuk őket tapasztalatainkhoz. A perceptuális ciklus során tehát a séma irányítja az explorációt, az exploráció során a számunkra hozzáférhető információkból mintát veszünk, ez az információ pedig módosítani fogja a sémát. A perceptuális ciklusban a múlt tapasztalatai, a jelen információi és a későbbi viselkedés elválaszthatatlanul összekapcsolódnak. A valóságban tehát percepciónkat számos elvárás módosítja, az észlelés maga több szintet (fiziológiai, kognitív, interperszonális, szociokulturális) érintő, komplex folyamat. Neisser perceptuálisciklus-elmélete a közvetlen- és közvetettészlelés-elméletek szintézisét jelenti. A dinamikus modellben a közvetett- és a közvetlenészlelés-elméleteknek a szenzoros információkra és a mentális folyamatokra vonatkozó megállapításai egyesülnek. A két szemben álló észleléselmélet lényeges eltéréseit az 1.3. táblázat foglalja össze. Neisser modellje azt sugallja, amit minden különösebb pszichológiai előtanulmány nélkül is sejtünk, hogy az észlelés során a szenzoros és mentális folyamatoknak egyaránt szerepük van. Ennek kapcsolatrendszerét az elméletalkotók komplex modelljeikben eltérően képzelik el. A korai észleléseleméletek ellentmondásainak feloldását leginkább az segíti, ha belátjuk, hogy a kétféle megközelítés az észlelés eltérő aspektusait helyezi a középpontba. A komplex modellek közös jellemzője az, hogy az észlelés közvetlen és közvetett folyamatait egységbe szervezik Az észlelés háromszintű elmélete: David Marr Mint az eddigi részekből láthattuk, az észlelés és érzékelés folyamatainak megértetésében a pszichológia újra és újra az adott korban sokak által érthető eszközöket használja fel metaforaként. Emlékezzünk, hogy kezdetben az íratlan lapról (tabula rasa) van szó, később bekerül a magyarázatok keretét alkotó metaforákba a tükrözés, a lenyomat/képviselet (reprezentáció), majd az információk feldolgozásának és a kommunikációnak az adott korban elérhető eszközei. A nyolcvanas évektől a számítások rendszerében történő érzékelés-észlelés 12

27 1. FEJEZET Érzékelés, észlelés, környezet megfeleltetés a számítástechnikából kölcsönzött kifejezéseket használ, így jelennek meg az észlelési szakaszok, a bemenet (input), a hardver (általában az agy) és a kimenet (output) fogalmak. Ez a metafora később bővül a program és az algoritmus fogalmával, azaz azzal az instrukciókészlettel, illetve szabályrendszerrel, amely a bemenetet kimenetté alakítja. A közvetettészlelés-elméletek is próbálkoztak már ezzel, kiteljesedésük azonban a mai elméletutódokban jelenik meg leginkább. Ezek közül itt most legnagyobb hatású úttörő, David Marr elméletével ismerkedünk meg táblázat táblázat. A közvetlen és közvetett észlelés elméleteinek jellemző megállapításai Elmélet Szenzoros folyamatok Mentális folyamatok Közvetetett (konstruktív, ismeret-, koncepcióvezérelt = top-down) Közvetlen (direkt, adatvezérelt = bottom-up) Alapja: egyszerű, elemi, ám nem egyértelmű ingerek feldolgozása Szenzoros információ szerepe: ezekre támaszkodva következtetünk az ingerre, ez a számítási műveletek (komputáció) alapja Alapja: összetett ingerek együttese, amely az észlelés számára hozzáférhető Szenzoros információ szerepe: az összes információt tartalmazó, rendezett és egyértelmű környezeti ingerek feldolgozása A szenzoros inputot egységbe szerkesztjük és értelmezzük a percepció aktív és konstruktív Nincs szerepük, hiszen az észlelés nem más, mint a gazdag és rendezett információ kivonása a környezeti elrendezésből 1.2. ábra. A perceptuális ciklus ábrája Neisser (1976) nyomán David Marr (1982) szerint az észlelés három eltérő absztraktságú, egymást kiegészítő szinten elemezhető. A legelvontabb szint az értelmező észlelésé, amely információfeldolgozásként értelmezhető. Ezt a szintet egy olyan kevésbé absztrakt szint szolgálja ki, mint a szabályok (program) rendszere. A szabályok rendszere az információfeldolgozás során a bemenet átalakítását, illetve a megfelelő kimenet szervezését szolgálja. Az észlelés vizsgálatában Marr szerint a legalacsonyabb szint az észlelés idegi gépezete. Ezen a szinten azt tárhatjuk fel, hogy a feldolgozórendszer miként használja a szabályok rendszerét, Marr szóhasználatában: a programot. Marr tehát az észlelőrendszer feladatának egy adott probléma megoldását tekinti, azaz azt, hogy az érzékszerveink által nyújtott információk alapján meghatározzuk a bennünket körülvevő világot. Ez a meghatározás elég jól működik, még akkor is, ha tisztában vagyunk azzal, hogy az érzékszervi információ nem határozza meg elég pontosan, milyen is a világ valódi természete. Az észlelési folyamatok a világnak mégis jó minőségű és egyben a környezethez való alkalmazkodáshoz szükséges hasznos képviseletét nyújtják. 13

28 1. FEJEZET Érzékelés, észlelés, környezet Marr elmélete nem nevezhető egyszerűen csak konstruktív észleléselméletnek, hiszen az észlelőrendszerben feltételezett számítások egy olyan, tipikusan komputációs elmélet kialakulásához vezettek, amelynek szintjeit a hardver (agy), az algoritmusok (a megfeleltetések rendszere, szabályai) és a számítások (komputációs szint) alkotják. Marr a vizuális észlelés magyarázatára dolgozta ki elméletét, ezt tükrözik a szintek megnevezésére használt kifejezések is. Az elmélet a reprezentációknak olyan háromszintű rendszerére épít, amelyek közül kettőben magának az észlelőnek a jellemzői a meghatározó faktorok, egyben pedig az észlelőtől független környezeti tulajdonságok. Marr részletesen kidolgozott elmélete a téri dimenziók észlelésével foglalkozik. Ebben az első szint (Marr vázlatnak nevezi) a vizuális bemenet kétdimenziós tulajdonságainak (intenzitás, szélek, kontúrok) reprezentációja. Ez az elmélet szóhasználatában a bemeneti információkból létrehozott első vázlat. A második vázlat az ezekből konstruált, már nem kétdimenziós, de még nem téri vázlat, az úgynevezett 2,5 D (D mint dimenzió) vázlat (árnyék, textúra stb.). Marr nem véletlenül állapodik meg a 2,5 D kifejezésnél. Ezzel jelzi, hogy ezen a reprezentációs szinten már többről van szó, mint csupán a két dimenzióban hozzáférhető tulajdonságokról, mivel a reprezentáció az ezekből a tulajdonságokból létrehozott tulajdonságegyüttes, a reprezentáció referenciája azonban még mindig az észlelő maga. A 3-D szint, amely nem más, mint a térnek, azaz a tárgyak alakjának, helyzetének reprezentációja, olyan szintet jelent, amely már független az észlelő nézőpontjától, azaz itt már a tér absztrakt reprezentációjával van dolgunk. Marr elméletének kihívásaival még találkozunk a későbbi fejezetekben. Itt most azt érdemes mindenképpen megjegyeznünk, hogy az észlelés pszichológiájában még ma is legtöbbet a reprezentáció első szintjéről tudunk, az erre épülő, észlelőfüggő második szint mélyebb feltárására számos kutatás irányul, az észlelőfüggetlen harmadik szint feltárása pedig még várat magára táblázat - EEG ÉS MEG A kísérleti pszichológiában és határterületein ma is a legelterjedtebben használt módszer az agy működésekor keletkező bioelektromos és biomágneses jelek mérése. A továbbiakban csak ezeket ismertetjük. A sejtszintű folyamatok mérési módszereivel (akciós potenciál, egy- és többsejt-aktivitás) nem foglalkozunk, ezekre az élettani, illetve pszichofiziológiai tankönyvek, könyvfejezetek bőven kitérnek. Elektroencefalográfia (EEG) Az agy spontán elektromos tevékenységének vizsgálata az EEG (elektroencefalográfia) segítségével történik. Az EEG meghatározóan az idegsejtekben az ingerület továbbításakor keletkező aktivitásnak, az úgynevezett szinaptikus potenciáloknak az összegződése. Az EEG elvezetéséhez a hajas fejbőrre helyezett elektródákat használnak. A modern laboratóriumok sok elektródával mérnek, mégpedig úgy, hogy ezeket (általában elektróda) egy rugalmas sapkában vagy hálóban helyezik el. Ezt mutatja be az 1. ábra. Az elvezetett jelek megfelelően (sok tízezerszeresre) felerősítve digitalizálhatók, számítógépen rögzíthetők. Az EEG-hullámok nagyságával (amplitúdó) és az időegységre eső hullámaik számával (frekvencia) jellemezhető mintázategyüttes az alvás-ébrenléti ciklus különböző állapotaiban igen jellegzetes. Az EEG frekvenciája alapján a delta- (0,5-4 Hz), a théta- (4-8 Hz), az alfa- (8-12 Hz), a béta- (12-20 Hz) és a gamma- (20-40 Hz) sávok különíthetők el. A gamma-sáv kivételével ezek láthatók a 2. ábrán. A különböző sávok eltérő ébrenléti és alvási állapotokat jellemeznek (utóbbiakat az Alvás és álom című fejezet tárgyalja). A relaxált ébrenléti állapotot kísérő jellegzetes EEG-ritmus az alfa. Aktiváló ingerek hatására ezt a szabályos EEG-ritmust gyors frekvenciájú, alacsony feszültségű tevékenység, béta-aktivitás váltja fel. Ezt nevezzük alfablokknak. Azt a jelenséget, amikor a szabályos, lassú hullámú aktivitást gyors, alacsony amplitúdójú váltja fel, EEG-deszinkronizációnak nevezzük. A rendezetlen, alacsony amplitúdójú jelnek nagy amplitúdójú, szabályos mintázattá alakulása az EEG-szinkronizáció. Az EEG nem csupán az éberségi szinttől függ, hanem az agy érettségétől is. Csecsemőkortól felnőttkorig a nyugalmi EEG-frekvenciája nő, amplitúdója csökken. 14

29 1. FEJEZET Érzékelés, észlelés, környezet 1. ábra. EEG- és EKP-vizsgálatokhoz használt elektródaspkák, illetve -háló. A) 128 csatornás elektródaháló, B) 64 csatornás elektródaspka, C) különlegesen szerelt, 256 csatornás elektródasapka Magnetoencefalográfia (MEG) A magnetoencefalográfia (MEG) módszerrel a spontán agyi elektromos aktivitás (helyi áramfolyás) körül kialakuló mágneses erőtérváltozást (fluxus) mérjük. Könnyen belátható tehát, hogy alapvetően a MEG is a posztszinaptikus potenciálok összegződésének eredménye. Az agyi aktivitással összefüggő mágneses fluxus igen kicsi (a földi mágnesesség egymilliomod része), mérése csak erősen lehűtött (-269 Celsius-fokon szupravezető, innen a készülék angol neve: SQUID superconducting quantum inter- ference device) felvevő gyűrűkkel lehetséges. A MEG ma még csak a földi mágnesességet (70 tesla) erősen csökkentő, azaz mágnesesen árnyékolt környezetben alkalmazható. A MEG-gel mérhető agy- kérgi aktivitás téri és idői felbontása is igen jó, jóllehet a felszínre merőleges agyi áram körül létrejövő mágneses fluxus nem mérhető vele. Az EEG és MEG az agy, mindenekelőtt pedig az agykéreg aktivitására vonatkozóan egymást kiegészítő adatokkal szolgálnak 15

30 1. FEJEZET Érzékelés, észlelés, környezet A konstruktív elméletek kiindulópontjául szolgáló empirikus adatok mind arra utalnak, hogy az érzékszervek által felvett információ nem tekinthető csupán véletlenszerű beme- netek sorozatának, hiszen illeszkedik az előre jósolható mintázatokhoz. Az előrejósolha- tóság a környezetről szerzett tapasztalatokra épül, a mintázatok a fizikai világnak a természetéből fakadnak, és annak a környezetnek a sajátosságaihoz illeszkednek, amelyben érzékeink kifejlődtek. Ezt a fizikai környezetet az jellemzi például, hogy a természetes tárgyak felszínének színe és textúrája általában fokozatosan változik, és nem hirtelen, a fény felülről jön, és nem lentről, a tárgyak keménységétől függ a hangenergia visszaverődése. Tudjuk, hogy agyunk működési szabályszerűségei sokban alkalmasak arra, hogy a természetes világot jellemezzék, azaz a természetes világ szabályosságait kivonják, és ezek agyi képviseletét létrehozzák. Nézzük meg ismét az 1.1. ábrát, amelyen Gaetano Kanizsa által kidolgozott alakzatokat láthatunk. Az ábrát nézegetve az a benyomásunk, hogy négy vagy három fekete körön egy fehér négyzet, illetve háromszög látható. Ez az illuzórikus vagy szubjektív kontúr azért jön létre, mert észlelőrendszerünk azt a következtetést vonja le, hogy a közelebbi tárgy eltakarja a távolabbiakat. Ez nem meglepő, ha arra gondolunk, hogy látásunk a természetesen előforduló tárgyak kezelésére alakult ki, így Kanizsa ingereit sem kezeli másként. 2. Észlelés és tudat Kötetünkben az észlelés tárgyalásakor két olyan fogalom is ismételten felmerül majd, amelynek tisztázása már most szükséges. Ez a két fogalom az észlelés és a felismerés. Kezdjük a felismeréssel. A pszichológia ezt a kifejezést általában az észlelt tárgy, esemény azonosításának értelmében használja, a szakkifejezéssé vált felismerés fogalmat pedig az angol recognition alapján. Az angol szó őse latin, a re előtagból és a cognoscere igéből származtatjuk. A re azt jelenti, ismét, a cognoscere pedig azt, hogy tudni, ismerni. A felismerés (recognition) tehát olyasmit jelent, mint az ismét(elt) tudás. Vegyük észre, hogy ez a kifejezés az észlelés egyik lényegi funkciója, azaz az érzékelési mintázat és a környezet megfeleltetése, az azonosságra adott, következetesen egyforma reakció, azaz a cselekvés. Jusson eszünkbe William James burgundi borral 16

31 1. FEJEZET Érzékelés, észlelés, környezet kapcsolatos példája. A különböző alkalmakkor és nagyon különböző körülmények között látott, ízlelt, szagolt bort felismerjük, mi több, még meg is tudjuk nevezni. Vegyük észre, hogy milyen lenyűgöző az a sebesség és az erőfeszítésnek az a látszólagos hiánya, amely ezt a felismerési folyamatot jellemzi. A felismerési folyamat a pszichológia mai ismeretei szerint mégsem ilyen egyszerű dolog. A felismerést az észlelés elemi folyamatai alapozzák meg. Ennek korai szakaszában az érzékelési mintázatot meg kell feleltetni az észlelt környezetnek, az észlelőrendszernek pedig el kell különítenie a tárgyakat, eseményeket azok hátterétől. Amikor valakivel egy mozi előterében beszélgetünk, az illető hangját el kell tudnunk különíteni az olyan háttérhangoktól, mint a többiek beszéde, zene, utcai zajok (erről a jelenségről a hallási észleléssel foglalkozó fejezetekben még sok szó lesz). Ezt a differenciálási folyamatot az észlelés szakirodalmában az elkülönülés kifejezéssel jelöljük. Az elkülönüléshez legalább két lényeges működés szükséges. Az egyik, hogy beszélgetőpartnerünk hangjának összetevőit azonosítsuk, tehát valamiféle vonás-, sajátság- vagy jegyelemzést (a magyar szakirodalomban az angol feature kifejezés eltérő fordítása miatt mindegyik előfordul) végezzünk. A másik, hogy az így azonosított sajátságokat perceptuálisan csoportosítsuk, és így azok egyetlen észlelési tárggyá összeállva elkülönüljenek a háttérzajoktól. Ezek a működési törvényszerűségek, azaz a vonáselemzésre épülő elkülönülés és csoportosítás a felismerésnek az észlelés szintjén meghatározó feltételei. Ezek hiányában észlelési hibák jönnek létre. Az eddigiekből kitűnik, hogy az észlelést olyan feldolgozási teljesítménynek tekintjük, amelynek eredménye megfelel az észleléssel közvetített környezetnek, szolgálva ezzel a környezethez való alkalmazkodást. Az észlelést természetes módon olyan folyamatnak is tekinthetjük, amelynek mindig tudatában vagyunk. Kevés olyan kérdés van, amely a pszichológiában annyi vitát eredményezett volna, mint a tudat meghatározása, illetve a tudat és a megismerőfolyamatok viszonya. Itt most csak az észleléssel foglalkozunk, ezen belül is azokkal a jelenségekkel, amelyek az észlelésnek kimerítik azt az ismérvét, miszerint az észleléssel közvetített környezetnek megfelelő a személy viselkedésében megfigyelhető alkalmazkodás, nem teljesül ugyanakkor az a feltétel, hogy ennek a folyamatnak a személy tudatában van. Mivel a tudat kérdései és elméletei a pszichológiai tanulmányoknak általában későbbi szakaszában kerülnek szóba, itt most egy olyan, viszonylag egyszerű filozófiai elméletet használunk keretként, amely megkönnyíti az észlelés és tudat kapcsolatának megértését. Ned Block (1995) a tudatnak négy eltérő formáját különbözteti meg: a hozzáférési, a fenomenális, az ellenőrző/monitorozó és az éntudatot. Ez a megkülönböztetés egyben azt jelenti, hogy a tudat maga nem egységes konstruktum. A hozzáférési tudat arra vonatkozik, hogy a reprezentációkat előhívhatjuk, ezekkel műveleteket végezhetünk, mindez pedig befolyásolja kommunikációnkat, problémamegoldásunkat és/vagy viselkedésünket. Az információfeldolgozás ennek a hozzáférési tudatnak a megnyilvánulása. Ez azonban nem jelenti szükségszerűen azt, hogy az információfeldolgozásnak tudatában is vagyunk. Azt a szubjektív tudatosságot, amely azzal jellemezhető, hogy tudomásunk van elménk aktuális működéséről, fenomenális tudatnak nevezzük. Az ellenőrző/monitorozó tudat kifejezés arra a tudásra utal, amely a saját megismerőfolyamatainkra vonatkozik, ezt me- takogníciónak is nevezzük. Végül pedig az éntudat az önmagunkról való általános tudás megnevezésére szolgál. A tudat eltérő minőségeinek megkülönböztetése az észlelés és tudat kapcsolatának megértésében annak ellenére jó kiindulópontként szolgálhat, hogy Block véleményét nem minden tudattal foglalkozó filozófus és pszichológus osztja. A lényeg, hogy az észlelés és tudat szétválására (disszociációjára) utaló jelenségek a hozzáférési tudat, és nem általában a tudat hiányára utalnak. Ezek a jelenségek a küszöb alatti (szubliminális vagy tudat alatti) észlelés, a perceptuális elhárítás és a vaklátás jelenségei Küszöb alatti észlelés A küszöb alatti vagy szubliminális, vagy sokszor kissé félrevezetően tudat alatti észlelésnek nevezett jelenség onnan kapta a nevét, hogy a cselekvést meghatározó észlelési teljesítmény olyan tárgyakra jön létre, amelyek olyan alacsony intenzitással vagy olyan rövid ideig jelennek meg, hogy az észlelőnek nincs tudomása róluk, azaz a tudatosság küszöbe alatt maradnak. A küszöb alatti észlelés jelenségének legismertebb példája az a széles körben elterjedt történet, amely szerint egy James Vicary nevű amerikai reklámszakember az ötvenes évek végén egy mozifilmbe olyan rövid, a nézők által fel nem ismerhető képkockákat ágyazott be, amelyeken az Egyél popcornt! és az Igyál Colát! felirat szerepelt. A beszámolók szerint a nézők tömegesen vásárolták az így reklámozott termékeket. Annak ellenére, hogy Vicary később elismerte, hogy ezt a történetet valemelyik hirdető meggyőzésére találta ki, sokan hisznek a küszöb alatti ingerek cselekvést befolyásoló erejében. Ezeknek a történeteknek is köszönhető a küszöb alatti ingerekkel történő kísérletezés elindulása. A küszöb alatti inger egyik ilyen kísérlete Marcel (1983) nevéhez fűződik. Marcel egy módosított Stroopfeladatot használt. Erről a mai napig sokat használt paradigmáról később még szó lesz, itt a megértéshez annyit kell tudnunk, hogy a klasszikus Stroop-feladatban a kísérleti személyeknek színek írott nevére gombnyomással 17

32 1. FEJEZET Érzékelés, észlelés, környezet kell válaszolniuk, mégpedig a tinta színe szerint (például a zölddel írt szavakra, akkor is, ha a szó például a piros ). Az úgynevezett Stroop-hatás lényege, hogy az írás színe és a szavak jelentése ütközik, a gombnyomási válaszhoz szükséges idő (reakcióidő) megnő. Marcel a módosított paradigmában színes tintafoltokat használt, az azokra adott válasz bekövetkeztét pedig gyorsítani, illetve lassítani tudta aszerint, hogy a tintaszínnek megfelelő (kongruens) vagy attól eltérő (inkongruens) szó előzte-e meg a tintafoltot. Az ilyen ingereket nevezzük előfeszítő (prime-) ingereknek. Ebben így nem is lenne semmi újdonság. Marcel azonban az előfeszítő ingereket igen rövid ideig adta, valamint maszkoló (elfedő) ingert is használt. Az előfeszítő inger hatása így is megmaradt. A kérdés itt az, hogy miként definiáljuk a küszöb alatti ingerlést, azaz az észlelhetőség szubjektív (néha észlelhető) vagy objektív (soha nem észlelhető) küszöbét határozzuk-e meg. Az empirikus adatok szerint úgy tűnik, hogy szubjektív küszöb esetében van szubliminális észlelés, objektív küszöb esetében viszont nincs. Ezt bizonyítják az ugyancsak a Stroop-paradigmát alkalmazó Cheesman és Merikle (1984) adatai is, akik szerint szubliminális észlelés (a szójelentés alkalmazása miatt szubliminális szemantikai aktivációnak is szokás nevezni) akkor van, ha az előfeszítő detektálhatósága az objektív és szubjektív küszöb közötti (a szerzőknél százalék) táblázat - KIVÁLTOTT POTENCIÁL ÉS ESEMÉNYHEZ KÖTÖTT AGYI POTENCIÁL Az agy működését nem csupán a spontán aktivitást kísérő elektromos és mágneses változások jellemzik. A környezet ingerei, eseményei egy-egy agyi terület idegsejtjeinek összerendezett, az ingerhez, eseményhez időben kötött, szinkronizált aktivitását váltják ki. Az így létrejövő választ nevezzük kiváltott potenciálnak (KP). Nevét onnan kapta, hogy az egyébként kis feszültségű elektromos jel a háttértevékenységhez képest erősen szinkronizált a kiváltó ingerhez. Magukat a kiváltott potenciálokat csak külön számítógépes eljárással, átlagolással tudjuk a háttértevékenységtől elkülöníteni, kiemelni. Az átlagolás azt jelenti, hogy az ingerhez szinkronizált azonos polaritású jelek felerősödnek, hiszen jel/zaj viszonyuk javul, az eltérőek pedig kioltják egymást. A kiváltott potenciálok több hullámösszetevőből állnak, polaritásukat a létrehozó áramfolyás iránya határozza meg, azaz pozitívak vagy negatívak. A kísérleti pszichológia kevésbé használja a leginkább a szenzoros feldolgozás épségének monitorozását végző klinikai vizsgálatokban elterjedt kiváltott potenciál kifejezést. Helyette a magyar nyelvű szakirodalomban az eseményhez kötött agyi potenciál (EKP) megnevezést használjuk (angolban: Event-Re- lated brain Potentials ERP). Az eseményhez kötött (és nem függő) kifejezés arra utal, hogy az agyi jel (pontosabban jelmintázat) a környezet ingereihez (eseménynek nevezzük őket), azok megjelenéséhez szinkronizált, időben kötött. Adott esemény (villogó pont, tárgy képe, arc, beszédhang, szó, mondat stb.) az egymást követő összetevők (hullámok vagy komponensek) egész sorát váltja ki, ezek megjelenése az egyes elvezetési helyeken eltérő. Egy-egy komponens jellemző elvezetési helyét és a megjelenés kiterjedését (ezt eloszlásnak nevezzük) a jelért felelős agyi áramforrás jellemzői (nagyság, irány, hely) határozzák meg. 18

33 1. FEJEZET Érzékelés, észlelés, környezet 1. ábra. Hillyard (1993) elméleti EKP-görbéje, amelyen láthatók az agytörzsi kiváltott válaszok (I-VI) és a polaritás és megjelenési sorrend szerint sorszámozott (0-3), illetve betűvel (a, b, d) is jelölt komponensek. Az SW a lassú hullám megjelölésére szolgál Az EKP-összetevők (komponensek) osztályozására az elmúlt évtizedekben többféle rendszer is kialakult. Ezek közül ma is használatos annak az időnek (latencia) az alapján történő besorolás, amikor a komponens maximális nagyságát eléri (csúcsamplitúdó). Ezeket osztályozva vannak korai, közép- és hosszú latenciájú komponensek. Sokáig használatban volt az exogén/endogén felosztás. Ez az elnevezés azt sugallta, hogy az exogén komponenseket külső, az endogéneket pedig belső tényezők határozzák meg. A külső itt az események fizikai tulajdonságaira (nagyság, intenzitás stb.), a belső pedig főként a megismerőfolyamatokra vonatkozik. Ma azokat a komponenseket, amelyeket elsősorban az ingerek fizikai tulajdonságai határoznak meg, kötelező komponenseknek nevezzük. Ezek elsősorban a szenzoros feldolgozás agyi korrelátumai. Nevüket polaritásuk és csúcslatenciájuk ideje vagy megjelenésük sorrendje alapján (P50, N100 vagy P0, N1) kapják. 1. ábra. Az eseményhez kötött potenciálok jellegzetes összetevői az elterjedten használt megnevezésekkel. Ezeket a válaszokat soha nem látjuk egyszerre és egy helyen, a hullámok szerkesztettek. Mégis el tudjuk képzelni, hogy az önmagukban (így nem fordulnak elő, kivéve, ha kivonásos eljárást alkalmazunk) feltüntetett összetevők miként módosítják az amúgy is összetett képet A kötelező komponenseket követő valamennyi EKP-hullámot a legáltalánosabban kognitív komponensnek nevezzük. Ezzel azt fejezzük ki, hogy elsősorban a pszichológiai feldolgozási folyamatokkal és az esemény modalitásától jelentős mértékben függetlenül, azaz alapvetően megismerő funkciókkal korrelál. Ezeknek a komponenseknek a nevében többféle elnevezési konvenció érvényesül: 1. A komponens a jellemző elvezetési helyen megjelenő polaritás és csúcslatencia szerint kapja nevét: ilyen a 19

34 1. FEJEZET Érzékelés, észlelés, környezet P300, amely az esemény megjelenését követően 300 ms (milliszekundum) körül megjelenő pozitív hullám. 2. A komponens polaritása és az összetevők sorrendje szerint kapott sorszáma, valamint további osztályozása szerint kapja a nevét: ilyen az N2b, amely a második negatív komponens egyik azonosított komponense. 3. A komponens polaritása és jellegzetes megjelenési helye szerint kapja nevét: ilyen a bal ante- rior negativitás (LAN a nyelvi szerkezetépítés EKP-korrelátuma). 4. A komponens nevét polaritása és az a megismerő funkció adja, amellyel korrelál: ilyen az eltérési negativitás (EN), a feldolgozási negativitás (PN), a hibázáshoz kötött negativitás (ERN). 5. A komponens nevét jellegzetes megjelenési tulajdonsága határozza meg: ilyen az állandó negatív kitérés (CNV). A kognitív (alternatív elnevezés: hosszú latenciájú) összetevők megjelenése és változása az események feldolgozási folyamataival (figyelmi folyamatok, felismerés, azonosítás, döntés, felkészülés-várakozás, emlékezeti keresés, a nyelvi jelentés és szerkezet feldolgozása stb.) korrelál. Az 1. ábra a hallási eseményhez kötött potenciáloknak egy sokat használt klasszikus ábrázolása. Ezen ugyan minden összetevő megtalálható, tudnunk kell, hogy ebben a formában a jelek soha nem vezethetők el egyszerre. 2. ábránk összefoglalóan azokat a komponenseket szemlélteti, amelyeket az észlelés és a figyelem vizsgálatában a kutatók a leggyakrabban használnak, és amelyekre kötetünkben is gyakori utalás történik. Látható, hogy az egyes modalitásokban (látási, hallási) a kötelező komponensek azonos nevet viselnek. Tudnunk kell azonban, hogy a két modalitásban az ezekért felelős feldolgozás eltérő. A hallás esetében az inger fizikai tulajdonságaira elsősorban az N100 (N1), a látás esetében a P100 (P1) érzékeny. A vizuális eseményhez kötött potenciáloknál a P100-at az N140-N170 (N1) hullám követi. Ez már sajátos érzékenységet mutat a vizuális esemény kategóriájára (egyszerü inger, tárgy, arc) is. Mindkét modalitásban jellegzetesen változik az N200 (N2) összetevő, amelynek tipikus elvezetési helye a hallási N1- hez közeli, a vizuális P1-N-től távolabbi. Az N2 két összetevőre bontható. Az N2a-t nevezzük eltérési negativitásnak (EN). A komponens korábbi elnevezése az össze nem illési negativitás volt (az angol MMN mismatch negativity alapján), amely egyben utalt a folyamatnak arra a jellemzőjére, hogy a korábbi, ismétlődő ingerek szenzoros emlékezeti nyomával az eltérő inger (deviáns) nem egyezik, nem illik össze. Az N2b neve az N2a külön nevének elterjedt használata óta egyszerüen csak N2 vagy N200. Az N2 a figyelmi feldolgozáshoz kötött jellegzetes komponens, a hallási vagy látási eseményre irányuló szándékos figyelem vagy figyelmi váltás egyik EKP-korrelátuma. Az ábrán feltüntettük még a várakozás, elvárás jellegzetes komponensét, a cnv-t, valamint a döntés, kiértékelés jellegzetes korrelátumát, a P300 komponenst. összefoglalva megállapíthatjuk, hogy az idegtudomány módszerei a megismerő funkciók vizsgálatára széles körben alkalmazhatók, továbbá új adatokkal segítik a megismerő folyamatok (itt most észlelési és figyelmi) megértését. Ezekkel a módszerekkel eltérő kérdésekre kereshetjük a választ. A hol történik kérdésre a modern képalkotó eljárásokkal adható válasz kiegészül a hogyan történik kérdésre az EEG, az MEG és az eseményhez kötött agyi válaszok vizsgálatával adhatóval Vaklátás A vaklátás (blindsight) kifejezést annak az észlelési jelenségnek a jelölésére használjuk, amelyet az jellemez, hogy az ebben szenvedő beteg a látótérfél adott részének kiesése, azaz az adott területen megjelenő tárgyak tudatos észlelésének hiányában is képes ezekre megfelelően reagálni. A legkorábbi beszámoló a vaklátásról 1917-ből Riddochtól származik (idézi Weiskrantz 1986). Riddoch hadiorvosként szolgált, és olyan katonákat tanulmányozott, akiknek lőtt sérülése a vizuális kérget érintette. A betegek egyetlen tárgyat sem voltak képesek leírni, a tárgyak mozgását viszont észlelték. Riddoch ezt a látókéreg maradványműködésének tulajdonította. A vaklátás kifejezést Larry Weiskrantz (1986) híres betegének, D. B. esetének leírásakor vezette be. D. B. egy agydaganat műtéti eltávolítását követően elvesztette látását mindkét látótérfél bal oldali részében. Ennek ellenére képes volt arra, hogy a felé nyújtott kezet megragadva az őt üdvözlő személlyel kezet fogjon. Weiskrantz vizsgálatai kiderítették, hogy D. B. kényszer- választásos kísérleti helyzetben (két lehetséges közül egyik választ kell adni, Nem tudom válasz nincs) a vizuális ingerek egyes tulajdonságait a sérült látótérfélben is feldolgozta. Ilyen volt a bemutatás helye, a vonalak téri iránya, a tárgyak mozgásiránya. D. B. teljesítménye tehát arra utalt, hogy tudatosság hiányában is megtörtént egyes vizuális jellemzők észlelése. A látási észlelés tanulmányozásakor szó lesz a feldolgozás elkülönülő alrendszereiről, és ott majd mélységében is megértjük, 20

35 1. FEJEZET Érzékelés, észlelés, környezet hogy az észlelésnek miért pont ezek a minőségei maradtak meg. A tudat kérdése szempontjából azonban elég meggyőző, hogy itt a hozzáférés tudatossága sérül, és nem a tudat más minősége Perceptuális elhárítás A perceptuális elhárítás fogalma a pszichoanalízis szótárából került át az észlelés pszichológiai irodalmába. Eredeti jelentése szerint arra az észlelési eltérésre utal, amely érzelmileg telített, negatív eseménnyel, jelentéssel társuló ingerek esetében figyelhető meg, és abban ragadható meg, hogy ezeket a terhelt környezeti ingereket nehezen, kevésbé vagy egyáltalán nem észleljük, hétköznapi kifejezéssel Nem vesszük észre. A jelenség összhangban van Sigmund Freudnak azzal az elképzelésével, hogy az elhárító mechanizmusok már a percepció szintjén is működnek, azaz az elhárítás magát az ént (ego) védi azáltal, hogy már a bejutás szintjén elutasítja, megakadályozza a fenyegető, kellemetlen ingerek feldolgozását. A legelső kísérleti munkák egyike (Blum 1955) azt vizsgálta, hogy a tachisztoszkóp (az ingerek gyors, rövid idejű bemutatását lehetővé tevő készülék, a számítógépek megjelenése előtt ilyet alkalmaztak a vizuális észlelés vizsgálatában) segítségével felvillantott, érzelmi feszültséget keltő képek megnevezése eltér-e a semlegesekétől. Kiderült, hogy a kísérleti személyek a semleges képekből csaknem háromszor annyit neveztek meg, mint a konfliktussal, elfojtással járó képekből. A hosszabb bemutatási idejű képeknél azonban ez a hatás nem jelentkezett, Blum ezért arra a következtetésre jutott, hogy perceptuális elhárítást az inger váltja ki, de a válaszrendszerben jelenik meg. Ez az úgynevezett ingerhatás-hipotézis eltér minden olyan felfogástól (pl. Eriksen 1957), amely szerint az elhárítás nem a válasz, hanem a percepció szintjén jelenik meg. Ez utóbbi feltételezést azonban nem igazolják a későbbi kísérletek, amelyek azt mutatják, hogy érzelmileg telített vagy tabuszavak esetében maga a felismerés, a megnevezés a rosszabb, és nem az ingerfeldolgozás. Ha ugyanis ezeknek a szavaknak a megjelenési helyét kell jelölni, a találati arány nem különbözik (MacIntosh 1961). A perceptuális elhárítás esetében tehát ismét arról van szó, hogy a hozzáférési tudatosság változik, illetve a feldolgozás végeredménye a szubjektív küszöb szerint változik. Összefoglalva megállapíthatjuk, hogy az észlelés tudatosságának különleges jelenségei mindenekelőtt a hozzáférés tudatossága, és nem általában a tudat szempontjából értékelhetők igazán. 3. Hogyan tudhatunk meg még többet az észlelésről? A kísérleti általános pszichológiában az észlelés vizsgálatának tárgya a tipikus észlelő, azaz a felnőtt ember. Az észlelési képességek minden jel szerint normális eloszlásúak, az emberek többségére tehát az alaptörvényszerűségek érvényesek. Ugyanez vonatkozik a később tárgyalandó figyelmi jelenségekre és az alvásébrenlét folyamataira is. Az egyes jelenségek tárgyalásánál végig azt a hagyományt követjük, hogy elsősorban a felnőtt személyekre vonatkozó általános törvényszerűségeket mutatjuk be. Az észlelés természetének megértését azonban jelentősen segítik azok az adatok, amelyek a sérült vagy a fejlődő ember észlelésére vonatkoznak, illetve azok, amelyek az állatkísérletekből származnak. Ezekkel mélységében a neuropszichológia, a fejlődéspszichológia és az összehasonlító pszichológia foglalkozik. Eredményeik azonban egyes jelenségek megértéséhez nélkülözhetetlenek. Ezeket könyvünk többnyire a törzsszövegtől elkülönítve a kitekintést, alkalmazást bemutató szövegdobozokban tárgyalja. Az észlelést, figyelmet és persze a megismerőfolyamatok mindegyikét vizsgálhatjuk fejlődésükben: újszülötteknél, csecsemőknél, gyerekeknél és az idős embereknél. A kilencvenes évek második fele óta mindkét területre jelentős kutatási kapacitás összpontosul. Az észleléssel és a figyelmi folyamatokkal kapcsolatos új eredmények az érzékelőrendszer és az észlelési élmény, illetve a figyelmi feldolgozás közötti kapcsolatokra világítanak rá. Az állatokkal végzett kísérletek adatai egy új szemponttal egészítik ki a pszichológia ismeretbővítését és elméletépítését, ez pedig az evolúciós megközelítés. Kötetünkben nemegyszer utalunk azokra az adatokra, amelyek az emberi észlelés, figyelem, az alvás és ébrenlét jelenségeinek megértésében jelentősek. Végül, a neuropszichológia a pszichológiának az a területe, amelynek adatai gyakran segítik a sérült agy funkcióiból eredő eltérések elemzésén keresztül a tipikus észlelési, illetve megismerési folyamatok megértését. A színészlelés megértéséhez például hozzájárultak azok az adatok, amelyek a színlátás eltérő zavarait mutató emberektől származtak. A tárgylátásban elkülönülő alrendszerek megismerését jelentősen segítették az agyérkatasztrófát követően eltérően észlelő emberektől származó adatok. Annak ellenére, hogy még ma sem ismerjük az észlelőrendszert teljességében, a sérülésnek az észlelésre gyakorolt hatásából fontos következtetéseket vonhatunk le. Meg lehet határozni például, hogy az észlelés melyik részeit érinti a zavar, és melyeket nem. 21

36 1. FEJEZET Érzékelés, észlelés, környezet Gondoljunk például azokra a betegekre, akik az arcokat nem ismerik fel, a tárgyakat viszont igen (az alak- és tárgyészlelésnél erről még szó lesz). Az észlelés természetéről, az érzékelés és az észlelés viszonyáról úgy is többet tudhatunk meg, ha a tipikus észlelőt vizsgáljuk, viszont a rendszer gyengeségeit ismerve provokáljuk a hibák megjelenését. A kiprovokált hibák az észlelés olyan rejtett tulajdonságait teszik láthatóvá, amelyekhez a tipikus, hibátlan működés vizsgálatakor nem férünk hozzá. Ennek legkönnyebb, legegyszerűbb kiváltását azok a helyzetek jelentik, amelyekben az észlelési illúziónak nevezett hibák megjelennek. 4. Érzékelés és észlelés: az átalakítás folyamatai Mint a korábbi fejezetekben láthattuk, az észlelés bármely aspektusát vizsgáljuk, legyenek azok mégoly furcsa jelenségek is, mint a küszöb alatti észlelés, a vaklátás vagy a percep- tuális elhárítás, a mélyebb megértéshez nélkülözhetetlen az érzékelés és a fizikai környezet viszonyának, illetve az érzékelés és az észlelés viszonyának, törvényszerűségeinek ismerete. Könyvünk minden esetben részletesen foglalkozik mindkettővel, ezért a továbbiakban azokat az alapfogalmakat tekintjük át, amelyek a bemutatandó ismeretek megértéséhez, elsajátításához nélkülözhetetlenek táblázat táblázat. Az adekvát ingerek jellemzõi az egyes érzékleti modalitásokban Érzékszerv/receptor Adekvát inger Átalakítandó jel Szem/retina Fény Sugárzási energia (hullám) Fül/alaphárthya Hang Mechanikai energia (hullám) Orr/szaglóhám Szag Gáznemü anyag molekulái Nyelv/ízlelőbimbók íz Oldott molekula Bőr, belső szervek stb. Tapintás/érintés/nyomás Hőmérséklet Vibráció Mechanikai energia Hőenergia Mechanikai energia (főként a hullámtermészetü) Tudjuk, hogy az észlelő élőlény környezete olyan ingerek sokaságából áll, amelyek többségét fizikai jelek (például hullámtermészetű jelek, mint a hang vagy a fény), illetve kémiai anyagok (oldott vagy gáznemű anyagok, mint az ízlelés vagy a szaglás esetében) alkotják. Az érzékelés végállomása és egyben az észlelés központja, műhelye, az agy ezek feldolgozására nem alkalmas. Ezek a jelek az érzékszervek receptoraiban fordítódnak át az idegrendszer számára értelmezhető elektrokémiai kóddá. Ezt az átalakítást, átfordítást nevezzük transzdukciónak. Valamennyi érzékelési osztályban, szakszóval modalitásban (látás, hallás, ízlelés, szaglás, tapintás), a feldolgozás a transzdukcióval, azaz a szenzoros kódolás folyamatával kezdődik. Az átalakítás főbb szervei az érzékszervek, ezekben találhatók a fizikai és/vagy kémiai ingerek átalakítását végző egységek, a receptorok. Az egyes érzékleti modalitásokban a receptorok adott típusú fizikai vagy kémiai ingerekre reagálnak. A receptor átalakító funkcióinak megfelelő ingert nevezzük megfelelő vagy adekvát ingernek (lásd az összefoglaló 1.4. táblázatot). Az adekvát ingerek a receptorok átalakító funkciójának köszönhetően ingerületté, azaz olyan neurális impulzusok sorozatává alakulnak át, amely akciós potenciálok formájában továbbítódik az agyba. A szenzoros kódolás kettős folyamat, részben anatómiai (különböző idegrostok állnak az egyes működések szolgálatában), részben idői tulajdonságokkal (például a sejtkisülések aránya, sebessége) jellemezhető. A különböző ingerek olyan akciós potenciálokba fordítódnak át, amelyeknek a variációs lehetőségei igen sokfélék. Az agyba az idegimpulzusok a megfelelő érzékelési pályákon, különböző kéreg alatti átkapcsolóállomásokon (szubkortikális struktúrák) továbbhaladva jutnak el az agykéreghez. Az érzékelés-észlelés folyamatai szempontjából fontos tudnunk (emlékezzünk anatómia-élettan tanulmányainkra), hogy az elsődleges feldolgozást végző szenzoros kérgi területek működésére minden modalitásban egy igen összetett és 22

37 1. FEJEZET Érzékelés, észlelés, környezet meghatározott feldolgozási hierarchiát alkotó kérgi rendszer épül. Ezzel részletesen majd az egyes fejezetekben ismerkedhetünk meg. Az érzékelés és észlelés pszichológiája az a terület, amely a releváns élettani és anatómiai ismeretekre is erősen alapoz. A folyamatok valódi, mélységében való megértése ma már alig lehetséges az idegtudomány alapvető eredményeinek ismerete nélkül. A klasszikus és modern tudás megszerzése során sem kerülhetjük meg ezeket, sőt könyvünkben is sokszor lesz szó azokról az idegtudományi adatokról, amelyekre az általános kísérleti pszichológia támaszkodik. A pszichológiai alaptanulmányok során mélységében (pszichofiziológia) vagy sokszor csak nagy vonalakban ismertetett módszereket az emlékeztető szövegdobozok foglalják össze (lásd Hagyományos módszerek az észlelés és a figyelem vizsgálatában; Képalkotó eljárások). A módszerek bemutatási mélysége aszerint változik, hogy kötetünk egyes fejezetei (és általában a kísérleti pszichológia területei) milyen mértékben támaszkodnak rájuk ÖSSZEFOGLALÁS 1. Ebben a fejezetben megismertük az érzékelés, az észlelés és a környezet viszonyára vonatkozó meghatározó pszichológiai elméleteket. Megállapítottuk, hogy az észleléspszichológia történetében két alapvető felfogás, ebből pedig két eltérő modell alakult ki. Ezek a közvetlen és a közvetett észlelés elméletei. A közvetlen észlelés modelljei korán, már a 19. század végén, 20. század elején megjelentek, a közvetett észlelés elméletei és a két felfogást integráló modellek a kognitív pszichológia térhódításához köthetők. 2. A közvetlen, direkt vagy adatvezérelt (bottom-up) feldolgozást középpontba állító modellek megállapításainak lényeges eleme, hogy a világ valamennyi ingere közvetítő folyamatok nélkül is hozzáférhető az észlelő számára. Ennek alapja az, hogy a környezeti ingerek az észleléshez szükséges összes információt rendezetten és egyértelmű formában hordozzák. A közvetlen észlelés elméleteiben a mentális folyamatoknak nincs szerepük, vagy nem tudatos döntéseket, értelmezéseket szolgálnak. 1. A közvetetett, indirekt vagy koncepcióvezérelt (top-down) modellekben a szenzoros ingerek az észlelést szolgáló következtetéseknek csak alapját jelentik, az észlelés számítási műveletek eredménye. Közvetett észlelésre azért van szükség, mert a környezeti ingerek (input) a világ tárgyairól és eseményeiről pontatlan információval szolgálnak. Ezekben a modellekben a közvetlen észlelés elméleteinek következtetés mechanizmusa helyébe a számítási műveletek (komputációk) lépnek, az észlelés kognitív műveletekre, számításokra támaszkodik. 2. Az észlelés dinamikus modellje szerint az észlelőrendszer számára feldolgozhatónál több információ felvétele a világ reprezentációjához igazodik. A környezet perceptuális explorációja befolyásolja az ezekből az információkból történő mintavételt, az exploráci- ót reprezentációk, sémák irányítják. Az észlelés folyamatai perceptuális ciklust alkotnak, ezt a múlt tapasztalatai, a jelen információi és a későbbi viselkedés kapcsolatai alkotják. Az észlelés több szintet (fiziológiai, kognitív, interperszonális, szociokulturális) érintő komplex folyamat. 3. Megállapítottuk, hogy az észlelés során a felismerést elemi folyamatok, az elkülönülés és a csoportosítás alapozzák meg. Az észlelés és tudat viszonyával kapcsolatban amellett érveltünk, hogy a tudat és észlelés disszociációjára utaló különleges jelenségek mindenekelőtt a hozzáférés tudatosságának eltérő szintjeire, és nem általában a tudat és észlelés elkülönülésére engednek következtetni. 4. Bemutattuk, hogy az érzékelés alapjelenségei az észlelést szolgálják. A környezet fizikai jeleinek átalakítása (transzdukció) az érzékszervek receptoraiban történik. A fizikai és/vagy kémiai ingerek átalakítását a receptorok végzik. A receptor átalakító funkcióinak megfelelő adekvát inger ingerületté, azaz olyan neurális impulzusok sorozatává alakul át, amely akciós potenciálok formájában továbbítódik az agyba. Az érzékelés/ észlelés vizsgálatának klasszikus (RI és GBR) és modern eljárásai (EEG, EKP, modern képalkotó eljárások) segítségével a feldolgozás eltérő szintjeiről szerezhetünk ismereteket KULCSFOGALMAK érzékelés, észlelés, észlelési többlet, közvetett észlelés, közvetlen észlelés, perceptuális készenlét, perceptuális tanulás, reprezentáció, valószínűségi értékelés 4.3. ELLENŐRZŐ KÉRDÉSEK 1. Miként magyarázzák a nagy észleléselméletek az érzékelés és észlelés viszonyát? 23

38 1. FEJEZET Érzékelés, észlelés, környezet 2. Mi a szenzoros információ szerepe a közvetlen és közvetett észlelés elméleteiben? 3. Miként változik a mentális folyamatok szerepe a közvetlen és közvetett észlelés elméleteiben? 4. Mi a séma szerepe Bruner perceptuális készenlét és Neisser perceptuális ciklus modelljében? 5. A perceptuális elhárítás a feldolgozás mely szintjein érvényesülhet? 6. Miként értelmezhető a tanulás és észlelés viszonya a perceptuális tanulás modelljeiben? 7. Mi a különbség az észlelési többlet és az affordancia között? 8. Mi a mai pszichológia észleléskoncepciója? 9. Az érzékelésnek melyek az alapfolyamatai? 10. Mi az észlelés és a tudat viszonya? 11. Milyen új szempontokat vezetnek be az észlelés magyarázatában a komputációs elméletek? 4.4. AJÁNLOTT OLVASMÁNYOK Bruner, J. S. 1957/2004. A perceptuális készenlétről. In: Pléh Csaba Boross Ottilia (szerk.): Bevezetés a pszichológiába. Osiris, Budapest, Dúll Andrea Az érzékelés és az észlelés. In: Oláh Attila Bugán Antal (szerk.): Fejezetek a pszichológia alapterületeiből. Második, bővített kiadás, ELTE Eötvös Kiadó, Budapest, Gregory, R. L. 1973/2004. A megtévesztett szem. In: Pléh Csaba Boross Ottilia (szerk.): Bevezetés a pszichológiába. Osiris, Budapest, Sekuler, R. Blake, R Észlelés. Osiris, Budapest. Szokolszky Ágnes Kutatómunka a pszichológiában. Osiris, Budapest. 24

39 2. fejezet - 2. FEJEZET Pszichofizika 1. Elmélet Ebben a fejezetben az érzékelés mérésével, más szóval ingerek és érzékletek viszonyának kísérleti és elméleti problémáival ismerkedünk meg. E területet pszichofizikának is szokás nevezni. A pszichológia-tankönyvek gyakran kezdődnek az érzékelés, illetve észlelés tárgyalásával, több okból. Egyrészt az összetett jelenségek tudományos megismerése a részletek vizsgálatával kezdődik. Hogy az emberi elme hogyan osztható részekre, az bonyolult kérdés, ám a pszichológia nagyjai a század fordulóján javarészt egyetértettek abban, hogy az érzékelés és észlelés vizsgálata jó kiindulópont a természettudományos irányultságú pszichológia számára. Az érzékelés és észlelés jelenségei, bár befolyásolja őket a gondolkodás, érzelmi állapot, személyiség és más, összetettebb pszichológiai jelenségek, vizsgálhatóak ezek nélkül is. A pszichológusok többsége ma is úgy gondolja, hogy az észlelés bizonyos mértékig autonóm, szerveződésében és működésében saját törvényeit követi. Ez természetesen nem jelent teljes függetlenséget mondjuk a nyelvhasználattól, a gondolkodás különféle formáitól vagy az érzelmektől, de részleges függetlenséget igen. Ez utóbbi, magasabb rendű jelenségek ráépülnek az észlelésre (például a vizuális képzelet és problémamegoldás ráépül a látásra), és e magasabb szintek nem is képesek mindenben hatni az észlelési folyamatra (például számos vizuális illúzió esetén olyasmit látunk, amiről tudjuk, hogy nem úgy van, ahogy látszik, e tudásunk hatására mégsem tűnik el az illúzió). Ezen általános okok miatt az érzékelés és észlelés vizsgálata mind a mai napig jól körülhatárolt terület a pszichológián belül. A pszichofizika keretében egyrészt az érzékelés egyes törvényszerűségeivel, másrészt az alapvető vizsgálati módszerekkel ismerkedünk meg Skálatípusok Az ingerek és érzékletek viszonya, illetve általában a pszichológiai mérés alapfogalmai közé tartoznak a skálák különféle típusai. Általánosságban az osztályozásnak, illetve skálázásnak négy alapvető típusát szokták megkülönböztetni. A skálázás legegyszerűbb fajtája az, amikor az egyes eseteket egymástól különböző, diszkrét kategóriákba sorolással különítjük el. Ilyen mondjuk a telefonszámok esete: az egyes számok pusztán megkülönböztetik egymástól az egyes telefontulajdonosokat, ezenkívül semmilyen más viszonyt legfőképp nagyságrendi viszonyt nem fejeznek ki köztük. A skálázásnak ezt a legalapvetőbb esetét nominális skálázásnak nevezzük. A nominális skálánál többet mond, ha egy adott tulajdonság szempontjából nagyság szerinti sorrendbe tudjuk rendezni a skálázandó elemeket. Mondjuk egy ének- vagy szavalóversenyen a zsűri aszerint rendezi sorba a résztvevőket, hogy milyen szépen énekeltek, illetve szavaltak. A sorrend egyértelmű, azonban semmit nem mond a rangsor tagjai közötti különbségek nagyságáról. Lehet például, hogy az első helyezett sokkal jobb volt a másodiknál, míg a második és a harmadik között olyan kicsi volt a különbség, hogy a zsűrinek nehéz dolga volt a döntésnél. Ezt az információt a rangsor maga nem tartalmazza bár a zsűritagok természetesen külön elmondhatják erre vonatkozó benyomásukat. Az ilyen típusú skálát amely tehát egy adott tulajdonság szerinti rangsort állít föl ordinális skálának hívjuk. Egy érdekesebb példája az ordinális skálának az ásványok keménységét jellemző Mohs-féle skála (e skálát Frederick Mohs osztrák ásványtani szakértő hozta létre ben). E skálán aszerint rendezik sorba az ásványokat, hogy melyik karcolja a másikat. A Mohs-féle skála a mai napig használatos a keménység jellemzésére lényegesen jobb módszert azóta sem sikerült találni. Az intervallumskála esetében már a skálázott elemek közti különbségek nagysága is kifejezhető, de a skálának nincs természetes nulla pontja. Az idő skálázása az intervallumskála jó példája: dátumok párjai között eltelt időmennyiségek összevethetők egymással nagyság szempontjából, viszont az egyes dátumok, időpontok abszolút nagyságáról nincs értelme beszélni. Arányskáláról akkor beszélünk, ha a skálaértékek közötti különbségek nagysága értelmezhető, és van természetes nulla pont is. A diszkrét darabszámot vagy folytonos anyagmennyiséget kifejező skálák az arányskálák legjobb példái. Pszichofizikai, pszichológiai skálázásnál fontos kérdés, hogy egy adott méréssel kapott értékek milyen skálán értelmezhetőek. Pszichológiai változók vizsgálata esetén leginkább az ordinális-, illetve az intervallumskála közötti választás jelent kényes kérdést. Ha például kísérleti személyek egy csoportjával hétfokú skálán megítéltetjük, hogy különböző fajtájú csokikat mennyire találnak finomnak, természetesnek gondolhatnánk, 25

40 2. FEJEZET Pszichofizika hogy az ítéleteket vagy ezek átlagait, intervallumskálaként kezeljük. Ez azonban félrevezető lehet, mégpedig azért, mert a különböző személyek esetleg eltérően súlyozzák az egyes skálaértékeket. Előfordulhat például, hogy az egyik személy számára az 1. és a 2. skálapontok közötti választás sokkal kisebb szubjektív különbséget jelent, mint a 6. és 7. pontok közti választás, mert a legmagasabb értéket csak nagyon finom csokinak hajlandó adni. Ugyanakkor más személyek számára lehet, hogy a skála középső értékei közötti választásnak nagyobb a jelentősége, s a végeknek kisebb. Ilyen esetben a skála nem tekinthető egyenletesnek semmi sem biztosítja, hogy két szomszédos skálapont különbsége két másikéval azonos szubjektív különbségnek feleljen meg. Az eredményeket ezért nem lehet intervallumskálaként értelmezni. Annyi azonban bízvást feltételezhető minden személy esetében, hogy amelyik csoki magasabb értéket kapott a skálán, azt finomabbnak tartották, mint azt, amelyiknek alacsonyabb volt a skálaértéke. Ordinális skálaként tehát nyugodtan értelmezhetjük az eredményeket. Ez persze hatással van arra is, hogy milyen statisztikai eljárásokkal elemezhetjük az eredményeinket, tehát a mérési adatok skálák szerinti értelmezésének messze ható következményei vannak Abszolút és különbségi küszöbök Egy adott ingertartományon belül (például hangerő, fényerő, a bőr mechanikai ingerlésének ereje) abszolút küszöbnek nevezzük azt a legkisebb ingerintenzitást, melyet még éppen észlelni tudunk. Különbségi küszöbnek nevezzük viszont azt a még észlelhető legkisebb ingerkülönbséget, amely a két ingert megkülönböztethetővé teszi. A küszöbök mérése a pszichofizika legalapvetőbb módszere, melynek kidolgozása Gustav Theodor Fechner német filozófus és fizikus nevéhez fűződik. Fechnert ugyanakkor a misztika is érdekelte, s úgy gondolta, eljárásai matematikai eszközt hozhatnak létre a szellemi és fizikai világ közötti kapcsolatteremtésre. Bár ma már kissé földhözragadtabban definiáljuk a pszichofizika célját, a mai küszöbmérési módszerek mindegyike tekinthető a Fechner-fé- le eljárások továbbfejlesztett változatának. A küszöbökkel kapcsolatban néhány alapvető észrevételt kell tennünk. Egyrészt a küszöbök és általában az érzékelés egy személy esetében is időbeli ingadozást mutat, amit számos pszichológiai tényező együtthatása (érzelmi állapot, fáradtság, a figyelem irányultsága, a személy érdeklődése stb.) okoz. Ha egy gyenge ingert mondjuk egy halk hangot mutatunk be valakinek, s a személy azt jelzi, hogy érzékelte, még előfordulhat, hogy néhány másodperc múlva, ugyanazt az ingert megismételve arról számol be, hogy nem érzékelt semmit. A küszöb körüli érzékelés tehát valószínűségi esemény: egy küszöb körüli ingert jellegzetesen egy adott valószínűséggel érzékelünk, ami egyénenként is változhat. Míg például egy alacsony hangerővel bemutatott 444 Hz-es normál A hangot egy adott személy mondjuk tíz esetből átlagosan háromszor vesz észre, addig egy másik személy tíz esetből átlagosan hatszor. Vagy: ugyanaz a személy reggelente, kipihenten tízből átlag hatszor, míg este, fáradtan csak kétszer. Küszöbökről tehát csak valamilyen valószínűségi értékhez viszonyítva érdemes beszélni. A különbségi küszöböknek emellett egy másik alapvető tulajdonsága, hogy arányosak az összehasonlítandó ingerek nagyságával. Ha mondjuk függőleges vonalakról kell eldönteni, hogy azonos hosszúságúak-e vagy sem, akkor egy 1 centiméteres vonalat jó esély- lyel meg tudunk különböztetni egy 11 milliméterestől, ám egy 20 centiméteres vonalat egy 201 milliméterestől már aligha. Egy 20 és egy 22 centiméteres szakasz megkülönböztetése megint csak viszonylag könnyű. Ernst Weber német orvos és fiziológus ismerte föl azt az összefüggést, hogy a különbségi küszöb arányos az inger nagyságával. Ennek hagyományos képletes kifejezése: ΔI/I = c, ahol I egy alapinger, I + ΔI az a megnövelt inger, amit I-től éppen meg tudunk különböz- tetni.ezt az alapvető szabályszerűséget melyet a következő bekezdésekben részletesebben is kifejtünk Weber-törvénynek nevezik. A különbségi küszöb tehát egyszerre arányos az ingerek abszolút értékével, és ugyanakkor valószínűségi jellegű is. E két tulajdonság alapján definiálhatjuk az úgynevezett legkisebb érzékelhető különbséget (LÉK; lásd Mérő 1987). Egy X ingerkontinuum (például fehér fény erőssége, adott vonalak hosszúsága, 100 Hz-es hang erőssége) minden egyes x eleméhez és egy rögzítettp valószínűségi szinthez tartozik egy y ingerkülönbség, melyre igaz, hogy az x ingert és az x + y megnövelt ingert éppenp valószínűséggel vesz- szük észre. Az y különbséget nevezzük ekkor az x-hez és p-hez tartózó legkisebb érzékelhető különbségnek: y = LÉKp(x). Általában, konvenció szerint a különbségi küszöbök mérésekor a p = 0,75 valószínűségi szintet használjuk, vagyis egy ingerhez tartozó különbségi küszöb az azy szám lesz, melyre igaz, hogy az x ingert az x + y ingertől átlagosan négy esetből háromszor különböztetik meg a személyek. Ugyanakkor igaz a következő összefüggés is: 26

41 2. FEJEZET Pszichofizika LÉK/ x) > LÉK^x). Általánosságban, ha q > p, akkor LÉK q(x) > LÉK p(x). Szavakban kifejezve: nagyobb megkülönböztetési valószínűségekhez nagyobb ingerkülönbségek tartoznak egyazon ingerkontinuumon belül. Az eddigiekkel persze az érzékelés problémáját egydimenziósra egyszerűsítettük, ami kételyeket ébreszthet az olvasóban afelől, hogy egyáltalán beszélünk-e még valami lényegesről, miután ilyen szűkre szabtuk vizsgálatunk tárgyát. Mint azonban látni fogjuk, már egy ennyire redukált jelenségvilágban is igen érdekes összefüggések tárhatók föl. Természetesen ezek áttekintése után több dimenzióval leírható érzékelési-észlelési jelenségeket is megvizsgálhatunk ezt röviden meg is fogjuk tenni, még ebben a fejezetben. A Weber-törvényt a fenti egyszerű képlet segítségével is megfogalmazhatjuk. Tartva magunkat a 75 százalékos konvencióhoz, adott X ingerkontinuum minden x elemére fennáll, hogy LÉK 0,75(x) = cx, azaz egy x ingert c-szeresére kell növelnünk ahhoz, hogy a megnövelt ingert és az eredetit éppen 75 százalék eséllyel (átlagosan négyből háromszor) tudjuk megkülönböztetni. A c érték minden esetben 0 és 1 között van; általában 10 százalék körüli ingernövekményt a legtöbb ingertartományban már megbízhatóan érzékelni tudunk Érzetfüggvények Az érzetfüggvények problémáját szintén Fechner vetette föl. A kérdés tehát az, hogy hogyan állapíthatunk meg matematikai összefüggést a külső fizikai ingerek és érzékleteink között? Míg az ingereket mérhetjük közvetlenül, addig az érzékletekhez nincs közvetlen hozzáférésünk. Pontosabban szólva, közvetlen mérésre lehetőséget adó hozzáférésünk nincs az érzékletekhez. Saját érzékleteinkhez van ugyan egy egyes szám első személyre korlátozott, szubjektív hozzáférésünk, ezt azonban nem nagyon lehet mérésnek alávetni. Mint láthattuk, ha mást nem is, a LÉK-eket mérhetjük (ennek mikéntjéről a Módszerek alfejezetben szólunk), és már ez is mond valamit ingerek és érzékletek matematikai összefüggéséről. Fechner e problémán gondolkodva úgy érezte, hogy a LÉK-ek az ember érzékelőrendszere számára is a legtermészetesebb skálázási egységet képezik. Azaz a LÉK-ek mérése eszerint nemcsak egy, a közvetlen érzékletmérést helyettesítő, ha ló nincs, jó a szamár is módszer, hanem érzékelőrendszereink működésének lényegére tapint rá. Természetesen a LÉK-ek mérése akkor is igen hasznos, ha nem gondoljuk úgy, hogy az érzékelés természetes skálaegysége a LÉK. Sőt, mint hamarosan látni fogjuk, érzetfüggvényeket lehet úgy is konstruálni, hogy nem a LÉK-ek méréséből indulunk ki. Mivel az érzékelést oly sok egyéb pszichológiai tényező befolyásolja, felvethető a kérdés, lehetséges-e egyáltalán precíz matematikai összefüggést találni ingerek és érzékletek között, azaz van-e értelme érzetfüggvényről beszélni. Erre a kérdésre azt válaszolhatjuk, hogy bár az érzékelés sok pszichológiai tényezőtől függ, egy adott ingerre kialakuló érzékleteknek mégiscsak van egy várható értékük. Egy adott ingerre kialakuló érzéklet tehát egy olyan, úgynevezett valószínűségi változó, mely bizonyos fokú véletlen ingadozást mutat: különböző értékeket vesz föl. Minél több ilyen értékét átlagoljuk, annál pontosabb képet kapunk arról az értékről, amely körül az egyes értékek változnak. E szóródás mértékéről a szórás (nagyjából: az egyes értékek átlagtól való átlagos eltérése) informál bennünket, mely a valószínűségi változók másik alapvető jellemzője. E fogalmak alaposabb magyarázatát a statisztikakurzusokra hagyjuk. Nekünk most csak annyi fontos, hogy egyetlen adott ingerhez tartozó különböző érzékletek is valószínűségi változóként jelle- mezhetőek, és így van várható értékük. S ha van, akkor az érzetfüggvény értékét (az adott ingerhez rendelhető érzéklet nagyságát) célszerű éppen e várható értékben meghatározni. Az érzetfüggvényt pedig ezek után úgy definiálhatjuk, hogy egy X ingerkontinuum minden x elemére, mint értelmezési tartományra, az x-hez tartozó (adott érzékleti modalitáson belüli) érzékletek várható értékei jelentik a függvény értékkészletét. A továbbiakban az x ingerhez tartozó érzetfüggvényértéket érzet(x)--szel jelöljük. Végül még egy fontos összefüggést kell megjegyeznünk: a klasszikus érzetfüggvények elmélete feltételezi azt, hogy egy X ingerosztály által kiváltott érzékleteket legalább intervallumskálával mérhetjük. Ha ugyanis ez nem teljesül, akkor a várható érték nincs értelmezve, és nem is tudjuk becsülni a fent említett átlagolási technikával. Sőt, ha az ingerosztály maga nem tekinthető kontinuumnak, akkor sem nagyon tudjuk a kiváltott érzékleteket kontinuumként kezelni. Például, ha egy televíziós játék nyerteseként három nyeremény közül választhatunk: egy gépkocsi, egy világ körüli utazás vagy egy magán-nyugdíjpénztári befizetés, akkor, bár elvi akadálya nincs 27

42 2. FEJEZET Pszichofizika annak, hogy az egyes választási alternatívák vonzerejét mint intervallumskálával mérhető egydimenziós változót gondoljuk el, az biztos, hogy küszöbmérési módszerekre nem támaszkodhatunk e skála számszerűsítésében (mi lehetne a különbségi küszöb egy gépkocsi és egy világ körüli utazás között?). Az ilyen esetekre másféle matematikai modellek léteznek, ezeket azonban itt nem ismertetjük. (Az érdeklődő olvasó számára kiindulópontként szolgálhat Mérő László [1987] egyetemi jegyzete, amelynek gondolatmenetét egyszerűsített formában a jelen alfejezetben is követjük.) A Fechner-elv és a Weber-Fechner-féle érzetfüggvények Fechner fent ismertetett elgondolását kissé pontosabban a következőképpen is megfogalmazhatjuk. Az érzékelőrendszerek LÉK-ekben skáláznak, azaz, ha egy x ingert egy különbségi küszöbnyivel növelünk, akkor a hozzá tartozó érzet mindig egységnyivel növekszik. Mivel a Weber-elvet továbbra is érvényesnek tartjuk, ebből tehát az következik, hogy intenzívebb ingerek esetén, ahol a különbségi küszöb abszolút értéke nagyobb, nagyobb fizikai változáshoz tartozik egyegységnyi érzetnövekmény, mint alacsonyabb ingerintenzitások esetén. Annyi tehát rögtön látszik, hogy az érzetfüggvény nem lesz lineáris. A fechneri feltevéseket már csak egy kicsit kell pontosítani ahhoz, hogy azok alapján az érzetfüggvény alakját is megadhassuk. Az első pontosítás, hogy a különböző valószínűségi szintű LÉK-ekhez különböző érzetnövekmények tartoznak, de ha rögzítjük a LÉK-ek valószínűségi szintjét egy adott értéken, akkor ezután minden LÉK-hez ugyanakkora érzetkülönbség fog tartozni. Ez az érzetkülönbség tehát csak a LÉK-ek valószínűségi szintjétől függ magasabb valószínűségi szintű LÉK-hez nagyobb érzetkülönbség tartozik. Ez utóbbi összefüggés az általánosított Fechner-elv: érzet[x + LÉK p(x)] érzet(x) = a(p). A második pontosítás az, hogy a Weber-elvet (vagy Weber-törvényt) szintén lehet általánosítani. Adott ingerkontinuumon belül minden valószínűségi szinthez tartozik egy c arányszám, amely kifejezi, hogy egy alapingert hányadrészével kell megnövelnünk ahhoz, hogy az alapingert és a megnövelt ingert éppen p valószínűséggel tudjuk megkülönböztetni. Általánosságban tehát: LÉKp(x) = c(p)x, azaz a különbségi küszöb arányszáma csak a p valószínűségi szinttől függ. Vegyük észre, hogy két általános elvünk közül az egyik (a Weber-elv) empirikusan vizsgálható, a különbségi küszöbök mérésével. Az általánosított Fechner-elv ellenben egy elméleti alapfeltevés, amely ebben a formájában közvetlenül nem ellenőrizhető mérésekkel. Az elméleti szempontból érdekes lépés itt következik. Ha ez a két elv az általánosított Weber-elv és az általánosított Fechner-elv igaz egy érzetfüggvényre (Weber-Fechner-fé- le érzetfüggvény), akkor pusztán a matematika eszközeivel bebizonyítható, hogy az érzetfüggvény logaritmusfüggvény. Azaz: érzet(x) = s log(x) + t alakú, ahol s és t konstansok (2.1. ábra). [A logaritmus alapja szabadon megválasztható a log(x) = log b(x)/log b(a) általános összefüggés alapján, ez csak az s konstansra van hatással.] Ezzel felállítottunk egy elméletet az érzetfüggvény általános alakjára. Két dolgunk maradt csak: egyrészt a függvény paraméterezése, azaz konkrét ingerkontinuumok esetén az s és t konstansok értékeinek megtalálása, s így a pontos függvényalak megállapítása; másrészt további mérésekkel igazolni azt, hogy az elmélet helytálló, tehát legalábbis bizonyos ingerkontinuumokra az érzetfüggvény tényleg logaritmusfüggvény alakú. Az első probléma megoldása viszonylag egyszerű: választunk egy ingeregységet (mondjuk az SI mértékrendszer szerintit), és az ehhez tartozó érzéklet értékét 1-nek definiáljuk: érzet(1) = 1. Ezután elég kimérni, adott p valószínűségi szintre az 1 + LÉK p(1) ingert. Ekkor persze a Fechner-elv szerint érzet[1 + LÉK p(1)] = 2. Ekkor a függvényben szereplő logaritmus alapja az 1 + LÉK p(1) szám lesz, mindkét konstansunk (s és t) értéke pedig 1. Tehát egyetlen küszöbméréssel meghatározható az érzetfüggvény pontos alakja egy ingerkontinuumra. 28

43 2. FEJEZET Pszichofizika 2.1. ábra. A Weber-Fechner-féle érzetfüggvény alakja Az utóbbi kérdésre részleges igenlő választ adhatunk: a Weber-Fechner-féle elmélet bizonyos fizikai dimenziókban helyesen írja le az érzetfüggvényt: ilyen például a súlyérzékelés. Érdekes módon néhány teljesen eltérő ingerdimenzióban is jól működik ez az elmélet: úgy tűnik például, hogy a pénz szubjektív értéke is logaritmusával arányos. (Tehát például egy adott összeg, mondjuk forint, szubjektív értéke egy személy számára attól függ, hogy egyébként mennyi pénze van egy milliárdos számára ez sokkal kisebb jelentőségű összeg, mint egy kisnyugdíjas számára.) Ugyanakkor a Fechner-elv a legtöbb ingerdimenzióban nem működik jól, így az elmélet, eleganciája ellenére, csak korlátok között általánosítható A küszöbök kiküszöbölése: a Stevens-féle érzetfüggvények Az érzetfüggvény általános alakjának meghatározásában létezik az eddig leírttól teljesen eltérő kiindulópont is. Ennek legjellegzetesebb példája a Stanley Smith Stevens kísérleti pszichológus, pszichofizikus által kidolgozott módszer és a hozzá tartozó elmélet az érzetfüggvények meghatározására (Stevens 1956, 1960, 1975). Stevens módszerének érdekessége, hogy az érzetfüggvény meghatározásában teljesen nélkülözte a küszöbmérést, mégpedig a következő logika alapján. Tételezzük föl, hogy egy vizsgálatban bemutatunk a személynek egy hangszórón érkező hangot. A személy feladata az, hogy egy másik hangszóró hangját egy szabályozó segítségével állítsa kétszer olyan hangosra, mint amit az első hangszóróból hall. Ezután a beállított hang fizikai erősségét lemérjük, majd ezt a hangot megszólaltatjuk az első hangszórón. A személy feladata ismét ugyanaz: a második hangszórón állítsa be az új hang kétszeresét, s így tovább. Ezzel a módszerrel rekonstruálható lesz az érzetfüggvény minden egyes pontja. Sőt további köztes pontok is: az első ingerből kiindulva mondjuk másfélszeres vagy háromszoros erősségű beállításokat is kérhetünk. E módszerrel vannak azonban gyakorlati problémák: például a személyek zavarban lennének, ha mondjuk először másfélszeres, majd 1,6-szeres, aztán meg 1,7-szeres hangerő-beállításra kérnék őket: ezeket az instrukciókat igen nehéz lenne értelmezni és végrehajtani. Az is valószínű, hogy a hang, amit a személy állítása szerint kétszer olyan erősnek hall, mint az eredetit, fizikailag nem kétszer olyan erős, mint az eredeti. Ezt persze nem is tételezték föl a módszer kidolgozásakor. Azt azonban ettől függetlenül még föl lehet tételezni, hogy az érzékletek az instrukcióban meghatározott arányban állnak egymással (2.2. ábra). Sajnos azonban még ez utóbbi feltételezésre sem lehet mérget venni. Például, ha egyetlen négyszeres hangosságbeállításra kérjük a személyt, akkor az eredmény jó eséllyel nem ugyanaz lesz, mint ha kétszer egymás után kétszerezést kérnénk. Ebből is látszik, hogy a szubjektív érzékletek nemcsak nem mérhetők az átélő személy vizsgálatával, hanem ha szám- és nagyságfogalmainkat megpróbáljuk alkalmazni érzékleti benyomásaink skálázására, meglehetősen furcsa eredményeket kapunk annak ellenére, hogy szám- és nagyságfogalmaink más összefüggésben többnyire kitűnően működnek. 29

44 2. FEJEZET Pszichofizika 2.2. ábra. Az érzetfüggvény kimérése aránybecsléssel Minden furcsasága ellenére azonban a most leírt módszer nem teljesen reménytelen, sőt. Egy általánosabb összefüggést azonban elég jól igazolnak a laboratóriumi mérések, s ez a következő: egyenlő ingerarányok egyenlő érzetarányokat hoznak létre. Azaz, ha adott egy x erősségű inger, és ennek k-szorosa, tehát a kx ingererősség, akkor, noha a két ingerérték hányadosa k, a hozzájuk tartozó érzetek intenzitásainak aránya már egy ettől eltérő érték: azaz az érzetek erősségének hányadosa az ingererősségek hányadosának függvénye. Ez a Stevens-elv. Ennek az elvnek a megfogalmazásával ismét érdekes ponthoz érkeztünk, mivel matematikai úton bebizonyítható, hogy ha egy érzetfüggvényre igaz a stevens-elv, akkor az a függvény általános alakját tekintve hatványfüggvény, vagyis érzet(x) = cx6 alakú, ahol b konstans. 30

45 2. FEJEZET Pszichofizika 2.3. ábra. A Stevens-féle érzetfüggvény alakja különböző kitevőkre a Stevens-féle érzetfüggvény már jóval több ingerdimenzióban írja le az ingerek és érzetek összefüggését, mint a Weber-Fechner-féle. Fő paramétere a b kitevő, mely a konkrét függvényalakot meghatározza (2.3. ábra). A hangerő érzékelése esetén például a kitevő 0,3 körüli, tehát fizikailag megkétszerezett erejű (hangnyomású) hangot kevesebb mint kétszer olyan hangosnak hallunk (ennek okaival a hallásról szóló fejezetekben részletesen foglalkozunk majd). Vonalak hosszúságának megítélésekor például a stevens-függvény kitevője 1-hez közeli, tehát a vonalhosszak érzékelt hosszúságára vonatkozó érzetfüggvény hozzávetőleg érzet(x) = cx + b alakú, vagyis lineáris. Általában a lineáris érzetfüggvények ritkák, azonban épp a téri távolságok becslésénél hasznos lehet a linearitás, mégpedig elsősorban az észlelés és a mozgáskoordináció kapcsolata miatt (ezekről bővebben lesz még szó a mozgásészlelésről, illetve a térészlelésről szóló fejezetekben). Ha például két különböző távolságot olyan arányúnak észlelünk, mint amilyen arányban ténylegesen állnak egymással (például egy szakadék szélén állva az állatnak jobbra egy métert, balra másfél métert kellene ugrania, és ezt a 2 : 3 távolságarányt pontosan észlelni is képes), az megkönnyíti az idegrendszeri döntési mechanizmus és a mozgatórendszer dolgát e rendszereknek nem kell kompenzálniuk az aránytorzítást, amely abból fakad, hogy az észlelés nem lineáris. Fájdalmat okozó ingerek esetén azonban a Stevens-függvény kitevője igen magas, 3 körüli vagy a fölötti. Ez evolúciós szempontból meglehetősen értelmes választásnak tűnik, hiszen a fájdalmat okozó káros inger kis növekménye is nagymértékben emeli az érzéklet intenzitását annál gyorsabban, minél magasabb az ingerintenzitás szintje -, erős jelzést adva ezzel a motivációs rendszernek az elkerülésre. Végül érdemes megjegyeznünk, hogy a két elmélet a Weber-Fechner-féle és a Ste- vens-féle nem mond teljesen ellent egymásnak. A két elmélet egységesítése az elméleti pszichofizika egyik fontos kérdése; több javaslat is született erre vonatkozólag (Norwich 1993). Az egyik elgondolás szerint az alapvető különbség a két függvény között, hogy a Weber-Fechner-féle mechanizmushoz akkor folyamodhat az érzékelőrendszer, ha az inger nem mérhető arányskálával, csak intervallumskálával, azaz nincs természetes nulla pontja. Vegyük észre, hogy a Stevens-féle érzetfüggvényhez vezető eljárás alapja az aránybecslés volt az ingerarányok becslése az érzetek segítségével -, ez pedig feltételezi az ingerkontinuum abszolút nulla pontjának meglétét (például hangerő-becslésnél a csönd a nulla pont). Színek esetén viszont sem az ingereknek, sem az érzeteknek nincs természetes nulla pontja, így itt a direkt aránybecslésen alapuló mechanizmus nem használható legföljebb a 31

46 2. FEJEZET Pszichofizika legkisebb érzékelhető különbségek leszámolgatásán alapuló Weber-Fechner-féle érzékelési mechanizmus (Mérő 1987) Szignáldetekció A szignáldetekciós elméletet eredetileg mérnöki problémák megoldására, például radarok és más elektronikus kommunikációs eszközök működésének leírására fejlesztették ki. Innen került át az észlelés pszichológiájába, ahol a gyenge, küszöb körüli ingerek érzékelésével kapcsolatos olyan jelenségek leírására használták, melyeket az érzékelési küszöbök hagyományos elmélete nem magyarázott megfelelően. Ilyen helyzet az, amikor gyenge ingereket zajos háttér mellett kell észlelnünk (például az ajtócsengő hangját hajszárítás közben), illetve amikor ilyen helyzetben ismételt, sorozatos ítéleteket kell hoznunk. Ilyen esetben az inger megjelenésének megítélése fokozott mértékben igényel tudatosságot (figyelmet, mérlegelést, döntést). Ennek egyik példája a radarképernyő figyelése. A szignál- detekciós elmélet haszna éppen az, hogy az ingerek érzékelésével kapcsolatos feldolgozási mechanizmuson belül szétválasztja az érzékenységgel kapcsolatos, illetve ezektől független, kognitív tényezőket. Ugyanakkor a szignáldetekciós elmélet jól leírja a hagyományos küszöbjelenségeket is, mint az a következő példából látható. Tegyük föl, hogy két személy küszöbmérési kísérletre érkezik egy laboratóriumba. Egymás után vizsgálják meg őket, és mindkettőjük feladata az, hogy ha két inger között különbséget látnak, azt Különböznek válasszal jelezzék, ha pedig egyformának látják az ingereket, akkor Egyformák választ adjanak. Az ingerpárok egy része valójában két azonos ingerből áll, a többi pár pedig két, küszöb körüli szinten különböző ingerből. Azonban két személyünk hozzáállása között jellegzetes különbség van. Egyikük kifejezetten szeretne segíteni a kísérletvezetőnek, és ezért amikor a legkisebb gyanú ébred benne, hogy a bemutatott ingerek nem azonosak, máris szól, hogy különbözőek (nevezzük őt a lelkes kísérleti személynek). A másik személy is nagyon szeretne segíteni, ő azonban úgy gondolja, úgy segíthet, ha csakis akkor jelez különbséget, ha teljesen biztos benne, hogy a két inger különbözik (ő a megfontolt személy). Ha meggondoljuk, ez a különbség kettejük között nem az érzékelésről szól, hanem valami másról (talán a személyiségükkel van kapcsolatban), s mégis, ez a hozzáállásbeli különbség az érzékelési kísérlet eredményét befolyásolja. Felmerülhet a gyanú, hogy legalábbis részben artefaktum (módszertani műtermék) felelős a kapott eredményekért, s nem tisztán az a jelenség, amit mérni szerettünk volna. Az úgynevezett szignáldetekciós elmélet (Green-Swets 1966) e problémát oldja föl két tényező, az érzékenység, illetve a döntési kritérium szétválasztásával. Az érzékenységet hagyományosan a d szimbólummal szokás jelölni, míg a kritériumot b-val. Az előbb leírt helyzetben lelkes kísérleti személyünk feltehetőleg többször fog hibázni úgy, hogy akkor is különbséget jelez, amikor két egyforma inger jött (téves riasztás). Megfontolt talán túlzottan is önkritikus személyünk ellenben inkább úgy fog hibázni, hogy akkor sem jelez különbséget, ha van (kihagyás) talán mert nem teljesen biztos benne, hogy érzékelt volna bármilyen különbséget. Természetesen az esetek egy részében mindketten helyesen válaszolnak: jelzik a meglévő különbséget (találat), illetve azonosságot jeleznek, amikor nincs különbség (helyes elutasítás). A szignáldetekciós helyzet lehetséges kimeneteit a 2.1. táblázatban foglalhatjuk össze táblázat táblázat. A szignáldetekciós helyzet lehetséges kimenetei Helyzet Döntés Különböző ingerek jött jel Azonos ingerek nem jött jel Jött jel Találat Kihagyás Nem jött jel Téves riasztás Helyes elutasítás Lelkes kísérleti személyünk döntési kritériuma alacsony, azaz könnyen meghozza a jött jel ítéletet. Így sok találata, de ugyanakkor sok téves riasztása is lesz. Megfontolt személyünknek ellenben sok helyes elutasítása, ám sok kihagyása is lesz, azaz az ő döntési kritériuma magas, nem egykönnyen hoz pozitív ítéletet. Előfordulhat azonban, hogy egy harmadik kísérleti személy (a profi ) sok találatot és sok helyes elutasítást produkál, ellenben kihagyást és téves riasztást alig (2.2. táblázat). E három adateloszlás alapján már levonhatjuk a következtetést, hogy harmadik kísérleti személyünk a számunkra érdekes, azaz érzékelési szempontból jobb a másik kettőnél vagyis nagyobb az érzékenysége a kérdéses ingerekre. Tehát érzékenység és döntési kritérium 32

47 2. FEJEZET Pszichofizika az adatok ilyetén elrendezése mellett világosan szétválasztható. Döntési kritériumát természetesen profi kísérleti személyünknek is módjában áll változtatni. Például katonai megfigyelőknél, éles harci helyzetben a kihagyás következménye igen súlyos lehet ha az őr nem veszi észre a közelgő ellenség jeleit. Hadgyakorlaton ellenben, ahol a kockázat kisebb, ám a téves riasztás igen költséges, a nagy érzékenységű őr is kétszer meggondolja, hogy riasszon-e egy apró, számára sem egyértelmű jelre táblázat táblázat. A szövegben említett három hipotetikus kísérleti személy adateloszlása. Az adatok is hipotetikusak; azt tételezzük föl, hogy 100 ingerbemutatásból 50 esetben volt jel, azaz különbség a bemutatott ingerpár tagjai között Kísérleti személy Szignáldetekciós kísérlet eredményei Találat Kihagyás Téves riasztás Helyes elutasítás Lelkes Megfontolt Profi Profi személyünk esetében a kétféle hiba (kihagyás és téves riasztás) összege bármilyen kritériumbeállításnál kisebb lesz, mint a másik két személynél. Azonban rá is igaz az, hogy a döntési kritérium beállításával egyszerre rögzítjük mindkétfajta hiba arányát: ha adott az érzékenységi szint, akkor csak a kihagyások növelése árán tudjuk a téves riasztások számát csökkenteni, és viszont. Pontosan ezt az összefüggést tehát a találatok és téves risztások viszonyát különböző érzékenységi (d ) értékekre ábrázolhatjuk az úgynevezett ROC (Receiver Operating Characteristic) görbe segítségével (2.4. ábra). A grafikonon minden egyes görbe egy konkrét, adott d -vel jellemezhető érzékelőrendszert ábrázol. A vízszintes tengelyen a téves riasztások, a függőleges tengelyen a találatok valószínűsége látható. Minden egyes görbe pontjait a b kritériumszint fokozatos változtatásával kapjuk meg. Ha a kritériumszint extrém magas, akkor soha nem válaszolunk úgy, hogy jött jel, így persze téves riasztást sem adunk soha. Ez felel meg a (0;0) pontnak. Ahogy lejjebb engedjük a kritériumszintet, mindkét valószínűség (találat és téves riasztás) is emelkedik, de ha d nagyobb 0-nál, akkor a találat valószínűsége gyorsabban nő, mint a téves riasztásé. Extrém alacsony kritériumszint mellett mindig jelez a rendszer, ekkor mindkét valószínűség 1 lesz. 33

48 2. FEJEZET Pszichofizika 2.4. ábra. A szignáldetekciós elmélet ROC görbéje Természetesen ehhez az eljáráshoz tartozik egy pontos matematikai elmélet is, mellyel a d és a b paraméterek is számszerűen (intervallumskálán) jellemezhetőek (ennek részleteit itt mellőzzük, ám az érdeklődő olvasó alapos és jól érthető bemutatást talál Mérő László jegyzetében [1987, 7. fejezet]) A Thurstone-féle skálázás A Thurstone-féle skálázás a szignáldetekciós elmélet egyfajta általánosításának tekinthető, kettőnél több ingerre. Gyakorlati szempontból azonban más célra használják, mint a szignáldetekciós elméletet. Képzeljük el, hogy egy vizsgálatban különböző gyümölcsöket ítéltetnek meg velünk aszerint, hogy mennyire találjuk őket finomnak. A vizsgálat tervezői azonban nem bíznak a hét- vagy többfokú skálákban, mivel, mint föntebb láttuk, az ilyen skálákon kapott eredmények nem értelmezhetők intervallumskálaként. Ezért arra kérik a kísérleti személyeket, hogy páros választások során mindig két gyümölcs közül válasszák ki azt, amelyiket jobban szeretik. A párokat véletlen sorrendben adják a személynek, mindegyiket többször egymás után. Ha mondjuk ötféle gyümölcsöt vizsgálunk, akkor ezekből tízféle pár alkotható. A vizsgálathoz mind a tízféle pár esetében szükségünk van egy valószínűségi értékre, mely azt jellemzi, hogy a pár első tagját mekkora valószínűséggel választjuk finomabbnak a másodiknál. Ha ez a valószínűség 0,7, akkor persze a pár második tagját csak 0,3 valószínűséggel választjuk finomabbnak az elsővel szemben (2.3. táblázat). Ebből a valószínűségi táblázatból a Thurstone-féle módszerrel egy intervallumskálán rendezhetjük el az egyes elemeket, tehát példánkban egy olyan finomsági skálát kapunk, melynek értékeiből különbségeket és átlagokat is lehet számolni. A számolási eljárás a statisztikai normális eloszlás tulajdonságaira alapoz, ezt itt nem részletezzük táblázat táblázat. Thurstone-féle skálázáshoz szükséges, páros választási valószínűségeket tartalmazó táblázat Cseresznye Meggy Eper Görögdinnye Sárgabarack Cseresznye - 0,61 0,65 0,77 0,82 34

49 2. FEJEZET Pszichofizika Meggy 0,39-0,53 0,67 0,73 Eper 0,35 0,47-0,62 0,70 Görögdinnye 0,23 0,33 0,38-0,57 Sárgabarack 0,18 0,27 0,30 0,43 - Tehát egyrészt a Thurstone-féle skálázással meghaladhatjuk a többfokú szubjektív skálák torzításait, ugyanakkor e módszer a gyakorlatban kissé fáradságosnak tűnik. Ötféle elem, azaz tízféle pár esetén a páros választási valószínűségek becsléséhez minden párt legalább tíz alkalommal, de lehetőleg ennél többször kell bemutatni. Azaz minimálisan száz páros választás szükséges egy durva (minden párra tíz választáson alapuló) valószínűségbecsléshez is. Tíz elem esetén a párok száma 45, s ha kicsit alaposabban (mondjuk páronként 20 választással) becsüljük a valószínűségeket, már 900 páros választáson kell átrágnia magát a kísérleti személynek. Meg lehet persze próbálni a páros választások sorát rövidre zárni mondjuk úgy, hogy egy párt csak egyszer mutatunk be, és a köztük lévő, mondjuk tíz centiméter hosszú szakaszt kell felosztani két részre, annak arányában, hogy mennyivel inkább választanánk a pár egyik tagját, mint a másikat. A szakasz felosztását pedig használhatnánk a páros választási valószínűség becslésére. Ezzel ugyan egyszerűbbé válna az adatgyűjtés, azonban semmi garancia nincs arra, hogy a szakaszjelölgetésből kapott adatok nem torzítják el azt a valószínűségi becslést, amit a páros választásokból kaphatnánk Többdimenziós skálázás A többdimenziós skálázás tekinthető a Thurstone-féle skálázás kiterjesztésének is, mégpedig annyiban, hogy míg a Thurstone-féle skálázás egyetlen, előre meghatározott dimenzión belül számol intervallumskála-értékeket páros hasonlósági ítéletekből, addig a többdimenziós skálázás egy tetszőleges, n dimenziós térben, egymástól való távolságuk alapján helyezi el a hasonlóság szempontjából megítélt elemeket. a hasonlóság azonban csak részleges, mivel a többdimenziós skálázásnak számos altípusa létezik. A többdimenziós skálázás célja képet adni arról, hogy ingerek egy csoportjának tagjai a személyek számára milyen összetett hasonlósági viszonyban állnak egymással, és a hasonlósági ítéleteket milyen dimenziók határozzák meg. A többdimenziós skálázással kapott dimenziókat pedig már pszichológiai szempontból is lehet értelmezni. így például a színhasonlósági tér (lásd a Színlátás című fejezetet) dimenziói árnyalat, telítettség, világosság is feltárhatók többdimenziós skálázással, a személyek hasonlósági ítéletei alapján (Izmailov- Sokolov 1991). Ennél azonban sokkal absztraktabb ingerek is elemezhetők többimenziós skálázással, ilyen például az érzelmi állapotok egymáshoz való hasonlósága (Daly et al. 1983), a foglalkozásnevek jelentése (Burton 1972) vagy a különböző nemzetekről kialakított kép (Wish et al. 1972). A többdimenziós skálázás jellegzetes eseteiben intervallumskálával jellemezhető ítéleteket kérnek ingerek egy csoportjára páros összehasonlítások alapján. Tegyük föl, hogy a következő színek hasonlósági viszonyaira vagyunk kíváncsiak: piros, lila, narancssárga, zöld és kék. Ezeket vagy színnevek, vagy színes kártyák segítségével mutatjuk be a személyeknek, és ítéleteket a következő formában kérünk: A személy feladata egy vonással bejelölni a skála két végpontja között azt a pontot, amely az ő hasonlósági ítéletét tükrözi. Ezután mondjuk a skála (a vízszintes vonal) bal szélétől lemérjük a jelölés távolságát, s ez lesz a személy hasonlósági ítéletét jellemző érték (Mérő 1986). A hasonlósági ítéleteket táblázatba (hasonlósági mátrix) rendezzük (2.4. táblázat) táblázat táblázat. Többdimenziós skálázás távolságmátrixa Piros Lila Narancs Zöld Kék 35

50 2. FEJEZET Pszichofizika Piros 0 1,8 1,5 4,0 3,5 Lila 1,8 0 3,0 4,0 2,0 Narancs 1,5 3,0 0 3,8 4,2 Zöld 4,0 4,0 3,8 0 3,7 Kék 3,5 2,0 4,2 3,7 0 A többdimenziós skálázás módszere segítségével ezután megpróbáljuk egy adott dimenziószámú térben elhelyezni az ingereinknek megfelelő pontokat úgy, hogy a közöttük lévő távolság pontosan megfeleljen a hasonlósági mátrix értékeinek, vagy minél jobban közelítse azt. Hogy ez az elhelyezés mennyire sikeres, nagyban függ a választott dimenziószámtól. (Ha mondjuk négy ingerpontunk van, és ezek mindegyike egyenlő távolságra van a másik háromtól, akkor ez a pontkonfiguráció nem ábrázolható kétdimenziós térben, de háromdimenziósban igen.) A 2.4. táblázatban bemutatott hasonlósági mátrix azonban tökéletesen ábrázolható kétdimenziós térben (2.5. ábra). Sőt az is látszik az ábrán, hogy a kialakuló pontkonfiguráció a színhasonlósági tér kétdimenziós metszetének, a színkörnek egy részletét képezi le, persze eléggé durva formában. Több inger alapján kapott nagyobb hasonlósági mátrixok segítségével kifinomultabb képet kaphatunk a színek hasonlósági struktúrájáról. A 2.5. ábra legalábbis nem mond ellent annak a feltételezésnek, hogy a világosság szempontjából egyforma színek hasonlóságának osztályozása két dimenzió (piros-zöld és sárga-kék) mentén megy végbe ábra. Többdimenziós skálázás pontkonfigurációja Fontos kérdés, hogy a különböző személyek vajon azonos vagy különböző dimenziók mentén osztályozzák-e az egyazon ingerhalmazhoz tartozó elemeket? Ha mondjuk filmrendezők stílusát kell egymással összehasonlítani, akkor elvileg lehetséges, hogy egyik személy a társadalomkritika és a humor, míg egy másik személy a képi világ és a szereplők jellemvonásainak részletes megjelenítése mint dimenziók mentén veti össze egymással a különböző rendezők stílusát. Ekkor persze az e két személy által adott hasonlósági struktúrákat nem lehet összevetni, közös keretben értelmezni. Ha különbözőek az egyéni dimenziók, akkor egyes személyek hasonlósági mátrixainak átlagolásából nem kaphatunk értelmezhető adatokat, hiszen ekkor az átlagolás teljesen összekeveri az egyénenként különböző dimenziókat. Úgy tűnik azonban, hogy igen gyakran az egyes személyek 36

51 2. FEJEZET Pszichofizika azonos dimenziók mentén ítélik meg egy adott ingerkészlet hasonlósági viszonyait, viszont ugyanazokat a dimenziókat eltérően súlyozzák. Ilyen kérdések tehát az egyéni különbségek vizsgálatára és a csoportátlaggal való összevetésükre szintén léteznek módszerek a többdimenziós skálázáson belül (Mérő 1986, Bimler et al. 2000). Szintén érdemes szem előtt tartani azt, hogy a többdimenziós skálázás eredményeit szemléltetésre, hasonlóságstruktúrák áttekinthető bemutatására használjuk, és ezért, ameny- nyire lehet, szeretnénk alacsonyan tartani a kapott hasonlósági tér dimenziószámát. Kétvagy háromdimenziós hasonlósági teret kitűnően tudunk ábrázolni és áttekinteni, de egy nyolcdimenziós tér már nem igazán használható szemléltetésre. Ezért, ha egy magasabb dimenziószámú (mondjuk ötdimenziós) térben gyakorlatilag tökéletesen sikerül egy ponthalmaz hasonlósági viszonyait ábrázolni, akkor érdemes megvizsgálni, hogy mennyire torzítja el az eredeti hasonlósági mátrixot egy alkalmasan választott alacsonyabb dimenziószámú (mondjuk háromdimenziós) térben való ábrázolás. Gyakran előfordul, hogy az eredeti hasonlósági mátrixhoz képest viszonylag kis hibával ábrázolható a ponthalmaz az alacsonyabb dimenziószámú térben is. Ekkor a kis hibáért sokkal jobb áttekinthetőséget kapunk cserébe, ami ugyanakkor a legfontosabb dimenziókat megőrzi. A dimenzióredukció következtében előálló hiba nagyságára létezik mérőszám, mely jelzi, hogy milyen mértékben értelmezhetők az adatok a redukció után (Mérő 1986) ábra. Az eredő pontkonfiguráció meghatározatlansága nem metrikus többdimenziós skálázás és alacsony elemszám (pontok száma) esetén Többdimenziós skálázást lehet végezni ordinális skálaadatokon is: ennek megint csak akkor van jelentősége, ha nem bízunk a szubjektív skálázás (például vonalszakaszok felosztása hasonlósági intuíciónk kifejezésére) intervallumskálaként való értelmezhetőségében. Ilyenkor az ingerpárok különbségeit nagyság szerint sorba rendezzük, és csak ezt az információt (tehát hogy egy pár különbsége hányadik a rangsorban) használjuk föl egy a hasonlóságokat megjelenítő pontkonfiguráció létrehozásához. Kevés pont esetén ez a módszer nem ad egyértelmű eredményt. Ha mondjuk csak négy pontunk van, melyekről azt tudjuk, hogy bármelyikük a másik háromból kettőtől azonos távolságra van, míg a harmadiktól egy kicsit messzebb (2.6. ábra), akkor a megfelelő pontkonfiguráció egy tetraéder (három dimenzió) és egy átlókkal ellátott négyzet (két dimenzió) között változhat. Ahogy azonban nő a pontok száma, mozgásterük rohamosan szűkül: a köztük lévő távolságok nagysági sorrendje egyre egyértelműbben határozza meg, hogy egymáshoz képest hogyan kell elrendeznünk a pontokat (Shepard 1962). Az, hogy hány pont elég a stabil konfiguráció kialakulásához, függ a dimenziószámtól is: két dimenzió esetén egy 15 pontból álló konfigurációt már meglehetős egyértelműséggel határoz meg a pontok közti távolságok puszta rangsora is, abszolút értékük nélkül. 2. Módszerek Mint láttuk, az érzetfüggvényeket általában küszöbök mérése segítségével kaphatjuk meg. Vannak persze kivételek például a Stevens-féle érzetfüggvény esete -, azonban az abszolút és különbségi küszöbök mérése alapvető lépés a pszichofizikában. A küszöbmérés Fechner által kidolgozott alapvető mérési eljárásait az alábbiakban ismertetjük. Ezt követően röviden vázoljuk, hogy milyen problémák merültek fel a későbbiekben a klasszikus módszerekkel kapcsolatban, s hogy e módszerek továbbfeljesztése hogyan járult hozzá a problémák megoldásához A pszichometriai függvények mérésére szolgáló klasszikus módszerek A konstans ingerek módszere 37

52 2. FEJEZET Pszichofizika A konstans ingerek módszerénél egy előre megválasztott ingertartomány kijelölt elemeit kvázi-véletlen sorrendben mutatják be a személynek. (Kvázi-véletlen alatt egy olyan előre megválasztott, rögzített véletlen számokból álló sort értünk, mely a bemutatás sorrendjét határozza meg, és mivel rögzített, pontosan megismételhető.) A bemutatott ingerek a nagyon gyengétől vagy nulla erősségűtől az egyértelműen, jól észlelhetőig terjednek. Abszolút küszöb mérése esetén lehetséges egyetlen inger bemutatása próbánként, s a személy Igen-Nem választ ad, mellyel jelzi, hogy észlelte-e az ingert vagy sem. Különbségi küszöb mérésénél egy rögzített intenzitású sztenderd inger jelenik meg minden próbában, s mellette egy összehasonlító inger. A személy feladata megmondani, hogy az összehasonlító inger gyengébb vagy erősebb volt-e, mint a sztenderd. A konstans ingerek módszere esetén minden egyes ingert sokszor (húsz vagy több alkalommal) mutatnak be, és a rá adott válaszok gyakoriságát rögzítik. Ha valamennyi megvizsgált inger esetén egy grafikonon ábrázoljuk az Igen válaszok vagy a helyes irányú különbséget jelző válaszok összes válaszhoz viszonyított arányát, akkor az úgynevezett pszichometriai függvényt kapjuk (2.7. ábra). Mint már leírtuk, minél jobban eltér egy inger intenzitása a nullától vagy a sztenderdtől, annál nagyobb valószínűséggel érzékeljük. Ezért az ingerküszöböket a pszichometriai függvényekből előre kiválasztott valószínűségi kritériumok alapján állapítják meg. Konvenció szerint az abszolút küszöb mérésénél 50 százalék, különbségi küszöb mérésénél 75 százalék valószínűségű pozitív válasznak feleltetik meg a küszöböt ábra. Pszichometriai függvény. Az ábrán a logisztikus elméleti görbe látható a rá illeszkedő mérési pontokkal. A logisztikus görbét az f(x) = 1/[1 + e (kx +c) ] képlet írja le, ahol k és c konstansok, e pedig a természetes logaritmus alapja 2.2. A határok módszere A határok módszere némileg kevésbé fáradságos, mint a konstans ingereké. Itt egy előre meghatározott intervallum fölső vagy alsó végpontjáról indulva fokozatosan csökkentik, illetve növelik az ingererősséget addig az értékig, amíg a személy válasza meg nem változik. Például egy növekvő sorozatnál a személy kezdetben Nem válaszokat ad, aztán egy ponton érzékelést vagy különbséget jelez. Ez lesz a növekvő sorozatokból származó küszöb; csökkenő sorozatoknál viszont a pozitív válasz eltűnése ( Már nem látom ; Ezek már egyformák ) jelöli a küszöböt. A kétféle sorozatból származó küszöböt átlagolva kapjuk a határok módszeréből származó küszöbbecslést. Megjegyzendő, hogy a határok módszerével, illetve a konstans ingerek módszerével végzett küszöbbecslések eredményei nem mindig esnek pontosanegybe. 38

53 2. FEJEZET Pszichofizika A beigazítási módszer A beigazítási módszer hasonlít a határok módszeréhez, ám itt a személy maga állítja az inger erősségét, mely folytonosan változtatható. A vizsgálatban részt vevő személynek az a feladata, hogy beállítsa az adott ingert arra a szintre, hogy éppen érzékelhető legyen (abszolút küszöb mérésénél), vagy pontegyenlő intenzitású legyen a sztenderddel (különbségi küszöb). E beállításokat többször ismételve és az eredményeket átlagolva kapjuk az abszolút küszöböt, illetve a szubjektív egyenlőség pontját A klasszikus módszerek fejlődése Fechner klasszikus módszereit később több okból is tovább kellett fejleszteni. A három ismertetett eljárással kapcsolatban a következő problémák merültek föl (Treutwein 1995). Egyrészt a személyek döntési kritériumát, mint az érzékenységtől független tényezőt, nem kísérték figyelemmel. Másrészt e módszerek elméleti szempontból nem voltak kellően megalapozottak, s ezzel összefüggésben a belőlük kapott küszöbbecslések torzíthattak is. Harmadrészt, nagy mennyiségű adat vész kárba azért, mert a küszöbtől távol eső ingerek bemutatása nem segíti a küszöbbecslést. Az alábbiakban néhány, az elméleti fejlődést jelző alapfogalmat ismertetünk, majd néhány módszert, melyek Fechner eljárásainak tovább- feljesztései Szubjektív beszámolón alapuló módszerek, illetve kötelező választás Fechner eredeti eljárásait melyekben a személyek lényegében a tudatosuló érzékleti élményeikről számoltak be kényszerválasztáson alapuló teljesítményfeladattá lehet alakítani, ami például azért hasznos, mert az érzékelési-észlelési teljesítményt a tudatos élményről való beszámolótól függetlenül közelíti meg, s ez jellegzetes változást eredményez a kapott adatokban. Az ilyen kényszer- vagy kötelező választásos helyzetekben a személynek a küszöb körüli célinger megjelenési helyét vagy idejét kell jeleznie. A feladat lehet például az, hogy egy fixációs ponttól jobbra vagy balra megjelenő gyenge inger (pl. fényfelvillanás) helyét kell felismerni. Válaszolni minden próbában kell, tehát ha a személy egy adott próbában úgy is érzi, nem látott semmit, akkor is Jobb vagy Bal választ kell adnia jobb híján találgatnia kell. A kényszerválasztás, illetve a klasszikus fechneri módszerek összevetéséből igen érdekes megfigyelések származnak. Tegyük föl, hogy egy személynél fényfelvillanások abszolút küszöbét mérjük a beigazítási módszerrel: a személy többször beállítja azt a fényerőt, ami szerinte még éppen látható. Ezután kényszerválasz- tásos helyzetben kell megmondania, hogy a fixációs pont melyik oldalán jelent meg a fényfelvillanás, melynek erőssége éppen az előzőleg beigazított küszöbérték. Ilyen helyzetekben a személy gykorlatilag tökéletes teljesítményt nyújt a felvillanások helyének azonosításában. Ha ezután lecsökkentjük a felvillanások erősségét annyira, hogy a fechneri, szubjektív eljárásokban már nem érzékeli őket a személy, és ezt a csökkentett erejű ingert alkalmazzuk a kényszerválasztási helyzetben, a személy még mindig meglehetősen magas akár százalék közötti valószínűséggel el fogja találni a fényfelvillanás helyét. (Ha két választható alternatíva van, akkor kényszerválasztásos helyzetben a véletlen válaszadásnak az 50 százalék körüli találati arány felel meg.) Azaz, bár a szubjektív beszámoló szerint nincs érzékelés, a nem tudatosuló inger mégiscsak sikerrel befolyásolta válaszadásunkat. E jelenségnek tehát, hogy észlelési és kognitív folyamataink tudatosulás nélkül is befolyásolják viselkedéses teljesítményünket számos egyéb példája is van a pszichológiában. Az idegrendszeri sérülések esetei közül az úgynevezett vaklátás (blindsight) mutat a fenti jelenséggel párhuzamot. Az elsődleges látókéreg sérülése után a személyeknek látóterük egy részében vagy egészén hiányoznak a tudatosuló vizuális észleletek, mégis, az előbbihez hasonló kényszerválasztásos feladatokban a véletlennél szignifikánsan jobban teljesítenek (Weiskrantz 1990). Hasonlóképpen, a döntéseinket, érzelmi reakcióinkat vagy problémamegoldási teljesítményünket megalapozó kognitív folyamatok is nagymértékben hozzáférhetetlenek a tudat számára (Nisbett-Wilson 1977) A tévesztések és a pszichometriai függvény határértékei A tévesztéseknek a pszichometriai függvényekre sajátos hatásuk van. Az adott érzékelési feladattól független idegrendszeri folyamatok zavaró hatása következtében még jóval a küszöb alatti ingerekre is adnak a személyek időnként Igen választ (találgatás), illetve jóval a küszöb fölötti ingerekre is megjelenik néha Nem válasz (kihagyás). Kényszer- választásos helyzetben azonban nemcsak az egyéb idegrendszeri folyamatok zavaró hatása, tehát egyfajta belső zaj felelős a hibázásokért, hanem az is, hogy nagyon alacsony ingerintenzitások mellett is kötelező találgatni, s ekkor a találgatások egy része valószínűségi alapon sikeres lesz tehát akármilyen alacsony ingerintenzitás mellett sem lesz nulla a helyes válaszok aránya. A találgatási és kihagyási arányok becsülhetők az összegyűjtött adatokból. Fontos következménye a tévesztéseknek, hogy a pszichometriai függvények határértéke nem 0 (a nagyon kicsi ingereknél), illetve 1 (a küszöböt messze meghaladó ingereknél), hanem ezek a függvények a találgatási aránytól a 100 százalék mínusz kihagyási arányszintjéig változnak (2.8. ábra) (Treutwein 1995). 39

54 2. FEJEZET Pszichofizika 2.8. ábra. A pszichometriai függvény tényleges határértékei Adaptív eljárások Míg a klasszikus küszöbmérési eljárásokban a bemutatandó ingerek intenzitása előre rögzített, addig az adaptív eljárások során a bemutatott ingerek intenzitásértékei függenek a személy előző próbákban adott válaszaitól. S mivel a személy válaszai valószínűségi jellegűek, az általuk meghatározott ingerértékek is azok lesznek: a kísérlet elején még nem lehet pontosan tudni, milyen ingereket kap majd a személy. Egy adaptív eljárásban az n + 1. próbában adandó inger erősségét az előző n próbában adott ingerértékek, a rájuk adott válaszok és a küszöbhöz tartozó valószínűség határozza meg. Az adaptív eljárások fő célja a klasszikus módszerekkel szemben, hogy a bemutatott ingerek értékeit a küszöb feltételezett értéke köré sűrítsék. Az egyes adaptív eljárások közötti különbségek egyik forrása az, hogy mennyi előzetes ismeretünk van már a keresett pszichometriai függvényről. Előfordulhat, hogy csak annyit tudunk, a függvény szigorúan monoton növekvő (azaz nagyobb ingerre nagyobb valószínűséggel jelenik meg pozitív igen vagy helyes válasz), de a függvény alakja nem ismert. Ilyen esetekben a cél egy előre kitűzött valószínűségi értékhez tartozó küszöb megállapítása. Ez az úgynevezett nemparaméteres eljárásokkal történik. Ha viszont előzetes ismeretünk van a pszichometriai függvény általános alakjáról, akkor a cél azoknak a paramétereknek a kimérése, amelyek a függvény pontos alakját meghatározzák. Ezt az úgynevezett paraméteres eljárásokkal lehet megtenni. A nemparaméteres eljárások egyik alappéldája a lépcsőmódszer, mely a határok módszerének módosított változata. Az alapötlet e módszernél az, hogy amint a személy megváltoztatja válaszát, azonnal megfordul az ingerváltozási tendencia. Például, ha az első n próbában fokozatosan növekvő erősségű ingereket adtunk, ám a személy mindig azt mondta, hogy nem érzékeli az ingert, míg az n + 1. próbában már érzékelést jelez, akkor tovább nem növeljük az ingert, hanem az n + 1. próbáról az n + 2.-re átlépve csökkentjük. Fontos, hogy minden egyes lépésben ugyanakkora ingernövekményt, illetve -csökkenést alkalmazzunk. Minden válaszváltozás után módosítjuk tehát az ingerváltozás irányát, s az ingerküszöböt a válaszváltási pontokhoz tartozó ingererősségek átlaga adja (a legegyszerűbb esetben; vannak más számítási eljárások is). Az első próbában egy megfelelően választott ingert alkalmazunk, melyről azt feltételezzük, hogy biztosan érzékeli a személy (vagy azt, hogy biztosan nem érzékeli, attól függően, hogy növekvő vagy csökkenő sorozattal akarunk-e kezdeni). Ezután a személy Nem válasza után mindig növeljük az ingert, Igen válasz után pedig csökkentjük. 40

55 2. FEJEZET Pszichofizika Az egyszerű lépcsőmódszerrel az a probléma merülhet föl, hogy a személyek esetleg elvárásokat alakíthatnak ki az ingerváltozásról. Észrevehetik például azt, hogy ha egy próbában nem-érzékelést jeleztek, akkor a következőkben általában érzékelhető inger jön, vagy ha folyamatosan érzékelést jeleznek, egyre gyengébb lesz az inger. Az ilyen elvárások, még ha nem is tudatosulnak teljes mértékben, erősen befolyásolhatják a válaszadást. E probléma kiküszöbölhető úgy, hogy két ingersorozatot egy növekvőt és egy csökkenőt váltakozva mutatunk be a személynek. Mondjuk az első próbában egy jól érzékelhető inger jelenik meg, utána pedig a másodikban egy az elsőtől független, küszöb alatti inger. A harmadik próba ingererőssége az első próbára adott választól függ, míg a negyedik próba ingere a második próba válaszától, s így tovább. így a páros számú próbák egy adaptív sorozatot alkotnak, s ugyanígy a páratlan számú próbák is, de a két sorozat váltakozva jelenik meg. Egy ilyen ingerelrendezésre már nehezebb elvárásokat kialakítani, bár egyes dörzsölt kísérleti személyek még erre is képesek lehetnek. Ha azonban a két sorozatot véletlenszerűen elválasztjuk egymástól (például a harmadik és a negyedik próbában is az első adaptív sorozatot mutatjuk be, majd az ötödikben, a hatodikban s a hetedikben a második sorozat ingereit, s így tovább, a sorozatváltakozást véletlen számsor által meghatározva), ez már teljesen kizárja az elvárási hatást (Cornsweet 1962) ábra. Elméleti (logisztikus) görbecsalád, két paraméter szerint (küszöb és meredekség). A küszöb helye (a vízszintes tengely mentén való eltolás) a 2.7. ábra magyarázó szövegében említett c konstansnak, a meredekség paramétere pedig ugyanott a k konstansnak felel meg. Természetesen a görbék függõlegesen is összenyomhatóak, a 2.8. ábrához hasonlóan (két további paraméter bevezetésével) A paraméteres eljárásokban, mint említettük, feltételezzük, hogy a pszichometriai függvény egy adott általános alakkal rendelkezik, és ennek az általános alaknak a konkrét formáját igyekszünk meghatározni, méghozzá paramétereik kimérésével. A két legfontosabb paraméter a küszöb helye az ingerskálán és a függvény meredeksége (vagyis lapos, illetve szögletes, lépcsőhöz közelítő formája 2.9. ábra). A kísérleti eljárások ilyen esetekben is a klasszikus módszerek adaptív változatai, melyekben a következő próbák ingererősségét összetettebb matematikai megfontolások alapján számítják ki (Treutwein 1995). A paraméterek meghatározása után, amennyiben elméleti feltevésünk a függvény alakjáról helyes, pontosan ismerjük a pszichometriai függvény alakját. 41

56 2. FEJEZET Pszichofizika ábra. A pszichofizikai függvény származtatása a pszichometriai függvényből Pszichometriai és pszichofizikai függvények Az eddig bemutatott módszerek a pszichometriai függvény kimérésére egyetlen ingerdimenzión belül segítenek megadni az abszolút küszöböt vagy a legkisebb érzékelhető különbséget. Ez azonban még csak igen egyszerű képet ad az érzékelőrendszerek működéséről. Joggal lehetünk kíváncsiak például arra, hogy mondjuk a fényérzékelés különbségi küszöbe hogyan változik az inger színével, vagy hogy a hangérzékelés abszolút küszöbe hogyan változik a hang frekvenciájával. Az utóbbi kérdésfeltevés egy egydimenziós pszichofizikai függvényre vonatkozik, míg az előbbi egy összetettebb, egynél több dimenzióval jellemezhető érzékelési jelenségre. A ábra mutatja a hangérzékelés abszolút küszöbe és a frekvencia közötti összefüggést (ezzel a hallásról szóló fejezetben részletesen is foglalkozunk majd). Mint látható, a pszichofizikai függvény minden egyes pontjához tartozik egy pszichometriai függvény, s így kissé komplexebb képet kapunk az érzékelési teljesítményről. A színérzékelés különbségi küszöbei azt mutatják be, hogy a küszöbök problémája nem minden esetben egydimenziós (MacAdam 1942) (2.11. ábra). Egyetlen színhez is több különbségi küszöb tartozik, attól függően, hogy milyen más színtartománynyal hasonlítjuk össze. Például ha sztenderd ingerünk egy telített, élénk zöld szín, akkor élénk sárgászöldekre, élénk kékeszöldekre, illetve pasztell (kevésbé élénk) zöldekre eltérő különbségi küszöbök adódnak. Ha a pasztell irányba mozdulunk el, akkor sokkal nagyobb fizikai különbség szükséges a küszöbérzékeléshez, mint ha az élénk kékeszöldek vagy sárgászöldek irányába kezdjük módosítani a sztenderd ingert. 42

57 2. FEJEZET Pszichofizika Természetesen a küszöbmérési módszerek alkalmasak arra is, hogy az e fejezet elméleti részében ismertetett érzetfüggvénytípusokat meghatározzák. Az érzetfüggvények is pszichofizikai függvények, ráadásul olyanok, amelyeknek elméleti alapon ismert az általános formájuk (gondoljunk a Weber-Fechner-féle vagy a Stevens-féle érzetfüggvényre), tehát egy adott ingerkontinuumra érvényes pontos függvényalak meghatározásához csak néhány paraméter kimérése szükséges ábra. A színlátás különbségi küszöbei a színhasonlósági tér egyik változatában (a Nemzetközi Világítástechnikai Bizottság CI E 1931-ben elfogadott, úgynevezett kromaticitási diagramjában, mely a háromdimenziós színtér egy metszete). Látható, hogy adott pontokhoz vagyis színárnyalatokhoz tartozó különbségi küszöbök jól leírhatóak ellipszisek segítségével. Az ábrán a tengelyek a színegyezési függvények transzformáltjai (lásd a Színlátás címû fejezetet), a patkószerû színes alakzat kerületének pontjai pedig a monokromatikus fényhullámhosszak színének felelnek meg 2.4. ÖSSZEFOGLALÁS 1. Ebben a fejezetben megismerkedhettünk a pszichofizika alapfogalmaival, az ingerek érzékelésének és érzékleti megkülönböztetésének törvényszerűségeivel és módszereivel. Megállapítottuk, hogy míg a nominális skála nem fejez ki nagyságrendi viszonyt, az or- dinális skála nagyságrendet fejez ki, de a különbségek egymáshoz viszonyított mértéke nem értelmezett. Intervallumskála esetében a skálaértékek különbsége értelmezett. Míg az intervallumskálának nincs abszolút nulla pontja, az arányskálának van ilyen, tehát az arányskála egy intervallumskála abszolút nulla ponttal. 2. Az abszolút küszöb kifejezést a még érzékelhető legkisebb ingerintenzitásra, a különbségi küszöböt a két inger közti legkisebb még érzékelhető különbség jelölésére használjuk. A küszöbérzékelés valószínűségi esemény, így a küszöbökhöz mindig tartozik egy valószínűségi szint, amellyel érzékeljük őket. A különbségi küszöb arányos az alapinger nagyságával (Fechner-törvény). 3. A küszöbmérés és néhány további elméleti feltevés segítségével adott ingerkontinuumon belüli ingerek és a hozzájuk tartozó érzékletek között matematikai összefüggés írható fel. Az egyik ilyen, úgynevezett érzetfüggvény a Weber-Fechner-féle, mely logaritmikus ösz- szefüggést feltételez ingerek és a hozzájuk tartozó érzékletek között. Ehhez az az alapfeltevés vezet el, hogy az érzékelőrendszer az ingereket legkisebb érzékelhető különbségekben skálázza, és egy LÉK-hez mindig ugyanakkora érzetnövekmény társul. Ezzel szemben a Stevens-féle érzetfüggvény nem küszöbmérésen, hanem közvetlen aránybecslésen alapul, és ebből az alapfeltevésből az következik, hogy az érzetfüggvény általános formája hatványfüggvény. 4. A szignáldetekciós elmélet a pszichofizikai mérések azon problémáját oldja meg, hogy az ingerekre adott válaszok egyszerre függenek érzékelőrendszerünk érzékenységétől és beállítódásunktól, motivációnktól. Az érzékenység (d ) és a kritériumszint (b) szétválasztásával ez az elmélet a természetes és mesterséges érzékelőrendszerek (pl. radarok) egy igen általános tulajdonságát ragadja meg. 43

58 2. FEJEZET Pszichofizika 5. A Thurstone-féle skálázással páros választási valószínűségekből intervallumskála konstruálható, mely egy előre meghatározott dimenzió mentén jellemzi egy ingerhalmaz elemeit. Ezzel kiküszöböli a szubjektív skálák értelmezési nehézségét (ti. hogy lehet-e ezek eredményét intervallumskálaként fölfogni), viszont az eljárás igen fáradságos, nagyon sok páros választást tételez föl a választási valószínűségek becsléséhez. 6. A többdimenziós skálázással több, előre meg nem hatátozott dimenzió mentén jellemez-hetünk egy ingerhalmazt. Az ingerek közti hasonlósági mátrix értékei alapján egy megfelelően választott dimenziószámú térben rekonstruáljuk az ingerek közti hasonlósági viszonyokat mint távolságokat. Az így kapott pontkonfigurációban (ahol az egyes pontok az egyes ingereknek felelnek meg) pszichológiai szempontból értelmezhető dimenziókat lehet keresni. 1. A küszöbmérési módszerek klasszikus formáit a konstans ingerek módszerét, a határok módszerét és a beigazítási módszert Fechner dolgozta ki, és a mai, kifinomultabb módszerek ezeket fejlesztették tovább, több szempontból. Egyrészt a szubjektív beszámoló jellegű feladatokat ( Látom Nem látom ) teljesítményfeladattá alakították, és az ingereket a feltételezett küszöb köré sűrítették. Az adaptív módszerek ezt úgy érik el, hogy adott próbában megjelenő ingert az előző próbákban adott válaszok függvényeként állítanak elő KULCSFOGALMAK abszolút küszöb, arányskála, érzékenység, érzetfüggvény, intervallumskála, különbségi küszöb, küszöbmérés módszerei, nominális skála, ordinális skála, valószínűségi változó, Weber-törvény 2.6. ELLENŐRZŐ KÉRDÉSEK 1. Milyen skálatípussal jellemezhetők a következő mennyiségek: a) egy kör alakú autóverseny-pályán lévő szerelődokkok helyzete; b) az, hogy ismerőseink mennyire rokonszenvesek nekünk; c) különböző italok hőmérséklete, ha nincs hőmérőnk, s csak hőérzékelésünkre hagyatkozhatunk; d) italok hőmérséklete, ha van hőmérőnk; e) a látható színek a hétköznapi szemlélő számára. 2. Egy BKV-ellenőr 30 potyautasból 20-at elkapott, ám 30 rendes utasból 3-tól másodszor is elkérte a jegyét, mert úgy tűnt neki, mintha azok nem mutatták volna be. Társa 40 bliccelőből 30-at talált meg, és 20 fizető utasból 1-et ellenőrzött ismételten. Melyik ellenőr érzékenysége (d ) nagyobb a tömegben bliccelő utasokra? 3. Tegyük föl, hogy egy adott ingerkontinuumon mérések eredményeképp az érzetfüggvényből a következő adatpárokat becsültük: IngerÉrzet(x) 10,980 93, ,997 Ezen adatok alapján érvényesnek tűnik-e a Stevens-elv erre az ingerkontinuumra? 1. Melyik módszer használatával kapunk általában alacsonyabb küszöbbecslést: a beigazí- tási módszerrel vagy a kötelező választás technikájával? 2. Nyolc különböző inger egymáshoz való hasonlósági viszonyairól szeretnénk képet kapni többdimenziós skálázás segítségével úgy, hogy az adatokat kétdimenziós térbenjelenítjük meg. Egyértelmű eredményt ad-e a nemmetrikus többdimenziós skálázás? 3. Egy ingerkontinuumon az alábbi különbségi küszöbértékeket mérjük. Érvényesnek tűnik-e ezen adatok alapján a Weber-elv? 2.5. táblázat - Inger Különbségi küszöb 44

59 2. FEJEZET Pszichofizika 1 0,09 3 0,4 21 5, , AJÁNLOTT OLVASMÁNYOK p = 0,75-re Kaernbach, C. Schroger, E. Muller, H. (Eds.) Psychophysics BeyondSensation: Laws andin- variants of Human Cognition. LEA, Inc. (October 1, 2003) (ISBN ) Roederer, J. G The Physics and Psychophysics of Music: An Introduction. Springer-Verlag AJÁNLOTT HONLAPOK (A The Psychophysics Psyber Lab honlapja.) (Innen érdekes cikkek tölthetők le.) (Open Distance Learning, Mathematical Psychology.) (Az előbbi honlap a többdimenziós skálázásról.) 45

60 3. fejezet - LÁTÁS Nagyon ritkán jut eszünkbe, hogy az érzékelés és észlelés segítségével milyen különleges, milyen csodálatos sokféleségében fogjuk fel a világot. Egy szempillantás alatt számtalan ingert dolgozunk fel, érzékszerveink rendkívüli átalakító munkát végeznek, észlelőrendszerünk pedig mindezt már a környezethez illesztve értékeli, és ezzel az alkalmazkodó cselekvést szolgálja. Évszázadok óta izgatja a tudósokat a látás, az érzékelés és észlelés legfontosabbika, azaz vezető modalitása. Nem véletlen, hogy minden, az észlelést tárgyaló tankönyv is a látásról szóló fejezetekkel kezdődik ez alól a mi könyvünk sem kivétel. A következő fejezetekben megismerkedünk a szem lenyűgöző tulajdonságaival és mindazzal, ami az érzékelésen túl van, azaz bemutatjuk, miként működik a vizuális észlelés, miként segíti megértését a fejtörést okozó jelenségek tanulmányozása. Ez utóbbiak azonban nem csupán a pszichológiát érdeklik, hanem a modern festészetet is. A belgiumi Lessines-ben született René Magritte ( ) régóta kedvence a látási észleléssel foglalkozó pszichológusoknak. Már első, 1936-ban New Yorkban megrendezett kiállítását követően is több pszichológus figyelmét felkeltették munkái. Képei azonban elterjedten használt észlelésillusztrációkká az 1992-es retrospektív kiállítást (Museum of Modern Arts, New York) követően váltak. Magritte álomszerű képei a művészi precízió és a képi abszurd kombinációi. A pszichológus nem csupán azt látja bennük, hogy miként is ragadható meg művészi eszközökkel az észlelés egyszerre jelen lévő mozaikszerűsége és egészlegessége, hanem azt is, hogy a világ érthetetlensége milyen nyugtalanságot képes kelteni a befogadóban. René Magritte szürreális víziói olyan egyszerű hétköznapi tárgyakra épülnek, mint amilyen az alma, a szivar, vagy amilyen az illusztrációként használt festményen a lován ülő nő és az erdő fái. A Blank Check (üres csekk) címet viselő képet nézve a hétköznapi tárgyak precíz ábrázolásának és az észlelés furcsaságainak ütköztetése vezet ahhoz az élményhez, hogy a térábrázolás, képünkön a takarásban is jól működő tárgyészlelés, részleteiben szétesik, miközben egészében viszonylag jól működik. E kép első látványa a lovas, akit eltakarnak az erdő fái. Észlelőrendszerünk a bevált recept szerint dolgozik; a lovon ülő hölgy és a ló alakjának részletei láthatók, csak éppen nem a takarást adó fák között. A fák sem jól állnak, hiszen némelyik az előtérbe hajlik át, köztük valahogy átfűződik a ló és lovasa. A láthatatlan látható, a látható pedig nem tartozik a többi részlethez. A képet pásztázva egyre nyugtalanabbak leszünk; a tárgyak, takaró és takart, nem folytatódnak úgy, mint a valóságban, hol a sávok, hol pedig a tárgyak ragadják meg figyelmünket. Magritte gyakran varázslatos realizmus néven 46

61 LÁTÁS emlegetett különleges hatásának éppen ezért fontos eleme az észlelési törvényszerűségek tudatos szembeállítása a valóságossal. Érdemes lesz majd többi festményét is tanulmányoznunk akkor, ha már a vizuális észlelés sajátosságaival tüzetesebben megismerkedtünk. 47

62 4. fejezet - 3. FEJEZET A látás alapvető folyamatai A látás általában, az emberi látás pedig különösen páratlan teljesítménye az érzékelésnek, észlelésnek. Ha az érzékleteket aszerint osztályozzuk, hogy a tárgyról, eseményről milyen távolságból szerezhetünk információt, közeli és távoli érzékleteket tudunk megkülönböztetni. A látás az utóbbiak közé tartozik. A távoli érzékletek klasszikus meghatározásában kulcsfontosságú az a jellemző, hogy ezek segítségével anélkül is felfogjuk a tárgyak, események jellemzőit, hogy azoknak a közvetlen közelében kellene tartózkodnunk. Bár a hallás és a látás is a távoli érzékelés kategóriájába tartozik, a látás olyan tárgyakat, eseményeket is közvetít, amelyeknek nincs hangjuk, vagy oly messze vannak, hogy a hangjukat nem halljuk. A látás az érzékelési-észlelési folyamatok közül az egyik legfontosabb, úgynevezett vezető érzékleti modalitás. Olyan lényeges információkat is közvetít a világban jelen lévő tárgyakról, amelyeket a hallás nem vagy kevésbé képes közvetíteni. Ilyen a tárgyak színe, mérete, formája, téri helye, mozgása. Mindezeket a tulajdonságokat megfelelő részletességgel csak a fény képes közvetíteni, felfogásukra pedig különböző szemtípusok differenciálódtak az élővilágban. Ezek receptorai végzik az átalakítást (trandsz- dukciót). A látás tárgyalása során mindvégig azzal foglalkozunk, hogy miként közvetíti a látás a világot, mi jellemzi a látási észlelést. Ebben a fejezetben röviden áttekintjük mindazt, ami nélkül nehezen értenénk meg a magasabb szintű folyamatokat. Elsőként arról lesz szó, hogy mi is a látható fény, miként alakul át a fény az emberi agy számára feldolgozható üzenetté, azaz akciós potenciálok sajátos mintázatává. 1. A fénytől a retináig 1.1. A fény A fény az elektromágneses sugárzás egyik formája. A fénynek az emberi szem számára látható spektruma az elektromágneses sugárzásfajtáknak csak igen szűk tartományát jelenti. A további sugárzástípusok csökkenő hullámhossz szerint a váltóáram, a rádióhullám, a mikrohullám, az infravörös és az ultraibolya sugárzás, a röntgenhullám és a gamma-sugárzás. Ezt szemlélteti a 3.1. ábra. A fizikából jól ismerjük, hogy az elektromágneses sugárzás igen gyorsan halad (sebessége km/s). Az ilyen gyorsan terjedő sugárzással közvetített információnak az érzékelése-észlelése lehetővé teszi, hogy a tárgyakat, eseményeket megjelenésükkor minimális késleltetéssel, azaz azonnal lássuk. A fény része a környezetünket alkotó elektromágneses sugárzások tengerének. Ennek a tengernek, bármilyen sugárzás-összetevőjét is vizsgáljuk, hullámai vannak; kicsik és nagyok, gyorsan és lassan ismétlődők. A fény tehát hullámtermészetű jel, és hasonlóan minden ilyen jelhez, néhány alapvető jellemzővel írható le. A hullám magassága az amplitúdó, a másodpercenként érkező hullámok száma a frekvencia. Magasabb frekvencia esetén például egy másodperc alatt jóval több hullám érkezik, mint alacsony frekvenciánál. Több hullám, azaz magasabb frekvencia esetén természetszerűleg a hullámcsúcsok távolsága kisebb lesz, azaz a fény hullámhossza kisebb lesz, mint alacsony frekvenciánál. A fény hullámainak ismétlődésére, eltérően a hanghullámoktól, ahol a frekvencia a konven- cionálisan használt jellemző (lásd A hallás alapvető folyamatai című fejezetben), a hullámhosszt használjuk mutatóként. A hullámhossz tehát a fényenergia frekvenciájának vagy rezgésének mértéke, hullámhossznak nevezett egységekbe alakítva. A hullámhossz nem más, mint annak az útnak a hossza, amelyet a sugárzás egyes hullámok (rezgések) között megtesz. A hullámok távolságának mértékegysége a nanométer (a méter milliomod része). A látható fény tartománya a 400 és a 700 nanométer közé esik. 48

63 3. FEJEZET A látás alapvető folyamatai 3.1. ábra. Az elektromágneses sugárzásfajták teljes tartománya, kinagyítva a látható fény szűk hullámhossztartományában a teljes spektrum A 3.1. ábra, amelyen az elektromágneses sugárzás fajtáit, illetve a látható fény spektrumát tüntettük fel, jól szemlélteti, hogy a látható fény az elektromágneses hullámok tartományának igen kis részét foglalja el. Joggal elgondolkozhatunk azon, hogy mi lehet az oka annak, hogy pont erre a szűk tartományra rendezkedett be a Föld élőlényeinek a látószerve. Feltehetően fizikai és evolúciós okai vannak mindennek. Nem valószínű például, hogy a sokkal szélesebb tartományt alkotó ultraibolya vagy infravörös fény felfogására kialakuló szem jól biztosította volna az élőlények alkalmazkodását a környezethez. Elsősorban azért nem, mert a rövidebb és a hosszabb hullámhosszú energia nem nagyon alkalmas a környezet tárgyainak, eseményeinek közvetítésére. A 400 nanométernél rövidebb hullámhosszú fénnyel az a probléma, hogy a földi légkör molekulái jelentős részben elnyelik, ezért a világ tárgyaihoz el sem jut, és így vissza sem verődhet. A látható fénynél, tehát a 700 nanométernél nagyobb hullámhosszal jellemezhető hullámokkal viszont az a probléma, hogy ezek részben vagy teljesen áthatolnak a tárgyakon, és nem verődnek visz- sza róluk (ilyen az infravörös fény is). Ez egyébként a mikrohullámú készülékek működésének fizikai alapja. A látható fény egy durván 300 nanométeres tartományt ölel fel. Az ebbe a spektrumba tartozó hullámhosszak együtt alkotják az összetett fényt vagy fehér fényt. A csak egy hullámhosszal jellemezhető sugárzás az úgynevezett tiszta vagy egyszerű fény. Ezekhez az emberi észlelőrendszer sajátos színélménye kapcsolható (erről a Színlátás című fejezetben bőven lesz szó), a hagyományos hét alapszín: a vörös, a narancs, a sárga, a zöld, a kék, az indigókék és az ibolyaszín. Az alacsonyabb frekvenciájú sugárzás (hosszabb hullámhossz, magasabb nanométerérték) a spektrum vörös végéhez, a magasabb frekvenciájú sugárzás (rövidebb hullámhossz, alacsonyabb nanométerérték) a spektrum ibolyaszín végéhez közelebbi tartományába tartoznak A szem Az embrionális fejlődés során a szemek szövettanilag azonos struktúrákból differenciálódnak, mintegy az agy kinövései. Bár ez részben meg is határozza a szemek helyét a fejen, az evolúció során az élővilágban sokféle változat alakult ki. A gerinceseknél például elég jó összefüggést lehet felfedezni a szemek elhelyezkedése és az állatfaj életmódja között. Ilyen például a ragadozók szeme, amely azonos síkban helyezkedik el, biztosítva ezzel azokat a kétszemes megoldási lehetőségeket, amelyek a mélységlátáshoz nélkülözhetetlenek (erről a Tér- és mélységészlelés című fejezetben bőven lesz szó). Úgynevezett panorámalátással azonban egyetlen gerinces sem rendelkezik, tehát azt, hogy az alaposan szemügyre veendő tárgyakkal szemben helyezkedjünk el, testünk, fejünk és/ vagy szemünk mozgatásával biztosítjuk. Tudjuk azt is, hogy egyes állatok (pl. a bagoly) alig tudják mozgatni a szemüket, így tekintetük irányításához az egész fejüket mozgatják, míg mások (pl. a seregély) jóval nagyobb szemmozgató repertoárral rendelkeznek, mint az ember táblázat - SZEMIZMOK A szem izmai két csoportba sorolhatók. Négy izomköteg a szemgolyótól egyenesen, további két izomköteg 49

64 3. FEJEZET A látás alapvető folyamatai pedig ferdén fut hátrafelé. Az egyenes izmok a szemgolyó elülső részéhez közel, eltérő helyen tapadnak. Ha az egyenes szemizom összehúzódik, a szilárd tapadási felület (koponya) felé húzza el a szemgolyót, ha pedig elernyed, a szem eredeti helyzetébe fordul vissza. A középső egyenes szemizom (rectus medialis) az orr közelében tapad, összehúzódásakor az orr felé forgatja el a szemet. Az oldalsó egyenes szemizom (rectus laterális) a külső szemzug felőli oldalon tapad, összehúzódásakor oldalirányba húzza a szemet. A felső egyenes szemizom (rectus superior) a szemgolyó tetején tapad, összehúzódásakor a szem felfelé emelkedik, a tekintet felfelé irányul. Ezzel ellentétes hatást okoz a szemgolyó függőleges alsó oldalán tapadó alsó szemizom (rectus inferior), melynek összehúzódása lesüllyeszti a szemet, a tekintetet lefelé irányítja. Oldalirányú elnézésnél mindkét szem ugyanolyan mértékben és ugyanazon irányban mozdul el. Balra nézéskor a jobb szem középső izma és a bal szem oldalsó izma húzódik össze, a jobb szem oldalsó izma és a bal szem középső izma pedig elernyed Szemizmok és szemmozgásirány Az ember különösen gyorsan tudja mozgatni a szemét, tekintetét töredék másodperc alatt tudja egyik tárgyról a másikra irányítani. Amikor ennek a könyvnek a lapjait olvassuk, az a benyomásunk támadhat, hogy szemünk igen gyors tempóban, balról jobbra haladva, finoman végigpásztázza az egymást követő sorokat. Mint korábban jeleztük, az önmegfigyelés tévútra vezet. Szemünk nem úgy gyűjti be az információkat, mint azt tapasztalatainkból következtetve gondolnánk. Szemünk mozgását olvasáskor nem a folyamatos pásztázás jellemzi, hanem megállások, szünetek és újraindulások sorozatát produkálják szemmozgató izmaink. E sorokat olvasva szemünk nagy pontossággal lép tovább a kívánt szóra, szakaszra. Ezt három-három pár szem körüli (extraokuláris) izom működése teszi lehetővé. Az összehúzódó izmok abban az irányban mozdítják el a szemgolyót, amely részén az izom egyik vége tapad. Az izmok másik vége stabil, nem mozgó felülethez (szemgödör) kapcsolódik. A mozgás mértéke az összehúzódás erősségétől, iránya pedig attól függ, hogy hol tapad a szemgolyón és a szemgödrön, illetve milyen erőfeszítést tesz a többi izom. a szemmozgást a szemgolyók elmozdulási iránya szerint két csoportba sorolj u k A tekintet összehangolt, azonos irányú elmozdulását összetartozó szemizompárok (lásd az emlékeztető szövegdobozt) feszülése és elernyedése biztosítja, ezt a fajta szemmozgást konjunktív (egyirányú) szemmozgásnak nevezzük. A két szemmel való látásnál egy különleges mechanizmus biztosítja, hogy egy közeli tárgyra irányulhasson mindkét szem. Bármily furcsa, ehhez a két szemnek ellentétes irányban kell körmozgást végeznie. Ezt a többirányú, egész pontosan ellentétes irányú forgatást nevezzük vergens szemmozgásnak vagy vergenciá- nak. A vergens mozgás során a bal szem jobbra, a jobb szem pedig balra fordul, azaz mindkét szem befelé, az orr irányában mozog. A közvetlenül előttünk lévő tárgyra irányított tekintést szolgáló szemmozgásformát konvergens szemmozgásnak hívjuk A szemmozgások dinamikája A szemmozgások jellegzetes mozgásdinamikájuk szerint is osztályozhatók. Az egyik szem- mozgástípust a nagy sebesség jellemzi, segítségével igen gyorsan képes tekintetünk egyik tárgyról a másikra váltani. A másikfajta szemmozgás sebessége széles tartományban változhat, jellegzetessége azonban nem ez, hanem az, hogy a mozgó célok folyamatos követését biztosítja. E két eltérő dinamikájú szemmozgás eltérő célt szolgál, és részben eltérő agyi feldolgozóhálózat működéséhez köthető. A gyors szemmozgás teszi lehetővé a retina perifériájáról (itt gyenge az éles látás) a foveára (itt jó az éles látás) történő váltást. A periférián megjelenő tárgyra a tekintet igen gyorsan vált, majd a szemmozgás végén a tekintet a tárgyon megállapodik. Az ugrást szakkádnak, a megállást fixádénak nevezzük. A szakkád egyébként a szem állandó jellegzetes mozgása, egész pontosan az egyik ponttól a másikig történő tovamozdulása, például olyankor, amikor valamilyen vizuális eseményt nézünk, valamilyen tárgyat keresünk. A szakkádok a tekintetirány igen gyors változását igénylik. Eközben az egyensúly és a látás mechanizmusaiért felelős, úgynevezett veszti- bulo-okuláris reflexek a fejmozgásból adódóan bekövetkező képeltolódás ellenére is képesek biztosítani, hogy a szemgolyó ideghártyáján (retina) stabil legyen a kép. A szakkád a vizuális keresés, pásztázás (exploráció) egyik jellegzetes eszköze. Végrehajtása során valójában nincs információfelvétel, azaz mozgó szemmel nézünk, nyugvó szemmel látunk (Kardos 1970). Erről megbizonyosodhatunk akkor, ha megpróbáljuk saját szakkádjainkat a tükörben megfigyelni. Hiába mozgatjuk majd szemünket, mozgást nem fogunk látni. Ennek a szakkádikus elnyomásnak nevezett jelenségnek azonban nem önmagában a mozgás az oka. Ezt úgy vizsgálhatjuk, hogy ugyanolyan sebességgel mozgatjuk a tárgyakat, mint amilyen a szemmozgás sebessége a szakkád alatt. Azt fogjuk tapasztalni, hogy sem az alacsony kontrasztú, lassan mozgó tárgyakat, sem a kicsiny tárgyakat, függetlenül a kontrasztjuktól, nem látjuk. Nem így lesz viszont 50

65 3. FEJEZET A látás alapvető folyamatai a környezetüktől elütő, nagy, gyorsan mozgó tárgyak esetében, azaz önmagában nem a mozgás lehetetleníti el a látást. Mai ismereteink szerint a szakkádikus elnyomás amiatt jön létre, mert a vizuális rendszernek nincs pontos információja a szem helyzetéről, nem tudja, hogy hova irányul a tekintet. Tudjuk, hogy a látórendszernek, különösen pedig az agynak bonyolult számításokat kell elvégeznie ahhoz, hogy a szemek mozgása közben is megőrizze a környezetről szerzett információkat, és a fixációk során begyűjtött töredékeket egész képpé rakja össze táblázat - OLVASÁS ES SZEMMOZGAS Az olvasás során a szakkádok indulása és vége közötti távolság átlagosan 6-8 betű, ennek ideje átlagosan 20 ezredmásodperc (milliszekundum = ms). Egy adott szakkád alatt alig vagy egyáltalán nem vesz fel a szem információt, szakkádikus elnyomás történik (Matin 1974). Valójában feldolgozórendszerünk nem sokra menne a szemmozgások rendkívüli sebessége miatt elkent, homályos látási információval. Arra vonatkozóan azonban, hogy a szakkádikus elnyomás alatt a kognitív folyamatok elnyomása is történik-e, ellentmondó adatok vannak. Az ellentmondás eredete a kísérleti helyzetek különbségében,.-jilletve a szemmozgás vizsgálatára használt helyzet ökológiai érvényességében keresendő. A szemmozgás vizsgálatok eredményei alapján azonban igen korán felmerült, hogy a fixációk és szakkádok jellegzetes mintázatát az is meghatározza, hogy milyen előzetes elvárás alapján nézünk valamit. Yarbus (1967) klasszikus kísérletében a kísérleti személyeknek ugyanarról a festményről, az orosz Ilja Repin Váratlan látogató című művéről készült képet mutatott. A három csoportnak vagy a szereplők ruhájára, vagy a szereplők és tárgyak helyére kellett emlékeznie, vagy azt kellett megbecsülnie, hogy mennyi ideig lehetett távol a látogató. Yarbus azt találta, hogy a szemmozgások és fixációk a feladat szerint eltértek (bővebben lásd Csépe 2006). Valószínű tehát, hogy a kognitív elnyomás eltér aszerint, hogy mit figyelünk, illetve hogy tárgy- vagy témakeresés zajlik-e, vagy pedig csak olvasunk. Persze a szakkádok nem egyformák. Méretük (a mozgás nagysága szerint) és idejük (a mozgás sebessége szerint) is más. Szokásos elrendezésű szövegeknél a szakkádok vizuális szöge igen kicsi, mindössze 0,5-1,5 fok, képek esetében ennél jóval több. A laboratóriumi kísérlet tehát sokszor olyan változókat visz a folyamatba, amelyeket az értelmezésnél mindenképpen figyelembe kell vennünk. Az olvasás lényegének megközelítése csak az infravörös fényt alkalmazó szemmozgásvizsgálókkal vált pontossá, megbízhatóvá. A kutatók azonban már akkor vizsgálták, hogy mi történik a szakkádok alatt, amikor ezek az eszközök még nem álltak rendelkezésre. Marton és munkatársai (1984) a szak- kádok alatti információfeldolgozást egy igen ötletes eljárással tanulmányozták. A szakkádhoz szinkronizálták átlagoláskor az agyi választ. Azt találták, hogy a szakkád indulásakor az inger jelzett vagy becsült helye szerint változtak a szakkádhoz kötött agyi potenciálok. Ezeket a szerzők lambda-válasznak nevezték. Az eredmények meglepőek voltak, ugyanis a lambda-válasz késői szakasza ugyanúgy tükrözte az információ feldolgozását, mint a vizuális ingerhez kötött agyi válaszok (ezekről az 1. fejezetben volt már szó). A lambda késői pozitív hulláma eltért aszerint, hogy ismert vagy csak becsült volt-e a szakkád végállomásának, a célingernek a helye. A fixációk és a szakkádok időtartama erősen függ az olvasott szöveg természetétől is. Előfordul, hogy a szöveg egy adott részén fixációk egész sora jelenik meg, tekintési letapadás jön létre. Az úgynevezett tekintési idő ezeknek a fixációs időknek az összege. Az olvasást tehát a fixációk, a szakkádok és a tekintési letapadások sajátos mintázata kíséri. Ha az olvasott szöveghez a szemmozgás-regisztráló segítségével hozzárendeljük ezek idejét, érdekes törvényszerűségekre figyelhetünk fel. Például arra, hogy vannak olyan szavak, amelyeket az olvasó kétszer is fixál, míg másokat egyszer sem. Egyes szavakon ezek többnyire tartalmas szavak (pl. asztal, fut, sárga) hosszan időzik a tekintet, míg másokon csak röviden vagy egyáltalán nem. Az utóbbiak általában funkciószavak (pl. és, hogy, az). Az olvasási időkből készült statisztikák szerint (Rayner 1999) a tartalmas szavaknak általában 80 százalékára van fixációnk, míg ugyanez az arány a funkciószavaknál 40 százalék. Ezenkívül minél ritkább egy szó írott alakjának előfordulása (ezt a nyelvészeti kutatásokban az adott nyelvre készült gyakorisági szótárak tartalmazzák), annál hosszabb a fixációs idő. Általában az olvasott szöveg szavainak mintegy 65 százalékán állapodik meg hosszabb-rövidebb időre a tekintetünk. Ennek az aránynak az alakulását alapvetően két faktor befolyásolja: a szöveg tartalma és az olvasó egyéni jellemzői. Jó, ha tudjuk, hogy a szavak azonosításának nem szükségszerű feltétele a fixáció. Kihagyott szavak Miért hagy ki az olvasó egyes szavakat? Ennek sok összetevője van. Az egyik, hogy egy adott szöveg 51

66 3. FEJEZET A látás alapvető folyamatai olvasásakor mennyire várható, hogy milyen szó következik. Minél kevesebb a kontextus alapján lehetséges alternatívák száma, annál nagyobb a valószínűsége, hogy nem áll meg tekintetünk az adott szón, nincs fixáció. A fixáció elmaradását a szavak gyakorisága is befolyásolja. A gyakori szavaknál sokkal inkább várható, hogy nincs fixáció, mint a ritka szavaknál. Azok közül a tényezők közül pedig, amelyek meghatározzák, hogy elmarad-e a fixáció, az egyik legerősebb a szavak hossza (Brysbaert-Vitu 1998). A rövid szavakon (vaj, kés, hal) sokkal gyakrabban átsiklik a tekintet, mint a hosszabbakon, például a hat szótagig egybeírt összetett szavakon (halászháló, madáretető). Regresszív szakkádok A fixáció-szakkád-letapadás mintázatokat közelebbről szemügyre véve azt is észrevehetjük, hogy vannak a mondatnak, a szövegnek olyan részei, amelyeknél a szem visszatér a megelőző szavakra, és ismét fixálja azokat. Ezek azok az úgynevezett regresszív szakkádok, amelyek az összes szakkádnak mintegy a százalékát teszik ki. A regresszív szakkádok többnyire akkor jelennek meg, amikor az olvasó szemmozgásával túlságosan is előreszaladt, egy adott szón hamarabb túllépett, mint ami annak felismeréséhez vagy éppen a mondatba illesztéséhez szükséges. Ez azt jelenti, hogy vissza kell lépni. A regresszív szakkádok akár szavakon belül is megjelenhetnek (Rayner 1998), és persze legárulkodóbb jelei az olvasási készségek fejlettségének. A jól olvasók regresszív szakkádjai pontosak, oda térnek vissza, ahol a felismerési probléma nehezíti a szövegértést. A diszlexiásoknak sokkal több visszatérésre van szükségük, több lépésben tudnak csak a kritikus szóhoz visszatérni. A gyengén olvasók bizonytalan szakkádregressziói azt sugallhatják, hogy a diszlexia oka a szemmozgások alacsony hatékonysága. Az olvasáskutatók egy része valóban évtizedeken át meg volt erről győződve. Ennek egyenes következménye volt, hogy számtalan szemmozgástréning született, mégpedig annak reményében, hogy segítségével az olvasási teljesítmény javulni fog. Sajnos számos kutatás azt mutatta, hogy a szemmozgási mintázat anomáliái csupán tünetei, és csak ritkán okai a gyenge olvasásnak. Valójában a szem soha nincs teljes nyugalomban. Azokat az apró mozgásokat, amelyeket valakinek a szemébe nézve nem láthatunk, de érzékeny eszközökkel mérhetünk, mik- roszakkádoknak nevezzük. A mikroszakkádok ugyancsak fontos szerepet töltenek be a látási folyamatokban. A mikroszakkádok kiiktatásakor (a retinakép elmozdulását megakadályozó optikai készülékkel) a tárgyak elhalványulnak, sőt akár teljesen el is tűnnek. A mikroszakkádok a retinakép frissítését szolgálják. Mint fentebb már említettük, a mozgásdinamikát tekintve látórendszerünket egy másik szemmozgásfajta is szolgálja. A követő szemmozgások folyamatosak, nem ballisztikusak, mint a szakkád, azaz a mozgás sebessége és iránya állandóan változik, módosul. A követő szemmozgás a mozgó tárgyak észlelésében igen fontos szerepet játszik, mivel pontatlan követéskor a kép elmosódott lesz. Ezekkel a jelenségekkel bővebben foglalkozik majd a Mozgásészlelés című fejezet táblázat - A SZEM FELEPITESE A szem szerkezetével foglalkozó leírások gyakran használják a fényképezőgép-analógiát. Nem véletlen, hiszen mindkettő arra szolgál, hogy a látható világról valósághű képet készítsen. Ne tévesszen azonban meg bennünket mindez, hiszen ennek is, mint minden analógiának, korlátai vannak. Az emberi szem három koncentrikus rétegből áll, ezek kinézete, szerkezete és elsődleges funkciója is más. A legkülső rétegtől befelé haladva követi egymást az ínhártya, az érhártya és a retina. Ábránkon jól látható ez a háromrétegű elrendezés. Azt is jól láthatjuk, hogy a szem két üregre osztható: egy kisebb elülső és egy nagyobb hátulsó, üvegszerű kamrára. A szem alapszerkezetét a három koncentrikus réteg, a két kamra, a szivárványhártya, a pupilla és a lencse alkotja. Az ínhártya és a szaruhártya Az ínhártya a szem legkülső rostos rétege, kemény és sűrű anyagból ál. Latin neve, a sclera (kemény) is erre utal. A sűrűn kapcsolódó, összefonódott rostok az ínhártya felszínével párhuzamosan futnak, ezek adják a keménységet. Ha az ínhártya nem lenne elég kemény, nem lennének tarthatók a szemgolyó belsejének a légköri nyomás kétszeresét kitevő nyomásviszonyai. Az ínhártya merevsége azt is biztosítja, hogy ne deformálódhasson a szemgolyó, ez ugyanis rontaná a látvány minőségét. 52

67 3. FEJEZET A látás alapvető folyamatai Az ínhártyának a szemüregből kifelé tekintő külső rétege áttetsző. Ezen a részen a felület kicsit ki is emelkedik, ez a szaruhártya vagy cornea. A szaruhártya azért átlátszó, mert rostjai szabályosabb formába rendeződnek, és nincs saját vérellátása (a szaruhártyát az elülső kamra folyadéka táplálja). Az érhártya Az érhártya (choroidea) a szemgolyó falának közelében halad, kivételt a szemgolyó elülső területe jelent csak. Ez a 0,2 mm vékonyságú hártya nagyobbrészt erőteljesen pigmentált szivacsos struktúrából áll, vérerek, hajszálerek szövik át. A hajszálerek táplálják az ideghártyát (retina). Az érhártya erős pig- mentációja miatt elnyeli a többletfényt, megakadályozva ezzel a fény random szóródását a szemgolyóban. Egy ilyen random szóródás csökkentené a szemben formálódó képek élességét. A kamrák Elülso szemkamra. A szem elülső részén az érhártya nem illeszkedik pontosan az ínhártyához, hanem hosszú, elnyúló szerkezetet hoz létre, ez a sugártest. Az érhártya által produkált vízszerű folyadék, a csarnokvíz tölti ki az elülső szemkamrát. Ez a szaruhártya mögött és a lencse előtt helyezkedik el. A csarnokvíz hasonló funkciót tölt be, mint a test más részein a vér. A csarnokvíznek ezenkívül fontos szerepe van abban, hogy az elülső kamrát kitöltve fenntartsa a szemgolyó alakját. Üvegtest. Az üvegtest a szem teljes térfogatának közel kétharmadát teszi ki. Elölről a lencse, oldalról és hátulról pedig a retina határolja. Ezt a kamrát is áttetsző, viszkózus (hasonló a tojásfehérjéhez) folyadék, a csarnokvíz tölti ki. A sugártest folyadékával ellentétben az üvegtest csarnokvize nem újul meg folyamatosan, így apró, általában ártalmatlan, úszó darabkák jelenhetnek meg benne. Az úszó darabok gyakori jelenléte látást veszélyeztető állapot jele, kezelésre szorul. Szivárványhártya A szivárványhártya kör alakú, pigmentált szövetdarab, ez adja szemünk jellegzetes színét. A szivárványhártya a színek sokfélesége miatt kapta az írisz (görögül szivárványt jelent) nevet. Két rétegét a pigmentált külső és a vérereket tartalmazó belső réteg alkotja. A belső réteg színe csak akkor látszik, ha a külső réteg pigmentációja gyenge (pl. albínók). Pupilla A szivárványhártya közepén egy kör alakú, fekete terület látható, ez a pupilla. Talán a feketeség és kicsiség, jól formáltság miatt használjuk a magyarban az igen szemléletes szembogár kifejezést. Valójában a pupilla két izomcsoport közötti kerek rés vagy nyílás. A belső, körkörös izomköteg és az innen sugarasan futó izmok összehúzódása szabályozza a pupilla nagyságát. A pupilla a körkörös izmok összehúzódásakor kisebb lesz, szűkül, a sugárizmok összehúzódásakor nagyobb lesz, kitágul. A pupilla mérete befolyásolja, hogy mennyi fény éri a retinát. A pupilla méretét befolyásoló tényezők közé tartozik a fényszint, valamint az autonóm idegrendszer válaszát kiváltó tényezők (izgatottság, félelem, szexuális érdeklődés, különböző érzelmi állapotok). Lencse A szemlencse a szivárványhártya mögött helyezkedik el. Nevét alakjáról kapta, mérete hasonló egy átlagos tablettáéhoz (kb. 9 mm átmérőjű és 4 mm vastag). A lencse része a fedő vagy tok, a tok belsejében elhelyezkedő hámréteg és maga a lencse. A lencsét körülölelő rugalmas tok a csarnokfolyadék áramlásának szabályozásával a lencse átlátszóságát, rugalmasságával pedig a lencse laposságának változtatását, azaz a lencse optikai erejét biztosítja. A lencsét jelentős mértékben kitevő fehérjeszálak (proteinszálak) párhuzamos haladása biztosítja a lencse fényáteresztő képességét. A proteinszálak csoportosulását zavaró tényezők az áttetszőség csökkenéséhez vezetnek. 53

68 3. FEJEZET A látás alapvető folyamatai A szem anatómiája 3.2. ábra. A retina, amelyben kétféle receptor található (csapok és pálcikák). A pálcikák lehetővé teszik, hogy akár rossz megvilágításban is jól lássunk, a színélményt adó hullámhosszakra azonban nem érzékenyek. A csapok (tölcsér formájú képletek) kevésbé fényérzékenyek, a színeket adó hullámhosz- szakra viszont tipikus érzékenységet mutatnak 1.3. A retina Ahhoz, hogy lássunk, a szemünkbe jutó fényt az agy számára feldolgozható bioelektromos jellé kell átalakítani. Ezt az átalakítást a szem (szerkezetét emlékeztetőként A szem felépítése című szövegdobozban mutatjuk be), ezen belül pedig az ideghártya vagy retina végzi. A retina (recehártya) a szem legbelső, igen vékony, hálószerű rétege, nevét is innen kapta. A rete latin szó, azt jelenti háló, valószínű, hogy a magyar recehártya kifejezés is ebből a szótőből alakult ki. A transzdukció szempontjából a retina legfontosabb elemei a fotereceptorok. Ezeknek az a feladata, hogy a fényenergiát idegi jelekké alakítsák át. Ezek az idegi jelek továbbítódnak majd egy eltérő sejtekből, az úgynevezett gyűjtősejtekből álló hálózatba. Maguk a gyűjtősejtek három, eltérő tulajdonságokkal jellemezhető ideg- sejtcsoportot alkotnak. Ezek a bipoláris sejtek, az amakrin sejtek és a horizontális sejtek (ezekről a következő fejezetekben többször szó lesz még). A 3.2. ábra a retina szerkezetét mutatja be. Nyilak jelölik a beérkező fény irányát. Az ábrán jól látható, hogy a fény, mielőtt a fotoreceptorokat elérné, áthalad a gyűjtősejtek és a retinális ganglionsejtek (ezekkel a fejezet második részében foglalkozunk) hálózatán. Mint korábban már szó volt róla, a retina ugyanabból a szövetből származik, mint az agy. Mielőtt a finomabb szerkezet tárgyalására rátérnénk, röviden foglalkoznunk kell a durvább szerkezettel. A retinán jól elkülönül egy 54

69 3. FEJEZET A látás alapvető folyamatai kicsiny terület, az úgynevezett sárgafolt vagy macula. A retinának ez a része felelős az éles látásért, a látott tárgy képe a sárgafolt közepén a legélesebb. Ott, ahol a gyűjtősejtek idegrostjai elhagyják a retinát az agy felé, nem látunk. A terület a nevét is innen kapta: vakfolt. Térjünk vissza a 3.2. ábrához! Mint már említettük, a fotoreceptorok a retina leghátsó rétegében található specializált idegsejtek. A retina a sárgafolt közepén elvékonyodik (innen a görög eredetű fovea név, jelentése gödör, mélyedés), ez minimalizálja azt a fényelnyelődést, amely amiatt következik be, hogy a fénynek más rétegeken kell áthaladnia ahhoz, hogy elérje a fotoreceptorokat A fotoreceptorok Szemünk recehártyája (retinája) kétféle fotoreceptorból, pálcikákból és csapokból áll. Az emberi retinában mintegy 120 millió pálcika és 8 millió csap található. A fotoreceptorok nevüket alakjukról kapták. A csap alapja szélesebb, csúcsa elkeskenyedik, mint egy tölcsér (angol neve, a cone = tölcsér egyébként jobban asszociálható a fotoreceptor tényleges alakjával, mint a magyar csap kifejezés). A pálcika viszont valóban pálcika alakú, oldala egyenes, vége tompa, olyan, mint egy miniatűr sóspálcika. A kétféle receptor eltérő funkciót tölt be a látásban. A fény elérve a fotoreceptorokat az azok belsejében található fényérzékeny molekulákkal lép kapcsolatba. Ezek a fotopigmentnek nevezett molekulák két összetevőből állnak, egy nagyobb fehérjéből (opszin) és egy A-vitaminból származó kisebből (retinal). A két összetevő stabil molekulát alkot, amely a fény hatására megváltoztatja alakját (izomerizál), ezáltal energiát szabadít fel. Ez a folyamat a fotoreceptorok elektromos állapotának megváltozását eredményezi. A fotoreceptorok elektromos állapotváltozása megváltoztatja az általuk kibocsátott átvivőanyagok (transzmitterek) meny- nyiségét, ez pedig kapcsolatban van az izomerizációk számával. A kémiai anyag koncentrációváltozása a fotoreceptorra vetülő fény mennyiségétől függ. A receptorok nem csupán a fény mennyiségére, hanem a fény hullámhosszára is érzékenyek. A receptorok jól jellemezhetők azzal a hullámhosszal, amelyre a legérzékenyebbek. A pálcikák például az 500 nanométeres (ezt az emberi szem kékeszöldnek látja) hullámhosszra adnak kitüntetett választ, a rövidebb és hosszabb hullámhossz már gyengébb választ eredményez. A csapok érzékenysége viszont nagyobb tartományban változik, a pontos hullámhossz a csap típusától függ. A csapoknak három különböző osztálya van: a rövid (kb. 440 nm), a közepes (kb. 530 nm) és a hosszú (kb. 560 nm) hullámhosszra érzékenyek. A csapoknak ez az érzékenysége a színlátás szempontjából igen fontos lesz, erről bővebben a Színlátás című fejezetben lesz majd szó. A pálcikák és a csapok nem csupán kinézetük és hullámhossz-érzékenységük szerint különböznek, hanem a retinán való területi elhelyezkedésük is más. A sárgafolt közepén csak csapok találhatók, pálcikák nem, a sárgafolttól távolabb viszont jóval több a pálcika, csapok csak elszórtan vannak jelen. Az ember sárgafoltjának közepén a csapok olyan sűrűn helyezkednek el, hogy egy egy négyzetmilliméteres területen 150 ezer található. A sárgafolt közepétől távolodva a pálcikák száma jelentősen nő, a retinán az orr felé valamivel több, mint fél centiméterre körülbelül ugyanolyan a pálcikák sűrűsége, mint a csapoké a sárgafolt közepén. A későbbi fejezetekben rengeteg olyan példával találkozunk majd, amelyek minden bizonnyal meggyőznek arról, hogy a retina eltérő területeinek a látásban betöltött szerepe más, és ezt jól szolgálják a pálcikák és a csapok eltérő sűrűségű megjelenésével jellemezhető területek. A retináról az agy felé továbbított kép minősége erősen változik aszerint, hogy milyen a fotoreceptorok eloszlása az adott területen. Ahol kevesebb a receptor, ott a kép téri részletei kevésbé jók, sőt egyes részletek akár hiányozhatnak is. Az észlelést viszont az szolgálná jól, ha a fotoreceptorok válasza ezeket valamiképp mégis megragadná. Ez akkor teljesül, ha a mintázat minden elemének van egy receptorválasz megfelelője. Ez a retinában valóban így is történik, azonban maga a feldolgozás felső korlátos. Ez azt jelenti, hogy adott mintázatsűrűséget a receptorok már nem képesek hűen visszaadni. Ezt a fotoreceptorok illeszkedési rendszere tudja áthidalni. Az éles látás területén a fotoreceptorok sűrűn és majdnem állandó távolságra vannak egymástól, rendezetten kapcsolódnak. Innen távolodva a szomszédos receptorsejtek távolsága nő, és rendezettségük is kisebb. A foveán ezért a receptorelrendezés a legapróbb részleteket is képes visszaadni, míg ettől távolodva a receptorok durvább mintázatok megragadására képesek. A finomabb mintázatból itt kevésbé jó felbontású, durva mintázat készül, ezt nevezzük másításnak. Az emberi szem fotoreceptoraiból kirajzolódó foltminta vagy mozaik általában jól illeszkedik környezetünk felbontási részleteihez, így másítást általában nem tapasztalunk. Tudjuk tehát, hogy látásunk a fotoreceptorok jellegzetességeit tükrözi. A fejezet második része azt is megmutatja, hogy a retina más összetevői miként határozzák meg, hogy mit látunk A retinális kép 55

70 3. FEJEZET A látás alapvető folyamatai A tárgyakról a retináig eljutó kép nem más, mint egyfajta fényeloszlás. Ezt a fényeloszlást szokás retinális képnek nevezni. Bár a retina számára fontos lehet a természetes vagy mesterséges fény, a környezet-észlelés megfeleltetési folyamatban a legfontosabb a tárgyakról és felületükről visszaverődő fény. A fizikában jól ismert, hogy a tárgyak felszíne a fény egy részét elnyeli, a többit pedig visszaveri. Azokat a tárgyakat, amelyek a fény jelentős részét visszaverik, világosnak, azokat pedig, amelyek a fény nagyobb részét elnyelik, sötétnek látjuk. Egy fehér papírlap például a fénynek mintegy négyötödét visszaveri. Egyes felületek a visszaverődés szempontjából nem egyformák, ezért világosság-sötétség mintázatuk jellegzetes fénymintázattal rendelkezik. A visszaverődő fény ezért a felület anyagáról is közvetít információt. Mindez akkor valósul persze meg, ha a fény elég intenzív ahhoz, hogy a szem fénytörő szerkezetein áthatoljon, és eljusson a retináig. Végül és nem utolsósorban a retinára eső fénymintázatnak meg kell tartania annak a tárgynak a téri szerkezetét, amelyről visszaverődött. Ha ez teljesül, a tárgy két szomszédos pontjáról származó fény a retina szomszédos területeire esik. A tárgyak pontjainak téri elrendezését megőrző retinális fényeloszlást nevezzük képnek. A retinán formálódó képek élessége a szaruhártya és a szemlencse optikai hatékonyságától függ. A szemlencsének úgy kell a fényeloszlást fókuszálnia, hogy az pontosan a retinán legyen. A szemlencse a közeli és távoli tárgyakra tekintéskor változtatja, optimalizálja alakját, változtatja optikai hatékonyságát. Ezt akkomodációnak nevezzük. A szemlencse, hasonlóan más domború felületű (konvex) lencsékhez, összegyűjti, adott pontra fókuszálja a fényt. Az a távolság, amelyre a lencse a fényt fókuszálja, a lencse domborulatától és a lencsén áthaladó fény induló széttartásától függ. A lencsének megfelelő hosszúságúnak, optimális domborulatúnak kell lennie ahhoz, hogy a kép mindig a retinán keletkezzen, azaz a retinális kép éles legyen. A normál látású szem ilyen (emmetropikus). A normálnál hosszabb, így kevésbé konvex lencse esetében a kép a retina mögött keletkezne, a retinán tehát a fény még mindig széttartó, nem fókuszált. Az ilyen szem távollátó (hiperópiás), a távoli tárgyakat tudja a legjobban fókuszálni. A távollátók korrekció (konvex szemüveg) nélkül gyakran akkomodációval enyhítik problémájukat, az akkomo- dáció ugyanis konvexebbé teszi a lencséket. Rövidebb, ennélfogva konvexebb szemlencse esetében a kép a retina előtt alakul ki, így a retinát érő fény már ismét széttartó, a kép pedig nem éles. Ilyen a rövidlátó (miópiás) szem, amely a közeli tárgyakat képes a legjobban fókuszálni. Ez csak úgy enyhíthető, ha a tárgyat közelebbről nézzük, az akkomodáció itt nem segít. A rövidlátás konkáv lencsével (amely széttartóvá teszi a fényt) korrigálható. 2. A retinától a V1-ig 2.1. Képfeldolgozás: a retinális receptív mezők A látás első szintjein nem csupán a fényképszerű retinaképnek az agykéregbe történő továbbítása történik. Passzív továbbításnál többről van szó. Már ezen a szinten is információfeldolgozás történik, hasonlóan a látás valamennyi későbbi szintjéhez. Az idegsejtek műveletei, a bejövő jeleken végrehajtott számítások eredményei egyaránt a világról szólnak, arról, hogy mi történik környezetünkben. Egy magyar származású amerikai tudós, Stephen Kuffler (lásd a szövegdobozt a 108. oldalon) fedezte fel ben a látás során történő információfeldolgozás legelső és talán egyben legfontosabb lépését. A 3.3. ábrán illusztrált egysejt-vizsgálatokat (a módszerről a bevezető fejezetben szóltunk már) végzett, és a retinális ganglionsejtek akciós potenciáljait vezette el (lásd Az idegrendszer nyelve című szövegdobozt). Azt találta, hogy ezek az idegsejtek megváltoztatják tüzelési frekvenciájukat, ha a retinát kis fényfoltokkal ingerli. Ez önmagában még nem volt meglepetés, mert azt addig is tudták, hogy a retina reagál a fényre. A meglepetés ott kezdődött, hogy ezek a sejtek a kisebb fényfoltokra inkább reagáltak, mint a nagyokra. Sőt minden ganglionsejt csak a retina egy adott helyén történő ingerlésre reagált. Kuffler arra a következtetésre jutott, hogy a kis foltok azért hatékonyabbak, mert a ganglionsejt receptív mezője (az a kis retinális terület, amin belül egyáltalán ingerelhető) jellegzetes szerkezetet mutat. A receptív mező közepe ingerlésre megnöveli a válaszát, szélső területe viszont az ingerlésre csökkenteni fogja (3.3. ábra). Tehát a receptív mező két antagonisztikus működésű részből áll, s ha a fényfolt, amit ingerlésre használunk, belelóg a széli részbe, a sejt gátlás alá kerül. Ezt a jelenséget nevezzük laterális gátlásnak. Egyszerűnek tűnik? Tényleg az de mennyi mindenre jó! 4.4. táblázat - AZ IDEGRENDSZER NYELVE Hogy működnek az idegsejtek, s hogy kerül át információ egyik sejtről a másikra? Az elmúlt mintán ötven év 56

71 3. FEJEZET A látás alapvető folyamatai során számos neurofiziológus, köztük Andrew Huxley, Alan Hodgkin, Bernard Katz, John Eccles és Stephen Kuffler munkásságának köszönhetően rengeteget megtudtunk ezekről a kérdésekről, s az idegi, illetve szinaptikus átvitel részletei tisztázottá váltak. Ma már tudjuk, hogy az idegsejt feladata, hogy összegezze, integrálja a bemenetéül szolgáló sejtekből származó információt, s ezt az integrált információt továbbküldje más sejteknek. Az információ általában rövid kis csomagokban, úgynevezett idegi impulzusok formájában továbbítódik. Ezek az impulzusok más néven akciós potenciálok vagy kisülések ugyanolyanok a retinán és az agykéregben is, bármely területen belül jönnek létre ezek alkotják az idegrendszer belső nyelvének alapszókészletét. A mondanivaló nagyrészt a kisülések sűrűségében vagy frekvenciájában kódolódik, ami a másodpercenkénti néhánytól ezerig terjedhet. 3.3.ábra. A retina BE-KI ( +-), ellentétes működésű részekre tagolt körkörös receptív mezővel rendelkező ganglionsejtjeinek válaszai különböző ingerlésekre. Az ábra a retinái is ganglionsejteken Kuffler által mért egysejt-tevékenység eredményeinek összefoglalását adja (Kuffler 1952). Négyféle inger (sorok: teljes sötétség, apró fényfolt, nagy fényfolt, fénygyűrű) és kétféle receptív mező (bal: BE-KI, jobb: KI-BE) szerepel az ábrán. A vízszintes vonalak az időtengelyt alkotják, s a kis pálcikák rajtuk az adott sejt adott ingerlés melletti egyes kisüléseit reprezentálják. Az inger be- és kikapcsolása között eltelt időt az alsó sor vastagabb vonalszakasza mutatja. A teljes sötétségre (1. sor) bármilyen ganglionsejt hasonlóképp reagál: gyér, rendszertelen kisülések, legfeljebb másodpercenként 20. Apró fényfoltra (2. sor), ha az pont a BE-KI sejt receptív mezőjének közepét fedi, a sejt jelentős kisülésifrekvencia-növekedéssel reagál; a KI-BE sejt pedig az inger időtartamára teljesen beszünteti kisüléseit. Nagy fényfoltra (3. sor), mely bármely ganglionsejt receptív mezőjének egészét fedi, a sejtek kisülési frekvenciája nem fog eltérni a sötétre adott választól! Ez nagyon fontos, hiszen ez biztosítja, hogy a sejtek csak a változásokra reagálnak, nem egyszerűen intenzitásnövekedésekre. A széli rész megvilágítására (4. sor) a BE-KI sejt beszünteti válaszát, a KI-BE sejt viszont igen aktív válaszadásba fog. A BE-KI és a KI-BE sejtek együttesen biztosítják, hogy világosságnövekedésre és -csökkenésre is reagálni tudjunk. Az ábra alsó része azt illusztrálja, hogy milyen típusú képfeldolgozásra lehetnek képesek a retinális ganglionsejtek ellentétes működésű középponti és széli receptívmező-szerkezetük révén. Ahelyett, hogy a kép minden pontjáról közvetítenének információt, csak a fontos helyekről, például a hirtelen fényintenzitás-változások helyéről tudósítanak. Ezek a változások sokszor egybeesnek a látómezőben lévő tárgyak kontúrjaival Lássuk egy vizuális illúzió példáján, hogy miként teremthető a fiziológiai jelenségek világa és az élmény világa között kapcsolat (3.4. a ábra). A Ludimar Hermann fiziológus által 1870-ben leírt jelenség, a Hermann-rács sok fejtörést okozott mind az akkori, mind a mai tudósoknak, és sokat segített, többek között abban, hogy a kutatók a világosságészlelés mechanizmusait feltárják. A hagyományos magyarázat, mely Ewald Hering (1920) s később Bruno Baumgartner (1960) nevéhez fűződik, abból indul ki, hogy a szem világosságszinteket mérő receptorai nem függetlenül, egyenként és pontszerűen hajtják végre a világosságméréseket, hanem csoportokba, úgynevezett receptív mezőkbe tömörülve döntik el egy-egy apró terület világosságértékét, azaz téri integrációt végeznek. A 3.3. ábrán definiált receptív mező képezi az alapját a felszínek világosságáról alkotott érzékleteinknek, s úgy tűnik, jól magyarázza a Hermann-rács esetén fellépő illúziót is (3.4. b ábra). 57

72 3. FEJEZET A látás alapvető folyamatai 3.4. ábra. a) A klasszikus Hermann-rács. Mit látunk? Látszanak-e a kis sötét foltok ott is, ahova éppen nézünk? b) A Hermann-rács klasszikus magyarázata. A rácsra ráhelyeztük a ganglionsejtek idealizált receptív mezőit. Mivel a kereszteződésekben több fény esik a receptív mező negatív (-) választ adó széli gyűrűjére, mint az oldalak mentén, a ganglionsejtek receptív mezőjén belüli ösz- szegzés eredménye eltérő lesz. A kereszteződésben, bár a pozitív (+) válasz ugyanakkora lesz, mint az oldalak mentén, több vonódik le belőle a széli gyűrű fokozottabb gátlása (-) miatt. így a végeredmény az oldalak mentén adott erősebb neurális válasz, mely az agy számára azt jelzi, hogy az oldalak mentén világosabb a felszín, mint a kereszteződésekben. A ganglionsejtek válaszának erőssége erősen korrelál azzal, amit látunk. De vajon miért nem látjuk a foltokat ott, ahova nézünk? Ezeket az illuzórikus pontokat már több mint egy évszázada felfedezték. Általánosan elfogadott, hogy ezek az illuzórikus pontok a retinális ganglionsejtek receptív mezején belüli központi/környéki antagonizmus eredményei. KI és BE központú receptív mezőket használunk majd, hogy megmagyarázzuk, miért jelennek meg a pontok a bal oldali rácsban. Két kérdésre mindenképpen kell válaszolnunk. Az egyik az, hogy miért csak a vízszintes és függőleges csíkok metszéspontjaiban jelennek meg az észlelt pontok, és máshol nem. Másodszor, hogy miért nem látjuk őket akkor, ha egyenesen rájuk nézünk. Ahhoz, hogy meghatározhassuk a retinális ganglionsejteknek a válaszát, sejtenként kell megvizsgálnunk, hogy a rácsmintázat hogyan befolyásolja az egyes összetevőket a központi, illetve a környéki területet. Tegyük fel, hogy a néző tekintete a fixációs pontként egy adott ponton nyugszik. Ekkor azt láthatjuk, hogy mindkét receptív mező központjára ugyanolyan mennyiségű fény vetül, a környéki részekre azonban különböző mennyiségű, hiszen a receptív mező KI részére eső fény csökkenti a sejt aktivitását. Ez azt jelenti, hogy az a sejt, amely receptív mezejének központja a metszéspontban található, kisebb választ fog adni, mint az a sejt, amely receptív mezejének központja a metszéspontok között helyezkedik el. Vagyis, a metszéspontok között a fehér csík világosabbnak fog látszódni. Mivel a kisebb válasz azokra a sejtekre vonatkozik, amelyek receptív mezejének központja a metszéspontokban van, csupán ezeken a helyeken észleljük az elsötétedést a szürke pontokat. Érdekes átalakítást hajtott végre a Hermann-rácson Geier János (2004). A rácsminta egyeneseinek hullámossá tételével eltüntette az illúziót. Ez azért különösen érdekes, mert bár az eddig bemutatott retinális receptív mező modell szerint a kereszteződésekben foltoknak kellene megjelenniük, ebben a speciális esetben még sincs így, a foltok megszűnnek. Mit jelent ez? A laterális gátlásról és a retinális receptív mezőkről mondottakat nem cáfolja az új illusztráció, sőt ezek alapján lehetséges az illúzió értelmezése. Azt kell gondolnunk, hogy a Hermann-rács nem pusztán a retinális feldolgozás eredménye, hanem agykérgi folyamatok is szerepet játszhatnak benne táblázat - STEPHEN KUFFLER Kuffler Vilmos (később Stephen William Kuffler, ) a magyarországi Tápon született és élt tízéves koráig. Családjával később Ausztriába költözött, s Bécsben végezte iskoláit ban, a Bécsi Egyetem friss orvosi diplomájával táskájában, Ausztráliába menekült a nácik elől, ahol Sir John Eccles és Bernard Katz mellett az izom-ideg ingerületátvitel tanulmányozásába kezdett. A chicagói Egyetem s a Johns Hopkins után a Harvard adott neki otthont 1959-ben, ahol azután számos fontos eredménnyel járult hozzá a modern idegtudományhoz, s között a Neurobiológiai Tanszék vezetője volt. 58

73 3. FEJEZET A látás alapvető folyamatai Stephen W. Kuffler David Hubellel és Thorsten Wi- esellel 1967-ben A biológia valószínűleg legnagyobb eredménye az elmúlt évszázadban az idegtudomány mint független tudomány megszületése volt. Ennek talán legfontosabb lépését alkották Kufflernek az ötvenes években végzett elektrofiziológiai vizsgálatai a macska retinális ganglionsejtjein. A nagy kérdés az volt, hogy in vivo körülmények között, külső ingerléssel lehetséges-e jeleket elvezetni az idegsejtekből. Egy ügyes optikai eszközzel (a szemészek ophtalmoszkópját átalakítva) elérte azt, hogy a retinát akár diffúz, akár jól lokalizált megvilágításnak lehessen kitenni. A szemen keresztül bejuttatott elektródákkal pedig, melyek könnyen elérték a ganglionsejteket, extracelluláris elvezetéssel figyelte egy-egy sejt aktivitásváltozását a retinális megvilágítás függvényében. Diffúz fényben és sötétben hasonlóképp viselkedtek a ganglionsejtek: kissé szabálytalan ütemben, de legfeljebb másodpercenként 20 kisülést produkáltak. Már ez is meglepetés volt, mert sötétben igazából csendben is maradhatnának a neuronok. A diffúz, erős fény esetén erős válaszokat vártak. Az igazi nagy meglepetés pedig még ezután jött, amikor egészen apró, gyenge fénysugárral pásztázva a retinát, a sejt hol teljes némaságba süppedt (KI regió), hol igen szapora válaszba kezdett (BE regió). Ez volt az egysejtneurofiziológia hajnala, amivel megkezdődött a központi idegrendszer funkcionális működésének feltárása. Ezt a paradigmát vitte tovább azután David Hubel és Thorsten Wiesel az agykéreg tanulmányozása felé. Nemcsak a paradigmatikus felfedezés, de tudósi magatartása is a ritka, nagy tudósok közé emeli Kufflert. Azok közé tartozott, akik szerint a tudós egyetlen célja az ismeretlen feltárása, s elvetette a modern tudomány egyre gyakrabban mutatkozó hatalom- és pénzközéppontú tendenciáit. A szem kimenete az agykérgi feldolgozás bemenete végül is egy olyan gazdag reprezentáció, amely a fotoreceptorokra vetülő, pontszerű képnél már sokkal kifinomultabb. A laterális gátlás jelentősége természetesen sokkal nagyobb, mint az, hogy pusztán a vizuális illúziók kézenfekvő magyarázataként szolgáljon. A retina ideghálózata, nagyrészt a ganglionsejtek receptívmező-struktúrája révén, elvégzi a retinakép feldolgozásának első jelentős lépését, a lényeges változások kiemelését (lásd 3.3. ábra alsó képsora). Ernst Mach osztrák fizikus és filozófus a 19. század utolsó és a 20. század első felében hasonló jelenségre figyelt fel. Az általa kifejlesztett mintázatok többségén olyan dolgokat tapasztalt, amelyeket nehéz lenne a papírdarabokról visszaverődő fény megoszlásával magyarázni. A Mach által használt, sötét és világos sávokból álló ábrákon a Hermann-rácshoz hasonló jelenségek figyelhetők meg a sávok találkozási élén (Mach-sávok). A Mach-sá- vokra itt ugyan csak röviden utalunk, tudnunk kell, hogy a Mach-sávok segítségével ugyanúgy, mint a Hermann-rácsok tanulmányozásával sokat tanulhatunk a fényerősség és a világosság közötti különbségről. Az erősség egy fizikai változó, a világosság pedig egy pszichológiai vagy perceptuális változó, aminek a méréséhez a vizuális rendszerre van szükség. Erősség és világosság ugyan gyakran jár együtt, a Mach-sávok rámutatnak arra, hogy ez a korreláció nem tökéletes táblázat - A LATOPALYA FELEP Í TESE A retinát a látókéreggel a látópálya köti össze. A látóideget a retina ganglionsejtjeinek axonjai alkotják. A 59

74 3. FEJEZET A látás alapvető folyamatai szemen belül a ganglionsejtek axonjait nem borítja mielin (velőhüvely, amely szigeteli az axont, növeli a vezetőképességet). A látóidegek a látóideg-kereszteződésben futnak össze, ahol az idegrostok átrendeződnek, mégpedig úgy, hogy egyesek mindig az azonos oldalon maradnak, míg mások átkereszteződnek. A rostok egy része nem kereszteződik (ipszilaterális rostok; az ipsi jelentése ugyanaz ). Az ipszilaterális rostok mindig a halántékhoz közeli retinafélből erednek, mégpedig mindkét szem esetében. Az ellenkező oldalra futó vagy keresztezett rostok (kontralaterális rostok; a kontra jelentése ellen-, szemben ) az orr felé eső retinafélből erednek. Embernél a két szem axonjainak mintegy fele átkereszteződik; a kereszteződő, illetve változatlanul tovahaladó rostok a retinának a foveára merőleges tengelyétől a halánték, illetve az orr felé eltérőek. A látóideg-kereszteződésben a kereszteződő és a nem kereszteződő rostok kapcsolódnak, majd felfelé, az agy felé haladnak tovább. A látóideg-kereszteződés felett az axonkötegeket látópályáknak vagy látókötegeknek (tractus opticus) nevezzük. A látópálya ágai A látóideg rostjainak jelentős része az oldalsó genikulatusz mag (anatómiai nevén corpus genigulatum laterale CGL) felé halad, kisebb hányada a középagy szomszédos struktúráiba, illetve a colliculus superiorba (CS). A CGL és CS területeire a retina axonjai mintegy vetítik a retinális információt, ezeket a helyeket projekciós területeknek is nevezzük. Ez a két vizuális központ gazdag összeköttetésekkel rendelkezik, és összehangoltan működik. A középagy struktúráinak fontos szerepük van a pupillaméret szabályozásában, a saját mozgás érzékelésében, a látás és a testtartás, testmozgás összehangolásában (vizuális-poszturális alkalmazkodás). Colliculus superior (CS) A colliculus superior sejtjeinek receptív mezői viszonylag rosszul meghatározottak, ez kifejezetten érvényes a KI és BE sejtekre. A CS részt vesz a szemmozgások vezérlésében, a szemmozgások indításában, a mozgások irányának és terjedelmének vezérlésében. A CS a hallási és vizuális modalitás közötti integrációban is meghatározó szerepet tölt be (bővebben lásd az észlelési integrációról és cselekvésről szóló fejezetben). A CSben olyan multiszenzoros sejtek találhatók, amelyek vizuális és hallási bemenettel is rendelkeznek. A multiszenzoros sejtek választevékenysége kifejezett az azonos forrásból származó, tehát a tér azonos területéről érkező hangokra és látási ingerekre. A CS legfontosabb feladatai közé tartozik a fixációs ponttól távolabbi tárgyak detektálása, az ezekre irányuló szemmozgások irányítása. Corpus geniculatum laterale (CGL) A CGL-nek sajátos rétegszerkezete van: hat, a közepénél hajlított, egymás felett elhelyezkedő rétegből áll. Ennek a hajlított, térdszerű formának köszönheti nevét is: térdestest. A CGL első két rétegét nagyobb sejtek alkotják, mint a felette elhelyezkedő négy rétegét. Ezeket a nagyobb sejtekből álló rétegeket nevezzük magnocellulárisnak, a kisebb sejtekből állókat pedigparvocellulárisnak. A P retinális ganglionsejtek adják a CGL parvocelluláris, az M sejtek pedig a CGL magnocelluláris rétegeinek a bemenetét. A látóköteg idegrostjai elkülönültek maradnak a CGL szintjén is; a kontralaterális rostok az 1., a 4. és a 6. réteg sejtjeihez futnak, az ipszilaterális rostok pedig a 2., a 3. és az 5. réteghez. A CGL páros struktúra, mindkét szem küld ezekhez információt; az azonos oldalit az azonos oldali CGL-nek, az ellenoldalit a másik oldalon lévő CGL-nek. A CGL a látópályának egy olyan utolsó átkapcsolódása, ahol a befutó információk egyfajta analóg válogatása történik. A befutó információk szabályos elrendezése a CGL-ben a vizuális feldolgozásnak azokat a további fázisait segíti, amelyek az elsődleges látókéregben A V1 architektúrája Irányulásszelektivitás Stephen Kuffler két tanítványa, David Hubel és Thorsten Wiesel, az 1950-es években még igen fiatal kutatók, nekiálltak a Kuffler-féle méréseket most már nem a retinán, hanem az agykéregben elvégezni. Nagy merészség volt ez, mert igazából csak annyit lehetett még tudni, hogy az agy okcipitális lebenyében (magyarul tarkólebeny 3.5. ábra) van egy látással foglalkozó terület. Azt viszont, hogy e terület idegsejtjeinek pontosan mi is a dolguk, senki nem tudta. Azt pedig igazából senki sem remélte, hogy külső vizuális ingerléssel ezek a sejtek egyszerűen ingerelhetők lesznek. Hubel és Wiesel azonban kitartó fiatalemberek voltak, és szorgalmasan alakították, változtatták az ingeradás feltételeit. Az akkor divatos diaképekhez fémkeretes üveglapokat használtak, s arra különböző méretű foltokat ragasztottak fel. Ezzel a módszerrel Kuffler eredményeit az agykéreg idegsejtjeinek vizsgálatában kívánták megismételni. 60

75 3. FEJEZET A látás alapvető folyamatai 3.5. ábra. A látópálya sematikus ábrázolása. A tárgyról a szem optikája képet formál, mely a szem hátsó falán lévő retinára vetül. A látóideg, mely a retinális ganglionsejtek kivezető huzaljait (axonok) tartalmazza, egy agykéreg előtti idegmagba juttatja a kivonatolt információt. Ebből a magból (CGL) azután, egy átkapcsolással, az agykéreg elsődleges látókérgébe (V1) vetül a látópálya 3.6. ábra. V1-sejt szelektív válasza vonaldarabokra. A macska V1 kérgébe elektródát ültetnek, s az elektromos jeleket elvezetik. Az ingerek egyszerű iránnyal rendelkező vonaldarabok. A sejt, melyből épp elvezettek, a függőleges irányú vonalszakasz bemutatására (inger BE) akciós potenciáljai számának megnövekedésével válaszol. A függőlegestől kissé eltérő vonaldarabokra is megnő a tüzelési frekvencia, de csak kissé. Ezt tükrözi a sejt hangolási görbéje is, melyről leolvasható, hogy a sejtnek van egy preferált iránya, de a szomszédos irányok is választ váltanak ki Egyszer csak találtak egy olyan sejtet, kísérleteikben a 3006-os számút, amely mintha válaszolt volna az egyik diakeretben elhelyezett foltra. Mintegy kilenc órán át ugyanazzal a sejttel próbálkozva rájöttek, hogy a sejt nem is a foltra, hanem a diakeretre válaszol, és annak is csak a vízszintes irányú élére. Innen azután nem volt megállás a Nobel-díjig (1981-ben), s megfogalmazták a modern idegtudomány egyik legfontosabb működési törvényszerűségét, a neuronális szelektivitás elvét. Ez any- nyit jelent, hogy az agykéreg idegsejtjeinek egy része a fizikai ingerek egyes tulajdonságaira hangolódik, s ezekre szelektíven reagál. így például a 3006-os sejt az okcipitális lebenyben adott irányú éldarabokra reagál, és leginkább csak azokra, tehát orientáció-, azaz irányulásszelektív (3.6. ábra Hubel-Wiesel 1959). A két tudós arra a felismerésre jutott, hogy a vizuális információfeldolgozás az agykéregben a retina körkörös receptív mezőit követi. A feldolgozás egyre bonyolultabb szintjei hierarchikusan követik egymást, s ezt az eltérő neuronális szelektivitások komplexitásának növekedése jelzi. Ez ugyan nem teljesen igazolódott, az azonban tény, hogy a Hubel és Wiesel által leírt, a vonal irányulására (orientációjára) szelektív neuronok valóban hierarchikusan is bonyolultabbak, mint retinális elődjeik (3.7. ábra), s hogy a vizuális feldolgozórendszer magasabb szintű agykérgi területein (távolabb az okcipitális kéregtől) ennél még bonyolultabb működésű sejtek vannak. 61

76 3. FEJEZET A látás alapvető folyamatai 3.7. ábra. Kapcsolási rajz, amely bemutatja, hogy az agykéreg előtti feldolgozásban részt vevő, körkörös receptív mezővel rendelkező idegsejtek (mint például a retinális ganglionsejtek, illetve a CGL sejtjei) hogyan rendeződnek a magasabb szintű feldolgozás (például a V1 sejtjei) szempontjából. Hihetetlen precizitású anatómai kapcsolatok biztosítják, hogy a retina szomszédos receptív mezőiből a kéregben nagyobb receptív mezők álljanak össze. Ezek már nem kör alakú, hanem elnyújtott receptív mezők, és kiválóan alkalmasak arra, hogy az iránynyal rendelkező vonalak, kontúrok mentén összegezzék az információt A vonalirányulásra szelektív sejtek V1-beli elrendeződését, az úgynevezett orientációs térképet később modern képalkotó módszerekkel is feltárták (3.8. ábra). A térkép megerősítette az egysejt-elektrofiziológia korábbi eredményeit az azonos orientációra reagáló sejtek oszlopba tömörülésére, s a szomszédos oszlopok lassú szelektivitásváltozására vonatkozóan ábra. Az ábra bal oldalán látható térkép a V1 vonalirányulásra hangolt sejtjeinek elrendeződését mutatja (mintha a kéreg felszínére fölülről néznénk rá; Blasdel 1992). Ezt a képet úgy kapták, hogy a majom V1 kérgét idegi aktivitásra (feszültségváltozásra) érzékeny festékkel itatták át, majd a majomnak adott irányú vonalakat vetítettek, miközben a nyitott koponyán át optikai felvételeket készítettek a kéregről. Az éppen aktív sejtek a festék segítségével így láthatóvá váltak. Az eljárást több vonalirányra is megismételték, majd a nyert képeket számítógép segítségével egymásra helyezték, és színkóddal látták el. Az így kialakult térkép azt mutatja, hogy az azonos orientációra és azonos téri helyre válaszoló sejtek csoportba (oszlopokba) tömörülnek. Ha figyelmesen megnézzük az ábrát, több olyan szervezett egységet fedezhetünk fel, melyek egy középpont körül az összes színt (tehát orientációt) tartalmazzák. Ezek a nagy oszlopok olyan sejtek egységét alkotják, amelyek a tér egy-egy adott apró helyén kódolják az orientációt (tehát a sejtek receptív mezői az oszlopon belül teljes átfedésben vannak). Az ábra jobb oldalán lévő rajz a V1 keresztmetszetének rajza. A V1, mint a kéreg többi része, hat rétegből (s több alrétegből) áll. A 3. réteg piramissejtjeinek hosszú, a kéreg felszínével párhuzamosan futó axonális nyúlványai (nyilak jelzik az axonok végpontjait, melyek 1-2 mm távolságra is lehetnek a sejttesttől) serkentő jellegű kapcsolati hálót alakítanak ki a Vl-sejtek között. A kapcsolatok az ábra bal oldalán lévő orientációs térkép azonos színű és viszonylag közeli foltjait (az orientációs oszlopokat) kötik össze Bár az irányulásszelektív receptív mezők kapcsán eddig inkább csak a V1 longitudinális szerkezetéről esett szó, a V1 is rendelkezik laterális kapcsolatokkal (3.8. ábra). Ezek közül talán a legfontosabbak a kéreg felszínével párhuzamosan futó, a V1 második és harmadik rétegében található hosszú axonok kötegét alkotó hosszú távú horizontális ösz- szeköttetések. Ezek révén a lokális éldetekciót végző irányulásszelektív neuronok egy olyan hálózatba szerveződnek, amely az alak-háttér elkülönítés, a képszegmentáció, sőt még az alakkódolás elemi feladatait is el tudja végezni (Kovács 1996) A V1 további térképei Eddig csak egyetlen ingerdimenzió feldolgozásáról, a vonaldarabkák irányulásának arról a kódolásáról beszéltünk, amely a V1 orientációs térképe szerint rendezett irányulásszelektív idegsejtek révén valósul meg. Az inger többi aspektusa is hasonló, finom architekturális részletek szerint rendezett, precíz neuronális összeköttetések révén kódolódik. A V1 működésére vonatkozóan számos állatkísérletes adat áll rendelkezésre, s ezeknek az emberi vizuális kéregre vonatkozó általánosíthatósága meglehetősen jó. Ma már tudjuk, hogy az orientációra érzékeny idegsejtekéhez hasonló térképekbe szerveződve kódolódik az irányult vonalszegmensek mozgásirányának (lásd a Mozgásészlelés című fejezetet), a színnek (lásd a Színlátás című fejezetet), a textúrának és a retinális diszparitásnak (lásd a Tér- és mélységészlelés című fejezetet) a feldolgozása is. Itt most az orientáción kívül csak egy ingerjellemzőt emelünk ki, a téri koordináták kódolását. Amint azt a 3.9. ábra mutatja, a retina és az agykéreg közötti anatómiai összeköttetések olyan mértékig szervezettek, hogy a kéreg gyakorlatilag megőrzi a retinakép téri rendjét. A V1 a látótérnek úgynevezett retinotopikus reprezentációjával rendelkezik. Ez annyit jelent, hogy a retinára vetülő kép szomszédos pontjairól továbbított ingerületet a kéregben egymással szomszédos neuronok dolgozzák fel. Miközben a látótér topográfiai viszonyait az agykérgi reprezentáció jól követi, mintegy megőrzi, torzít is. Ez a torzítás, amelyet agykérgi nagyításnak nevezünk, 62

77 3. FEJEZET A látás alapvető folyamatai hihetetlenül hasznos, hiszen a retina foveáját túlreprezentálja, és így a foveára vetülő kép igen jó felbontású feldolgozása válik lehetségessé ábra. A V1 retinotopikus szerveződése. A bal fölső sarokban lévő céltábla a látómezőt reprezentálja. Képzeljük el, hogy ezt a céltáblát mutatjuk be mint ingert, s képesek vagyunk regisztrálni, hogy a V1 mely sejtjei válaszolnak a céltábla egyes pontjaira. A jobb oldali metszet a V1 képe, amint fölülről tekintünk rá, s a céltáblára válaszoló sejtek sötéttel vannak megfestve. Szemmel láthatólag megőrződik az inger topológiája. Az ingerben szomszédos pontok a V1-ben is szomszédos sejtek által lesznek feldolgozva! A topológia megőrzése mellett azonban bizonyos torzítás is történik: a céltábla közepe (ami a retinán belül a foveára, az éles látás helyére esett) viszonylagos felnagyítását figyelhetjük meg. Ez az agykérgi nagyítás azt jelenti, hogy több idegsejt fog a foveával foglalkozni, mint a perifériával, s ennek köszönhetően a foveális ingerek feldolgozása sokkal jobb téri felbontással történik. Gondoljunk csak bele, hogy milyen gondos huzalozásra van szükség a retinotopikus agykér- gi reprezentáció kialakulásához! 2.3. Magnocelluláris és parvocelluláris rendszer A retinális ganglionsejtekről ugyan már sok szót ejtettünk, s említettük azt is, hogy a laterális gátlás révén a retinális képfeldolgozás igen fontos műveletét, a változások kiemelését hajtják végre. Azt is említettük, hogy a laterális gátlás kétféle típusa (lásd 3.3. ábra) alapján kétféle ganglionsejtet tudunk megkülönböztetni, BE középpontú és KI szélű, valamint KI középpontú és BE szélű receptív mezővel rendelkező ganglionsejteket. Láttuk azt is, hogy ez a kétféle sejt teszi lehetővé a világosságnövekedés, illetve a világosságcsökkenés független kódolását. Van azonban egy még alapvetőbb, anatómiai különbségen alapuló felosztása is a ganglionsejteknek (3.10. ábra). A kiterjedt dendritfával (tehát nagyobb gyűjtőernyővel vagy receptív mezővel) rendelkező ganglionsejteket M sejteknek hívjuk, mert a CGL magnocelluláris (azaz nagysejtes) rétegeihez kapcsolódnak. Az apró dendritfával (tehát kisebb receptív mezővel) rendelkező ganglionsejteket P sejteknek hívjuk, mivel a CGL parvocelluláris (azaz kissejtes) rétegeihez kapcsolódnak. A két sejttípus eltérő működésjellemzőinek lényeges következményei vannak a retinális szintű információfeldolgozásban. Először, az M és P sejtek téri felbontóképessége igen eltérő. Ennek oka az, hogy az M sejtek nagy dendritfájuk révén sok receptortól kapnak bemenetet, tehát a receptor-ganglionsejt konvergencia jelentős. A nagy konvergencia miatt az M sejtek téri felbontóképessége (tehát a téri változások követésének képessége) a P sejtek igen jó téri felbontóképességéhez képest kisebb (3.11. ábra). Másodszor, az M sejtek idői felbontóképessége eltér a P sejtekétől, azokénál sokkal jobb. Ez amiatt van így, mert az M sejtek idői válasza a P sejtekénél rövidebb, azaz az inger bemutatását követően sokkal kevesebb ideig marad fenn, tehát az M sejtek jobban tudják követni a vizuális ingerek időbeli változásait. Harmadszor, az M és P sejtek színszelektivitása különböző. Ez annak köszönhető, hogy a P sejtek receptív mezője a színek szempontjából is ellentétes működésű középponti és széli részekre tagolódik, tehát a P sejtek részt vesznek a színek kódolásában is. Az M sejtek azonban nem színszelektívek, s csak a világosságbeli változásokat közvetítik. 63

78 3. FEJEZET A látás alapvető folyamatai ábra. Az apró dendritfával (tehát kis receptív mezővel) rendelkező P ganglionsejtek és a kiterjedt dendritfával (tehát nagy receptív mezővel) rendelkező M ganglionsejtek Az M (jó idői, gyengébb téri felbontás, színszelektivitás hiánya) és P (gyengébb idői, jó téri felbontás, színszelektivitás) sejtek, mint említettük, a CGL eltérő rétegeiben kapcsolódnak át a magnocelluláris, illetve parvocelluláris sejtekre. Ezek azután a V1 elkülönült bemeneti rétegeibe, majd innen magasabb, többnyire eltérő agykérgi területek felé küldik az információt. Mivel a magnocelluláris sejtek nagy része a dorzális kérgi látópálya felé, s a parvocelluláris sejtek nagy része a ventrális látópálya felé veszi útját, többen is próbálkoztak a látórendszer retinától a kéregig való egységes funkcionális felosztásával. Livingstone és Hubel (1988) megkísérelték az M és P összekötését a dorzális és ventrális rendszerrel, azt sugallva, hogy az M a mozgás és a mélység, míg a P a forma, a szín és a textúra feldolgozásával foglalkozik, s mindez folytatódik a dorzális és ventrális rendszerekben. Ungerleider és Mishkin (1982) a dorzális és ventrális rendszerek funkcióit úgy határozták meg, hogy a dorzális rendszer a dolgok helyét kódoló Hol, míg a ventrális a dolgok azonosítását végző Mi rendszer. Ma egyre elterjedtebb az a felfogás (Gooda- le-milner 1992), hogy a retina kódolási mechanizmusainak munkamegosztása nem feltétlenül felel meg a magasabb szintű agykérgi területek funkcionális elkülönülésének. Goodale és Milner azt sugallja, hogy ezek a magasabb területek már a látási információ felhasználásával, nem pedig a fizikai ingerdimenziók kódolásával foglalkoznak. Ezért egy olyan funkcionális felosztást javasolnak, amelyben a dorzális rendszer a cselekvések vizuális kontrolljában, míg a ventrális a tárgyak maradandó tulajdonságainak felismerésében és tárolásában vesz részt ábra. Az M sejtek nagy dendritfájuk révén sok receptortól kapnak bemenetet, tehát a receptor-ganglionsejt konvergencia jelentős, ez pedig téri felbontóképességüket (tehát a téri változások követésének képességét) csökkenti a P sejtek igen jó téri felbontóképességéhez képest. Az M sejtek ezzel szemben jobb idői felbontóképességel rendelkeznek, mint a P sejtek (A függőleges tengelyeken az M a magas, az A az alacsony feldolgozókapacitást jelzi; a vízszintes tengelyeken az M a magas, az A az alacsony téri, illetve idői frekvenciákat jelzi) Az M és P sejtek alapvető idői és téri választulajdonságainak eltérését ma úgy fogjuk fel, hogy a rendszer ezeknek köszönhetően a fizikai ingerdimenziókat nagyon sokoldalúan tudja reprezentálni, ezzel megnövelve azt a tartományt, amelyen belül észlelés történik. Tulajdonképp egy olyan okos munkamegosztásról van szó, amelynek eredményeként az M sejtek inkáb a mozgás és a gyors idői változások közvetítését, a P sejtek pedig a szín, a finom textúra, valamint a finom téri részletek közvetítését végzik (3.11. ábra) Látni a fát is és az erdőt is: retinális és agykérgi feldolgozás több téri skálán 64

79 3. FEJEZET A látás alapvető folyamatai Mára a téri skála fogalma, valamint a több téri skálán történő feldolgozás váltotta fel azt az elképzelést, amely szerint a látórendszernek a retinális, valamint első agykérgi szintjein egyfajta globális Fourier-elemzés folyik. A Jean Fourier által 1822-ben bizonyított elmélet kétdimenziós téri luminanciaeloszlásokra alkalmazott felhasználása szerint bármely kép felbontható olyan szabályos (szinusz-) hullámösszetevők sorozatára, amelyek téri frekvenciában (3.12. ábra), irányulásban, amplitúdóban és fázisban különböznek. Ezek a hullámok olyan elemkészletet biztosítanak, amelyek igen egyszerűek és matematikailag jól definiáltak. Így a retinakép elemzése szempontjából a Fourier-elemzés vonzó eszköznek tűnik. Ezenkívül az is az elmélethez tartozik, hogy az elemzéssel meghatározott komponensek újrakombinálásával a Fourier-szintézissel az eredeti kép információveszteség nélkül visszaállítható ábra. A téri frekvencia a matematika, fizika és mérnöki tudományok által használt fogalom, s a térben ismétlődő, azaz periodikus struktúrák jellemzésére szolgál. Azt méri, hogy egy adott egységnyi téri távolságon belül hányszor ismétlődik meg a mintázat. A pszichofizikában gyakran használt szinuszhullámok (szinuszosan ismétlődő intenzitáseloszlással rendelkező rácsmintázatok) téri frekvenciáját látószög-fokonkénti ismétlődésben szokták megadni. Az ábra bal oldalán látható szinuszhullám téri frekvenciája alacsonyabb, mint a jobb oldalon látható rácsé A látás alacsony szintjeinek téri frekvenciaelemzésen alapuló elmélete szerint a különböző szinuszos összetevőket úgynevezett téri frekvenciacsatornák elemzik. A csatorna koncepcióját a tv-csatornák technikai hasonlata révén érthetjük meg. A tv-csatornák jelei párhuzamosan, eltérő hullámsávokban érkeznek, mégpedig azért, hogy a jelek ne zavarják egymást. Amikor adott csatornára kapcsolunk, tulajdonképpen egy adott hullámhosszsávra hangoljuk a készüléket. A pszichofizikai csatornák hasonlóképp adott ingerdimenzióra, s azon belül adott sávra hangolt mechanizmusok. A téri frekvenciát kódoló csatornák olyan téri frekvenciájú és irányulású szinuszrács segítségével definiálhatók, amelyre az adott csatorna érzékeny ben Fergus Campbell és Colin Blake- more angol pszichofizikusok olyan kísérleti bizonyítékra bukkantak, amely az emberi látórendszerben a téri frekvenciacsatornák (s így a Fourier-elemzés) létezésére utal. A bizonyíték azon alapszik, hogy ha egy adott téri frekvenciájú és irányulású szinuszrácsot sokáig nézünk vagyis adaptálódunk -, akkor az adaptáció utáni érzékenységünk csökken az adott rácsra, de változatlan marad az eltérő frekvenciájú vagy irányulású rácsokra. Ezt a jelenséget hívják szelektív adaptációnak, magyarázata pedig a téri frekvenciacsatornák érzékenységváltozásában rejlik (3.13. ábra). 65

80 3. FEJEZET A látás alapvető folyamatai 3.13.ábra. Az emberi látórendszer kontrasztérzékenységét demonstráló módosított rács- mitázat (Campbell- Robson 1968 nyomán). A rács téri frekvenciája balról jobbra növekszik (az egyre vékonyodó csíkok egyre gyakrabban ismétlődnek), a rács kontrasztját meghatározó amplitúdó (a sötét és világos csíkok közötti kontrasztkülönbség) pedig fölülről lefelé. Annak ellenére, hogy a kontraszt egyenletesen változik fölülről lefelé, a megfigyelő számára egy fordított U alakú görbe rajzolódik ki, mely alatt még igen, de fölötte már nem látja a rács ismétlődő mintázatát. Ez a görbe a kontrasztérzékenységi görbe, melynek sematikus ábrázolását látjuk a fölső grafikonon. A görbe csúcsa 5 ciklus/ látószögfok körül van, ami megfelel a betűk téri frekvenciájának olvasótávolságból. Ha egy adott frekvenciájú szinuszrácsot sokáig szemlélünk, tehát szelektíven adaptáljuk látórendszerünket, akkor erre a frekvenciára csökkenni fog az érzékenységünk. A csökkent érzékenységet illusztrálja az alsó grafikon. A szelektív adaptáció jelensége arra utal, hogy a kontrasztérzékenységi görbéért független, csak egyes téri frekvenciasávokra érzékeny csatornák felelősek (A, B, C, D, E) ábra. Az olvasás során használt téri frekvenciacsatorna illusztrációja (Solo- mon-pelli 1994 nyomán). Az azonos méretű, de fölülről lefelé egyenletesen csökkenő kontraszttal rendelkező betűk hátterében sávonként 66

81 3. FEJEZET A látás alapvető folyamatai különböző téri frekvenciájú zaj van. Itt is hasonló, fordított U alakú görbe alakul ki, mint az előző ábrán. A középső sorban lévő betűket a legnehezebb a csökkenő kontraszt ellenére elolvasni. Ez azt jelenti, hogy a középső sorban lévő zaj téri frekvenciája zavarja azaz maszkolja leginkább a betűket, s egyben azt is, hogy az olvasásért egy adott téri frekvenciacsatorna a felelős A pszichofizikai csatornák viselkedéses méréseken alapuló hipotetikus mechanizmusok. Kérdés, hogy ezek miként viszonyulnak a retina és a V1 sejtjei által végzett képfeldolgozáshoz. Mind a retina, mind a V1 idegsejtjei apró receptív mezőkkel rendelkeznek. Ezekről nehéz feltételezni, hogy globális Fourier-elemzést hajtanának végre. Az azonban lehetséges, hogy az 3.7. ábrán bemutatott receptív mezővel rendelkező sejtek lokális téri frekvenciaelemzést végeznek. Miután a retinális és V1-beli receptív mezők méretbeli változatossága jelentős, alkalmasak arra, hogy ezt az elemzést több téri frekvencián, vagyis több téri skálán végezzék el. A csatornák függetlenségét, s egyes, az ember számára fontos funkciók végrehajtásában való jelentőségét maszkolási kísérletekkel támasztották alá (3.14. ábra, valamint a Kockákra bontott képek című szövegdoboz). A több téri skálán való információkezelés lehetővé teszi az alacsony szintű vizuális információ olyan méretfüggő kódolását, amelyben minden fa és az erdő is reprezentálódik. Ez pedig ugyanúgy, mint az M és P ganglionsejtek munkamegosztásánál láthattuk tulajdonképpen kitágítja azt az ingertartományt, amelyen belül jó felbontású képfeldolgozásra vagyunk képesek. Az irányulásszelektivitásnál leírt elképzelés annyiban különbözik a téri frekvenciaelemzéstől, hogy nem idealizált primitíveket kereső hipotetikus csatornákat, illetve szűrőket, hanem konkrét ingertulajdonságokat kódoló detektorokat képzel el. A szűrőket és a tulajdonságdetekciót hangsúlyozó elméletek képviselői között még ma is folyik a vita táblázat - KOCKÁKRA BONTOTT KÉPEK Újságban, televízióban sokszor láttunk már olyan képeket, ahol a személyazonosság megállapíthatóságát olyan képi maszkkal próbálják megakadályozni, amely az arc nagy részét apró kockákból álló mintázattal helyettesíti (úgy, mint az ábra középső és jobb oldali képén). Azért kezdték alkalmazni ezt az eljárást, mert egyrészt könnyű a kép átalakítását elvégezni (a PhotoShop nevű programcsomag Szűrői között is van már ilyen), másrészt nem zavarja meg alapvetően a kép szemlélését, harmadrészt, mert úgy tűnik, hogy elég jól maszkolja az arcot. Kevesen tudják azonban, hogy először Harmon és Julesz (1973) alkalmazta ezt az eljárást annak vizsgálatára, hogy az arcfeldolgozáshoz milyen téri frekvenciacsatornákat használ az ember. Az ábrán bemutatotthoz hasonlóan felosztották a képet egyenlő méretű kockákra, s a kockákon belül egyszerűen kiátlagolták a kockán belüli intenzitásértékeket. úgy tűnt, a kockák méretétől függ, hogy milyen erősen maszkol az eljárás (hasonlítsuk össze a középső és a jobb oldali képeket ebből a szempontból). A történet azonban mégsem ilyen egyszerű. Nem egyszerűen a kockák mérete, hanem a kockák éleinek téri frekvenciatartalma a meghatározó tényező, s aki ennek tudatában van, könnyedén megtudhatja, hogy kit ábrázol az újságban maszkolt kép! Egyszerűen hunyorítsunk (vagy leheljünk a szemüvegünkre), s nézzünk úgy a jobb oldali képre a hunyorítás (vagy maszatos szemüveg) segítségével homályossá tett képen egyszerre csak előtűnik a felismerhető arc. Ez azért van, mert a kép homályossá tétele során a kép magas téri frekvenciájú részletei eltűnnek. így eltűnik például a kockák éleinek információja. Mivel az élek magas frekvenciás információja maszkolta elsősorban az arcot, s mivel a kép még mindig elegendő információt hordoz az arcról, a személy felismerhetővé válik ÖSSZEFOGLALÁS 1. Ebben a fejezetben bemutattuk, hogy az emberi szem sajátos felépítésénél fogva miként szolgálja a látás elemi folyamatait. Megállapítottuk, hogy a szemnek mint optikai eszköznek jellegzetes tulajdonságai vannak. Ezek egy része azt szolgálja, hogy a szem alakja ne változzék, más részük pedig a szem mozgatása révén a tárgyakról a szembe jutó fényeloszlás optimális felvételét biztosítja. 1. Az ember különösen gyorsan tudja mozgatni a szemét, ezt három-három pár szem körüli (extraokuláris) izom működése teszi lehetővé. Az összehúzódó izmok a szemek összehangolt, azonos irányú elmozdulását (szakkád és követés) és ellentétes irányú forgatását (fixáció) egyaránt biztosítják 67

82 3. FEJEZET A látás alapvető folyamatai 2. A látás első szakaszát a retinális kép keletkezése, a fény bioelektromos jellé alakítása (transzdukció), a fény és a szem közötti interakció jellemzi. A receptorok fotopigment-molekulái felfogják a fényt, a fotoreceptorok válaszai pedig továbbítódnak a többi idegsejt, illetve az agy felé. 3. A transzdukciót szolgáló, a retina legbelső felületén elhelyezkedő fotoreceptorok két típusba sorolhatók: csapok és pálcikák. A csapok és pálcikák eltérő hullámhossz-érzékenységgel jellemezhetők, eloszlásuk a retinán eltérő, pontosabban sajátos sűrűségtérképet alkotva helyezkednek el. A pálcikák a szürkületi látásért, a csapok a nappali látásért és a színlátásért felelősek. 4. A fejezet második részében azt mutattuk be, hogy a látás nem egy fényképszerű világmásolatnak a retinából az agykéregbe való küldését jelenti. A látás első szintjein már igen nagymértékű kivonatolás, lényegkeresés, tömörítés folyik. Mi a lényeges információ? Ha a színektől, mozgástól, mélységtől most eltekintünk, akkor a fennmaradó fizikai dimenziók még mindig jellemezni tudják a körülöttünk lévő tárgyak lényeges és tartós tulajdonságait. 5. A tárgyak, mint téri kiterjedéssel rendelkező testek, felszínekkel rendelkeznek. Ezek a felszínek a kétdimenziós retinaképen kontúrként, határoló vonalként fognak megjelenni. Igen hatékonyak lennénk, ha ezekről a kontúrokról gyors információt tudnánk szerezni, s az egyéb redundáns részletektől el tudnánk tekinteni, hiszen akkor már egy durva vázlatunk lenne is a körülöttünk lévő dolgokról (persze még jelentés nélkül). De hiszen pontosan ezt valósítja meg a fejezetben említett első lépés, mely kivonatol, és csak a változásokról tudósítja az agykérget. A második lépésben pedig tovább kivonatol, és a tárgyak határoló kontúrjainak kiemelésével foglalkozik, méghozzá az említett orientációra vagy vonalirányulásra hangolt sejtek segítségével. Ezek a sejtek azután egymással is konzultálnak, és az egy tárgyhoz tartozó, folytonos éldarabokat elkezdik összekapcsolni, megkezdődik a kontúrintegráció folyamata, amely az 5. fejezetben leírt tárgyfelismerésnek, kategorizációnak alapfeltétele. S mindez több téri skálán, többféle felbontást is lehetővé téve történik KULCSFOGALMAK agykérgi nagyítás, csapok, dorzális látópálya, fixáció, fotopigmentek, fotoreceptorok, Fo- urier-elemzés, fovea, szemmozgás, gyűjtősejtek, irányulásszelektív, laterális gátlás, M sejt, okcipitális lebeny, P sejt, pálcikák, receptív mező, retinális ganglionsejtek, retinális kép, retinotopikus térkép, sárgafolt, szakkád, szelektív adaptáció, téri frekvencia, ventrális látópálya, vergenciás szemmozgás 2.7. ELLENŐRZŐ KÉRDÉSEK 1. Mi jellemzi a látható fényt? 2. Milyen rétegek alkotják a szemgolyót, és ezek milyen célt szolgálnak? 3. Hogyan alakul át a fény az idegrendszer számára feldolgozható impulzussá? 4. Milyen feladatot látnak el a csapok és a pálcikák? 5. A fotoreceptoroknak mely tulajdonságai szolgálják a látásban betöltött eltérő szerepüket? 6. Miért nem látunk a vakfolton? 7. Mi jellemzi az egyes szemmozgástípusokat? 8. Miért nem látjuk a szemünket mozogni, ha tükörbe nézünk? 9. Honnan kapnak információt a retinális ganglionsejtek, s hová továbbítják azt? 10. Milyen receptívmező-struktúrája van egy retinális ganglionsejtnek? 11. Mit jelent a laterális gátlás a retinális ganglionsejt esetén? 12. Milyen képfeldolgozási lépést valósít meg a laterális gátlás? 13. Hogyan magyarázza a Hermann-rács-illúziót a laterális gátlás? 68

83 14. Mit jelent az irányulásszelektivitás? 3. FEJEZET A látás alapvető folyamatai 15. Miben különbözik az okcipitális lebeny irányulásszelektív idegsejtjeinek recep- tívmező-szerkezete a retinális ganglionsejtek receptívmező-szerkezetétől? 16. Mi a hosszú távú axonális összeköttetések funkciója? 17. Mit jelent a retinotópia? 18. Mely retinális terület túlreprezentálását jelenti az agykérgi nagyítás? 19. Milyen paraméterekben különböznek az M és P ganglionsejtek? 20. Milyen elméleti elképzelések alakultak ki a dorzális és ventrális agykérgi pályák funkcionális disszociációjával kapcsolatban? 21. Mit jelent a téri frekvencia? 22. Hogy működik a szelektív adaptáció? 2.8. AJÁNLOTT OLVASMÁNYOK Gross, C Agy, látás, emlékezet. Typotex, Budapest. Julesz Béla Dialógusok az észlelésről. Typotex, Budapest. Pléh Csaba Kovács Gyula Gulyás Balázs (szerk.) Kognitív idegtudomány. Osiris, Budapest. Sekuler, R. Blake, R Észlelés.Osiris, Budapest. 69

84 5. fejezet - 4. FEJEZET Színlátás 1. A színlátás háromszín-elméletének kialakulása A színlátás modern elméletének létrejötte Newton nevezetes kísérleteivel kezdődött, melyekben a fehér fényt prizma segítségével alkotóelemeire bontotta. Ezt megelőzően a színekkel és a színlátással kapcsolatban már az ókorban számos megfigyelés gyűlt össze. Már az ókori görögök és rómaiak idején is létezett például az az elképzelés, mely szerint a felületek módosítják a beeső fényt, vagyis a fényvisszaverődés valamiféle szelektív árnyékolási jelenség, ami nagyban felelős a tárgyak színéért (Gage 1993, Wade 1998, Zemplén 2004). A színek rendszeres, tudományos kutatása azonban csak Newtonnal kezdődött el. Kísérleteiben Newton azt is megmutatta, hogy a fehér fény prizmával szétválasztott komponensei tovább már nem bonthatók optikai eszközökkel. Ennek alapján úgy gondolta, hogy a prizma a fehér fényt alapvető komponenseire bontja, s a komponensek folytonos átmenetet képeznek egymással. Kísérletei alapján Newton hét spektrális színt különített el (vörös, narancs, sárga, zöld, kék, indigó és ibolya), ezek tehát szerinte a színek teljes sorozatát alkotják. E színeket egy körön elrendezve kapjuk a Newton-féle színkört (4.1. ábra: az ábra jobb oldala a talán nehezebben elképzelhető színeket az indigót és ibolyát mutatja a kékhez viszonyítva). A 4.2. ábrán egy későbbi változat, Claude Boutet francia festő 1708-ból származó színköre látható, mely Newton rendszerén alapul. A színkörbeli sorrendet a spektrumban való színsorrend határozza meg, valamint az, hogy a spektrum két végének színei (vörös és ibolya) jobban hasonlítanak egymásra, mint a spektrum közepén található színekre (elsősorban a zöldre, sárgára, illetve kékre). A Newton-féle színkör segítségével a színkeverés jelenségei meglehetősen jól értelmezhetőek, bár nem tökéletesen, s ezért a színkörnek később továbbfejlesztett változatai is születtek (Sekuler-Blake 2000) ábra. A Newton-féle színkör rajza. A színek sorrendje a bal felső éktől kezdve, az óramutató irányában: vörös, narancs, sárga, zöld, kék, indigó, ibolya. A jobb oldalon a spektrum rövid végének színeit mutatjuk be ahogy nyomtatásban megjeleníthetőek Newtont követően a 18. században egyre több bizonyíték halmozódott fel arra vonatkozóan, hogy három megfelelően választott alapszínből valamennyi szín kikeverhető. E felfedezés akkoriban komoly ellentmondásban látszott állni a Newton által feltételezett hét spektrális alapszínnel: felvetődött a kérdés, hogy Newton elgondolásával szemben nem csak három, fizikailag különböző alaptípusa van-e a fénynek. E vita abból eredt, hogy a tudósok fogalomtárából egészen a 18. századig hiányzott a szelektíven hangolt érzékelő (receptor) elgondolása, s emiatt tévesen azt tételezték föl, hogy a színkeverés három- szín-jellege a külvilág fizikai törvényszerűségeiből fakadt (Mollon 2003). Pontosan ezt az elméleti lépést tette meg Thomas Young angol orvos és fizikus a 19. század elején. Young azt feltételezte, hogy három alapvető színérzéklet létezik piros, zöld és ibolyaszín -, s ezek az érzékletek lényegében az idegrendszer elkülönült elemeinek, rostjainak felelnek meg. A köztes színek több mint egy érzékelőrendszert aktiválnak, különböző mértékben. Young azt is felismerte, hogy az érzékelőrendszerek ilyen kevert aktivációja is kialakíthat bennünk egy egyszerű érzékletet: például a zöld és az ibolyaszín rendszereinek együttes működése a tiszta kék érzékletét válthatja ki bennünk. Ezenkívül Young felismerte a szín- konstancia létezését (ennek észlelési komplexitásáról a térészleléssel foglalkozó fejezetben még szó lesz) és azt is, hogy színészleleteink nemcsak a receptorok aktivációs szintjétől függenek a retina adott pontján, hanem a környező felületek színétől is (szimultán kontraszt). A színlátás nagyjai közül szintén említenünk kell Ewald Hering német orvos-tudós nevét is. Heringet a színlátás olyan aspektusai foglalkoztatták, melyek a fentieken túlmutatnak, ugyanakkor az introspekció, illetve tudatos reflexió számára hozzáférhetőek. Hering fedezte föl az ellenszínek jelenségét, tehát hogy míg bizonyos látott színek keverednek egymással, addig mások nem. Míg a kék és a zöld keveréke kékeszöldet eredményez, a vörös és a zöld keveréke nem ad vöröseszöldet. Mi több, vöröseszöld szín nincs is: ilyen színt nem láthatunk, és 70

85 4. FEJEZET Színlátás elképzelni sem tudjuk. E különös jelenség vezetett később az ellenszínelmélet kialakulásához, amit alább részletesen tárgyalunk ábra. Claude Boutet francia festő színköre 1708-ból. Látható, hogy Boutet Newton színkörére alapozta rendszerét, ugyanakkor a kör egyes színei fakulás vagy a reprodukció hibája miatt nem felelnek meg a hozzájuk rendelt színneveknek Young és Hering felismerései máig érvényesek, és meg is határozzák a színlátáskutatás fő irányait. Míg Young legalapvetőbb felismerései a színlátás receptorális mechanizmusaival kapcsolatosak (kivéve a konstancia- és kontrasztjelenségek megsejtését), addig Hering kulcsfontosságú megfigyeléseinek magyarázata a színlátás agyi feldolgozási mechanizmusaiban található. 2. Receptorok, színegyezés, színkeverés 2.1. A színlátás receptorai és a színegyezés Színlátás akkor lehetséges, ha legalább kétféle, eltérő hullámhossztartományra érzékeny csaptípus van jelen a retinában (mint az előző fejezetben láthattuk, a csapokon kívül még egy receptortípus van az emberi retinában, ezek a csak a világosságra érzékeny pálcikák). A hullámhossz-érzékenység az előfeltétele annak, hogy a látórendszer a szembe jutó fény hullámhossz-összetételéről (spektrális összetételéről) információt nyerjen. Színlátás elvileg lehetséges lenne egyetlen fotoreceptor-típus segítségével is, de csak akkor, ha e receptor különböző hullámhosszú fényekre eltérő típusú válaszokat tudna adni. Az élővilágban létező fotoreceptorok azonban nem ilyenek: bármilyen hullámhosszal, tehát energiaszinttel rendelkező fotont nyelnek is el, mindig ugyanolyan választ adnak. Ezt hívják az univariancia elvének (Wandell 1995). A különböző fotopigmentek abban különböznek egymástól, hogy milyen energiaszintű (hullámhosszú) fotonokat nyelnek el nagyobb valószínűséggel. Az emberi retina háromfajta csapjának érzékenységi görbéi (4.3. ábra) e relatív érzékenységet fejezik ki a hullámhossz függvényében. A különböző fények spektrális energiaeloszlását is a hullámhossz szerint szokás ábrázolni (4.4. ábra). E csaptípusokat rövidítve H (hosszúhullám-érzékeny), K (közepeshullámhossz-érzékeny) és R (rövid hullámtartományra érzékeny) csapoknak fogjuk nevezni. A fényforrások túlnyomó többségének fénye széles tartományban tartalmaz hullámhosszakat. Spektrálisan tiszta 71

86 4. FEJEZET Színlátás (monokromatikus), vagyis igen szűk hullámhossz-tartományú fényeket optikai szűréssel lehet előállítani, de például a lézerek is ilyenek ábra. Az emberi retina három csaptípusának érzékenységi görbéi Az eddigiekből a következőket vehetjük észre. Az emberi retina a beeső fények spektrális összetételének csak meglehetősen durva felbontására képes. Ez azért van így, mert mindössze három, különböző érzékenységű fotoreceptorral rendelkezünk, s ezek közül is kettő érzékenysége erősen átfed. A durva felbontás következménye az, hogy időnként nagyon különböző összetételű fényeket is egymástól megkülönböztethetetlen színűnek látunk. Az ilyen, tehát fizikailag különböző, ám színre megkülönböztethetetlen színingereket hívjuk metamereknek. A metamerizmus jelenségét illusztrálja a 4.5. ábra. Az áttekinthetőség kedvéért itt csak két csaptípust tüntettünk föl, de természetesen három csaptípus megléte mellett is vannak metamerek. A metamerizmus lényege tehát a következő: bármely két fény, amely azonos választ vált ki a három csaptípusból, megkülönböztethetetlen színűnek látszik, függetlenül fizikai különbségüktől. A 4.5. ábrán a két szaggatott nyíl két hullámhosszt (410 nm és 645 nm) jelöl, melyek keveréke a H és az R csapok együttese számára megkülönböztethetetlen a folyamatos nyíllal jelölt tiszta hullámhossztól (495 nm) ábra. Néhány fény spektrális energiaeloszlása. a) Hagyományos izzólámpa, b) napfény, c) optikai szűréssel előállított monokromatikus fény Ez az elv elvezet bennünket a színegyezés vagy színilleszkedés (color matching) jelenségéhez. A trivariáns (trikromát, három csaptípuson alapuló) színlátás esetén színegyezést lehet elérni három, megfelelően megválasztott monokromatikus fény, illetve összetett széles spektrumú fények egy nagy tartománya között. A három monokromatikus fényt primer fényeknek is nevezik, s úgy kell megválasztani őket, hogy a háromból kettőt keverve sohase jöjjön létre színegyezés a harmadikkal. Más szóval: a színegyezést egy háromdimenziós tér segítségével modellezzük, ahol a dimenziók a csaptípusok válaszai, illetve ezek bizonyos kombinációi. A primer fényeket tehát úgy választjuk, hogy úgynevezett ortogonális bázist képezzenek: bármelyikük által kiváltott csapválaszok függetlenek legyenek a másik kettő által kiváltottaktól. Például a 450, 540 és 610 nm megfelelő primerek, de lehetségesek mások is. Egy tipikus, színegyezést vizsgáló kísérletben a személy egy függőlegesen két részre osztott kör alakú mezőt lát, például szürke háttér előtt, a célmező egyik oldalán a széles spektrumú tesztfénnyel, a másik oldalon pedig a három primer fény keverékével. A feladat az, hogy a három 72

87 4. FEJEZET Színlátás primer fény intenzitását három szabályzóval állítva színegyezést érjen el a tesztfénnyel, tehát a kör alakú mező egységes színűnek látsszon ábra. Metamerek két fotopigment esetén. Mint látható, itt a 495 nm hullámhosszú fény (középső nyíl) megkülönböztethetetlen a 410 nm és a 645 nm keverékétől, melyben a két komponens (majdnem) azonos arányban fordul elő. Természetesen a harmadik (K) pigment bevezetése azonnal megkülönböztethetővé tenné e két fényingert A színegyezés alapjául szolgáló folyamatok alapvetően lineárisak. Ez azt jelenti, hogy kielégítik a homogenitás és a szuperpozíció kritériumait (Wandell 1995). Kezdjük a bonyolultabbal. A szuperpozíció elve azt mondja ki, hogy ha adott két egyező, tesztfény-pri- merkombináció pár, akkor a két tesztfény összege is egyezni fog a két primerkombináció összegével. (Két fény összegét kapjuk például akkor, ha két vetítőből egy-egy fényfoltot vetítünk egymásra egy vetítővásznon. Ezt additív színkeverésnek is nevezzük, lásd alább.)képletekkel kifejezve: legyen t 1 és t 2 két spektrálisan összetett tesztfény, p 1, p 2, és p 3 pedig a monokromatikus primerek. Ha t l egyezik Ap1+ Bp2 + Cp 3-mal (A, B, ésc skaláris együtthatók, melyek a primerek intenzitását jelölik), azaz t 2 = Ap 1 + Bp 2 + Cp 3, valamint t 2= A p 1+ Bp 2 + Cp 3, akkor, a szuperpozíció elve szerint t 1 + t 2 = (A + A )p 1+ (B + B)p 2+ (C + C)p 33. A homogenitás elve azt mondja ki, hogy ha egy tesztfény egyezik egy primerkombináci- óval, akkor a tesztfény K-szorosa (tehát spektrális energiaeloszlásának K-val vett skalár- szorzata) egyezni fog a primerkombináció skalárszorzatával. Azaz, ha t 1 = Ap 1 + Bp 2 + Cp 3, akkor Kt 1 = KAp x + KBp2 + KCp3. A szuperpozíció elvének első alapos vizsgálatát a színegyezés esetében Hermann Günter Grassmann német matematikus végezte el, s ezért a szuperpozíció ezen esetét Grass- mann-féle additivitási törvénynek is nevezzük. A következő lépés a színegyezés elmélete felé a színegyezési függvények megalkotása, a következő módon. A színegyezési kísérletek fent leírt alaphelyzetében megtehetjük, hogy a tesztfények sorozatának is monokromatikus fényeket használunk, mondjuk 10 nanométerenként, 380-tól 720 nanométerig, és a három primer fényből ezek látható színét kevertetjük ki a kísérleti személyekkel. így persze, ha primer fényeknek a 450, 540 és 610 nm-t választjuk, s a tesztfény mondjuk 540 nm, akkor az egyezésnél a személy várhatóan csak az 540 nm-es primer intenzitását állítja nullánál nagyobbra. Egy ilyen méréssorozatból kapjuk a színegyezési függvényeket, melyeket táblázatban is összefoglalhatunk (4.1. táblázat). 73

88 4. FEJEZET Színlátás Mint már említettük, a színegyezési kísérletekhez független primereket kell választanunk. Azonban még ebben az esetben sem lehetséges egy adott primerhármas segítségével mindenmonokromatikus fény színét kikeverni. Bizonyos tesztfényhullámhosszaknál akárhogy is tekergeti a személy a három szabályozót, nem sikerül egyezést elérnie. Ilyen esetekben csak úgy hozható létre egyezés, ha az egyik primer fényt a primeroldalon nullára állítjuk, és ugyanakkor hozzákeverjük a tesztfényhez (megváltoztatva ezzel annak színét); ezt a megváltoztatott tesztfényt pedig a maradék két primerből már ki lehet keverni. Matematikailag ezt az esetet úgy fejezik ki, hogy a másik oldalra átvitt primer intenzitását negatív előjellel tüntetik föl a színegyezési függvény táblázatában. Ezért tehát minden, primerfény-hármas alapján kapott színegyezési függvényben vannak negatív értékek (Wandell 1995). Ugyanakkor olyan színegyezési függvényeket is lehet konstruálni, melyeknek egyetlen értéke sem negatív; ilyenek például a Nemzetközi Világítástechnikai Bizottságnak (Commission Internationale de l Éclairage, CIE) azok a sztenderd színegyezési függvényei, melyeket technikai célokra hoztak létre. Ugyanakkor ezek a függvények virtuális primereken alapulnak, azaz nincsen olyan tényleges primerfényhármas, melynek használata ezeket az értékeket adná. A 4.1. táblázatban szereplő értékek a CIE egyik első, 1931-ben megalkotott színegyezési függvényéből származnak táblázat táblázat. A színegyezési függvények származtatása. Az oszlopok a monokromatikus tesztfényekhez tartozó három primerfény-intenzitást tartalmazzák. A táblázat soraiban lévő értékek képezik a három színegyezési függvényt, melyek egyszerű matematikai viszonyban állnak a csapok érzékenységi görbéivel. Pusztán szemléltetésként az első precízen kiszámolt színegyezési függvény néhány értékét írtuk a táblázatba Tesztfények 400 nm 410 nm 420 nm 720 nm I( P1 ) 0,014 0,044 0,134 0,003 I( P2) 0,000 0,001 0,004 0,001 I( p 3) 0,068 0,207 0,646 0,002 Ha tehát adottak a fotoreceptorok érzékenységi görbéi, a színegyezési függvények akkor sincsenek egyértelműen meghatározva, hiszen megváltoztatva a primereket, más színegyezési függvényeket kapunk ugyanazokra az érzékenységi görbékre. Ezen függvényvariációk azonban egy lineáris transzformációval mindig átvihetők egymásba. Ez a következőt jelenti. Ha adott két színegyezési függvény, C, illetve C, és a hozzájuk tartozó primerhármasok: p,p 2,p 3, illetvep\,p 2,p 3, akkor megmutatható, hogy létezik egy olyan, 3 x 3-as számmátrix (jelöljük ezt T-vel), melyre C = TC. (C és C is mátrixok, melyek a 4.1. táblázat formátumát követik 3 sor és n oszlop, n pedig annyi, ahány hullámhossztartományra bontottuk a spektrumot. Tehát a C = TC egyenlet jobb oldala egy mátrixszorzat.) A T mátrix oszlopai pedig éppen azokat az intenzitásértékeket tartalmazzák, melyekkel egyezést lehet létrehozni a második primerhármas <p V P v P 3> mint primerek és az első primerhármas egyes tagjai mint tesztfények között (Wandell 1995). Mit is jelent ez? Legyenek a T első oszlopában szereplő intenzitásértékek i, j, k. T olyan, hogy ekkor ip\ + jp 2 + kp 3 színben egyezni fogp t-gyel. Hasonlóképpen, T második oszlopának értékei egyezést érnek el p 2 és <p n P v P 3> között, stb. A csapok érzékenységi görbéi maguk is egyetlen lineáris transzformációval átalakítha- tóak színegyezési függvényekké. Baylor, Nunn és Schnapf (1987) makákómajmok egyedi csapjainak érzékenységét mérték in vitro mikroelektródás módszerrel, és a kapott görbéket a humán kísérletekből származó színegyezési függvényekkel megegyezőnek találták Fizikai színkeverés A színek keverésének megértéséhez szét kell választani egyrészt a fizikai ingerek keverését (fizikai színkeverés), másrészt az észlelési mechanizmusunk működéséből következő színkeveredési jelenségeket (ezt 74

89 4. FEJEZET Színlátás szokták pszichológiai színkeverésnek is hívni). Itt most a fizikai színkeverés két altípusát ismertetjük röviden. A pszichológiai szint megértéséhez azonban először meg kell ismernünk a színek természetét és a színelméleteket. A fizikai színkeverés és jó néhány további jelenség megértéséhez be kell vezetnünk még egy fogalmat: ez a felületi visszaverődés (reflektancia). A legtöbb tárgy nem bocsát ki fényt, mégis van színük; ez annak köszönhető, hogy a beeső fényt sajátos, szelektív módon verik vissza. Azok a tárgyak, melyeket normál megvilágítás mellett pirosnak látunk, a 600 és 700 nm közötti tartományban a beeső fény nagy részét visszaverik, míg 400 és 600 nm között szinte a teljes beeső fénymennyiséget elnyelik. A sárga tárgyak nagyjából 500 és 700 nm között vernek vissza sok fényt, alatta alig valamit. A kék felületek 400 és 500 nm között verik vissza a legtöbb fényt, 500 nm fölött már ennek csak töredékét. A 4.6. ábra néhány jellegzetes felület visszaverődési, azaz reflektanciajellemzőit szemlélteti. A felületi reflektanciát a hullámhossz függvényében százalékban (a beeső fénymennyiség százalékában) szokás kifejezni ábra. Felületi reflektanciagörbék A fizikai színkeverésnek két fajtája van: az additív és a szubtraktív keverés. Az additív (összeadó) keverés fényforrások fényének összeadódása. Ha például egy fehér vetítővászonra (mely minden beeső hullámhosszat közel száz százalékban visszaver) egy vetítőből piros fény vetül, egy másikból pedig ugyanoda zöld fény, akkor a két egymásra vetülő fényt sárgának fogjuk látni. Ez azért van, mert a zöld fények spektrális energiaeloszlásának csúcsa 500 és 600 nm között van, míg a piros fényeké 600 nm körül vagy a fölött. Vetítővásznunk tehát egyszerre fogja e két tartományt visszaverni, s az eredmény sárga színű összetett fény lesz. Matematikailag ezt a két spektrális energiaeloszlás összegeként fejezzük ki, innen az additív jelző. Ha egy harmadik vetítőből kék fényt is vetítünk a vászonra, az eredmény fehérnek fog látszani (a kék fények energiaeloszlásának csúcsa 400 és 500 nm között van). Szubtraktív (kivonó) színkeverés festékek keverésekor, illetve színszűrők kombinálásakor áll elő. A festékek, illetve színszűrők, mint láttuk, szelektíven verik vissza, illetve eresztik át a fényt. A színszűrés miatt bekövetkező szubtraktív színkeverés egyik gyakorlati példája akár veszélyforrás is lehet. Az autók szélvédőjének felső sávjában elhelyezett zöld színszűrő sávon átnézve a magasan elhelyezett közlekedési lámpa piros színét sötétnek, csaknem feketének látjuk. A szubtraktív színkeverés egy másik, mindenki számára jól ismert esete a kék és sárga festékek összekeverése, ami gyakran zöld színt eredményez. Mint az előbb láttuk, kék és sárga fények additív keverése fehér színt ad (illetve a keverési arányoktól függően halványabb kéket vagy sárgát), de zöldet sohasem. A 4.7. ábra segít megérteni e jelenséget. 75

90 4. FEJEZET Színlátás 4.7. ábra. Kék és sárga festékek keverése zöld színt eredményez, s ennek a felületi reflektanciagörbék módosulása az alapja A festékek, akárcsak a színes üvegek (színszűrők), egymást szűrik. A 4.7. ábrán látható, hogy a sárga felszín fölül áteresztő szűrőként kb. 500 nm-es vágási szinttel működik, a kék festék pedig alul áteresztő szűrőként, 540 nm körüli vágási szinttel. Ha a két szűrési hatást kombináljuk, a kék szűrő a spektrum felső végén, a sárga pedig az alsó, rövid hullámú tartományban nyeli el a beeső fényt. Középen marad azonban egy sáv, melyben mindkettő viszonylag sok fényt ver vissza. Így a zöld színre jellemző felületi reflektancia áll elő. E szubtraktív mechanizmus matematikailag a két szűrőhatás szorzásával fejezhető ki, ahol a felületi reflektanciát a [0-1] tartományban skálázzuk. Ez azonban még nem egészen pontos megfogalmazás. Van ugyanis egy lényeges különbség a színes üvegek, illetve festékek kombinálása között. Ha egy sárga és egy kék üveglapot helyezünk egymás mögé, akkor az eredmény zöld lesz, de sokkal sötétebb zöld, mint amikor üveglapjainknak megfelelő színű sárga és zöld festéket keverünk egymással. Ennek az az oka, hogy keveréskor a festékek kölcsönösen hígítják egymást; ezt úgy modellezhetjük, hogy mindkettő felületi reflektanciája minden ponton kicsit közelebb kerül az 1-hez (100 százalék). E hígítási tényezőt figyelembe véve kell ezután összeszorozni a komponensek (festékek) reflektan- ciáit. Színes üveglapok esetében a kölcsönös hígítás jelenségét úgy idézhetjük elő, hogy egymás mögé helyezés előtt az üveglapok mindegyikét vékonyabbra csiszoljuk. (Gondoljunk a vörösbor esetére: vékony rétege egy karcsú talpas pohárban rózsaszínű, míg egy ötliteres üvegdemizsonban a színe igen közel áll a feketéhez lényegében semmi fényt nem ereszt át.) 4.8. ábra. A színtévesztés típusai. a) Protanomália: 1. gyengébb piros-zöld megkülönböztetés, 2. kisebb érzékenység a vörös tartományra. b) Deuteranomália: 1. gyengébb piros-zöld megkülönböztetés, 2. kisebb érzékenység a zöld tartományra. c) Tritanomália: 1. a sárga-kék megkülönböztetés csökkent, 2. a rövid hullámhossztartományra való érzékenység is csökkent 2.3. Az átlagtól eltérő színlátás: színtévesztés, illetve tetrakromázia A színtévesztés és az átlagosnál jobb színlátás (ezen most az úgynevezett tetrakromát színlátást értjük, lásd alább) hátterében egyaránt a csappigmentek érzékenységi görbéinek örökletes egyéni változásai állnak. A színlátás sérülése lehetséges normál csappigmentek mellett is. Ennek olyan, az idegrendszer magasabb szintjein keresendő okai vannak, amelyekről később ejtünk majd szót. Tetrakromát színlátás viszont nem lehetséges a megfelelő érzékenységet megalapozó csappigmentek nélkül. Színtévesztés esetén a különböző csappigmentek 76

91 4. FEJEZET Színlátás érzékenységi tartományai a normálisnál jobban átfednek, közelebb vannak egymáshoz. A humán tetrakromát színlátás viszonylag ritka eseteiben viszont megjelenik egy olyan negyedik típus is, amelynek érzékenysége legtöbbször csak minimális mértékben különbözik a H vagy a K csapétól. Először a színtévesztés jelenségét tekintjük röviden át. A színtévesztés eseteit aszerint csoportosítjuk, hogy mely csappigment érintett bennük. Protán zavarról beszélünk akkor, ha a H csapok érzékenysége a rövidebb hullámhosszak felé, a zöld csappigmentéhez közelebb csúszott (4.8. ábra). Ha a H és K pigmentgörbe mindazonáltal nem esik teljesen egybe, akkor az összecsúszás mértékétől függő súlyos- ságú protanomáliáról beszélünk. Ennek határesete, ha a két görbe gyakorlatilag egybeesik, ezt protanópiának nevezik. Deután zavar akkor áll elő, ha a K csappigment érzékenységi görbéje csúszik el a hosszabb hullámtartomány, tehát a H pigment érzékenysége felé. Ezt deuteranomáliának nevezik, illetve a teljes egybeesést deuteranópiának. Pro- tán és deután zavar esetén egyaránt leromlik a megkülönböztetés a pirosak, illetve a zöldek között, azonban a protán zavarok esetében ez a hosszú hullámú fények észlelési küszöbének emelkedésével jár együtt, míg a deutánok épp a spektrum közepe tájára eső hullámhosszakat látják gyengébben. A színtévesztés harmadik csoportja úgy áll elő, hogy az R csapok érzékenysége csúszik fölfelé, a másik két csoporthoz közelebb. Ezt tritán zavarnak hívjuk, s ez is öltheti a tritanomália, illetve az R csapok hiánya esetén a tritanópia formáját. A színtévesztés vizsgálata többféle módszerrel történhet. A legismertebbek ezek közül az úgynevezett pszeudoizokromatikus táblák (4.9. ábra). Egy ilyen tesztet tartalmaz magyar kísérőszöveggel Velhagen és Broschmann (1992) könyve. E módszer lényege, hogy változó világosságú és színű pöttyök alkotnak egy figura-háttér egységet (a figura rendszerint egy betű, számjegy vagy ezek kombinációja). A pöttyök világosságeloszlása azonos a figurában és a háttérben, téri elrendeződésük pedig random. Így a figurát és a hátteret csak színárnyalatuk különíti el egymástól. Az árnyalatkülönbség fennállhat a kék-sárga vagy pedig a zöld-piros dimenzió mentén. Tritán személyek ennek megfelelően a kék-sárga kontrasztú figurákat nem látják, míg protán és deután személyek a zöld-piros kontrasztot. A zöld-piros színtévesztő csoporton belül a szürkés háttéren pirosas pöttyökből álló ábra inkább a protánoknak jelent problémát. A deutánokat ez kevésbé zavarja, mivel utóbbiak a vöröses árnyalatot a szürkétől jobban el tudják különíteni (hiszen vörösérzékenységük jobban megtartott). Ugyanakkor a halványzöld háttéren rózsaszín pöttyökből álló ábrákat a deutánok látják gyengébben, s a protánok valamivel jobban, mivel ez esetben a protánok inkább képesek a háttér zöldes színe alapján felismerni a figurát, míg a deutánok számára ez a kritikus színtartomány (enyhe piros-zöld kontraszt), ahol a leginkább leromlott a színmegkülönböztető képességük ábra. Egy színlátást vizsgáló teszttábla (pszeudo-izokromatikus tábla), ahogy a normál színlátók látják (a), és ahogy egy zöld-piros színtévesztõ látja (b) A színtévesztés pontos diagnózisát azonban több módszer együttes alkalmazására lehet csak alapozni. Több más teszt mellett erre a célra az anomaloszkóp elnevezésű műszert használják. Ennek használatakor a személy vörös, illetve zöld primer fényekből kever ki egy sárga tesztfényt. Az egyezési tartomány tulajdonságaiból (elhelyezkedés, szélesség, a sárga tesztfény intenzitása egyezéskor) lehet következtetni a színtétesztés típusára. A színtévesztéssel szemben a tetrakromázia az átlagosnál kismértékben jobb színlátást eredményez, noha a kétféle állapot genetikai eredete közös. Az H és K csapok génje egyaránt nemhez kötötten öröklődik, tehát az X- kromoszómán találhatók. (Az R csapok ezzel szemben autoszomálisan öröklődnek.) Ezért nőknél, ahol két X- kromoszóma van, ritkább a színtévesztés, mint férfiaknál, ahol csak egy. Ha ugyanis az egyik X-kromoszóma a normálistól eltérő érzékenységű H vagy K csappigmentet kódol, a másik viszont a megfelelőt, akkor még mindig előállhat és legtöbbször elő is áll a megfelelő színdiszkriminációs képesség. Férfiaknál viszont, ha az egyetlen H vagy K gén nem az optimális érzékenységet kódolja, már biztosan megjelenik a színtévesztés. Általánosságban, ha egy nő heterozigóta mondjuk a H csappigment génjére, akkor a retinafejlődés embrionális 77

92 4. FEJEZET Színlátás (anyaméhen belüli) szakaszában legtöbbször az egyik génváltozat (allél) kifejeződése gátlódik, és tri- kromát színlátás alakul ki. Időnként azonban előfordul, hogy a gátlódás mozaikszerű: a retina egyes foltjain a normál, másokon pedig egy kissé eltérő érzékenységű pigmentvariáns jelenik meg, s így a retina egészében már négyféle csappigment található (4.10. ábra; Jordan-Mollon 1993). A négyféle csappigment megléte mellett kérdés az is, hogy vajon látórendszerünk képes-e mind a négy csaposztály válaszait megkülönböztetni egymástól. Ha ugyanis nem, akkor sok előny nem származik a megkettőződött csappigmentből. Egyes vizsgálatok eredményei alapján (Jordan-Mollon 1993, Nagy et al. 1981) mégis érdemes megkülönböztetni kétféle tetrakromát színlátást. Rejtett tetrakromázia esetén, bár jelen van a négyféle csaposztály, a látórendszer a két leghasonlóbbat nem különbözteti meg. Ez az eset, úgy tűnik, mégiscsak felismerhető, méghozzá az alapján, hogy a színingerek szuperpozíciója nem áll fenn ilyen személyeknél (Nagy et al. 1981). Allen Nagy és munkatársai zöld-piros színtévesztő férfiak anyáit vizsgálták (ők biztosan hete- rozigóták vagy a H, vagy a K génre). A személyeknek egy sárga tesztfény és egy zöld-piros primerkeverék között kellett egyezést beállítaniuk. Ezután mindkét oldalhoz hozzákevertek egy háttérfényt (kéket vagy pirosat mindkét oldalhoz ugyanazt), és ekkor kellett megismételniük az egyezés beállítását. Az additivitás (szuperpozíció) fennállásakor a háttér nem változtathatja meg a keverési arányokat. Valamennyi férfi kísérleti személy és 21-ből 17 nő ilyen eredményt adott. Négy heterozigóta személynél azonban a háttér hozzáadása más keverési arányokat eredményezett, rejtett tetrakromáziát jelezve ábra. Egy jellegzetes tetrakromát csapérzékenységi mintázat, mely a H csapok két variánsának jelenlétét mutatja. Látható, hogy a két H variáns fotopigment-érzékenysége közötti különbség igen kicsi Kifejezett tetrakromázia esetén agyunk képes feldolgozni mind a négy csaposztály jelének különbségeit. Ez az állapot már megmutatkozhat a trikromát színegyezések elutasításában, illetve a személy gazdagabb színkategória-rendszerében is. Mindazonáltal ezek a személyek sem különböznek feltűnő mértékben a trikromátoktól. Mint Jameson és munkatársai (2001) megjegyzik, a legvalószínűbb az, hogy a negyedik fotopigment még ha jeleit el is különíti az idegrendszer a másik hárométól nem okoz alapvető változást színlátásunk dimenzióiban. Valószínűbb, hogy összetett színes ábráknál, kontextushatások megléte esetén a negyedik receptorosztály jelei növelik a diszkriminációs képességet, a színkontrasztok észlelési hatékonyságát, noha a színlátás ugyanazon alapvető kategóriákban mozog, mint a trikromátoké. A tetrakromát színlátás számos alapvető kérdése ma még vizsgálatra vár, és gyanítható az is, hogy a kifejezett tetrakromát személyek, noha nincsenek sokan, mégis nagy egyéni eltéréseket mutatnak, tehát nehéz lesz általánosításokat megfogalmazni erre a csoportra nézve. 3. A színek észlelése: az ellenszínelmélet A színlátásról eddig leírtak különös vonása, hogy az agyról, a látórendszerről, az idegi feldolgozásról nincs bennük szó (vagy csak az említés szintjén). A szuperpozíció, színegyezés, fizikai színkeverés és az átlagtól eltérő színlátás esetei mind olyan jelenségek, melyeket alapvetően fotoreceptoraink fényérzékenysége határoz meg. A továbbiakban viszont már a színlátás agyi mechanizmusait, valamint a látott színek észlelési struktúráját tárgyaljuk A színek észlelésével kapcsolatos alapvető jelenségek Az emberi színlátásnak számos olyan vonása van, amely független annak háromszín-jel- legétől, nem következik abból. Sőt ezek a vonások olyanok, hogy legtöbbjüket egy laikus, de elmélyült megfigyelő is felismerheti. A látott színek vagy színélmények szerveződése már az idegrendszer működésén alapul (nem 78

93 4. FEJEZET Színlátás csupán a csapok érzékenységén), és olyanperceptuális struktúrákat eredményez, amelyek magyarázata a látáskutatás legnagyobbjainak is sokáig fejtörést okozott. A következő jelenségekről van szó. Az észlelt színeket általában három dimenzió mentén jellemezzük: ezek a színárnyalat, a telítettség és a világosság. A tiszta ég színe telítetlen és világoskék; a hagyományos írótinta színe viszont telített sötétkék. Hasonló a különbség az éretlen, illetve az érett cseresznye piros színe között. E három dimenzió segítségével már jellemezni lehet az úgynevezett színhasonlósági teret, amely a látott színek perceptuális szerveződését írja le. A három dimenzió a naiv megfigyelők számára is jól felismerhető, megérthető. Sőt az ezen dimenziókat alkalmazó kísérleti helyzetekben az ugyancsak naiv személyek megbízhatóan osztályozzák a látott színeket. Erre alapozható a színhasonlósági tér empirikus vizsgálata (4.11. ábra; Sternheim-Boynton 1966, Izmailov-Sokolov 1991, Sivik 1997) táblázat - A SZÍNTÉVESZTÉS KORREKCIÓJA Az utóbbi években a színtévesztés számos esete vált szemüveg segítségével javíthatóvá. A többféle módszer közül talán legeredményesebb a Wenzel Klára és Abrahám György által kifejlesztett szűrőrendszer (Wenzel et al. 2000). Ezzel a módszerrel a protanomália és a deuteranomália esetei kezelhetők, amelyek az összes színtévesztés túlnyomó többségét teszik ki. A módszer lényege olyan áteresztési profilú szűrők alkalmazása, melyek az egymáshoz túl közel lévő H és K érzékenységi görbéket távolítják egymástól. Az eljárás részleteit az ábra szemlélteti. Ha ismert egy normál és egy anomáliás fotopigment érzékenységi görbéje is (jelöljük ezeket n-nel, illetve a-val), akkor a normál görbe (n) értékeit minden egyes hullámhosszon elosztva az anomáliás görbe (a) megfelelő értékeivel, kapunk egy harmadik görbét (legyen ez a h görbe). Ha ezután olyan szűrőt készítünk, amelynek áteresztőképessége épp ezzel a h görbével jellemezhető, és ezt szemüvegként alkalmazzuk egy olyan személynél, akinek éppen az a-val jellemezhető anomáliás fotopigmentje van, akkor ez a szemüveg tökéletesen korrigálni fogja ennek a fotopigmentnek az érzékenységét. (Ha n/a = h, akkor a x h = n, minden egyes hullámhosszra.) Eddig rendben is van, hiszen mind a normál, mind az anomáliás fotopigmentek elnyelési görbéiről rendelkezünk adatokkal (pl. Stockman et al. 1993, Wyszecki-Stiles 2000, DeMarco et al. 1992). Megjegyzendő, hogy ha a hányados (h) görbe 1-nél nagyobb értékeket tartalmaz, akkor 1-re kell normálni, hiszen olyan szűrőt, ami a beesőnél több fényt ereszt át egy adott hullámhosszon, nem lehet készíteni. A normálással olyan h' görbét kapunk, amellyel transzformálva az a görbét, nem pont az n görbét kapjuk vissza, hanem annak egy 1-gyel kisebb számmal való szorzatát. Ez azonban nem gond, mert a látórendszer kitűnően adaptálódik egy ilyen, kissé csökkent érzékenységhez (mindhárom csaposztállyal ez történik, amikor fölteszünk egy napszemüveget). Ezzel azonban még nem oldottuk meg a színtévesztés korrekcióját, hiszen a h' szűrő a retinában lévő másik két fotopigment fényelnyelését is befolyásolni fogja, méghozzá eddig ellenőrizetlen módon. Olyan szűrőt kell tehát konstruálnunk, amely mint az ábra mutatja a H csap érzékenységét kissé fölfelé, a K csapét pedig lefelé (a rövidebb hullámhosszak irányába) tolja el, az R csapokat pedig lényegében nem befolyásolja. Wenzel Klára és Abrahám György szűrőkészlete éppen ezeket a feltételeket teljesíti, s ezáltal alkalmas a zöld-piros színtévesztés különböző típusainak korrekciójára. Egy tipikus szűrőprofil látható az ábra jobb oldali grafikonján. A 79

94 4. FEJEZET Színlátás készletből megfelelően választott szemüveggel a színtévesztők 72 százaléka legalább tíz táblával többet tud elolvasni a pszeudoizokromatikus teszteken, mint szemüveg nélkül (e tesztek mintegy húsz táblát tartalmaznak). A kezelt személyek 65 százaléka szemüveggel normál teljesítményt nyújt a pszeudoizokromatikus táblákon. Egy érdekes, az észlelési élmény szintjén megragadható hozama a korrekciónak, hogy a szemüveget viselő személyek ténylegesen úgy érezték, hogy a világ szebb, színekben gazdagabb lett. A három dimenzió közül a telítettség és a világosság lineárisak: a színhasonlósági tér világosságtengelye a fehértől a szürke árnyalatokon át a feketéig terjed, míg a telítettség minden színárnyalat esetén egy maximumértéktől a szürke valamely árnyalatáig (nulla telítettség) változik. A spektrális (monokromatikus) fények színe a legtelítettebb (ilyen például egy vörös lézer), a kevert, szélesebb spektrumú fények színe már kevésbé. Ha egy adott színű, például piros festékhez fokozatosan egyre több fehéret adunk, akkor egyre telítetlenebb világos színeket kapunk (ezeket pasztellszíneknek is nevezik). Ha piros festékünket egyre növekvő mennyiségű szürkével (vagy feketével) keverjük, az eredmény egyre telítetlenebb sötét színek sorozata lesz. (A szürke árnyalatait, valamint a fehéret és a feketét együtt szokás akromatikus színeknek is nevezni, a többi árnyalatot pedig összefoglaló névvel kromatikus színeknek.) ábra. A színhasonlósági tér egyik sztenderd változata (az ún. CI ELA B tér) diagramja A harmadik, az árnyalatdimenzió azonban nem lineáris, hanem körkörös. A színkör színárnyalatainak azért nincs értelmezhető minimuma és maximuma, mert a látható spektrum két végének színe, az ibolya és a vörös meglehetősen hasonlóak, de legalábbis hasonlóbbnak tűnnek egymáshoz, mint a spektrum középső részének színeihez (a kékeszöld, zöld, sárgászöld, sárga és a narancs árnyalataihoz ). Azok a színek pedig, amelyek monokromatikus fényekkel nem állíthatóak elő (ilyen a lila színek tartománya), átvezetést képeznek a látható spektrum két végének színe között. A lila színek az ibolyánál vörösesebbek, a pirosnál/vörösnél pedig kékesebbek. összességében tehát a színhasonlósági tér jól jellemezhető két lineáris és egy körkörös (polár-) dimenzióval. További komplikációt jelent azonban a látható színek ellenszín-szerveződése. A színárnyalatok egyes párjai olyanok, hogy a megfelelő arányban keverve őket, kioltják egymás kromatikus összetevőjét, s az eredmény valamely szürke árnyalat lesz. A vörös és a zöld ilyen ellenszínpárok, ugyanígy a kék és a sárga is. Minden kromatikus színnek van ellen- színpárja: a narancsszíneké a kékeszöld tartományba, a liláké a sárgászöld tartományba esik. A színhasonlósági tér alapvető tulajdonsága a tiszta színek, illetve a keverék színek elkülönülése is. Más néven ez a pszichológiai színkeverés jelensége, amely tehát a fizikai színkeveréstől különbözik. Négy olyan kromatikus árnyalat van, amelyek nem tűnnek számunkra más kromatikus árnyalatok keverékének: ezek a piros, a zöld, a sárga és a kék. A többi kromatikus árnyalat e négy alapszínből kettő valamiféle keverékének tűnik. A narancssárga színek egyszerre kissé vörösesek és sárgásak is; a lilák egyszerre kékesek és vörösesek. A sárgászöld tartomány neve is jelzi, hogy ezek a színek egyszerre rokonai a sárgának és a zöldnek is; hasonló a helyzet a kékeszöld tartománnyal. Az eddigiekből következik, hogy a tiszta ellenszínek piros és zöld, illetve sárga és kék nem alkotnak keverék színeket, pszichológiai szinten nem keverednek egymással. Soha nem látunk vöröseszöld vagy kékessárga színeket. Erre valaki azt az ellenérvet hozhatná föl, hogy dehogynem, hiszen a zöld például a kék és a sárga 80

95 4. FEJEZET Színlátás keveréke, esetleg a kékessárga szín nem más, mint a zöld. (S eszerint akkor csak három tiszta szín lenne.) E kérdés megválaszolásához alapos empirikus vizsgálatok adatai segítenek hozzá, melyek cáfolni látszanak ezt az ellenvetést. Sternheim és Boynton (1966), Miller (1997) és mások eredményei szerint a személyek például akkor tudják jól leírni, megfelelően megnevezni; valamennyi kromatikus színt, ha a négy kromatikus alapszín nevét használhatják. Ha e négyből valamelyiket letiltották, akkor a kísérleti személyek nem tudtak minden bemutatott színt megfelelően leírni. Más szóval, a színmegnevezési vizsgálatokból kitűnt egy aszimmetria: a narancssárga például jól leírható a személyek számára vörösessárgaként (vagy sárgásvörösként), a vörös viszont nem írható le mondjuk narancssárgás lilaként. Bizonyos narancssárga és lila fényeketfizikailag keverve ugyan kaphatunk vöröset (amely sem nem kékes, sem nem sárgás), mégis, pszichológiai szinten a vörös észlelete nem keveréke a narancssárgának és a lilának. E megfigyelések arra utalnak, hogy a zöld, ugyanúgy, mint a piros, a kék és a sárga, alapszín (tiszta szín). Ezt támasztja alá az a megfigyelés is, hogy kék és sárga festéket fizikailag keverve az arányoktól függően létrehozható sárgászöld (sok sárga és kevés kék festék eredményeként), kékeszöld (sok kék, kevés sárga), valamint olyan zöld is, amely sem nem kékes, sem nem sárgás, hanem csak zöld. A zöld tehát csak fizikai szinten keveréke a kéknek és a sárgának, pszichológiai szinten azonban független tőlük Az ellenszínelmélet Az ellenszínek jelenségét, illetve a színek pszichológiai keveredését először Ewald Hering írta le a 19. században (Hurvich 1969). Ugyanakkor magyarázatuk a kor legnagyobbjainak is gondot okozott (Young 1802, Helmholtz 1911). Ezek a magyarázati próbálkozások számos ponton nem voltak kielégítőek (Hurvich 1981). Az ellenszínelmélet mai formáját Dorothea Jameson és Leo Hurvich dolgozta ki (Hurvich-Jameson 1955, Jameson- Hurvich 1 955, 1 968). E modell és to vábbf elj le szte tt változatai (pl. Werner-Wooten 1979, Hunt 1982) már számot adnak a fent leírt jelenségekről. E modellt más tankönyvekhez hasonlóan itt is egyszerűsített formában mutatjuk be, elhagyva bizonyos matematikai részleteket. A ábra az egyszerűsített ellenszínelmélet szerkezetét mutatja be. A modell feltevése szerint a látórendszer a csapok kimeneteiből különbségeket számolva hozza létre a színhasonlósági tér dimenzióit. A H és K csapok jelének különbsége (ezt H K-val jelöljük) adja a piros-zöld jelet. ha a H csapok kimenete a retina adott pontján nagyobb, mint a K csapoké (azaz H K > 0), a piros érzéklet jön létre. A H K < 0 viszont a zöld érzékletéhez vezet. A H = K esetében sem piros, sem zöld érzéklet nem származik a retina adott pontjáról. Ebből rögtön következik, hogy zöldespiros érzéklet nem állhat elő, s mint láttuk, ez így is van. A sárga-kék érzékletpár viszont az R (H + K) receptor- válasz-kombinációból áll elő. Ha H + K = R, akkor sárga színérzéklet keletkezik, míg ha H + K < R, akkor kék érzéklet. H + K = R esetén sem sárgás, sem kékes nem lesz az eredő érzéklet. Ebből az is következik, hogy a modell nem engedi a sárga és a kék érzékletek keveredését. A harmadik lineáris kombináció, amit a látórendszer a csapválaszokból képez, a H és K csapok jelének összege (H + K). Ez a színérzéklet világosságának felel meg. A ábra a színhasonlósági tér eme újradimenzionált változatát mutatja be. A körkörös színárnyalat-dimenziót most a két opponens kromatikus dimenzióval helyettesítettük; a világosságdimenzió maradt, és a telítettség is, noha itt nincs nyíltan megnevezve. Az ábrán középen látható színkörön a periféria felé találjuk a legtelítettebb színeket, s a középpont (a világosságtengely) felé pedig az egyre kevésbé telítetteket (lásd a ábrát is). Ez a viszonylag egyszerű modell, ha végiggondoljuk, valamennyi fönt leírt jelenséget magyarázni képes. Ha H = K és H + K = R, akkor akromatikus (fehér, szürke vagy fekete) színérzet keletkezik, a H + K értéktől függően. Ha a két egyensúlyból csak az egyik áll fenn, akkor tiszta szín érzéklete keletkezik, ha mindkét kromatikus dimenzió értéke eltér a nullától, akkor kevert szín érzéklete jön létre. Utóbbiaknak négy nagy csoportjuk van: a narancssárgák (vörösessárga), a lilák (kékesvörös), illetve a sárgászöldek s a kékeszöldek csoportja. Mindegyik ilyen csoportba számtalan árnyalat tartozik, a két kromatikus komponens, illetve a telítettség fokától függően. Ha például a retina egy pontján keletkező csapválaszok alapján H K erősen pozitív (piros érzet), H + K is nagy (világos színérzet), valamint R (H + K) «H K, tehát nagyjából ugyanolyan erős a kék komponens is, mint a piros, akkor a bíborszín érzéklete az eredő bíborszínnek a nagyjából azonos mértékben kékes és vöröses, ugyanakkor telített színeket hívjuk. Ugyanakkor, ha H + K nagy (világos színérzet), ám (H K)/(H + K) egy kisebb pozitív érték (azaz egy gyengébb piros jel áll fenn), s ehhez egy még gyengébb kék jel társul (R H K)/(H + K) < (H K)/(H + K), akkor rózsaszín érzéklet az eredő (telítetlen, világos, enyhén kékesvörös). 81

96 4. FEJEZET Színlátás ábra. Az egyszerûsített ellenszínelmélet ábra. A színhasonlósági tér az ellenszín-dimenziókkal reprezentálva Amellett, hogy ez a modell számos jelenséget megmagyaráz, egy fejlődőben lévő elmélet is egyben, mely számos kérdést vet föl a kutatás számára. Lezárásképpen néhány ilyen alapkérdést ismertetünk A kontrasztszínek problémája A két legjellegzetesebb kontrasztszín a barna és a fekete. A barna szín igen különbözőnek tűnik az eddig említett színkategóriáktól, s még az sem világos, hogy vajon tiszta színnek vagy keverék színnek kell-e tekinteni. Józan ésszel meggondolva akár alapszín is lehetne, mivel meglehetősen egységesnek tűnik: például a Túró Rudi csokibevonatának jellegzetes színe nem igazán emlékeztet két másik színárnyalatra úgy, ahogyan mondjuk egy zöldessárga szövet színe egyszerre tűnik számunkra zöldesnek és sárgásnak. A barna szín ennél sokkal egységesebb. De akkor hol helyezkedik el a színhasonlósági térben? E fenomenológiai (élményszintű) probléma megválaszolásához hozzásegíthet egy mindenki által kivitelezhető kísérlet. Készítsünk egy kb. 1-1,5 centiméter átmérőjű, centiméter hosz- szú papírcsövet, melynek a belső oldalát előzőleg sűrű fekete temperával befestettük, vagy egy darab fekete bársonnyal vontuk be. Ezután egyik szemünkkel nézzünk bele a csőbe úgy, hogy a másik végén egy tábla csoki felületének részletét lássuk, melyet erős fénnyel (például egy olvasólámpával) világítunk meg. Szemünk és a cső szemünkhöz közeli vége legyen sötétben például csövünket dugjuk át egy darab fekete kartonon. Ha így nézünk rá a csokira tehát lényegében kiemeljük más kromatikus színek kontextusából -, nem barnának, hanem élénk narancssárgának fogjuk látni. Ez a némiképp meglepő eredmény megmutatja, hogy a barna szín jellegében a narancssárgához áll közel. S valóban, a barna árnyalatait különböző telítettségű narancssárgák fokozatos besötétítése útján kapjuk. Bár a két színkategória, barna és narancs, elsőre nem tűnnek rokon színeknek, mégiscsak azok. Ennek megfelelően a színhasonlósági térben a barna árnyalatok a színkör narancssárga tartománya alatt, a feketék irányában helyezkednek el (lásd a ábrát). Ezek szerint viszont a barnának összetett színnek kellene lennie az észlelés szintjén, s ennek ellenére mégiscsak egységesnek látjuk. Egyes kutatók véleménye szerint kísérleti körülmények között 82

97 4. FEJEZET Színlátás kimutatható, hogy a barna mégiscsak összetett szín (Quinn et al. 1988). E megál-lapítás azonban továbbra is ellentmond a hétköznapi szemléletnek: alapesetben nem észleljük keveréknek a barna színeket. A barnát tehát azért nevezzük kontrasztszínnek, mert csakis más színek kontextusában látunk barnát, izoláltan sohasem. A hétköznapi szemlélet számára ez például abban az ismeretünkben jelenik meg, hogy barna színű fény nincs. Ez azonban csak annyit jelent, hogy egy koromsötét környezetben lévő egyetlen kis fényforrás fényét sohasem látjuk barnának (legfeljebb narancssárgának). Érdekes módon sokak szerint a fekete is kontrasztszín, mely csak más színek hátterében észlelhető. Ennek egy szép példája a televízió képernyője. Kikapcsolt állapotban a képernyő szürke színű, határozottan nem fekete. Azonban a bekapcsolt képernyőn minden további nélkül láthatunk feketét. Gondoljunk bele, hogy ekkor a feketének látszó felület nem tud kevesebb fényt kibocsátani, mint kikapcsolt állapotban, mégis söté- tebbnek (ti. feketének) látszik. Ennek oka a környezetében lévő sokkal élénkebb színekkel való élesebb kontraszt (Hardin 1995). Ha viszont nap süt a bekapcsolt tévé képernyőjére, a képernyő kibocsátott színei rögtön kifakulnak, s a feketék kiszürkülnek, mivel ekkor a képernyő által visszavert igen erős fény befolyásolja a kibocsátott színek megjelenését. összefoglalva, a kontrasztszínek jelenségének igen fontos üzenete az, hogy a színhasonlósági tér struktúrája, az észlelhető színek tulajdonságai nem származhatnak pusztán a föntebb leírt lineáris kombinációkból (H K, H + K R stb.), hanem más, ennél jóval bonyolultabb feldolgozási folyamatok is meghatározóak a színhasonlósági tér struktúrájára nézve A részletes ellenszínelmélet A fönt leírt ellenszínelmélet lényeges egyszerűsítéseket tartalmaz. Így például kérdés az is, hogy a színhasonlósági tér dimenziói valóban megkaphatóak-e a csapválaszok lineáris transzformációiból, vagy bonyolultabb az összefüggés. A pontos összefüggés bonyolultabb, és lényeges egyéni különbségeket is mutat normál színlátók között (Werner-Wooten 1979). Elsősorban a kék-sárga színdimenzió tér el a linearitástól. Ez azt jelenti, hogy a csapválaszok értékeit nemlineáris transzformációnak kell alávetni ahhoz (Werner és Wo- oten hatványfüggvényt javasolnak), hogy az észlelt kékség-sárgaság mértéke legalább egyszerű észlelési helyzetekben jósolható legyen Átfogó kritikák Az ellenszínmodellt elsősorban a négy alapszín fogalma miatt érik kemény kritikák: a kutatók egy része úgy látja, hogy az alapszín keverék szín elkülönítés az észlelés szintjén meglehetősen ellentmondásos (Jameson- D Andrade 1997, Mollon-Jordan 1997). A színhasonlósági tér szerkezete, mint láttuk, empirikus vizsgálatokkal tárható fel, melyekben különböző módszerekkel ítéltetik meg a személyekkel a színek hasonlósági viszonyait. (Például színpárokat mutatnak, és szubjektív skálázással, mondjuk hétfokú skálán kell megítélni a hasonlóságot; vagy különbségi küszöbök segítségével skálázzák ugyancsak a hasonlóságot.) Az ilyen vizsgálatokból nemegyszer az jön ki, hogy a piros és a zöld nem foglalnak el pontosan opponens pozíciót a színtérben (a piroszöld dimenzió nem teljesen egyenes), s ugyanez igaz a sárga-kék dimenzióra. A lineáris kombináció elve abban az értelemben is sérül a színtérben, hogy két olyan fényt keverve, melyek egyike sem vált ki kékes vagy sárgás észleletet (tehát tisztán pirosak, illetve zöldek), kapható sárgás szín észlelete (Wandell 1995). Mint láttuk, a színegyezés szintjén viszonylag tág határok között fennáll a linearitás, éppen azért, mert a színegyezést a csapérzékenységi görbék határozzák meg. A színészleletek kialakulása viszont, melyben már a receptorokon túli idegrendszeri mechanizmusok játsszák az alapvető szerepet, sokkal bonyolultabb, és részben nemlineáris folyamatokon alapul Kromatikus válaszfüggvények és a színlátás idegrendszeri alapjai Az ellenszínelmélet empirikus kiindulópontját a színkioltás jelenségének kísérleti vizsgálata adta (Jameson- Hurvich 1955). Ha egy kísérleti személynek mutatunk egy fényingert, melynek színe bizonyos fokig vöröses (pl. lila, narancssárga vagy piros), akkor e vöröses összetevő kioltható zöld színű fény hozzáadásával. Személyünket tehát megkérhetjük, hogy egy szabályzóval úgy állítsa be a zöld fény erősségét, hogy az eredetileg vöröses árnyalatú fényből a vörös összetevő eltűnjön. Ekkor a keletkező fény lehet kékes, sárgás vagy fehér. (Túl kevés zöld fény hozzáadása esetén az eredmény vöröses marad, ha túl sok zöldet adunk, akkor zöldes fény lesz az eredmény.) A kioltáshoz szükséges zöld fény erősségéből következtetni lehet a vöröses árnyalatot létrehozó idegrendszeri válasz erősségére az eredeti (keverés előtti) inger esetén. Zöldes árnyalat vörös fénnyel, kékes sárgával, sárgás pedig kékkel oltható ki. Természetesen most is végigvizsgálhatjuk a teljes spektrumot abból a szempontból, hogy adott hullámhosszú fény kromatikus árnyalat-ösz- szetevői milyen színű és erejű fényekkel 83

98 4. FEJEZET Színlátás olthatók ki. Például egy 590 nm-es narancssárga fénynek, mint láttuk, két kromatikus árnyalatösszetevője van: piros és sárga, s az előbbi zöld, az utóbbi pedig kék fénnyel oltható ki. A teljes spektrumot hullámhosszanként végigvizsgálva a kioltó fények színe és erőssége szerint, az úgynevezett kromatikus válaszfüggvényeket kapjuk (4.14. ábra). Vegyük észre, hogy e görbékből is egyértelműen látszik a színek opponens szerveződése: bármely hullámhossz legfeljebb két kromatikus árnyalat-összetevőt tartalmaz: a piros-zöld pár egyikét, illetve a sárgakék pár egyikétt ábra. A kromatikus válaszfüggvények A színkioltási kísérletek eredményei szép összhangot mutatnak bizonyos színmegnevezési kísérletek eredményeivel (Sternheim-Boynton 1966, Werner-Wooten 1979). Utóbbi kísérletekben a személyeket arra kérték, hogy százalékskálán becsüljék meg a bemutatott színingerek árnyalat-összetevőit. Például a tipikus narancssárga színeket 50 százalék piros, 50 százalék sárga ítélettel jellemezték sokan, míg az érett citroméhoz hasonló tiszta sárga színt nagyjából 100 százalékban sárgának, és 0 százalékban zöldesnek, illetve vörösesnek írták le. Bár első hallásra e módszer kicsit furcsának tűnhet, az empirikus vizsgálatok mégis igazolták: a kísérleti személyek értették a feladatot, és egyazon személyek időben stabil, különböző személyek pedig egymáshoz hasonló válaszokat adtak. Mi több, a kromatikus válaszfüggvények előre jelezték a verbális válaszokat. Ha egy ingernél például erősebb zöld fény kellett a vörös összetevő kioltásához, akkor ugyanazon személy ugyanazt az ingert nagyobb százalékban jellemezte vörös árnyalat-összetevővel. A vizsgálatok harmadik szintje azt mutatta ki, hogy majmokban a talamusz oldalsó térdestesteinek (corpus geniculatum laterale CGL) egyes sejtjei olyan színopponens válaszokat adnak, melyekből a kromatikus válaszfüggvényekhez hasonló görbék rajzolódnak ki (DeValois-DeValois 1997). A színlátás idegi alapjainak vizsgálataiból a következő képet kapjuk. Az opponens kódolás idegi alapja a csaptípuspárok kimenetének összehasonlítása, melyet a retina ganglionsejtjei, illetve a CGL különböző sejttípusai végeznek el. A dikromát emlősök esetében a törzsfejlődésileg ősibb kék-sárga opponens rendszer a látható spektrum rövid, illetve hosszú hullámú végét, vagyis a H, illetve R csapok válaszait hasonlítja össze. E rendszer kiindulópontját a ganglionsejtek egy csoportja, az úgynevezett nem-m-nem-p típusú ganglionsejtek és ezek receptív mezői képezik (small bist- ratified ganglion cells: Mollon 2000, Fonyó 1999). E ganglionsejtek a cgl egyik (ún. koniocelluláris) sejtrétegével kapcsolódnak, majd onnan az elsődleges látókéregbe (V1) jutnak ingerületeik. A törzsfejlődésileg újabb zöld-piros rendszer a közepes, illetve hosszú fényhullámok jelenlétét (tehát a H, illetve K csapok kimenetét) hasonlítja össze a retina adott pontját érő fényingerben. Ennek kiindulópontját a ganglionsejtek egy másik típusa a p típusú ganglionsejtek, midget ganglion cells), illetve ezek receptív mezői jelentik. A P sejtek a cgl egy másik rétegébe (kissejtes, parvocelluláris réteg) küldik axonjaikat, onnan pedig a V1-be. A retina receptív mezői között szép számmal vannak spektrális szempontból opponens szerveződésűek: olyanok, melyek bizonyos hullámhosszakra fokozott aktivitást mutatnak, másokra viszont gátlódnak. csaknem mindegyik spektrálisan opponens sejt receptív mezeje ugyanakkor térileg opponens szerveződést is mutat. Ha például a centrum egy vagy néhány H csapból áll, míg a periféria túlnyomórészt K csapokból, akkor a receptív mező ganglionsejtje a centrumba eső vörös fényre válaszolhat aktivitásnövekedéssel (BE központ), míg a perifériára eső zöld fényre a legerősebb aktivitáscsökkenéssel (KI környék) A magasabb szintek felé haladva a színekkel kapcsolatos specificitás is növekszik: míg a CGL spektrálisan opponens sejtjei még világosságinformációt is hordoznak, addig a V1 egyes sejtjei színes fényekre válaszolnak, fehér fényre azonban nem. A színekre legspecifikusabb kérgi terület a V4, melynek sejtjei viszonylag szűk hullámhossztartományokra szelektíven érzékenyek, fehér fényre nem válaszolnak, és színek szerinti 84

99 4. FEJEZET Színlátás sejtoszlopokba rendeződnek. E sejtoszlopok különböző sejtjei azonos színtartományra érzékenyek (ugyanakkor különböző alakspecificitással rendelkeznek). A V4 sérülése kérgi eredetű színlátászavart, illetve a színlátás elvesztését okozza (akromatopszia). E veszteség meglehetősen specifikus a színlátásra nézve: az egyéb látási teljesítmények (pl. alaklátás, téri orientáció) túlnyomórészt megmaradnak akromatopszia esetén (Sacks 2004). 4. Színkonstancia és színkontraszt Színkonstancia alatt a következő jelenséget értjük. Amikor a külső megvilágítás változik (például ha a nap fénye az estébe hajló délutánban egyre narancssárgásabb lesz, vagy a napfényből belépünk egy mesterséges fénnyel megvilágított helyiségbe), nem tűnik úgy számunkra, hogy a tárgyak színe megváltozik, noha ilyenkor a tárgyakról a szemünkbe jutó fény spektrális összetétele nagyon is megváltozik. A meglepő az, hogy a tárgyak észlelt színe jobban korrelál az egyes tárgyak felületi ref- lektanciájával (amihez közvetlen észleléses hozzáférésünk nincs), mint a tárgyakról a szemünkbe jutó fénnyel (ami a színlátás közvetlen ingerét képezi). Hogyan lehetséges ez? E jelenség megértéséhez érdemes a színkonstanciánál egyszerűbb világosságkonstan- cia jelenségével kezdeni. Ehhez nézzük meg a ábrát. Bár a teljes ábrán az O betű bekarikázott középső részét világosabbnak látjuk, mint az S betű ugyancsak jelölt feketéjét, mégis, az abszolút világosságok tekintetében fordított a viszony. A látórendszer a feltételezések szerint a teljes ábrát szegmentálja, felosztja különböző megvilágítású részletekre (a ábrán a közvetlenül megvilágított, illetve árnyékos részek elkülönítése az alapvető), és ezen belül viszonyítja egymáshoz a különböző világosságú részeket. Így például az árnyékos tartományon belüli legvilágosabb felületrészletekhez ugyanúgy a fehér észleletét rendeli, mint a közvetlenül megvilágított területen belüli legvilágosabb részekhez. Mindkét tartományon belül a lokálisan legvilágosabb részletekhez viszonyítva alakulnak ki a sötétebb felszínek észleletei például a lokális megvilágítási maximum felével jellemezhető felületeket nagyjából középszürkének látjuk ábra. A világosságkonstancia szemléltetése Kérdés, hogyan általánosítható ez az elv a színes látásra. Az egyik első, nagy hatású szín- konstancia-elmélet Edwin Land amerikai tudós és feltaláló nevéhez fűződik. Land, aki egyebek között a polaroid fényképezés feltalálója is, úgy gondolta, hogy a színkonstans észleléshez három különböző hullámhossztartományban egymástól függetlenül kell a világosságot nor- malizálni (Shepard 1997, Brainard-Wandell 1986). Elméletét Land retinexelméletnek nevezte. (A retinex kifejezés arra utal, hogy a színkonstans észlelés alapjául szolgáló mechanizmusok valahol a retina és az agykéreg kortex között, pontosan nem tudjuk, hol valósulnak meg.) Land híres kísérleteit úgynevezett Mondrian-ábrákkal végezte, melyek különböző színű, zömmel téglalap alakú mezőkből álló képek voltak, s nevüket onnan kapták, hogy Piet Mond- rian holland neoklasszicista festő egyes képeire emlékeztettek (4.16. ábra). 85

100 4. FEJEZET Színlátás ábra. Edwin Land színkonstancia-kísérleteihez használt Mondrian -ábra Az ábrák megvilágítására három vetítőt használtak, melyek liláskék (rövid hullámhosszú), zöld (közepes hullámhosszú), illetve vörös (hosszú hullámú) fényt vetítettek az ábrákra. Az egyes vetítőket, illetve ezek kombinációit különböző fényerőre állítva, a megvilágítás tág határok között változtatható volt, miközben az ábra egyes foltjairól visszaverődő fény összetételét fénymérő műszerrel mérték. Az összetett Mondrian-ábrák egyes foltjainak észlelt színe alapvetően állandó maradt a megvilágítás nagymérvű változtatásai ellenére is. Ha például egy adott M1 megvilágítás mellett egy vörös folt ugyanolyan összetételű fényt vert vissza, mint egy másik, M2 megvilágítás mellett egy zöld folt, mindkét megvilágítás mellett a vörös folt vörösnek, a zöld zöldnek látszott. E jelenség alapja Land szerint egy normálási folyamat, de most nem egyetlen visszavert fényértékre, mint a világosságkonstancia esetén, hanem három hullámhossztartományra, egymástól függetlenül. Ha például vöröses megvilágítás (pl. naplemente) esetén a látvány egészében nagyon nagy a vörös tartományból származó bemenet, akkor a látórendszer e hullámhossztartomány súlyát arányosan csökkenti a színek kiértékelésekor, helyreállítva a normál kromatikus arányokat (hasonlóan a másik két hullámhossztartomány esetén). Ezzel az elmélettel azonban az a gond, hogy akkor is normalizál, ha a kromatikus túlsúly forrása nem a megvilágító fény színe, hanem a látványban jelen lévő felszínek árnyalata. Ha például egy csupa vöröses felszínből álló ábrát látunk, mint a ábrán, a reti- nexmodell akkor is a vörös túlsúly eltávolítására törekszik, ami azonban most helytelen lépés, hiszen a látványban szereplő összes tárgy vörös színű, s pontosan ez az, amit látunk is (Shepard 1997) ábra. Egy csupa piros felszínt tartalmazóábra, melybõl nem kell eltávolítani a piros színek túlsúlyát a retinexelmélet háromcsatornás normálási eljárása viszont ezt tenné A színkonstancia ma legelfogadottabb elmélete Laurence Maloney és Brian Wandell nevéhez fűződik (Maloney 2003, Maloney-Wandell 1986, Wandell 1995). A retinexelmé- let imént említett problémájától Maloney és Wandell úgy szabadul meg, hogy feltételezik, a látórendszer egy független becslést végez a megvilágítás spektrális összetételére vonatkozóan, ez a spektrális összetétel pedig nem a környezet tárgyairól visszaverődő fény mértékétől függ. Ilyen független becslés érhető el például, ha valamilyen fényforrásra vagy annak irányába pillantunk, vagy akkor, ha a színbecslést a fényforrásnak a tárgyak felszínén látható tükörképe alapján végezzük (4.18. ábra). A ábra alapján több fontos megfigyelést is tehetünk. Egyrészt, jól látható, hogy a tárgyak felületi reflektanciájának tulajdonképpen két összetevője van: egy diffúz komponens, mely az adott irányból beeső fényt minden irányban szétszórva veri vissza, s egy tükörszerű visszaverődés, mely a tükörhöz hasonlóan a párhuzamosan beeső sugarakat párhuzamosan veri vissza. A matt felületek esetében e tükörszerű 86

101 4. FEJEZET Színlátás visszaverődés hiányzik, a fényes felületeknél viszont megvan. Másrészt, a diffúz visszaverődés hullámhosszszelektív, és meghatározza a tárgyak színét, a tükörszerű, párhuzamos visszaverődés a legtöbb fényes tárgy esetén minden hullámhosszat egyenlő mértékben ver vissza. (A fényvisszaverés e kettős természete a ábrán megfigyelhető. Ezt illusztrálják az ábrán lévő paradicsomok, melyeken, bár pirosak, a fehér fényforrás képe fehér.) ábra. A legtöbb de nem mindegyik színes felületen a fényforrás tükörképéből közvetlenül becsülhető a megvilágító fény színe A fényforrás képe alapján tehát közvetlen becslést lehet tenni a megvilágítás színére vonatkozóan. A színkonstans észlelés alapja tehát a felületi reflektancia valamiféle becslése, hiszen az a felületek állandó, a megvilágítás változásaitól független tulajdonsága. A reflektancia becsléséhez rendelkezésre áll az adott felületről a szemünkbe érkező fény spektrális összetétele és a megvilágító fény spektrális összetételéről való független becslés. Ezenkívül tudjuk, hogy minden egyes hullámhosszon a beeső fény intenzitásának (jelöljük ezt B-vel) és az adott felület reflektanciájának (R) szorzata adja a tárgyról a szemünkbe érkező fény spektrális összetételét (legyen ennek jele S). Azaz B x R = S; B-t és S-t ismerjük, tehát R-t ki tudjuk számítani. Ennek az összefüggésnek az alapján a látórendszer is képes lehet a tárgyak felületi reflektanciáját becsülni. A színkonstanciával kapcsolatos másik probléma az, hogy hogyan rekonstruálható, legalább közelítőleg, a felületek reflektanciája a mindössze három csaposztályból származó, igen korlátozott információ alapján. Ez csak akkor lehetséges, hogyha a látórendszer alacsony szintű, beépített (s a tudat számára nem hozzáférhető) hipotézisekkel rendelkezik arról, hogy a környezetben milyenfajta felületi reflektanciák, illetve megvilágító fények várhatók el. Maloney és Wandell elegáns matematikai modellt dolgoztak ki e probléma megoldására, amit itt most csak szavakban, röviden foglalunk össze. A látórendszer eme hipotézisei a környezetünkben található felületi reflektanciák egyfajta általános leírását tartalmazzák, például azt az információt, hogy a földi környezet reflektanciái folytonos, sima, a hullámhosszal lassan változó görbék (a 4.6. ábrán ez jól látható). Maloney és Wandell elmélete azt mutatja meg, hogyan lehet képes a látórendszer a beépített hipotézisek és a három csaposztály durva felbontású bemenete alapján a megvilágító fényeket, és azok alapján a felszíni reflektanciákat rekonstruálni. Ez azonban csak olyan környezetben lehetséges, amelyben a megvilágítás és a reflektanciák tényleg olyanok, mint ahogy azt a látórendszer implicit modellje leírja. Ha ez nem teljesül, akkor a rekonstrukció hibás lesz, és a színkonstancia leromlik vagy eltűnik. (Gondoljunk arra, hogy mondjuk egy kékeszöld lámpa fényénél milyen nehezen ismerünk föl színeket, vagy hogy este, nátriumgőzlámpák narancssárga fényénél milyen nehéz egy autót színe alapján felismerni a parkolóban.) A színkontraszt jelenségéről már közvetve szót ejtettünk a kontrasztszínek kapcsán. A kontrasztjelenségek leggyakoribb változata, a szimultán kontraszt lényege, hogy egy felület észlelt színe nemcsak az adott felület reflektanciájától függ, hanem az azt körülvevő, egyéb felületek színétől is. A szimultán kontraszthatások igen bonyolultak: függenek a célfelület és a háttér színeitől, az egyes színek téri elrendezésétől is, méghozzá meglehetősen összetett módon. A 4.19., és ábrákon látszik, hogy a színválasztás milyen erősen befolyásolja a kontraszthatást: a kis négyzetek az ábrák mindkét képén egy-forma fényvisszaverési tulajdonságúak, tehát azonos háttér előtt azonos színűnek látszanának. A klasszikus megfigyelés szerint a szürke négyzeteknek piros háttér előtt illene zöldesnek, élénkzöld háttér előtt ellenben kissé pirosasnak látszaniuk. A ábrán e hatás nem igazán meggyőző. Ha azonban pasztell- (telítetlen) színeket választunk megfelelő összeállításban, a hatás sokkal erősebb lesz (4.20. és ábra). A ábrán viszont az is látszik, hogy telítettebb színekkel is kaphatunk erős kontraszthatást, ha megfelelően választjuk meg őket. Indukciós színnek (azaz a háttér előtt bemutatott célfelületnek, melyen a kontraszthatás indukálódik) szerencsésebb választás egy színes felület, mint egy akromatikus szürke (bár néha akromatikus felületen is létrehozható színindukció). A 87

102 4. FEJEZET Színlátás színlátás kontraszthatásai nem valamiféle ritka, az illúziókkal egy csoportba tartozó jelenségek, hanem mindenütt jelen vannak a színészlelésben. Gondoljunk arra, hogy a kontrasztszíneket is e hatások hozzák létre. Az érdekes kontrasztábrák persze szokatlan kontrasztjelenségek, és néha csak a melléjük adott leírással együtt meglepőek. Például a ábra esetén, ha nem figyelmeztetnek egy naiv szemlélőt, hogy a két kis négyzet önmagában azonos fényvisszaverési tulajdonságú, akkor az illető erre talán nem is gondolna, hanem elkönyvelné, hogy a két kis négyzet nem azonos színű. S ez voltaképp igaz is, abban az értelemben, hogy, mint mondtuk, az egyes tárgyak észlelt színét saját reflektanciájuk (fénykibocsátásuk) és a környezetüké együtt határozza meg ábra. Klasszikus színkontrasztábra. A hatás nem kifejezetten erős ábra. Megfelelően választott színekkel sokkal erősebb kontraszthatás érhető el. A két kis négyzet azonos színű ábra. Egy másik erős kontraszthatás ábra. Erős kontraszthatás nem csak pasztellszínekkel érhető el A szimultán kontraszthatások magyarázatára többféle próbálkozás létezik (shepherd 1999, Lotto-Purves 2000). Akromatikus szürke felületeken megfigyelhető szürkekont- raszt-hatásokra léteznek olyan elméletek, melyek a világosságkonstancia és világosságkontraszt jelenségét egyszerre képesek magyarázni (Gilchrist et al. 1999). A színkontraszt- esetek közül egyeseket adaptációs hatásokkal, azaz a három csaposztály bemenetének egymáshoz képest változó súlyozásával is meg lehet magyarázni. Más jelenségekhez az ellenszínelmélet feltevéseire is szükség van, illetve vannak olyan elméletek is, melyek a színkonstanciáért felelős mechanizmusok 88

103 4. FEJEZET Színlátás melléktermékeként magyarázzák a kontraszthatásokat. szinte bizonyos, hogy a színlátás magasabb szintű, kérgi folyamatai komoly szerepet játszanak a kontraszthatások létrejöttében. A színlátás magasabb szintű folyamatainak bonyolultságát illusztrálják a színasszimilációs jelenségek is (4.23. ábra,.). Itt a kontraszttal ellentétes hatás tapasztalható: a vékony sárga csíkok a szélesebb szürke sávok sárgás megjelenését okozzák, míg kék csíkok kékes megjelenést. A másik két ábrán is az látható, hogy a szegélyező színes keretek saját színük irányába változtatják az indukciós felület színét (s nem az ellenszín irányába, mint a szimultán kontrasztnál) ábra. Színasszimiláció 5.3. táblázat - A SZÍNLÁTÁS MINT ESETTANULMÁNY A TUDATOS ELMENY KUTATÁSÁBAN A kognitív pszichológia, illetve a megismeréstudomány által máig intenzíven használt és sokat vitatott elméleti alapfeltevés az úgynevezett számítógép-metafora (más néven információfeldolgozó szemlélet), melynek lényege, hogy elménk egy reprezentációs mechanizmus, melyben a mentális reprezentációk adatstruktúrák, a kognitív folyamatok pedig ezen adatstruktúrákon végzett számítások, átalakítások (komputációk). E felfogással kapcsolatban már mintegy harminc éve felmerült a következő elméleti probléma. Az emberi tudat egyik alapvető sajátossága, hogy észlelésünket és valamennyi megismerő funkciónkat áthatják azok az érzékleti minőségek, élmények, melyek ezt az információfeldolgozást kísérik. A piros szín látása, egy zongoraakkord, egy zenedarab meghallgatása, az ananász íze a szánkban, az égett gumi orrunkat facsaró bűze vagy egy kemény, hideg és sima felület érintése mind olyan sajátos élmények, melyek az észlelést, a képzeletet, gondolkodásunkat kísérik, s éber állapotban mindig jelen is vannak. Egyes belső állapotaink tehát fenomenológiai karakterrel rendelkeznek, azaz ezen állapotok létrejönnek bennünk, valamilyenek a számunkra, vagyis, ha megjelennek agyunkban, egy bizonyos módon átéljük őket. (Ezzel ellentétben számos agyi állapot, mely szervezetünk működését vagy akár viselkedésünket is befolyásolja, nem jut el a tudatunkig.) E jelenség jobban ismert angol neve a qualia (ezt csúnya magyarítással helyenként kvália -ként emlegetik). A qualia kifejezés meglehetősen elméletterhelt (vagyis inkább azok használják, akik a tudat dualista felfogásában hisznek). A fenomenológiai karakter ilyen szempontból semlegesebb, s ezért a tudatfilozófiai viták kontextusán kívül ez utóbbit célszerű használni. Ugyanakkor intuícióink alapján nem tartjuk valószínűnek, hogy programokat futtató számítógépek, 89

104 4. FEJEZET Színlátás mesterséges információfeldolgozó rendszerek a mieinkhez hasonló élményeket élnének át. Ha pedig az emberi elme nem más, mint egy bonyolult információfeldolgozó rendszer, akkor hogyan élhet át élményeket? Esetleg az elme mégis több egy komputációs rendszernél? E kérdések az utóbbi huszonöt évben komoly elméleti vitákat váltottak ki. Ezek részleteit itt nem tudjuk teljességében bemutatni, röviden megemlíteni viszont azért érdemes, mert a színélményeknek és a színlátásnak a fejezetben bemutatott pszichológiai vonatkozásai az egyik legfontosabb hivatkozásként szolgálnak a tudatos élményről szóló elméleti vitában. E probléma érthetővé tételére az egyik klasszikus gondolatkísérletet érdemes felidézni. Tegyük föl, hogy valakivel beszélgetünk a színekről, és egyetértünk abban, hogy mit milyen színűnek hívunk, valamint abban is, hogy mit mitől lehet megkülönböztetni színük alapján. Ennek ellenére elvileg lehetséges, hogy ismerősünk olyan színűnek látja az eget, mint mi a tojássárgáját, és viszont (vagy épp az érett paradicsomot látja olyan színűnek, mint mi a pázsitot). Ez a kék-sárga, illetve zöld-piros spektruminverzió esete. Lehetséges-e ez? Esetleg vannak is ilyen esetek a valóságban? Ilyen esetek tényleges megléte a legtöbb szakértő számára valószínűtlennek tűnik, elsősorban azért, mert nem ismert olyan adat, amely biológiailag megalapozná ezt a feltevést. Egyes filozófusok szerint teljes biológiai azonosság mellett is lehetséges (egy bizonyos értelemben) fordított spektrum (pl. Chalmers 1996), ez azonban igencsak vitatott kérdés. Érdekesebb kérdés a következő: ha létezne is fordított spektrum, kiderülhetne-e ez a két ismerős számára beszélgetésükből, a fenti példában? Az elmefilozófiai vitákban ez fontos kérdésként merült föl tehát az, hogy a fordított spektrum lehet-e a viselkedés szintjén detektálhatatlan. Ha ugyanis igen, akkor abból arra lehetne következtetni, hogy az érzékleti minőség független a viselkedéstől, sót a kognitívfunkcionális szerveződéstől is; tehát az elme hagyományos fizikalista felfogása elleni érvként szolgálna (Byrne 2005). (A fizikalista felfogás lényege, hogy a mai fizika és a fizika világképével ösz- szeegyeztethető többi természettudomány kémia, biológia stb. fogalmai segítségével maradéktalanul megérthető, magyarázható az elmével és tudattal kapcsolatos valamennyi jelenség így az élmények is.) Úgy tűnik azonban, hogy a viselkedéses felismerhetetlenség tézise nehezen tartható sokkal inkább van okunk azt gondolni, hogy ha létezne is személyközi fordított spektrum, az nem lenne észrevehetetlen a viselkedés szintjén. Már tudjuk például, hogy a legtelítettebb sárga szín jóval világosabb, mint a legtelítettebb kék, mivel a H és K csapok együttes domináns aktivitása, ami a sárga látásához kell, sokkal nagyobb mértékben járul hozzá a világosság élményéhez, mint az R csapok domináns válasza (ami általában a kék szín látásának alapja). Ha tehát két ismerős, akiknek egymáshoz képest kék-sárga inverziójuk van, beszélget egymással, akkor mondjuk az egyikük kifejezheti meggyőződését, hogy Az érett citrom színe jellegzetesen telített és sötét, az érett szilváé pedig telített és világos. Beszélgetőpartnere azonban alighanem többségünkkel egyetértésben az érett citrom színét ítéli világosabbnak, s az érett szilváét sötétebbnek. S noha mindketten a citromot neveznék sárgának, a szilvát pedig kéknek, a részletekben való egyet nem értés legalábbis felvetheti a különbség gyanúját. E gondolatmenetet folytatva, a példabeli két ismerős azt már valamivel nehezebben tudja elmondani egymásnak, hogy pontosan milyennek is látják a kérdéses színeket. Olyan született színvakoknak pedig, akik egyáltalán nem látnak színeket, egyenesen lehetetlen elmagyarázni, hogy milyen a színeket látni. Knut Nordby színlátással foglalkozó norvég pszichológus, aki maga született csaphiányos színvak, a színek több évtizedes elméleti tanulmányozása után is határozottan állítja, fogalma sincs a színlátás élményéről (Nordby 1990). A színélmény, úgy tűnik, nyelvileg kifejezhetetlen. Hogy miért, azt a kognitív pszichológia szemszögéből is érthetővé lehet tenni. Részben talán azért van ez így, mert észleleteink számos, a diszkriminációs küszöbök közelébe eső apró különbsége nem jut el a feldolgozás bizonyos magasabb szintjeiig (elsősorban az észlelési kategorizációig s az emlékezeti rögzítésig). Ezért viszont, bár az észlelés során hatnak a tudatra, e hatásuk igen illékony, a nyelvi kódolásba már nem vihető át (Raffman 1988, 1995). Gondoljunk arra, hogy sokkal több színárnyalatot vagyunk képesek észlelni, mint emlékezetünkben megjegyezni. Ezért kell például színmintát vinnünk a festékboltba, ha javítófestéket szeretnénk venni szobánk falához vagy egy bútordarabhoz: a pontos árnyalatra nem tudunk emlékezni. A nyelvi kifejezhetetlenség egy másik oka az lehet, hogy az egyes színélmények mint reprezentációs állapotok primitívek, azaz nincs bennük olyan struktúra, amit a nyelvi kód leképezhetne s mások számára közvetíthetne (Jakab 2000). Mit is jelent ez? Az alakok vizuális reprezentációi, hasonlóan a nyelv agyi reprezentációjához, kompozicionálisak: bizonyos reprezentációs alapelemekből, kombinációs szabályok segítségével állnak elő (gondoljunk Irving Biederman geonelméletére: Sekuler-Blake 2000). A feltevés szerint e vizuális reprezentációs struktúrák átkódolhatóak a nyelvbe, és így ha nem is mindig könnyen a nyelvi leírás segítheti a tárgyak alakjának elképzelését, felismerését. Egy adott szín észlelési élménye azonban nem reprezentációs alapelemek kombinációja, tehát ebben az értelemben nem strukturált 90

105 4. FEJEZET Színlátás épp ellenkezőleg, egy színélmény maga egy reprezentációs szempontból tovább nem bontható primitív. Nincs tehát benne a nyelvbe átkódolható struktúra (vagy csak egészen minimális: például a narancssárga élménye valamiképp a piros és sárga élményének kombinációja), s ezért nem segítheti a nyelvi leírás a teljesen színvak személyeket a színek elképzelésében. Érdemes még azt is megemlíteni, hogy a már tárgyalt tetrakromát színlátás mellett a trikromát színlátásnak is vannak egyéni különbségei. Ezek egyik fő oka a csapok érzékenységi görbéinek genetikailag meghatározott kisebb-nagyobb különbségeiben rejlik. Az egyéni különbségek kísérleti helyzetben jól kimutathatók a tisztaszín-lokalizáció segítségével, tehát például az, hogy milyen hullámhosszon látja a személy azt a zöldet, amely se nem sárgás, se nem kékes, vagy azt a tiszta pirosat, mely se nem narancsos, se nem lilás. A tiszta zöld lokalizációja 490 és 520 nm között változik a normál színlátóknál ez a teljes spektrum terjedelmének mintegy 10 százaléka, tehát elég széles tartomány. A hétköznapi életben is adódnak időnként viták kifogástalan színlátással rendelkező személyek között arról, hogy például egy szövet vagy egy festett felület inkább kék, vagy inkább zöld. Ha tehát olyan nem is fordulhat elő, hogy egy személy színterének egyik dimenziója 180 fokkal elforgatott egy másik személyéhez képest (ez lenne a kék-sárga vagy a zöld-piros inverzió), a normál színlátás egyéni különbségei kisebb, néhány fokos dimenzióelforgatást eredményezhetnek a szubjektív színterek között. Összefoglalva: az érzékleti minőségek, s így a tudatos élmények neodualista elméletei (melyek szerint a mai fizika világképét alapvetően meg kell reformálni, és új fogalmakkal kell bővíteni ahhoz, hogy az érzékleti minőségek problémáját tudományos formában érthetővé tegyük: lásd chalmers 1996) jelentős eredményeket értek el a tudat problémájának tisztázásában. ugyanakkor az elme dualista elméleteit védők dolga azért is nehéz, mert az élményekkel kapcsolatos számos jelenség érthetővé tehető a kognitív pszichológia fogalmai így például reprezentáció és feldolgozás stb. segítségével. A tudatos élmény elmefilozófiai kérdései iránt érdeklődő olvasónak David Chalmers (1996) nevezetes könyve mellett Block, Flanagan és Güzeldere (1997) tanulmánykötetét, illetve a Metzinger (1997) szerkesztette kötetet ajánljuk ÖSSZEFOGLALÁS 1. Az emberi színlátás három, különböző hullámhossztartományra érzékeny receptortípus (a csapok) működésén alapul. A csapok érzékenységi görbéi a színlátás számos alapvetőjelenségét megmagyarázzák, így a homogenitás, a szuperpozíció, a színegyezés jelenségeit. A színegyezés legfontosabb elve, hogy azon felületeket látjuk megkülönböztethetetlen színűnek, melyek azonos mértékben hozzák működésbe a három csaptípust. A fizikai színkeverés és a színtévesztés jelenségeinek megértése is alapvetően a receptorok működésén alapul. 2. A színegyezésen és a hozzá kapcsolódó jelenségeken túlmutatnak azok az elméletek, melyek a receptorok működése alapján a színészleletek létrejöttét írják le. Az észlelt színek rendszerének elmélete az ellenszínelmélet, mely szerint a látható színek jól leírhatóak egy háromdimenziós tér az úgynevezett színhasonlósági tér segítségével. A három dimenzió közül kettő a tiszta ellenszíneknek (piros-zöld, illetve sárga-kék) felel meg, a harmadik pedig a világosságot jellemzi. E dimenziók a feldolgozás szintjén a receptorok válaszainak függvényei az egyszerűsített ellenszínelmélet szerint a receptorválaszok lineáris kombinációi. Az ellenszínelmélet számos, a színlátással kapcsolatos jelenséget magyarázni képes. Ez az elmélet eredetileg egy absztrakt matematikai modell, melynek azonban idegrendszeri megvalósulásáról is egyre több ismerettel rendelkezünk. 3. Az ellenszínelméleten is túlmutatnak a színlátás bizonyos jelenségei, elsősorban a színkonstancia és a kontraszthatások. A színkonstancia jelenségének ma már egyre kifinomultabb elméletei léteznek, melyek szerint ahhoz, hogy a változó megvilágítás ellenére is azonos színűnek lássuk a tárgyakat, egyrészt a megvilágító fény spektrá- lis összetételéről kell a látórendszernek egyfajta becslést szereznie, másrészt bizonyos beépített hipotézisekkel kell rendelkeznie a földi környezetben elvárható megvilágítási és felületi reflektanciatípusokról KULCSFOGALMAK 91

106 4. FEJEZET Színlátás ellenszínelmélet, felületi reflektancia, fizikai és pszichológiai színkeverés, háromszín-elmélet, keverék színek, metamerek, spektrális energiaeloszlás, színegyezés, színegyezési függvény, színhasonlósági tér, színkioltás, színkonstancia, színlátászavarok, tiszta színek, univariancia 4.3. ELLENŐRZŐ KÉRDÉSEK 1. Hogyan kellene működnie egy olyan receptornak a retinában, amelyből egyetlen fajta is elég lenne a színlátáshoz (hullámhossz-megkülönböztetéshez)? 2. a) Mely tényezőktől függ a színegyezési függvények alakja? b) A tetrakromát színlátás melyik típusánál fordulhat elő, hogy nem három, hanem négy színegyezési ábra. Edwin Land színkonstanciakísérleteihez hasz- függvény kell a személy színegye- nált Mondrian -ábra zési válaszainak jellemzéséhez? c) Befolyásolják-e a színtévesztést korrigáló szemüvegek a viselő személy színegyezési függvényeit? Miért? 1. Korrigálható-e szemüveggel azon személyek színtévesztése, akiknek retinájában csak kétféle csaptípus található? (Indokold a választ!) 2. Milyen érvek szólnak a tiszta színek, illetve a keverék színek elkülönítése mellett? Miért nem lenne ésszerű mondjuk a narancsszínt vagy a lilát tiszta színnek tekinteni? 3. Miért nevezzük a barnát kontrasztszínnek? Igaz-e a következő állítás: Fénykibocsátó felület sohasem tűnhet barna színűnek? 4. Milyen értelemben áll fenn a linearitás a színegyezés esetében, és hogyan sérül a pszichológiai színkeverésnél? 5. Azok a színkategorizációs vizsgálatok, melyekben keverék színek színösszetevőinek százalékos leírására kérték a személyeket, meglehetősen idegenek a hétköznapi szemlélettől és színosztályozástól. Mi igazolja mégis e módszer használatát a színlátás kutatásában? 6. Miben különbözik Land retinexelmélete a Maloney-Wandell-féle színkonstancia-elmé- lettől? (Rávezető kérdés: Miért képes az utóbbi elmélet helyesen jósolni egy csupa piros felületből álló látvány észlelését ti. hogy csupa piros felületet látunk benne -, szemben a retinexelmélettel, mely ebben az esetben helytelen jóslatot ad?) 4.4. AJÁNLOTT OLVASMÁNYOK Kardos Lajos Tárgy és árnyék. Akadémiai Kiadó, Budapest. sekuler, R. Blake, R Észlelés. osiris, Budapest AJÁNLOTT HONLAPOK (Color Curiosity Shop, Mark D. Fairchild remélhetőleg fejlődni fog.) (Dale Purves Laboratory.) (Szép kontrasztábrák.) (Munsell Color Science Laboratory.) (Journal of Vision.) (CVRL Color and Vision Database.) Nemzetközi Világítástechnikai Bizottság honlapja.) (Magyar Nemzeti Bizottság.) (A Veszprémi Egyetem Képfeldolgozás és Neuroszámítógépek Tanszéke, a magyar színtani kutatás egyik központja.) (Egy magyar lap a színlátáskorrekcióról.) (Kimberly Jameson színlátáskutató honlapja számos érdekes, letölthető cikkel.) 92

107 6. fejezet - 5. FEJEZET Tárgyak, formák és alakok észlelése 1. Alak- és tárgylátás Az 5.1. ábrát nézve senkinek nem okoz gondot, hogy felismerje az ábrázolt tárgyat. Any- nyira könnyű a tárgyak észlelése, felismerése, hogy elsőre nehéz megérteni, milyen komplex is ez a folyamat. Az 5.2. ábra megpróbálja ezt a nehézséget szemléltetni. Képzeljük el, hogy egy olyan intelligens robotot szeretnénk alkotni, amely képes a képen látható székek felismerésére, és el tudja dönteni, hogy azok közül melyikre lehet leülni. Vegyünk egyelőre csak egy példát a képről: hogyan tudja robotunk eldönteni például azt, hogy az íróasztalon lévő modellre vagy a másik szobában, távol látható székre le lehet-e ülni? Számunkra a kérdés nevetségesen könnyű, de csak addig, amíg észrevesszük, hogy a két tárgy képe valójában teljesen azonos! Mi alapján döntsön tehát robotunk? 5.1. ábra. Egy komplex tárgy, melynek felismerése nem okoz gondot senkinek 5.2. ábra. Egy bonyolult szobabelső, mely demonstrálja azokat a problémákat, amelyeket egy tárgyfelismerő rendszernek meg kell oldania (Wallis Bülthoff 1999 ábrája nyomán). Az adott tárgykategóriát felismerjük helyzetétől, megvilágításától, színétől, méretétől, illetve távolságától, nézőpontjától függetlenül, részlegesen kitakarva, részekre bontva, valamint a kategória eltérő elemeit szemlélve is Három fontos csoportja van azoknak az érveknek, melyek azt mutatják meg, miért is nehéz probléma a tárgyvagy alakészlelés. 1. Egy adott tárgyat csak nagyon ritkán látunk azonos feltételek mellett, vagyis a tárgy retinára vetülő képe sokszor változik, mivel más szögből, irányból, távolságból, méretben, színben, illetve fényviszonyok mellett látjuk. Az 5.2. ábra bemutat néhányat mindazokból a képtranszformációkból, melyektől függetlenül fel tudjuk ismerni az adott tárgyat. Azt mondjuk tehát, hogy tárgyészlelésünk pozíció-, méret-, távolság- vagy színinvariáns, vagyis független a fenti tulajdonságoktól. 2. Egy adott tárgy kategóriájának egyes tagjait kisebb eltéréseik ellenére is fel tudjuk elismerni, és ugyanúgy kezeljük őket. Az 5.2. ábra közepén, az előtérben álló két szék, bár eltérő formájú, hasonló célokat szolgál, így azonos kategóriába soroljuk őket (generalizá- ció). Ez persze nem jelenti azt, hogy ne tudnánk a 93

108 5. FEJEZET Tárgyak, formák és alakok észlelése különbségeket is észrevenni egy adott kategória egyes tagjai között (szelektivitás). Tárgyfelismerésünk ezen két folyamat, a ge- neralizáció és a szelektivitás nyereség-veszteség vagy vám-rév hatásán múlik. 1. A tárgyakat egyszerre több specificitási szinten is fel tudjuk ismerni. Az 5.2. ábra tárgyaira összefoglalólag azt tudjuk mondani, hogy bútorok, székek vagy guruló iroda-székek. Hogy melyik felismerési (kategorizációs) szintet használjuk, az mindig a feladatunktól függ. Mint látni fogjuk, ezeket a problémákat a tárgylátás egyes modelljei eltérő módon kezelik. Fejezetünkben azokat a folyamatokat foglaljuk össze, melyek az alakok, formák, a két- illetve háromdimenziós tárgyak észlelését teszik lehetővé A tárgy-alakzat és a háttér elkülönítése: perceptuális szegregáció A minket körülvevő tárgyak, a környező világ legtöbb dolga jól megkülönböztethető alakú és formájú. Bár nem biztos, hogy mindenki tudatában van ennek, a tárgyakat körvonalaik alapján észleljük. (Az angolban használatos edge szó megfelelői perem, él helyett fejezetünkben a kifejezőbb kontúr, illetve körvonal kifejezéseket használjuk.) Például szobánk ablakán kitekintve az ablak körvonalai zárt négyszögalakot írnak le, míg a kint látható fák szabálytalan körvonalai jól láthatóak az égbolt háttere előtt. Amit látunk, azok mégsem a körvonalak, hanem az általuk határolt ablakok, fák, vagyis a tárgyak. A tárgylátás egyik alapvető lépése (sokak szerint előfeltétele), hogy az adott tárgyat annak hátterétől, valamint az együtt megjelenő tárgyakat egymástól elkülönítsük. Ezt afolyamatot nevezzük perceptuális szegregációnak, illetve alakzat-háttér szegmentációnak. A kifejezések egyben arra is utalnak, hogy egy tárgy látása során a tárgy alakja az, ami elkülönül, azaz szegregálódik a hátteret alkotó mintázattól. Vegyük példának az 5.3. ábrát, melyet Edgar Rubin dán pszichológus 1915-ben mutatott be, és nézzük meg, mi a szerepe ebben a folyamatban a körvonalaknak? Az ábra (mely úgynevezett kétértelmű ábra) jól demonstrálja az alakzat-háttér szegregáció fontosabb tulajdonságait. Ezek a következők: Az alakzat a háttér előtt van. A háttér olyan alaktalan anyag, amely az alakzat mögött is folytatódik. A körvonal (kontúr), ami az alakzatot és a hátteret elkülöníti, az alakzathoz tartozik. Az alakzat könnyebben megjegyezhető, és jobban hasonlít egy adott tárgyra, mint a háttér ábra. Az úgynevezett Rubin-váza. Mi van a képen: két arcprofil vagy egy váza? Nézzük, hogyan érvényesülnek ezek az elvek az 5.3. ábrán. Próbáljuk úgy látni az ábrát, hogy a fekete felszín az alakzat. Ilyenkor két arcprofilt látunk, melyek mögött a fehér, differenciálatlan hátteret nem lehet mint vázát érzékelni, mivel az ábra kontúrjai ebben az esetben az arcokhoz tartoznak. Próbáljuk most a fekete felszínt mint hátteret elképzelni, és vegyük számba az alakzat-háttér szegregáció fenti tulajdonságait. Van néhány további fontos tulajdonsága is a képnek, mely meghatározza azt, hogy mit látunk háttérnek, és mit tárgynak: ezek a méret, a szimmetria, az orientáció és az ismertség. A kontúrokkal határolt kisebb területeket inkább mint alakzatokat érzékeljük, a szimmetrikus területeket úgyszintén. Ha egy terület fő tengelyiránya függőleges vagy vízsz- szintes, akkor megint csak inkább mint alakzatot érzékeljük. Végül a könnyebben értelmezhető és/vagy már ismert kontúrú területeket úgyszintén inkább mint alakzatokat ismerjük fel. 94

109 5. FEJEZET Tárgyak, formák és alakok észlelése Nézzük meg, hol és hogyan történik a perceptuális szegregáció. A hatvanas években kezdődött elektrofiziológiai kísérletek paradigmaváltást hoztak a látáskutatásban. Évtizedekig tartó kísérletsorozatokban mára a kutatók leírták az emlősök látórendszerét alkotó egyes kérgi területeket és azok tulajdonságait. Az egyik első és legtöbbet vizsgált agykérgi terület a nyakszirti lebenyen elhelyezkedő primer (elsődleges) látókéreg (Broadman 17-es terület, V1) volt. Ennek neuronjairól kiderült, hogy eltérő méretű és irányú vizuális ingerekre a legérzékenyebbek. Campbell és munkatársai (Campbell-Robson 1968, Bla- kemore-campbell 1969) voltak az elsők, akik felvetették, hogy ezek a neuronok fontos szerepet játszhatnak a körvonalak detekciójában és a perceptuális szegregációban. Elméletük szerint a látórendszer olyan neuroncsoportokból áll, melyek legjobban egy adott téri frekvenciasávra érzékenyek, vagyis téri frekvenciaszűrőkként működnek. Amint már a látás alapfolyamatairól szóló fejezetben szó volt róla, a kisebb receptív mezejű neuronok a magasabb, míg a nagyobb receptív mezejű neuronok az alacsonyabb téri frekvenciákra reagálnak a legjobban, így mintegy többszörös, egymástól relatíve független téri frekvenciacsatornákat hoznak létre, és a látott kép Fourier-analízisét végzik el. A magasabb térbeli frekvenciákra érzékeny neuronok a finomabb részletek, az alacsonyabb térbeli frekvenciákra érzékeny neuronok a durvább mintázatok felismerésében játszanak inkább szerepet. Az elmélet legfontosabb bizonyítéka a szelektív adaptációs technikával végzett kísérletekből ered. Blakemore és Campbell (1969) több percen át mutattak a kísérleti személyeknek egy adott (7,5 ciklus/fok) térbeli frekvenciájú rácsmintázatot (adaptáció), miután azt találták, hogy az alanyok érzékenysége erre a mintázatra lecsökkent. Az érzékenységcsökkenés szelektív volt az adott térbeli frekvenciára, ami arra utalt, hogy az egyes térbeli frekvenciákra hangolt neuronok egymástól független csatornákon dolgozzák fel a látott információt táblázat - AZ EML Ő SAGY VIZUÁLIS RENDSZERE Az emlősök agykérgi vizuális rendszere a nyakszirti lebenyen elhelyezkedő elsődleges vagy primer vizuális kéregből (Broadman 17, V1) indul ki (lásd az ábrát). A V1-et rigid struktúra, szigorú retinotópia jellemzi. Neuronjainak receptív mezeje kicsi (0,5-1,5 fok), jellemző rájuk, hogy leginkább adott irányú álló vagy mozgó fénycsíkra érzékenyek. Az egyes irányokra érzékeny neuronok csoportokba rendeződve orientációs oszlopokat alkotnak. Ezek között az oszlopok között találhatók azok a fény hullámhosszára érzékeny neuronok, amelyek kortikális (kérgi) dugókat alkotnak. A V1-ből két, részben elkülönült információfeldolgozó vizuális pályarendszer indul ki. A parie- tális (fali lebeny felé haladó) vagy más néven dorzális (az agyféltekék felső, dorzális részén haladó), illetve funkcionálisan Hol? vagy Hogyan? rendszernek nevezett pálya inkább a tárgyak mozgásáért, háromdimenziós tulajdonságaiért, a velük való manipulációért felelős (DeYoe van Essen 1988, Mishkin et al. 1983). A temporális (halántéklebeny felé tartó), ventrális (az agyféltekék alulsó, hasi oldalán haladó), Mi? látórendszer pedig inkább a szín- és a tárgylátásért felelős. A V1-et a másodlagos látókéreg (V2, Broadman 18) veszi körül. A V2 neuronjainak receptív mezeje némileg nagyobb (< 4 fok), egyszerű geometriai ábrák, mozgó felszínek ingerlik a leginkább. A V3, majd a V5 (MT mediális temporális terület) a parietális rendszer tagjai, neuron- jaikat mintázatok mozgása ingerli a legjobban, receptív mezejük igen nagy. A tárgyfelismerésben fontos ventrális rendszer következő tagja a V4, mely a szín-, a forma- és a mintázatérzékelésben játszik szerepet. Neuronjainak receptív mezeje néhánytól néhány tíz fokig terjedő méretű, jellemző ingerei színes felszínek, textúrák, geometriai ábrák. A ventrális rendszer utolsó, tisztán vizuális állomása az inferior temporális kéreg (IT); neuronjainak receptív mezeje sokszor igen nagy méretű (akár 70 fok) is lehet. Jellemző ingerei bonyolult háromdimenziós ábrák, tárgyak, emberi vagy állati arcok képe. A főemlősök vizuális rendszerének vázlatos ábrázolása és a tárgylátásban fontos ventrális rendszer jellemző ingerei. Az egyes területek megközelítő helyét az emberi agy jobb féltekéjén jelöltük (V1, V2, V4, V5 elsődleges, másodlagos, negyedleges, illetve ötödleges vizuális látókéreg; MT mediális temporális kéreg; IT inferior temporális kéreg) A közelmúltban az is kiderült, hogy a Vl-neuronok nem egyszerű szűrőként működnek. Lamme (1995) rhesusmajmokkal végzett kísérleteiben kimutatta, hogy ugyanarra a texturált felszínre a neuronok válasza nagyobb volt, ha azt alakzatként látták, mint ha háttérként, vagyis a V1 valószínűleg fontos szerepet játszik a körvonalak detek- ciójában és az alakzatok hátterüktől való elkülönítésében is. 95

110 5. FEJEZET Tárgyak, formák és alakok észlelése 1.2. Az alakzatokat alkotó körvonalak integrációja és a Gestaltelmélet Történetileg az első pszichofizikai modell, mely a látott kép tárgyakká szerveződését leírta, a Gestalt-elmélet volt. (A Gestalt németül egészet jelent.) A koncepciót először ben Wilhelm Wundt írta le, de csak később, a századforduló után, Max Wertheimer, Kurt Koffka és Wolfgang Köhler munkáinak köszönhetően ( között) formálódott ki teljesen. A Gestalt-megközelítés azt hangsúlyozza, hogy a tárgy (az egész ) több, mint a részek összessége (a tárgyakat alkotó elkülönült körvonaldarabkák összege). A Gestalt-pszi- chológusok három fő területre koncentrálták munkájukat, ezek az alakzat és a háttér összefüggései, a csoportosítás szabályai, az alakzatok jósága vagy pregnanciája. A Gestalt-elméletek ma is érvényes módon írják le azokat a fő szabályokat, amelyek alapján a háttértől már elkülönült körvonaldarabok egységes alakzatokká, tárgyakká szerveződnek. Nézzük az alakká, tárggyá formálódás legfontosabb Gestalt-törvényeit! 1. Egyszerűség: minden mintázatot úgy látunk, hogy a lehető legegyszerűbb struktúra szolgál domináns értelmezésként (domináns interpretáció). Az ismert olimpiai ötkarikát például tehát valóban mint öt kört észleljük, és nem mint kilenc bonyolult alakzatot (5.4. a ábra). 2. Hasonlóság: az egymáshoz hasonló dolgokat egymással csoportosítva mint egységet észleljük. Ezért látjuk az egymástól egyenlő távolságra lévő köröket és kereszteket mint sorokat, és nem mint oszlopokat (5.4. b ábra). 3. Jófolytatás (pregnancia): azokat a körvonalszegmenseket csoportosítjuk körvonalegésszé, melyek görbülete a legkevesebbet változik, más szavakkal: az egyenes vagy a folyamatos görbület mentén elhelyezkedő pontok tartoznak össze. Ezért látunk egy kört és egy X-et az 5.4. c) ábrán. 4. Közelség: az egymáshoz közelebbi tárgyakat csoportosítjuk (5.4. d ábra). 5. Közös sors: az együtt (egy irányban, azonos sebességgel) mozgó tárgyakat egységnek látjuk. 6. Ismertség: a dolgok könnyebben alkotnak csoportokat, ha a kialakuló egész ismert, és könnyen értelmezhető ábra. A Gestalt-törvényekbõl néhány: a) egyszerûség, b) hasonlóság, c) jó folytatás, d) közelség Hogyan alakulnak ki ezek a szabályok? Valószínűleg tanulás és tapasztalat útján: az egyedfejlődés alatt a környezettel való interakció során észlelt szabályszerűségek alakítják őket. A szabályszerűségeket azonban a vizuális feldolgozórendszer működési sajátosságai határozzák meg. Ezekre később visszatérünk Hogyan játszanak szerepet a Gestalt-törvények a körvonalak integrációjában? A Gestalt-pszichológusok feltételezték, hogy bizonyos törvények, mint amilyen például a jó folytatás, már a perceptuális szerveződés korai szakaszaiban is működnek. David Hubel és Thorsten Wiesel (1968) tanulmánya óta tudjuk, hogy a V1 neuronjai erős szelektivitást mutatnak a bemutatott vizuális inger (vonaldarab) irányára (erről bővebben már szó volt a látás alapvető folyamatait ismertető 3. fejezetben). Így például az 5.4. c) ábrán 96

111 5. FEJEZET Tárgyak, formák és alakok észlelése látható körvonal egyes darabkáira más-más Vl-neuronok reagálnak a legjobban. Ez a tulajdonság további bizonyíték arra, hogy a V1 szerepet játszik a körvonal-szegregációban. Ugyanakkor, mivel a Vl-neuronok többségének receptívmező-mérete kicsi, csak egy (maximum néhány) vonaldarab kerül egyszerre receptív mezejükbe. Hogyan integrálódik egésszé a sok izolált vonaldarabka? A magyarázat abban rejlik, hogy az egyes vonaldarabkákat kódoló Vl-neuronok válaszát befolyásolják a mellettük lévő neuronok, illetve a klasszikus receptív mezejükön kívüli, úgynevezett kontextuális ingerek is. Egyrészt tudjuk, hogy a darabokból álló kontúrok detekciója jobb, ha az ingerek azonos tengelyre esnek, illetve ha zárt alakzatot alkotnak (Kovács- Julesz 1993). Másrészt közvetlen bizonyíték is van arra, hogy a neuronok válasza nagyobb egy adott irányú vonaldarabra, ha azzal ko-lineárisan, vagyis vele megegyező irányban, a receptív mezőn kívül egy másik vonaldarabka is elhelyezkedik (Hess et al. 2003). (A téma részletes összefoglalását lásd Kovács 1996.) 5.5. ábra. Illuzórikus vagy szubjektív kontúrok alapján kialakuló alakzat, a Kanizsa-háromszög Illuzórikus kontúrok Eddig olyan körvonalakról, kontúrokról beszéltünk, melyek úgy alakulnak ki, hogy az alakzat és környezete valamilyen fizikai paraméterében különbözik. Egy tárgyat, vagyis annak kontúrját definiálhatja az, hogy világosabb vagy sötétebb a hátterénél (fényességkontraszt), más színű (színkontraszt), más mintázatú (mintázatkontraszt), más háromdimenziós síkban helyezkedik el (diszparitás), vagy hogy alkotó pontjai más irányban mozognak, mint a háttér elemei (relatívmozgás-kontraszt). Ezekben az esetekben valódi kontúrok kialakulásáról beszélünk. Az 5.5. ábrán látható háromszöget (melyet leírójáról, a Gestalt-pszichológus Gaetano Kanizsáról Kanizsa-háromszögnek nevezünk) olyan kontúrok alkotják, melyek esetében nincs ilyen fizikai paraméterkülönbség a háromszög és annak háttere között. Mégis az élmény igen élénk, legtöbbünk éles határokkal elkülönülő háromszöget lát három fekete kör felett (nem pedig három, részben már megkezdett pizzaszeletet). Az élménynek több alkotója van: 1. a háromszöget alkotó vonalak egységes felületté integrálódnak, mely felület 2. fényesebb a hátterénél, és 3. az azt generáló három fekete felszín előtt helyezkedik el, melyeket 4. teljes körré egészítünk ki gondolatban. Számos pszichofizikai mérés mutatja azt is, hogy a valódi kontrasztok mentén kialakuló kontúrok és ehhez hasonlóan az feldolgozás kezdeti lépéseitől fogva hasonlóképpen viselkednek, és interakcióba lépnek egymással. Ennek megfelően kimutatták, hogy a V1 és a V2 neuronjai is hasonlóképpen reagálnak illuzórikus és valódi kontúrokra. Ester Peterhans és Rüdiger von der Heydt nagy hatású kísérleteikben (Peterhans von der Heydt 1989) majmok V2-neuronjainak aktivitását regisztrálták mozgó, luminanciakontrasztú fénycsíkra és azonos irányú illuzórikus kontúrra, és azt találták, hogy a neuronok az utóbbira is reagáltak, bár ekkor receptív mezejükben nem volt semmilyen fizikai inger. Lee és Nguyen (2001) hasonló eredményekről számolt be a V1 neuronjait illetően is (bár az illuzórikus ingerekre kapott neuronális válaszok latenciája lényegesen hosszabb volt, mint a valódi kontúroké). Az illuzórikus kontúrok esetében szembeötlik ismét mindaz, amit a Gestalt-elméleteknél már leírtunk: sokszor a kép elrendezéséből eredő legegyszerűbb interpretáció (egy háromszög három kör előtt) csak a kép egészében létezik, de annak részleteiben nem. Ezt az egyszerű és egyértelmű leírásra való törekvést nevezzük perceptuális szerveződésnek. A következőkben a tárgyak ezen szerveződésének jelenlegi modelljeit vizsgáljuk meg A tárgylátás modelljei 97

112 5. FEJEZET Tárgyak, formák és alakok észlelése A tárgyfelismerés számos modellje közül a továbbiakban két olyan alapvetően eltérő megközelítéssel foglalkozunk, amelyek a jelenkor kognitív tudományában a legnagyobb súly- lyal szerepelnek. Ez a két megközelítés a történetileg korábban keletkezett strukturális felismerés, illetve a későbbi képalapú felismerési modellek csoportja Strukturális felismerési modellek A strukturális modellek között Marr komputációs megközelítését és Biederman komponensalapú felismerés modelljét tárgyaljuk. David Marr és kollégái a bostoni MIT-en (Massachusetts Institute of Technology) alkották meg az első olyan tárgyfelismerési modellt, mely komplex módon képes válaszolni a tárgylátás problémáira (Marr-Nishihara 1978), és amely a kognitív pszichológusok körében máig népszerű. Megközelítésükben a következő kérdéseket próbálták megválaszolni: Mit kellene egy számítógépprogramnak tennie ahhoz, hogy egy képen a tárgyakat pontosan regisztrálják? Milyen program lenne erre képes? A tárgyészlelés folyamatát három fő szinten tárgyalták: 1. a komputációs elmélet, 2. a reprezentáció és a végrehajtó algoritmus, valamint 3. a szükséges hardver. Az elmélet a retinára vetülő képpel kezdődik (5.6. ábra). Az algoritmus ezután a képben lévő sötét és világos részeket analizálja. Ennek eredménye egy durva első vázlat, amelyen a képen található vonalak, körvonalak és olyan zárt alakzatok, mint egy kör, ellipszis, is megtalálhatóak már. Ebből a vázlatból azután a Gestaltszabályok alapján egy a már általunk látott képhez is hasonló, úgynevezett két és fél dimenziós (2,5 D) vázlat keletkezik. A végső lépésben ez a vázlat alakul tovább háromdimenziós (3-D) képpé.a Marr-modell erőssége, hogy könnyen létre tud hozni egy nézőpontfüggetlen tárgyreprezentációt, ugyanakkor nem világos, hogy hogyan is jön pontosan létre ez a háromdimenziós reprezentáció: sem az elméletben nincs világosan kifejtve, sem kísérleti adatok nem támasztják alá a részleteit ábra. David Marr komputációs alakfelismerés-elméletének vázlata A Los Angeles-i Irving Biederman (University of South California) által megalkotott komponensalapú felismerés modell vagy RBC-elmélet (Recognition by components) nagyon hasonló az előzőekben vázolthoz, ugyanakkor lényegesen tovább is fejleszti azt (Biederman 1987). Biederman szerint a tárgyakat határoló körvonalaik konkáv területein részekre bontjuk, és ezek a részek mint háromdimenziós elemek (henger, kocka, gömb, piramis stb ábra) tárolódnak el memóriánkban. Ezek az elemek az úgyneve- zettt geometrikus ikonok, rövidített elnevezésük a geon. A geonok elkülönítése olyan, nem véletlenszerű tulajdonságokon alapul, amelyek pusztán véletlenül nem vagy csak nagyon ritkán fordulnak elő (ilyen tulajdonság például az, hogy egy görbe vonal csak speciális nézőpontból látszik egyenesnek, vagy hogy az egymás felé konvergáló vonalak nem látszanak párhuzamosnak). Ennek köszönhetően az egyes geonok nézőponttól függetlenül felismerhetők és megkülönböztethetők egymástól. Mivel az egyes geonok nézőpontfüggetlen módon felismerhetőek, magának a létrehozott tárgynak a felismerése is nézőpontfüggetlen lesz. Ez azt jelenti, hogy egy adott tárgynak egy vagy csak néhány nézőpontját kell a memóriánkban eltárolni. Az RBC-elmélet szerint a világ körülbelül harmincféle ilyen geonból legójátékszerűen felépíthető, ha a tárgyat alkotó geonok közötti térbeli viszonyokat meghatározzuk (a gomba törzsét alkotó henger tetején van a kalapot reprezentáló kúp). 98

113 5. FEJEZET Tárgyak, formák és alakok észlelése 5.7. ábra. Irving Biederman strukturális alakfelismerés elméletének néhány eleme, geonja Az RBC-elmélet egyik legnagyobb előnye, hogy korlátozott számú elem felhasználásával képes a tárgyak nézőpontfüggetlen leírására. Ugyanakkor az elmélet nem tér ki arra, hogy számos esetben nemcsak a határoló körvonalak, hanem a tárgyak felülete is fontos a tárgyfelismerésben (gondoljunk például arra, hogy sokkal nehezebb egy piros, mint egy sárga banán felismerése). Többek között azt is nehéz az RBC-elmélet segítségével magyarázni, hogy miként történik az azonos geonokból felépülő, de egymástól részleteikben nyilvánvalóan különböző tárgyak megkülönböztetése, kategorizációja (például számos szék azonos számú és elrendezésű geonból áll, mégis megkülönböztethetőek egymástól). Vita folyik arról is, valójában mennyire nézőpontinvariáns a tárgyak felismerése, és úgy tűnik, hogy ezeket az ellentmondásokat próbálják megoldani a képalapú elméletek Képalapú modellek A strukturális felismerési elméletek legelterjedtebb alternatívája a képalapú reprezentáció. A képalapú reprezentációk közös jellemzője, hogy a feldolgozás során úgy őrződnek meg a tárgyak tulajdonságai (alakjuk, színük, textúrájuk egyaránt), ahogy azok a látott képen megjelentek. Az ilyen elméletek (Bülthoff-Edelmann 1992, Tarr-Bülthoff 1995) szerint a tárgyaknak nem egy háromdimenziós reprezentációja létezik, hanem számos kétdimenziós reprezentáció írja le az adott tárgyat, mégpedig számos eltérő nézőpontból. Éppen ezért az ilyen elméleteket nézőpontfüggő elméleteknek szokás nevezni. A kísérleti adatokból valóban úgy tűnik, hogy a tárgyfelismerés számos esetben függ a tárgy nézőpontjától: ismeretlen tárgyakat előzőleg már látott nézőpontból gyorsabban és kevesebb hibával ismerünk fel, mint az addig nem látott nézőpontokból. A képalapú elméletek szerint, ha ismert nézőpontokból látjuk a tárgyat, azt már annak létező kétdimenziós reprezentációjához illesztjük. Egy előzőleg nem ismert nézőpontból látva valamit, azt először a már ismert nézőpontokhoz kell hasonlítani. Mindez időigényes folyamat, és megnövekedett válaszidőhöz (-latenciához), illetve hibázáshoz vezet. További előnye a képalapú reprezentációknak, hogy (ellentétben a strukturális elméletekkel) könnyen magyarázzák az egyes kategóriákon belüli diszkriminációt is: nemcsak a tárgyak eltérő nézetei, hanem azok eltérő vonásai is külön reprezentálódnak. A képalapú elméletek a tárgyészlelés magyarázatában előnyös tulajdonságaik mellett súlyos problémákat is felvetnek. Először, egy adott tárgyról több reprezentációval kell rendelkeznünk, és mindez a dolgok elvileg végtelen számát tekintve, könnyen úgynevezett kombinatorikus robbanáshoz vezethet. Másodszor, nehéz magyarázni azt, hogy egy tárgy különböző nézeteiről honnan tudjuk, hogy ugyanahhoz a tárgyhoz tartoznak, és nem más, hasonló tárgyakhoz. Harmadszor, a képalapú elméletek nem mondanak semmit a tárgyakat alkotó részek egymáshoz való viszonyáról sem. Jelenleg úgy tűnik, hogy a strukturális és a képalapú megközelítés elemei egyszerre érvényesek az emberi tárgyfelismerés folyamataiban, és egy teljességre törekvő elméletnek mindkét elméletből egyszerre kell merítenie Látni tanulni: tanulás az alak- és tárgyészlelésben Bármennyire furcsán hangzik is, mint minden mást, a látást is meg kell tanulni. Fokozottan igaz ez a tárgylátásra. Nem minden tárgy látható egyformán jól, és egy adott tárgy láthatóságát, felismerhetőségét és értelmezését is befolyásolja számos környezeti tényező (a megvilágítás, a távolság, a környezet stb.). A ragadozó és a prédaállat számára egyaránt fontos például, hogy a másik ne vegye könnyen észre (5.8. ábra). Gyakorlással ugyanakkor a megfigyelő fejleszti azon képességét, mely lehetővé teszi számára a látott világ dolgainak felismerését, olyan vonások detektálását, melyeket a gyakorlás előtt nem vett észre. Példának gondoljunk az erdei nyomkeresőkre vagy a radiológus orvosokra, akik a hétköznapi embernél sokkalta jobban értenek a nyomolvasáshoz, illetve a daganatos elváltozások detektálásához. Számos kísérleti helyzetben tanulmányozták már a fenti tanulási folyamatokat. Mi ezek közül most csak a fejezet anyagához legszorosabban kapcsolódó két példát említünk. Az egyik esetben az alak-háttér elkülönítés nehézsége okozza a problémát, a másik esetben pedig egyszerre több, egymásnak ellentmondó lehetséges értelmezése létezik ugyanazon képnek. 99

114 5. FEJEZET Tárgyak, formák és alakok észlelése 5.8. ábra. Nehezen felismerhető és kétérelmű ábrák. a) Ha a háttér és a tárgy színében, mintázatában is hasonló, akkor nehéz észrevenni. Ezt használja ki számos állat rejtőszíne és mintázata. b) c) Mi van a képen? Fordítsuk el 180 fokkal a könyvet, hogy könnyebb legyen megfejteni őket. További segítséget a szöveg tartalmaz. d) h) Példák kétértelmű képekre. d) Freud anyósa és felesége. Látjuk az idôs hölgy arcát és a fiatal nő elfordított profilját is? e) A Necker-kocka. Milyen irányba dől a kocka? f) Ragadozó madár vagy egy liba? Melyik irányba repül? g) Nyúl vagy kacsa? h) A Mach-könyv. A szöveges rész vagy a borító néz felénk? A környezeti elemek hatása a tárgy felismerésére Mint láttuk, minden tárgy felismerésének alapfeltétele, hogy hátterétől el tudjuk különíteni (perceptuális szegregáció). A szegregáció alapjául szolgálhat az, hogy a tárgy hátterénél világosabb vagy sötétebb (pl ábra). Egyértelmű, hogy a tárgy-háttér szegregációjánál a két felület találkozásánál kialakuló világosság- vagy luminanciakontraszt az, ami lehetővé teszi a perceptuális szegregációt. Kontraszt kialakulhat azonban két azonos fényességű, de eltérő színű, mintázatú, mozgású vagy egy másik, a harmadik dimenzió síkjában elhelyezkedő felület között is. Azt a fizikai paramétert, amely a látható kontrasztot létrehozza, vizuális kulcsnak (visual cue) nevezzük. A vizuális kulcs az általánosságban észlelési kulcsnak nevezett paraméterek egyike. (Mint később látni fogjuk, a hallási tárgyak észlelésekor is működnek észlelési kulcsok.) Bizonyos körülmények között, amikor a tárgyat meghatározó kontraszt alacsony, az nem válik el élesen a hátterétől. Ilyenkor a tárgy perceptuális szegregációja, vagyis az alakzat háttértől való elkülönítése és ezáltal a tárgy detektálása nehéz. Az 5.8. a) ábra egy ilyen helyzetet mutat be, amikor is az ábrán látható gepárd környezetéhez alkalmazkodó rejtőszínt és mintázatot (kamuflázs) vesz fel. Azt a mozdulatlan tárgyat (állatot), melynek színe megegyezik a háttér színével, és felületének mintázata is ahhoz hasonló, igen nehéz észrevenni. Hosszú, sokszor hetekig, nemritkán hónapokig tartó, rendszeres gyakorlással azonban az ilyen tárgyak detektálása is javítható. Ilyenkor perceptuális tanulásról beszélünk, melynek részleteiről a későbbi kötetekben lesz majd szó. A nehezen felismerhető tárgyak két érdekes példája látható az 5.8. b) és az 5.8. c) ábrán. Mit látunk a képeken? Ha még nem találkoztunk velük, akkor csak fekete és fehér foltok értelmetlen összevisszaságát látjuk. (Segítségként fordítsuk el 180 fokkal a könyvet, és próbáljuk most megfejteni a képeket. További segítségként az 5.8. b ábrán egy kutya, míg az 5.8. c ábrán egy emberi arc képe látható.) Az ilyen, csak teljesen fekete és teljesen fehér árnyalatokból álló képeket úgy hozzák létre, hogy igen erős megvilágítás mellett megnövelik a kép kontrasztját, ami a fényes részeket beégeti, míg a sötét területeket részletek nélkül, feketén hagyja. (Arcok esetében leírójukról Mooney-arcoknak nevezik ezeket a képeket.) Mivel ilyenkor a háttér elemei is véletlenszerűen lesznek fehérek, illetve feketék, azok megzavarják a tárgyak kialakulását lehetővé tévő Gestaltszabályokat (elsősorban a zártság, a közelség, a jó folytatás szabályait), és a képet érthetetlenné teszik. A zavar abban rejlik, hogy ezeken a Mooney-képeken a tárgy nem alkot zárt egészet, és egyes darabjai hasonlóbbak és közelebb vannak a háttér elemeihez, valamint görbületük is jobban egybeesik a háttér elemeinek görbületével, mint a tárgy más részeiével. Ellentétben az előző pontban leírtakkal, az ilyen képek esetében a tanulás hirtelen, gyorsan zajlik le, és nagyon sokáig fennmarad. Az egyik percben még értelmetlen képből egyszer csak 100

115 5. FEJEZET Tárgyak, formák és alakok észlelése kiemelkedik egy dalmát eb vagy éppen egy színes bőrű békeharcos képe, amit azután he- tekkel-hónapokkal később is könnyű lesz felismerni. Sokszor segít az ilyen tanulásban a felülről lefelé jövő információ, vagyis, ha megtudjuk, hogy egy kutyát vagy arcot kell keresni a képen, illetve, ha figyelmünket valaki a kép egy adott részére irányítja (a kutya a kép jobb felső negyedében található), vagy ha bemutatják a megfigyelőnek a kép nem manipulált, eredeti változatát is. A folyamat részleteit szintén a perceptuális tanulás fejezeteiben fogjuk a későbbiekben tárgyalni Kétértelmű képek Bár agyunk számítási kapacitása csodálatra méltó, egymásnak ellentmondó adatok alaposan zavarba ejthetik. Az 5.8. d)-h) ábrán olyan képek láthatók, melyek hátterüktől jól elkülöníthetőek, mégis furcsák, mivel egyszerre többféle, ellentmondó értelmezésük létezik. Az 5.8. e) ábrán például a legtöbb olvasó hol egy jobbra lefelé, hol pedig egy balra felfelé fordított kockát lát majd. A két kép váltakozása spontán, ritmikus és folyamatos. Az ilyen, egymással rivalizáló, kétértelmű képek esetében is segíti az egyik vagy másik értelmezést a felülről lefelé történő információáramlás. Az 5.8. d) képen például az idős hölgy profilja mellett nem mindenki fogja elsőre észrevenni, hogy egy fiatal hölgy elfordított arca is látható. Segít azonban, ha eláruljuk, hogy az idős nő orra egyben a fiatal nő elfordított bal arca is. Az ilyen képek érdekessége abban rejlik, hogy a vizuális bemenet (vagyis a kép maga) változatlan, agyunk mégis hol az egyik, hol a másik értelmezés mellett dönt. A folyamat idegrendszeri korrelátumairól a tudatról szóló tanulmányok során esik szó. Egyelőre annyit jegyezzünk meg velük kapcsolatban, hogy egy adott kép értelmezése nemcsak passzívan az alulról felfelé áramló információtól (vagyis a képtől) függ, hanem a megfigyelő azt aktívan tudja figyelme irányításával, tanulással is befolyásolni. 2. Tárgyreprezentáció az agykéregben A fejezet első részében megismerkedtünk azzal, hogy miért is nehéz feladat egy adott tárgy felismerése. Viselkedési adatok segítségével mutattuk be, hogy az alakzatok és tárgyak észlelése milyen lépésekben történik, és elemeztük a tárgylátás két legfontosabb modelljét. A továbbiakban azokat az adatokat mutatjuk be, amelyek a főemlősök (főleg az ember és a legtöbbet tanulmányozott makákómajom) tárgyfeldolgozó agykérgi rendszeréről jelenleg rendelkezésünkre állnak. Mint láttuk, minden tárgy felismerésének alapfeltétele, hogy hátterétől el tudjuk különíteni (perceptuális szegregáció). A szegregáció alapjául szolgáló fizikai paramétert, amely a látható kontrasztot létrehozza, nevezzük vizuális kulcsnak. Nagyon sok adatunk van arról, hogy az egyes vizuális kulcsok által szolgáltatott információt nagyrészt elkülönült módon dolgozza fel az agykéreg. A vizuális kulcsok alapján két fő agykérgi feldolgozó rendszert lehet elkülöníteni: a dorzális rendszert, mely inkább a kép mozgásáért, elemeinek térbeli viszonyaiért és az ezekkel végzett manipulációkért felelős, valamint a ventrá- lis rendszert, mely elsősorban a tárgyak színéért és milyenségéért felelős. A két vizuális rendszer legfontosabb tulajdonságaival már a látás alapvető folyamataival foglalkozó fejezetben is megismerkedhettünk, illetve a főbb jellemzőket Az emlősagy vizuális rendszere című szövegdobozban (165. o.) külön is összefoglaltuk. Ezért a továbbiakban a tárgyfelismerésben fontosabb szerepet betöltő ventrális rendszer tulajdonságaira koncentrálunk A ventrális vizuális rendszer Mint korábban láthattuk, a két vizuális rendszer a nyakszirti vagy tarkólebenyen elhelyezkedő elsődleges látókéregből indul ki. Innen az információ a másodlagos (V2), majd a negyedleges (V4) vizuális agykérgi területen keresztül jut el a halánték- vagy temporális lebeny alulsó részén elhelyezkedő inferior temporális kéregbe (IT). Számos érv szól amellett, hogy a tárgyak durva feldolgozási lépéseit egyre finomodó lépések követik egy több lépcsőből álló hierarchikus rendszer működésének eredményeképpen. Nézzük meg egyenként a legfontosabb érveket ezen állítás mellett (Rousselet et al. 2004)! A feldolgozási hierarchiának itt a V1-et és V2-t követő területeire koncentrálunk, tekintettel arra, hogy ezek tulajdonságait a korábbi fejezetek már tárgyalták. 1. A ventrális rendszer állomásainak neuronális latenciája fokozatosan hosszabbodik. Egy inger (pl. egy arckép) megjelenésére a neuronok adott késéssel, latenciával válaszolnak. Ez a latencia, amely egyébként jellemző az adott agykérgi területre, a ventrális rendszerben előrehaladva fokozatosan nő (5.9. ábra). A legrövidebb latencia a Vl-neuronokra (majmok esetében átlagosan 60 ms), míg a leghoszabb latencia az IT neuronjaira jellemző ( ms). Ez a latencianövekedés arra utal, hogy az információ a Vl-ből a V2-be, majd onnan a V4-be és végül az IT-be kerül, vagyis alapvetően soros módon dolgozódik fel. 101

116 5. FEJEZET Tárgyak, formák és alakok észlelése 2. Az egyes állomások neuronjaira jellemző receptív mező mérete fokozatosan növekszik. Míg a Vl-neuronok receptív mezejének átlagos mérete 0,5-1,5 fok között változik (kb. akkora, mint kinyújtott karral nézve hüvelykujjunk körme), addig az IT-neuronok receptív mezeje igen nagy, ennek akár százszorosa is lehet. A receptív mezőnek ez a méretnövekedése annak köszönhető, hogy a ventrális rendszerben igen erős a kapcsolatok konvergenciája. Jusson eszünkbe, hogy a konvergencia fogalmával már találkoztunk korábban, a receptor-ganglionsejt konvergenciaeltéréseivel kapcsolatban, ami magyarázattal szolgált az M és P sejtek működésében az eltérő téri felbontásra. Itt is hasonlóról van szó, azaz például arról, hogy az IT-neuronok nagyon sok alacsonyabb területen elhelyezkedő (és kisebb receptív mezejű) neurontól kapják bemenetüket. Míg a kis receptív mezejű neuronok a látótérbe kerülő kép finom részleteiről és helyéről szolgáltatnak precíz információt, addig a nagy receptív mező akkor hasznos, ha a látótér nagyobb részéről jövő információt kell integrálnunk (például olyankor, amikor egy adott tárgyat helyzetétől függetlenül kell felismernünk). 1. Az egyes állomások neuronjai az ingerek egyre bonyolultabb vonásaira érzékenyek. Míg a V1-neuronok leginkább adott irányú vonalakra, illetve élekre érzékenyek, addig a hierarchiában feljebb elhelyezkedő területek egyre komplexebb és absztraktabb kontúrokra, geometriai mintázatokra érzékenyek. A V2 esetében vonalak és egyszerű geometriai ábrák, a V4 neuronjainál komplex, színes, 3-D tulajdonságokkal is rendelkező geometriai ábrák, az IT neuronjai esetében viszont bonyolult tárgyak, kategóriák, emberi, illetve állati arcok váltják ki a legnagyobb választ. Van-e a ventrális rendszer hierarchiájának csúcsa? A kezdeti tárgyfelismerési elméletek szerint a ventrális vizuális rendszer csúcspontján lévő neuronok mindegyike csak és kizárólag egy adott tárgyat, illetve jelenséget kódol. Ezeket a neuronokat kardinális sejteknek vagy megismerési egységeknek nevezték el. Leggyakrabban mégis mint nagymamasejteket emlegetik őket, mivel ha ez az extrém tárgyszelektív kódolás létezne, ezek az idegsejtek egyedül nagymamánk képére aktiválódnának. Könnyen belátható, hogy az ilyen neuronok megléte gyakorlatilag nem gazdaságos, elvileg pedig nem lehetséges. Egyrészt, ha elveszítenénk a nagymama-felismerő idegsejtünket, akkor legközelebb már nem ismernénk fel őt. Másrészt, nyilvánvalónak látszik, hogy véges számú agykérgi neuronjaink nem lennének elegendőek a környező világ végtelen számú dolgának felismerésére. A legfőbb ellenérv a kardinálissejt-modellel szemben az a teljesítményünk, hogy előzetes tapasztalatainkat összegezve képesek vagyunk az olyan tárgyakat is felismerni, melyeket addig még nem láttunk, és amelyekre éppen ezért nem létezhet felismerőegység sem. A hierarchia tetején elhelyezkedő terület, az IT tehát nem az egész tárgyfelismerésnek, hanem csak a ventrális rendszernek a végső állomása. A tárgyakkal kapcsolatos érzelmi, emlékezeti, feladatfüggő döntésekkel kapcsolatos információ további feldolgozó lépéseket igényel (ezekkel az Általános pszichológia 2. kötete több helyen is foglalkozik) ábra. A ventrális rendszer állomásainak vázlatos reprezentációja. A V1, V2, V4 és az IT közötti hierarchikus rendszer egyes területeinek átlagos latenciája, receptívmezõ-mérete és a terület által leginkább kedvelt vizuális ingerek példái 102

117 5. FEJEZET Tárgyak, formák és alakok észlelése 2.2. V4 a színlátás agykérgi központja? Ahogy a dorzális rendszer fő mozgásfeldolgozó területe a V5/MT (lásd az előző fejezeteket, illetve a Mozgásészlelés című fejezetet), úgy tűnt, hogy a színlátás kérgi központja a V1/V2 után következő ventrális rendszerhez tartozó terület, a V4. Az első tanulmányok szerint a terület neuronjai rhesusmajom agyában a fény hullámhosszára igen érzékenyek. Semir Zeki londoni kutató nevéhez fűződik a terület színspecializálódásának leírása és annak felvetése, hogy a V4 egy szelektív színfeldolgozó modul lenne (Bartels-Zeki 2000). Ugyanakkor részletes újabb tanulmányokban sikerült kimutatni, hogy a V4 szerepe mesz- sze túlmutat a színfeldolgozáson. Egyrészt, nem minden V4-neuron érzékeny a tárgyak színére. Másrészt, a neuronok érzékenyek vonalak irányára, egyszerű és bonyolultabb geometriai ábrákra is. Harmadrészt, a tárgyak 3-D tulajdonságai és mozgása is befolyásolja a V4-neuronok aktivitását. Mindebből úgy tűnik, hogy a majmok V4 területének funkciói nem merülnek ki a fény hullámhosszának érzékelésében, és komplex szerepet töltenek be a tárgyfelismerésben. A fenti majomkísérletektől függetlenül felmerült, hogy az emberi agyban is lenne egy központi színfeldolgozó terület. Feltártak ugyanis egy olyan területet, amelyről úgy gondoljuk, hogy a majmok V4 területének emberi megfelelője (homológja) (5.10. ábra), ezért szintén V4-nek nevezzük. Ennek a területnek az irtása, illetve kiesése (léziója) emberben szelektív színlátászavarokhoz (akromatopszia) vezet. Később funkcionális képalkotó eljárásokkal (PET és fmri, amelyek működését röviden ismertettük az észlelés természetéről szóló bevezető fejezetben) kimutatták, hogy a terület erős színszelektivitást is mutat. Bár még számos kérdés nyitott a V4 tulajdonságait illetően (egy vagy több agyi területről van-e szó; valóban homológjai-e egymásnak a majom és az ember V4 területei, s ha igen, mennyire, stb.), annyi bizonyos, hogy a ventrális vizuális rendszer és azon belül is a V4 az embernél jelentős szerepet játszik a színfeldolgozás több lépésében is ábra. A V4 megközelítõ helye az emberi agykérgen az agy ventrális nézetén (az ábra 2.3. Inferior temporális kéreg a tárgylátás központi területe Charles Gross, valamint Robert Desimone munkacsoportjában az elsők között írták le (Gross et al. 1972, Desimone-Gross 1979), hogy a majomagykéreg temporális lebenyének neuronjai komplex tárgyakra és nem utolsósorban arcokra reagálnak a legjobban. Az azóta eltelt idő alatt az inferior temporális kéreg a ventrális rendszer egyik legtöbbet tanulmányozott agykérgi területe lett (Fujita 2002). Az IT neuronjainak válasza többé vagy kevésbé bonyolult alakzatokra (keresztek, rácsminták, valós és számítógéppel generált tárgyak, emberi és állati arcok, más testrészek stb.) a legnagyobb (5.11. ábra). Az egyes neuronok általában néhány tárgyra vagy alakzatra válaszolnak szelektíven. Nincs azonban olyan neuron, amely 103

118 5. FEJEZET Tárgyak, formák és alakok észlelése kizárólag egy adott tárgy képére aktiválódna, tehát a kezdeti elképzelésekkel ellentétben az IT-ben sincs nagymamasejt! Egy neuron mindig több alakzatra reagál, igaz, eltérő mértékben. Ez a tárgyszelektivitás az alapja lehet a tárgyfelismerésnek. Ha ez így van, akkor a tárgyfelismerésre jellemző tulajdonságokat az IT-neuronoknak is tükrözniük kell. Az 5.2. ábra bemutatta azokat a legfontosabb tulajdonságokat, melyekre nézve tárgyfelismerésünk invariáns, vagyis ugyanazon tárgyaknak a tulajdonságoktól független felismerését teszik lehetővé. Nézzük most meg, hogy hogyan tükröződnek ezek az invarianciák az IT neuro- nális válaszaiban Invarianciák az inferior temporális kéregben Az egyik legnyilvánvalóbb perceptuális invariancia, hogy ugyanazt a tárgyat helyétől függetlenül fel tudjuk ismerni. Ennek a jelenségnek a kialakulásához az kell, hogy a neuronok hasonlóan válaszoljanak a tárgyakra, függetlenül azok receptív mezőn belüli helyzetétől. Az IT-neuronok receptív mezeje általban igen nagy, magában foglalja az éles látás helyét, a sárgafoltot, valamint csaknem az egész ellenoldali látómezőt, illetve részben az azonos oldali látómezőt is. Ezen a nagy receptív mezőn belül a neuronok hasonlóan aktiválódnak egy adott tárgyra, mégpedig függetlenül annak helyétől. Valószínűsíthető tehát, hogy a pozicionális invariancia jelenségének a hátterében az ilyen IT-neuronok állnak. A pozícióinvarianciához hasonlóan, tárgyfelismerésünk méret-, szín-, kontraszt- és vizuáliskulcs-független is. Ennek alapja úgyszintén az IT-neuronok alakszelektivitásának méret-, szín-, kontraszt- és vizuáliskulcsfüggetlensége, azaz invariáns természete lehet (Sáry et al. 1995, Kovács et al. 1995, 2003). Ez azt jelenti, hogy ha egy neuron például egy alma, egy pohár, egy szék és egy kutya képére egyre csökkenő mértékben válaszol, akkor ez az alakszelektivitás többé-kevésbé megmarad, ha az adott tárgyak méretét, színét, kontrasztját, illetve az őket definiáló vizuális kulcsokat változtatjuk ábra. Az inferior temporális kérgi neuronok által preferált vizuális ingerek egy reprezentatív csoportja. A képek a Szegedi Tudományegyetem Élettani Intézetének vizuális laboratóriumában végzett kísérletek során használt ingereket ábrázolják Az inferior temporális kéreg oszlopos elrendeződése Hasonlóan a V1-hez, az IT is oszlopos (kolumnáris) elrendeződést mutat. Ez azt jelenti, hogy a hasonló tárgyakra szelektív neuronok lokális csoportokba rendeződnek. Ezek a neuroncsoportok végighúzódnak a kéreg 104

119 5. FEJEZET Tárgyak, formák és alakok észlelése rétegein, és úgynevezett agykérgi oszlopokat alkotnak (5.12. ábra). Egy adott tárgyra egyszerre több ilyen agykérgi oszlop, vagyis egyszerre több tízezer neuron hálózata aktiválódik, mégpedig eltérő mértékben. A legújabb elképzelések szerint a különböző tárgyakat átfedő, de aktivitásukban eltérő neuronális hálózatok kódolják. Tehát mondjuk egy alakzatra a legnagyobb tüzelési frekvenciával az ábra jobb sarkában látható oszlop neuronjai válaszolnának, ám kisebb mértékben ugyan, de adna választ a többi oszlop neuronja is. Egy arcra az ábra arcoszlopának neuronjai válaszolnának a legnagyobb aktivitásfokozódással, de azért a oszlop idegsejtjei is reagálnának, csak kevésbé. Ugyanazon idegsejtcsoport (hálózat) eltérő aktivitásmintázata által tehát képes lenne egyszerre számtalan tárgyat kódolni ábra. Az inferior temporális kéreg oszlopos szerkezete. Az egyes oszlopokat eltérõ szürke árnyalatok jelölik. Az oszlopok által leginkább preferált vizuális ingereket az oszlop oldalán látjuk 2.4. Az emberi tárgyfeldolgozó rendszer Az emberi agy ventrális vizuális rendszere alapfelépítését tekintve megegyezik a majmok agyánál leírtakkal, de a részleteket tekintve jelentősek az eltérések. Az ember ventrális rendszere is a V1 és V2-ből indul ki, majd a V4-ben folytatódik. Az elmúlt években, a funkcionális képalkotó eljárások (eleinte a PET, majd később dominánsan az fmri) fejlődésével ugyanakkor nemcsak ezeknek az alacsonyabb rendű vizuális területeknek, hanem a magasabb szintű, komplexebb területeknek a feltérképezése is megkezdődött (Malach et al. 2002). Ezek a tanulmányok azt igazolták, hogy a nyakszirti és a halántéklebenyek oldalsó (laterális) és alsó (ventrális) felszínén egy nagy kiterjedésű, összetett agyterület található, amelynek meghatározó szerepe van a tárgyfelismerésben. Ez a terület a LOC, a laterális okcipitális komplexum (Lateral Occipital Complex; ábra). A vizsgálatok szerint a terület aktivitása megnövekszik, ha a kísérleti személyeknek tárgyak (3-D tárgyak, körvonalrajzok, emberi arcok stb.) képét mutatják, míg mintázott felületekre, véletlenszerű vizuális zajra a terület nem reagál. Az LOC, hasonlóan a majmok IT kérgéhez, nem retinotopikus, vagyis a bemutatott tárgy helyétől függetlenül aktiválódik. E mellett a pozicionális invariancia mellett a terület méret- és vizuáliskulcs-, illetve minden valószínűség szerint nézőpont-invarianciát is mutat. A terület hasonlóképpen aktiválódik tárgyak fényképére és azok körvonalrajzaira is. Mindezek az adatok arra utalnak, hogy a LOC igen hasonló tulajdonságokat mutat a tárgyfelismerés jelenségeihez, és ez valószínűsíti, hogy fontos szerepet játszik abban. 105

120 5. FEJEZET Tárgyak, formák és alakok észlelése ábra. Az ember nyakszirti és halántéklebenyének alulsó részén található, tárgyfelismerésben fontos területek megközelítõ helyzete. Baloldalt alulsó, jobboldalt alulsó-oldalsó nézetben látszanak az agyféltekék. A többféle tárgykategóriára aktív LOC (laterális okcipitális komplexum) részben magában foglalja az EBA-t (extrastriatális testterület), mely testrészekre, és az FFA-t (fuziformis arcterület) is, mely szelektíven arcokra aktív. A PPA (parahippokampális helyterület) ettõl kissé elkülönülve található. Az agyat úgynevezett felfújt állapotban mutatjuk; gyrusok: sötét sávok, sulcusok: világos sávok Az emberi agykéreg kategóriaspecifikus területei A legújabb vizsgálatok szerint a nyakszirti és halántéklebenyek területén, részben a laterális okcipitális komplexummal átfedően találhatóak olyan kisebb területek, melyek adott specifikus kategóriába tartozó tárgyak képére nagyobb aktivitást mutatnak, mint más tárgyakéra (5.13. ábra). Már korai neuropszichológiai, majd elektrofiziológiai megfigyelések is utaltak arra, hogy a halántéklebeny alulsó részén van egy terület, mely elsősorban az emberi arcok feldolgozásában játszik szerepet. Később fmrivizsgálatok megerősítették, hogy a terület aktivitása jóval nagyobb emberi arcokra, mint betűkre, különböző tárgyakra, állatokra vagy hátulról mutatott emberi fejekre. A területetfusiform face areának, vagyis fuziformis arcterületnek (FFA) nevezték el. Aktivitása akkor is erősebb, ha fekete-fehér portrékat, festményeket, arcok körvonalrajzait, karikatúráit, állatok arcát, ismeretlen személyeket mutatnak a kísérleti személyeknek. Egy másik kategóriaszelektív agyterület az úgynevezett parahippocampal place area vagy parahippokampális helyterület (PPA), amely a LOC-tól némileg elkülönülten helyezkedik el. A PPA elsősorban tájképek, épületek, emberalkotta tájak (még legóból épített absztrakt tájképek is) bemutatásakor aktiválódik inkább, szemben az arcok, vizuális zajok és tárgyak bemutatásával. Ez a fokozott válasz megjelenik a ppa területén, függetlenül attól, hogy milyen feladata van a kísérleti személynek, ami arra utal, hogy a PPA elsősorban épületek és helyszínek perceptuális feldolgozásában játszik szerepet. Újabban leírtak még egy területet a halántéklebenyben, részben átfedően a LOC területtel, amely specifikusan akkor aktiválódik, amikor emberi testek vagy testrészek képét mutatják be az alanyoknak. A területet extrastriatális testterületnek (extrastriate body area EBA) nevezték el. Bár az EBA igen specifikusan leginkább testrészekre aktiválódott, a szerzők nem vitatják, hogy hasonlóan az FFA, illetve a PPA területekhez, az EBA is aktiválódik más ingerekre is. További kategóriák, melyekre specifikus agykérgi területek létezéséről vannak adataink: állatok, élőlények, kéziszerszámok, székek. Ezeknek a kategóriáknak a specifikus agykérgi reprezentációja ugyanakkor sokak által megkérdőjelezett, így tankönyvünkben sem tárgyaljuk őket tovább táblázat - SPECIÁLISAK-E AZ ARCOK? Négy fő csoportja van azoknak az érveknek, melyek az emberi arcfeldolgozás speciális volta mellett szólnak. Mint látni fogjuk, mind a négy kérdéskör esetében megkérdőjelezhető specialitásuk, nem véletlen, hogy az erről folyó vita is folyamatos az irodalomban. Az első kérdéskör az arcok perceptuális feldolgozásának specialitásait illeti. Számos arcspecifikus perceptuális jelenség van. Egyik ilyen példa az inverziós hatás: míg mindenki remekül felismeri egy ismerőse arcát, ugyanazon személy arcát sokkal nehezebb felismerni megfordítva (lásd az ábrát). Ezt a jelenséget azzal magyarázzák, hogy az arcok feldolgozása során van egy olyan speciális lépés, amikor nem az arc részletei alapján, hanem azok konfigurációs tulajdonságai, az arc egésze alapján döntünk, és az arcok megfordítása ezt a holisztikus feldolgozást zavarja meg. Bár eredetileg a jelenséget speciálisan az arcokra gondolták csak érvényesnek, bizonyos személyek esetén (írásszakértők, kutyaszakértők és ujjlenyomat-szakértők) újabban kimutatták más, tehát nem arckategóriákra is. A második kérdéskör az emberi agy arcérzékeny területének, az FFA-nak a létrejöttével kapcsolatos. Miért és hogyan jött létre? Öröklött vagy szerzett tulajdonságról van-e szó? Egyesek szerint az arcok geometriájára érzékeny arcspecifikus kérgi modul velünk született. Ezt támogatja például az az adat, mely szerint újszülöttek is preferálják az egyenes állású arcokat más ingerekkel és fordított állású arcokkal szemben. Igaz azonban az is, hogy az újszülöttek minden olyan ingert preferálnak, melynek geometriájában több elem helyezkedik el annak felső, mint alsó részén. A harmadik vitatott kérdés az arcfelismerés szelektív zavarát, a prozopagnóziát (prosopos [gör.] arc) illeti. 106

121 5. FEJEZET Tárgyak, formák és alakok észlelése Régóta tudjuk, hogy az okcipitális és temporális lebeny ventrá- lis részének lézióját követő arcfelismerési zavar során a betegek képtelenek a látott személyt arca alapján felismerni, bár hangja, gesztusai vagy mozgása alapján meg tudják állapítani identitását. vitatott kérdés ugyanakkor az irodalomban, mennyire független egymástól a minden tárgykategóriára kiterjedő általános tárgyagnózia és a speciális prozopagnózia, mivel eddig csak nagyon kevés betegről sikerült a prozopagnóziát mindenfajta tárgyagnózia nélkül bizonyítani. Fontos érv a későbbi elkülönülés mellett, hogy gyerekeknél soha nincs prozopagnózia tárgyagnózia nélkül. Végül az utolsó érv az arcok speciális feldolgozása mellett a speciális arcfeldolgozó neuronok és modulok, így az FFA megléte (lásd a fejezet főszövegét). Ez a speciális modul azonban, mint fejezetünkben bemutattuk, az újabb eredmények szerint nemcsak arcokra aktiválódik, tehát ez az érv sem teljesen meggyőző. Kiket ábrázol a kép? Vegyük észre, hogy megfordítva a leghíresebb személyek képét sem egyszerű felismerni! összefoglalva tehát azt mondhatjuk, hogy bár vannak adatok az arcok speciális perceptuális és idegrendszeri feldolgozása mellett, egyik sem bizonyítja azt teljes mértékben Az agykérgi reprezentáció elméletei Sokan sokféle elképzeléssel élnek arra vonatkozóan, hogy valójában mit is jelent ezeknek a kategóriaspecifikus agyterületeknek a megléte. Több elmélet van arra, hogy miért éppen arcokra, tájképekre és testrészekre alakultak ki ilyen specifikus agyterületek. Az elméletek alapvetően három csoportba sorolhatók. 1. Kategóriaspecifikus modulok. Jeny Fodor volt az, aki felvetette, hogy az egyes kognitív feladatok specifikus és egymástól függetlenül működő idegrendszeri modulok aktivitásán keresztül valósulnak meg (Fodor 1983). Az FFA, a PPA és az EBA olyan specifikus területek lennének, melyek az adott kategória reprezentációjára fejlődtek ki. A legfontosabb bizonyítékok az arcfelismerés specifikus voltára a neuropszichológiai eredményekből származnak. A szelektíven arcfelismerési zavarban (prozopagnóziában) szenvedő betegek mellett létezik az ellenkező kórkép is, melyben tárgyfelismerési zavar, agnózia van ép arcfelismerő képesség mellett, vagyis kettős disszociáció van az arc- és a tárgyfelismerő rendszerek között. Az elmélet ugyan vonzó, és vannak mellette szóló adatok, mégis számos problémát vet fel a benne foglalt túlzott specializáció. Könnyű belátni például, hogy sokkal több a reprezentálandó kategória a világban, mint amennyit az agykéreg kapacitása lehetővé tesz. Ezért az elmélet újragondolt változatában azt vetették fel a kutatók, hogy az evolúciósan fontos, sokat gyakorolt kategóriákra (mint amilyenek az arcok vagy a betűk, a tájképek) kialakulhatnak erősen szervezett speciális modulok, míg a többi kategóriák tagjainak felismerését változatlanul a ventrális rendszer egészének működése biztosítja. Ez az elmélet már nem áll messze attól az 107

122 5. FEJEZET Tárgyak, formák és alakok észlelése elmélettől, amely a tapasztalat hatását hangsúlyozza. (Az emberi arcfelismerés speciális voltáról lásd a szövegdobozt.) 2. A feladat és a gyakorlás hatására kialakult modulok. Az egyes kategóriák jelentősen különböznek hasznukat és használatukat illetően. Egyes tárgyakat például manipulációra (eszközök), környezetünkben való tájékozódásra (tájképek), navigálásra használunk, mások viszont inkább szociális interakcióinkban fontosak (arcok), megint másokat pedig olvasáskor használunk (betűk). Elképzelhető tehát, hogy a kategóriákat reprezentáló modulok használatuk szerint alakulnak ki. Mivel bizonyos kategóriák mindenkinek hasonlóan fontosak (pl. az arcok), rájuk mindenkiben kialakulnak specifikus modulok. Ugyanakkor ez az arcfelismerő modul, az FFA, nemcsak arcok, hanem bármely más, a személynek fontos és sokat gyakorolt kategória elemeinek egymástól való megkülönböztetésére, felismerésére is aktiválódna. Az egyes agyterületek specializálódása nem a priori, hanem az éppen szükséges perceptuális feladatok függvényében, gyakorlás által automatikusan változik, flexibilis (Palmeri-Gauthier 2004). Mivel az emberi életben igen fontos az arcok, testrészek egymástól való megkülönböztetése és felismerése, valamint a környezetünkben való tájékozódás, így az átlagember is jóval kiterjedtebb tapasztalattal rendelkezik arcok, testrészek és tájak kategorizációját, mint bármi más perceptuális kategóriát illetően. Sokat gyakorolva kategorizációjukat, mintegy szakértőivé válunk a fenti kategóriáknak. (A kategorizáció magasabb szintű szerveződésével itt most nem foglalkozunk. A perceptuális kategóriák és a fogalmi reprezentáció, tágabban pedig a tudásreprezentáció kérdéseit az Általános pszichológia 2. és 3. kötetei bővebben tárgyalják.) Ezt támogatja az a megfigyeléssorozat, mely szerint olyan emberek, akik hobbijukon, illetve foglalkozásukon keresztül szakértői más, nem-arc kategóriákba tartozó tárgyaknak (madarászok, autó- és kutyaszakértők stb.), az általuk jól ismert kategória tagjait az emberi arcokhoz hasonló módon és hasonló agyterületek aktiválódása mellett dolgozzák fel és ismerik fel. Ez magyarázná tehát az FFA, az EBA és a PPA meglétét. 3. Szétosztott reprezentáció. A harmadik elmélet szerint az egyes kategóriák ventrális rendszerbeli reprezentációja több területre szétszórva és részben egymást átfedve valósul meg. E szerint az elmélet szerint egy geometrikus hasonlóságon alapuló tárgytulajdonság-térkép található a halántéklebenyben. Az adott kategóriákra maximálisan aktiválódó neuronok csoportjai a LOC területén egymástól elkülönülten, de szétszórtan helyezkednek el, és jól meghatározható topográfiával rendelkeznek. Az egyes modulok egymást átfedik, és az egyes tulajdonságok több mint egy helyen vannak reprezentálva. Egy adott tárgy kategóriáját tehát nem egy körülhatárolt terület, hanem a halántéklebeny területén szétszórtan elhelyezkedő neuroncsoportok jelentős részének aktivitásmintázata tükrözné. Az elmélet hasonlóságot mutat a majmok agyában, az inferior temporális kéregben egysejt-vizsgálatokkal feltárt kódolással ÖSSZEFOGLALÁS 1. Az emberi tárgyészlelés első látásra egyszerűnek tűnik, valójában azonban igen bonyolult számítási (komputációs) feladat. Ennek első lépése a tárgynak a hátterétől való elkülönítése, a perceptuális szegregáció, amelynek fontos agykérgi korrelátumait a V1 működési tulajdonságai határozzák meg. Az értelmetlen körvonaldarabkákat a Gestalt-törvé- nyeknek megfelelően csoportosítjuk. 2. A tárgylátás folyamatainak modelljeit két fő csoportba sorolhatjuk: strukturális és képi leíró modellek. Míg az első csoport a képet részeire bontva, strukturálisan értelmezi, addig a második a kétdimenziós képen megjelenő tulajdonságok alapján képzeli el reprezentációjukat. 3. A főemlősök agyában a ventrális rendszer felelős a tárgyak feldolgozásáért. A rendszerben a V1-től előre haladva egyre bonyolultabb és absztraktabb tulajdonságok reprezentá- lódnak. A majmok agyában az inferior temporális kéreg az, amely a tárgyfelismerésben a legfontosabb. 1. Az emberi agyban a tárgyakra szelektív területek a nyakszirti és a halántéklebeny alul- só részén helyezkednek el. Az egyes kategóriákra érzékeny területek egymástól többé-ke- vésbé elkülönülnek KULCSFOGALMAK Gestalt, illuzórikus kontúrok, inferior temporális kéreg (IT), komponensalapú felismerés modellek, nagymamasejt, perceptuális szegregáció; tárgytulajdonság-térkép 2.7. ELLENŐRZŐ KÉRDÉSEK 108

123 5. FEJEZET Tárgyak, formák és alakok észlelése 1. Sorolja fel az összes (5.2. ábrán látható) képtranszformációt, melyekre alak- és tárgyfelismerésünk invarianciát mutat! 2. Mi kell ahhoz, hogy egy tárgy a hátterétől elkülönüljön? 3. Mik a legfontosabb Gestalt-törvények? 4. Miért látszanak az illuzórikus kontúrok? 5. Nézőpontfüggő reprezentációt feltételez-e Marr, Biederman, illetve a képalapú modellek? 6. Hány geonból épül fel egy váza, egy telefon és egy repülőgép? 7. Mutassuk meg az 5.8. b) és az 5.8. c) ábrát néhány ismerősünknek, és mérjük le, átlagosan mennyi ideig tart, amíg felismerik az ábrán látható kutyát és arcot! 8. Próbáljuk lemérni, milyen gyakran váltakozik a két rivalizáló értelmezés az 5.8. d)-h) ábrákon! Akaratlagosan meg tudjuk-e tenni, hogy csak az egyik értelmezést lássuk? 9. Milyen érvek vannak a ventrális rendszer hierarchiája mellett? 10. A neuronok mely tulajdonságai változnak a ventrális rendszerbeli feldolgozás során? 11. Miért nem létezhet nagymamasejt? 12. Milyen különbségek és hasonlóságok vannak az emberi V4 és a majom V4 területe között? 13. Miért gondoljuk, hogy az IT központi szerepet játszik a tárgyfelismerésben? 14. Az információfeldolgozás szempontjából miért hasznos, hogy az IT oszlopos elrende- ződésű? 15. Milyen magyarázatok vannak arra, hogy specifikusan arcok, tájképek és székek bemutatására is aktiválódnak agyterületek? 2.8. AJÁNLOTT OLVASMÁNYOK Kovács Gyula Arcpercepció. In: Racsmány Mihály Lukács Ágnes (szerk.): Az ezerarcú elme. Akadémiai Kiadó, Budapest. Kovács Gyula A perceptuális kategorizáció alapjai. In: Pléh Csaba Gulyás Balázs Kovács Gyula: Kognitív idegtudomány. Osiris, Budapest, AJÁNLOTT HONLAPOK Illuzórikus kontúrok és más illúziók: (Irving Biederman) (Michael Tarr) (Gestalt) (Párhuzamos látórendszerek) (Arcpercepció) (Semir Zeki V4) 109

124 5. FEJEZET Tárgyak, formák és alakok észlelése Inferior temporális kéreg: LOC-FFA-PPA-EBA:

125 7. fejezet - 6. FEJEZET Tér- és mélységészlelés Magától értetődő, mindennapi élményünk környező világunk érzékelése. Nemcsak látjuk magunk körül a tárgyakat, hanem azt is meg tudjuk ítélni, hogy mi mekkora, és hogy milyen messzire van tőlünk. Ösztönösen és otthonosan tájékozódunk háromdimenziós terünkben. Könnyű belátnunk azonban, hogy ez a képességünk mennyire nem magától értetődő, ha meggondoljuk, milyen kevés az a vizuális információ retináinkra jutó majdnem egyforma két kép -, ami ehhez látórendszerünk rendelkezésére áll. Látni fogjuk, hogy szempillantás alatt működő térbeli látásunk sok bonyolult képfeldolgozó mechanizmus együttműködésének az eredménye. Ezek egy része velünk született képességünk, a többit viszont születésünk óta tanultuk. Egy elterjedt nézet szerint azért látunk térben, mert két szemünkkel két különböző helyről tudjuk nézni a világot. Egyes mechanizmusok valóban kihasználják a kétszemes (binokuláris) látást, mások működéséhez azonban az egyszemes (monokuláris) látás is elegendő. (Madarak példája bizonyítja, hogy monoku- láris mechanizmusok is képesek tökéletes térlátásra: a bagoly kivételével a madarak fején kétoldalt elhelyezkedő szemek nagyrészt másmás képet látnak.) Ebben a fejezetben a látáshoz kapcsolható térészlelésre koncentrálunk, nem foglalkozunk a környezetből érkező, más érzékszervünk által közvetített információval. Látni fogjuk azonban, hogy a látás nem egyszerűsíthető le a szem optikáján keresztül a retinára vetülő kép értelmezésére. A tér észlelésének folyamatában valójában agyunkat kell a látószervnek tekinteni, ahol számos más ingerfajta és a világról már korábban megszerzett tudásunk együttes hatása alatt alakul ki az észlelet, míg a szemnek csak a nézőszerv szerepe jut. Az észlelésben alkalmazott mentális műveleteket tekintve környezetünket lazán definiált koncentrikus héjak rendszerére oszthatjuk, melynek középpontjában magunk állunk. Közvetlen környezetünknek azt a manipulációs teret tekinthetjük, melyet könnyen, kis helyzetváltoztatással elérünk, melyben dolgozunk, táplálkozunk, és ahonnan ahogy a fajfejlődés megtanított közvetlen veszély is fenyegethet. Életfontosságú, hogy ennek a térrésznek a berendezéséről és változásairól gyorsan és pontosan értesüljünk, ahogy reakcióinknak is gyorsaknak és pontosaknak kell lenniük. Ebben a térrészben kétszemes látásunkra támaszkodunk: kihasználjuk, hogy a két szem némileg különböző két képet lát. Bizonyos távolságon túl már nincs értékelhető különbség a két szem képe között, de a színek élénkek, a részletek jól felismerhetők. Még távolabbra tekintve, a tájat szemlélve, a részletek összemosódnak, a színek tompulnak, csak a főbb vonalak, kontúrok maradnak felismerhetők. Végül, legtávolabbi környezetünk az égbolt: a felhők, a Nap, a Hold, a bolygók és a csillagok világa. A maga visszatérő ismétlődéseiben is megnyilvánuló állandóságával, a földi életre gyakorolt számos hatásával, a misztikával is tűzdelt égbolt már a legkorábbi civilizációk figyelmének is középpontjában állt. Sajátos személyes kapcsolat érzését kelthette az égboltnak az a tulajdonsága, hogy, szemben a földi tárgyakkal, melyeket utunkban elhagyunk, az égbolt velünk jön. Sok ezer éves megfigyelése a természettudományok kialakulásában és fejlődésében alapvető és központi szerepet játszott. A Hold-illúzió (lásd a szövegdobozt a oldalon) példája is mutatja azonban, hogy még a legegyszerűbbnek tűnő égi jelenségek és legismertebb égitestek észlelése terén is vannak még meglepő nyitott kérdések táblázat - A BIOLÓGIAI TERESZLELES Az állatfajok földi evolúciójának évmilliói során a térészlelés, azaz a környező világ érzékelése a fennmaradás, a túlélés egyik alapvető feltétele volt. így az evolúciós fejlődés a biológia eszköztárával az állatvilágban létrehozta a környezet érzékelésének alapvető módjait, melyekhez az emberi tudomány és technika sem tudott minőségében, elveiben újakat hozzáadni. Az állatvilágban kialakult érzékszervek képesek a környezet elemeinek jelenlétét, mozgását és számos tulajdonságát a biológiai célhoz illeszkedő pontossággal jelezni. A közvetlen érintkezés, mint a környezet érzékelésének eszköze, már a növényvilágban is fellelhető. Ismerjük az indákkal és kocsányokkal megkapaszkodó növényeket, de ide sorolhatók a rovarokkal táplálkozó húsevő virágok érintésre összezáródó szirmai is. A föld alatt élő kisemlősök, rágcsálók több száz szabályosan elrendezett bajuszszőre az üregek és járatok végigsúrolt faláról képszerű információ továbbítására alkalmas. Teljes saját bőrfelületünkről magunk is folyamatosan kapunk a helytől függően részletes vagy elnagyolt jelzést a bőrünkhöz érő tárgyakról és a környező közeg levegő, esetleg víz állapotáról, áramlásairól. 111

126 6. FEJEZET Tér- és mélységészlelés Nyilvánvaló evolúciós előnyt biztosít, ha egy élőlény képes az őt körülvevő világ egyedeinek távoli érzékelésére is. Erre a környezetet betöltő, a távoli egyed nyomait hordozó és egyben mindannyiunkat beágyazó hullámterek közvetlen érzékelése ad lehetőséget. Ilyen hullámtér például a zajok, zörejek, a zenei és egyéb hangok által keltett nyomáshullámok együttese, melyet a kitöltő közeg levegő vagy víz közvetít, és melyet általában fülünkkel, de igen nagy hangerők esetében pl. légkalapács, repülőgép-hajtómű vagy beatkoncert akár teljes testünkkel, belső szerveinkkel is érzékelünk. Egyes állatfajok, mint a denevér vagy a delfin, képesek a maguk által keltett, igen magas rezgésszámú hang kiáltás, fütty visszaverődéseit felfogva nagy pontossággal érzékelni környezetüket. Mozgásukat megfigyelve nem kétséges, hogy ezek az állatok a maguk hangérzékelő eszközeivel a mi látásunkhoz hasonló minőségű látó -szervvel rendelkeznek. A teljesség kedvéért érdemes megemlíteni a civilizált ember életében csak alkalmanként tudatosuló, de az állatvilágban alapvető szerepet játszó másik, a beágyazó közeg által a környezetről hírt adó hullámteret melyet ugyan a fizika tudománya nem szokott hullámként tárgyalni -, a szagok világát (az ebben a hullámtérben zajló észleléssel külön fejezet foglalkozik). Az elektromágnesség és a gravitáció az a két fizikai jelenség, melynek hullámai nem igényelnek közvetítő közeget, képesek csillapodás nélkül az üres térben vákuumban is terjedni, és így igen távoli eseményekről is üzenetet hozni. Bár a gravitáció folyamatos és közvetlen jelenléte, környezethez való viszonyunk érzékelésében játszott alapvető szerepe csak ritkán tudatosul, könnyen belátjuk fontosságát, ha gondolatkísérletként egy gravitációmentes világba képzeljük magunkat. Ha eltekintünk a technika nyújtotta lehetőségek bő kínálatától, az elektromágneses jelenségek széles spektrumából biológiai lényként egy keskeny sáv, a fény és a hőhullámok érzékelésére vagyunk képesek. Vannak élőlények, melyek ebben a képességben felülmúlják az embert, szélesebb színtartományban látnak, vagy mint a vándorló madarak vagy a méhek érzékelik a fény polarizációját is. Egyes halfajták képesek maguk körül váltakozó elektromos teret kelteni, melynek torzulásai a környezet képét közvetítik számukra. Jól ismertek más elektromágneses jelzőképességekkel rendelkező élőlények is, mint például a kaméleonok, tintahalak vagy ráják, melyek színüket változtatják. A szentjánosbogarak, egyes polip- és halfajták még fény kibocsátására is képesek; bár ezt a képességüket nem környezetük észlelésére-érzékelésére használják. 1. A távlat kulcsai Mindennapi életünkben környezetünk számos általában egybehangzó látványeleme együtt alakítja ki bennünk a tér, a távlat érzetét. A következőkben sorra vesszük azokat a főbb látványbeli sajátságokat, képi kulcsokat, jelzőmozzanatokat, melyek mind a tér látásában, mind a tér ábrázolásában a leglényegesebb szerepet játsszák. A téri jelzőmozzanatok többsége egy szemmel is érzékelhető, azaz monokuláris jelzőmozzanat, néhányhoz azonban két nézőpont, két szem szükséges. Ezek a binokuláris jelzőmozzanatok Monokuláris (egyszemes) jelzőmozzanatok Ha egy tárgyhoz közeledünk, az látóterünknek egyre növekvő részét fogja kitölteni. Így a tárgyak látszólagos mérete, azaz a retinára vetülő képük nagysága elsődleges térinformáció: minél nagyobb a retinális kép, annál közelebbinek érezzük a tárgy helyét. A látvány belső arányainak ismerete finomítja távolságérzetünket: tudjuk például, hogy a gyermek- és felnőtt-test arányai eltérőek; a gyerekfej sokkal nagyobb a testhez képest, mint a felnőtté, így a viszonyításul szolgáló környezettől elvonatkoztatva sem látnánk távoli felnőttnek egy közeli gyereket. Ez igaz a ló és a csikó esetére is (6.1. ábra, fölül). Szabad térben, sík mezőn a távolba nézve szemmagasságunkban látjuk a horizontot. Azt is tapasztalhatjuk, hogy a távoli, a horizonthoz közeli tárgyak képe a látómező közepére esik, míg a közelebbiek képe lejjebb van. Ezért a tárgyakat annál távolabbinak érezzük, mennél magasabbra kerül képük a látómezőben, azaz a látómezőbeli helyzet is fontos kulcs a térbeli helyzet megítélésében (6.1. ábra, alul). 112

127 6. FEJEZET Tér- és mélységészlelés 6.1. ábra. A látszólagos méret és a látómezõben elfoglalt hely kulcs a távolsághoz Egymást részlegesen takaró tárgyak közül nyilvánvalóan a takartat érzékeljük a távolabbinak. Bizonytalan, takarásgyanús esetekben, ha a szomszédos tárgyakat nem ismerjünk fel, és így az egyes látott alakzatok teljességét vagy hiányos voltát nem tudjuk biztosan megítélni, akkor a hosszabb, folyamatos, törésmentes kontúrral rendelkező alakzat tűnik a közelebbinek (6.2. ábra) ábra. A kék korong közelebbinek látszik, mint a piros Mesterséges, magunk építette környezetünkben dobozszerű házakban, szobákban, síkok és párhuzamosok között élünk. útjainkat párhuzamos egyenesek határolják, ahogy párhuzamos egyenesek a vasúti sínek és a villamoslégvezetékek is. Térbeli mélységet, távolságot sugalló, jól megtanult, mélyen tudatunkba rögződött jelzőmozzanat ezért a hosszú összetartó egyenesek képe, a lineáris perspektíva (6.3. ábra). Ennek mesteri alkalmazását látjuk Canaletto képén (A látvány fejlődése című szövegdoboz 5. ábrája), és ezzel játszik finoman képtelen képein M. C. Escher is (6.4. ábra). 113

128 6. FEJEZET Tér- és mélységészlelés 6.3. ábra. Távolodva összetartó párhuzamosok Akár természeti, akár mesterséges környezetünket tekintjük, azt mintázatokban gazdagnak találjuk. A mintázatok között vannak szabályosak, mint egy téglafal (6.5. ábra) vagy egy telepített szőlőhegy képe, és szabálytalanok, mint a hullámzó tenger vagy az erdős hegyoldal. Nagyobb területű mintázatok hozzánk közel eső részeit természetesen tagoltabbnak, részletekben gazdagabbnak látjuk, mint a távolabb fekvőket. Ezért lehet térbeli jelzőmozzanat a kiterjedt mintázatokfinomsága: a macskaköves utat, a búzamezőt vagy a népgyűlésen összegyűlt tömeget a látott mintázat finomodásának irányában távolodónak érezzük. A részletgazdagság pedig a közelség benyomását kelti; autók hátán mindannyian láttuk már a Ha ezt el tudod olvasni, túl közel vagy! feliratot ábra. M. C. Escher hamis perspektívájú képe Tudjuk, hogy a Nap sugarai szóródnak a légkör molekuláin. Ez a szóródás a kék színhez közeli, rövidebb hullámhosszú sugarak esetén jelentősebb, ezért kék az ég. Ugyanígy szóródik a távoli tárgyakról, hegyekről visszaverődő és hozzánk érkező napfény is a közbenső vastag légtömegen, ezért a távoli tárgyak, hegyek képe elkékül (6.6. ábra). Az elkékülés mértéke annál nagyobb, mennél nagyobb a közbenső légtömeg vastagsága, azaz mennél távolabb van a látott tárgy. Ez a magyarázat arra, hogy szabadban a kékes tárgyakat távolinak érezzük. 114

129 6. FEJEZET Tér- és mélységészlelés 6.5. ábra. Finomodó mintázatok A légrétegen szóródó fény egyben csökkenti a kontrasztot, elmossa az éleket, és tompítja a színeket is. Ez a hatás párás időben fokozottan jelentkezik. Ismerjük az érzést, hogy tiszta időben közelebb a túlpart, és a táj homályos részei egyben távolinak is tűnnek. A légtömeg által okozott fényszóródás, a látvány elkékülése és a részletek elmosódása által kiváltott távolságérzésünket légtávlatnak nevezzük ábra. Elmosódó kék hegyek Tárgyak térbeli alakját jól jellemzik megvilágított és árnyékban maradó részleteik, a fény-árnyék határvonal, a saját árnyék, a fény játéka a csillogó és matt részleteken. A fekete-fehér fényképészet a megvilágítás, a fények és árnyékok plasztikus művészete (6.7. ábra). Kozmetikusok, sminkesek jól ismerik és tudatosan alkalmazzák a finom árnyalás technikáját az arc arányainak módosítására szélesebb orr vagy kiemelkedő, erősebb pofacsont eltüntetésére -, az arckifejezés, az összhatás megváltoztatására. 115

130 6. FEJEZET Tér- és mélységészlelés 6.7. ábra. Fény és árnyék (Csikvári Péter) 7.2. táblázat - A LÁTVÁNY FEJLŐDÉSE Nincs okunk abban kételkedni, hogy az emberi látás 5-10 ezer évvel ezelőtt is ugyanúgy működött, mint ma. Nyilvánvaló, hogy a legkorábbi civilizációk embere számára is érzékelhető volt környezetének térbeli elrendezése: érzékelte a közelebb-távolabb, az előtte-mögötte, a kisebb-nagyobb viszonyt. A távlat, a perspektíva szabályait, vagy legalábbis annak képi megjelenítését azonban, civilizációnk fejlődése során fokozatosan és meglepően későn tanultuk meg. Még a fejlett ábrázolási kultúrával rendelkező nagy ókori civilizációk, mint az egyiptomi (1. ábra), a görög vagy a római sem ismerték a térbeli mélység valósághű megörökítésének módját. Emberábrázolásaikban a méret nem a térbeli, hanem a társadalmi ranglétrán elfoglalt hely tükrözését szolgálta. Képeiken általában az egyes részletek legjellemzőbb nézeteit látjuk, sokszor egymáshoz képest természetellenes viszonyban. 1. ábra. Egyiptomi falfestmény Görög kancsók harci jelenetein tűnik fel a végtagok rövidülése, a síkból való kilépés nyilvánvaló szándékával. Elgondolkodtató, hogy építményeik viszont a perspektíva ismeretéről, sőt alakításáról, a látvány optikai torzulásának tudatos kompenzálásáról tanúskodnak. Periklész korában, a Kr. e. 5. században az athéni Akropoliszban Pallas Athénének, a város patrónusának tiszteletére épült, látványában tökéletes szabályosságot 116

131 6. FEJEZET Tér- és mélységészlelés sugalló hatalmas templom, a Parthenon számos finom perspektivikus trükköt tartalmaz: az oszlopok enyhén kúposak és befelé dőlnek, az oszlopsorok közepe meg van emelve, és kissé befelé ívelt. 2. ábra. A San Spirito-bazilika főhajója 3. ábra. Brunelleschi tervvázlata A középkori gótikus festészet már igyekszik a méretekkel és a képen belüli elrendezéssel érzékel- letr^jat éí by?lpvonii o nal í oe s^ine n^ilág felé szemét kitáró reneszánsz, a quattrocento festészete és építészete fedezte fel tudatosan és fejlesztette tökélyre a távlat, a látvány ábrázolását. A reneszánsz előfutárának és első nagy alakjának tartott festő és építész, Giotto di Bondone ( ), mint a firenzei katedrális építésének felügyelője, negatív perspektívájú, felfelé bővülő harangtornyot tervezett, hogy ellensúlyozza a magas épületekre jellemző látszólagos hátradőlést, és hogy az alulról szemlélő számára a torony minél magasabbnak tűnjék. A kifelé dőlő, a valóságosnál nagyobb méreteket sugalló épülethomlokzat hosszú századokra divattá vált, és számos példája ma is megtalálható Nyugat-Európa korabeli városaiban. A hatalmasra növekedett templombelsőket átívelő boltozatok és kupolák már a mai értelemben vett mérnöki 117

132 6. FEJEZET Tér- és mélységészlelés tervezést és tervdokumentációt rajzokat kívántak. A zseniális építész, Filippo Brunelleschi ( ) rajzolta először tervvázlataiban a térbeli párhuzamos éleket a horizont felé összetartó egyenesekként. A képen (2. ábra) a firenzei San Spirito- (Szentlélek-) bazilika főhajóját látjuk, és mellette a tervrajzot (3. ábra), melyen azt Brunelleschi a megrendelő városatyáknak bemutatta. Kortársa, Leon Battista Alberti ( ) olasz humanista, építész, akit az univerzális reneszánsz ember prototípusának tartanak, a reneszánsz művészet első teoretikusaként írásaiban már a látvány tudományos elemzésével is foglalkozik. Munkája századokra inspirálta a perspektíva valósághű ábrázolását; még 1719-ben is ót idézi Brook Taylor Londonban megjelent könyvének illusztrációja (4. ábra). 4. ábra. Perspektíva szerkesztése Alberti nyomán(1719) Leonardo da Vinci ( ) képei és műszaki vázlatai már a teljes perspektivikus eszköztár mesteri alkalmazásáról tanúskodnak. Feljegyzéseiből tudjuk, hogy a látvány szabályai, a távoli tárgyak látszólagos méretcsökkenése és halványodása különösen foglalkoztatták; a látványhú ábrázolást a művészi színvonal kritériumának tartotta. Canaletto ( ), a 18. század leghíresebb velencei festője számos briliáns perspektívájú látképe közül az egyiknek éppen a Perspektíva címet adta (5. ábra). 5. ábra. Canaletto: Perspektíva A térbeli illúziók ismeretére utal számos, mai is látható templomboltozati freskó, melyek a szemlélőben a valóságos méreteknél lényegesen tágabb tér érzését keltik. 118

133 6. FEJEZET Tér- és mélységészlelés 6. ábra. Kirchner sötét szobája 1646-ból 7. ábra. Hooke fényképezôgépe 1694-bôl Érdemes megemlíteni, hogy a valósághű ábrázolás, a vetületi perspektíva reneszánsz forradalmában jelentős szerepet játszott a sötét szoba (camera obscura) mint vetítési segédeszköz felfedezése a festészet számára. A kis lyukon keresztül a falra vetülő fordított képet már kétezer évvel korábban is ismerték Kínában, Arisztotelész pedig napfogyatkozás megfigyelésében alkalmazta a Kr. e. 4. században. Alberti munkájában találunk rá utalást, Leonardo pedig részletesen foglalkozott vele titkosírásos jegyzeteiben. Közismertté Giovanni Battista della Porta 1558-ban megjelent könyve tette. A camera obscura elnevezés Keplertől származik, aki a kép visszafordítására homorú lencsét helyezett bele. Használata a portré- és tájképfestók körében a következó századokban igen elterjedt; a kor számos fényképszerű látképe valószínűleg ezzel a technikával készült, amint azt Athanasius Kircher 1646-ból fennmaradt rajza (6. ábra) is tanúsítja. Robert Hooke 1694-ben az angol Királyi Társaságban hordozható camera obscurát javasolt utazók számára, melybe a fej és a vállak is beleférnek (7. ábra). Ezt a javaslatot tekinthetjük a mai fényképezőgép ősének és a fototurizmus kezdetének; különbség csupán a képrögzítés technikai részleteiben van. Fényképezéskor, hogy éles képet kapjunk, be kell állítanunk a tárgy tőlünk való távolságát a fényképezőgépen. Modernebb gépek már rendelkeznek az autofókusz-funkcióval, amely az exponálás pillanatában elvégzi a kép élesre állítását. Ehhez hasonlóan, szemünk optikájának az éppen látni kívánt tárgy képét kell élesre állítania retinánkon. Ezt a feladatot az akkomodációt agyi autofókusz-funkciónk a szemizmok segítségével végzi el. A kép fókuszálásának képessége egyben azt is jelenti, hogy egy tárgy képének az élesre állításával agyunk meg is méri az illető tárgy távolságát, és ez az információ hozzájárulhat a környezetünkről kialakuló észlelethez. Ahogy fényképezéskor a közeli felvételek érzékenyek a távolság pontos beállítására, az akkomodáció is a két méterig terjedő távolságtartományban játszik érdemi szerepet. 119

134 6. FEJEZET Tér- és mélységészlelés Sporteseményen tapasztalhatjuk, hogy azonos sebességgel mozgó versenyzők közül a közelebbi halad át gyorsabban látóterünkön, fejünket az után kell gyorsabban fordítani. Vonaton, autón utazva a közeli villanyoszlopokat, kilométerköveket rohanni látjuk visszafelé, kissé távolabb a házak és a fák már lényegesen lassúbbak, míg a távoli templomtorony szinte egy helyben áll. Vegyük észre, hogy ezért a jelenségért (amint azt a mozgásészlelésről szóló fejezetben majd tárgyaljuk) már a retina szintjén megfigyelhető eltérések is felelősek. A retinaképen lévő elmozdulások ugyanis olyan mozgáskomponensekből állnak, amelyek térileg átfedő helyeken, de az eltérő fixációs távolságok miatt más irányokban mennek végbe. Ilyenkor valójában nem a mozgás sebességét érzékeljük, hanem a látvány szögsebességét, azaz a látószögváltozást, az észlelt tárgynak látóterünkön való áthaladási sebességét. Azonos sebességgel mozgó tárgyak közül a közelebbi halad át gyorsabban a látótéren, hiszen annak nagyobb a szögsebessége. Ennek megfelelően, a gyorsabbnak látott mozgó tárgyat közelebbinek, a lassúbbnak látottat távolabbinak észleljük; a jelenség neve mozgási parallaxis Binokuláris (kétszemes) jelzőmozzanatok A térbeli helyzet eddig felsorolt jelzőmozzanatai egyetlen képen, egy szemmel mo- nokulárisan is érzékelhetők, kiértékelhetők. További fontos jelzést kaphatunk a tárgyak térbeli helyzetéről, ha ugyanarról a látványról egyszerre két különböző helyről is tudunk képet készíteni, mint például a kétszemes látás vagy a sztereofotózás esetében. Ilyenkor a két kép lényegében ugyanazokat a tárgyakat mutatja, ezek helyzete azonban egymáshoz képest illetve egy képen belül a kerethez képest többé-kevésbé eltérő lesz. (A mon- okuláris jelzőmozzanatok között tárgyalt mozgási parallaxis esetében is több, ugyan nem szigorúan egyidejű, de részleteikben eltérő kép szolgáltat kulcsot a térbeli mélységhez.) Jobban megfigyelve azt tapasztalhatjuk, hogy a tőlünk azonos távolságban lévő tárgyak egymáshoz képest ugyanabban a helyzetben maradnak, eltolódás csak különböző távolságra lévők között jelentkezik. Az eltolódás oka az, hogy míg az azonos távolságban lévő tárgyakat két szemünk mindig ugyanabban a szögben látja, a különböző távolságban lévő tárgyak látószöge a távolságtól függően más és más: növekvő távolsággal a látószög csökken (6.8. ábra) ábra. Azonos távolság azonos látószög, növekvő távolság csökkenő látószög Ha két szemünket felváltva behunyjuk-kinyitjuk, magunk is láthatjuk a tárgyak látszólagos elmozdulását. Ezt szemlélteti a 6.9. ábra. A legegyszerűbben akkor látjuk a viszonylagos eltolódást, ha két vékony tárgyat, például ujjainkat vagy ceruzákat helyezünk az egyik szemünk elé úgy, hogy az egyik eltakarja a másikat, majd szemet váltva tapasztalhatjuk, hogy a két tárgy képe egymáshoz képest elmozdul, a takarás pedig megszűnik. A jelenség neve binokuláris parallaxis. Tapasztalhatjuk, hogy minél közelebb van hozzánk egy tárgy, annál nagyobbnak látszik a neki megfelelő képi részlet mozgása. Ennek a tapasztalati logikának a megfordításával juthatunk el a kétszemes térlátás lényegi magyarázatához: ha két szemünk kissé eltérő képeket lát, akkor ezek részleteit a térben tőlünk más-más távolságban lévő tárgyakként érzékeljük; az érzékelt távolságok attól függenek, hogy a megfelelő képrészletek helye a két képen mennyire különbözik. (Mint látni fogjuk, ez a mechanizmus akkor is működik, ha nem is ismerjük fel, mit ábrázol a kép; ezért látjuk térben a véletlen-pont sztereogramot, amivel a későbbiekben részletesen foglalkozunk.) A parallaxis mellett további binokuláris jelzőmozzanatokhoz jutunk azzal, hogy két szemünkkel egy pontra nézünk. Ehhez agyunk a szemmozgató izmaink vezérlésével igyekszik a két szemet olyan, szükség szerint összetartó konvergáló helyzetbe hozni, hogy a nézett pont képe mindkét retinánk közepére, tehát a foveákra essen. A konvergencia mértéke kétszemes térbeli látásunkat segítő, járulékos információt szolgáltat: szemeink 120

135 6. FEJEZET Tér- és mélységészlelés enyhe összetartásából 6-10 méteren belül elegendő pontossággal meg tudjuk állapítani, milyen távolságra kereszteződnek szemsugaraink, hova nézünk ábra. Két szemünkben más a látvány, ha a tárgyak különböző távolságban vannak Ezzel áttekintettük térlátásunk legfontosabb jelzőmozzanatait, kulcsait. Mindezek azonban nem elegendőek ahhoz, hogy megválaszoljuk a hogyan látunk térben? kérdést. A szempillantás alatt működő, megszokott, mindennapi térérzékelés alapvetően más, mint a térlátás kulcsainak elemző tanulmányozása. A látvány ilyen elemzésére a mindennapokban nincs sem szükség, sem idő, sem elegendő agyi képfeldolgozó kapacitás. Hogy mégis képesek vagyunk térben látni, az nagyrészt annak köszönhető, hogy megtanultunk látni. 2. A megtanult látás a látvány szabályai Az előzőekben áttekintett, néhány egyszerű szabályt alkalmazva rendezi be látórendszerünk a környező teret: hátterükből kiragadva felismeri a látott tárgyakat, megbecsüli méretüket, és a térben különböző távolságokban elhelyezi őket. Ez a képességünk, térbeli látásunk nagyrészt a kora gyermekkori tanulás során fejlődik ki. A látás tanulása kezdeti gyors fejlődés után egyes vonatkozásaiban egészen a kamaszkorig eltart. (Állatkísérletekből tudjuk, hogy már a látott kép elemi értelmezése is tanulás eredménye: a kizárólag függőleges mintázatot mutató környezetben tartott kismacska később megbotlik a küszöbben, mert nem tanulta meg látni a vízszintest.) Környezetünkben élőlények és élettelen tárgyak mozognak, és mi is mozgunk hozzájuk képest. A közeledők retinánkra eső képének mérete egyre növekszik, a távolodóké csökken. Az elhaladókról, elfordulókról pillanatról pillanatra más szögből, más oldalukról érkezik kép a retinánkra. Az is előfordul, hogy bizonyos dolgokat csak részletekben látunk, ahogy egy macskát a kerítés mögött. Közben sok esetben, mint például felhős, szeles időben vagy lombos fák alatt napsütésben a megvilágítás és így a retinánkra érkező kép világossága is folyamatosan változik. Napszemüveget viselve vagy egy katedrális belsejében színes üvegablakok mögött még a szemünkbe érkező fény színe is megváltozik. Mindezen változatosság ellenére pillanatnyi kétség nélkül ismerjük fel a látottakat: méretüket, alakjukat, színüket és világos vagy sötét voltukat. Hogy a retinális kép sokrétű és folyamatos változékonysága mellett és ellenére is képesek vagyunk felismerni környezetünkben azt, ami állandó, és ezeket elválasztani a valóban változó mozzanatoktól, azt a látás tanulása során elsajátított konstanciáknak köszönhetjük. A konstanciák közös jellemzője, hogy egy-egy tulajdonság méret, alak, hely, szín vagy világosság megítélésében mind a tágabb képi környezet, mind a világról megtanult tapasztalat is szerepet játszik. A LÁTÁS FEJLŐDÉSE Az újszülött látása homályos, életlen Mivel az újszülött nem tudja elmondani, mit lát, látásának fejlődésére viselkedéséből, viselkedésének változásaiból következtethetünk. Képeket, tárgyakat mutatva neki, tekintetének követésével megfigyelhetjük, mi 121

136 6. FEJEZET Tér- és mélységészlelés az, amire gyakran, szívesen néz, és mi az, ami nem érdekli; miközben mérhetjük szívritmusát, elemezhetjük agyi elektromos jeleit. Az újszülöttek látása kezdetben homályos és életlen (lásd az ábrát), lényegében világos és sötét foltokra korlátozódik. Egy hónapos kortól már meg tudják különböztetni az éles kontrasztokat, érzékelik az arcok körvonalát, szívesen figyelik az összetett, részletgazdag alakzatokat. Három hónap után egyszerűbb idomok éleit, sarkait nézegetik, és felismerik az anyjuk arcát. Ötödik hónaptól már az idegen arcokat is megismerik. A három hónapos csecsemő már nézegeti kezeit is, követi mozgásukat, amihez kapcsolódóan a harmadik és hatodik hónap között kialakul a távolság, a mélység érzékelése. Már az első hónap után elkezdődik az a 8-10 évig tartó folyamat, melynek során megtanuljuk, hogy a látott, egészében vagy részleteiben gyorsan változó kép forrása általában egy lényegében állandó vagy csak lassan változó környezet. Ahhoz, hogy ebben a környezetben eligazodjunk, hogy megfelelően viselkedjünk, a veszélyeket elkerüljük, látásunk fejlődésével kialakulnak azok az alapvető szabályok a konstanciák -, melyek segítségével a változó képek mögött is képesek vagyunk meglátni a környezet állandó elemeit Nagyságkonstancia A környezetünkben mozgó tárgyak képének mérete folyamatosan változik a retinánkon: a közeledő tárgy retinális képe megnő, a távolodóé csökken. Ezért tekintjük a retinális kép méretét fontos távolsági jelzőmozzanatnak. A nagyságkonstancia érvényesülésének köszönhetően azonban, retinális képük méretének változása ellenére, magukat a tárgyakat folyamatosan és változatlanul ugyanolyan méretűnek észleljük. Egy tárgy felismerésekor ugyanis amellett, hogy azt perceptuálisan körülhatároljuk, kiragadjuk a hátteréből, egyben el is helyezzük benne, azaz a tárgy felismerése egyben térbeli helyzetének felismerését is jelenti. Látórendszerünk az észlelt méretet a retinális kép mérete és az észlelt térbeli helyzet együttes hatása alatt alakítja ki. Ez magától értetődik, ha meggondoljuk, hogy egy tárgy retinális képének mérete (6.10. ábra) közvetlenül tulajdonképpen nem a tárgy méretétől, hanem a tárgy látószögétől függ ábra. A retinális méret, azaz a látószög a tárgy méretétôl és távolságától függ. Ugyanannak a tárgynak a látószöge közelebbrôl nagyobb, távolabbról kisebb (a), azonos távolságból a nagyobb tárgy látószöge a nagyobb (b), és különbözô távolságból különbözô méretû tárgyak retinális képének mérete egyforma is lehet (c) Emmert törvénye szerint ahhoz, hogy a látószög ismeretében egy tárgy tényleges méretére következtethessünk, ismerni kell a tárgy távolságát is, amit a tárgy környezetét látva általában kellő pontossággal érzékelünk. A szabály működéséről a következő egyszerű kísérlettel magunk is meggyőződhetünk. Fehér számítógép-képernyő bal oldalára rajzoljunk egy 2 centiméter átmérőjű korongot, és nézzük meredten másodpercig. Ezután a képernyő jobb oldalára nézve látni fogjuk a korong utóképét, mely a retinánkba beégett. Előre-hátra hajlongva, a képernyőt közelítve, távolítva, az utókép méretének csökkenését, illetve növekedését fogjuk tapasztalni, aminek magyarázata az, hogy a változatlan méretű retinális utóképet mindig a képernyő távolságában, a képernyőn lévőnek észleljük. Azokban a ritka esetekben, amikor egy tárgy távolsága nem nyilvánvaló, amikor a távolság becslését a körülmények nem teszik lehetővé, a méretek becslésével is zavarba jövünk. Példa lehet erre egy ismeretlen tárgy fényképe, ha a képen nem látszik a környezet, vagy más ismert méretű tárgy. Hasonlóan zavarba jöhetünk holdmentes éjszaka, sötét autópályán felbukkanó tereptárgyak, átívelő hidak, hídpillérek közeledtekor is Alak-, hely- és mozgáskonstancia Környezetünk tárgyai a legkülönbözőbb nézetből, más-más oldalról és szögből, mozgás közben folyamatosan változó képet mutatva vetülnek retinánkra. A csukott, a félig vagy teljesen nyitott ajtó képe a retinán a téglalap mellett különböző szélességű trapéz vagy éle felől nézve az ajtó vastagságának megfelelő szélességű vonal is lehet. A számos különböző retinális kép ellenére tárgyaink mindig a maguk alakjában tudatosulnak; bármelyik szögből nézzük is, bármelyik képét látjuk is egy ajtónak, azt mindig téglalap alakú ajtóként észleljük. Egy mozi nézőterén legfeljebb egy olyan hely van, ahonnan a látvány ugyanaz, mint ami a felvevőgépből nézve volt. Bár az összes többi helyről többé-kevésbé torzult, a valóságban sehonnan nem látható képsort látunk (tehát, szemben az ajtó esetével, nem azt a látványt, mintha a valóságos helyszínt néznénk máshonnan), akárhol ülünk is, tudatunkban a torzulásmentes cselekmény jelenik meg. Az alakkonstancia lényege az, hogy látórendszerünk egy retinális kép sok lehetséges értelmezése közül mindig a legvalószínűbbet választja, aminek alapja a látás 122

137 6. FEJEZET Tér- és mélységészlelés tanulásában gyökerezik. Hogy agyunkban a látványhoz választott alak valóban a maga térbeliségében tükröződik, a következő egyszerű kísérlettel (Shepard-Metzler 1971) bizonyíthatjuk: ha két egymáshoz hasonló, térben elforgatott, összetett alakról melyek vagy egyformák, vagy egymás tükörképei (6.11. ábra) el kell dönteni, hogy egyformák-e, a döntéshez szükséges idő azzal a térbeli szöggel arányos, mellyel az egyik alakot el kell forgatnunk ahhoz, hogy a másikkal fedésbe hozzuk. Ez arra utal, hogy agyunkban egy látványhoz nemcsak hozzárendelünk egy térbeli alakot, hanem ennek az alaknak a különböző nézeteit is tudjuk mentálisan kezelni. (Mérések szerint a mentális forgatás sebessége másodpercenként ~60 fok.) ábra. Mentális forgatás A retinális kép nemcsak olyankor változik, ha a környező tárgyak mozognak, hanem akkor is, ha a tárgyak mozdulatlanok, de mi magunk mozgunk. Ilyenkor a kép egyes részletei a mozgási parallaxis szerint egymáshoz képest is elmozdulnak, ami távolsági jelzőmozzanatként segít a látott tárgyak térbeli elhelyezésében, és segít saját mozgásunk érzékelésében is. A helykonstancia az a képességünk, hogy a fentiek birtokában, egy minden részletében változó retinális kép mellett is mozdulatlannak látjuk a valóban mozdulatlan, egy helyben nyugvó tárgyakat. Ráadásul a valóságban is mozgó tárgyak mozgását is képesek vagyunk helyesen megítélni, miközben magunk is mozgásban vagyunk. A hely-, alak- és mozgáskonstancia hátterében látórendszerünkben a környező világból leszűrt néhány egyszerű feltételezés, szabály látszik működni, melyek szerint: a látott tárgyakról egyenes vonal mentén érkezik szemeinkbe a fénysugár; a tárgyak általában szilárdak, azaz részeik együtt mozognak; a tárgyak általában sima, többé-kevésbé egyenes pályán mozognak, és mozgás közben létük folyamatosan fennáll; a mozgó tárgy haladás közben eltakarja a hátterét, mely a tárgy elhaladtával újra előtűnik. Ezek a szabályok nemcsak azt biztosítják, hogy a folyamatosan változó látványt az esetek döntő többségében helyesen értelmezzük, hanem azt is, hogy mindezt a látvány által hordozott irdatlan mennyiségű képi információ töredékét feldolgozva vagyunk képesek elérni táblázat - A HOLD -ILLUZ10 Méret- és távolságbecslésünkhöz kapcsolódik a felkelő és lenyugvó Holdat, Napot vagy érzékelhető kiterjedéssel rendelkező más égitesteket szemlélve tapasztalható, általánosan ismert, igen érdekes jelenség, a Hold-illúzió, mely szerint közvetlenül a látóhatár felett nagyobbnak és közelebbinek látjuk az égitesteket, mint magasan a fejünk felett, a zeniten. A Hold-illúzió valószínűleg a legrégebben megfigyelt és lejegyzett természeti jelenség, melynek okára ráadásul a mai napig sem sikerült kielégítő tudományos magyarázatot találni. Az első írásos utalások a ninivei királyi könyvtár Kr. e. 7. századból származó agyagtábláin találhatók, de korai kínai és görög források is tárgyalják. Arisztotelész és Ptolemaiosz óta, Leonardo da Vincin és Descartes-on keresztül szinte minden neves filozófus és természettudós foglalkozott vele. A korai elméletek szerint a jelenség valójában nem illúzió: a légköri torzítások valóban nagyobbnak láttatják az égitesteket a látóhatár közelében, mint feljebb. Az érzéki csalódás lehetősége először a 11. században élt arab tudós, Abu- Ali Haszan Ibn al-haiszam (Alhazen) elméletében jelenik meg, mely szerint az égboltot nem szabályos félgömbnek, hanem a tetején belapultnak érezzük (1. ábra). Az azóta is népszerű elméletben az ugyanolyan látószögben látott égitesteket a közeli zeniten az Em- mert-törvény szerint kisebbként észleljük, mint a 123

138 6. FEJEZET Tér- és mélységészlelés látóhatáron, az égbolt távolabbi peremén. 1. ábra. A Hold képe, ahogy Alhazen belapult égbolt -elmélete szerint érzékeljük A 17. században Kepler, aki mind a csillagászatban, mind a szem optikájában járatos volt, már egyértelműen kizárta a jelenség fizikai okokra visszavezethető magyarázatát. Azóta számos elmélet született, melyek két csoportba sorolhatók: a retina előtti fiziológiaiba és a retina utáni pszichológiaiba. A számos elmélet ellenére a Hold-illúzió megfejtése még napjainkban is kutatott, nyitott tudományos kérdés; tanulságos ezért röviden áttekinteni a kapcsolódó tényeket és a főbb hipotéziseket. Sokak tapasztalata, hogy a felkelő Holdat nagyobbnak, hozzávetőlegesen másfélszer akkorának, ugyanakkor lényegesen közelebb lévőnek látjuk, mint a fejünk felett lévőt. Az a tény, hogy a felkelő Holdat egyszerre látjuk nagyobbnak és közelebbinek, ellentmond a belapult égbolt -magyarázatnak, mivel az a változatlan retinális kép mellett a méret észlelt növekedését növekedő távolsághoz kapcsolja. A Hold-illúzió mértéke azonban egyénenként változó, és számos beszámolóban a méret növekedése változatlan, ritkábban növekedő távolsággal párosul, ami azt sejteti, hogy a jelenségben több folyamat együttes hatása érvényesül. Ráadásul az illúzió meg is szűnik, ha a Holdat két ujjunk közé csippentjük, vagy vékony csövön keresztül, vagy akár megfordulva és lehajolva, a lábunk között nézzük, ami a távoli táj látványának kétségtelen szerepére utal. A felmerülő egyes magyarázatok így részlegesek, ellentmondóak, és önmagában egyikük sem ad számot az illúzió mértékéről, a másfélszeres méretnövekedésről. Egyszerűen ellenőrizhető, hogy a Hold-illúzió valóban észlelési csalódás: a Hold képe az égbolt minden pontján azonos méretben látszik, ahogy ezt az emelkedő Holdat ábrázoló fényképsorozat bizonyítja (2. ábra). (Egészen pontosan, a látóhatáron a Hold képe néhány százalékkal kisebb, mint a zeniten, mivel a holdpálya középpontja a Föld középpontjában van, és így a tetőző Hold a Föld felszínén álló szemlélőhöz egy földsugárnyival közelebb van, mint a felkelő.) 124

139 6. FEJEZET Tér- és mélységészlelés 2. ábra. A felkelő Hold Számosan keresték a jelenség magyarázatát a szemek, szemizmok eltérő állapotában, ami az előre- és a felfelé nézésben áll elő. Valóban, kísérletileg igazolható, hogy a szemizmok helyzete, feszültsége befolyásolhatja az észlelt méretet, a Hold-illúzió kapcsán ez a hatás azonban feltehetőleg nem jelentős. Számos elmélet egyetért abban, hogy a Hold-illúzió alapvetően a látószög észleléséhez kapcsolódik. Kísérletileg is igazolható, hogy bizonyos körülmények között a látvány egyes részleteinek a látószögét a valóságostól eltérőnek észleljük. Közeli tárgyak esetében az észlelt látószög kisebb a szemtől mérhető szögnél, aminek oka lehet, hogy az észlelt látószögnek a fej forgatásában van szerepe. Mivel a fej forgástengelye hozzávetőleg 10 centiméterrel a szemek mögött van, a fejet valóban kisebb szögben kell fordítani, mint ami a szemeknél mérhető. Fordított jelenség tapasztalható, amikor nagy távolságokban látható tárgyak látószögét kell felszíni részletektől mentes tájon megítélni, ahol a távolságbecslésünk nem támaszkodhat a közbenső tereptárgyakra és textúrára. Tengeren, több kilométer távolságból végzett kísérletek tanúsága szerint ilyen körülmények között a látószöget jelentősen, akár 50 százalékkal is túlbecsülhetjük, ami a felkelő Hold látszólagos méretnövekedésével egybevág. Másrészt felszíni részletek jelenlétében is jelentkezik az észlelt látószögnek az Ebbinghaus-illúzióra emlékeztető bizonyos mértékű növekedése, a távolsággal egyre finomodó textúra hatására. Hajlamosak vagyunk ugyanis a környezetük tipikus méreteinél nagyobb tárgyakat a valóságosnál is nagyobbnak, a kisebbeket pedig kisebbnek érzékelni; Gullivert Liliputban nagyobbnak, Brobdingnagban kisebbnek látjuk, mint amekkora. A magyarázat további elemeit a hétköznapitól eltéró körülmények, a sötétség, az üres tér, a nagy távolság hatásában lehet keresni. A kitáguló pupilla, a szem sötétben megváltozott viselkedése, a romló optikai tulajdonságok miatt eleve elmosódottabb, így megnövekedő kép vetül a retinára. Ismert jelenség emellett az éjszakai rövidlátás és az ürestér-rövidlátás : sötétben és részletekben, látnivalóban szegény helyzetekben a szemek hajlamosak közelre, néhány méterre nézni, ami a szemizmok mozgatásához kapcsolódóan az észlelt tárgyak mérettorzulását okulomotoros mikropszia eredményezi. A nézett ponton túl a tárgyakat a valóságosnál kisebbnek látjuk, ami magyarázhatja a zeniten lévő Hold csökkent méretét. Egyes kutatók szerint a jelenség számos más esetben is fellép, ennek tulajdonítják például az esőben, vizes szélvédő mellett történő balesetek egy részét, amikor a fellépő mikropszia hatására a vezető rosszul becsüli fel a távolságot. A jelenség fordítottja az okulomotoros makropszia: a nézett pontnál közelebb eső tárgyakat a valóságosnál nagyobbnak észleljük; egyes kutatók a látóhatár megnövekedő Hold-képét ehhez az illúzióhoz kapcsolják. Az okulomotoros mikropszia-makropszia jelenséget elsőként Sir Charles Wheatstone ismerte fel 1852-ben, az általa korábban feltalált sztereoszkóppal végzett kísérletezés 2.3. Szín- és világosságkonstancia Amatőr fotósok gyakran szemlélik csalódottan alkonyaikor, belső térben vagy neonfénynél készített színes diáikat, filmjeiket a vörösbe, zöldbe, kékbe hajló képek láttán. Pedig valójában ezek a képek tükrözik hűen azokat a színviszonyokat, melyek a kép készítésekor fennálltak, a lefényképezett tárgyakról valóban a képeken látható színű fények érkeztek a fényképezőgép lencséjébe, bár a fényképész nem ilyen színeket látott. Egy tárgy színének azt tekintjük, amilyennek fehér fényű megvilágításban látszik, és ez attól függ, hogy a színspektrum egyes részeit milyen arányban veri vissza. A megvilágítás azonban sok esetben nem fehér színű, így a visszaverődő fény színe is más lesz, és ez az, amit a fényképek mutatnak. Modern, digitális kamerákon már 125

140 6. FEJEZET Tér- és mélységészlelés beállíthatjuk a külső megvilágítás típusát mesterséges fényt, higanygőzlámpát, és a kamera ehhez illeszkedően korrigálja a színeket. A valóságot jobban közelítő színeket kapunk attól a kamerától, melynek megmutathatunk egy fehér azaz általunk fehérnek látott felületet, amiről a kamera pontosan megmérheti az uralkodó megvilágítás színösszetevőit. Valami hasonló történik az emberi látórendszerben is; egy-egy részlet színének kialakulásában az arról érkező fény színe mellett a teljes látótérből, más részletekről érkező színek is szerepet játszanak azzal, hogy együtt lehetővéteszik a megvilágítás színének megbecslését. Ennek köszönhető a színkonstancia, azaz, hogy ritka kivételektől eltekintve a tárgyak színét a legkülönbözőbb világítási körülmények között is jól meg tudjuk ítélni: azonosnak látjuk, nem pedig olyannak, mint amilyennek színhibásnak tartott fényképeink mutatják. A különböző megvilágítási körülmények között is jól működő színészlelésünkhöz hasonlóan, félhomályban és fényes napon is egyformán jól érzékeljük egy felület világosságát, egy tárgy világos vagy sötét voltát. Világosnak tekintünk egy felületet, ha a ráeső fény nagy részét visszaveri, és sötétnek látjuk, ha csak kicsi a visszaverődő hányad. Ez az ítéletünk nem függ a megvilágítás mértékétől: ugyanazt a világos felületet mind erős, mind gyenge fényben világosnak látjuk, a sötét felületet pedig sötétnek, bár nyilvánvaló, hogy erős fényben egy sötét pontról is több fény érkezhet a szemünkbe, mint gyenge fényben a világosról. Az egy-egy pontról érkező fény érzékelése mellett azonban a látórendszer a környezetről beérkező fénymennyiséget átlagolja, és ehhez az átlaghoz képest ítéli meg és észleli az egyes pontok világosságát. Látórendszerünknek ez a képessége a világosságkonstancia. Érdemes megjegyezni, hogy különleges körülmények között a világosságkonstancia hibázhat. Sötét szobában felfüggesztett és keskeny fénysugárral megvilágított fekete felület fehérnek látszik (Gelb-effektus), és ennek fordítottjaként, jól megvilágított környezetben felfüggesztett fehér felület, melyre árnyék vetül, feketének látszik (Kardos-effektus). A látás tanulása során a konstanciákra és jelzőmozzanatokra építve sémákat alakítunk ki, aminek előnye egyrészt az, hogy ezekbe azután könnyen és gyorsan be tudunk sorolni egy-egy látványt, másrészt gondolkodás nélkül tudjuk, hogy egy-egy sémához milyen értelmezés, esetleg cselekvés tartozik. Arra is van példa, hogy a megtanult sémákba nem illeszkedő látványról egyszerűen nem veszünk tudomást, vagy kicseréljük egy ismerős látványra. Ilyen esetekben a látvány helyes értelmezéséhez szükséges idő a sokszorosa annak az időnek, amit egy megtanult sémába illeszkedő látvánnyal töltünk. A szokatlan látvány elemzésére fordított jelentős többletidő rávilágít látórendszerünk működésének gazdaságossági oldalára: a látás evolúciójának kulcsfontosságú tényezője volt a rendelkezésre álló agyi képfeldolgozó kapacitás korlátozott volta. Bár mindennapi tapasztalatunk azt sugallná, hogy látásunk alapján egy meglehetősen pontos és folyamatos képünk van fizikai környezetünkről, valójában a látórendszer a környezetből csupán annak és csak annak a képi információnak a kinyerését vállalja, amire tudatosan figyelünk, vagy amire cselekvésünk irányításához szükség van. Meglepő kísérletek bizonyítják, hogy pillanatnyi figyelemelterelés után beszélgetőpartnerünk cseréjét sem feltétlen vesszük észre, vagy erősen figyelve egy sportesemény részleteire, nem tűnik fel, amint egy majomjelmezes civil átsétál a színen. 3. Néhány elemi illúzió a szabályrendszer kivételei Előfordulhat, hogy az elénk kerülő látvány nem értelmezhető helyesen megtanult látási szabályaink alapján, vagy a különböző szabályok ellentmondó értelmezésre vezetnek. Ha látórendszerünk ilyenkor egy téves értelmezést választ, illúzióról beszélünk. így, amikor illúziót akarunk láttatni, egyszerűen csak egy vagy több tanult szabálynak ellentmondó, azok szerint csak hibásan értelmezhető látványt kell előállítanunk. Bármilyen egyszerű is egy illúziót kiváltani, igen tanulságos és számos esetben a hihetetlenségig meglepő, hogy vizuális illúzióink mennyire erősek, mennyire hiszünk a szemünknek, még akkor is, ha pontosan tudjuk, hogy becsap minket. Az illúziók vizsgálata így megtanult látási szabályaink tanulmányozásának és megismerésének hatékony eszköze. Shepard képe (6.12. ábra) két teljesen egyforma alakot mutat, amint egyikük egy alag- útban menekül a másik elől. Az alagút lineáris perspektívája, valamint az, hogy a közelebbi alak a kép alsó részében van, a távolabbi pedig középtájon, határozott térbeliséget sugall. Itt az illúzió abban áll, hogy az üldöző képét a menekülő képénél nagyobbnak ítéljük. Az illúzió egyben érzelmi tartalmat is hordoz: még ha tudjuk is, hogy a két alak valójában nem különbözik egymástól, az üldöző arcán kegyetlenséget, a menekülőén rettegést érzünk tükröződni. 126

141 6. FEJEZET Tér- és mélységészlelés 6.12 ábra. A két alak valójában teljesen egyforma A ábrán változó szürkeségű kerek foltokat látunk. Megszoktuk, hogy mivel a fény általában felülről érkezik, az árnyak lefelé vetülnek, így a tárgyak felül világosak, és alsó részük árnyékos. Az ábra kerek foltjait ezért térbelinek látjuk mélyedéseknek vagy domborulatoknak, sötét és világos részük elhelyezkedésével összhangban. Megpróbálhatunk arra gondolni, hogy a fényforrás alul van; ha sikerül, akkor a bemélyedések és kiemelkedések szerepet cserélnek. Tartósan általában nem sikerül: más térbeliséget sugalló jelzőmozzanat hiányában a felülről érkező fény megtanult szabálya erős illúziót kelt ábra. A változó szürkeségű foltokat felülrõl megvilágított domborulatoknak és mélyedéseknek látjuk Más a helyzet, ha az illúzió eredménye a megszokott és belénk gyökerezett más tapasztalattal ellentmondásba kerül. Az emberi arc térbelisége ilyen, mélyen gyökerező tapasztalat. A Csodák Palotájában kiállított szobor felülről megvilágított gipsz negatívját alulról világított pozitívnak látjuk, annak ellenére, hogy még a fényforrás helyét is mutatja a tárló üvegén megcsillanó vakufény (6.14. ábra). 127

142 6. FEJEZET Tér- és mélységészlelés ábra. Mellszobor és negatívja A világosság mellett a tárgyak színe is befolyásolja a térbeli elrendezés megítélését. Az olyan tárgyakat, felületeket, melyek kékközeli úgynevezett hideg színűek, távolabbinak érezzük, mint a vörösközeli meleg színűeket. Világoskék falú szobát nagyobbnak látunk és hidegebbnek érzünk -, mint a narancssárgára festett ugyanolyan méretűt. Televízió és számítógép képernyőjén, főleg élénk színű, összefüggő nagyobb szegmenseket látva amilyen például szövegek háttere a teletextben -, gyakran érezzük azt, hogy a kép különböző színű részletei más-más térbeli távolságban vannak. Ennek az illúziónak a neve színmélység (bár manapság ez a fogalom a számítógépképernyők színvisszaadó képességét jellemző paraméterként él a köztudatban) ábra. a) Az ikrek a tégla alakú, eredeti szobában. b) A szoba észrevehetetlen változása. c) Az ikrek a sarkokkal mennek. d) A változatlan szobában az ikrek bal oldali tagja törpe, a jobb oldali óriás lett Térlátásunk alapkérdésére világít rá az Ames-szoba-illúzió: elvileg végtelen sok, különböző, egymásra nem is hasonlító térbeli elrendezésnek lehet ugyanaz a retinánkra vetülő képe. Így ezeket a valójában különböző alakzatokat egy alkalmas pontból nézve egyformának látjuk, amint azt Helmholtz már ötven évvel az Amesszoba elkészítése előtt felismerte. Megfordítva, bármely térbeli tárgy pontjait szemsugarunk mentén gondolatban különböző mértékben eltolva, a retiná- lis kép megváltozása nélkül juthatunk új formákra. Az Ames-szoba (6.15. a-d ábra) készítésekor egy hagyományos, üres szoba falán fúrt kémlelőlyukból indított szemsugarak mentén toljuk el a túloldali sarkokat és éleket. Az így kapott szoba már nem tégla alakú, és elmozdított falai már nem téglalapok, padlója és mennyezete nem vízszintes. A távolabbra került sarokban a szoba egyben magasabb is lett, mint eredetileg volt, a közelebbre húzottban pedig alacsonyabb. Ennek ellenére, egy szemmel a kémlelőlyukon belesve retinális képünk változatlan marad. A megkülönböztethetetlen retinális képek miatt látórendszerünk a szobát természetesen változatlanul tégla alakúnak ítéli. Az illúzió igazán meglepő része akkor következik, amikor két egyforma magas személyt állítunk a szoba két sarkába, akikhez mérve azonnal láthatnánk a változást, azaz, hogy a távoli sarok magas, a közeli pedig alacsony (6.16. ábra) Kiderült azonban, hogy képtelenek vagyunk a szobát valóságos alakjában látni; amit ehelyett látunk, az az eredeti szoba, egyik sarkában egy törpével, másikban egy óriással. Ráadásul, ha a két személy helyet cserél, a látványt tudatunk úgy értelmezi, hogy a törpe megnő, és az óriás összezsugorodik. Ez akkor is így van, ha egyébként pontosan tudjuk, hogy mi az, amit látunk. 128

143 6. FEJEZET Tér- és mélységészlelés ábra. Egy valódi Ames-szoba Az Ames-szoba-illúzió is rávilágít arra, hogy mennyire meghatározza látásunkat a megtanult tapasztalat. A látáskutatás klasszikusai szerint látórendszerünk feladata nem más, mint hogy a látott képek sok lehetséges értelmezése közül kiválassza azt, amelyik a tapasztalatunk szerint a legvalószínűbb, azaz kitalálja, hogy melyik az a külső világ, ami a látottakat a legjobban magyarázza. A derékszögű sarkokkal rendelkező, téglatest alakú szobák világa mélyen belénk rögzült séma. (Érdekes kérdés, hogy barlanglakó őseink milyen eredményre jutnának az Ames-kísérlettel?) 4. A kétszemes látás Az Ames-szoba illúzió lényeges eleme, hogy egyetlen pontból, egy szemmel látjuk a teret. Az akkomodáció és a légtávlat jelzőmozzanataitól eltekintve, egy pontból valóban végtelen sok, különböző térbeli alakzat egyformának látszhat, és elvileg nem tudjuk eldönteni, hogy egy látvány valójában milyen alakzatot takar. Ha van egy másik pontunk is, ahonnan a kérdéses alakzatot megnézhetjük, az onnan látható másik képhez szintén végtelen sok, különböző térbeli alakzat tartozhat. (A lehetséges különböző térbeli alakzatok között természetesen mindig van síkbeli is, ami egyben a látott kép, de ilyen az alakzat fényképe vagy egy róla készült realista festmény is.) A ábra vörös és kék színnel mutatja a látott képekhez rendelhető térbeli alakzatok két sorát. A térbeli változatok két végtelen sokaságában azonban csak egyetlen olyan alakzat van és egy mindig van -, mely mindkét sokaságban megtalálható, közös. Ez a közös alakzat a valódi tárgy (amit az ábra lila színnel mutat), és ez az, amit két szemmel a térben látunk ábra. Két pontból nézve egyértelmű a látvány Kétszemes térbeli látásunk lényegi alapja a két retinális kép finom különbsége, a binokuláris diszparitás. Bár látásunk működése már az ókorban is foglalkoztatta a tudósokat, és természetesen felismerték, hogy a két szem más-más képet lát, a képi különbség szerepe meglepően későn tudatosodott. Az állati test, a szem és az agy anatómiájával már a történelem előtti pásztornépek is tisztában voltak. Időszámítás előtt 400 körül Hippokratész már ismerte a látórendszer fő funkcióit. A szem optikáját először Kepler írta le 1604-ben, a látvány agyi leképezésének gondolatát pedig Descartes vetette fel ben. A kétszemes térbeli látás mechanizmusának 129

144 6. FEJEZET Tér- és mélységészlelés felismerése is Kepler nevéhez kapcsolódik, aki a Föld és a csillagok távolságának méréséhez már a binokuláris ez esetben stel- láris parallaxis elvét használta. A méréshez szükséges két kép a földpálya két átellenes pontján készült az égboltról ben veti fel Joseph Harris, hogy az emberi térlátás alapja a két szem által látott két kép különbözősége lehet. Azt, hogy valóban létezik a képi különbségeken alapuló emberi térlátás, csak ban bizonyította be kísérletileg Whe- atstone a sztereoszkóp egy egyszerű tükrös szerkezet elkészítésével, mellyel két különböző képet tudott a két szembe vetíteni. Wheatstone-t követően a sztereoszkóp óriási közönségsikert aratott: a sztereokép-készítés később a sztereofotózás hosszú időre népszerű, divatos hóbort lett. A másképp szinte észrevehetetlen finom képrészletek a térbe kipattanva ma is elbűvölik a szemlélőt ábra. A Vieth Müller-kör és a horopter A kétszemes térlátás biológiai alapja az egymásnak megfelelő pontok léte a két retinán. Ilyen egymásnak megfelelő pontok a foveák, a retinák éles látási pontjai, melyekre annak a térbeli pontnak a képe vetül, amelyre éppen ránézünk, fixálunk. A többi térbeli pont, mely az éppen fixálttal azonos szög alatt látszik, a térlátásban különleges szerepet visel. A térbeli felületnek, melyen ezek a pontok előttünk elhelyezkednek, horopter a neve. (A két szemből azonos szög alatt látszó pontok a geometria szabályai szerint tóruszfelületet alkotnak, melynek vízszintes síkmetszete a Vieth-Müller-kör [6.18. ábra]. A szem valóságos a geometriai lyukkamerától eltérő optikája miatt a horopter laposabb, mint a Vieth-Müller-kör, és azon kívül fekszik.) Látórendszerünk kialakulása, szemünk optikája gondoskodik arról, hogy a horopter pontjai is egymásnak megfelelő pontokra essenek a két retinán. Két szemünk egymásnak megfelelő pontjairól érkező idegi ingerek agyunkban páronként összetalálkoznak, összekapcsolódnak, és így ezeket egyetlen képpontként látjuk. Más szóval, a horopter az, amit elsődlegesen egyetlen képként látunk. Hogy az önálló képpontok egységes képpé állnak össze, abban fontos szerepe van annak a ténynek, hogy szemeinkből agyunk felé haladva a képi szomszédosság megőrződik, ezáltal a retinánkon keletkező kép agyunkban is retinotopikus kép marad. Ahogy retináinkat valóságos, optikai képernyőnek tekinthetjük, úgy beszélhetünk agyi képernyőről is. (Hogy ez az agyi képernyő nemcsak egy szemléletes szóhasználat, hanem a valóságban is létezik, és még mikroszkóp alatt is láthatóvá tehető, azt már a látáskutatás korábbi fázisaiban, meglehetősen kegyetlen, a mai törvények által már tiltott állatkísérletekkel bizonyították.) Ráadásul az agyi képernyő összerendezve, együtt tartalmazza mindkét retinaképet, ezért csíkozott (6.19. ábra). A szomszédos csíkok felváltva a jobb és a bal szem képét hordozzák. Az egymásnak megfelelő retinapontok mindig szomszédos csíkokhoz kapcsolódnak, így a két szemben keletkező két kép együtt mozaikszerűen vesz részt a közös agyi kép kialakításában. (Ez a csíkozott agyi képalkotás igen gazdaságos idegi működést tesz lehetővé: azok a képi részletek, melyeknek a látványban egymáshoz köze lehet, az agyi képben is mindig közel vannak egymáshoz, így a kép értékeléséhez nem kell bonyolult ideghálókat, távoli kapcsolatokat kiépíteni.) 130

145 6. FEJEZET Tér- és mélységészlelés ábra. A két szem képének agyi közösítése a fehér területekre a jobb, a feketékre a bal szem képe érkezik (majomagyi látókéreg kivasalt részlete) A fixált pontnál illetve a horopternél lényegesen közelebb vagy távolabb lévő más pontok képeit, melyek sem a retinán, sem az agyi képben nem esnek egymásnak megfelelő pontok közelébe, agyunk nem kapcsolja egybe, ezeket duplán látjuk (kettős látás). Ha magunk elé tartott ujjúnkra nézünk, megfigyelhetjük, hogy mögötte az ajtókilincs vagy a könyvespolc két példányban látszik. Ajelenség csak azért nem zavaró, mert megszoktuk, és nem figyelünk rá. Van azonban a fixált pont előtt és mögött a térnek egy kettős rétege, mely szendvicsként fogja közre a horoptert, ahonnan a pontok képe ugyan nem egymásnak megfelelő pontokra esik, de hozzájuk mégis elegendően közel ahhoz, hogy agyi képünkben is fel tudjuk fedezni a hasonlóságot. Ez az a sáv, ahol a látvány két képét összeolvasztjuk (fuzionáljuk), és a tárgyakat valóban a maguk térbeli mélységében érzékeljük; ez a sztereolátás (6.20. ábra). (Az agyi kép csíkozottságának szerepét ebben a funkcióban értékelhetjük igazán: ez teszi lehetővé, hogy egyszerű, egyenként csak néhány csíkot lefedő, diszparitásérzékeny idegsejtcsoportokkal képesek vagyunk a helyi hasonlóságokat azaz valójában a térbeli mélységet érzékelni. Aszerint, hogy milyen viszonylagos helyzetben lévő csíkokhoz kapcsolódnak, vannak azonos távolság -sejtek, előtte -sejtek és mögötte -sejtek.) A sztereolátásban szerepet játszó idegrendszeri szerveződések meglétét Panum igazolta méréssel 1858-ban; ezeket róla Panum-mezőknek nevezik. A Panummezők mérete egyértelmű kapcsolatban van azzal a térbeli sávval a sztereomélységgel melyen belül sztereolátásunk működik ábra. A térlátás agyi képe: szilvát nézzük, szõlõ és banán azonos szög alatt ( megfelelõ pontok) = egyetlen kép; cseresznye, egres sztereomélységen belül = egyetlen fuzionált kép (mélységérzettel); áfonya, ribizli túl közel/messze = kettõs kép (nem figyelünk rá) Azaz, bár úgy tűnik, hogy magunk körül a teret a maga teljességében észleljük, tényleges sztereolátásunk melynek alapjai apró képmozaikok helyi hasonlóságának elemi felismerésében gyökereznek valójában egyszerre csak a látott tér kis térfogatára korlátozódik táblázat - JULESZ BÉLA 131

146 6. FEJEZET Tér- és mélységészlelés Julesz Béla 1928-ban született Budapesten ben a Budapesti Mü- szaki Egyetemen szerzett friss diplomájával villamosmérnöki pályáját a Távközlési Kutatóintézetben kezdte ban védte doktori értekezését, melynek témája a mikrohullámú rendszerek és a televíziójel elmélete volt. Ezt követően az Egyesült Államokban, a Murray Hill-i Bell Laboratórium munkatársaként érdeklődése az agyi képfeldolgozás irányába fordult ban a random-dot (véletlen-pont-) sztereopár kidolgozásával olyan új felfedezést tett, mellyel gyökeresen megváltoztatta a térlátásról alkotott addigi nézeteket, és egyben új, hatékony eszközt adott a modern látáskutatás kezébe. Munkássága, mely kutatói generációknak mutatott irányt és adott inspirációt, a kísérleti pszichológia, az emberi látórendszer megismerése, a térbeli mélység észlelése és az alakfelismerés területén meghatározó jelentőségü. Eredményeit több mint kétszáz tudományos közleményben adta közre; 1971-ben publikálta alapvető, azóta is nagy hatású könyvét a két szem képét egyesítő emberi térlátásról, melyet homéroszi metaforával, Odüsszeusz ellenfele, az egyszemü óriás Küklopsz után küklopszinak nevezett. A Dialógusok az észlelésről címmel 1995-ben megjelent könyve magyar nyelven is olvasható. Munkásságát a szakmai közélet számos díjjal és tudományos társasági tagsággal ismerte el; 1983 óta volt a Magyar Tudományos Akadémia tiszteleti tagja. A New Jersey-beli Rutgers Egyetem nyugalmazott professzoraként, az egyetem Látáskutató Laboratóriumának alapító igazgatójaként december 31-én hunyt el. 5. A Julesz-féle sztereopár Láttuk, hogy a kétszemes emberi térlátás alapja a két retinális kép finom különbsége, ami a szemek helyének néhány centiméternyi távolságából következik. Az egyes tárgyak helye a két képben annál jobban eltér, mennél közelebb van hozzánk az illető tárgy, amint azt magunk is tapasztalhatjuk, ha szemeinket váltogatva nyitvacsukva nézünk különböző távolságban lévő tárgyakra. A Julesz-féle random-dot (véletlen-pont) sztereopár leírását megelőzően nyilvánvalónak tűnt, hogy a térlátást megelőzi a felismerés: először mindkét szemben azonosítjuk a látvány egyes elemeit, a látott tárgyakat, és tudatunk csak ezután helyezi őket valódi térbeli mélységükbe, viszonylagos eltolódásuk diszparitásuk alapján. Julesz zseniálisan felismerte és a sztereopár segítségével bebizonyította, hogy a térbeli mélység érzékelése független a felismeréstől: térbeli mélységet akkor is képesek vagyunk érzékelni, ha külön-külön a két retinális képen egyáltalán nincs mit felismerni. Ahogy minden sztereokép, a Julesz-féle sztereopár is két képből áll, egyik a bal, másik a jobb szem számára. Az egyik kép, például a bal, egy tetszőleges, véletlen mintázat, mint egy fehér papírra szórt marék mák. Ebből kiindulva készül a másik, a jobb oldali, oly módon, hogy a mintázat bizonyos részleteit kivágjuk, és kicsit jobbra vagy balra eltoljuk aszerint, hogy az illető részlet látványát a térben közelíteni vagy távolítani kívánjuk. (Az így üresen maradó sávokat az eredetihez hasonló, egyébként tetszőleges mintázattal töltjük fel.) Ezekkel az eltolásokkal a bal és a jobb kép ugyanazon részletei a képen belül máshova kerülnek, ugyanúgy, ahogy két szemünk is eltolva, másutt látja ugyanazt a tárgyat (6.21. ábra). 132

147 6. FEJEZET Tér- és mélységészlelés ábra. Julesz-féle sztereopár 7.5. táblázat - SZTEREOPÁR KÉSZÍTÉSE, A DISZPARITÁS MÉRTÉK A sztereopár készítésekor a legfontosabb kérdés, hogy a bal kép véletlen mintázatának mely részleteit és milyen mértékben kell eltolni a jobb képen ahhoz, hogy egy előre elhatározott látványhoz, mélységképhez jussunk. Szemváltogatós kísérletünkben megfigyelhettük, hogy az egyes részletek mindig a szemeinket összekötő vonallal párhuzamosan, azaz vízszintesen mozognak, ezért bármilyen bonyolult is egy látvány, azt vízszintes, vonalszerű mintázatokból össze tudjuk rakni. Hogy lássuk, mi honnan hova mozog, gondolatkísérletként készítsük el a mákos tapéta kapcsán említett képeket. Hogy együtt lássuk az összetartozó képszegmenseket, a mákos minta helyett legyen az alapsík zöld, a kiemelt rész piros, és az oldalak kékek. A piros tető elmozdulásának disz- paritásának és a nézőpont helyének kapcsolata az ábrán jól látható, mértéke elemi geometriai megfontolásokkal levezethető, egyszerű képletből ki is számítható. Ugyanennyivel kell a bal oldali képként használt tetszőleges mákos mintázat szegmenseit elcsúsztatni a jobb oldali kép készítésekor. 133

148 6. FEJEZET Tér- és mélységészlelés Julesz első sztereopárjain a kép közepét kitöltő négyzet volt eltolva. Nyilvánvaló, hogy egy ily módon készült, mákos képen valóban nincs semmi, amit felismerhetnénk. Ha gondoskodunk arról, hogy mindkét szemünk a neki szánt képet lássa, kiderül, hogy mégis felismerjük és folyamatos, összetartozó felületdarabokként érzékeljük az egyes összefüggő mintázatszegmenseket, amint különböző, elcsúsztatásuk mértékétől függő távolságban lebegnek előttünk a térben. Az eredő felület érzékelése olyan erőteljes és stabil, hogy akár szemünket mozgatva is végig tudjuk vizsgálni részleteit, és képesek vagyunk egy ceruza hegyét végigvezetni rajta (6.22. ábra) ábra. Lépcsős piramis sztereopár (Bal-Jobb-Bal) Julesz sztereopárjai alkalmasak voltak az emberi látórendszer egy addig ismeretlen szervének, a küklopszi (cyklopikus) szemnek a létét kimutatni és agybeli helyét behatárolni. Mint látásunk sok más eleme, tanulás eredménye ez a képességünk is, mellyel a két retinális kép finom különbségeit felfedezve térbeli mélységet érzékelünk. A két szem képe csíkozott agyi képernyőnkön összefésülve a közel fekvő részletek elemi hasonlósága által ingerelve alakítja ki agyunkban a kétszemes távolságérzékelésben szerepet kapó helyi idegi kapcsolatokat. Ez a tanulási időszak ablak a csecsemőkor második negyedévére esik, és féléves kor körül bezárul. Egyes látási rendellenességek kancsalság, a két szem jelentős eltérése gátolják vagy lehetetlenné teszik a kétszemes térlátás megtanulását azáltal, hogy a két retinális kép egymásnak megfelelő részletei nem találkoznak az agyi képernyőn. Hacsak lehet, ezért végzik a látáskorrekciós műtéteket féléves kor előtt. Látási rendellenességeknek tulajdoníthatóan a népesség hozzávetőleg 5 százaléka egyáltalán nem látja, százaléka pedig kisebbnagyobb nehézséggel, esetleg csak részlegesen látja a Julesz-féle sztereopárokat táblázat - A SZTEREOPÁR SZEMLÉLÉSÉNEK MÓDSZEREI Számos sztereopárok szemlélésére szolgáló tükrös, prizmás optikai szerkezet, sztereoszkóp létezik, melyek 134

149 6. FEJEZET Tér- és mélységészlelés alkalmasan szemeinkbe vetítik a nekik szánt képeket. Ezek azonban ritkán állnak rendelkezésünkre, ha szórakozásból, hobbiból sztereopárokat nézegetünk. Erdemes ezért megtanulni, hogyan boldoguljunk segédeszköz nélkül. Egy sztereopárt nézve az a szokatlan, az okozza a kezdeti nehézséget, hogy nem ott kell éles képet látnunk (akkomodálnunk), ahol szemsugaraink kereszteződnek (konvergálnak), azaz, ahova nézünk: míg a kereszteződésnek a papír síkja mögött vagy előtt kell lennie, szemeink autofókuszával a papírra kell élesíteni. Ráadásul, ha a papír elé, a levegőbe kell nézni, ott nincs semmi, ha pedig mögé, oda nem látunk. Mégis, ha eleinte nehezen áll is össze a kép, megéri a fáradságot. Első alkalommal megpillantani a térben lebegő alakot mindenki számára meglepő, a felfedezés örömét nyújtó élmény. Először el kell dönteni, melyik képet melyik szemünkkel akarjuk nézni. Ha ugyanis a képeket felcseréljük, akkor a mélység kifordul, mintha az alakzatot hátulról néznénk, mert a térbeli távolságot hordozó képbeli eltolódások diszparitások ellenkező irányúra változnak. Vannak sztereopárok, melyeket érdemes elölről is, hátulról is megnézni. Ha egészen közel szemünk elé tartjuk a sztereopárt, és várunk néhány másodpercet, akkor szemünk ellazult, távolba néző állapotba kerül. Ekkor a sztereopárt lassan olvasási helyzetbe távolítva, és közben tudatosan ügyelve arra, hogy folyamatosan messze mögé, és ne rá nézzünk, mindkét szem a neki szánt képet fogja látni, és küklop- szi szemünk előtt megjelenik a sztereopárban kódolt látvány. Ha nem sikerül a sztereopár mögé nézni, készíthetünk róla másolatot átlátszó fóliára. Ezen már keresztül tudunk nézni, és figyelhetünk egy fekete pontot, melyet egy kellő távolságban mögé tartott fehér papírra rajzoltunk. Ugyanerre az eredményre juthatunk, ha a sztereopárt üveglap mögé téve, a saját tükörképünkre meredünk. Ha a két szemnek szánt két képet (a papír felszabdalása nélkül) fel akarjuk cserélni, akkor a mögé nézés helyett bandzsítva eléjük kell nézni. Ezt megkönnyíti, ha az ábra és magunk közé féltávra tartott ujjunkat nézzük. Tarthatunk féltávra papírból kivágott kis ablakot is, melynek pontos helyét és méretét úgy kell meghatározni, hogy mindkét szemünk csak a neki szánt képet lássa az ablakon keresztül. A két kép felcserélésének megkönnyítésére a és a ábrák sztereopárjai kettő helyett három képet mutatnak, melyek közül a két szélső egyforma: Bal-Jobb-Bal. Így egy nézésre láthatjuk mind a Bal-Jobb, mind a Jobb-Bal párosítást, a mélység kifordulását, akár elé, akár mögé nézünk. Bár a diszparitáshoz kötődő kétszemes térlátás hiánya később nem korrigálható, a Ju- lesz-féle sztereopárok elláthatók néhány olyan egyszemes kulccsal, melyek a teljes mintázatot a ábrán mutatott módon magukkal emelik a térbe, és azok számára is a tér élményét adják, akik egyébként azt nem látnák ábra. Sztereopár egy- és kétszemes kulcsokkal 5.1. ÖSSZEFOGLALÁS 1. Ebben a fejezetben megismerkedtünk azokkal az egy- és kétszemes távolsági jelzőmozzanatokkal, melyekre alapozva a látórendszer felépíti tudatunkban a környező teret (egyszemes jelzőmozzanatok: látszólagos méret, látómezőbeli hely [magasság], részleges takarás, lineáris perspektíva, mintázatok finomsága, légtávlat, fények és árnyékok, akko- modáció, mozgási parallaxis; kétszemes jelzőmozzanatok: binokuláris parallaxis, szemek konvergenciája). 2. A közvetlen látványelemek korábban megtanult sémákba illeszkedve, korábban megtanult szabályok szerint értelmezve alakítják térélményünket, mely a (kétdimenziós) sík retinaképek végtelen sok lehetséges (háromdimenziós) térbeli értelmezése közül (majdnem mindig) a valóságot tükrözi. Látási szabályaink mélyebb megismerésére szolgálnak a kivételek, a téves értelmezésre vezető, ellentmondásos látványkonstrukciók, az illúziók. 3. A kétszemes térbeli látás a binokuláris parallaxis jelenségén alapul, azaz a két szem re- tinális képeinek eltérésén, mely a látvány két különböző pontból történő szemléléséből következik. A kétszemes térbeli látás a küklopszi szem agyi mechanizmusának alapja a képies elrendezést megőrző, csíkosan összefésült, retinotopikus agyi kép helyi hasonlóságainak felismerésére képes idegi (neurális) szerveződés, mely a 135

150 6. FEJEZET Tér- és mélységészlelés hasonlatosságot és így a mögöttes térbeliséget még önmagában (monokulárisan) értelmezhető tartalom hiányában (mint például a Julesz-féle véletlenpont-sztereopárok esetében) is képes érzékelni KULCSFOGALMAK akkomodáció, Ames-szoba, binokuláris diszparitás, binokuláris jelzőmozzanat, binokuláris parallaxis, camera obscura, Emmert-törvény, Hold-illúzió, horopter, illúzió, Julesz-féle véletlen-pont- (random-dot) sztereopár, kétszemes látás, kettős látás, konstancia (nagyság-, alak-, hely-, mozgás-, szín-, világosság-), konvergencia, küklopszi (cyklopikus) szem, látószög, légtávlat, lineáris perspektíva, monokuláris jelzőmozzanat, mozgási parallaxis, okulomotoros mikropszia/makropszia, Panum-mező, perspektíva, retinotópia, színmélység, sztereofúzió, sztereolátás, sztereomélység, sztereopár, téri jelzőmozzanat, Vieth-Müller-kör 5.3. ELLENŐRZŐ KERDESEK 1. Melyek a monokuláris téri j elzőmozzanatok? 2. Mi a kétszemes térbeli látás alapja? 3. Hogyan függ az észlelt méret a retinális kép méretétől és a tárgy távolságától? 4. Mi az Emmert-törvény? 5. Milyen szabályokat alkalmaz a látórendszer a nagyság-, az alak- és a mozgáskonstanciákban? 6. Mi az illúzió? 7. Miért ellentmondásos a Hold-illúzió? 8. Miben tévedünk Ames-szobába nézve? 9. Mi a horopter kapcsolata a retinák egymásnak megfelelő pontjaival? 10.Mi a sztereomélység, a sztereofúzió és a Panum-mezők kapcsolata? 1. Mi a különbség egy Julesz-féle véletlenpont-sztereopár és egy sztereofénykép szemlélése között? 5.4. AJÁNLOTT OLVASMÁNYOK Gombrich, E. H Művészet és illúzió. Gondolat, Budapest. Gregory, R. L Az értelmes szem. Gondolat, Budapest. Hershenson, M. (Ed.) The Moon Illusion. Earlbaum, Hillsdale, NJ. Higashiyama, A. Shimono, K How accurate is size and distance perception for very far terrestial objects? Function and causality. Perception & Psychophysics, 55 (4), Julesz, B Foundations of Cyclopean Perception. Chicago University Press, Chicago. Shepard, R. N MindSights. W. H. Freeman and Co., New York. Simons, D. J. Levin, D. T Failure to detect changes to people during a real-world interaction. Psychonomic Bulletin & Review, 5 (4), AJÁNLOTT HONLAPOK (Hold-illúzió.) 136

151 6. FEJEZET Tér- és mélységészlelés (Illúziók.) (Fi- gyelmi vakság.) (Művészeti alkotások hasznos honlapja.) 137

152 8. fejezet - 7. FEJEZET Mozgásészlelés 1. Hogyan keletkezik mozgás? Bár vannak élőlények gyenge vagy teljesen hiányzó szín-, mélység- vagy akár formalátással is, a mozgás észlelése nem hiányzik egyetlen olyan élőlény perceptuális világából sem, amely saját, aktív mozgásra képes. A mozgás s annak észlelése a percepció alapja. A mozgásészlelés segít abban, hogy elkerüljünk tárgyakat, három dimenzióban nyújt információt a környezetről, segít az alak-háttér elkülönítésben (7.1. ábra), s figyelmünket a tér fontos helyeire irányítja. Különleges esetekben például baleset vagy agyvérzés következtében előfordulhat, hogy az emberi agy szelektív károsodása a mozgás tudatos élményének hiányát okozza. A sérülést általában az agykéreg azon területére (V5) lokalizálják, amely megfelel a majomagy mediális temporális (MT) területének (lásd a szövegdobozt). A V5 sérülése nyomán keletkező érzékleti változást agykérgi mozgásvakságnak nevezzük, mivel nem a retina vagy a látóideg sérülésének tulajdonítható. A beteg ilyenkor arról számol be, hogy a világ állóképekből áll, melyek úgy jönnek egymás után, mintha diavetítést, s nem úgy, mintha filmet nézne. Számos mindennapi tevékenység nehézségbe ütközik emiatt. így például nem tud magának kancsóból vizet önteni, mert nem érzékeli a víz szintjének változását a pohárban (7.2. ábra). De az is előfordulhat, hogy megijed, mert kutyája hirtelen eltűnik a szobából (nem érzékeli a kutya mozgását, s nem látja, hogy kiment, csak azt, hogy hirtelen nincs ott). Nem tud segítség nélkül átkelni az úttesten, mert a közeledő autót csak akkor észleli, amikor már késő. Tehát gyakorlatilag vak vagy mégsem? 7.1. ábra. Álcázott madár. Demonstráció a mozgás alakészlelésben betöltött szerepére, melyet könnyen el lehet készíteni. A képet átlátszó fóliára másoljuk le, majd a fóliát vágjuk ketté a random vonalak fölső széle mentén. Helyezzük a zajt a madárra, s figyeljük meg, hogy a random vonaldarabokból álló zaj tökéletesen álcázza a madárrajzot. Ha barátunkat megkérdezzük, hol a madár, nem fogja megtalálni. Amint azonban elmozdítjuk bármelyik fóliát, a madár láthatóváválik. A demonstráció azt igazolja, hogy a mozgásból származó információ önmagában elégséges a látórendszer számára ahhoz, hogy hatékony figura-háttér elkülönítést és formafelismerést hajtson végre (vegyük észre, hogy ezen a zajjal fedett képen sem luminencia, sem színkontraszt nem definiálja a formát). Azt is nagyszerűen bizonyítja a demonstráció, hogy a mozgáskorreláció detektálása (ugyanúgy, mint a binokuláris korreláció detektálása random-pont-sztereogramokon) alacsony szinten történik, még a formaazonosítás előtt (lásd az animációt: 138

153 7. FEJEZET Mozgásészlelés 7.2. ábra. A V5 (MT) terület szelektív sérülése miatt agykérgi mozgásvakságban szenvedõ beteg nem érzékeli, ahogy a víz szintje változik a pohárban Milyen ingerek válthatnak ki mozgásérzékletet? 1. A legegyszerűbb inger nyilván egy tárgy valódi mozgása. Amikor tehát egy tárgy fizikailag elmozdul a megfigyelő látómezőjében, mozgásérzet keletkezik. 2. Ennél sokkal összetettebb jelenség a látszólagos mozgás. A mozgásérzékelés 19. századi vizsgálói, miközben azt próbálták mérni, hogy mi az a legkisebb elmozdulás, illetve sebesség, ami mellett még fellép a valódi mozgás érzete, egy különös jelenségre lettek figyelmesek. Valódi fizikai mozgás hiányában, egyszerűen két szomszédos fényforrás egymás utáni felvillantásával is kiváltható volt a mozgás, sőt a mozgásirány érzete. Ez a látszólagos mozgásnak vagy stroboszkopikus mozgásnak nevezett jelenség azután hatalmas karriert futott be, a filmiparban való gyakorlati hasznosítást is megélve. A Ges- talt-pszichológia születését Max Wertheimer 1912-ben megjelent cikkéhez kötjük, melyben a két fényfelvillanás közötti üres térben megjelenő látszólagos mozgást tárgyalja. Ekkor jött divatba a látszólagos mozgás paramétereinek például milyen hosszú lehet a szünet két felvillanás között mérése, amihez pedig a pszichofizika születése köthető. Mai fogalmaink szerint a valódi és a látszólagos mozgás idegélettani háttere azonos, tehát agyi feldolgozás szempontjából ezeket közösen lehet tárgyalni. A látszólagos mozgás korai tanulmányozása azonban kitűnő vizsgálati módszereket, ingeranyagot teremtett, melyeket a modern vizsgálatok is használnak. 3. Mozgásérzet létrejöhet mozgási utóhatás miatt. Ez úgy keletkezhet, hogy valamilyen koherens, egyirányú mozgás éppen megszűnik. Például amikor egy vízesés előtt állunk, és pár percig bámuljuk az alázuhanó vizet, majd az erdő felé pillantunk hirtelen, akkor az erdő néhány másodpercig felfelé látszik mozogni. Ezt nevezzük mozgási utóhatásnak (7.3. ábra), vagy vízesés-illúziónak is hívják. A mozgási utóhatások kísérleti alkalmazásai segítettek feltárni az agykérgi mozgásirány-kódolási mechanizmusokat. 139

154 7. FEJEZET Mozgásészlelés Különleges kategória a mozgási illúzió. Míg a látszólagos mozgás és a mozgási utóhatások idegélettani háttere nagyjából tisztázott, a mozgási illúzióé nem, azaz létezik a mozgásérzetet keltő mesterséges képeknek egy igen széles köre, melyek esetében egyelőre nem tudunk makezésére. Ezek a mozgási illúziónak nevezett jelenségek ( ábra) jelentik a legfrissebb kihívást a kutatók számára, s nemcsak azért, mert szórakoztatóak, hanem azért is, mert megfejtésük a mozgásészlelés jobb megértését hozza majd magával. A mozgás érzékelése, bármilyen vizuális jelzésen is alapul (pl. valódi vagy látszólagos), olyan feldolgozó műveletek révén jön létre, melyek a környezet tárgyainak mozgásirányát és sebességét becsülik meg. Bár ezek a műveletek egyszerűnek tűnhetnek az észlelet egyszerűsége és azonnalisága alapján, valójában sem számítástechnikai, sem idegélettani értelemben nem egyszerűek ábra. Mozgási utóhatás. Ha a kép fölső részén lévő spirált egy pörgettyűre szereljük, s a pörgő spirált másodpercig bámuljuk, utána egy arcra pillantva annak kifelé áramló eltorzulását fogjuk néhány másodpercig észlelni 140

155 7. FEJEZET Mozgásészlelés 7.4. ábra. Akioshi Kitaoka tojások címû képe. A mozgásérzet eredete valószínûleg a retina apró elmozdulásaiban s a kép ismétlôdô elemeiben keresendô, de pontos magyarázatunk még nincs erre a mozgási illúzióra 7.5. ábra. Leviant mozgásillúziója, melynek címe Enigma (Leviant, I Proc. R.Soc. London, Ser. B, 263, ). A szürke körgyûrûkben furcsa, vibráló mozgás keletkezik.bár itt is felmerült a kis szemmozgások miatt fellépõ retinális elmozdulásokon alapuló magyarázat, mégis sokan úgy gondolják, hogy ez az illúzió inkább agykérgi eredetû 2. A mozgásészlelés neurális alapjai 2.1. Irányszelektív idegsejtek Milyen neurális struktúra képes a mozgásérzetek legegyszerűbbjének, a mozgás irányának kódolására? Igazából nem is gerinceseket, hanem legyeket tanulmányozva jutott Werner Reichardt 1961-ben arra a következtetésre, hogy egy egyszerűen huzalozott apró neurális hálózat, ha megfelelően vannak időzítve a kapcsolatai, 141

156 7. FEJEZET Mozgásészlelés egyértelműen képes a mozgásirány jelzésére (Reichardt 1961). A mozgásirányra (direkció)érzékeny, azaz irányszelektív idegsejtek lényege, hogy a retina két (vagy több) szomszédos helyéről vesznek mintát, de a jel a különböző helyekről eltérő időzítéssel jut el az idegsejthez. Amint azt a 7.6. ábra illusztrálja, a retinális receptorok különböző hosszúságú axonokkal kapcsolódnak a több receptorból jelet fogadó idegsejthez. Az axonok eltérő hossza az egyik lehetőség arra, hogy a jel időzítése megvalósulhasson. Ebben a példában balról jobbra haladva egyre kisebb késleltetéssel jut el a jel a receptortól az idegsejthez. Ha a retinát pásztázó fénysugár éppen a megfelelő sebességgel mozog balról jobbra (7.6. a ábra), akkor előfordul, hogy mind az öt receptor jelzése egy időben éri el a neuront. Ez az össztűz éppen elég lesz ahhoz, hogy az idegsejt elérje a kisüléséhez szükséges küszöbértéket, s jelezze a következő idegsejtnek, hogy mozgás történt, méghozzá balról jobbra. Vegyük észre, hogy az irányon túl a sebességet is egyből kódolni tudja egy ilyen idegsejt, hiszen, mint mondtuk, csak egy optimális ingersebesség mellett fognak a jelek szimultán érkezni az idegsejtre s a kódoláshoz ezen a szinten ennyi elég is ábra. Irányszelektív idegsejt válasza balról jobbra, illetve jobbról balra mozgó fényingerre A jobbról balra történő mozgás esetén, amint azt a 7.6. b) ábra mutatja, idői késéssel érkeznek a receptoroktól a jelek, így nem tudnak összegződni, s a neuron nem fogja elérni a kisüléshez szükséges küszöbértéket. A példában illusztrált idegsejt tehát a jobbra irányuló mozgás egy adott sebességére érzékeny, azaz szelektív hangolású. Werner Reichardt legyeinek mozgásérzékenységét sikerült alacsonyabb rendű gerincesek, például békák retinájában is megtalálni. Furcsa módon emlősök retinájában nem találtak ilyet, pedig a mozgásérzékenység rájuk is jellemző! Kiderült azonban, hogy az evolúciós barkácsolás csomagolástechnikát is jelent. A magasabb rendű gerincesek retinájának már túl sok feladata van (pl. színkódolás) ahhoz, hogy a mozgásirányra érzékeny mikrohálózat is bele legyen építve, s így, bár az elv maradt tehát a jel idői késleltetése az irányszelektív válasz érdekében -, a csomagolás megváltozott, s náluk már az agykérgi neuronok, közelebbről a V1 vonalirányulásra is érzékeny sejtjei vállalták magukra ezt a feladatot. A mozgásirányra való szelektivitás V1-beli reprezentációja szorosan kötődik a vonalirányra való szelektivitáshoz (7.7. ábra) ábra. A mozgásirányra való szelektivitás agykérgi térképe. Az eltérő színű foltok a különböző vonalirányultságra érzékeny sejtek populációit reprezentálják (például piros a vízszintes vonalakra). A mozgásirány detekcióját ugyanezen V1-beli sejtek végzik, s a sejtek leginkább az orientációhangoltságukra 142

157 7. FEJEZET Mozgásészlelés merőleges mozgásirányokra lesznek érzékenyek (például a piros mezôn belül lévő sejtek a vízszintes vonalak függőleges irányú elmozdulására) A fenti, késleltetésen alapuló Reichardt-detektorok vagy mozgás-energia érzékelők (Adelson-Ber- gen 1985) tulajdonképpen téri-idői korrelációt mérnek, s ma is a mozgásérzékelés legelfogadottabb modelljeiként tartjuk őket számon. A modell konkrét megvalósulásáról (hogy például valóban axonhossz vagy más neurális paraméter áll-e a késleltetés hátterében) azonban továbbra is heves viták vannak Lokális mozgások integrációja A mozgásirányt detektáló Reichardt-detektorok ugyan kitűnően tudnak lokális elmozdulásokat detektálni, nem tudnak információt adni nagyobb tágyak, illetve összetettebb mozgások esetén. Az úgynevezett ablakproblémától szenvednek (7.8. ábra), ami azt jelenti, hogy csak egy adott kontúr irányára merőleges elmozdulásokat tudnak detektálni. Így további feldolgozási szintekre van szükség a mozgásirány egyértelmű megállapítása érdekében. Annak bizonyítéka, hogy a lokális érzékelők szavazatai a mozgásirányról összegződnek, megtalálható például a már említett mozgási utóhatás jelenségében (7.3. ábra). Az egy irányban történő, hosszú ideig tartó elmozdulás hatására az arra az irányra érzékeny lokális detektorok adaptálódnak, egy időre elvesztik válaszkészségüket. Amikor a mozgás megszűnik, az adaptáció hatása néhány pillanatig még tart, s a teljes neuron- populációból az adott irányra adott sejtek egy időre kiesnek, így a teljes populáció szavazata nélkülük pont az ellentétes irányú elmozdulás felé fog mutatni. A mozgási utóhatás jelensége tehát arra utal, hogy nem egyetlen sejt, hanem egy teljes populáció populációs kódja, azaz szavazata lesz a döntő ábra. A mozgásirány-detekció ablakproblémája. Képzeljük bele magunkat egy Reichardt-detektor helyébe: a kis ablakon keresztül (ami a detektor receptív mezejének felel meg) csak a nagyobb alakzat apró részét látjuk. Éppen a megfelelő irányú vonaldarab került a mezőbe, s annak merőleges irányú elmozdulását detektáljuk. Ha azonban nincs információ a szomszédos detektorok válaszairól, akkor nem tudjuk, hogy a vonaldarabkánkhoz tartozó nagyobb tárgy valóban merre mozdul, hiszen amit mi elmozdulásként detektálunk, az bármely irányú globális mozgás eredménye lehet. Így a legokosabb, ha mindenesetre a kedvenc mozgásirányunkról tudósítást adunk, s azokra az integratív egységekre bízzuk a döntést, melyek a többi detektor válaszát is látják A populációs kód azonban még nem a teljes megoldás, hiszen sokszor előfordul, hogy a retinaképen lévő elmozdulások összetettek, több mozgáskomponensből állnak, melyek esetleg térileg átfedő helyeken, de más és 143

158 7. FEJEZET Mozgásészlelés más irányokban mennek végbe (például amikor a vonatablakon bámulunk ki, szemmozgásaink s fixációs távolságunk függvényében a táj eltérő részei eltérő irányokban mozdulhatnak el a retinánkon. Fontos, hogy ilyen esetekben is el tudjuk különíteni az egyes komponenseket. Ugyanakkor az is igen gyakori eset, hogy az egy tárgyhoz tartozó komponensek a térileg elkülönülő receptív mező ablakokban eltérő irányú lokális mozgáskomponenst eredményeznek (ha megnézünk például egy csúcsára állított négyzetet, amely jobbról balra mozog a felső bal oldali él lokális mozgása diagonálisan fölfelé, az alsó bal oldali élé pedig erre merőlegesen fog jelentkezni az ablakban). Mégis, képesek vagyunk a négyzet egységként való kezelésére, s észleletünkben a bal-jobb irány, s nem a komponensek fognak megjelenni. A mozgáskomponensek és integrációjuk elkülönülő agykérgi szinteken való feldolgozására kapunk bizonyítékot olyan egysejt-aktivitást mérő vizsgálatokból, amelyek a 7.9. ábrán látható rácsmintázatok kombinációját alkalmazzák. A V1 lokális detektorai a kétkomponensű rács egyedi komponenseire, míg az MT/V5 terület detektorai a komponensek. 7.9.ábra. Mozgáskomponensek és azok vektoreredői eltérő neurális struktúrák válaszaiban. Az A, B, C irányba mozgó rácsmintázatok egyedi mozgáskomponensek, melyekre a példában egy V1- és egy MT sejt válaszát mutatjuk be. Az idegi választ a függőleges vonalkák jelzik (minden vonalka egy-egy akciós potenciálnak felel meg, s ahol nincs válasz, ott csak egy vízszintes vonalka szerepel). A példában adott sejtek egyaránt a diagonálisan lefelé való elmozdulást preferálják válaszukban, s a vízszintes, illetve felfelé való mozgásra nem reagálnak. A D eset olyan komplex rácsot mutat, melynek komponensei diagonálisan fölfelé, illetve lefelé mozognak. Érdekes módon csak a V1-sejt válaszol erre az ingerre! Az MT sejt, ugyan a komponensek között szerepel a preferált iránya, mivel válaszában a komponensek vektoreredőjét tükrözi (balról jobbra vízszintes irány), nem reagál akciós potenciállal. Ugyanezen okból, az E esetben, ahol a komponensek között egyik sejt preferált iránya sem szerepel, de az eredő iránya az MT sejt számára jó, az MT sejt válaszolni fog. Az F esetben pedig ismét csak a V1-sejt fog válaszolni 3. A szemmozgások szerepe A retinális kép állandó dinamikus mozgásban van. Vizuális világunkat folyamatos szem-, fej-, testmozdulatokkal mintavételezzük, s ugyanakkor a tárgyak, élőlények is mozgásban lehetnek. Nyilvánvaló, hogy a mozgásészlelés alapvető feladata a fontos események detektálása s a világban mozgó dolgokkal kapcsolatos információ szolgáltatása. De hogyan lehet ezt a retinakép alapján megtenni, ha maga a retina s rajta a világ kétdimenziós vetüle- te is állandóan mozog? Már Helmholtz elgondolkodott ezen, s arra jutott, hogy a retina saját mozgását szemünk elmozdulásának járulékos jelzései kísérik. Később ezt el is nevezték a járulékos kisülések elméletének. Az elmélet szerint a mozgásészlelés a következő háromféle jelen alapul: 1. Motoros jel, mely a szemmozgató izmok felé tart, amikor szemmozgást tervezünk. 2. Járulékos kisülés, mely ennek a motoros jelnek egy másolata. 3. Képmozgási jel, mely akkor keletkezik, amikor a retinán elmozduló kép ingerli a receptorokat. Mozgásérzetünk egy összehasonlító egység révén jönne így létre, mely akkor hoz csak létre mozgásérzetet, ha azt a járulékos kisülés, illetve a képmozgási jel függetlenül, nem szinkronizáltan éri el. Ha azonban mindkét jel egyszerre éri el az összehasonlítót, akkor kiegyenlítik egymást, s nem jön létre mozgásérzet. Ezt az elméletet magunk is tesztelhetjük egyszerű kísérletek végrehajtásával. 144

159 7. FEJEZET Mozgásészlelés 1. kísérlet: Rajzoljunk fehér papírra egy nagy fekete pöttyöt, s jól világítsuk meg! Bámuljuk mereven a pöttyöt egy percig, majd gyorsan vonuljunk be egy teljesen sötét helyiségbe! Figyeljük meg a megjelenő retinális utóképet (pislogással könnyen felfrissíthető, ha eltűnik)! Mi történik, ha mozgatjuk a szemünket? Az utókép a szemmozgásokkal együtt mozogni látszik. Miért? Az nyilván nem lehet az ok, hogy a pötty mozog a retinán, hiszen az utókép helye retinálisan kötött. Az inger mozgása nélkül nyilván nincs képmozgási jel. így csak a járulékos kisülés éri el az összehasonlító egységet, s mint mondtuk, ez mozgásérzethez vezet. 2. kísérlet: Nézzünk mereven egy pontra, s közben a szemhéjra helyezve ujjunkat, gyengéden nyomjuk el egy kicsit a szemgolyót, majd engedjük vissza! Ismételjük meg ezt párszor! Ennek eredményeként elkezdünk majd mosolyogni, mert furcsa, csiklandós érzést kelt, ahogy a világ elkezd ugrándozni. Miért látunk mozgást a szemgolyó passzív mozgatása következtében? Azért, mert miközben a pontra próbálunk fixálni, szemizmaink az elmozdítást ellensúlyozandó, megfeszülnek. így járulékos jel keletkezik, de valódi képelmozdulás nem, s ez ebben az esetben is mozgásérzetet eredményez. Milyen eseteket tudunk még felsorolni, ahol csak a járulékos kisülés jelentkezik, s ez mozgásérzethez vezet? Mi történik például, ha a szemizmokat átmenetileg lebénítjuk? Mi történik, ha egy mozgó tárgyat követünk a szemünkkel? 4. A biológiai mozgás észlelése A látáskutatás talán legérdekesebb kérdései közé tartozik az összetett, mozgásban lévő formák optimális reprezentációjának megválasztása. Ilyen összetett forma például egy mozgó élőlény. A vágtázó antilop testének minden porcikája mozgásban van a szemlélőhöz képest, de tulajdonképpen az állat saját főtengelyéhez (tehát a gerinchez) képest is. Az ízületek többirányú mozgást megengednek, s a test körvonalai is folyamatosan változhatnak az izommunka során. Elég azonban néhány rövid pillanatnyi mintát vennünk e mozgásból, s villámgyorsan felismerjük, hogy a sok mozgó alkatrész egyetlen mozgó állathoz tartozik. Esetleg a fajt is azonosítani tudjuk, bár az állat olyan távol van, hogy a fej részleteit s az állat egyéb jellegzetességeit nem is látjuk. Egy lesben álló gepárd pedig könnyedén fel tudja mérni, hogy a préda utoléréséhez mekkora sebességgel kell meglódulnia. Milyen, az alakészleléssel foglalkozó fejezetben tárgyalt reprezentációfajta szolgálhat alapul a komplex forma mozgásmintázatának biológiailag valószínűleg igencsak releváns felismeréséhez? A legtöbb gyakran emlegetett alakreprezentációs mód alkalmatlannak tűnik. Ilyenek például a kontúr, azaz egy téri kiterjedéssel rendelkező dolog határoló vonala; afelszín, azaz a dolog külső felszínének koordinátái s jellegzetességei (szín, textúra); a részek alapján való hierarchikus reprezentáció, melyben a test különböző elhelyezkedésű s méretű darabjai külön egységként vannak kódolva. Egyik reprezentációtípus sem képes megbirkózni a feladattal, mert túl sok információt hordoznak a térről, s mert önmagukban nem tudják megvalósítani azt az optimalizációt, amire itt szükség van: a téri és idői adatok folyamatos kivonatolását és egyeztetését. Az egyszerű mozgásérzékelő detektoroknak a retinán, illetve az elsődleges látókéregben történő azonosítása után, az 1970-es években felmerült az a kérdés, hogy vajon az élőlények mozgásának érzékeléséhez elegendőeke ezek az egyszerű, igazából csak egy-egy mozgásirányra érzékeny detektorok. Gunnar Johansson pszichológus úgy vélte, hogy a biológiai mozgás érzékeléséhez olyan specializálódott mechanizmusra van szükség, amely többet kell annál tudjon, mint a puszta irányérzékelés. Johansson az ízületeken elhelyezett fénylő pontok mozgását filmezte, s a pont mozgásából álló filmet vetítette alanyainak (7.10. ábra). A pontok, amint mozogni kezdtek, mindenki számára felismerhetővé tették a mozgás eredetét, tehát hogy például egy sétáló ember mozgásából származnak. A megfigyelő a néhány pont mozgását követve meg tudja állapítani a cselekvő nemét, életkorát, az aktivitás típusát. Johansson számára ez a biológiai mozgás érzékelésének létét igazolta (Johansson 1973). A pontokról érdemes annyit tudni, hogy Johansson igen ügyesen választotta meg őket, s a test legtöbb információt hordozó helyein (az ízületeken) helyezte el őket. Ezzel nemcsak a fontos információt nyerte ki, de egyben megszabadult a redundáns információt hordozó téri részletektől lehetővé téve ezáltal a téri-idői felbontóképesség optimalizálását. Később az az elképzelés is felmerült, hogy már az elsődleges látókéreg irányszelektív neuronjai is részt vehetnek ebben a fajta kivonatolásban (Ko- vács-julesz 1994). Az ilyen neuronok feladata az lenne, hogy már csak egy, a Johans- son-féle pontoknak megfelelő alakleírást küldjenek a biológiai mozgás azonosítására specializálódott, a halántéklebenyi árokban (sulcus temporális superior) elhelyezkedő területnek (lásd a szövegdobozt; Vaina et al. 2001). A BMLwalker.html internetoldalon nagyszerű kísérleteket lehet végezni a biológiai mozgással kapcsolatban. 145

160 7. FEJEZET Mozgásészlelés ábra. A biológiai mozgás észlelésének tanulmányozásához használt inger, a pontemberke. Az inger elkészítéséhez először apró fényforrásokat helyeznek el az ízületeken, majd a sötét ruhában, sötétben mozgó emberről filmfelvétel készül. A film az alsó képhez hasonló kockákból fog állni, melyeket látórendszerünk kitünően tud integrálni, s pusztán a pontok mozgását alapul véve meg tudjuk mondani, hogy ki mozgott (ember vagy valamilyen állat), milyen cselekvést végzett (séta, tánc stb.), s még az emberi cselekvő nemére is képesek vagyunk következtetni. Úgy tünik, hogy ehhez sok tanulásra van azonban szükségünk, mert a gyerekek nem ennyire hatékonyak, s az is jellemző, hogy ha a filmet fejjel lefelé fordítva szemléljük, elveszítjük csodás felismerőképességünket (ez a mechanizmus tanult voltára utal; lásd még. edu/~ikovacs/sandp/kutya_e/example1.html) 4.1. ÖSSZEFOGLALÁS 1. A mozgásészlelés megértésében a legjelentősebb feltevést eddig Werner Reichardt tette, aki az egyszerű mozgásirány-érzékeny detektor idői késleltetésen alapuló modelljét megalkotta. A V1 irányszelektív idegsejtjei azonban önmagukban nem képesek megoldani a mozgásészlelés sokoldalú feladatait, s első lépésben ezen lokális detektorok mérési eredményeinek integrálására van szükség. Az MT terület neuronjai már képesek erre az integrációra, aminek eredményeként a látómezőben nemcsak apró, összevissza bolyongó vonaldarabkák, hanem koherens felszínek, tárgyak látszanak mozogni. 2. A mozgásészlelés bonyolultságára hívja fel a figyelmet az a pár egyszerű kísérlet, melyekkel a szemmozgásoknak az érzékletbe való beszámítását illusztráltuk. 3. Az evolúciósan legrelevánsabb s egyben legösszetettebb mozgásfajta, a biológiai mozgás érzékelése még nem teljesen feltárt, de valószínűleg olyan agyterületek együttműködésén alapul, melyek eredetileg külön elemzik a mozgást és a formát KULCSFOGALMAK ablakprobléma, agykérgi mozgásvakság, biológiai mozgás érzékelése, irányszelektív idegsejtek, járulékos kisülések elmélete, látszólagos mozgás, mozgási utóhatás, populációs kód, Reichardt-detektorok 4.3. ELLENŐRZŐ KÉRDÉSEK 1. Min alapul a Reichardt-detektorok mozgásirányra való érzékenysége? 2. Hogyan magyarázzák a V1 mozgásdetektorai a mozgási utóhatás jelenségét? 3. Mely agyterület sérülése nyomán lép fel mozgásvakság? 4. A látszólagos vagy a valódi mozgás hátterében áll a Reichardt-detektor? 5. Hogyan függhet össze a mozgásvakság és az ablakprobléma? 146

161 7. FEJEZET Mozgásészlelés 6. Miért nem elég egyetlen irányérzékeny sejt a mozgásirány megállapításához? 7. Honnan tudja agyunk, hogy a retinán jelentkező mozgás saját mozgásból vagy egy tárgy mozgásából származik-e? 8. Mely agyterületek vesznek részt a biológiai mozgás kódolásában? 4.4. AJÁNLOTT OLVASMÁNYOK Sekuler, R. Blake, R Észlelés. Osiris, Budapest. Julesz Béla Dialógusok az észlelésről Typotex Kiadó, Budapest AJÁNLOTT HONLAPOK

162 9. fejezet - HALLÁS Bármennyire is az egyik legfontosabb emberi képességünknek tartjuk a beszédet, a hallást mint észlelési modalitást mindig a látás mögé soroljuk. Ez többek között azzal magyarázható, hogy a látás az észleléskörnyezet interakcióban valóban a legfontosabb, a legfejlettebb érzékelésre támaszkodik, és a leggazdagabb információkkal szolgál. A jelentéssel bíró hangok, zajok, az emberi beszéd, a zene észlelése szintén összetett mechanizmusait a tudománynak a látáshoz képest jóval később sikerült megismernie. A látás árnyékában azonban igen hatékonyan működik, biztosítva ezzel a finom eltérések és a nagyobb mintázatok (beszédhangok, dallamok, jelzések) észlelését is. Többnyire mindez annyira a háttérben történik, hogy észre sem vesszük. Csukjuk be a szemünket, és hallgatózzunk figyelmesen! Meghalljuk-e az óra ketyegését? Meg tudjuk-e mondani, hogy vonat vagy az utcai közlekedés zaját halljuk-e? Meg tudjuk-e különböztetni azok hangját, akik a közelünkben beszélgetnek? Meg tudjuk-e különböztetni ki- és be- légzésünk hangját? Halljuk-e és meg tudjuk-e különböztetni az együtt megszólaló hangszerek hangját? Megpróbálhatjuk, és nagyon fogunk csodálkozni, mi mindent tudunk csukott szemmel kihallgatni. A beszéd és a zene észlelése, hasonlóan a látáshoz, egyszerre dolgozik a részletekből és az egészből. Hallásfejezeteinket Gustav Klimt ( ) bécsi festőművész Zene című festményével vezetjük be. Tudjuk persze, hogy egy ily gyönyörű festménnyel is nehéz megragadni mindazt, amit a ze ség mindennapi zenét szeretne, tehát a századforduló a zenében is újat hoz. Klimt a zene, illetve a zeneszerzők ábrázolására újra és újra visszatér. Ezt tanúsítja többek között a botrányt okozó Beetho- ven-fríz (1912), valamint a jobban fogadott, ragyogó színekben pompázó Zene I. és Zene II. című festmé-nyek A hallási észlelés pszichológiai kutatásában csak jóval később kezdődik az az új korszak, amely a beszéd és a zene észlelésére vonatkozó mai tudásunkat megalapozta. Ezzel foglalkoznak következő fejezeteink. 148

163 10. fejezet - 8. FEJEZET A hallás alapvető folyamatai A hallási érzékelés tanulmányozása során az első kérdés, amire válaszolnunk kell, hogy mi a hallás funkciója. A hallás tulajdonképpen három dologra jó: 1. lehetővé teszi az emberek (és persze az állatok) közötti kommunikációt, 2. jelző, illetve riasztó funkcióval bír, valamint 3. a látáshoz hasonlóan a tárgyak felismerését és lokalizációját is lehetővé teszi. Ebben a fejezetben az alapvető hallási folyamatokkal foglalkozunk: egyrészt a hallási észlelés által feldolgozott ingernek, a hangnak a jellemzőivel, másrészt pedig a hang feldolgozását lehetővé tevő hallórendszer működésével. 1. A HANG 1.1. A hang és környezete A hallás révén a fizikai világnak azon eseményeiről szerezhetünk tapasztalatokat, amelyek valamiféle mechanikai rezgést bocsátanak ki magukból. Ez a rezgés nagyon sokféle lehet. Származhat egy fizikai behatás által keltett vibrációból, mint a zongora húrjainak rezgése, amikor leütünk egy billentyűt, vagy egy szúnyog szárnyának rezgése. Keletkezhet a levegőnek valamilyen rezgő közegen való áthaladásából, mint a sziréna hangja, vagy a hangképző szervek segítségével, mint a hangszalagokon áthaladó levegő által keltett emberi hang esetében. A hang létrejöhet a levegő turbulenciájából is, amelyet az okoz, hogy a levegő egy szűk résen halad át. Erre jó példa a fuvola hangja vagy a fák között fütyülő szél. Maga a rezgés azonban nem elegendő: szükség van egy olyan fizikai közegre, amely képes ezt a rezgést továbbítani és a rezgő tárgytól eljuttatni a rezgést felfogó hallószervhez. Legtöbb esetben ez a hordozó közeg a levegő, de a hang bármilyen olyan közegben képes terjedni, amelyben a közeget alkotó atomok a rezgőmozgás átadására alkalmasak. A közvetítő közeg meghatározza azt, hogy a hang milyen sebességgel terjed benne. Levegő esetén ez a terjedési sebesség 340 m/s, vízben jóval több, 1500 m/s. Mindez azt jelenti, hogy a fényhez képest (amelynek sebessége, mint tudjuk, km/s) a hang szinte csigalassúsággal terjed, és sokkal több idő kell ahhoz, hogy egy tárgy által kibocsátott hangot észleljünk, mint ahhoz, hogy az általa visszavert (vagy kibocsátott) fényt észrevegyük. Legjobb példa erre a villámlás és mennydörgés esete: elvileg mindkettőt ugyanaz a légköri jelenség okozza, de ha megfelelően messze vagyunk az eseménytől, akkor akár több másodperc is eltelhet a villám fényének megpillantása és a mennydörgés hangjának meghallása között. Mindez azt is jelenti, hogy ha nincs vezető közeg, akkor hang sincsen: emiatt légüres térben, például a világűrben (ellentétben azzal, amit a Csillagokháborúja című, ma már klasszikusnak számító filmben tapasztalhatunk) semmiféle hang nem hallható. A hang terjedését tehát nagymértékben meghatározza a hordozó közeg. A terjedésre azonban nemcsak a közeg, hanem a tágabb környezet is hatással van: a hangok különböző tárgyakba ütközve elnyelődhetnek vagy visszaverődhetnek (ez a visszhang jelensége). Ha semmilyen tárgy nem akadályozza a terjedésüket, a hangforrástól távolodva akkor is csökken az erejük. a hangok terjedése leginkább ahhoz hasonlít, ahogyan a tó vize fodrozódik, ha egy kavicsot dobunk bele (8.1. ábra). A hullámok minden irányban szétterjednek, azonban ha valaminek nekiütköznek, akkor visszaverődnek róla, és ez egyre bonyolultabb hullámmintázatokat hoz létre. 149

164 8. FEJEZET A hallás alapvető folyamatai 8.1. ábra. A hangok terjedése a tó vizének fodrozódásáhozhasonlít A hangok visszaverődéséből származó információt bizonyos állatok (pl. a denevér és a delfin) képesek felhasználni a tájékozódásra, illetve a környezet feltérképezésére. Ezt az információt voltaképpen az ember is tudja alkalmazni, de ezt tanulnunk kell. Vakok esetében például a visszhang felhasználásának képessége nagyon jól működhet. A hangok és a környezet interakciójának ismerete gyakorlati szempontból is fontos lehet, például a modern koncerttermek kialakítása során nagyon komolyan figyelembe veszik ezeket az akusztikai ismereteket (lásd a Koncerttermi akusztika című szövegdobozt). 2. A hangok létrejötte A hangok terjedése a fénytől eltérően nem közvetlenül (a szemünket érő fény valóban a Napból származó fotonokból áll), hanem közvetetten valósul meg, a hanghullámok révén. A hanghullámok a levegő részecskéinek sűrűsödéséből és ritkulásából állnak. Képzeljük el, hogy mi történik akkor, amikor például egy hangvillát megütünk, és az mozgásba jön, ezáltal hangot bocsátva ki (8.2. ábra) ábra. A hanghullámok keletkezése. A hangvilla szárainak mozgása a levegő részecskéinek sűrűsödését és ritkulását okozza, és az így létrejövő mozgási energia továbbítása vezet a hanghullám kialakulásához Amikor a villa szára előremozdul, összetömöríti a vele szomszédos levegőmolekulákat. Ezek a normálállapotba való visszajutás érdekében továbbítják ezt az energiát a szomszédos molekuláknak, azok a saját szomszédos molekuláiknak, és így tovább. A hangvilla szárának ellentétes irányba való elmozdulása éppen ellenkezőleg, ritkulást hoz létre a molekulák között, ami azonban ugyanúgy továbbítódik a levegőrészecskék között. Maguk a molekulák azonban nem mozdulnak el, hanem valójában csak a rezgést adják át. A hanghullám tehát lényegében 150

165 8. FEJEZET A hallás alapvető folyamatai ennek a rezgési energiának a továbbítódását jelenti molekuláról molekulára, és a hullámforma a szabályos előreés hátramozdulás révén alakul ki. Természetesen ez a mozgás nagyon gyors lehet, egy zenei A hangot kibocsátó hangvilla például másodpercenként 440 oda-vissza mozgást végez táblázat - KONCERTTERMI AKUSZTIKA A koncerttermi akusztika azzal foglalkozik, hogy egy terem mérete, formája és tartalma milyen módon befolyásolja a hallgatók hallási élményét. Ahogy láttuk, a hangok interakcióban állnak a környezettel: a különböző felületeken elnyelődnek, illetve visszaverődnek. A koncerttermi akusztika témája, hogy hogyan lehet a hangok és a környezet interakcióját szándékosan befolyásolni annak érdekében, hogy a hallgatóknak minél tökéletesebb hallási élményben legyen részük. A koncertterem akusztikája jelentős mértékben befolyásolja a hallott zenét vagy beszédet. Azt mondhatjuk, hogy a szabadtérhez képest egy terem élővé teszi a zenét. A szabadtérben a hangok közvetlenül a hangszerekből érkeznek, a zárt térben azonban a falakról, a padlóról, a plafonról és a közönségről visszaverődnek. Ennek hatására a hangok nemcsak hogy visszhangosak lesznek, hanem a spektrális tartalmuk is megváltozik. A koncerttermek egyik legfontosabb paramétere az utózengési idő, amely arra vonatkozik, hogy a hang a különböző felületekről való visszaverődést követően mennyi idő alatt hal el. Az utózengési időt elsősorban a terem méretei és az elnyelési tulajdonságai határozzák meg. Emiatt egy opera egészen eltérően szólhat télen, mint nyáron: télen ugyanis az operát hallgató közönség vastagabb ruhái jobban elnyelik a hangot, mint a könnyebb nyári ruhák. A hang különböző terekben való terjedésével már az ókori görögök is foglalkoztak, sőt nagyon is jók voltak ebben. Gondoljunk csak az általuk épített amfiteátrumokra, amelyek ma is tökéletesen működnek. A koncerttermek akusztikájának tudományos igényű tanulmányozása azonban csak a 20. században kezdődött el, egészen addig főként a hagyományokon és szerencsén múlott, hogy sikerült-e egy kiváló akusztikával rendelkező termet létrehozni. Minden bizonnyal a koncerttermi akusztika tudományossá válása tette lehetővé azt, hogy világszerte egyre több és egyre jobb minőségű terem jöhessen létre. A koncerttermi akusztikával kapcsolatban két, Magyarországon található termet szeretnénk illusztrációként bemutatni: egyrészt az egyik legrégebbi, már az akusztikai elvek figyelembevételével épült termet, a Magyar Rádió 1-es, illetve 6-os stúdióját, másrészt az egyik legmodernebb, az éppen aktuális akusztikai tudást felhasználó termet, a Bartók Béla Nemzeti Hangversenytermet. 1. ábra. A 6-os stúdió akusztikai próbája, az előtérben Doh- nányi Ernő és Békésy György A Magyar Rádió 1-es és 6-os stúdiójának (1. ábra) kuriózuma, hogy az akusztikai felépítésüket Békésy György tervezte, az 1930-as években (Békésyről bővebben lásd a szövegdobozt a 256. oldalon). Békésy a zenei stúdió akusztikai kialakításában eredeti megoldásokat alkalmazott. A stúdió falait különböző hangvisszaverési tulajdonságokkal rendelkező anyagokkal borította be: egyrészt textilborítást alkalmazott, amely a hangok elnyelésére szolgált, másrészt pedig az egyik falfelületet márvánnyal burkolta be, amelynek hangvisszaverési hatékonyságát az eléje helyezett, szétnyitható és összehúzható függönnyel változtathatták. De lássuk, hogyan emlékezett vissza Békésy maga a hangstúdiók létrehozásának munkálataira: 151

166 8. FEJEZET A hallás alapvető folyamatai A Magyar Kir. Postának másik fontos feladata volt a rádióstúdiók méretezése és akusztikai megoldása. Mivel a külföldön eredményesen használt hangszigetelő és hangtompító anyagok javarészt amerikai eredetűek, és ezeknek a behozatalát a gazdasági viszonyok nem engedték volna meg, kénytelenek voltunk egészen új utakon járni. Sok hangversenyteremről azt állítják, hogy rossz az akusztikája. Ha a zeneértőt megkérdezzük, hogy ez mit is jelent, válaszul általában a következőket hallhatjuk: száraz az énekesnő hangja, nem elég lágy a tenoré, annak dacára, hogy tegnapelőtt itt és ott gyönyörű volt, a szólistákat alig lehet hallani, a zenekar összefolyik. Ezekkel a műszakilag nagyon nehezen megfogható jelenségekkel szemben viszont a hangversenyterem építője már a tervezéskor is pontos és részletes adatokat kíván. Az első pillanatban szinte lehetetlennek látszik, hogy oly homályosan meghatározható érzetet, amely annyi különböző érzést foglal magában, és amelynek az eredőjét a terem akusztikájának nevezzük, számokkal lehessen jellemezni. Ennek dacára ez a kérdés ez idő szerint bizonyos fokig megoldódott. A fizika régen bevált módszere szerint ugyanis a zeneteremnek is az energiaviszonyait vizsgáljuk. Ha példának okáért egy kürtöt állandó erősséggel megszólaltatunk, akkor a tüdő erejével hangenergiát állítunk elő. Ez a hangenergia a kürttől minden irányba terjed, eléri a falat, ott bizonyos fokig visszaverődik, tovább halad a szemben lévő falhoz, ahonnan szintén visszaverődik, és így tovább, addig, míg végül az egész terem nagyjában egyenletesen megtelik hangenergiával. A terem valóban hangenergiával van megtelve, és ezt úgy érzékelhetjük, hogy a kürt fúvásának hirtelen megszüntetése után a hang a teremben még mindig tovább zeng. A teremben felhalmozott hangenergia azért nem hangzik végtelen hosszú ideig tovább, sőt aránylag rövid időn belül eltűnik, mert a falon visszaverődésekor a hangenergia egy része mindig hővé alakul át, és így a fül számára elvész. A hangrezgést végző levegő részecskéi a fal felületéhez súrlódnak, energiájuk súrlódási hővé alakul át. Minél több likacsot és hajszálnyílást tartalmaz a fal felszínén alkalmazott anyag, annál nagyobb a súrlódás, és természetesen annál gyorsabban csökken a zeneteremben felhalmozott hangenergia. Rendkívül hosszú és körülményes kísérletsorozatot kellett elvégeznünk ahhoz, hogy olyan anyagcsoportosítást találjunk, amely a magas frekvenciákat a kívánt kisebb mértékben nyeli el, mint a mély frekvenciás hangokat. sikerült egészen újfajta hangelnyelő anyagberendezést kidolgoznunk, amely lényegében megfelelő átitatással kellően merevvé tett ponyvával borított vattarétegből áll. Ezt a vatta-ponyva kombinációt, megfelelő keretekre szerelve és tűz ellen is biztosítva, a termek esztétikai kiképzésének megfelelően festhettük úgy, hogy a burkolat alig tért el észrevehetően a normálisan tapétázott faltól. A legapróbb részletekre is kiterjedő munkát minden esetben akkor fejeztük be, ha akusztikai méréseink eredménye és a zenei szakértők érzékelése teljesen azonos volt. Állandóan szem előtt tartottuk a rádióelőfizetők ama jogos kívánságát, hogy a stúdió akusztikailag és rádióátvitel szempontjából csak akkor mondható kifogástalannak, ha a zene és a beszéd átvitelekor a stúdióban és az adóban előálló torzítások nagyságrendileg lényegesen alatta maradnak még a legjobb vevőkészülékben előfordulható torzításoknak is. (Békésy 1978.) A stúdiók építésekor, a harmincas években az akusztikai tervezés igen fiatal szakterület volt (az első, akusztikai szempontból is megtervezett hangversenytermet 1900-ban Bostonban adták át). Ám Békésy György már akkor olyan stúdiót tervezett, amely a maga nagyságrendjében ma is megállja a helyét. A koncerttermi akusztika szempontjából másik nagyon fontos terem, a Bartók Béla Nemzeti Hangversenyterem (2. ábra) a már érett akusztikai tervezés egyik mintapéldánya. 152

167 8. FEJEZET A hallás alapvető folyamatai 2. ábra. A Bartók Béla Nemzeti Hangversenyterem A termet az egyik legnevesebb akusztikai tervezőcég, az amerikai ARTEC tervezte, amely a világ számos országában épített már magas minőségi elvárásoknak megfelelő koncerttermeket. A terem maga úgynevezett shoebox (vagyis cipődoboz) formájú. Három különböző típusú terem létezik ugyanis: a shoebox, a vineyard (szőlőskert) és a fan (legyező) formájú. Ezek mindegyike eltérő hang-visszaverődési jellemzőkkel rendelkezik, és a shoeboxfor- mára az jellemző, hogy a hang jelentős mértékben visszaverődik a terem oldaláról. A hangversenyterem impozáns méretekkel rendelkezik: 25 méter magas, 25 méter széles és 52 méter hosszú. Teljes befogadóképessége 1700 fő. A terem egyik legfontosabb jellemzője, hogy mind a zenekari pódium, mind az e mögött elhelyezkedő hangvető ernyő dinamikusan változtatható. A pódium mérete háromféle lehet, és szükség szerint zenekari árok kialakítását is lehetővé teszi. A hangvető ernyő, amely a nézőtér fölé is benyúlik, mozgatható szárnyakkal rendelkezik, amelyeknek köszönhetően emelkedni, süllyedni és forogni is tud. szintén az akusztikai hatás változtatását szolgálják a pódium és az oldalfalak mentén elhelyezkedő zengőkamrák, amelyek révén lehetőség van a terem térfogatának és így a visszaverődések tulajdonságának módosítására. A hangstúdióként is funkcionáló koncertterem teljesen körbefüggönyözhető, és ezáltal az utózengési idő egy másodperc alá csökkenthető. Ha azonban a zengőkamrák ajtajait kinyitják, akkor az utózengési idő akár négy másodperc is lehet. A terem akusztikai jellemzőinek ezek a nagymértékű változtatási lehetőségei lehetővé teszik azt, hogy nagyon különböző stílusú zenei darabok a lehető legoptimálisabb akusztikai körülmények között szólaljanak meg, és ugyanúgy lehessen élvezni egy mindenféle hangosítás nélkül megszólaló áriát, mint egy hangszórókon keresztül áradó rockzenei koncertet. A hanghullám tehát a légnyomás szabályos megváltozásából jön létre. A légnyomás változását ábrázolhatjuk egy olyan grafikonon, ahol az idő függvényében tüntetjük fel az adott időpillanatban mérhető légnyomás nagyságát. Ezt az ábrázolást oszcillogramnak nevezzük. A hangvillához hasonlóan szabályos rezgést kibocsátó tárgy a 8.3. ábrán látható, periodikus légnyomásváltozást hoz létre, amely matematikailag egy szinuszfüggvénnyel írható le. Ahogy az ábrán is látható, a hanghullám három paraméterrel jellemezhető: a. A sűrűsödések és ritkulások nagyságával, vagyis a hangnyomással, ami lényegében a hanghullámot létrehozó elmozdulás nagyságát ragadja meg. A hangnyomást más néven hangerőnek is nevezzük, és az adott időpillanatban mért hangnyomást az amplitúdóval fejezzük ki. b. A sűrűsödések és ritkulások (azaz periódusok) időegység alatti számával, vagyis a rezgésszámmal. A rezgésszámot az időegység alatti rezgések számával, más néven a frekvenciával fejezzük ki. c. A hanghullám időtartamával. Az időtartamot szokás a fázissal is jellemezni. A fázis azt fejezi ki, hogy egy adott ponthoz képest (például ahol a hullámforma előszörmetszi az x tengelyt) egy teljes periódus mekkora része telt el. A fázis azért fontos mérőszám, mert a hang időtartamánál pontosabban (valójában attól függetlenül) jelzi, hogy a kezdőponthoz képest mennyit változott a hanghullám. 153

168 8. FEJEZET A hallás alapvető folyamatai A hangvillás példánknál maradva azt mondhatjuk, hogy minél erőteljesebben rezegnek a villa szárai, vagyis minél nagyobb a kitérésük a nyugalmi helyzethez képest, annál nagyobb amplitúdójú hangot hoznak létre. Illetve minél gyorsabban rezegnek a villa szárai, annál nagyobb lesz az időegységre jutó rezgések száma, vagyis a frekvencia ábra. Szabályos rezgést kibocsátó tárgy hanghullámának oszcillogramja 2.1. A hanghullámok jellemzői hangerő és rezgésszám Egy adott hang tehát leírható három érték: az amplitúdó-, a frekvencia- és a fázisértékek megadásával. A fázissal itt részletesen nem foglalkozunk, csak annyit jegyzünk meg, hogy a fázis által jelzett időtartam is nagyon fontos a hangok észlelésekor, mivel csak olyan hangokat észlelhetünk, amelyek bizonyos időtartammal rendelkeznek. Számunkra elsősorban a hangok amplitúdója és frekvenciája lesz fontos, mivel mint később látni fogjuk elsősorban ez a két paraméter határozza meg a hangok észlelt jellemzőit. Az észlelt hangok két fő tulajdonsággal jellemezhetők: a hang hangosságával és magasságával. Például egy zongora hangja e két tulajdonság mentén változhat: ha nagyobb erővel ütjük le a billentyűt, akkor hangosabb lesz a hang, ha viszont egy másik billentyűt ütünk le, akkor magasabb vagy mélyebb. A továbbiakban a hangmagasság és hangosság kifejezéseket fogjuk használni a hangok észlelt tulajdonságainak leírásához, szemben a hangok fizikai jellemzőinek leírásakor használt frekvencia és amplitúdó kifejezésekkel. A későbbi fejezetek során látni fogjuk, hogy nagyon fontos különbséget tennünk a fizikai és az észlelt tulajdonságok között, mivel ezek nem mindig feleltethetők meg pontosan egymásnak. Ennek ellenére általánosságban igaz az, hogy a hang amplitúdója szolgál a hangosság észlelésének alapjául, a hang frekvenciája pedig a hangmagassággal áll kapcsolatban. Ezt a viszonyt a 9. fejezetben fogjuk pontosabban bemutatni, itt egyelőre csak a fizikai jellemzők leírására koncentrálunk A hangerő Nézzük először, hogy hogyan jellemezhető a hangok hangereje. Ahogy említettük, a hang erősségét elsősorban az amplitúdóval, vagyis a hang létrejötte során keltett légnyomás értékével jellemezzük. Az amplitúdó mértékegysége a pascal (Pa) vagy ennek milliomod része, a mikropascal (mpa). A hangnyomást emellett egy másik mérőszámmal, az intenzitással is jellemezhetjük. Az intenzitás a hang energiáját, és így a hangforrás teljesítményét írja le, és definíció szerint a hangterjedés irányára merőleges egységnyi felületen időegység alatt átáramlott energiamennyiségre vonatkozik. Az intenzitás mértékegysége a watt/négyzetméter (W/m 2 ). A hangerő kifejezésére tehát mind az amplitúdót, mind az intenzitást használhatjuk, de tudnunk kell, hogy ezek a hangerő más-más aspektusát ragadják meg: az amplitúdó az egy időpillanatban mutatott hangnyomás értékét, az intenzitás viszont az időegység alatt adott területen átáramló hangenergia mennyiségét írja le. A továbbiakban a hangerő, amplitúdó és intenzitás szavakat egymás szinonimájaként fogjuk használni, és nem vesszük figyelembe a közöttük lévő definícióbeli eltéréseket. A hangerő mérésére a gyakorlatban bevezettek egy harmadik mértékegységet is, a decibelt (db). A decibel egy logaritmusos mértékegység, amely valójában két mennyiség közötti arányt fejez ki. A decibel, a logaritmusos skála révén, lehetővé teszi azt, hogy a nagyon kicsitől a nagyon nagy arányokig a mennyiségek széles skáláját tudjuk kifejezni viszonylag kevés mérőszámmal. Erre azért van szükség, mert a hallórendszerünk a hangnyomásértékek nagyon nagy tartományát képes feldolgozni: kb. 10 milliárdszoros mértékben eltérő hangokat is képesek vagyunk megkülönböztetni. Az óriási különbségek miatt a hangerő direkt módon történő leírása (az amplitúdóval vagy az intenzitással) meglehetősen körülményes. A decibelskála alkalmazásával viszont elérhető az, hogy az egyes hangok hangerejét ne milliós nagyságrendekben kelljen meghatározni, hanem a sokkal egyszerűbben kezelhető nagyságrendben. 154

169 8. FEJEZET A hallás alapvető folyamatai Ha a hangok hangerejét decibelben határozzuk meg, akkor már nem hangerőértékekről, hanem hangszintekről beszélünk. A decibelérték, ahogy említettük, valójában csak két mennyiség közötti arányt fejez ki, ezért ha ezt konkrétan a hangerő mérésére szeretnénk alkalmazni, akkor egyrészt meg kell határozni az arányt, másrészt pedig meg kell adni azt az értéket, amelyhez az egész skálát viszonyítjuk. A hangnyomás figyelembevételével tehát a decibel a következő képlettel határozható meg: db = 20 log (p/p 0), ahol p l a vizsgált hang amplitúdójának, p 0 pedig valamely alaplégnyomás-értéknek felel meg. A leggyakrabban alkalmazott p 0-érték 20 mpa. Ekkor a 0 db egy olyan hangerőszintet fejez ki, amely az emberek nagy része számára egy másodpercenként 1000-szer rezgő hang esetében az éppen hallható hang erejének, vagyis az abszolút hallásküszöbnek felel meg. Ezt a specifikus hangerőszintet SPL-nek (Sound Pressure Level hangnyomásszint) nevezzük. Minden esetben, amikor nincs külön feltüntetve, hogy a db-értéket mihez képest határoztuk meg, akkor az SPL szintre kell gondolni. Az emberi hallórendszer által lefedett hangszinttartományt szemlélteti az 8.1. táblázat, amely a 0 és 160 db közötti tartomány egyes értékeire hoz hétköznapi példákat. A táblázatban feltüntettük az adott a hangnyomás- és az intenzitásértékeket is, annak illusztrálására, hogy hogyan feleltethetők meg ezek egymásnak. A hangszinttartományon belül létezik két kitüntetett érték: az egyik a 0 db SPL értékű hallásküszöb, amely az éppen észrevehető hangerő nagyságát határozza meg, a másik pedig a 130 db SPL értékű fájdalomküszöb, ami azt az értéket jelzi, amely felett a hanginger valódi fájdalomérzetet vált ki a fülben. A fájdalomküszöb adaptív értékkel bír, mivel az ennél hangosabb hangok rövid idő alatt is képesek a hallórendszer károsítására, így a fájdalom a hangforrástól való menekülésre kényszerít. A táblázat illusztrálja a decibelskála működését is. Látható, hogy például a zsúfolt forgalom zaja kb. 10 db-lel hangosabb, mint a kétszemélyes beszélgetés hangereje (70, illetve 60 db), és látható, hogy ez 10-szeres hangerő-növekedésnek felel meg. Érdemes tehát óvatosan bánnunk a CD-lejátszó hangerőgombjával, mert egy 10 db-lel való hangosítás 10-szeres, 20 db-es 100-szoros, 30 db-es pedig már 1000-szeres hangerő-növekedést okoz táblázat táblázat. Az emberi hallórendszer által lefedett hangszinttartomány Hangforrás Hangszint Hangnyomás Hangintenzitás Észlelet (db) (mpa) (W/m 2 ) Hallásküszöb Hallásküszöb Normál légzés Szellőben falevelek susogó Mozi üres nézőtere ' 9 Lakónegyedbeli környék éjszaka ' 8 Csendes vendéglő Beszélgetés ' 6 Zsúfolt forgalom Porszívó Vízesés robaja

170 8. FEJEZET A hallás alapvető folyamatai Metró zaja Légcsavaros repülőgép felszálláskor Gépfegyver közelről Sugárhajtású repülőgép felszálláskor zaja Szélcsatorna Fájdalomküszöb A rezgésszám A hanghullámok másik fontos jellemzője a hangerőn kívül a rezgésszámuk vagy frekvenciájuk. A frekvencia mértékegysége a hertz (Hz), ami a másodpercenkénti rezgésszámot fejezi ki (1 Hz = 1 ciklus/másodperc). A rezgésszám leírható egy másik mértékegységgel, a hullámhosszal is, amely a hanghullám egyik csúcsától a következő hullám csúcsáig tartó távolságot fejezi ki. A hullámhosszt egy valódi hosszmértékegységgel, a méterrel mérjük. A két mértékegység, vagyis a frekvencia és a hullámhossz fordítottan arányosak egymással: nagyobb frekvenciaértékhez kisebb hullámhosszérték tartozik. Ezt az összefüggést szemlélteti a 8.4. ábra. Ahogy az ábrán látható, egy 1000 hertzes hanghoz kb. 20 centiméteres hullámhossz tartozik (vagyis ennyi a két egymást követő hanghullám csúcsa közötti távolság), egy 100 hertzes hanghoz pedig kb. 3 méteres hullámhossz. A rezgésszám esetében, csakúgy, mint a hangerőnél, szintén fontos kérdés, hogy mekkora tartományt vagyunk képesek érzékelni az egyes tárgyak által kibocsátott rezgésszámokból. Ahogyan azt a 8.5. ábra mutatja, az egyes állatfajok, beleértve az embert is, a lehetséges frekvenciatartományok meghatározott részét képesek csak észlelni. Ember esetében ez a tartomány 20 és Hz között van, és látható, hogy egyéb fajok ettől eltérő frekvenciasávokra is érzékenyek. Például az elefántok meghallják a 20 Hz alatti infra- hangokat is, a kutyák vagy macskák pedig a Hz feletti ultrahangokat is képesek felfogni (az infra- és ultrahangok természetesen párhuzamba állíthatók az elektromágneses sugárzás esetén az infravörös és ultraibolya fényekkel, amelyek szintén kívül esnek az ember látási észlelőrendszere által feldolgozható tartományon). 156

171 8. FEJEZET A hallás alapvető folyamatai 8.4. ábra. A hullámhossz és a frekvencia közötti kapcsolat Feltételezhető, hogy az egyes fajok azokra a frekvenciatartományokra érzékenyek leginkább, amelyek számukra valamilyen okból jelentőséggel bírnak, illetve amelyek környezetükben a leggyakrabban előfordulnak. Nyilvánvalóan itt is kompromisszumot kell kötni aközött, hogy a környezeti jellemzőket minél pontosabban dolgozzuk fel, és aközött, hogy erre ne kelljen egy végtelenül bonyolult apparátust kifejleszteni. A frekvencia esetében az alsó határ természetesen egy abszolút határ, mivel 1 Hz-nél kisebb rezgésszám fizikailag lehetetlen, hiszen az már nem számítana rezgőmozgásnak. A Hz-nél magasabb frekvenciájú hangok feldolgozásával kapcsolatban két probléma lehet: egyrészt feltételezhetően nagyon kevés olyan hang van, ami ebbe a tartományba esik, másrészt pedig a fent már említett kompromisszum miatt valószínűleg nagyon bonyolult lenne egy olyan hallószervet létrehozni, amely képes ilyen tág tartományt feldolgozni. 157

172 8. FEJEZET A hallás alapvető folyamatai 8.5. ábra. A különféle fajok számára 60 db spl hangosságon hallható frekvenciák tartománya 2.2. A hangok típusai Az előzőekben arról volt szó, hogy a hangokat a mechanikai rezgést végző tárgyak bocsátják ki. Láttuk azt is, hogy például a hangvilla olyan rezgésre képes, amely periodikus, szinuszfüggvénnyel leírható hanghullámot hoz létre. Az ilyen típusú hangokat tiszta vagy egyszerű hangoknak nevezzük, mivel csak egyetlen hangfrekvenciát tartalmaznak, vagyis egyetlen nagyon szabályos függvénnyel írhatók le. A 8.6. ábra felső részén egy tipikus tiszta hang oszcillogramja látható. Valójában azonban a hangvilla által létrehozott hang sem ennyire egyszerű, és csak közelíti ezt a nagyon szabályos hullámformát. A környezetünkben megtalálható hangok között igazából nem is találunk olyant, amely eny- nyire szabályos rezgőmozgást végezne. Ugyanakkor laboratóriumban, számítógép segítségével lehetséges ilyen hangokat előállítani, és ezek nagyon fontos szerepet játszanak a hallás folyamatainak vizsgálatában, mivel a lehető legegyszerűbb ingerfeltételek alakíthatók ki a segítségükkel. Mi jellemző akkor a környezetünkben előforduló hangokra? Ezeket a hangokat, például a madarak énekét, a hangszerek hangját, az ember beszédét megvizsgálva azt tapasztaljuk, hogy a legtöbb közülük nagyon bonyolult hullámmintázatot alkot, vagyis nagyon bonyolult rezgőmozgást végez. Az ilyen típusú hangokat komplex hangoknak nevezzük, és az jellemző rájuk, hogy általában egynél több frekvencia-összetevőből állnak, és nem írhatók le egyetlen szinuszfüggvénnyel (lásd a 8.6. ábra középső részét). 158

173 8. FEJEZET A hallás alapvető folyamatai 8.6. ábra. A hangok különböző típusainak oszcillogramja Összehasonlítva a tiszta hanggal, látható, hogy a komplex hang sokkal bonyolultabb mintázattal rendelkezik. Láttuk már, hogy az oszcillogram, vagyis az idő függvényében ábrázolt hangnyomásváltozás nem igazán szolgáltat egyértelmű információt az adott hang frekvenciájáról. Ezért ha arra vagyunk kíváncsiak, hogy egy hang milyen frekvenciával, illetve frekvencia-összetevőkkel rendelkezik, egy másikfajta ábrázolásra van szükségünk, az úgynevezett spektrális vagy amplitúdómetszet ábrázolásra (lásd 8.7. ábra). 159

174 8. FEJEZET A hallás alapvető folyamatai 8.7. ábra. A tiszta- (a) és a komplex hangok (b) spektrális ábrázolása A hangok ábrázolásának ez a módja a frekvencia függvényében tünteti fel a hangok amplitúdóját egy adott időpillanatban. Nem szerepel rajta viszont az idői információ, vagyis hogy pontosan mely időpillanatban mutatta a hang az adott jellemzőket. Komplex hangok esetében a spektrum feltárja mindazokat a frekvenciaösszetevőket, amelyek a hangot alkotják. A frekvencia-összetevőket néha frekvenciakomponenseknek is nevezzük, és ezek összessége alkotja a hang spektrális szerkezetét. A komplex hangokat tehát úgy kell elképzelnünk, hogy azok egymásra épülő szinuszhullámokból tevődnek össze úgy, hogy ezek lényegében összeadódnak. A komplex hangoknak egyes frekvenciaösszetevőikre történő 160

175 8. FEJEZET A hallás alapvető folyamatai lebontását Fourier-elemzésnek hívjuk. Emlékezzünk arra, hogy Jean Fourier ezen matematikai módszerét már a vizuális szűrőkkel kapcsolatban említettük. Megállapítottuk, hogy ennek segítségével bármely komplex hullámforma leírható meghatározott frekvenciával, amplitúdóval és fázissal rendelkező szinuszhullámok sorozatával. Ez alapján tehát azt mondhatjuk, hogy a komplex hangok lényegében több egyszerű szinuszhangból tevődnek össze, és a spektrum ezen komponenseknek a frekvenciáját és amplitúdóját jeleníti meg. A 8.8. ábra mutatja, hogy egy komplex hanghullám hogyan építhető fel olyan szinuszhullámok sorozatából, amelyek egyre kisebb periódussal rendelkeznek (vagyis egyre nagyobb a frekvenciájuk). Az ábrán az is látható, hogy az egyes összetevők milyen frekvenciával rendelkeznek. A periodikus hangokban a frekvenciakomponensek az úgynevezett alaphang egész számú többszöröseiként jelennek meg. Azaz, ha például az alaphang 200 Hz, akkor a frekvencia-összetevők értéke 400, 600, 800 stb. Hz lesz. Az alaphang rendelkezik a legalacsonyabb frekvenciával, vagyis valóban ez az alapja a többi komponensnek. Az erre épülő komponenseket pedig felharmonikusoknak vagy egyszerűen harmonikusoknak nevezzük. A komplex hangok által tartalmazott frekvenciákat tehát általánosságban frekvencia-összetevőknek, frekvenciakomponenseknek vagy frekvenciatartományoknak fogjuk nevezni. A periodikus komplex hangok esetében viszont ezeket a komponenseket harmonikusoknak vagy felharmonikusoknak fogjuk hívni, utalva egymás közti szabályosságukra, vagyis arra, hogy a harmonikusok az alaphang egész számú többszörösei ábra. A komplex hangok frekvencia-összetevőkre bontása a Fourier-elemzés segítségével A komplex hangok különböző frekvenciakomponensekre való felbontása azonban nem csak amiatt fontos, hogy ábrázolni tudjuk azokat egy spektrumon. Úgy tűnik, hogy a hallórendszer maga úgy működik, hogy a beérkező hangok egyfajta Fouri- er-elemzését végzi el, vagyis a hangokat összetevőikre bontja fel. Ezt a fajta működésmódot analitikus (szétválasztó) észlelésnek nevezzük, szemben a látórendszerre inkább jellemző szintetikus (összegző) működéssel. A látás esetében a szintetikus működésre példa lehet a színészlelés, amelynek során az egyszerre a szembe érkező hullámhosszak (kék és sárga színek) egy szét nem bontható zöld színélményt eredményeznek. Azt is láthattuk, hogy a kétdimenziós téri luminanciaeloszlások elemzéséhez a látórendszernek a retinális, valamint az első agykérgi szintjein egy globális Fourier-elemzés folyik. A hallásnál azonban nem fordulhat elő a színészleléshez hasonló szintézis. A zongorán egyszerre leütött C és D hangok nem vezetnek egy harmadik hang észleléséhez, hanem mindkét hangot külön-külön halljuk. A komplex hangok speciális típusa a zaj, amely sok véletlenszerűen összeadódó frekvencia-összetevőt tartalmaz (lásd a 8.6. ábra alsó részét). A zaj bizonyos értelemben a fehér fényre hasonlít, hiszen ahogyan azt korábban láttuk a fehér fény is a látható spektrum valamennyi hullámhosszán tartalmaz fényenergiát. A fehér fény analógiájára fehér zajnak nevezzük azt a zajt, ami az összes lehetséges frekvenciát tartalmazza, és amit például akkor hallhatunk, ha a rádión egy olyan frekvenciára tekerünk, ahol nincs semmilyen műsor. A tiszta hangokhoz hasonlóan fehér zaj sem fordul elő a természetes környezetünkben (a zajszerű természetes hangok például a fúró hangja vagy a levelek susogá- sa is mutatnak valamiféle periodikusságot és szabályszerűséget), de a hallási jelenségek tanulmányozásában nagyon fontos a szerepe. Összefoglalva tehát, három különböző típusú hang létezhet: az egyszerű vagy tiszta hang, amely egyetlen frekvenciakomponenst tartalmaz, és periodikusan ismétlődik; a komplex hang, amely több frekvenciakomponenst tartalmaz, és szintén periodikusan ismétlődik; és a zaj, amely több frekvenciakomponenst tartalmaz, de nem ismétlődik periodikusan. A hangok típusait a 8.2. táblázat foglalja össze táblázat táblázat. A hangok típusai és jellemzőik 161

176 8. FEJEZET A hallás alapvető folyamatai Hang típusa Frekvenciakomponensek Periodikusság Példa Tiszta hang e gy igen hangvilla Komplex hang több igen zongora Zaj több nem fehér zaj 3. A fül és a hallórendszer A hallórendszer a többi érzékleti modalitáshoz hasonlóan három alapvető részből tevődik össze: a külvilágból származó fizikai ingereket feldolgozó receptorokból, melyek a fülben találhatók, a receptorok és az agy közötti összeköttetést megvalósító hallópályából és az agynak azon kéreg alatti és kérgi területeiből, amelyek a hallási információ feldolgozására specializálódtak A fül felépítése Az emberi fül három különálló anatómiai részre osztható: a külső, a közép- és a belső fülre. A fül felépítését és a hang útját a külvilágból a hallási receptorokig az emlékeztető szövegdoboz tartalmazza. A továbbiakban a fül egyes részeinek feladatait, funkcióit tekintjük át, amelyeket a 8.9. ábra foglal össze ábra. A fül egyes részeinek funkciói A külsőfül lényegében egy irányított mikrofon: a hang hallójáratba való irányításában és felerősítésében játszik szerepet. Az erősítés elsősorban a 3000 Hz körüli hangokat érinti, mivel a hallójárat ezen a frekvencián maga is rezgésbe jön, és ez néhány decibellel hangosabbá teszi a hangokat. A középfül feladata az ellenállás-csökkentés és a túlterhelés elleni védelem. Az ellenállás-csökkentést a középfül hallócsontocskái valósítják meg azáltal, hogy a hanghullámokat mechanikai rezgéssé alakítják, és ez a mechanikai rezgés hozza mozgásba a csigában található folyadékot. A hallócsontocskák nélkül azonban a levegő rezgése közvetlenül a folyadékra tevődne át, ez pedig jelentős energiaveszteséget okozna a két közeg sűrűségbeli különbsége miatt. Kiszámítható, hogy a levegő által közvetített hang mintegy 99 százaléka visszaverődik a vízfelszínnel való találkozáskor, és ez körülbelül 30 db-nyi hangnyomáscsökkentést eredményez. Ez a veszteség azonban visszanyerhető akkor, ha a hanghullámot előbb visz- szaalakítjuk mechanikai rezgéssé (a dobhártya és a hallócsontocskák segítségével), és ezt a mechanikai rezgést vezetjük át a folyadékra. Az áttétel hatékonyságát tovább javítja az, hogy a dobhártya és az ovális ablak között jelentős méretbeli különbség van, vagyis egy nagyobb felületű mozgást vezetünk át egy kisebb felületre, ami szintén erősítő hatású. A középfül másik feladata a túlterheléssel szembeni védelem, ami az akusztikus reflex révén valósul meg. Az akusztikus reflex egy nagy intenzitású hang hatására bekövetkező automatikus izom-összehúzódás a középfülben, amely korlátozza a hallócsontocskák mozgását, és ezáltal csökkenti az átvitt hangerőt, megvédve a belső fület a túl intenzív ingerléstől. Az akusztikus reflexet elsősorban alacsony frekvenciájú hangok váltják ki, 162

177 8. FEJEZET A hallás alapvető folyamatai ezért a feltételezések szerint egyik fő funkciója a saját magunk által létrehozott hangokra (pl. beszédhangokra) való érzékenység csökkentése (a beszéd észleléséről szóló fejezetben látni fogjuk, hogy a beszédhangok valóban főként alacsony frekvencia-összetevőkből állnak, és tényleg elég hangosak lehetnek). Ezen elképzelés szerint tehát az akusztikus reflex arra (is) szolgál, hogy ne süketüljünk meg a saját magunk által produkált beszédtől. A belsőfül elsődleges feladata a hangok frekvenciaelemzése. A továbbiakban részletesebben is megvizsgáljuk, hogy hogyan alakítják át a belső fülben lévő receptorok a hangokat idegi impulzusokká, és hogyan kódolják ezek a receptorok a hangok frekvenciáját és intenzitását táblázat - A FÜL ANATÓMIÁJA ES ÉLETTANA A HANG ÚTJA A FÜLKAGYLÓTÓL AZ ALAPHÁRTYA SZŐRSEJTJEIIG Az emberi fül három, működésében és elhelyezkedésében elkülönülő részből áll: a külső fülből, a középfülből és a belső fülből. Az alábbiakban áttekintjük a fül ezen részeinek felépítését és működését. Az olvasó az ábrákon követheti végig a leírásokat. A környezetből érkező hang a fülkagylón keresztül jut el a hallójáratba, majd annak közvetítésével a dobhártyához. Ez a három szerv alkotja a külső fület. A fülkagyló egy kagyló alakú szerv, amely különleges, minden emberre egyedileg jellemző tekervényeket tartalmaz. Elsődleges feladata a hangok összegyűjtése és a hallójáratba vezetése. Az emberi fülkagyló a többi állatétól eltérően nem mozgatható, ezért nekünk a hangok megfelelő összegyűjtéséhez az egész fejünket kell mozgatnunk. Ez történik olyankor, amikor valakihez odafordulunk, hogy jobban halljuk, amit mond. A fülkagylón keresztül tehát a hang a hallójáratba jut, ami egy kissé hajlított, kb. 2,5 centiméter hosszú és 7 milliméter átmérőjű cső. Ezen keresztül jut el a hang a dobhártyáig. A dobhártya egy kicsi, hártyás szerv, amely a hanghullámok hatására rezgésbe jön. A dobhártya elmozdulása rendkívül kicsi, egyes becslések szerint egy 2dB SPL hangerejű hang körülbelül 10-8 centiméterrel mozdítja el a dobhártyát, ami nagyjából egyetlen hidrogénmolekula átmérőjének felel meg! A dobhártya tehát az első állomása a külvilágból érkező hang átalakításának. A dobhártya rezgését a középfül hallócsontocskái továbbítják a belső fül felé. Három hallócsontocs- ka található az emberi fülben: a kalapács (malleus), az üllő (incus) és a kengyel (stapes). Ezek a parányi méretű csontok a formájukról kapták a nevüket. Működésüket tekintve mindhárom csontocska különböző izmok és kötőszövetek révén kapcsolódik egymáshoz, illetve egyik oldalról a dobhártyához, másik oldalról pedig a belső fül csiga nevű szervének ovális ablakához. A dobhártya rezgésének hatására a hallócsontocskák is elmozdulnak, és lényegében továbbítják ezt a mozgást a belső fül felé. A dobhártya rezgése azonban a hallócsontocskák révén erőkarok és emelők mozgásává alakul át, és ezáltal a rezgés felerősítődik. A szívizomhoz hasonlóan a hallócsontocskák is egész életünkben folyamatosan mozgásban vannak, hiszen minden egyes hang hatására kiváltódik az elmozdulásuk. Valójában a hallás egész mechanizmusa a dobhártya és a hallócsontocskák megfelelő mértékű mozgásán alapul. A hang által kiváltott rezgés végül a belső fülbe, pontosabban az ott található, borsószem nagyságú, csiga (cochlea) nevű szervbe jut. A csiga felcsavart, folyadékkal kitöltött üregeket tartalmaz, amelyek a hallási ingereket feldolgozó receptorokat rejtik magukban. A csiga három kamrára oszlik vesztibu- láris csatorna, csigavezeték és dobcsatorna -, amelyeket vékony hártyák választanak el egymástól. A három csatorna egymással párhuzamosan fut a csiga teljes hosszában, a vesztibuláris csatorna és a dobcsatorna azonban egy kis átjárón közlekedik egymással, vagyis ezek gyakorlatilag folytonosak. A középső kamra a csigavezeték a másik két csatornát kitöltő folyadéktól kémiai összetételében eltér. A kamrákat kitöltő folyadékok két dolog miatt is fontosak: egyrészt a hallási inger idegi impulzussá alakításában van fontos szerepük, másrészt pedig a csiga sejtjeinek táplálásában vesznek részt. A csigában ugyanis nincsenek vérerek, amelyek a sejtek működéséhez szükséges tápanyagot szállíthatnák, mivel lüktetésük túlságosan nagy zajjal járna, és megnehezítené a hallási ingerek transzdukcióját. A hallócsontocskák rezgése a kengyel közvetítésével az ovális ablakon keresztül jut el a csigába. A csigában ez a rezgőmozgás az ott található folyadékok elmozdulását okozza. Pontosabban, mivel a ken gyel az ovális ablakon keresztül a vesztibuláris csatornával érintkezik, ezért csak az ebben lévő folyadék mozdul el. Ugyanakkor azt mondtuk, hogy a vesztibuláris csatorna közlekedik a dobcsatornával, ami ahhoz vezet, hogy a vesztibuláris csatorna folyadékának elmozdulása a dobcsatorna folyadékát is elmozdítja. A dobcsatorna 163

178 8. FEJEZET A hallás alapvető folyamatai középfülhöz közeli részén szintén találunk egy nyílást, ez az úgynevezett kerek ablak. A kerek ablak lehetővé teszi, hogy a folyadék mozgásának energiája távozzon, vissza a középfülbe. A fül anatómiája és élettana Lényegében tehát az történik, hogy a levegőrezgések először a külső fülbe jutnak be, majd a középfül hallócsontocskái mechanikus lökésekké alakítják át őket. A mechanikus mozgások a kengyelhez kapcsolódó ovális ablakra hatnak, ami a csiga vesztibuláris és dobcsatornájában található folyadéknak adja tovább azokat. Mivel a két csatorna kapcsolatban áll egymással, ez a nyomáshullám végighalad mindkettőn, és végül a kerek ablakon ki is lép onnan. A hangingerek idegi impulzusokká történő átalakulását azonban még ezzel nem magyaráztuk meg. Ehhez tovább kell kutakodnunk a csiga további részeiben. Említettük, hogy a csiga három csatornáját hártyák választják el egymástól. Az egyik az alaphártya, amely a dobcsatorna és a csigavezeték között található, a másik pedig a Reissner-hártya, amely a csigavezeték és a vesztibuláris csatorna között helyezkedik el. A hallási észlelés szempontjából az alaphártya lesz kulcsfontosságú, mivel ez az a szerv, amely a hallási ingereket feldolgozó receptorokat tartalmazza. Az alaphártya tetején helyezkedik el az úgynevezett Corti-szerv. A Corti-szerv fő alkotóelemei a következők: az alaphártyán található támasztósejtréteg, a támasztósejtekből kiálló szőrsejtek sorai és egy tetőszerű, a szőrsejtekre hajló hártya, a fedőhártya. A Corti-szervben található szőrsejtek azok a receptorok, amelyek végül is a hangot idegi impulzussá alakítják. Ez úgy történik, hogy a csiga csatornáiban végighaladó nyomáshullám az alaphártyát is mozgásra készteti. Az alaphártya mozgásának hatására a szőrsejteken található csillók is elmozdulnak, és ennek hatására olyan elektrokémiai változások történnek a sejtekben, amelyek kiváltják azok kisülését, vagyis egy idegi impulzus elküldését a velük összekapcsolódó hallóidegrostokon keresztül az agyba. Összefoglalásul tehát: a hang a középfültől kezdődően átalakulások során megy keresztül, amelyek elsődleges célja a hangrezgés felerősítése. Ez a mechanikai rezgés a belső fül csigájába jut, ahol folyadékok és hártyák elmozdulását okozza, és végül speciális sejtek csillóinak elhajlítása révén idegi impulzussá alakul át A hangingerek kódolása Ahogy az emlékeztető szövegdobozban láthatjuk, a belső fül legfontosabb része a csiga vagy cochlea, illetve az ebben található alaphártya, amelyen végigfut a Corti-szerv. Azt is láttuk, hogy a Corti-szerv szerkezetét tekintve támasztósejtekből, szőrsejtekből és az ezek fölé hajló fedőhártyából áll. A szőrsejtek azok a tulajdonképpeni receptorok, amelyek a hangingereket idegi impulzussá alakítják át. Ez a folyamat a következőképpen zajlik le: a fülbe érkező hang hatására a dobhártya, valamint a hallócsontocskák közvetítésével mozgásba jön a csiga folyadéka, és ennek révén az alaphártya. Az alaphártya mozgása a szőrsejtek tetején lévő csillószőrök elhajlását eredményezi, ez pedig elektromos változásokat okoz a szőrsejtekben. Ezek az elektromos impulzusok továbbítódnak a szőrsejtekhez kapcsolódó hallóidegekbe, és ezeken keresztül az agy megfelelő területeire. 164

179 8. FEJEZET A hallás alapvető folyamatai Vagyis a rezgő tárgyak által keltett hanghullámok végül a hallószervben visszaalakulnak mozgási energiává, és ez a mozgás közvetlenül vezet az idegi impulzusok létrejöttéhez és végül a hang észleléséhez. A fizikai ingerek átalakítását ilyen módon idegi impulzusokká mechano-elektromos transzdukciónak nevezzük. A Corti-szervben található, fülenként mintegy szőrsejt két csoportra osztható: a belső és a külső szőrsejtekre. A belső szőrsejtekből kb van, és egy sorban követik egymást az alaphártya belső részén, pontosabban a Corti-szervnek azon a részén, amely közelebb van a fedőhártyához (8.10. ábra). A külső szőrsejtekből jóval több, mintegy van, és több sorban helyezkednek el a Corti-szerv külső részén. Ezek a sejtek érintkeznek az egész Corti-szervet beborító fedőhártyával, ami nagyon fontos lesz működésük megértésében ábra. A Corti-szerv felépítése és működése. a) Az ábrán jól látszanak a Corti-szervet felépítő külső és belső szőrsejtek és a támasztósejtek, valamint a belső szőrsejteket beidegző afferens és a külső szőrsejteket beidegző efferens idegrostok. b) Az alaphártya elmozdulásának hatására elsősorban a külső szőrsejtek, valamint a fedőhártya mozdul el. Mivel azonban a belső szőrsejtek csillói hozzáérnek a fedőhártyához, ezek is elmozdulnak, aminek hatására a belső szőrsejt tüzelni kezd A belső és külső szőrsejtek azonban nemcsak számukban és elhelyezkedésükben különböznek, hanem természetesen működésükben is. A legfőbb különbség a beidegzésükben van: a hallóidegrostok mintegy 95 százaléka a belső szőrsejtekhez kapcsolódik, és csak a maradék 5 százalék csatlakozik a külső szőrsejtekhez. Ez arra utal, hogy a hangingerek idegimpulzussá történő átalakítását elsősorban a belső szőrsejtek végzik, hiszen főként ezek működéséről szállítódik tovább az idegi információ. Joggal merül fel a kérdés, hogy akkor mi a külső szőrsejtek feladata, annál is inkább, mert ahogy láttuk, ezekből van több. A külső szőrsejtek feltételezhetően nem közvetlenül a transzdukcióban vesznek részt, hanem egyfajta cochleáris erősítő szerepük van. Egy olyan mechanizmus részesei, amely felerősíti az alaphártya mozgását, és ezzel hozzájárulnak a kisebb hangenergiájú hangok feldolgozásához. Ez a folyamat úgy valósul meg, hogy amikor egy hang hatására az alaphártya elmozdul, akkor a belsőhöz hasonlóan a külső szőrsejtek csillói is elmozdulnak, és ez szintén elektromos változást vált ki a sejtekben. Ahogy láttuk, a belső szőrsejtek esetében ez az a változás, ami az idegi impulzus létrejöttéhez vezet. A külső szőrsejtekben ugyanakkor a változás egy mozgásos reakciót vált ki, ami a csillószőrök aktív mozgatásához vezet. Mivel a külső szőrsejtek kapcsolódnak a fedőhártyához, ezért a csillószőrök aktív mozgása a fedőhártyát is mozgásba hozza, ez pedig kihat a cochleáris folyadék és végeredményben az alaphártya mozgására. Fontos ugyanakkor, hogy mindez nem hoz létre valamilyen az eredetivel ellentétes mozgást, hanem a létezőket erősíti fel. Láthattuk tehát, hogy hogyan történik a fülben a fizikai hangenergia átalakítása idegi impulzussá. Mindebből azonban még nem derült ki, hogy valójában hogyan képes a hallórendszer a hangok frekvenciájának és 165

180 8. FEJEZET A hallás alapvető folyamatai amplitúdójának kódolására. Az alábbiakban erre keressük a választ, áttekintve az alaphártya működésének régebbi és mai elméleteit Az alaphártya működésének elméletei A hallással foglalkozó kutatók régóta sejtették, hogy a frekvenciainformáció, vagyis a hangmagasság kódolásáért valamilyen módon az alaphártya a felelős. Több elmélet is született arra vonatkozóan, hogy ez hogyan történhet. A kérdés fontosságát mutatja, hogy a ma is elfogadott megoldásért 1961-ben a magyar származású tudós, Békésy György orvosi Nobel-díjat kapott Frekvenciaelmélet Az egyik elmélet szerint az alaphártya a telefonkagyló membránjához hasonlóan kódolja a hangok magasságát. A telefonkagyló membránja úgy működik, hogy a beszélő által kibocsátott hanghullámok hatására az érzékeny membrán rezgésbe jön, és pontosan azon a frekvencián rezeg, mint az a hang, ami rezgésbe hozta. A membrán rezgése egyszerűen lefordítható elektromos impulzusokká, és ezeket az impulzusokat a vonal másik végén lévő hallgató készüléke ismét vissza tudja alakítani beszédhangokká. A frekvenciaelmélet szerint, amely Ernest Rutherford nevéhez fűződik, és eredete a 19. századra datálódik, az alaphártya a membránhoz hasonlóan viselkedik, vagyis egy adott frekvenciájú hang hatására ugyanolyan frekvencián rezeg. Egy 1000 Hz-es hang hatására tehát az alaphártya másodpercenként 1000-szer rezegne, és ez egy ugyanilyen rezgésszámú elektromos impulzussorozatot váltana ki a hallóidegben. Az alaphártya pontos anatómiai és élettani jellegzetességeinek feltárása azóta több ponton is cáfolta a frekvenciaelméletet. Egyrészt az alaphártya nem úgy viselkedik, mint egy membrán, mivel szélessége és vastagsága nem azonos a különböző részein, és emiatt nem tud teljes hosszában ugyanazon a frekvencián rezegni. Másrészt az impulzusokat közvetítő idegsejtek nem képesek másodpercenként 1000-nél többször kisülni, noha tudjuk azt, hogy az emberi fül képes akár a Hz-es hangokat is feldolgozni. Úgy tűnik tehát, hogy a frekvenciaelmélet annak ellenére, hogy egy viszonylag egyszerű és intuitív magyarázatot kínál, nem igazán állja meg a helyét. A frekvenciaelmélet vonzóságát az is mutatja, hogy történt próbálkozás az elmélet egyfajta megmentésére. Wever és Bray (1937) sortűzelmélete értelmében az 1000 Hz-es felső tüzelési határ kikerülhető úgy, ha az egyes idegsejtek egymás után, sortűzszerűen sülnek ki. Vagyis egy idegsejt mindaddig tüzel, amíg el nem éri a maximális kisülési frekvenciáját, majd ezután bekapcsolódik egy második neuron is, és így tovább. Eszerint tehát egy 2000 Hz-es hang kódolása úgy történhet, hogy két, egymás után 1000 Hz-es frekvenciával tüzelő idegsejt aktivitását egy magasabb szintű idegsejt összegzi. A probléma már csak az, hogy ez a magasabb szintű idegsejt elvileg szintén nem tudja túllépni az 1000 Hz-es határt Helyelmélet Egy másik elmélet a frekvencia kódolásával kapcsolatban a helyelmélet, amely szintén a 19. században született, és elsőként Hermann Helmholtz írta le (Helmholtz 1954). A helyelmélet szerint az alaphártya a rezonanciaelvnek megfelelően működne. A rezonanciaelv értelmében minden tárgy rendelkezik egy saját rezgési frekvenciával, ez adja az adott tárgy jellegzetes hangját. Ha most a saját rezgésnek megfelelő frekvenciájú hang megszólal a tárgy környezetében, akkor ennek a hangnak a hatására a tárgy képes maga is rezgésbe jönni. Például ha egy zongora mellett állva megszólaltatunk valamilyen hangot (mondjuk megfelelő hangerővel kiénekeljük a magas C-t), akkor a zongora megfelelő húrja is rezgésbe jön, mindenféle egyéb behatás nélkül. a zongora különösen jól illusztrálja azt a folyamatot, ami a helyelmélet szerint az alaphártya esetében is lezajlik. A zongora ugyanis sokféle húrral rendelkezik, ami azt jelenti, hogy sokféle külső hang képes rezgésbe hozni az egyes húrokat. A helyelmélet szerint az alaphártya felépítése a zongorához hasonlóan képzelhető el: tudjuk róla, hogy az ovális ablak közelében, az alapjánál keskenyebb, a másik végén, a csúcsánál viszont szélesebb, csakúgy, mint a zongora különböző hosszúságú húrjai. Helmholtz szerint ráadásul az alaphártya zongorahúrszerű keresztirányú rostokat is tartalmaz. Az elmélet szerint ez a strukturális hasonlóság működésbeli hasonlósággal jár együtt, azaz az alaphártya rostjai is a rezonanciaelvnek megfelelően, egy adott magasságú hang hatására rezgésbe jönnek. Nem az egész alaphártya rezeg tehát, mint ahogyan azt a frekvenciaelmélet feltételezte, hanem csak az alaphártya specifikus helyei. A zongoraanalógiát követve ráadásul azt is ki tudjuk következtetni, hogy az alaphártya pontosan hol jön rezgésbe egy adott magasságú hangot követően: a zongoránál a hosszabb húrok mélyebben, a rövidebbek pedig magasabban szólnak. Az alaphártya esetében a hosszabb rostok a csúcsnál, a rövidebbek pedig az alapnál találhatók, vagyis feltételezhetően a mély hangokat a csúcsnál, a magasakat pedig az alapnál kódoljuk. 166

181 8. FEJEZET A hallás alapvető folyamatai Sajnos a frekvenciaelmélethez hasonlóan a helyelméletet is megcáfolták a később feltárt anatómiai bizonyítékok. Az alaphártya pontosabb vizsgálata kimutatta, hogy egyrészt nincsenek rajta különálló, egyedi rezgésre képes rostok, másrészt pedig a zongorahúroktól eltérően nem feszes, hanem laza. Az az elképzelés viszont, hogy az alaphártya a különböző frekvenciákat különböző részein dolgozza fel, tovább élt a következőkben bemutatandó utazóhullám-elméletben. Utazóhullám-elmélet Az utazóhullám-elmélet az alaphártya működésének az az elmélete, amely a mai napig helyesnek bizonyult. A magyar származású Békésy György nevéhez fűződik, aki mint már említettük megalkotásáért No- bel-díjat kapott (lásd a szövegdobozt). Békésy az utazóhullám-elméletet empirikus adatokra, mégpedig mind anatómiai, mind kísérleti adatokra alapozta. Az alaphártya anatómiai vizsgálata feltárta, hogy szerkezete egyáltalán nem homogén, hanem mint azt már Helmholtz korában is tudták az alapjánál keskeny, a csúcsánál pedig széles. Csak később fedezték fel azt, hogy magának az alaphártyának a vastagsága is változik, mégpedig úgy, hogy az alapnál vastag, a csúcsnál pedig vékony. Békésy arra jött rá, hogy az alaphártya struktúrája alapvetően meghatározza azt, hogy milyen típusú elmozdulást végez a rezgéshullámok hatására, és hogy ez a struktúra modellezhető egy hasonló jellemzőkkel bíró gumiszalag segítségével (Békésy 1960). Ennek megfelelően létrehozott egy mechanikus csigamodellt (8.11. ábra), amely egyszerűen képezte le a cochlea felépítést ábra. Békésy mechanikus csigamodellje A modell egy csőből állt, aminek a tetejét kivágta, és egy olyan gumiszalagot rögzített rá, amely az alaphártyához hasonlóan az egyik felén keskeny és vastag, a másik felén pedig széles és vékony volt. A cső egyik felére egy az üllőhöz hasonlító szerkezetet helyezett, amelyhez különböző frekvenciával rezgő hangvillákat tudott érinteni, és így meg tudta vizsgálni azt, hogy ezek az eltérő frekvenciák milyen választ váltanak ki a gumiszalagban. Az alkarját a gumiszalaghoz érintve Békésy képes volt a szalag rezgéseit észlelni, és azt tapasztalta, hogy egy hang hatására hullám fut végig a szalag teljes hosszán, de egy bizonyos helyen mozdítja meg leginkább. Tovább vizsgálódva rájött arra, hogy a helyelmélet elképzelésének megfelelően, a magas hangok ott váltották ki a legnagyobb elmozdulást, ahol a hangvilla kapcsolódott a csőhöz (a fülben ez a csiga alapja, vagyis az ovális ablakhoz közeli része), a mély hangok pedig pontosan az ellenkező oldalon. Békésy tehát a mechanikus csigamodell segítségével azt bizonyította, hogy a helyelméletnek van igaza, mivel a frekvencia kódolása az alaphártya specifikus részeihez köthető, nem pedig az egész alaphártya rezgése határozza meg, mint ahogyan azt a frekvenciaelmélet állította. Ugyanakkor az utazóhullám-elmélet a helyelmélethez képest egy eltérő mechanizmust tárt fel, mivel Békésy azt találta, hogy az alaphártya egyes részeinek rezgését egy az alaphártyán végigfutó, de meghatározott helyeken maximális kitérést mutató utazóhullám hozza létre. Ezt az utazóhullámot leginkább úgy képzelhetjük el, mint amikor egy lazán kifeszített kötél egyik végét hirtelen megrántjuk, és ennek következtében egy hullám fut végig rajta. Az alaphártyán hasonló módon alakul ki az utazóhullám, de itt az okozza, hogy a kengyel ráüt az ovális ablakra, és ez mozgáshullámot kelt a csiga folyadékában, ennek hatására pedig az alaphártyán is. Láttuk, hogy a Corti-szerv szőrsejtjei az alaphártya elhajlása hatására kezdenek tüzelni, és most már azt is értjük, hogy hogyan képesek a sejtek a frekvencia kódolására: az eltérő frekvenciájú hangok hatására az alaphártya eltérő részein jön létre egy maximális elhajlás (magas hangok hatására az alap, mély hang hatására pedig a csúcs közelében). Az alaphártya maximális elhajlása pedig az azon a területen lévő receptorok tüzelését okozza, vagyis azok a szőrsejtek tüzelnek leginkább, amelyek az utazóhullám tetején találhatók. Eszerint ha tudjuk, hogy az alaphártya melyik részén történt a legnagyobb elhajlás, akkor meg tudjuk mondani, hogy milyen frekvenciájú hang érkezett a fülbe. A frekvencia kódolásának ilyen rendezett voltát tonotópiás szerveződésnek nevezzük, és ahogy majd látni fogjuk, a hallórendszer szinte minden szintjén megtalálható. Az utazóhullám-elmélet nemcsak a frekvencia-, hanem az intenzitásinformáció kódolását is képes magyarázni. Eszerint nagyobb intenzitású hang nagyobb utazóhullámot hoz létre, pontosabban, a hullám maximális elhajlása 167

182 8. FEJEZET A hallás alapvető folyamatai nagyobb lesz. A nagyobb elhajlás természetesen nagyobb aktivitást vált ki a szőrsejtekből, ami gyorsabb kisüléseket eredményez A hallóideg Láthattuk, hogy a hangingereknek az agy által feldolgozható idegi impulzusokká történő átalakítását a cochlea szőrsejtjei végzik. A szőrsejtekből az ott létrejött impulzusokat a hallóidegben összefutó hallóidegrostok vezetik el. Fontos különbséget tennünk a hallóidegrostok és a hallóideg között: a hallóidegrostok a receptorokból kiinduló axonok, a hallóideg pedig az ezeket összegyűjtő struktúra. Ahogy a szőrsejtek tárgyalásakor szó volt róla, az idegrostok nagyobb része (mintegy 95 százaléka) a belső szőrsejteket idegzi be, vagyis ezekből indul ki. Tudjuk azt is, hogy egy-egy fülben körülbelül 3500 belső szőrsejt található, és ezekhez körülbelül idegrost kapcsolódik. Mindebből az következik, hogy egyetlen belső szőrsejthez több, átlagosan mintegy 14 ideg is kapcsolódik (lásd ábra). Meglehetősen nagy redundanciát találunk tehát a hallási receptorok beidegzése kapcsán ábra. Egy belső szőrsejt beidegzése. A legtöbb szőrsejthez egynél több idegrost kapcsolódik A hallóidegrostok aktivitását állatkísérletes módszerekkel vizsgálták a leggyakrabban, mégpedig az egysejtvizsgálattal. Ahogy azt már tudjuk, az eljárás lényege, hogy egy elektróda segítségével közvetlenül rögzítjük az idegrost elektromos aktivitását, vagyis a rajta áthaladó akciós potenciálokat. A hallóideg működése kapcsán leginkább az érdekelte a kutatókat, hogy a különböző hangerőn megszólaló eltérő frekvenciákra milyen kisülési mintázatokkal reagálnak az idegsejtek (tudjuk, hogy a hangok kapcsán ez az a két ingerjellemző, amit az észlelőrendszernek kódolnia kell). A vizsgálatok két lényeges megállapításra jutottak a hallóidegrostok működésével kapcsolatban. Egyrészt úgy tűnik, hogy az idegrostok inger hiányában is mutatnak kisüléseket, úgynevezett spontán aktivitást. Másrészt az egyes idegrostok a különböző frekvenciákra nem egyformán érzékenyek, vagyis frekvenciaszelektívek Spontán aktivitás Liberman (1978) kutatási eredményei alapján tudjuk, hogy az idegrostok soha nincsenek teljes nyugalmi állapotban, és hangingerek hiányában is tüzelnek. Ez a spontán aktivitás azonban eltérő mértékű az egyes idegrostoknál, és így megkülönböztethetünk alacsony, közepes és magas spontán aktivitással rendelkező rostokat. Érdekes módon az, hogy egy idegrost milyen spontán aktivitást mutat, szoros kapcsolatban van azzal, hogy a belső szőrsejtek mely részéhez kapcsolódik. Eszerint a magas spontán aktivitású rostok inkább a belső szőrsejtek külső szőrsejtek felőli részéhez kapcsolódnak, az alacsony spontán aktivitású rostok az ellenkező oldalhoz, a fennmaradó helyekre pedig a közepes aktivitású rostok kapcsolódnak (8.13. ábra). Ráadásul a 168

183 8. FEJEZET A hallás alapvető folyamatai spontán aktivitás összefügg azzal is, hogy az idegrost egy adott frekvencián milyen küszöböt mutat (egy idegrost esetében a küszöb az a legkisebb hangerőérték, amely az aktivitási mintázatában mérhető változást okoz): a magas spontán aktivitáshoz alacsony küszöb tartozik, és fordítva ábra. A hallóidegrostok különböző típusainak spontán aktivitása. A három tengelyen az idő múlásával bekövetkező spontán idegi kisülések láthatók, melyeknek hozzávetőleges számát is feltüntettük. Az idegrostok attól függően mutatnak eltérő aktivitást, hogy a belső szőrsejt mely részéhez kapcsolódnak. A százalékértékek azt fejezik ki, hogy az adott idegrostok milyen arányban találhatók meg a hallórendszerben Frekvenciaszelektivitás A következő észrevétel a hallóidegrostok aktivitásával kapcsolatban az, hogy egyes idegrostok a különböző frekvenciákra nem egyformán érzékenyek. Valójában minden idegrost esetén létezik egy kitüntetett szűk frekvenciatartomány (az egyszerűség kedvéért tekintsük ezt egyetlen frekvenciának), ahol az idegrost alacsony hangerőküszöböt mutat, és minden más frekvenciára a küszöb értéke magasabb (Liberman 1982). Ezt a kitüntetett frekvenciát nevezzük az adott idegsejt jellemző frekvenciájának. Ha grafikonon ábrázoljuk az egyes frekvenciák esetében az idegi aktivitás kiváltásához szükséges legkisebb hangerőt, akkor a frekvenciahangolási görbét kapjuk (8.14. ábra). A frekvenciahangolási görbe mindenegyes idegrostesetében U alakot vesz fel, aminek a negatív csúcsa jelöli ki az idegrost jellemző frekvenciáját. Az ábrán látható, hogy a görbe U alakja kissé torzított: felfutása általában meredekebb a jellemző frekvenciánál magasabb frekvenciájú hangokra, mint az alacsonyabbakra. Ez azt jelenti, hogy az idegrostok érzékenyebben reagálnak a magasabb frekvenciákra, mivel ezeknél az inger jellemzőinek kis változása nagy aktivitásbeli változást vált ki (a tüzelés csökkenését). Az idegrostok frekvenciaszelektivitása annak köszönhető, hogy az alaphártya más-más pontjaihoz, pontosabban az alaphártya más-más pontjain található belső szőrsejtekhez kapcsolódnak. Tudjuk, hogy az egyes frekvenciák az alaphártya különböző részein kódolódnak (a magas hangok az alap közelében, a mélyek pedig a csúcs közelében), és eszerint az, hogy egy bizonyos idegsejt milyen frekvenciára érzékeny leginkább, attól függ, hogy az alaphártya mely részéhez kapcsolódik. Ugyanakkor a hallóidegrost válaszjellemzőinek meghatározása szempontjából nemcsak az alaphártyához való kapcsolódás helye lényeges, hanem ahogy láttuk az is, hogy az alaphártyán lévő belső szőrsejt mely részéhez kapcsolódik az idegrost. Így hát a belső szőrsejt alaphártyán való helyzete határozza meg az idegrost jellemző frekvenciáját, a szőrsejthez való kapcsolódás helye pedig a spontán aktivitás mértékét. 169

184 8. FEJEZET A hallás alapvető folyamatai ábra. Frekvenciahangolási görbék több különböző idegrost esetén. Az ábrán kiemeltünk egyetlen idegrosthoz tartozó görbét, és feltüntettük ennek jellemző frekvenciáját Láthattuk tehát, hogy a frekvencia kódolása hogyan valósul meg a hallóidegrostban. Arról azonban még nem beszéltünk, hogy a hangerő hogyan kódolódik. Az első fontos megállapítás, amit ennek kapcsán tennünk kell, az, hogy nincs értelme a hangerő általános kódolásáról beszélnünk. Ahogy láttuk, az egyes idegrostok csak egyetlen frekvenciára mutatnak specifikus érzékenységet, eszerint tehát az intenzitás kódolását egy adott frekvencia esetében tudjuk csak megnézni. Az idegrostok aktivitásának változását az intenzitás növekedésének függvényében a ábra mutatja ábra. A különböző típusú hallóidegrostok aktivitásának változása a hangerő függvényében. Fölül magas spontán aktivitással, alacsony küszöbbel és kis dinamikai tartománnyal, alul alacsony spontán aktivitással, magas küszöbbel és nagy dinamikai tartománnyal rendelkező idegrost görbéje látható táblázat - 170

185 8. FEJEZET A hallás alapvető folyamatai BEKESY GYÖRGY (Budapest, jún. 3. Honolulu, jún. 13.) Békésy György 1961-ben A belső fül csigájában létrejövő ingerületek fizikai mechanizmusának felfedezéséért orvosi-élettani Nobel-díjat kapott, annak ellenére, hogy ő maga nem volt orvos. Diplomáját kémiából szerezte, doktori címét pedig fizikából. A Nobel-díjhoz vezető kísérletek nagy részét a budapesti Postakísérleti Állomáson kialakított laboratóriumban végezte, és a távközléssel foglalkozó mérnökök Békésyt tréfásan az eddig egyetlen Nobel-díjas postamérnökként tartják számon. Békésy Budapesten született, diplomata szülők gyermekeként. Hamar elkerült Budapestről, mivel a család először Münchenbe, majd Törökországba, végül Svájcba költözött. Békésy itt szerzett diplomát vegyészetből, majd visszatért Budapestre, és a doktori tanulmányait már itt folytatta a Pázmány Péter Tudományegyetemen ban doktorált fizikából ban így emlékezett vissza az ban Budapesten, Tangl Károly irányításával töltött doktoranduszi évekre: A budapesti egyetem igen különbözött a bernitől... A laboratórium igazgatója Tangl professzor előtt Eötvös volt. Sohasem találkoztam vele (Eötvös Loránd 1919-ben meghalt), a technikusával azonban többször is. Valahányszor elvégeztem vagy hozzákezdtem egy kísérlethez, azt mondta, hogy a kegyelmes úr nem így csinálná. Néha igaza is volt. így tudtam meg, hogyan gondolkozott és dolgozott Eötvös, és ismét csak azt mondhatom, hogy egy probléma több, különböző oldalról való makacs megközelítésének egyszerűsége volt az, ami Eötvöst a világ kimagasló tudósainak egyikévé tette... A doktori fokozat megszerzése után Békésy 1923 és 1946 között a Postakísérleti Állomáson dolgozott mérnökként, és lehetőséget kapott egy laboratórium felépítésére. Itt elsősorban a jelátvitel problémáival foglalkozott, és ennek révén kezdte el az emberi fül tanulmányozását, mint a jelátviteli rendszer legfontosabb komponensét. Hamarosan állandó vendége lett a kórházak bonctermeinek és a Postakísérleti Állomás műhelyeinek, ahol a munkások gyakran találtak furcsa csontszerű anyagot a fúróikon reggelente. Ebben az időszakban pályája meredeken ívelt felfelé, 1939-ben az Akadémia levelező tagjává választotta, 1940-ben pedig a Tudományegyetem Gyakorlati Fizikai Tanszékére kapott tanári kinevezést. így már két laboratóriumban folytathatta munkáját. Mindeközben gyakorlati feladatokat is vállalt: az 1928-ban elkészült Magyar Rádió önálló stúdiójának akusztikai terveit Békésy készítette, és a nagyzenekari előadásokra kiépített, azóta legendássá vált 6-os stúdió akusztikai kialakítását is ő tervezte (lásd a koncerttermi akusztikáról szóló szövegdobozt). A második világháború során bombatámadás érte a Postakísérleti Állomás épületét, és elpusztult Békésy itteni laboratóriuma, de az egyetemi laboratórium műszereit sikerült megmentenie. A háború után azonban az egyetemen már nem jutott pénz a laboratórium fejlesztésére, és egyébként is jelentős változások álltak be a magyarországi viszonyokban, ezért, hogy átvészelje ezeket a zavaros időket, 1946-ban kutatói ösztöndíjat kért a svédországi Karolinska Intézetbe. Közben meghívták az Egyesült Államokba, a Harvard Egyetemre, és től itt dolgozott. Amerikai tartózkodását azonban Magyarországon nem nézték jó szemmel, és 1949-ben akadémiai tagságát is megszüntették. Ezzel egy időben teljesen eltüntették a magyarországi közéletből, a nevét is csak suttogva lehetett kiejteni. A Magyar Tudományos Akadémián csak halála után nyolc évvel rehabilitálták. A Harvard Egyetemen 17 évet töltött, ahol tovább folytatta a fül és a hallórendszer tanulmányozását, és itteni tartózkodása során számos kitüntetést szerzett. Ezek közül a legjelentősebb az 1961-ben kapott aranyérem az 171

186 8. FEJEZET A hallás alapvető folyamatai Amerikai Akusztikai Társaságtól, s az ugyanebben az évben megkapott orvosi-élettani Nobel-díj volt. Békésy 1966-ban elfogadta a Hawaii Egyetem meghívását, és az ottani Érzékszervi Kutatólaboratórium vezető kutatójaként tevékenykedett. Életének utolsó hat évét töltötte itt, hódolva két legnagyobb szenvedélyének: az érzékeléskutatásnak és a művészettörténetnek. Ez irányú érdeklődését jól példázza a Nobel-díj kapcsán tartott előadása (Concerning the Pleasures of Observing, and the Mechanics of the InnerEar, letölthető a címen), amelyben a belső fül működését szemléltető ábrák mellett rengeteg műalkotás fotóját is bemutatja. Békésy 1972-ben halt meg Hawaii szigetén, és hamvait kívánsága szerint ősi polinéz szokás szerint a Csendesóceánba szórták, hogy újból egyesüljenek a természettel. Élete során mintegy 160 tudományos dolgozatot publikált. Ma már széles körű megbecsülés övezi emlékét mind külföldön, mind idehaza: díjak, iskolák és laboratóriumok viselik a nevét. Az ábráról leolvasható, hogy az idegrost jellemző frekvenciáján megszólaló hang különböző hangszintjei milyen aktivitásváltozást idéznek elő az idegrostban. Látható, hogy a rost spontánaktivitás-szintje egészen a küszöb eléréséig nem változik, majd ez követően monoton növekedést mutat. A növekedés azonban egy bizonyos intenzitás felett nem változik, vagyis elér egy platót. Azt a pontot, ahol az intenzitás növekedése már nem vált ki aktivitásnövekedést, telítődési (szaturációs) pontnak hívjuk, a küszöb és a telítődési pont közötti tartományt pedig (ahol az intenzitás változása okoz egyáltalán valamilyen változást az idegrost aktivitásában) dinamikai tartománynak. Az ábrán látható S alakú, vagyis szigmoid összefüggés minden idegrost esetén hasonlóan néz ki, de ahogy arról már volt szó, az egyes idegrostok eltérnek abban, hogy milyen mértékű spontán aktivitással (magas, alacsony, közepes) és küszöbértékkel rendelkeznek. Ahogy az várható, a három különböző típusú idegrost a dinamikai tartományban is eltér egymástól, mégpedig oly módon, hogy a nagyobb spontán aktivitású és alacsony küszöbű rostok kis dinamikai tartománnyal rendelkeznek, és így tovább. A három különböző típusú hallási idegrost válaszjellemzőit a 8.3. táblázat foglalja össze. A hallóidegrostokkal kapcsolatban meg kell még említenünk azt, hogy az alaphártya tonotopikus szerveződése is (vagyis az, hogy az egymáshoz közeli frekvenciaértékek az alaphártya egymáshoz közeli részein reprezentálódnak) megőrződik az idegrostokban. így a magas frekvenciákra érzékeny rostok a hallóideg perifériás részein találhatók, és az ideg közepe felé haladva a rostok egyre mélyebb frekvenciákra érzékenyek A hallópálya és az agy hallóközpontjai Az eddigiekben áttekintettük a hang útját a fülkagylótól a hallási receptorokat tartalmazó csigáig, valamint azt a folyamatot, ahogyan az alaphártya működése révén a hangok az agy számára érthető idegi aktivitássá alakulnak. Az idegimpulzusok a hallóideg révén jutnak el a belső fülből az agynak azon területeire, amelyek a hangok feldolgozásával foglalkoznak. A továbbiakban áttekintjük a hallópálya útját és azokat az átkapcsolóállomásokat, amelyek a hangingerek különböző mértékű előzetes feldolgozását végzik el, mielőtt az agy halántéklebenyi területén található hallókéregbe jutnának. A két fülből induló hallóideg a vesztibuláris ideggel (amely szintén a fülből, de az egyensúlyérzetért felelős félkörös ívjáratokból indul) együtt a VIII. agyideget alkotva jut el a központi idegrendszerbe. Itt elsőként az agytörzsben található nucleus cochleárisban kapcsolódik át (8.16. ábra), ahol még nincs átkereszteződés, vagyis a jobb fülből érkező hangok a jobb, a bal fülből érkező hangok pedig a bal nucleus cochleárisba futnak. A következő átkapcsolódási pont az oliva superior, ahol már átkereszteződnek az idegpályák, és az e feletti szintek esetében mindenütt lehetőség van mindkét fülből származó információ feldolgozására. Az oliva superior után a hallópálya a colliculus inferiorba, majd a középső geniculatus magba, végül pedig az elsődleges hallókéregbe (Br 41, 42) fut. A hallópálya minden szintjén, így az elsődleges hallókéregben is megőrződik a hangmagasság tonotopikus reprezentációja. A közelmúltban érdekes hasonlóságokat tártak fel a látás és hallás kérgi szerveződésével kapcsolatban. Úgy tűnik, hogy a hallás esetében is létezik két különálló pályarendszer a mi és a hol információ feldolgozására, vagyis a tárgyak hallás alapján történő azonosítására és a tárgyak helyének megállapítására (Rauschecker-Tian 2000). Ennél részletesebben egyelőre nem beszélünk a kéreg alatti és kérgi területek működé- séről, hanem a későbbi fejezetek során még visszatérünk azokra az éppen tárgyalandó pszichológiai működések idegi alapjai kapcsán. 172

187 8. FEJEZET A hallás alapvető folyamatai ábra. A hallópálya áttekintése 3.6. ÖSSZEFOGLALÁS 1. A hallás alapvetően három funkcióval rendelkezik: lehetővé teszi egyrészt a kommunikációt, másrészt a riasztást és jelzést, harmadrészt a hangokat kibocsátó tárgyak lokalizációját és felismerését. 2. A hallás révén a mechanikai rezgést kibocsátó tárgyakról szerezhetünk tapasztalatot. 3. A hangok hanghullámok formájában terjednek, amelyek a levegő (vagy egyéb közvetítő közeg) részecskéinek sűrűsödéseiből és ritkulásaiból jönnek létre. 4. A hanghullámok három jellemzővel rendelkeznek: hangerővel vagy amplitúdóval, rezgésszámmal vagy frekvenciával és fázissal. 5. A hangerő a hangnyomás nagyságára vonatkozik, és a hangosság szubjektív érzetéhez vezet. Mértékegysége a decibel. Az emberi hallórendszer a 0 (hallásküszöb) és 160 db közötti hangerőtartományt képes feldolgozni, amely mintegy 10 milliárdszoros nagyságrendbeli különbségnek felel meg. 6. A rezgésszámot vagy frekvenciát a másodpercenkénti hanghullám-periódusok számával, azaz a Hz-cel mérjük. A frekvencia a hangmagasság szubjektív érzetének alapja. Az emberek a Hz-es frekvenciatartományt képesek meghallani. 7. A hangok különbözőek lehetnek attól függően, hogy egy vagy több frekvencia-összetevőt tartalmaznak, és hogy periodikusan vagy véletlenszerűen ismétlődők. Három hangtípust ismerünk: tiszta hang, komplex hang, zaj. 8. Az emberi hallórendszer a három anatómiailag elkülönülő részre osztható fülből, a hallópályából és az agy hallási információkat feldolgozó területeiből áll. 9. A fül egyes részeinek eltérő a feladatuk a hallási folyamatban. A külső fül egyfajta irányított mikrofon, a középfül szerepe az ellenállás-csökkentés és a túlterhelés elleni védelem, a belső fülben pedig a hangok idegi impulzussá való átalakítása történik. 10. A transzdukció a belső fülben található csiga alaphártyáján megy végbe. Az alaphártya tartalmazza a Corti-szervet, amelynek szőrsejtjei alkotják a hangreceptorokat. A hang hatására az alaphártya elmozdul, ami ingerületbe hozza a szőrsejteket, és kiváltja tüzelésüket. 11. Az alaphártyának a hangmagasság kódolásában betöltött szerepével kapcsolatban több elmélet is született, köztük a frekvenciaelmélet, a helyelmélet és az utazóhullám-elmélet. Ez utóbbit a mai napig nem cáfolták meg, a másik kettő ellen viszont több érv is szól. 12. A szőrsejtekből az ott létrejött idegi impulzusokat a hallóidegrostok vezetik el. A hallóidegrostok eltérőek lehetnek attól függően, hogy milyen spontán aktivitással, küszöbbel és telítődési ponttal rendelkeznek. Ugyanakkor az egyes rostok egy szűk frekvenciatartományra érzékenyek, amelyet az adott rost jellemző frekvenciájának nevezünk. 173

188 8. FEJEZET A hallás alapvető folyamatai 13. A hallóidegrostok a hallóidegben futnak össze, amely az agytörzsben több helyen átkapcsolódik, illetve átkereszteződik, végül pedig az agykéreg halántéklebenyi területén található elsődleges hallókéregbe érkezik. 14. A hallás kérgi szerveződése a látáshoz hasonló bonyolultsággal rendelkezik, és itt is megtalálhatóak a hol és mi információ feldolgozására specializálódott pályák KULCSFOGALMAK akusztikus reflex, alaphang, amplitúdó, dinamikai tartomány, fázis, felharmonikusok, frekvencia, frekvenciaelmélet, frekvenciahangolási görbe, sortűzelmélet, spontán aktivitás, telítődési pont, tonotópiás szerveződés, utazóhullám-elmélet 3.8. ELLENŐRZŐ KÉRDÉSEK 1. Mi lehet az oka annak, hogy a hang vízben vagy fémekben gyorsabban terjed, mint a levegőben? 2. Létezik-e hang akkor, ha senki sem hallja? 3. A fény és a hang ingere sokban hasonlít egymáshoz. A hang magassága és hangereje a fény mely tulajdonságainak feleltethető meg? 4. Próbáljuk meg összefoglalni, hogy a hallási inger feldolgozása során hány és milyen típusú mozgásokat végeznek a fül egyes részei! 5. Az alaphártya működésének utazóhullám-elmélete a két másik elmélet közül melyikhez hasonlít inkább? Miért? 6. Mit jelent az, hogy a hallási receptorok beidegzése redundáns? Hol van szerepe ennek a redundanciának? 7. Hogyan lehet kimutatni azt, hogy a hallókéregben a hangok leképeződése tonotópiás szerveződésű? 3.9. AJÁNLOTT OLVASMÁNYOK Moore, B. C. J An introduction to thepsychology of hearing. 4th ed. Academic Press, San Diego. Pap János Hang, ember, hang. Vince Kiadó, Budapest AJÁNLOTT HONLAPOK (A hallórendszer működésének szemléltetése, sok ábrával és animációval.) (A hallás működésének gazdagon illusztrált bemutatása.) (A Nobel-díj hivatalos oldala, ahol sok információ található Békésy Györgyről, köztük a Nobel-díj-átadás archív felvétele és Békésy több beszéde.) (Békésy hawaii laboratóriumának honlapja, ahol több fotó is található Békésyről és a mechanikus csigamodellről.) 174

189 11. fejezet - 9. FEJEZET Egyetlen hang észlelése a szubjektív hang A hangok szubjektív észlelésének tanulmányozásával a pszichoakusztika tudománya foglalkozik. Pap János (2002) szerint a hangok észlelése kapcsán két alapvető posztulá- tumot kell elfogadnunk: 1. Mindenki azt hall, amit hall. Valójában nincs módunk arra, hogy közvetlenül tudomást szerezzünk arról, hogy mások hogyan észlelik a környezet hangjait, nem tudhatjuk meg, hogy milyen élményt vált ki bennük egy hang meghallása. Vannak viszont közvetett módszerek, és lényegében a pszichoakusztika tudománya azzal foglalkozik, hogy minél pontosabb és jobb eszközöket és módszereket fejlesszen ki annak érdekében, hogy közelebb kerüljünk mások akusztikai élményeinek megismeréséhez. 2. A szubjektív hang paraméterei kölcsönhatásban vannak egymással. Mint arról az előző fejezetben már szó volt, a hangok többféle paraméterrel (pl. hangosság, hangmagasság) rendelkeznek. Ebben a fejezetben azt fogjuk bemutatni, hogy miként lehetséges az, hogy a hangokat nem különálló fizikai jellemzőik révén, hanem egységes egészként észleljük, és hogy az egyes ingerdimenziók megváltozása magával vonja a többi észleletének megváltozását. Egy hétköznapi példa erre, amikor operaénekeseket hallgatunk, és egyikük énekét jóval hangosabbnak észleljük, mint a másikét. Ha ez fizikailag is így van, észlelőrendszerünk rendben követi a hangosságeltérést. Próbáljuk meg viszont azt a helyzetet értelmezni, amelyben mindketten azonos hangossággal, azaz műszeresen kimérve azonos decibelértékű, mondjuk 80 db intenzitással énekelnek, és mégis, egyikük hangját hangosabbnak halljuk. Ez úgy következhet be, hogy az egyik énekes nagyobb erőfeszítéssel, a gégefedő fokozottabb lenyomásával éri el a hangosságnövekedést. Ennek következtében hangjában a magas részhangok aránya megnő, így a magas hangok összetételének megváltozása miatt hangosabbnak halljuk az ő énekét, miközben a fizikai hangosság azonos. Ezzel ráadásul még az is együtt járhat, hogy a szöveg érthetetlenné válik, hiszen a magánhangzók frekvencia-összetevői feljebb, egymáshoz közelebb csúsznak, és a magán hangzó-kategóriák megfelelő észlelése lehetetlenné válik. Minderről később, a beszédhangok észlelésével foglalkozó 11. fejezetben bőven lesz szó. A pszichoakusztikai ismeretek azonban nem csak arra jók, hogy többet tudjunk arról, hogyan is működik az emberi észlelés. A mérnöki és számítástechnikai tudományok egyre több területen használják ki ezeket az ismereteket, és a hangok fizikai jellemzőinek vizsgálata helyett egyre inkább arra figyelnek, hogy valójában mit is hallanak az emberek (lásd az mp3 formátumról szóló szövegdobozt). Ennek a fejezetnek tehát a hangok szubjektív észlelése lesz a témája. Miután az eddigiekben megtanultuk, hogy milyen információt dolgoz fel a hallórendszer, és ehhez milyen anatómiai és élettani eszköztár áll a rendelkezésére, most arra leszünk kíváncsiak, hogy vajon mit hallanak valójában az emberek. Látni fogjuk, hogy a hangok és az azokat feldolgozó mechanizmusok jellemzői önmagukban nem határozzák meg azt, hogy mit is észlelünk. Azt is mondhatjuk, hogy a hallórendszer szerkezete és működése csak egyfajta megszorítást jelent: szükséges, de nem elégséges feltétele a hallási élménynek. A fejezetben két nagy témával foglalkozunk: a hangosság észlelésével és a hangmagasság észlelésével. Ezt kiegészíti még a hallórendszer frekvenciaszelektivitásának és a hangszín észlelésének a tanulmányozása. 1. A hangosság észlelése Az emberi fül érzékenysége csodálatra méltó: az általunk észlelhető hangok tartománya db közötti, ami 1 : intenzitásaránynak felel meg. A hangosság észlelése kapcsán az első kérdés az lesz, hogy hogyan képes feldolgozni a hallórendszer egy ilyen óriási hangerőtartományt. Ugyanakkor tudjuk azt is, hogy egy hang észlelt hangossága szubjektív élmény. Definíció szerint a hangosság a hallási észlelésnek az a jellemzője, amelynek alapján a hangokat hangosságuk mentén egy skálán sorba tudjuk rendezni a halk hangoktól a hangos hangokig. Ebből fakad a második kérdés: mi határozza meg valójában a hangosság észlelését? Ha az utca emberét megkérdeznénk arról, hogy mitől lesz egy hang hangosabb egy másiknál, akkor természetesen azt válaszolná, hogy attól, hogy az nagyobb hangerővel rendelkezik. Sőt valószínűleg azt is meg tudná mondani, hogy hogyan tudja elérni azt, hogy a rádióból szóló zene hangosabb legyen: egyszerűen felcsavarja a hangerőgombot. Látni fogjuk azonban, hogy egy hang hangosságát nem csak az intenzitása vagy hangereje befolyásolja. Mint az operaénekes-példából kitűnhetett, a hang frekvenciája legalább olyan fontos szerepet játszik a hangosság 175

190 9. FEJEZET Egyetlen hang észlelése a szubjektív hang élményének kialakulásában, mint az, hogy milyen hangerővel, fizikai értelemben véve, milyen hangnyomással rendelkezik A hangosság észlelésének tartománya Az abszolút küszöb A hallható hangok tartományának alsó határát úgy határozhatjuk meg, hogy megmérjük azt a legkisebb intenzitást, ami ahhoz szükséges, hogy egy adott frekvenciájú hangot éppen meghalljunk. Ezt az éppen detektálható intenzitást nevezzük a hang abszolút küszöbének. Egy ilyen mérést nagyon csendes környezetben kell elvégezni, és érdemes arra is odafigyelni, hogy fülhallgatón vagy hangszórón keresztül adjuk-e a hangokat, ugyanis a kettő között jelentős különbségek lehetnek (akár 2dB eltérés is, lásd Moore 1997). Ha sok személy sok különböző frekvencián mutatott abszolút küszöbét megmérjük, és ezeket ábrázoljuk, akkor a 9.1. ábrán látható görbét, az úgynevezett hallhatósági függvényt kapjuk ábra. Hallhatósági függvény A hallhatósági függvény tehát az egyes frekvenciák függvényében ábrázolja a hallási küszöböket. Fontos kiemelnünk, hogy a görbe egyénileg eltérő lehet, hiszen nem egy fizikai összefüggést, hanem egy szubjektív élményt jelenít meg, nevezetesen azt, hogy a kísérleti személy egy adott szituációban hallott-e egy hangot vagy sem. Természetesen, mivel a hallhatósági függvény sok ember átlagolt válaszaiból készült, ezért nagyjából mindenkinél hasonló lesz. Ugyanakkor az is teljesen normális, ha valakinél ±20 db-nyi eltérés tapasztalható valamelyik frekvencia esetén. Ahogy az ábrán látható, a hallhatósági függvény egy U alakú összefüggést ábrázol a frekvencia és az intenzitás között: az alacsony és a magas frekvenciák esetében a hallási küszöb magas, a középső frekvenciák esetén viszont alacsony. A görbéről az is leolvasható, hogy leginkább az 1-4 khz-es (1 khz = 1000 Hz) tartományra vagyunk érzékenyek. Ez a tartomány kitüntetett jelentőségű a hallási észlelésben: a beszédhangok és a zenei hangok frekvenciájának jelentős része is ebbe a tartományba esik. A hallhatósági függvény az életkorral változik: a magas hangokra mutatott érzékenység csökken. Kisgyerekek képesek akár a 20 khz-es hangokat is detektálni, egy átlagos felnőtt azonban 15 khz felett már nem hall hangokat, és időskorban ez az érték akár a beszédhangok tartományát is elérheti (lásd A hangosság észlelésének problémái, 279. sk.). A pszichofizika korábbi tárgyalása során nemcsak az abszolút küszöbről, hanem a különbségi küszöbről is tanultunk. Mint tudjuk, a különbségi küszöb azt fejezi ki, hogy mennyivel kell megváltoztatnunk az inger intenzitását ahhoz, hogy ez változást okozzon az inger észlelésében. A hangerő kapcsán két eljárás is létezik a különbségi küszöb mérésére: az egyik esetében közvetlen nagyságbecslés révén állapítjuk meg a hangok hangosságát, a másikban viszont a hangossági szinteket mérjük. A továbbiakban ezt a két eljárást és a segítségükkel kapott eredményeket tekintjük át A hangerő közvetlen nagyságbecslése A hangok észlelt hangosságának megállapítására az egyik leggyakrabban alkalmazott módszer a közvetlen nagyságbecslés. A módszer Stevens (1957) nevéhez fűződik. A hangosság nagyságbecslésére két különböző eljárást is alkalmaznak. Az egyikben különböző hangosságú hangokat adnak a kísérleti személyeknek, és arra kérik őket, hogy rendeljenek számokat ezekhez a hangokhoz aszerint, hogy milyen hangosnak hallják őket. Vagyis, ha például egy 80 db-es hangot 10-zel jelöltek, akkor csak az a lényeges, hogy egy ennél hangosabb 176

191 9. FEJEZET Egyetlen hang észlelése a szubjektív hang hang 10-nél nagyobb értéket, egy halkabb hang pedig 10-nél kisebbet kapjon. A másik típusú feladatban, ami egy produkciós feladat, a személyeknek az a dolguk, hogy egy hang hangerejét úgy állítsák be, hogy az megfeleljen egy előre meghatározott másik hang hangosságának, illetve egy annál bizonyos mennyiséggel hangosabb szintnek (kétszer, négyszer stb. hangosabb vagy halkabb legyen). Bármelyik módszert használjuk is, egy olyan általános összefüggést kapunk a hang intenzitása és az észlelt hangosság között, amely szerint a hangosság a hangerővel együtt, de annál lassabban növekszik. pontosabban, ahogyan azt stevens is leírta, a hangok észlelt hangossága és fizikai intenzitása között hatványösszefüggés van. Ezt az összefüggést az alábbi képletben foglalhatjuk össze: Φ = k Ψ 0, 67, ahol $ az inger észlelt hangossága, W az inger intenzitása, k pedig egy olyan állandó (konstans, innen a k), amely a személytől és a használt mértékegységtől is függ. Vagyis a hatványösszefüggés szerint egy adott hang hangossága arányos a hang intenzitásának 0,67. hatványára emelésével. Stevens bevezetett egy mérőszámot is a hangosság mérésére, mégpedig a s o n t. A definíció szerint 1 son egy 1000 Hz-es és 40 db-es hang hangosságát jelöli, és értékét úgy választották meg, hogy az 1 son különbség körülbelül 10 db-nyi intenzitásbeli különbségnek, vagyis a hangerő megduplázódásának feleljen meg. Eszerint tehát egy 2 son hangosságú, 1000 Hz-es hang kétszer olyan hangos, mint az 1 sonos hang, és hangereje 50 db. A hangok hangosságának és intenzitásának hatványösszefüggését Ste- vens eredeti vizsgálata óta sokan alátámasztották. Több kritika is felmerült az eredményekkel kapcsolatban. Ezek elsősorban arra vonatkoztak, hogy a mérés során több torzító hatás is felléphetett. Poulton (1979) szerint az alábbi tényezők befolyásolhatják az eredményeket: a használt ingerek tartománya, a bemutatott ingerek sorrendje, a kísérleti személynek adott instrukció, a megengedett válaszok típusa, a válaszok szimmetrikussága, egyéb faktorok, amelyek a személy motivációjával, tapasztalatával, figyelmével stb. vannak összefüggésben. Általános tapasztalata a vizsgálatoknak az is, hogy rendkívül nagy egyéni variabilitás tapasztalható az eredményekben: egy-egy személy eredményeit figyelembe véve nem feltétlenül kapjuk meg a Stevens-féle ideális hatványösszefüggést, azt valójában csak nagyon sok személy átlaga adja ki. Mindezek az eredmények megkérdőjelezik a hatványfüggvény megbízhatóságát A hangossági szintek A különbségi küszöbök megállapításának másik módja a hangossági szintek mérése. Ez a módszer a nagyságbecslési módszerrel szemben sokkal megbízhatóbb eredményeket hozott, olyannyira, hogy ma már szigorú követelményeknek megfelelő ISO- (International Organization for Standardization Nemzetközi Szabványügyi Szervezet) szabályozás is létezik ezzel kapcsolatban (ISO 226: 2003). A hangossági szintek megállapításához azt kérjük a kísérleti személytől, hogy állítsa be egy 1000 Hz-es hang hangosságát úgy, hogy az ugyanolyan hangos legyen, mint a tesztinger. A hangokat felváltva adjuk, és minden esetben az a személy feladata, hogy az 1000 Hz-es hang hangerejét változtatva a teszthanghoz hasonlóvá tegye. Azt a hangerőszintet, amelyen az 1000 Hz-es hang a teszthanggal megegyezően észlelt hangosságú, a teszthang hangossági szintjének nevezzük, és egy speciális mértékegységben, a phonban mérjük. Definíció szerint egy 1000 Hz-es hang hangossági szintje megfelel a db SPL-ben mért hangerő szintjének. Ezek szerint egy 10 db SPL hangerejű 1000 Hz-es frekvenciájú hang 10 phon hangossági szintnek felel meg. Minden más frekvenciájú hang, amely szubjektív hangosságát tekintve megegyezik a 10 db SPL hangerőszintű 1000 Hz-es hanggal, szintén 10 phonos lesz, függetlenül attól, hogy pontosan hány db hangerővel szólal meg. Ha ezt az eljárást 177

192 9. FEJEZET Egyetlen hang észlelése a szubjektív hang megismételjük sok eltérő frekvenciájú hanggal, akkor egy egyenlő hangosságú szintvonalat kapunk. Természetesen sok különböző hangossági szintet állapíthatunk meg, minden esetben úgy, hogy az 1000 Hz-es hanghoz viszonyítjuk a többi hang hangosságát (lásd 9.2. ábra) ábra. Egyenlõ hangosságú szintvonalak Az egyenlő hangosságú szintvonalat egyszerűen úgy értelmezhetjük, hogy az azon fekvő hangokat azonos hangosságúnak észleljük. Ha azonban szemügyre vesszük a 9.2. ábrát, amely a frekvencia függvényében tünteti fel a hangerőértékeket, láthatjuk, hogy az azonos hangosságú hangok valójában egy görbén helyezkednek el. próbáljuk az ábrán megkeresni a 10 phonnak megfelelő szintvonalat. Ha most ezt a vonalat végigkövetjük a különböző frekvenciákra, akkor azt tapasztaljuk, hogy szinte minden frekvencia esetén eltérő hangerőérték mellett kapjuk meg az azonos hangosságot. Tegyünk egy próbát, hogy értjük-e a phonskála működését: keressük meg a 9.2. ábrán a 20 phonos szintvonalat. Most próbáljuk megállapítani, hogy egy 100, 1000 és Hz-es hangnak milyen hangerővel kell szólnia ahhoz, hogy egyformán 20 phon hangosságúnak halljuk őket? Az 1000 Hz-es hangot könnyű kitalálni: definíció szerint ez 20 db-nél lesz 20 phon. A 100 Hz-es hang körülbelül 35 dbnél metszi a 20 phonos szintvonalat, a Hz-es pedig 30 db-nél. Ha valakinek nem ez az érték jött ki, annak érdemes még egyszer átolvasnia a fentieket. Észrevehetjük, hogy az egyenlő hangosságú szintvonalak nagyon hasonló alakot mutatnak, mint a hallhatósági függvény. Valójában a 0 phon az abszolút küszöbnek megfelelő hangossági szintet jelöli. Vagyis az egyenlő hangosságú szintvonalakra szintén jellemző, hogy a középső frekvenciatartományoknál a legjobb az érzékenység, és a nagyon mély és nagyon magas hangokra csökken az érzékenység. Ráadásul, ahogyan az a 9.2. ábrán is látszik, a különböző hangossági szintek nagyon hasonló lefutást mutatnak, de nagyon magas hangszintek esetén ( phon környékén) a görbe kezd ellaposodni, és elveszíti U-alakját. Ebből arra következtethetünk, hogy magas hangerőszinteken más mechanizmusok valósítják meg a hangosság percepcióját, mivel itt úgy tűnik, hogy a hangok észlelt hangosságát kevésbé befolyásolja a hang frekvenciája, mint alacsony hangerőszintek esetén. A hangosságot kódoló mechanizmusokról a következő részben többet fogunk mondani. Az egyenlő hangosságú szintvonalak létezésének van egy olyan következménye, amivel a hétköznapokban is gyakran találkozunk. A modern hifiberendezéseket (sőt ma már akár a televíziókat és az icipici mp3-lejátszókat is) ellátják egy equalizernek (hangszín-ki- egyenlítőnek) nevezett eszközzel. Az equalizer feladata, hogy minden egyes frekvenciasávot külön-külön tudjunk hangosítani. Az egyenlő hangosságú szintvonalakból ugyanis az következik, hogy ha minden frekvenciát ugyanolyan intenzitással szólaltatunk meg, akkor bizonyos frekvenciatartományok hangosabbak lesznek, mint mások. Ezt a fenti ábrán például úgy tudnánk szemléltetni, hogy egy a vízszintes tengellyel párhuzamos egyenest húzunk egy adott intenzitásszinten, például 80 db-nél. Ez jelölné a hanglejátszó eszköz által kibocsátott hangerőszintet. Ha most megnézzük, hogy ez a vonal hol metszi az egyes frekvenciáknál az azonos hangosságú görbéket, vagyis milyen hangosnak halljuk azokat, akkor azt tapasztaljuk, hogy az 1000 Hz-es hangoknál ez 80 phon hangosságot eredményez, a 100 Hz-es hangoknál kb. 75 phon lesz, a 4000 Hz-es hangoknál viszont kb. 90 phon. A mély és nagyon magas hangok tehát sokkal halkabbnak fognak tűnni, mint a közepes frekvenciájúak. Mi viszont azt szeretnénk, hogy minden frekvenciatartományt hasonló hangosságúnak halljunk, és ezért a mély és magas hangokon hangosítani, a közepes frekvenciájúaknál viszont halkítani kell. 178

193 9. FEJEZET Egyetlen hang észlelése a szubjektív hang Az equalizerek használatának van még egy olyan aspektusa, amely nagyon jól illusztrálja az egyenlő hangosságú szintvonalak működését. Ez pedig a dübörgő basszus jelensége. Ha egy megfelelően beállított equalizernél, ahol tehát a mély (basszus) hangok a többi frekvenciánál nagyobb hangerőt kapnak, és egy viszonylag nagy általános hangerőt állítunk be, akkor az addig azonos hangossággal szóló tartományok helyett a mély tartomány sokkal hangosabbá válik. Ennek a magyarázata természetesen az, hogy a nagyobb általános hangerő egy magasabb hangossági szintre tolja el a görbéket, ahol viszont sokkal kevésbé érvényesül az U alakú összefüggés, vagyis a mély hangok sokkal kevésbé hallatszanak halknak. Ha viszont a mély hangok egy további hangosítást kapnak, akkor természetesen sokkal hangosabbnak fognak hallatszani, vagyis dübörögnek A hangosság kódolása A következőkben azt fogjuk áttekinteni, hogy hogyan kódolja a hallórendszer a hangerőt. A 8. fejezetben láttuk, hogy hogyan valósítják meg az alaphártya szőrsejtjei a hanginger idegi impulzusokká történő átalakítását. Emlékezzünk vissza, hogy egy adott frekvenciájú hanginger az alaphártya meghatározott pontján hoz létre maximális elhajlást, és ennek következtében az ezen a ponton található szőrsejtek jönnek ingerületbe. Ezen szőrsejtek aktivitása hozza létre azt az idegi impulzust, amelyet az agy le tud fordítani észleletté. Ezzel a mechanizmussal azonban csak azt magyaráztuk meg, hogy a különböző frekvenciájú hangokat hogyan kódolja az alaphártya. De mi a helyzet a hangerővel? Milyen módon képesek a szőrsejtek a hangerővel kapcsolatos információt kódolni? A legkézenfekvőbb elképzelés ezzel kapcsolatban az, hogy a hangerőt a hallóideg kisüléseinek száma kódolja. Ez úgy képzelhető el, hogy halkabb hangok esetén az adott frekvenciát kódoló neuronok csak kismértékben tüzelnek, míg hangosabb hangok esetén magasabb tüzelési arányt mutatnak. Az idegrendszer magasabb szintű folyamatai pedig ezeket a tüzelési arányokat alakítják vissza a hangosság élményévé. Ezzel az elképzeléssel az a probléma, hogy az empirikus adatok nem igazolják. A hallóidegrostok válaszjellemzőit részletesen megvizsgálva Palmer és Evans (1979) azt találta, hogy az idegrostoknak csak nagyon kis része, mintegy 10 százaléka képes széles dinamikai tartományt kódolni, de ez a tartomány is csak mintegy 60 db-t jelent. Ugyanakkor, mint tudjuk, legalább 130 db-nyi hangerőtartományt kellene az idegrostoknak feldolgozni, mivel a hallásküszöb és a fájdalomküszöb között körülbelül ennyi a különbség. Mindez azt jelenti, hogy a hangerő kódolásában a kisülések számán kívül valamilyen más mechanizmus is szerepet játszik. A nagy intenzitású hangok kódolásában részt vevő kiegészítő mechanizmus lehet a növekvő intenzitású hangok hatására bekövetkező aktivációsmintázat-terjedés. Megfigyelték, hogy a növekvő intenzitás hatására nemcsak azok az idegrostok tüzelnek, amelyeknek a jellemző frekvenciáját tartalmazza a megszólaló hang, hanem azok is, amelyek a hanghoz közeli jellemző frekvenciával rendelkeznek. Ennek oka egyszerűen megérthető, ha visszagondolunk arra, hogy hogyan is működik az alaphártya. Tudjuk, hogy egy adott frekvenciájú hang hatására az alaphártya meghatározott része mutat maximális mértékű elhajlást, és azt is tudjuk, hogy minél nagyobb intenzitású a hang, annál nagyobb ez az elhajlás. A nagyobb elhajlás hatására azonban nemcsak a hang frekvenciáját kódoló területhez kapcsolódó idegrostok jönnek aktivációba, hanem a szomszédos területek is (a magasabb csúcs nagyobb felülettel jár együtt, pont úgy, mintha egy gumiszalag közepét felhúznánk). Ezt az aktivációsmintázat-terjedést szemlélteti a 9.3. ábra ábra. Idealizált idegi aktivációs mintázat nagy intenzitás esetén (folytonos vonal).az intenzitás növelésének hatására (szaggatott vonal) az idegi aktivitás nagysága nem változik, de több neuron kezd el tüzelni Az ábráról leolvasható, hogy nagy intenzitású hangok esetén az aktivációs mintázat közepén található neuronok esetében az intenzitás növekedésének hatására már nem nő tovább a kisüléseik száma, vagyis telítődtek, idegen szóval szaturálódtak. Ha növeljük a hang intenzitását, akkor a szaturálódott neuronok ezt természetesen már 179

194 9. FEJEZET Egyetlen hang észlelése a szubjektív hang nem képesek kódolni, ugyanakkor a nagyobb intenzitás hatására további neuronok aktiválódnak, mivel az alaphártya nagyobb része mozdul el. így ha összehasonlítjuk a két intenzitásszint által kiváltott aktivációs mintázatot, akkor láthatjuk, hogy a kisülések száma nem változik, azonban a tüzelő neuronok száma nagyobb lesz. Eszerint a nagy intenzitás kódolásában felhasználható ezeknek a további neuronoknak az aktivációs mintázata. Az aktivációs mintázat terjedésének a hangosság kódolásában játszott szerepét olyan vizsgálatokkal bizonyították, amelyben háttérzaj jelenlétében kellett a kísérleti személyeknek hangosságmegkülönböztetési (diszkriminációs) feladatokat végezniük. A háttérzajnak maszkoló (elfedő) hatása van: zaj jelenlétében nehezebben hallhatók a hangok. Ezenkívül tudjuk, hogy a zaj olyan komplex hang, amely nagyon sok frekvencián tartalmaz hangenergiát. Különböző eszközökkel meg tudjuk szűrni a zajt, azaz csak bizonyos tartományokat tartunk meg, a többit pedig eltávolítjuk (lásd bővebben a látással kapcsolatban a színkeverésről mondottakat). Alul áteresztő szűrésnek nevezzük azt, amikor a tartomány alsó részeit tartjuk meg, és a felsőket távolítjuk el, felül áteresztő szűrésnek, amikor a felső tartományt tartjuk meg, és az alsót távolítjuk el, és sávszűrésnek nevezzük, ha mind az alsó, mind a felső tartományokból eltávolítunk bizonyos részeket, és a kettő közöttit tartjuk meg (9.4. ábra). A zaj szűrése azért fontos, mert a zaj mindig csak azokat a hangokat fedi el, amelyeknek frekvenciája beleesik a zaj által tartalmazott frekvenciatartományba. Vagyis elképzelhető, hogy egy szűrt zaj nem képes elfedni egy hangot, ha a kettő frekvenciája nem esik egybe. A szűrésről és zajelfedésről a későbbiekben (280. skk.) részletesebben is fogunk beszélni. Ilyen különböző módokon megszűrt zajok használatával Moore és Raab (1974) azt találta, hogy a különböző hangerejű hangok megkülönböztetését csak a felül áteresztő szűrővel szűrt háttérzajok rontották le. Mit jelent ez? A felül áteresztő szűrés a zajból csak a felső frekvenciákat tartja meg, és emiatt feltételezhetjük, hogy a zaj csak a magas frekvenciájú hangokat fedi el. Eszerint a zaj azoknak a neuronoknak a válaszait gátolja, amelyek a magasabb frekvenciákat kódolják. Leegyszerűsítve ezt úgy kell elképzelnünk, mintha az aktivációterjedés ábrán a magas jellemző frekvenciájú neuronokat egyszerűen levágnánk. Ennek hatása természetesen az, hogy a gátolt neuronok nem képesek a fent említett pluszaktivitást kifejteni, és így nem képesek hozzájárulni a hangosság kódolásához. Ezzel alátámasztható, hogy a nagy intenzitású hangok kódolásában valóban fontos szerepet játszik az aktivációs mintázat terjedése, vagyis a hang frekvenciájánál magasabb jellemző frekvenciájú neuronok tüzelése. Az utóbbi években felmerült egy az eddigiekben bemutatottaktól lényegesen eltérő elképzelés a hangosság kódolásával kapcsolatban. Ahogyan az előző fejezetben láttuk, a hallóidegrostok válaszjellemzőinek pontos vizsgálata fényt derített arra, hogy három eltérő típust tudunk elkülöníteni a spontán aktivitás, a hangerőküszöb és a telítődési pont alapján (lásd a 8.3. táblázatot). A három különböző típusú idegrost feltételezhetően eltérő hangerőtartományokat kódol, és ez teszi lehetővé, hogy a 130 db-es dinamikai tartományt olyan rostok kódolják, amelyek egyenként csak egy maximálisan 60 db-es tartomány átfogására képesek. Ezt a lépcsőzetes hangerő-kódolási mechanizmust úgy kell elképzelnünk, hogy az alacsony, közepes és magas intenzitástartományokat eltérő neuroncsoportok kódolják, és aszerint észleljük hangosnak vagy halknak a hangokat, hogy melyik csoport aktív. Fontos észben tartanunk, hogy az eltérő típusú idegrostok ugyanahhoz az alaphártyai szőrsejthez kapcsolódhatnak, vagyis ugyanazt a frekvenciát képesek kódolni, de eltérő hangerőszinteken. A hangerő kódolásának ezen mechanizmusa ugyanakkor felvet egy komoly problémát: a mechanizmust nagyon kisszámú idegrost is képes megvalósítani, egyes számítások szerint (pl. Viemeister 1988) akár 100 idegrost is elég lehet erre a feladatra. Ha viszont 100 idegrost elég a mechanizmus megvalósítására, akkor vajon mit csinál a maradék ? Illetve, ha valójában neuron áll rendelkezésre, akkor miért nem jobb a hangerődiszkriminációs képességünk? A lépcsőzetes hangerőkódolás elmélete tehát egy teljesen új kérdést vetett fel a hangerő kódolása kapcsán: most már nem az a legnagyobb probléma, hogy hogyan képes a hallórendszer a 120 db-es dinamikai tartományt átfogni, hanem az, hogy miért nem jobb a felbontóképességünk? Ennek a problémának a megoldása talán az lehet, hogy az intenzitás diszkriminációját nem a hallóidegrostok által szállított információ korlátozza, hanem az, ahogyan ezt az információt a hallási feldolgozás magasabb szintű folyamatai felhasználják (Carlyon-Moore 1984) A hangosság észlelésének problémái Magyarországon az ismert statisztikai adatok szerint az emberek mintegy 10 százaléka szenved valamilyen, a hangosság észlelését befolyásoló halláskárosodásban (KSH 2003). A halláskárosodás különböző mértékű lehet, és az enyhe fokú frekvenciaspecifikus halláscsökkenéstől a teljes süketségig terjedhet. Mivel a mindennapi hangok segítenek abban, hogy kapcsolatban maradjunk a környezetünkkel, a hallás csökkenése vagy elvesztése 180

195 9. FEJEZET Egyetlen hang észlelése a szubjektív hang nemcsak más emberek hangjától, és így a velük folytatott kommunikációtól foszt meg bennünket, hanem az élet biztonságot nyújtó háttérzajaitól is. A halláskárosodásnak két típusát különböztetjük meg: a vezetéses és az érzékszervi-idegi halláskárosodást. A vezetéses halláskárosodást a külső vagy középfül megbetegedései okozzák, és általánosságban az jellemző rá, hogy az érzékenység a teljes hangtartományra és nem csak bizonyos frekvenciákra vonatkozik. Ahogyan a neve is mutatja, ez a fajta halláskárosodás amiatt jön létre, hogy a külső és a középfül valamilyen okból kifolyólag nem képes vezetni a hangot a külvilágból a belső fülbe, ezáltal a hangok tompulnak. Ve- zetéses halláskárosodást többnyire három probléma okoz: a hallójáratban felhalmozódó fülzsír, a középfül gyulladása (otitis media) és az otoszklerózis nevű betegség, amely a hallócsontocskák fokozatos mozgásképtelenségét okozza. Ezek a problémák többnyire kezelhetők gyógyszeres vagy súlyosabb esetben sebészeti beavatkozással, illetve egyszerű hallókészülékek alkalmazásával. A halláskárosodás másik fajtája az érzékszervi-idegi károsodás. Ez szintén gyűjtőfogalom, és minden olyan problémát vagy betegséget magában foglal, ami a csigát, vagy hallóideget károsítja. Az ilyen típusú halláskárosodások leggyakoribb fajtája az időskori halláscsökkenés (presbyacusis). Az időskori halláscsökkenés a fejlett ipari társadalmakban az emberek nagy részét érintő probléma, és jellemzően frekvenciaspecifikus, azaz csak a magas frekvenciatartományokra való érzékenység elvesztését jelenti. progresszív probléma, vagyis az érintettek fokozatosan egyre nagyobb tartományokat nem képesek meghallani, és mindez viszonylag korán, már 30 éves korban elkezdődik. Egy felmérés szerint (Davis-Silverman 1960) a 30 évesek nagy része a halláscsökkenés miatt nem képes meghallani a 15 khz-nél magasabb frekvenciájú hangokat (emlékezzünk vissza, hogy az ember által feldolgozható hangok felső határa 20 khz), ami 50 éves korra 12 khz-re, 70 éves korra pedig 6 khz-re csökkenhet. Az ilyen nagyfokú halláskárosodás már komolyan veszélyezteti a beszédhangok megértését is. Az időskori halláscsökkenés okával kapcsolatban két elmélet is létezik. Az egyik szerint a halláscsökkenést a csiga érrendszerét érintő keringési problémák okozzák, amelyek következtében romlik a csiga vérellátása, ez pedig a csiga szöveteinek (így az alaphártyának) a pusztulását okozza. Egy másik elmélet azon alapul, hogy mivel az időskori halláscsökkenés elsősorban a fejlett ipari társadalmakra jellemző, a problémát a hosszú időn át tartó folyamatos környezeti zaj (ami a nagyvárosi élet elkerülhetetlen velejárója) kedvezőtlen hatása okozza. Ezt az elképzelést alátámasztja az, hogy a zajszennyezéstől mentes kultúrákban élő idősek nem mutatják ezt a specifikus halláscsökkenést. Egy másik gyakran előforduló érzékszervi-idegi károsodás a különböző zajhatások miatt kialakuló halláscsökkenés. Itt elsősorban a nagy zaj által kiváltott halláscsökkenésre kell gondolnunk, amelyet akár hirtelen, akár tartós zajok okozhatnak. A hirtelen nagy zajhatásra példa egy robbanás vagy egy fegyver eldördülése, ami gyakran okoz átmeneti, majd később maradandó halláscsökkenést, például a vadászoknál. A hosszan tartó magas zajszint a többinél gyakrabban előforduló oka a halláscsökkenésnek. Ezek közül kettőt érdemes kiemelni: az egyik a munkahelyi zajártalom, amely nagyon komoly munka-egészségügyi és egyben ergonómiai kérdés. Kimutatható, hogy a nagyon zajos munkahely (pl. szerelőüzemek) nemcsak a munkások hallásának károsodását okozhatja, hanem egy ilyen helyen fokozott a balesetveszély is. Ennek megfelelően ma már a legtöbb zajos munkahelyen fokozottan gondoskodnak a dolgozók zajvédelméről. A másik halláskárosodást okozó tartós zajszint a hangos zene. Bármennyire meglepő, a fiatalok körében igen gyakori az enyhe fokú halláskárosodás, amelynek fő okaként a túl hangos zenehallgatást, a könnyűzenei koncerteket, illetve a walkmanek és mp3 lejátszók túl hangos hallgatását nevezik meg. Egy vizsgálatban Han- son és Fearn (1975) azt találta, hogy a rockkoncerteket gyakran látogató és az azokat nem látogató egyetemisták között mintegy 2 db-nyi, konzisztensen jelentkező hallásküszöb-különbség volt kimutatható minden vizsgált frekvenciatartományban. 2. Frekvenciaszelektivitás, zajelfedés és kritikus sávok Az 8. fejezetben a fül különböző részeinek tárgyalásakor arról beszéltünk, hogy a belső fül szerepe a beérkező hangok frekvencia szerinti elemzése. Ez jelentheti a tiszta hangok esetében egyetlen frekvencia, a komplex hangoknál pedig több frekvencia kinyerését. Láttuk azt is, hogy az alaphártya működésének milyen mechanizmusai képesek ezt megvalósítani. Az alábbiakban ugyanezt a frekvenciaszelektív működést fogjuk megvizsgálni, de most nem a biológiai, hanem a pszichológiai, viselkedéses jelenségek felől közelítünk a problémához. 181

196 9. FEJEZET Egyetlen hang észlelése a szubjektív hang 2.1. A zajelfedés A hallórendszer frekvenciaszelektivitását vizsgáló kísérletekben gyakran alkalmazzák a maszkolásnak (elfedésnek) nevezett módszert. Említettük már, hogy a háttérzaj elfedi a hangokat, vagyis zaj jelenlétében a hangok nehezebben detektálhatók. Kicsit szabatosabban fogalmazva, az elfedés azt jelenti, hogy a tiszta hangok észlelési küszöbe zaj jelenlétében megemelkedik. Az elfedési kísérletekben a legtöbb esetben két hangingert használnak: egy tiszta hangot, amelyet gyakranjelnek neveznek, és egy komplex hangot, amely általában egy sávszűrt zaj. A kísérletekben a résztvevők feladata általában az, hogy észrevegyék (detektálják) a zajjal együtt bemutatott jelet. A kísérletek általános eredménye az, hogy egy hangot egy olyan zajjal lehet a legjobban elfedni, amely tartalmaz a tiszta hangéhoz hasonló vagy azzal megegyező frekvenciát. Az elfedés tehát úgy jön létre, hogy a hallórendszer nem képes megkülönböztetni egymástól a jelet és az elfedő hangot. Az elfedés tehát a fül frekvenciafelbontási képességének határairól mond valamit. Az elfedés mértékét alapvetően két tényező befolyásolja: egyrészt a zaj nagysága (minél nagyobb a zaj, annál nagyobb az elfedés), másrészt az, hogy a tiszta hanghoz képest milyen frekvenciák találhatók a zajban. Ez utóbbit érdemes egy kicsit részletesebben áttekintenünk. Mint tudjuk, a zajra mint komplex hangra az jellemző, hogy sok különböző frekvenciát tartalmaz. Ha a zaj valamennyi hallható frekvencián tartalmaz hangenergiát, akkor széles sávú zajnak nevezzük. A 9.5. ábra szemlélteti a széles sávú zaj energiatartományát. Az ábra vázlatosan szemlélteti az egyes frekvenciákon található energiamennyiséget, amely, mint látható, a széles sávú zaj esetében egy minden frekvenciára kiterjedő trapézalakot vesz fel. Ez lényegében egy leegyszerűsített spektrális ábrázolása a hangoknak, és arra hívja fel a figyelmet, hogy jelen esetben nem a hangok idői változása érdekel bennünket, hanem az, hogy a hangok és a zajok milyen frekvenciákon szólalnak meg. A széles sávú zaj két paraméter mentén módosítható, a sávszélesség és a középfrekvencia mentén. A sávszélesség, vagyis a zaj frekvenciatartománya különböző szűrési eljárásokkal módosítható, és így úgynevezett sávszűrt zaj hozható létre. A sávszűrt zajból bizonyos mértékben alacsony és magas frekvenciák is hiányoznak. Az ilyen típusú zajra az jellemző, hogy más minőségű és egyben csökkent erősségű lesz. A 9.5. ábra mutat olyan sávszűrt zajokat, amelyek különböző szélességűek, de ugyanolyan középfrekvenciával rendelkeznek. A középfrekvencia a zaj középpontjára, pontosabban a zaj frekvenciaeloszlásának középpontjára vonatkozik. A 9.5. ábra illusztrálja azt, hogy hogyan változik a sávszűrt zaj, ha sávszélességét állandóan tartjuk, de a középfrekvenciát változtatjuk. Ahogy látható, a középfrekvencia változtatása lényegében azt jelenti, hogy a zajt szimbolizáló trapézt a vízszintes frekvenciatengely mentén jobbra vagy balra elmozdítjuk. Mindezek után most már megvizsgálhatjuk azt, hogy milyen hatással vannak a különböző típusú zajok a tiszta hangok detektálására. 182

197 9. FEJEZET Egyetlen hang észlelése a szubjektív hang 9.5. ábra. A zaj akusztikus energiatartalmának vázlatos ábrázolása. Az egyes grafikonokon a sötét terület az energiamennyiséget jelöli Az első elfedéssel kapcsolatos kísérleteket Fletcher (1940) végezte, aki a tiszta hangok detekciós küszöbét vizsgálta sávszűrt zajok szélességének függvényében. A zaj középfrekvenciája minden esetben megegyezett a detektálandó jel frekvenciájával, és a zaj sávszélességét változtatták. Az eredmények azt mutatták (lásd 9.6. ábra), hogy minél szélesebb tartományú volt a zaj, vagyis minél több frekvencián tartalmazott hangenergiát, annál hatásosabban fedte el a jelet, vagyis annál hangosabbnak kellett lennie a jelnek, hogy észrevehető legyen ábra. Egy zajelfedési kísérlet eredménye. A kísérletben egy 2000 Hz-es hangot kellett detektálni egy 2000 Hz-es középfrekvenciával rendelkezô és egyre szélesebb sávú elfedô zaj mellett. Látható, hogy az elfedő zaj sávszélességének növelése hatására a hang detektálásának küszöbe egyre magasabb lett, de kb. 75 db felett már nem nőtt tovább (Schooneveldt Moore 1989 nyomán) Fletcher kísérletének egy másik fontos eredménye az volt, hogy a zaj sávszélességének változtatása csak egy bizonyos mértékig volt hatásos: egy szintet elérve hiába növelte a sávszélességet, ugyanakkora maradt a jel 183

198 9. FEJEZET Egyetlen hang észlelése a szubjektív hang küszöbe. Ráadásul, ahogy az ábrán látható, ez a felső szint jóval a hangosság észlelésének felső korlátja (a 130 db-es fájdalomküszöb) alatt volt. Vagyis ezt a platót nem az okozta, hogy ennél hangosabb hangokat már nem képes a hallórendszer feldolgozni, hanem úgy tűnik, hogy a széles sávú zajnak csupán egy korlátozott részlete járul hozzá a tiszta hang elfedéséhez. Ezt a tartományt kritikus sávnak nevezzük A kritikus sávok Fletcher az elfedési kísérletek eredményeinek és a kritikus sávok létezésének magyarázatára a hallórendszer működésének új modelljét javasolta. Eszerint a hallórendszer úgy képzelhető el, mint egy a teljes hallható frekvenciatartományt lefedő és egymást átfedő sávszűröket tartalmazó készlet (lásd 9.7. ábra). Minden egyes szűrő egy meghatározott frekvenciatartományt kódol, mégpedig a sávszűrés elve alapján. Eszerint minden szűrő csak a rá jellemző frekvenciasávot engedi át, a spektrum többi részét pedig levágja. Ezzel a viszonylag egyszerű elvvel érhető el az, hogy a teljes frekvenciatartományt összetevőire bontsuk fel, és attól függően, hogy hány és milyen sávszélességű szűrők állnak rendelkezésre, változtatható a felbontás pontossága. Ezeket a sávszűrőket hallási szűrőknek nevezzük, a modellt pedig a hallórendszer hallásiszűrő-modelljének. Az elfedési helyzetekben Fletcher feltételezése szerint a hallási szűrők a következőképpen működnek. Amikor egy jelet szeretnénk detektálni zajos háttérben, akkor egy olyan hallási szűrőt használunk, amelynek középfrekvenciája közel esik a jelhez. Ez a szűrő úgy működik, hogy átengedi a jelet, de a zaj nagy részét a szűrőn kívül eső tartományokat levágja. Emiatt a jel elfedésére a zajnak csak az a része használható fel, amelyet a hallási szűrő átengedett. Ha most, mint ahogy az eredeti kísérletben láttuk, elkezdjük növelni a zaj sávszélességét, akkor egyre több zaj fog átjutni a szűrőn, és egyre több zaj képes elfedni a jelet. Abban a pillanatban azonban, ahogy a zaj sávszélessége átlépi a szűrőét, további tartományok hozzáadása már nem lesz hatással az elfedésre, és így létrejön a jellegzetes plató az elfedési görbén. a kritikus sáv nemcsak az elfedéshez szükséges frekvenciatartományt határozza meg, hanem arra is utal, hogy a hallási szűrőnek milyen a sávszélessége. Láthattuk, hogy a zaj effektív sávszélessége megegyezik a szűrő sávszélességével. Eszerint az elfedési kísérlet révén meghatározható a hallási szűrők sávszélessége, vagyis kritikus sávja is. Így tehát a kritikus sáv kétféle értelemben használható: egyrészt az elfedő zaj effektív sávszélességét, másrészt pedig a hallási szűrő sávszélességét jelezheti ábra. A hallórendszer hallásiszűrő-modellje. Az ábra felsô része a bejövő hangok spektrumát jelzi, ahol az egyenes vonalak az adott frekvenciájú hangokat jelőlik. Az ábra alsó része a feltételezett hallási szűrőket mutatja, amelyek haranggörbe alakúak, és a középfrekvenciától függően eltérô sávszélességgel rendelkeznek 2.2. A hallási szűrök A kritikus sávokkal kapcsolatban Fletcher klasszikus munkája óta sok ismeret halmozódott fel. Az egyik legfontosabb adalék a kritikus sávok alakjával kapcsolatos. Eredetileg azt feltételezték, hogy létezik egy töréspont az elfedési görbén, ami a kritikus sáv határát jelöli ki. Ez az elképzelés azon alapult, hogy a hallási szűrőket téglalap alakúnak tartották, vagyis olyannak, hogy mind az oldaluk, mind a tetejük (a szűrő szélessége) egyenes. Ma már tudjuk, hogy a hallási szűrő sokkal inkább haranggörbe alakú. Hogyan lehet ezt meghatározni, és mi a jelentősége a frekvenciaszelektivitás szempontjából? Patterson (1976) elfedési módszere a hallási szűrő alakjának meghatározására alkalmazható. Az eljárás során egy állandó frekvenciájú tiszta hangot és egy széles sávú, a tiszta hanggal megegyező középfrekvenciájú zajt alkalmaztak. A zajt speciális módon, úgynevezett lyukszűrővel szűrték, ami azt jelenti, hogy nem a felső és alsó frekvencia- sávokat vágták le, és a középső sávot hagyták meg, hanem éppen fordítva, a középső sávot vágták ki, és a két szélsőt hagyták meg. Ezt a 9.8. ábra szemlélteti. A kísérlet során a szokásos elfedési vizsgálatokhoz 184

199 9. FEJEZET Egyetlen hang észlelése a szubjektív hang hasonlóan változtatták a zaj középső tartományának szélességét (azaz a lyuk nagyságát), és ennek függvényében mérték a jel küszöbét. Egy ilyen lyukszűrt zaj esetében minél nagyobb a lyuk, annál kevesebb zaj kerül a hallási szűrőbe, és annál kisebb az elfedés, vagyis annál jobban csökken a jel küszöbe. Az ábrán a besatírozott terület nagysága jelzi az átkerülő zaj mértékét ábra. Patterson elfedési módszere a hallási szűrő alakjának meghatározására Ha ezek után fokozatosan növeljük a lyuk nagyságát, és mérjük a jel küszöbét, akkor azt kapjuk, hogy a küszöb egyre alacsonyabb lesz, ahogy a lyuk szélesedik. Vagyis, kezdetben, a lyukszűrő nélküli zajnál a hangnak nagyon hangosnak kell lennie, hogy észrevegyük, de ahogy növeljük a lyuk nagyságát a zaj frekvenciatartományának közepén, úgy hallunk meg egyre halkabb hangokat is. A küszöbnek a lyuk szélessége függvényében történő változásából különböző matematikai módszerekkel meg lehet határozni a hallási szűrő alakját, és a legtöbb vizsgálatban azt kapják, hogy a hallási szűrő legömbölyített csúccsal és meredek lejtéssel rendelkezik (lásd 9.9. ábra) ábra. Egy tipikus hallási szűrő alakja. Az ábrán feltüntettük a hallási szűrő eredetileg feltételezett téglalapalakját Hogyan értelmezhető a hallási szűrőnek ez a speciális alakja? Egyrészt a szűrő csúcsos és nem egyenes vonalú maximummal rendelkezik. Ezt azt jelenti, hogy nagyon érzékenyen reagál a frekvencia kismértékű megváltozására, hiszen a középfrekvenciánál csak kismértékben kisebb vagy nagyobb frekvencia már kisebb küszöbbel rendelkezik, mint a középfrekvencia. Másrészt a szűrő oldala nem hirtelen, merőlegesen, hanem bizonyos meredekséggel csökken. Ennek következménye az, hogy a szűrő válasza nem egyik frekvenciáról a másikra, hirtelen változik meg, hanem fokozatosan. A hallási szűrő másik nagyon fontos jellemzője az alakján kívül az, hogy mekkora a sávszélessége. A Pattersonféle lyukszűrőt alkalmazó módszerrel megállapítható, hogy a hallási szűrő sávszélessége (vagyis az a frekvenciatartomány, amelyre válaszol) 50 és 2000 Hz között változik. De ami ennél is fontosabb, a sávszélesség szisztematikusan változik: alacsony frekvenciák esetében kicsi, magas frekvenciák esetén viszont nagy. Ez az összefüggés valójában már a hallási- szűrő-modell ábráján (9.7. ábra) is látható volt: a magasabb frekvenciák szűrői sokkal szélesebbek voltak, vagyis sokkal nagyobb frekvenciatartományt fogtak át, az alacsonyabb frekvenciák esetében viszont a szűrők keskenyebbek, azaz kisebb frekvenciatartományt dolgoznak fel. 185

200 9. FEJEZET Egyetlen hang észlelése a szubjektív hang Milyen hatása van ennek a hangok észlelésére? Az eltérő sávszélesség értelmezhető úgy, mint eltérő érzékenység: minél kisebb a sávszélesség, annál jobb az érzékenység, hiszen annál kevesebb egyéb frekvenciát dolgoz fel az adott szűrő. Eszerint az alacsony frekvenciájú, vagyis mély hangok esetében sokkal jobb az érzékenység, mint a magas hangok esetében, és ennek az a következménye, hogy a mély hangokat sokkal jobban meg tudjuk különböztetni, mint a magasakat. A hangmagasság észlelésekor még visszatérünk erre a problémára. Bármilyen pontosan határozzuk is meg a hallási szűrő formáját és működését, azt nem szabad elfelejtenünk, hogy a szűrő csupán egy elméleti modell, amelynek felhasználásával megfelelően magyarázhatók a pszichoakusztikai kísérletek eredményei. Ugyanakkor a hallórendszer leegyszerűsítése különböző középfrekvenciával rendelkező szűrők csoportjára két szempontból is jelentős. Egyrészt, a számítógépes hangfeldolgozásban nagyon hasznos egy ilyen típusú modell használta (lásd a szövegdobozt az mp3 formátumról). Másrészt, a hallórendszer élettani működése párhuzamba állítható a szűrőkkel. Nézzük meg, hogy hogyan értelmezhető a belső fül frekvenciaszelektivitása a hallási szűrőelmélet fogalmainak segítségével A frekvenciaszelektivitás eredete a hallóidegrostok hangolási görbéje A 8. fejezetben bemutattuk azt, hogy az alaphártya szőrsejtjeihez kapcsolódó hallóidegrostok milyen válaszjellemzőkkel rendelkeznek. Szó volt arról, hogy az idegrostok mindegyike egy bizonyos frekvenciára, a rost jellemző frekvenciájára reagál a legérzékenyebben. Ésszerű feltételezésnek tűnhet, hogy az elfedési kísérletek eredményei valamilyen módon magyarázhatók a hallóidegrostok hangolási görbéinek figyelembevételével. Lássuk, hogyan. Az elfedési kísérletben alkalmazott tiszta hang hatására egy olyan hallóidegrost aktiválódik, amelynek jellemző frekvenciája megegyezik a teszthangéval. Ez a rost ugyanis a legérzékenyebb a vizsgált frekvenciára, és ennek a rostnak az aktivitása vezet a küszöbintenzitású tiszta hang észleléséhez. A rostot természetesen a zaj is aktiválja, amennyiben a zaj olyan frekvenciákon is tartalmaz energiát, amelyre a rost válaszol. A zaj jelenléte megemeli a hallóideg háttértevékenységét, és a jel detektálásához ettől a háttértől kell elválasztanunk. Ehhez az kell, hogy a jel erőssége nagyobb legyen, mint a zajé. Ha növelni kezdjük a zaj sávszélességét, akkor az idegi háttértevékenység egyre nő, és a jelet egyre nehezebb elválasztani ettől. Egy bizonyos pont után azonban az egyre nagyobb sávszélesség már olyan frekvenciákat is tartalmaz, amelyek kívül esnek a rost frekvenciahangolási görbéjén, és így nem gyakorolnak további hatást annak háttéraktivitására. Ettől kezdve a küszöb nem emelkedik tovább, és az elfedés mértéke változatlan marad. Ezt az okfejtést követve azt mondhatjuk, hogy az elfedési görbe töréspontja (lásd 9.6. ábra) szabja meg a tiszta hang észrevételében szerepet játszó rostok frekvenciatartományát, vagyis kritikus sávját. Eszerint a hallóideg frekvenciaszelektív működése felfogható a hallási szűrők működéséhez hasonlóan: valójában a rostok a frekvenciatartomány egy bizonyos részére reagálnak leginkább, és ez felfogható úgy, mint az adott frekvenciára vonatkozó sávszűrés. Érdemes megjegyeznünk, hogy a hallás esetében a kritikus frekvenciák megléte nagyon hasonlít ahhoz, amit a látás esetében a téri frekvenciák kapcsán láttunk. Ha visszagondolunk, a téri frekvenciáknál is arról van szó, hogy a vizuális információt le lehet írni több különböző frekvenciájú szinuszráccsal, és úgy tűnik, hogy a látórendszer rendelkezik olyan neuronokkal, amelyek specifikusan reagálnak az egyes téri frekvenciákra. Egy fontos különbség azonban lehet a látó- és a hallórendszer között, nevezetesen az, hogy a látórendszerben a különböző téri frekvenciákra reagáló neuronok a látási információ feldolgozásának magas szintjén találhatók, a hallórendszerben viszont nagyon alacsony szinten, lényegében a transzdukciót végző neuronok szintjén vannak. Eddig olyan elfedési kísérletekkel foglalkoztunk, amelyekben az elfedő zaj sávszélességét változtatták. Ahogy azt fentebb láttuk (lásd 9.5. ábra), a sávszűrt zajnak egy másik paraméterét is lehet változtatni, mégpedig a középfrekvenciáját. Az eddigiek fényében nagyjából kitalálható, hogy milyen eredményeket kaptak a kutatók. Tegyük fel, hogy a kísérletet egy olyan sávszűrt zajjal kezdjük, amelynek a középfrekvenciája jóval a teszthang frekvenciája alatt van. Ekkor természetesen a zaj energiájának egyetlen részlete sem ingerli a vizsgált hangot feldolgozó idegrostot, vagyis semmilyen elfedő hatás nem jelentkezik (habár a zaj maga hallható). Ahogy fokozatosan növeljük a zaj középfrekvenciáját, az egyre inkább bekerül az idegrost kritikus sávjába, és emiatt a küszöb elkezd csökkenni. Az elfedés akkor lesz a legnagyobb, ha a teszthang és a zaj középfrekvenciája egybeesik. Ha ezután még tovább növeljük a zaj középfrekvenciáját, akkor megint csak azt tapasztaljuk, hogy az elfedés egyre csökken. a középfrekvencia és a küszöb összefüggését grafikonon ábrázolva egy fordított U alakú görbét kapunk. Az ilyen típusú ingerek alkalmazása tehát szintén a kritikus sáv elméletét támasztja alá. 186

201 9. FEJEZET Egyetlen hang észlelése a szubjektív hang összefoglalva, a kritikus sávok elmélete szerint a tiszta hangokat az egyes frekvenciákra hangolt idegi folyamatok révén észleljük. számos, az elfedési paradigmát alkalmazó vizsgálat eredménye szerint a zajnak akkor van hatékony elfedő hatása, ha a vizsgált hanghoz közeli frekvenciákat tartalmaz. Ráadásul az eredményül kapott elfedési görbék a hallóidegrostok hangolási görbéire emlékeztetnek, amiből arra lehet következtetni, hogy a kritikus sávokat megvalósító idegi mechanizmusok legalábbis részben a hallóidegrostok működésén alapulnak táblázat - HOGYAN MŰKÖDNEK AZ MP3-AS FÁJLOK? Az mp3 mozgalom a zenei ipar egyik legnagyobb hatású jelensége. Ez a mozgalom a többitől (hangkazetta, CD) eltérően nem az iparágból magából nőtt ki, hanem az Internet zeneimádó közössége indította el. Az mp3 formátum, ami nem más, mint a hangok digitalizált, számítógépen tárolható és megosztható adathordozója, óriási hatással volt és van napjainkban is arra, ahogyan az emberek a zene hallgatásához hozzáállnak. Az mp3 fájlok lényegét természetesen maga az mp3 formátum adja. A formátum egy digitális hangkódoló és egy tömörítő eljárást tartalmaz. Ilyen értelemben nagyon hasonlít ahhoz, ahogyan a CD tárolja a hangot: nevezetesen az analóg (folyamatos) hang digitális (diszkrét) formába történő átalakításával. A hangok digitalizálása azt jelenti, hogy a hanghullámokat számokká alakítjuk át, mégpedig úgy, hogy ahelyett, hogy az egész hullámformát rögzítenénk, annak csak egyes részeit tároljuk el. Tudjuk, hogy minden hang leírható az egyes időpillanatokban mutatott légnyomásváltozás mértékével. A hanghullám digitalizálása úgy valósítható meg, hogy bizonyos időpillanatokban mintát veszünk belőle, azaz megnézzük, hogy adott pillanatban milyen hangnyomásértéket mutat. Ezt nevezzük mintavételezésnek (lásd ábra). Minél gyakoribb a mintavételezés, annál pontosabban tudjuk leképezni az adott hanghullámot. CD-k esetében a megfelelő hangzás elérése érdekében meglehetősen nagy mintavételezési frekvenciával dolgoznak, másodpercenként szor olvassák le a hangnyomás értékét. Ez természetesen azt jelenti, hogy másodpercenként szám keletkezik, amelynek a tárolása elég nagy kapacitást igényel. Az mp3 ezen az óriási tárolási kapacitáson segít, méghozzá úgy, hogy egy meglehetősen bonyolult tömörítési eljárást (kódolást) alkalmaz. Ennek segítségével valódi minőségvesztés nélkül körülbelül tizedére csökkenhet a szükséges kapacitás. Az mp3 valódi érdekessége pszichológiai szempontból az, hogy a tömörítés során pszichoakusztikai elveket is figyelembe vesznek. Például azt, hogy a hangosabb hangok elfedik a halkabbakat, ezért a halkabbakat nem is kell kódolni. Az alábbiakban a teljesség igénye nélkül összefoglalunk néhány olyan elvet, amelyet az egyes mp3 kódolóeljárások rutinszerűen alkalmaznak. Szürőkészlet Az mp3 kódolás alapja az, hogy a hanghullámokat frekvencia-összetevőikre bontják, és ezeket külön-külön kezelik a kódolás során. Láthattuk, hogy a hallórendszer hallásiszürő-modellje szerint az emberi hallás is így működik. Minimális hallási küszöb Tudjuk, hogy a különböző frekvenciákkal rendelkező hangok hallási küszöbe nem azonos (lásd hallhatósági függvény). A kódolás során ezt úgy használják ki, hogy a nem hallható frekvenciákat nem kódolják. Ez meglehetősen drasztikus is lehet, mivel egyes eljárások csak a 2-5 khz közötti frekvenciatartományt veszik figyelembe, de ezt valójában nem vesszük észre (pontosabban az átlagos zenehallgatónak nem tűnik fel). Sztereo Ahogyan azt a hanglokalizációról szóló fejezetben látni fogjuk, a különböző frekvenciájú hangok lokalizációja nem egyformán jó. Általában a nagyon mély és nagyon magas hangok esetében nem tudjuk pontosan lokalizálni a hangok forrását. Ezt a hatást a kódolásban úgy lehet felhasználni, hogy az ezekben a frekvenciatartományokban található hangokat nem két, hanem csak egy csatornán kódolják (sztereohang úgy jön létre, hogy két külön csatornát használnak a jobb és a bal fülbe szánt hangok számára, és ez természetesen duplaannyi információ kódolását teszi szükségessé). Vagyis, egy nagyon magas vagy nagyon mély hangot elég csak az egyik fül számára megszólaltatni. Mivel úgysem vagyunk képesek pontosan lokalizálni ennek forrását, nem fog feltűnni, hogy valójában csak az egyik fülünkkel hallottuk. Az mp3 formátum kialakítása során a mérnökök arra törekedtek, hogy kompromisszumot valósítsanak meg a tömörítés és a minőség között: minél nagyobb tömörítéssel minél kisebb minőségvesztés elérése volt a cél. A hang minősége azonban szubjektív kategória, és ezért a megfelelő kódolás elérése érdekében nagyon sok pszichoakusztikai vizsgálatot végeztek, ahol a személyeknek a hangok minőségét kellett megítélniük. Gyakorlatilag tehát minden elvet, amelyet a kódolás során felhasználtak, empirikusan is ellenőrizték, és csak 187

202 9. FEJEZET Egyetlen hang észlelése a szubjektív hang azokat tartották meg, amelyeknél a kísérleti személyek nagy része nem tudott különbséget tenni az eredeti és a kódolt hang között. Összefoglalásként azt mondhatjuk, hogy az mp3 formátum kialakításában nagyon fontos szerepe volt mindannak a tudásnak, amit az emberi hallórendszer működéséről tudunk. Ezért amikor legközelebb kedvenc számunkat hallgatjuk számítógépünkön vagy mp3 lejátszónkon, jusson eszünkbe, hogy ezekbe a pici fájlokba mennyi pszichológiai ismeret van beépítve. A hangdigitalizálás folyamata. A folyamatos vonal jelzi a hang időben változó amplitúdóját. Az oszlopok a mintavételezést mutatják, és az x tengelyen látható számok az adott idői tartományban található átlagos amplitúdóértéket jelzik. Látható, hogy a mintavételezés során bizonyos információk elvesznek, és minél nagyobb a mintavételezési frekvencia (vagyis minél szélesebbek az oszlopok), annál több információ vész el 3. A hangmagasság észlelése A hangok azonosítása és ezáltal az akusztikus világ megismerése a hangmagasságon alapul, ezért a hangok jellemzői közül ezt tekinthetjük a leglényegesebbnek. Ez azt is jelenti, hogy a hangmagasság feldolgozása a legbonyolultabb a hang jellemzői közül. A bonyodalmak ott kezdődnek, hogy nehéz pontosan meghatározni, mi is a hangmagasság, mivel ez is, hasonlóan a hangossághoz, szubjektív élményt jelöl. Ugyanakkor, miként a hangosság szubjektív észlelését a hangerő fizikai változásaihoz tudjuk kapcsolni, a hangmagasság esetében is van egy olyan fizikai jellemző, amelynek megváltozása a hangmagasság észlelésében is eltéréshez vezet, ez pedig a frekvencia. A frekvencia és a hangmagasság közötti kapcsolat korántsem olyan egyszerű, mint a hangerő és a hangmagasság közötti: azonos frekvencia esetén is lehet eltérő az észlelt hangmagasság, és eltérő frekvencia is észlelhető azonos hangmagasságként. Ráadásul nem mindegy, hogy tiszta vagy komplex hangok hangmagasságáról van-e szó. A tiszta hangok esetében viszonylag egyszerű a frekvencia és a hangmagasság közötti viszony, a komplex hangok esetében viszont meglehetősen bonyolult. Annak ellenére, hogy a komplex hangok teljesen egyértelmű hangmagasságélménnyel járnak együtt (lásd a zongora C és D hangja), nem világos, hogy a hangot alkotó sok frekvencia-összetevő közül melyik szolgál a hangmagasság alapjául. Azt mondhatjuk tehát, hogy nincs egy az egyhez megfelelés a frekvencia és a hangerő között. A hangmagasság mindezek alapján úgy definiálható, mint a hallásnak az a jellegzetessége, amelynek alapján a hangok a mélyektől a magasakig sorba állíthatók. Ha például egy zongorán sorban leütjük az egymás melletti billentyűket, akkor egy olyan hangsort hallunk, amelyben az egymást követő hangok egyre magasabb hangmagassággal rendelkeznek. Általában pontosan meg tudjuk mondani, hogy két hang közül melyik rendelkezik nagyobb hangmagassággal. Ez azt is jelenti, hogy a hangmagasság egy egydimenziós skála (csakúgy, mint a hangosság): a hangok egyetlen skála mentén sorba rendezhetők a mélyektől a magasakig A hangmagasság skálázása A hangmagasság skálázásával kapcsolatban a legtöbbször a hangok frekvenciáját veszik figyelembe, amit, ahogy már láttuk, Hz-ben mérünk. A frekvencia azonban csak a tiszta hangok magasságát jelölheti, mivel a komplex hangoknál (vagy akár a zajoknál) egyszerre több frekvencia-összetevő is jelen van. A fejezet további részében ezért elsősorban azzal fogunk foglalkozni, hogy a komplex hangok hangmagasságát mi határozza meg. Több próbálkozás is történt szubjektív hangmagasságskálák létrehozására. Az egyik ilyen az úgynevezett melskála. Egy 1000 Hz-es tiszta hang értéke definíció szerint 1000 mel, egy ennél kétszer magasabb hangé 2000 mel, és a feleolyan magasé 500 mel. A hangok melskálán történő besorolása egy olyan szubjektív skálázási eljáráson alapul, amelynek során a kísérleti személyektől a különböző hangmagasságú hangok összehasonlítását 188

203 9. FEJEZET Egyetlen hang észlelése a szubjektív hang kérik. Azt kell tehát meghatározni, hogy pontosan milyen magas is az a hang, ami kétszer olyan magas, mint amit az előbb hallottam. A melskála, talán éppen amiatt, hogy nem képes egyértelmű viszonyokat megragadni, nem igazán terjedt el a pszichoakusztikai szakirodalomban. Egy másik skála már jóval sikeresebbnek mondható, és ez a zenei hangmagasságskála. A zenei hangmagasságskála a zenei hangok sorba állítását teszi lehetővé. A zenei hangok a zenedarabok létrehozására felhasznált, hangszereken lejátszott vagy esetleg elénekelt hangokra vonatkoznak. A zenei hangokat olyan nevekkel illetjük, mint C, D, E vagy dó, ré, mi stb. A zenei skála nagyon jól használható a zenei hangok megragadására, de kizárólag ezekre, hiszen a zenei hangok csak bizonyos meghatározott frekvenciákkal rendelkeznek, egy viszonylag szűk frekvenciatartományon belül (kb Hz). Például az A 4 hang (az úgynevezett egyvonalas A hang) 440 Hz-es frekvenciájú, a skálában ezt követő H 4 viszont 494 Hz, de nincs olyan hang, amely 450 Hz-es lenne. A zenei skálákról a zenei észlelésről szóló 12. fejezetben még részletesen fogunk beszélni. A továbbiakban áttekintjük, hogy milyen tényezők befolyásolják a tiszta hangok hangmagasságának észlelését, majd megnézzük, hogy milyen idegrendszeri alapjai vannak a hangmagasság észlelésének, végül pedig arra keressük a választ, hogy mi határozza meg a komplex hangok magasságának észlelését A hangmagasság-észlelés elméletei Az alaphártya működése kapcsán már beszéltünk néhány olyan elméletről, amelyek a hangmagasság észlelését és az alaphártya működését kívánták összekapcsolni. Ezek voltak a frekvenciaelmélet, a helyelmélet és az alaphártya működésének ma is teljes mértékben elfogadott elképzelése, az utazóhullám-elmélet. Áttekintettük a hallórendszer frekvencia- szelektív működését magyarázó egyik elképzelést, amely szerint a hallórendszer olyan különböző középfrekvenciával rendelkező szűrők készleteként képzelhető el, amelyek egymást részben átfedve átfogják az egész frekvenciaészlelési tartományt, és különböző frekvenciákat dolgoznak fel (hallási szűrők). Az alábbiakban lényegében ezeket az elméleteket ismételjük át, hiszen ezek mindegyike alapvetően a hangmagasság észlelését magyarázza, és fontos tisztában lennünk azzal, hogy ezek nemcsak az alaphártya működésével és a hangok frekvenciájának feldolgozásával, de a hangmagasság élményének kialakulásával is foglalkoznak. A hangmagasság észlelésével kapcsolatban alapvetően két nagy elmélet létezik: a helyelmélet és az idői elmélet (frekvenciaelmélet). A helyelmélet mai változata szerint a hanginger a belső fülben egyfajta spektrális elemzésen (vagyis frekvencia-összetevőkre való lebontáson) megy keresztül oly módon, hogy a hangot alkotó frekvenciák az alaphártya különböző részeit hozzák mozgásba, ennek révén pedig különböző jellemző frekvenciával rendelkező neuronok jönnek aktivációba. A helyelmélet gyenge pontja, hogy a komplex hangok észlelését nehezen tudja magyarázni. A komplex hangok ugyanis, mivel több frekvenciát tartalmaznak, az alaphártya több pontján is maximális kitérést hoznak létre, ezek közül viszont nem feltétlenül a legnagyobb csúccsal rendelkező vezet a hangmagasság meghatározásához. A későbbiekben még visszatérünk arra, hogy a komplex hangok esetén végül is melyik frekvencia-összetevő vezet a hangmagasság élményéhez, és hogy ennek észlelését hogyan segíti elő az alaphártya. Az idői elmélet a helyelmélettel szemben a hang magasságát a hang által kiváltott neu- rális aktivitás idői mintázatához kapcsolja. Az idői elmélet egyik korai változata volt a frekvenciaelmélet, amely szerint az alaphártya a hang frekvenciájának megfelelően jön rezgésbe, és ez a hallóidegben hasonló mintázatú kisüléseket hoz létre (vagyis egy 1000 hz-es hang hatására másodpercenként 1000-szer rezeg az alaphártya, és ugyanennyiszer sül ki a hallóideg). Az idői elméletek egy modernebb változata a hallóideg aktivitásának fázisszinkronizá- cióján alapul. A fázisszinkronizáció azt jelenti, hogy a hallóideg a hang frekvenciájával, vagyis periódusával szinkronban sül ki. Az előző fejezetben szó volt arról (lásd 241. o.), hogy a hanghullám fázisa azt fejezi ki, hogy egy adott ponthoz képest egy teljes hullámperiódus mekkora része telt el. A hallóideg fázisszinkronizált aktivitása úgy valósul meg, hogy a neuronok tüzelése valamilyen módon időben kapcsolódik a hang bizonyos fázisához, és így gyakorlatilag a periódusokkal együtt tüzel. Ha belegondolunk, akkor ez pontosan azt írja le, mint amit a frekvenciaelmélet: a hallóideg a hang frekvenciájának (periódusváltozásának) megfelelő kisülési mintázatot produkál. A különbség az, hogy a fázisszinkronizáció lehetővé teszi, hogy a kisülések ne minden egyes periódusnál, hanem csak minden másodiknál vagy harmadiknál jelenjenek meg, és így sokkal nagyobb frekvenciák kódolása valósítható meg, mint ahogy azt a frekvenciaelmélet feltételezte. 189

204 9. FEJEZET Egyetlen hang észlelése a szubjektív hang 3.3. A tiszta hangok hangmagassága A tiszta hangok esetében a hangmagasságot a hang frekvenciája határozza meg. Ezért itt nem is annyira az a kérdés, hogy mi az alapja a hangmagasság észlelésének, hanem inkább az, hogy mennyire lineáris az összefüggés frekvencia és hangmagasság között. A tiszta hangok hangmagasság-észlelése kapcsán is fontos kérdés, hogy mennyire tudjuk megkülönböztetni őket egymástól, vagyis milyen a különbségi küszöbük. A leggyakrabban alkalmazott módszerben két egymást követő, eltérő frekvenciájú hangról kell eldönteni, hogy melyik volt magasabb (ez tehát egy klasszikus konstans ingerek módszere paradigma, lásd pszichofizika). A hangok sorrendjét változtatják, és a legkisebb észrevehető különbséget (vagyis a különbségi küszöböt) annál a frekvenciaeltérésnél húzzák meg, ahol a vizsgált személy legalább 75 százalékban helyesen válaszol. A vizsgálatok általános eredménye az, hogy a frekvencia függvényében nő a különbségi küszöb, vagyis minél nagyobb frekvenciájú egy hang, annál nagyobb változásra van szükség ahhoz, hogy eltérő hangmagasságú hangot észleljenek a személyek. Így az 1000 Hz-es hangok esetében körülbelül 2-3 Hz-es változást hallunk meg (azaz például egy 1 Hz-es növekedést nem), 8000 Hz körül ez az érték viszont már 50 Hz körüli. Mindez emlékeztethet bennünket a Weber-törvényre: minél nagyobb az inger kiinduló értéke, annál nagyobb inger kell ahhoz, hogy észleljük a változást. A különbségi küszöb ilyen módon történő alakulása magyarázható az alaphártya frek- venciaszelektív működésével, valamint a hallásiszűrő-elmélettel. Ahogy fentebb már láttuk, kimutatható, hogy az alacsony frekvenciákat feldolgozó hallási szűrők kisebb sávszélességgel rendelkeznek, mint a magas frekvenciákat feldolgozó szűrők. Ebből következően a mély hangokra érzékenyebbek vagyunk, és így a mély hangokat sokkal jobban tudjuk diszkriminálni, mint a magasakat. Úgy tűnik tehát, hogy a hangmagasság különbségi küszöbének változása a hallórendszer alapvető tulajdonságából származik, nevezetesen abból, hogy a magas frekvenciájú hangoknál az alaphártya felbontóképessége rosszabb, mint az alacsony frekvenciájú hangoknál. A tiszta hangok esetében is van a hangmagasság észlelésében néhány olyan jelenség, amely miatt összetett és nem mindig egyértelmű a frekvencia és a hangmagasság közötti kapcsolat. Az egyik ilyen a hangerő hatása: a hangerő növekedésével megváltozik a hangmagasság élménye. Ez az összefüggés meglehetősen komplex: megfigyelték, hogy 2 khz alatt a nagyobb hangerejű hangot mélyebbnek észleljük, 4 khz felett viszont a nagyobb hangerő nagyobb hangmagassághoz vezet. A hangmagasság tehát a hangerő függvényében csúszkál. Moore (1997) szerint egyelőre nincs általánosan elfogadott magyarázat a hangmagasság csúszkálására, ezt a hangmagasság észlelésének egyik elmélete sem magyarázza kielégítően. A hangmagasság észlelését a hang időtartama is befolyásolja. Ahhoz, hogy egy hang egyáltalán hangmagasságélményt váltson ki, bizonyos hosszúságúnak kell lennie. Bármilyen furcsának tűnik is, a nagyon rövid hangokat nem egy adott hangmagasságú hangnak, hanem csak egy kattanásnak halljuk. Többnyire már milliszekundum hanghossz elég ahhoz, hogy észlelni tudjuk a hang magasságát, bár ez nagyban függ a hang frekvenciájától. A magas (nagyobb frekvenciájú) hangokat ugyanis mindig rövidebb idő alatt tudjuk azonosítani. Ennek az lehet az oka, hogy a nagyobb frekvenciájú hangoknál rövi- debb idő alatt is elegendő számú rezgési periódus alakul ki. Minél nagyobb frekvenciájú egy hang, a rezgési periódusok száma annál nagyobb A komplex hangok hangmagassága Alaphang és felharmonikusok Ahogyan a bevezetőben említettük, a komplex hangok hangmagasságának észlelését elég nehéz magyarázni. Mindennapi tapasztalatunk persze az, hogy a komplex hangok nagyon is jól meghatározható hangmagassággal rendelkeznek: elég csak a zongorára gondolnunk, ahol az egymás után leütött billentyűk egy egészen nyilvánvaló zenei skálát adnak ki, és pontosan meg tudjuk mondani, hogy melyik hang volt magasabb, és melyik mélyebb. Vagyis teljesen természetes számunkra, hogy a zongora hangjai egyértelmű hangmagasságélményt okoznak. Ugyanakkor, ha bevetjük újonnan megszerzett pszichoakusztikai ismereteinket, és belegondolunk abba, hogy mi is okozhatja a zongora hangjainak egyértelmű hangmagasságát, akkor rögtön elbizonytalanodunk. Tudjuk ugyanis, hogy a zongora hangja komplex hang, azaz több frekvencián tartalmaz akusztikus energiát. Azt is tudjuk, hogy a tiszta hangok esetében többé-kevésbé a hang frekvenciája vezetett a hangmagasság élményéhez. Nyilvánvalóan ezt a két ismeretet kellene ötvöznünk a zongora 190

205 3.5. Feldolgozott hangok 9. FEJEZET Egyetlen hang észlelése a szubjektív hang hangmagasságának megmagyarázása érdekében, de rögtön rá kell jönnünk, hogy ezt nem tudjuk megtenni. Nem tudjuk, hogy melyik az a frekvencia a sok közül, amelyet ki kellene választanunk, és amely a hangmagasság élményéhez vezetne. A komplex hangok akusztikai jellemzőinek leírásakor (lásd 8. fejezet) láthattuk, hogy az azokat alkotó frekvenciákat alapvetően két összetevőre, az alaphangra és a felharmonikusokra bonthatjuk. Az alaphang a legalacsonyabban megszólaló frekvencia, a felharmonikusok pedig ennek egész számú többszörösei. Mivel az alaphang ilyen kitüntetett szerepet játszik (nemcsak hogy a legalacsonyabb frekvencia, de a többi frekvenciát is hozzá viszonyítjuk), logikus lenne feltételezni, hogy valamilyen módon ez járul hozzá a komplex hangok magasságának észleléséhez. Sajnos azonban van egy olyan jelenség, amely megcáfolja ezt az elképzelést, ez pedig a hiányzó alaphang jelensége. A hiányzó alaphang vagy alapfrekvencia jelensége azt jelenti, hogy a komplex hangból kivágott vagy zajjal elfedett alaphang esetében nem változik meg a hang észlelt hangmagassága. Ez arra utal, hogy a komplex hangok hangmagasságát valamilyen sokkal bonyolultabb észlelési mechanizmus révén állapítjuk meg A maradványhang Az, hogy a komplex hangok magasságát valamilyen akusztikai paraméter változásához kapcsoljuk, két szempontból is problémás. Egyrészt, a komplex hangok, eltérően a tiszta hangoktól, az alaphártyának nemcsak egy bizonyos pontján okoznak maximális elmozdulást, hanem egyszerre több különböző helyen is. Ráadásul nem feltétlenül a legnagyobb elmozduláshoz kapcsolódó frekvencia lesz az, amely a hangmagasság élményét okozza. Másrészt, a hiányzó alaphang jelensége arra utal, hogy nem feltétlenül az alaphang az, ami a hangmagasság élményét okozza, mivel a hangmagasság akkor sem változik, ha az alaphangot kiszűrjük a hangból. Ahogyan arról már szó esett, a komplex hangok egy alaphangot és annak egész számú többszöröseiből álló frekvenciákat tartalmaznak. Például létrehozható egy olyan hang, amely 200-tól 2000 Hz-ig tartalmaz 400, 600, stb. frekvenciájú összetevőket. Ennek a hangnak a magassága megegyezik egy 200 Hz-es tiszta hang magasság á v a l, mivel a komplex hang alapfrekvenciája is 200 Hz. Ha azonban eltávolítjuk a 200 Hz-es frekvenciát (vagyis az alaphangot), akkor a hang magassága továbbra is meg fog egyezni a 200 Hz-es tiszta hang magasságával, illetve az eredeti, az alaphangot még tartalmazó hangéval. Ami változik, az a hang minősége, vagyis az eredeti és az alaphang nélküli hangokat ösz- szehasonlítva fogunk közöttük eltérést tapasztalni, de mindkettő hangmagasságát ugyanakkorának fogjuk észlelni. Valójában az alaphangon kívül még egy sor frekvenciatartomány kiszűrhető, és ez továbbra sem okozza a hangmagasság megváltozását. Ha módszeresen végigpróbáljuk, hogy mely frekvenciák elvétele vezet a hangmagasság megváltozásához, akkor azt tapasztalhatjuk, hogy szinte az összes alacsony frekvencia kiszűrhető, egészen az 1-1,5 khz-es tartományig, és a hang még mindig megtartja a magasságát, bár a minősége lényegesen eltérő lesz. Schouten (1940) a magas felharmonikusok (az előző példában az 1 khz feletti frekvenciák a többi frekvencia nélkül) esetében észlelt mély hangmagasságot reziduálisnak vagy maradványhangnak nevezte. Rámutatott, hogy a maradványhang megkülönböztethető a fizikailag is jelen lévő alaphangtól, ami arra utal, hogy a maradványhang észlelése nem az alaphártya aktivitásától függ. A zajelfedést használó kísérletekben szintén bebizonyították, hogy a maradványhang akkor is hallható, ha egyébként az annak megfelelő frekvenciatartományokat zajjal maszkolják. Mivel tudjuk, hogy a maszkolás lehetetlenné teszi az elfedett hang észlelését, ez arra enged következtetni, hogy a maradványhang nem egy adott fizikai hangnak felel meg. A maradványhangot virtuális hangmagasságnak is szoktuk nevezni. Ez az elnevezés különösen kifejező, mivel utal arra, hogy a hangmagasságot az összetevők sajátosságaitól függően az észlelőrendszer hozza létre A komplex hangok magasságának észlelését magyarázó elméletek A maradványhang észlelése furcsának tűnhet, de valójában a hétköznapokban minden komplex hang esetében ezt halljuk, és ez az ami alapján a hangok magasságát megállapítjuk. A maradványhang észlelését magyarázó elméletek két típusba sorolhatók. Az úgynevezett mintázatfelismerő modellek szerint a komplex hangok magasságát az egyedi felharmonikusok magasságából származtatjuk valamilyen módon. A másik típus, az idői modellek szerint viszont a hallóideg kisülési mintázata vezet a hangmagasság észleléséhez. 191

206 A mintázatfelismerő modellek 9. FEJEZET Egyetlen hang észlelése a szubjektív hang A mintázatfelismerő modellek szerint a komplex hangok magasságának észlelése két lépésben történik. Elsőként a bejövő akusztikai információ frekvenciaelemzését végezzük el, vagyis a hang egyedi frekvenciatartományainak meghatározását. A második lépésben egy mintázatfelismerő rendszer az egyedi frekvenciatartományok alapján meghatározza a hang magasságát. Az első lépés nem kíván különösebb magyarázatot, hiszen tudjuk, hogy az alaphártya alapvető feladata az, hogy a hangokat frekvencia-összetevőikre bontsa le, és azt is jól tudjuk, hogy miként képes ezt az alaphártya megtenni (lásd az alaphártya működésének elméleteit). A második azonban némi kiegészítésre szorul, hiszen egyelőre csak annyit mondtunk ezzel kapcsolatban, hogy valószínűleg létezik egy olyan rendszer, amely a mintázatfelismerést megvalósítja, és valamilyen módon a frekvenciamintázatok alapján kinyeri a hang magasságát. Goldstein (1973) elképzelése szerint például a következőképpen működhet a mintázatfelismerő rendszer. A rendszer a komplex hangot alkotó frekvenciákon dolgozik, ezeket egy hely- vagy időmechanizmus nyeri ki az alaphártya szintjén az ingerből. A felismerő lényegében azt csinálja, hogy megpróbálja a kinyert harmonikusoknak legjobban megfelelő alaphangot rekonstruálni, vagyis ez valamilyen matematikai művelet eredménye lenne. Tudjuk, hogy a felharmonikusok az alaphang egész számú többszörösei. így ha például az elemzett hang egy 1836, 2040 és 2244 Hz-es harmonikust tartalmaz, akkor a rendszer megpróbálja megtalálni azt a frekvenciaértéket, amely mindhárom harmonikus egész számú osztója. Kis számolással kideríthetjük, hogy ez az érték a 204 Hz, és ennek a 9., 10. és 11. harmonikusa lenne a fenti három frekvencia. Természetesen, mint azt fentebb láttuk, a hallórendszer frekvenciákra való érzékenysége nem ennyire nagy, ezért kerekítések elképzelhetők. A fenti példa esetében valószínűleg az 1840, 2040 és 2240 Hz-es harmonikusok is a 204 Hz-es hangmagasság érzetét okoznák. Ráadásul kétértelmű szituációk is adódhatnak, például olyan esetben, amikor a harmonikusok egynél több alaphang eltérő egész számú szorzataiként jönnek létre. Valóban vannak olyan kísérleti eredmények, amelyek szerint egy adott felharmonikus kombináció eltérő hangmagasságélményt váltott ki a különböző kísérleti személyekből. Az esetek nagy részében azonban a mechanizmus jól működhet. (Érdekes lehet elgondolkodni azon, hogy vajon ezek a személyek közötti eltérések milyen szubjektív élménybeli eltéréseket okoznak. Gondoljunk csak bele abba, hogy ha már ezen a nagyon alacsony szinten, egyetlen komplex hang feldolgozásakor is eltérések vannak az emberek között abban, hogy milyen hangmagasságot észlelnek, milyen óriási különbségek lehetnek akkor, amikor egy több hangszeren lejátszott és több száz hangból álló zenei darabot hallgatnak!) A mintázatfelismerő modellek szerint létezik egy fontos korlátja a hangmagasság észlelésének. Nevezetesen, a maradványhang csak akkor nyerhető ki egy komplex hangból, ha az tartalmaz olyan frekvenciakomponenseket, amelyek kihallhatók a teljes hangból. A vizsgálatok szerint azok a komponensek hallhatók ki, amelyek kb. 5 khz alattiak, és csak akkor hallhatók ki, ha nincs belőlük túlságosan sok. Körülbelül 20 harmonikus felett ugyanis csak egy meghatározhatatlan hangmagasságú zaj hallható Az idői modellek A komplex hangok hangmagasság-észlelésének idői modelljei egészen más megközelítést alkalmaznak. Schouten (1940) szerint az alaphártya tüzelési mintázataiból érdemes kiindulni. Tudjuk, hogy a komplex hangok harmonikusai az alaphártya különböző helyein dolgozódnak fel, és eltérő kisülési mintázatot váltanak ki a szőrsejtekben. Ezek a kisülési mintázatok az egyes harmonikusoknak, nem pedig az egész hangnak feleltethetők meg. Ha visszaemlékszünk, a hangmagasság feldolgozásának idői elmélete szerint a hangok frekvenciája egy a frekvencia periodikus változásának megfelelő kisülési mintázatot vált ki a hallóidegben (például minden fázis kezdetekor van egy kisülés-fázisszinkronizáció). Vagyis az alaphártya meghatározott helyein található szőrsejtek egy ilyen periodikus kisülést mutatnak, akkor is, ha csak egy egyszerű, egyetlen frekvenciából álló hang rezeg- teti meg az alaphártyát, és akkor is, ha egy több frekvenciából álló komplex hang. A komplex hangok feldolgozása esetén az alaphártya különböző helyein aktiválódó és különböző fázisszinkronizált aktivitást mutató idegsejtek kisülési mintázatai interakcióba léphetnek egymással, és átfedhetik egymást. Vagyis bizonyos időpillanatokban az idegsejtek egyszerre aktiválódnak (9.10. ábra). Az izgalmas dolog mindebben az, hogy úgy tűnik, ezek az átfedések leképezik az eredeti komplex hang periodicitását, vagyis az átfedések az alaphanggal, pontosabban a maradványhanggal szinkronban jönnek létre. Ez azt jelenti, hogy függetlenül attól, hogy jelen van-e az alaphang vagy sem, találunk egy olyan aktivitásmintázatot, amely a maradványhanggal van szinkronban. Ily módon az idői modellek is képesek megmagyarázni a hiányzó alaphang észlelését. Fontos kiemelnünk a fenti két elmélet között egy lényegi különbséget, ami abból fakad, hogy a hallási feldolgozás mely szintjére helyezik a hangmagasság élményének kialakulását. Mint láttuk, a mintázatfelismerő modellek különböző bonyolult számításokat tételeznek fel a maradványhang megállapítása során. A számítások vagy komputációk alapvetően központi idegrendszeri, azaz centrális folyamatok lennének, amelyek a 192

207 9. FEJEZET Egyetlen hang észlelése a szubjektív hang hallórendszer alacsonyabb szintjei által már feldolgozott információt használnák fel. Ezzel szemben az idői modellek a hallórendszer alacsony szintjén, valójában az alaphártya és a szőrsejtek szintjén működő periferiális folyamatokat tételeznek fel, és azt tartják, hogy a hangmagasság élménye már ezen az alacsony szinten kialakul Kísérleti bizonyítékok a két elmélet mellett A két modell kapcsán nagyon sok kísérleti eredmény született, amelyeknek alapvető konklúziója az, hogy mindkét elmélet mellett hozhatók fel bizonyító és cáfoló adatok. A kísérleti eredmények egyik csoportja azt mutatja, hogy akkor is egyértelmű hangmagasság észlelhető, ha a felharmonikusok nem hallhatók ki a hangból (például mert túl sok van belőlük, vagy túl magasak). A mintázatfelismerő elméletek szerint ez nem lehetséges, mivel a maradványhang a kinyert harmonikusok alapján számítható csak ki, és ha nem tudjuk kinyerni a harmonikusokat, akkor nem jön létre hangmagasságélmény. Moore és Rosen (1979) ezt egy olyan kísérlettel bizonyította, ahol olyan komplex hangokból álló hangsorokat játszottak le a kísérleti személyeknek, amelyek egyfajta dallamot alkottak. A hangokat úgy állították elő, hogy az alacsony frekvenciatartományokat kiszűrték, vagyis csak olyan magas frekvenciák maradtak meg, amelyeket önmagukban nem lehet kihallani. Ezenkívül alacsony frekvenciájú sávszűrt zajjal fedték el az alsó frekvenciákat. Mindezen módosítások ellenére a kísérleti személyek képesek voltak a dallamokat felismerni, ami arra utal, hogy azok létrehoztak valamilyen hangmagasságélményt (természetesen ezek a nagymértékben eltorzított hangok egészen más hangmagasságélményhez vezetnek, mint amit például egy zongorán lejátszott dallam okoz, de ennek ellenére valami dallamélmény- szerűség kialakulhat). Az eredmények egy másik csoportja viszont éppen a periferiális elméleteket cáfolja. Houtsma és Goldstein (1972) például arra a következtetésre jutott, hogy a maradványhang akkor is hallható, ha a harmonikusok között nem jöhet létre interakció az alaphártyán. Kísérletükben két felharmonikusból álló hangokat (pl. a 4. és 5. harmonikus) játszottak le a kísérleti személyeknek, akiknek a maradványhang magasságát kellett megállapítaniuk. Pontosabban, egy viszonylag bonyolult feladatot kaptak a zeneileg képzett alanyok: az volt a dolguk, hogy két egymást követő, két felharmonikusból álló hang zenei skálán való távolságát állapítsák meg. Ehhez természetesen az egyébként hiányzó alaphangot kellett felhasználniuk. Ráadásul még egy csavart alkalmaztak: a hangot alkotó két felharmonikust külön-külön adták a két fülbe. Ezt dichotikus helyzetnek nevezzük. Azt találták, hogy a feladat megoldása, vagyis a hiányzó alaphanggal rendelkező hangok zenei távolságának megállapítása még úgy is megfelelő volt, hogy a felharmonikusok más-más fülben voltak hallhatók. A dichotikus hallgatási helyzettel a kutatók ki tudták zárni annak lehetőségét, hogy a két felharmonikus az alaphártyán interakcióba lépjen, és ez okozza a hangmagasság élményét. A hangmagasság észlelése ebben a szituációban csak úgy képzelhető el, hogy a két fülből származó információ a feldolgozás valamely későbbi szintjén egyszerre kerül feldolgozásra, és ez a centrális feldolgozás vezet a hangmagasság élményéhez. 193

208 9. FEJEZET Egyetlen hang észlelése a szubjektív hang ábra. Az alaphártya idegsejtjeinek kisülési mintázata egy komplex hang feldolgozásakor. A bal oldali értékek azokra a frekvenciákra vonatkoznak, amelyek maximális idegi aktivitást eredményeznek az alaphártya adott pontjain Houtgast (1976) még ennél is tovább ment ahhoz, hogy bizonyítsa, a hangmagasság centrális folyamatoktól függ. Kimutatta, hogy akár egyetlen felharmonikussal rendelkező hang esetében is hallható egy ettől eltérő maradványhang. Olyan kísérleti helyzetet hozott létre, amelyben a személyeknek azt kellett eldönteniük, hogy két egymást követő komplex hang esetén a másodikként hallott magasabb vagy mélyebb-e, mint az első. Az első hang mindig hat felharmonikust tartalmazott, és egyértelmű hangmagassággal rendelkezett, a második hang viszont először három, majd kettő, végül pedig csak egy harmonikust tartalmazott. Az egy harmonikust tartalmazó hang esetében nagyon nehéz volt meghallani az ahhoz elvileg kapcsolódó mélyebb maradványhangot, egészen addig, amíg nem játszottak le a hanggal együtt háttérzajt is. Zaj jelenlétében ugyanis az egyetlen harmonikussal rendelkező hang is egyértelmű hangmagasságélményt okozott. Az ilyen módon kialakuló hangmagasságélményhez két dolog szükséges: egyrészt a személy egy meghatározott hangmagasságtartományra kell hogy figyeljen, és ebben a tartományban kell elvárnia az adott hangot (az elvárást a kísérleti helyzet maga alakítja ki). Másrészt szükséges, hogy a háttérzaj a beérkező hanginger feldolgozását zavarja, és ezáltal többértelművé tegye. Ha ezek a feltételek fennállnak, akkor lehetséges, hogy egyetlen felharmonikus is létrehozzon egy ettől mélyebb hangmagasságélményt. Ezek az eredmények azt bizonyítják, hogy a hangmagasság élménye a feldolgozás nagyon magas szintjén alakul ki, és többek között a személy figyelme vagy elvárásai is képesek befolyásolni. Vagyis, noha nyilvánvalóan a hang akusztikai jellemzőiben kell keresnünk a hangmagasság észlelésének alapjait, maga az élmény azonban nagyon erőteljesen pszichológiai tényezők által befolyásolható jelenség. Összefoglalva, a komplex hangok magasságának észlelésével kapcsolatban az alábbiak derültek ki: 194

209 9. FEJEZET Egyetlen hang észlelése a szubjektív hang 1. A hangmagasság olyan helyzetekben is észlelhető, amikor a harmonikusok túl magasak ahhoz, hogy kihallhatók legyenek. Ez az eredmény cáfolja a mintázatfelismerő elméleteket. 2. A hangmagasság észlelése nem kizárólag az alaphártya működésén alapul, mivel olyan esetben is észleljük, amikor nem lehetséges a harmonikusok interakciója (pl. dichotikus hallgatási helyzet). Ez az eredmény cáfolja az idői elméleteket. Mivel úgy látszik, hogy mind az idői, mind a mintázatfelismerő modellek jól magyaráznak bizonyos jelenségeket, más jelenségeket viszont nem, feltételezhetjük, hogy mindkettőnek igaza van, és a kettő egyesítéséből származó modell a hangmagasság-észlelési jelenségek szélesebb körét tudná magyarázni. Nézzünk meg egy ilyen elméletet, amely Moore (1997) nevéhez fűződik Moore egyesített elmélete A ábra szemlélteti a modell működését. A modell egy soklépcsős feldolgozási folyamatot képzel el a hangmagasság-észlelés hátterében. Az első lépés a bejövő komplex hangnak egy átfedő sávszűrőket tartalmazó készlet (a hallási szűrők) segítségével történő feldolgozása. Ennek révén kinyerhetők a hang frekvenciatartományai, vagyis a harmonikusok, mivel az egyes szűrők csak a nekik megfelelő sávszélességű frekvenciákat engedik át. Ez lényegében megfelel az alaphártya működésének: a hang az alaphártya különböző helyein okoz elmozdulást, és ezáltal aktiválja az ott található szőrsejteket. Láthattuk, hogy a hallási szűrők ezeknek a szőrsejteknek a frekvenciaszelektív működését modellezik. A szűrők kimenete egy olyan mintázat, mint ami az ábrán látható, és a feldolgozási folyamat további lépcsői már ezen a kimeneten dolgoznak, vagyis az egyes harmonikusok külön-kü- lön dolgozódnak fel. 195

210 9. FEJEZET Egyetlen hang észlelése a szubjektív hang ábra. A komplex hangok hangmagasság-észlelésének sematikus modellje (Moore 1997 nyomán) A következő lépés a szűrők kimenetének idegi impulzussokká történő átalakítása. Ezt a lépést a fázisszinkronizációs elmélet írja le legjobban. A transzdukciós folyamat során eszerint egy olyan kisülési mintázat jön létre, amely egy idői leképezését adja az adott frekvenciának. Fontos, hogy mindez már ugyanúgy működik, mint az egyszerű hangok esetében: a hang frekvenciáját egy az adott hangnak megfelelő jellemző frekvenciával bíró idegrost dolgozza fel. Vagyis a modell szerint a komplex hangok feldolgozásának egyik kritikus lépése a hangok különböző frekvencia-összetevőkre való lebontása (amit az alaphártya helyelmélete magyaráz meg), mivel, ha ez megtörtént, akkor a későbbi feldolgozás már haladhat úgy, mintha tiszta hangokról lenne szó (csak éppen sok idegrost dolgozik egyszerre). A feldolgozás következő szintjén egy olyan mechanizmus található, amely a különböző jellemző frekvenciával rendelkező idegrostok kisülési mintázatait elemzi külön-külön. Ez az információ azután továbbítódik egy újabb szintre, ahol a különálló kisülési mintázatok összehasonlítása történik meg. Az összehasonlítás során a mechanizmus közös idői mintázatokat keres, vagyis olyan pontokat, ahol több idegrostból származó kisülési információ egybeesik és átfedi egymást. Emlékezzünk vissza, hogy ez az átfedés, illetve interakció képezte az 196

211 9. FEJEZET Egyetlen hang észlelése a szubjektív hang alapját az idői elméleteknek, de azok ezt a mechanizmust az alaphártyához kapcsolták. A Moore-féle modell ezzel szemben egy centrális mechanizmust tételez fel az átfedés kinyerésére, mivel csak egy ilyen mechanizmus tudja megvalósítani azt, hogy akár két külön fülből érkező kisülési mintázatot is figyelembe vegyen. Ahogyan az idői elméleteknél, itt is a közös, átfedő idői mintázat az, ami a maradványhangot meghatározza, vagyis ez a mechanizmus számítja ki lényegében a komplex hang magasságát. Végül a feldolgozás utolsó lépésében egy döntési mechanizmus választja ki a hang végleges magasságát, mégpedig úgy, hogy nemcsak az alulról felfelé irányuló tüzelési mintázatokból származó információt veszi figyelembe, hanem különböző felülről lefelé ható folyamatok (figyelem, emlékezet) és a kontextus is befolyással vannak rá. Látható, hogy a modell a hangmagasság észlelésének mind idői, mind helyelméletét figyelembe veszi, és egyesíti magában a komplex hangok hangmagasság-észlelésének idői és mintázatfelismerő modelljeit. Ráadásul magában foglalja mindazt az ismeretet, amit az alaphártya frekvenciaszelektív működéséről, a jellemző frekvenciákról és a hallóidegrostok tüzelési mintázatairól tudunk. Ilyen értelemben a hallási észlelés egyik legkomplexebb elméletét nyújtja. A fentiekben áttekintettük a hallási észlelés egyik legfontosabb témáját, azaz azt, hogy hogyan dolgozza fel a hallórendszer a hangok magasságát, legyenek azok tiszta vagy komplex hangok. Láthattuk, hogy annak ellenére, hogy a hangoknak a magasságuk a legalapvetőbb jellemzőjük, ennek észlelése teljes mértékben szubjektív élmény, és nincs egy az egyben megfelelés egy hang frekvenciája és hangmagassága között. 4. Hangszín A hangszín minden bizonnyal a hangok legfontosabb szubjektív tulajdonsága. A hangszín teszi ugyanis lehetővé, hogy a környezet hangjait megkülönböztessük egymástól, és ezáltal felismerjük a tárgyakat a hangjuk alapján. Ennek ellenére a hangszín észleléséről nagyon keveset tudunk. A hangszín a hangok minőségére vonatkozik, és a következőképpen definiálhatjuk. A hangszín a hangok azon tulajdonságára vonatkozik, amely mentén az azonos hangossággal, hangmagassággal és hosszúsággal rendelkező komplex hangok megkülönböztethetők egymástól. Egyszerűbben fogalmazva, a hangszín az a jellemző, amely különbözővé teszi a zongora és a szaxofon vagy két ember beszédhangját. Hangszínről csak a komplex hangok esetében beszélhetünk, és fizikai értelemben a különböző frekvenciatartományokban található hangenergia eloszlása, vagyis a hang spektrális tartalma határozza meg. Ha emlékszünk, a komplex hangok alaphangból és felharmonikusokból állnak. A spektrális tartalom lényegében arra vonatkozik, hogy hány és milyen típusú harmonikusokat tartalmaz egy adott hang. A hangok eddig tárgyalt szubjektív jellemzői, a hangosság és a hangmagasság, egydimenziósnak tekinthetők. A hangok hangosságuk és hangmagasságuk alapján egyetlen skálán sorba rendezhetők, halktól a hangosig, illetve mélytől a magasig. Ezzel szemben a hangszín többdimenziós: a hangok hangszín alapján történő osztályozásához több kategóriára is szükség van. Valójában a hangszín kutatásának egyik fő kérdése, hogy pontosan hány dimenzióra van szükség ahhoz, hogy a hangokat a minőségük alapján megkülönböztessük egymástól. A problémák ott kezdődnek, hogy nehéz pontosan meghatározni a hangszín dimenzióit, hiszen hogyan tudnánk leírni a zongora és a hegedű hangja közötti különbséget? Több próbálkozás is történt valamilyen többdimenziós skálarendszer létrehozására. Von Bismarck (1972, idézi Pap 2002) sok különböző hangszínű hang hasonlóságát ítéltette meg, és az eredményeket különböző statisztikai módszerekkel dolgozta fel. Két alapvető hangszínjellemzőt talált: az élességet és a kompaktságot. Az élesség elsősorban a hang frekvenciájához és hangerejéhez kapcsolódott, a kompaktság viszont egy olyan dimenzió volt, ami jól elkülönítette a zajokat és a zenei hangokat. Ezenkívül olyan kategóriákat talált még, mint a teltség, színesség és érdesség. A hangszínt a spektrális tartalmon kívül azonban egyéb, időben változó jellemzők is befolyásolják. Túlzott leegyszerűsítés lenne azt állítani, hogy a zongora és a hegedű hangja csak annyiban tér el egymástól, hogy eltérő frekvenciatartományokban tartalmaznak hangenergiát. 197

212 9. FEJEZET Egyetlen hang észlelése a szubjektív hang ábra. Két hangszer burkológörbéjének illusztrálása: a) cintányér, b) fuvola. Az ábrán a vastag vonal jelzi a burkológörbét, amely pontosan követi a hang amplitúdójának változását Valójában a környezeti hangok folyton változnak, és a legritkább esetben maradnak statikusak. A legfontosabb hangszínt befolyásoló tényezők a hang burkológörbéje, valamint a hangkezdet és a hangvégződés (lásd ábra). Ezek a jellemzők gyakorlatilag a hangerő folyamatos váltakozásából származnak, hiszen a hangkezdet és a hangvégződés is felfogható úgy, mint a hangerő megváltozása (0-ról, illetve 0-ra). Azt, hogy ezek a dinamikai jellemzők mennyire fontosak, a következő példával illusztrálhatjuk. A régebbi elektromos orgonák (szintetizátorok) a valódi hangszerek hangját csak a spektrális jellemzők lemásolásával utánozták. Ha hallottunk már a hatvanas évekből származó, elektromos orgonán játszott dalokat, akkor tudjuk, hogy ezek az utánzott hangok egyáltalán nem hasonlítottak az eredeti hangszer hangjára, és valójában sípszerűen szóltak. A mai modern szintetizátorok és főként az elektromos zongorák már szinte teljesen hűen képesek visszaadni a hangszerek hangját. Ennek többek között az az oka, hogy a modern szintetizátorok használják a burkológörbe és a hangkezdet megváltoztatását, míg a régiek erre nem voltak képesek. Vagyis az igazán élethű hangzás elérése érdekében nem csak a hangok spektrális tartalmát, hanem idői és hangerőváltozását is modellezni kell ÖSSZEFOGLALÁS 1. A pszichoakusztika tudománya azzal foglalkozik, hogy hogyan észleljük a hangok hangosságát, hangmagasságát és hangszínét, és hogy milyen viszonyban vannak egymással a hangok fizikai jellemzői és ezek szubjektív észlelése. 2. A hangosság észlelését elsősorban a hang erőssége (amplitúdója) határozza meg, de ezenkívül számos egyéb tényező is befolyásolja, köztük a hang frekvenciája. 3. A hangosság észlelésének tartományát a hallhatósági függvény írja le, amely az egyes frekvenciák esetén mérhető abszolút hallási küszöböket ábrázolja. 4. A hangosság észlelésének különbségi küszöbét két módszerrel lehet mérni: a közvetlen nagyságbecsléssel és a hangossági szintek módszerével. A közvetlen nagyságbecslési módszer eredményei szerint hatványösszefüggés áll fenn a hang fizikai intenzitása és észlelt hangossága között. A hangossági szintek módszerének eredményei szerint a hangosság észlelését nemcsak a hang intenzitása, de a frekvenciája is 198

213 9. FEJEZET Egyetlen hang észlelése a szubjektív hang befolyásolja: nagyon mély és nagyon magas hangoknak nagyobb intenzitással kell rendelkezniük, hogy ugyanolyan hangosnak halljuk őket, mint a közepes frekvenciájú hangoknak. 5. A hangosság idegi kódolása egy lépcsőzetes kódolási mechanizmussal történik, amelyben a különböző válaszjellemzőkkel rendelkező idegrostok a hangerőtartomány különböző szintjeit kódolják. 6. A halláskárosodás a hangosság észlelésének problémája; lehet vezetéses vagy érzékszervi-idegi. A halláskárosodás leggyakoribb fajtája az időskori halláscsökkenés, amely a magas frekvenciájú hangok iránti érzékenység fokozatos elvesztésével jár együtt. 7. A hangmagasság észlelésének alapja a hallórendszer frekvenciaszelektív működése, amelyet zajelfedési kísérletekkel vizsgáltak. A kísérletek eredménye szerint egy célhangot olyan széles sávú zajjal lehet legjobban elfedni, amely a hangéhoz hasonló vagy azzal megegyező frekvenciát tartalmaz. Illetve, minél több frekvenciát tartalmaz a zaj, annál hatékonyabban fedi el a célhangot, de csak egy bizonyos határig, az úgynevezett kritikus sávig. E felett további frekvenciák hozzáadása a zajhoz már nem okoz nagyobb elfedést. 8. A kritikus sávok jelenléte a hallórendszer hallásiszűrő-modelljét támasztják alá. Eszerint a hallórendszer úgy képzelhető el, mint a teljes hallható frekvenciatartományt lefedő és egymást átfedő sávszűröket tartalmazó készlet. 9. A hallási szűrők haranggörbe alakúak, és sávszélességük 50 és 2000 Hz között változik: az alacsonyabb frekvenciák esetén a sávszélesség kisebb, a magasabb frekvenciák esetén pedig nagyobb. Emiatt a hallórendszer érzékenysége az alacsony és magas frekvenciák esetén eltérő. 10. A hangmagasság észlelése a tiszta hangok esetében a frekvencián alapul, de több más tényező befolyásolja, például a hang hangossága és időtartama. 11. Komplex hangok esetében még bonyolultabb a viszony a hangmagasság és a hang frekvenciája között. A hiányzó alaphang jelensége azt mutatja, hogy a hangmagasság észlelése nem az alaphanghoz kapcsolódik, mivel ennek eltávolítása nem okoz változást az észlelésben. Az alaphang nélküli felharmonikusok esetében észlelt hangmagasságot maradványhangnak nevezzük. 12. A maradványhang észlelésének magyarázatára kétféle elmélet született. A mintázatfelismerő modellek szerint a komplex hangok magasságát az egyedi felharmonikusok magasságából származtatjuk valamilyen módon. Az idői modellek szerint viszont a hallóideg kisülési mintázata vezet a hangmagasság észleléséhez. A kettő egyesítéséből származó Moore-féle modell a hangmagasság-észlelési jelenségek széles körét tudja magyarázni. 13. A hangszín teszi lehetővé a környezet hangjainak egymástól való megkülönböztetését. A hangszínt a hangok spektrális jellemzői (felharmonikusok száma és egymáshoz való viszonya) és időben változó tulajdonságai (amplitúdó-burkológörbe) határozzák meg KULCSFOGALMAK abszolút küszöb, burkológörbe, egyenlő hangosságú szintvonalak, hallási szűrők, halláskárosodás, hallhatósági függvény, hangszín, hiányzó alaphang, idői modellek, közvetlen nagyságbecslés, kritikus sáv, maradványhang, mintázatfelismerő modellek, zajelfedés 4.3. ELLENŐRZŐ KÉRDÉSEK 1. Miért mondhatjuk azt, hogy a hallórendszer szerkezetének és működésének ismerete csak egyfajta megszorítást jelent arra vonatkozólag, hogy az emberek hogyan észlelik a hallási ingereket? 2. Lehet-e az abszolút küszöb 0 db SPL alatti? 3. A modern hordozható mp3 vagy CD-lejátszóknál találkozhatunk előre meghatározott equalizer beállításokkal (pl. pop, rock, beszéd stb.). Miben különbözhetnek ezek, és mire jók? 4. Miért nem okoz sokáig problémát a frekvenciaspecifikus halláscsökkenés a mindennapi életben? 5. Mi a jelentősége annak, hogy a hallási szűrők az alacsony frekvenciák esetében kisebb sávszélességűek, mint magasabb frekvenciáknál? 199

214 9. FEJEZET Egyetlen hang észlelése a szubjektív hang 6. Mi a legfontosabb bizonyíték amellett, hogy a hangmagasság észlelése teljes mértékben szubjektív élmény? 7. Hogyan lehetséges az, hogy a zongorán és a szaxofonon lejátszott zenei A hangot ugyanolyan hangmagasságúnak halljuk, noha a két hang spektrális összetétele nagymértékben eltér egymástól? 4.4. AJÁNLOTT OLVASMÁNYOK Moore, B. C. J An introduction to the psychology of hearing. 4th ed. Academic Press, San Diego. Pap János Hang, ember, hang. Vince Kiadó, Budapest

215 12. fejezet FEJEZET A hallási objektumok észlelése hol és mi Az eddigiekben áttekintettük a hallási ingerek legfontosabb fizikai jellemzőinek (hangerő, frekvencia, hangszín, időtartam) szubjektív észlelését. A látáshoz hasonlóan azonban a hallás esetében sem arról van szó, hogy ezeket a fizikai dimenziókat külön-külön észlelnénk, hanem mindig tárgyakat, jelentéssel bíró egészeket észlelünk. Ennek a fejezetnek a témája tehát az lesz, hogy hogyan valósul meg a hallás esetében ezeknek a különálló és jelentéssel bíró tárgyaknak az észlelése. Elsőre talán furcsának tűnhet hallási tárgyakról vagy hallási objektumokról beszélni, hiszen a tárgy szó hallatán valamilyen kézzelfogható, kiterjedéssel bíró dologra gondolunk először. Ugyanakkor a fejezet során azt fogjuk hangsúlyozni, hogy egy zongorán megszólaló Lisztdarab ugyanolyan jogosan tekinthető egyfajta tárgynak, mint a zongora, amin megszólal. Azt is látni fogjuk, hogy a hallásban nagyon is hasonló észlelési elvek működnek, mint amilyeneket a látás kapcsán már megtanultunk, egyszerűen csak a hallás esetében egy kissé nehezebb őket értelmezni (ez valószínűleg annak is köszönhető, hogy az észlelési elveket elsőként a látott világra alkalmazták, és innen származnak a példák is). Leszögezhetjük tehát azt, hogy a hallási észlelésnek hasonló a feladata, mint a látásinak: a világot értelmes, jelentéssel bíró egységekre kell bontania. Ehhez két dolog szükséges: egyrészt meg kell határoznunk, hogy hol található a tárgy (lokalizáció), másrészt pedig meg kell határoznunk, hogy mi az (azonosítás). Azt, hogy milyen elképesztően nehéz feladata van a hallórendszernek, amikor ezt a két funkciót megvalósítja, a következő kis metaforával lehetne illusztrálni (Bregman 1990 nyomán). Képzeljük el, hogy egy tó partján állunk. A tóban kacsák és hattyúk úszkálnak, a távolban vitorlások siklanak a vízen, és a tó felszínét szél fodrozza. Most képzeljük el azt, hogy a tó partján két keskeny csatornát ásunk. Ezek mindegyike néhány méter hosszú, néhány centiméter széles, és pár méterre vannak egymástól. Félúton mindkettőbe egy zsebkendőt helyezünk, és odaerősítjük őket a csatorna széléhez. Ahogy a tó hullámai elérik a csatornákat, megmozgatják a zsebkendőket. Ezek után kizárólag a zsebkendők mozgásából kell a tavon történő eseményekre következtetnünk: hány hajó van a tavon, hol vannak, melyik van közelebb, és merre úsznak a kacsák. Annak ellenére, hogy ez a feladat tökéletesen lehetetlennek tűnik, a hallórendszerünk mégis képes megoldani: csupán a dobhártyánkat érő hanghullámok alapján képesek vagyunk egy sor következtetést levonni és meglepően pontosan leképezni a hallott világot. 1. Hanglokalizáció A hanglokalizáció az a folyamat, amelynek során a környezetből származó hangok forrásának helyét és távolságát megállapítjuk. A hanglokalizáció képessége egyértelmű evolúciós haszonnal jár, hiszen segít a hangot kiadó tárgyak vagy élőlények megközelítésében (vadászat) vagy elkerülésében (menekülés). Tudjuk ugyanakkor, hogy mindezt a vizuális rendszer is képes megvalósítani, sőt azzal az előnnyel is rendelkezik, hogy passzív, vagyis hangokat ki nem bocsátó tárgyak vagy élőlények helyét is azonosítani tudjuk a segítségével. Emiatt természetesen a legtöbb esetben a vizuális információt használjuk fel a tárgyak helyének és távolságának megállapítására, vagyis a látás viszonylagos dominanciával rendelkezik a hallás felett. A hallás eszerint elsősorban kiegészítő szerepet játszik a lokalizációban, azaz elsősorban olyan tárgyak helyének megállapítására használjuk, amelyeket nem látunk. Ezért a hallás alapján történő lokalizáció szerepe elsősorban az, hogy a hangokat kibocsátó tárgyak helyzetét nagyjából beazonosítsa, és a vizuális figyelmet odairányítsa. Ezzel a jelenséggel az észlelés integrációs kérdéseinél (modalitásközi facilitáció) és a téri figyelemmel foglalkozó 16. fejezetben részletesebben is megismerkedhetünk majd. Természetes körülmények között a látás jól ismert dominanciája ellenére is viszonylag pontosan meg tudjuk határozni a hangforrások helyét és irányát. Ha valaki benyit a szobába, ahol éppen tanulunk, akkor habozás nélkül a nyikorgó ajtó felé irányítjuk a tekintetünket. Sőt a hallásnak kifejezett téri minősége van, azaz úgy tűnik, hogy a hangok mindig jönnek valahonnan. A hang lokalizációja teljesen automatikus és erőfeszítés nélküli, ráadásul nagyon gyorsan lejátszódik. Látszólagos egyszerűsége ellenére a hangok lokalizációja nagyon is bonyolult folyamat. Ennek elsősorban az az oka, hogy magában a hallási információban nincsenek jelen egyértelmű téri információk. Tudjuk, hogy a látás esetében a retinára vetülő kép a környezet analóg reprezentációja. Ez azt jelenti, hogy ami a valóságban jobbra van, az a retinális képen is jobbra van, ami balra van, az a képen is balra van. Ezzel szemben a fülbe érkező akusztikus információ nem tartalmaz hasonló téri 201

216 10. FEJEZET A hallási objektumok észlelése hol és mi viszonyokat: kizárólag a hang erősségét, frekvenciáját és időbeliségét tudjuk felhasználni ahhoz, hogy a hang forrásának helyére következtessünk belőle. A hallási lokalizációban a kulcsszó tehát a következtetés lesz. Míg a látás esetében a tárgyak egymáshoz viszonyított helyzetének megállapítása nem kíván következtetést, hiszen mindez az információ benne van a retinán kialakuló képben, addig a hallás esetében különböző következtetési folyamatok szükségesek, amelyek segítségével rekonstruálható, hogy a tér mely pontjáról származik az adott hang. Persze azért a látás esetében sem eny- nyire egyszerű a dolog: tudjuk, hogy a háromdimenziós világ két dimenzióban reprezentálódik a retinán, és ebből kell következtetni a valódi mélységre. Mielőtt belefognánk annak tanulmányozásába, hogy hogyan is valósul meg a hangforrás helyének meghatározása, tisztáznunk kell még két alapfogalmat. Az egyik arra vonatkozik, hogy milyen információt használunk fel a lokalizációban: csak az egyik fülbe érkezőt, vagy mindkét fülbe érkezőt. Az előbbit monaurális, az utóbbit pedig binaurális észlelésnek nevezzük. Látni fogjuk, hogy a lokalizációban elsősorban a binaurális, vagyis két- füles észlelésre támaszkodunk, de monaurális, vagyis egyfüles módon is viszonylag jól működhet a tárgyak helyének meghatározása. A másik tisztázandó alapfogalom a hallási térrel kapcsolatos. Annak érdekében, hogy egyértelműen tudjunk beszélni a hallási térről és a különböző téri helyekről származó hangokról, érdemes bevezetnünk egy speciális koordináta-rendszert (10.1. ábra). A hallási tér koordináta-rendszerét a hallgató fejéhez viszonyítjuk, ez kerül a középpontba, és a fejhez képest három síkot határozunk meg. A horizontális síka fül hallójáratát és a szemet metszi, és lényegében ez határozza meg az elöl-hátul dimenziót. A frontális sík erre merőleges, és a fejtetőn halad keresztül, szintén metszve a hallójáratot. A frontális síkon értelmezzük a fent-lent irányokat. Végül a mediális sík mind a horizontális, mind a frontális síkokra merőleges, és a fej középvonalán halad át, vagyis mindkét fültől azonos távolságra található. A három sík metszéspontja nagyjából a fej közepében van, és ez a középpont az egész rendszer kiindulópontja, minden irányt ehhez viszonyítunk. Érdekes módon egyébként létrehozható olyan szituáció, amikor a hangokat történik, ha a hangokat fülhallgatón keresztül, valóban ide, vagyis a fejünk közepébe lokalizáljuk. Ez akkor sztereóban hallgatjuk. Erről a későbbiekben még lesz szó ábra. A hangok téri lokalizációjában alkalmazott koordináta-rendszer 1.1. A binaurális lokalizáció Ahogy a bevezetőben már említettük, a hangok lokalizációja úgy működik a legjobban, ha felhasználjuk a mindkét fülünkbe érkező hallási információt. Két kérdésre kell válaszolnunk, ha meg akarjuk érteni a lokalizációt: 1. milyen információt használunk fel, és 2. hogyan tesszük ezt? Említettük már, hogy a hallási információban nincsen semmilyen egyértelmű jelzés a hangforrás irányával kapcsolatban. Mi az, ami mégis rendelkezésre áll? Tudjuk, hogy minden hang három alapvető fizikai paraméterrel rendelkezik: hangerővel, frekvenciával és időtartammal. Ezek közül a hallórendszer a lokalizáció céljára a hangerőt és az időt használja fel, a frekvencia pedig elsősorban a hallási tárgyak azonosításában játszik fontos szerepet. A hangok terjedésének fizikai jellemzői miatt, ha egy hang valamilyen irányban eltér a mediális síktól, például közelebb van a jobb fülhöz, mint a balhoz, akkor két jellemzőben is változás történik. Egyrészt a hangforráshoz közelebbi fülbe előbb ér el a hang, másrészt ebben a fülben hangosabb lesz. A két fülbe érkező hang hangerejének eltérését interaurális hangerőkülönbségnek (IHK), azt a jelenséget pedig, hogy a hangok eltérő időpillanatban érik el a két fület, interaurális időkülönbségnek (IIK) nevezzük. Fontos leszögeznünk, hogy annak ellenére, hogy a két fülbe eltérő fizikai jellemzőkkel rendelkező hangok érkeznek, soha nem két különálló hangot hallunk, hanem mindig csak egyetlen, de meghatározott téri minőséggel rendelkező hangot. Lássuk 202

217 10. FEJEZET A hallási objektumok észlelése hol és mi előbb, hogy miből származik az IHK, és hogyan képes ezt a hallórendszer felhasználni a hangok lokalizációjában ábra. A fülek közötti hangerőkülönbség és a hangforrás irányának összefüggése Az interaurális hangerőkülönbség A fülek közötti (interaurális) hangerőkülönbség elsősorban a fej árnyékoló hatásának köszönhető, mivel a hangforrással ellenkező oldali fülbe érkező hangnak át kell haladnia a fejen. Az észlelőrendszer a két fülbe érkező inger hangerejének különbségéből következtet a hangforrás pozíciójára. A helyzet azonban nem ennyire egyszerű: az alacsony frekvenciájú hangokat ugyanis a koponya nem tudja leárnyékolni. Ha visszagondolunk a hangok rezgéséről tanultakra, akkor tudjuk, hogy a hanghullámot nemcsak az időegységenkénti rezgés számával tudjuk meghatározni, hanem a hullámhosszal is, amely a hullám két egymást követő csúcsa közötti távolságot fejezi ki. Az 8.4. ábra illusztrálta a frekvencia és a hullámhossz közötti összefüggést. Ha visszalapozunk az ábrához, akkor láthatjuk, hogy az alacsony frekvenciájú hangok esetében a hullámhossz egyre nagyobb lesz, 1000 Hz alatt már körülbelül 40 cm. Ez tehát azt jelenti, hogy egy 1000 Hz-es hang esetében a hanghullám két csúcsa között kb. 40 cm van, vagyis ez elég ahhoz, hogy a kb. 20 cm széles emberi koponyát mintegy átugorja. Azaz a fej az 1000 Hz alatti hangokat nem tudja leárnyékolni, mégpedig azért, mert nem elég nagy ahhoz, hogy a hangok útjába álljon. Az IHK különböző módszerekkel pontosan meghatározható. Shaw (1974) például úgy mérte meg, hogy egy mesterséges emberi fejen a fülek helyére mikrofonokat szerelt, majd pedig egy hangforrást a fej horizontális síkja mentén mozgatott, és a mikrofonokkal rögzítette a hangforrás által kibocsátott hangokat. A vizsgálat eredményét a ábra mutatja. Ezt a mérést több frekvenciával is megismételték, és valóban azt kapták, hogy kb. 500 Hz alatti hangok esetében nem volt lényeges eltérés az IHK-ban, viszont egy 6000 Hz-es hang esetében az IHK akár a 20 db-t is elérhette. Vagyis ez a binaurális jelzőmozzanat elsősorban a magas hangok irányának meghatározását segíti, és ezek esetében nagyon hatékonyan működik. Érdemes kiemelnünk azt a tényt, hogy Shaw kísérletében nem emberi alanyokat, hanem egy mesterséges fejet használtak. Ezt azért tehették meg, mert az IHK teljes mértékben fizikai jelenség, azaz egyszerűen a hangok terjedési sajátosságaiból fakad, nem pedig valamilyen szubjektív tapasztalat (a szubjektív tapasztalat pontosan az, hogy nem két eltérő hangerejű hangot hallunk, hanem egyetlen, a tér valamely pontjáról származót). Ami az IHK-t egy kicsit mégis humánspecifikussá teszi, az az, hogy az emberi fejkörméret és a fej hangelnyelési jellemzői befolyásolják az árnyékolás nagyságát (ezért is kellett mesterséges fejet alkalmazni a kísérletben, nem pedig egyszerűen két mikrofont). Az IHK jelentősége inkább az, hogy az észlelőrendszer specifikus feldolgozási mechanizmusokat fejlesztett ki annak érdekében, hogy ezt az eleve adott fizikai paramétert kihasználja a hangok lokalizációjában. 203

218 10. FEJEZET A hallási objektumok észlelése hol és mi ábra. A tévesztési kúp A ábrára visszatérve, észrevehetjük, hogy több olyan téri hely is létezik, ahol a hangforrás ugyanazt a hangerőkülönbséget okozza. Például a teljesen a fej előtt és teljesen mögötte (0 és 180 ) megszólaló hang egyformán kicsi (valójában 0) IHK-t okoz. Ez azt jelenti, hogy ha csak ezt az információt vesszük figyelembe, akkor nem tudjuk egyértelműen eldönteni, hogy honnan származik a hang, azaz előttünk vagy mögöttünk van-e. A különböző téri pontokhoz tartozó IHK-kat szemügyre véve a kutatók arra a megállapításra jutottak, hogy sok ilyen nem egyértelmű téri irányt nyújtó pont létezik, és hogy ezek a pontok egy geometriai alakzatba rendeződnek, mégpedig egy kúp palástján helyezkednek el (10.3. ábra). Az egyértelmű lokalizációt adni nem képes pontok halmazát ezért tévesztési kúpnak nevezzük (Woodworth 1938). Erre a témára még visszatérünk, miután az IIK-t is megvizsgáltuk. Azt mondtuk tehát, hogy az IHK alapvetően az emberi fej és a hangok terjedési jellemzőinek interakciójából, együttes hatásából származik. Ezzel azonban még nem mondtunk semmit arról, hogy hogyan képes a hallórendszer kihasználni ezt az információt a hangok lokalizációja érdekében. A kutatók állatkísérletes és egysejt-akti- vitást vizsgáló módszerekkel próbáltak nyomára bukkanni ezeknek a mechanizmusoknak, és azt találták, hogy a hallópálya egyik kéreg alatti átkapcsolóállomásán, a colliculus inferiorban valóban találhatók olyan idegsejtek, amelyeket mindkét oldalról elér a receptorokból továbbított ingerület. Ezek az idegsejtek szelektív érzékenységet mutatnak a jobb vagy a bal fülbe nagyobb hangerővel érkező hangokra. Az ilyen típusú, mindkét fülből idegi impulzusokat kapó neuronokat binaurális idegsejteknek nevezzük. Látni fogjuk, hogy nemcsak az IHK, de az IIK feldolgozását is hasonló idegsejtek végzik Az interaurális időkülönbség A hang lokalizációjának másik binaurális jelzőmozzanata az IIK. Ahogy említettük, az IIK abból az egyszerű tényből származik, hogy a hangforráshoz közelebb lévő fület a hang előbb éri el, mint az ellenoldali fület. Tudjuk, hogy a fénnyel összehasonlítva a hang viszonylag lassan terjed (340 m/s a levegőben), és ez vezet ahhoz, hogy a két fül közötti mintegy 20 cm távolság az érzékelőrendszer számára feldolgozható idői eltérést eredményez. Ennek ellenére itt olyan kicsi idői különbségekről van szó, amelyek néhány száz mikroszekundum (a másodperc egymilliomod része) nagyságrendűek. Az IHK-hoz hasonlóan az IIK is meghatározható a már említett, mesterséges fejet alkalmazó vizsgálat segítségével (Shaw 1974). A vizsgálat eredménye (10.4. ábra) hasonló ahhoz, mint amit az IHK kapcsán már láttunk. Egyrészt, akkor a legnagyobb az idői különbség, ha a hangforrás közvetlenül a fej egyik oldalán található, és merőleges a mediális síkra. Másrészt, itt is vannak olyan pontok, amelyek nem teszik lehetővé az egyértelmű lokalizációt: az IIK esetében is megalkotható a tévesztési kúp. Fontos megjegyeznünk, hogy az IIK és az IHK esetében eltérőek a tévesztési kúpok, valamint minden egyes frekvenciaértékhez más-más tévesztési kúp tartozik. Harmadrészt, az IHK-hoz hasonlóan az IIK esetében is vannak olyan frekvenciatartományok, amelyek esetében nem működik megfelelően. Láttuk például, hogy az IHK esetében a mély hangoknál van probléma. Az IIK-nál pont fordított a helyzet, azaz ez az eltérés a magas hangok lokalizációja esetében nem nyújt megbízható információt. Ennek oka a hangok idői különbségének jellegzetességeiben keresendő. 204

219 10. FEJEZET A hallási objektumok észlelése hol és mi ábra. A fülek közötti idõi különbség és a hangforrás irányának összefüggése Az IIK-t valójában nem az okozza, hogy a hangok különböző időben érkeznek a két fülbe, hanem a hanghullámok közötti fáziskülönbség. Láttuk, hogy a fázis azt fejezi ki, hogy egy adott ponthoz képest egy teljes hanghullám-periódusnak mekkora része telt el, vagyis hogy a kezdőponthoz képest mennyit változott a hanghullám. Az IIK esetében a hallórendszer valójában a két fülbe érkező hang fázisai közötti különbséget dolgozza fel. Az alacsony frekvenciájú hangok esetében nincs is semmi probléma, a fáziskülönbség hatékonyan jelzi a hangforrás irányát. A magas frekvenciájú hangoknál viszont a hullámhossz túl kicsi lesz, azaz kisebb, mint a fej mérete. Ha a hangok hullámhossza kisebb, mint a két fül közötti távolság (azaz kb. 20 cm), akkor a két fül között a hanghullám több periódust is leír. Több periódus esetén viszont nem egyértelmű, hogy a fáziskülönbség miből származik, mivel önmagában csak a fázis nem mondja meg, hogy hány periódus telt el. Ezért van az, hogy a magas frekvenciájú hangoknál az IIK nem nyújt egyértelmű információt a hang lokalizációjával kapcsolatban. Természetesen az IIK-ra is igaz az, amit az IHK kapcsán megállapítottunk: az IIK is a hangingerek fizikai jellemzőiből, és nem azok szubjektív észleléséből következik. Ezért itt is sokkal érdekesebb az a kérdés, hogy a hallórendszer hogyan képes ezt a jellemzőt felhasználni a lokalizációban. Az IIK kapcsán is találtak olyan binaurális idegsejteket, amelyek vagy a bal, vagy a jobb fülből előbb beérkező hangokra reagáltak csak. Ezek az idegsejtek elsősorban az oliva superior nevű kéreg alatti struktúrában találhatók. Az, hogy hogyan valósítható meg, hogy egy idegsejt szelektív választ adjon akkor, ha az egyik fülből érkező inger előbb éri el, mint a másik fülből érkező inger, azzal a viszonylag régi elmélettel ma is jól magyarázható, amely Jeffress (1948) nevéhez kapcsolható. Jeffress késleltetésivonal-elmélete szerint egy IIK-t detektáló binaurális idegsejt a következőképpen működne (10.5. ábra). Tudjuk azt, hogy az egyes neuronokat hosszabb-rövidebb idegrostok (axonok) kötik össze, és ezek szállítják az idegi impulzusokat az idegsejtek között. Az axon hossza befolyásolja az ingerületvezetés sebességét, vagyis azt, hogy mennyi idő alatt jut el az impulzus egyik idegsejttől a másikig. Minél rövidebb egy axon, annál rövidebb idő alatt továbbítja az impulzust. Élettani ismereteink alapján tudjuk, hogy az idegi impulzusok terjedési sebessége meglepően kicsi (idegrosttól függően a maximális sebesség kb. 100 m/s, vagyis 360 km/h), vagyis egy axon hossza jelentősen képes befolyásolni az ingerületátvitel idejét. Mindezeket észben tartva most képzeljünk el egy olyan neuront, amelyhez különböző hosszúságú idegrostok kapcsolódnak. Az egyszerűség kedvéért tételezzünk fel egy olyan binaurális idegsejtet, amelyhez egy-egy axon kapcsolódik a két fülből. A két axon közül az egyik (pl. a jobb fülből jövő) rövidebb, a másik pedig kicsit hoszszabb. Tegyük fel ezenkívül, hogy a binaurális idegsejt csak akkor aktiválódik, vagyis kezd el tüzelni, ha mindkét axontól egyszerre kap bemenetet (ezt nevezzük szummációnak). Milyen következményekkel jár ezek alapján a bemeneti axonok különböző hossza? Három eset lehetséges: a. Ha mindkét fület egyszerre éri egy hang, akkor, mivel a jobb fülből érkező axon rövidebb, onnan előbb kap impulzust a binaurális idegsejt, és így nem jön létre a szummáció, vagyis az idegsejt nem tüzel. b. Ha a hang jobbról jön, akkor a jobb fülből érkező axontól még előbb ér az idegsejtig az impulzus, vagyis az továbbra sem tüzel. 205

220 10. FEJEZET A hallási objektumok észlelése hol és mi c) Ha a hang balról jön, akkor a jobb fülből érkező axonból később érkezik be az impulzus, mivel a jobb fülbe később jut el a hang, de mivel a jobb oldali axon rövidebb, ezért a balról érkező impulzussal együtt érheti el az idegsejt. Ezáltal létrejöhet a szummáció, és az idegsejt tüzelni kezd. Vagyis az látható, hogy egy olyan binaurális idegsejt, amely a jobb fülből egy rövidebb axon révén kap bemenetet, a balról jövő hangokra képes preferenciálisan válaszolni. Most már érthető az is, hogy miért hívják az elméletet késleltetésivonal-elméletnek: a különböző axonhosszúságokkal különböző módokon lehet késleltetni a fülből beérkező ingerületet. Természetesen ahhoz, hogy bármelyik oldalról érkező hangot képesek legyünk detektálni, az szükséges, hogy olyan binaurális idegsejtek is létezzenek, amelyeknél a bal fülből érkező axonok rövidebbek, és így a jobbról jövő hangokra válaszolnak inkább. Továbbá valószínűleg nagyszámú binaurális idegsejt szükséges ahhoz, hogy a tér minden lehetséges helyéről származó hangokat kódolni lehessen. A ábra mutatja, hogy hogyan képzelhető el egy ilyen, több idegsejtből álló rendszer ábra. A késleltetésivonal-elmélet (Jeffress 1948) illusztrációja Látható, hogy a fülből érkező hallóideg a binaurális idegsejtekhez érve mintegy szétválik, és az egyes idegsejtekhez azok téri elrendeződése miatt az idegrostok eltérő hosszúsággal érnek el. Hogyan dolgozódnak fel ebben a rendszerben a három fő irányból származó hangok? a. Ha a hang elölről jön, vagyis mindkét fület egyszerre éri el, akkor egy olyan idegsejt fog kisülni, amelyhez azonos hosszúságú axonok kapcsolódnak. b. Ha a hang jobbról jön, akkor egy olyan idegsejt fog kisülni, amelyhez a bal fülből hosszabb axon kapcsolódik. 206

221 10. FEJEZET A hallási objektumok észlelése hol és mi c. Ha a hang balról jön, akkor egy olyan idegsejt fog kisülni, amelyhez a jobb fülből hosszabb axon kapcsolódik. Vagyis ugyanaz a késleltetési mechanizmus működik itt is, mint amit az előbb megnéztünk, de most már látható, hogy hogyan alkalmazható ez az összes téri irány leképezésére. A binaurális idegsejtek téri elrendeződése és az ebből következő eltérő axonhosszúság, valamint az, hogy csak akkor sülnek ki, ha a két fülből származó bemenet egyszerre éri el őket, lényegében automatikusan megvalósítja az irányszelekciót. A binaurális sejtek tehát a hallási tér egy jól körülhatárolható területén hallható hangokra érzékenyek. Ezt a területet az idegsejt receptív mezőjének nevezzük, hiszen hasonlóan a vizuális rendszer CGL sejtjeihez ezek is akkor válaszolnak leginkább, ha egy hang az idegsejthez tartozó receptív mezőben szólal meg. A binaurális sejtek összessége a hallási tér térképét építi fel, amely már egy analóg reprezentációja a külvilágnak. Látható tehát, hogy noha a hallási információ feldolgozásának kezdetén nem áll rendelkezésre egyértelmű téri információ, a hallórendszer kéreg alatti struktúráiban található binaurális idegsejtek működése révén mégis kialakul a hallási környezet téri leképeződése, és a magasabb szintű idegrendszeri folyamatok már ezen a reprezentáción dolgozhatnak tovább A binaurális lokalizáció duplexelmélete A fentiekben áttekintettük azt a két binaurális jelzőmozzanatot, amelyet a hallórendszer felhasználhat a hangok lokalizációja során. A továbbiakban arra keressük a választ, hogy valójában hogyan hasznosítja a hallás ezeket: vajon mindkettőt egyszerre figyelembe vesz- szük-e, vagy vannak olyan szituációk, amikor csak az egyiket vagy a másikat? Mind az IHK, mind az IIK rendelkezik egy olyan korláttal, amely esetében már nem nyújt hatékony információt a hangok lokalizációjával kapcsolatban. Az IHK esetében ez a mély hangoknál van így, az IIK-nál viszont a magas hangoknál. Eszerint a mély hangok esetében inkább az IIK-t tudjuk használni, a magas hangok esetében viszont az IHK-t. Úgy tűnik ugyanakkor, hogy van egy olyan frekvenciatartomány, amelyben egyik jelzőmozzanat sem működik megfelelően, vagyis a lokalizáció pontatlan. Stevens és Newman (1934) klasszikus kísérletükben empirikusan is alátámasztották ezt. A kísérleti személyeket egy 3 méter magas állványra ültették a Harvard Egyetem biológiai laboratóriumának tetején, mégpedig annak érdekében, hogy a lokalizációt ne zavarja a hangok visszaverődése a közeli falakról. A hangokat egy olyan hangszóróból játszották le, amelyet horizontális síkban egy 3,5 méter hosszú karon a kísérleti személy feje körül tudtak mozgatni. A hangok különböző frekvenciákon szólalhattak meg, és csak a jobb oldalon voltak hallhatók, összesen 13 különböző pontban. A kutatók az egyes frekvenciák esetében a lokalizációs hibákat mérték. A ábra mutatja a kísérlet eredményét. A grafikonon jól látszik, hogy mind az alacsony, mind a magas frekvenciák esetében viszonylag jól működött a lokalizáció, ellenben a Hz között frekvenciasávban megugrott a hibázások száma. Ez lenne tehát az a tartomány, ahol sem az IHK, sem az IIK nem nyújt megfelelő információt a hang téri helyzetével kapcsolatban ábra. A hangok lokalizációjának függvénye a frekvenciától. A hibázások száma 1000 Hz körül megnő, de 5000 Hz felett visszatér az eredeti szintre (Stevens-Newman 1934 nyomán) Stevens és Newman szerint ezek az eredmények egy kettős mechanizmus működésére utalnak, amennyiben az alacsony frekvenciájú hangok lokalizációjában elsősorban az IIK-t, míg a magas frekvenciájú hangoknál az IHK-t használjuk fel. Erre a kettősségre természetesen csak indirekt módon tudunk következtetni abból a 207

222 10. FEJEZET A hallási objektumok észlelése hol és mi tényből, hogy a lokalizációs teljesítmény valahol 1000 Hz környékén elkezd romlani, de 5000 Hz-nél újból visszaáll az eredeti szintre. Az elméletet azóta a hallási lokalizáció duplexelméletének nevezték el. Ez az elmélet mára sok és sokféle módszert alkalmazó vizsgálatban nyert megerősítést. A hallási lokalizáció kapcsán tehát a duplexelmélet egy újabb hibalehetőséget vet fel: a Hz-es hangok esetében az IHK és IIK nem teszi lehetővé a megfelelő lokalizációt. Egy másik problémával már korábban találkoztunk. Láttuk, hogy mind az IHK, mind az IIK esetében léteznek a hallási térnek olyan pontjai, amelyek nem teszik lehetővé az egyértelmű lokalizációt. Ezek együttesét neveztük tévesztési kúpnak. Hogyan lehetséges, hogy mindezek ellenére a hangok lokalizációja mégis jól működik? Három megoldás is létezik ezzel kapcsolatban. Egyrészt a hétköznapi életben a legtöbb esetben nem tiszta, hanem komplex hangokkal találkozunk. Ez azt jelenti, hogy a hangok több frekvencia-összetevőt is tartalmaznak. Ugyanakkor Stevens és Newman vizsgálatukban tiszta hangokat használtak, és a Hz-es hangoknál mutatott hibázásokat ilyen hangok esetében mutatták ki. Mivel a komplex hangok egynél több frekvenciát tartalmaznak, ezért ezek között valószínűleg van olyan, amelynél jól működik a lokalizáció. A másik megoldás az, hogy a laboratóriumtól eltérően a hétköznapokban mozgatjuk a fejünket. A fejmozgás úgy hat a lokalizációra, hogy megváltoztatja a korábban mozdulatlan hangforrást jellemző interaurális különbségek mintázatát, és ezáltal eloszlatja a hangforrás helyével kapcsolatos bizonytalanságot. Ez azért lehet így, mert a fej minden egyes pozíciója eltérő tévesztési kúppal jár együtt, és már kisebb mozgás is elmozdítja a tévesztési kúpot, lokalizálhatóvá téve az addig a téri helyét tekintve egyértelműen nem azonosítható tárgyat. Végül a harmadik megoldás az lehet, hogy a hangok lokalizációjában felhasználjuk az egyetlen fülből származó téri jelzőmozzanatokat, azaz a monaurális lokalizációt. Nézzük meg ezt egy kicsit részletesebben A monaurális lokalizáció A monaurális lokalizáció a fülkagyló formáján alapul. A fülkagyló elsősorban a függőleges, vagyis frontális síkban való lokalizációt segíti. Eddig nem igazán foglalkoztunk a fülnek ezzel a részével, pontosabban annyit állítottunk róla, hogy a hangok hallójáratba való irányításában van fontos szerepe. Az utóbbi évek kutatásai kiderítették, hogy a lokalizációban ki tudjuk használni azt a jelenséget, hogy a fülkagyló speciális tekervényein a hang a hallójáratba való lépése előtt ide-oda verődik (10.7. ábra). Ezeknek a visszaverődéseknek a mintázata megváltozik attól függően, hogy a hang milyen irányból származik, így ennek figyelembevételével következtetni lehet a hangforrás helyére ábra. A hang visszaverõdése a fülkagyló tekervényeirõl Milyen változásokat okoznak ezek a visszaverődések a fülbe érkező hangban? A fülkagyló hatása egyfajta szűrőként értelmezhető: bizonyos frekvenciák felerősödnek, mások viszont halkabbak lesznek, vagyis a hang spektrális tartalma kismértékben megváltozik. A hang spektrális tartalmának megváltozása a fülkagyló, a fej és 208

223 10. FEJEZET A hallási objektumok észlelése hol és mi a hang irányának komplex interakciójából származik. Ezek hatását összefoglalóan fejhez kötött átviteli függvénynek (FKÁF) nevezzük. Az FKÁF hatását a ábra szemlélteti ábra. Az FKÁF frekvenciaspektrum-módosító hatása. A sötétített terület jelzi az FKÁF hatását a bejövõ hangra (az ábra illusztráció, nem valós adatokon alapul) Az FKÁF-nek többszörös funkciója van. Egyrészt, lehetővé teszi a hangok lokalizációját. A hangok ugyanis téri irányuktól függően eltérő FKÁF-fel rendelkeznek, mivel az eltérő irányból származó hangok eltérő viszszaverődési mintázatot hoznak létre. Másrészt, az FKÁF jelenléte utal arra, hogy a hang valóban a külvilágból érkezett. Ez utóbbit úgy bizonyították (Batteau 1967), hogy hangokat vettek fel oly módon, hogy a felvételhez használt mikrofonokat két mesterséges fülkagylóban helyezték el. Az így felvett hangokat azután fülhallgatón keresztül játszották le a kísérleti személyeknek, vagyis a személyek egyfajta távoli külső fület kaptak. Aki hallgatott már sztereóban rögzített zenét fülhallgatón keresztül, az tudja, hogy az így hallott hangok nem rendelkeznek realisztikus téri minőséggel, hanem mintegy a fejen belül szólalnak meg. A kísérlet során azonban a személyek arról számoltak be, hogy a mesterséges fülkagylókkal rögzített hangok kívülről szóltak, nem pedig a fejen belül. Ráadásul a kísérlet eredményei szerint a személyek lokalizációs teljesítménye is lényegesen jobb volt a hagyományos módon rögzített hangokhoz képest. Mivel a fülkagyló és a tekervények alakja egyénenként változik, ebből következően az FKÁF is mindenkinél más, és egyfajta, az ujjlenyomat analógiájaként füllenyomatnak nevezett mintázattal jellemezhető. Ez a füllenyomat tekinthető úgy is, mint olyan spektrális aláírás, amellyel a fül minden beérkező hangot ellát. Wightman és Kistler (1989a, b) egy szellemes kísérlettel bebizonyította, hogy az FKÁF valóban egyénenként változik, és ráadásul csak a saját FKÁF-ünk segítségével tudjuk pontosan lokalizálni a hangokat. Vizsgálatukban egyénileg lemérték a kísérleti személyek FKÁF-ét, majd ezeket szintetizálták, vagyis egy számítógép segítségével mesterségesen állították elő. Ezt követően olyan hangokat játszottak le a kísérleti személyeknek fülhallgatón keresztül, amelyekre rákeverték a saját vagy mások szintetizált FKÁF-ét. Azt találták, hogy minél inkább eltért a szintetizált FKÁF a sajáttól, annál többet hibáztak a személyek a lokalizációban. Az egyik legérdekesebb eredmény az volt, hogy a mások FKÁF-én keresztül hangokat hallgató kísérleti személyek leggyakrabban abban hibáztak, hogy összecserélték az elöl-hátul irányt. Vagyis ha például a hang 30 fokos szögben érkezett, akkor ugyanolyan gyakran mondták azt, hogy 30 fokról származik, mint azt, hogy 120 fokról. Ez emlékeztethet bennünket a tévesztési kúpra, vagyis arra, hogy vannak olyan téri pontok, amelyek esetén a hangforrás lokalizációja nem egyértelmű. Mindebből az következik, hogy a fülkagyló szerepe pontosan az, hogy ezeknek a binaurális jelzőmozzanatoknak a segítségével megfelelően nem lokalizálható pontoknak a lokalizálását segítse, azaz egyér- telműsítse, hogy a hang elölről vagy hátulról származott-e. A kísérlet eredménye szerint tehát a monaurális lokalizációban nemcsak hogy felhasználjuk a fülkagyló formájából és elhelyezkedéséből származó információt, hanem mindez akkor működik a legjobban, ha saját egyedi fülkagylónkat használjuk. Ez persze a mindennapi életben így van. A kísérleti eredmények arra is utalnak, hogy a hallási tárgyak helyének észlelése tanult: az évek során megtanuljuk, hogy hogyan alkalmazzuk a fülkagyló speciális spektrális aláírását a hangok lokalizációjában. Ha viszont az FKÁF lokalizációban való felhasználása tanult, akkor feltételezhetjük, hogy akár újra is tanulható. Pontosan ezt az eredményt kapták Hofman és munkatársai (1998). Vizsgálatukban négy felnőtt személy lokalizációs képességeit tanulmányozták 209

224 10. FEJEZET A hallási objektumok észlelése hol és mi úgy, hogy megváltoztatták a fülkagyló tekervényeit egy, az igazihoz hasonló műanyag tekervény fülbe helyezésével. Ahogyan az várható volt, ez a mesterséges tekervény lényegesen rontotta a személyek hanglokalizációját, mégpedig amiatt, mert megváltoztatta az addigi FKÁF-et. A műanyag tekervény hat héten át tartó viselése után azonban meglepő módon egyre inkább javult a lokalizáció, míg végül elérte az eredeti szintet. Vagyis hat hét alatt a kísérleti személyek megtanulták a módosított FKÁF segítségével lokalizálni a hangokat. Még ennél is meglepőbb volt az az eredmény, hogy miután levették a műanyag tekervényeket, a lokalizációs teljesítmény nem változott. Vagyis nem egyszerűen arról volt szó, hogy a személyek megtanultak egy az eredetitől eltérő FKÁF-et, és ezentúl ennek alapján végezték a lokalizációt, hanem megtartották az eredeti FKÁF alapján történő lokalizációt is. Ez az eredmény azért nagyon meglepő, mert a legtöbb hasonló perceptuális tanulási helyzetben nem ez történik: ezekben az inputot módosító eszköz eltávolítása után egy újabb tanulási szakasznak kell lezajlania ahhoz, hogy az eredeti észlelés visszaálljon. Gondoljunk például Stratton klasszikus fordított szemüvegére (erről bővebben szóltunk már az észlelés természetével foglalkozó bevezetőben). Ezekben a vizsgálatokban a retinális kép irányát prizmákkal megváltoztatták, és bár a személyek bizonyos idő után megtanultak jól látni a prizmával, azt levéve nem állt vissza rögtön az eredeti percepció, hanem újra meg kellett tanulniuk rendesen látni. Az új FKÁF megtanulása inkább olyan, mintha egy második nyelvet tanultak volna meg a kísérleti személyek: az új nyelv megtanulása miatt az eredetit nem felejtjük el, az adott szituációtól függően pedig bármelyiket, a régit és az újat is tudjuk használni. A fentiekben áttekintettük azokat a binaurális és monaurális jelzőmozzanatokat, amelyeket a hangforrások lokalizációjában fel tudunk használni. Láthattuk, hogy elsősorban a hangok terjedési jellegzetességeit kihasználó binaurális jelzőmozzanatokon alapul a lokalizációs képességünk, de ha ezek valamilyen okból nem szolgáltatnak egyértelmű információt a hallási tárgyak helyével kapcsolatban, akkor a monaurális információt is felhasználjuk. Valójában mivel az észlelőrendszernek az a célja, hogy a külvilág minél pontosabb leírását adja, ezért minden rendelkezésére álló információt felhasznál. A továbbiakban a hallási lokalizációnak néhány olyan specifikus jellemzőjét tekintjük át, amely a kétfüles észlelésen alapul: a látási és hallási információ integrálását, a visszhangok észlelését és egy olyan elfedési jelenséget, amely csak két füllel történő hallgatás révén valósul meg táblázat - TÉRHATÁS A MOZIBAN ÉS OTTHON A mai modern mozik szinte már elképzelhetetlenek a háromdimenziós hangzási élményt nyújtó hangtechnika nélkül. A legtöbb nagy költségvetésű mozifilm kezdetekor csak úgy sorjáznak a különböző technológiákra vonatkozó szakkifejezések, mint a Dolby Surround, DTS, SDDS stb. Ráadásul a házi- mozirendszerek elterjedésével ma már az otthonunkban is létrehozhatjuk az eddig csak mozikban tapasztalható térhatású (surround) hangzást. De mit is jelentenek ezek a technológiai kifejezések, és hogyan lehet egyáltalán térhatású hangzást létrehozni? 210

225 10. FEJEZET A hallási objektumok észlelése hol és mi 1.ábra. A Dolby Stereo rendszer A hangok rögzítésének és lejátszásának több módja képzelhető el. A legegyszerűbb eljárás a mono felvétel, amikor is a hangot egyetlen hangsávon rögzítik, és egyetlen hangszóróval játsszák le (mint például a régi rádiókon). Egy kissé valósághűbb hangzási élményt nyújtanak a sztereo felvételek, amelyeket két külön mikrofonnal két hangsávra rögzítenek, és két hangszóróval játszanak le. Ma a sztereo a széles körben elfogadott formátuma a televízió- és rádió- (legalábbis az FM) adásoknak. A térhatású hangfelvétel lényegében ugyanezen a koncepción alapul: itt még több (3-7) sávra rögzítik a hangokat, és ezeket a megfelelő számú hangszóróval játsszák le. A térhatású felvételek esetében már ritkán használják azt az eljárást, hogy több különböző mikrofon segítségével rögzítik az egyes sávokat. Valójában inkább az történik, hogy a film felvétele után a hangmérnökök keverőstúdiókban állítják össze a film hangjait. Igazából itt nyeri el a film a végső hangzását, itt kerül rá a háttérzene, a párbeszédek és a hangeffektusok. Az utóbbi évek során annyira fontossá váltak ezek a hangeffektusok, hogy külön csapat úgynevezett foley -művészek foglalkoznak a minél valóságosabb hanghatások létrehozásával. A selyemruhák suhogása vagy a cipő alatt csikorgó kövek, ahogy a főhős végighalad az úton, mind-mind a foley-művészek által létrehozott mesterséges effektusok, mivel ezeket a hangokat a film forgatása során képtelenség lenne ilyen minőségben felvenni. Ezek a hanghatások azonban bár a legtöbb esetben észrevétlenek maradnak, hiszen nem elsősorban ezekre figyelünk nagyon sokat adnak hozzá a film realitásához és hangulatához. Analóg rendszerek Az első valódi térhatást keltő technika a Dolby Stereo volt, amelyben öt hangsávot: egy jobb, egy bal, egy középső és két surround sávot használtak, és több hangszórón szólaltattak meg (1. ábra). Ezek közül az elülső csatornákon általában a párbeszédek hallhatók, a hátulsók pedig a hangeffektusok számára vannak fenntartva. Az első olyan film, amelyben a surround csatornák már igen fontos szerepet kaptak, George Lucas Csillagok háborúja című filmje volt. Ebben a hangmérnökök az elülső és hátulsó csatornák közötti hangerőátmenetekkel képesek voltak olyan hatást elérni, mintha a filmben látható űrhajók a közönség feje felett repültek volna el. A későbbiekben a rendszer fontos része lett egy speciális hangszóró, az úgynevezett mélysugárzó (subwoofer), amely kifejezetten az alacsony frekvenciájú hangokat szólaltatta meg. Ezzel lehet létrehozni azt a nagyon speciális dübörgést, amely ma már szinte minden mozifilm sajátja. A házimozirendszerekben megtalálható Dolby Surround lényegében a Dolby Stereo -nak a kissé leegyszerűsített változata, amelyben csak három hangsávot: jobb, bal és surround sávot használnak. Ennek oka a helytakarékosság: minél több sávot használunk, annál nagyobb tárolási kapacitásra van szükségünk. 211

226 10. FEJEZET A hallási objektumok észlelése hol és mi 2. ábra Az SDDS rendszer Digitális rendszerek Egy következő nagy ugrást jelentett a térhatású hangok előállításában a digitális tömörítés megjelenése. Egészen addig ugyanis analóg módon rögzítették a hangokat, ami óriási tárolási kapacitást igényelt. A digitális felvétel elsősorban azt tette lehetővé, hogy sokkal nagyobb mennyiségű hanganyagot tudtak a mozifilmekhez, illetve a házimozi-berendezéseken lejátszott DVD-khez kapcsolni. Az első digitális rögzítést a DTS Digital Sound technikával végezték el, mégpedig Steven Spielberg Jurassic Park című filmjében. Ezenkívül további digitális technikák is születtek az utóbbi években, köztük a Dolby Digital és a Sony Dynamic Digital Sound (SDDS). A DTS és a Dolby Digital, valamint az SDDS közötti legfontosabb különbség, hogy az előbbi esetében a hangot egy külön tárolón (pl. CD) rögzítik, illetve játsszák vissza, míg az utóbbiaknál a hangot, az analóg rendszerekhez hasonlóan magára a filmszalagra rögzítik. A térhatású hangzás létrehozásában annyi különbség van ezen technikák között, hogy a DTS-ben hat, míg az SDDS-ben nyolc hangcsatornát használnak (2. ábra). A térhatású hangzás létrehozására alkalmas házimozirendszerek elterjedését tehát a digitális hangrögzítés tette lehetővé. Ennek segítségével ma már egyetlen DVD-n elfér egy teljes mozifilm képi és hanganyaga, mégpedig általában nagyon jó minőségben. Mindez ugyanakkor a mozifilmgyártást is megváltoztatta, és ma már egy-egy nagyobb film esetében hangtechnikusok egész csoportja dolgozik azon, hogy minél élethűbb és tökéletesebb minőségű hanghatásokat hozzanak létre. Ha legközelebb moziba megyünk, vagy megnézzük kedvenc DVDnket, érdemes végignézni a stáblistán, hogy há- nyan is dolgoztak a hangok rögzítésén és létrehozásán A binaurális lokalizáció speciális esetei A hallási és látási lokalizáció interakciója A bevezetőben említettük, hogy a tárgyak lokalizációja során elsősorban a látási információt használjuk fel, a hallásnak pedig inkább kiegészítő szerepe van ebben. Az ezzel kapcsolatos bizonyítékok elsősorban olyan szituációkból származnak, amelyekben a hallási és látási információ ellentmond egymásnak. Erre egy hétköznapi példa lehet a mozi esete. A mozikban még a mai modern hangrendszerek korában sem lehet maradéktalanul megvalósítani azt, hogy a hangok a mozivászon közepéről származzanak. Ennek ellenére a főhős beszédét mindig úgy halljuk, mintha az a szájából eredne. Kis paradoxona a háromdimenziós élményt nyújtó surround rendszereknek, hogy hiába halljuk a settenkedő szörny lépteit a hátunk mögött elhelyezett hangszórókból, azt soha nem a hátunk mögé, hanem a mozivászonra (vagy adott esetben a házimozink képernyőjére) fogjuk lokalizálni. Vagyis a méregdrága hangrendszer sajnos nem tudja becsapni az 212

227 10. FEJEZET A hallási objektumok észlelése hol és mi észlelőrendszerünket, és a látás minden esetben felülírja a hallást. A modern, háromdimenziós hangzásról bővebben a keretes szövegben lehet olvasni, a mozgókép és a hangforrás interakcióival pedig később (multiszenzoros integráció) ismét foglalkozunk. A látás téri lokalizációban mutatott dominanciáját a pszeudofonnal végzett klasszikus kísérlet (Young 1928) bizonyította. A kísérletben egy olyan, pszeudofonnak (álmikrofon) nevezett eszközt alkalmaztak (10.9. ábra), amely összecseréli a két fülbe jutó hallási bemenetet. Vagyis a jobb oldalról érkező hangokat a bal fülbe, a bal oldalról érkezőket pedig a jobba vezeti. Mi történik, ha ezzel az eszközzel hallgatjuk a különböző irányból származó hangokat? Attól függően, hogy nyitva vagy csukva van a szemünk, más a cserének az észlelésben megragadható következménye. Ha csukva van a szemünk, akkor felcseréljük az irányokat, mivel a pszeudofon mindkét irányból az ellenkező oldali fülbe vezeti a hangot. Ha azonban nyitva van, és látjuk a hang forrását, akkor a hangot a megfelelő oldalra fogjuk lokalizálni. Noha ez utóbbi esetben természetesen helyesen oldjuk meg a feladatot, mivel a megfelelő irányt választjuk ki, ez valójában nagyon is meglepő, mivel a fülünk pont az ellenkezőjét hallja. Eszerint tehát a vizuális információhoz való hozzáférés esetén agyunk figyelmen kívül hagyja a hallási információt ábra. A pszeudofon Mi lehet az oka a látás viszonylagos dominanciájának? A magyarázat talán a hang és a fény fizikai jellemzőiben keresendő. Azt mondhatjuk, hogy a fény sokkal megbízhatóbban szállít információt egy adott tárgyról, mint a hang. Egyrészt, a hang a fényhez képest nagyon lassan terjed, és emiatt, főként a távoli tárgyak lokalizációjakor, viszonylag nagy hibázáshoz vezet. Másrészt, a hangok nemcsak áthatolnak a tárgyakon, hanem töb- bé-kevésbé vissza is verődnek azokról, és ez lényegesen megnehezíti helyzetük meghatározását, főként azért, ábra. Az FKÁF frekvenciaspektrum-módosító hatása. A sötétített terület jelzi az FKÁF hatását a bejövő hangra (az ábra illusztráció, nem valós adatokon alapul) mert nem igazán lehet eldönteni, hogy egy közvetlen vagy egy visszavert hang érkezett-e a fülünkbe. A vizuális rendszer eltérő sajátosságaira visszavezethető feldolgozási aszimmetriákra a multimodális integráció tárgyalásakor, a 15. fejezetben további példákkal találkozhatunk még Elsőbbségi hatás Ahogy az előző fejezetben láttuk, a hangok komplex interakcióban állnak a környezettel: bizonyos tárgyak elnyelik, mások visszaverik őket. Egy természetes hallgatási környezetben, mondjuk egy nappali szobában, a hangok a hangforrásból (például kedvenc CD-lejátszónk hangszórójából) több különböző útvonalon jutnak el a fülünkbe. Némelyek közvetlenül érkeznek hozzánk, mások viszont visszaverődhetnek a szoba bútorairól vagy faláról. Ez azt jelenti, hogy a visszaverődött hangok nem egyszerre és nem is egy irányból érkeznek a fülünkbe. Ennek ellenére általában nem vagyunk tudatában ezeknek a visszaverődéseknek vagy visszhangoknak, azaz mindez a hangok lokalizációját sem befolyásolja. A visszaverődésre nem érzékeny hallási észlelés jelenségét laboratóriumi körülmények között általában úgy vizsgálják, hogy hangpárokat mutatnak be a kísérleti személyeknek fülhallgatón keresztül. Mindkét fülbe kétkét hangot adnak, és változtatják a hangpárok közötti időt, vagyis azt, hogy az első hang mikor érkezik a két fülbe (azaz az interaurális idői különbséget, ábra). 213

228 10. FEJEZET A hallási objektumok észlelése hol és mi ábra. Az elsőbbségi hatás vizsgálatához használt ingerek. Az első ingerpár a két fülbe kis idői különbséggel ért el, melyet a nyilak jeleznek. A második ingerpár a visszhangot modellezi, és ezeknél az idői különbség nagyobb. A két fülbe adott ingert egyetlen, meghatározott téri minőséggel rendelkező hangként észleljük Az ilyen kísérlet általános, megismételhető eredménye az, hogy ha a két hang között elég rövid idő telik el (legalább 5 ms, de komplex hangok esetén nagyobb is lehet, akár 40 ms), akkor a két hang összeolvad, és egyetlen hangot hallunk két különálló helyett. Amennyiben ez az összeolvadás megtörténik, akkor az összeolvadt hang lokalizációját az első hang iránya határozza meg, függetlenül attól, hogy a második hang milyen irányból jött. Ezt a jelenséget nevezzük elsőbbségi hatásnak (Wallach et al. 1949). Az elsőbbségi hatás azonban nem jelentkezik minden olyan esetben, amikor a két hang megfelelően kicsi idői távolságra van egymástól. A következő feltételek szükségesek a létrejöttéhez: a. A hangok nem folytonosak, hanem tranziensek, azaz rövid ideig tartók és átmenetiek. b. A két hang között legalább 1 ms különbség van; ennél kisebb különbség esetén a két hang valamilyen összesítése adja az összeolvadt hang lokalizációját. c. A második hang az elsőhöz hasonló hangerejű: ha sokkal hangosabb annál (legalább db-lel), akkor nem jön létre a hatás. d. A két hang minőségileg hasonló; minél kevésbé hasonlóak, annál kevésbé működik a hatás. e. Elég idő áll rendelkezésre a hatás felépüléséhez; az elsőbbségi hatás nem jön létre azonnal, a hangpárok néhány ismétlése szükséges hozzá. Fontos kiemelnünk, hogy az elsőbbségi hatás nem azt jelenti, hogy a visszhangokat teljesen elnyomja az első hang, ugyanis képesek vagyunk meghallani a különbséget a visszhanggal együtt hangzó és a visszhang nélküli hangok között. Vagyis a visszhang nem azzal jár, hogy két különálló hangot hallunk, hanem egyetlen, de a visszhang nélkülitől eltérő minőségű hangot észlelünk. Úgy is értelmezhetjük mindezt, hogy a hallórendszer elnyomja a visszhangot: arra következtet, hogy a visszhang ugyanannak a hangnak a visszaverődése, és ezért nem kell figyelembe venni a visszaverődés irányát. Akármennyire is egyszerűnek és automatikusnak tűnik az elsőbbségi hatás működése, úgy tűnik, hogy szintén tanult, és nagyon is magas szinten zajló, kognitív folyamatról van szó. Erre például abból lehet következtetni, hogy nem azonnali: láttuk, hogy kell egy kis idő a felépüléséhez. Vannak olyan eredmények is, amelyek azt mutatják, hogy a hatást a személy hallási környezetről kialakított elvárásai is befolyásolják (például hogy menynyire visszhangosnak gondolja a szobát, ahol tartózkodik). Mivel a legtöbb hétköznapi szituációban a hangokból visszaverődések és visszhangok keletkeznek, az elsőbbségi hatás nagyon fontos szerepet játszik az észlelésben. Ez teszi lehetővé, hogy az akusztikus környezet változásai ellenére viszonylag jól tudjuk lokalizálni, értelmezni és azonosítani a hangokat Binaurális felfedés A hanglokalizáció mellett egy másik szerepe is van a binaurális hallásnak: segít elkülöníteni az egyes hangokat a zajos környezet többi hangjától. A hangoknak a zajos környezettől való elkülönítését néha koktélpartijelenségnek is szokták hívni. A jelenség a nevét annak a helyzetnek az alapján kapta, amilyen egy zajos parti. Itt 214

229 10. FEJEZET A hallási objektumok észlelése hol és mi általában sok ember beszél egyszerre, és nekünk ebből a háttérzajból ki kell tudnunk választani beszélgetőpartnerünk hangját ahhoz, hogy arra figyelhessünk, amit mond. A legtöbb esetben erre természetesen képesek vagyunk, annak ellenére, hogy a többiek beszélgetéséből keletkező zaj akár hangosabb is lehet, mint partnerünk hangja. A koktélparti-jelenség egyike azon témáknak a pszichológiában, amelyek nagyon sok területen megjelennek, és sok különböző lélektani működés illusztrálására használják fel őket (talán mert a tudomány művelői maguk is kedvelik az effajta szituációkat). A hallási figyelemmel foglalkozó fejezetben többet fogunk beszélni erről a jelenségről. A koktélparti-jelenség empirikus vizsgálatára az alábbi eljárást alkalmazták, amely a binaurális felfedésnek nevezett jelenségen alapul (Durlach 1963). A kísérleti személyeknek fülhallgatón keresztül egyidejűleg hangokat és széles sávú zajt játszottak le az egyik fülükbe (pl. a jobba). A zajelfedés tárgyalásakor (280. skk.) láttuk, hogy a zaj hatására a hang észlelési küszöbe megnövekszik, és a hangot nehezebben halljuk meg. Ebben a kísérletben is ez történt, vagyis a zaj elfedte a hangot. Amikor azonban a másik (bal) fülbe is ugyanolyan zajt adtak, akkor az addig nem hallható hang ismét hallhatóvá vált ( ábra). Ha pedig ezek után a zaj mellé a bal fülbe is a jobb fülbe továbbított hangot adták, akkor a hang ismét eltűnt! Hogyan magyarázható az eredményeknek ez a furcsa mintázata? A választ valószínűleg a hanglokalizációs jelenségekben kell keresnünk. Amíg a hang és a zaj csak a jobb fülbe érkezik, addig az észlelőrendszer azonos hangforrásból származónak tekinti azokat, és a megszokott elfedési hatás érvényesül. Amikor azonban a bal fülbe zajt adunk, akkor a zaj téri konfigurációja a hanghoz képest megváltozik, mivel az most már mindkét fülben hallható. Vagyis most a hangot és a zajt eltérő forrásból származónak ítéljük. Ez viszont csak akkor működik, ha az akusztikai információ nem mond ellent a két fülbe érkező zaj azonos forrásból való származásának, vagyis a két fülbe érkező zaj ugyanolyan fázisú, hangosságú és hangmagasságú. Ha ezek után a hang is megjelenik a bal fülben, akkor megint arra következtetünk, hogy a zaj és a hang ugyanabból a forrásból származik, mivel téri konfigurációjuk megint csak hasonló lesz. A binaurális felfedés egyfajta átmenetet képez a hallási objektumok lokalizációja és azonosítása között. Ha belegondolunk, a felfedés esetében az történik, hogy a lokalizációs mechanizmusok segítségével választjuk külön a tárgyakat (azaz a hangot és a zajt): ha azok egy forrásból származónak tűnnek, akkor egy hallási tárgynak tekintjük őket, ha viszont úgy véljük, hogy különálló forrásból származnak, akkor két tárgyat észlelünk. A továbbiakban azt tekintjük át, hogy milyen egyéb folyamatok révén valósul meg a hallási tárgyak elkülönítése és felismerése ábra. A binaurális felfedés kísérleti illusztrációja. a) Az elfedő zaj megnehezíti a hang detektálását (ezért a szomorú arc). b) A másik fülbe adott ugyanolyan elfedő zaj hatására a hang detektálása könnyebbé válik. c) Ha azonban a másik fülbe a zajon kívül hangot is adunk, akkor a hang detektálása nehezebb lesz 2. Hallási mintázatok és objektumok észlelése Az eddigiekben a hallási élménynek már számos jellemzőjét bemutattuk: áttekintettük, hogyan történik a hangforrás helyének megállapítása, vagyis a lokalizáció, és még előbb azt is, hogy a hanginger egyéb jellemzőit, mint a hangerőt és a hangmagasságot, miként kódolja az idegrendszer. A mindennapi életben azonban nem különálló akusztikai jellemzőket észlelünk, hanem egységes, egész dolgokat. Noha a hangok magasságát és hangosságát dolgozzuk fel, ezek nem önmagukban léteznek, hanem mindig tárgyakhoz kapcsoljuk őket. A 215

230 10. FEJEZET A hallási objektumok észlelése hol és mi hallási észlelés végső állomásai nem ezek, hanem egy hallási tárgy: madárcsicsergés, a vonat zakatolása, a cselló szólama egy vonósnégyesben vagy egy szeretett személy hangja. Ezek azok, amiket eltárolunk az emlékezetünkben, és amik, ha újra találkozunk velük, ismerősek lehetnek. A hallási tárgyak azonosításának legfontosabb problémája, hogy a legtöbb esetben nagyon sok hang szól egyszerre, és nekünk ezekből kell kiválasztanunk azt, amelyik számunkra valamilyen okból fontos. Természetesen addig, amíg nem választjuk szét az egyes hangokat, felismerni sem tudjuk őket. Az alábbiakban ezért nagyrészt arról lesz szó, hogy az egyszerre beérkező hangokat hogyan csoportosítjuk egységes hallási objektumokba, és hogy ezekből hogyan tudjuk létrehozni a külvilág reprezentációját A hallási színtérelemzés Képzeljük el, hogy egy könnyűzenei koncerten veszünk részt egy koncertteremben: villódznak a fények, dübörög a zene az óriási hangszórókból, legalább négy hangszer szól egyszerre, és a többiek körülöttünk együtt énekelnek az énekessel. Ekkor barátunk fülünkbe kiabálva felhívja a figyelmünket arra, hogy mennyire fantasztikus volt az a gitárszóló, amit a gitáros a refrén előtt játszott. Valószínűleg mindenki képes az itt leírt feladatok megvalósítására: tudjuk követni az egész zenekar játékát, mégpedig a közönség zaja ellenére, tudjuk követni az egyik hangszer hangját a többi ellenére, sőt bizonyos mértékig még beszélgetni is tudunk, háttérbe szorítva az összes többi hangot. Ráadásul mindez nem is igazán okoz nehézséget, hanem valójában egy nagyon is élvezetes tevékenységnek találjuk. Alább arra fogunk rámutatni, hogy a fentiek látszólagos egyszerűsége ellenére mennyire nehéz feladata van a hallórendszernek akkor, amikor ezeket az észlelési folyamatokat meg akarja valósítani. Ennek illusztrálására vessünk egy pillantást a ábrára, amely egy zeneszám spektrogramját ábrázolja. A spektrogram a hangok ábrázolásának egy olyan módja, amely az idő függvényében tünteti fel a hangok frekvenciáját. A 8. fejezetben láthattunk már két másik ábrázolást is: az oszcillogramon az idő függvényében tüntettük fel a hangnyomás változását (lásd 8.3. ábra), a spektrálison pedig a frekvencia függvényében az amplitúdót (ezt hívtuk spektrális ábrázolásnak, lásd 8.7. ábra). A spektrogram mintegy ennek a kettőnek az ötvözete: az idő függvényében ábrázolja az egyes frekvenciatartományokban található hangenergia mennyiségét, amelyet a söté- tebb és világosabb foltok fejeznek ki. Minél sötétebb a folt, annál több energiát tartalmaz egy adott tartomány. Vagyis a spektrogram a hang mindhárom fizikai tulajdonságát képes egyszerre ábrázolni: a hangerőt, a frekvenciát és az idői lefutást. A spektrogramon történő ábrázolást gyakran alkalmazzák a beszédhangok megjelenítésére, ezért a beszédészlelés kapcsán még visszatérünk rá ábra. Egy zenei részlet spektrogramja A spektrogram azért is fontos, mert tulajdonképpen azt modellezi, ahogyan az alaphártya leképezi a hangokat. A spektrogram létrehozására egy olyan eljárást alkalmaznak, amelyben egy átfedő sávszűrőket tartalmazó készlet képezi le az egyes frekvenciatartományokat, csakúgy, mint ahogy azt az alaphártyáról feltételezzük (lásd 283. sk.). Az y tengely, ahol a frekvenciát ábrázoljuk, megfeleltethető a függőleges irányba fordított alaphártyának, a sötét és világos foltok pedig annak, hogy aktív-e az alaphártya adott területe vagy sem. Az időt ábrázoló x tengely úgy képzelhető el, mintha az alaphártya aktivitását minden időpillanatban egymás mellé helyeznénk. 216

231 10. FEJEZET A hallási objektumok észlelése hol és mi A ábrán bemutatott spektrogram tartalmaz minden olyan információt, amely a hallórendszer számára rendelkezésre áll: a hang frekvenciatartományait, az egyes tartományok hangerejét és mindennek időben történő változását. Azt is feltételezhetjük, hogy a hallórendszer magasabb szintjei az információt ehhez nagyon hasonló formában kapják meg. Mindez azt jelenti, hogy egy ilyen inputot kell a hallórendszernek elemeznie oly módon, hogy kinyerje belőle a hangok jellemzőit, és külön-külön objektumokba csoportosítsa az egyszerre hallható akusztikus információt. Jelen esetben a spektrogram által megragadott külvilági esemény egy dal rövid részlete, amelyben egyszerre szól egy dob, egy basszusgitár, egy zongora és egy énekhang. A spektrogramot nézve azonban az egyes hangszerek hangjának szétválasztása lehetetlen feladatnak tűnik. Mégis, hallórendszerünk képes arra, hogy kizárólag a spektrogramban található információk alapján szétválassza ezt a négy hangszert, majd pedig kövesse az általuk lejátszott dallamot is. Ez az egyszerű példa jól szemlélteti, hogy hogyan működik a hallási észlelés. Az akusztikus világ különálló hangforrásokat tartalmaz, amelyek különböző fizikai jellemzőkkel rendelkező hangokat bocsátanak ki. Az észlelés során az a feladatunk, hogy a külvilág pontos leképezését alakítsuk ki, vagyis a hangforrások mentális reprezentációjának hűen kell tükröznie azok különállóságát. Ha négy hangszer szólt egyszerre, akkor négy hangszer mentális reprezentációját kell kialakítanunk. A probléma az, hogy az egy időben hallatszódó hangok egyszerre érkeznek a fülbe, és egyszerre történik meg az idegi impulzusokká való átalakításuk is. Ez azt jelenti, hogy a külvilágban elkülönülő források a transzdukció során összekeverednek, és nem őrzik meg elkülönültségüket. Az észlelés magasabb rendű folyamatainak ezért az a feladatuk, hogy mintegy rendet tegyenek : eldöntsék, hogy melyik akusztikai információ (frekvencia, intenzitás, lokalizáció) melyik hangforráshoz tartozik, vagyis szétválasszák azokat. Ezt a szétválasztási műveletet nevezzük Bregman (1990) nyomán hallási színtérelemzésnek. A színtérelemzés problémájával egyébként nemcsak a hallásnál találkozhatunk, hanem a látásnál is. A vizuális információ esetében persze lényegesen egyszerűbb a feladat, mert a külvilág leképezése során megmaradnak a tárgyak közötti téri viszonyok. Ennek ellenére az a tény, hogy a háromdimenziós világ a retinán két dimenzióban képeződik le, jelentősen megnehezíti az észlelés arra irányuló feladatát, hogy a külvilág pontos mását hozza létre. Nézzük meg a ábrát, amely egyszerű építőkockák rajza ábra. A vizuális színtérelemzés illusztrációja Első ránézésre világos számunkra, hogy az ábrán A-val és 5-vel jelölt részek egyetlen tárgyhoz tartoznak, amelyet azonban eltakar egy másik elem. Annak ellenére így gondoljuk ezt, hogy az A és B elem között nincs folytonosság, és elvileg nyugodtan tekinthetnénk őket két különálló síkbeli négyszögnek, ahelyett hogy egyetlen térbeli, mélységgel rendelkező téglatestnek látjuk. A retinális információ mindkét interpretációt lehetővé teszi, annak ellenére, hogy a valóságban csak a második helyes. Feltételezhetjük, hogy a látás esetében működnek olyan feldolgozási folyamatok, amelyek a kétértelmű érzékszervi információból a helyes mentális reprezentációt alakítják ki. Amire ezzel a példával rá szeretnénk mutatni, az az, hogy a külvilág megfelelő leképezése érdekében a látás esetében is az első lépés annak megállapítása, hogy mely jellemzők tartoznak össze, és melyek nem. Ez olyan, mintha az összetartozó részeket egyszerűen azonos színűre festenénk, és azt mondanánk, hogy azok az elemek tartoznak össze, amelyek azonos színűek. Feltételezhetjük, hogy a hallás esetében is valami ilyesmit kell csinálnunk: az összetartozó, egy forrásból származó részeket (mondjuk a koncert hallgatásakor a gitár hangját) csoportosítanunk kell, és el kell választanunk a többi, ezzel egy időben hallható hangtól. A csoportosítás és elválasztás folyamata emlékeztethet bennünket a látás kapcsán tanult figura-háttér elkülönítésre. Tudjuk, hogy a figura a vizuális információ azon része, amelyre a figyelmünk irányul, és háttérként szolgál az összes többi olyan jellemző, ami nem része a figurának. Tudjuk azt is, hogy a figura-háttér elkülönítést az úgynevezett Gestalt-elvek vezérlik: például a közelség, zártság, hasonlóság és jó folytatás. Abból 217

232 10. FEJEZET A hallási objektumok észlelése hol és mi a tényből kiindulva, hogy a hallási észlelés esetében ugyanaz a feladatunk, mint a látásnál, nevezetesen, hogy elkülönült tárgyak reprezentációját hozzuk létre, feltételezhetjük, hogy hasonló csoportosítási elvek segítik a reprezentáció létrejöttét. Arról, hogy a Gestalt-elvek hogyan működnek a hallásnál, a fejezet későbbi részében még részletesen fogunk beszélni. A továbbiakban azt tekintjük át, hogy milyen jellemzőkkel rendelkeznek a csoportosítási folyamat eredményeként létrejövő hallási tárgyak vagy más néven a hallási láncok A hallási láncok A hallási tárgyak helyett a továbbiakban a hallási lánc kifejezést fogjuk használni a hallási észlelés alapegységének megjelölésére. A tárgy szó ugyanis nagyon erősen kötődik a vizuális észleléshez, és ezért félrevezető lehet a hallás tanulmányozásakor. Milyen különbségek fedezhetők fel a vizuális tárgyak és a hallási láncok között? A látás esetében a tárgyak a külvilág azon objektumai, amelyekről a visszavert fény eljut a szemünkbe, és olyan tulajdonságokkal rendelkeznek, mint alak, méret, szín stb. Ezzel szemben a hallás során csak olyan dolgokról szerezhetünk tudomást, amelyekkel valami történik, és emiatt hangot bocsátanak ki. A szél átfúj a fák levelein, és megzörgeti őket, egy harkály kopogtat a fa törzsén, egy mentő szirénázik a távolban. Ezek mind egyedi, különálló és aktív történések (a hallás passzív visszaverődéseket is képes feldolgozni ennek segítségével tájékozódik például a denevér; ezeket azonban nagyon ritkán használjuk, így nem foglalkozunk külön velük). A hallási lánc kifejezés ezekre a történésekre, más néven hallási eseményekre vonatkozik. A tárggyal szemben a lánc szó jobban megragadja a hallási események azon tulajdonságát, hogy ezek legtöbb esetben időben elnyúló, idői kiterjedéssel rendelkező történések. Felmerülhet a kérdés, hogy miért nem hívjuk a hallási láncokat egyszerűen hangoknak. Ennek két oka is van. Egyrészt egy esemény (pl. egy dallam) több hangot is magában foglalhat, és emiatt érdemes elkülönítenünk az esemény alkotórészeit (a hangokat) magától az eseménytől (a hallási lánctól). Ráadásul egy hallási lánc egyéb események hierarchikus szerveződését is tartalmazhatja: láncnak hívhatjuk az egyik hangszer által játszott dallamot, de az összes, egyszerre szóló hangszer is lehet egy lánc, ha például az egyéb környezeti zajoktól különítjük el. A másik oka a lánc kifejezés használatának, hogy a hang egyszerre fejezi ki a fizikai történést és ennek mentális reprezentációját. Ezért a továbbiakban a hallási láncot fogjuk használni a mentális reprezentációkra, míg a fizikai történésre a hangot vagy hallási eseményt. A hallási láncok tehát a hallási észlelés alapegységéül szolgálnak, és így a tárgyak hallásbeli megfelelői. Azokhoz hasonlóan bizonyos összetartozó tulajdonságok csoportját reprezentálják. Vagyis mindaz a jellemző, amit a hallórendszer feldolgoz (hangerő, hangmagasság, hangszín, lokalizáció), végül a hallási láncokhoz rendelődik hozzá. Vagyis, ahogy már említettük, a hangmagasság vagy hangosság nem állhat önmagában, hanem mindig valamilyen dologhoz kapcsolódik. Ahogyan a vizuális világban a szín csak egy adott tárgy tulajdonságaként jelenik meg, és nem önmagában (kivételt a prizmával összetevőire bontott fény színei jelenthetnek), úgy a hangmagasság is csak egy hallási lánc jellemzőjeként szerepelhet, és nem önmagában. A probléma ott kezdődik, ha egyidejűleg több hang is szól. Ekkor elvileg sok különböző lánc jön létre, amelyek mindegyike megfelel a külvilágban egy-egy hangforrásnak. A problémát az okozza, hogy a sok hangforrás akusztikai jellemzői összekeverednek, mivel ezek egyszerre érik el a fület, és egyszerre kerülnek feldolgozásra. Ahogy azt fentebb láttuk, a hallási színtérelemzésnek pontosan az lesz a feladata, hogy a hallási láncokhoz hozzárendelje a nekik megfelelő akusztikai tulajdonságokat. A hallási láncok alkotják tehát észlelésünk középpontját, amelyekhez a perceptuális jellemzőket hozzákapcsoljuk. Az objektumok elkülönítése azonban csak egy köztes lépés a külvilág reprezentációjában és megértésében: az elkülönítéssel annyit teszünk, hogy kijelöljük, mely fizikai jellemzők mely dolgokhoz kapcsolódnak. Azt is mondhatjuk, hogy a hallási színtérelemzés egy szükséges, de nem elégséges lépés a hallási láncok létrejöttében, mivel ezt még nagyon sok feldolgozási lépcső követi addig, amíg felismerjük és kategorizáljuk a körülöttünk lévő világ dolgait. Ha ez nem történik meg, akkor nem zongora- meg énekhangot hallunk, hanem különböző hangosságú és hangmagasságú hangok kavalkádját, amelyek mindenféle jelentés és értelem nélkül kavarognak körülöttünk. Sajnos azonban nagyon keveset tudunk még azokról a folyamatokról, amelyek végül értelemmel és jelentéssel ruházzák fel a hallott világot. Emiatt az alábbiakban elsősorban a hallási láncokat létrehozó csoportosítási folyamatokkal foglalkozunk. A továbbiakban arról lesz szó, hogy hogyan valósítja meg a hallórendszer az egyidejűleg beérkező hallási információ láncokra bontását. Mielőtt erre rátérnénk, tisztáznunk kell, hogy milyen módon szerveződhet a hallási információ. Kétféle szerveződés képzelhető el ugyanis: a szekvenciális vagy horizontális szerveződés és 218

233 10. FEJEZET A hallási objektumok észlelése hol és mi a spektrális vagy vertikális szerveződés. Ezt a két szerveződést legjobban egy kotta illusztrálja: a kottában egymást követő hangok, amelyek a zene dallamát adják meg, szekvenciálisan, vagyis sorozatosan, egymás után szerveződnek. Az egymás feletti hangok, amelyek egyszerre szólalnak meg, és egy harmóniát vagy több hangszert jelölnek, vertikálisan vagy spektrálisan szerveződnek. Ha visszatérünk a fejezet elején említett koncertpéldánkra, akkor azt mondhatjuk, hogy az egyszerre megszólaló hangszerek közül egynek a kiválasztása a spektrális szerveződést példázza, az egy hangszeren játszott dallam követése pedig a szekvenciális szerveződésre példa táblázat - ALBERT BREGMAN Albert Bregman 1936-ban született Torontóban, Kanadában. Itt járt egyetemre és szerzett diplomát pszichológiából 1959-ben. PhD-fokozatát a Yale-en szerezte kísérleti pszichológiából ban. Ezt követően a Harvar- don tanított és kutatott, majd 1965-ben visszatért Kanadába, Montrealba, a McGill Egyetemre, ahol jelenleg is mint professzor emeritus dolgozik. Bregman kutatásaiban elsősorban a hallási színtér elemzésének problémájával foglalkozik, amelyet több mint ötven tudományos publikációban tárgyal. Az 1990-ben megjelent Auditory Scene Analysis című könyve foglalja össze addigi kutatásainak eredményét, és a könyv azóta is a hallási színtérelemzés alapművének számít. Lényegében Bregman kutatásai hívták fel elsőként a figyelmet arra, hogy a hallási észlelés tanulmányozása nem a hangosság- és hangmagasság-észlelés megértésével ér véget, hanem valójában ott kezdődik A hallási láncok szekvenciális szerveződése Az idő és a frekvencia szerepe a hallási láncok kialakulásában Azt a folyamatot, amelynek során az észlelőrendszer az egyes láncokat egymástól elválasztja, hallási láncra bontásnak nevezzük (Bregman 1990). A láncra bontás jelenségét laboratóriumi körülmények között az alábbi, azóta klasszikussá vált kísérlettel vizsgálták (Bregman-Campbell 1971). A kísérleti személyeknek egy tiszta hangokból álló hangsort játszottak le, amely 3 mély és 3 magas hangot tartalmazott. A hangokat úgy mutatták be, hogy váltogatták a mély és magas hangokat, például sorrendben (az 1, 2, 3 a mély, a 4, 5, 6 a magas hangokat jelöli). A hangok közötti idői távolságot változtatták, és azt az eredményt kapták, hogy ennek függvényében megváltozott a hangsor észlelése. Ha a hangokat nagy idői távolsággal, vagyis lassan játszották le, akkor a személyek az eredeti sorrendben hallották a hangokat, vagyis a mély és magas hangok váltakozását észlelték. Ha azonban egyre kisebbre állították az idői távolságot, vagyis egyre gyorsabban játszották le a hangokat, akkor ez az észlelet megváltozott: már nem váltakozó mély és magas hangokat hallottak a személyek, hanem egy csak mély hangokat tartalmazó dallamot és egy ezzel párhuzamosan hallható, csak magas hangokat tartalmazó dallamot. Vagyis az eredeti sorrend helyett az és észleléséről számoltak be ( ábra). A két párhuzamosan hallható hallási lánc kialakulása valójában illúzió: két láncot hallunk, holott csak egy hangforrás szólt. Ezt a jelenséget ezért illuzórikus láncra bontásnak nevezzük, elkülönítve ezzel a láncra bontásnak attól az általános jelenségétől, amellyel a hallási tárgyakat elkülönítjük. 219

234 10. FEJEZET A hallási objektumok észlelése hol és mi ábra. Az illuzórikus láncra bontás jelensége. A pontok az egyes hangokat jelölik, a folytonos vonal illusztrálja a hangsor eredeti észleletét, a szaggatott vonal pedig a láncra bontás révén létrejövő, két párhuzamosan hallható hangsor észleletét Az illuzórikus láncra bontásnál tehát úgy tűnik, hogy a hallórendszer a tempótól függően az eltérő jellemzők alapján csoportosítja a hangokat: eredetileg a csoportosítás a hangok időbeli elrendeződése mentén történt meg, de később a nagyon gyors tempónál a hangok a hangmagasságuk szerint csoportosultak. Hogyan szemlélteti ez a kísérlet a hallási láncok kialakulását? Azt mondhatjuk, hogy a mély és a magas hangok eredetileg egyetlen hallási lánchoz tartoztak, egyetlen eseményként fogták fel őket a kísérleti személyek. A gyorsítás hatására azonban a hangok két különálló láncra bomlottak fel: az egyik láncba a mély, a másikba pedig a magas hangok kerültek. Vagyis ugyanazt a fizikai ingert a bemutatás jellegzetességétől függően hol így, hol úgy értelmezték a kísérlet résztvevői, azaz a kétféle ingeridőzítés két eltérő észleletet eredményezett. Az illuzórikus láncra bomlásnál a láncok kialakulását két tényező befolyásolta: egyrészt a hangok frekvenciája, másrészt pedig a közöttük lévő idői távolság. A hasonló elrendezést használó további vizsgálatokban kimutatták, hogy ez a két tényező egyszerre határozza meg, hogy az egymást követő hangok egy láncba tartoznak-e (egybeolvadás), vagy szétválnak két külön láncra (szétválás). A szétváláshoz ugyanis nem elég, ha megfelelő gyorsasággal játsszuk le a hangokat, az is szükséges, hogy közöttük elég nagy frekvenciabeli eltérés legyen. Egyfajta kompromisszum valósul meg a frekvencia és idő között: minél nagyobb a frekvenciabeli távolság, annál kevésbé kell gyorsan lejátszani a hangokat a szétváláshoz, és minél kisebb a frekvenciabeli távolság, annál gyorsabban kell lejátszani őket. A láncra bomlás ebben a nagyon egyszerű szituációban valójában még ennél is bonyolultabb. Bizonyos határok között ugyanis a hallgató dönthet arról, hogy egyetlen láncot vagy több láncot akar-e hallani: ugyanaz a hangsor ugyanolyan jellemzők mentén észlelhető így is, úgy is. Ez voltaképpen hasonlít a kétértelmű ábrákra: bár az ingerfeltételek ugyanazok, hol fiatal hölgyet, hol idős nénit láthatunk, és az észlelet tudatosan változtatható. Ez arra utal, hogy a láncra bontás esetén is magas szintű észlelési folyamatok működnek. Vannak ugyanakkor bizonyos határok, amelyek korlátozzák ezt a választási lehetőséget. Azt a határt, ami felett a hangokat már nem lehet egy hallási áramlatba szerveződőnek hallani, idői koherenciahatárnak (IKH), azt a határt pedig, ami alatt nem lehet az egymást követő hangokat külön áramlatban hallani, hasadási határnak (HH) nevezzük. Ezt a két határt szemlélteti a ábra. Látható, hogy a két határt az idő és a frekvencia együttesen határozza meg, vagyis a kettő komplex interakciója befolyásolja a hallási láncok létrejöttét. 220

235 10. FEJEZET A hallási objektumok észlelése hol és mi ábra. Az idõi koherenciahatár (IKH) és a hasadási határ (HH) A két határt a következőképpen kell értelmeznünk: az idői koherenciahatár azt a határt jelzi, ahonnan kezdve a hallórendszer mindenképpen a hangsor két láncra bontására kényszerül, vagyis, akármennyire is szeretnénk, nem vagyunk képesek egy láncba tartozónak hallani a hangokat. Ahogyan a ábrán látható, az idői koherenciahatár úgy alakul, hogy kb. 100 milliszekundumos hangok közötti idői távolság felett meredeken nő a frekvencia értéke. Ez azt jelenti, hogy nagy idői távolság esetén nagy frekvenciakülönbség szükséges ahhoz, hogy a hangsort két láncra bontva halljuk. A hasadási határ viszont azt a korlátot jelzi, ami alatt már nem tudjuk a hangsort két láncra bomlónak hallani, vagyis a hangok mindenképpen egy láncba tartozónak hallatszanak. Szintén a ábrán látható, hogy ez a határ kevésbé változik meg: a hangok közötti idői távolságtól többé-kevésbé függetlenül, nagyjából hasonló frekvenciaeltérés esetén van az a határ, ami a hangsort mindenképpen egy láncban tartja. A továbbiakban arra keressük a választ, hogy miért jön létre egyáltalán két láncra bomlás ebben a kísérletben? Azt mondtuk, hogy a fenti kísérletben a két párhuzamosan hallható hallási lánc kialakulása valójában egy illúzió. Ugyanakkor tudjuk, hogy az illúziók mindig valamilyen észlelési mechanizmus működéséből származnak, pontosabban abból, hogy a mechanizmus az adott körülmények között nem működik megfelelően. Az tehát a kérdés, hogy az illuzórikus láncra bomlás esetében milyen mechanizmusok működhetnek. Kétféle magyarázat is létezhet, élettani és pszichológiai. Az egyik élettani magyarázat szerint a hallórendszer periferiális mechanizmusai felelősek a láncra bomlásért. Eszerint a szétválás csak akkor jöhet létre, ha a hangok között elég nagy frekvenciabeli eltérés van ahhoz, hogy eltérő kritikus sávokkal rendelkező szőrsejteket hozzanak aktivációba az alaphártyán. Ha két hang egymáshoz közeli frekvenciával rendelkezik, akkor feltételezhetően ugyanazt a szőrsejtet aktiválja, ez pedig nem teszi lehetővé a két külön lánc létrejöttét. Ez az elmélet tehát a hasadási határ létrejöttét magyarázza jól. Egy másik élettani magyarázat azon alapul, hogy léteznek az agyban olyan idegsejtek, amelyek nem bizonyos frekvenciákra, hanem ezek megváltozására érzékenyek. Az elmélet szerint a láncra bomlás azért következik be, mert ezek a változásdetektorok nem képesek követni a gyors és nagymértékű frekvenciaváltozásokat, és így a kisebb, egy láncon belüli változásokkal tudnak csak foglalkozni. Ez az elképzelés az idői koherenciahatárra ad inkább magyarázatot. Mindkét élettani elméletre jellemző, hogy az illuzórikus láncra bomlást az észlelőrendszer egyfajta hibás működésének tartja: azért jön létre, mert a hallórendszer nem rendelkezik elég nagy frekvenciaérzékenységgel, vagy nem képes elég gyorsan követni a változásokat. A Bregman nevéhez fűződő pszichológiai elmélet ezzel szemben az illuzórikus láncra bomlást az észlelőrendszer sikeres működésének tartja. Az elmélet szerint a hallórendszer ebben a helyzetben is egy hallási színtérelemzést végez el, vagyis megpróbál következtetni arra, hogy a hangok milyen forrásból származnak. Ehhez a perceptuális szerveződés Gestalt-elveit használja, például a hasonlóság vagy közelség elvét, amelyek szerint az egymáshoz hasonló vagy közel lévő hangok feltételezhetően egy forráshoz tartoznak. Ezek az elvek ugyanakkor egy olyan általánosabb elv részeinek tekinthetők, amely azt írja le, hogy milyen jellemzőkkel rendelkeznek a hallási láncok általában. Például a hallási láncokra jellemző, hogy folyamatosak, és bizonyos állandósággal rendelkeznek, vagyis nem változnak meg egyik pillanatról a másikra. Így, amíg a fenti kísérletben a hangok lassan követik egymást, addig a közelség elve érvényesül, vagyis az egymás melletti hangokat egy láncba csoportosítjuk, annak ellenére, hogy viszonylag nagy frekvenciabeli változások vannak a láncon belül. 221

236 10. FEJEZET A hallási objektumok észlelése hol és mi Ez a változás ugyanis még belefér az általános elvbe, hiszen lassan történik. Gyorsabb tempó esetén azonban az idői közelséggel szemben egyre inkább a frekvenciabeli hasonlóság válik dominánssá, ugyanis egyre kevésbé lesz valószínű az, hogy az egymás melletti hangok egyetlen forrásból származnak, mivel túl nagy és túl gyors változásokat tartalmaznak. Vagyis azt mondhatjuk, hogy a hangok csoportosítása a Gestalt-elvek alapján történik ugyan, de ezeket a hallási színtérelemzés általános elveinek megfelelően használjuk fel. A láncra bomlás egyik magyarázata tehát az észlelés hibájának, a másik viszont az észlelés sikerének tartja azt. Van-e mód arra, hogy ezt a két eltérő magyarázatot összeegyeztessük? Bregman szerint igen. A két magyarázat ugyanis eltérő szintet képvisel, az egyik élettani, a másik pedig pszichológiai. Ezért elképzelhető, hogy a láncra bomlás élettani szinten hibának minősül ugyan, de pszichológiai szinten sikernek számít, hiszen az észlelést szolgálja mindkettő lehet igaz, csak éppen eltérő nézőpontból. Bregman szerint ez olyan, mint a mamutcsapda: fizikai szempontból az a tény, hogy a csapda teteje beszakad a mamut alatt, hibának számít, de ez a hiba egy másik szinten sikerhez vezet, nevezetesen az állat elejtéséhez és a vadászok jóllakásához. Összefoglalva, az illuzórikus láncra bomlás jelensége jól modellezi az általános hallási láncok kialakulásának folyamatát, és segítségével ellenőrizhetők az ezekkel kapcsolatos elméleti feltételezések Figura-háttér hatás a láncra bomlásban Ha létrejönnek a hallási láncok, akkor az az érdekes dolog történik, hogy a két lánc közül csak az egyikre tudunk figyelni, a másik mintegy a háttérben marad. Ez szintén ismerős jelenség: a látás esetében a figura-háttér hatásnál találkoztunk már azzal, hogy egyszerre csak egy tárgyra figyelünk, és minden más a háttérben marad. A láncra bomlásnál is megvalósítható az, hogy hol az egyik, hol a másik láncra figyeljünk. A nem figyelt lánc kevésbé jól hallható, és kevésbé vesszük észre, ha valamilyen változás történik benne. Ez azt mutatja, hogy a hallási láncok a vizuális tárgyakhoz nagyon hasonlóan viselkednek, nemcsak hogy elkülönülnek egymástól, de valamelyik rögtön megragadja a figyelmünket (vagy tudatosan ráirányítjuk), és ekkor a másik kevésbé pontosan észlelhető. Annak bizonyítására, hogy valóban csak egyetlen láncra figyelünk egyszerre, Bregman és Rudnicky (1975) az alábbi kísérletet végezte el. A kísérleti személyek feladata az volt, hogy két eltérő hangmagasságú hang, A és B sorrendjét megállapítsák. A hangok különböző sorrendben követhették egymást. Ez a feladat önmagában nagyon könnyű, még viszonylag nagy tempó esetén is. Ha azonban ezeket a hangokat két másik elterelő hanggal (ezeket jelöljük E-vel) mutatták be, E-A-B-E vagy E-B-A-E sorrendben, akkor az A-B hangpár sorrendjének megállapítása nagyon nehézzé vált ( ábra). A hangpár ugyanis elveszítette egyediségét, és egy nagyobb mintázat részévé vált, ekkor azonban már gyors bemutatás mellett nagyon nehéz volt a sorrendjük megállapítása ábra. A Bregman Rudnicky-kísérlet (1975) ingeranyagának illusztrációja Vegyük észre, hogy ebben az esetben az E-A-B-E hangsor egyetlen láncot alkot, ugyanis nincs olyan jelzés, ami arra utalna, hogy két különálló hangforrásból származnának. Feltételezhetjük ugyanakkor, hogy ha sikerülne valami olyan bizonyítékot szolgáltatni az észlelőrendszer számára, ami alapján szétválasztaná az E hangokat és az A-B hangpárt, akkor mivel az A-B újból egyedül alkotna egy hallási láncot ismét könnyű lenne a sorrendjüket meghatározni. A kutatók valóban ezt az eredményt kapták. További hangok, úgynevezett foglyulejtők (F) hozzáadásával a ábrán látható hangsort hoztak létre, és most már ebben az F-F-F-E-A- B-E-F-F sorozatban kellett az A-B sorrendjét megállapítani. Ahogy az ábrán látható, az F hangok hangmagassága közelebb volt az E, mint az A-B hangok magasságához. Emiatt a F hangokból létrejövő lánc 222

237 10. FEJEZET A hallási objektumok észlelése hol és mi azonos láncba csoportosította az E hangokat, vagyis valóban mintegy foglyul ejtette azokat. Az A-B pár viszont frekvenciabeli eltérése miatt egy ezektől eltérő láncot alkotott. Vagyis két lánc: egy F-F-F-E-E-F-F és egy ezzel párhuzamosan hallható A-B jött létre. A hipotézisnek megfelelően ennek a csoportosításnak valóban az lett az eredménye, hogy az A-B sorrend megállapítása pontosabbá vált, mivel most már csak ez a két hang alkotta a figyelt hallási láncot. A kísérlet eredménye tehát úgy értelmezhető, hogy egyszerre csak egy lánc az, amelyre figyelünk, és csak a figyelt lánc tulajdonságait dolgozzuk fel. A kísérletben bizonyítást nyert az is, hogy a láncok ugyanúgy viselkednek a hallási környezettől vagyis a háttértől elválasztva, mint amikor önmagukban szerepelnek, mindenféle zavaró ingerek nélkül. Vagyis úgy tűnik, hogy az észlelőrendszer jó munkát végez a láncokra bontási folyamatban, hiszen ennek eredményeképpen egy hasonló jellemzőkkel rendelkező lánchoz jutunk, mint amikor a lánc önmagában állt, és nem kellett elválasztanunk azt a többi akusztikai eseménytől. Az eddigiekben a hallási láncok szekvenciális szerveződésében két akusztikus jellemző szerepét hangsúlyoztuk: a hangok közötti idői távolságot és a frekvenciájuk különbségét. De mi a helyzet a többi jellemzővel? Menynyire fontosak ezek, és fel lehet-e őket használni a hangforrások azonosításában és így a hallási láncok létrehozásában? 2.4. Egyéb tényezők szerepe a hallási láncok kialakulásában A hallási láncok szekvenciális szerveződésének célja, hogy az egy hangforráshoz tartozó hangsorokat csoportosítsa. Láttuk, hogy a csoportosítást a hasonlóság és közelség szerveződési elvei alapján végezzük el, és elsősorban a hangok közötti idői és frekvenciabeli távolságot vesszük figyelembe. Ugyanakkor azt, hogy több hang egy hangforráshoz tartozik-e, egyéb jellemzők is alátámaszthatják. Így például feltételezhető, hogy az azonos téri irányú, hangosságú vagy hangszínű hangok ugyanabból a forrásból származnak, vagyis egyetlen akusztikus esemény részei. Nézzük meg, hogy ezek a jellemzők hogyan befolyásolják a láncra bomlást. a. Lokalizáció. Ha hangforrások szétválasztásáról beszélünk, akkor azt gondolhatnánk, hogy ennek leghatékonyabb módja, hogy a hangokat a téri irányuk, vagyis a lokalizációjuk alapján választjuk el egymástól. Azok a hangok tartoznának egy láncba, amelyek azonos helyről származnak. Valóban vannak bizonyítékok arra, hogy a hallási láncra bontásban felhasználjuk a téri információt, de úgy tűnik, hogy nem ez a legerősebb kulcs. Ez azt jelenti, hogy ha a téri lokalizáció valami miatt konfliktusba kerül egy másik típusú információval (például a hangok frekvenciájával), akkor nem a lokalizáció alapján fogjuk a hangokat csoportosítani. Ezt igazolta Diana Deutsch skálaillúziója (Deutsch 1975). A kísérlet során két zenei skálát, egy emelkedőt és egy ereszkedőt játszottak le a kísérleti személyeknek. A skálák hangjait fülhallgatón keresztül játszották le úgy, hogy a két fülbe eltérő, de egyszerre megszólaló hangok érkeztek ( ábra) ábra. A skálaillúziót létrehozó ingerminta. Az a) részben fülenként, a b) részben pedig a skálába tartozás szerint vannak feltüntetve a hangok. A c) rész mutatja, hogy a kísérleti személyek hogyan észlelték valójában a hangokat. Kék hangjegyek: bal fülbe érkező hangok; piros hangjegyek: jobb fülbe érkező hangok 223

238 10. FEJEZET A hallási objektumok észlelése hol és mi Ahogyan az ábra a) részén látható, az emelkedő és ereszkedő skálákat úgy mutatták be, hogy a skála hangjai váltakoztak a két fül között. Amikor a jobb fülben az emelkedő skála egyik hangja szólt, akkor eközben a bal fülben az ereszkedő skála egyik hangja, majd pedig váltottak, és a jobb fülbe érkező következő hang már az ereszkedő skálához tartozott. (Szánjunk egy kis időt ennek az ingermintának a megértésére; a ntt.co.jp/illusionforum/basics/auditory/onkai-e.html oldalon meg is hallgathatjuk.) A két szimultán hangzó és a két fül között váltakozó hangsort kétféleképpen lehet csoportosítani: aszerint, hogy melyik fülbe érkeztek, és aszerint, hogy melyik skálába tartoztak. Az ábra a) része mutatja a fülek szerinti csoportosítást, a b) rész pedig a skálába tartozás szerinti csoportosítást. Kérdés, hogy a valóságban hogyan csoportosítjuk a hangsorokat. A kísérleti személyek valójában mindkettőtől eltérően észlelték a hangokat, és a legtöbben az ábra c) részén látható észleletről számoltak be. Vagyis két, egyszerre hallatszódó skálát észleltek; az egyik fülben egy ereszkedőt, a másikban pedig egy emelkedőt, de mindezt úgy, hogy amikor a két hangsor találkozott (lásd a vonást az ábrán), akkor azok nem keresztezték egymást, hanem mindkettő mintegy visszafordult. Mindez azt jelenti, hogy a személyek frekvencia szerint, és nem téri helyzet szerint csoportosították a hangokat. Ez annál is meglepőbb, mert az egyes hangok nagyon erős téri minőséggel rendelkeztek: mindegyik egy adott fülhallgatóból érkezett, és ez teljesen egyértelműen meghatározta, hogy jobbról vagy balról származik-e a hang. Ennek ellenére a hallási láncok kialakulásában a frekvenciabeli hasonlóság és jó folytatás képes volt elnyomni a téri helyzetből fakadó hasonlóságot. a. Hangosság. A lokalizációhoz hasonlóan a hangosságot is ki tudjuk használni annak érdekében, hogy csoportosítsuk a feltételezhetően egy hangforrásból származó hangokat. Egyes vizsgálatok szerint 3-4 db-es különbség elég ahhoz, hogy a hangokat külön hallási láncra bontsuk. Ugyanakkor a hangossággal kapcsolatban is azt kell elmondanunk, mint a lokalizációnál: ez a frekvenciánál gyengébb észlelési kulcs, vagyis ha esetleg a hangosság és a frekvencia ellentmond egymásnak, akkor a frekvencia alapján történő csoportosítás kerül ki győztesen. Feltételezhető, hogy a hallási láncok kialakulásában a hangosság nem annyira az egy objektumhoz való tartozásra utal, hanem inkább a hangok kezdetét és végét jelzi. Az előző fejezetben a hangszín tárgyalásakor láthattuk, hogy az egyes tárgyak hangjai közötti különbségért nemcsak a spektrális tartalom felelős, hanem a hangok burkológörbéje is, ami pontosan a hangerő váltakozását jelenti. A komplex hallási tárgyaknak tehát alapvető, azaz inherens tulajdonsága, hogy bizonyos mértékű hangerőváltozást mutatnak, így ezt a jellemzőt nem a legszerencsésebb a tárgyak elkülönítésére felhasználni. Azt mondhatjuk, hogy ha jelen van hangosságbeli eltérés is a hangok között, akkor ez erősítheti a láncra bomlást, önmagában azonban nem túl erős csoportosító jellemző. b. Hangszín. A lokalizációtól és a hangosságtól eltérően a hangszín nagyon is fontos jellemző a szekvenciális csoportosításban. Ahogy a 9. fejezetben láttuk, a hangok felismerését a hangszín teszi lehetővé, ez az a jellemző, ami elkülöníti egymástól az azonos hangmagasságon és hangosságon megszólaló hangszerek hangját. Feltételezhető tehát, hogy lényeges a szerepe a hangok csoportosításában. Warren és munkatársai (1969) kísérlete arra mutatott rá, hogy a különböző hangszínnel rendelkező hangok sorrendjét nagyon nehéz megállapítani. Említettük már, hogy a hangok sorrendjét akkor tudjuk pontosan megállapítani, ha egy láncba tartoznak. Ezért, ha külön láncba csoportosítjuk őket, akkor nehezebb lesz a sorrend megállapítása, mivel a láncok közötti sorrendet sokkal nehezebb megállapítani, mint a láncon belülit. Warrenék négy különböző hangot használtak: egy sziszegő, egy berregő, egy tiszta és egy beszédhangot. Mindegyik hang 200 milliszekundum hosszú volt, és szünet nélkül követték egymást újra és újra, ugyanolyan sorrendben lejátszva. A viszonylag hosszú bemutatási idő ellenére a kísérleti személyek képtelenek voltak a hangok sorrendjét megállapítani. Ez az eredmény értelmezhető úgy, hogy a nagyon különböző hangszínek miatt az észlelőrendszer minden hangot külön hallási láncba csoportosított, és ez megnehezítette a sorrendjük megállapítását. Egy másik kísérletben Van Noorden (1975, idézi Bregman 1990) arra volt kíváncsi, hogy azok a komplex hangok, amelyekből kivették az alaphangot, vajon melyik jellemzőjük alapján csoportosulnak: a hiányzó alaphang ellenére is létrejövő hangmagasság vagy a spektrális tartalom, vagyis a hangszín alapján. Azt az eredményt kapta, hogy ha a hangok magassága ugyanolyan volt, de eltérő harmonikusokat tartalmaztak (az eltérő harmonikusok természetesen vezethetnek ugyanolyan hangmagassághoz!), akkor a más hangszínű hangok egy külön hallási láncot alkottak. Ha ellenben a magasságuk különbözött, de a harmonikusok hasonlóak voltak, akkor egy láncba kerültek. Vagyis úgy tűnik, hogy a hangszín a hangmagasságnál is erősebb csoportosító tényező, mivel az azonos hangszínű hangok az eltérő hangmagasság ellenére nem váltak szét külön láncokra. A hangszínnek ugyanakkor, bár láthatóan a szekvenciális csoportosítást is vezérli, sokkal lényegesebb a szerepe a hallási láncok spektrális csoportosításában, vagyis abban, hogy az egyszerre hallható hangokat (például egy 224

239 10. FEJEZET A hallási objektumok észlelése hol és mi koncert egyetlen pillanatában egyszerre megszólaló hangszerek hangját) szétválasszuk. A következőkben ezt a spektrális szerveződést fogjuk áttekinteni A hallási láncok spektrális szerveződése A hallási láncok spektrális szerveződése esetén tehát az a kérdés, hogy hogyan bontjuk részekre az egy időben szóló hangokat. Ha újra megnézzük a zenei részlet spektrogramon történő ábrázolását ( ábra), akkor látható, hogy minden időpillanatban több frekvenciatartomány is tartalmaz hangenergiát. Tudjuk, hogy a komplex hangok alaphangból és felharmonikusokból állnak. Ha több komplex hang egyszerre szól, akkor egy adott időpillanatban nagyon sok harmonikus (és több alaphang is) található egyszerre a hangingerben, és ezek átfedésben vannak egymással. A hallási színtérelemzés feladata ebben a helyzetben az, hogy ezeket az átfedésben lévő, összekeveredett harmonikusokat szétválogassa, vagyis megállapítsa azt, hogy melyek járnak együtt, melyek származnak egy forrásból. Ez azzal a következménnyel jár, hogy ha több komplex hang is szól egyszerre, akkor ahhoz, hogy ezek hangszínélménye létrejöjjön, előbb szét kell válogatnunk, hogy mely frekvenciakomponensek mely hangokhoz tartoznak. A ábrán látható, hogy hogyan képzelhető el a harmonikusok összekeveredése. A továbbiakban áttekintünk néhány olyan elvet és szabályt, amelyet felhasználunk a hallási láncok spektrális szervezésére ábra. A különböző alaphanggal rendelkező komplex hangok felharmonikusainak átfedése Az idő és a frekvencia szerepe a spektrális szerveződésben Bregman és Pinker (1978) a következő kísérletet végezték el a spektrális tartalom csoportosításának szabályszerűségeit feltárandó. A kísérleti személyeknek három különböző frekvenciájú tiszta hangot mutattak be, a ábrán látható módon. A hangokat sokszor ismételték. Ez az ingerminta kétféle észlelethez vezethet: egyrészt hallhatunk egy tiszta hangot (A), amelyet egy két frekvenciakomponensből (B és C) álló komplex hang követ. Ebben az esetben spektrális csoportosítást alkalmaznánk, mivel az egy időben szóló B és C hangokat egy láncba csoportosítanánk. A másik észlelet ezzel szemben a szekvenciális csoportosításon alapulna: ekkor az A és B hangot észlelnénk egy láncba tartozónak, és ezzel párhuzamosan hallanánk a C hangot egy külön lánc részeként. Vegyük észre, hogy ekkor nem hallanánk komplex hangokat, hanem három különálló tiszta hangot ábra. A Bregman Pinker-kísérlet (1978) ingeranyagának illusztrációja 225

240 10. FEJEZET A hallási objektumok észlelése hol és mi A kérdés persze az, mitől függ, hogy melyik csoportosítás jön létre. Bregman és Pinker szerint ezt két tényező határozza meg: az A és B hang frekvenciabeli közelsége, illetve a B és C hang időbeli közelsége, azaz egybeesése. Ezt a két tényezőt az ábrán nyilak jelölik. A kísérlet eredménye szerint az A és B hang akkor került egy láncba, és jött létre két párhuzamos hallási lánc, ha frekvenciájuk nagyon hasonló volt. Ez ugyanaz az elv, amit az előzőekben a szekvenciális csoportosításnál láttunk: a hallórendszer azokat a hangokat véli egy forrásból eredőknek, amelyek hasonló frekvenciával rendelkeznek. Ezzel szemben a B és C hang akkor került egy láncba, és következésképpen akkor jött létre a kettő kombinációjával a komplex hang, ha a két hang kezdete és lehetőség szerint a vége is egybeesett, vagy más szóval szinkronban volt. A későbbiekben látni fogjuk, hogy a spektrá- lis szerveződésnél a harmonikusok időbeli egybeesése játssza az egyik legfontosabb szerepet. A két tényező az A-B frekvenciaközelség és a B-C egybeesés azonban egyszerre működött, és ebből következően versengett egymással. Ha az A és B közelsége kicsi volt, akkor valószínűbb volt ezek szekvenciális szerveződése, ha viszont B és C közel volt egymáshoz, vagy egybeesett, akkor ezek spektrális csoportosulása volt valószínűbb. Emlékezzünk vissza, hogy korábban a szekvenciális szerveződésnél azt láttuk, hogy a frekvenciabeli és időbeli közelség ott is verseng, és attól függően, hogy melyik kerül fölénybe, a hangok az idői sorrend vagy a frekvenciabeli hasonlóság szerint csoportosultak. Úgy tűnik tehát, hogy a versengés a különböző elvek között általános jelenség a hallási színtér elemzésében. A fenti kísérlet azonban csak egy lehetséges csoportosítási elvet ragad ki, ráadásul egy nagyon leegyszerűsített szituációban. Milyen más szabályok használhatók fel annak érdekében, hogy az átfedő frekvenciakomponenseket szétválasszuk? Egyéb elvek a spektrális szerveződésben Az egyik ilyen szabályszerűséget úgy nevezhetnénk, hogy régi plusz új szabály. Eszerint, ha az éppen hallható frekvenciakomponensek között van egy olyan csoport, amelyik valamilyen okból egy előzőleg elhangzott hang jó folytatásának tekinthető, akkor érdemes ezeket egy láncba csoportosítani. A megmaradó komponenseket pedig egy vagy több másik lánc létrehozására lehet felhasználni. Ezen szabály működését a következő kísérlettel demonstrálták (van Noorden 1975, idézi Bregman 1990). A kísérleti személyeknek két gyorsan váltakozó hangot mutattak be: egy tiszta hangot (A) és egy komplex hangot (B), amely sok frekvenciakomponensből állt, de ezek közül az egyik megegyezett A-val. Az A-B hangsor gyors és ismétlődő bemutatása során azt figyelték meg, hogy az A hang nem egyszer, hanem kétszer hangzott el. Ez az észlelet úgy jöhetett létre, hogy a B hang komponensei közül az A kivált. Ennek az lehetett az oka, hogy a régi plusz új szabály alapján az észlelőrendszer arra következtetett, hogy az A hang folytatódott a B-vel párhuzamosan. Az A hang kiválása ugyanakkor nem befolyásolta nagymértékben a B minőségét (hangszínét), mivel az sok harmonikusból állt, és egyetlen harmonikus kiválása nem okozott túl nagy változást. Egy következő fontos szabályszerűség a harmonikussági alapelv. Eszerint a hallórendszer hajlamos azokat a harmonikusokat csoportosítani, amelyek feltételezhetően egy alaphanghoz tartoznak. Tudjuk, hogy a harmonikusok frekvenciája az alaphang frekvenciájának egész számú többszöröse. Azt is láttuk, hogy a hallórendszer a komplex hangok hangmagasságának megállapításakor, és főként a hiányzó alaphang esetén történő hangmagasság-észleléskor ki is használja ezt a matematikai összefüggést. Ezt a képességünket azonban nemcsak a hangmagasság megállapítására, hanem annak meghatározására is fel tudjuk használni, hogy mely harmonikusok tartoznak egy objektumhoz. Hasonlóan fontos csoportosítási szabály a közös sors elve. A fentebb bemutatott Bregman-Pinker-kísérlet (1978) kapcsán már említettük, hogy az egy időben szóló hangok akkor csoportosulnak leginkább, ha egyszerre kezdődnek vagy végződnek. A közös sors elve kicsit általánosabban ugyanerre a dologra vonatkozik. Azt mondja ki, hogy az észlelőrendszer azokat a hangokat fogja csoportosítani, amelyek egyszerre változnak meg. A látásban a mozgás észlelése kapcsán láthattuk már ugyanennek az elvnek a működését, amely például a biológiai-nem biológiai mozgás észlelésénél különleges teljesítménnyel ruházza fel az észlelőrendszert. Kérdés, hogy vajon a hallás esetében a hangok milyen jellemzőjében történhet olyan változás, amely a közös eredetükre enged következtetni. Ha belegondolunk, hogy a hangok milyen fizikai jellemzőkkel rendelkeznek, akkor könnyen rájöhetünk, hogy a frekvencia és a hangerő időbeli változásának, vagyis modulációjának követéséről lesz itt szó (a 8. fejezetben beszéltünk már e két modulációról). Eszerint az egyszerre hallható hangok közül azokat fogjuk csoportosítani, amelyeknek frekvenciája vagy amplitúdója együtt járó, azaz korrelált módon változik meg, illetve amelyek egyszerre kezdődnek és végződnek (a hangszínnel foglalkozó részben láthattuk, hogy a hangkezdet és hangvégződés felfogható az amplitúdóváltozás speciális eseteként). A közös sors elvének működését láthatjuk Rasch (1978) kísérletében, amely a hangkezdetek egybeesésének hatását vizsgálta a hangok elkülönülésére. A kísérletben két komplex hangot használtak, amelyek hasonló spekt- 226

241 10. FEJEZET A hallási objektumok észlelése hol és mi rális szerkezettel, de eltérő alaphanggal rendelkeztek. Egy időben adva a hangokat, azok elfedték egymást, pontosan úgy, ahogy azt a zajelfedési kísérletekben láttuk. A kísérleti személyek feladata az volt, hogy a magasabb alaphanggal rendelkező hangot detektálják a másik hang hátterében. Ha a két hang pontosan egyszerre kezdődött, akkor a célhang detektálásához annak majdnem olyan hangosnak kellet lennie, mint az elfedő hangnak ( a ábra) ábra. A Rasch-kísérlet (1978) ingeranyagának illusztrációja Ha azonban a célhang előbb kezdődött, akkor azt sokkal kisebb hangerő mellett is észrevették ( b ábra). Ráadásul a célhang akkor is folyamatosan hallhatónak tűnt, ha valójában nem is volt jelen az elfedő hang mellett ( c. ábra)! Ehhez az kellett, hogy a célhang előbb kezdődjön, és hogy az elfedő hang hasonló frekvenciakomponenseket tartalmazzon, mint a célhang. Ezt a jelenséget a folytonosság illúziójának nevezzük, és a zártság Gestalt-elvével magyarázható. A folytonosság illúziójának van egy ennél is erőteljesebb demonstrációja, amelyet a ábra illusztrál. Tegyük fel, hogy az ábrán látható módon három, frekvenciájában változó hangot mutatunk be. Ezeket egyértelműen különálló, gyors hangmagasság-változást mutató hangoknak észleljük. Ha ezek után a hangokat elválasztó szüneteket széles sávú zajjal töltjük ki, a hangok észlelése megváltozik: egyetlen folytonos és hangmagasságában lassan változó hangot fogunk hallani. Ha szemügyre vesszük az ábrát, akkor valójában ez a folytonossági illúzió vizuálisan is nyilvánvaló: nem különálló vonalakat látunk, hanem egy összefüggő vonalat, amelyet néha eltakarnak a széles hasábok. Tehát ezt a hangsort hallgatva a hallási élményünk is hasonló lesz, ugyanígy fogunk hallani egy összefüggő hangot, és néha ezzel együtt rövidebb idejű zajt. A folytonosság illúziója azonban csak akkor valósul meg, ha valóban van bizonyíték arra, hogy a hang az elfedés ellenére folytatódik. Ehhez ebben az esetben egyrészt az járul hozzá, hogy a szüneteket kitöltő zaj tartalmaz olyan frekvenciakomponenst, amely a hangban is megvan, másrészt pedig, hogy a szünet utáni hang jó folytatása a szünet előttinek ábra. A folytonosság illúziója. A vonalak a hangok frekvenciájának változását illusztrálják, a hasábok pedig a szüneteket kitöltő széles sávú zajt 227

242 10. FEJEZET A hallási objektumok észlelése hol és mi A hangkezdetek közötti különbséget a zenehallgatás közben is maximálisan kihasználjuk annak érdekében, hogy az egyes hangszerek hangjait elválasszuk egymástól. Ahogy a hangszín tanulmányozásakor láttuk, a hangszerek hangjai nemcsak abban különböznek egymástól, hogy eltérő spektrális tartalommal rendelkeznek, hanem a hangkezdeti idejükben is. A húros hangszerek hangja például hirtelen, gyors hangosodással kezdődik, a fúvósoké viszont folyamatosan, hosszabb idő alatt hangosodik fel (természetesen a hosszabb idő alatt néhány tíz milliszekundumot kell érteni). Az utolsó megemlítendő tényező a spektrális szerveződésben a hangok téri iránya. Egy szimfonikus zenekar esetében a különböző hangszerek hangjai viszonylag eltérő irányból származnak. Ez nagymértékben elősegíti a hangszerek hangjának szétválasztását. Ahhoz azonban, hogy a lokalizáció alapján szét tudjuk választani a hangokat, az szükséges, hogy minden egyes spektrális komponensnek külön-külön rendelkezésre álljon a téri iránya. Ezen a feldolgozási szinten ugyanis még nincsenek teljes hangok, vagyis nem tudunk a hangokhoz téri minőséget rendelni, hiszen éppen azon dolgozunk, hogy ezek a teljes hangok létrejöjjenek. Szerencsére úgy tűnik, hogy a hallórendszer képes arra, hogy a komplex hangokat felépítő frekvenciakomponensekhez különkülön téri irányokat rendeljen, és ha ez megtörtént, akkor a komponensek téri jellemzőit felhasználhatjuk azok csoportosításában. Összefoglalásul azt mondhatjuk, hogy a hallórendszer sok különböző akusztikus jellemzőt figyelembe vesz annak érdekében, hogy az egy időben megszólaló hangokat forrásuk szerint szétválasszuk. Ahogy láthattuk, egyszerre több csoportosítási elv is működhet, és ezek versengése és együttműködése vezet oda, hogy az akusztikus világ mentális reprezentációja létrejön. Természetesen a hétköznapi életben ritkán fordul elő, hogy a különböző elvek ellentmondanak egymásnak, és így a legtöbb esetben a hallási színtér elemzése helyes megállapításokat tesz az akusztikus esemény számával, irányával és általános tulajdonságaival kapcsolatban. Ezeknek a mechanizmusoknak a tanulmányozása ugyanakkor felhívja a figyelmet arra, hogy az a teljesen automatikusan és minden erőfeszítés nélkül végbemenő tevékenység, amikor például egy koncert hallgatása közben csak a hegedű melódiájára figyelünk, valójában milyen rendkívül bonyolult feldolgozási folyamatokon alapul. A hallási objektumok szerveződésének szabályszerűségei azt szolgálják, hogy az egymás után következő, de egy forrásból származó hangok (szekvenciális szerveződés), valamint az egyszerre megszólaló hangok (spekt- rális szerveződés) csoportosuljanak és elkülönüljenek egymástól. A csoportosítást a hallásban is olyan elvek vezérlik, mint amilyeneket már a Gestalt-pszichológusok is leírtak a vizuális információ szerveződésével kapcsolatban. A hallási színtér elemzésében az alábbi csoportosítási elvek érvényesülnek: a. Hasonlóság. A hasonlósági elv értelmében azok a hangok fognak egy csoportot alkotni, amelyek valamilyen jellemzőjükben hasonlítanak egymáshoz. Ez a jellemző lényegében az eddig említettek közül bármi lehet: hangosság, hangmagasság, hangszín, téri helyzet. Láttuk, hogy a hasonlóság alapján történő csoportosítással lehet magyarázni Bregman klasszikus, három mély és három magas hangot tartalmazó kísérletében a frekvencia alapján létrejövő két külön láncot, a magas és mély hangok váltakozó idői sorrendje ellenére. b. Jó folytatás. Ez az elv a hangforrások azon jellemzőjét használja ki, hogy azokban nem történik hirtelen, illetve nagymértékű változás. Ha a hallórendszer egy ilyen változással találkozik, akkor azt általában úgy értelmezi, hogy a változás pillanatában egy másik forráshoz tartozó hang szólalt meg. c. Közös sors. Ez az elv, mint a spektrális szerveződésnél már láttuk, arra vonatkozik, hogy az azonos forrásból származó frekvenciakomponensek általában együtt kezdődnek és végződnek, valamint amplitúdójuk és frekvenciájuk egyszerre változik. A közös sors elve elsősorban a komplex hangok spektrális komponenseinek csoportosításában használható ki, és meglehetősen erőteljes csoportosítási elv, hiszen ahogy Bregman és Pinker 1., illetve Rasch (1978) kísérlete kapcsán láttuk, képes felülkerekedni a frekvenciabeli hasonlóságon, valamint az elfedésen. a. Zártság. A zártság elve a hallás esetében akkor érvényesül, ha a hangokat időlegesen más hangok elfedik, és emiatt azokról nem áll rendelkezésre szenzoros információ. Ekkor az elfedett hang mégis folyamatosan hallhatónak tűnik. A zártság elve felelős a folytonosság illúziójáért. b. Hozzátartozóság (kizáró allokáció). Ezt az elvet azért nevezik hozzátartozóságnak, mert egy hangot, illetve komponenst egyszerre csak egy tárgyhoz, vagyis hangforráshoz lehet hozzárendelni. A kizáró allokáció viszont arra a tulajdonságra utal, hogy ha egy hangot egyszer már felhasználtunk egy adott hallási lánc csopor 228

243 10. FEJEZET A hallási objektumok észlelése hol és mi tosítására, akkor azt több lánchoz nem rendelhetjük hozzá. A kizáró allokáció valójában egy nagyon általános elv, ami a többi csoportosítási elvvel együtt hat: ha egyszer már valamely másik elv alapján létrejött a csoportosítás, akkor a kizáró allokáció valósítja meg azt, hogy az egyes hangok ne tartozzanak több lánchoz. A fejezetben részletesen bemutattuk azt is, hogy a hallás esetében az észlelőrendszernek mennyire hasonló problémákat kell megoldania, mint a látásnál. A hallás esetében is tárgyakat, objektumokat észlelünk, nem pedig egymástól független jellemzőket, és ahhoz, hogy létre tudjuk hozni a külvilág mentális reprezentációját, meg kell tudnunk határozni, hogy az egyes jellemzők mely tárgyakhoz kapcsolódnak. Albert Bregman a hallási színtérelemzéssel foglalkozó könyvét így zárja: Ami számomra leginkább figyelemre méltó..., az az, hogy sok olyan dolog, amit magától értetődőnek tekintünk, mint például a zenei vagy emberi hang egységessége, valójában csoportosítási folyamatok révén jön létre. A másik dolog, ami szintén nem magától értetődő, hogy a hangok sok olyan egyszerű jellemzője, amelyet úgy tűnik automatikusan dolgozunk fel, valójában szintén csoportosítás révén jön létre. Ilyenek például a hangmagasság, hangosság, hangszín, helyzet vagy disszonancia. Végül, számomra nagyon meglepő, hogy a hallás azon folyamatai, amelyek a csoportosítást létrehozzák és ezeket a perceptuális élményeket megalapozzák, nagyon gyorsan, néhány milliszekundum alatt kell, hogy végbemenjenek. (Bregman 1990, ) 2.6. ÖSSZEFOGLALÁS 1. A hallási észlelés feladata a világ értelmes, jelentéssel bíró egységekre bontása. Ehhez egyrészt meg kell határoznunk, hogy hol található a tárgy (lokalizáció), másrészt pedig meg kell határoznunk, hogy mi az (azonosítás). 2. A hanglokalizáció az a folyamat, amelynek során a környezetből származó hangok forrásának helyét és távolságát megállapítjuk. Mivel a hallási információ nem tartalmaz egyértelmű téri információkat, a lokalizáció következtetés révén valósul meg. A lokalizációban binaurális (két füllel észlelhető) vagy monaurális (egy füllel észlelhető) információkat használunk fel. 3. A binaurális lokalizáció az interaurális hangerőkülönbségen (IHK) és az interaurális idői különbségen (IIK) alapul. Az IHK a fej árnyékoló hatása miatt, az IIK pedig amiatt jön létre, hogy a hang a két fület eltérő időben éri el. Mindkét jelzőmozzanat esetében találunk olyan téri pontokat, amelyek lokalizációja nem egyértelmű. Ezt nevezzük tévesztési kúpnak. A lokalizáció duplexelmélete szerint a két jelzőmozzanaton alapuló lokalizáció eltérő frekvenciájú hangok esetében működik jól: a mély hangok esetében inkább az IIK, a magas hangok esetében viszont az IHK. Valamint van egy olyan frekvenciatartomány ( Hz között), amelyben egyik jelzőmozzanat sem működik megfelelően. Az IIK esetében ismert a lokalizáció idegi háttere, melyet a késleltetési vonal elmélete ír le. 4. A monaurális lokalizáció a fülkagyló formáján alapul, és elsősorban a függőleges irányú lokalizációt segíti. A lokalizációban a fülkagyló tekervényeiről visszaverődő hang spektrális megváltozását használjuk fel, amelyet a fejhez kötött átviteli függvény ír le. 5. A pszeudofonnal végzett vizsgálatok rámutattak arra, hogy a látási információ alapján történő lokalizáció képes befolyásolni a hallási lokalizációt. 6. A lokalizáció során képesek vagyunk kiszűrni a hangok visszaverődéséből származó információkat. Ezt kísérletileg az elsőbbségi hatásnak nevezett jelenséggel vizsgálják, amely szerint, ha a két hang között elég rövid idő telik el, akkor azok összeolvadnak, és egyetlen hangot hallunk. Az összeolvadt hang lokalizációját az első hang iránya határozza meg, függetlenül attól, hogy a második hang milyen irányból jött. 7. A binaurális hallás a hanglokalizáció mellett segít elkülöníteni az egyes hangokat a zajos környezet többi hangjától. A binaurális felfedés jelensége arra vonatkozik, hogy az egyik fülbe adott zaj csak akkor fedi el a hangot, ha azokat egy forrásba tartozóknak tartjuk. 8. A hangok azonosításához az egyszerre a fülünkbe érkező hangokat különálló hallási objektumokba, úgynevezett hallási láncokba kell csoportosítanunk. Ezt a hallási színtérelemzés folyamata valósítja meg. A hallási láncok a hallási észlelés alapegységéül szolgálnak, és így a tárgyak hallásbeli megfelelői. 9. A hallási színtérelemzés során a perceptuális csoportosítás Gestalt-elvei használjuk fel, amelyek a hallási információ kétféle szerveződését valósítják meg: a szekvenciális (horizontális) és a spektrális (vertikális) szerveződést. 229

244 10. FEJEZET A hallási objektumok észlelése hol és mi 10. A szekvenciális szerveződés során az egymást követő hangok összetartozását kell eldöntenünk. Ez elsősorban a hangok közötti idői és frekvenciatávolságon alapul, de ezenkívül a hangok lokalizációját, hangosságát és hangszínét is fel tudjuk használni a hallási láncok csoportosításához. 11. A spektrális szerveződés esetén az a kérdés, hogy hogyan bontjuk részekre az egy időben szóló hangokat. Ebben szintén az idői és a frekvenciatávolságot használjuk ki, valamint olyan elveket, mint a régi plusz új szabály (ha az éppen hallható frekvenciakomponensek között van olyan, amely egy előzőleg elhangzott hang jó folytatásának tekinthető, akkor érdemes ezeket egy láncba csoportosítani), a harmonikussági alapelv (azokat a harmonikusokat csoportosítjuk egybe, amelyek feltételezhetően egy alaphanghoz tartoznak) és a közös sors elve (azokat a hangokat csoportosítjuk egybe, amelyek egyszerre változnak meg) KULCSFOGALMAK binaurális felfedés, elsőbbségi hatás, fejhez kötött átviteli függvény, hallási láncok, hallási színtérelemzés, interaurális hangerőkülönbség, interaurális idői különbség, lokalizáció duplexelmélete, pszeudofon, tévesztési kúp 2.8. ELLENŐRZŐ KÉRDÉSEK 1. Mondjunk egy olyan példát, amikor a hallási lokalizáció jobban működik, mint a látási! 2. Rosszabbul lokalizáljuk-e a hangokat, ha fülhallgatót viselünk, amelyben hangos zene szól? 3. Hogyan lehet a visszhangot a tárgyak helyének megállapítására felhasználni? 4. Miért nincs tudomásunk a hétköznapokban a tévesztési kúpról? 5. Megváltozik-e a hallási élményünk, ha egy sztereóban rögzített zene hallgatásakor felcseréljük a jobb és bal oldali fülhallgatókat? 6. Álljunk meg egy pillanatra a tankönyv olvasásában, és figyeljünk a körülöttünk hallható hangokra. Hány hallási láncot tudunk elkülöníteni? És hányra tudunk egyszerre figyelni? 7. Egy zeneszám hallgatásakor milyen hallási láncok jönnek létre a szekvenciális szerveződés révén? És a spekt- rális szerveződés révén? 8. Mi a különbség a látási és a hallási színtérelemzés között? 2.9. AJÁNLOTT OLVASMÁNY Bregman, A. S Auditory scene analysis: Theperceptual organization of sound MIT Press, Cambridge, MA AJÁNLOTT HONLAP (Ismeretterjesztő cikk, sok illusztrációval, a hanglokalizációval 230

245 13. fejezet FEJEZET A beszéd észlelése A környezet valamennyi hangja közül valószínűleg a többi ember által keltett beszédhangok a legfontosabbak a számunkra. A beszéd célja a nyelvi közlések megfogalmazása: gondolataink és érzéseink kifejezése, valamint annak megértése, hogy mások hogyan válaszolnak erre. A beszédfolyamatnak két lényeges összetevője van. Az adott beszélő közösség számára feldolgozhatóan produkált nyelvi közlés, azaz a beszédprodukció, valamint a mások által produkált nyelvi közlés megértése, azaz a beszédértés. A ábra a beszédfolyamat leegyszerűsített modelljét mutatjabe ábra. A beszéd folyamata Amint az az ábrán jól látható, mind a beszédprodukció, mind a beszédmegértés több részfolyamatból áll. Ezek közül ebben a fejezetben a beszédhangok észlelésével, annak törvényszerűségeivel foglalkozunk. A beszédhangokból összeálló szavak és mondatok megértésével, valamint az azokat kialakító szabályokkal a nyelv és gondolkodás témakörében foglalkozik a pszichológia. Ezt részletesen az Általános pszichológia 3. kötete tárgyalja (Csépe-Győri-Ragó [szerk.]: Általános pszichológia. 3. Nyelv és gondolkodás). Maga a beszédészlelési folyamat is több összetevőből áll. A mondanivalónkat mondatokba foglaljuk, amelyek szavakból épülnek fel, a szavak pedig beszédhangokra tagolhatók. A beszédészlelés kifejezéssel azt az észlelési folyamatot jelöljük, amelynek során a beszédhangok, hangkapcsolatok felismerése, vagyis azonosítása történik. A beszédhangok a beszédnek azok a legkisebb elemei, amelyek egy adott nyelvben jelentésmegkülönböztető szerepűek. A beszédhangokon kívül a szavak alkotóelemeit nevezhetjük fonémáknak is. A két kifejezés azonban nem azonos. A beszédhang a beszéddelkapcsolatos akusztikai információ,a fonéma pedig az általános tulajdonságok alap ján azonosnak észlelt beszédhangok mentális reprezentációja, azaz ugyanannak a beszédhangnak az akusztikailag sokféle megvalósulásából létrejött absztrakció. A beszédhangok akusztikai és fonetikai elemzésének eredménye a beszédhangoknak a megfelelő fonémákkal történő azonosítása, az úgynevezett fonémadöntés. Ez azt jelenti, hogy a beszédhangokat a fonológiai (hangalak-) elemzés szintjén adott fonémakategóriához (erre később visszatérünk) rendeljük hozzá. A fonémáról hozott döntés azonban gyakran nem is olyan egyszerű, mivel a beszédhangok hangkörnyezetüknek megfelelően módosulnak, jóllehet ez a hangkörnyezet az azonosításhoz szükséges jellemző jegyeket is hordozza. A rúgta szóban például a igi zöngés mássalhangzó zöngétlenedik, azaz a többi hangtól elkülönítve (izoláltan) nem valószínű, hogy ugyanúgy /g/ hangként azonosítanánk, mint magában a szóban. A beszédhangok észlelésében tehát kontextustól független és kontextusfüggő észlelési folyamatok működnek. Ezen a szinten a fonémadöntést meghatározó kontextuális elemek: 1. a szótag szerkezete, 2. a beszédhang helye a szótagban, 3. a szomszédos beszédhang jellemzői. A fonéma tehát absztrakt kategória, és a beszédnek arra a legkisebb, reprezentációalapú perceptuális építőelemére vonatkozik, amelynek alapján képesek vagyunk két szó között különbséget tenni. Vegyük például a kéz és a kész szavakat. Ezek csak egyetlen hangban, a szóvégi /z/ és /sz/hangban térnek el egymástól. (A továbbiakban, mint ahogy fentebb is, a i i jelet fogjuk használni a hangokra utalásnál, és a nem nyelvész olvasó 231

246 11. FEJEZET A beszéd észlelése dolgát megkönnyítendő, nem fogjuk használni a beszédhangok egyezményes fonetikai átírását.) Az ehhez hasonló, egyetlen fonémában különböző szavakat minimális pároknak nevezzük. Ebben a fejezetben arra keressük a választ, hogy hogyan dolgozzuk fel ezeket a beszédhangokat, és miként tudunk különbséget tenni a kéz és kész szavak között. Annak érdekében azonban, hogy megérthessük, hogyan is észleljük a beszédhangokat, szükséges tudnunk azt is, hogy milyen jellegzetességeik vannak ezeknek, vagyis szemügyre kell vennünk a beszédhangok produkcióját és az észlelésben alapvető szerepet játszó akusztikai és fonetikai feldolgozás törvényszerűségeit. A fejezet során tehát először is áttekintjük a beszédhangok produkciójának jellegzetességeit és fizikai jellemzőit. Látni fogjuk, hogy az emberi beszédképzés során létrejövő beszédhangok hasonló tulajdonságokkal rendelkeznek, mint a legtöbb környezeti hang: több frekvenciakomponenst tartalmaznak, vagyis komplex hangok, és periodikus ismétlődés jellemzi őket. Majd azt nézzük meg, hogy a beszédhangok mely jellegzetességeit használjuk fel ahhoz, hogy egyedi hallási objektumokat, fonémákat hozzunk létre belőlük. Végezetül bemutatunk néhány olyan pszichológiai modellt, amely az emberi beszéd megértésének magyarázatára jött létre. 1. A beszédhangok jellemzői 1.1. A beszédhangok képzése Az emberi beszédképző szervek az evolúció során olyan szervekből fejlődtek ki, amelyeket eredetileg más célra használtunk, és ma is betöltenek egyéb funkciókat is. A beszédképző rendszer három nagy részre osztható: a gége alatti (tüdő), a gégei és a gége feletti (száj- és orrüreg) rendszerre (11.2. ábra) ábra. A beszédhangképző szervek Leegyszerűsítve azt mondhatjuk, hogy a beszédhangok produkciója két lépésből áll. A tüdőből kiáramló levegő hatására rezgésbe jönnek a gégében található hangszalagok, és ezt a rezgést a szájüreg, a nyelv, az ajkak formálják tovább. Nézzük meg ezt a folyamatot egy kicsit részletesebben. A beszédhangok képzéséhez a tüdőből kiáramló levegőt használjuk fel. A levegő mennyisége, illetve nyomása határozza meg a hangok hangosságát, valamint azt, hogy mennyi ideig tudunk egyfolytában beszélni. A beszéd közbeni levegővétel módja jelentősen eltér a nyugalmi légzéstől, a nyugalmi légzésnél ugyanis a levegővétel és a -kifújás időtartama nagyjából azonos, míg beszéd közben egy gyors beszívást nagyon lassú és egyenletes tempójú kifújás követ. A beszéd közbeni légzés tehát nagyon precíz és egyben automatikus irányítás alatt áll. Semmilyen tudatos kontrollt nem tudunk gyakorolni a beszédprodukció során a levegő kiáramlására, noha tudjuk, hogy a légzés egyébként akaratlagosan befolyásolható. 232

247 11. FEJEZET A beszéd észlelése A hangképzés tulajdonképpeni szerve a gégében található. A gége porcokból és a porcokat összekötő ízületekből és izmokból áll. A beszédképzés szempontjából legfontosabb részei a hangszalagok és az ezek által körbevett hangrés (11.3. ábra). A gége izmai teszik lehetővé a hangszalagok megfeszítését, illetve ellazítását, és ezáltal szabályozzák a hangrés nagyságát. A hangrés nagyságától függ, hogy keletkezik-e hang vagy sem. Ha teljesen nyitva van, akkor a levegő akadálytalanul áramlik át a gégén, vagyis nem jön létre hang. Ahogy természetesen akkor sem, ha a hangrés teljesen zárva van. Érdekes módon azonban a hangképzés nem akkor valósul meg, amikor a hangszalagok a nyílt és zárt állás között vannak, és a tüdőből kiáramló levegő képes rezgésbe hozni őket. Ebben a félig nyílt állapotban ugyanis nem a beszédhangok képzéséhez szükséges rezgés, az úgynevezett zönge alakul ki, hanem a /h/ hang képzéséhez szükséges surrogó hang valósul meg ábra. A gége felépítése A zönge egy viszonylag bonyolult folyamat hatására jön létre, amelyet a ábra szemléltet. Az ábrán bemutatott folyamatot a következőképpen értelmezhetjük. A hangrés zárt állapota esetén a tüdőből kiáramló levegő feltorlódik a hangszalagoknál, és ennek hatására megnő az úgynevezett szubglottális (hangrés alatti) nyomás. Egy idő után azonban a hangszalagok nem tudják fenntartani a hangrés zárát a szubglottális nyomással szemben, és emiatt a hangrés kinyílik, a levegő pedig kiáramlik. A kiáramló levegő hatására, különböző fizikai törvényszerűségek miatt, valamint a hangszalagok idegrendszeri szabályozása nyomán, a hangszalagok ezután ismét visszazáródnak. A hangrésnek ez a gyors, periodikus nyitása és zárása hozza létre lényegében a beszédhangok alapját képező zöngét. Ez az elv hasonló ahhoz, mint amit a 8. fejezetben a hangvilla hangkeltése esetében leírtunk: egy rugalmas tárgy oda-vissza mozgása hozza létre a hanghullámot ábra. A zöngekeltés folyamata a gégében A hangszalagok működésére szintén az a jellemző, hogy nem állnak tudatos ellenőrzés alatt. A működésük révén létrejövő zönge a beszéd alapvető jellemzőjét, az alaphangot határozza meg. Az alaphang egyénenként eltér, és a fentiek alapján kitalálhatjuk, hogy a hangrés nyitódásának és záródásának periódusideje határozza meg (vagyis az, hogy a hangrés másodpercenként hány nyitódásra és záródásra képes). A hangrésnek, pontosabban a hangszalagoknak ezt a jellemzőjét különböző anatómiai tényezők befolyásolják. Ilyenek például a hangszalag hossza, tömege, illetve rugalmassága. A hangszalagok működésének jellemzőit, és így az alaphangot is, elsősorban a nem és a kor befolyásolja. Tudjuk, hogy a férfiaknak mélyebb a hangjuk, mint a nőknek vagy a gyerekeknek: férfiak esetében a beszéd alaphangja 120 Hz körüli, nőknél ez az érték 250 Hz körül található, gyerekeknél pedig 400 Hz felett. A beszédhangképző rendszer harmadik, gége feletti része az úgynevezett artikulációs csatorna. Az artikuláció az az automatikus mozgás, amely a beszédhangok létrehozására irányul. Eszerint az artikulációs csatorna a 233

248 11. FEJEZET A beszéd észlelése hangképzés azon rendszere, amely a beszédhangok végső formáját létrehozza. Ez a rendszer a hangréstől az ajkakig terjedő szerveket foglalja magában, és lényegében egy viszonylag hosszú, bonyolult formájú cső, amelyen a levegő végighalad. A csatorna a beszédhangokat két módon képes megformálni: egyrészt a benne található üregek különféle rezonanciákat, rezgéseket képesek kelteni a már létrejött hangon, másrészt pedig a hang különböző akadályokba (pl. nyelv, ajkak) ütközhet, vagy szűkületeken halad át, amelyek szintén módosítják ábra. Az artikulációs csatorna felépítése Az artikulációs csatorna három üregből áll (11.5. ábra): garatüreg, orrüreg, szájüreg. Ezek mindegyikének alakja módosítható a nyelv vagy a lágy szájpad mozgatása révén, és ezáltal különböző típusú rezonanciák alakulhatnak ki bennük. A szájüregben találhatók azok az akadályokat képző szervek is, amelyek tovább képesek módosítani, esetleg önmagukban is képesek létrehozni egyes beszédhangokat. A szájüreg beszédszervei aktív és passzív beszédszervekre oszthatók aszerint, hogy tudjuk-e őket mozgatni vagy sem. Ezeket a ábra mutatja be ábra. A szájüreg beszédhangképző szervei Összefoglalva tehát, a beszédhangok a hangszalagok által létrehozott komplex, periodikus rezgések, amelyeknek a spektrális szerkezetét az artikulációs csatorna különböző részei módosíthatják. Láthattuk, hogy a hangképzést nagyon precíz, finoman összehangolt izommozgások szabályozzák, amelyek azonban tudatosan nem irányíthatók. Nem tudjuk akaratlagosan úgy szabályozni a tüdő, a légcső vagy a nyelv izmait, hogy például egy iói hangot hozzunk létre. Ugyanakkor azt is érdemes észrevennünk, hogy mindazok a szervek, amelyeket a beszédhangok létrehozása során használunk, nem erre a célra jöttek létre. Mindegyiknek megvan a saját egyéni funkciója (légzés, táplálkozás stb.), és mintegy mellékesen a beszédhangok létrehozását is megvalósítják (egyedül talán a hangszalagok jelentenek kivételt, azoknak valóban a hangadás az alapvető és egyetlen funkciójuk). A továbbiakban azt vizsgáljuk meg, hogy az így létrejött beszédhangok milyen akusztikai tulajdonságokkal rendelkeznek, vagyis milyen jellemzőket kell feldolgoznunk ahhoz, hogy beszédhangokat észleljünk A beszédhangok csoportosítása 234

249 11. FEJEZET A beszéd észlelése A fentiekben láttuk, hogy a beszédképző rendszer hogyan hozza létre a beszédhangokat. Bemutattuk, hogy a beszédképzés két szakaszból áll: az alaphangot adó zönge létrehozásából és az így létrejött hang további formálásából. Ez akusztikai szempontból megfogalmazva azt jelenti, hogy az egyes beszédhangokra jellemző formá- lásssal egyben az adott hangra jellemző speciális spektrális szerkezetet hozunk létre. Ez utóbbi lépést úgy képzelhetjük el, hogy az artikulációs csatorna beszédképző szervei egyfajta bonyolult szűrést alkalmaznak a hangon, és bizonyos frekvenciatartományok hangosodását és halkulását hozzák létre, vagyis megváltoztatják a kialakuló komplex hang harmonikusait. Ezt a fajta működést szemlélteti a ábra ábra. A beszédképző szervek működésének modellezése. Az a) részen látható a hangszalagok keltette alaphang. A b) azt mutatja, hogy néhány magánhangzó esetében az artikulációs csatorna milyen pozíciókat vesz fel, a c) rész pedig azt, hogy ezek a pozíciók milyen változást eredményeznek a létrejövő beszédhangok spektrális szerkezetében Az artikulációs csatorna működése révén létrejövő módosult felharmonikusokat a beszédhangok esetében formánsoknak nevezzük. A formánsokat általában F-fel jelöljük, és egy sorszámot is kapnak aszerint, hogy milyen távol vannak az alaphangtól. A ábrán a frekvenciaspektrumban található csúcsok jelzik a formánsokat. A legtöbb esetben csak a beszédhangok első három formánsáról, vagyis az F1, F2 és F3-ról beszélünk. Három formáns ugyanis megfelelően meghatároz egy magánhangzót, a többi frekvenciakomponens valójában redundáns, a megfelelő észleléshez nincs is igazán szükség rájuk. A három formánson kívül ugyanakkor egy negyediket is meg kell említenünk, ez pedig az F0, vagyis a 0. formáns. Az eddigiek fényében kitalálható, hogy az F0 az alaphangra vonatkozik. Többféle oka is lehet annak, hogy a beszédhangok esetében miért tekintjük az alaphangot a 0. formánsnak. A beszédhang, hasonlóan más komplex hangokhoz, alaphangból és felharmonikusokból áll. Ha tehát a felharmonikusokat vagy formánsokat F1, F2 stb.-vel jelöljük, akkor logikus, hogy az ezeknél mélyebb frekvencia-összetevőt, az alaphangot 0-val jelöljük. Ugyanakkor az F0 jelölés használata arra is utal, hogy ez a komponens nem játszik szerepet a beszédhangok jellegzetességeinek meghatározásában. Láttuk, hogy bár az alaphang adja meg a beszéd és így az összetevők magasságát, magának a beszédhangnak a kialakításában igazából csak az F1, F2 stb. formánsok vesznek részt. A beszédhangok nagyon sokfélék lehetnek, és természetesen nagyon eltérő akusztikai jellemzőkkel rendelkezhetnek. Ráadásul az egyes nyelvek között óriási eltérés van abban, hogy milyen beszédhangokat használnak, és ezeket hogyan képzik. Ezt mindenki megtapasztalhatja, amikor először próbál egy idegen nyelvet elsajátítani. Nemcsak a hangok megfelelő produkciójához szükséges rendkívül sok gyakorlás, hanem ahhoz is, hogy magukat a beszédhangokat megfelelően észleljük, a belőlük alkotott szavak hangalakját azonosítsuk, és a szavakat megértsük. Az egyes nyelvek az emberi beszédképző szervek által létrehozható lehetséges beszédhangoknak csak egy korlátozott készletét használják. Nyelvenként eltér, hogy pontosan hány beszédhangot használnak, és ez a szám 11 és 141 között változhat (Gósy 2004). A legtöbb nyelv hangot alkalmaz. A beszédhangokat két nagy csoportra szokták osztani: a magánhangzókra, amelyek képzése minden esetben a zöngére épül, és a mássalhangzókra, amelyek nem feltétlenül tartalmaznak zöngét, de a képzésükkor a levegő valamilyen akadályba (beszédszervek) ütközik. A továbbiakban áttekintjük, hogy miként osztályozzuk ezeket a hangokat, illetve azt, hogy az egyes csoportok milyen képzési és akusztikai jellemzőkkel írhatók le. Az áttekintés csak felsorolásszerű lesz, nem térünk ki a hangok részletes jellemzésére. A cél inkább az, hogy lehetővé tegyük a 235

250 11. FEJEZET A beszéd észlelése beszédhangcsoportok közötti eligazodást. Az érdeklődők Gósy Mária (2004) könyvéből további részleteket tudhatnak meg A magánhangzók A magánhangzók zöngés hangok, vagyis képzésükkor a tüdőből kiáramló levegő megrezegteti a hangszalagokat. Az egyes magánhangzók formánsszerkezetükben és időtartamukban térnek el egymástól. Ezt az artikulációs csatorna különböző üregeinek eltérő alakja teszi lehetővé (11.6. ábra). Egy magánhangzó meghatározásához négy paraméter szükséges: a nyelv helyzete függőleges és vízszintes irányban, az ajakállás és az időtartam. A nyelv függőleges állása összesen négyféle lehet: felső, középső, alsó és legalsó. Az így képzett hangok elsősorban az F1 formánsban térnek el egymástól, és a felül képzett hangok (pl. iii) magasabb F1-gyel rendelkeznek, mint az alulképzettek (pl. iai). A nyelv vízszintes állás szerint megkülönböztetünk elöl képzett (palatális) és hátul képzett (veláris) hangokat. Az előbbire példa az iii, az utóbbira pedig az iui hang. Mindez akusztikailag elsősorban az F2 formáns változásában jelenik meg oly módon, hogy az elöl képzett magánhangzók magasabb frekvenciájú F2-vel rendelkeznek, mint a hátul képzettek. Az ajakállás kétféle lehet: ajakkerekítéses (labiális) és ajakréses (illabiális). Az ioi hang például ajakkerekítéssel, az iéi viszont ajakréssel képződik. Az ajakállás elsősorban az F2-F3 viszonyát módosítja, vagyis viszonylag komplex hatást gyakorol a hang formánsszerkezetére. Végül az időtartam alapján beszélhetünk rövid és hosszú magánhangzókról, amelyek főként időtartamukban térnek el egymástól (az időtartam kissé módosítja persze a formánsértékeket is). Ilyen például az ioi és iói hang. Sokan azt gondolják, hogy az iai és iái, valamint az iei és iéi hangok ugyanannak a magánhangzónak az időtartam szerint eltérő változatai. Ezt azonban az írástudók számára főleg a hosszúságjelölés konvenciója sugalmazza, az iai és iái vagy az iei és iéi hangok formánsszerkezete ugyanis minőségi eltérést mutat. A magyar nyelvben összesen 15 magánhangzót tudunk megkülönböztetni. A táblázat mutatja ezek csoportosítását a felsorolt kategóriák szerint. Nagyon fontos, hogy ezek a kategóriák mindig egyszerre határoznak meg egy hangot, tehát például az iái hang egy hátul képzett, legalsó nyelvállású, ajakréses és hosszú magánhangzó. A táblázat a rövid és hosszú hangokat nem jelöli külön, ha egy adott magánhangzóból mindkettő létezik, akkor ezek egymás mellett vannak feltüntetve a táblázat azonos cellájában táblázat táblázat. A magánhangzók csoportosítása (Gósy 2004 nyomán) Nyelv mozgása függőleges Nyelv vízszintes mozgása Elöl képzett Hátul képzett Ajakréses Ajakkerekítéses Ajakréses Ajakkerekítéses Felső nyelvállású i, í ü, ü u, ú Középső nyelvállású é ö, ő o, ó Alsó nyelvállású e a Legalsó nyelvállású á A mássalhangzók A beszédhangok másik nagy csoportját a mássalhangzók alkotják. A mássalhangzók szintén a kilégzés során jönnek létre, mégpedig úgy, hogy a kiáramló levegő az artikulációs csatorna szájüregi részében valamilyen aktív vagy passzív akadályba ütközik (11.6. ábra). 236

251 11. FEJEZET A beszéd észlelése A magyar nyelvben összesen 32 (28 egy, 4 két képzési hely típusú) mássalhangzó különíthető el. A képzett hangok jellemzése négy paraméter mentén történik: a képzés módja, a képzés helye, a zöngésség és az időtartam. Már itt felhívjuk a figyelmet arra, hogy a mássalhangzók képzési jellegzetességeivel, illetve osztályozásával kapcsolatban a beszédhangok sajátosságainak tudományos leírásával foglalkozó fonetikusok sem mindig értenek egyet. Ez azt mutatja, hogy egyes hangok képzése nem feltétlenül egyértelmű, illetve változatlan, mivel elképzelhető, hogy ugyanazt a hangot két különböző ember kissé másképp ejti ki. Ennek ellenére bemutatunk egy általánosan elfogadott csoportosítást. A zöngésség és az időtartam a mássalhangzóknak legegyszerűbb jellemzői. Zöngésség szerint lehetnek zöngések (pl. ibi), amikor is a hang a hangszalagok rezgése révén jön létre, és zöngétlenek (pl. ipi), amikor a hangszalagok nem rezegnek. A mássalhangzók a zöngésség szempontjából párt alkothatnak, amikor is a zöngés és zöngétlen hangok minden egyéb jellemzőjükben megegyeznek (pl. ib-pi). Időtartam szerint a magánhangzókhoz hasonlóan a mássalhangzók is lehetnek rövidek vagy hosszúak (pl. ili illi), vagy más néven mássalhangzó-kettőzések (gemináták). A magyar nyelvben a mássalhangzók hosszúságészlelése fontos, hiszen jelentésmegkülönböztető funkciójuk lehet, mint például a hal és hall szavak esetében. A képzés módja arra az artikulációs működésre vonatkozik, ahogyan az adott mássalhangzót megformáljuk. A képzési mód szerint öt mássalhangzócsoportot különböztethetünk meg: zárhangok, réshangok, zár-rés hangok, pergőhangok és közelítőhangok. A zárhangok (pl. ibi) esetében az artikulációs csatorna valamely részén egy teljes zárás alakul ki (a ibi hangnál például az ajkak zárulnak össze), és ez a zár megállítja a levegőt. A zár bizonyos ideig fennmaradhat, de azután általában gyorsan kinyílik, és ez a nyílás vagy más néven zárfelpattanás vezet a hang létrejöttéhez. A zöngés zárhangok esetében a hangszalagok a zárfelpattanáskor, de akár előtte is rezeghetnek. A réshangok (pl. ifi) ezzel szemben úgy jönnek létre, hogy a levegőnek egy, a beszédszervek által létrehozott szűk nyíláson kell keresztülhaladnia. Ez a folyamat egy zajszerű hangot hoz létre, hasonlóan a fák levelein keresztül fújó szél hangjához. A zajszerű hang állhat önmagában vagy zöngés réshangoknál egy zöngével együtt (pl. a ivi esetében). A zár-rés hangok (pl. icsi) a zár- és réshangok tulajdonságait ötvözik. Képzésük során a zárat nem felpattanás, hanem egy szűkülés követi. Apergőhangok (az egyedüli ilyen hang a magyarban az iri) valamely beszédszerv vibrációjából, pergetésé- ből származnak. Ez a magyarban a nyelv, de például a franciában a lágy szájpad pergetésével jönnek létre a pergőhangok. A közelítőhangokat (pl. ili) az artikulációs csatorna valamely részének nem teljes zárása hozza létre. Emiatt ezek kissé hasonlítanak a magánhangzókhoz, hiszen a magánhangzók képzés során sem jön létre zár. Természetesen azért a közelítőhangoknál egy kismértékű zárást mindenképpen találunk, de az ilyen hangok lágyságát pontosan ez a nem teljes zárás okozza. A képzés helye, vagyis aszerint, hogy a mássalhangzót a szájüreg mely részében képezzük, hét típust különíthetünk el (zárójelben megadjuk az egyes típusok idegen nevét is, mivel a szakirodalom legtöbbször így hivatkozik ezekre). Vannak két ajakkal képzett hangok (bilabiálisok), ajak-fog hangok (labiodentálisok), fogmederhangok (alveolárisok), hátsófogmeder-hangok (posztalveolárisok), elülsőszájpadlás-hangok (palatálisok), hátul- s ó s z á j p a d l á s h a n g o k (velárisok) és gégehangok (l a r i n g á l i s o k) táblázat táblázat. A mássalhangzók csoportosítása Képzési hely Képzési mód Zárhangok Réshangok Zár-rés hangok Pergő- han Közelítohan- gok 237

252 11. FEJEZET A beszéd észlelése Felpattanó Nazá gok Me- Late zárhangok lisok diális rális zön zön zön zön zön zön zön zön zön zön gés gétlen gés gés gétlen gés gétlen gés gés gés Bilabiáli s b p m Labiode ntális v f Alveolár is Posztalv eo- d t n z sz dz c r l zs s dzs cs láris Palatális gy ty n y j Veláris g k Laringál is h A táblázat összefoglalja a magyar mássalhangzók különböző típusait a képzés módja, helye és a zöngésség szerint. Hasonlóan a magánhangzókhoz, itt is láthatjuk, hogy minden egyes mássalhangzót az összes jellemző mentén lehet csak meghatározni. Vagyis például a ibi hang egy bilabiális, zöngés zárhang A beszédhangok akusztikai jellemzői A fentiekben tehát láthattuk, hogy az egyes beszédhangok létrehozásához a beszédképző szervek milyen hihetetlenül bonyolult vezérlése és összehangolása szükséges. Egy-egy hang kiejtése a légzés, a hangszalagok, a garat és a szájüreg, valamint a nyelv, az ajkak rendkívül pontos és finom mozgása révén valósul meg. Könynyen belátható, hogy az ily bonyolult módon képzett hangok nagyon összetett akusztikai mintázattal kell, hogy rendelkezzenek. Gondoljunk csak arra, hogy egy zongorán leütött billentyű milyen egyszerűen hozza létre a zongora hangját, hiszen voltaképpen egy egyszerű húr jön periodikus rezgésbe. Ehhez képest a beszédhangok és főként a mássalhangzók sokkal összetettebb és komplexebben változó hangok lesznek. Ahogy már fentebb láttuk, lényegében a beszédhangok más komplex hangokhoz hasonlóan olyan, több frekvenciakomponensből összetevődő, periodikus hangok, amelyek a frekvencia és intenzitás időbeni változásait tartalmazzák. A továbbiakban azt fogjuk áttekinteni, hogy mi jellemző pontosan ezekre a változásokra, illetve általában a beszédhangok akusztikai megvalósulására. A beszédhangok vizuális megjelenítésének legjobb módja a 10. fejezetben már bemutatott, spektrogramon történő ábrázolás. Mint láttuk, a spektrogram a különböző frekvenciákon található akusztikus energia mennyiségét tünteti fel az idő függvényében, és tulajdonképpen úgy ábrázolja a hangokat, ahogy azok az alaphártyán reprezentálódnak. 238

253 11. FEJEZET A beszéd észlelése ábra. Egy mondat spektrogramja. A mondat angol verziója a beszéd spektrogramon történő ábrázolásának egyik leggyakrabban használt illusztrációja; eredete Franklin Cooper 1950-es évekbeli beszédszintézissel foglalkozó munkáira nyúlik vissza A ábra egy több szóból álló mondat spektrogramját mutatja be. Az ábrát tüzetesen megvizsgálva észrevehetünk bizonyos szabályos változásokat. Felfedezhetünk például egy olyan frekvenciasávot, amely szinte a mondat teljes hosszában tartalmaz energiát. Ez a legmélyebb frekvenciakomponens, vagyis az alaphang vagy alapfrekvencia. Láttuk, hogy a beszédhangok esetében ezt F0-lal jelöljük. Az F0 mellett további frekvenciakomponenseket is találunk, ezeket formánsoknak neveztük. Az ábrát szemügyre véve láthatjuk, hogy a formánsok gyors változásokat mutatnak, a frekvencia hirtelen növekszik vagy csökken. Ezeket a változásokat formáns- átmeneteknek nevezzük. A formánsátmenetek a legtöbb esetben a beszédképző szervek egyik helyzetből a másikba történő mozgását jelzik. A formánsátmenet bizonyos hangok, például a zárhangok esetében a hang képzésének része, más esetekben viszont hangkapcsolatok esetében figyelhető meg, amikor is egy hang képzését követően a hangképző szerv egy másik pozícióba kell, hogy átálljon. Az eddigiekben tehát áttekintettük a beszédhangok típusait, képzésüket és akusztikai jellemzőit. Tudjuk már, hogy a beszédhangok komplex hangok, és tudjuk, hogy különböző zöngéket, vagyis periodikus rezgéseket és zajokat, zörejeket tartalmaznak. Azt is áttekintettük, hogy az egymást követő beszédhangok (szavak) esetében az észlelőrendszer milyen formában kapja meg ezt az akusztikai inputot folyamatosan változó lassú vagy hirtelen spektrális változások, hangátmenetek sorozataként. A spektrogramon történő ábrázolás ugyanis töb- békevésbé megfelel annak, ahogyan a hallóideg aktivitásmintázata közvetíti a hangok akusztikai jellemzőit az agy felé. Most már csak azt kellene megnéznünk, hogy mihez kezd az agy ezzel az inputtal, vagyis hogy milyen folyamatok közvetítésével történik a beszéd észlelése. A következő részben ezzel a témával foglalkozunk A beszédhangok észlelése A beszédhangok észlelésének lépései A beszéd megértésének folyamata alapvetően két részből áll: a nyelvi kódoknak vagy perceptuális egységeknek megfelelő akusztikai információk feldolgozásából, valamint ezeknek az információknak az értelmezéséből. Az első rész a beszédhangok és hangkapcsolatok felismerését jelenti, és lényegében az adott nyelvre jellemző fonémák azonosításából áll. A második rész ennek értelmezését foglalja magában, vagyis a szavak, mondatok, illetve az egész szöveg feldolgozását és megértését. Itt most csak a beszédészlelés első részével, vagyis a nyelvi egységek percepciójával foglalkozunk. A beszédhangok észlelési folyamata két szakaszból áll: a beszédhangoknak az akusztikai környezettől való elválasztásából és az ily módon elkülönített beszédhangok fonémaazonosításából, amelyhez referenciaként ezek mentális reprezentációja szolgál. A beszédhangoknak a többi hangtól való elkülönítésével nem foglalkozunk részletesen. Pontosabban, csak annyit állapítunk meg róla, hogy feltételezhetően ugyanazokat a mechanizmusokat használjuk a beszédhangoknak a többi hangtól való elválasztásában is, mint az összes többi hang esetében, mindenekelőtt pedig a perceptuális csoportosítás Gestalt-szabályait. A beszédhangok elválasztását segítheti, hogy a beszéd általában ritmikus, periodikus, és a frekvenciakomponensek együtt változnak. A beszéd tehát olyan jellemzőkkel rendelkezik, amelyek megkönnyítik az elkülönítését. Erre a legjobb példa a vokális zene hallgatása. Ha a hangszerek mellett ének is szól egy zeneszámban, akkor elsősorban erre fogunk figyelni, és ez lesz a leginkább kiugró, a többi hang hátterétől a leginkább elkülönülő. Tudnunk kell azonban, hogy az emberi beszédészlelő rendszer a beszédhangkontrasztokra ugyan születéstől fogva érzékeny, a percepció természetes egységeit mégsem a beszédhangok jelentik, hanem a szavak hangalakja, illetve a szótagok. Miközben a nyelv elsajátítása során ezekre az eltérő egységekre egyformán 239

254 11. FEJEZET A beszéd észlelése hangolódik a beszédészlelő rendszer, a szavak hangösszetevői közül az olvasás elsajátítását megelőzően csak a szótagokhoz és a szókezdő hangokhoz van tudatos hozzáférésünk. A beszédészlelés automatikus folyamatában azonban kialakul a beszédhangkontrasztok megfelelő észlelését biztosító mentális reprezentáció A beszédhangok és a fonémák megfeleltetése Szó volt már arról, hogy a beszéd legkisebb egysége a fonéma. A fonéma egy olyan absztrakt nyelvi egység, amely önmagában nem rendelkezik jelentéssel, de képes a szavak jelentését megváltoztatni. Azt mondhatjuk tehát, hogy a fonémák a nyelv építőkockái, hiszen a megfelelő fonémákként azonosított beszédhangok sorozatából előállíthatók egy adott nyelv szavai. Ezek alapján feltételezhetjük, hogy a beszédhangok feldolgozásának célja, hogy az akusztikai inputot megfeleltessük a fonémák mentális reprezentációjának. Ez a megfeleltetés azonban sajnos nem ennyire egyszerű. Ahogy látni fogjuk, a beszédészlelés tanulmányozásának egyik központi problémája, hogy az észlelt beszédhangok és a mentális reprezentáció megfeleltetése meglehetősen összetett. Ha közelebbről megvizsgáljuk a beszéd akusztikai jellegzetességeit, akkor több olyan jelenséget is találunk, amelyek cáfolják azt a nézetet, hogy a beszédészlelés során a beszédhangok és a fonémák egy az egyben történő megfeleltetése zajlik. Az egyik ilyen probléma a beszédhangok gyorsasága. Egyes vizsgálatok szerint 30 fonéma/másodperc beszédtempó mellett is képesek vagyunk megérteni a beszédet, ami azt jelenti, hogy az egyes beszédhangok átlagosan csak kb. 30 milliszekundum időtartamúak. Ha hasonló tempóval mutatunk be egyéb, nem beszéd jellegű hangokat, akkor ezeket a kísérleti személyek képtelenek azonosítani, és csak egy egybefolyó hangkavalkádot hallanak. Vagyis úgy tűnik, hogy a beszédészlelés során olyan gyorsan tudjuk követni a hangsorokat, amit elvileg a hallórendszer működése nem tesz lehetővé. A másik problémába akkor ütközünk, ha megnézzük, hogy egy adott fonéma két eltérő kontextusban (például két eltérő szóban vagy szó elején és szó végén) milyen eltérő akusztikai paraméterekkel valósul meg. Liberman és munkatársai (1954) két azonos fonémával kezdődő szótag esetében tették ezt meg. A két szótag a /di/ és /du/ volt, amelyeknek a spektrogramját a ábra mutatja. Az ábrán egy stilizált spektrogram mutatja a szótagok két formánsát (F1 és F2). Az F1 és F2 formánsok elegendő információt nyújtanak ahhoz, hogy a szótagokat világosan eltérőnek halljuk (ennek ellenére nagyon mesterségesen, gépszerűen szólnak). Látható, hogy az F1 mindkét szótagnál hasonló frekvenciatartományban található, de az F2 teljesen eltérő: a /di/ esetében 2200 Hz-ről emelkedik 2600 Hz-re, míg a /du/-nál 1200 Hz-ről ereszkedik 700 Hz-re ábra. Formánsátmenetek a /di/ és /du/ szótag esetében (Liberman et al nyomán) A két szótag esetében tehát a /d/ hang teljesen eltérő akusztikai jellemzőkkel rendelkezik. Ennek ellenére a kísérleti személyek mindkét esetben határozottan /d/ hangnak hallják, és nem veszik észre a spektrogrammal nyilvánvalóvá tehető jelentős akusztikai különbségeket. Ugyanakkor, ha ezeket a változásokat, vagyis a formáns- átmeneteket izoláltan mutatjuk be (ekkor a hangok elveszítik beszédjellegüket), akkor ezek az eltérő akusztikai jellemzők egyértelműen megkülönböztethetők. A beszédhangoknak ezt a változatosságát kontextusfüggő átszerveződésnek vagy koartikulációnak nevezzük. Az előbbi elnevezés az akusztikai paraméterek megváltozására utal, az utóbbi pedig a jelenség hátterére, vagyis arra, hogy a beszédhangok képzéséből, artikulációjából származik. A koartikuláció definíció szerint az a jelenség, hogy egy beszédhang akusztikai jellemzői megváltozhatnak attól függően, hogy előtte vagy utána milyen hangok állnak. Például az /n/ hang némileg eltérő akusztikai paraméterekkel rendelkezik az int ing ina szavakban. A koartikuláció egy viszonylag egyszerű fizikai 240

255 11. FEJEZET A beszéd észlelése korlátozás miatt alakul ki, nevezetesen, hogy a beszédképző szerveket nem tudjuk tökéletesen átvinni egyik pozícióból a másikba. Bizonyos hangkapcsolatok esetén, vagy a következő hang ejtésére való felkészülés miatt, vagy az előzőből való nem tökéletes visszatérés miatt, az adott hang ejtése megváltozhat. A beszéd produkciója ugyanis egy dinamikus folyamat, és a beszédképző szervek folyamatosan mozognak a magánhangzók képzésétől egy mással-hangzót létrehozó akadály létrehozásáig, majd vissza. Ez azzal jár, hogy nagy különbségek lehetnek az önmagukban képzett és a folyamatos beszéd során létrehozott beszédhangok között, mivel a folyamatos beszédben a hangok mindig úgy jönnek létre, hogy a beszédképző szervek valamilyen pozícióból indulnak, és a hang képzése után valahová tartanak. Ezt úgy képzelhetjük el, mint egy táncos mozgását. A táncos mozdulatai nem önmagukban állnak, hanem mozgássorok részét képzik, és ennek az a következménye, hogy ezek végrehajtása más és más lehet attól függően, hogy milyen mozdulat szerepelt előtte és utána. A koartikuláció okozta módosuláson kívül van még egy tényező, amely jelentősen képes módosítani egy adott beszédhang akusztikai jellemzőit, ez pedig maga a beszélő. Az egyes beszélők egészen más akusztikai paraméterekkel hozzák létre az egyes hangokat. Ezt sok minden befolyásolja: a beszélő neme, kora, illetve ugyanazon beszélő esetében a napszak, betegség vagy az aktuális érzelmi állapot. Egy következő probléma, amely a beszédhangok és a fonémák megfeleltetését megnehezíti, az úgynevezett szegmentációs probléma. Az akusztikai input ugyanis folyamatos, a reprezentáció viszont szükségszerűen diszkrét. Az egyes hangok között nincsen határ, sőt a legtöbb esetben egybe is olvadhatnak. Ezt úgy demonstrálhatjuk, hogy megpróbálunk kivágni egy akkora részt az akusztikus inputból (mondjuk egy számítógépes hangszerkesztő segítségével), amely pontosan megfelel egy fonémának. Mi történik például akkor, ha a fent bemutatott /di/ szótagból megpróbáljuk kivágni a /d/ hangot? Ha elkezdjük a szótag végéről fokozatosan levágni a hangrezgéseket, akkor vagy a /d/-t és a magánhangzót halljuk, vagy csak valamilyen nem beszéd jellegű zörejt. A /d/ hangot tehát nem találjuk meg az inputban. Pontosabban, ott van ugyan, de valójában a formáns- átmenet határozza meg, abban pedig szükségszerűen benne van a magánhangzó is. A /d/ ugyanis egy alveoláris zárhang, vagyis képzésekor az artikulációs csatorna lezárul, és nem enged ki hangot. Emiatt a /d/ csak akkor szólal meg, ha egy másik hang is jelen van, ami követi vagy megelőzi (próbáljuk kiejteni a /d/-t önmagában - valószínűleg ez csak úgy sikerül, ha egy magánhangzót is hozzáteszünk). Mindezek a jelenségek tehát arra utalnak, hogy nincs egy az egyben megfelelés a beszédhangok akusztikai jellemzői és azok reprezentációja között. Nem igazán tudjuk kijelölni azt a szakaszt az inputban, amelynek egy fonéma pontosan megfeleltethető lenne, ráadásul egy adott fonéma attól függően, hogy ki, mikor, milyen állapotban mondja, és hogy milyen egyéb hangok társaságában szerepel, egészen különböző megjelenési formákat ölthet. Ezt a megfeleltetési problémát Klatt (1979) akusztikai-fonetikai varianciaprob- lémának nevezte el. Másként ezt a következőképpen fogalmazhatjuk meg: mivel a fonémák vitathatatlanul rendelkeznek perceptuális realitással (hiszen meg tudjuk mondani, hogy a kéz és kész szavak miben különböznek egymástól), elvárható lenne tőlük, hogy olyan akusztikai jellemzőkkel bírjanak, amelyek lehetővé teszik a megkülönböztetésüket. Ennek ellenére mind ez idáig nem sikerült olyan állandó akusztikai észlelési kulcsokat találni, amelyek minden esetben meghatároznának egy adott fonémát. A variancia-invariancia probléma kapcsán két kérdés is felmerülhet. Az egyik, hogy van-e egyáltalán bármilyen olyan tulajdonsága a hangoknak, amely a kontextustól függetlenül mindig állandó (azt leszámítva, hogy a percepció, vagyis a fonéma reprezentációja valóban mindig az). A /d/ esetében például azt mondhatjuk, hogy a képzése során az artikulációs csatorna nagyjából ugyanazon a helyen záródik, a nyelv a fogmederhez tapad. Ez minden /d/ hangnál így van, függetlenül attól, hogy végül a megszólalásakor milyen akusztikai jellemzőkkel fog rendelkezni. Ez egy nagyon fontos tény, és a beszédészlelés elméletei kapcsán látni fogjuk, hogy a produkció invarianciája esetleg felhasználható a percepcióban. A másik kérdés, hogy vajon mennyire általános az invariancia? Minden fonémára igaz, vagy csak néhányra? Ezzel kapcsolatban azt mondhatjuk, hogy a mássalhangzókra szinte kivétel nélkül igaz, de a magánhangzók esetében nem feltétlenül van így. A magánhangzók, ha elég hosszúak, és nem tartalmaznak valamilyen gyors változást, akkor nem mutatnak kontextusfüggő átszerveződést. Ugyanakkor élőbeszédben a magánhangzók nagyon ritkán ilyenek, és ebben az esetben már létrejön a kontextusfüggő átszerveződés (Stevens-House 1963) Beszédkód és beszédmód Liberman és munkatársai (1967) szerint mindezen eredmények alapján fel kell adnunk azt az elképzelést, hogy a fonémák és a beszédhangok között egy az egyben megfeleltetés létezik. Ha viszont nincs egyértelmű megfeleltetés, akkor hogyan lesznek a beszédhangokból fonémareprezentációk? 241

256 11. FEJEZET A beszéd észlelése Liberman és munkatársai (1967) szerint a beszéd olyan, mint egyfajta kód. A kódokra általában az jellemző, hogy ugyanúgy képesek szállítani az üzenetet, mint az eredeti médium, de ezt olyan formában teszik, ami nem hasonlít az eredetihez. A telefonálás során például egy kódot használunk: az üzenetünk elektromos impulzusokká alakul át, és ezt közvetíti a telefonvonal egyik beszélőtől a másikig, ahol azután visszaalakul beszéddé. Ha azonban csak az elektromos impulzust néznénk, abból nem tudnánk megfejteni az üzenetet. Ehhez szükség van a kód lefordítására, vagyis a dekódolásra. Eszerint tehát a beszéd észlelése során is dekódolás zajlik, nem pedig megfeleltetés (Liberman et al. 1967). Miért mondhatjuk azt egyáltalán, hogy a beszéd kódként viselkedik? Liberman és munkatársai (1967) szerint a beszéd produkciója és percepciója között egyfajta kompromisszumos megoldás született. Ahhoz ugyanis, hogy a beszédhangok hatékonyan tudják szállítani az üzeneteket, az szükséges, hogy viszonylag nagy tempóval kövessék egymást (nagyon nehéz megérteni akkor egy szöveget, ha azt nagyon lassan mondják el; próbáljuk ki, milyen nehézséget okoz a megértésben, ha csak feleolyan gyorsan kezdünk beszélni barátainkhoz!). A gyors tempó viszont azt eredményezi, hogy nem tudjuk a hangokat külön-külön diszkréten kiejteni, vagyis létrejön a koartikuláció, és ennek révén a beszédkód. Ha a beszédészlelés során valóban dekódolás történik, akkor szükség van egy dekóderre is, vagyis egy olyan mechanizmusra, amely a kódot, azaz a beszédhangot lefordítja üzenetté, azaz fonémává. Azt mondhatjuk, hogy a beszédészlelés folyamatát olyan mechanizmusok valósítják meg, amelyek specifikusan csak a beszédhangok feldolgozását végzik, és nem foglalkoznak egyéb hangokkal. Mivel azonban a beszédészlelés során ugyanazt a hallószervet, illetve hallórendszert használjuk, mint bármilyen más hallási inger feldolgozása során, ezért ezek a speciális mechanizmusok valahol a feldolgozás magasabb szintjein helyezkednek el. Vannak bizonyítékok azzal kapcsolatban, hogy a hallási észlelésnek létezik egy speciális beszédmódja, pontosabban üzemmódja, ami akkor kapcsol be, ha beszédhangokkal találkozunk. Ezek a bizonyítékok olyan vizsgálatokból származnak, amelyek az úgynevezett szinuszhullámú beszédet használták ingerként (Remez et al. 1981). A szinuszhullámú beszédet úgy hozzák létre, hogy megvizsgálják a beszédhangok első három formánsát és ezek amplitúdó- és frekvenciaváltozásait, majd ezeket szintetizálják szinuszhullámok segítségével úgy, hogy a változásokat megtartják. Ezek a hangok két fontos jellemzőben térnek el a valódi beszédhangoktól: nem tartalmazzák azok komplex harmonikusszerkezetét, és nem tartalmazzák a hangszalagok rezgése által megvalósuló zöngét. Emiatt bár beszédszerűek, meglehetősen nehezen érthetők, és nagyon természetellenesen hangzanak. A kutatók azt találták, hogy ezeket az ingereket kétféleképpen lehetett észlelni: beszédhangként vagy komplex zajként. Ami még ennél is fontosabb, az instrukciótól függött, hogy a résztvevők hogyan hallották őket. Azok, akiknek azt mondták, hogy különös elektromos zajokat fognak hallani, valóban így értelmezték azokat, és nem hallottak beszédet. Azok viszont, akiknek azt mondták, hogy beszédet fognak hallani, képesek voltak megérteni azt, még ha nehezen is. Érdekes módon, miután a résztvevők egyszer már beszédként értelmezték a hangokat, később már nem voltak képesek nem így hallani őket. Ez a jelenség hasonlít a látás kapcsán tárgyalt azon mintafelismerési jelenségekhez, amikor csak bizonyos előzetes tudás birtokában vagyunk képesek egy alulspecifikált ábrán egy tárgyat felismerni (ilyet láthatunk a tárgylátással foglalkozó fejezetben). Eszerint tehát, ha beszédhangokat hallunk, akkor azokat kétféleképpen, beszédként vagy nem beszédként észlelhetjük. A beszédmód beindulásához az szükséges, hogy a hallgató a megfelelő, beszédszerű ingerekkel találkozzon. Ha ezek a hangok nem egyértelműek, mint a szinuszhullámú beszéd esetén, akkor az előzetes elvárások befolyásolhatják azt, hogy a hallgató beszédet vagy nem beszédet hall-e. A legtöbb esetben azonban nem kétséges, hogy amit hallunk, beszéd-e vagy sem, így ezekben az esetekben a beszédmód automatikusan beindul. Az automatikusságot bizonyítja, hogy nagyon nehezen tudjuk a beszédet nem beszédként hallani. Akárhogyan is próbáljuk, a természetes beszédet nem igazán tudjuk füttyök, zörejek és sziszegések kavalkádjának hallani, mint ahogyan ez a szinuszhullámú beszéd esetében minden probléma nélkül lehetséges. Remez és munkatársai (1981) viselkedéses mutatókat alkalmazó kísérleteinek eredményeit nemrégiben idegtudományi módszerekkel (EKP és fmri) is megerősítették. A kutatók (Dehaene-Lambertz et al. 2005) azt találták, hogy ugyanazt a hangingert a kísérleti személyek beszéd üzemmódban gyorsabban dolgozzák fel; azaz, ha fonémaelvárásuk van, akkor az eltéréseket előbb detektálják, mint ha komplex hangot várnak. Ezenkívül azt is sikerült kimutatni, hogy a beszédhang üzemmódban a bal félteke másodlagos hallókérgi területen az agyi aktivitás erőteljesen növekszik. A beszédmód működését a szinuszhullámú beszéd észlelésén kívül két másik jelenségben is tetten érhetjük: a fonémák egy speciális észlelési módjában, az úgynevezett kategoriális észlelésben, valamint a beszédészlelés 242

257 11. FEJEZET A beszéd észlelése agyféltekei különbségében. Nézzük meg először az agyféltekei különbségeket, a kategoriális percepció jelenségét pedig majd ezután tárgyaljuk Agyféltekei különbségek a beszédészlelésben A beszédhangok észlelése kapcsán nagyon sok kísérlet vizsgálta azt, hogy a feldolgozás jellegzetességeiért és eltéréseiért mely agyi területek felelősek. Bár ezen területek pontos azonosítása máig nem fejeződött be, általánosságban igaz az, hogy a beszédhangok feldolgozása inkább az agy bal oldali területein történik. A legelső kísérleti bizonyítékok olyan vizsgálatokból származnak, amelyek a beszédhangok feldolgozásánál a jobb fülbe érkező hangok feldolgozásának fölényét mutatták ki. Ezekben a vizsgálatokban a kísérleti személyeknek dichotikusan mutatnak be különböző szavakat, mégpedig mindkét fülbe egyszerre. A dichotikus hallgatási helyzetben a feladat az, hogy a bemutatás után idézzenek fel annyi szót, amennyit csak tudnak. Az ilyen kísérletek általános eredménye az, hogy a személyek több szót idéznek fel a jobb fülbe érkező szavak közül, mint a bal fülbe érkezők közül. Ez arra utal, hogy a beszédet feldolgozó agyi központok a bal féltekében találhatók, mivel tudjuk, hogy a fülekből érkező hallóidegek átkereszteződnek, vagyis a jobb fülből érkező információ a bal féltekébe jut, a balból érkező pedig a jobba. A jobb fül előnyét (az angolban a right ear advantage kifejezés alapján a REA rövidítést használják) kimutató kísérletek mellett közvetlenebb bizonyítékok is rendelkezésre állnak, amelyek a beszéd bal féltekei feldolgozását igazolják. Így a képalkotó eljárásokat alkalmazó vizsgálatok (fmri, PET) általánosságban azt mutatják, hogy a beszédhangok hallgatása során az agy bal oldali részei és elsősorban a halántéklebeny egyes részei aktívak (Scott-Johnsrude 2003) A beszédhangok kategoriális észlelése A beszédhangok kategoriális észlelése elnevezés arra a jelenségre utal, hogy az akusztikus jel kisebb-nagyobb mértékű változásai nem okoznak változást az észleletben, míg más, akusztikai jellemzőiben hasonló mértékű változások az észlelet megváltozásához vezetnek, azaz egy másik fonéma észlelését eredményezik. A kategoriális percepció valójában nem más, mint az anyanyelv beszédhangjainak torzított észlelése. Arról van ugyanis szó, hogy nem pontosan azt észleljük, ami valójában elhangzik, vagyis a beszédhangok fonémaazonosításának folyamatában nem képezzük le pontosan a hangok akusztikai tulajdonságait. Ez annál is furcsább, mert, mint láttuk, általában nagyon pontosan észleljük a hangok különböző akusztikai jellemzőit. Például, ha egy tiszta hang frekvenciáját változtatjuk, akkor nagyon jól különbséget tudunk tenni az egyes változások között. Ráadásul nagy különbség van a hangokban bekövetkező változás megkülönböztetése (diszkrimináció) és a megváltozott hangok azonosítása között. Általában sokkal több hangot meg tudunk különböztetni, mint ahányat azonosítani tudunk. A fonémáknál ez nem így van. Minden kísérleti adat arra utal, hogy körülbelül ugyanannyi fonémát tudunk diszkriminálni, mint amennyit azonosítani. Lényegében ez jelenti a kategoriális észlelést, azaz az egy adott fonémával azonosítható sokféle, eltérő akusztikai tulajdonságú beszédhangoknak a kategórián belüli akusztikai eltéréseit nem tudjuk diszkriminálni. Mindez arra utal, hogy a beszédhangok feldolgozása jelentősen eltér minden más hangétól, hiszen bármilyen, nem-beszéd jellegű hangoknál nem találjuk meg a kategoriális észlelést. Akármennyire torzított észlelést takar is a kategoriális percepció, nagyon is fontos célt szolgál, nevezetesen, a beszédhangok meghatározó akusztikai jegyeinek feldolgozását követő fonémaazonosítást. Azt segíti, hogy az egyébként nagymértékben változó akusztikus jellemzőkkel rendelkező beszédhangokat a fonémakategóriákhoz rendeljük. Azt is mondhatjuk, hogy a kategoriális észlelés teszi lehetővé azt, hogy a beszédhangokat megfelelően megértsük, hiszen a beszédhangok esetében pont az lenne a rossz, ha mindig pontosan az akusztikai jellemzőik mentén dolgoznánk fel őket A kategoriális észlelés kísérleti vizsgálata A kategoriális észlelés kísérleti bizonyításához kétfajta paradigmát szoktak alkalmazni: egy azonosítási és egy diszkriminációs vizsgálatot. Az azonosítási (identifikációs) vizsgálatban a kísérleti személyeknek olyan beszédhangokat mutatnak, amelyek csak egyetlen paraméter mentén térnek el egymástól (pl. csak az F2-ben). Ezt a paramétert egy kontinuum mentén, kis lépésekben változtatják, és a személyeket arra kérik, mondják meg, hogy melyik fonémát hallják. Ezzel az eljárással a fonémakategóriák határait lehet megtalálni. Liberman és munkatársai (1957) például kizárólag az F2 formáns átmenetének változtatásával mesterségesen létre tudták hozni a / bi/, /di/ és /gi/ szótagokat ( ábra). 243

258 11. FEJEZET A beszéd észlelése ábra. A Liberman és munkatársai (1957) által használt ingeranyag. Az F2 formáns fokozatos változtatásával elõbb a /bi/, azután a /di/, majd a /gi/ szótag jött létre Noha ezek egyáltalán nem hangzottak természetesen, mégis jól érthetőek voltak. Ezek után az egyik szótagból kiindulva, kis lépésekben változtatni kezdték a formánsátmenetet, egészen addig, amíg meg nem kapták a második, majd a harmadik szótagot. Ezzel egyfajta kontinuumot hoztak létre. Arra voltak kíváncsiak, hogy a személyek hogyan észlelik az F2 formánsátmenet változásának azon lépéseit, amelyek nem vezetnek egy másik fonéma észleléséhez, hanem valahová a kettő közé esnek. Ha belegondolunk, két eset lehetséges: például ha a / bi/ szótagból indulunk, és kis akusztikai változtatásokkal haladunk a /di/ szótag felé, akkor vagy az történik, hogy a személyek a két szótag között valamilyen átmeneti szótagot hallanak, vagy pedig egy ideig a /bi/-t, majd pedig a /di/-t. Valójában a kísérleti személyek ez utóbbiról számoltak be. Nem hallották a kis ugrásokat, hanem az észlelt szótag egyik pillanatról a másikra változott meg. Ha megnézzük a ábrát, azonnal látszik, hogy a kísérleti személyek egy adott kategória elemeit jó ideig teljes bizonyossággal (100%) az adott kategóriához sorolják, és soha (0%) nem a másikhoz. A két kategória határán (50%) viszont meredeken, mindenféle fokozatos átmenet nélkül vált az észlelő a másik kategóriára. Ez azért is különös, mert az akusztikai lépés nagysága a kategóriahatáron ugyanakkora, mint előtte a kategórián belül volt. Az észlelésben azonban drámai a különbség. Vagyis egyszerűbben fogalmazva: ugyanazon kategórián belül (a fonéma absztrakt reprezentációja) az eltérő akusztikai megvalósulási változatokat nem halljuk, míg két, azonos akusztikus dimenzió mentén kontinuumot alkotó fonéma határán (például a zöngésségi időben eltérő /b/ és /p/) két eltérő hangot észlelünk ábra. A fonémák kategoriális észlelése. A formánsátmenet változtatásával a fonémák azonosítása egyik lépésrõl a másikra, hirtelen változik meg. Az x tengelyen feltüntetett számok az elõzõ ábrán látható ingerekre vonatkoznak A diszkriminációs vizsgálatban az a kérdés, hogy a személyek képesek-e a különböző mértékben eltérő beszédhangokat megkülönböztetni egymástól. Ez tehát egy másik oldalról vizsgálja meg a kategoriális észlelést, és ugyanakkor erősebb bizonyítékát nyújtja. A diszkrimináció esetén ugyanis nem az a feladat, hogy a személyek címkézzék a hangokat, hanem egyszerűen azt kell megmondaniuk, hallanak-e különbséget közöttük. Ez tehát egy alacsonyabb szintű feldolgozást igényel. A diszkrimináció vizsgálatához leggyakrabban az úgynevezett AXB paradigmát használják. Ebben három beszédhangot mutatnak be egymás után, amelyek az azonosítási feladathoz hasonlóan csak egy paraméterben térnek el egymástól, és a kontinuum különböző részeiről választják ki őket. Valójában a diszkriminációs feladatban ugyanazokat az ingereket lehet használni, mint az azonosításiban. A három inger közül az A és B alkot egy párt, amelyek vagy egy fonémakategóriából, vagy két külön kategóriából származnak. Az X hang megegyezik vagy az A-val, vagy a B-vel. A kísérleti személyek feladata, hogy az AXB sorozat meghallgatása után eldöntsék, hogy az X az A-ra vagy a B-re hasonlít-e inkább. Ha a személyek nem tudják megkülönböztetni az A és a B hangot, akkor az X hanggal kapcsolatos döntés véletlen körüli találati pontosságú lesz, vagyis 50 százalék. Ha viszont különbséget tudnak tenni a két hang között, akkor ez az arány 50 százalék feletti lesz. Ezzel az eljárással úgy tudjuk bebizonyítani a kategoriális észlelés létezését, ha azt találjuk, hogy a kísérleti személyek nem tudnak különbséget tenni A és B között akkor, ha azonos fonémakategóriából származnak (de eltérő akusztikai tulajdonságaik vannak), de jól meg tudják különböztetni őket, ha eltérő kategóriába tartoznak. 244

259 11. FEJEZET A beszéd észlelése Vagyis a diszkrimináció fogalmaiban a kategoriális észlelés úgy fogalmazható meg, hogy a beszédhangok esetében a kategóriák közötti különbségre nagyon érzékenyek vagyunk, vagyis ezeket a különbségeket jól tudjuk diszkriminálni, a kategórián belüli különbségekre viszont elveszítjük az érzékenységünket, vagyis ezeket kevésbé jól tudjuk diszkriminálni A kategoriális észlelés újabb eredményei A beszédhangok kategoriális percepciójának első leírása óta természetesen nagyon sok vizsgálat született, amelyek több ponton is módosították Liberman és munkatársai (1957) eredeti elképzelését. Az egyik ilyen, azóta módosított elképzelés, hogy a kategoriális észlelés csak a mássalhangzókra vonatkozik. Liberman szerint, mivel a koartikuláció csak a mássalhangzókra vonatkozik, csak a mássalhangzóknál jelentkezik az akusztikai változatosság. Ebből következően valójában csak a mássalhangzók esetében van szükség arra, hogy az akusztikai információt átkódoljuk fonémakategóriákká, vagyis hogy ezeket kategoriális módon észleljük. Mivel tehát a magánhangzók esetében a koartikuláció nem jelentős, ezért azokat nem kategoriális módon, hanem a többi, nem beszédhanghoz hasonlóan dolgoznánk fel. Ha azonban jobban megvizsgáljuk a magánhangzók akusztikai jellemzőit, akkor azt találhatjuk, hogy valójában ezeknél is van bizonyos kontextusfüggő változás, főleg a természetes beszédhelyzetben, amikor is viszonylag gyorsan követik egymást a hangok. Ilyen természetes magánhangzókat vizsgálva valóban találtak bizonyítékot amellett, hogy a magánhangzók esetében is kategoriális észlelés működik (Fujisaki-Kawashima 1971, Pisoni 1975). Egy másik módosítás arra vonatkozik, hogy a kategoriális észlelés beszédspecifikus lenne. Liberman eredeti elképzelése szerint ugyanis a kategoriális percepció kizárólag a beszédhangok észlelésére jellemző, bizonyítékát adva a speciális beszédmód működésének. Azóta azonban kiderült, hogy vannak olyan nem-beszéd jellegű akusztikus ingerek is, amelyeket szintén kategoriális módon észlelünk. Locke és Kellar (1973) például zenei akkordokat mutattak be olyan kísérleti személyeknek, akik vagy profi zenészek vagy zenével nem foglalkozó laikusok voltak. Az akkordok három, egyszerre hallható tiszta hangból álltak, és csak a középső hang frekvenciáját változtatták egy kontinuum mentén. A kontinuum két végét két létező akkord alkotta. Azt találták, hogy a zenészek valóban kategoriálisan észlelték a hangokat, vagyis azokat a hangokat is, amelyek nem feleltek meg tökéletesen az akkordnak, hajlamosak voltak ahhoz hasonlónak észlelni. Ez a hatás nem jelentkezett ilyen erősen a laikusoknál, ők sokkal inkább az akusztikai különbségeknek megfelelően észlelték a hangokat. Végül a harmadik fontos módosítás a kategoriális percepció humánspecifikusságát érintette. Természetesen, ahogyan az egész beszédészlelést, a fonémák kategoriális percepcióját is csak az emberekre vonatkoztathatónak tartották. Ezzel szemben kiderült, hogy bizonyos körülmények között állatok is képesek a beszédhangok kategoriális észlelésére. Kuhl és Miller (1975) például csincsillákat vizsgálva azt találta, hogy ha megtanítják őket a /d/ és /t/ hang megkülönböztetésére (a csincsillák számára ismeretlen és jelentés nélküli ingerekhez jutalmat lehet társítani), akkor egy a fentiekben bemutatott klasszikus azonosítási feladatban a csincsillák kategóriahatárai hasonlóak lesznek az emberekéihez. Mindezek az eredmények tehát azt mutatják, hogy a kategoriális percepció nem csak a mássalhangzókra vonatkozik, sőt valójában nem-beszéd jellegű akusztikus ingereknél is megtalálható, ráadásul nem csak az ember képes erre. Ez megkérdőjelezi azt a feltételezést, hogy a kategoriális észlelés a speciálisan csak beszédhangokat feldolgozó észlelési mechanizmus létét bizonyítja. Mivel magyarázható akkor? A kategoriális észlelés magyarázata A kategoriális percepció egyik leginkább elfogadott magyarázata a tanulással indokolja ennek létrejöttét. Eszerint, amikor a beszéd megértését tanuljuk, akkor megtanuljuk, hogy csak bizonyos akusztikai különbségekre figyeljünk oda, olyanokra, amelyek befolyásolják a szavak jelentését. Láttuk, hogy a fonéma koncepciója pontosan erre vonatkozik, hiszen azt mondtuk, hogy a fonémák azok a nyelvi egységek, amelyek képesek a szavak jelentését megváltoztatni. Megtanuljuk viszont azt is, hogy azokra az akusztikai különbségekre, amelyek például a koartikuláció miatt léteznek ugyan, de nem okoznak jelentésbeli változást a szavakban, nem kell odafigyelni. A nyelv elsajátítása során nagyon sokszor találkozunk ezzel a dologgal, és így fokozatosan megtanuljuk, hogy táblykilil AihságühlfangJöikc sésmtlyítéstem. Nagyon sok tanulás után tehát lényegében átalakul az észlelésünk, és tulajdonképpen már nem is halljuk meg azokat az akusztikai változásokat, amelyek nem befolyásolják a szavak jelentését. Ha ez megtörténik, akkor lényegében létre is jött a kategoriális percepció. A tanulásnak a kategoriális percepcióban játszott szerepét két dologgal is alátámaszthatjuk. Az egyik a fentebb már említett zenei akkordok példája. Láthattuk, hogy az akkordok észlelése is kategoriálisan történt, de csak a profi zenészek esetében. Ők aktívan és minden bizonnyal 245

260 11. FEJEZET A beszéd észlelése hosz- szú idő át tanulták az akkordokat, és azt is megtanulhatták, hogy egy-egy akkord viszonylag eltérő akusztikai mintázatot tartalmazhat. A másik bizonyíték egy nyelvi különbségre mutat rá. A japán nyelvet beszélők számára különösen nagy problémát szokott okozni az, ha egy olyan idegen nyelvet kell megtanulniuk, amelyben az /l/ és /r/ hangok különálló fonémák, vagyis jelentésmegkülönböztető szerepük van. A japánban ugyanis nincs különbség e között a két fonéma között, ezért a japánok elveszítik érzékenységüket a két hang megkülönböztetésére. Természetesen minden más nyelv is így működik, vagyis mindazokra az akusztikai különbségekre, amelyek nem játszanak szerepet a fonémák elkülönítésében, elveszítjük az érzékenységünket A percepciós bázis A nyelvi egységek észlelésének mechanizmusa tehát a beszédmegértés fejlődése során alakul ki. Ahogy láttuk, ez a mechanizmus lényegében dekódolást hajt végre: az akusztikus információt (beszédhangok) fordítja le a perceptuális egységek mentális reprezentációjára (fonémák). Ezt a mechanizmust percepciós bázisnak nevezzük. Minden nyelvnek saját percepciós bázisa van, amely tanulás révén jön létre, az anyanyelv elsajátítása során. Azt mondhatjuk, hogy a percepciós bázis egyfajta szűrőként működik, vagyis csak azokat a beszédhangokat tudjuk feldolgozni, amelyek léteznek a saját nyelvünkben is. Ennek működését egy nagyon egyszerű példával szemléltethetjük (Gósy 2005). Tegyük fel, hogy van egy gyümölcsválogató gépünk, amely képes különválogatni az almát, a barackot, a körtét és a szilvát. Az a feladata, hogy amikor beledobunk egy gyümölcsöt, akkor azt annak fizikai jellemzői alapján betegye a megfelelő rekeszbe, vagyis gyümölcskategóriába. A gép úgy van beállítva, hogy csak a gyümölcsök lényeges jellemzőit vegye figyelembe, tehát azzal például nem foglalkozik, hogy a beledobott almák pontosan milyen színűek vagy méretűek, mivel azok lehetnek pirosak, sárgák, zöldek, kicsik, nagyok stb. De mi történik akkor, ha egy narancs jelenik meg a válogatandó gyümölcsök között? Természetesen a gép ezt is bele fogja dobni valamelyik rekeszbe, annak ellenére, hogy pontosan egyik kategóriának sem felel meg. Mégpedig abba a rekeszbe fogja belerakni, amelynek a tulajdonságaihoz a leginkább hasonlít. A gépnek ez a működése teljesen automatikusan és fennakadás nélkül zajlik. Nem áll meg gondolkodni azon, hogy most akkor melyik rekeszbe is kerüljön ez az újfajta gyümölcs, és nem is lepődik meg, hogy ilyennel találkozott. A gyümölcsválogató gépnek ez a működése megfelel annak, amit a beszédhangok percepciója során az észlelőrendszer csinál. A beszédészlelés során is vannak különböző jellemzőkkel rendelkező hangok, amelyeket meg kell feleltetnünk bizonyos véges számú fonémakategóriáknak. A hangok bizonyos akusztikai jellemzői fontosak, mások meg nem, és azt, hogy pontosan mely jellemzőkre kell figyelnünk, a nyelvelsajátítás során tanuljuk meg. Ez az analógia jól mutatja azt is, hogy mi történik akkor, ha egy olyan beszédhanggal találkozunk, amelynek nincs megfelelő kategóriája: ezt betesszük egy számunkra már létező kategóriába. Az ember azonban képes arra is, hogy ha szükséges, módosítsa a kategóriákat. A nyelvtanulás során pontosan ezt tesszük, vagyis új kategóriákat hozunk létre, és ezzel lényegében bővítjük a percepciós bázisunkat. Minden fonémakategória esetén kialakul az adott kategóriára leginkább jellemző akusztikai mintázatokkal rendelkező elem, az úgynevezett prototípus. Ez lenne az az elem, amit a csecsemő a leggyakrabban hall, vagyis ami az adott nyelvre leginkább jellemző. Miután ez a prototípus létrejött, úgy kezd el működni, mint egy perceptuális mágnes (lásd a szövegdobozt). Azokat a beszédhangokat, amelyek hasonlítanak hozzá, elkezdi maga felé vonzani. Ennek az lesz az eredménye, hogy a prototípushoz hasonló, de azzal nem megegyező hangokat is elkezdjük ugyanolyannak észlelni. Következésképpen a prototípushoz közeli hangok esetében, vagyis a kategórián belül csökkennek a különbségek, a prototípushoz nem hasonlító hangok esetében viszont nő a különbség, vagyis ezek eltérő kategóriába fognak kerülni. Ez a perceptuálismágnes-hatás tehát gyakorlatilag felülírja a valódi akusztikai különbségeket, és valójában azokat a hangokat fogjuk hasonlóan hallani, amelyek azonos kategórián belül vannak, és azokat halljuk különbözőnek, amelyek két külön kategóriában vannak. Mindez gyakorlatilag független attól, hogy valójában mekkora akusztikai különbség van a hangok között, mivel ugyanakkora különbség okozhatja az azonos kategóriába tartozást és a különböző kategóriába tartozást is. A perceptuális mágnes esetében tehát egy alapvető mechanizmus a kategórián belüli perceptuális különbségek csökkentése és a kategóriák közötti perceptuális különbség növelése táblázat - AZ ANYANYELVI MÁGNES A nyelvre jellemző fonémakategóriák elsajátítása kapcsán érdemes megemlítenünk Patricia Kuhl (1991) perceptuális mágnes vagy anyanyelvi mágnes (NativeLanguageMagnet) elméletét. Eszerint a csecsemők már születésüktől képesek a beszédhangokat megkülönböztetni, de valójában az összes lehetséges fonéma 246

261 11. FEJEZET A beszéd észlelése között képesek különbséget tenni. Az anyanyelvvel való intenzív érintkezés hatására azonban a fonémakategóriák átalakulnak, és idomulnak az adott nyelvhez. Azok a kategóriák, amelyek az adott nyelvben nem léteznek, eltűnnek (például a japánban az l-r különbség), és a megmaradó kategóriák is megváltoznak úgy, hogy a kategóriahatárok megfeleljenek az adott nyelvben létező kategóriáknak. Ezt úgy képzelhetjük el, mintha egyfajta észlelési térben különböző mozgások és görbületek jönnének létre. A teret a lehetséges akusztikai jellemzők határozzák meg, és a fonémák ennek a térnek bizonyos pozícióit foglalják el. Kicsit dramatizálva a helyzetet, úgy foglalhatjuk össze a csecsemők beszédészlelésének fejlődését, hogy minden baba világpolgárként születik, azzal a képességgel, hogy a világ összes nyelvében fellelhető beszédhangokat meg tudja különböztetni. De azután mire egyévesek lesznek, elveszítik ezt a képességüket, nyelvspecialistákká válnak, és már csak a saját anyanyelvük hangjai között tudnak különbséget tenni. Mindez azonban természetesen szükségszerű, és lehetővé teszi azt, hogy azokat a jellemzőket, amelyek a saját nyelvünkben fontosak, a lehető legjobban és leggyorsabban képesek legyünk feldolgozni A fonéma mint elemi perceptuális egység Mind ez idáig a fonémáról úgy beszéltünk, mint a beszéd alapvető alkotóeleméről, és a beszédészlelés céljaként a bejövő akusztikai információ és a fonéma reprezentációja közötti megfeleltetést jelöltük ki. Láttuk azonban azt is, hogy ez a megfeleltetés akusztikai bemenet és reprezentáció között nem egyértelmű, mivel a beszédhangok meglehetősen változatos akusztikai jellemzőkkel rendelkezhetnek a kontextustól és a beszélőtől függően. Ezen akusztikai-fonetikai non-invariancia-probléma egyik megoldásaként kínálkozott az, hogy a beszédhangokat nem pontos akusztikai megjelenésüknek megfelelően észleljük, hanem kategoriális módon, mintegy elvonatkoztatva az akusztikai információtól. Láttuk azt is, hogy a kategoriális észlelés a nyelvi tapasztalat révén jön létre, és ennek megfelelően nyelvspecifikus, azaz minden nyelv esetében más. Azonban annak ellenére, hogy tudjuk, hogy a fonémákat kategoriálisan észleljük, ez még nem feltétlenül jelenti azt, hogy valóban a fonéma az a perceptuális egység, amit a beszédészlelés során feldolgozunk. A fonéma mint elemi perceptuális egység problémája úgy fogalmazható meg, hogy a fonémák észlelése valójában két módon történhet: közvetlenül vagy következtetés révén. A közvetlen észlelés azt jelenti, hogy a beszédészlelés során az akusztikai inputot a fonémák mentén daraboljuk fel, és ezeknek a szekvenciáknak feleltetjük meg a fonémákat. A következtetés révén történő észlelés során viszont előbb egy nagyobb egységet észlelünk, majd pedig a későbbiekben ezt tördeljük kisebb egységekre, azaz fonémákra. Azt természetesen senki sem vitatja, hogy a beszédészlelés központi és alapvető feladata a fonémák reprezentációjának létrehozása. Mindkét elmélet szerint igaz az, hogy a fonémák nyelvi realitással rendelkeznek, hiszen a minimális párok (kéz-kész) jelentése között egyedül a fonémák tesznek különbséget. Az viszont kérdéses, hogy vajon a beszéd észlelése során közvetlenül ezeket észleljük-e, vagy pedig csak következtetünk rájuk. Milyen bizonyítékokat lehet hozni amellett, hogy a fonémákra valójában csak következtetünk? A fonémarestaurációs hatás A fonémák nem közvetlen észlelésére utaló egyik lehetséges bizonyíték a fonémarestauráció jelensége (Warren 1970). A fonémarestauráció vagy fonemikus helyreállítás arra vonatkozik, hogy amikor egy szóból kivesznek egy fonémát, és a helyét zajjal elfedik, akkor ezt általában nem vesszük észre, és nem tudjuk megmondani, hogy melyik beszédhang hiányzott. Warren a vizsgálatában mondatokat játszott le a kísérleti személyeknek; a mondatok egyik szavából egy-egy fonémát kivett, és valamilyen természetes zajjal (pl. köhögéssel) helyettesítette. Például: A képviselők találkoztak a fővárosban összehívott *örvényhozó testületekkel, ahol a * helyén köhögés volt hallható. Az ehhez hasonló mondatok megértése semmilyen problémát nem okozott a kísérleti személyeknek, sőt valójában sem azt nem tudták megmondani, hogy melyik hang hiányzott a mondatból, sem azt, hogy pontosan hol szerepelt az elfedő inger (a köhögés). Hasonló jelenséggel már találkoztunk az előző fejezetben, a hallási szerveződés elveinél. A folytonosság illúziója nagyon hasonló jelenségre mutatott rá, hiszen annál arról volt szó, hogy ha egy eredetileg nem folytonos hangban a szünetek helyét zajjal kitöltjük, akkor a hangot folyamatosnak fogjuk hallani. A fonémarestauráció tulajdonképpen ugyanerre a dologra vonatkozik, hiszen itt is egy nem létező hang hallását teszi lehetővé az, hogy egy elfedő ingert mutatunk be a hang helyén. 247

262 11. FEJEZET A beszéd észlelése A jelenség további vizsgálata feltárta, hogy a fonémarestauráció három feltételtől függ: az elfedő hang tulajdonságaitól, a beszéd folytonosságától és a hallgató nyelvi képességeitől. A jelenség ezek szerint csak akkor áll elő, ha az elfedő hang valóban egy maszkolásra alkalmas hang, vagyis ha csak csenddel helyettesítjük a fonémát, akkor nem jön létre a hatás. Valamint az szükséges, hogy a hallgató a beszédet valóban folytonosnak észlelje, ellenkező esetben szintén nem alakul ki a fonémarestauráció. Végül úgy tűnik, hogy a fonémarestauráció magas szintű nyelvi képességeken alapul. Amikor a kísérleti személyeknek olyan szavakat mutattak, amelyekben egy fonémát szándékosan rosszul ejtettek (pl. kommuwikáció kommuíikáció ), majd ezt a rosszul ejtett fonémát vágták ki és cserélték ki zajjal, akkor azt tapasztalták, hogy a személyek a helyes, és nem a rosszul ejtett fonémát állították vissza. Annak ellenére történt ez így, hogy a koartikuláció a /t/ és nem az /n/ hangot jelezte előre. Vagyis úgy tűnik, hogy a személyek a fonémarestauráció során felhasználják magas szintű nyelvi ismereteiket is. A fonémarestaurációs hatás azt mutatja, hogy akkor is hallhatunk fonémákat, ha azok voltaképpen nem is szerepelnek az akusztikai inputban, ráadásul az ily módon hallott fonémák nem különböznek a valóban hallottaktól. Következésképpen az akusztikai bemenetből nem feltétlenül a fonémákat nyerjük ki elsőként, hanem inkább csak következtetünk azokra. Kiegészítésképpen érdemes megjegyeznünk, hogy az úgynevezett kattanás- (click-) kísérletek eredményei szintén arra utalnak, hogy a percepció a fonémáknál nagyobb egységekben történik. Ezekben a vizsgálatokban a folyamatos beszédben kattanó hangokat helyeznek el, a kísérleti személyeknek pedig ezek helyét kell meghatározniuk. Az esetek többségében ez nem sikerül, sőt a legtöbben észre sem veszik a kattanást. Az ilyen, elsősorban a beszédfeldolgozás hierarchiájának feltárására végzett kísérletek következtetése is az, hogy a beszédészlelésben a fonémáknál nagyobb egységek működnek A fonémák azonosításának sebessége Egyéb bizonyítékok is vannak arra vonatkozóan, hogy nem a fonéma az elsődleges perceptuális egység. A fonémamonitorozási feladatokban például azt találták, hogy a kísérleti személyek gyorsabban detektálják a szótagokat, mint a fonémákat (Savin-Bever 1970). A fonémamonitorozási feladatban a résztvevőknek az a feladatuk, hogy egy szöveget hallgassanak, és minél gyorsabban lenyomjanak egy gombot, ha a szövegben észreveszik a célingert, amely egy fonéma vagy egy szótag lehet. Az ilyen kísérletek általános eredménye az, hogy a kísérleti személyek rövidebb reakcióidővel reagálnak a célingerre, ha az egy szótag, mint ha az egy fonéma. Ez arra utal, hogy az input feldolgozása során a szótagokat előbb dolgozzuk fel, mint a fonémákat, vagyis valószínűleg ez utóbbiak már egy következtetési folyamat eredményei A magánhangzószekvencia-illúzió Az egyik leginkább meggyőző bizonyíték a magánhangzószekvencia-illúzió vagy illuzórikus szótag nevű jelenségből származik. Az illúzió abban áll, hogy ha nagyon rövid magánhangzócsoportokat (pl. négy magánhangzóból álló szekvenciákat) gyors egymásutánban mutatunk be, akkor nem különálló fonémákat hallunk, hanem szótagokat. Ezekre az illuzórikus szótagokra az jellemző, hogy követik az adott beszélők nyelvi tapasztalatait, vagyis a formánsátmenetekhez hasonló akusztikai jellemzőket az észlelő az anyanyelvére jellemző és az anyanyelv fonotaktikai (a beszédhangoknak az adott nyelvben lehetséges együtt-előfordulása) szabályainak megfelelő szótagként hallja (Warren et al. 1991). Ez a különös észlelet szintén arra utal, hogy a beszéd észlelése során nem elsődlegesen a fonémákat dolgozzuk fel, hanem nagyobb, magasabb szintű nyelvi egységeket. A magánhangzószekvencia-illúzió pontosan azt mutatja, hogy ha az ingerfeltételek nem optimálisak (például mert a hangok túl gyorsan követik egymást), akkor az észlelőrendszer nem képes kivonni a fonémainformációt, de a szótagokat továbbra is felismeri. Sőt az optimális feldolgozásra alkalmatlan fonémaszekvencia kapcsán egy olyan döntést hoz, hogy azok minden bizonnyal nem önmagukban állnak, hanem mássalhangzókkal együtt, és ez utóbbiakat mesterségesen hozzáadva, egy szótagsorozat észleletét kapjuk meg. Mindezek az eredmények tehát, kiegészítve a fonémaészlelés fejlődési aspektusával, melyről a Fonémaészlelés gyerekeknél című szövegdobozban lehet olvasni, megkérdőjelezik azt, hogy valóban a fonéma lenne az a perceptuális egység, amely mentén a beszédet észleljük. Természetesen felmerül a kérdés, hogy akkor melyik nyelvi egység lenne alkalmas az elemi perceptuális egység szerepére. Ahogy a fentiekben láthattuk, bizonyos esetekben a szótagok sokkal inkább alapvető perceptuális egységként viselkednek: a szótagokat gyorsabban detektáljuk a fonémamonitorozási helyzetben, a magánhangzószekvencia-illúzió esetében szótagokat hallunk különálló fonémák helyett, és a gyerekek is könnyebben tagolják a hallottakat szótagokra, mint fonémákra. A szótagokkal mint perceptuális egységekkel kapcsolatban azonban van egy komoly probléma: nevezetesen az, hogy egy adott nyelvben a lehetséges szótagok száma meglehetősen nagy. Ez azért okoz problémát, mert túl sok 248

263 11. FEJEZET A beszéd észlelése információt kellene elraktároznunk. A fonémák esetében ez a tárolási feladat nagyon hatékonyan működik: a fonémákból viszonylag kevés van, mégis az összes lehetséges szó felépíthető a segítségükkel. A szótagok esetében sokkal több eltárolt információra van szükség ahhoz, hogy minden lehetséges szót fel tudjunk építeni belőlük. Ez úgy oldható fel, ha azt feltételezzük, hogy a beszédészlelés automatikus azonosítási egységei a fonémák (ezek kategoriális természete születéstől fogva adott, a tapasztalat ezt módosítja), az észlelő számára hozzáférhető perceptuális egységek viszont a szótagok. Egyelőre még nem született konszenzus az elemi perceptuális egységgel kapcsolatban, és nem lehetünk biztosak sem a fonéma, sem a szótag nyerési esélyeiben. Az itt bemutatott eredmények arra utalnak, hogy a fonéma reprezentációja sok esetben nem közvetlen módon, hanem valamilyen következtetés révén jön létre. Ugyanakkor vitathatatlan a fonéma nyelvi realitása, vagyis az, hogy létfontosságú szereppel bír a beszéd észlelésében. További kutatások fogják eldönteni ezt a kérdést táblázat - FONEMAESZLELES GYEREKEKNÉL A felnőttekkel végzett kísérleteken kívül két speciális csoporttal folytatott kísérletek eredményei is azt támasztják alá, hogy a beszéd észlelésében nem a fonéma a legfontosabb perceptuális egység. Gyerekekkel végzett kísérletek azt mutatják, hogy ők még nem képesek meghatározni az egyes szavakban található fonémák számát, vagyis nem képesek a szavakat fonémákra bontani. Ezzel szemben a szavak szótagjainak számát pontosan meg tudták határozni. Ez arra utal, hogy a szavak beszédhangokra bontása nem automatikus folyamat, miközben a beszédhangkontrasztok eltérésének agyi feldolgozása az (bővebben lásd Csépe 2006). Mivel azonban a gyerekek kb. öt-hat éves koruk előtt a szavakat nem képesek az összetevő fonémák szerint lebontani, azonosítani, azt is feltételezhetjük, hogy a fonémák azonosításának képessége tanult (Liberman et al. 1974). Nem csak a gyermekek számára okoz nehézséget a szavak fonémákra tagolása. Morais (1979) azt találta, hogy az olvasni nem tudó, azaz analfabéta felnőttek számára szintén nehézséget okoz a szavakat alkotó fonémák azonosítása. Ez arra utal, hogy a szavak fonémákra bontása nem automatikus folyamat, hanem tanulás révén, mégpedig az olvasás tanulása révén jön létre. Az olvasás folyamatait a nyelv és gondolkodás témakörében szokás inkább tárgyalni (Csépe-Győri-Ragó [szerk.]: Általános pszichológia 3.), az érdeklődő olvasó ott bővebben tájékozódhat. Itt most csak annyit jegyeznénk meg, hogy az olvasási képesség elsajátításához nyilvánvalóan szükség van arra, hogy a gyerekek képesek legyenek a szavakat hangjaikra bontani és azokat a megfelelő fonémával azonosítani, hiszen azt kell megtanulniuk, hogy ezeket hogyan lehet hozzákapcsolni az írott szavakat alkotó betűkhöz. 2. A beszédészlelés elméletei Az eddigiekben áttekintettük mindazokat a jelenségeket, amelyek a beszédhangokkal és észlelésükkel kapcsolatosak. Nem foglalkoztunk azonban azzal a kérdéssel, hogy valójában hogy is valósul meg a beszéd észlelése. A továbbiakban azt a két legfontosabb elméletet tekintjük át, amelyek a beszédészlelést próbálták magyarázni A motoros elmélet A beszédészlelés motoros elmélete szerint a perceptuális invariancia annak köszönhető, hogy a beszédhangok feldolgozása során szoros kapcsolat van a beszédhangok produkciója és percepciója között, és ezt a kapcsolatot a percepció során fel is használjuk. Vagyis az, ahogyan a fonémákat produkáljuk, közvetlenül hat arra, ahogyan észleljük őket. Ennek az elképzelésnek több változata is létezik, amelyek közül a legismertebb az Alvin Liberman nevéhez fűződő motoros elmélet (Liberman et al. 1967). Az elmélet szerint a /di/ szótag kezdetét azért halljuk hasonlónak a /du/ szótag kezdetéhez, mert ezek képzésekor ugyanolyan motoros parancsot adunk ki a beszédképző szerveknek. Vagyis a percepció során azért tűnnek egyformának az egyébként eltérő akusztikai paraméterekkel rendelkező fonémák, mert a produkció során ezeket valóban egyformának szánjuk. Az más kérdés, hogy a beszélők különbözősége, illetve a koartikuláció miatt ezek a fonémák akusztikailag nem lesznek azonosak, de szándék szerint ezeknek egyformáknak kellene lenniük. A beszédészlelés során tehát valamilyen módon erre a szándékra próbálunk következtetni, és nemcsak az akusztikai inputot vesszük figyelembe, hanem megpróbáljuk kitalálni, hogy a beszélő mit akart mondani. 249

264 11. FEJEZET A beszéd észlelése A motoros elmélettel kapcsolatban meglehetősen sok kritika fogalmazható meg. Az ellenérvek közül a legfontosabbak a következők (Gósy 2005): a. A beszédképzés hibája nem feltétlenül vezet az észlelés károsodásához. Például attól, hogy valaki nem képes az /r/ hangot kiejteni, még a megértésnél felhasználhatja azt. b. Az idegen nyelvet általában könnyebb megérteni, mint beszélni. Sőt a legtöbb esetben az, hogy akcentussal beszélünk egy idegen nyelvet, még nem okozza annak megértési problémáit. c. Az anyanyelv elsajátítása során a gyerekek előbb értik meg a beszédet, mint hogy beszélni tudnának. Mindezen kritikák ellenére a motoros elmélet támogatói szerint nagyon jól magyarázza a beszédészleléssel kapcsolatos alapvető problémát, vagyis az akusztikai-fonetikai non-invariancia-problémát. Ugyanakkor az elmélet legnagyobb hiányossága, hogy nem képes megmagyarázni, hogyan kapcsolódik össze a beszédészlelés során az akusztikai input és a produkciós szándék táblázat - ALVIN MEYER LIBERMAN Alvin Meyer Liberman 1917-ben született az egyesült államokbeli St. Josephben. Diplomáját a Missouri Egyetemen, PhD-fokozatát pedig a Yale-en szerezte és 1986 között ő volt a Yale híres Haskins Laboratóriumának vezetője, és élete végéig ott dolgozott mint vezető kutató. Mind a Connecticut Egyetem, mind a Yale professzor emeritusává választotta. E két rangos cím jól tükrözi egész pályafutását: a Connecticut Egyetemen ugyanis a pszichológiai tudományok professzora, míg a Yale-en a nyelvészeti tudományok professzora volt. Liberman a beszédészlelés pszichológiai kutatásának meghatározó alakja volt, akinek elméletei nemcsak az elmúlt ötven év kutatásának alapjául szolgáltak, de fontos szerepet játszottak a modern számítógépes beszédszintézis kialakulásában is. Liberman beszéddel kapcsolatos kutatásai a második világháború után kezdődtek, amikor is azt a feladatot kapta, hogy hozzon létre vakoknak szánt olyan felolvasógépet, amely képes az írott szöveg beszéddé alakítására. Az első próbálkozások arra irányultak, hogy az ábécé különálló betűihez a betűknek megfelelő hangokat rendeljék hozzá. Többévnyi erőfeszítés után sem tudtak azonban egy olyan berendezést létrehozni, amely ezen az elven működve képes lett volna akár a normál beszéd tizedrészét megközelítő gyorsasággal érthető szöveget produkálni. A sikertelen próbálkozások hatására Libermant az kezdte foglalkoztatni, hogy a beszéd miért képes olyan gyorsan és hatékonyan a nyelvi információ átvitelére? Ennek a kérdésnek a tanulmányozása lényegében egész további tudományos pályafutását meghatározta, és elvezetett a beszédhangok kategoriális észlelésének és a beszédészlelés motoros elméletének megalkotásához. A kutatások során Liberman és munkatársai feltárták a beszédhangok több fontos akusztikai jellemzőjét is, ami azután nagyban segítette a számítógépes beszédszintézis létrejöttét. Jórészt Liberman munkásságának köszönhető, hogy a beszédészlelés tanulmányozása ami addig elsősorban a nyelvészet érdeklődésére tartott számot bekerült a kognitív pszichológia kutatási témái közé Megkülönböztető jegyek elmélete vonásdetekció a beszédészlelésben A megkülönböztető jegyek elmélete szerint a beszéd feldolgozásának bizonyos szintjén vannak olyan vonásdetektorok, amelyek a fonémák bizonyos jellegzetességeire (képzés helye, zöngésség stb.) szelektíven 250

265 11. FEJEZET A beszéd észlelése érzékenyek. Az elképzelés szerint ezek a neuronok hasonlóan működnek, mint a látás kapcsán tárgyalt vonásdetektorok, melyek a vizuális inputban található különböző jellemzőkre mint az élek iránya vagy mozgása voltak érzékenyek. A beszédészlelés kapcsán ezek a vonásdetektorok úgy működnének, hogy a már részben feldolgozott akusztikai inputban a nekik megfelelő jellemzőket keresnénk, és ha az jelen van, akkor tüzelnének, ha viszont nincs jelen, akkor nem tüzelnének. Például egy /d/ hang feldolgozása során azok a detektorok tüzelnének, amelyek a zöngés, az alveoláris és a zárhangokra lennének érzékenyek (lásd a táblázatot). Ha ellenben a zöngétlen, az alveoláris és zárhangokra érzékeny neuronok tüzelnének, akkor a /t/ fonéma lenne aktív, vagyis azt észlelnénk. Fontos, hogy a detektorok működése nyelvspecifikus, vagyis egy adott nyelvre jellemző fonémakülönbségekre reagálnak. Ebből következően a vonásdetektorok válaszjellemzői a nyelvelsajátítás során alakulnak ki. Az elmélettel kapcsolatos legfőbb bizonyítékok hasonló kísérleti elrendezést használtak, mint amit a vizuális rendszer vonásdetektorainak tanulmányozásánál már láthattunk. Vagyis a kísérletek arra törekedtek, hogy az adott jellemzőre érzékeny neuronokat kifárasszák azáltal, hogy egy olyan ingert ismételnek sokszor, amelyre azok szelektíven válaszolnak. Például, ha egy bizonyos irányú vonalat hosszú ideig nézünk, akkor a kissé eltérő irányú vonalakat átmenetileg valódi irányuktól eltérőnek látjuk. Ennek az az oka, hogy a neuronok érzékenysége a sokáig nézett irányra a kifáradás miatt csökken. A beszédhangok esetében Eimas és Corbit (1973) végzett hasonló kísérleteket, amelyekben különböző mesterségesen előállított beszédhangokat mutattak be a kísérleti személyeknek. A hangok között voltak olyanok, amelyek nem egy fonémakategória prototipikus tagjai voltak, hanem két kategória között helyezkedtek el. Emiatt ezeket a kísérleti személyek hol az egyik, hol a másik kategóriába tartozónak észlelték (emlékezzünk vissza, hogy a kategoriális észlelés értelmében soha nem észlelünk összegyúrt kategóriákat, hanem mindig vagy egyik, vagy másik kategóriához tartozó hangokat). Ezután a személyek hosszú perceken át hallgatták az egyik tiszta kategóriát, majd ismét a bizonytalant. A kutatók azt találták, hogy az egyik kategória hosszú időn át történő hallgatásának hatására a bizonytalan fonémát sokkal inkább a másik kategóriába tartozónak észlelték a kísérleti személyek. Ez az eredmény úgy értelmezhető, hogy ugyanannak a fonémának a hosszú időn át való hallgatása kifárasztotta az arra érzékeny neuronokat, azaz a vizuális észlelőrendszerben megfigyelt adaptációs jelenségről lehet szó. A bizonytalan fonémáról feltételezhető, hogy azt mindkét neuroncsoport feldolgozza. Ha azonban az egyik csoportot kifárasztjuk, akkor csak a másik tud majd válaszolni, és emiatt a bizonytalan fonémát immár a másik kategóriába tartozónak fogjuk észlelni ÖSSZEFOGLALÁS 1. A beszédészlelés során a beszédhangok és hangkapcsolatok azonosítása történik. A beszédhangok a beszédnek azok a legkisebb elemei, amelyek egy adott nyelvben jelentésmegkülönböztető szerepűek. A beszédhangok a beszéddel kapcsolatos akusztikai információk, a fonémák pedig az általános tulajdonságok alapján azonosnak észlelt beszédhangok mentális reprezentációi. 2. A beszédhangokat a hangképző szervek hozzák létre, amelyek a gége alatti, a gégei és a gége feletti rendszerből állnak. A beszédhangok képzésekor a tüdőből kiáramló levegő megrezegteti a hangszalagokat, aminek hatására zönge keletkezik. A beszédhangok végső formáját az artikulációs csatorna (garat-, száj-, orrüreg) hozza létre. 1. A beszédhangok magánhangzókra és mássalhangzókra oszthatók, amelyek tovább csoportosíthatók a magánhangzók esetében a nyelv függőleges és vízszintes helyzete, az ajakállás és az időtartam, a mássalhangzók esetében pedig a képzés módja, a képzés helye, a zöngésség és az időtartam alapján. 2. A beszédhangok több frekvenciakomponensből összetevődő, periodikus hangok, amelyek a frekvencia és intenzitás időbeni változásait tartalmazzák. A beszédhangok frekvenciakomponenseit formánsoknak nevezzük, az alapfrekvenciát pedig F0-lal jelöljük. A beszédhangok időben változó frekvenciakomponenseit a spektrogramon lehet megjeleníteni. 3. A beszédhangok észlelési folyamata két szakaszból áll: a beszédhangoknak az akusztikai környezettől való elválasztásából, amely a perceptuális csoportosítás Gestalt-elvei alapján történik, és az ily módon elkülönített beszédhangok fonémaazonosításából. A beszéd akusztikai jellegzetességei nem teszik lehetővé a beszédhangok és a fonémák egy az egyben történő megfeleltetését (akusztikai-fonetikai varianciaprobléma). 4. Ennek oka, hogy a) a beszédhangok túl gyorsan követik egymást; b) koartikuláció jön létre, vagyis a beszédhang akusztikai jellemzői megváltozhatnak attól függően, hogy előtte vagy utána milyen hangok 251

266 11. FEJEZET A beszéd észlelése állnak; c) a beszélő jellemzői (kor, nem, érzelmi állapot) befolyásolják a beszédhangok akusztikai megvalósulását; d) az akusztikai input folyamatos, a fonémareprezentáció viszont diszkrét (szegmentációs probléma). 5. A beszéd észlelése során dekódolás zajlik, és létezik egy speciális beszédmód, amely kizárólag a beszédhangok feldolgozását valósítja meg. A beszédmód létezésére több bizonyíték van: a) a szinuszhullámú beszéd észlelése; b) agyféltekei különbségek a beszéd észlelésében; c) a beszédhangok kategoriális észlelése. 6. A beszédhangok kategoriális észlelése azt jelenti, hogy az akusztikus jel kisebb-nagyobb mértékű változásai nem okoznak változást az észleletben, míg más, akusztikai jellemzőiben hasonló mértékű változások az észlelet megváltozásához vezetnek. A kategoriális észlelés azt segíti, hogy az egyébként nagymértékben változó akusztikus jellemzőkkel rendelkező beszédhangokat a fonémakategóriákhoz rendeljük. 7. A kategoriális észlelés tanulás révén jön létre: azt tanuljuk meg, hogy csak bizonyos akusztikai különbségekre figyeljünk oda, olyanokra, amelyek befolyásolják a szavak jelentését. A tanulás révén átalakul az észlelésünk, és elveszítjük érzékenységünket azokra az akusztikai változásokra, amelyek nem befolyásolják a szavak jelentését. Így jön létre az adott nyelvre jellemző percepciós bázis. 8. Vannak bizonyítékok amellett, hogy a fonémák valójában nem a beszéd alapvető perceptuális egységei, hanem következtetünk rájuk. Ezen bizonyítékok: a) a fonémarestaurációs hatás; b) a fonémák azonosítási sebessége; c) az illuzórikus szótag jelensége; d) a fonémaészlelés fejlődése kapcsán kapott eredményekből származnak. 9. A beszédészlelést két jelentős elmélet magyarázza: a) a motoros elmélet, amely a percepció és a produkció szoros együttműködését tételezi fel, és b) a megkülönböztető jegyek elmélete, amely a fonémák akusztikus jellemzőire érzékeny vonásdetektorokat tételez fel KULCSFOGALMAK akusztikai-fonetikai varianciaprobléma, artikulációs csatorna, dichotikus hallgatási helyzet, fonémák, fonémarestaurációs hatás, formáns, kategoriális észlelés, koartikuláció, motoros elmélet, spektrogram, szegmentációs probléma 2.5. ELLENŐRZŐ KÉRDÉSEK 1. Minimális pár-e a gal és a kai szó? 2. Próbáljuk meg felsorolni, hogy a ma szótag képzésében mely szervek vesznek részt! 3. Hogyan jön létre a beszédhangok komplex és periodikus jellege? 4. Mi szükséges ahhoz, hogy mesterségesen hozzunk létre beszédhangokat? 5. Mi a hasonlóság és a különbség az /i/ és /a/ hangok között a nyelv helyzete, az ajakállás és az időtartam tekintetében? 6. Hasonlítsuk össze a hangok oszcillogramon, spektrumon és spektrogramon történő ábrázolását! Melyik a legalkalmasabb a beszédhangok megjelenítésére, és miért? 7. Mit jelent az, hogy a beszéd egyfajta kód? 8. Mi lehet az oka annak, hogy könnyű mesterségesen olyan beszédhangokat létrehozni, amelyek jól érthetők, de nehéz olyanokat, amelyek nagyon hasonlítanak az emberi beszédhez? 9. Miért mondhatjuk azt, hogy a kategoriális észlelés valójában egy észlelési torzítás? 10. Hogyan értelmezhető az akcentus a kategoriális észlelés fogalmaiban? 2.6. AJÁNLOTT OLVASMÁNYOK 252

267 11. FEJEZET A beszéd észlelése Gósy Mária Fonetika, a beszéd tudománya. Osiris, Budapest. Gósy Mária Pszicholingvisztika. Osiris, Budapest. 253

268 14. fejezet FEJEZET A zene észlelése David Huron, a zene evolúciós eredetével foglalkozó neves kutató a következő példával illusztrálja a zenének az emberek életében betöltött szerepét (Huron 1998). Képzeljük el, hogy marslakók vagyunk, akik néhány hónapja érkeztek a Földre, és az itteni emberek viselkedését tanulmányozzuk és próbáljuk megérteni. Már egy csomó értelmes tevékenységre fényt derítettünk, és rájöttünk, hogy az emberek idejük nagy részét olyan hasznos tevékenységekkel töltik, mint az élelem felkutatása és elkészítése, a szálláshely fenntartása, az utódok gondozása és más egyéb ehhez kapcsolódó tevékenység. Néhány napja azonban megfigyeltük két, látszólag normális egyed, Kati és János igencsak furcsa viselkedését. Úgy tűnik, hogy János egy nagyon különös betegségtől szenved. Néha hosszú ideig némán ül a székén, és csak bámul maga elé. Esetenként az egy helyben ülés mellé a láb ismétlődő rázása is társul, és időnként az is előfordul, hogy felugrik a helyéről, és a tengelye körül forog, valamint összevissza rázkódik. Úgy tűnik, hogy ezek a szokatlan tevékenységek minden esetben bizonyos berendezésekből származó furcsa zajokhoz kapcsolódnak. Kati, János szomszédja, hasonlóan meglepő tevékenységeket folytat. Kati esetében a legfurcsább az, hogy néha órákon át képes egy hosszú fémbotot tartani a szájában, miközben az azon található lyukakat ütögeti. Mindezt ráadásul néha egy nagyobb társaságban teszi, ahol a többi ember hasonlóan furcsa, különböző zajokat kibocsátó eszközökkel van felszerelkezve. Azok számára, akik nem tudják, mi az, a zene élvezete és létrehozása az emberi tevékenységek egyik legnevetségesebb és leghaszontalanabb formájának tűnik. És valóban, nagyon nehéz bármilyen hasznosságot tulajdonítanunk a zenének. Ha egyik napról a másikra eltűnne az életünkből, minden bizonnyal ugyanúgy tudnánk folytatni az életet. Ennek ellenére a zene meglepően fontos szerepet tölt be a mindennapokban: rengeteg időt, energiát és pénzt áldozunk arra, hogy a zene élvezetének hódolhassunk (gondoljunk csak a hanghordozókra, koncertekre, zenelejátszó készülékekre!). Ráadásul ezt nagyon sokféle szituációban és nagyon sokféle céllal tesszük meg, ahogyan a táblázat is bizonyítja, amely összefoglalja a zene által betölthető funkciókat (Pap 2002 nyomán) táblázat táblázat. A zene funkciói (Pap 2002 nyomán) Társadalmi-kommunikációs funkciók szakrális-kultikus reprezentációs-dicsőítő ceremoniális összetartozási, identitást fokozó táncindukáló nevelési munka- nyelvi-kommunikációs játék- gyógyító transzállapotot előidéző Individuális-pszichikus funkciók szórakoztató-örömokozó érzelemkompenzációs érzelemfokozó magányosságot oldó konfliktusmegoldó relaxáló aktiváló Mindezek alapján tehát úgy tűnik, hogy annak ellenére, hogy nem igazán tudjuk meghatározni a zene evolúciós hátterét, vagyis nem tudjuk azt, hogy miért maradt fenn a zene létrehozására és élvezetére vonatkozó képességünk, a zene mégis nagyon fontos szerepet játszik az életünkben. A zene két további szempontból is különleges. Egyrészt úgy tűnik, hogy kizárólag az emberi faj rendelkezik a zene észlelésének és létrehozásának képességével. Másrészt a zene nagyon sok pszichológiai működés komplex interakcióján alapul. Koelsch és Siebel (2005) idegtudományi adatokkal is alátámasztott kognitív modellje szerint a zene hallgatása során a ábrán látható mechanizmusok működnek. Látható, hogy az eddig tárgyalt észlelési jelenségek közül több is működik a zenében: az észlelési jegyek kivonása és a Gestaltok kialakulása (vagyis az azonos forrásból származó jegyek egy objektumhoz való csoportosítása) minden hallási eseménynél jelen van. A különböző intervallumok észlelése és a szerkezet felépülése már sokkal inkább a zenére specifikus feldolgozási folyamat, csakúgy, mint az a tény, hogy a zenei észlelés nagyon szoros kapcsolatban áll az érzelmekkel (a legtöbb zenei darab közvetít valamilyen jobban vagy 254

269 12. FEJEZET A zene észlelése kevésbé jól meghatározható érzelmet: szomorúságot, vidámságot, haragot, félelmet), és képes az autonóm idegrendszer, valamint az immunális rendszer működését befolyásolni. Ez utóbbiak tárgyalása túlmutat a jelen fejezet keretein, az érdeklődőknek Koelsch és Siebel (2005) tanulmányát javasoljuk. Ebben a fejezetben elsősorban a zene észlelésével foglalkozunk. Ezen belül is alapvetően két témára koncentrálunk: a zenei hangmagasság és a zenei ritmus észlelésére és feldolgozására (továbbiakban a zenei jelzőt fogjuk használni a hangmagasság és a ritmus előtt, ha speciálisan a zenére jellemző szerveződésükre utalunk). Ez a két jellemző azért különösen fontos, mert a zene leginkább pszichológiai és humánspecifikus aspektusát ragadják meg: mindkettőre igaz ugyanis, hogy egyszerű, jól meghatározható elemekből bonyolult és sokrétű szerveződésű mintázatok jönnek létre. Ezek a szerveződési szintek ráadásul meghatározott szabályok szerint egymásra épülnek. A struktúra első szintje a zenei felszín: a különböző hangmagassággal, hangszínnel, hangossággal és időtartammal rendelkező hangok szekvenciális és egyidejű sorozata. Ezekből a hangokból jön létre egy következő szinten két független, hierarchikus szerveződésű struktúra: a ritmus és a zenei hangmagasság. Fontos leszögeznünk, hogy a kettő egymástól független, amit az bizonyít, hogy mindkettő szerepelhet a másik nélkül. Vannak olyan zenei darabok, amelyeknek szinte kizárólag ritmikai szerveződésük van, és nagyon kevés hangmagasság-változást tartalmaznak (ilyen például a rap), és vannak olyanok, amelyeknél alig van ritmus, és szinte kizárólag a hangmagasság változását tartalmazzák. Természetesen egy tipikus zenei darab a legtöbb esetben mindkettőt tartalmazza, és a darab megértése lényegében a két szerveződés egyidejű, párhuzamos feldolgozását foglalja magában. Annak érdekében, hogy megértsük, hogyan is történik egy zenei darab észlelése, azt kell tehát elsősorban megvizsgálnunk, hogy hogyan történik a ritmus és a hangmagasság szerveződésének észlelése. Mielőtt azonban erre rátérnénk, érdemes összevetnünk a hallási észlelés két legbonyolultabb ingerének, a beszédnek és a zenének az észlelését ábra. A zenei észlelés neurokognitív modellje (Koelsch Siebel 2005 nyomán) 1. A zene és a beszéd észlelése A zene és a beszéd az általunk észlelt hangok közül a leginkább komplex hangok. Ez a két akusztikus inger sok jellemzőben osztozik, de sokban el is tér egymástól (Zatorre-Krumhansl 2002). Mindkettőre jellemző, hogy szándékosan hozzuk létre őket, azzal a céllal, hogy valamilyen információt közöljünk másokkal. Erre a célra természetesen a beszéd sokkal alkalmasabb, de a zene is képes hangulatok, érzelmek, de akár egészen komplex 255

270 12. FEJEZET A zene észlelése jelentés közvetítésére. További fontos hasonlóság, hogy mindkettő meghatározott struktúrával rendelkezik. A beszéd beszédhangokból épül fel, amelyek szavakba, azok pedig mondatokba szerveződnek. A zene esetében az alapvető építőelem a zenei hang, amely zenei motívumokba, futamokba, végül egy egész darabbá szerveződik. A szerveződéssel kapcsolatban mindkettőre igaz, hogy meghatározott szabályok irányítják. Mindezeken kívül mind a beszéd, mind a zene észlelése tanulás eredménye, és mindkettő univerzális, azaz minden ismert emberi kultúra esetében megtalálható. Milyen különbségek fedezhetők fel a beszéd és a zene között? A legnyilvánvalóbb eltérés, hogy a beszédet csak egyetlen eszköz, az emberi beszédképző rendszer tudja létrehozni, míg a zene rengeteg hangszeren (köztük az emberi beszédképző szerveken) megszólalhat. Kimutatható ugyanakkor egy nagyon lényeges akusztikai eltérés, amely a két inger feldolgozására fontos hatást gyakorol. Úgy tűnik, hogy a beszéd esetében nagyon fontos szerepet játszik az idői változások feldolgozása. Az előző fejezetben volt szó arról, hogy a mássalhangzók esetében a formánsátmenetek lényegesek az egyes beszédhangok megkülönböztetése szempontjából. A formáns- átmenetek azonban nagyon kis idői különbségeket foglalnak magukban. Azaz ahhoz, hogy a formánsátmenete- ket pontosan tudjuk észlelni, és így képesek legyünk a mássalhangzók megfelelő megkülönböztetésére, érzékenynek kell lennünk ezekre a gyors idői változásokra. Ezzel szemben a zene esetében ritkán fordulnak elő a beszédben található gyors idői változások. Itt inkább a hangmagasság változásának pontos észlelése fontos, hiszen a zene dallamát a hangmagasság meghatározott változása adja. Vagyis a dallam megfelelő követéséhez érzékenynek kell lennünk a hangmagasság kismértékű megváltozására is. A beszéd esetében ugyanakkor nem fordulnak elő ilyen kis hangmagasság-változások. Azt mondhatjuk tehát, hogy a beszéd esetében elsősorban a gyors idői változások feldolgozása lényeges, míg a zenénél a hangmagasság kismértékű megváltozásának detektálása. Mindez azonban felvet egy problémát, nevezetesen azt, hogy mérnöki szempontból nehéz olyan eszközt létrehozni, amely egyszerre képes nagy idői és nagy frekvenciabeli felbontásra. Valószínű, hogy ez az emberi hallórendszer számára is problémát okozott. A hallórendszer esetében a feltételezhető megoldás az, hogy eltérő agyi rendszerek foglalkoznak a beszéddel, illetve a zenével kapcsolatos akusztikai információ feldolgozásával. Eszerint a beszéd inkább a bal, míg a zene inkább a jobb temporális területeken kerül feldolgozásra (Zatorre-Krumhansl 2002). 2. A ritmus észlelése A ritmus bizonyos események (pl. hangok vagy mozdulatok) szabályos időbeli szerveződésére vonatkozik. A ritmus nem csak a zenében jelentkezik: például a vonat zakatolása is ritmikus hang. A ritmus észlelésével kapcsolatos első vizsgálatok ezért nem a zenei ritmussal, hanem sokkal egyszerűbb, időben ismétlődő események észlelésével foglalkoztak. A ritmus és az idő észlelésével kapcsolatban Paul Fraisse (1963, 1982) kutatásait kell megemlítenünk, aki ennek a területnek az egyik szülőatyja. A továbbiakban elsősorban az ő írásai alapján áttekintjük az idő és a ritmus észlelésének főbb jellemzőit. Fraisse szerint attól függően, hogy az események között mennyi idő telik el (vagyis mekkora az események közötti intervallum), azok nagyon különböző élményt váltanak ki. A továbbiakban nem hangokról, hanem eseményekről fogunk beszélni, utalva arra, hogy a ritmus nemcsak az akusztikus történésekre, hanem a mozgásra is vonatkozhat (pl. a tapsolásra). Ha az idői intervallum 100 milliszekundumnál kisebb, akkor az eseményeket nem észleljük különállóknak, hanem egyetlen, folyamatos eseménynek. 100 és 1500 milliszekundum közötti intervallum esetén képesek vagyunk különálló események észlelésére és arra, hogy az eseményeket csoportosítsuk milliszekundum feletti intervallumnál nehézséget okoz, hogy az egymást követő eseményeket egyetlen egységbe csoportosítsuk (lásd a 10. fejezetet a hallási események szerveződésével és a szekvenciális csoportosítással kapcsolatban). Ugyanakkor képesek vagyunk arra, hogy az eseményeket hierarchikusan szervezett nagyobb egységekbe, a csoportok csoportjaiba szervezzük, de 5 szekundum felett már ez sem lehetséges. Fraisse szerint ez az 5 szekundumos határ jelenti a pszichológiai jelen felső határát: minden, ami ennyi idő alatt történik, arról úgy érezzük, hogy most van, ami viszont ennél hosszabb ideje történt, az már a múlt része. Mindez azt is jelenti, hogy azok az események, amelyek 5 szekundumnál régebben történtek velünk, már csak emlékezeti működések, és nem a közvetlen észlelés révén dolgozhatók fel. Eszerint tehát a ritmus közvetlen észlelése akkor lehetséges, ha az események közötti idői távolság 100 milliszekundum és 5 szekundum között van. Az idői távolság azonban még csak az egyes események közötti intervallumra, valamint a ritmus észlelésének korlátaira vonatkozik. A ritmushoz szükség van valamilyen szabályos, periodikus ismétlődésre. Nagyon sok emberi tevékenységben jelenik meg ez a szabályos ismétlődés, például a légzésben, a szívdobogásban, a járásban vagy a csecsemő szopásában. Érdekes módon ezeknél a tevékenységeknél az események közötti 256

271 12. FEJEZET A zene észlelése intervallum egy nagyon szűk tartományban, 500 és 1000 milliszekundum között mozog. Ugyanebbe a tartományba esik az úgynevezett spontán tempó is. Ha arra kérjük az embereket, hogy tapsoljanak vagy kopogjanak egyenletes tempóban hosszabb időn keresztül, akkor a legtöbb embernél ez a tempó valahol 300 és 800 milliszekundum között lesz (Krumhansl 2000). Az egyes emberek között viszonylag nagy különbséget fedezhetünk fel a spontán tempóban, de nagyon kicsi a változás egy ember esetében, ha a spontán tempóját különböző időpontokban mérjük meg. Ez arra utal, hogy a spontán tempó jellemző egy adott személyre, és Pap János humoros megjegyzése szerint (Pap, 2002) ezt érdemes figyelembe vennünk akkor, ha párt választunk magunknak. Hiszen például az emberek járásának tempóját is befolyásolja a spontán tempó, és nagyon nehéz egy egész életen át együtt sétálnunk valakivel, akinek a járástempója nagyon különbözik a mienktől. Ahogy említettük, a ritmus nemcsak a hangok észlelésében, de a mozgások produkciójában is szerepet játszik. Sőt Fraisse (1982) szerint nagyon erős kapcsolat mutatható ki a kettő között, mivel az emberek nagyon könnyedén képesek a mozgásukat egy szabályos ritmussal rendelkező hangsorhoz szinkronizálni. Ráadásul ez a képesség az emberi fejlődés során nagyon korán és spontán módon jelenik meg: a csecsemők körülbelül másfél éves korukra képesek arra, hogy a zenére ritmikusan mozogjanak (Moog 1976). A zene ritmusához szinkronizált mozgás (legyen az tánc, tapsolás vagy a fejünk rázása) azonban korántsem egyszerű tevékenység. A szinkronizált mozgás ugyanis nem a ritmikai egységet követi, hanem pontosan azzal egyszerre hajtjuk végre. Ezt azonban csak úgy tudjuk megtenni, hogy anticipáljuk, vagyis megpróbáljuk bejósolni, előre megtervezni a mozgás pontos idejét. A ritmus észlelésének ez az anticipáció az egyik legfontosabb jellemzője. A ritmus észlelésének egy másik lényeges vonása, hogy minden esetben valamiféle csoportosítást foglal magában. Ahogy említettük, a ritmikai szerveződés többszintű lehet, vagyis az alapvető ritmikai elemekből bizonyos elvek (pl. a Gestalt-elvek) alapján csoportok jönnek létre, majd ezek további csoportokká szerveződhetnek. Ez a csoportosítás olyan erősen nyilvánul meg, hogy az emberek az egyébként teljesen azonos idői távolságban lévő, teljesen azonos hangokat is csoportokra szerveződve hallják (Fraisse 1982). Ezt az úgynevezett szubjektív ritmizációt, amely a hangokat kettesével vagy négyesével csoportosítja, valójában semmi sem indokolja, mégis úgy tűnik, hogy a legtöbb hallgató így észleli ezeket a hangsorokat. Természetesen a ritmikus hangsorok esetében általában rendelkezésre állnak olyan kulcsok, amelyek a ritmust jelzik. A következő részben azt fogjuk áttekinteni, hogy a zenében miként jön létre a ritmus, és hogy történik meg ennek észlelése. 3. A zenei ritmus észlelése A ritmikai elemek a zenében a meghatározott hangmagassággal, hangerővel, hangszínnel és időtartammal rendelkező hangok, illetve az ezeket elválasztó szünetek. A hangok időtartamát a kottában a tempójelzések (pl. allegro gyorsan) határozzák meg. Ezek azonban nem jelölik egyértelműen a gyorsaságot. A gyorsaság pontosabb meghatározását a tempó, vagyis az egy percen belüli egységek számát meghatározó metronómjelzés teszi lehetővé. A legtöbb zenedarabban azonban az előadók nem tartják be szigorúan az időtartamokat, kisebb ingadozás teljes mértékben elképzelhető. Sokkal fontosabbak a hangok egymáshoz viszonyított idői arányai. Eszerint léteznek egész-, fél-, negyed-, nyolcad-, tizenhatod- stb. hangok, illetve ezeknek megfelelő szünetek. Értelemszerűen egy egészhang időtartamának két fél-, négy negyed- stb. hang felel meg. A ritmus tehát a különböző időtartamú hangok váltakozásából jön létre, melyekre az jellemző, hogy szabályos viszonyban állnak egymással. Vagyis annak ellenére, hogy a pontos időtartam (vagyis az, hogy például egy negyedhang hány ezredmásodperc hosszúságú legyen) nem feltétlenül van meghatározva, a negyedhangok mindig az egész hangok negyedrészéig tartanak. A ritmikai elemek váltakozásának hátterében magasabb szintű szerveződést is találunk, mégpedig egyfajta szabályos lüktetést, a metrikus lüktetést. A ritmikai elemek nemcsak hogy váltogatják egymást, hanem bizonyos csoportosulások alakulnak ki belőlük. A csoportosulások az egyes hangok hangsúlyviszonyainak váltakozásából erednek. Egy dallamon belül ugyanis nem minden hang szól ugyanolyan hangerővel, és ezek a hangerőváltozások is szabályosak. A hangosabb és halkabb, más szóval hangsúlyos és hangsúlytalan hangok szabályos váltakozása hozza létre az ütemet. Az ütem az a zenei egység, amely két leginkább hangsúlyos ritmikai elem közé esik. Egy-egy ütemen belül meghatározott számú ritmikai egység található, melyet az ütemjelzés határoz meg. Az európai popzenében például a leggyakoribb ütem a 4/4-es, ami azt jelenti hogy egy ütemegységen belül négy darab negyedhangot, illetve az ennek megfelelő fél-, egész-, nyolcad- stb. hangokat találunk. Az ütemekre az jellemző, hogy általában az első ritmikai elem lesz a leginkább hangsúlyos. A hangsúlyok azonban komplex, többszintű és hierarchikus rendszerbe szerveződnek, azaz az ütemeken belül több különböző szintű fő-, illetve mellékhangsúlyok találhatók. 257

272 12. FEJEZET A zene észlelése A zene ritmikai szerveződése tehát két különálló szerveződést tartalmaz: a csoportosítást és a metrumot (Jackendoff-Lerdahl 2006). A csoportosítás a zenei hangok szegmentálását jelenti különböző nagyságú egységekbe. A csoportosítás hierarchikusan történik, vagyis a kisebb egységek nagyobbakba szerveződnek, amelyek még nagyobbakba és így tovább, egészen a teljes zenei darab szintjéig. A csoportosítást a már sokat tárgyalt Gestalt-elvek vezérlik, például a hasonlóság vagy a jó folytatás. Ahogyan azt a 10. fejezetben a hallási láncok szekvenciális szerveződésénél láthattuk, a csoportosítási elvek nem abszolút érvényűek, vagyis a legtöbb esetben több elv versengése vezet a percepció létrejöttéhez. A metrum szintén egy hierarchikus szerveződés, amely a ritmus szabályos lüktetéséből származik. Amikor például egy dalt letapsolunk, akkor a hangoknak ezt a metrikai struktúráját követjük. A tapsolás során azonban különböző szinteken követhetjük a metrumot: tapsolhatunk minden egyes hangra, vagy csak az ütemek első hangjára, stb. A metrikai szerveződésben a hierarchiát a hangosabb és halkabb hangok szabályos ismétlődése okozza. Például egy ütemen belül a legerősebb mindig az első hang. A hierarchikus szerveződés úgy jön létre, hogy a legalsó szinten a ritmikai elemek között még egyforma intervallumok találhatók, a következő szintek a közvetlenül alattuk lévő szinteken található intervallumok többszörösei (általában kétszeresei vagy háromszorosai). A ábra illusztrálja, hogy hogyan képzelhető el ez a metrikai szerveződés. Az ábrán a függőleges oszlopok jelzik a ritmikai elemeket, és minél több x van egymás felett, annál hangsúlyosabb az adott ritmikai elem. Az x-ek vízszintes sora jelzi a hierarchikus szerveződés egy-egy szintjét. Látható, hogy minél feljebb haladunk a szerveződésben, annál kevesebb elem található az egyes szinteken. Valamint, ahogy említettük, a felsőbb szintek esetében az elemek közötti intervallum egyre hosszabb lesz (a ábrán például a legfelső szinten egy-egy elem között négy alsó szintű elem található), ráadásul ez szabályosan változik, azaz a felsőbb szinten az intervallumok hossza mindig egész számú többszöröse az alsóbb szint intervallumának. Fontos, hogy természetesen nem abszolút intervallumokról beszélünk, vagyis nem milliszekundumban mérhető kapcsolat van a szintek között, hanem a ritmikai elemek egymáshoz viszonyított arányáról. A ábra illusztrálja a csoportosítás működését is. Ha összevetjük a csoportosítás és a metrum alapján történő szerveződést, akkor látható, hogy a kettő egymástól függetlenül működik, mivel a szerveződési határok nem esnek egybe ábra. A Beatles Yellow submarine címû dalának elsõ frázisa, a csoportosítási és metrikus szerkezet jelölésével A zenének ez a szabályos és hierarchikus szerveződése azért fontos, mert semmilyen más emberi tevékenységben nem jelenik meg ez a szerveződési forma. Pontosabban, a beszéd esetében szintén találunk egyfajta szabályosan ismétlődő és több szinten szerveződő ritmikusságot, de ott korántsem olyan szabályos az ismétlődés, mint a zenében. A beszéden kívüli egyéb ritmikus tevékenységek esetében (például a járásnál vagy a légzésnél) viszont nem találjuk meg a hierarchikus szerveződést. A járás esetében ugyanis minden lépés ugyanolyan, egyik sem hangsúlyosabb a másiknál. Összefoglalva tehát, a zenei ritmus egy nagyon speciális, semmilyen más emberi tevékenységben nem jelentkező hierarchikus szerveződést mutat, ami ráadásul kettős: egyrészt a közelségen, hasonlóságon, jó folytatáson stb. alapul (csoportosítás), másrészt pedig a hangsúlyos és hangsúlytalan ritmikai elemek szabályos váltakozásán (metrum). A ritmus észlelésének ugyanakkor vannak általánosabb alapmechanizmusai, amelyek a nem-zenei ingerek esetében is működnek. Ezekre többek között az jellemző, hogy csak korlátozott idői intervallumon belül (100 ms 5 s) működnek, illetve hogy a ritmikai elemek anticipációját foglalják magukban, amely révén elvárásokat alakítunk ki a következő ritmikai elemekkel kapcsolatban. 4. A zenei hangmagasság észlelése 4.1. A zenei intervallumok észlelése A ritmus mellett a zenei észlelés másik alappillére a hangmagasság szerveződése. Az eddigiekben már szó volt arról, hogy a hangmagasság a hangok frekvenciájához kapcsolódó szubjektív észlelet, amely a tiszta hangok esetében viszonylag egyszerűen értelmezhető, a komplex hangoknál viszont meglehetősen bonyolult viszonyt 258

273 12. FEJEZET A zene észlelése takar (lásd 290. skk.). A zene esetében a hangmagasság nagyon különös módon működik. Egyrészt viszonylag kis frekvenciatartományba (kb Hz között) tartoznak azok a hangok, amelyek a zenei darabokban felhasználhatók. Másrészt nemcsak hogy egy kis tartományból kerülnek ki, de szinte kizárólag olyan hangok építik fel a zenét, amelyek meghatározott frekvenciaértékekkel rendelkezhetnek. Pontosabban, a zenei hangok esetében nem az a fontos, hogy milyen abszolút hangmagassággal rendelkeznek, hanem az, hogy az egyes hangok között milyen viszony található. A zenében tehát a két vagy több hang közötti intervallum, vagyis a hangköz az, ami számít. A zenében a hangközök nagyon szabályos rendszer szerint alakultak ki. Az alapvető hangköz az oktáv, amely esetén a hangok alapfrekvenciája arányban áll egymással, azaz a magasabb hang frekvenciája kétszerese a mélyebb hangénak. A zenei észlelés egyik alapvető jelensége, hogy az oktávnyi távolságra lévő hangok nagyon hasonlónak hangzanak. Azt a jelenséget, hogy az oktávkapcsolatban álló hangok hasonlónak tűnnek, oktávazonosságnak nevezzük. Az oktávazonosság a legtöbb kultúra zenei rendszerében megtalálható, és az európai zenei skálában az oktávnyi távolságban lévő hangoknak azonos a nevük (pl. C3, C4 stb.). (Európai zene alatt a klasszikus zenei hagyományokon alapuló zenét értjük, amibe beletartozik a pop-, a rock- és a dzsesszzene is, hiszen ezek nagyon hasonló zenei elveken alapulnak.) Az oktávazonossággal számos vizsgálat foglalkozott, amelyek alátámasztották, hogy az oktávnyi távolságban lévő hangokat hasonlóan kezeljük: általában, ha megtanuljuk azt, hogy egy hangra valamilyen specifikus választ adjunk, akkor nagyon könnyen hasonló választ adunk az egyoktávnyival magasabb hangra is (vagyis a válasz generalizálódik; Humphreys 1939). Ahogy említettük, a zene hangmagassága csak korlátozott frekvenciatartományban működik. Ezzel kapcsolatban empirikus bizonyítékok is léteznek. Az egyik vizsgálatban (Ward 1954) arra kérték a kísérleti személyeket, hogy egy célhang frekvenciáját állítsák be úgy, hogy az egy oktávval legyen magasabb, mint egy teszthang magassága. Ha a teszthang frekvenciája 2500 Hz alatt volt, akkor a személyek viszonylag konzisztensen a teszthang frekvenciájának kétszeresét állítják be. Ha azonban a teszthang frekvenciája 2500 Hz feletti, és emiatt a célhang 5000 Hz fölött lenne, ebben az esetben a személyek nem pontosan a kétszeres frekvenciát használják. Ez arra utal, hogy az oktáv viszony csak 5000 Hz alatti hangok esetében működik. Az oktávon kívül egyéb hangközök is léteznek a zenében. A másik fontos hangköz, a kvint például 3 : 2 frekvenciaarányt jelent. Az európai zenében létező hangközöket és azt, hogy ezek a hangok milyen frekvenciaarányára vonatkoznak, a ábra mutatja be. Az oktáv mellett a többi hangközre is igaz, hogy az egy ok- távokon belül található hangközök azonosak egymással, tehát a kvint hangköz mindig ugyanolyan hallási élményt vált ki, akármelyik oktávon belül (vagyis bármilyen alapfrekvenciájú kezdőhanggal) játsszuk is le. A lényeg, hogy a hangok frekvenciája közötti arány azonos legyen, tehát például a kvint esetében 3 : 2. A zenei dallamok tehát a különböző hangközökből épülnek fel. A hangközök azonban két különböző módon szerveződhetnek: szimultán, azaz egyidejűleg, amikor úgynevezett akkordokat alkotnak, és szekvenciálisan, vagyis egymás után, amikor is dallamot hoznak létre. A továbbiakban ezt a két szerveződést vizsgáljuk meg ábra A zenei hangközök neve és a C hanghoz viszonyított frekvenciaarányai A zenei hangok szimultán szerveződése az akkord 259

274 12. FEJEZET A zene észlelése A hangok közötti viszonyok egyik nagyon fontos következménye, hogy a frekvenciareláció befolyásolja, hogy mennyire kellemes az adott hangközt hallgatni. Ez elsősorban az egyszerre megszólaló hangok, vagyis az akkordok esetében van így. Ha megvizsgáljuk a kellemesség vagy konszonancia és a frekvenciaviszony összefüggését, akkor azt találjuk, hogy minél egyszerűbb a viszony (pl. 2 : 1, 3 : 2), annál kellemesebb hallgatni őket, és minél komplexebb (pl. 256 : 243, kis szekund), annál kevésbé kellemes, vagy más szóval disszonáns. Ráadásul ez az összefüggés elsősorban a komplex hangokra igaz, tiszta hangok esetében nem igazán jelentkezik. Több elmélet is létezik azzal kapcsolatban, hogy az egyszerű frekvenciaviszonyban álló hangok miért hangzanak kellemesnek, konszonánsnak, a bonyolultabb viszonyban állók viszont miért disszonánsak. Az egyik elmélet szerint, amely Helmholtz (1885/1954) nevéhez fűződik, a disszonancia oka a hangok magasságának egymáshoz való közelsége. A komplex hangközök ugyanis azt is jelentik, hogy az adott hangok hangmagassága közel van egymáshoz (például a kis szekund egy egész- és egy közvetlenül mellette lévő félhang közötti hangköz). Ha a hangok magassága közel van egymáshoz, akkor ezek az alaphártyán is egymáshoz közel dolgozódnak fel. Ez viszont odavezethet, hogy a két hangot nem tudjuk megfelelően diszkriminálni, mivel az alaphártya felbontóképessége ezt nem teszi lehetővé. Azaz a hangok mintegy összemosódnak, és ez percep- tuálisan a disszonancia érzetét okozza. Egy másik elmélet (Plomp-Levelt 1965) a hangok felharmonikusainak egybeesésével határozza meg a kellemességet: minél inkább egybeesnek a harmonikusok, annál kellemesebbnek halljuk a hangpárt. A harmonikusok egybeesése viszont azon múlik, hogy milyen viszony áll fenn a két hang frekvenciája között: például az oktáv kapcsolat esetén teljes egybeesést találunk. Emlékezzünk vissza, hogy a zenei hangok esetében a felharmonikusok mindig az alaphang egész számú többszörösei. Tehát például egy 440 Hz-es alaphanggal rendelkező hang (ez az A4 hang frekvenciája) esetében a harmonikusok frekvenciája 880, 1320, 1760 stb. Hz lesz. Az ennél egy oktávval magasabb hang esetében az alaphang a 440 Hz kétszerese, azaz 880 Hz lesz, a felharmonikusok pedig 1760, 2640 stb. Vagyis az oktáv, azaz a 2 : 1 viszony esetében a magasabb hang összes harmonikusa megtalálható az alacsonyabb hang harmonikusai között. A többi hangköz esetében is hasonlóan több-kevesebb átfedést találunk a felharmonikusokban. Az elképzelés szerint tehát az átfedés mértéke határozza meg a konszonancia mértékét. Az egyes hangközök konszonanciája és disszonanciája a zenében úgy nyilvánul meg, hogy legalábbis az európai zenében olyan akkordokat használnak a zeneszerzők, amelyek konszonánsak. Vannak azonban olyan kultúrák is, amelyek ezt kevésbé tartják fontosnak. Vagyis azt mondhatjuk: nem minden zenére igaz, hogy a hangközök kellemes hangzására törekszik, azaz hogy a zenei szerkezet létrehozása során figyelembe vesz pszichoakusztikai jelenségeket A zenei hangok szekvenciális szerveződése a dallam A hangok szekvenciális szerveződése során részben eltérő elvekkel találkozhatunk, mint a szimultán szerveződés során. A legfőbb különbség, hogy míg a szimultán szerveződésben a kis hangközöket általában kerülik, addig a szekvenciális szerveződésben a kis hangközök sokkal gyakoribbak, és sokkal inkább természetes hangzásúak (Jackendoff-Lerdahl 2006). Ennek két oka is lehet. Egyrészt az éneklés során (illetve bizonyos hangszerek esetében) sokkal könnyebb a kis hangközlépést megvalósítani. Másodszor, a dallam észlelése során (mint a legtöbb magas szintű perceptuális jelenség esetében) a csoportosítási elvek a kisebb lépéseket részesítik előnyben. Pontosabban, valószínűbben csoportosítjuk egy hallási láncba a hangokat akkor, ha kis frekvenciabeli távolság van közöttük, mint ha ez a távolság nagy. Ezekkel az elvekkel a 10. fejezetben, a hallási láncra bontás tanulmányozásakor már foglalkoztunk, és azt mondhatjuk, hogy a dallam szerveződése esetében ugyanezek a szerveződési elvek működnek. A dallam észlelése azonban több mint az egymást követő zenei hangok egy hallási áramlatba csoportosítása. Úgy tűnik, hogy a dallamot valójában nem hangjegyek sorozataként, hanem mintázatok közötti viszonyként észleljük. A Hull a pelyhes fehér hó ugyanaz a gyermekdal marad akkor is, ha különböző hangszereken, tempóban vagy hangnemben játsszák el (a hangnemmel kapcsolatban lásd a tonális rendszerről szóló szövegdobozt). Sőt, akkor is felismerjük, ha különböző zenei stílusokban, például rock-and-roll vagy dzsesszstílusban szólal meg. Dowling és Fujitani (1971) arra kereste a választ, hogy mi határozza meg a dallam állandóságát: melyek azok a tényezők, amelyeknek a megváltoztatása esetén már nem ugyanazt a dallamot fogjuk észlelni? Kísérletükben egyszerű, mindenki által ismert gyermekdalokat mutattak a kísérleti személyeknek, akiknek egyszerűen az volt a feladatuk, hogy felismerjék azokat. A dalokon azonban különböző változtatásokat hajtottak végre. Elsőként a 260

275 12. FEJEZET A zene észlelése dalokat alkotó hangok abszolút magasságát változtatták meg, de megmaradtak az eredeti hangközök (ezt lényegében a hangnem megváltoztatásával érték el). A változtatás hatására a dalok felismerése kismértékben romlott, de a hallgatók nagyobb része számára még mindig felismerhető volt (12.4. ábra). Ezt követően a hangközöket is megváltoztatták, de az úgynevezett dallamkontúr, vagyis a hangmagasság megváltozásának iránya az eredeti dalhoz hasonló maradt. Ez a torzítás tovább rontott a felismerésen, de a dal még mindig felismerhető volt. Végül a dallamkontúrt is eltorzították (ahol eddig emelkedő volt, most ereszkedő lett a dallam), és ez a változás szinte teljesen lehetetlenné tette a dal felismerését. Ezek az eredmények tehát azt mutatják, hogy a dallam észlelése során valójában egy mintázatot észlelünk, amely független a pontos fizikai megvalósulástól ábra. Dowling és Fujitani (1971) dallamészlelési kísérletének eredménye Összefoglalásul tehát azt mondhatjuk, hogy a zenei hangok szimultán szerveződésében elsősorban a kis frekvenciaarány, a szekvenciális szerveződésben pedig a kis frekvencialépés a vezérlő elv. Valamint úgy tűnik, hogy a dallam valójában egy magas szintű perceptuális mintázat, amely független lehet a konkrét formától, vagyis attól, hogy milyen tempóban, hangszeren vagy akár hangnemben játsszuk le. A zenei hangoknak azonban van egy még az eddigiekben tárgyaltaknál is absztraktabb szerveződési formája, amely a ritmushoz hasonlóan egy komplex, hierarchikus szerveződést foglal magában, ez pedig a zene tonális szerveződése A zene tonális szerveződése Ahogy a bevezetőben szó volt róla, a zene kapcsán alapvetően két különböző szerveződést találunk: a hangok időbeli és hangosságbeli szerveződését, azaz a ritmust, és a hangmagasságbeli szerveződésüket. Az európai zenében legalapvetőbb és legfejlettebb szerveződés a hangmagasság szerveződése. Annak ellenére, hogy a különböző hangmagasságú hangok rendkívül változatos módon követhetik egymást, találunk bizonyos szabályszerűségeket, amelyek a zenei hangok szerveződését meghatározzák. Ezeket a szabályokat vagy elveket a zeneelmélet írja le, és a legtöbb esetben egy adott zenei stílusra, pontosabban zenei hagyományra vonatkoznak. Ez azt jelenti, hogy a különböző kultúrák zenéjében nem feltétlenül azonos módon jelennek meg a szerveződési elvek. A zene tonális szerveződésének észlelése kapcsán az egyik fő kérdés, hogy vajon a zeneelmélet által leírt elvek mennyire felelnek meg annak, ahogyan az emberek valójában a zenét észlelik (lásd az európai tonális rendszerről szóló szövegdobozt). Azaz mennyiben írják le a valós észlelést, és mennyiben tekinthetők inkább csak idealizált elméleti konstruktumnak? táblázat - AZ EURÓPAI ZENE TONÁLIS RENDSZERE 261

276 12. FEJEZET A zene észlelése 1. ábra. A zongorabillentyüzet a megfelelő ábécés nevekkel A tonalitás a zenei hangok egy, az európai zenében a században megszilárdult vonatkoztatási rendszere, amely alapvetően egy zárt rendszeren belüli harmonikus hangzásra törekszik. A zenei hangok rendszere egymástól oktáv távolságra elhelyezkedő hangokra osztható fel, és egy oktávon belül 12 hang különböztethető meg (pontosabban a hagyományos európai zenében ennyit használunk). Ezeket a hangokat az 1. ábrán látható zongorabillentyüzet segítségével lehet a legszemléletesebben ábrázolni. Látható, hogy egy oktávon belül (C-től C -ig) 12 billentyű található, melyből 7 fehér és 5 fekete. A fehér billentyűk szólaltatják meg az egészhangokat (ezeket nevezzük törzshangoknak), ezeket a zenei ábécé betűivel jelöljük (C, D, E, F, G, A, H). A fekete billentyűk félhangokat szólaltatnak meg (ezeket kiegészítő hangoknak nevezzük), és az egészhangokból származtatjuk őket, azok félhanggal történő felemelésével vagy leszállításával. A kereszt (#) jelöli a felemelt hangokat (ezek elnevezésében az -isz végződést használjuk, vagyis C# = cisz ), a bé (p jel) pedig a leszállításnak felel meg (az elnevezésében a végződése -esz, vagyis Dp = desz ). Látható, hogy egy-egy félhangra mind a kereszt, mind a bé révén utalhatunk, azaz a Cisz és a Desz ugyanarra a C és D hang között található félhangra vonatkozik. A 7 törzshang önmagában az úgynevezett diatonikus (egészhangokból álló) hangsort (skálát) alkotja, a törzshangok és a kiegészítő hangok pedig együttesen a kromatikus skálát alkotják. A kromatikus skála mind a 12 hangjára épülhetnek hangsorok. Azt a hangot, amelyről a hangsor indul, tonikának nevezzük. A hangsorok a legtöbb esetben 7 hangot tartalmaznak, de van például 5 (pentaton) vagy 8 (oktaton) stb. hangból álló hangsor is. Az európai zene két legnépszerűbb hangsora a dúr és a moll. Eszerint van C-dúr, Cisz-dúr, c-moll, cisz-moll stb. skála (a dúr hangsort általában nagybetűvel, a mollt pedig kicsivel jelöljük). A legegyszerűbb skála a C-dúr skála, amely a C, D, E, F, G, A, H hangokat tartalmazza. Ebben az esetben a C hang a hangsor tonikája. A hangsorokat az előjegyzés segítségével jelöljük ki. Az előjegyzés a kottaírásban egy egész kottasorra érvényes, és azt határozza meg, hogy egy adott hangsorban mely hangok lesznek módosított, vagyis felemelt (keresztes) vagy leszállított (bés) hangok. Az előjegyzés adja meg a darab hangnemét. A módosított hangok számát az egyes hangsorok tonikájának a C hangtól való kvinttávolsága határozza meg. Kvintenként emelkedve a keresztek száma, kvintenként süllyedve pedig a p-k száma nő. Például a G hang a C-nél egy kvint távolsággal (5 egészhangnyi hangköz) magasabb, ezért a G-dúr előjegyzése: egy kereszt. Ezzel szemben az F egy kvinttel alacsonyabb a C-nél, ezért az F-dúrnál az előjegyzés egy P lesz. Ezek az összefüggések a kvintkörrel ábrázolhatók a legszemléletesebben (2. ábra). A moll hangsor a dúrból származtatható, mégpedig úgy, hogy annak harmadik, hatodik és hetedik hangját egy félhanggal leszállítjuk. Az ily módon létrejövő skálát nevezzük az eredeti dúr hangnem azonos alapú moll hangnemének. Az azonos alapú moll hangnemnek ugyanaz a tonikája, de eltér az előjegyzése. Például a C-dúr hangnem azonos alapú moll hangneme a c-moll, a hozzá tartozó hangsor a C, D, Esz, F, G, Asz, B hangokból áll, és a kvintkör alapján megállapítható, hogy előjegyzése 3p. 262

277 12. FEJEZET A zene észlelése 2. ábra. A kvintkör. Az ábécés nevek hangnemeket jelölnek. A kvintkörön az óramutató járásával megegyező irányban a keresztek, ellenkező irányban pedig a b-k száma nő. A 12, egymástól kvint távolságra elhelyezkedő hangnem körüljárása után visszaérkezünk a kiinduló hangnembe, de egy oktávval magasabban. a) A dúr hangnemek kvintköre C-dúrból indulva. b) A moll hangnemek kvintköre a-mollból indulva Ezenkívül a dúr hangnemből származtatható egy párhuzamos moll hangnem is, amelynek ugyanaz az előjegyzése, mint a dúr hangnemnek, de eltér a tonikája. A párhuzamos moll hangnem tonikája mindig három egészhanggal lejjebb (vagy hat egészhanggal feljebb) található, mint a dúr hangnemé. Például a C-dúr relatív párhuzamos dúr hangneme az a-moll. Az a-moll hangnemhez tartozó a-moll skála hangjai (ún. természetes moll esetében): A, H, C, D, E, F, G vagy (ún. dallamos moll esetében): A, H, C, D, E, Fisz, Gisz. Egy dúr hangnem, valami nt an nak az ono s alapú vag y p árhuz amos moll hangne me között az az egyik legjellegzetesebb különbség, hogy a dúrt vidám hangulatúnak, a mollt viszont inkább szomorúnak érzékeljük. Végeredményben tehát a 12 lehetséges tonika a két eltérő (dúr és moll) hangnemben alkotja meg a 24 hangnemből álló tonális rendszert. Ez a rendszer képezi a hagyományos európai müzene alapját, ezekből a hangnemekből és a hangnemek által meghatározott hangokból állnak a zenei darabok. A tonális rendszernek két fontos jellemzője van. Egyrészt a zenében a dallamot alkotó hangokat nem önmagukban, hanem egy kitüntetett hanghoz, a tonális központhoz vagy tonikához képest észleljük. A tonika egy adott hangnem hangsorában a legfontosabb és legstabilabb hang, ez adja az adott hangnem nevét is. A tonika az egész rendszer viszonyítási pontja: szabályszerüen ez a hang, valamint a rá épülő harmónia (a tonikai hármashangzat) zárja a zenei darabokat, és minden egyéb hangot ehhez képest ítélünk meg. A tonális rendszer másik fontos sajátossága, hogy az egy oktávon belüli 12 lehetséges hang hierarchikus szerveződést alkot, amelyet hangtérnek nevezünk. A hangtérben a különböző hangmagasságú zenei hangokat a tonikához viszonyítjuk. Minden hang meghatározott frekvenciaviszonyban áll a toni- kával, amelyet hangköznek nevezünk. A hangtéren belüli hierarchikus viszony azt jelenti, hogy a zenei hangok nem egyszerüen valami lyen hangközviszonyban állnak a tonikával. Egyes hangok kitüntetettebb szerepet játszanak, mint mások. A hangok közötti viszonyokat megvizsgálva egy olyan szerveződést találhatunk, amelynek a legfelső szintjén a tonika található (3. ábra). Ezt követi a tonikából és az úgynevezett domináns hangból álló szint. A domináns hang (illetve harmónia) a második legfontosabb hang egy zenei hangnemben, és kvintkapcsolatban áll a tonikával. A domináns az a hang, amelyen egy zenei tétel közbenső részei a legtöbbször végződnek (a tételek végét általában a tonika zárja), és a tonikai harmónián (akkordon) kívül a domináns a legfontosabb akkord (ráadásul, ha megfigyeljük a kvint frekvenciaarányát, láthatjuk, hogy az oktávon kívül ez tartalmazza a legegyszerűbb viszonyt, a 3 : 2-t). A hangtér következő szintjén a tonikán és a dominánson kívül a terchangviszony is szerepel. A negyedik szinten már megtaláljuk a diatonikus skála többi hangját, és végül az ötödik szint a kromatikus skála összes hangját tartalmazza, vagyis mind a 12 hang szerepel benne. Ezen az utolsó szinten kívül még egy szintet is meg szoktak különböztetni, amely nemcsak a zenei skála hangjait, hanem az összes hangmagasságot tartalmazza. Ezt legtöbbször nem a dallam alkotásában, hanem annak díszítésében használják fel. Röviden így foglalható össze az a zeneelméleti tudás, amely a zenei hangok viszonyait és szerveződését írja le. A zene észlelésének pszichológiai tanulmányozása számára azonban sokkal fontosabb az a kérdés, hogy hogyan találjuk meg az emberi észlelésben az ismertetett zeneelméleti szabályokat és elveket. 263

278 12. FEJEZET A zene észlelése 3. ábra. A C-dúr hangnem hangtere Carol Krumhansl az 1970-es években kezdett és máig tartó kutatássorozatban erre a kérdésre próbált válaszolni. Az egyik első vizsgálatban Krumhansl és Shepard (1979) a kísérleti személyeket arra kérte, ítéljék meg, hogy a kromatikus skála egyes hangjai mennyire jó befejezését jelentették egy hét hangból álló, C-dúr hangnemen alapuló hangsornak. A kísérleti személyek által adott értékelések tükrözték a tonális hierarchiát, mivel a személyek a tonikát találták a legjobb befejezésnek; ezt követte a domináns, a terc, majd a diatonikus és végül a kromatikus skála többi hangja. Érdekes módon azonban az ítéletek és a tonális hierarchia megfelelése nagymértékben függött attól, hogy a személy mennyire volt zeneileg képzett. Azaz a zenében jártas személyek sokkal inkább a tonális hierarchiának megfelelő válaszokat adtak, mint a zeneileg kevésbé képzettek. Ez arra utal, hogy noha valóban jelen lehet egy internalizált tonális hierarchia, vagyis a zenei hangok közötti viszonyok mentális reprezentációja a hallgatók fejében, ez csak a tapasztalat révén jön létre. Ezt támasztják alá Krumhansl és Keil (1982) eredményei is. A szerzők különböző életkorú gyermekeket vizsgálva azt találták, hogy létezik egyfajta fejlődési trend a tonális rendszer elsajátításában. Eszerint a 6-7 éves gyermekek még csak a hangnembe tartozó és nem tartozó hangok (diatonikus és kromatikus) között tettek különbséget, és a tonikadomináns-terc elkülönítés csak később, éves korban alakult ki. A fejlődés iránya tehát az, hogy a gyermekek egyre inkább képesek differenciálni a tonális szerepeket, azaz megtanulják, hogy egy hangnemen belül a tonika, a domináns és a terc kitüntetett szereppel rendelkezik. A tonális szerveződésnek a zene észlelésében játszott szerepét további empirikus tanulmányok támasztották alá. Ezek szerint a hierarchiában magasan lévő hangok több kognitív jellemzőben is eltérnek az alacsonyabban lévő hangoktól: pontosabb a felidézésük, valószínűbben várjuk el őket egy dallamban, és inkább észleljük őket végső vagy záró hangként (Zatorre-Krumhansl 2002). Dewar és munkatársai (1977) például azt találták, hogy a jól formált tonális szerkezettel rendelkező dallamokra a kísérleti személyek jobban emlékeztek, mint azokra, amelyek nem a tonális hierarchiának megfelelően épültek fel. Barucha és Krumhansl (1983) eredményei szerint egy adott hangnem nemdiatonikus hangjait (vagyis azokat, amelyek a kromatikus, de nem a diatonikus hangsor részét képezték) a kísérleti személyek kevésbé jól ismerték fel, mint a diatonikus hangokat. Ráadásul a diatonikus hangokat gyakrabban összekeverik egyéb diatonikus hangokkal, mint a nemdiatonikus hangokkal. Az eddigiekben az egy hangnemen belüli hangok szerveződésével foglalkoztunk. A tonális rendszernek azonban legalább ilyen fontos jellemzője, hogy az egyes hangnemek milyen viszonyban vannak egymással. A különböző hangnemek ugyanis többé vagy kevésbé hasonlóak egymáshoz. A zeneelmélet szerint a hangnemek hasonlóságát három tényező határozza meg: a hangsorok hangjainak átfedése (azaz hogy hány olyan hang van, ami mindkét hangsorban szerepel), a módosító jelek számának eltérése és a hangnemek távolsága a kvintkörön. Így például a C-dúr hangnem jobban hasonlít az F-dúrhoz, mint az A-dúrhoz, mivel több átfedő hangot tartalmaznak, az F-dúr egy bét tartalmaz, míg az A-dúr három keresztet, és az F-dúr a C-dúr mellett található a kvintkörön, az A-dúr viszont távolabb (lásd a szövegdoboz 2. ábráját). Természetesen pszichológiai szempontból inkább az a kérdés, hogy a hangnemek közötti viszonyok milyen módon reprezentálódnak a hallgatók fejében. Ennek vizsgálata érdekében Krumhansl és Kessler (1982) a fentebb már bemutatott, Krumhansl és Shepard (1979) által is használt eljárást alkalmazta. Vagyis a kísérleti személyektől azt kérték, hogy ítéljék meg, mennyire jó befejezése volt egy adott hang egy adott hangnemű hangsornak. Ezt az eljárást kiterjesztve, a kromatikus skála mind a 12 hangját megítéltették többféle skála esetében, többek között az összes dúr és moll skála esetén. Ezzel a meglehetősen időigényes eljárással eltérték azt, hogy minden hangnem esetében kaptak egy úgynevezett hangprofilt, amely az adott hangnem esetében azt ábrázolta, hogy a 12 hang mennyire jó befejezése volt a hangsornak, vagyis hogy mennyire jól illett az adott hangnembe. Tudjuk, hogy a hangnem határozza meg, hogy egy adott hang illik-e egy hangsorba. Például a G- dúr hangnemnek része a Fisz hang, ezzel szemben a C-dúr hangnemnek nem. Vagyis, ha egy hangsorról azt gondoljuk, hogy az G-dúr- ban van, akkor abban a Fisz a diatonikus skálába fog tartozni, ezért a hangsor jobb befejezésének fogjuk tartani, mint ha a hangsorról azt gondoljuk, hogy C-dúrban van, mivel ekkor a Fisz nem a 264

279 12. FEJEZET A zene észlelése diatonikus, hanem a kromatikus skála része. Természetesen ezek a döntéseink automatikusan, és nem valamilyen gondolkodási folyamat eredményeként születnek meg: egy G-dúr hangnemű hangsorban a Fiszt jó befejezésnek érezzük, C-dúrban viszont nem. Krumhansl és munkatársainak vizsgálatsorozata pontosan annak feltárást tűzte ki célul, hogy vajon hasonlóan észleljük-e a zene hangszerkezetét, mint ahogyan azt a zeneelméleti szabályok és elvek meghatározzák. A ábra mutatja a C-dúr és c-moll hangnemek hangprofilját. Az ábra 10 személy válaszának átlagát mutatja; az 1-es a nagyon rossz, a 7-es a nagyon jó befejezést jelentette. Látható, hogy a profil pontosan követi a tonális hierarchiát. Legnagyobb értéket a C hang, vagyis a hangnem tonikája kapta, ezt követte a G, a domináns és az E, a terc hang. Alacsony értéket kaptak a további diatonikus hangok, és a kromatikus hangok kapták a leginkább alacsony értékeket. A többi hangnem profilja az itt láthatóhoz nagyon hasonló volt, természetesen annyi különbséggel, hogy ott a kiemelkedő értékek eltolódtak (mivel egyéb hangnemek esetében más a tonika) ábra. A C-dúr és a c-moll hangnemek profilja (Krumhansl Kessler 1982 nyomán) Ezek után a kutatókat az érdekelte, hogy az így kapott profilok segítségével vajon kimutatható-e valamilyen módon a hangnemek közötti hasonlóság. Ennek érdekében a dúr és moll profilokat (összesen 24-et) korreláltatták egymással, mégpedig az összes dúr hangnemet az összes dúrral, azután a dúrokat a mollokkal, és végül a mollokat a mollokkal. A ábra azt mutatja, hogy például a C-dúr és az a-moll hangnemek közötti korreláció kiszámítása hogyan történt. 265

280 12. FEJEZET A zene észlelése ábra. A C-dúr és az a-moll hangnemek profiljának korrelációja. A két profil egymásra helyezve mutatja a kettõ közötti eltéréseket (Krumhansl Kessler 1982 nyomán) Látható, hogy a két profilt egyszerűen egymásra helyezték, majd pedig kiszámolták, hogy a profilok minden egyes pontja esetében mekkora a korreláció a két profil között. A C-dúr és az a-moll hangnemek esetében meglehetősen nagy az átfedés, ami el is várható, hiszen az a-moll a C-dúr párhuzamos mollja. Ezt az összevetést tehát minden egyes skála esetében elvégezték, és végül egy meglehetősen nagy korrelációs mátrixhoz jutottak. A mátrixot különböző statisztikai eljárások segítségével tovább elemezték; arra voltak kíváncsiak, hogy a 24 hangnem hasonlóságai és különbségei hogyan jeleníthetők meg vizuálisan. Az elemzések során azt az eredményt kapták, hogy a hangnemeket egy négydimenziós térben lehet úgy ábrázolni, hogy a hasonló hangnemek egymáshoz közel, az eltérő hangnemek pedig egymástól távol helyezkedjenek el. Ily módon ábrázolva a hangnemek egy tórusz, vagyis egy fánkszerű alakzat felszínén helyezkedtek el (12.7. ábra) ábra. A hangnemek közötti kognitív távolságok grafikus ábrázolása egy tórusz felületén Ennek a téri elrendezésnek létezik egy kétdimenziós megjelenítési formája is, amely pontosabban és egyértelműben ábrázolja a hangnemek közötti viszonyokat (12.8. ábra). Ezen az ábrán a tórusz lényegében kiterítve látható: ha a vízszintes széleket összeérintve feltekerjük a téglalapot, majd pedig a nyitott végeket is összeérintjük, akkor megkapjuk az eredeti háromdimenziós tóruszt. Hogyan értelmezhető a hangnemek egymáshoz való viszonyának ez a különös téri elrendeződése? Azt mondhatjuk, hogy a hallgatók ítéletei alapján kapott téri elrendeződés nagyon is szabályos viszonyt tár fel a hangnemek között. Először is azt vehetjük észre, hogy adott vonalon (például a ábrán a középső vonalon) olyan hangnemek találhatók (pl. F C G D), amelyek egymástól kvint távolságra vannak, és dúr hangneműek. Ha újra szemügyre vesszük a kvintkört, akkor láthatjuk, hogy ezek a hangok a kvintkörön is egymás mellett találhatók ábra. A hangnemek közötti kognitív távolságok grafikus ábrázolása a síkba transzformált tóruszon Visszatérve a ábrára, nézzük most meg balról a harmadik vonalat. Ezen többek között a d a e h hangok találhatók meg. Ezek a hangok szintén egymás mellett vannak a kvintkörön, de ezek a moll hangnembe tartoznak. Ráadásul az is látható, hogy a dúr és ezek párhuzamos moll hangnemei (pl. C-dúr, c-moll) egymással párhuzamosan haladnak. Mindkét vonal háromszor tekeredik körbe a tóruszon, majd pedig visszajut önmagába. Itt tehát annak bizonyítékát láthatjuk, hogy a kvintkörön lévő távolságok, amelyek elsősorban zeneelméleti törvényszerűségeket írnak le, megjelennek a hallgatók szubjektív ítéleteiben. Ráadásul a háromdimenziós ábrázolás lehetővé teszi egy olyan viszony megragadását, amelyet eddig nem igazán tudtak megragadni a zeneelmélettel foglalkozók: nevezetesen, hogy a dúr és ezek relatív moll hangnemei egymáshoz nagyon hasonló hangnemeket képviselnek. A kvintkörön ezt a viszonyt nem lehetett ilyen pontosan és szemléletesen megmutatni. Ezek az eredmények tehát azt bizonyítják, hogy a hallgatók fejében valóban úgy szerveződnek a zenei hangsorok, ahogyan azt a zeneelméleti elvek leírják, és amelyek alapján a zenei darabokat megkomponálják. Fontos kiemelnünk azt a tényt, hogy a legtöbb olyan kísérletben, amelyben a tonális 266

281 12. FEJEZET A zene észlelése hierarchia percepcióját vizsgálják, zeneileg képzett személyeket alkalmaznak. Ez nem feltétlenül jelenti azt, hogy a személyek képesek pontosan leírni, miért döntöttek egy adott hang esetében így vagy úgy, inkább csak amiatt fontos, mert a zeneileg képzett személyek a zenével való tapasztalat révén valószínűbben sajátították már el a zenei dallamokat felépítő szabályszerűségeket. Tehát túlzott általánosítás lenne azt állítani, hogy a tonális hierarchia fent vázolt szabályos szerveződése minden ember fejében megtalálható. Valószínűleg inkább az igaz, hogy a zenével való tapasztalat révén, automatikusan szerezzük meg ezt a tudást, de nem úgy, hogy ezt megtanítják nekünk. Ezek az eredmények tehát rávilágítanak arra is, hogy a zene hallgatását tanulnunk kell: minél többet hallgatjuk, annál inkább tisztába jövünk a zenét felépítő szabályszerűségekkel. Ha viszont olyan zenével találkozunk, amellyel kapcsolatban nincsenek előzetes ismereteink, akkor valószínűleg nagyon kevéssé fogjuk érteni azt. Ez a helyzet akkor, ha az európai zenén nevelkedett fülünkkel indiai zenét hallgatunk: nem valószínű, hogy elsőre nagyon tetszeni fog. Ha azonban vesszük a fáradságot, és elmélyülünk az indiai zene tanulmányozásában, akkor előbb-utóbb elkezdjük megérteni, idővel pedig megszeretjük. Összefoglalva tehát, Krumhansl és Kessler (1982) azt találta, hogy a 24 hangnem empirikus adatok alapján létrehozott téri reprezentációja nagymértékben megfelel a zeneelmélet által leírt tonális szerveződésnek. Az eredmények alátámasztják azt, hogy az adott zenei stílusban járatos hallgatók a hangnemek rendszerének belső reprezentációjával rendelkeznek, és ezt használják fel egy adott zenei darab hangmagasság-struktúrájának megértése során. 5. Egyéni különbségek a zene észlelésében abszolút hallás, relatív hallás és dallamsüketség Mint a legtöbb emberi képesség tekintetében, a zene észlelésében is találunk különbségeket az egyes emberek között. Ráadásul úgy tűnik, hogy a zenei képességekben is létezik egy kontinuum a nagyon gyenge és a nagyon jó képesség között. Lássuk először, hogy mi jellemző azokra, akik nagyon magas szinten képesek a zene észlelésére Abszolút és relatív hallás Egyes emberek rendelkeznek az úgynevezett abszolút hallás képességével. Az abszolút hallás arra vonatkozik, hogy ezek az emberek képesek tökéletesen megnevezni a hallott zenei hangokat. Azaz, ha az abszolút hallással rendelkezőknek lejátszunk egy tetszőleges dallamot, akkor meg tudják mondani, hogy az adott dallam pontosan milyen zenei hangokból áll. Mindezt ráadásul erőfeszítés nélkül teszik, ahhoz hasonlóan, ahogyan a színeket meg tudjuk nevezni (Levitin-Rogers 2005). Egyes vizsgálatok szerint (Ward 1999) az abszolút hallás minden tízezer emberből egynél fordul elő. A híres zeneszerzők közül több is rendelkezett abszolút hallással, például Wolfgang Amadeus Mozart vagy Liszt Ferenc, de ez a képesség semmiképpen sem feltétele a zenei tehetségnek, hiszen olyan nagy muzsikusok is éltek, akik nem rendelkeztek vele, mint például Joseph Haydn vagy Richard Wagner. Sőt azt mondhatjuk, hogy a zenei észlelésben az abszolút hallás akár hátrányos is lehet, mivel ahogy a fentiekben láttuk a zenében nem az abszolút hangmagasságok, hanem a hangok közötti viszonyok, a hangközök észlelése a lényeges. Valóban, az abszolút hallással rendelkezők gyakran panaszkodnak arról, hogy meglehetősen kellemetlen számukra egy olyan dallamot hallgatni, amelyet egy szokatlan hangnemben játszanak le. Ekkor ugyanis a hangközök ugyan megmaradnak, de a dallamot alkotó hangok abszolút hangmagassága megváltozik. Az abszolút hallás kapcsán felmerült annak esetleges genetikai eredete. Megfigyelték ugyanis, hogy egyes családokban gyakrabban jelentkezik. Mivel azonban a képesség kifejlődéséhez mindenképpen szükséges bizonyos mértékű tanulás (legalábbis a hangok neveit meg kell tanulni), ezért az egyes családokban való nagyobb arányú előfordulás nem bizonyítja a genetikai eredetet; feltételezhető ugyanis, hogy ezekben a családokban a gyerekek sokkal nagyobb mértékben vannak kitéve a tanulási hatásnak, hiszen családtagjaik is rendelkeznek a képességgel (Levitin-Rogers 2005). Az abszolút halláson kívül létezik egy sokkal gyakoribb zenei képesség, a relatív hallás. A relatív hallással rendelkezők nagyon pontosan képesek meghatározni a hangok közötti különbségeket. Például ha lejátszunk nekik egy dallamot, és megmondjuk, hogy az milyen hanggal kezdődik, akkor ebből kiindulva képesek megállapítani a dallam többi hangját. A relatív hallás képessége elsősorban zenészeknél fejlődik ki, mégpedig hosszas gyakorlás eredményeként. Valójában a relatív hallás a zenét csak élvező, de nem produkáló hallgatóknak nem igazán fontos, mivel viszonylag ritkán kerülünk olyan helyzetbe, hogy bizonyos hangközöket meg kellene neveznünk. 267

282 12. FEJEZET A zene észlelése 5.2. Dallamsüketség A legtöbb ember tehát sem az abszolút, sem a relatív hallás képességével nem rendelkezik. Ahogyan azonban a zene tonális rendszerének észlelése kapcsán láthattuk, az egyszerű hallgatók is nagyon sok, automatikusan elsajátított ismerettel rendelkeznek a zenei szerveződéssel kapcsolatban. Azt mondhatjuk, hogy egy adott zenei stílus megértéséhez és élvezetéhez rendelkeznünk kell bizonyos alapvető ismeretekkel. Ugyanakkor a zenei képességek kontinuumának létezik egy másik véglete is, amely a zenei képességek viszonylagos hiányát jelenti. Ez az úgynevezett dallamsüketség vagy amúzia. A dallamsüketségnek létezik egy szerzett változata is, amely valamilyen agysérülés hatására alakul ki. Számunkra fontosabb a dallamsüketség fejlődési változata, amely feltételezhetően öröklött, és a populáció körülbelül 4-5 százalékát érinti (Peretz et al. 2002). A dallamsüketségben szenvedőkre az jellemző, hogy képtelenek a dallamok felismerésére, egyszerű dalok visszaéneklésére, illetve a dallamokban a hamis hangok detektálására, de nem mutatnak problémát egyéb észlelési feladatokban. Isabelle Peretz és munkatársainak kutatássorozata (Peretz et al. 2002) fényt derített arra, hogy a dallamsüketségben szenvedők alapvető problémája a kis hangmagasság-különbséggel rendelkező hangok megkülönböztetése (fél vagy egész zenei hang). Az ilyen kis hangközök a dallam észlelésében alapvető fontosságúak, ahogy azt a zenei hangok szekvenciális szerveződésénél láttuk, más akusztikus ingerek (pl. a beszéd) esetében viszont nincs szükség ilyen pontos hangmagasság-megkülönböztetésre. A szerzők szerint ez lehet az oka annak, hogy a dallamsüketségben szenvedők egyéb kognitív képességekben nem mutatnak problémákat ÖSSZEFOGLALÁS 1. A zene észlelése a beszéd észlelése mellett a másik legmagasabb szintű észlelési folyamat a hallás területén. Ennek két oka van: egyrészt csak az emberi faj rendelkezik a zene észlelésének és létrehozásának képességével, másrészt a zene nagyon sok pszichológiai működés komplex interakcióján alapul. 2. A zene alapvetően az idői és frekvenciabeli változások, vagyis a ritmus és a hangmagasság észlelését foglalja magában. Mindkettő egyszerű, jól meghatározható elemekből, meghatározott szabályok révén létrejövő, sokrétű szerveződési mintázatokat jelöl. 3. A ritmus bizonyos események (pl. hangok vagy mozdulatok) szabályos időbeli szerveződésére vonatkozik. A ritmus észlelésének alapja az események közötti időintervallumok és ezek periodikus ismétlődésének feldolgozása. 4. A zenei ritmus a különböző időtartamú hangok váltakozásából jön létre, amelyek szabályos viszonyban állnak egymással. A ritmus két különálló szerveződést tartalmaz: a csoportosítást és a metrumot. A csoportosítás a zenei hangok különböző nagyságú egységekbe történő szegmentálását jelenti. A metrum egy hierarchikus szerveződés, amely a hangsúlyos és hangsúlytalan ritmikai elemek váltakozásából származik. 5. A zenei hangmagasság észlelésében nem a hangok pontos hangmagassága, hanem a köztük lévő hangközök fontosak. A zenében a hangközök szabályos rendszert alkotnak, melynek alapja az oktáv. Az oktávnyi távolságra lévő hangok hasonlónak hangzanak, ezt oktávazonosságnak nevezzük. 6. A zenei hangok kétféle szerveződést mutatnak: szimultán (akkord) és szekvenciális (dallam). A szimultán szerveződésben elsősorban a hangok közötti kis frekvenciaarány fontos, amely kellemes hangzásúvá (konszonánssá) teszi az akkordot. A szekvenciális szerveződésben inkább a kis frekvencialépés lényeges, amely lehetővé teszi a hangok egy hallási láncba csoportosítását. A dallam több egymást követő hangok sorozatánál: valójában egy magas szintű perceptuális mintázat, amely független lehet a konkrét formától, vagyis attól, hogy milyen tempóban, hangszeren vagy hangnemben játsszák le. 7. A zenei hangokat hangnemekben értelmezzük, és a hangnemek tonális hierarchiába szerveződnek. Vannak bizonyítékok amellett, hogy a zeneelmélet által leírt tonális szerveződés leképeződik a hallgatók fejében. 8. A zeneészlelési képességek egyfajta kontinuumot alkotnak, amelyek a dallamsüketségtől az átlagos zenei észlelésen át a relatív és abszolút hallásig terjednek KULCSFOGALMAK abszolút hallás, dallam, dallamsüketség, hangköz, konszonancia, metrum, oktáv, relatív hallás, ritmus, tonális szerveződés 268

283 12. FEJEZET A zene észlelése 5.5. ELLENORZO KÉRDÉSEK 1. A zene evolúciós hátterét nem igazán tudjuk meghatározni. Mégis, miféle túlélési hasznossággal rendelkezhet 2. a zene? 3. Miben hasonlít és miben különbözik a zenei ritmus és a légzés ritmusa? 4. Milyen szerepet játszanak a hangok szubjektív jellemzői (hangerő, hangmagasság, hangszín, időtartam) a zene észlelésében? 5. A zeneészlelés kapcsán melyek azok a jellemzők, amelyek megfelelő észleléséhez tanulásra van szükség? 6. Miben tér el egymástól a beszéd és a zene produkciója? 7. Miért találunk zenészek között gyakrabban abszolút hallással rendelkezőket, mint nem zenészek között? 5.6. AJÁNLOTT OLVASMÁNY Pap János Hang, ember, hang. Vince Kiadó, Budapest. 269

284 15. fejezet - AZ ÉRZÉKELÉS MÁS DIMENZIÓI Képesek vagyunk-e láttatni, művészi formában kifejezni mindazokat az érzetek!, amelyek sem nem ' láthatók, sem nem hallhatók. Miként mutathatók be a világnak azok a dimenziói, amelyekhez ízek, szagok, külső és belső testi érzések kapcsolódnak, a kellemestől a fájdalmasig? Ha művészi illusztrációt keresünk, a szürrealizmusban találjuk meg igazán. Az édesapja révén részben magyar származású mexikói festőművésznő, Frida Kahlo ( ) sem csupán azt festette meg, amit látott, hanem azt is, amit érzett, amire vágyott. Szürrealista festőként azzal a szabadsággal festett, amely a torzított tárgyak-motívumok segítségével tudta kifejezni a világ szépségét, sokszínűségét, a testi és mentális fájdalmat. Az érzékelésnek a látáson és halláson kívüli dimenzióiról szóló fejezeteit A két Frida című képe illusztrálja. A fájdalmak, az élet megpróbáltatásai miatt megtört szív a fájdalom sokféle alakjának ábrázolására röntgenképszerű, sajátos szürrealista eszköz. Frida Kahlo felnőttkorára megtanult együtt élni a fájdalommal. Hatéves volt, amikor polio (gyermekbénulás) támadta meg; jobb lába erőtlenné vált, tornával és atlétikával igyekezett erősíteni. Egy tizennyolc éves korában elszenvedett buszbalesetben szerzett súlyos sérülése miatt csaknem egy teljes éven át ágyhoz kötve lábadozott. Az ágya fölé erősített tükör segítségével festette önarcképeit, így kezdődött festői karrierje. Balesete után négy évvel az ünnepelt festő, Diego Rivera felesége lett. Szenvedélyesen szeretett mindent: az élénk színeket, a zenét, a táncot, a csípős mexikói ízeket. És persze végigkísérte életét a fájdalom, a testi, a lelki, a mentális. A két Frida című kép két alakja közül a jobb oldali a szeretett, a bal a megtört szívű Frida. Képei életének szürrealista 270

285 AZ ÉRZÉKELÉS MÁS DIMENZIÓI dokumentumai, azt is mondhatnánk, hogy az érzékelés és észlelés művészi illusztrációi. Frida Kahlo minden idegszálával érzékelt, minden létező modalitásban tobzódott. Boldogan eltelt Rivera monumentális festményeivel, élvezte az utcai muzsikusok zenéjét, élvezte Mexikó zamatait. Kevés festőt ismerünk, aki ennyire elmerült volna a világ ingereiben, akit ennyire magával sodort volna az eseményeknek a fizikai világhoz tartozó valamennyi szintje. Frida Kahlo élete kinagyított példája annak, hogy az érzékelés és észlelés gyökerei milyen erősen kötődnek tapasztalatainkhoz, és annak, hogy észlelésünk mennyire ehhez alkalmazkodva alakul, jól vagy kevésbé jól, esetleg torzulva tükrözve a világot. Frida Kahlo megőrizte mindazt, amivel a világ élvezhető, látható, hallható, szagolható, ízlelhető. Ugyanakkor a szokásosnál jóval többet tudott a testérzésekről és a fájdalomról. A következő fejezetek ezeknek a más dimenzióknak a bemutatásával zárják az észlelésről szóló részt. Megismerkedünk azzal, miként is lehetséges saját testünk jelzéseinek érzékelése, észlelése, értelmezése. Kérdezhetjük, hogy van-e észlelés a testi jelzések szintje alatt is, van-e olyan extraszenzoros észlelés, amellyel, ha nem is mindenki, de néhányan rendelkeznek. A pszichológus számára ezeknek a kérdéseknek a megismerése is fontos lehet ahhoz, hogy megértse az ember mentális folyamatait és viselkedését. 271

286 16. fejezet FEJEZET Testérzékelés és fájdalom 1. Testérzés A testérzés (szomesztézia) fogalommal a test felszínéről és mélyéből érkező ingerek feldolgozását jelölik. Alapvetően három, jellegében különböző, de egymással össze is függő érzőminőség tartozik ide: bőrérzékelés (pl. tapintás, hőérzés, nyomásérzés), amely többféle érzékfajtát is átfog, közösen szokás őket az érintés fogalmába összegyűjteni; mozgásérzékelés (kinesztézia pl. karhajlítás, fejbiccentés, lábfeszítés), amely a testhelyzetnek, a testrészek egymáshoz való viszonyának, illetve a mozgásoknak az érzékelését foglalja magában; szervérzékelés (zsigeri érzékelés, viszcerocepció pl. szívdobbanások gyakorisága, hólyagfeszülés, gyomormozgások), amely a belső szervekből származó ingerek feldolgozásának közös elnevezése. Nem eldöntött kérdés, hogy van-e egy negyedik érzőminőség, a teljesség kedvéért azonban ésszerű külön is említeni, noha az előzőekkel is szoros rokonságban lehet: fájdalomérzés (nocicepció, illetve algesztézia pl. égési seb, horzsolás, izomhúzódás, gerincsérv, gyomorfekély) Börérzékelés A bőr a legnagyobb felületű érzékszerv, területe kb. 175 cm 2. A csecsemő teljes testsúlyának 19,7 százalékát teszi ki, míg a felnőttnél ez az arány 17,8 százalék, tehát tömegénél fogva is jelentős szervként fogható fel. Összehasonlításul: a látószerv összfelülete 2 cm 2, a hallószervé 4 cm 2, a szaglószerveké 6 cm 2, az ízérzékelő szervé 8 cm 2. A bőrben mintegy 200 ezer érzőidegrost található, a látószervben kb. 1 millió, a fülben 80 ezer, a szagló- hámban 50 ezer, az ízérző területeken pedig 10 ezer. Elmondható tehát, hogy a bőrérzékelés messze a legnagyobb felülettel és a második legnagyobb számú idegrosttal jellemezhető, nagy tehát a súlya az érzékelési folyamatokban. Jelentőségét fokozza az is, hogy a bőr az első érzékszerv, amely az ontogenezis során megjelenik: a 8 hetes magzat (kb. 3 cm hosszú ilyenkor) már jól fejlett bőrrel rendelkezik, és érintésre mozgással reagál. A többi érzékszerv csak később indul fejlődésnek: előbb a hallás szervei alakulnak ki, majd ezt követően a látáséi. Az újszülött, noha képes hangok és vizuális ingerek felvételére is, szintén elsősorban tapintása révén ismerkedik a világgal (jellemzően a legsűrűbb beidegzésű ujjvégek és ajkak segítségével), és csak jóval később veszi át a vezető szerepet a látás és a hallás. Az érintés azonban ekkor sem veszít sokat jelentőségéből. Jellemző például, hogy a tárgyak felületének tulajdonságait látásunk révén csak akkor tudjuk megbízhatóan megítélni, illetve a textúrájukat azonosítani, ha már előzőleg volt módunk az adott vagy más hasonló felületet megérinteni, ujjainkkal (vagy ajkunkkal) megvizsgálni. Más érzékszervek hiányát vagy csökkent működését részben szintén kompenzálni tudjuk az érintés segítségével (gondoljunk például a vakok számára kifejleszett, pontegyüttesekből álló Braille-írásra; ábra), még a látás és a hallás veleszületett együttes hiányát is lehet részlegesen pótolni az érintés és a tapintás révén (megfelelő gondozás esetén az ilyen emberek még műalkotások, például szobrok készítésére is képesek lehetnek, pusztán bőrérzékeik közreműködésével). A bőrérzékelés alapvetően három érzékfajtát jelent: mechanikai, hő-, illetve károsító ingerek felvételét. Az elsőt mechanorecepciónak, a másodikat termorecepciónak, a harmadikat nocicepciónak nevezik. Itt most csak az előbbi kettőről lesz szó, a nocicepcióval a fájdalom kapcsán foglalkozunk majd. Közös sajátosságuk, hogy receptoraik úgynevezett kontakt receptorok, vagyis aktiválásukhoz az ingereknek az érzőfelülettel érintkezniük kell. Ezért szokták őket együttesen taktilis érzékelésnek, illetve érintésnek nevezni; bár mindkét kifejezést használják szűkebb értelemben, kizárólag a mechanikai ingerekre vonatkoztatva is. A közös elnevezést az indokolja, hogy nagyon sok bőrbeli receptor többfajta ingerre is érzékeny, illetve, hogy a taktilis (érintő jellegű) ingerek többsége több mint egy érzékfajtát ingerel. 272

287 13. FEJEZET Testérzékelés és fájdalom ábra. A Braille-írás ábécéje. A jeleket kiemelkedõ pontcsoportok képezik, amelyeket az olvasó az ujjával tapogat le táblázat - A BOR FELEPITESE A bor nemcsak érzékszerv, hanem élő, sokféle funkcióval rendelkező szerv; egyik kiemelkedően fontos tulajdonsága állandó megújulásra való képessége, tehát hogy folyamatosan keletkeznek új sejtek a bőralján, és állandóan lelökődnek az elhalt, elszarusodott sejtek a felszínen. A sejtek állandó felfelé mozgása többféle átalakulással jár együtt, ez a bőrt réteges szerkezetűvé teszi. A bőr alsó, a szervezet belsejével érintkező része a bőralja (szubdermisz), efelett van az irharéteg (dermisz), majd a hám (epidermisz), és ennek felszíni része, az elszarusodott felhám. A bőr igen sokféle sejtet, illetve más szerkezeti elemet (pl. különféle rostokat) tartalmaz, és számos függeléket (mirigyeket, szőrtüszőket) találunk benne. Felszínét a szaruréteg alatt szorosan záródó, zsírszerű anyagokkal összecementezett záróréteg borítja, amely a kórokozók behatolását, de a vízvesztést is megakadályozza. A bonyolult felépítésű bőrbe az erek és idegek egész hálózata nő be, amely hálózat nem állandó, hanem a bőr élete során változik; ez vonatkozik a receptorokra is, noha az idegi elemek maguk nem cserélődnek, de hosszuk és elrendezésük változhat. A bőr réteges szerkezete azt is eredményezi, hogy az egyes receptorok különböző mélységekben helyezkednek el, a felszín közvetlen közelétől egészen a bőralja mélyrétegéig; ez érzékenységükben és funkciójukban is jelentős eltéréseket okoz. 273

Több megjelenítése