Vargha András PSZICHOLÓGIAI STATISZTIKA DIÓHÉJBAN 1. X.1. táblázat: Egy iskolai bizonyítvány. Magyar irodalom. Biológia Földrajz

Megjelent: Vargha A. (7). Pszichológiai statisztika dióhéjban. In: Czigler I. és Oláh A. (szerk.), Találkozás a pszichológiával. Osiris Kiadó, Budapest, 7-46. Mi az, hogy statisztika? Vargha András PSZICHOLÓGIAI STATISZTIKA DIÓHÉJBAN A Magyar értelmező kéziszótár szerint a statisztika az a tudomány, amely tömeges jelenségek, folyamatok számbeli adatainak összegyűjtésével, nyilvántartásával, elemzésével és feldolgozásával foglalkozik. Bármily meglepő azonban, a statisztika művelése nemcsak a tudósok privilégiuma, ilyesfajta tevékenységet majd minden ember végez. A X.. táblázat például Béla, egy kilencedikes középiskolás tanuló év végi bizonyítványának alapján készült. X.. táblázat: Egy iskolai bizonyítvány Tantárgy Osztályzat Magyar irodalom Jeles Magyar nyelv Jeles Angol nyelv Jeles Matematika Jeles Fizika Közepes Kémia Jó Biológia Jó Földrajz Jó Ének-zene Jeles Rajz és műalkotások elemzése Jeles Testnevelés Jeles Ha Bélától megkérdezi egy ismerőse, hogy milyen volt a bizonyítványa, Béla aligha fogja felsorolni a táblázatban összefoglalt tantárgyat és a rájuk kapott jegyeket. Sokkal valószínűbb, hogy Béla ilyesformán felel: Kaptam hét ötöst, három négyest és egy hármast. Bár Béla ennek aligha van tudatában, az általa közölt adatok statisztikai információk, melynek elnevezése statisztikai szakszavakkal: a kilencedikes év végi bizonyítvány érdemjegyeinek gyakorisági eloszlása. Kevés olyan szülő van, aki ne próbálná gyerekének bizonyítványát egyetlen számmal, a jegyek átlagával is jellemezni, mely Béla esetében most a következőképpen néz ki (két tizedesre kerekítve): átlag jegyek összege jegyek száma 7 7 4 4,. Némi egyszerűsítéssel azt mondhatjuk, hogy ha valamilyen vizsgálattal vagy kutatással kapcsolatban rendelkezésre áll egy nagyobb adategyüttes, akkor gyakran statisztikai módszerekkel lehet ezekből az adatokból a szakmailag lényeges információt kiszűrni, az A szerző itt szeretne köszönetet mondani Czigler Balázsnak a kézirat első változatának elolvasásáért és hasznos észrevételeiért.

átláthatatlan adattömeget kevés számú, de tartalmas mutatóval leírni, s ezek segítségével a vizsgált jelenségről, csoportokról érvényes következtetéseket megfogalmazni. Miért van szüksége a pszichológia tudományának statisztikára? A feltett kérdést egy valódi pszichológiai vizsgálat segítségével válaszoljuk meg. Egy emlékezettel kapcsolatos vizsgálatban a résztvevő személyeknek, akik egyetemi hallgatók voltak, három betűből álló értelmetlen szót (véletlen betűsort) vetítettek ki - másodperces időtartamban. A személyeket minden szó után megkérték, hogy a náluk lévő papírra próbálják meg leírni, hogy mit láttak. Az. értelmetlen betűsor (alternáló szó) mássalhangzóval kezdődött és benne a magánhangzók és mássalhangzók szabályosan váltogatták egymást; a. értelmetlen betűsor (msh szó) csupa mássalhangzóból, a. pedig (mgh szó) csupa magánhangzóból állt (lásd X.. táblázat). X.. táblázat: Egy emlékezeti vizsgálatban vetített három értelmetlen szó. értelmetlen betűsor (alternáló szó) MUBÖZÚHÉKÜTA. értelmetlen betűsor (msh szó) LTMJKNRBZBTH. értelmetlen betűsor (mgh szó) ÖAÜEÁOÍÉUÓIÜ A vizsgálatban arra a kérdésre kerestünk választ, hogy a három szótípus különbözik-e egymástól a megjegyezhetőség tekintetében. A megjegyezhetőség egyik mértékeként minden személy esetében megnéztük, hogy a vetített szavak első hány betűjét reprodukálták, vagyis adták meg helyesen. Az ily módon definiált mennyiségeket a statisztikában változóknak nevezik. E három változóra vonatkozó adatokat a X.. táblázat tartalmazza az összes vizsgálatban résztvevő személyre vonatkozóan. X.. táblázat: Egy emlékezeti vizsgálat adatai Személy. szó (alternáló). szó (msh). szó (mgh). szó (alternáló). szó (msh). szó (mgh) Személ y. 6. 9 6. 4. 9 9. 6. 9 4 4. 8 4 6.. 6 7. 9 6. 7 6 8. 7. 9. 6 8. 9 7. 6 6 9.. 6. 9. 6. 7. 4. 6 4. 6 6 A X.. táblázat adatait megszemlélve aligha bontakozik ki előttünk világos kép a megvizsgált jelenségről. Néhány elemi statisztikai művelet segítségével azonban hamarosan okosabbak leszünk. a) Ha szavanként megnézzük, hogy rendre hány személy reprodukálta helyesen a szó első,,,,, betűjét, majd ezekből egyszerű oszlopdiagramokat készítünk, akkor a X.., X.. és X.. ábrán látható eredményre jutunk.

Gyakoriság 7 6 4 6 4 4 4 6 7 8 9. szó (alternáló): MUBÖZÚHÉKÜTA X.. ábra: Az. értelmetlen betűsorra vonatkozó emlékezeti teljesítmény változójának gyakorisági eloszlása a 4 fős vizsgálati mintában Gyakoriság 9 8 7 6 4 8 6 4 6 7 8 9. szó (msh): LTMJKNRBZBTH X.. ábra: A. értelmetlen betűsorra vonatkozó emlékezeti teljesítmény változójának gyakorisági eloszlása a 4 fős vizsgálati mintában

Gyakoriság 8 6 4 4 6 7 8 9. szó (mgh): ÖAÜEÁOÍÉUÓIÜ X.. ábra: A. értelmetlen betűsorra vonatkozó emlékezeti teljesítmény változójának gyakorisági eloszlása a 4 fős vizsgálati mintában Ezekről az ábrákról, amelyeket a statisztikában hisztogramoknak neveznek, már kibontakozik egy-két vizsgálattal kapcsolatos összefüggés. Az egyik ilyen például az, hogy a csupa magánhangzóból álló. szó (mgh) felidézése nehezebbnek tűnik, mint az első kettőé, amit az árul el, hogy ennél a szónál érezhetően kisebb arányban fordulnak elő a jobb felidézési teljesítményt tükröző nagyobb értékek. b) Hasonló következtetésre jutunk, ha a X.. táblázat adataiból kiszámítjuk a három szó felidézési változójának átlagát, melyeket az előforduló legkisebb és legnagyobb értékkel együtt a X.4. táblázatban foglaltunk össze. X.4. táblázat: A három szó felidézési változójának néhány alapstatisztikája Változó Átlag Minimum Maximum. alternáló betűsor felidézési mutatója 6,. mássalhangzók felidézési mutatója, 9. magánhangzók felidézési mutatója,8 6 A X.., X.. és X.. ábrán látható oszlopdiagramok, illetve a X.4. táblázatban összefoglalt statisztikai jellemzők a leíró statisztika eszköztárába tartoznak. A leíró statisztika fő feladata, hogy nagyobb adategyütteseket kevés számú, de tartalmas mutatóval, illetve ábrával lényegre szorítkozóan és hitelesen leírjon. Ennek segítségével a jelen esetben megállapíthatjuk például, hogy az ismertetett pszichológiai vizsgálatban a résztvevő 4 személy összességében hatékonyabban idézte fel a nyelvünk értelmes szavaira jobban hasonlító alternáló értelmetlen betűsort, mint a csupa mássalhangzóból, illetve csupa magánhangzóból állót, továbbá a csupa mássalhangzóból álló betűsor megjegyzése érezhetően nehezebbnek bizonyult, mint a csupa magánhangzóból állóé. Kérdés persze, hogy lehet-e egy ilyen vizsgálat adataiból messzemenő következtetéseket levonni. Ha mondjuk valamilyen varázslatos technika segítségével a szóban forgó vizsgálatot el tudnánk végezni az összes magyar egyetemi hallgatóval, akkor a. (msh) szó felidézési átlaga itt is jobb lenne, mint a. (mgh) szóé? Egyáltalán a mi 4 fős mintánk 4

alapján levonható valamilyen következtetés arra, hogy kb. mekkora lehet a három szó felidézési mutatójának átlaga az összes magyar egyetemi hallgató populációjában? Az ilyen és ehhez hasonló kérdések megválaszolásával a statisztikának egy másik ága, az ún. következtetési statisztika foglalkozik. Lehet-e 4 egyedről egy egész populációra megbízhatóan következtetni? Mindjárt az elején szögezzük le: statisztikai módszerekkel ez lehetséges, ha bizonyos feltételek teljesülnek. A dolog lényegét egy egyszerű pénzfeldobásos játékkal szemléltetjük. Van egy pénzérménk fej és írás oldallal, s arról szeretnénk megbizonyosodni, hogy az érme cinkelt-e, vagyis hogy szabályos véletlen dobás esetén a fej és az írás dobása egyaránt %-os esélyű-e. A probléma minden bizonnyal megoldható az érme alapos fizikai és kémiai elemzésével, a statisztika azonban egy másféle megoldást kínál, amelyet az alábbiakban részletezünk.. Dobjunk az érmével sokszor (jelöljük ezt a számot most n betűvel), egymástól függetlenül, szabályosan, tehát a véletlenre bízva, hogy hogyan esik le az érme, s számoljuk meg a fej dobások számát az n kísérlet során.. Határozzuk meg matematikai számítással, hogy azonos esélyű fej és írás dobás esetén n dobásból a matematika szabályai szerint hány fejnek kell előfordulnia igen nagy valószínűséggel. Ha ez nem is olyan pofon egyszerű, standard kombinatorikai vagy valószínűségszámítási módszerekkel könnyedén kiszámítható. Például n = esetén a,,, 9, számú fej dobás előfordulásának százalékos esélyét a X.. táblázatban foglaltuk össze. A X.. táblázatból kiolvasható, hogy szabályos pénzérme esetén olyan szélsőséges szituáció, hogy mind a dobás fej legyen, vagy hogy egyetlen fej se forduljon elő, az eseteknek csak a, +, =, százalékában fordul elő, vagyis dobásból átlagosan -szer. Ez azt jelenti, hogy a dobások kb. 99,8%-ában és 9 között lesz a fejek száma, s hasonló módon az is egyszerűen adódik, hogy szabályos érme esetén a dobások kb. 97,8%-ában a fejek száma és 8 közé esik.. Ha a kapott eredmény nagyon ellentmond annak a kiinduló feltételezésünknek, hogy az érme szabályos, akkor vessük el bátran ezt a feltételezést. Ha például dobásból a fejek száma nem esik az 9 számok közé (a szélső értékeket is beleértve), ez ellentmond az érme szabályosságának, mert szabályos érme esetén a fejek száma szinte mindig (az esetek 99,8%-ában) és 9 közé esik. Persze -ből fej szabályos érme esetén sem lehetetlen, csak annyira parányi esélyű, hogy ilyen esetben inkább arra fogunk gondolni, hogy az érmével van valami galiba. X.. táblázat: A,,, 9, számú fej dobásának százalékos esélye n = dobásból Fejek száma Százalékos esély Fejek száma Százalékos esély,% 6,% % 7,7% 4,4% 8 4,4%,7% 9 % 4,%,% 4,6%

Térjünk vissza most pszichológiai vizsgálatunk adataihoz. A X.4. táblázat adatainak láttán többféle gondolat is megfogalmazódhat bennünk, az egyik ilyen például az, hogy a csupa mássalhangzóból álló betűs értelmetlen jelsorozatokat (msh szavakat) könnyebb megjegyezni, mint a csupa magánhangzóból állókat (mgh szavakat). Az általunk megvizsgált 4 személyből mindössze olyan volt, aki az mgh szót teljesebben idézte fel, mint az msh szót. 6 személy esetében az msh szó felidézése volt a könnyebb, személy pedig a két szót ugyanolyan mértékben reprodukálta (vö. X.. táblázat). Ha a két szó esetében eltérő felidézési teljesítményt nyújtó személyekre szorítkozva (mintánkban + 6 = 9 ilyen van) azzal a feltételezéssel élünk, hogy a két típusú betűsor megjegyzése ugyanolyan nehézségű, akkor bármelyik személy esetében egyéb információ híján ugyanakkora az esélye, hogy az illető az msh szót idézte fel jobban, mint hogy az mgh-t. Ha ez igaz, akkor az érmés példával analóg módon megállapítható, hogy ilyen esetben a 9 személyből az esetek nagy többségében hány főnél számíthatunk arra, hogy az msh szó felidézési teljesítménye jobb lesz, mint az mgh szóé. Kiszámítható például, hogy ilyen feltételek mellett (ugyanolyan felidézési nehézségű betűsor) a 9 személyből 4 és közti számú esetben várható, hogy az msh szó felidézési teljesítménye jobb lesz, mint az mgh szóé. (Ez ugyanaz, mintha azt mondanánk, hogy szabályos érmét használva 9 véletlen dobásból az esetek kb. 99,6%-ában 4 számú fejre számíthatunk.) Minthogy a mi pszichológiai vizsgálatunkban a megfigyelt eredmény (9-ből 6 esetben msh szó fölény) erősen ellentmond az egyforma felidézési teljesítmény hipotézisének, ezt a hipotézist elvetjük és azt állapítjuk meg, hogy a két szó megjegyezhetősége eltérő nehézségű. Tekintve, hogy mintánkban az msh szóra vonatkozó felidézés volt dominánsan kedvezőbb, a különbség megállapítása után ennek fölényét jósoljuk be a populációban is. A statisztikában statisztikai próbáknak nevezik azokat a speciális eljárásokat, amelyek segítségével a fentebb részletezetthez hasonló típusú hipotézisek vizsgálatát végzik. Mennyire lehetünk biztosak abban, hogy jól döntünk, ha egy populációra vonatkozó hipotézist elfogadunk vagy elutasítunk? Abból kell kiindulnunk, hogy a megismerni kívánt populációról mindig csak részleges, korlátozott információ áll rendelkezésre: -, esetleg néhány száz vagy ezer egyén adatai. Ezek alapján száz százalékos megbízhatóságú következtetés eleve lehetetlen, így a pszichológiai statisztika olyan módszereket keres, amelyek alkalmazása esetén a hibás döntés valószínűsége bizonyos előre meghatározott, viszonylag alacsony szint alatt marad. A pszichológiai statisztikában általánosan elfogadott konszenzus alapján ez a hibaszint %, ami azt jelenti, hogy pszichológiai adatok statisztikai elemzései során olyan következtetések levonására törekszünk, amelyek megbízhatósága minimum 9%-os. Ennek szellemében a statisztikai hipotézisvizsgálatok általános gondolatmenete egy populációra vonatkozó feltételezés tesztelése során a következő.. A vizsgált pszichológiai populációból kiválasztunk véletlenszerűen egy kellően nagy (ha lehetséges, minimum - fős) mintát, s ennek egyedein egymástól függetlenül elvégezzük a szóban forgó pszichológiai kérdéssel kapcsolatos mérést, vizsgálatot vagy kísérletet.. Kiszámítunk egy alkalmas statisztikai mutatót, mely szoros kapcsolatban van a megfogalmazott hipotézissel (a fenti emlékezetéssel kapcsolatos példában ez azon személyek száma, akik esetében az msh szó felidézése jobb, mint az mgh szóé).. Matematikai módszerrel, illetve alkalmas statisztikai táblázat segítségével meghatározzuk azt az értéktartományt (az ún. megtartási tartományt), ahova ennek a statisztikai mutatónak az értéke az esetek minimum 9%-ában beleesik. 4. Ha a konkrét esetben a mutató értéke beleesik a megtartási tartományba, ezt úgy értelmezzük, hogy vizsgálati adataink nem mondanak ellent kellő mértékben a megfogalmazott hipotézisnek, ezért a hipotézist nem utasítjuk el. Ha viszont a 6

mutató értéke nem esik bele a megtartási tartományba, ahova az adott hipotézis esetén nagy (minimum 9%-os) valószínűséggel esnie kell, ezt úgy értelmezzük, hogy empirikus vizsgálatunk adatai erősen ellentmondanak a megfogalmazott hipotézisnek, ezért a hipotézist elutasítjuk (elvetjük). Mivel a hipotézis igaz volta esetén a statisztikai mutató értéke igen ritkán (%-osnál kisebb eséllyel) kerül kívül a megtartási tartomány határain (ilyenkor sajnos tévesen döntünk), ezért a hipotézis fenti kifejtett logikájú elutasítása esetén döntésünk megbízhatósága minimum 9%-os. Ha a statisztikai mutató értéke beleesik a megtartási tartományba, vagyis ha olyan eredményt kapunk, melynek alapján a hipotézist nem lehet 9%-os megbízhatósággal elutasítani (pl. amikor dobásból 7 fejet kapunk), akkor nem tudunk kellő bizonyossággal semmit kijelenteni. Sem azt, hogy a hipotézis igaz, sem azt, hogy hamis. Ilyenkor nem kötelezzük el magunkat sem a hipotézis mellett, sem ellene. Inkább nem mondunk semmit, sem hogy kellő alap nélkül vonjunk le a pszichológiai vizsgálatból olyan következtetést, amely esetleg nem is igaz. Ha például barátunkkal fej vagy írást játszunk és ő -ből 8-szor fejet dob, kár lenne emiatt a nyakának ugrani, hogy biztosan cinkelt pénzzel játszik (kiváltképp, ha nálunk sokkal erősebb!). Ha viszont -ből -szer dob fejet, erősen javasolt, hogy hagyjuk abba vele ezt a játékot. A statisztikai hipotézisvizsgálat menete hasonlít egy igazságos bírósági eljárásra is. Ahogy a vádlottat is csak akkor ítélik el, ha a bíró vagy az esküdtek testülete egyértelműen meggyőződött a bűnösségéről, a statisztikai hipotézis elutasításáról is csak akkor hozunk döntést, ha a hipotézis igazsága ellen megfelelő súlyosságú érv szól. A statisztikában az számít egy hipotézissel szemben megfelelő súlyosságú érvnek, ha olyan esemény következik be, amely a hipotézis igaz volta esetén igen ritkán %-nál kisebb eséllyel következik be. Nem jó az átlagnak egyedül A X.6. táblázat három bizonyítványt mutat be. A három bizonyítvány átlaga hajszálra ugyanaz, mégis jól látható különbség van közöttük. Ha muszáj lenne közülük választani, a kedves olvasó melyiket részesítené előnyben? Gondolom, a. bizonyítványt biztos elkerülné. X.6. táblázat: Három azonos átlagú bizonyítvány Tantárgy. bizonyítvány. bizonyítvány. bizonyítvány Magyar irodalom 4 Magyar nyelv Angol nyelv 4 Matematika Fizika 4 Kémia Biológia 4 Földrajz Ének-zene 4 Testnevelés átlag A X.6. táblázat három bizonyítványának adatsora statisztikai szóhasználattal a három adatminta abban tér el egymástól, hogy az adatok eltérő mértékben szóródnak saját centrumuk, az átlag körül. Az. bizonyítvány esetében minden jegy megegyezik az átlaggal, 7

vagyis saját átlagától távolságra van. A. bizonyítvány esetében minden jegy pontosan egységgel különbözik az átlagtól, míg a. bizonyítvány esetében az átlagtól minden jegy egységgel tér el. A statisztikai összességeknek és mintáknak az a tulajdonsága, hogy az adatok mennyire szóródnak az átlag körül, az átlag mellett talán a legfontosabb jellemzője. E szóródás nagyságát mérhetjük például úgy is, hogy kiszámítjuk az adatok átlagos abszolút eltérését az átlagtól, mely a X.6. táblázatban látható három bizonyítvány esetében rendre,, illetve egység. További példaként az,,,, minta esetében az átlag láthatóan, az ettől való átlagos abszolút eltérés (AE) pedig a következő: AE 6,. Egy ehhez hasonló mutatót kapunk, ha az átlagtól való átlagos négyzetes eltérést számítjuk ki, melyet a statisztikában varianciának hívnak. A fenti adatból álló minta esetében ennek a mutatónak az értéke: Var ( ) ( ) ( ) ( ) ( ) 9 4 4,8. Mivel a variancia négyzetes eltérések átlaga, négyzetgyökvonással kaphatunk belőle olyan mutatót, mely az adatok saját átlaguktól való eltérésének mértékéről tájékoztat. Ez a szórásnak nevezett és magyarul s-sel jelölt mutató esetünkben: s,8,67, mely kis mértékben nagyobb, mint ugyanezen minta átlagos abszolút eltérése (,). Kvantitatív adatminták két legfontosabb és leggyakrabban használt mutatója az átlag és a szórás. Ezeket többnyire együtt szokták megadni. Az átlag tájékoztat az adatok nagyságszintjéről, a szórás pedig arról, hogy az adatok mennyire szóródnak (variálnak, ingadoznak) ezen szint körül. A rend kedvéért meg kell említenünk, hogy a pszichológiai statisztikában az adatminták varianciáját (s ennek következtében a szórást is) a fentebb leírttól parányit eltérő képlettel szokták definiálni. E kis eltérés abból áll, hogy a variancia kiszámításakor a négyzetes eltérések összegét nem az adatok számával, vagyis a mintaelemszámmal osztják le, hanem ennek -gyel csökkentett értékével. Ennek megfelelően például a fenti elemű minta esetében a korrigált számítás: 4 Var, és s,,87. 4 Ennek a kis korrekciónak egyetlen előnye van: a korrigált mintavariancia a korrekció nélküli változatnál pontosabban, azaz kisebb hibával becsüli a minta által képviselt populáció varianciáját, mely a populációbeli összes adat átlagos négyzetes eltérése a populációátlagtól. Mi a nagyobb, cm vagy kg? 8

Első hallásra talán hajlamosak vagyunk azt mondani, hogy az cm, mert nagyobb, mint. Óvatosabb megközelítéssel esetleg azt válaszoljuk, hogy a feltett kérdésnek nincs értelme, mert az cm más dimenzióban mér, mint az kg. A válaszadást azonban nem kerülhetjük ki ilyen könnyen, ha a kérdést így pontosítjuk: egy cm testhosszal és kg testsúllyal született csecsemő melyik adata tekinthető nagyobbnak, a testhossza ( cm), vagy a testsúlya ( kg)? A testhossz és a testmagasság nagyságának megítéléséhez szükség van valamilyen viszonyítási alapra. Az átlag és a szórás ilyen mutatók. Statisztikai adatokból tudjuk, hogy Magyarországon az újszülött csecsemők testhossz átlaga kb. cm, szórása pedig kb., cm. Ez azt jelenti, hogy az cm-es születési testhossz az átlagost észrevehetően meghaladó érték. Nem lehetne valahogy ennek a mértékét is meghatározni? A, cm-es testhossz szórás azt jelzi, hogy az újszülöttek testhossza átlagosan, cm-rel különbözik az cm-es átlagtól, az cm pedig ennek megfelelően az átlagos eltérés kétszeresével. Azt látjuk tehát, hogy ha egy adat esetében kiszámítjuk, hogy az adat hány szórásnyira van az átlagtól, akkor az adat nagyságát jól kifejező értéket kapunk. Ezt az értéket, amely most az cm-es születési testhossz érték esetében z = ( )/, =, az adott cm-es érték standard értékének nevezzük. Az átlag standard értéke láthatóan mindig, az átlagnál nagyobb értékeké mindig pozitív, az átlagnál kisebb értékeké pedig mindig negatív. Tekintve, hogy jelenleg Magyarországon a születési súly átlaga kb., kg, szórása pedig kb., kg, az kg-os testsúlyhoz tartozó standard érték: z = (,)/, =,6. Mivel az cm-es testhosszhoz tartozó standard érték, az kg-os születési súlyhoz tartozó pedig,6, immár megállapíthatjuk, hogy az cm-es érték itt most kisebbnek számít, mint az kg-os. A standard érték szemléltetésére egy pszichológiai példát is bemutatunk. Az intelligenciát mérő Magyar Wechsler Intelligenciateszt (MAWI) úgy lett elkészítve, hogy az általa mért IQ mutató átlaga és szórása a magyar populációban rendre, illetve legyen. A standard értékről fentebb mondottak alapján megállapíthatjuk, hogy például egy -as IQérték standard értéke ( )/ =, a 8-é (8 )/ =,. Meg tudná mondani az olvasó, hogy a -es standard értéknek pontosan milyen IQ-érték felel meg? Hogy lehet a pszichológiában változók kapcsolatát megvizsgálni? Kapcsolatban van-e az egyén boldogsága azzal, hogy milyen anyagi körülmények között él? Függ-e a gyermek intelligenciája szüleinek intelligenciaszintjétől? Igaz-e, hogy az énerő negatív kapcsolatban van a szorongással? A pszichológiában a legtöbb kérdés változók kapcsolatának formájában fogalmazódik meg. Ezzel összefüggésben ha van két változónk, két alapvető kérdés mindig megválaszolásra vár.. Van-e valamilyen kapcsolat (összefüggés, együttjárás) a vizsgált két változó között? Ennek tisztázására függetlenségük hipotézisét szokták valamilyen statisztikai próbával tesztelni.. Milyen szoros kapcsolatban van a vizsgált két változó egymással? Ezt a kérdést leginkább akkor célszerű feltenni, ha már kiderült, hogy a két változó nem független egymástól. Változók kapcsolatának szorosságát különböző kapcsolati, asszociációs vagy korrelációs mutatók segítségével szokták mérni. Az alábbiakban megismertetjük az olvasót a pszichológiában leggyakrabban használt kapcsolati mérőszám, a korrelációs együttható fogalmával. 9

4, 4 Testsúly (kg),,, 8 4 4 44 46 48 4 Testhossz (cm) X.4. ábra: újszülött csecsemő testhossza és testsúlya koordinátarendszerben ábrázolva A X.4. ábrán újszülött csecsemő testhosszát és testsúlyát mutatjuk be kétdimenziós koordinátarendszerben. Az ábrán minden egyes pont egy csecsemő két születési adatát képviseli. Például az ábra bal alsó sarkához közeli pont egy, kilóval és 4 cm-rel született csecsemőt képvisel. Ezen az ábrán szembeötlő a pontoknak egy emelkedő vonulata (trendje), mely abból fakad, hogy egy kisebb testhosszú csecsemőnek általában a testsúlya is kisebb, nagyobb testhosszúnak pedig nagyobb. Emiatt azt kell megállapítanunk, hogy az újszülött csecsemőknél a testhossz és a testsúly nem független egymástól, láthatóan pozitív kapcsolat van köztük. De hogy lehetne ezt a kapcsolatot valamilyen egyszerű mutató segítségével számformába önteni? A pozitív kapcsolatnak az a legfőbb jellegzetessége, hogy ha az átlagosnál nagyobb az egyik változó (esetünkben a testhossz) értéke, akkor többnyire az átlagosnál nagyobb lesz a másiké (esetünkben a testsúlyé) is. De az átlagnál nagyobb értékek standard értéke -nál nagyobb (lásd fentebb), így ebben az esetben a két változó standard értékének a szorzata is - nál nagyobb, vagyis pozitív szám lesz. Ha pedig az egyik változó értéke az átlagnál kisebb, akkor pozitív kapcsolat esetén rendszerint a másiké is kisebb lesz saját átlagánál, így a standard értékek negatívak lesznek, szorzatuk (két negatív szám szorzata) viszont ismét pozitív. A X.. ábra két másik változó, a Kaliforniai Személyiség Kérdőív Szorongás és Énerő skálájának kapcsolatát szemlélteti, a 8-as évek elején pszichológia szakra felvételiző személyek 8 fős mintája alapján. Az ábrán azt láthatjuk, hogy kisebb szorongás általában nagyobb énerővel, nagyobb szorongás pedig kisebb énerővel jár együtt, ami a két változó negatív kapcsolatáról árulkodik. Ilyen jellegű kapcsolatok esetén, ha az átlagosnál nagyobb az egyik változó értéke, akkor többnyire az átlagosnál kisebb lesz a másiké is, és fordítva. Így ebben az esetben a standard értékek általában ellentétes előjelűek, ami miatt a szorzatuk többnyire negatív szám lesz. A könnyebb érthetőség kedvéért a X.4. ábrán bemutatott csecsemő adatait táblázatban is összefoglaltuk, feltüntetve az adatokhoz tartozó standard értékeket, s azok szorzatát is (lásd X.7. táblázat).

4 4 Énerő Szorongás X.. ábra: Két negatív kapcsolatban lévő változó X.7. táblázat: újszülött csecsemő testhossza és testsúlya eredeti és standard értékkel kifejezve, valamint a standard értékek szorzata Csecsem ő Testhoss z (cm) Testsúl y (kg) Testhossz (standard érték) Testsúly (standard érték) Standard értékek szorzata.,,7,,76. 47,4 -,68 -,6,794.,8,4,8,648 4. 49,,,,8.,9,7,49,796 6. 46, -, -,, 7.,4,7,,6 8. 49,9, -,7 -,6 9.,,7 -, -,7.,4,7,,86.,,7 -,9 -,7. 47,6 -,68 -,86,87. 49,4,,,89 4. 4,8,7,87,999. 48,8 -, -,,8 6.,44,7,8,8 7.,8,7,,886 8. 4, -, -,8 8,84 9. 46,7 -, -,7,74. 49,,,7, Átlag: 48,9,,8797 Szórás:,86,7

Mind a X.4. és a X.. ábra, mind a X.7. táblázat alapján meggyőződhetünk arról, hogy ha két változó pozitív kapcsolatban van, akkor standard értékük szorzata általában pozitív, ha pedig negatív kapcsolat van köztük, akkor standard értékük szorzata általában negatív. Emiatt e szorzatok teljes mintára, illetve populációra vonatkozó átlaga olyan mutató, amely egyaránt jelzi a két változó kapcsolatának irányát (pozitív vagy negatív) és szorosságát. Ezt a mutatót korrelációs együtthatónak (röviden korrelációnak) nevezzük, melynek szokásos jele r. Matematikai eszközökkel igazolható, hogy r nem lehet kisebb -nél és nem lehet nagyobb +-nél. Egy körüli r érték azt mutatja, hogy a két változó pozitív és negatív kapcsolatát jelző adatok egyensúlyban vannak, egyik sem domináns a másikkal szemben. A +-hez közeli r értékek a két változó vonatkozásában a pozitív kapcsolat erős dominanciáját, a -hez közeliek pedig a negatív kapcsolat erős dominanciáját jelzik. A X.4. ábrán szemléltetett születési testhossz és testsúly közti korreláció három tizedesre kerekítve: r =,88 (lásd X.7. táblázat), vagyis erősen pozitív, a X.. ábrán látható Énerő és Szorongás skálák közti korreláció pedig r =,749, vagyis erősen negatív. X.8. táblázat: gyermek újszülött korában és évesen mért testhossz (testmagasság) és testsúly adata között páronként kiszámított korrelációk Változó Születési testsúly Születési testhossz Testsúly éves korban Testmagasság éves korban Születési Születési Testsúly Testmagasság testsúly testhossz éves korban éves korban,788,64,6,788,8,7,64,8,66,6,7,66 Ha kettőnél több változónk van és kíváncsiak vagyunk arra, hogy milyen kapcsolatban vannak, akkor a változók között páronként kiszámított korrelációkat gyakran célszerű táblázatos formában bemutatni. Ennek neve korrelációs táblázat, vagy korrelációs mátrix. Szemléltetésképpen véletlenszerűen kiválasztott magyar gyermek születési súlya és testhossza, valamint éves kori testsúlya és testmagassága között kiszámított korrelációk táblázatát a X.8. táblázatban mutatjuk be. Ebből kiolvasható, hogy legszorosabb kapcsolatban a születéskori testsúly és testhossz, valamint a éves kori testsúly és testmagasság van. A korrelációk a többi változópár (pl. a születési testhossz és a éves kori testmagasság) esetében is pozitívak, csak nem annyira erősek. E táblázatban érdemes megfigyelni, hogy egy változónak saját magával való korrelációja mindig (azaz maximálisan pozitív). Mekkora IQ-vagyont öröklünk szüleinktől? Többféle intelligenciateszt is létezik. Ezek közül Magyarországon az egyik legismertebb a MAWI (lásd fentebb), melynek IQ-mutatója úgy van kalibrálva, hogy a felnőtt magyar emberek populációjában az átlaga és szórása rendre, illetve legyen. Akinek -nál nagyobb az IQ-ja, az úgy érezheti magát, hogy az átlagosnál okosabb, intelligensebb, s e tekintetben valamelyest kiemelkedik a többi ember közül. Aki pedig -nál kisebb IQ-jú, az úgy érezheti, hogy intelligencia tekintetében a többi emberrel szemben némi deficitje van. E

megfontolás alapján nevezzük IQ-vagyonnak minden felnőtt ember esetében az IQ értéket! Ez az érték pozitív az átlagosnál intelligensebb személyek csoportjában és negatív a -nál kisebb IQ-júak esetében. Vajon IQ-vagyonunkból mekkora részt tudunk gyerekeinknek átörökíteni? Például egy 4-ös IQ-jú apa gyermekei várhatóan mekkora IQ-júak lesznek? Egészen pontosan a kérdés arra vonatkozik, hogy ha a populációban vesszük az összes 4-ös IQ-jú felnőtt férfit, majd ezek gyermekeit megvizsgáljuk mondjuk 8 éves korukban a MAWI-teszttel, akkor ez utóbbiak IQ-átlaga mekkora lesz? A legtermészetesebb válasz az, hogy ha a szülő 4-ös IQjú, akkor várhatóan gyermeke IQ-ja is e szint körüli lesz. Érdekes módon ez a válasz nem igaz. A helyes válasz így néz ki.. Először is nézzük meg, hogy milyen korrelációs kapcsolat van szülők és gyermekeik IQ-ja között! Ez több empirikus vizsgálat alapján,6 körülinek tekinthető.. Határozzuk meg a szülő IQ-vagyonát! Ez egy 4-ös IQ-jú személy esetében 4 = 4.. Szorozzuk meg a szülő IQ-vagyonát az r =,6 korrelációs értékkel, ez lesz a gyermek várható IQ-öröksége :,6 4 = 7. 4. Végül a gyermek várható IQ-értéke: IQ gyermek = + 7 = 7. Ennek a megoldásnak az a logikája, hogy ha semmit nem tudunk arról a személyről, akinek az IQ-ját meg akarjuk becsülni, ki akarjuk találni, legkevesebbet akkor tévedünk, ha IQ-ját átlagosnak jósoljuk. Ha azonban van egy olyan információnk, (jelen esetben a szülő IQ-ja), aminek köze van a megismerni kívánt mennyiséghez, ez a várható IQ-szintet ki fogja mozdítani a -as átlagtól. De csak olyan mértékben, amilyen mértékben a két változó: szülő és gyermeke IQ-ja összefügg. A sok ismeretlen tényező (köztük a másik szülő IQ-ja, az anyagi helyzet, felnövekedés körülményei, az iskolák, barátok stb.) az átlag felé húzza a gyermek IQ-ját, mivel ezekről nincs semmilyen információnk. A szülő IQ-ja persze maga felé húzza gyermeke IQ-ját, de ennek mértékét a szülő és a gyermek IQ-ja közti korreláció szabja meg. Ez a példa rávilágít a korrelációs együttható egyik legfontosabb jelentésére: két változó jelöljük őket most az egyszerűség kedvéért X és Y betűvel korrelációja megmutatja, hogy X szélsőségessége milyen mértékben öröklődik át Y-ra és viszont. X és Y szélsőségességét standard értékük segítségével tudjuk közös skálára hozni. Ha X standard értékét Z X -szel, Y-ét Z Y -nal jelöljük, X és Y korrelációját pedig az r betűvel, akkor a fenti összefüggés formulája így néz ki: várható Z Y = r Z X és várható Z X = r Z Y. Szülő és gyermek IQ-jának kapcsolatát vizsgálva azért nem kellett a standard értékekre áttérni, mert a két változót ugyanazon a skálán mérjük (mindkettő esetében az átlag, a szórás pedig ), Ha a standard értékkel számolunk, a 4-ös IQ-érték standard értéke: Z X = (4 )/ =. Mivel r =,6, esetünkben a várható Z Y értéke:,6 =,8, vagyis a gyermek várható IQ-ja,8 szórással lesz az átlag fölött. Mivel az IQ szórása, ez,8 = 7 ponttal emeli az IQ-t az átlag fölé, vagyis a gyermek várható IQ-ja 7, ugyanúgy, mint fent. Fordítsuk meg most a kérdést! Ha a gyermek IQ-ja 7, akkor tudunk-e valamit mondani a szülő várható IQ-járól? A szülő nyilván nem a gyerekétől örökli az intelligenciáját, de a korreláció nem is ok-okozati összefüggést mér, hanem a két változó értékeinek statisztikai együttjárását. Egy briliáns agyjárású személy esetében joggal következtetünk arra, hogy szülei sem lehettek híján az intelligenciának. De milyen mértékben? Pontosan ugyanúgy, ahogy a szülő IQ-jából következtettünk a gyermekére. Ha a gyermek IQ-járól nem

tudunk semmit, a szülő IQ-ját sem jósolhatjuk az átlagostól bármilyen irányban eltérőnek. Bármilyen konkrét információ azonban a gyermek IQ-járól elhúzza maga felé a szülő várható IQ-ját az átlagtól. Mivel a korreláció két változó közös, szimmetrikus terméke, egy 7-es IQjú gyermek esetében a szülő várható IQ-ja a fentebb megindokolt szabály alkalmazásával: IQ szülő +,6 (7 ) = + 6, = 6, 6, vagyis egy olyan érték, amely az átlag () és a gyermek IQ-ja (7) között helyezkedik el. A szabály tehát nem az, hogy a gyermek várható IQ-ja mindig kisebb, mint édesapjáé (vagy édesanyjáé). Ez csak akkor lenne így, ha az adott apai (anyai) IQ mellett a gyermek IQ-jával kapcsolatos minden egyéb tényező csupán átlagos szintű lenne, ami nyilván valódi visszahúzó erőként hatna. A korrelációs együttható szignifikanciája Láttuk, hogy a korrelációs együttható fontos információt közöl két változó kapcsolatáról. A pszichológia tudományának egyik feladata, hogy a lelki élet bonyolult folyamatában különféle változók között igazolt összefüggésekre leljen. Ehhez nagy segítséget nyújt a korrelációs együttható. Kérdés azonban, hogy ha egy bizonyos mintában azt tapasztaljuk, hogy két változó között mutatkozik valamilyen lineáris trend, amit a korrelációs együttható -tól különböző értéke támaszt alá, akkor ez az összefüggés általánosítható-e a minta által képviselt teljes populációra? A X.8. táblázatot megszemlélve például azt láthatjuk, hogy a vizsgált fős mintában a születési súly és a éves kori testsúly között bár csekély, de mégis pozitív korreláció van (r =,64). Levonható-e ennek alapján egy olyan következtetés, hogy a teljes magyar népességben is pozitív kapcsolat van a gyermek születési súlya és éves kori testsúlya között? Erre és az ehhez hasonló kérdésekre egy speciális statisztikai próba, a korrelációs együttható szignifikancia vizsgálata segítségével adhatjuk meg a választ, melynek nagy minták esetén használható változatát az alábbiakban foglaljuk össze.. Azt szeretnénk megbízhatóan igazolni, hogy a vizsgált két változó között a populációban is pozitív korreláció van. Ezt most indirekt módon tesszük meg. Felállítjuk azt a statisztikai nullhipotézist, hogy a populációban a korreláció : r pop =. Ha ennek a feltételezésnek a populációból véletlenszerűen kiválasztott mintában kiszámított korrelációs együttható erősen ellentmond, akkor elutasítjuk a korrelálatlanságot állító hipotézist.. De mikor mond ellent egy mintabeli r korreláció az r pop = hipotézisnek? A statisztikusok bebizonyították, hogy ha r pop = és a szóban forgó véletlen minta elég nagy (mondjuk n > 4), akkor az r korrelációs együttható segítségével kiszámítható n t r r mennyiség abszolút értéke az esetek 9%-ában nem haladja meg a értéket és az esetek 99%-ában nem nagyobb, mint,7. Ha tehát kiszámítjuk az adott mintában a fenti képlettel definiált t értéket és az -nél nagyobb abszolút értékű, akkor ez minimum 9%-os bizonyossággal ellentmond az r pop = hipotézisnek, így azt elutasítjuk.. Esetünkben t,64,7.,64 Mivel ez az érték még,7-nél is nagyobb abszolút értékű, 99%-os megbízhatósággal elutasítjuk azt a nullhipotézist, hogy a populációban nincs 4

korreláció a születési súly és a éves kori testsúly között, továbbá az adott mintában kapott korreláció előjele alapján pozitív kapcsolatot állapítunk meg a populációban a vizsgált két változó között. A pszichológiai statisztikában ezt az eredményt röviden úgy fogalmazzuk meg, hogy az r =,64 korreláció %-os szinten szignifikáns. Ezen részletesebben azt értjük, hogy az r pop = hipotézist elutasító döntés megbízhatósága minimum 99%-os, vagyis a téves elutasítás esélye az % alatt marad. Végső szakmai konklúziónk tehát az, hogy a teljes magyar népességben is pozitív kapcsolat van a gyermek születési súlya és éves kori testsúlya között. Záró gondolatok A fentiekben éppen csak ízelítőt tudtunk adni abból, hogy milyen kérdésekkel foglalkozik a pszichológiai statisztika, milyen jellegű fogalmakkal operál és milyen gondolatmenetek jellemzők rá. Hely hiányában nem volt módunk sok fontos dologról szólni, például arról, hogy a statisztikai módszerek nemcsak az érvényes pszichológiai következtetések levonásában segíthetnek, hanem a pszichológiai modellalkotásban, a személyiségtípusok feltárásában, a különféle betegségtípusok azonosítására alkalmas skálák szerkesztésében stb. A pszichológiai statisztika iránt mélyebben érdeklődők számára ajánljuk a következő könyvet: Vargha András (), Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal. Budapest: Pólya Kiadó. A statisztikai elemzéseket a pszichológusok szokásosan statisztikai szoftverek segítségével végzik. Ilyen szoftver például a ROPstat, melynek DEMO változata ingyenesen letölthető a www.ropstat.com honlapról. Ennek egyszerű használatáról az olvasó maga is meggyőződhet.