TÚL A REGRESSZIÓN KOLTAI JÚLIA ANNA ÚJFAJTA MODELLEK FELHASZNÁLÁSI LEHETŐSÉGEI A

Hasonló dokumentumok
A strukturális egyenletek modellezésének bemutatása egy komplex dizájnú kutatás (ISPJ) adatain keresztül 1

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

KOLTAI JÚLIA ANNA 1 DOKTORI TÉZISEK 2

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Többváltozós lineáris regressziós modell feltételeinek

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Matematikai geodéziai számítások 6.

Matematikai geodéziai számítások 6.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Lineáris regresszió vizsgálata resampling eljárással

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Bevezetés a Korreláció &

Biostatisztika VIII. Mátyus László. 19 October

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Kettőnél több csoport vizsgálata. Makara B. Gábor

Korrelációs kapcsolatok elemzése

A leíró statisztikák

Matematikai statisztika c. tárgy oktatásának célja és tematikája

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

NEMZETI IDENTITÁS A KÜLÖNBÖZŐ FÖLDRAJZI-NEMZETISÉGI ALCSOPORTOK KÖZÖTT

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Regresszió számítás az SPSSben

Likelihood, deviancia, Akaike-féle információs kritérium

A regisztrált álláskeresők számára vonatkozó becslések előrejelző képességének vizsgálata

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

y ij = µ + α i + e ij

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika elméleti összefoglaló

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

[Biomatematika 2] Orvosi biometria

Hipotézis vizsgálatok

Regressziós vizsgálatok

Az első számjegyek Benford törvénye

Több valószínűségi változó együttes eloszlása, korreláció

A nemzeti identitás alakulása különböző földrajzinemzetiségi alcsoportok között egy mérési kísérlet

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

A maximum likelihood becslésről

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Korreláció és lineáris regresszió

Bevezetés a hipotézisvizsgálatokba

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Statisztikai módszerek a skálafüggetlen hálózatok

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Diagnosztika és előrejelzés

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Centura Szövegértés Teszt

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

6. Előadás. Vereb György, DE OEC BSI, október 12.

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

[Biomatematika 2] Orvosi biometria

Kutatásmódszertan és prezentációkészítés

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Diszkriminancia-analízis

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Pszichometria Szemináriumi dolgozat

A Statisztika alapjai

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Nemzetközi számvitel. 12. Előadás. IAS 8 Számviteli politika, a számviteli becslések változásai és hibák. Dr. Pál Tibor

MUNKAGAZDASÁGTAN. Készítette: Köllő János. Szakmai felelős: Köllő János január

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Módszertani dilemmák a statisztikában 40 éve alakult a Jövőkutatási Bizottság

Az adatszolgáltatás technológiájának/algoritmusának vizsgálata, minőségi ajánlások

A nappali tagozatra felvett gépészmérnök és műszaki menedzser hallgatók informatikai ismeretének elemzése a Budapesti Műszaki Főiskolán

Többváltozós Regresszió-számítás

Foglalkoztatási modul

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

11. Előadás. 11. előadás Bevezetés a lineáris programozásba

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Heckman modell. Szelekciós modellek alkalmazásai.

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

I. BESZÁLLÍTÓI TELJESÍTMÉNYEK ÉRTÉKELÉSE

Vélemények az állampolgárok saját. anyagi és az ország gazdasági. helyzetérôl, a jövôbeli kilátásokról

KÖVETKEZTETŐ STATISZTIKA

A mérési eredmény megadása

Adatok statisztikai értékelésének főbb lehetőségei

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mérési hibák

Typotex Kiadó. Tartalomjegyzék

KÖFOP VEKOP A jó kormányzást megalapozó közszolgálat-fejlesztés

Átírás:

KOLTAI JÚLIA ANNA TÚL A REGRESSZIÓN ÚJFAJTA MODELLEK FELHASZNÁLÁSI LEHETŐSÉGEI A TÁRSADALOMTUDOMÁNYOKBAN 2013 EÖTVÖS LORÁND TUDOMÁNYEGYETEM TÁRSADALOMTUDOMÁNYI KAR SZOCIOLÓGIA DOKTORI ISKOLA SZOCIOLÓGIA KÉPZÉSI PROGRAM KONZULENS: DR. SZÉKELYI MÁRIA DSC

TARTALOMJEGYZÉK Köszönetnyilvánítás...4 I. Bevezető...5 II. A Strukturális Egyenletek Modellezése (SEM)... 10 2.1 A Stukturális Egyenletek Modellezésének alapjai... 11 2.1.1 Az útmodell elemzés logikája... 12 2.1.2 A Strukturális Egyenletek Modellezése és az útmodell különbségei... 14 2.1.2.1 Az éppen identifikált, az alulidentifikált és a túlidentifikált modellek fogalma és jelentése... 15 2.1.2.2 A túlidentifikált modellek illesztésének logikája... 18 2.1.2.3 Az illeszkedés tesztelése... 19 2.1.2.3.1 A khí-négyzet próbán alapuló illeszkedésvizsgálat... 19 2.1.2.3.2 A Comparative Fit Index... 22 2.1.2.3.3 A Root Mean Square Error of Approximation... 23 2.1.2.4 Érvek a túlidentifikált modellek fenti módokon való becslése mellett: a modellek összehasonlítása... 25 2.2 A Stukturális Egyenletek Modellezésének működése... 28 2.2.1 A mérési modell... 28 2.2.1.1 Az exploratív és konfirmatív faktorelemzés különbségei... 29 2.2.1.2 Mérési modell a gyakorlatban... 31 2.2.1.3 A modell paraméterezése... 33 2.2.1.4 A mérési modell illeszkedése, módosítási lehetőségek... 36 2.2.2 A strukturális modell... 39 2.3 A Stukturális Egyenletek Modellezésének alkalmazása komplex kutatásokra: a többcsoportos összehasonlítás... 42 2.3.1 A SEM modellek összehasonlítása több csoport esetén: az összehasoníthatóság tesztelése... 43 2.3.1.1 A konfigurális állandóság... 45 2.3.1.2 A metrikus állandóság... 47 2.3.1.3 A skaláris állandóság... 48 2.3.1.3 Az összehasonlíthatóságot lehetővé tevő állandóságok összefoglalása... 50 2.3.2 A teljes és részleges metrikus és skaláris állandóságról... 53 2.3.3 Az illeszkedés változása: az állandóságok tesztelése... 54 2.3 A Stukturális Egyenletek Modellezésének és a többcsoportos összehasonlítás működésének gyakorlati bemutatása egy, az ISJP kutatás adatain készült példán... 56 1

2.3.1 Az igazságossági elvek hatása a szegénység belső oktulajdonítására 1991-ben és 2008- ban: mérési modell... 56 2.3.2 Az igazságossági elvek hatása a szegénység belső oktulajdonítására 1991-ben és 2008- ban a kérdezettek szocio-demográfiai jellemzőinek függvényében: a strukturális modell... 66 2.4 A Strukturális Egyenletek Modellezésének összefoglalása... 74 III. A vinyettás módszer: Többszintű Modellezés... 76 3.1 Az igazságos nyugdíjrendszerrel kapcsolatos attitűdök és azok mérése: a vinyettás módszer... 78 3.2 Az igazságos nyugdíjrendszerrel kapcsolatos attitűdök, a vinyettás módszer elemzési, feldolgozási lehetőségei... 84 3.2.1 A regressziós módszer korlátai... 84 3.2.2 A válaszadói és a csoporthatás nagysága... 85 3.2.3 Első megoldási lehetőség: a lineáris regressziós modell továbbfejlesztése... 87 3.2.4 Második megoldási lehetőség: többszintű modellezés... 91 3.2.4.1 A csoportok kontextuális hatásának kontrollja: a minimálnyugdíj nem konstans többé... 91 3.2.4.2 A csoportok és a válaszadók együttes kontrollja... 93 3.2.4.3 A csoportok és a válaszadók együttes kontrollja: a havi jövedelem hatása is változó... 95 3.2.4.4 Az elemzéshez használható módszerek előnyei és hátrányai... 98 3.3 A társadalmi csoportok közötti különbség az igazságos nyugdíjrendszer megítélésében... 100 3.3.1 A lineáris regressziós modell továbbfejlesztése: a regressziós együtthatók tesztelése. 100 3.3.1.1 A kérdezettek szocio-demográfiai csoportjai közti különbségek a lineáris regressziós együtthatók összevetésével... 100 3.3.1.1.1 A nemek közti eltérések az igazságos nyugdíjrendszer megítélésében... 101 3.3.1.1.2 Az egy főre jutó jövedelem szerinti eltérések az igazságos nyugdíjrendszer megítélésében... 102 3.3.1.1.3 Korcsoportonkénti eltérések az igazságos nyugdíjrendszer megítélésében... 104 3.3.1.1.4 Településtípus szerinti eltérések az igazságos nyugdíjrendszer megítélésében... 105 3.3.1.1.5 A szubjektív társadalmi helyzet szerinti eltérések az igazságos nyugdíjrendszer megítélésében... 106 3.3.1.2 A különböző igazságossági elveket valló kérdezettek közti különbségek a lineáris regressziós együtthatók összevetésével... 108 3.3.1.2.1 A fatalizmus elvével való egyetértés szerinti eltérések az igazságos nyugdíjrendszer megítélésében... 110 3.3.1.2.2 Az egalitáriánus elvekkel való egyetértés szerinti eltérések az igazságos nyugdíjrendszer megítélésében... 111 2

3.3.1.2.3 A tisztán meritokrata elvekkel való egyetértés szerinti eltérések az igazságos nyugdíjrendszer megítélésében... 113 3.3.2 A társadalmi csoportok közti különbségek a többszintű modellezésben: az interakciók vizsgálata... 116 3.3.2.1 A kérdezettek szocio-demográfiai csoportjai közti különbségek a többszintű modellezés interakciós tagjai segítségével... 120 3.3.2.1.1 A kérdezettek településtípusának hatása a vinyettán szereplő jövedelemmel az igazságos nyugdíjra... 124 3.3.2.1.2 A kérdezettek életkorának hatása a vinyettán szereplő jövedelemmel az igazságos nyugdíjra... 126 3.3.2.1.3 A kérdezettek életkorának hatása a vinyettán szereplő nyugdíjjal az igazságos nyugdíjra... 129 3.3.2.2 A különböző igazságossági elveket valló kérdezettek közti különbségek a többszintű modellezés interakciós tagjai segítségével... 132 3.3.2.2.1 A fatalista és az egalitáriánus igazságossági elvek közvetlen hatása az igazságos nyugdíjra... 136 3.3.2.2.2 Az egalitáriánus igazságossági elvek hatása a vinyettán szereplő aktuális nyugdíjjal az igazságos nyugdíjra... 137 3.3.2.2.3 A tisztán meritokrata igazságossági elvek hatása a vinyettán szereplő munkaerőpiacon töltött időn keresztül az igazságos nyugdíjra... 140 3.3.2.2.4 A tisztán meritokrata igazságossági elvek hatása a vinyettán szereplő jövedelmen keresztül az igazságos nyugdíjra... 143 3.3.2.3 A nem szignifikáns modellek eredményeiről... 146 3.3.2.1 Mennyire hajlik saját magunk felé a kezünk? A kérdezettek szocio-demográfiai jellemzőinek hatása a vinyettákon szereplő azonos tulajdonságokkal az igazságos nyugdíjra a többszintű modellezés interakciós tagjai segítségével... 146 3.3.2.3.2 nyugdíjas nem nyugdíjas válaszadók különbségei a többszintű modellezés interakciós tagjai segítségével... 148 3.3.3 A megkérdezettek jellemzőinek hatása az egyes dimenziók elbírálására: az empirikusbayesiánus becslés alkalmazása... 149 3.3.4 A megkérdezettek jellemzőinek hatása az igazságos nyugdíjra: a szociológiai eredmények összefoglalása... 152 3.4 A vinyettás módszer összefoglalása... 153 IV. Összefoglalás... 154 Melléklet... 165 Irodalomjegyzék... 171 Táblázatok, ábrák és egyenletek jegyzéke... 174 Összegzés... 177 Summary... 178 3

KÖSZÖNETNYILVÁNÍTÁS A sorban elsőként Székelyi Máriának, szeretném megköszönni azt a rengeteg segítséget, amit nem csak e disszertáció elkészítésében, hanem egész szakmai fejlődésemben nyújtott. Belém vetett hite, támogatása és tanácsai nélkül biztosan nem tartanék ma itt. Kívánom, hogy mindenkinek olyan mentora legyen, mint ő. Köszönettel tartozom Székelyi Mária mellett Örkény Antalnak is, aki lehetővé tette, hogy egy nagy nemzetközi kutatásba bekapcsolódjak mellettük. Úgy gondolom, a kutatás végigkövetése a kezdetektől a végéig, alapvetően határozta meg kutatói gondolkodásomat. Nagyon sok köszönettel tartozom még Rudas Tamásnak, aki nagyon nagymértékben meghatározta a kutatással kapcsolatos hozzáállásomat és összességében egész pályámat. Gondolkodásmódja a mai napig meghatározó számomra. A disszertáció sok ember nélkül nem jöhetett volna létre. Ezek közül az egyik legfontosabb Barna Ildi, aki mind szakmai tanácsaival, mind baráti támogatásával, sokszor pedig a fizikai tér biztosításával is nagyon sokat segítette az írás létrejöttét. Itt szeretném megemlíteni édesanyját, Babit, aki az Alsópetényi házban minden létező módon lehetővé tette, hogy csak az írásra kelljen koncentrálnom. Köszönöm mindkettőjüknek! Köszönöm a kollégáimnak, főként Ancsának, Borinak, Dávidnak és Renátának, hogy tanácsaikkal segítették munkámat, emellett pedig rengeteget bíztattak! Nagyon hálás vagyok családomnak, hogy az egyetem kezdete óta hittek bennem, támogattak és minden tőlük telhetőt megtettek, hogy választott utamat sikerre vigyem. E nélkül biztosan nem sikerült volna. A barátaimnak (Lorának, SimZsunak, Eszternek, Julinak, Balázsnak, Gyurinak és Norbinak és még nagyon-nagyon sok más, szintén fontos embernek) több szempontból is külön hálával tartozom. Egyrészt azért, mert végighallgatták a problémáimat akkor is, amikor egy szót sem értettek belőle (és ez természetesen nem az ő hibájuk). Másrészt azért, mert nem hogy megértően, de kifejezetten támogatóan viselkedtek azokban a hónapokban, amikor kivontam magam minden alól, hogy írjak. Az a mennyiségű bátorítás és drukkolás, mint amit tőlük kaptam, egy életre elég lenne bárkinek. És persze Zolinak. Azt is, hogy egy szerencsés (vagy éppen szerencsétlen :) véletlen folytán szakmailag is sokat segített a munkám létrehozásában. És azt, hogy elviselte a néha igazán nem könnyű időszakokat. És hogy nem volt olyan pont, ahol ne állt volna mindenben mellettem. Egy szóval: mindent. 4

I. BEVEZETŐ Jelen disszertáció elsősorban kutatásmódszertani kérdésekre fókuszál, azonban az elemzések témája szociológiai. A módszertanra sokszor tekintünk úgy, mint egy eszközre, amely segít elérni bizonyos elméleti, elemzési célokat és ezzel párhuzamosan szerepét inkább csak a praktikum szintjén vizsgáljuk. Azonban a kvantitatív módszerek mögött meghúzódó számítások, becslések egy másik tudományterülettel, a statisztikával érintkeznek, pontosabban onnan érkeznek a társadalomtudományokba. Éppen ezért bizonyos szempontból a módszertan és a statisztika a társadalomtudományok mostohagyerekének tekinthető, amennyiben nem közvetlenül a tudomány tárgyával foglalkozik, inkább csak annak elemzését segíti. Sokszor merül fel a kérdés, hogy miért használunk egyre bonyolultabb modelleket, vagy, hogy mi értelme megérteni egy módszer működését, amikor mindez csak egy átmeneti lépés a kutató számára ahhoz, hogy vizsgált témájában egy-egy kutatás eredményeit fel tudja dolgozni. Véleményünk szerint azonban a módszertan helyes és mélyebb ismerete ennél többről szól. Arról, hogy közelebb kerüljünk a valósághoz. Egy-egy módszer mélyebb ismerete ugyanis lehetőséget teremt arra, hogy az eredmények olyan mérőszámait is interpretálni tudjuk, melyeket általában nem szoktak, azonban egy konkrét kutatás során hasznos lehet. Jó példa erre a Többszintű Modellezésnél a konstans interpretációja, melyet általában nem értelmezünk egy regressziós elemzésnél, de például az igazságos nyugdíjrendszer vizsgálatakor fontos, érdemi információval bír. Segíthet minket a jobb megértés abban is, hogy tisztábban lássuk, milyen mértékű kompromisszumokat kötünk egy elemzés során. Ha például a Strukturális Egyenletek Modellezésénél ismerjük egy illeszkedési mérőszám felépítését, képletét, sokkal inkább el tudjuk dönteni, hogy egy, a hüvelykujj szabálytól csak kissé eltérő érték esetében elfogadjunk-e a modellt vagy sem. Összességében tehát több információhoz és jobb döntésekre juthatunk akkor, ha nem csak a közmegegyezés szerinti konvenciók alapján, hanem saját, mélyebb ismereteinkre támaszkodva végezzük elemzéseinket. Ettől még persze szociológusként nincs könnyű dolgunk az arányok megtalálásában. A Szociológiai Szemle 2013 őszén kiadandó számába tervezett egy kvantitatív módszertani blokkot, melynek szerzőit egy konferenciára is meghívták, hogy ott mutassák be írásaikat. A konferencia egyik legérdekesebb tanulsága az volt, hogy nincs közmegegyezés abban, hogy egy szociológiai témájú, de módszertani, statisztikai fókuszú írásnak milyen mértékben kellene tartalmaznia módszertani részeket és milyen mértékben szociológiai 5

eredményeket. A vita okai elsősorban két dologból fakadtak. A vita egyik oka az volt, hogy előkerült a módszertan korábbiakban is hivatkozott eszköz-jellege, ami szerint ez nem tekinthető feltétlenül a szociológia egyik aldiszciplínájának, hanem sokkal inkább az eredmények elérésének egyik útja, így sokak véleménye szerint a cikkek nagyobb részben kellene, hogy tartalmazzanak szociológiai eredményeket, ahhoz képest, mint ahogy azt a szerzők eredetileg gondolták. A vita másik része abból adódott, hogy nincs közmegegyezés abban sem, hogy egy átlagos szociológusnak milyen (kvantitatív) módszertani ismeretekkel kellene bírnia, mik azok az alapok, amelyek nem igényelnek magyarázatot és mik azok, amelyek mélyebb kifejtést igényelnek. A konferencián felmerült kérdések véleményünk szerint jól mutatják a módszertan és a statisztika pozíciójának bizonytalanságát a szociológián és talán általában a társadalomtudományokon belül. Ahogy a korábbiakban ezt már jeleztük, véleményünk szerint a módszertan mélyebb ismerete és megértése alapvetően fontos egy társadalomkutató számára. Azonban ez nem jelenti azt, hogy a konferencia kérdései ne lennének relevánsak jelen disszertáció esetében is. A dolgozat struktúrája úgy épül fel, hogy nagy hangsúly került a különböző módszerek elméleti, statisztikai hátterének bemutatására. Ezután azonban példákon keresztül szemléltetjük azt, hogy különböző szociológiai kérdésekre hogyan képes válaszokat nyújtani a modell, kiemelve azt, hogy milyen újszerű kérdésfeltevésekre ad lehetőséget, majd a gyakorlati felhasználáson keresztül újabb módszertani megoldásokra hívjuk fel a figyelmet. A példák természetesen szociológiai elemzéseket is tartalmaznak, amelyek úgy véljük érdekes eredményeket adnak hozzá a társadalmi igazságosság kutatásához. A disszertáció két olyan, újfajta módszer bemutatását és alkalmazási lehetőségeinek felvázolását tűzte ki célul, melyek társadalomtudományi felhasználása Magyarországon még nem igazán elterjedt. Ez a két módszer a Strukturális Egyenletek Modellezése (Structural Equations Modeling, SEM) és a Többszintű elemzés (Multilevel Modeling). A két módszer kiválasztása nem véletlenszerűen történt: empirikus problémákra való válaszok keresésekor kerültek a látókörünkbe. A felmerült szociológiai kérdések megválaszolására ugyanis a legtöbb esetben valamilyenfajta regressziós modellt alkalmazunk, hiszen ezzel több dimenziót is bevonva (kontrollálva) vizsgálhatjuk meg eredményeinket. A disszertáció témájának alapját azonban éppen olyan helyzetek teremtették, amikor ezen többváltozós elemzések során az általánosan elterjedt regressziós modellek valamilyen oknál fogva nem bizonyultak megfelelőnek. Így arra kerestük a 6

választ, hogy milyen olyan, többváltozós technikák léteznek, melyek segítségével a kérdéseink megválaszolhatók, az elemzések véghezvihetők. Az alapot egy nemzetközi, longitudinális szociológiai kutatás, a Nemzetközi Igazságosság Kutatás (International Social Justice Project, ISJP) adta, melynek 2008-as hullámának előkészítése egybeesett a szerző tanulmányainak megkezdésével az ELTE TáTK Szociológiai Doktori Iskolájában. Örkény Antal és Székelyi Mária, a kutatás vezetői, lehetőséget adtak arra, hogy a szerző a kutatásban a kezdeti fázisoktól részt vegyen és a disszertációjában eredményeit felhasználja. E legutóbbi hullám speciális tematikáját az intergenerációs igazságossági elvek jelentették, melyet egyéni- és társadalmi szinten is vizsgáltak, utóbbit a nagy elosztórendszerek szintjén. Egy ilyen komplex kutatás során a szociológus számára az egyik különösen érdekes kérdés az lehet, hogy hogyan változtak az emberek igazságossággal kapcsolatos vélekedései az idők során. A kutatássorozat longitudinális jellege lehetőséget nyújt arra, hogy az ilyen jellegű kérdéseket is megvizsgálhassuk. Természetesen az igazságossági elveket komplexen, több indikátorral operacionalizálták a felmérések során a kutatók, hiszen ilyen jellegű látens dimenziók vizsgálatakor félrevezető lenne egy-egy kérdéssel leképezni ezeket. Ráadásul így lehetőség nyílt az egyes igazságossági elvek különböző (egyéni és társadalmi) szintű vizsgálatára is. Az indikátorokból a kutatók az elemzések során úgy reprodukálták az eredetileg mérni kívánt dimenziót, hogy a választott itemek segítségével összetett mérőszámokat képeztek. Így alakult ki például a meritokratizmus vagy az egalitarianizmus mérőszáma. A különböző kutatási hullámok eredményeinek összehasonlításakor azonban felmerülhet a kérdés, hogy amennyiben az összetett mérőszámoknál különbségeket találtunk az egyes évek között, az minek köszönhető: annak, hogy megváltozott az emberek véleménye, gondolkodásmódja a két időpont között eltelt idő alatt; vagy annak, hogy másképp épülnek fel az egyes mérőszámok a különböző időpontokban. Ha például azt látjuk, hogy a meritokrata gondolkodásmód megerősödött az eltelt idő alatt, az annak köszönhető, hogy az emberek tényleg jobban támogatják a teljesítményelvet; vagy annak, hogy bizonyos indikátorokra, kérdésekre adott válaszok struktúrája eltér a meritokráciát mérő összetett mérőszám kialakulásakor? Ha ugyanis az lehet az ok, hogy másképp áll össze az összetett mérőszámok struktúrája az egyes években, akkor az összehasonlítás irrelevánssá válik, hiszen ebben az esetben a két mérőszám nem ugyanazt méri az egyes években; másképp szólva olyan helyzet áll elő, mintha két különböző változót szeretnénk összehasonlítani a két évben. Éppen ezért fontos volt, hogy egy olyan módszert találjunk, amely képes tesztelni ezt a strukturális azonosságot vagy 7

különbözőséget az egyes mérőszámok esetében, hiszen az igazságossággal kapcsolatos elemzésekkor ezen látens változók alkalmazása elengedhetetlen. A Strukturális Egyenletek Modellezésének használata jó megoldást kínált a problémára, ugyanis segítségével megbizonyosodhatunk arról, hogy a látens változók struktúrája az egyes években azonos-e, tehát hogy összehasonlításuknak és az esetleges különbségek magyarázatának van-e értelme. A Strukturális Egyenletek Modellezésének azonban az előbbiek mellett van egy másik olyan jellegzetessége, ami miatt kifejezetten jól használható az igazságosság vizsgálatára. Olyan komplex társadalmi összefüggések és struktúrák feltárásához ugyanis, mint az emberek társadalmi igazságosságról alkotott képe, sokszor nem elég a magyarázóváltozók külön-külön vizsgálata, hiszen az ilyen jellegű elvekkel való egyetértés, az igazságossági elvek kapcsolatai koherens struktúrába rendeződnek. Nem igazán juthatunk tehát érvényes eredményekre, ha úgy teszünk, mintha a különböző elveknek semmi köze nem lenne egymáshoz és egy légüres térben mozognának. Az ilyen komplex gondolati struktúrák feltárására is jó megoldást hozhat a Strukturális Egyenletek Modellezése, mivel ahogy azt a későbbiekben majd látni fogjuk az útmodellek egyfajta új generációjaként tekinthetünk rá. Ennek a módszernek a címben jelölt, regresszión való túllépése tehát abban mutatkozik meg, hogy nem szeparált regressziós modellekre kell csak szorítkoznunk használatakor, hanem regressziós egyenletrendszerek segítségével összetett struktúrákat is leírhatunk vele. A disszertáció során először bemutatjuk a modell működését és felépítésének logikáját, majd gyakorlati hasznát egy olyan társadalmi igazságossággal kapcsolatos modellen keresztül illusztráljuk, mely jól érzékelteti a módszerben rejlő sokféle lehetőséget és az ezekkel kapcsolatos újfajta kérdésfelvetések széles skáláját. A nagy ellátórendszerek működéséről alkotott vélemények közül az intergenerációs igazságosság szempontjából a nyugdíjrendszer kiemelt jelentőséggel bírt. Az ezzel kapcsolatos véleményeket egy újfajta módszerrel mérték a kutatók: a 2008-as kutatásban került elsőként lekérdezésre egy módszertanilag meglehetősen különleges blokk, mely a standard, személyes kérdezési technikáktól eltérően önkitöltős módon, konkrét szituációkban való döntésekkel mérte a kérdezettek igazságossági elveit. Egy ember több ilyen szituációt ( vinyettát ) is kitöltött, melyeken a szituációk paraméterei szintén előre definiált, véletlen kiválasztással voltak megadva. Ezen szituációkra adott konkrét döntések mintázatából következtethetünk tehát a válaszadók által figyelembe vett igazságossági elvekre. Az általában használt regressziós modellek alkalmazására azonban nem volt 8

lehetőség, mivel a szituációkra adott válaszok nem voltak függetlenek egymástól, hiszen egy válaszadó több szituációt is mérlegelt. Az a regresszió során alkalmazott előfeltevés tehát, miszerint az adatok függetlenek kell, hogy legyenek egymástól, sérült. Éppen ezért olyan elemzési metódust kellett keresnünk, mely képes kezelni az adatok ilyen jellegű nem-függetlenségét. Ennek a problémának a feloldására adódott a Többszintű Modellezés alkalmazása, melyet kifejezetten olyan adatokon érdemes használni, amelyek valamilyen szisztematikus módon függnek egymástól. A felmerülő problémakor ugyanis az elemzésnek legalább két szintjét különböztethetjük meg: a vinyetták szintjét, melyen az egyes szituációkra adott válaszok vannak és a válaszadók szintjét, mely egy megkérdezettnél több ilyen szituációs-választ is tartalmaz. A disszertáció tehát részletesen bemutatja azokat a számításokat és elemzési lehetőségeket, melyek egy ilyen struktúrájú adatbázison alkalmazhatóak, összeveti ezen lehetőségeket, majd kitér arra is, hogy hogyan vonhatjuk be a szintek közti kapcsolatot az elemzésünkbe, és milyen újfajta kérdésekre adhatunk választ ezen keresztül. A disszertáció során tehát két újfajta módszer került bemutatásra. A módszerek bemutatásának legnagyobb hangsúlya a módszertan elméleti, statisztikai részén van. Emellett azonban a disszertáció újszerű eredményekkel szolgál egyrészt azzal, hogy felhívja a figyelmet arra, milyen olyan újszerű kérdéseket tehetünk fel, melyeket ezen módszerek alkalmazása nélkül nem tudtunk volna megválaszolni; másrészt pedig azzal, hogy a például szolgáló modellek elemzései érdekes adalékokat nyújthatnak ahhoz, hogy megértsük, mit és hogyan gondolnak a magyarországi emberek a társadalmi igazságosságról. A dolgozat tehát nem oldja meg a módszertan és szociológia arányára vonatkozó vitát, azonban egy olyan állásfoglalásnak tekinthető, mely egy lehetséges módja a vitás kérdés feloldásának. 9

II. A STRUKTURÁLIS EGYENLETEK MODELLEZÉSE (SEM) Az International Social Justice Project 1 elnevezésű kutatás mind tartalma, mind kutatási dizájnja miatt iskolapéldája a komplex szociológiai kutatásoknak. Tartalmában azért, mert olyan elvont, látens fogalmakat (mint a társadalmi igazságosság és a különböző igazságosság-felfogások) mér, melyeket közvetlenül nem tudunk megfigyelni, mivel csak közvetetten mérhető jelenségek. Szociológusként pedig sokszor ilyen, nehezen megfigyelhető dolgok iránt érdeklődünk. Kutatási dizájnja azért tekinthető komplexnek, mert egy nemzetközi összehasonlító longitudinális vizsgálatról van szó. A kutatás során több országban, országos reprezentatív mintákon kérdezték le ugyanazt a kérdőívet. A felmérést az első, 1991-ben zajló hullám után még kétszer (1996-ban és 2008-ban) megismételték. Így egyrészt lehetőség nyílik az országok közti összehasonlításra, másrészt pedig az időbeli változások mérésére is. Egy ilyen komplex, a különböző összehasonlításokat lehetővé tevő kutatás során olyan kutatási kérdéseket is feltehetünk, melyekre egy országos keresztmetszeti felmérés során nem lenne lehetőség. Az egyik legfontosabb ilyen jellegű kérdés az, hogy egyáltalán összehasonlíthatók-e az egyes országok vagy időpontok eredményei. Természetesen itt nem olyan jellegű kérdésekre utalunk, mint például hogy megvizsgálhatjuk-e, hogy két országban eltér-e az ott élők életkorbeli megoszlása egymástól. A felvetett probléma akkor igazán releváns, amikor látens, attitűd jellegű változókat kívánunk összehasonlítani. A korábban alkalmazott kutatási gyakorlat ezt a kérdést sokszor figyelmen kívül hagyta és egy-egy összetett mérőszám elkészítése után egyszerűen összehasonlította például az átlagokat a különböző országokban vagy években. A kérdés azonban az, hogy nem követünk-e el hibát olyankor, amikor az előfeltevések mindenfajta tesztelése nélkül egyszerűen összevetjük egy látens változó átlagát a különböző időpontokban. E kérdés megválaszolásához túl kell lépnünk a hagyományos módszertani eszköztár adta lehetőségeken. Disszertációm jelen fejezetében a Strukturális Egyenletek Modellezésének módszerét fogom bemutatni 2, mely (többek között) lehetőséget teremt olyan problémák megválaszolására, melyek komplex szociológiai kutatások során gyakran felmerülnek és amelyek az általánosan elterjedt módszertani elemzések segítségével nem megválaszolhatók. 1 Magyarországi kutatásvezetők: Örkény Antal és Székelyi Mária. 2 Az elemzésekkor az AMOS nevű program 18-as verzióját használtam. Ezúton szeretném megköszönni az SPSS Hungary-nak, hogy rendelkezésemre bocsátotta a programot. 10

2.1 A Stukturális Egyenletek Modellezésének alapjai A Strukturális Egyenletek Modellezésének (SEM) logikája hasonló az útmodellekéhez, amennyiben a változók között utakat definiálunk. Ha egy változóból utat húzunk egy másik felé, akkor azt feltételezzük, hogy az, amelyből az út indul, meghatározza azt, amibe az út érkezik. Az utak lehetnek egy- és kétirányúak (előbbi esetben egy megadott irányú, utóbbiban pedig kölcsönös hatást feltételezünk), továbbá direktek és indirektek is: attól függően, hogy milyen logikai kapcsolatot feltételezünk a változók között. A változók és utak együttesen regressziós egyenletek rendszerét definiálják. Azon változókat, amelyekbe más változó(k)ból út(ak) vezet(nek), endogén változóknak nevezzük: ezek képezik a regressziós egyenletek függő (magyarázandó) változóit. A modellezés logikájából adódóan azonban ugyanezek a változók más egyenletekben független (magyarázó) változókként is szerepelhetnek. Azon változók ugyanis, amelyekből az utak indulnak, az egyenlet független változóit adják. A független változóknak azt a speciális csoportját, melyekbe egyetlen másik változóból sem vezet út, exogén változóknak nevezzük. Az útmodellben a változókon és utakon keresztül definiáljuk tehát az egymással összefüggő regressziós egyenletek csoportját, melyekből következtethetünk a változók közti összefüggésekre. (Székelyi Barna 2003: 301-319) Ahogy látható, a SEM és az útmodell elemzés logika meglehetősen hasonló, sőt, a SEM modelleket az útmodellek kvázi új generációjának tekinthetjük. Éppen ezért ahhoz, hogy a SEM modelleket értelmezni tudjuk, fontos tisztában lennünk az útmodell elemzés alapjaival. 11

2.1.1 Az útmodell elemzés logikája Az 1. ábrán egy egyszerű útmodellt láthatunk, melyben azt feltételezzük, hogy a megkérdezettek iskolai végzettsége meghatározza a meritokratikus elvekkel való egyetértésüket, amely pedig a szegénység okairól alkotott véleményükre van hatással. Látható, hogy a változók között minden lehetséges utat feltételezünk: az iskolai végzettség így modellünk alapján kétféleképpen is hatással van a szegénység okairól alkotott elképzelésekre. Egyrészt közvetlenül, az iskolai végzettségből a szegénység okaiba tartó úttal, másrészt pedig közvetetten, a meritokratizmuson keresztül. Az iskolai végzettség befolyását a szegénység okairól alkotott véleményre tehát felbontjuk egy közvetlen és egy közvetett hatásra: előbbit nevezzük direkt, utóbbit pedig indirekt útnak. Természetesen a szegénység okairól alkotott elképzelést nem csak ezen két változó befolyásolja: a szegénység okait mérő változó varianciájának azon részét, melyet nem tudunk a modell segítségével megmagyarázni, ε-nal jelöljük. Az 1. ábra alapján az iskolai végzettség az egyetlen exogén változó a modellben, mivel abba semmilyen más változóból nem vezet út: ezt úgy értelmezhetjük, hogy semmi nem hat rá ebben a leegyszerűsített valóságban. A meritokratizmus és a szegénység okairól alkotott kép is endogén változók, hiszen a meritokratizmusba az iskolai végzettségből, a szegénység okaiba pedig az iskolai végzettségből és a meritokratizmusból is vezet út. A modell alapján tehát a kérdezettek meritokratikus beállítottságára hatással van az iskolai végzettségük, a szegénység okairól alkotott elképzelésüket pedig az iskolai végzettségük mellett a meritokrata beállítottságuk is befolyásolja. A meritokratizmus így egyrészt függő változó, melyre az iskolai végzettség hatását vizsgáljuk, másrészt független változó is abban a gondolatmenetben, melyben a szegénység okait próbáljuk magyarázni. 12

1. ábra: Az útmodell fogalmainak és működésének bemutatása egy igazságossággal kapcsolatos példán keresztül Ha a fenti ábrát lefordítjuk a regressziós egyenletek nyelvére, akkor modellünket a következő regressziós egyenletek segítségével írhatjuk fel. 1. egyenlet: A szegénység okainak, mint függő változónak magyarázata szegénység okai = + meritokratizmus + iskolai végzettség + 2. egyenlet: A meritokratizmusnak, mint függő változónak magyarázata meritokratizmus = + iskolai végzettség + Ahogy azt a fenti egyenletekből láthatjuk, az 1. ábrán szereplő útmodellt két regressziós egyenlet segítségével írhatjuk fel, melyben az utak erősségét a standardizált regressziós együtthatók nagyságával definiáljuk. Egy útmodellhez annyi regressziós egyenlet tartozik, ahány függő változót tartalmaz a modell. Az első regressziós egyenlet így a szegénység okainak, a második pedig a meritokratizmusnak a magyarázatát mutatja. Fontos felhívni a figyelmet két, a grafikus ábrázoláson nem, azonban az egyenleteken belül definiált információra. Az egyik, hogy ugyan az útmodell ábrázolásakor csak a végső függő változó esetében tüntetjük fel a regressziós egyenlet hibatagját, ám ettől még a köztes egyenleteknél is (például 2. egyenlet) szerepelnek hibák. A másik lényeges különbség, hogy ezen hibatagok regressziós együtthatóit a modellben egynek tekintjük (bár az ábrázolás során nem tüntetjük fel, hogy ezen utak erőssége egy). 13

Ahogy arról korábban már beszámoltunk, az útmodell segítségével az iskolai végzettség szegénység okaira gyakorolt hatását bontjuk fel. Ahhoz, hogy ezt belássuk, helyettesítsük be a második egyenletet az elsőbe. 3. egyenlet: A szegénység okainak, mint függő változónak magyarázata (az útmodell alapján behelyettesített egyenletek) szegénység okai szegénység okai = + + iskolai végzettség + + iskolai végzettség + = + + iskolai végzettség + + iskolai végzettség + szegénység okai = + + ( + ) iskolai végzettség + + Az egyenletek behelyettesítése után látszik, hogy a szegénység okait ténylegesen az iskolai végzettségből érkező hatások felbontásával értelmezzük, méghozzá úgy, hogy a meritokratizmuson keresztül vezető közvetett utat az azt alkotó két út regressziós együtthatóinak szorzataként definiáljuk ( ), a közvetlen utat pedig az annak megfelelő regressziós együtthatóval ( ). 2.1.2 A Strukturális Egyenletek Modellezése és az útmodell különbségei A Strukturális Egyenletek Modellezése az útmodell elemzéshez képest más logikából indul ki. Előbbi ugyanis lehetővé teszi, hogy minél takarékosabb (parsimonious) modelleket találjunk. A takarékosság itt abban az értelemben jelenik meg, hogy minél kevesebb paramétert használjunk fel a modellünk adatokhoz illesztéséhez. E mögött az a gondolatment húzódik meg, hogy fölösleges két változó között kapcsolatot feltételeznünk, ha annak elhagyásával nem illeszkedik rosszabbul a modellünk, ahhoz a modellhez képest, amiben feltételeztük a kapcsolat meglétét. Elsősorban azon változócsoportok megtalálására kell tehát kísérletet tennünk, amik függetlenek egymástól és így a modellből való kihagyásuk nem rontja az adatokhoz való illeszkedést. A takarékos modellek melletti másik érv az, hogy ha túlzottan specifikáljuk a modellünkben lévő kapcsolatokat, 14

előfordulhat, hogy a modell ugyan tökéletesen illeszkedik adatainkhoz, azonban más adatokon kevésbé állná meg a helyét. Egy empíriával bizonyított elméleti konstrukció ugyanis csak akkor igazán megbízható, ha modellünk robosztusnak mondható. Az általánosíthatóság a vizsgált témától függően vonatkozhat különböző csoportokra (például nemzetekre) vagy (például pszichológiai folyamatok elemzésekor) feltételezhetjük, hogy eredményeink az időtől viszonylag függetlenül fennállnak. Ha azonban a minden olyan kapcsolatot feltételezünk, amely aktuális adatainkon javítja a modell illeszkedését, félő, hogy az eredmények kizárólag ezeken az adatokon bizonyulnak igaznak, modellünk tehát nem robosztus. Ezekben az esetekben a modellt túlillesztjük az adatainkhoz, így az eredmények megbízhatósága veszélybe kerülhet. 2.1.2.1 Az éppen identifikált, az alulidentifikált és a túlidentifikált modellek fogalma és jelentése A fenti gondolatmenet és az útmodell logikája közti különbséget könnyebben átláthatjuk, ha megvizsgáljuk az útmodell elemzést a takarékos modellezés szempontjából. Az 1. ábrán látható útmodellben három változónk van, így az ezekből származó információkat használhatjuk fel a modell adatokhoz illesztésére. Ez a regresszióhoz szükséges információk szempontjából a három változó kovariancia mátrixát és átlagát jelenti: 1. táblázat: Az útmodell adatokhoz való illesztéséhez felhasználható bemeneti paraméterek: a kovariancia mátrix és az átlagok iskolai végzettség meritokratizmus szegénység okai iskolai végzettség Var 1 meritokratizmus Cov 1 Var 2 szegénység okai Cov 2 Cov 3 Var 3 iskolai végzettség meritokratizmus szegénység okai átlag 1 átlag 2 átlag 3 15

Az 1. számú táblázatban látható, hogy összesen kilenc paraméterünk van, melyek a modell illesztésekor információval szolgálhatnak. Hat paramétert adnak az iskolai végzettség, a meritokratizmus és a szegénység okainak varianciái és átlagai. A másik három paramétert az iskolai végzettség és a meritokratzimus, az iskolai végzettség és a szegénység okai, továbbá a meritokratizmus és a szegénység okai közti kovarianciák képezik. Lássuk azonban, hogy hány paramétert kell megbecsülnünk a felvázolt útmodellben. 2. táblázat: Az útmodell illeszkedéshez szükséges becsülni kívánt paraméterek: a regressziós együtthatók, az átlagok, a tengelymetszetek, a varianciák és a hibatagok varianciája a meritokratizmusba vezető regressziós együtthatók a szegénység okaiba vezető regressziós együtthatók iskolai végzettség meritokratizmus β 1 β 3 β 2 átlagok és tengelymetszetek varianciák és a hibatagok varianciája iskolai végzettség meritokratizmus szegénység okai átlag 1 tengelymetszet 1 tengelymetszet 2 variancia 1 hibatag varianciája 1 hibatag varianciája 2 A 2. táblázatban látható, hogy a két endogén változó becsült értékeinek kiszámításához szükség van az utakat megtestesítő regressziós együtthatókra, a változók definiálásához pedig az átlagokra vagy tengelymetszetekre, továbbá a hibatagokra vagy varianciákra. Exogén változók esetében a változókat az átlagukkal és varianciájukkal tudjuk definiálni, míg az endogéneket a hozzájuk tartozó regressziós együtthatókkal, a tengelymetszetükkel és a hozzájuk tartozó hibatagok varianciájával. (A hibatagok átlagait nem becsüljük, mivel várható értékük definíciószerűen nulla. (Székelyi Barna 2003: 213)) Ezen paraméterek segítségével tudjuk tehát kiszámítani a regressziós egyenletet és így a modellünk alapján megbecsülni az endogén változók értékeit. Ha összeszámoljuk, a becsülni kívánt paraméterek száma éppen kilenc, csak úgy, mint azon paraméterek száma volt, melyeket a becsléshez felhasználtunk. Mivel tehát a bemeneti és a becsülni kívánt 16

paraméterek különbsége nulla, a modell szabadságfoka is nulla lesz. Általánosságban azt is elmondhatjuk, hogy a fentiek alapján minden egyszerű lineáris regresszióra, továbbá minden olyan útmodellre, melyben az összes lehetséges utat feltételezzük, igaz ez az állítás (nevezetesen hogy szabadságfoka nulla). Fontos értelmeznünk, hogy mit is jelent a nulla szabadságfok ebben az esetben. Abból tehát, hogy éppen annyi paraméterünk van az adatainkból, mint ahány paramétert becsülni kívánunk a modell segítségével, az következik, hogy az egyenletrendszernek csak egy megoldása van. Úgy tekinthetünk rá, mint egy számításra: a regressziós egyenletekből az ismert információk alapján ki tudjuk számítani az ismeretlen információkat, melyeknek a rendszerben csak egyféle értéke lehet. (Ami az egyes regresszióknál változhat, az a számítás módja, hogy például magas mérési szintű függő változóknál a Legkisebb Négyzetek Módszerével vagy kétértékű függő változók esetén Maximum Likelihood becsléssel dolgozunk. Ez azonban nem befolyásolja a fenti gondolatmenetet.) Az ilyen modelleket éppen identifikált (just identified) modelleknek nevezzük és az jellemzi őket, hogy azonos számú paraméter áll rendelkezésünkre a becslést megelőzően, mint ahányat meg akarunk becsülni. Felfoghatjuk az ilyen eseteket úgy is, mint egyfajta telített modelleket, hiszen minden információt felhasználunk a becslések végrehajtásakor, ezért modellünk illeszkedése az adatokhoz tökéletes lesz. Ezen modelleknél tehát képesek vagyunk becslést adni az ismeretlen paramétereinkre és a becslésnek csak egy megoldása lehet. 3 Probléma azoknál a modelleknél van, melyek szabadságfoka negatív: ezeket nevezzük alulidentifikált (underidentified) modelleknek. Ez utóbbi eset ugyanis azt jelenti, hogy nincs elég bemeneti információnk ahhoz, hogy a becslést végre tudjuk hajtani: az adatainkból rendelkezésre álló paraméterek száma ugyanis kevesebb, mint a becsülni kívánt paramétereink száma. A takarékosság fenti gondolatmenetét, tehát nem a bemeneti információink csökkentésével tudjuk elérni, hanem kizárásos alapon csak a becsülni kívánt paramétereink számának csökkentésével. A modelleknek azon csoportját, melyek szabadságfoka nullánál nagyobb, tehát bemeneti paramétereink száma meghaladja a 3 Fontos azonban felhívni arra is a figyelmet, hogy az, hogy a bemeneti és a becsülni kívánt paraméterek különbsége legalább nulla legyen, mindössze szükséges, de nem elégséges feltétel ahhoz, hogy egy modell empirikusan identifikált legyen. Előállhat ugyanis olyan helyzet, amikor ez a feltétel teljesül, tehát statisztikai értelemben a modell identifikált, empirikus értelemben viszont nem. Ilyen helyzet lehet például, ha a bemeneti paraméterek közül a kovarianciák értéke nulla. Ilyenkor ugyanis hiába áll legalább annyi paraméter a rendelkezésünkre, mint ahányat becsülni kívánunk, a modell adatokhoz való illesztése nem lehetséges. (Brown 2006: 69-70) Általánosságban azt mondhatjuk, hogy az empirikus identifikációhoz a fent leírt feltételeken kívül az is szükséges, hogy az ún. információs mátrix, mely az illesztő függvény (lásd 2.1.2.3.1 fejezet) második deriváltja, invertálható legyen. (Schmidt Davidov 2010: 3/13) 17

becsülni kívánt paramétereink számát, túlidentifikált (overidentified) modelleknek nevezzük. (Brown 2006: 63-39) Gondoljuk végig, hogy a takarékos modellek szemléletét hogyan tudnánk érvényesíteni az előbb elemzett útmodell esetében. Feltételezhetjük például, hogy az iskolázottságnak nincs közvetlen hatása a szegénységgel kapcsolatos külső oktulajdonításra és megvizsgálhatjuk, hogy ezt az utat kitörölve romlik-e a modell illeszkedése az adatokhoz. Itt érkeztünk el ahhoz a ponthoz, ahol a korábban bemutatott útmodellen alapuló számítások már nem feltétlenül nyújtanak elégséges eszközt a problémák megoldására. Ez a változtatás ugyanis modellünket éppen identifikáltból túlidentifikálttá teszi, hiszen ugyanazon kilenc bemeneti paraméter áll rendelkezésünkre, ám már csak nyolc (a fent bemutatott kilenc, mínusz a β 3 -ként jelölt regressziós együttható) paramétert kell megbecsülnünk modellünk segítségével. A modell szabadságfoka tehát egy lesz, mivel a bemeneti paraméterek száma meghaladja a becsülni kívánt paraméterek számát. Ezen a ponton kétféle módszer áll rendelkezésünkre. Az egyik a többváltozós regressziós egyenletek rendszerének megoldása, mely az egymással összefüggő egyenletek kiszámítását jelenti: ezt a korábbiakban bemutatottak szerint alkalmazták az útmodellek kiszámítása során. A másik opció a Strukturális Egyenletek Modellezése, amely a modell adatokhoz való illeszkedésének tesztelésével sokkal több lehetőséget ad a kezünkbe, mint az előbbi, meglehetősen elterjedt módszer. (Kline 2002: 66) 2.1.2.2 A túlidentifikált modellek illesztésének logikája Az adatokhoz való illeszkedés tesztelésének logikája a következő. Elsőként vesszük a változóink adataiból konstruált (megfigyelt) kovariancia mátrixot. Ezután a becsülni kívánt paraméterek egy változatával megpróbáljuk visszabecsülni az eredeti változók kovariancia mátrixát, azt tettetve, hogy nem ismerjük annak értékeit. A becsült kovariancia mátrix létrehozásakor tehát csak a modellünk által becsült eredményekre támaszkodunk. A megfigyelt és a becsül kovariancia mátrix különbségét nevezzük reziduális mátrixnak. Az illesztés célja, hogy az ebben található értékek minél inkább közelítsenek a nullához: tehát hogy a modell által becsült kovariancia mátrix minél hasonlóbb legyen az adatok alapján létrehozott, megfigyelt kovariancia mátrixhoz. A többféle megoldásból a legjobb illeszkedést elérő paraméterek kiválasztása egy iteratív folyamat: egészen addig próbálunk új, a modell által becsült paramétereket keresni, míg már nem lehet tovább csökkenteni a 18

reziduális mátrix értékeit. A legkisebb értékekkel rendelkező reziduális mátrixot produkáló paraméterek megtalálására többféle módszer is létezik, de leggyakrabban a Maximum Likelihood becslést szokták alkalmazni erre, mely azonban feltételezi, hogy a modellbe függő változóként bevont változók többdimenziós normális eloszlásúak. A többdimenziós normális eloszlás ugyan nem minden esetben valósul meg, azonban számítógépes szimulációk kimutatták, hogy a többdimenziós normális eloszlás előfeltételének megsértése alig befolyásolja a paraméterbecslések eredményét. Amivel azonban az ilyen jellegű adatok használatakor óvatosan kell bánni, azok a modell illeszkedését tesztelő statisztikák, melyek ezekben az esetekben gyakrabban indítanak a nullhipotézis elvetésére. (Kline 2002: 115) Ahogy a későbbiekben bemutatjuk, éppen ezért érdemes többféle mérőszámot is alkalmazni az illeszkedés tesztelésére. A SEM egyik legelismertebb szakértője, Rex B. Kline (2002: 112) egyenesen úgy véli, hogy amennyiben a modell illesztéséhez nem Maximum Likelihood módszert választunk, hanem más módszereket, azok használatát erősen meg kell indokolni, véleménye szerint tehát más technikák alkalmazásához kifejezetten nyomós érvek kellenek. Függetlenül az illesztés módszerétől, a cél azon becsült paraméterek megtalálása, amelyek által a visszabecsült kovariancia mátrix leginkább hasonlít a megfigyelt mátrixhoz, másképp szólva a reziduális mátrix minimalizálása. Ideális esetben a legjobb megoldás kellőképp hasonlít a megfigyelt mátrixra, ilyen esetekben tehát azt mondhatjuk, hogy a modellünk jól illeszkedik az adatokra. 2.1.2.3 Az illeszkedés tesztelése Mit jelent azonban az, hogy a becsült mátrix kellőképp hasonlít a megfigyelt mátrixra? A kérdés eldöntésére többféle statisztikai mérőszám áll a rendelkezésünkre. Jelen dolgozatban azokat fogom bemutatni, melyeket Kline (2002: 134) a SEM modellek publikálásakor ajánlottnak tekint. 2.1.2.3.1 A khí-négyzet próbán alapuló illeszkedésvizsgálat A legáltalánosabban használt statisztikai próba egy khí-négyzet próbán alapuló illeszkedésvizsgálat, amely az úgynevezett illesztő-függvényen alapul (lásd 4. egyenlet) (Kline, 2002: 135). Az illesztő-függvény a reziduális mátrix értékeit tartalmazza, ilyen 19

módon pedig a megfigyelt és a becsült kovariancia mátrix különbségét mutatja. Ideális esetben tehát, amikor a megfigyelt és becsült paraméterek megegyeznek egymással (teljes illeszkedés) az illesztő függvény értéke nulla. Az illeszkedést mérő tesztet az egyszerűség kedvéért nevezzük most -nek (ahol az M index a modellre utal). A próba többdimenziós normális eloszlás esetén asszimptotikusan khí-négyzet eloszlású és szabadságfoka megegyezik a modell szabadságfokával (mely a megfigyelt és a becsült paraméterek számának a különbsége). Könnyen beláthatjuk, hogy az éppen identifikált modellek esetén, amikor is a modellünk teljes mértékben illeszkedik az adatokra, az illesztő-függvény értéke nulla, így a próba értéke is nulla lesz (nulla szabadságfokkal). Ez mutatja tehát a tökéletes illeszkedést. Túlidentifikált modellek esetén, ha a próba értéke nagyobb mint nulla, azt úgy interpretálhatjuk, hogy a modell illeszkedése rosszabb, mint a tökéletes és minél nagyobb, annál rosszabb illeszkedésről számolhatunk be. Nullhipotézisünk tehát az lesz, hogy a értéke nem különbözik szignifikánsan a nullától, másképp szólva, hogy a modellünk illeszkedése az adatainkhoz tökéletes. Ilyen értelemben a túlidentifikált modellt a teszt az éppen identifikált modellhez hasonlítja. Csakúgy, mint egy próba esetén, a alkalmazásakor is, az általunk számított értéket az adott szignifikancia-szinthez tartozó kritikus értékhez viszonyítva tudjuk megmondani, hogy a két mátrix szignifikánsan különbözik-e egymástól. Célunk eléréséhez (tehát ahhoz, hogy a két mátrix ne különbözzön egymástól szignifikánsan) azt várjuk, hogy a kritikus értéknél kisebb értéket kapjunk, így ugyanis nem kell elvetnünk a nullhipotézist és azt mondhatjuk, hogy a modellünk jól illeszkedik az adatokra. (Kline 2002: 135-136) 4. egyenlet: A modell illeszkedését tesztelő khí-négyzet próba képlete = 1 ahol: N a minta elemszáma, így (N-1) a minta szabadságfokát jelöli F ML az illesztő-függvény, mely Maximum Likelihood becsléssel jött létre Ahogy a fentiekben már említettük, a modell illeszkedéséhez használt khí-négyzet próba szabadságfoka megegyezik a modell szabadságfokával. Gondoljuk végig, hogy minél több utat építünk be modellünkbe (minél inkább növeljük a becsülni kívánt paraméterek számát), annál inkább csökkenni fog a modell szabadságfoka, míg végül éppen identifikálttá válik, amely esetben viszont a próba teljes illeszkedést mutat. Megfordítva a gondolatmenetet: minél kevesebb utat alkalmazunk modellünkben, tehát 20

minél takarékosabbak vagyunk, annál inkább nő az esélye annak, hogy modellünket elutasítsuk. Éppen ezért, ha két azonos illeszkedésű, de különböző szabadságfokú modell közül kell választanunk, a takarékosság elve alapján érdemesebb a nagyobb szabadságfokú modell mellett döntenünk, hiszen az kevesebb becsülni kívánt paramétert tartalmaz. (Kline 2002: 136) A khí-négyzet próbát azonban elemszám érzékenysége miatt nem tekintik megbízhatónak (lásd például Blunch 2010: 210), mivel kis elemszámú mintákon jelentős eltérések esetén is kis khí-négyzet értéket ad (ami hamisan a nullhipotézis megtartására, tehát az illeszkedés elfogadására ösztökél minket), nagy elemszámú mintákon pedig nagyon kis különbségeknél is magas khí-négyzet értéket kapunk (ami pedig félrevezetően a nullhipotézis meg nem tartására, tehát az illeszkedés elvetésére sarkallhat). (Kline 2002: 136) Éppen ezért a modell illeszkedésének tesztelésekor ellenőrzésképp más mérőszámok eredményeit is érdemes figyelembe venni. Fontos azonban megemlíteni, hogy az illeszkedés mérésekor a fenti khí-négyzet próba az egyetlen, amely teszteli is a modell illeszkedését. Minden más lehetőség olyan, úgynevezett illeszkedési mérőszám, mely nem hipotézisvizsgálaton alapuló statisztikai teszt, hanem olyan index, amelynél a konvención alapuló hüvelykujj szabályok szerint tudjuk eldönteni, hogy modellünk illeszkedése megfelelő-e. 4 De mégis mit várhatunk el egy ilyen, nem statisztikai teszten alapuló mérőszámtól? Elsőként azt, hogy kompenzálva a khí-négyzet próba hiányosságait, ne legyen elemszám érzékeny. Azonban emellett a próba jó tulajdonságát is tartsa meg, tehát elsősorban a megfigyelt és a becsült kovariancia mátrix különbségét mutassa. A fentieken túl, az ideális mérőszám akkor jó, ha a takarékosság logikáját is figyelembe veszi, tehát azonos modellek közül a nagyobb szabadságfokút mutatja jobb illeszkedésűnek. Az illeszkedés jóságát mutató mérőszámoknak meglehetősen széles választéka áll rendelkezésünkre, melyek közül mindegyiknek meg van a maga előnye és hátránya. Ezeket a mérőszámokat két csoportba sorolhatjuk: az egyikbe azok tartoznak, melyek a modellünket valamilyen más modellhez (általában a változók közti függetlenséget jelző, úgynevezett alap-modellhez ) hasonlítják. Ide tartozik például a GFI (Goodness of Fit Index), az AGFI (Adjusted Goodness of Fit Index), az NFI (Normed Fit Index), a TLI (Tucker-Lewis Index) amit más néven NNFI-nak (Non-Normed Fit Index) is hívnak, továbbá ennek a csoportnak a részét 4 Így szem előtt tartva ugyan, hogy a khí-négyzet próba elemszám érzékeny, minden esetben érdemes figyelembe venni azt a modell illeszkedésének megítélésekor. 21

képezi a CFI (Comparative Fit Index) is. Az illeszkedési mérőszámok ezen csoportját nevezhetjük tehát összehasonlító mérőszámoknak. A mérőszámok másik csoportja nem más modellekhez viszonyítja a saját modellünket, hanem kizárólag az adatokhoz. Ilyen értelemben tehát az ide tartozó mérőszámok nem relatív, hanem abszolút értelemben mutatják a modellünk illeszkedését. Az ide tartozó indexek közül a legelfogadottabbnak az RMSEA mondható, mely a Root Mean Square Error of Approximation rövidítése. Az, hogy ki melyik tesztet használja, sok értelemben hit kérdése, nincs általános közmegegyezés egy, minden jó tulajdonsággal bíró és minden hiányosságot nélkülöző tesztről. Éppen ezért a közmegegyezés sokkal inkább arra irányul, hogy modellünk tesztelésekor több mérőszámot is vegyünk figyelembe és akkor fogadjunk el egy modellt, ha mindegyik megfelel a hozzá tartozó hüvelykujj szabálynak. (Ezt a gondolatmenetet erősíti az is, hogy a többdimenziós normális eloszlás előfeltételének megsértése esetén az illeszkedést tesztelő statisztikák torzíthatnak a nullhipotézis elvetése felé. Éppen ezért ilyen adatoknál érdemesebb többféle mérőszámot alkalmazni az illeszkedés megállapításakor. (Kline 2002: 115) Az alábbiakban a mérőszámok két nagy csoportjából egyet-egyet mutatok be részletesebben. Döntésem egyrészt azért esett erre a két mérőszámra, mert a SEM-et használó publikációk szinte mindegyikében feltűnik ez a két index, így általánosan elfogadottnak tekinthetők; másrészt pedig Rex. B. Kline (2002: 134) alapján ezek feltüntetése ajánlott a SEM-et tartalmazó írások publikálása során. 2.1.2.3.2 A Comparative Fit Index Az egyik legszélesebb körben elterjedt, az összehasonlító mérőszámok csoportjába tartozó index az úgynevezett CFI, azaz a Comparative Fit Index. Az index a saját modellünkre számított, illeszkedést mérő khí-négyzet szabadságfokkal korrigált értéket viszonyítja egy olyan modell (szintén szabadságfokkal korrigált) khí-négyzet értékéhez, amelyben a változók függetlenek egymástól (lásd 5. egyenlet). Ez utóbbi modellt nevezzük alap modellnek és definíciója alapján leginkább úgy tekinthetünk rá, mint egyfajta függetlenségi modellre. (Hox 2012: 1/4/21) 22