Esettanulmány Kvantitatív elemzési módszerek (GTÜSE3915) tantárgyhoz Az SPSS statisztikai program World95.sav nevű adatbázisa a világ 109 nemzetének 26 társadalmi-gazdasági és politikai helyzetét leíró változót tartalmaz. Ezek rendre a következők: 1. táblázat: World95.sav adatbázis változói Változók SPSS-beli megnevezés Leírás Mérési skála 1 country Ország megnevezése Nominális 2 populatn Népesség (1000 főben) Arány 3 density Népsűrűség (fő / km 2 ) Arány 4 urban A városban élők aránya (%) Arány 5 religion Vallás Nominális 6 lifeexpf Nők átlagos születéskor várható élettartama Arány 7 lifeexpm Férfiak átlagos születéskor várható élettartama Arány 8 literacy Azon emberek aránya, akik tudnak olvasni (%) Arány 9 pop_incr Népesség éves növekedés mértéke (%) Arány 10 babymort Csecsemőhalandóság (1000 élve születésre jutó halálozások száma) Arány 11 gdp_cap 1 főre jutó GDP Arány 12 region Régiók, gazdasági csoportok Sorrendi 13 calories Napi kalória bevitel Arány 14 aids AIDS-es esetek száma Arány 15 birth_rt 1000 főre jutó születési arányszám Arány 16 death_rt 1000 főre jutó halálozási arányszám Arány 17 aids_rt 100 000 főre jutó AIDS-es esetek száma Arány 18 log_gdp A GDP_CAP változó 10-es alapú logaritmusa Arány 19 lg_aidsr Az AIDS_RT változó 10-es alapú logaritmusa Arány 20 b_to_d 1 halálozásra jutó születések száma Arány 21 fertilty Termékenységi mutató: átlagos gyermekszám Arány 22 log_pop A népesség 10-es alapú logaritmusa Arány 23 cropgrow Vetemény Arány 24 lit_male Azoknak a férfiaknak az aránya, akik olvasnak (%) Arány 25 lit_fema Azoknak a nőknek az aránya, akik olvasnak (%) Arány 26 climate Éghajlat Sorrendi
Feladat: Az SPSS World95.sav fájl adatait felhasználva hozzon létre az országokat alkotó homogén csoportokat (klasztereket) úgy, hogy a klaszterképző ismérvek a várható élettartamot leginkább befolyásoló tényezők legyenek! 1. Válassza ki a várható élettartammal legszorosabb és szignifikáns kapcsolatban levő változókat, amelyek a klaszterképzés alapjául szolgálhatnak! 2. Redukálja le a változók számát a könnyebb értelmezhetőség kedvéért! 3. Az elemzés célja homogén csoportok létrehozása. Nézze meg, vannak-e kiugró értékek, s ha igen, azokat hagyja ki az elemzésből! 4. Határozza meg az ideális klaszterszámot! 5. Ábrázolja a befolyásoló tényezők alapján a különböző klaszterekbe sorolt országokat! 6. Jellemezze a klasztereket! Készítsen kutatási összefoglalót a kapott eredményekről!
Megoldás Az esettanulmány eredményeinek bemutatása, az eredmények értelmezésének gyakorlása Kutatási célunk az adott országoknak a várható élettartammal szignifikáns kapcsolatban álló változók alapján való klaszterekbe sorolása. Ennek első lépéseként meghatároztuk azon változók körét, amelyek szignifikáns kapcsolatban állnak a várható élettartammal, tehát amelyek befolyásolják az eredményeket. 1. Válassza ki a várható élettartammal legszorosabb és szignifikáns kapcsolatban levő változókat, amelyek a klaszterképzés alapjául szolgálhatnak! Többváltozós korrelációszámítás segítségével megvizsgáltuk, mely változók kerülhetnek be az elemzésbe. Az eredményeket a táblázat terjedelme miatt nem szerepeltetjük. Arra a következtetésre jutottunk, hogy a várható élettartamot szignifikánsan (p<0,1) a következő tényezők befolyásolták: városi népesség aránya, olvasni tudók aránya, olvasni tudók aránya a férfiak, valamint a nők körében, a népesség növekedési üteme, csecsemőhalandóság, egy főre eső GDP, napi kalória bevitel, 1000 főre jutó születések száma, 1000 főre eső halálozások száma, 10000 főre jutó AIDS esetek száma, átlagos gyermekszám. Mivel a klaszteranalízis alapjául szolgáló változók száma túl sok, faktoranalízis segítségével redukáltuk a számukat. 2. Redukálja le a változók számát a könnyebb értelmezhetőség kedvéért! A faktoranalízis első lépéseként megvizsgáltuk az elemzéshez szükséges feltételek teljesülését. A változók közötti korrelációs együtthatókat már a változók körének kiválasztásakor meghatároztuk. Mivel szignifikáns kapcsolatokat figyelhetünk meg, az elemzés ezen feltétele, miszerint szoros és szignifikáns kapcsolatoknak kell lennie a változók között, teljesült. Ez után az anti-image mátrix segítségével megvizsgáltuk, hogy van-e a faktoranalízis eredményeit torzító változónk. Az anti-image korrelációs mátrix főátlójának elemei 0,502 és 0,899 közötti értékeket vesznek fel, amely mindegyike a kritikus 0,5 feletti érték. Viszont a 100 000 főre jutó AIDS-es esetek száma esetében a 0,502-es érték oly mértékben eltér a többitől, hogy célszerűnek tartottuk azt a változót kihagyni az elemzésből. A változó elhagyása után a KMO értéke 0,838-ról 0,856-ra emelkedett, amely értelmében az adatok alkalmasak a faktorelemzésre. Ezt támasztja alá a Bartlett hipotézisvizsgálat is. 2.1. táblázat: KMO és Bartlett Teszt Kaiser-Meyer-Olkin érték,838 Bartlett Teszt Becsült chi négyzet 971,601 df (szabadságfok) 66 Szignifikancia,000
Miután meggyőződhettünk arról, hogy a feltételek teljesültek, valamint az adatok alkalmasak a faktorelemzésre, ki kell választanunk a faktormódszert. Jelen esetben a főkomponenselemzést választottuk a módszerek közül, hogy a kiindulási változók lineáris kombinációjaként olyan korrelálatlan főkomponenseket képezzünk, amelyek a legmagasabb magyarázott varianciával bírnak. Ezután meghatároztuk az ideális faktorok számát. Ebben lehet segítségünkre a Scree Plot, amely értelmében a 2 főkomponenst kellene létrehozni ugyanis a közös variancia és az egyedi faktorok töréspontja a 2-es főkomponens számnál található. Amennyiben a Kaiser kritériumot vesszük alapul, vagyis az 1-nél alacsonyabb sajátértékű főkomponenseket kizárjuk az elemzésből, akkor 3 az ideális száma a főkomponenseknek. 2.1 ábra: Vonaldiagram az ideális főkomponensszám meghatározásához 3 főkomponens esetén a teljes magyarázott variancia 88,438% lenne, ami magasabb, mint a kritikusként meghatározott 60%, vagyis a 3 főkomponens 88,438%-ban foglalja össze a kiindulási változók tulajdonságait.
2.2. táblázat: Teljes magyarázott variancia Komponensek Összesen Kezdeti sajátértéks A variancia %-ban Kumulált % Összesen Loading négyzetösszege A variancia %-ban Kumulált % 1 7,436 67,597 67,597 7,436 67,597 67,597 2 1,261 11,466 79,063 1,261 11,466 79,063 3 1,031 9,375 88,438 1,031 9,375 88,438 4,468 4,257 92,695 5,292 2,659 95,354 6,265 2,410 97,764 7,101,923 98,686 8,068,616 99,303 9,034,306 99,608 10,024,215 99,823 11,019,177 100,000 Mivel a klaszteranalízis feltétele a független változók használata, és a változóink jelen esetben a főkomponensek lesznek, ezért a főkomponenseket derékszögű forgatással rotáljuk. Azért választjuk a Varimax módszert, mert az eljárás a főkomponensek által magyarázott varianciát maximalizálja. 2.3. táblázat: Rotált főkomponensek Főkomponensek 1 2 3 1000 főre jutó halálozások száma -,910,036 -,147 Csecsemőhalandóság -,749,426 -,417 Olvasni tudó emberek aránya,686 -,638,228 Olvasni tudó nők aránya,673 -,653,212 Olvasni tudó férfiak aránya,651 -,622,213 Népesség éves növekedési üteme (%),089,948 -,206 Átlagos gyermekszám -,463,774 -,283 1000 főre jutó születések száma -,424,765 -,395 Egy főre jutó GDP,069 -,302,878 Napi kalória bevitel,340 -,262,804 Városokban élők aránya (%),626 -,082,626
Az első főkomponensben negatív súllyal szerepel az 1000 főre jutó halálozások száma, valamint a csecsemőhalandóság, ezen kívül pedig pozitív súllyal szerepel benne az olvasni tudók aránya összesen, illetve nemenként. A második főkomponenst alkotó változók a népesség éves növekedési üteme, az átlagos gyermekszám, valamint az 1000 főre jutó születések száma. Ezen változók közös ok-okozati összefüggése az országok népességének növekedésére, mondhatni frissülésére utal vissza. A harmadik főkomponenst az egy főre jutó GDP, a napi kalória bevitel, valamint a városokban élők aránya alkotja, amelyek az országok gazdagsági helyzetére utalnak. Miután több faktormódszerrel, forgatási eljárással leteszteltük a főkomponenselemzés eredményességét, meggyőződtünk annak érvényességéről, a főkomponensek elnevezése következik. Az elnevezéshez további vizsgálatok lennének szükségesek, de mivel a főkomponenselemzés jelen esetben csak egy alkalmazott módszer egy másik elemzés feltételeinek teljesüléséhez, így az egyszerűség kedvéért tekintsük ezeket F1, F2, F3 főkomponenseknek. Mivel az elemzést egy nagyobb volumenű vizsgálat (klaszteranalízis) első lépéseként alkalmaztuk, szükséges a főkomponensek új változóként való elmentése. A változók létrehozására a legelterjedtebb regressziós faktorérték módszert választottuk. A mentést követően már három új változóval (F1, F2, F3) dolgozhatunk, hogy a vizsgált országokat klaszterekbe sorolhassuk. 3. Az elemzés célja homogén csoportok létrehozása. Nézze meg, vannak-e kiugró értékek, s ha igen, azokat hagyja ki az elemzésből! Visszatérve eredeti kutatási tervünkhöz, folytattuk a klaszteranalízis menetét. A faktoranalízis előzetes alkalmazása már biztosította nekünk, hogy a változók egymástól függetlenek legyenek, valamint hogy a vizsgált változók skálái megegyezzenek. Az elemzés módszerének a hierarchikus klaszterelemzést választottuk, mert nincs előzetes információnk a klaszterek számáról. Mivel célunk homogén csoportok létrehozása, ezért első lépésben az egyszerű láncmódszert (Nearest neighbour) alkalmazva megvizsgáltuk, hogy vannak-e az adatbázisban kiugró értékek. Az eredmények alapján azt mondhatjuk, nincsenek kiugró értékek, ezért a továbbiakban a Ward-féle eljárással folytattuk az elemzést. A Ward módszer alkalmazásával azok az elemek kerültek egy klaszterbe, amelyek összevonása minimalizálja a belső szórásnégyzet növekedését. Távolságmértéknek a négyzetes euklediszi távolságot határoztuk meg. 4. Határozza meg az ideális klaszterszámot! Az ideális klaszterszám meghatározásához az Agglomeretion Schedule táblázat alapján kirajzolt vonaldiagramot használtuk.
4.1 ábra: Vonaldiagram az ideális klaszterszám meghatározásához Az ábra alapján 4 klasztert lenne érdemes létrehozni. A kialakítandó klaszterek lehetséges számát megvizsgáltuk a dendogram segítségével is. Ha a klaszterösszevonások transzformált távolságát 5-ben határozzuk meg, akkor 5 klasztert, ha egy kicsivel magasabb értékben (pl. 6) határozzuk meg, akkor pedig 4 klasztert lenne érdemes létrehozni.
4.2 ábra: Dendogram Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 32 -+ 79 -+ 31 -+ 80 -+ 25 -+-+ 77 -+ 23 -+ 26 -+ 2 -+ 15 -+-+-------+ 105 -+ 98 -+ 108 -+-+ 24 -+ 51 -+ 67 -+ +-----------------------+ 99 -+ 66 -+ 107 -+---+ 46 -+ 78 -+ 58 -+ +-----+ 44 -+ 72 -+-+ 20 -+ 73 -+ +-+ +---------+ 14 -+ 50 -+ 109 -+-+ 12 -+ 34 -+ 59 -+ 52 -+ +---+ 87 -+ 53 -+-+ 64 -+ +-------------------------------+ 60 ---+ 63 -+ 88 -+---+ 36 -+ 90 -+ +---------------------------------------+ 33 -+-+ 39 -+ 17 -+-+-+ 22 -+ 85 -+ 97 -+ 19 -+ 8 -+-+ 18 -+ 45 -+ 103 -+ 56 -+
Mivel az 5 klaszteres megoldás homogénebb csoportokhoz vezet (ld. alábbi táblázatok), így azt választjuk és mentjük el. Klaszterek száma Gyakoriság 4.1./a táblázat: Klaszterek gyakorisági táblázata Relatív gyakoriság (%) Érvényes relatív gyakoriság (%) Kumulált relatív gyakoriság Valid 1 32 29,4 54,2 54,2 2 7 6,4 11,9 66,1 3 15 13,8 25,4 91,5 4 5 4,6 8,5 100,0 Összesen 59 54,1 100,0 Hiányzó adatok 50 45,9 Összesen 109 100,0 Klaszterek száma Gyakoriság 4.1./b táblázat: Klaszterek gyakorisági táblázata Relatív gyakoriság (%) Érvényes relatív gyakoriság (%) Kumulált relatív gyakoriság 1 15 13,8 25,4 25,4 2 7 6,4 11,9 37,3 3 15 13,8 25,4 62,7 4 17 15,6 28,8 91,5 5 5 4,6 8,5 100,0 Összesen 59 54,1 100,0 Hiányzó adat 50 45,9 Összesen 109 100,0 5. Ábrázolja a befolyásoló tényezők alapján a különböző klaszterekbe sorolt országokat! A megfelelő klaszterösszetétel kiválasztását azok ellenőrzése követi. Miután egyéb módszerekkel is leteszteltük, hogy a kapott eredmények megfelelnek az elemzésnek, a klaszterek értelmezése, jellemzése következik. Az elmentett 5 klasztert a jellemzésük egyszerűsítése kedvéért célszerű kirajzoltatni, ennek eredményeit mutatja az alábbi ábra.
5.1 ábra: Pontdiagram a klaszterekről 6. Jellemezze a klasztereket! A klasztereket kereszttábla-vizsgálattal, valamint varianciaanalízis segítségével elemezhetjük annak függvényében, hogy minőségi vagy mennyiségi ismérvekkel hasonlítjuk össze a klasztertagságot. Az első klaszter országaiban átlagosan a lakosság fele él városokban (55,4%±23,81%), az olvasni tudók aránya is magas (87,67%±5,95%), a nők születéskor várható élettartama 72 év, a férfiaké pedig átlagosan 66,5év. A népesség átlagos növekedési üteme +66%±41%. Átlagosan egy halálozásra 3,6 születés jut, 1000 csecsemő közül pedig átlagosan 38,5 veszíti el az életét. Az AIDS-es megbetegedések száma a többi klaszterhez viszonyítva átlagosnak mondható. Dominánsan a latin-amerikai, valamint ázsiai országok tartoznak ide, mint például Uruguay, Honduras vagy Kína, Vietnam. A második klaszter országai már fejlettebbek, ugyanis átlagosan 76,3%±13,1%-a él városokban, a nők születéskor várható élettartama 79,4 év, a férfiaké pedig átlagosan 72,9év, valamint az egy főre jutó GDP, valamint olvasni tudók aránya itt a legmagasabb (95,6%±4,1%). Az átlagos csecsemőhalandóság is itt a legalacsonyabb. A népesség viszont évről évre átlagosan fogy, ugyanis a születési arányszám alacsony: 12,86. Az AIDS-es megbetegedések száma a többi klaszterhez viszonyítva magasnak mondható. Dominánsan az OECD országok tartoznak ebbe a csoportba, mint például Olaszország, Görögország, Magyarország valamint az USA és Ausztrália. A harmadik klaszter országai mondhatók a legszegényebbnek, ugyanis átlagosan a lakosság negyede él városokban (24,9%±15,6%), a fejlettséget jelző változók értékei, mint az átlagos egy főre jutó GDP, a várható élettartam, a napi kalória bevitel értéke, az olvasni tudók aránya (39,8%) itt a legalacsonyabb. Az AIDS-es megbetegedések száma, a csecsemőhalandóság, valamint a halálozási arányszám magas a fejlettség hiánya
következtében. Ugyanerre az okra vezethető vissza a magas (42,2%±6,5%) születési arányszám, valamint a népesség növekedésének mértéke is. Dominánsan az afrikai országok tartoznak ide, mint például Nigéria, Közép-Afrikai Köztársaság, Burkina Faso. A negyedik klaszter országaiban átlagosan a lakosság fele él városokban (47,9%±18,01%). Ezek az országok az egy főre jutó GDP alapján kevésbé fejlettek. Ezt támasztja alá az is, hogy a nők születéskor várható élettartama 66 év, a férfiaké pedig átlagosan 62 év, valamint az olvasni tudók aránya 71,2%±13%. A születések száma átlagosan 4,7-szer akkora, mint a halálozások száma. A 100 000 főre jutó AIDS-es megbetegedések száma 40,15±81,86 fő, ami a többi klaszterhez viszonyítva átlagosnak mondható. Többnyire a latin-amerikai országok tartoznak ebbe a klaszterbe. A klaszter tagjai például Guatemala, Nicaragua, valamint Kenya és Egyiptom. Az ötödik klaszter országaiban átlagosan a lakosság 76,8%±24%-a él városban. A nők születéskor várható élettartama 70 év, a férfiaké pedig átlagosan 66 év. Az AIDS-es megbetegedések száma minimális ezekben az országokban, valamint a halálozási arányszám is itt a legalacsonyabb (6,2 ±2 ). A napi átlagos kalória beviteli értéke a többi klaszter tagjaihoz viszonyítva kivéve a 2. klasztert magas (3092±201,2). Az olvasni tudók aránya 62,6%±6,9%. A születések száma átlagosan 7,5-szer akkora, mint a halálozások száma. Többnyire a Közel-Kelet országai tartoznak ebbe a klaszterbe, mint például Líbia, Irak. A várható élettartam alapján elvégzett klaszterelemzés eredményei alapján létrejött csoportok szinte a regionális illetve gazdasági csoportosulások adatait tükrözik. Vagyis a várható élettartamot befolyásoló tényezők alapján vett klaszterek a gazdasági-regionális csoportokon belül homogének, amíg a különböző csoportok egymással összehasonlítva eltérő jellemzőkkel bírnak.
Továbbgondolandó kérdések, feladatok: Milyen szempontok alapján választhatná még ki az ideális változók körét? Mire alapozná a döntését, ha a klaszterek kialakításánál több lehetséges klasztermegoldás is elfogadhatónak tűnik? Ön szerint diszkriminancia-analízis alkalmazható-e a probléma megoldására? Mit tenne, ha a KMO értéke 0,5 lenne? Mit tenne akkor, ha nem teljesül a homoszkedaszticitás? Mit tenne az eredmények ellenőrzése érdekében?