Esettanulmány Kvantitatív elemzési módszerek (GTÜSE3915) tantárgyhoz

Hasonló dokumentumok
Faktoranalízis az SPSS-ben

Faktoranalízis az SPSS-ben

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Klaszterelemzés az SPSS-ben

Diszkriminancia-analízis

Klaszterelemzés az SPSS-ben

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Természetes népmozgalom

KLASZTERANALÍZIS OSZTÁLYOZÁS

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Többváltozós lineáris regressziós modell feltételeinek

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Korreláció és lineáris regresszió

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Korrelációs kapcsolatok elemzése

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A GDP hasonlóképpen nem tükrözi a háztartások közötti munka- és termékcseréket.

11. Előadás. 11. előadás Bevezetés a lineáris programozásba

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Izgalmas újdonságok a klaszteranalízisben

Typotex Kiadó. Tartalomjegyzék

Többváltozós Regresszió-számítás

SZKA_207_32. Jólét és jóllét. Avagy: alkoss államot saját elképzeléseid szerint

A TANTÁRGY ADATLAPJA

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Pszichometria Szemináriumi dolgozat

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Nemzeti Onkológiai Kutatás-Fejlesztési Konzorcium 1/48/ Részjelentés: November december 31.

Kvantitatív statisztikai módszerek

Segítség az outputok értelmezéséhez

Bevezetés az SPSS program használatába

A preferencia térképezés kritikus pontjai az élelmiszeripari termékfejlesztésben

Megoldások. Az ismérv megnevezése közös megkülönböztető szeptember 10-én Cégbejegyzés időpontja

Innováció és eredményesség eltérő státuszú iskolákban

EGER DEMOGRÁFIAI FOLYAMATAINAK ELEMZÉSE ÉS ELŐREJELZÉSE (összegzés)

A statisztika alapjai - Bevezetés az SPSS-be -

Najat, Shamil Ali Közel-Kelet: térképek, adatok az észak-afrikai helyzet gazdasági hátterének értelmezéséhez

5. Előadás. Grafikus ábrázolás Koncentráció elemzése

Több valószínűségi változó együttes eloszlása, korreláció

AZ EGÉSZSÉGESEN ÉS A FOGYATÉKOSSÁG NÉLKÜL LEÉLT ÉVEK VÁRHATÓ SZÁMA MAGYARORSZÁGON

A Fertő tó magyarországi területén mért vízkémiai paraméterek elemzése többváltozós feltáró adatelemző módszerekkel

Microsoft Excel Gyakoriság

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

Logisztikus regresszió

Az egészségügyi és gazdasági indikátorok összefüggéseinek vizsgálata Magyarországon

8.3. Az Információs és Kommunikációs Technológia és az olvasás-szövegértési készség

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

Az egyenlőtlenség határai. Szigeti Cecília Széchenyi Egyetem Kautz Gyula Gazdaságtudományi Kar

A gazdaságstatisztika szerepe a munkaerőpiaci folyamatok elemzésében a Visegrádi Négyek körében. Dr. Lipták Katalin

A hazai kistérségek kategorizálása gazdasági fejlettségük mentén

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Adatok statisztikai értékelésének főbb lehetőségei

A SERVQUAL (szolgáltatás-minőség) modell alkalmazhatóságának elemzése sokváltozós adatelemzési módszerekkel. Becser Norbert

GEOSTATISZTIKA. Földtudományi mérnöki MSc, geofizikus-mérnöki szakirány. 2018/2019 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

BKM KH NSzSz Halálozási mutatók Bács-Kiskun megyében és a megye járásaiban

TÁMOP-4.2.2/B-10/ Tantárgyi program (rövidített)

GEOSTATISZTIKA II. Geográfus MSc szak. 2019/2020 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Logisztikus regresszió

Regressziós vizsgálatok

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Függetlenségvizsgálat, Illeszkedésvizsgálat

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Korreláció és Regresszió

A FÖDRAJZI HELYHEZ KAPCSOLÓDÓ ÉS A HAGYOMÁNYOS MAGYAR TERMÉKEK LEHETSÉGES SZEREPE AZ ÉLELMISZERFOGYASZTÓI MAGATARTÁSBAN

Viszonyszám A B. Viszonyszám: két, egymással kapcsolatban álló statisztikai adat hányadosa, ahol A: a. viszonyítadóadat

Matematikai geodéziai számítások 6.

Horváth Krisztina Pécsi Tudományegyetem Közgazdaságtudományi Kar Regionális Politika és Gazdaságtan Doktori Iskola, III. évfolyam

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

Adatelemzés Excellel és SPSS-sel

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

1. Homogén lineáris egyenletrendszer megoldástere

A statisztika oktatásáról konkrétan

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Matematikai geodéziai számítások 6.

Innováció és eredményesség az alacsony státuszú iskolákban

Q1 = 1575 eft Me = 2027,7778 eft Q3 = 2526,3158 eft

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Standardizálás, transzformációk

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

2017-ben Erdély hét megyéjében haladta meg a GDP növekedése az országos átlagot

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Sta t ti t s i zt z i t k i a 3. előadás

y ij = µ + α i + e ij

Statisztika 10. évfolyam. Adatsokaságok ábrázolása és diagramok értelmezése

Nagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet

V. Gyakorisági táblázatok elemzése

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Termékenységi átmenet Magyarországon a században

[Biomatematika 2] Orvosi biometria

A MARKETINGKOMMUNIKÁCIÓ ÉS PÉNZÜGYI EREDMÉNYESSÉGÉNEK MÉRÉSE MAGYAR BORÁSZATOK KÖRÉBEN TÓTH ARNOLD

A statisztika alapjai - Bevezetés az SPSS-be -

Átírás:

Esettanulmány Kvantitatív elemzési módszerek (GTÜSE3915) tantárgyhoz Az SPSS statisztikai program World95.sav nevű adatbázisa a világ 109 nemzetének 26 társadalmi-gazdasági és politikai helyzetét leíró változót tartalmaz. Ezek rendre a következők: 1. táblázat: World95.sav adatbázis változói Változók SPSS-beli megnevezés Leírás Mérési skála 1 country Ország megnevezése Nominális 2 populatn Népesség (1000 főben) Arány 3 density Népsűrűség (fő / km 2 ) Arány 4 urban A városban élők aránya (%) Arány 5 religion Vallás Nominális 6 lifeexpf Nők átlagos születéskor várható élettartama Arány 7 lifeexpm Férfiak átlagos születéskor várható élettartama Arány 8 literacy Azon emberek aránya, akik tudnak olvasni (%) Arány 9 pop_incr Népesség éves növekedés mértéke (%) Arány 10 babymort Csecsemőhalandóság (1000 élve születésre jutó halálozások száma) Arány 11 gdp_cap 1 főre jutó GDP Arány 12 region Régiók, gazdasági csoportok Sorrendi 13 calories Napi kalória bevitel Arány 14 aids AIDS-es esetek száma Arány 15 birth_rt 1000 főre jutó születési arányszám Arány 16 death_rt 1000 főre jutó halálozási arányszám Arány 17 aids_rt 100 000 főre jutó AIDS-es esetek száma Arány 18 log_gdp A GDP_CAP változó 10-es alapú logaritmusa Arány 19 lg_aidsr Az AIDS_RT változó 10-es alapú logaritmusa Arány 20 b_to_d 1 halálozásra jutó születések száma Arány 21 fertilty Termékenységi mutató: átlagos gyermekszám Arány 22 log_pop A népesség 10-es alapú logaritmusa Arány 23 cropgrow Vetemény Arány 24 lit_male Azoknak a férfiaknak az aránya, akik olvasnak (%) Arány 25 lit_fema Azoknak a nőknek az aránya, akik olvasnak (%) Arány 26 climate Éghajlat Sorrendi

Feladat: Az SPSS World95.sav fájl adatait felhasználva hozzon létre az országokat alkotó homogén csoportokat (klasztereket) úgy, hogy a klaszterképző ismérvek a várható élettartamot leginkább befolyásoló tényezők legyenek! 1. Válassza ki a várható élettartammal legszorosabb és szignifikáns kapcsolatban levő változókat, amelyek a klaszterképzés alapjául szolgálhatnak! 2. Redukálja le a változók számát a könnyebb értelmezhetőség kedvéért! 3. Az elemzés célja homogén csoportok létrehozása. Nézze meg, vannak-e kiugró értékek, s ha igen, azokat hagyja ki az elemzésből! 4. Határozza meg az ideális klaszterszámot! 5. Ábrázolja a befolyásoló tényezők alapján a különböző klaszterekbe sorolt országokat! 6. Jellemezze a klasztereket! Készítsen kutatási összefoglalót a kapott eredményekről!

Megoldás Az esettanulmány eredményeinek bemutatása, az eredmények értelmezésének gyakorlása Kutatási célunk az adott országoknak a várható élettartammal szignifikáns kapcsolatban álló változók alapján való klaszterekbe sorolása. Ennek első lépéseként meghatároztuk azon változók körét, amelyek szignifikáns kapcsolatban állnak a várható élettartammal, tehát amelyek befolyásolják az eredményeket. 1. Válassza ki a várható élettartammal legszorosabb és szignifikáns kapcsolatban levő változókat, amelyek a klaszterképzés alapjául szolgálhatnak! Többváltozós korrelációszámítás segítségével megvizsgáltuk, mely változók kerülhetnek be az elemzésbe. Az eredményeket a táblázat terjedelme miatt nem szerepeltetjük. Arra a következtetésre jutottunk, hogy a várható élettartamot szignifikánsan (p<0,1) a következő tényezők befolyásolták: városi népesség aránya, olvasni tudók aránya, olvasni tudók aránya a férfiak, valamint a nők körében, a népesség növekedési üteme, csecsemőhalandóság, egy főre eső GDP, napi kalória bevitel, 1000 főre jutó születések száma, 1000 főre eső halálozások száma, 10000 főre jutó AIDS esetek száma, átlagos gyermekszám. Mivel a klaszteranalízis alapjául szolgáló változók száma túl sok, faktoranalízis segítségével redukáltuk a számukat. 2. Redukálja le a változók számát a könnyebb értelmezhetőség kedvéért! A faktoranalízis első lépéseként megvizsgáltuk az elemzéshez szükséges feltételek teljesülését. A változók közötti korrelációs együtthatókat már a változók körének kiválasztásakor meghatároztuk. Mivel szignifikáns kapcsolatokat figyelhetünk meg, az elemzés ezen feltétele, miszerint szoros és szignifikáns kapcsolatoknak kell lennie a változók között, teljesült. Ez után az anti-image mátrix segítségével megvizsgáltuk, hogy van-e a faktoranalízis eredményeit torzító változónk. Az anti-image korrelációs mátrix főátlójának elemei 0,502 és 0,899 közötti értékeket vesznek fel, amely mindegyike a kritikus 0,5 feletti érték. Viszont a 100 000 főre jutó AIDS-es esetek száma esetében a 0,502-es érték oly mértékben eltér a többitől, hogy célszerűnek tartottuk azt a változót kihagyni az elemzésből. A változó elhagyása után a KMO értéke 0,838-ról 0,856-ra emelkedett, amely értelmében az adatok alkalmasak a faktorelemzésre. Ezt támasztja alá a Bartlett hipotézisvizsgálat is. 2.1. táblázat: KMO és Bartlett Teszt Kaiser-Meyer-Olkin érték,838 Bartlett Teszt Becsült chi négyzet 971,601 df (szabadságfok) 66 Szignifikancia,000

Miután meggyőződhettünk arról, hogy a feltételek teljesültek, valamint az adatok alkalmasak a faktorelemzésre, ki kell választanunk a faktormódszert. Jelen esetben a főkomponenselemzést választottuk a módszerek közül, hogy a kiindulási változók lineáris kombinációjaként olyan korrelálatlan főkomponenseket képezzünk, amelyek a legmagasabb magyarázott varianciával bírnak. Ezután meghatároztuk az ideális faktorok számát. Ebben lehet segítségünkre a Scree Plot, amely értelmében a 2 főkomponenst kellene létrehozni ugyanis a közös variancia és az egyedi faktorok töréspontja a 2-es főkomponens számnál található. Amennyiben a Kaiser kritériumot vesszük alapul, vagyis az 1-nél alacsonyabb sajátértékű főkomponenseket kizárjuk az elemzésből, akkor 3 az ideális száma a főkomponenseknek. 2.1 ábra: Vonaldiagram az ideális főkomponensszám meghatározásához 3 főkomponens esetén a teljes magyarázott variancia 88,438% lenne, ami magasabb, mint a kritikusként meghatározott 60%, vagyis a 3 főkomponens 88,438%-ban foglalja össze a kiindulási változók tulajdonságait.

2.2. táblázat: Teljes magyarázott variancia Komponensek Összesen Kezdeti sajátértéks A variancia %-ban Kumulált % Összesen Loading négyzetösszege A variancia %-ban Kumulált % 1 7,436 67,597 67,597 7,436 67,597 67,597 2 1,261 11,466 79,063 1,261 11,466 79,063 3 1,031 9,375 88,438 1,031 9,375 88,438 4,468 4,257 92,695 5,292 2,659 95,354 6,265 2,410 97,764 7,101,923 98,686 8,068,616 99,303 9,034,306 99,608 10,024,215 99,823 11,019,177 100,000 Mivel a klaszteranalízis feltétele a független változók használata, és a változóink jelen esetben a főkomponensek lesznek, ezért a főkomponenseket derékszögű forgatással rotáljuk. Azért választjuk a Varimax módszert, mert az eljárás a főkomponensek által magyarázott varianciát maximalizálja. 2.3. táblázat: Rotált főkomponensek Főkomponensek 1 2 3 1000 főre jutó halálozások száma -,910,036 -,147 Csecsemőhalandóság -,749,426 -,417 Olvasni tudó emberek aránya,686 -,638,228 Olvasni tudó nők aránya,673 -,653,212 Olvasni tudó férfiak aránya,651 -,622,213 Népesség éves növekedési üteme (%),089,948 -,206 Átlagos gyermekszám -,463,774 -,283 1000 főre jutó születések száma -,424,765 -,395 Egy főre jutó GDP,069 -,302,878 Napi kalória bevitel,340 -,262,804 Városokban élők aránya (%),626 -,082,626

Az első főkomponensben negatív súllyal szerepel az 1000 főre jutó halálozások száma, valamint a csecsemőhalandóság, ezen kívül pedig pozitív súllyal szerepel benne az olvasni tudók aránya összesen, illetve nemenként. A második főkomponenst alkotó változók a népesség éves növekedési üteme, az átlagos gyermekszám, valamint az 1000 főre jutó születések száma. Ezen változók közös ok-okozati összefüggése az országok népességének növekedésére, mondhatni frissülésére utal vissza. A harmadik főkomponenst az egy főre jutó GDP, a napi kalória bevitel, valamint a városokban élők aránya alkotja, amelyek az országok gazdagsági helyzetére utalnak. Miután több faktormódszerrel, forgatási eljárással leteszteltük a főkomponenselemzés eredményességét, meggyőződtünk annak érvényességéről, a főkomponensek elnevezése következik. Az elnevezéshez további vizsgálatok lennének szükségesek, de mivel a főkomponenselemzés jelen esetben csak egy alkalmazott módszer egy másik elemzés feltételeinek teljesüléséhez, így az egyszerűség kedvéért tekintsük ezeket F1, F2, F3 főkomponenseknek. Mivel az elemzést egy nagyobb volumenű vizsgálat (klaszteranalízis) első lépéseként alkalmaztuk, szükséges a főkomponensek új változóként való elmentése. A változók létrehozására a legelterjedtebb regressziós faktorérték módszert választottuk. A mentést követően már három új változóval (F1, F2, F3) dolgozhatunk, hogy a vizsgált országokat klaszterekbe sorolhassuk. 3. Az elemzés célja homogén csoportok létrehozása. Nézze meg, vannak-e kiugró értékek, s ha igen, azokat hagyja ki az elemzésből! Visszatérve eredeti kutatási tervünkhöz, folytattuk a klaszteranalízis menetét. A faktoranalízis előzetes alkalmazása már biztosította nekünk, hogy a változók egymástól függetlenek legyenek, valamint hogy a vizsgált változók skálái megegyezzenek. Az elemzés módszerének a hierarchikus klaszterelemzést választottuk, mert nincs előzetes információnk a klaszterek számáról. Mivel célunk homogén csoportok létrehozása, ezért első lépésben az egyszerű láncmódszert (Nearest neighbour) alkalmazva megvizsgáltuk, hogy vannak-e az adatbázisban kiugró értékek. Az eredmények alapján azt mondhatjuk, nincsenek kiugró értékek, ezért a továbbiakban a Ward-féle eljárással folytattuk az elemzést. A Ward módszer alkalmazásával azok az elemek kerültek egy klaszterbe, amelyek összevonása minimalizálja a belső szórásnégyzet növekedését. Távolságmértéknek a négyzetes euklediszi távolságot határoztuk meg. 4. Határozza meg az ideális klaszterszámot! Az ideális klaszterszám meghatározásához az Agglomeretion Schedule táblázat alapján kirajzolt vonaldiagramot használtuk.

4.1 ábra: Vonaldiagram az ideális klaszterszám meghatározásához Az ábra alapján 4 klasztert lenne érdemes létrehozni. A kialakítandó klaszterek lehetséges számát megvizsgáltuk a dendogram segítségével is. Ha a klaszterösszevonások transzformált távolságát 5-ben határozzuk meg, akkor 5 klasztert, ha egy kicsivel magasabb értékben (pl. 6) határozzuk meg, akkor pedig 4 klasztert lenne érdemes létrehozni.

4.2 ábra: Dendogram Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 32 -+ 79 -+ 31 -+ 80 -+ 25 -+-+ 77 -+ 23 -+ 26 -+ 2 -+ 15 -+-+-------+ 105 -+ 98 -+ 108 -+-+ 24 -+ 51 -+ 67 -+ +-----------------------+ 99 -+ 66 -+ 107 -+---+ 46 -+ 78 -+ 58 -+ +-----+ 44 -+ 72 -+-+ 20 -+ 73 -+ +-+ +---------+ 14 -+ 50 -+ 109 -+-+ 12 -+ 34 -+ 59 -+ 52 -+ +---+ 87 -+ 53 -+-+ 64 -+ +-------------------------------+ 60 ---+ 63 -+ 88 -+---+ 36 -+ 90 -+ +---------------------------------------+ 33 -+-+ 39 -+ 17 -+-+-+ 22 -+ 85 -+ 97 -+ 19 -+ 8 -+-+ 18 -+ 45 -+ 103 -+ 56 -+

Mivel az 5 klaszteres megoldás homogénebb csoportokhoz vezet (ld. alábbi táblázatok), így azt választjuk és mentjük el. Klaszterek száma Gyakoriság 4.1./a táblázat: Klaszterek gyakorisági táblázata Relatív gyakoriság (%) Érvényes relatív gyakoriság (%) Kumulált relatív gyakoriság Valid 1 32 29,4 54,2 54,2 2 7 6,4 11,9 66,1 3 15 13,8 25,4 91,5 4 5 4,6 8,5 100,0 Összesen 59 54,1 100,0 Hiányzó adatok 50 45,9 Összesen 109 100,0 Klaszterek száma Gyakoriság 4.1./b táblázat: Klaszterek gyakorisági táblázata Relatív gyakoriság (%) Érvényes relatív gyakoriság (%) Kumulált relatív gyakoriság 1 15 13,8 25,4 25,4 2 7 6,4 11,9 37,3 3 15 13,8 25,4 62,7 4 17 15,6 28,8 91,5 5 5 4,6 8,5 100,0 Összesen 59 54,1 100,0 Hiányzó adat 50 45,9 Összesen 109 100,0 5. Ábrázolja a befolyásoló tényezők alapján a különböző klaszterekbe sorolt országokat! A megfelelő klaszterösszetétel kiválasztását azok ellenőrzése követi. Miután egyéb módszerekkel is leteszteltük, hogy a kapott eredmények megfelelnek az elemzésnek, a klaszterek értelmezése, jellemzése következik. Az elmentett 5 klasztert a jellemzésük egyszerűsítése kedvéért célszerű kirajzoltatni, ennek eredményeit mutatja az alábbi ábra.

5.1 ábra: Pontdiagram a klaszterekről 6. Jellemezze a klasztereket! A klasztereket kereszttábla-vizsgálattal, valamint varianciaanalízis segítségével elemezhetjük annak függvényében, hogy minőségi vagy mennyiségi ismérvekkel hasonlítjuk össze a klasztertagságot. Az első klaszter országaiban átlagosan a lakosság fele él városokban (55,4%±23,81%), az olvasni tudók aránya is magas (87,67%±5,95%), a nők születéskor várható élettartama 72 év, a férfiaké pedig átlagosan 66,5év. A népesség átlagos növekedési üteme +66%±41%. Átlagosan egy halálozásra 3,6 születés jut, 1000 csecsemő közül pedig átlagosan 38,5 veszíti el az életét. Az AIDS-es megbetegedések száma a többi klaszterhez viszonyítva átlagosnak mondható. Dominánsan a latin-amerikai, valamint ázsiai országok tartoznak ide, mint például Uruguay, Honduras vagy Kína, Vietnam. A második klaszter országai már fejlettebbek, ugyanis átlagosan 76,3%±13,1%-a él városokban, a nők születéskor várható élettartama 79,4 év, a férfiaké pedig átlagosan 72,9év, valamint az egy főre jutó GDP, valamint olvasni tudók aránya itt a legmagasabb (95,6%±4,1%). Az átlagos csecsemőhalandóság is itt a legalacsonyabb. A népesség viszont évről évre átlagosan fogy, ugyanis a születési arányszám alacsony: 12,86. Az AIDS-es megbetegedések száma a többi klaszterhez viszonyítva magasnak mondható. Dominánsan az OECD országok tartoznak ebbe a csoportba, mint például Olaszország, Görögország, Magyarország valamint az USA és Ausztrália. A harmadik klaszter országai mondhatók a legszegényebbnek, ugyanis átlagosan a lakosság negyede él városokban (24,9%±15,6%), a fejlettséget jelző változók értékei, mint az átlagos egy főre jutó GDP, a várható élettartam, a napi kalória bevitel értéke, az olvasni tudók aránya (39,8%) itt a legalacsonyabb. Az AIDS-es megbetegedések száma, a csecsemőhalandóság, valamint a halálozási arányszám magas a fejlettség hiánya

következtében. Ugyanerre az okra vezethető vissza a magas (42,2%±6,5%) születési arányszám, valamint a népesség növekedésének mértéke is. Dominánsan az afrikai országok tartoznak ide, mint például Nigéria, Közép-Afrikai Köztársaság, Burkina Faso. A negyedik klaszter országaiban átlagosan a lakosság fele él városokban (47,9%±18,01%). Ezek az országok az egy főre jutó GDP alapján kevésbé fejlettek. Ezt támasztja alá az is, hogy a nők születéskor várható élettartama 66 év, a férfiaké pedig átlagosan 62 év, valamint az olvasni tudók aránya 71,2%±13%. A születések száma átlagosan 4,7-szer akkora, mint a halálozások száma. A 100 000 főre jutó AIDS-es megbetegedések száma 40,15±81,86 fő, ami a többi klaszterhez viszonyítva átlagosnak mondható. Többnyire a latin-amerikai országok tartoznak ebbe a klaszterbe. A klaszter tagjai például Guatemala, Nicaragua, valamint Kenya és Egyiptom. Az ötödik klaszter országaiban átlagosan a lakosság 76,8%±24%-a él városban. A nők születéskor várható élettartama 70 év, a férfiaké pedig átlagosan 66 év. Az AIDS-es megbetegedések száma minimális ezekben az országokban, valamint a halálozási arányszám is itt a legalacsonyabb (6,2 ±2 ). A napi átlagos kalória beviteli értéke a többi klaszter tagjaihoz viszonyítva kivéve a 2. klasztert magas (3092±201,2). Az olvasni tudók aránya 62,6%±6,9%. A születések száma átlagosan 7,5-szer akkora, mint a halálozások száma. Többnyire a Közel-Kelet országai tartoznak ebbe a klaszterbe, mint például Líbia, Irak. A várható élettartam alapján elvégzett klaszterelemzés eredményei alapján létrejött csoportok szinte a regionális illetve gazdasági csoportosulások adatait tükrözik. Vagyis a várható élettartamot befolyásoló tényezők alapján vett klaszterek a gazdasági-regionális csoportokon belül homogének, amíg a különböző csoportok egymással összehasonlítva eltérő jellemzőkkel bírnak.

Továbbgondolandó kérdések, feladatok: Milyen szempontok alapján választhatná még ki az ideális változók körét? Mire alapozná a döntését, ha a klaszterek kialakításánál több lehetséges klasztermegoldás is elfogadhatónak tűnik? Ön szerint diszkriminancia-analízis alkalmazható-e a probléma megoldására? Mit tenne, ha a KMO értéke 0,5 lenne? Mit tenne akkor, ha nem teljesül a homoszkedaszticitás? Mit tenne az eredmények ellenőrzése érdekében?