Klaszterelemzés az SPSS-ben Kvantitatív statisztikai módszerek Petrovics Petra
Klaszteranalízis Olyan dimenziócsökkentő eljárás, amellyel adattömböket megfigyelési egységeket tudunk viszonylag homogén csoportokba sorolni, klasszifikálni. Cél: megmutatni, hogy léteznek olyan csoportok, amelyek jobban hasonlítanak egymáshoz, mint más csoportok tagjai.
Gyakorlati alkalmazási területei Piacszegmentálás 1. Releváns piac meghatározása 2. Szegmentáció alapjául szolgáló ismérvek meghatározása 3. Szegmentálás (Faktor-, klaszteranalízis) 4. 1 csoportba került fogyasztók jellemzése Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség) Új termék lehetőségeinek feltárása Tesztpiacok kiválasztása Adatcsökkentés
1. 2. 3. 4. 5. 6. 7. A probléma megfogalmazása (Kutatási probléma, hipotézis, vizsgálandó elemek nagysága, stb.) Feltételek vizsgálata Pl: kiugró értékek, reprezentatív minta, skálázás Hasonlósági és távolságmérték meghatározása (Ahol kisebb a távolság, azok a megfigyelési értékek hasonlóbbak) Klasztermódszer kiválasztása Hierarchikus vs. nem hierarchikus Klaszterek száma Hány csoport? Mi alapján? Klaszterek értelmezése, jellemzése Elnevezés, értékelés Klaszteranalízis folyamata Klaszterelemzés érvényességének ellenőrzése
Feladat TK/286. oldal (Sajtos-Mitev) Levesport gyártó vállalat fogyasztóit kérdezték meg Név: String Főzős: 1-7-ig terjedő skálán mennyit főz Házias: 1-7-ig terjedő skálán mennyire házias Nem: 1: férfi, 2: nő Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb
Név Főzős Házias Nem Lakhely Kereset 1 Béla 1 3 1 3 3000 2 Jenő 2 3 1 1 1500 3 Bea 5 5 2 2 2000 4 Marci 2 4 1 3 1000 5 Ubul 4 4 1 1 7000 6 Zsuzsa 2 7 2 1 8000 7 Rita 2 6 2 2 7000 8 Zoli 3 4 1 3 1500 9 Dávid 2 2 1 1 5000 10 Robi 6 5 1 3 1000 11 Kriszti 3 3 2 3 2000 12 Zsófi 6 6 2 2 4000 13 Géza 7 1 1 2 8000 14 Éva 6 7 2 1 1000 15 Dóra 5 7 2 1 3000 16 Vera 1 6 2 2 6000 Nem: 1-férfi, 2-nő Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb
SPSS
1. A probléma megfogalmazása A klaszterelemzés célja: A levesporfogyasztókat bizonyos ismérvek alapján csoportokba rendezni. Vizsgálandó elemek kiválasztása: Sokaság nagysága: Pl. Magyarország levespor-fogyasztói Mintanagyság meghatározása Mintavétel módjának meghatározása Most itt: n=16 fő (nem reprezentatív)
2. Feltételek vizsgálata Reprezentatív-e a minta? Itt NEM sokaságra vonatkozóan Kiugró adatok (outliers) nem vonhatunk le következtetéseket a Olyan abnormális megfigyelések, amelyek nem jellemzők a sokaságra; Alulprezentálják az alapsokaságban levő csoport nagyságát. Analyze / Classify / Hierarchical Cluster / Method: Nearest neighbour
Skálák Hasonló skálázási adatok az összehasonlíthatók Célszerű: azonos mértékegység (ok: nagyobb szórás nagyobb hatást mutat) Pl. ha a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk; A jövedelmet hasonlítanánk össze a főzéssel, stb. Ha eltér: standardizálni! Ha: - a válaszok egymáshoz képesti relatív fontossága a lényeges, - hasonló profilokat keresünk, - nem érdekel a válaszadó stílusa hatás. z i xi s x x Átlaga 0, szórása 1 Összehasonlíthat ó adatok
Standardizálás Analyze / Classify / Hierarchical Cluster / Method
Erősen korrelálnak az elemzésbe bevont változók egymással? Multikollinearitás Analyze / Regression/ Linear
3. Hasonlósági és távolságmérték meghatározása Bináris változók esetén Metrikus változók esetén Távolságmérték Hasonlóságmérték Távolságmérték Hasonlóságmérték Euklidészi távolság Russel and Rao Euklidészi távolság Pearson korreláció Négyzetes euklidészi távolság Egyszerű illesztés Variancia Jaccard City block Yule Négyzetes euklidészi távolság Csebisev Analyze / Classify / Hierarchical Cluster / Method
4. Klasztermódszer kiválasztása Hierarchikus Nem hierarchikus Agglomeratív (Összevonó) Divízív (Felosztó) Forgy: kezdőpont magpont A legközelebbi 2 elem távolsága Lánc módszer Egyszerű Teljes Variancia módszer Ward-féle eljárás A legtávolabbi 2 elem távolsága Centroid módszer Pl: Belson: kettéosztás A centroidok (kp.) közötti távolság A klasztereken belüli szórásnégyzet növekedése a legkisebb Átlagos Az elemek közötti távolság átlaga Forrás: Malhotra [2001]
Hierarchikus módszer nem tudjuk előre, hány klasztert szeretnénk létrehozni Érzékeny a kiugró értékekre Gazdaságtudományi Kar Előnyös a használata, ha: Nem hierarchikus módszer a mintavételi egységek száma magas kevésbé függ kiugró értékektől kevésbé függ távolságmértékektől kevésbé függ attól, hogy került-e az elemzésbe irreleváns változó Hátránya Kombinált használat: 1. Hierarchikus: klaszterek ideális száma 2. Kiugró elemek kiszűrése 3. Nem hierarchikus csoportosítás A klaszterek számát előre kell meghatározni Klaszterközéppont kiválasztása Függ a megfigyelések sorrendjétől
Analyze / Classify / Hierarchical Cluster Az összevonás lépései A szerintünk releváns változók Megfigyelési egységeket / változókat szeretnénk összevonni Ha az egyes Távolságmátrix egységeket el szeretnénk nevezni Jégcsapdiagram meghatározott klasztertartományra
Outlierek kiszűrése miatt! Távolságmérték
Output Rita Vera Az új közös klaszter melyik lépésben jelenik meg legközelebb (az alacsonyabb szám a nyilvántartási szám) Az összevonás lépései Milyen távolságok alapján vonták össze a klasztert Túl nagy ugrás Az összevonásra került klaszter melyik lépésben jelenik meg először
Alulról kezdjük értelmezni: Hol a legnagyobb a nevek közötti vonal? Vera és Rita 1. klaszterképzés 3 Vertical Icecle Jégcsap diagram Nagy elemszám esetében nehezen kezelhető. Géza ~ kiugró érték
Dendogram Legkisebb távolság alapján von össze Kiugró értékek kezelése Géza ~ kiugró érték Abnormális? Ki kell zárni?
Kiugró elemek törlése Data / Select Cases / If condition is satisfied Ez marad benn.
Analyze / Classify / Hierarchical Cluster / Method: Ward Metrikus változók Nincs kiugró érték Nincs korreláció a változók között
5. Klaszterek számának meghatározása a, Kutatói tapasztalat b, Távolságok c, Könyökkritérium d, Klaszterek relatív mértéke
b) Távolság ( Dendogram) Ahol a koefficiens értéke hirtelen megnő De: törekedjünk 5 körüli értéknél meghatározni a klaszterek számát 2 v. 3 klaszter
c) Könyökkritérium Ábraszerkesztés Line
12. lépés után n stage (töréspont) 3 klaszter (n-1) elem
Analyze / Classify / Hierarchical Cluster / Save Konkrét klaszterszám Gazdaságtudományi Kar
Graphs / Scatter/Dot
6. Klaszterek értelmezése, jellemzése Klasztercentroidok és szórások Mennyiségi (főzés, háziasság, fizetés) +minőségi (cluster) ismérvek vegyes kapcsolat Analyze / Compare Means / Means
Demográfiai vizsgálat (nem, lakhely) Minőségi-minőségi ismérv asszociáció Analyze / Descriptive Statistics / Crosstabs
1. klaszter 2. klaszter 3. klaszter Klasztereljárásba bevont változók Csak a jellemzésbe bevont változók Elnevezés Sokat főz Nem Igen Nem Házias Nem Igen Igen Nem Túlnyomórészt férfiak Túlnyomórészt nők Nők Lakhely? Nagy város Megyeszékhely Kereset Alacsony (3000 ) Nemtörődömök Alacsony (2200 ) Házi tündérek Magas (7667 ) Rohanó üzletasszonyok
Graphs / Pie Gazdaságtudományi Kar
7. Klaszterelemzés érvényességének ellenőrzése Más távolságmérték Más klasztereljárások Változók elhagyása A minta 2 részre bontása Az esetek sorrendjének megváltoztatása Nem hierarchikus klaszterelemzés
Köszönöm a figyelmet! stgpren@uni-miskolc.hu