Klaszterelemzés az SPSS-ben Petrovics Petra Doktorandusz
Klaszteranalízis Olyan dimenziócsökkentő eljárás, amellyel adattömböket megfigyelési egységeket tudunk viszonylag homogén csoportokba sorolni, klasszifikálni. Cél: megmutatni, hogy léteznek olyan csoportok, amelyek jobban hasonlítanak egymáshoz, mint más csoportok tagjai.
Gyakorlati alkalmazási területei Piacszegmentálás 1. Releváns piac meghatározása 2. Szegmentáció alapjául szolgáló ismérvek meghatározása 3. Szegmentálás (Faktor-, klaszteranalízis) 4. 1 csoportba került fogyasztók jellemzése Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség) Új termék lehetőségeinek feltárása Tesztpiacok kiválasztása Adatcsökkentés
Klaszteranalízis folyamata
Feladat TK/286. oldal (Sajtos-Mitev) Levesport gyártó vállalat fogyasztóit kérdezték meg Név: String Főzős: 1-7-ig terjedő skálán mennyit főz Házias: 1-7-ig terjedő skálán mennyire házias Nem: 1: férfi, 2: nő Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb
Név Főzős Házias Nem Lakhely Kereset 1 Béla 1 3 1 3 3000 2 Jenő 2 3 1 1 1500 3 Bea 5 5 2 2 2000 4 Marci 2 4 1 3 1000 5 Ubul 4 4 1 1 7000 6 Zsuzsa 2 7 2 1 8000 7 Rita 2 6 2 2 7000 8 Zoli 3 4 1 3 1500 9 Dávid 2 2 1 1 5000 10 Robi 6 5 1 3 1000 11 Kriszti 3 3 2 3 2000 12 Zsófi 6 6 2 2 4000 13 Géza 7 1 1 2 8000 14 Éva 6 7 2 1 1000 15 Dóra 5 7 2 1 3000 16 Vera 1 6 2 2 6000 Nem: 1-férfi, 2-nő Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb
SPSS
1. A probléma megfogalmazása A klaszterelemzés célja: A levesporfogyasztókat bizonyos ismérvek alapján csoportokba rendezni. Vizsgálandó elemek kiválasztása: Sokaság nagysága: Pl. Magyarország levespor-fogyasztói Mintanagyság meghatározása Mintavétel módjának meghatározása Most itt: n=16 fő (nem reprezentatív)
2. A klaszteranalízis feltételeinek vizsgálata I. Reprezentatív-e a minta? Itt NEM nem vonhatunk le következtetéseket a sokaságra vonatkozóan Kiugró adatok (outliers) Olyan abnormális megfigyelések, amelyek nem jellemzők a sokaságra; Alulprezentálják az alapsokaságban levő csoport nagyságát. Analyze / Classify / Hierarchical Cluster / Method: Nearest neighbour
2. A klaszteranalízis feltételeinek vizsgálata II. Skálák Hasonló skálázási adatok az összehasonlíthatók Célszerű: azonos mértékegység (ok: nagyobb szórás nagyobb hatást mutat) Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk; A jövedelmet hasonlítanánk össze a főzéssel, stb. Ha eltér: standardizálni! Ha: - a válaszok egymáshoz képesti relatív fontossága a lényeges, - hasonló profilokat keresünk, - nem érdekel a válaszadó stílusa hatás. z i = x i s x x Átlaga 0, szórása 1 Összehasonlítható adatok
Analyze / Classify / Hierarchical Cluster / Method
2. A klaszteranalízis feltételeinek vizsgálata III. Erősen korrelálnak az elemzésbe bevont változók egymással? Multikollinearitás Analyze / Regression/ Linear
3. Hasonlósági és távolságmérték meghatározása Bináris változók esetén Metrikus változók esetén Távolságmérték Hasonlóságmérték Távolságmérték Hasonlóságmérték Euklidészi távolság Russel and Rao Euklidészi távolság Pearson korreláció Négyzetes Egyszerű illesztés Négyzetes euklidészi távolság euklidészi távolság Variancia Jaccard City block Yule Csebisev Analyze / Classify / Hierarchical Cluster / Method
4. Klasztermódszer kiválasztása Hierarchikus Nem hierarchikus Agglomeratív Lánc módszer (Összevonó) Divízív (Felosztó) Forgy: kezdőpont magpont
Hierarchikus módszer nem tudjuk előre, hány klasztert szeretnénk létrehozni Érzékeny a kiugró értékekre Előnyös a használata, ha: Nem hierarchikus módszer a mintavételi egységek száma magas kevésbé függ kiugró értékektől kevésbé függ távolságmértékektől kevésbé függ attól, hogy került-e az elemzésbe irreleváns változó Hátránya A klaszterek számát előre kell meghatározni Klaszterközéppont kiválasztása Kombinált használat: 1. Hierarchikus: klaszterek ideális száma 2. Kiugró elemek kiszűrése 3. Nem hierarchikus csoportosítás Függ a megfigyelések sorrendjétől
Analyze / Classify / Hierarchical Cluster Az összevonás lépései A szerintünk releváns változók Megfigyelési egységeket / változókat szeretnénk összevonni Ha az egyes Távolságmátrix egységeket el szeretnénk nevezni Jégcsapdiagram meghatározott klasztertartományra Ne használd, lefagy a gép!
Outlierek kiszűrése miatt! Távolságmérték
Output Rita Vera Az új közös klaszter melyik lépésben jelenik meg legközelebb (az alacsonyabb szám a nyilvántartási szám) Az összevonás lépései Milyen távolságok alapján vonták össze a klasztert Túl nagy ugrás Az összevonásra került klaszter melyik lépésben jelenik meg először
Vertical Icecle Jégcsap diagram Nagy elemszám esetében nehezen kezelhető. 3 Alulról kezdjük értelmezni: Hol a legnagyobb a nevek közötti vonal? Vera és Rita 1. klaszterképzés Géza ~ kiugró érték
Dendogram Legkisebb távolság alapján von össze Kiugró értékek kezelése Géza ~ kiugró érték Abnormális? Ki kell zárni?
Kiugró elemek törlése Data / Select Cases / If condition is satisfied Ez marad benn.
Analyze / Classify / Hierarchical Cluster / Method: Ward Metrikus változók Nincs kiugró érték Nincs korreláció a változók között
5. Klaszterek számának meghatározása a. Kutatói tapasztalat b. Távolságok c. Könyökkritérium d. Klaszterek relatív mértéke
b) Távolság ( Dendogram) Ahol a koefficiens értéke hirtelen megnő De: törekedjünk 5 körüli értéknél meghatározni a klaszterek számát 2 v. 3 klaszter
c) Könyökkritérium Ábraszerkesztés Line
12. lépés után n - stage töréspont 3 klaszter (n-1) elem
Analyze / Classify / Hierarchical Cluster / Save Konkrét klaszterszám
Graphs / Scatter/Dot
6. Klaszterek értelmezése, jellemzése Klasztercentroidok és szórások Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek vegyes kapcsolat Analyze / Compare Means / Means
Demográfiai vizsgálat (nem, lakhely) Minőségi-minőségi ismérv asszociáció Analyze / Descriptive Statistics / Crosstabs
Mennyiségi (kereset) +minőségi (cluster) ismérvek vegyes kapcsolat (ANOVA) Analyze / Compare Means / Means
6. Klaszterek jellemzése, elnevezése Klasztereljárásba bevont változók Csak a jellemzésbe bevont változók Elnevezés 1. klaszter 2. klaszter 3. klaszter Sokat főz Nem Igen Nem Házias Nem Igen Igen Nem Túlnyomórészt férfiak Túlnyomórészt nők Nők Lakhely? Nagy város Megyeszékhely Kereset Alacsony (3000 ) Nemtörődömök Alacsony (2200 ) Házi tündérek Magas (7667 ) Rohanó üzletasszonyok
Graphs / Pie
7. Klaszterelemzés érvényességének ellenőrzése Más távolságmérték Más klasztereljárások Változók elhagyása A minta 2 részre bontása Az esetek sorrendjének megváltoztatása Nem hierarchikus klaszterelemzés Folyt. köv. órán
Köszönöm a figyelmet!