Klaszterelemzés az SPSS-ben

Hasonló dokumentumok
Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

A statisztika alapjai - Bevezetés az SPSS-be -

Faktoranalízis az SPSS-ben

Faktoranalízis az SPSS-ben

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Sztochasztikus kapcsolatok

Diszkriminancia-analízis

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Cluster analysis in SPSS

Bevezetés a Korreláció &

Többváltozós lineáris regressziós modell feltételeinek

Klaszterezés, 2. rész

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

A statisztika alapjai - Bevezetés az SPSS-be -

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Korreláció számítás az SPSSben

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Esettanulmány Kvantitatív elemzési módszerek (GTÜSE3915) tantárgyhoz

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Kvantitatív kutatás mire figyeljünk? Majláth Melinda PhD Tartalom. Kutatási kérdés kérdőív kérdés. Kutatási kérdés kérdőív kérdés

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Bevezetés az SPSS program használatába

Csoport(Cluster) analízis SPSS-el: K-alapú csoport Analízis

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Közösség detektálás gráfokban

Esetelemzések az SPSS használatával

Területi statisztikai elemzések

A preferencia térképezés kritikus pontjai az élelmiszeripari termékfejlesztésben

Centura Szövegértés Teszt

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

Orvosi szociológia (1. szeminárium) KUTATÁSMÓDSZERTAN

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

6. Előadás. Vereb György, DE OEC BSI, október 12.

Regresszió számítás az SPSSben

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Mérési adatok illesztése, korreláció, regresszió

Mintavételi eljárások

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Alkalmazott statisztika Feladatok

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

KUTATÁSMÓDSZERTAN 4. ELŐADÁS. A minta és mintavétel

y ij = µ + α i + e ij

S atisztika 2. előadás

Segítség az outputok értelmezéséhez

Izgalmas újdonságok a klaszteranalízisben

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

A leíró statisztikák

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

KLASZTERANALÍZIS OSZTÁLYOZÁS

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

KÖVETKEZTETŐ STATISZTIKA

Korreláció és lineáris regresszió

A klaszterelemzés alkalmazási lehetôségei a marketingkutatásban

Regressziós vizsgálatok

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

A jó alkalmazkodás prediktorai serdülők körében

STATISZTIKA I. Mintavétel fogalmai. Mintavételi hiba. Statisztikai adatgyűjtés Nem véletlenen alapuló kiválasztás

Boldogság - itthon vagy külföldön? Kőrössy Judit Kékesi Márk Csabai Márta

TÁMOP-4.2.2/B-10/ Tantárgyi program (rövidített)

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Kvantitatív statisztikai módszerek

Jóllét az ökológiai határokon belül

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

[Biomatematika 2] Orvosi biometria

Elemi statisztika fizikusoknak

Hipotézis vizsgálatok

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Közösségi kezdeményezéseket megalapozó szükségletfeltárás módszertana. Domokos Tamás, módszertani igazgató

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Fogyasztói szokások az étrendkiegészítők. élelmiszer-biztonság szempontjából

Dr. Piskóti István Marketing Intézet. Marketing 2.

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Minden jog fenntartva. Az SPSS az International Business Machines Corporation (IBM) védjegye.

A problémamegoldás lépései

Adattípusok, ábrák és grafikonok az excelben

Témaválasztás, kutatási kérdések, kutatásmódszertan

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Typotex Kiadó. Tartalomjegyzék

A magyar háztartások tagjainak kapcsolathálódinamikája és 2007 között

Alkalmazott statisztika

Függetlenségvizsgálat, Illeszkedésvizsgálat

A valószínűségszámítás elemei

Önnek hány gyermeke van? Bevallott és elfelejtett gyermekek egyazon adatfelvételen belül 3-12 év távlatában

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Mérés és skálaképzés. Kovács István. BME Menedzsment és Vállalatgazdaságtan Tanszék

A sokaság/minta eloszlásának jellemzése

Vargha András Károli Gáspár Református Egyetem Budapest

Mintavétel. Kovács István BME Menedzsment és Vállalatgazdaságtan. Tanszék

Adatbányászati szemelvények MapReduce környezetben

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Változók eloszlása, középértékek, szóródás

MagyarBrands kutatás 2017

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Az empirikus vizsgálatok alapfogalmai

Átírás:

Klaszterelemzés az SPSS-ben Petrovics Petra Doktorandusz

Klaszteranalízis Olyan dimenziócsökkentő eljárás, amellyel adattömböket megfigyelési egységeket tudunk viszonylag homogén csoportokba sorolni, klasszifikálni. Cél: megmutatni, hogy léteznek olyan csoportok, amelyek jobban hasonlítanak egymáshoz, mint más csoportok tagjai.

Gyakorlati alkalmazási területei Piacszegmentálás 1. Releváns piac meghatározása 2. Szegmentáció alapjául szolgáló ismérvek meghatározása 3. Szegmentálás (Faktor-, klaszteranalízis) 4. 1 csoportba került fogyasztók jellemzése Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség) Új termék lehetőségeinek feltárása Tesztpiacok kiválasztása Adatcsökkentés

Klaszteranalízis folyamata

Feladat TK/286. oldal (Sajtos-Mitev) Levesport gyártó vállalat fogyasztóit kérdezték meg Név: String Főzős: 1-7-ig terjedő skálán mennyit főz Házias: 1-7-ig terjedő skálán mennyire házias Nem: 1: férfi, 2: nő Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb

Név Főzős Házias Nem Lakhely Kereset 1 Béla 1 3 1 3 3000 2 Jenő 2 3 1 1 1500 3 Bea 5 5 2 2 2000 4 Marci 2 4 1 3 1000 5 Ubul 4 4 1 1 7000 6 Zsuzsa 2 7 2 1 8000 7 Rita 2 6 2 2 7000 8 Zoli 3 4 1 3 1500 9 Dávid 2 2 1 1 5000 10 Robi 6 5 1 3 1000 11 Kriszti 3 3 2 3 2000 12 Zsófi 6 6 2 2 4000 13 Géza 7 1 1 2 8000 14 Éva 6 7 2 1 1000 15 Dóra 5 7 2 1 3000 16 Vera 1 6 2 2 6000 Nem: 1-férfi, 2-nő Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb

SPSS

1. A probléma megfogalmazása A klaszterelemzés célja: A levesporfogyasztókat bizonyos ismérvek alapján csoportokba rendezni. Vizsgálandó elemek kiválasztása: Sokaság nagysága: Pl. Magyarország levespor-fogyasztói Mintanagyság meghatározása Mintavétel módjának meghatározása Most itt: n=16 fő (nem reprezentatív)

2. A klaszteranalízis feltételeinek vizsgálata I. Reprezentatív-e a minta? Itt NEM nem vonhatunk le következtetéseket a sokaságra vonatkozóan Kiugró adatok (outliers) Olyan abnormális megfigyelések, amelyek nem jellemzők a sokaságra; Alulprezentálják az alapsokaságban levő csoport nagyságát. Analyze / Classify / Hierarchical Cluster / Method: Nearest neighbour

2. A klaszteranalízis feltételeinek vizsgálata II. Skálák Hasonló skálázási adatok az összehasonlíthatók Célszerű: azonos mértékegység (ok: nagyobb szórás nagyobb hatást mutat) Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk; A jövedelmet hasonlítanánk össze a főzéssel, stb. Ha eltér: standardizálni! Ha: - a válaszok egymáshoz képesti relatív fontossága a lényeges, - hasonló profilokat keresünk, - nem érdekel a válaszadó stílusa hatás. z i = x i s x x Átlaga 0, szórása 1 Összehasonlítható adatok

Analyze / Classify / Hierarchical Cluster / Method

2. A klaszteranalízis feltételeinek vizsgálata III. Erősen korrelálnak az elemzésbe bevont változók egymással? Multikollinearitás Analyze / Regression/ Linear

3. Hasonlósági és távolságmérték meghatározása Bináris változók esetén Metrikus változók esetén Távolságmérték Hasonlóságmérték Távolságmérték Hasonlóságmérték Euklidészi távolság Russel and Rao Euklidészi távolság Pearson korreláció Négyzetes Egyszerű illesztés Négyzetes euklidészi távolság euklidészi távolság Variancia Jaccard City block Yule Csebisev Analyze / Classify / Hierarchical Cluster / Method

4. Klasztermódszer kiválasztása Hierarchikus Nem hierarchikus Agglomeratív Lánc módszer (Összevonó) Divízív (Felosztó) Forgy: kezdőpont magpont

Hierarchikus módszer nem tudjuk előre, hány klasztert szeretnénk létrehozni Érzékeny a kiugró értékekre Előnyös a használata, ha: Nem hierarchikus módszer a mintavételi egységek száma magas kevésbé függ kiugró értékektől kevésbé függ távolságmértékektől kevésbé függ attól, hogy került-e az elemzésbe irreleváns változó Hátránya A klaszterek számát előre kell meghatározni Klaszterközéppont kiválasztása Kombinált használat: 1. Hierarchikus: klaszterek ideális száma 2. Kiugró elemek kiszűrése 3. Nem hierarchikus csoportosítás Függ a megfigyelések sorrendjétől

Analyze / Classify / Hierarchical Cluster Az összevonás lépései A szerintünk releváns változók Megfigyelési egységeket / változókat szeretnénk összevonni Ha az egyes Távolságmátrix egységeket el szeretnénk nevezni Jégcsapdiagram meghatározott klasztertartományra Ne használd, lefagy a gép!

Outlierek kiszűrése miatt! Távolságmérték

Output Rita Vera Az új közös klaszter melyik lépésben jelenik meg legközelebb (az alacsonyabb szám a nyilvántartási szám) Az összevonás lépései Milyen távolságok alapján vonták össze a klasztert Túl nagy ugrás Az összevonásra került klaszter melyik lépésben jelenik meg először

Vertical Icecle Jégcsap diagram Nagy elemszám esetében nehezen kezelhető. 3 Alulról kezdjük értelmezni: Hol a legnagyobb a nevek közötti vonal? Vera és Rita 1. klaszterképzés Géza ~ kiugró érték

Dendogram Legkisebb távolság alapján von össze Kiugró értékek kezelése Géza ~ kiugró érték Abnormális? Ki kell zárni?

Kiugró elemek törlése Data / Select Cases / If condition is satisfied Ez marad benn.

Analyze / Classify / Hierarchical Cluster / Method: Ward Metrikus változók Nincs kiugró érték Nincs korreláció a változók között

5. Klaszterek számának meghatározása a. Kutatói tapasztalat b. Távolságok c. Könyökkritérium d. Klaszterek relatív mértéke

b) Távolság ( Dendogram) Ahol a koefficiens értéke hirtelen megnő De: törekedjünk 5 körüli értéknél meghatározni a klaszterek számát 2 v. 3 klaszter

c) Könyökkritérium Ábraszerkesztés Line

12. lépés után n - stage töréspont 3 klaszter (n-1) elem

Analyze / Classify / Hierarchical Cluster / Save Konkrét klaszterszám

Graphs / Scatter/Dot

6. Klaszterek értelmezése, jellemzése Klasztercentroidok és szórások Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek vegyes kapcsolat Analyze / Compare Means / Means

Demográfiai vizsgálat (nem, lakhely) Minőségi-minőségi ismérv asszociáció Analyze / Descriptive Statistics / Crosstabs

Mennyiségi (kereset) +minőségi (cluster) ismérvek vegyes kapcsolat (ANOVA) Analyze / Compare Means / Means

6. Klaszterek jellemzése, elnevezése Klasztereljárásba bevont változók Csak a jellemzésbe bevont változók Elnevezés 1. klaszter 2. klaszter 3. klaszter Sokat főz Nem Igen Nem Házias Nem Igen Igen Nem Túlnyomórészt férfiak Túlnyomórészt nők Nők Lakhely? Nagy város Megyeszékhely Kereset Alacsony (3000 ) Nemtörődömök Alacsony (2200 ) Házi tündérek Magas (7667 ) Rohanó üzletasszonyok

Graphs / Pie

7. Klaszterelemzés érvényességének ellenőrzése Más távolságmérték Más klasztereljárások Változók elhagyása A minta 2 részre bontása Az esetek sorrendjének megváltoztatása Nem hierarchikus klaszterelemzés Folyt. köv. órán

Köszönöm a figyelmet!