Klaszterelemzés az SPSS-ben

Hasonló dokumentumok
Klaszterelemzés az SPSS-ben

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Faktoranalízis az SPSS-ben

A statisztika alapjai - Bevezetés az SPSS-be -

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Faktoranalízis az SPSS-ben

Sztochasztikus kapcsolatok

Diszkriminancia-analízis

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Cluster analysis in SPSS

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Korreláció számítás az SPSSben

Többváltozós lineáris regressziós modell feltételeinek

A statisztika alapjai - Bevezetés az SPSS-be -

Bevezetés a Korreláció &

Klaszterezés, 2. rész

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek

Regresszió számítás az SPSSben

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Bevezetés az SPSS program használatába

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Esettanulmány Kvantitatív elemzési módszerek (GTÜSE3915) tantárgyhoz

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Izgalmas újdonságok a klaszteranalízisben

Kvantitatív kutatás mire figyeljünk? Majláth Melinda PhD Tartalom. Kutatási kérdés kérdőív kérdés. Kutatási kérdés kérdőív kérdés

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Orvosi szociológia (1. szeminárium) KUTATÁSMÓDSZERTAN

6. Előadás. Vereb György, DE OEC BSI, október 12.

TÁMOP-4.2.2/B-10/ Tantárgyi program (rövidített)

KLASZTERANALÍZIS OSZTÁLYOZÁS

Területi statisztikai elemzések

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Csoport(Cluster) analízis SPSS-el: K-alapú csoport Analízis

S atisztika 2. előadás

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

y ij = µ + α i + e ij

Közösség detektálás gráfokban

A leíró statisztikák

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Mintavételi eljárások

A preferencia térképezés kritikus pontjai az élelmiszeripari termékfejlesztésben

Centura Szövegértés Teszt

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

KUTATÁSMÓDSZERTAN 4. ELŐADÁS. A minta és mintavétel

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Kvantitatív statisztikai módszerek

KÖVETKEZTETŐ STATISZTIKA

Közösségi kezdeményezéseket megalapozó szükségletfeltárás módszertana. Domokos Tamás, módszertani igazgató

Logisztikus regresszió

Függetlenségvizsgálat, Illeszkedésvizsgálat

Regressziós vizsgálatok

Segítség az outputok értelmezéséhez

Mérési adatok illesztése, korreláció, regresszió

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

A klaszterelemzés alkalmazási lehetôségei a marketingkutatásban

Adatmanipuláció, transzformáció, szelekció SPSS-ben

Esetelemzések az SPSS használatával

Elemi statisztika fizikusoknak

Korrelációs kapcsolatok elemzése

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

[Biomatematika 2] Orvosi biometria

Vargha András Károli Gáspár Református Egyetem Budapest

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

A valószínűségszámítás elemei

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Adattípusok, ábrák és grafikonok az excelben

Logisztikus regresszió

Dr. Piskóti István Marketing Intézet. Marketing 2.

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Matematikai statisztika c. tárgy oktatásának célja és tematikája

STATISZTIKA I. Mintavétel fogalmai. Mintavételi hiba. Statisztikai adatgyűjtés Nem véletlenen alapuló kiválasztás

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Alkalmazott statisztika Feladatok

Korreláció és lineáris regresszió

Az empirikus vizsgálatok alapfogalmai

Jóllét az ökológiai határokon belül

A lakossági jelzáloghitelek fogyasztói megítélése

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Fogyasztói szokások az étrendkiegészítők. élelmiszer-biztonság szempontjából

Témaválasztás, kutatási kérdések, kutatásmódszertan

Zempléni gyümölcsalapú kézműves élelmiszerek fogyasztói magtartásának vizsgálata a nők körében

Minden jog fenntartva. Az SPSS az International Business Machines Corporation (IBM) védjegye.

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

A jó alkalmazkodás prediktorai serdülők körében

Biomatematika 2 Orvosi biometria

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Typotex Kiadó. Tartalomjegyzék

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

A FÖDRAJZI HELYHEZ KAPCSOLÓDÓ ÉS A HAGYOMÁNYOS MAGYAR TERMÉKEK LEHETSÉGES SZEREPE AZ ÉLELMISZERFOGYASZTÓI MAGATARTÁSBAN

Biomatematika 2 Orvosi biometria

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Önnek hány gyermeke van? Bevallott és elfelejtett gyermekek egyazon adatfelvételen belül 3-12 év távlatában

Átírás:

Klaszterelemzés az SPSS-ben Kvantitatív statisztikai módszerek Petrovics Petra

Klaszteranalízis Olyan dimenziócsökkentő eljárás, amellyel adattömböket megfigyelési egységeket tudunk viszonylag homogén csoportokba sorolni, klasszifikálni. Cél: megmutatni, hogy léteznek olyan csoportok, amelyek jobban hasonlítanak egymáshoz, mint más csoportok tagjai.

Gyakorlati alkalmazási területei Piacszegmentálás 1. Releváns piac meghatározása 2. Szegmentáció alapjául szolgáló ismérvek meghatározása 3. Szegmentálás (Faktor-, klaszteranalízis) 4. 1 csoportba került fogyasztók jellemzése Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség) Új termék lehetőségeinek feltárása Tesztpiacok kiválasztása Adatcsökkentés

1. 2. 3. 4. 5. 6. 7. A probléma megfogalmazása (Kutatási probléma, hipotézis, vizsgálandó elemek nagysága, stb.) Feltételek vizsgálata Pl: kiugró értékek, reprezentatív minta, skálázás Hasonlósági és távolságmérték meghatározása (Ahol kisebb a távolság, azok a megfigyelési értékek hasonlóbbak) Klasztermódszer kiválasztása Hierarchikus vs. nem hierarchikus Klaszterek száma Hány csoport? Mi alapján? Klaszterek értelmezése, jellemzése Elnevezés, értékelés Klaszteranalízis folyamata Klaszterelemzés érvényességének ellenőrzése

Feladat TK/286. oldal (Sajtos-Mitev) Levesport gyártó vállalat fogyasztóit kérdezték meg Név: String Főzős: 1-7-ig terjedő skálán mennyit főz Házias: 1-7-ig terjedő skálán mennyire házias Nem: 1: férfi, 2: nő Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb

Név Főzős Házias Nem Lakhely Kereset 1 Béla 1 3 1 3 3000 2 Jenő 2 3 1 1 1500 3 Bea 5 5 2 2 2000 4 Marci 2 4 1 3 1000 5 Ubul 4 4 1 1 7000 6 Zsuzsa 2 7 2 1 8000 7 Rita 2 6 2 2 7000 8 Zoli 3 4 1 3 1500 9 Dávid 2 2 1 1 5000 10 Robi 6 5 1 3 1000 11 Kriszti 3 3 2 3 2000 12 Zsófi 6 6 2 2 4000 13 Géza 7 1 1 2 8000 14 Éva 6 7 2 1 1000 15 Dóra 5 7 2 1 3000 16 Vera 1 6 2 2 6000 Nem: 1-férfi, 2-nő Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb

SPSS

1. A probléma megfogalmazása A klaszterelemzés célja: A levesporfogyasztókat bizonyos ismérvek alapján csoportokba rendezni. Vizsgálandó elemek kiválasztása: Sokaság nagysága: Pl. Magyarország levespor-fogyasztói Mintanagyság meghatározása Mintavétel módjának meghatározása Most itt: n=16 fő (nem reprezentatív)

2. Feltételek vizsgálata Reprezentatív-e a minta? Itt NEM sokaságra vonatkozóan Kiugró adatok (outliers) nem vonhatunk le következtetéseket a Olyan abnormális megfigyelések, amelyek nem jellemzők a sokaságra; Alulprezentálják az alapsokaságban levő csoport nagyságát. Analyze / Classify / Hierarchical Cluster / Method: Nearest neighbour

Skálák Hasonló skálázási adatok az összehasonlíthatók Célszerű: azonos mértékegység (ok: nagyobb szórás nagyobb hatást mutat) Pl. ha a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk; A jövedelmet hasonlítanánk össze a főzéssel, stb. Ha eltér: standardizálni! Ha: - a válaszok egymáshoz képesti relatív fontossága a lényeges, - hasonló profilokat keresünk, - nem érdekel a válaszadó stílusa hatás. z i xi s x x Átlaga 0, szórása 1 Összehasonlíthat ó adatok

Standardizálás Analyze / Classify / Hierarchical Cluster / Method

Erősen korrelálnak az elemzésbe bevont változók egymással? Multikollinearitás Analyze / Regression/ Linear

3. Hasonlósági és távolságmérték meghatározása Bináris változók esetén Metrikus változók esetén Távolságmérték Hasonlóságmérték Távolságmérték Hasonlóságmérték Euklidészi távolság Russel and Rao Euklidészi távolság Pearson korreláció Négyzetes euklidészi távolság Egyszerű illesztés Variancia Jaccard City block Yule Négyzetes euklidészi távolság Csebisev Analyze / Classify / Hierarchical Cluster / Method

4. Klasztermódszer kiválasztása Hierarchikus Nem hierarchikus Agglomeratív (Összevonó) Divízív (Felosztó) Forgy: kezdőpont magpont A legközelebbi 2 elem távolsága Lánc módszer Egyszerű Teljes Variancia módszer Ward-féle eljárás A legtávolabbi 2 elem távolsága Centroid módszer Pl: Belson: kettéosztás A centroidok (kp.) közötti távolság A klasztereken belüli szórásnégyzet növekedése a legkisebb Átlagos Az elemek közötti távolság átlaga Forrás: Malhotra [2001]

Hierarchikus módszer nem tudjuk előre, hány klasztert szeretnénk létrehozni Érzékeny a kiugró értékekre Gazdaságtudományi Kar Előnyös a használata, ha: Nem hierarchikus módszer a mintavételi egységek száma magas kevésbé függ kiugró értékektől kevésbé függ távolságmértékektől kevésbé függ attól, hogy került-e az elemzésbe irreleváns változó Hátránya Kombinált használat: 1. Hierarchikus: klaszterek ideális száma 2. Kiugró elemek kiszűrése 3. Nem hierarchikus csoportosítás A klaszterek számát előre kell meghatározni Klaszterközéppont kiválasztása Függ a megfigyelések sorrendjétől

Analyze / Classify / Hierarchical Cluster Az összevonás lépései A szerintünk releváns változók Megfigyelési egységeket / változókat szeretnénk összevonni Ha az egyes Távolságmátrix egységeket el szeretnénk nevezni Jégcsapdiagram meghatározott klasztertartományra

Outlierek kiszűrése miatt! Távolságmérték

Output Rita Vera Az új közös klaszter melyik lépésben jelenik meg legközelebb (az alacsonyabb szám a nyilvántartási szám) Az összevonás lépései Milyen távolságok alapján vonták össze a klasztert Túl nagy ugrás Az összevonásra került klaszter melyik lépésben jelenik meg először

Alulról kezdjük értelmezni: Hol a legnagyobb a nevek közötti vonal? Vera és Rita 1. klaszterképzés 3 Vertical Icecle Jégcsap diagram Nagy elemszám esetében nehezen kezelhető. Géza ~ kiugró érték

Dendogram Legkisebb távolság alapján von össze Kiugró értékek kezelése Géza ~ kiugró érték Abnormális? Ki kell zárni?

Kiugró elemek törlése Data / Select Cases / If condition is satisfied Ez marad benn.

Analyze / Classify / Hierarchical Cluster / Method: Ward Metrikus változók Nincs kiugró érték Nincs korreláció a változók között

5. Klaszterek számának meghatározása a, Kutatói tapasztalat b, Távolságok c, Könyökkritérium d, Klaszterek relatív mértéke

b) Távolság ( Dendogram) Ahol a koefficiens értéke hirtelen megnő De: törekedjünk 5 körüli értéknél meghatározni a klaszterek számát 2 v. 3 klaszter

c) Könyökkritérium Ábraszerkesztés Line

12. lépés után n stage (töréspont) 3 klaszter (n-1) elem

Analyze / Classify / Hierarchical Cluster / Save Konkrét klaszterszám Gazdaságtudományi Kar

Graphs / Scatter/Dot

6. Klaszterek értelmezése, jellemzése Klasztercentroidok és szórások Mennyiségi (főzés, háziasság, fizetés) +minőségi (cluster) ismérvek vegyes kapcsolat Analyze / Compare Means / Means

Demográfiai vizsgálat (nem, lakhely) Minőségi-minőségi ismérv asszociáció Analyze / Descriptive Statistics / Crosstabs

1. klaszter 2. klaszter 3. klaszter Klasztereljárásba bevont változók Csak a jellemzésbe bevont változók Elnevezés Sokat főz Nem Igen Nem Házias Nem Igen Igen Nem Túlnyomórészt férfiak Túlnyomórészt nők Nők Lakhely? Nagy város Megyeszékhely Kereset Alacsony (3000 ) Nemtörődömök Alacsony (2200 ) Házi tündérek Magas (7667 ) Rohanó üzletasszonyok

Graphs / Pie Gazdaságtudományi Kar

7. Klaszterelemzés érvényességének ellenőrzése Más távolságmérték Más klasztereljárások Változók elhagyása A minta 2 részre bontása Az esetek sorrendjének megváltoztatása Nem hierarchikus klaszterelemzés

Köszönöm a figyelmet! stgpren@uni-miskolc.hu