Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Hasonló dokumentumok
Klaszterelemzés az SPSS-ben

Klaszterelemzés az SPSS-ben

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Faktoranalízis az SPSS-ben

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Faktoranalízis az SPSS-ben

y ij = µ + α i + e ij

Izgalmas újdonságok a klaszteranalízisben

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Diszkriminancia-analízis

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

[Biomatematika 2] Orvosi biometria

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Typotex Kiadó. Tartalomjegyzék

Korrelációs kapcsolatok elemzése

Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok

Elemi statisztika fizikusoknak

Hipotézis vizsgálatok

TÁMOP-4.2.2/B-10/ Tantárgyi program (rövidített)

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Segítség az outputok értelmezéséhez

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

A valószínűségszámítás elemei

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Van-e kapcsolat a változók között? (példák: fizetés-távolság; felvételi pontszám - görgetett átlag)

Közösség detektálás gráfokban

KÖVETKEZTETŐ STATISZTIKA

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

GEOSTATISZTIKA II. Geográfus MSc szak. 2019/2020 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Klaszterezés, 2. rész

Témaválasztás, kutatási kérdések, kutatásmódszertan

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Bevezetés az SPSS program használatába

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

KUTATÁSMÓDSZERTAN 4. ELŐADÁS. A minta és mintavétel

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

A leíró statisztikák

Mérési adatok illesztése, korreláció, regresszió

A LEGKÖZELEBBI SZOMSZÉD ANALÍZISHEZ SZÜKSÉGES TERÜLETI ADATBÁZISOK KIALAKÍTÁSÁNAK MÓDSZERTANI KÉRDÉSEI

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

PIACKUTATÁS (MARKETINGKUTATÁS)

Biomatematika 2 Orvosi biometria

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Többváltozós Regresszió-számítás

Orvosi szociológia (1. szeminárium) KUTATÁSMÓDSZERTAN

Adatbányászat. Klaszterezés Szociális hálózatok. Szegei Tudományegyetem. Lehetetlenségi tétel Hierarchikus eljárások Particionáló módszerek

Kvantitatív elemzési módszerek

Korreláció és lineáris regresszió

A sokaság/minta eloszlásának jellemzése

A statisztika alapjai - Bevezetés az SPSS-be -

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

[Biomatematika 2] Orvosi biometria

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Kvantitatív kutatás mire figyeljünk? Majláth Melinda PhD Tartalom. Kutatási kérdés kérdőív kérdés. Kutatási kérdés kérdőív kérdés

Kérdőíves vizsgálatok

Populációbecslések és monitoring

Csoport(Cluster) analízis SPSS-el: K-alapú csoport Analízis

A preferencia térképezés kritikus pontjai az élelmiszeripari termékfejlesztésben

Adatok statisztikai értékelésének főbb lehetőségei

Kettőnél több csoport vizsgálata. Makara B. Gábor

Esettanulmány Kvantitatív elemzési módszerek (GTÜSE3915) tantárgyhoz

Kutatásmódszertan és prezentációkészítés

Klaszterezés. Kovács Máté március 22. BME. Kovács Máté (BME) Klaszterezés március / 37

Korrel aci os egy utthat ok febru ar 29.

A TANTÁRGY ADATLAPJA

ANOVA összefoglaló. Min múlik?

Regresszió számítás. Tartalomjegyzék: GeoEasy V2.05+ Geodéziai Kommunikációs Program

S atisztika 2. előadás

FİBB PONTOK PIACKUTATÁS (MARKETINGKUTATÁS) Kutatási terv október 20.

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

A jó alkalmazkodás prediktorai serdülők körében

Programozás alapjai 9. előadás. Wagner György Általános Informatikai Tanszék

A TANÁCSADÁSI MODELLEK GYAKORLATI ALKALMAZÁSÁNAK FŐBB SAJÁTOSSÁGAI

7. Régió alapú szegmentálás

A klaszterelemzés alkalmazási lehetôségei a marketingkutatásban

Mérés és skálaképzés. Kovács István. BME Menedzsment és Vállalatgazdaságtan Tanszék

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

Többváltozós lineáris regressziós modell feltételeinek

Jelek és rendszerek 1. 10/9/2011 Dr. Buchman Attila Informatikai Rendszerek és Hálózatok Tanszék

(Independence, dependence, random variables)

Matematikai geodéziai számítások 6.

Mérési hibák

Átírás:

Klaszteranalízis Hasonló dolgok csoportosítását jelenti, gyakorlatilag az osztályozás szinonimájaként értelmezhetjük.

A klaszteranalízis célja A klaszteranalízis alapvető célja, hogy a megfigyelési egységeket viszonylag homogén csoportokba rendezze, az elemzésbe bevont változók alapján. A folyamat akkor sikeres, ha az egységek hasonlítanak csoporttársaikhoz, azonban eltérnek a más csoportba tartozó elemektől.

Alkalmazási területei Piacszegmentálás Szerkezet-elemzés Homogén tesztcsoportok létrehozása Adatcsökkentés

A klaszterelemzés korlátai Nem vonhatók le következtetések a mintából az alapsokaságra, vagyis elsősorban feltáró technikaként használható. Nincs egyetlen legjobb megoldás. Minden esetben létrehoz klaszterek, függetlenül attól, hogy azok ténylegesen léteznek-e az adatokban, vagy sem. A megoldások teljes mértékben a változóktól függnek. A kialakult csoportok nem függetlenek az egyedek adatbázisbeli sorrendjétől.

A klaszterelemzés menete 1. kutatási probléma áttekintése Mi a hipotézisünk. Mekkora legyen a vizsgálandó elemek nagysága. Milyen releváns változók alapján csoportosíthatunk. A klaszterelemzésnél alapvető feladat azoknak a változóknak a megtalálása, amelyek a csoportok közötti különbséget okozzák. Ez történhet korábbi kutatások, elméleti megfontolások, intuíció alapján

A klaszterelemzés menete 2. A feltételek vizsgálata Kiugró értékek (outliers) feltárása és kezelése. A változók skálázásának vizsgálata. Szükség van-e skálatranszformációra, standardizálásra? A változók korrelációjának elemzése. A minta reprezentativitásának ellenőrzése.

A klaszterelemzés menete 3. Hasonlósági- és távolságmértékek Milyen hasonlósági- vagy távolságmértéket válasszunk? Bináris változó esetében mindkét típus fajtáiból választhatunk. Metrikus változó esetében: távolságmértékek (ha a távolság a lényeges); hasonlóságmértékek (ha a profilok hasonlósága a lényeges).

A klaszterelemzés menete 4. Klasztermódszer kiválasztása Hierarchikus eljárás. Nem hierarchikus eljárás. A kettő kombinációja.

A klaszterelemzés menete 5. A klaszterek száma Milyen szempontok alapján történik az elemzés? Hány csoportot képezzünk? A csoportok számának változtatása hogyan hat az eredményekre?

A klaszterelemzés menete 6. A klaszterek értelmezése, jellemzése Miben különböznek egymástól a klaszterek? Értelmesen interpretálhatók-e az eredmények? Szükség van-e új változók bevonására? Hogyan nevezzük el a klasztereket?

A klaszterelemzés menete 7. Az elemzés érvényességének elemzése Különböző eljárásokat, vagy távolságmértékeket alkalmazunk és összehasonlítjuk az eredményeket. Az adatokat véletlenszerűen két részre osztjuk. A két almintán külön-külön elvégzett elemzések eredményeit összehasonlítjuk. Az elemzés többszöri lefuttatása az adatok sorrendjének megváltoztatásával.

2. A feltételek vizsgálata Kiugró értékek (outliers) feltárása és kezelése. A klaszteranalízis rendkívül érzékeny az olyan egyedekre, melyek jelentősen különböznek a többitől. Ezek az elemek vagy ténylegesen abnormális megfigyelések, melyek nem jellemzők az alapsokaságra, vagy a mintában szereplő egyedek alulreprezentálják az alapsokaságban lévő csoport nagyságát. Az első esetben tehát érdemes azokat kitörölni az adatbázisból.

2. A feltételek vizsgálata Kiugró értékek (outliers) feltárása és kezelése. Feltárásuk történhet egyszerű grafikus ábrázolással: pontdiagram, boxplot ábra egyszerű láncmódszer segítségével (lásd később)

2. A feltételek vizsgálata A változók skálázásának vizsgálata. Ha a klaszteranalízis során különböző szintű metrikus skálákat használunk, teljesen torz összevonási sémát kaphatunk eredményül. Pl: életkor, jövedelem, megelégedettség változócsoport esetében. A különbözős skálák azonos szintre hozásához a standardizálást használjuk, mely során az átlagot kivonjuk az egyes értékekből és a különbséget elosztjuk a szórással.

2. A feltételek vizsgálata A változók skálázásának vizsgálata. A standardizált skála átlaga 0. a szórása pedig 1 lesz, lehetővé téve ezáltal a különböző szintű skálán mért változók összehasonlítását.

2. A feltételek vizsgálata A változók korrelációjának elemzése. A klaszterelemzés minden változót azonos súllyal kezel. Ha tehát két változó, vagy egy változócsoport tagjai egymással szoros korrelációs kapcsolatban vannak, akkor nagyobb szerepet kaphatnak az eredményekben. Ilyen esetben célszerű a változók valamilyen módon történő redukálása.

3. Hasonlósági- és távolságmértékek Bináris változók esetén Távolságmértékek: euklidészi távolság négyzetes euklidészi távolság variancia Hasonlóságmértékek: Russel and Rao Egyszerű illesztés Jaccard Yule.

3. Hasonlósági- és távolságmértékek Metrikus változók esetén Távolságmértékek: euklidészi távolság négyzetes euklidészi távolság City block Csebisev Hasonlóságmértékek: Pearson korreláció.

4. Klasztermódszerek

4. Klasztermódszerek Hierarchikus összevonó eljárások Egyszerű láncmódszer (Single linkage): Azokat a megfigyelési egységeket vonja össze első lépésben, amelyek között legkisebb a távolság (legjobban hasonlítanak egymáshoz). Két klaszter közötti távolságot mindig a két legközelebbi pont távolsága határozza meg. Teljes láncmódszer (Complete linkage): két klaszter közötti távolságot a két legtávolabbi pont határozza meg. Átlagos láncmódszer: két klaszter távolságát az összes megfigyelési egység páronkénti távolságának átlaga definiálja. (általában előnyösebb mint az előzőek)

4. Klasztermódszerek

4. Klasztermódszerek Hierarchikus összevonó eljárások Ward-féle eljárás: Minden klaszterre kiszámolják az összes változó átlagát, majd minden megfigyelési egységre meghatározzák a négyzetes euklidészi távolságot. Minden lépésnél azt a két klasztert vonják össze, amelyeknél a klaszteren belüli szórásnégyzet növekedése a legkisebb. Centroidmódszer: Két klaszter közötti távolság a centroidjuk (összes változó átlaga) közötti távolság. A centroidokat minden lépés után újra számolják.

4. Klasztermódszerek

4. Klasztermódszerek Nem hierarchikus eljárások Nagyobb esetszámnál (kb. 2000) a hierarchikus klaszterezés már körülményesebb, ezért célszerű a K-közép módszert választani. A két módszer közötti alapvető különbség: Előre meg kell határozni a létrehozandó klaszterek számát. Induláskor ismertnek tételezzük fel a klaszterközepeket, melyeket mi is megadhatunk, de érdemes a programra bízni ezek kijelölését.

Outputok

Outputok

Dendogram

Eredmények ábrázolása 2,00000 HAJDU ZF F BC Ward Method 1 2 3 4 1,00000 TVK Műszaki kutatási 0,00000 EFOAM KIP MVK P MIHŐ S RAK SEMM BAZ -1,00000 MIK MÁV TMF -1,00000 0,00000 1,00000 2,00000 ImKKK

Eredmények ábrázolása 1,00000 HAJDU TVK RAK BC Ward Method 1 2 3 AVE MIK MÁV KIP TMF 13 képessg 0,00000 MVK MIHŐ ZF BAZ -1,00000 EFOAM F SEMM P S -2,00000-2,00000-1,00000 0,00000 1,00000 2,00000 13 helyzet

Ajánlott irodalom: Naresh K. Malhotra: Marketingkutatás Budapest, 2005. Székelyi Mária-Barna Ildikó: Túlélőkészlet az SPSS-hez, Budapest, 2005. Elérhetőség: strolsz@uni-miskolc.hu

Köszönöm a figyelmet!