Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Klaszteranalízis Hasonló dolgok csoportosítását jelenti, gyakorlatilag az osztályozás szinonimájaként értelmezhetjük.

A klaszteranalízis célja A klaszteranalízis alapvető célja, hogy a megfigyelési egységeket viszonylag homogén csoportokba rendezze, az elemzésbe bevont változók alapján. A folyamat akkor sikeres, ha az egységek hasonlítanak csoporttársaikhoz, azonban eltérnek a más csoportba tartozó elemektől.

Alkalmazási területei Piacszegmentálás Szerkezet-elemzés Homogén tesztcsoportok létrehozása Adatcsökkentés

A klaszterelemzés korlátai Nem vonhatók le következtetések a mintából az alapsokaságra, vagyis elsősorban feltáró technikaként használható. Nincs egyetlen legjobb megoldás. Minden esetben létrehoz klaszterek, függetlenül attól, hogy azok ténylegesen léteznek-e az adatokban, vagy sem. A megoldások teljes mértékben a változóktól függnek. A kialakult csoportok nem függetlenek az egyedek adatbázisbeli sorrendjétől.

A klaszterelemzés menete 1. kutatási probléma áttekintése Mi a hipotézisünk. Mekkora legyen a vizsgálandó elemek nagysága. Milyen releváns változók alapján csoportosíthatunk. A klaszterelemzésnél alapvető feladat azoknak a változóknak a megtalálása, amelyek a csoportok közötti különbséget okozzák. Ez történhet korábbi kutatások, elméleti megfontolások, intuíció alapján

A klaszterelemzés menete 2. A feltételek vizsgálata Kiugró értékek (outliers) feltárása és kezelése. A változók skálázásának vizsgálata. Szükség van-e skálatranszformációra, standardizálásra? A változók korrelációjának elemzése. A minta reprezentativitásának ellenőrzése.

A klaszterelemzés menete 3. Hasonlósági- és távolságmértékek Milyen hasonlósági- vagy távolságmértéket válasszunk? Bináris változó esetében mindkét típus fajtáiból választhatunk. Metrikus változó esetében: távolságmértékek (ha a távolság a lényeges); hasonlóságmértékek (ha a profilok hasonlósága a lényeges).

A klaszterelemzés menete 4. Klasztermódszer kiválasztása Hierarchikus eljárás. Nem hierarchikus eljárás. A kettő kombinációja.

A klaszterelemzés menete 5. A klaszterek száma Milyen szempontok alapján történik az elemzés? Hány csoportot képezzünk? A csoportok számának változtatása hogyan hat az eredményekre?

A klaszterelemzés menete 6. A klaszterek értelmezése, jellemzése Miben különböznek egymástól a klaszterek? Értelmesen interpretálhatók-e az eredmények? Szükség van-e új változók bevonására? Hogyan nevezzük el a klasztereket?

A klaszterelemzés menete 7. Az elemzés érvényességének elemzése Különböző eljárásokat, vagy távolságmértékeket alkalmazunk és összehasonlítjuk az eredményeket. Az adatokat véletlenszerűen két részre osztjuk. A két almintán külön-külön elvégzett elemzések eredményeit összehasonlítjuk. Az elemzés többszöri lefuttatása az adatok sorrendjének megváltoztatásával.

2. A feltételek vizsgálata Kiugró értékek (outliers) feltárása és kezelése. A klaszteranalízis rendkívül érzékeny az olyan egyedekre, melyek jelentősen különböznek a többitől. Ezek az elemek vagy ténylegesen abnormális megfigyelések, melyek nem jellemzők az alapsokaságra, vagy a mintában szereplő egyedek alulreprezentálják az alapsokaságban lévő csoport nagyságát. Az első esetben tehát érdemes azokat kitörölni az adatbázisból.

2. A feltételek vizsgálata Kiugró értékek (outliers) feltárása és kezelése. Feltárásuk történhet egyszerű grafikus ábrázolással: pontdiagram, boxplot ábra egyszerű láncmódszer segítségével (lásd később)

2. A feltételek vizsgálata A változók skálázásának vizsgálata. Ha a klaszteranalízis során különböző szintű metrikus skálákat használunk, teljesen torz összevonási sémát kaphatunk eredményül. Pl: életkor, jövedelem, megelégedettség változócsoport esetében. A különbözős skálák azonos szintre hozásához a standardizálást használjuk, mely során az átlagot kivonjuk az egyes értékekből és a különbséget elosztjuk a szórással.

2. A feltételek vizsgálata A változók skálázásának vizsgálata. A standardizált skála átlaga 0. a szórása pedig 1 lesz, lehetővé téve ezáltal a különböző szintű skálán mért változók összehasonlítását.

2. A feltételek vizsgálata A változók korrelációjának elemzése. A klaszterelemzés minden változót azonos súllyal kezel. Ha tehát két változó, vagy egy változócsoport tagjai egymással szoros korrelációs kapcsolatban vannak, akkor nagyobb szerepet kaphatnak az eredményekben. Ilyen esetben célszerű a változók valamilyen módon történő redukálása.

3. Hasonlósági- és távolságmértékek Bináris változók esetén Távolságmértékek: euklidészi távolság négyzetes euklidészi távolság variancia Hasonlóságmértékek: Russel and Rao Egyszerű illesztés Jaccard Yule.

3. Hasonlósági- és távolságmértékek Metrikus változók esetén Távolságmértékek: euklidészi távolság négyzetes euklidészi távolság City block Csebisev Hasonlóságmértékek: Pearson korreláció.

4. Klasztermódszerek

4. Klasztermódszerek Hierarchikus összevonó eljárások Egyszerű láncmódszer (Single linkage): Azokat a megfigyelési egységeket vonja össze első lépésben, amelyek között legkisebb a távolság (legjobban hasonlítanak egymáshoz). Két klaszter közötti távolságot mindig a két legközelebbi pont távolsága határozza meg. Teljes láncmódszer (Complete linkage): két klaszter közötti távolságot a két legtávolabbi pont határozza meg. Átlagos láncmódszer: két klaszter távolságát az összes megfigyelési egység páronkénti távolságának átlaga definiálja. (általában előnyösebb mint az előzőek)

4. Klasztermódszerek Hierarchikus összevonó eljárások Ward-féle eljárás: Minden klaszterre kiszámolják az összes változó átlagát, majd minden megfigyelési egységre meghatározzák a négyzetes euklidészi távolságot. Minden lépésnél azt a két klasztert vonják össze, amelyeknél a klaszteren belüli szórásnégyzet növekedése a legkisebb. Centroidmódszer: Két klaszter közötti távolság a centroidjuk (összes változó átlaga) közötti távolság. A centroidokat minden lépés után újra számolják.

4. Klasztermódszerek Nem hierarchikus eljárások Nagyobb esetszámnál (kb. 2000) a hierarchikus klaszterezés már körülményesebb, ezért célszerű a K-közép módszert választani. A két módszer közötti alapvető különbség: Előre meg kell határozni a létrehozandó klaszterek számát. Induláskor ismertnek tételezzük fel a klaszterközepeket, melyeket mi is megadhatunk, de érdemes a programra bízni ezek kijelölését.

Outputok

Dendogram

Eredmények ábrázolása 2,00000 HAJDU ZF F BC Ward Method 1 2 3 4 1,00000 TVK Műszaki kutatási 0,00000 EFOAM KIP MVK P MIHŐ S RAK SEMM BAZ -1,00000 MIK MÁV TMF -1,00000 0,00000 1,00000 2,00000 ImKKK

Eredmények ábrázolása 1,00000 HAJDU TVK RAK BC Ward Method 1 2 3 AVE MIK MÁV KIP TMF 13 képessg 0,00000 MVK MIHŐ ZF BAZ -1,00000 EFOAM F SEMM P S -2,00000-2,00000-1,00000 0,00000 1,00000 2,00000 13 helyzet

Ajánlott irodalom: Naresh K. Malhotra: Marketingkutatás Budapest, 2005. Székelyi Mária-Barna Ildikó: Túlélőkészlet az SPSS-hez, Budapest, 2005. Elérhetőség: strolsz@uni-miskolc.hu

Köszönöm a figyelmet!