Csoport(Cluster) analízis SPSS-el: K-alapú csoport Analízis

Csoport(Cluster) analízis SPSS-el: K-alapú csoport Analízis A Cluster(csoport) analízis egy adat osztályozási eljárás amivel adatokat csoportokba lehet elkülöníteni. A cluster analízis célja hogy n számú elemet kategorizáljon k számú csoportba (k>1),mely csoportokat Clustereknek nevezzük, p (p>0) változók használatával. Ahogyan a többi statisztikai típusnak is, a cluster analízisnek is számos változata van, mindegyik egy-egy külön műveletsor. Két fő alosztálya van a cluster eljárásnak. Az egyik féle eljárásban a csoportok előre meghatározottak. Ez a K alapú csoportosítási eljárás néven ismert. Amikor a csoportok száma nem előre meghatározott, olyankor a Hierarchical Cluster(Rangsor szerinti csoportosítás) analízist alkalmazzuk. A csoportosítási eljárások nagy választéka a sokféle szerkesztési folyamat eredménye, melyeket két külön tárgy között hajtunk végre. A leggyakrabban használt szerkesztési eljárások : Euklidészi szerkesztés, Manhattan szerkesztés, Chebysev szerkesztés, stb. Ezeknél különböző szabályokat alkalmazunk a csoportok létrehozására. Néhányuk engedi a tagokat eltérő csoportokat megosztani, míg a többiek csak zártkörű tagságot engednek. K-alapú csoport analízis Az SPSS főmenüjében rendre kattintsunk az Analyze Classify K-means cluster gombokra. Jelöljük meg a változókat az alapján hogy milyen módon fogjuk őket csoportosítani, majd tegyük be őket a Variables(változók) dobozba (Ez a mező

a változók bevitelére szolgál. A Label cases by dobozba sorváltozókat írhatunk, melyek megjelölik az egységeket. Ezután meghatározzuk a kívánt csoportok számát a Number of clusters dobozban. Esetünkben a Method dobozban bejelöljük az Iterate and classify t. Nem úgy mint az alternatív módszerrel, ha a Classify Only t jelöljük, ami meghatározza a csoportok középpontját; ez meghatározza az egymást követő ismétlődést és megállapítja hogyan fog a csoportosítás végbemenni. A Cluster Centers dobozban megadjuk, hogy a file (ha van file) melyik tartalmazza a kezdeti csoport központokat a fileban (ha szükséges) és melyik a végső csoport központokat. A Read Initial From-ban megadjuk, hogy melyik file tartalmazza a kezdeti csoport központokat, és a Write final as-ban pedig megadjuk hogy melyik file tartalmazza a végső csoport központokat. Az Iterate kritériumokat határozhatunk meg a végső csoport központok frissítésére, a Maximum Iterations-ban pedig megadhatjuk a megengedett ismétlések maximumát (ami nem több mint 999) és a Convergence Criterion ban eldönthetjük melyik szabály hatályos az ismétlési folyamatra. Alapértelmezetten 10 Iterations és 0 Convergence Criterion van beállítva. Továbbá lehetséges még a Use running means opciót bejelölni. Ha ez ki van választva, a csoport központok minden új tárgy hozzáadásával változnak. Ha ez az opció nincs kiválasztva, a csoport központok egy adott csoport minden meghatározott eleme után lesz kiszámítva. Mindkét esetben más eredményt kapunk ezért a módszer, amivel a csoportosítást véghezvisszük, ki kell, hogy legyen jelölve. A Continue gombra kattintással továbblépünk.

A Save gombot használva új változókat menthetünk egy adat file-ba ami minden egyes tárgy Cluster Membership (csoport tagság) ét jelzi, és a tárgyak csoport központtól való távolságát ( Distance from cluster center ) Az options gomb megadja a plusz statisztikai adatok megjelenítésének lehetőségét kezdeti csoport központok(initial Cluster Centers), szóródásos analízis tábla( ANOVA table) és minden tárgy csoport tagságának információját(cluster information in each case) Kívánatos hogy mind három opció ki legyen választva. A végső eredményt az OK gombra kattintva kapjuk meg. Menjünk végig tömören a K-alapú csoport analízis különböző lépésein a példából vett UniCredit Bulbank adatait felhasználva (Az egyes táblát az Első lépések SPSS-ben fejezetből vettük). A csoportok számát megadjuk 4-nek, és a kezdeti csoport központok az adatok alapján vannak kiértékelve. Négyzetes euklidészi távolság egységet??? Használunk az egységek közötti távolság mérésére. Továbbá a csoport központokat kiszámoltatjuk minden egyes új objektum felvételekor egy adott csoportba, pl. nem pipáljuk ki az Use running means mezőt.

A kezdeti csoport központok az 1-es táblában adottak(initial Cluster Centers). Ezek vektorok amelyeknek értékei 5 változón alapulnak, ami a 2000(első csoport) 2005(második csoport), 2006(harmadik csoport), és 2003(negyedik csoport). Ez a 4 év maximum index távolságra van egymástól. A kettes táblában láthatjuk az ismétlések számát, és a csoport központok változásait. Az első ismétlésben 2001 év csatlakozik 2000 évhez, a csoport központ frissül. A 2004-es év csatlakozik a második csoporthoz a 2005-ös évhez, és a 2002-es év csatlakozik a negyedik csoporthoz a 2003-mas évhez. A harmadik csoport nem változik. A második ismétlésben az egységek átrendeződési folyamata megáll, mivel nincs változás a csoport központban. Az eredmények összegezve vannak a 3-mas táblában, pl. amelyik csoport egyes elemei hova tartoznak, és az új csoport központok. Az első csoport a 2000 és 2001 évek által lett létrehozva, a második a 2004, 2005 által, a harmadik csak 2006 által, és a negyedik 2002 és 2003 által. A negyedik táblában láthatjuk a végső csoport központokat, az ötödikben pedig e központok közötti távolságokat.

Ha összehasonlítjuk az eredményeket az egyes és négyes táblákból, hogy a harmadik csoport csoportközpontja nem változik. Mivel esetünkben a csoportok akarattal a közöttük lévő többdimenziós távolság szerint lettek fölvéve, a feltétel a véletlenszerű megfigyelésekre vonatkozóan különböző csoportokban nem teljesül, az eredmények a szórás analízisből tisztán leíróak. Más szóval nem használhatjuk a fontossági szintet (Sign. Oszlop az ANOVA táblában csoport eredmények szórás analízise) az egyszerű változókról szóló hipotézis ellenőrzésére. Mindemellett az F-ráták közötti különbség( F oszlop az ANOVA táblában) lehetővé teszi általános következtetések levonását az alakító csoportokban levő egyszerű változók szerepéről. A hatos táblában a szórás analízis eredményei vannak adva. Ezek megmutatják hogy az assets van a legnagyobb befolyással a csoportok alakítása során, a net profit pedig a legkisebbel.

A hetes tábla adatokat mutat az egységek számáról csoportonként, továbbá a teljes létszámról, és a hiányzó egységekről(ha vannak ilyenek). Most bemutatjuk az eredményeket ugyanazon csoportosítási módszert alkalmazva azzal a különbséggel, hogy most a csoport központokat mindig változónak választjuk miután egy tárgy csatlakozott az adott csoporthoz és a Use running means opciót választjuk.

A megjelenített adatból (9-es tábla) látjuk hogy az első csoport a 2000, 2001, 2002 évek által jött létre, a második a 2004, 2005 évek által, a harmadik 2006 által, és a negyedik csak a 2003 által.

Az ANOVA táblában megjelenített adatok szerint az assets még egyszer a maximális befolyással voltak a csoportok létrehozása során, a net profit pedig a legminimálisabbal. Szerző: Dessislava Vojnikova, Plovdiv University, Negyedik évi Bachelor Program az Alkalmazott Matematikában Felügyelő: Snezhana Gocheva-Ilieva Fordította: Hajdú Attila