Csoport(Cluster) analízis SPSS-el: K-alapú csoport Analízis

Hasonló dokumentumok
Az első lépések SPSS-ben.

3. Gyakorlat ellenőrzés nélküli osztályozás

ONLINE SZAKÉRTŐI KERETRENDSZER

Cikktípusok készítése a Xarayában

Access alapok. Megnevezés Művelet Minta. Új adatbázis létrehozása. Új / Üres adatbázis.. Tábla létrehozása tervező nézetben.

UnasShop - Affiliate partnerek beállítása

QGIS gyakorló. --tulajdonságok--stílus fül--széthúzás a terjedelemre).

Térképek jelentése és elemzése

Klaszterelemzés az SPSS-ben

Hogyan lehet Pivot tábla segítségével komplex adatokat elemezni és bemutatni?

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Kezdeti Útmutató a Szolgáltatáselemző Rendszer használatához. vezetők számára. Tartalom

ArcView 2.sz. gyakorlat

Közoktatási Statisztika Tájékoztató 2012/2013. Használati útmutató

Sztochasztikus kapcsolatok

9. Entitás modulok. Nagy Gusztáv: Drupal 7 alapismeretek Fejlesztői verzió: október 6.

A webáruház kezdőlapján háromféle diavetítés beállítására van lehetőség:

QGIS Gyakorló. 1. kép. A vektor réteg (grassland.shp).

JEUNESSE HÁTTÉRIRODA FUNKCIÓI, MŰKÖDÉSE 5. AUTOSHIP

NETFIT modul Tanári felület Felhasználói útmutató. Magyar Diáksport Szövetség

Klaszterelemzés az SPSS-ben

Access gyakorlati feladatok lépésről lépésre

Választó lekérdezés létrehozása

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

WebAromo elindítása, bejelentkezés

Esetelemzések az SPSS használatával

Egészségterv és edzésprogram használati utasítás

Hírlevél küldés kézikönyv

Támogatás / Excel / Excel 2010 súgó és útmutató / Diagramok / Diagramok formázása Hibasáv felvétele, módosítása és eltávolítása diagramban

Bontott órák beállítása Példánkban egy évfolyambontott kapcsolatot hozunk létre úgy, hogy abban vannak csak osztálybontott csoportok is.

A statisztika alapjai - Bevezetés az SPSS-be -

T-AVL Nyomkövető webkliens

Bevezetés az SPSS program használatába

Csődfigyelő. Figyelje Ön is gazdasági partnerit!

Kézikönyv. Dinamikus szelekció készítése és a "tartomány" kapcsoló használata

Invitel levelezés címek esetén

Tuplet Tool Hangjegycsoport eszköz

MAGISZTER.NET. Tantárgyfelosztás FELHASZNÁLÓI LEÍRÁS

Tanrend jelentő képző szervek részére

kommunikáció Megoldások

CÍMLISTA HASZNÁLATA. Címlista alapok

Fogalmak: Adatbázis Tábla Adatbázis sorai: Adatbázis oszlopai azonosító mező, egyedi kulcs Lekérdezések Jelentés Adattípusok: Szöveg Feljegyzés Szám

Bevezető. Mi is az a GeoGebra? Tények

Projektek. Rövid útmutató az első lépésekhez

Cluster Analysis. Potyó László

TÁJÉKOZTATÓ A CCN V VERZIÓHOZ Változások a V verzió kiadása után

Táblázatos adatok használata

Statisztikai táblázatok, kimutatások (Pivot) készítése

ÚTMUTATÓ az RVTV portálon történő ciklus beállításhoz

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

Kézikönyv. Nagykereskedő rabattcsoport

Felhasználói segédlet

S SDA Stúdió kft Hallgatók adatlap

Aktiválási segédlet a Partnercég opcióhoz. A TeleMátrix adminisztrációs felületének használata Partnercég opció igénybevétele esetén

QualcoMAE jártassági vizsgálatok. Segédlet az Elektronikus ügyintézés használatához

Ozeki Weboffice. 1. ábra

számított mező, számított tétel

DSL kapcsolat létrehozása Windows 2000 alatt RasPPPoE tárcsázó segítségével

Esetelemzés az SPSS használatával

4. Gyakorlat ellenőrzött osztályozás

Kézikönyv Számlaegyenleg könyvelési okok szerint infosystem

Dokumentumtár A hatósági statisztika adatszolgáltatása lépésről-lépésre

A gyorskereskedési jegy felépítése

Tömbök kezelése. Példa: Vonalkód ellenőrzőjegyének kiszámítása

Az objektum leírására szolgálnak. Mire jók? Sokszor maga a jellemző az érdekes: Tömörítés. Objektumok csoportosítására

Elektromos gépkocsi vásárlás támogatása Pályázati kiírás kereskedői regisztráció segédlete

Cölöp függőleges teherbírásának és süllyedésének CPT alapú számítása

DebitTray program Leírás

WEBCAPS alkalmazás magyar nyelvű kezelési útmutatója

FELHASZNÁLÓI KÉZIKÖNY A VEZESS NEVŰ PROGRAMHOZ VERZIÓ: 2.0.

Az importálás folyamata Felhasználói dokumentáció verzió 2.1.

SAP Business One. Raktári tranzakciók. Mosaic Business System Kft.; Support:

Címzett: Kovács Gézáné Szeged, Híd u. 1. Tisztelt Kovács Gézáné! Örömmel értesítjük, hogy Ön megnyerte nyereményjátékunk 1000 Ft-os díját.

Ingyenes PDF nyomtató alkalmazás használata terminál szerverrel / felhős rendszerrel

Rövid leírás a Make Your Mark szoftver használatához

MOODLE segédlet a tananyagok feltöltéséhez

ADATSZOLGÁLTATÁS webes metaadat-szerkesztővel

ArcGIS 8.3 példa 1. Dr. Iványi Péter

Táblázatkezelés 2. - Adatbevitel, szerkesztés, formázás ADATBEVITEL. a., Begépelés

Az Óbudai Egyetem Moodle rendszere. Felhasználói kézikönyv hallgatóknak

Tárgyi eszköz. Molnár Anikó

Google Cloud Print útmutató

Szolgáltatási szerződés elektronikus aláírása

Lakóház tervezés ADT 3.3-al. Segédlet

Kézikönyv. Előlegszámla készítése és könyvelése

A BDF website elemzése SPSS CLEMENTINE WEB MINING segítségével. Zsiros Péter

ÁVF oktatási és közösségi portál

A szervezeti egységektől beérkezett felhasználói igények alapján ön részt fog venni a tantermi oktatáson.

Vodafone Mobile Connect telepítése

6. Előadás. Vereb György, DE OEC BSI, október 12.

PÁLYAMUNKA. a Zentai Ifjúsági Iroda pályázati felhívására. Készítette: Tóth Ervin 7/14/2012

Kézikönyv Számla-módozat rögzítése és alkalmazása

Általános fiók beállítási útmutató

Regisztráció Regisztráció WINTAX programrendszer regisztrációja

ANOVA összefoglaló. Min múlik?

A számítógép beállításainak megváltoztatása

MS ACCESS 2010 ADATBÁZIS-KEZELÉS ELMÉLET SZE INFORMATIKAI KÉPZÉS 1

Felhasználói útmutató a portal.nakvi.hu oldalhoz

Az Outlook levelező program beállítása tanúsítványok használatához

Felhasználói segédlet

Átírás:

Csoport(Cluster) analízis SPSS-el: K-alapú csoport Analízis A Cluster(csoport) analízis egy adat osztályozási eljárás amivel adatokat csoportokba lehet elkülöníteni. A cluster analízis célja hogy n számú elemet kategorizáljon k számú csoportba (k>1),mely csoportokat Clustereknek nevezzük, p (p>0) változók használatával. Ahogyan a többi statisztikai típusnak is, a cluster analízisnek is számos változata van, mindegyik egy-egy külön műveletsor. Két fő alosztálya van a cluster eljárásnak. Az egyik féle eljárásban a csoportok előre meghatározottak. Ez a K alapú csoportosítási eljárás néven ismert. Amikor a csoportok száma nem előre meghatározott, olyankor a Hierarchical Cluster(Rangsor szerinti csoportosítás) analízist alkalmazzuk. A csoportosítási eljárások nagy választéka a sokféle szerkesztési folyamat eredménye, melyeket két külön tárgy között hajtunk végre. A leggyakrabban használt szerkesztési eljárások : Euklidészi szerkesztés, Manhattan szerkesztés, Chebysev szerkesztés, stb. Ezeknél különböző szabályokat alkalmazunk a csoportok létrehozására. Néhányuk engedi a tagokat eltérő csoportokat megosztani, míg a többiek csak zártkörű tagságot engednek. K-alapú csoport analízis Az SPSS főmenüjében rendre kattintsunk az Analyze Classify K-means cluster gombokra. Jelöljük meg a változókat az alapján hogy milyen módon fogjuk őket csoportosítani, majd tegyük be őket a Variables(változók) dobozba (Ez a mező

a változók bevitelére szolgál. A Label cases by dobozba sorváltozókat írhatunk, melyek megjelölik az egységeket. Ezután meghatározzuk a kívánt csoportok számát a Number of clusters dobozban. Esetünkben a Method dobozban bejelöljük az Iterate and classify t. Nem úgy mint az alternatív módszerrel, ha a Classify Only t jelöljük, ami meghatározza a csoportok középpontját; ez meghatározza az egymást követő ismétlődést és megállapítja hogyan fog a csoportosítás végbemenni. A Cluster Centers dobozban megadjuk, hogy a file (ha van file) melyik tartalmazza a kezdeti csoport központokat a fileban (ha szükséges) és melyik a végső csoport központokat. A Read Initial From-ban megadjuk, hogy melyik file tartalmazza a kezdeti csoport központokat, és a Write final as-ban pedig megadjuk hogy melyik file tartalmazza a végső csoport központokat. Az Iterate kritériumokat határozhatunk meg a végső csoport központok frissítésére, a Maximum Iterations-ban pedig megadhatjuk a megengedett ismétlések maximumát (ami nem több mint 999) és a Convergence Criterion ban eldönthetjük melyik szabály hatályos az ismétlési folyamatra. Alapértelmezetten 10 Iterations és 0 Convergence Criterion van beállítva. Továbbá lehetséges még a Use running means opciót bejelölni. Ha ez ki van választva, a csoport központok minden új tárgy hozzáadásával változnak. Ha ez az opció nincs kiválasztva, a csoport központok egy adott csoport minden meghatározott eleme után lesz kiszámítva. Mindkét esetben más eredményt kapunk ezért a módszer, amivel a csoportosítást véghezvisszük, ki kell, hogy legyen jelölve. A Continue gombra kattintással továbblépünk.

A Save gombot használva új változókat menthetünk egy adat file-ba ami minden egyes tárgy Cluster Membership (csoport tagság) ét jelzi, és a tárgyak csoport központtól való távolságát ( Distance from cluster center ) Az options gomb megadja a plusz statisztikai adatok megjelenítésének lehetőségét kezdeti csoport központok(initial Cluster Centers), szóródásos analízis tábla( ANOVA table) és minden tárgy csoport tagságának információját(cluster information in each case) Kívánatos hogy mind három opció ki legyen választva. A végső eredményt az OK gombra kattintva kapjuk meg. Menjünk végig tömören a K-alapú csoport analízis különböző lépésein a példából vett UniCredit Bulbank adatait felhasználva (Az egyes táblát az Első lépések SPSS-ben fejezetből vettük). A csoportok számát megadjuk 4-nek, és a kezdeti csoport központok az adatok alapján vannak kiértékelve. Négyzetes euklidészi távolság egységet??? Használunk az egységek közötti távolság mérésére. Továbbá a csoport központokat kiszámoltatjuk minden egyes új objektum felvételekor egy adott csoportba, pl. nem pipáljuk ki az Use running means mezőt.

A kezdeti csoport központok az 1-es táblában adottak(initial Cluster Centers). Ezek vektorok amelyeknek értékei 5 változón alapulnak, ami a 2000(első csoport) 2005(második csoport), 2006(harmadik csoport), és 2003(negyedik csoport). Ez a 4 év maximum index távolságra van egymástól. A kettes táblában láthatjuk az ismétlések számát, és a csoport központok változásait. Az első ismétlésben 2001 év csatlakozik 2000 évhez, a csoport központ frissül. A 2004-es év csatlakozik a második csoporthoz a 2005-ös évhez, és a 2002-es év csatlakozik a negyedik csoporthoz a 2003-mas évhez. A harmadik csoport nem változik. A második ismétlésben az egységek átrendeződési folyamata megáll, mivel nincs változás a csoport központban. Az eredmények összegezve vannak a 3-mas táblában, pl. amelyik csoport egyes elemei hova tartoznak, és az új csoport központok. Az első csoport a 2000 és 2001 évek által lett létrehozva, a második a 2004, 2005 által, a harmadik csak 2006 által, és a negyedik 2002 és 2003 által. A negyedik táblában láthatjuk a végső csoport központokat, az ötödikben pedig e központok közötti távolságokat.

Ha összehasonlítjuk az eredményeket az egyes és négyes táblákból, hogy a harmadik csoport csoportközpontja nem változik. Mivel esetünkben a csoportok akarattal a közöttük lévő többdimenziós távolság szerint lettek fölvéve, a feltétel a véletlenszerű megfigyelésekre vonatkozóan különböző csoportokban nem teljesül, az eredmények a szórás analízisből tisztán leíróak. Más szóval nem használhatjuk a fontossági szintet (Sign. Oszlop az ANOVA táblában csoport eredmények szórás analízise) az egyszerű változókról szóló hipotézis ellenőrzésére. Mindemellett az F-ráták közötti különbség( F oszlop az ANOVA táblában) lehetővé teszi általános következtetések levonását az alakító csoportokban levő egyszerű változók szerepéről. A hatos táblában a szórás analízis eredményei vannak adva. Ezek megmutatják hogy az assets van a legnagyobb befolyással a csoportok alakítása során, a net profit pedig a legkisebbel.

A hetes tábla adatokat mutat az egységek számáról csoportonként, továbbá a teljes létszámról, és a hiányzó egységekről(ha vannak ilyenek). Most bemutatjuk az eredményeket ugyanazon csoportosítási módszert alkalmazva azzal a különbséggel, hogy most a csoport központokat mindig változónak választjuk miután egy tárgy csatlakozott az adott csoporthoz és a Use running means opciót választjuk.

A megjelenített adatból (9-es tábla) látjuk hogy az első csoport a 2000, 2001, 2002 évek által jött létre, a második a 2004, 2005 évek által, a harmadik 2006 által, és a negyedik csak a 2003 által.

Az ANOVA táblában megjelenített adatok szerint az assets még egyszer a maximális befolyással voltak a csoportok létrehozása során, a net profit pedig a legminimálisabbal. Szerző: Dessislava Vojnikova, Plovdiv University, Negyedik évi Bachelor Program az Alkalmazott Matematikában Felügyelő: Snezhana Gocheva-Ilieva Fordította: Hajdú Attila