Izgalmas újdonságok a klaszteranalízisben

Hasonló dokumentumok
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Közösség detektálás gráfokban

Klaszterezés, 2. rész

Gyakorló feladatok adatbányászati technikák tantárgyhoz

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Klaszterelemzés az SPSS-ben

Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Varianciaanalízis 4/24/12

A ROPstat statisztikai programcsomag*

Diszkriminancia-analízis

Függetlenségvizsgálat, Illeszkedésvizsgálat

V. Gyakorisági táblázatok elemzése

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biostatisztika VIII. Mátyus László. 19 October

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Klaszterelemzés az SPSS-ben

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

[Biomatematika 2] Orvosi biometria

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

A preferencia térképezés kritikus pontjai az élelmiszeripari termékfejlesztésben

Társadalmi és gazdasági hálózatok modellezése

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Korreláció és lineáris regresszió

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

IV. Változók és csoportok összehasonlítása

(Independence, dependence, random variables)

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

KLASSZIFIKÁCIÓS MÓDSZEREK MUTATÓI

7. Régió alapú szegmentálás

Adatbányászati szemelvények MapReduce környezetben

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

Adatbányászat. Klaszterezés Szociális hálózatok. Szegei Tudományegyetem. Lehetetlenségi tétel Hierarchikus eljárások Particionáló módszerek

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Variancia-analízis (folytatás)

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Sztochasztikus kapcsolatok

Több valószínűségi változó együttes eloszlása, korreláció

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek

KUTATÁSI JELENTÉS. Multilaterációs radarrendszer kutatása. Szüllő Ádám

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Adatelemzés és adatbányászat MSc

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Van-e kapcsolat a változók között? (példák: fizetés-távolság; felvételi pontszám - görgetett átlag)

PSYCHOLOGIA HUNGARICA

A mérési eredmény megadása

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

PONTFELHŐ REGISZTRÁCIÓ

statisztikai menürendszere Dr. Vargha András 2007

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Regressziós vizsgálatok

y ij = µ + α i + e ij

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

A települési szegregáció mérőszámai

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Least Squares becslés

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Bevezetés a hipotézisvizsgálatokba

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Klaszterezés. Kovács Máté március 22. BME. Kovács Máté (BME) Klaszterezés március / 37

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Principal Component Analysis

Korrelációs kapcsolatok elemzése

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

Kettőnél több csoport vizsgálata. Makara B. Gábor

Országos kompetenciamérés eredményeinek kiértékelése 6. és 8. évfolyamokon 2012

Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok

Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok

Nagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet

Vargha András Károli Gáspár Református Egyetem Budapest

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Statisztikai alapfogalmak

VÁROS- ÉS INGATLANGAZDASÁGTAN

IBM SPSS Modeler 18.2 Újdonságok

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Többváltozós lineáris regressziós modell feltételeinek

Statisztikai becslés

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Átírás:

Izgalmas újdonságok a klaszteranalízisben Vargha András KRE és ELTE, Pszichológiai Intézet Vargha András KRE és ELTE, Pszichológiai Intézet

Mi a klaszteranalízis (KLA)? Keressük a személyek (vagy bármilyen objektumok) olyan csoportjait, ahol az egy csoportba tartozók egymásra hasonlítanak, de más csoportokba tartozó személyektől különböznek.

A klaszterek néha nem egyértelműek Hány klaszter van itt? 2 klaszter? 6 klaszter?

Alapvető kritérium a személyek hasonlósága, távolsága 1) A mintázatok hasonlósága mérhető két személy adatsorának a korrelációjával. Minél nagyobb a korreláció (előjelesen!), annál hasonlóbb a két személy. 2) A hasonlóságot (távolságot) leggyakrabban az adatsorbeli értékek átlagos távolságával szokták mérni (Euklideszi távolság). Egy ilyen variáns az ASED (átlagos négyzetes eltérés, Average Squared Euclidian Distance).

Klaszteranalízisek fő típusai Hierarchikus (HKA): egymásra épülő klasszifikációk rendszere, melyhez úgy jutunk, hogy lépésenként egyesítünk vagy felbontunk klasztereket Agglomeratív: sok kis klaszterrel kezdünk, egy naggyal végzünk (ez a szokásos) Osztódó: egy nagy klaszterrel kezdünk, sok kicsivel végzünk Nemhierarchikus (k-központú, particionáló): Esetek optimális besorolása k számú csoportba (k fix) Modell-alapú: Feltételezett keverék-eloszlás felbontása komponensekre

A HKA szemléltetése Személyek Távolság

Klasztertávolság az összevonásnál Minimális távolság módszere (Single linkage method) Maximális távolság módszere (Complete linkage method) Átlagos távolság módszere (Average linkage between groups) Medián módszer (Median method) Centroidok távolsága (Centroid method) Indirekt hierarchikus módszerek Ward-féle módszer Átlagos távolság módszere

Egy HKA 10 és 2 klaszter között k EESS% PB SilCoef HCátlag HC min-max Egyesítendő klaszterek 10 78,30 0,360 0,529 0,351 0,15-0,82 17 (22), 18 (44) 9 76,90 0,360 0,527 0,373 0,15-0,82 19 (33), 23 (56) 8 74,81 0,359 0,521 0,406 0,15-0,84 9 (190), 47 (131) 7 72,68 0,449 0,564 0,440 0,16-0,84 16 (44), 50 (76) 6 69,97 0,444 0,567 0,482 0,16-1,11 20 (162), 36 (88) 5 66,97 0,477 0,602 0,530 0,28-1,11 17 (66), 19 (89) 4 62,93 0,472 0,616 0,594 0,28-1,11 16 (120), 17 (155) 3 52,87 0,413 0,612 0,753 0,28-1,60 9 (321), 20 (250) 2 40,07 0,583 0,700 0,957 0,65-1,60 9 (571), 16 (275) Ennek alapján próbálunk dönteni arról, hogy mely k klaszterszám megoldása tetszik

Klaszter kvalifikációs mutatók (QC-k) EESS%: Klaszterek által magyarázott varianciaarány (Explained Error SS) PB: Esetpárok mintájában az egy klaszterbe tartozás és az esettávolság közti korreláció SilCoef (Silhouette eh.): A klaszterstruktúra szeparáltságának egyik mértéke HC (homogenitási együttható): Egy-egy klaszterben az esetek átlagos távolsága HCátlag: A k klaszter HC-értékének átlaga HCmin-max: Legkisebb és legnagyobb HC

EESS% EESS% 100 SS total SS SS total cluster Többdimenziós eta-négyzet (magyarázott varianciaarány: MV%)

Klaszter pont-biszeriális korreláció (PB) PB r(x,y) r(x,y)-t az N személyből kiválasztható összes (n = N(N-1)/2) számú) pár mintáján számítjuk ki X: Egy klaszterbe esnek? (0: nem, 1: igen) Y: A pár két tagjának Euklideszi távolsága (ASED)

Alternatív formula PB-re M M n n PB 1 0 1 0 s n(n 1) n 1 PB jelzi, hogy átlagosan mennyivel vannak távolabb egymástól a különböző klaszterbe tartozó személyek, mint az egyazon klaszterbe tartozók

Klaszter delta együttható (CLdelta) CLdelta M 1 s n 1 M 0 A PB mutató Cohen-delta-féle változata, értelmezése hasonló PB-éhez

Silhouette együttható (SC) Az i-edik személyre legyen ahol SC i = (B i A i )/max(a i, B i ), A i = átlagos távolság a saját társaktól, B i = átlagos távolság az idegen társaktól. SC: az összes egyedi SC i érték átlaga Értelmezés: a személyek mennyivel vannak közelebb saját klasztercentrumukhoz, mint a legközelebbi idegen klaszter centrumához

A QC mutatók típusai Homogenitást, kohéziót mérik: EESS%, HCátlag Szeparációt mérik: SC, XBmod, GDI24 Mindkettőt mérik: PB, CLdelta QC-kről bővebben: Desgraupes, B. (2013). Vargha Torma Bergman, 2015 Vargha Bergman Takács, 2016

Nemhierarchikus k-központú klaszteranalízis (KKA) A klaszterszámot (k) előre rögzítjük Optimalizálásos módszer több iterációval A kezdő besorolás véletlenszerű is lehet Eseteket ide-oda tesszük (relokáció), amíg EESS% ( MV%) maximális nem lesz A végén homogénebb struktúrát kapunk, mint a HKA-ban Kiértékelés QC-k segítségével

Probléma a QC-kkel: erősen függnek a klaszter- és a változószámtól EESS% 90 80 70 60 50 40 30 20 10 k=3 k=4 k=5 k=6 k=7 k=8 k=9 V=2 V=3 V=4 V=5 V=6

A Silhouette-együttható erősen függ a változószámtól Silhouette Coefficient (SC) 0.7 0.6 0.5 0.4 0.3 k=3 k=4 k=5 k=6 k=7 k=8 k=9 V=2 V=3 V=4 V=5 V=6

Megoldás: QC viszonyítása random mintán kapott struktúra QC-jéhez MORI = Measure of Relative Improvement Ez a kapott struktúra belső validitásának (internal validity) legfontosabb mutatója (Vargha Bergman Takács, 2016)

Részletek Generálunk random adatokat ugyanannyi változóval, egymás után többször (100-szor) Minden random adatállományon HKA-t vagy KKA-t futtatunk (ugyanannyi klaszterrel) és kiszámítunk a struktúra jóságának a mérésére egy sor QC-t. A kapott QC-ket átlagoljuk (QC rand ) és összevetve a tesztelendő struktúra QCértékeivel, képezzük a MORI indexeket.

Kontrollként használt random változótípusok 1.Az aktuálissal megegyező eloszlású, de független változók (adatok random permutálásával változónként) 2.Független random normális eloszlású változók 3.Korreláló random normális változók az input változók páronkénti korrelációi alapján (változók FA-ja, súlymátrix!) (Vargha Borbély, 2017; Vargha Bergman Kövi, in preparation)

Kétdimenziós Multivariate normális normal density eloszlás

Normalitás és klaszteranalízis Ha az input változók többdimenziós normális eloszlásúak, csak egyetlen csúcsa van az eloszlásnak. Ilyenkor nincs értelme több típust keresni. Ha a normalitás sérül, megjelenhetnek a nemlineáris kapcsolatok. Emiatt az input változók interkorrelációit reprodukáló, random normális korreláló kontroll az egyik leginformatívabb validáló eszköz.

Klaszterstruktúrák összehasonlítása k = 5 és k = 7 között hat QC-vel, korreláló random normális kontrollal MORI-indexek (rep = 100) EESS% PB XBmod SilCoef HCátlag CLdelta k = 5 0,21 0,18-0,03 0,21 0,21 0,28 k = 6 0,25 0,22 0,21 0,29 0,25 0,30 k = 7 0,26 0,20 0,07 0,24 0,25 0,30 A 6-klaszteres struktúra tűnik a legjobbnak

A belső validitás QC és MORI mutatóinak használata Megítélhetjük velük egy struktúra jóságát Segítséget nyújthatnak a helyes klaszterszám megállapításához Összehasonlíthatunk velük különböző algoritmusokat Összehasonlíthatunk velük különböző klasztermegoldásokat (struktúrákat)

Két klasztermegoldás összehasonlítása a ROPstatban Centroid Klaszterközéppontok (centroidok) páronkénti távolságainak a kiszámítása Exacon: Kódváltozók keresztgyakorisági táblázata Hasonlósági mutatók (Cramér-féle V, Jaccard index, Rand, ARand)

Külső validitás (external validity) vizsgálata A kapott klasztereket megpróbáljuk olyan változókkal összefüggésbe hozni, amelyek nem szerepeltek a klaszteranalízis modelljében (pl. nem, kor, iskolázottság), de segítenek értelmezni és ezáltal érvényessé tenni a klasztereket

KÖSZÖNÖM A FIGYELMET