KLASZTERANALÍZIS OSZTÁLYOZÁS

Hasonló dokumentumok
Matematikai statisztika Gazdaságinformatikus MSc október 15. Adatredukció. Klaszteranaĺızis. Diszkriminancia anaĺızis, Osztályozás

Matematikai statisztika Gazdaságinformatikus MSc október 15. Adatredukció. Klaszteranaĺızis. Diszkriminancia anaĺızis, Osztályozás

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Ó Ó É ü É ü ü

Ö Ó Ó Ó

Ö Ö É Ő Ú É

Ö


ű ű ű Ö ű ű ű Ú ű ű ű Ö ű ű ű ű ű ű ű

Ü ű Ü É ű ű É Ü Ü

Ú Ú Ü Ü ű ű ű É Ú É ű

Ó ű ű ű ű ű ű É É É

Ó Ó ú ú ú ú ú É ú

Ü Ü Ó Ü Ó

Ó ú É ú É É É Ő ú ú ű Ó Ö É É ú Ü ú É ú

É ö

ű ő ű ű ű ö ő ú ö ő ő ő ő ő ő ő ű ő ő ő ő ü ü ő ü ü ő ú ü ő ő ü ü ü ő ú ü

Ó ú É Ú

Esettanulmány Kvantitatív elemzési módszerek (GTÜSE3915) tantárgyhoz


é ü ó ö é Ö é ü é é ó ö é ü ü é é ó ó ó é Á é é ü ó é ó ó é ö ö ö é é ü é ü é é ö ü ü é ó é é é é é é ö é é é é é é ö é ó ö ü é é é ü é é ó é ü ó ö é

Ó Ó ó ö ó

Klaszterelemzés az SPSS-ben

É É Ö ű Ú Ú É ű

ó Ó ú ó ó ó Á ó ó ó Á ó ó ó ó Á ó ú ó ó ó

Á ű ó ó

Ó é é Ó Ó ő ű Ó Ö ü Ó é Ó ő Ó Á Ö é Ö Ó Ó é Ó Ó Ó Ó ú Ó Ó Ó Ó ű Ö Ó Ó Ó é Ó Ó ö Ö Ó Ö Ö Ó Ó Ó é ö Ö é é Ü Ó Ö Ó é Ó é ö Ó Ú Ó ő Ö Ó é é Ö ú Ó Ö ö ű ő

ó ő ő ó ő ö ő ő ó ó ó ö ő ó ó ó ö ő ó ő ő ö Ö ő ö ó ő ö ő ő ú ö ö ü ö ó ö ö ö ő ö ö Ö ú ü ó ü ő ő ő ő ó ő ü ó ü ö ő ö ó ő ö ő ö ü ö ü ő ö ö ó ö ő ő ö

ű ű ű Ú Ú Á ű Ö ű ű Ú Ő É

ű Ö ű Ú ű ű ű Á ű

Á Ó ű ű Á É ű ű ű ű Ú Ú

Á Á ő ő Ö ő ő ö É ö ő ö ő ő ö ő ő ö ő ő ü ö

Ú ű É ű ű Ü Ü ű ű Ú É ű ű Ü ű ű ű ű ű ű ű Ú ű ű

Á Ö Ö Ö Ö ú ú Ö Ö Ó Ó ú ú Ü ú Ó Ö Ö Ü Ó Ö Ö Á Ó ú ú ú ű Ö Ö Ö Ö Á Ó Ö Ó ú ú Ö

ű Ú ű ű É Ú ű ű

ő ű É Ó Ü É É É É Ü Ö É É É ű É Ö É Ü É Ú Ó ő Ó

ö ö Á Á Ó Á ö ö ö ö ö ú ű ö ö Á Á ű ű ö ö ö ö ű

Ó Ó ö ú ö ö ö ö ü ú ú ö ö ö ú ú ö ö ö ú ú ú ű ö ö ú ö ü ö ö ö ö ü ú Á ö ü Á ö ö ö ö ö ö

Á Ü É Ü Ú Ü É

ü ü Ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü É ü ü

ő ü ó í í í ő ó Ó í

ú Ó ú ú ú ú ú ú ú É Á

ú ö ö ö ö ö ö Á ö ö ö á á á ű Ü ű ö ö Á á Á

ö ö É ő ó ó ő ü ó ó Ü É É ö ö ó ű ü ó ó ö ű Í ö ó ö Í ő ü ü ö ö ő ö ó ö ó ó É ó ő ö ö ó Ö ü ő Í ű ó ő ü ő Ó Ö ű Í ó Ó ő ő ö ő ő ő ö

ü É ü Ö ü ü ü Ü ü ü Í

í í í í í

Á ó ó ó Ü Ü ó ó Ü ó ó ú ú ó ó Ü ó ó ó Ü ó ó

É Á Á Ö Á

ű ő ő ő

ö ü í ú í ö ö í ú ü í ü ö í ú ö ü í ö ü ö ö ö Í ö ö

É É Í É É ö Í í í í ű ü ö í í Í

É É Ö

É ó Í É

ü ö í ü ö í ü ö ű í í í ö Ü í ü ü ö í í ü ö í ű í ö í í ú ö ö í í ü ű ö ü í í ü í ü í í ö ü í ö ö ü í ö ű ö í í ö ú ö í ö í ű ö ö ö í í í í ö ö

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

ü ú ú ü ú ú ú ú

ű ú ú ö ö ö É ö ú ú ú ö ű Ó ű Ö Ö ú

ú ü ú ü ú

ö ő ü ö ő ő ü ü ő ő ő ü ö ü ü ő ú ő ő ő ü ő ő ő ő ő ú ő ő ü ő ő ő ü ö ü ú ő ő ő ő ü ü ő ő ú

ö ű ü ü ö ü ö ö ü ö ö Í Ö ö ü ö Í ű ö ű ü ü ö ú ö ű ü ü ö ö ö ü ű ü ö ü ű ű ú ö ö ö ű ü ú ú

ű ű ű ű ű ű Ú Ú ű ű ű Ö ű ű ű ű ű ű

í ö ó í ö í Í ó ú ó ö ű ó ű ö í ó ó ó ó ó Í ú í ó í í ó Í ö ö ú í ú ó ö Í ó ó Í í ó ó ö ö ö ö ö í ö ó ű í ó ó ö ú ó ó ö ö ó í ö ö ó ó ö ö í ö ó í ű ö


ű ö ű ö í í ö É ö ü ö ú ü ű ü ü ű ö ö ü ü ü ö ü ü ű ü ü ű í ü ü ö Ö ü í ű ö Ö ü ű

Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok

ű í ú í ú í ü ü í í í Ö í Í É í ú í í í ű ű í í Í í í É í í í

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

MATEMATIKA ÉRETTSÉGI VIZSGA ÁLTALÁNOS KÖVETELMÉNYEI

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Klaszterelemzés az SPSS-ben

É ú É ö ö ű ö ö ö ú ú ú ű ű ú ö ű ö ű ű ü ö ö ü ű ö ü ö ö ö ö ú ü ö ö ö ú ö ö ú ö ö ú ü ú ú ú ű ü ö ö ű ú ű ű ü ö ű ö ö ö ű ú ö ö ü ú ü ö ö ö ü ú ö ű

É ö Ű ő ű ő ő ű ű

ű ú Í Ó Á ú Ű ű Ő Ö Á ú Ű Ü ú ú Á ú ű

Adatbányászati szemelvények MapReduce környezetben

ú Ü Í ú ú ú ú ú ú

É Í Á Á É Ü Ó É É É É Í Ó Ó Ő Á Á É Á É É É É Á É É Á Á É É Á É Í

Ö Ö Ú Ó Ö ű Ő Ő ű ű Ü Ő Ó Ő

Ü

É Ö Á Í Á Ó Ö ü

é ú é é é é é é é é é é é é ú é ö é é é ö Ő é é é ú é é é é é é é é ö é é é ö é Ö é é ö é ö é é é ű é ö ö é ö é é ö ö é é ö ö é ö é Ö é ú é é é é é é

ö ő ő ü ü Ó ü ö ű Á ő ő ö ő Á Ó ű ö ü ő ő ű

Ö Ö Ö Ö Ö Á Ű É Ö Ö Ö

ő ó ü ö ő ö ö ő ö ó ű ö ő ó ó ü ő ü ö ű ö ő ó ó ő ö ö ó ő ö ö ő ű ö ő ű ö ö ő ő ő ö ö ú ó ö ö ö ő ő ó ő ü ó ó ű ö ö ü ő ü ö ő ü ő ó ű ö ö ö ó ö ö ö ü

Ó ű ű Á ú ű ű ú ú ú ű ű É ú É Á Á ú ű Ü Á Ü Á ű Ö Ú É Ó É Á Á Á Ű Á úá Á Ö É Ö É Ü

ó ú ú ü ú ő ó ő ő ó ó ó ö ó ü ő ó ő ö ü ü ó ö ő É ó ö ö ö ó ó ö ü ü ö ü ó ó ő ó ü ó ü ü ö ö É ú ó ó ö ú ö ü ü ó ó ó ü Á ö ö ü ó ö ó ö ö ö ö ó ó ö ó ó

í í É í ó ó É ö í ó í ó í ó ó í ó í í ó ó ó í ö ö ö ö í í í ó ó ö ó

ú ú ö ö ü ü ü ü ű ü ü

Á Á Ö Ö Ü É Ö É É Á Ú É É É É Á Á Ö Ö Ő

Ü ü Ü Ö Ó ö ü ö Ó Ú Ó ü Ó ö ö Á ö ö ö ö ü

ó É ó í ó ó í í ö í ó í ö ö ö ü ö ó ó ó ü ú ö ü ó ó ö ö ü ü ü ö ö ó ö í ó ű Ü ó í ú í ö í ö í Í ó ó í í ö ü ö ö í ö í ö ö ö ü ó í ö ö ó í ú ü ó ö

ü ö ö ő ü ó ó ú ó

É Ő ü Ö ö ö ö ű ö ö ü ü ö ü ü Ö ü ö ö ö

ő ö ő ú ő ö ö ő ó ő ö ü ú ö ö ó ő ö ü ó ó ó ó ő ő ő ó ó ú ő ü ő ö ö ó ü ö ö ő ű ö ö ő ú ú ó ö ő ű ö ó

í ó ő í é ö ő é í ó é é ó é í é é í é í íí é é é í é ö é ő é ó ő ő é ö é Ö ü é ó ö ü ö ö é é é ő í ő í ő ö é ő ú é ö é é é í é é í é é ü é é ö é ó í é

ö ö ö ö ö ö ö ü ö ü ö ű ö ú ü ű ö ü Í ö ú ü ü ű ö ú ü Á ü

ú ű ú ú ű ú ű ű ú ű ú ű Á ű ű Á ű ű ú ú ú ú ú ú ű ú ú ú ú ú ú ú ú

ő ő ú ő ó ó ú ő ő ó ő ó ó ú ú ú ü ó Ó ó ó ó ő ő ő ú ű ó ó ő ü ő ó óó ó ó

É Ö É É Ú ü É Ü É ü Ü ü

ő ö ő ű ó ö ó ű Í Ö Ö Á Í Ó Ö Ü É Ö Ö Ö Á Á Ö É Á Ö

Ö ő ü Ö Ö Ő ü ő Ö Ö ü ű Á Í Ö ű ü ő ő ő Ö ü ü ő ő ő Ü ü ő ő ő ü ő ő ü ü

Átírás:

L G L z eseteket homogén csoportokba (ú.n. klaszterekbe) soroljuk. csoportosítás alapja egy adott metrika szerinti közelség, illetve egy adott hasonlósági mérték szerinti hasonlóság. C z esetek egy kategóriaváltozó értékei alapján osztályokba vannak tagolva. feladat az, hogy a többdimenziós térben az osztályokat szeparáló felületekkel elválasszuk. OLYO smert kategóriájú esetek segítségével (tananyag) döntésfüggvényt konstruálunk, amivel ismeretlen kategóriájú esetekhez is tudunk osztályokat rendelni. PÉL G L L ilyen csoportok alakíthatók ki az employee állományban a fizetési adatok (salary, salbegin) alapján? ilyen csoportosulások keletkeznek az országok halmazában, ha az egészségügyi helyzetet jellemzo változókat tekintjük: lifeexpf, lifeexpm, babymort, calories, aids_rt, b_to_d ilyen csoportosulások keletkeznek az országok halmazában, ha a gazdasági helyzetet jellemzo változókat tekintjük: gdp_cap, cropgrow, urban

PÉL G L C OLYO Betufelismerés fizetési adatok mennyire választható szét a jobcat, gender illetve minority kategóriaváltozók alapján? ennyire válnak szét az országok a gazdasági tömörülés (region) alapján? uholdképpontok osztályozása Banki rizikóelemzés: kapjon hitelt? e kapjon? Orvosi diagnosztika: Beteg? em beteg? epülésirányítás: Felszálljon? öröljék? 6 4 0 - Cluster Y -4-6 -4-0 4 6 X

k-közép módszer (-eans Cluster nalysis) L Olyan dinamikus klaszterezo eljárás, amikor elore meg kell adni a klaszterek számát. klaszter-középpontok térbeli helyzetét iterációban állandóan változtatjuk, amíg egy stabil állapot ki nem alakul. z esetvektorok a legközelebbi klaszterközépponthoz lesznek rendelve. lonye: agy esetszámú adatmátrix feldolgozható vele. Hátránya: metrika beépített, körülményes a koordinátasúlyozás lore meg kell adni a klaszterek számát

hierachikus klaszterezés (Hierarchical Cluster nalysis) L gyelemu klaszterekbol kiindulva, minden lépésben a két legközelebb fekvo klasztert összevonva csökkentjük a klaszterek számát, amíg minden eset egyetlen klaszterbe nem kerül. folyamatot regisztráló dendogrammot utólag kielemezve, azt a köztes állapotot fogadjuk el, amikor az összevonás eroltetett volt, azaz az összevont klaszterek elég távol vannak egymástól. lonye: em kell elore tudni a klaszterek számát Változtatható a távolság- és hasonlósági-mérték Hátránya: is dimenziószám esetén indítható el H C H L d( C, C ) VOLG U L legközelebbi-társ távolság legtávolabbi-társ távolság É lasztercentrumok távolsága 4

d( x, y ) VOLG L d( x, y ) VOLG L 5

C Ö BB Ó gy p-dimenziós sokaságot lehet egy k=, vagy dimenziós uklideszi ponthalmazzal vizualizálni. ponthalmaz távolságviszonyai az eredeti sokaság eseteinek távolságviszonyaival nagymértékben egyezik. vizualizálás révén tanulmányozható a statisztikai sokaság térbeli struktúrálódása. Jellegzetes tömörülések, irányok fedezhetok fel az elkészült scatter-grafikonon. L.. eset. eset n. eset 6

Ö BB z esetvektorok egymástól vett nxn-es távolságmátrixa Ó egkonstruálhatók olyan k=, vagy dimenziós vektorok, melyek nxn-es uklideszi távolságmátrixa nagymértékben hasonló -hez. L kicsi 7