L G L z eseteket homogén csoportokba (ú.n. klaszterekbe) soroljuk. csoportosítás alapja egy adott metrika szerinti közelség, illetve egy adott hasonlósági mérték szerinti hasonlóság. C z esetek egy kategóriaváltozó értékei alapján osztályokba vannak tagolva. feladat az, hogy a többdimenziós térben az osztályokat szeparáló felületekkel elválasszuk. OLYO smert kategóriájú esetek segítségével (tananyag) döntésfüggvényt konstruálunk, amivel ismeretlen kategóriájú esetekhez is tudunk osztályokat rendelni. PÉL G L L ilyen csoportok alakíthatók ki az employee állományban a fizetési adatok (salary, salbegin) alapján? ilyen csoportosulások keletkeznek az országok halmazában, ha az egészségügyi helyzetet jellemzo változókat tekintjük: lifeexpf, lifeexpm, babymort, calories, aids_rt, b_to_d ilyen csoportosulások keletkeznek az országok halmazában, ha a gazdasági helyzetet jellemzo változókat tekintjük: gdp_cap, cropgrow, urban
PÉL G L C OLYO Betufelismerés fizetési adatok mennyire választható szét a jobcat, gender illetve minority kategóriaváltozók alapján? ennyire válnak szét az országok a gazdasági tömörülés (region) alapján? uholdképpontok osztályozása Banki rizikóelemzés: kapjon hitelt? e kapjon? Orvosi diagnosztika: Beteg? em beteg? epülésirányítás: Felszálljon? öröljék? 6 4 0 - Cluster Y -4-6 -4-0 4 6 X
k-közép módszer (-eans Cluster nalysis) L Olyan dinamikus klaszterezo eljárás, amikor elore meg kell adni a klaszterek számát. klaszter-középpontok térbeli helyzetét iterációban állandóan változtatjuk, amíg egy stabil állapot ki nem alakul. z esetvektorok a legközelebbi klaszterközépponthoz lesznek rendelve. lonye: agy esetszámú adatmátrix feldolgozható vele. Hátránya: metrika beépített, körülményes a koordinátasúlyozás lore meg kell adni a klaszterek számát
hierachikus klaszterezés (Hierarchical Cluster nalysis) L gyelemu klaszterekbol kiindulva, minden lépésben a két legközelebb fekvo klasztert összevonva csökkentjük a klaszterek számát, amíg minden eset egyetlen klaszterbe nem kerül. folyamatot regisztráló dendogrammot utólag kielemezve, azt a köztes állapotot fogadjuk el, amikor az összevonás eroltetett volt, azaz az összevont klaszterek elég távol vannak egymástól. lonye: em kell elore tudni a klaszterek számát Változtatható a távolság- és hasonlósági-mérték Hátránya: is dimenziószám esetén indítható el H C H L d( C, C ) VOLG U L legközelebbi-társ távolság legtávolabbi-társ távolság É lasztercentrumok távolsága 4
d( x, y ) VOLG L d( x, y ) VOLG L 5
C Ö BB Ó gy p-dimenziós sokaságot lehet egy k=, vagy dimenziós uklideszi ponthalmazzal vizualizálni. ponthalmaz távolságviszonyai az eredeti sokaság eseteinek távolságviszonyaival nagymértékben egyezik. vizualizálás révén tanulmányozható a statisztikai sokaság térbeli struktúrálódása. Jellegzetes tömörülések, irányok fedezhetok fel az elkészült scatter-grafikonon. L.. eset. eset n. eset 6
Ö BB z esetvektorok egymástól vett nxn-es távolságmátrixa Ó egkonstruálhatók olyan k=, vagy dimenziós vektorok, melyek nxn-es uklideszi távolságmátrixa nagymértékben hasonló -hez. L kicsi 7