Klaszterezés, 2. rész

Hasonló dokumentumok
Csima Judit április 9.

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Cluster Analysis. Potyó László

Izgalmas újdonságok a klaszteranalízisben

Csima Judit május 10.

Közösség detektálás gráfokban

Minden az adatról. Csima Judit február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Hypothesis Testing. Petra Petrovics.

Csima Judit február 19.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Cluster analysis in SPSS

Construction of a cube given with its centre and a sideline

Statistical Dependence

Csima Judit február 26.

Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok

Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok

Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Correlation & Linear Regression in SPSS

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

7. Régió alapú szegmentálás

Standardizálás, transzformációk

Adatbányászati szemelvények MapReduce környezetben

Correlation & Linear Regression in SPSS

Klaszterelemzés az SPSS-ben

Statistical Inference

Adatbányászat. Klaszterezés Szociális hálózatok. Szegei Tudományegyetem. Lehetetlenségi tétel Hierarchikus eljárások Particionáló módszerek

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Klaszterelemzés az SPSS-ben

Hash-alapú keresések

Pletykaalapú gépi tanulás teljesen elosztott környezetben

Mintavételezés, szűrés, outlierek detektálása

Adatelemzés és adatbányászat MSc

discosnp demo - Peterlongo Pierre 1 DISCOSNP++: Live demo

EEG mérések hardveres és szoftveres validációja

Simon Károly Babes Bolyai Tudományegyetem

IBM SPSS Modeler 18.2 Újdonságok

Bevezetés a kvantum-informatikába és kommunikációba 2015/2016 tavasz

Klaszterezés. Kovács Máté március 22. BME. Kovács Máté (BME) Klaszterezés március / 37

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

A rosszindulatú daganatos halálozás változása 1975 és 2001 között Magyarországon

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Regression

Algoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8.

Random Forests - Véletlen erdők

Phenotype. Genotype. It is like any other experiment! What is a bioinformatics experiment? Remember the Goal. Infectious Disease Paradigm

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

Elemszám becslés. Kaszaki József Ph.D. SZTE ÁOK Sebészeti Műtéttani Intézet

Sztochasztikus kapcsolatok

Társadalmi és gazdasági hálózatok modellezése

Descriptive Statistics

PIACI HIRDETMÉNY / MARKET NOTICE

A BÜKKI KARSZTVÍZSZINT ÉSZLELŐ RENDSZER KERETÉBEN GYŰJTÖTT HIDROMETEOROLÓGIAI ADATOK ELEMZÉSE

Széchenyi István Egyetem

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

Kvantum-informatika és kommunikáció 2015/2016 ősz. A kvantuminformatika jelölésrendszere szeptember 11.

FÖLDRAJZ ANGOL NYELVEN GEOGRAPHY

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Mapping Sequencing Reads to a Reference Genome

Supplementary materials to: Whole-mount single molecule FISH method for zebrafish embryo

CLUSTALW Multiple Sequence Alignment

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

Adatbányászati technikák (VISZM185) 2015 tavasz

Egyrétegű tömörfalapok ragasztási szilárdságának vizsgálata kisméretű próbatesteken

A évi fizikai Nobel-díj

Az objektum leírására szolgálnak. Mire jók? Sokszor maga a jellemző az érdekes: Tömörítés. Objektumok csoportosítására

Ensemble Kalman Filters Part 1: The basics

On The Number Of Slim Semimodular Lattices

Lecture 11: Genetic Algorithms

Választási modellek 3

Supporting Information

Supplementary Figure 1

A számítástudomány alapjai. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem

USER MANUAL Guest user

Esetelemzés az SPSS használatával

Az adatelemzés alapfeladatai

Searching in an Unsorted Database

Performance Modeling of Intelligent Car Parking Systems

Szívkatéterek hajlékonysága, meghajlítása

A logaritmikus legkisebb négyzetek módszerének karakterizációi

KOGGM614 JÁRMŰIPARI KUTATÁS ÉS FEJLESZTÉS FOLYAMATA

Computer Architecture

Utasítások. Üzembe helyezés

Csima Judit április 29.

3. Gyakorlat ellenőrzés nélküli osztályozás

Bioinformatics: Blending. Biology and Computer Science

Diagnosztikai szemléletű talajtérképek szerkesztése korrelált talajtani adatrendszerek alapján

Idősoros adatok bemutatása Dekompozíció Előrejelzés Simító eljárások Távolságmetrikák

Algoritmuselmélet. Gráfok megadása, szélességi bejárás, összefüggőség, párosítás. Katona Gyula Y.

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Előfeldolgozás, exploratory analysis

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

KIEGÉSZÍTŽ FELADATOK. Készlet Bud. Kap. Pápa Sopr. Veszp. Kecsk Pécs Szomb Igény

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))

Csima Judit október 24.

Márkaépítés a YouTube-on

Bird species status and trends reporting format for the period (Annex 2)

Adatbányászat. Klaszterezés Szociális hálózatok Szegedi Tudományegyetem

Átírás:

Klaszterezés, 2. rész Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 208. április 6. Csima Judit Klaszterezés, 2. rész / 29

Hierarchikus klaszterezés egymásba ágyazott klasztereket hoz létre nem kell előre megmondani, hogy hány klasztert szeretnénk, a teljes algo futása után a dendogram vágásaival lehet előálĺıtani különböző számú klasztereket két fő fajtája van: agglomerative és divisive Csima Judit Klaszterezés, 2. rész 2 / 29

Hierarchical Clustering Produces a set of nested clusters organized as a hierarchical tree Can be visualized as a dendrogram A tree like diagram that records the sequences of merges or splits 6 5 0.2 0.5 0. 4 3 4 2 5 2 0.05 3 0 3 2 5 4 6 Tan,Steinbach, Kumar Introduction to Data Mining 4/8/2004 46 Csima Judit Klaszterezés, 2. rész 3 / 29

Két fajta hierarchikus klaszterzés agglomerative: az elején minden ponz külön klaszter minden lépésben összevonom a két legközelebbi klasztert divisive: az elején egy klaszter van az összes ponttal minden lépésben valahogy szétvágom az egyik klasztert Csima Judit Klaszterezés, 2. rész 4 / 29

Agglomerative clustering kell egy távolságfogalom (vagy hasonlóság) a pontokra: L 2 pl. azt is kell definiálnom, hogy mi lesz két klaszter távolsága: sok lehetőség, mindjárt nézzük őket, ezt tároljuk a proximity matrix-ban (itt is tárolhatok hasonlóságot vagy távolságot) algo: az elején minden csúcs egy klaszter, a proximity matrix a pontok közti távolságot vagy hasonlóságot tartalmazza amíg egynél több klaszter van: kiválasztom a két legközelebbi (leghasonlóbb) klasztert, összevonom őket és frissítem a proximity matrix-ot Csima Judit Klaszterezés, 2. rész 5 / 29

Starting Situation Start with clusters of individual points and a proximity matrix p p2 p3 p4 p5.. p p2 p3 p4 p5.... Proximity Matrix p p2 p3 p4 p9 p0 p p2 Tan,Steinbach, Kumar Introduction to Data Mining 4/8/2004 50 Csima Judit Klaszterezés, 2. rész 6 / 29...

Intermediate Situation After some merging steps, we have some clusters C C2 C3 C4 C5 C C3 C4 C C2 C3 C4 C5 Proximity Matrix C2 C5 p p2 p3 p4 p9 p0 p p2 Tan,Steinbach, Kumar Introduction to Data Mining 4/8/2004 5 Csima Judit Klaszterezés, 2. rész 7 / 29...

Intermediate Situation We want to merge the two closest clusters (C2 and C5) and update the proximity matrix. C C2 C C2 C3 C4 C5 C C3 C4 C3 C4 C5 Proximity Matrix C2 C5 p p2 p3 p4 p9 p0 p p2 Tan,Steinbach, Kumar Introduction to Data Mining 4/8/2004 52 Csima Judit Klaszterezés, 2. rész 8 / 29...

After Merging The question is How do we update the proximity matrix? C C2 U C5 C3 C4 C? C3 C4 C2 U C5 C3 C4?????? C Proximity Matrix C2 U C5 p p2 p3 p4 p9 p0 p p2 Tan,Steinbach, Kumar Introduction to Data Mining 4/8/2004 53 Csima Judit Klaszterezés, 2. rész 9 / 29...

Hogyan definiáljuk két klaszter távolságát? MIN vagy single link: két klaszter távolsága/hasonlósága = a legkisebb távolság/legnagyobb hasonlóság, ami felvevődik két, külön klaszterben levő pont között MAX vagy complete link: két klaszter távolsága = a legnagyobb távolság/legkisebb hasonlóság, ami felvevődik két, külön klaszterben levő pont között Csima Judit Klaszterezés, 2. rész 0 / 29

How to Define Inter-Cluster Similarity p p2 p3 p4 p5... p p2 p3 p4 MIN. MAX. Group Average. Distance Between Centroids Other methods driven by an objective function Ward s Method uses squared error p5 Proximity Matrix Tan,Steinbach, Kumar Introduction to Data Mining 4/8/2004 55 Csima Judit Klaszterezés, 2. rész / 29

How to Define Inter-Cluster Similarity p p2 p3 p4 p5... p p2 p3 p4 MIN. MAX. Group Average. Distance Between Centroids Other methods driven by an objective function Ward s Method uses squared error p5 Proximity Matrix Tan,Steinbach, Kumar Introduction to Data Mining 4/8/2004 56 Csima Judit Klaszterezés, 2. rész 2 / 29

Cluster Similarity: MIN or Single Link Similarity of two clusters is based on the two most similar (closest) points in the different clusters Determined by one pair of points, i.e., by one link in the proximity graph. I I2 I3 I4 I5 I.00 0.90 0.0 0.65 0.20 I2 0.90.00 0.70 0.60 0.50 I3 0.0 0.70.00 0.40 0.30 I4 0.65 0.60 0.40.00 0.80 I5 0.20 0.50 0.30 0.80.00 2 3 4 5 Tan,Steinbach, Kumar Introduction to Data Mining 4/8/2004 59 Csima Judit Klaszterezés, 2. rész 3 / 29

Cluster Similarity: MAX or Complete Linkage Similarity of two clusters is based on the two least similar (most distant) points in the different clusters Determined by all pairs of points in the two clusters I I2 I3 I4 I5 I.00 0.90 0.0 0.65 0.20 I2 0.90.00 0.70 0.60 0.50 I3 0.0 0.70.00 0.40 0.30 I4 0.65 0.60 0.40.00 0.80 I5 0.20 0.50 0.30 0.80.00 2 3 4 5 Tan,Steinbach, Kumar Introduction to Data Mining 4/8/2004 63 Csima Judit Klaszterezés, 2. rész 4 / 29

Klaszterek távolsága - átlagos távolság átlagos távolság: minden nem egy klaszterben levő pontpár távolságát figyelembe vesszük, ezt átlagoljuk dist(p, q) p C i,q C j dist(c i, C j ) = C i C j ugyanez mehet hasonlósággal is távolság helyett Csima Judit Klaszterezés, 2. rész 5 / 29

Klaszterek távolsága centroidok használatával centroidok távolsága alapján összevonni: a legközelebbi centroidpárhoz tartozó klaszterek vonódnak össze Ward s method: azt a két klasztert vonjuk össze, amelyik esetén az SSE legkevésbé nő Csima Judit Klaszterezés, 2. rész 6 / 29

Hierarchikus klaszterezés: előnyök, hátrányok ha két klasztert összevonok, azt már nem lehet visszacsinálni: érzékeny a zajra és outlier-ekre n pont esetén O(n 3 ) a lépésszám, mert legfeljebb n darab O(n 2 )-es menet van ha a klaszterezési feladat egy hirarchia keresést jelent (pl. taxonómia), akkor pont jó ez klaszterszám meghatározható az algo futása után sokszor Kmeans-szel együtt használják: egy kisebb mintán hierarchikus klaszterezés, az így kapott klaszterek centroidjaival kezdve pedig egy Kmeans ezután Csima Judit Klaszterezés, 2. rész 7 / 29

Klaszterezés értékelése, motiváció szeretnénk valahogyan mérni, hogy mennyire jó egy klaszterzés miért? el akarjuk kerülni, hogy ott is klasztert lássunk, ahol nincs: vannak-e valós klaszterek az adatban vagy csak mi találtunk? két különböző klaszterezést ill. klaszterező algoritmust össze akarunk hasonĺıtani ez nehezebb, mint az osztályozás esetén volt Csima Judit Klaszterezés, 2. rész 8 / 29

Clusters found in Random Data 0.9 0.9 0.8 0.8 Random Points 0.7 0.6 0.5 0.7 0.6 0.5 DBSCAN 0.4 0.4 0.3 0.3 0.2 0.2 0. 0. 0 0 0.2 0.4 0.6 0.8 0 0 0.2 0.4 0.6 0.8 0.9 0.9 K-means 0.8 0.7 0.6 0.8 0.7 0.6 Complete Link 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0. 0. 0 0 0.2 0.4 0.6 0.8 0 0 0.2 0.4 0.6 0.8 Tan,Steinbach, Kumar Introduction to Data Mining 4/8/2004 84 Csima Judit Klaszterezés, 2. rész 9 / 29

Nehézségek osztályozásnál volt jó mérőszám: ismertek a valódi címkék, ezek alapján accuracy, precision, recall, F-measure most (általában) külső segítség nélkül, csak az adatok alapján kell megítélni egy klaszterezés jóságát több megközeĺıtés van Csima Judit Klaszterezés, 2. rész 20 / 29

Lehetséges értékelés külső címkéket használva van valami címkézés, ami ismert (szakértő is osztályozta az eseteket) ekkor hasonló van, mint az osztályozás: entrópia, purity, F-measure csak itt a címke a klaszter neve és az a kérdés, hogy ez mennyire esik egybe a szakértő csoportosításával Csima Judit Klaszterezés, 2. rész 2 / 29

External Measures of Cluster Validity: Entropy and Purity Tan,Steinbach, Kumar Introduction to Data Mining 4/8/2004 03 Csima Judit Klaszterezés, 2. rész 22 / 29

Proximity matrix-szal vett korreláció proximity matrix: ki kihez van közel, két pont mennyire hasonló klasztermátrix (incidence matrix) : A ij =, ha a két pont ugyanott van és 0, ha nem nézzük meg, hogy ez a két mátrix mennyire hasonló hogyan nézzük meg? korreláció a szemünkkel Csima Judit Klaszterezés, 2. rész 23 / 29

Measuring Cluster Validity Via Correlation Correlation of incidence and proximity matrices for the K-means clusterings of the following two data sets. 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 Corr = -0.9235 Corr = -0.580 Tan,Steinbach, Kumar Introduction to Data Mining 4/8/2004 88 Csima Judit Klaszterezés, 2. rész 24 / 29

Using Similarity Matrix for Cluster Validation Order the similarity matrix with respect to cluster labels and inspect visually. 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. Similarity 0 Tan,Steinbach, Kumar Introduction to Data Mining 4/8/2004 89 Csima Judit Klaszterezés, 2. rész 25 / 29

Using Similarity Matrix for Cluster Validation Clusters in random data are not so crisp 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. Similarity 0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 K-means Tan,Steinbach, Kumar Introduction to Data Mining 4/8/2004 9 Csima Judit Klaszterezés, 2. rész 26 / 29

Using Similarity Matrix for Cluster Validation Clusters in random data are not so crisp 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. Similarity 0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 Complete Link Tan,Steinbach, Kumar Introduction to Data Mining 4/8/2004 92 Csima Judit Klaszterezés, 2. rész 27 / 29

SSE használata a klaszterezés értékelésére két klaszterezés összehasonĺıtható így: melyiknek kisebb az SSE-je? egy adott klaszterezés jóságának megítélése: mekkora az esélye, hogy egy adott elemszámú random mintában ekkora SSE jön ki? ehhez generálok sok véletlen mintát és megnézem, hogy milyen eloszlás lesz az SSE-re ha úgy tűnik, hogy kicsi annak az esélye, hogy véletlenül olyan kicsi SSE jön ki, mint a miénk, akkor ez vleg egy jó klaszterezés Csima Judit Klaszterezés, 2. rész 28 / 29

Statistical Framework for SSE Example Compare SSE of 0.005 against three clusters in random data Histogram shows SSE of three clusters in 500 sets of random data points of size 00 distributed over the range 0.2 0.8 for x and y values 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 50 45 40 35 30 25 20 5 0 5 0 0.06 0.08 0.02 0.022 0.024 0.026 0.028 0.03 0.032 0.034 Tan,Steinbach, Kumar Introduction to Data Mining 4/8/2004 97 Csima Judit Klaszterezés, 2. rész 29 / 29