Cluster Analysis. Potyó László

Hasonló dokumentumok
Correlation & Linear Regression in SPSS

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Klaszterezés, 2. rész

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Construction of a cube given with its centre and a sideline

Statistical Inference

Correlation & Linear Regression in SPSS

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

Statistical Dependence

Ensemble Kalman Filters Part 1: The basics

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Hypothesis Testing. Petra Petrovics.

Csima Judit április 9.

Lecture 11: Genetic Algorithms

Computer Architecture

Minden az adatról. Csima Judit február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41

On The Number Of Slim Semimodular Lattices

Pletykaalapú gépi tanulás teljesen elosztott környezetben

KIEGÉSZÍTŽ FELADATOK. Készlet Bud. Kap. Pápa Sopr. Veszp. Kecsk Pécs Szomb Igény

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Regression

Bevezetés a kvantum-informatikába és kommunikációba 2015/2016 tavasz

Választási modellek 3

Genome 373: Hidden Markov Models I. Doug Fowler

Mapping Sequencing Reads to a Reference Genome

A rosszindulatú daganatos halálozás változása 1975 és 2001 között Magyarországon

EN United in diversity EN A8-0206/419. Amendment

Minta ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA II. Minta VIZSGÁZTATÓI PÉLDÁNY

Regional Expert Meeting Livestock based Geographical Indication chains as an entry point to maintain agro-biodiversity

Performance Modeling of Intelligent Car Parking Systems

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

MATEMATIKA ANGOL NYELVEN

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

Sebastián Sáez Senior Trade Economist INTERNATIONAL TRADE DEPARTMENT WORLD BANK

CONCERTO COMMUNITIES IN EU DEALING WITH OPTIMAL THERMAL AND ELECTRICAL EFFICIENCY OF BUILDINGS AND DISTRICTS, BASED ON MICROGRIDS. WP 5 Del 5.

István Micsinai Csaba Molnár: Analysing Parliamentary Data in Hungarian

Using the CW-Net in a user defined IP network

Eladni könnyedén? Oracle Sales Cloud. Horváth Tünde Principal Sales Consultant március 23.

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Cluster analysis in SPSS

Cloud computing. Cloud computing. Dr. Bakonyi Péter.

Supplementary materials to: Whole-mount single molecule FISH method for zebrafish embryo

Széchenyi István Egyetem

FÖLDRAJZ ANGOL NYELVEN

Angol Középfokú Nyelvvizsgázók Bibliája: Nyelvtani összefoglalás, 30 kidolgozott szóbeli tétel, esszé és minta levelek + rendhagyó igék jelentéssel

COOPERATION IN THE CEREAL SECTOR OF THE SOUTH PLAINS REGIONS STRÉN, BERTALAN. Keywords: cooperation, competitiveness, cereal sector, region, market.

Intelligent Data Processing and Its Applications

Kabos Sándor. Térben autokorrelált adatrendszerek

Efficient symmetric key private authentication

Decision where Process Based OpRisk Management. made the difference. Norbert Kozma Head of Operational Risk Control. Erste Bank Hungary

A modern e-learning lehetőségei a tűzoltók oktatásának fejlesztésében. Dicse Jenő üzletfejlesztési igazgató

A KELET-BORSODI HELVÉTI BARNAKŐSZÉNTELEPEK TANI VIZSGÁLATA

EBBEN A VIZSGARÉSZBEN A VIZSGAFELADAT ARÁNYA

Cloud computing Dr. Bakonyi Péter.


PIACI HIRDETMÉNY / MARKET NOTICE

Société Réaliste / Ocular Braces

FAMILY STRUCTURES THROUGH THE LIFE CYCLE

Phenotype. Genotype. It is like any other experiment! What is a bioinformatics experiment? Remember the Goal. Infectious Disease Paradigm

Supporting Information

Csatlakozás a BME eduroam hálózatához Setting up the BUTE eduroam network

Adatbázis-kezelés ODBC driverrel

3. MINTAFELADATSOR KÖZÉPSZINT. Az írásbeli vizsga időtartama: 30 perc. III. Hallott szöveg értése

Tájékoztató a évi határon átnyúló pénzügyi fogyasztói jogviták rendezésével összefüggő és egyéb nemzetközi tevékenységről

Tavaszi Sporttábor / Spring Sports Camp május (péntek vasárnap) May 2016 (Friday Sunday)

Utasítások. Üzembe helyezés

USER MANUAL Guest user

KOGGM614 JÁRMŰIPARI KUTATÁS ÉS FEJLESZTÉS FOLYAMATA

SQL/PSM kurzorok rész

AZ ACM NEMZETKÖZI PROGRAMOZÓI VERSENYE

Can/be able to. Using Can in Present, Past, and Future. A Can jelen, múlt és jövő idejű használata

A BÜKKI KARSZTVÍZSZINT ÉSZLELŐ RENDSZER KERETÉBEN GYŰJTÖTT HIDROMETEOROLÓGIAI ADATOK ELEMZÉSE

Szívkatéterek hajlékonysága, meghajlítása

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

Web Services. (webszolgáltatások): egy osztott alkalmazásfejlesztési plattform

már mindenben úgy kell eljárnunk, mint bármilyen viaszveszejtéses öntés esetén. A kapott öntvény kidolgozásánál még mindig van lehetőségünk

Contact us Toll free (800) fax (800)

Artificial Neural Networks 3. Department of Cybernetics, CTU Prague.

OLYMPICS! SUMMER CAMP

2. Local communities involved in landscape architecture in Óbuda

16F628A megszakítás kezelése

BKI13ATEX0030/1 EK-Típus Vizsgálati Tanúsítvány/ EC-Type Examination Certificate 1. kiegészítés / Amendment 1 MSZ EN :2014

Create & validate a signature

Nevezze meg a jelölt csontot latinul! Name the bone marked! Nevezze meg a jelölt csont típusát! What is the type of the bone marked?

FOSS4G-CEE Prágra, 2012 május. Márta Gergely Sándor Csaba

Drótposta: ; ; Honlapom:

ELEKTRONIKAI ALAPISMERETEK ANGOL NYELVEN

3. Gyakorlat ellenőrzés nélküli osztályozás

Dependency preservation

Cut-Off Time for Payment Orders, Incoming Payments And Fulfilment Orders

(c) 2004 F. Estrada & A. Jepson & D. Fleet Canny Edges Tutorial: Oct. 4, '03 Canny Edges Tutorial References: ffl imagetutorial.m ffl cannytutorial.m

EN United in diversity EN A8-0206/482. Amendment

Nemzetközi Kenguru Matematikatábor

Descriptive Statistics

MATEMATIKA ANGOL NYELVEN

Tudományos Ismeretterjesztő Társulat

(NGB_TA024_1) MÉRÉSI JEGYZŐKÖNYV

Probabilistic Analysis and Randomized Algorithms. Alexandre David B2-206

MATEMATIKA ANGOL NYELVEN

Cashback 2015 Deposit Promotion teljes szabályzat

}w!"#$%&'()+,-./012345<ya

Átírás:

Cluster Analysis Potyó László

What is Cluster Analysis? Cluster: a collection of data objects Similar to one another within the same cluster Dissimilar to the objects in other clusters Cluster analysis Grouping a set of data objects into clusters Number of possible clusters (Bell) Clustering is unsupervised classification: no predefined classes

General Applications of Clustering Pattern Recognition Spatial Data Analysis Image Processing Economic Science WWW

Examples of Clustering Applications Marketing: Help marketers discover distinct groups in their customer bases, and then use this knowledge to develop targeted marketing program Insurance: Identifying groups of motor insurance policy holders with a high average claim cost City-planning: Identifying groups of houses according to their house type, value, and geographical location

What Is Good Clustering? The quality of a clustering result depends on both the similarity measure used by the method and its implementation. The quality of a clustering method is also measured by its ability to discover some or all of the hidden patterns. Example:

Requirements of Clustering Scalability Ability to deal with different types of attributes Discovery of clusters with arbitrary shape Minimal requirements for domain knowledge to determine input parameters Able to deal with noise and outliers Insensitive to order of input records High dimensionality Incorporation of user-specified specified constraints Interpretability and usability

Similarity and Dissimilarity Between Objects Distances are normally used to measure the similarity or dissimilarity between two data objects Some popular ones include: Minkowski distance: where i = (xi1, xi2,, xip) and j = (xj1, xj2,, xjp) are two p-dimensional data objects, and q is a positive integer

Similarity and Dissimilarity Between Objects If q = 1, d is Manhattan distance If q = 2, d is Euclidean distance d(i,j) 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j)

Categorization of Clustering Methods Partitioning Methods Hierarchical Methods Density-Based Methods Grid-Based Methods Model-Based Clustering Methods

K-means means 1. Ask user how many clusters they d like. (e.g. k=5)

K-means 1. Ask user how many clusters they d like. (e.g. k=5) 2. Randomly guess k cluster Center locations

K-means 1. Ask user how many clusters they d like. (e.g. k=5) 2. Randomly guess k cluster Center locations 3. Each datapoint finds out which Center it s closest to. (Thus each Center owns a set of datapoints)

K-means 1. Ask user how many clusters they d like. (e.g. k=5) 2. Randomly guess k cluster Center locations 3. Each datapoint finds out which Center it s closest to. 4. Each Center finds the centroid of the points it owns

K-means 1. Ask user how many clusters they d like. (e.g. k=5) 2. Randomly guess k cluster Center locations 3. Each datapoint finds out which Center it s closest to. 4. Each Center finds the centroid of the points it owns 5. and jumps there 6. Repeat until terminated!

The GMM assumption There are k components. The i th component is called ω i Component ω i has an associated mean vector μ i μ 1 μ 2 μ 3

The GMM assumption There are k components. The i th component is called ω i Component ω i has an associated mean vector μ i Each component generates data from a Gaussian with mean μ i and covariance matrix σ 2 I Assume that each datapoint is generated according to the following recipe: μ 1 μ 2 μ 3

The GMM assumption There are k components. The i th component is called ω i Component ω i has an associated mean vector μ i Each component generates data from a Gaussian with mean μ i and covariance matrix σ 2 I Assume that each datapoint is generated according to the following recipe: 1. Pick a component at random. Choose component i with probability P(ω i ). μ 2

The GMM assumption There are k components. The i th component is called ω i Component ω i has an associated mean vector μ i Each component generates data from a Gaussian with mean μ i and covariance matrix σ 2 I Assume that each datapoint is generated according to the following recipe: 1. Pick a component at random. Choose component i with probability P(ω i ). 2. Datapoint ~ N(μ i, σ 2 I ) μ 2 x

The General GMM assumption There are k components. The i th component is called ω i Component ω i has an associated mean vector μ i Each component generates data from a Gaussian with mean μ i and covariance matrix Σ i Assume that each datapoint is generated according to the following recipe: 1. Pick a component at random. Choose component i with probability P(ω i ). 2. Datapoint ~ N(μ i, Σ i ) μ 1 μ 2 μ 3

Expectation-Maximization (EM) Solves estimation with incomplete data. Obtain initial estimates for parameters. Iteratively use estimates for missing data and continue until convergence.

EM - algorithm Iterative - algorithm Maximizing log-likelihood function E step M step

Sample 1 Clustering data generated by a mixture of three Gaussians in 2 dimensions number of points: 500 priors are: 0.3, 0.5 and 0.2 centers are: (2, 3.5), (0, 0), (0,2) variances: 0.2, 0.5 and 1.0

Sample 1 Raw data After Clustering 150 (2, 3.5) 250 (0, 0) 100 (0,2) 149 (1.9941, 3.4742) 265 (0.0306, 0.0026) 86 (0.1395, 1.9759)

Sample 2 Clustering three dimensional data Number of points:1000 Unknown source Optimal number of components =? Estimated parameters =?

Sample 2 Raw data After Clustering Assumed number of clusters: 5

Sample 2 table of estimated parameters

References [1] [2] [3] pdf [4] http://www.autonlab.org/tutorials/gmm14.pdf http://www.autonlab.org/tutorials/kmeans11.pdf http://info.ilab.sztaki.hu/~lukacs/adatbanyaea2005/klaszterezes. http://www.stat.auckland.ac.nz/~balemi/data%20mining%20in% 20Market%20Research.ppt [5] http://www.ncrg.aston.ac.uk/netlab