Adatbányászat. Klaszterezés Szociális hálózatok. Szegei Tudományegyetem. Lehetetlenségi tétel Hierarchikus eljárások Particionáló módszerek

Hasonló dokumentumok
Adatbányászat. Klaszterezés Szociális hálózatok Szegedi Tudományegyetem

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

Klaszterezés. Kovács Máté március 22. BME. Kovács Máté (BME) Klaszterezés március / 37

Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok

Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok

Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Szociális hálózatok Gráf alapú módszerek. Adatbányászat. Klaszterezés Szociális hálózatok. Szegedi Tudományegyetem. Adatbányászat

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Klaszterezés, 2. rész

7. Régió alapú szegmentálás

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Adatelemzés és adatbányászat MSc

Közösség detektálás gráfokban

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Képrekonstrukció 9. előadás

Döntéselőkészítés. VII. előadás. Döntéselőkészítés. Egyszerű Kőnig-feladat (házasság feladat)

Izgalmas újdonságok a klaszteranalízisben

Adatbányászati szemelvények MapReduce környezetben

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

A segédletben található esetleges hibákkal kapcsolatos visszajelzéseket szívesen veszem.

Hasonlóság, távolság LSH Bloom filterek. Adatbányászat. Mértékek hasonlóságok, távolságok Minhash és LSH. Szegedi Tudományegyetem.

Összeállította: dr. Leitold Adrien egyetemi docens

Képszegmentáló eljárások. Orvosi képdiagnosztika 2018 ősz

A maximum likelihood becslésről

Adatszerkezetek 2. Dr. Iványi Péter

Számítógépes döntéstámogatás. Genetikus algoritmusok

Nagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet

Sztochasztikus folyamatok alapfogalmak

Miskolci Egyetem Gépészmérnöki és Informatikai Kar Informatikai Intézet Alkalmazott Informatikai Intézeti Tanszék

Szalai Péter. April 17, Szalai Péter April 17, / 36

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Szepesvári Csaba ápr. 11

Feladatok a Gazdasági matematika II. tárgy gyakorlataihoz

Infobionika ROBOTIKA. X. Előadás. Robot manipulátorok II. Direkt és inverz kinematika. Készült a HEFOP P /1.0 projekt keretében

Kiegészítő részelőadás 1. Az algoritmusok hatékonyságának mérése

Fraktál alapú képtömörítés p. 1/26

2. ELŐADÁS. Transzformációk Egyszerű alakzatok

Gráfok 2. Legrövidebb utak, feszítőfák. Szoftvertervezés és -fejlesztés II. előadás. Szénási Sándor

Programozási módszertan. Mohó algoritmusok

Algoritmusok helyességének bizonyítása. A Floyd-módszer

Hajder Levente 2017/2018. II. félév

Inferencia valószínűségi modellekben

Klaszterezés Alapok A hasonlóság és távolság tulajdonságai

Principal Component Analysis

XVIII. Nemzetközi Magyar Matematika Verseny

Vektorok, mátrixok, lineáris egyenletrendszerek

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Szociális hálók klaszterezése

Társadalmi és gazdasági hálózatok modellezése

Rekonstrukciós eljárások. Orvosi képdiagnosztika 2017 ősz

Algoritmusok és adatszerkezetek II.

IBM SPSS Modeler 18.2 Újdonságok

Felvételi tematika INFORMATIKA

A valós számok halmaza

Algoritmuselmélet. Legrövidebb utak, Bellmann-Ford, Dijkstra. Katona Gyula Y.

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek

A Termelésmenedzsment alapjai tárgy gyakorló feladatainak megoldása

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

Bevezetés Standard 1 vállalatos feladatok Standard több vállalatos feladatok 2017/ Szegedi Tudományegyetem Informatikai Intézet

Vektorterek. =a gyakorlatokon megoldásra ajánlott

Algoritmizálás. Horváth Gyula Szegedi Tudományegyetem Természettudományi és Informatikai Kar

Kódverifikáció gépi tanulással

Algoritmusok bonyolultsága

Digitális képek szegmentálása. 5. Textúra. Kató Zoltán.

Térinformatikai adatszerkezetek

A médiatechnológia alapjai

Standardizálás, transzformációk

Algoritmizálás, adatmodellezés tanítása 8. előadás

Optimális mérési elrendezés hidraulikus hálózatokon

Elliptikus eloszlások, kopuláik. 7. előadás, március 25. Elliptikusság tesztelése. Arkhimédeszi kopulák

Együttmőködés és innováció

Az optimális megoldást adó algoritmusok

Sapientia - Erdélyi Magyar TudományEgyetem (EMTE) Csíkszereda IRT- 4. kurzus. 3. Előadás: A mohó algoritmus

y ij = µ + α i + e ij

Termelés- és szolgáltatásmenedzsment

Lineáris regressziós modellek 1

Példa Hajtsuk végre az 1 pontból a Dijkstra algoritmust az alábbi gráfra. (A mátrixban a c i j érték az (i, j) él hossza, ha nincs él.

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Minden egész szám osztója önmagának, azaz a a minden egész a-ra.

Programozási módszertan. Dinamikus programozás: Nyomtatási feladat A leghosszabb közös részsorozat

Az Országos kompetenciamérés (OKM) tartalmi kerete. a 20/2012. (VIII. 31.) EMMI rendelet 3. melléklete alapján

Ismeretlen ke phalmaz hasonlo objektumainak o sszerendele se automatikus klasztereze ssel

Opkut deníciók és tételek

9. Szegmentálás. Kató Zoltán. Képfeldolgozás és Számítógépes Grafika tanszék SZTE (

Nagy Gábor compalg.inf.elte.hu/ nagy ősz

dimenziója Szirmay-Kalos László N= 1/r D D= (logn) / (log 1/r) D= (log4) / (log 3) = 1.26 N = 4, r = 1/3 Vonalzó ( l ) db r =1/3 N = 4 r 2 N 2 N m r m

Kauzális modellek. Randall Munroe

Algoritmusok bonyolultsága

Klaszter-analízis és alkalmazásai

Panorámakép készítése

Gráfalgoritmusok ismétlés ősz

és annak H részcsoportja úgy, hogy a [H, G] intervallum (azaz a G-beli, H-t tartalmazó részcsoportok hálója) L-lel izomorf legyen?

Molekuláris dinamika I. 10. előadás

Lineáris leképezések, mátrixuk, bázistranszformáció. Képtér, magtér, dimenziótétel, rang, invertálhatóság

Kupac adatszerkezet. A[i] bal fia A[2i] A[i] jobb fia A[2i + 1]

A digitális számítás elmélete

R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský

Átírás:

Adatányászat Klaszterezés Szociális hálózatok Szegei Tudományegyetem Adatányászat

Mit várhatunk egy klaszterezőtől? Az ojektumok olyan csoportjainak megtalálása, hogy az egy csoportan levő ojektumok hasonlóak lesznek egymáshoz, mint a más csoportan levőkhöz Pl. vásárlói csoportok meghatározása, weoldalak csoportosítása Adatányászat

Formálisaan mit várjunk el egy jó klaszterezéstől? Adott pontok egy S halmaza, melyeken legyen értelmezve d : S S R+ {} távolság(metrika) f (d, S) klaszterfüggvény S egy Γ particionálását adja vissza Skála invariancia: d, α > f (d, S) = f (αd, S) Gazdagság: f segítségével legyen előállítható S minden particionálása Γ d : f (d, S) = Γ Konzisztencia: f (d, S) = Γ f (d, S) = Γ, amennyien d d-nek egy Γ-transzformációja d egy Γ-transzformációja d, amennyien a Γ felontás mellett minden azonos klaszteren lévő (i, j) pontpárra d (i, j) d(i, j), továá d (k, l) d(k, l) az eltérő klaszteree tartozó pontpárokra Adatányászat

Kleinerg lehetetlenségi tétele (22) Nem adható klaszterező eljárás, amely a skála invariancia, gazdagság és konzisztencia jó tulajdonságaival egyszerre írna Legjo eseten a három tulajdonságól kettőt választhatunk egy klaszterező eljárás tekintetéen Adatányászat

Lehet még ennél is rossza? Dimenzionalitás átka Magas dimenzióan a legtö pont távolsága hasonló(an magas), nincs különöse értelme közelségről eszélni Nem Euklideszi terek: pontok átlaga nem értelmezhető Adatányászat

Klaszterezés lehetséges csoportosítása Klaszterezés stílusa szerint Hierarchikus klaszterezés: a pontok klaszterstruktúráját klaszterek egymása ágyazott rendszereként adja meg Particionáló klaszterezés: csupán a pontok diszjunkt részhalmazait határozza meg Gráf alapú/távolság alapú klaszterezők Milyen tereken és adattípusokon tud dolgozni? Adatányászat

Hierarchikus klaszterezők Felülről lefele, vagy alulról felfele haladó eljárások Összekötő (linkage) algoritmuscsalád/agglomeratív klaszterezés kezdeten minden pont alkosson egy önálló klasztert while (megállási feltétel nem teljesül) do : [Ci, Cj ] := összevonásra legalkalmasa klaszterek 4: Ck = Ci Cj 5: end while 1: 2: a megállási feltétel, valamint az összevonásra legalkalmasa klaszterek definiálásának módosításával tö, változatos viselkedésű algoritmus kapható Adatányászat

Hierarchikus klaszterezés dendrogram Adatányászat

Hierarchikus klaszterezés klaszterek kialakítása Adatányászat

Statégiák Ci és Cj összevonásásra Mi legyen i és j, ha k klaszter közül kell válasszunk (xi Ci, xj Cj ) (i, j) = arg (i, j) = arg (i, j) = arg (i, j) = arg min min min(d(xi, xj )) P P 1 ( Ci C xi xj d(xi, xj )) j min r (Ci Cj ), ahol r (C ) = max d(x, µc ) min d(ci Cj ), ahol d(c ) = max d(x, y ) 1 i,j k,i6=j 1 i,j k,i6=j 1 i,j k,i6=j 1 i,j k,i6=j x C x,y C Mi a klasztersugár (r (C )) és átmérő (d(c )) közötti összefüggés? Adatányászat

Lehetséges megállási feltételek Klaszterek számának előre definiálásával Maximum t távolsággal társítható élek ehúzása Akármi, amit a klaszterek összevonási stratégiáihoz rokoníthatunk (pl. az átlagos klaszterátmérők drasztikus növekménye) Nem állunk meg, a teljes fára vágyunk (filogenetikus fák) Adatányászat

Hierarchikus klaszterezés nem Euklideszi tereken Ha az adataink sztringek, melyek távolságát szerkesztési távolsággal mérjük, hogy határozzuk meg klaszterek összevonása után az új klaszter közepét? medoid /klasztroid : C klaszter azon eleme, melyhez képest a töi klaszterelem összességéen a lehető legközele van (pl. átlagos, maximális,... értelemen) Adatányászat

Medoidok Példa ecda aec aecd acd ecda 4 2 5 ecda aec aecd acd Összeg 11 9 7 11 aec 4 2 Max 5 4 5 aecd 2 2 acd 5 Négyzetösszeg 45 29 17 4 Adatányászat

Medoidok Példa Különöző aggregációk (összeg/max/négyzetösszeg) alkalmazása különöző medoidokra vezethet A B C D A 1 5 B 4 A B C D Összeg 9 1 11 14 C 1 4 6 D 5 6 Max 5 4 6 6 Négyzetösszeg 5 4 5 7 Adatányászat

Hierarchikus klaszterező hatékonysága Amennyien n pontunk van, az i. lépésen O((n i)2 ) művelettel megoldható két klaszter összevonása Mivel O(n) összevonás lehetséges, ezért O(n ) műveletigényű n P 2 a teljes algoritmus ( i 2 = n + n2 + n6 = O(n )) i=1 Hogy javítanánk? Páronkénti távolságok meghatározása O(n2 ) Tároljuk ezeket prioritási soran. Mi enne a jó? Az eredeti műveletigény O(n2 log n)-re redukálható Adatányászat

k-közép módszer Nem kapunk hierarchikus struktúrát vissza Jellemzően előre ismertnek veszi a meghatározandó klaszterek k számát Mindössze az adatpontok klaszterközepekhez való rendelését végzi Ehhez megkeresi a legjo klaszterközepeket valamilyen célfüggvény minimalizálása mellett, pl. SSE = k X X k xj µi k2, i=1 xj Ci ahol µi az i klaszterhez rendelt középpont (centroid) Érdekesség: Gaussian Mixture modell közeli rokona Expectation Maximization Adatányászat

k-közép módszer a klaszterközepek meghatározására inicializáljuk a k klaszterközéppontot: µ = [µ1,..., µk ] 2: while (megállási feltétel nem teljesül) do 4: 6: 8: 1: 12: 14: µnew := zeros(k, m) clustersizes := zeros(1, k) for i = 1 to n do c := arg minj xi µj 2 µnew (c) := µnew (c) + xi clustersizes(c) := clustersizes(c) + 1 end for for i = 1 to k do µnew (i) = µnew (i)/clustersizes(i) end for µ = µnew end while Adatányászat

A k-közép eljárás illusztráció: 1. lépés Iteration numer 1 6 5 4 2 1-2 2 4 6 Adatányászat 8 1

A k-közép eljárás illusztráció: 9. lépés Iteration numer 9 6 5 4 2 1-2 2 4 6 Adatányászat 8 1

k-közép eljárás prolémái Felteszi az adatan fellelhető csoportok számának előzetes ismeretét Kezdeti kalszterközepekre való érzékenység Nagy klaszterek jogtalan hátránya sorolása Zajos adatokra való érzékenység Szaályos alakú (és nem túl nagy) régiók felismeréséen jó Adatányászat

Megoldási javaslatok a k-közép eljárás prolémáira Valamilyen jósági mérőszám mellett különöző k-k kipróálása mellet egy ésszerű választást végrehajtani Kezdőpontok megfelelő inicializálása µi := x X : µi 6= µj i 6= j Folyamatosan válasszunk új elemeket, hogy azok minimális távolsága a már meghatározott centroidokhoz maximális legyen Algoritmus töszöri végrehajtása, klaszterek összeolvasztása utófeldolgozásként, amennyien szükséges Adatányászat

BFR (Bradley, Fayyad, Reina) algoritmus Erős feltételezés: a d-dimenziós klaszterek egyes dimenziói egymástól független Gauss eloszlásokkal írhatók le A pontokat végigolvassuk, de ahelyett, hogy mindegyiket tárolnánk, azokkal a pontokkal, amelyekről kielégítő valószínűséggel feltételezhető, hogy egy már megkezdett klasztere fog tartozni csak frissítjük a klaszterközép statisztikáját A klaszterközepeket 2d + 1 értékkel írjuk le: klaszterhez rendelt pontok száma, azok egyes dimenziónkénti elemeinek összege, valamint négyzetösszegük Mahalanois távolsággal ecsülhetjük s a már megkezdett 2 d P xi µi klaszterközepektől vett távolságot formáan. σi i=1 Most miért így? Adatányászat