Az adatelemzés alapfeladatai

HTML
DOWNLOAD

Méret: px

Mutatás kezdődik a ... oldaltól:

Download "Az adatelemzés alapfeladatai"

Irén Tamás
7 évvel ezelőtt
Látták:

Az adatelemzés alapfeladatai 2017 ősz 6./7. alkalom Kocsis Imre ikocsis@mit.bme.

1 Az adatelemzés alapfeladatai 2017 ősz 6./7. alkalom Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Hibatűrő Rendszerek Kutatócsoport Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék 1

2 MACHINE LEARNING / DATA MINING: ALAPFELADATOK 2

3 Adatelemzés: legfontosabb problémák Csoportosítás (clustering) Osztályozás (classification) Asszoc. szabályok (assoc. rules) Regresszió (regression) 3

4 Probléma-osztály; Szemléltetés; (Egy algoritmus kivonata) Megközelítés Fő cél: orientáció Deep learning, TensorFlow,... N.B. egyre kevésbé kézműves tevékenység o 10 Algorithms every Data Scientist has to know o SaaS/PaaS o Lásd később 4

5 Csoportosítás

6 K-means Adatpontok: vektortér Klaszter reprezentációja: súlyponttal / középponttal (vektor-átlag) r(c i ): i-edik klaszter reprezentánsa Minimalizálandó a négyzetes távolságösszeg, mint hiba: E C = k i=1 u C i d u, r C i 2

7 Demo 7

Egy megoldás {r C 1, r C 2,, r(c k )} repr.

C i u r(c j ) 1 C j r(c h ) 1 C h v C j v v C h v}

8 Egy megoldás {r C 1, r C 2,, r(c k )} repr. kezdeti halmaza while r(c i ) változik do for u D adott sorrendben do return C h u klaszter-indexe j argmin i d(u, r(c i )) if h j then { C j C j u C i C i u r(c j ) 1 C j r(c h ) 1 C h v C j v v C h v} Régi klaszter Új klaszter Itt rögtön újra is számoljuk

9 Alapkérdések Klasztereken belül maximális homogenitás o nagy hasonlóság o kis távolság Klaszterek között nagy távolság o kis hasonlóság különböző klaszterek elemei között Hasonlósági mérce: similarity metric o Kategorikus változókra nehéz o Skálatranszformáció kellhet o Lehet választani... o Hierarchikus klaszterezés: dissimilarity metric Hasonlósági küszöb választása? Optimális klaszterszám? 9

10 Néhány távolság-mérték (0,0) és (1,1) távolsága? 10

11 Mahalanobis távolság? Pont és eloszlás távolsága (S: kov-mátrix) Szemléletesen : 11

12 Lineárisan nem szeparálható klaszterek: sűrűség alapú klaszterezés További változatok packing together closely grouped points Pl. DBSCAN ( Density-based spatial clustering of applications with noise ) o Magpontok: legalább minpts pont e távolságon belül o Sűrűség-elérhető pontok o Outlierek 12

13 (Agglomeratív) hierarchikus klaszterezés CSAK KITEKINTÉS 13

14 Osztályozás Képosztályozás: a képen látható objektum madár vagy repülő?

15 Osztályozás Levelek osztályozása: SPAM vagy nem SPAM?

16 Osztályozás Szabályok alapján Severity osztályozása Kép forrása:

17 Döntési fák (Titanic, túlélési esélyek) Túlélés esélye -> osztály tisztasága Number of siblings or spouses aboard Megfigyelések aránya

18 ~= klaszterezés Klaszterezés és klasszifikáció alapfeladat Semi-supervised ~= klasszifikáció Kép forrása: Ramaswamy S, Golub T R JCO 2002;20:

általánosítható Nem felügyelt tanulás o Nincs meg az elvárt kimenet o Visszajelzés nélkül építi a modellt

19 Felügyelt és nem felügyelt tanulás Felügyelt tanulás o Adott néhány pontra az elvárt kimenet is o a tanuló példákból való általánosítás o Output: függvény a meglévő mintapontokra jól képez le megfelelően általánosítható Nem felügyelt tanulás o Nincs meg az elvárt kimenet o Visszajelzés nélkül építi a modellt Tanulóhalmaz: amin építjük a modellt Teszthalmaz: amin ellenőrizzük o szabályok, összefüggések keresése (ismeretfeltárás)

20 Demo R party csomag Conditional Inference Tree, iris o Hogy ez mi, azt nem kezdjük itt nagyon részletezni o Party ctree dokumentáció: Roughly, the algorithm works as follows: 1) Test the global null hypothesis of independence between any of the input variables and the response (which may be multivariate as well). Stop if this hypothesis cannot be rejected. Otherwise select the input variable with strongest association to the response. This association is measured by a p-value corresponding to a test for the partial null hypothesis of a single input variable and the response. 2) Implement a binary split in the selected input variable. 3) Recursively repeat steps 1) and 2). 20

Demo R party csomag Conditional Inference Tree, iris o Hogy ez mi, azt nem kezdjük itt nagyon részletezni o Party ctree dokumentáció: Roughly, the algorithm works as follows: Kis 1) érték Test the

21 Demo R party csomag Conditional Inference Tree, iris o Hogy ez mi, azt nem kezdjük itt nagyon részletezni o Party ctree dokumentáció: Roughly, the algorithm works as follows: Kis 1) érték Test the (tip. global 0.05) null indikatív hypothesis a (függetlenségi) of independence hipotézis between ellen any of the input variables and the response (which may be multivariate as well). Stop if this hypothesis cannot be rejected. Otherwise select the input variable with strongest association to the response. This association is measured by a p-value corresponding to a test for the partial null hypothesis of a single input variable and the response. 2) Implement a binary split in the selected input variable. 3) Recursively repeat steps 1) and 2). Pl. entrópia-csökkenés maximalizálásával: a split csökkenti az össz-entrópiát (alágak entrópiájának súlyozott összege) 21

22 Demo 22

23 Bináris döntések jóságának mérése 23

Érzékenység vagy specifikusság a fontos? További jellemzők: https://en.

24 Érzékenység vagy specifikusság a fontos? További jellemzők:

25 Asszociációs szabályok

Tx DB-k: sör + pelenka + fejfájáscsillapító Adatkeretre is működik Sokszor igaz

26 Alapfogalmak Asszoc. szabályok: elemhalmazok közötti asszociáció vagy korreláció o if LEFT then RIGHT Pl. Tx DB-k: sör + pelenka + fejfájáscsillapító Adatkeretre is működik Sokszor igaz Ritkán téved Nem véletlen support LEFT RIGHT = N BOTH N TOTAL confidence LEFT RIGHT = N BOTH N LEFT lift LEFT RIGHT = confidence(left RIGHT) N RIGHT 26

27 Alapfogalmak lift B 1 = 1.56 P({B;1}) P B; P({ ;1}) >1: többször fordulnak elő együtt, mint várható o ha pelenka, akkor többször sör <1: kevesebbszer fordulnak elő együtt, mint várható Lásd még: 27

28 Néhány megfontolás Potenciálisan rengeteg szabály Amit szeretnénk: elég magas confidence és support Redundanciák is lehetnek A legérdekesebbeket bányásszuk ki o Valamilyen érdekességi metrika alapján 28

29 Demo (Titanic, ismét) 29

30 Regresszió

31 f függvény, bemenet: az attribútumok értéke, kimenet: megfigyelések legjobb közelítése ökölszabály Példa: testtömeg/magasság együttes eloszlás valójában egyenesre illeszthető Regresszió

32 Regressziós módszerek Alapelv: Véletlen változó Közelítés t Y f t Hiba Jósolt esemény Átlagos hiba (mean error) Becsült érték Y f ( X, X,..., X ) 1 2 n ME n t 1 Y t n F t Megfigyelhető változók Mért érték

33 Lineáris regresszió Egyszerű lin. függvény illesztése az adatokra o nem vár alapvető változást a rendszer viselkedésében Y a bx Legkisebb négyzetek módszere o keressük azokat az a,b paramétereket, amelyekre n n 2 t t t t 1 t 1 minimális (Sum of Squared Errors) 2 SSE Y F cél: n n 2 2 Y F Y a bx minimalizálása t t t t t 1 t 1

34 Zárt alak: levezetés (parc. deriválás) n 2 d Y t a bx t n t 1 2 Yt a bx t 0 da n 2 t 1 t 1 d Y t a bx t n t 1 Xt Yt a bx t 0 db t 1 n na Y bx a Y bx t t t t t t t t t t t t t 1 n t 1 t 1 n t 1 t 1 n t 1 t 1 t n n X Y Y bx bx X Y X Y b X X b Xt 0 t 1 n n n n n n b n n n n X Y X Y t t t t t 1 t 1 t 1 n n 2 2 n Xt Xt t 1 t 1 Xi, Yi a mért értékpárok (pl. idő, terhelés)

35 Ismétlés: Anscombe négyese Legjobban illeszkedő egyenes mindenre van Minőségileg különböző adatpontokra is

36 Demo 36

37 Néhány tulajdonság 0-1; a várhatóérték körüli varabilitás mekkora részét magyarázza a modell (de: bias!) Kvantilisek: azonos valószínűségű intervallumokat adó vágáspontok (2-kvantilis: medián) 37

38 Néhány tulajdonság Tfh. A hiba ftlen, normál eloszlású, 0 várhatóértékű és konstans szórású. Szinte biztos, hogy ide esik az előrejelzés (ált. 95%) Szinte biztos, hogy a függő változó átlaga ide esik (ált. 95%) 38

Adatelemzés: legfontosabb problémák Idősorelemzés- és előrejelzés Anomália-detektálás (anomaly detection) Structured prediction Asszoc. szabályok (assoc.

39 Adatelemzés: legfontosabb problémák Idősorelemzés- és előrejelzés Anomália-detektálás (anomaly detection) Structured prediction Asszoc. szabályok (assoc. rules) Mintakeresés (freq. pattern mining) Osztályozás (classification) Csoportosítás (clustering) Regresszió (regression) Feature selection Dimensionality reduction Feature extraction Graph analysis 39

40 Principal Component Analysis Ortogonális transzformáció olyan ortogonális bázisra (lineárisan független változók; főkomponensek ), ahol o Az első komponens varianciája a lehető legnagyobb o Az i-edik varianciája a lehető legnagyobb úgy, hogy merőleges legyen az eddigiekre. Értelme: lehet, hogy összvarianciát leíró komponens jóval kevesebb lesz, mint változó Nem faktoranalízis; az látens változók által okozott közös varianciát keres o És ezzel felteszi egy mögöttes modell létezését o Az Exploratory Factor Analysis tartalmazhat PCA-szerű lépést 40

41 Principal Component Analysis Eltolás a várhatóértékbe + utána forgatás Skálaérzékeny, de lehet normalizálva is csinálni (pl. Z-score-ra) Ennek persze megint lehetnek nem kívánt hatásai Matematikáját nem tárgyaljuk 41

42 (Implicit) feltételezés: 2 komponens elégségesen leírja Biplot Komponensenkénti koordináták (score-ok) + Az eredeti változók súlya ( loading ) az első két faktorban 42 Demo

43 Gépi tanulás 43

44 Adatbányászat 44

45 ML vs DM 45

46 ML alapú üzleti intelligencia alkalmazások 46

47 Machine Learning, Data Mining, statisztika Az eszközök és a DNS ugyanaz; különböző kultúrák Statisztika: (stochasztikus) adatmodellezés ML: informatikusok tanuló programot akartak DM: tudás kinyerése az adatokból (EDA...stat. Modellezés) Lásd [2][3] 47

48 Közel ugyanaz Lásd [4] 48

49 AUTOMATIZÁLT ADATELEMZÉS: IBM WATSON ANALYTICS 49

50 Automatizált adatelemzés IBM Watson Analytics Automatikus predikció 50

51 Automatizált adatelemzés IBM Watson Analytics Érdekes asszociációk automatikus feltárása Automatizált adatminőségértékelés 51

52 IRODALOM 52

53 Javasolt magyar nyelvű anyagok Helyenként nagyon mély, de kiváló tanulmány/jegyzet a Számításelméleti és Inf. Tud. Tanszékről: o Egyéb: o Dr. Abonyi János: Adatbányászat a hatékonyság eszköze o Iványi Antal: Informatikai Algoritmusok 2. kötet ( fejezetek), ELTE Eötvös Kiadó 53

54 További javasolt kezdőirodalom 54

55 Hivatkozások [1] Theus, M., Urbanek, S.: Interactive graphics for data analysis: principles and examples. CRC Press (2011) [2] [3] [4] 55

Hasonló dokumentumok

Adatbányászati szemelvények MapReduce környezetben

Adatbányászati szemelvények MapReduce környezetben Salánki Ágnes salanki@mit.bme.hu 2014.11.10. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Felügyelt