Az adatelemzés alapfeladatai

Hasonló dokumentumok
Adatbányászati szemelvények MapReduce környezetben

Gépi tanulási (MachineLearning) módszerek alkalmazása

Klaszterezés, 2. rész

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Adatbányászati technikák (VISZM185) 2015 tavasz

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Diszkriminancia-analízis

Minden az adatról. Csima Judit február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Közösség detektálás gráfokban

Principal Component Analysis

Asszociációs szabályok

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Szeleteljük fel úgy a tulajdonságteret, hogy az egyes szeletekbe lehetőleg egyfajta objektumok kerüljenek, de túl sok szelet se legyen.

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Nagyméretű adathalmazok kezelése (BMEVISZM144) Reinhardt Gábor április 5.

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Gépi tanulás a gyakorlatban. Bevezetés

Több valószínűségi változó együttes eloszlása, korreláció

Regressziós vizsgálatok

A többváltozós lineáris regresszió III. Főkomponens-analízis

Modellek paraméterezése: regresszió, benchmarkok

Többváltozós lineáris regresszió 3.

Lineáris regressziós modellek 1

Sztochasztikus kapcsolatok

Egyenlőtlenségi mérőszámok alkalmazása az adatbányászatban. Hajdu Ottó BCE: Statisztika Tanszék BME: Pénzügyek tanszék Budapest, 2011

Cluster Analysis. Potyó László

PONTFELHŐ REGISZTRÁCIÓ

Adatelemzés és adatbányászat MSc

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

end function Az A vektorban elõforduló legnagyobb és legkisebb értékek indexeinek különbségét.. (1.5 pont) Ha üres a vektor, akkor 0-t..

Logisztikus regresszió

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Gyakorló feladatok adatbányászati technikák tantárgyhoz

7. Régió alapú szegmentálás

Searching in an Unsorted Database

IBM SPSS Modeler 18.2 Újdonságok

KISTERV2_ANOVA_

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Korreláció és lineáris regresszió

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Irányításelmélet és technika II.

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Feltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2

Izgalmas újdonságok a klaszteranalízisben

Többváltozós lineáris regressziós modell feltételeinek

BIOMETRIA_ANOVA_2 1 1

Ambiens szabályozás problémája Kontroll és tanulás-1

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla

Intelligens adatelemzés

ADATBÁNYÁSZAT AZ AUTÓIPARI TERMÉKEK FEJLESZTÉSÉBEN

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok

Random Forests - Véletlen erdők

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Bevezetés a Korreláció &

Correlation & Linear Regression in SPSS

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

Logisztikus regresszió

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

(Independence, dependence, random variables)

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Probabilisztikus funkcionális modellek idegrendszeri adatok elemzésére

Mérési adatok illesztése, korreláció, regresszió

Szomszédság alapú ajánló rendszerek

Visszacsatolt (mély) neurális hálózatok

Nagy méretű adathalmazok vizualizációja

Strukturált Generátorrendszerek Online Tanulása és Alk-ai

KÖZELÍTŐ INFERENCIA II.

Társadalmi és gazdasági hálózatok modellezése

Problémás regressziók

Faktoranalízis az SPSS-ben

Statistical Dependence

Faktoranalízis az SPSS-ben

GEOSTATISZTIKA. Földtudományi mérnöki MSc, geofizikus-mérnöki szakirány. 2018/2019 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

Klaszterezés. Kovács Máté március 22. BME. Kovács Máté (BME) Klaszterezés március / 37

Standardizálás, transzformációk

Példák jellemzőkre: - minden pixelérték egy jellemző pl. neurális hálózat esetében csak kis képekre, nem invariáns sem a megvilágításra, sem a geom.

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Pletykaalapú gépi tanulás teljesen elosztott környezetben

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Számítógépes döntéstámogatás. Genetikus algoritmusok

Standardizálás, transzformációk

A preferencia térképezés kritikus pontjai az élelmiszeripari termékfejlesztésben

GEOSTATISZTIKA II. Geográfus MSc szak. 2019/2020 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Adatok statisztikai értékelésének főbb lehetőségei

Átírás:

Az adatelemzés alapfeladatai 2017 ősz 6./7. alkalom Kocsis Imre ikocsis@mit.bme.hu Budapesti Műszaki és Gazdaságtudományi Egyetem Hibatűrő Rendszerek Kutatócsoport Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék 1

MACHINE LEARNING / DATA MINING: ALAPFELADATOK 2

Adatelemzés: legfontosabb problémák Csoportosítás (clustering) Osztályozás (classification) Asszoc. szabályok (assoc. rules) Regresszió (regression) 3

Probléma-osztály; Szemléltetés; (Egy algoritmus kivonata) Megközelítés Fő cél: orientáció Deep learning, TensorFlow,... N.B. egyre kevésbé kézműves tevékenység o 10 Algorithms every Data Scientist has to know o SaaS/PaaS o Lásd később 4

Csoportosítás

K-means Adatpontok: vektortér Klaszter reprezentációja: súlyponttal / középponttal (vektor-átlag) r(c i ): i-edik klaszter reprezentánsa Minimalizálandó a négyzetes távolságösszeg, mint hiba: E C = k i=1 u C i d u, r C i 2

Demo https://github.com/rstudio/shinyexamples/tree/master/050-kmeans-example 7

Egy megoldás {r C 1, r C 2,, r(c k )} repr. kezdeti halmaza while r(c i ) változik do for u D adott sorrendben do return C h u klaszter-indexe j argmin i d(u, r(c i )) if h j then { C j C j u C i C i u r(c j ) 1 C j r(c h ) 1 C h v C j v v C h v} Régi klaszter Új klaszter Itt rögtön újra is számoljuk

Alapkérdések Klasztereken belül maximális homogenitás o nagy hasonlóság o kis távolság Klaszterek között nagy távolság o kis hasonlóság különböző klaszterek elemei között Hasonlósági mérce: similarity metric o Kategorikus változókra nehéz o Skálatranszformáció kellhet o Lehet választani... o Hierarchikus klaszterezés: dissimilarity metric Hasonlósági küszöb választása? Optimális klaszterszám? 9

Néhány távolság-mérték (0,0) és (1,1) távolsága? 10

Mahalanobis távolság? Pont és eloszlás távolsága (S: kov-mátrix) Szemléletesen : https://stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance 11

Lineárisan nem szeparálható klaszterek: sűrűség alapú klaszterezés További változatok packing together closely grouped points Pl. DBSCAN ( Density-based spatial clustering of applications with noise ) o Magpontok: legalább minpts pont e távolságon belül o Sűrűség-elérhető pontok o Outlierek 12

(Agglomeratív) hierarchikus klaszterezés CSAK KITEKINTÉS https://github.com/joyofdata/hclust-shiny 13

Osztályozás Képosztályozás: a képen látható objektum madár vagy repülő?

Osztályozás Levelek osztályozása: SPAM vagy nem SPAM?

Osztályozás Szabályok alapján Severity osztályozása Kép forrása: http://192.9.172.90/bigadmin/features/articles/3pmi_mgmt.full.jsp

Döntési fák (Titanic, túlélési esélyek) Túlélés esélye -> osztály tisztasága Number of siblings or spouses aboard Megfigyelések aránya https://en.wikipedia.org/wiki/decision_tree_learning

~= klaszterezés Klaszterezés és klasszifikáció alapfeladat Semi-supervised ~= klasszifikáció Kép forrása: Ramaswamy S, Golub T R JCO 2002;20:1932-1941

Felügyelt és nem felügyelt tanulás Felügyelt tanulás o Adott néhány pontra az elvárt kimenet is o a tanuló példákból való általánosítás o Output: függvény a meglévő mintapontokra jól képez le megfelelően általánosítható Nem felügyelt tanulás o Nincs meg az elvárt kimenet o Visszajelzés nélkül építi a modellt Tanulóhalmaz: amin építjük a modellt Teszthalmaz: amin ellenőrizzük o szabályok, összefüggések keresése (ismeretfeltárás)

Demo R party csomag Conditional Inference Tree, iris o Hogy ez mi, azt nem kezdjük itt nagyon részletezni o Party ctree dokumentáció: Roughly, the algorithm works as follows: 1) Test the global null hypothesis of independence between any of the input variables and the response (which may be multivariate as well). Stop if this hypothesis cannot be rejected. Otherwise select the input variable with strongest association to the response. This association is measured by a p-value corresponding to a test for the partial null hypothesis of a single input variable and the response. 2) Implement a binary split in the selected input variable. 3) Recursively repeat steps 1) and 2). 20

Demo R party csomag Conditional Inference Tree, iris o Hogy ez mi, azt nem kezdjük itt nagyon részletezni o Party ctree dokumentáció: Roughly, the algorithm works as follows: Kis 1) érték Test the (tip. global 0.05) null indikatív hypothesis a (függetlenségi) of independence hipotézis between ellen any of the input variables and the response (which may be multivariate as well). Stop if this hypothesis cannot be rejected. Otherwise select the input variable with strongest association to the response. This association is measured by a p-value corresponding to a test for the partial null hypothesis of a single input variable and the response. 2) Implement a binary split in the selected input variable. 3) Recursively repeat steps 1) and 2). Pl. entrópia-csökkenés maximalizálásával: a split csökkenti az össz-entrópiát (alágak entrópiájának súlyozott összege) 21

Demo 22

Bináris döntések jóságának mérése 23

Érzékenység vagy specifikusság a fontos? További jellemzők: https://en.wikipedia.org/wiki/confusion_matrix http://people.inf.elte.hu/kiss/11dwhdm/roc.pdf 24

Asszociációs szabályok

Alapfogalmak Asszoc. szabályok: elemhalmazok közötti asszociáció vagy korreláció o if LEFT then RIGHT Pl. Tx DB-k: sör + pelenka + fejfájáscsillapító Adatkeretre is működik Sokszor igaz Ritkán téved Nem véletlen support LEFT RIGHT = N BOTH N TOTAL confidence LEFT RIGHT = N BOTH N LEFT lift LEFT RIGHT = confidence(left RIGHT) N RIGHT 26

Alapfogalmak lift B 1 = 1.56 P({B;1}) P B; P({ ;1}) >1: többször fordulnak elő együtt, mint várható o ha pelenka, akkor többször sör <1: kevesebbszer fordulnak elő együtt, mint várható Lásd még: https://en.wikipedia.org/wiki/lift_(data_mining) 27

Néhány megfontolás Potenciálisan rengeteg szabály Amit szeretnénk: elég magas confidence és support Redundanciák is lehetnek A legérdekesebbeket bányásszuk ki o Valamilyen érdekességi metrika alapján 28

Demo (Titanic, ismét) http://brooksandrew.github.io/simpleblog/articles/association-rules-explore-app/ 29

Regresszió

f függvény, bemenet: az attribútumok értéke, kimenet: megfigyelések legjobb közelítése ökölszabály Példa: testtömeg/magasság együttes eloszlás valójában egyenesre illeszthető Regresszió

Regressziós módszerek Alapelv: Véletlen változó Közelítés t Y f t Hiba Jósolt esemény Átlagos hiba (mean error) Becsült érték Y f ( X, X,..., X ) 1 2 n ME n t 1 Y t n F t Megfigyelhető változók Mért érték

Lineáris regresszió Egyszerű lin. függvény illesztése az adatokra o nem vár alapvető változást a rendszer viselkedésében Y a bx Legkisebb négyzetek módszere o keressük azokat az a,b paramétereket, amelyekre n n 2 t t t t 1 t 1 minimális (Sum of Squared Errors) 2 SSE Y F cél: n n 2 2 Y F Y a bx minimalizálása t t t t t 1 t 1

Zárt alak: levezetés (parc. deriválás) n 2 d Y t a bx t n t 1 2 Yt a bx t 0 da n 2 t 1 t 1 d Y t a bx t n t 1 Xt Yt a bx t 0 db t 1 n na Y bx a Y bx t t t t t t t t t t t t t 1 n t 1 t 1 n t 1 t 1 n t 1 t 1 t n n 1 1 1 2 X Y Y bx bx X Y X Y b X X b Xt 0 t 1 n n n n n n b n n n n X Y X Y t t t t t 1 t 1 t 1 n n 2 2 n Xt Xt t 1 t 1 Xi, Yi a mért értékpárok (pl. idő, terhelés)

Ismétlés: Anscombe négyese Legjobban illeszkedő egyenes mindenre van Minőségileg különböző adatpontokra is

Demo https://github.com/shinyed/shinyed/tree/master/slr_diag 36

Néhány tulajdonság 0-1; a várhatóérték körüli varabilitás mekkora részét magyarázza a modell (de: bias!) Kvantilisek: azonos valószínűségű intervallumokat adó vágáspontok (2-kvantilis: medián) 37

Néhány tulajdonság Tfh. A hiba ftlen, normál eloszlású, 0 várhatóértékű és konstans szórású. Szinte biztos, hogy ide esik az előrejelzés (ált. 95%) Szinte biztos, hogy a függő változó átlaga ide esik (ált. 95%) 38

Adatelemzés: legfontosabb problémák Idősorelemzés- és előrejelzés Anomália-detektálás (anomaly detection) Structured prediction Asszoc. szabályok (assoc. rules) Mintakeresés (freq. pattern mining) Osztályozás (classification) Csoportosítás (clustering) Regresszió (regression) Feature selection Dimensionality reduction Feature extraction Graph analysis 39

Principal Component Analysis Ortogonális transzformáció olyan ortogonális bázisra (lineárisan független változók; főkomponensek ), ahol o Az első komponens varianciája a lehető legnagyobb o Az i-edik varianciája a lehető legnagyobb úgy, hogy merőleges legyen az eddigiekre. Értelme: lehet, hogy összvarianciát leíró komponens jóval kevesebb lesz, mint változó Nem faktoranalízis; az látens változók által okozott közös varianciát keres o És ezzel felteszi egy mögöttes modell létezését o Az Exploratory Factor Analysis tartalmazhat PCA-szerű lépést 40

Principal Component Analysis Eltolás a várhatóértékbe + utána forgatás Skálaérzékeny, de lehet normalizálva is csinálni (pl. Z-score-ra) Ennek persze megint lehetnek nem kívánt hatásai Matematikáját nem tárgyaljuk 41

(Implicit) feltételezés: 2 komponens elégségesen leírja Biplot Komponensenkénti koordináták (score-ok) + Az eredeti változók súlya ( loading ) az első két faktorban 42 Demo

Gépi tanulás 43

Adatbányászat 44

ML vs DM 45

ML alapú üzleti intelligencia alkalmazások 46

Machine Learning, Data Mining, statisztika Az eszközök és a DNS ugyanaz; különböző kultúrák Statisztika: (stochasztikus) adatmodellezés ML: informatikusok tanuló programot akartak DM: tudás kinyerése az adatokból (EDA...stat. Modellezés) Lásd [2][3] 47

Közel ugyanaz Lásd [4] 48

AUTOMATIZÁLT ADATELEMZÉS: IBM WATSON ANALYTICS 49

Automatizált adatelemzés IBM Watson Analytics Automatikus predikció 50

Automatizált adatelemzés IBM Watson Analytics Érdekes asszociációk automatikus feltárása Automatizált adatminőségértékelés 51

IRODALOM 52

Javasolt magyar nyelvű anyagok Helyenként nagyon mély, de kiváló tanulmány/jegyzet a Számításelméleti és Inf. Tud. Tanszékről: o http://www.cs.bme.hu/nagyadat/bodon.pdf Egyéb: o Dr. Abonyi János: Adatbányászat a hatékonyság eszköze o Iványi Antal: Informatikai Algoritmusok 2. kötet (28-29. fejezetek), ELTE Eötvös Kiadó 53

További javasolt kezdőirodalom 54

Hivatkozások [1] Theus, M., Urbanek, S.: Interactive graphics for data analysis: principles and examples. CRC Press (2011) [2] https://projecteuclid.org/download/pdf_1/euclid.ss/1009213726 [3] https://www.r-bloggers.com/whats-the-difference-between-machinelearning-statistics-and-data-mining/ [4] http://statweb.stanford.edu/~tibs/stat315a/glossary.pdf 55