Nagy adathalmazok labor



Hasonló dokumentumok
Adatelemzés őszi félév ,26,27 1. Bevezetés 2. Osztályozás és klaszterezés feladata 3. Numpy és Ipython 4. Logisztikus regresszió

Nagy adathalmazok labor

Intelligens orvosi műszerek VIMIA023

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Adatbányászati, data science tevékenység projektmenedzsmentje

Adatbányászati, data science tevékenység

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Adatbányászati feladatgyűjtemény tehetséges hallgatók számára

Csima Judit február 19.

Adatbányászati szemelvények MapReduce környezetben

Nagy adathalmazok labor

Csima Judit február 26.

Eredmények kiértékelése

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Modellkiválasztás és struktúrák tanulása

Gyors sikerek adatbányászati módszerekkel

Gépi tanulás a gyakorlatban. Bevezetés

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Mesterséges Intelligencia MI

IBM SPSS Modeler 18.2 Újdonságok

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek

4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás Döntési fák [Concepts Chapter 11]

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Követelmények Bevezetés. Adatbányászat. Szegedi Tudományegyetem. Adatbányászat

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok

Pletykaalapú gépi tanulás teljesen elosztott környezetben

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Minták automatikus osztályba sorolása a mintát leíró jellemzők alapján. Típusok: felügyelt és felügyelet nélküli tanuló eljárások

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Multimédiás adatbázisok

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

Klaszterezés. Kovács Máté március 22. BME. Kovács Máté (BME) Klaszterezés március / 37

ACTA CAROLUS ROBERTUS

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

1. gyakorlat. Mesterséges Intelligencia 2.

Adatbányászati technikák (VISZM185) 2015 tavasz

Szomszédság alapú ajánló rendszerek

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

Módszertani áttekintés

Adatbányászat: Adatok. 2. fejezet. Tan, Steinbach, Kumar Bevezetés az adatbányászatba

Teljesen elosztott adatbányászat alprojekt

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Kollektív tanulás milliós hálózatokban. Jelasity Márk

1: Bevezetés: Internet, rétegmodell Alapok: aszimptótika, gráfok. HálózatokII, 2007

E x μ x μ K I. és 1. osztály. pontokként), valamint a bayesi döntést megvalósító szeparáló görbét (kék egyenes)

ADATBÁNYÁSZAT AZ AUTÓIPARI TERMÉKEK FEJLESZTÉSÉBEN

Közösség detektálás gráfokban

Adatbányászat és Perszonalizáció architektúra

Mérnök informatikus (BSc) alapszak levelező tagozat (BIL) / BSc in Engineering Information Technology (Part Time)

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský

Számítógép hálózatok, osztott rendszerek 2009

Big Data az adattárházban

Klaszterezés, 2. rész

Óbudai Egyetem. Doktori (PhD) értekezés. Adatpárhuzamos sejtmagkeresési eljárás fejlesztése és paramétereinek optimalizálása Szénási Sándor

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

Példák jellemzőkre: - minden pixelérték egy jellemző pl. neurális hálózat esetében csak kis képekre, nem invariáns sem a megvilágításra, sem a geom.

Adatelemzés és adatbányászat MSc

A TANTÁRGY ADATLAPJA

AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))

Adatbányászat: Osztályozás Alapfogalmak, döntési fák, kiértékelés

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

Gépi tanulás a Rapidminer programmal. Stubendek Attila

Gépi tanulási (MachineLearning) módszerek alkalmazása

Random Forests - Véletlen erdők

A kibontakozó új hajtóerő a mesterséges intelligencia

Adatbányászat SAS Enterprise Miner

A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek

Gaussian Mixture Modell alapú Fisher vektor számolás GPGPU-n

Intelligens adatelemzés

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Megerősítéses tanulás

Csima Judit április 9.

Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben

Fodor Gábor március 17. Fodor Gábor Osztályozás március / 39

Társadalmi és gazdasági hálózatok modellezése

Gyors sikerek adatbányászati módszerekkel

IV.7 MÓDSZER KIDOLGOZÁSA FELHASZNÁLÓI ADATOK VÉDELMÉRE MOBIL ALKALMAZÁSOK ESETÉN

7. Régió alapú szegmentálás

Adatbányászat Weka-val. (Data Mining with Weka Ian H. Witten)

Alkalmazott Matematikai Lapok 32 (2015), SÜDY BARBARA. Az adatelemzés egyik legizgalmasabb ága a sportadatokohoz köthető prediktív

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Többfelhasználós és internetes térkép kezelés, megjelenítés

Készítette: Hadházi Dániel

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Neurális hálózatok bemutató

Probabilisztikus funkcionális modellek idegrendszeri adatok elemzésére

Adatbányászat projectmunka dokumentáció Lakókocsi biztosítási adatok

KÖZELÍTŐ INFERENCIA II.

2. Cím: Nézettségmérés új módszerei avagy Audience measurement Kulcsszavak: IPTV, felhasználói viselkedés, média, ajánlórendszerek

Perszonalizált tartalomajánló szolgáltatás IPTV és OTT rendszerek számára

Gépi tanulás a gyakorlatban. Lineáris regresszió

Algoritmusok és adatszerkezetek II.

Optikai karakterfelismerés

OpenCL alapú eszközök verifikációja és validációja a gyakorlatban

Átírás:

1 Nagy adathalmazok labor 2015-2015 őszi félév 2015.09.09 1. Bevezetés, adminisztráció 2. Osztályozás és klaszterezés feladata

2 Elérhetőségek Daróczy Bálint daroczyb@ilab.sztaki.hu Személyesen: MTA SZTAKI, Lágymányosi u. 11 Tantárgy honlapja: http://cs.bme.hu/~daroczyb/dm_msc/

3 Tantárgyi követelmények - 13+1 hét: előadás 2x45 perc + 1x45 perc gyakorlat -> szerda 10-12 illetve kéthetente csütörtök 8-10? - Szünet? - Utolsó órán közös bemutató, két héttel előtte előzetes beszámoló (2-3 slide) - Jegy: Nagy HF (w NHF =0.6) + ZH (w ZH =1-w NHF, 9. hét?) - Szokásos: legfeljebb 3 hiányzás Verseny? Igen közös téma!

4 Adatbányászat feladatai Adatbányászat (Data Mining): nagy adathalmazokon nem triviális (implicit, eddig ismeretlen)információ Struktúrális minták kinyerése Knowledge discovery in databases (KDD) ismeretszerzés adatbázisokból adat/mintázat vizsgálata összefüggések azonosítása stb. Kép: Lukács András

5 Kicsit bővebben Jobbról balra... 1. Keresés (IR) - szöveg, kép, videó, hang stb. 2. Ajánló rendszer (RecSys) - user-item ajánlás - link-prediction 3. Szociális hálózatok - de-anonymizálás - barát/termék ajánlás - reklám mérő 4. Klasszifikációs problémák - szöveg/kép/videó/hang annotálás - spam detekció - bioinformatika 5. Big Data - Entity Resolution - log elemzés

6 Kicsit bővebben Balról jobbra... 1. Klasszifikációs problémák: - döntési fák, fa alapú algoritmusok - Bayes network - perceptron, logistic regression - Artificial Neural Networks - Deep Learning - Support Vector Machine - Kiértékelés 2. Klaszterezés: - K-means, GMM, X-means - DBSCAN, OPTICS, Single-link 3. Attribútum és feature szelekció - SVD (PCA), IG 4. Hálózati problémák: - HITS, PageRank, Influence 5. Ajánlórendszerek: - RBM, MF, SVD 6. Asszociációs szabályok + GPU-k és elosztott rendszerek (pl. OpenCL, CUDA, GraphLab) Kép: wikipedia

7 Egyéb példák Web és egyéb hálózat: - keresés (szöveg,kép,videó,honlap,információ) - ajánlás (reklám,cikk,kép ) - log elemzés (telefonhálózat, ügyfélhálózat stb.) Üzleti intelligencia: - döntés segítő rendszerek (tőzsde,biztosítás) - összefüggés keresés (hasonló ügyfél, hasonló megoldás) Multimédia: - autómatikus annotáció (kép,videó,zene stb.) - hangfelismerés és beszédfelismerés Orvosi kutatás és diagnosztika: - szűrés (rák, TBC stb) - élettani folyamatok elemzése - génkutatás (génszekvenciák keresése, azonosítása, modellezése) - gyógyszerkutatás Ref: Lukács András

8 Irodalom (ajánlott) 1. Tan, Steinbach, Kumar (TSK): Introduction to Data Mining Addison-Wesley, 2006, Cloth; 769 pp, ISBN-10: 0321321367, ISBN-13: 9780321321367 http://www-users.cs.umn.edu/~kumar/dmbook/index.php 2. Bodon: Adatbányászati algoritmusok http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/tanulmany/index.html 3. Leskovic, Rajraman, Ullmann:Mining of Massive Datasets http://infolab.stanford.edu/~ullman/mmds.html 4. Devroye, Győrfi, Lugosi: A Probabilistic Theory of Pattern Recognition, 1996 5. Rojas: Neural Networks, Springer-Verlag, Berlin, 1996 6. Hopcroft, Kannan: Computer Science Theory for the Information Age http://www.cs.cmu.edu/~venkatg/teaching/cstheory-infoage/hopcroft-kannanfeb2012.pdf + cikkek

9 Adatbányászati szoftverek Weka - open source java GraphLab, Flink stb. RapidMiner Clementine (SPSS) Darwin (Oracle) SAS Enterprise Miner IBM Intelligent Miner + OpenSource libraries (R, Python)

10 Nagy HF Query: <top> <num> C301 </num> <HU- 2tle> Nestlé márkák </HU- 2tle> <HU- desc> Mely márkákat értékesít a Nestlé világszerte? </HU- desc> <HU- narr> A releváns dokumentumok olyan árucikkek neveit tartalmazzák, amelyeket a Nestlé ill. valamelyik Nestlé- csoporthoz tartozó vállalat értékesít. Utóbbi esetben világos utalás szükséges a Nestlére mint anyacégre. </HU- narr> </top> Szövegbányászat: - osztályozás - további meta adatok - külső adatforrások Ajánló rendszerek: - tartalom alapon - collaborative filtering Képkeresés és osztályozás Felhasználó/ film Napoleon Szörny RT. Cindarella Dynamite Life on Earth Dávid 1?? 3 Dóri 5 3 5 5 Péter? 4 3?

10 11 Reprezentáció - Adathalmaz objektumok halmaza, mely tartalmazza az attribútumokat is - Reményeink szerint az attribútumok megfelelően reprezentálják az adott objektumot - Attribútumok típusai lehetnek: pl. bináris nominális numerikus Adat objektumok, record Attribútumok, feature, változók Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes

10 12 Reprezentáció Egy adathalmaz lehet: Attribútumok, feature, változók - rendezhető - időbeli vagy soros Tid Refund Marital Status Taxable Income Cheat - térbeli - ritka vagy sűrű Pár kikötés: - fix attribútumhalmaz - előre meghatározott attribútumok Adat objektumok, record 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes

13 Gépi tanulás Legyen adott egy N elemű ismert halmaz, X és minden eleméhez egy y érték. Keressük az olyan f(x) függvényeket melyek jól közelítik y-t. Sok a kérdés: Hogyan határozzuk meg a közelítés minőségét? Milyen függvényosztályok között keresünk? Hogyan találunk egy adott függvényosztályon belül megfelelő példányt? Komplexitás? Generalizáció? stb.

14 Osztályozás vs. generatív modellek Gyakorlatban, ha a célváltozónk bináris vagy egy véges halmaza eleme, osztánlyozásról beszélünk. Nominális -> Bináris? Megj.: A tanulás fontos része a visszajelzés. Generatív modellek?

15 Osztályozás Mintahalmaz cimke _ + + + +

16 Klaszterezés Ábra: TSK

K-Means Feltesszük, hogy az adatpontjaink egy valós vektortérben helyezkednek el. A klasztereket a középpontjuk határozza meg. K-means (D; k) Adott egy C 1, C 2,..., C k centroidok tetszőleges k elemű kezdeti halmaza Amíg változik a centroidok halmaza: minden d mintát soroljuk a hozzá legközelebbi centroid klaszterébe Módosítsuk a meglévő centroidokat C i legyen C i -be tartozó elemek középértéke A kezdőpontok meghatározása lehet: a) véletlen pontokból b) véletlen választott tanulópontokból Az algoritmust megállítjuk, ha: a) a klaszterezés nem változik b) a küszöbhibánál kisebb az approx. hiba c) elértük a maximális iterációk számát 2 x! 1 x! 3! x x!!! x 2 + 3 1+ x3 17

18 K-means 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 Ábra: TSK

19 K-means

20 K- nearest neighbor (K-NN) Alapelv: Úgy megy mint egy kacsa, úgy úszik mint egy kacsa, úgy eszik mint egy kacsa, tehát kacsa! 1. Minden tesztadathoz keressük meg a K legközelebbi elemet. 2. A legtöbbet reprezentált osztályt jósoljuk az adott tesztaadatnak Példa: Ábra: TSK

21 K- nearest neighbor (K-NN) Mi a gond? - mohó (eager) algoritmus: kész modell készítése amint a tanuló adat létezik többé nincs szükség a tanulóhalmazra - lusta (lazy) algoritmus: kész jóslatot a tanulóhalmaz segítségével készít szükséges a tanulóhalmaz a jósláshoz A K-NN lusta algoritmus : Méret? Bonyolultság? Skálázhatóság? Ábra: TSK

22 K- nearest neighbor (K-NN) Távolság mértékek (pl.) - Minkowski távolság - Mahalanobis - Cosine, Jaccard, Kullback-Leibler, Jensen-Shannon stb. Problémák: - skála - autómatikus távolság választás - normalizáció + +? o + o + o o o o o o + o + o + o + o o o + + + o o? + + o o o o o o o o o + o + o + o o Ábra: TSK

23 Weka indítása Órai feladat 1: Töltsük be a zoo.arff-et! java jar Xmx1500m weka.jar Explorer felület Classify -> mindenki válasszon egy típust Pl. IBk (knn) ZeroR J48 (DT) NaiveBayes stb...

24 Kiértékelés Confusion matrix: Alapigazság/ predikció p n Total p True Positive (TP) False Negative (FN) TP+FN n False Positive (FP) True Negative (TN) FP+TN Total TP+FN FP+TN

25 Kiértékelés Accuracy: a helyesen klasszifikálás valószínűsége TP+TN/(TP+FP+TN+FN) Precision (p): egy relevans dokumentum helyes klasszifikálásának valószínűsége TP/(TP+FP) Recall (r): annak a valószínüsége, hogy egy releváns dokumentumot helyesen klasszifikálunk TP/(TP+FN) F-measure: a precision és a recall harmónikus közepe (2*p*r/(p+r))

26 False-Positive Rate (FPR) = FP/(FP+TN) True-Positive Rate (TPR) = TP/(TP+FN) ROC: Receiver Operating Characteristic MAP: Mean Average Precision ndcg: normalized Discriminative Cummulative Gain Kiértékelés

27 Kiértékelés

28 ROC: Receiver Operating Characteristic - csak bináris osztályozásnál használható (i.e. egy osztályra) - Area Under Curve: AUC annak a valószínűsége, hogy véletlen pozitív elemeket előrébb sorol mint véletlen negatívakat - mivel az jóslatok sorrendjéből számítjuk, a klasszifikálónak nem csak bináris jóslatokat kell visszaadnia - előnye, hogy nem függ a vágási ponttól - Milyen szempontból lehetne továbbfejleszteni?

ROC: Receiver Operating Characteristic 29 AUC=?

+ + - + - - + + - + 0.16 0.32 0.42 0.44 0.45 0.51 0.78 0.87 0.91 0.93 Score Órai feladat 2: Mennyi az AUC? (a nagyobb score-al rendelkező elemek előrébb kerülnek a találati listán) + + - - - + + - + + TP FN TN FP TPR FPR 0.43 0.56 0.62 0.78 0.79 0.86 0.89 0.89 0.91 0.96 Score TP FN TN FP TPR FPR