BME-AUT MI tehetséggondozás szeminárium. Gépi tanulás alapok

Hasonló dokumentumok
Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Google Summer of Code Project

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Kódverifikáció gépi tanulással

Gépi tanulás a gyakorlatban. Lineáris regresszió

Adatbányászati technikák (VISZM185) 2015 tavasz

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók 2. Pataki Béla

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Gépi tanulás a gyakorlatban. Bevezetés

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Visszacsatolt (mély) neurális hálózatok

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Megerősítéses tanulás

Adatbányászati feladatgyűjtemény tehetséges hallgatók számára

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I.

Adatbányászati, data science tevékenység

Stratégiák tanulása az agyban

Probabilisztikus modellek V: Struktúra tanulás. Nagy Dávid

Neurális hálózatok.... a gyakorlatban

Adatbányászati, data science tevékenység projektmenedzsmentje

Csima Judit február 19.

Adatbányászati szemelvények MapReduce környezetben

A neurális hálózatok tanításának alapjai II.: Módszerek a túltanulás elkerülésére. Szoldán Péter

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

IBM SPSS Modeler 18.2 Újdonságok

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Deep Learning a gyakorlatban Python és LUA alapon Felhasználói viselkedés modellezés

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Intelligens orvosi műszerek VIMIA023

Neurális hálózatok bemutató

Billentyűzési ritmus alapú azonosítás és hitelesítés érintőképernyős mobileszközökön

NEURÁLIS HÁLÓZATOK 1. eloadás 1

Tanulás tanuló gépek tanuló algoritmusok mesterséges neurális hálózatok

Nagy adathalmazok labor

Deep Learning: Mélyhálós Tanulás

Neurális hálózatok elméleti alapjai TULICS MIKLÓS GÁBRIEL

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Klaszterezés, 2. rész

Konvolúciós neurális hálózatok (CNN)

Egyenlőtlenségi mérőszámok alkalmazása az adatbányászatban. Hajdu Ottó BCE: Statisztika Tanszék BME: Pénzügyek tanszék Budapest, 2011

Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás

Modellkiválasztás és struktúrák tanulása

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Csima Judit április 9.

Deep Learning a gyakorlatban Python és LUA alapon Tanítás: alap tippek és trükkök

I. LABOR -Mesterséges neuron

Gépi tanulás a gyakorlatban SVM

Teljesen elosztott adatbányászat alprojekt

Nagy adathalmazok labor

Modellezés és szimuláció. Szatmári József SZTE Természeti Földrajzi és Geoinformatikai Tanszék

A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek

A kibontakozó új hajtóerő a mesterséges intelligencia

Tanulás az idegrendszerben

Pletykaalapú gépi tanulás teljesen elosztott környezetben

Gyors sikerek adatbányászati módszerekkel

Adatelemzés őszi félév ,26,27 1. Bevezetés 2. Osztályozás és klaszterezés feladata 3. Numpy és Ipython 4. Logisztikus regresszió

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

Eredmények kiértékelése

Csima Judit február 26.

Információs Rendszerek Szakirány

Fodor Gábor március 17. Fodor Gábor Osztályozás március / 39

CARE. Biztonságos. otthonok idős embereknek CARE. Biztonságos otthonok idős embereknek Dr. Vajda Ferenc Egyetemi docens

Megerősítéses tanulási módszerek és alkalmazásaik

Gépi tanulás a Rapidminer programmal. Stubendek Attila

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

Strukturált Generátorrendszerek Online Tanulása és Alk-ai

Klaszterezés. Kovács Máté március 22. BME. Kovács Máté (BME) Klaszterezés március / 37

I S R G Gépi tanulás, neuronhálók

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

Intelligens Rendszerek Elmélete

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

Kollektív tanulás milliós hálózatokban. Jelasity Márk

Szomszédság alapú ajánló rendszerek

3D - geometriai modellezés, alakzatrekonstrukció, nyomtatás

Mesterséges Intelligencia I. (I602, IB602)

BIG DATA ELEMZÉSEK LEHETŐSÉGEI

Példák jellemzőkre: - minden pixelérték egy jellemző pl. neurális hálózat esetében csak kis képekre, nem invariáns sem a megvilágításra, sem a geom.

Az fmri alapjai Statisztikai analízis II. Dr. Kincses Tamás Szegedi Tudományegyetem Neurológiai Klinika

Hálózati réteg. WSN topológia. Útvonalválasztás.

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

IV.7 MÓDSZER KIDOLGOZÁSA FELHASZNÁLÓI ADATOK VÉDELMÉRE MOBIL ALKALMAZÁSOK ESETÉN

KÖZELÍTŐ INFERENCIA II.

KÖZELÍTŐ INFERENCIA II.

Társadalmi és gazdasági hálózatok modellezése

Nagy adathalmazok labor

Bevezetés a neurális számításokba Analóg processzortömbök,

Gépi tanulás Gregorics Tibor Mesterséges intelligencia

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

A programozás alapjai előadás. Amiről szólesz: A tárgy címe: A programozás alapjai

Intelligens adatelemzés

Mesterséges Intelligencia I.

Intelligens orvosi műszerek VIMIA023

Random Forests - Véletlen erdők

A. Jakovác, ELTE, Institute of Pysics

Átírás:

BME-AUT MI tehetséggondozás szeminárium Gépi tanulás alapok

A mai alkalmon... Megismerjük az ML 3 fő paradigmáját Az adatelőkészítés főbb részeit Fogalmak és metrikák Példa algoritmusok az egyes paradigmákon belül MLP Demó és önálló munka 2

Bevezetés 3

Tágabb kontextus AI ML DL 4

AI fellendülése 5

ML vs DL deep learning (automatic feature extraction) pontosság hagyományos adathalmaz mérete 6

Megértés vagy tanulás? 1. természeti törvények (F=m x a) -> ultimate megértés, de nehéz és korlátolt az emberi felfogó képesség által (4D) 2. imperatív szemlélet -> megadom konkrétan az egyes lépéseket, amiknek eredményeként a megoldás előáll 3. deklaratív szemlélet -> megadom a feltételeket, tulajdonságokat az elvárt megoldásra, majd megkeressük a megoldást 7

Imperatív szemlélet pl. leírás, hogy hogyan főzzünk teát jól validálható, mert megvannak a lépések megbízunk a folyamatban, mert azt gondoljuk értjük Hogy ismerünk fel egy arcot? Milyen lépések kellenek hozzá? 8

Deklaratív szemlélet szeretnék egy algoritmust, ami felismeri az arcokat specifikáljuk, hogy az algoritmus akkor működik jól, ha felismeri a példának adott arcokat minél nagyobb pontossággal megadunk valahogy egy lehetséges megoldás halmazt megkeressük a legjobb megoldást a halmazban 9

No free lunch theorem univerzális approximátor tétel: a pontos részletek nélkül, azt állítja, hogy BÁRMILYEN megoldás reprezentálható (létezik, de nem tudjuk melyik az) ha meg is találjuk az architektúrát, nem biztos, hogy meg tudjuk tanítani nincs felsőbbrendű algoritmus (nincs olyan reprezentáció, ami mindent megold) 10

Hátrányok sokszor mondják, az ML fekete mágia a deklaratív megközelítésnek velejárója, hogy nem tudjuk, hogy a megtalált megoldás micsoda El tudnád valakinek mondani, hogy hogyan jársz? Tehát probléma, hogy nem értjük? (Szubjektív: nem) Az, hogy megbízunk e benne, már fontos kérdés! Mi kell, hogy megbízzunk benne? 11

Tanulás fajtái/paradigmái 1. 2. 3. 4. supervised learning unsupervised learning reinforcement learning és ezek változatai (extra-supervised, semi-supervised, self-supervised etc.) 12

Feladattípusok supervised, unsupervised, RL.. 13

Felügyelt tanulás Olyan probléma, ahol a bemeneti adathoz(x) tartozik egy kimeneti változó(y). Osztályozás > Diszkrét osztályok, elemek besorolása ezen halmazokba. > Pl. egy levélről megállapítani, hogy spam, vagy nem. Regresszió > A kimeneti változó egy valós érték, pl. súly, ár.. > Lakásárak előrejelzése méret, elhelyezkedés alapján. 14

Felügyeletlen tanulás A tanulás során csak a bemeneti változó(x) áll rendelkezésünkre. Klaszterezés > Elemek csoportosítása egy bizonyos metrika mentén. > Cél, hogy a klaszterben lévő elemek hasonlítsanak. > Pl. Vásárlók klaszterezése szokások alapján. Topik modellezés > NLP-ben felmerülő probléma. > Témák felfedezése és dokumentumokhoz rendelése. 15

Megerősítéses tanulás Nincs bemeneti/kimeneti adathalmaz, az ágensnek a környezetéből kell tanulnia. 16

Alkalmazott algoritmusok / kiértékelések Klasszifikáció > Logistic regression, SVM > F1-score, precision, recall Regresszió > SVR, Regression tree > RMSE Klaszterezés, Topik modellezés > k-means, LDA > Nehéz kiértékelni 17

Felügyelt tanulás Tipikus feladatok, algoritmusok, metrikák 18

Tipikus feladatok C - classification R - regression felismerni egy hang forrását ( C ) árfolyam predikciója 1 nappal előre ( R ) arc lokalizációja képen ( R ) facial landmark detection ( R ) felismerni mi van a képen ( C ) egy jármű mozgásának predikciója ( R ) spam, nem spam ( C )... 19

Alapötlete elefánt macska kutya tigris (egyéb) M Model -> megoldások halmaza Model paraméterek -> egy rögzített paraméter = konkrét megoldás Meg kell keresni a jó paramétert -> tanítás Mitől jó a paraméter -> veszteség fv. (loss, cost, objective...) 20

Tipikus algoritmusok SVM (C, R) decision tree ( C, de lehet vele R-t is ) random forest ( C, R ) logistic regression ( C ) softmax regression ( C ) naiv-bayes ( C ) MLP neural networks (tágabb értelemben)... 21

Felügyeletlen tanulás algoritmusok, példa alkalmazások 22

Kontextus Algoritmusok megtalálni az eddig ismeretlen mintákat. Az adat nagy százaléka cimkézetlen. > Cimkézett adat drága > Nehéz az elkészítése Cimkézetlen adat szinte ingyen Mégis szeretnénk velük kezdeni valamit 23

Kép forrás 24

Forrás 25

Centroid-based K-means Pros > Kis számítási kapacitás Cons > Nem mindig megfelelő az adat Forrás 26

K-means lépések 27

Hierarchikus Pros: > Könnyen illeszthető > Rugalmas Cons: > Viszonylag nagy komplexitás Forrás 28

Density-based DBSCAN Pros: > Könnyen illeszthető > Magas pontosság Cons: > Függ a paraméterektől > Ha eltér a klaszterek sűrűsége Forrás 29

30 Forrás

Topik modellezés Nagy mennyiségű cimkézetlen szövegek A szöveg topikok keveréke Egy topik szavak klaszterjéből áll Több módszer > LDA (Latent Dirichlet Allocation) > LSA (Latent Semantic Analysis) > NMF (Non-Negative Matrix Factorization) 31

Forrás 32

Módszertani alapok 33

Adatok előkészítése 1. Adatgyűjtés 2. Adat minőségének felmérése (inkorrekt rekordok, hiányzó részek, stb.) 3. Formátum egységesítése Ez data science feladatok esetén is ugyanaz. Jövő héten bővebben lesz ezekről (is) szó! (pl. több forrás esetén) 4. Adatok feljavítása (pl. outlier rekordok kiszűrése) 34

Adatok előkészítése (2) 5. Jellemzők kiválasztása és feldolgozása Probléma: Vagy változó hossz Vagy extrém vektor méret (0/1 értékekkel) 35

Adatok előkészítése (2) 5. Jellemzők kiválasztása és feldolgozása [1, 1, 1, 1, 1, 2, 3, 3, 3, 15, 17, 17, 20, 28, 39, 44, 46, 50, 52, 62, 69, 70, 71, 157, 163, 218, 297, 334, 743 ] [1, 1, 1, 1, 1, 2, 3, 3, 3, 15, 17, 17, 20, 28, 39, 44, 46, 50, 52, 62, 69, 70, 71, 157, 163, 218, 297, 334, 743 ] Hisztogram generálás Autoencoder (0.627 0.963 0.023 0.257 0.583 0.170 0.665 0.574 0.458 0.557) 36

Adatok előkészítése (3) 6. Adatok felosztása tanuláshoz és ellenőrzéshez Tanulásra szánt adatok (training set) Teszt adatok (test set) 37

Adatok előkészítése (3) 6. Adatok felosztása tanuláshoz és ellenőrzéshez Teszt adatok (test set) Tanulásra szánt adatok (training set) Ellenőrző adatok (valdiation set) 38

Alul- és túltanulás (over- és underfitting) overfitting 39

Alul- és túltanulás (2) https://hu.wikipedia.org/wiki/combino 40

Alul- és túltanulás (3) https://medium.com/greyatom/what-is-underfitting-and-overfitting-in-machine-learning-and-how-to-deal-with-it-6803a989c76 41

Veszteségfüggvény (loss function) hiba tanítás közbeni hiba f( )? iterációk száma Bővebben később! 42

Túltanulás és regularizáció Regularizáció, például: hiba tanítás közbeni hiba > Korai leállítás (early stopping) > Dropout (neurális hálókhoz) validáció hiba iterációk száma Srivastava, Nitish, et al. Dropout: a simple way to prevent neural networks from overfitting, JMLR 2014

Értékelési metrikák confusion matrix Hogyan kell értelmezni? predikció eredménye a valóság n = 220 igaz hamis igaz 90 (TP) 28 (FN) hamis 30 (FP) 72 (TN) > OK: true pos., true neg. > false neg.: gondoljunk egy vásárlókat hitelesítő biztonsági rendszerre. Hány elutasítást tűrnek majd? > false pos.: egy biztonsági rendszernél megengedhető az illetéktelen hozzáférés? 44

Értékelési metrikák (2) precision, recall, accuracy Accuracy: predikció eredménye a valóság n = 82 igaz hamis igaz 5 2 hamis 3 72 Precision: Recall:

Értékelési metrikák (3) FP/FN trade-off?

Értékelési metrikák (4)

Reinforcement learning [BA] RL elektronhéjban 48

Ötlet az RL-ben cselekvést tanulunk minden cselekvésnek értéke van, attól függően, hogy mennyire szolgálja a célunkat (pl. sakk megnyerése) olyan cselekvéseket kell tenni, ami minél értékesebb az RL egy framework, amiben ezt formalizálják technikailag visszavezetik supervised learningre 49

Jupyter notebook 50

Jupyter Notebook minek? 51

Jupyter Notebook minek? (2) Kifejezetten data science vagy machine learning tool Kényelmesebb felület Rich text tartalom Nem kell az adatokat mindig újra betölteni Táblázatos tartalom megjelenítése Képek inline megjelenítése További kernelek akár más nyelvekhez Kiegészítők 52

Hogyan jussak hozzá? Lokálisan. https://www.anaconda.com ebben már alapból benne van! 53

Hogyan jussak hozzá? (2) Felhőben. https://colab.research.google.com Jupyter notebook + sok más... 54

DEMO Segédanyag 55

Logistic regression bináris klasszifikáció (két osztály van) [x1, x2, x3 x756, 1] M 0 1 56

Modell Modell matematikai alakja Értelmezés Megfelelő paraméter: Loss fv (cost, objective): 57

Gradiens módszer Meg kell keresni a minimumát a loss függvénynek: Convex optimalizációs probléma, ezért a gradiens módszer a globális minimumba fog menni. Lineárisan szeparálható problémákat tud megoldani. 58

Softmax regression multi-klasszifikáció (több osztály van) [x1, x2, x3 x756, 1] M 0 k 1 59

Modell 60

Gradiens módszer 61

MLP 62

Univerzális függvény approximátor Egy előrecsatolt háló egy lineáris kimeneti réteggel és legalább egy rejtett réteggel, ami tartalmaz szigmoidszerű függvényt, képes tetszőleges nem nulla pontossággal megközelíteni bármely Borel mérhető függvényt, ami véges dimenziós terek között képez le; feltéve, hogy van elég rejtett node. Exisztenciális tétel, nem konstruktív. 63

MLP hozzávalók (készülve a DNN-re) architektúra (rétegek, nódok, kapcsolatok) aktiváció loss függvények inicializálás módja regularizáció optimalizációs algoritmusok 64