Kollektív tanulás milliós hálózatokban. Jelasity Márk

Hasonló dokumentumok
Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Teljesen elosztott adatbányászat alprojekt

Pletykaalapú gépi tanulás teljesen elosztott környezetben

Peer-to-peer (P2P) gépi tanulás. Hegedűs István

Support vektor alapú tanulás alkalmazásai

Support vektor alapú tanulás alkalmazásai

Pletykaalapú gépi tanulás teljesen elosztott környezetben

Gépi tanulás a gyakorlatban. Lineáris regresszió

Teljesen elosztott adatfeldogozás és adatbányászat

A magánélet védelme az elosztott adatbányászatban

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

TARTALOMJEGYZÉK. TARTALOMJEGYZÉK...vii ELŐSZÓ... xiii BEVEZETÉS A lágy számításról A könyv célkitűzése és felépítése...

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Neurális hálózatok bemutató

Előrenéző és paraméter tanuló algoritmusok on-line klaszterezési problémákra

Budapesti Műszaki és Gazdaságtudományi Egyetem december 2.

Elosztott Hash Táblák. Jelasity Márk

Összefoglalás és gyakorlás

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Gépi tanulás a gyakorlatban. Bevezetés

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN

Mesterséges Intelligencia MI

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

Adatbányászati technikák (VISZM185) 2015 tavasz

Bokor Péter. DECOS Nemzeti Nap október 15. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Gépi tanulás a gyakorlatban SVM

Megkülönböztetett kiszolgáló routerek az

Valószínűségi modellellenőrzés Markov döntési folyamatokkal

Hálózati réteg. WSN topológia. Útvonalválasztás.

ADATBÁNYÁSZAT AZ AUTÓIPARI TERMÉKEK FEJLESZTÉSÉBEN

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

NEURONHÁLÓK ÉS TANÍTÁSUK A BACKPROPAGATION ALGORITMUSSAL. A tananyag az EFOP pályázat támogatásával készült.

Az INTRO projekt. Troposzféra modellek integritásvizsgálata. Rédey szeminárium Ambrus Bence

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

1: Bevezetés: Internet, rétegmodell Alapok: aszimptótika, gráfok. HálózatokII, 2007

Hidraulikus hálózatok robusztusságának növelése

Dr. Kalló Noémi. Termelés- és szolgáltatásmenedzsment. egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék. Dr.

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Modellkiválasztás és struktúrák tanulása

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Tisztán kivehetı tendencia: kommunikációs hálózatok egyre bonyolultabbakká válnak Hálózat bonyolultsága

Kereső algoritmusok a diszkrét optimalizálás problémájához

Least Squares becslés

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Gépi tanulás a Rapidminer programmal. Stubendek Attila

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Nem-lineáris programozási feladatok

Megerősítéses tanulás 7. előadás

Számítógép hálózatok, osztott rendszerek 2009

III.6. MAP REDUCE ELVŰ ELOSZTOTT FELDOLGOZÁSI ALGORITMUSOK ÉS TESZTKÖRNYEZET KIDOLGOZÁSA ADATBÁNYÁSZATI FELADATOK VÉGREHAJTÁSÁHOZ

BIG DATA ELEMZÉSEK LEHETŐSÉGEI

Megerősítéses tanulás

Hely- és kontextusfüggő alkalmazások fejlesztését támogató keretrendszer mobil környezetben

Csima Judit április 9.

Számítógépes döntéstámogatás. Genetikus algoritmusok

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek

IBM SPSS Modeler 18.2 Újdonságok

[1000 ; 0] 7 [1000 ; 3000]

Tudásalapú információ integráció

Konjugált gradiens módszer

IV.7 MÓDSZER KIDOLGOZÁSA FELHASZNÁLÓI ADATOK VÉDELMÉRE MOBIL ALKALMAZÁSOK ESETÉN

Mesterséges Intelligencia MI

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Bevezetés a Korreláció &

Hálózatok II. A hálózati réteg forgalomirányítása

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Számítógép és programozás 2

Kereső algoritmusok a diszkrét optimalizálás problémájához

Termelés- és szolgáltatásmenedzsment

Visszacsatolt (mély) neurális hálózatok

VIRTUAL NETWORK EMBEDDING VIRTUÁLIS HÁLÓZAT BEÁGYAZÁS

Elosztott rendszer architektúrák

VBKTO logisztikai modell bemutatása

Kriptográfia 0. A biztonság alapja. Számítás-komplexitási kérdések

2008 IV. 22. Internetes alkalmazások forgalmának mérése és osztályozása. Április 22.

Egy uttes m odszerek Isp any M arton es Jeszenszky P eter okt ober 18.

Hálózatok fejlődése A hatványtörvény A preferential attachment A uniform attachment Vertex copy. SZTE Informatikai Intézet

Kódverifikáció gépi tanulással

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

2008 II. 19. Internetes alkalmazások forgalmának mérése és osztályozása. Február 19

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Fuzzy rendszerek és neurális hálózatok alkalmazása a diagnosztikában

Adja meg, hogy ebben az esetben mely handshake üzenetek kerülnek átvitelre, és vázlatosan adja meg azok tartalmát! (8p)

Mesterséges Intelligencia MI

PARADIGMAVÁLTÁS A KÖZOKTATÁSBAN MOST VAGY SOHA?!

Az idegrendszeri memória modelljei

Történet John Little (1970) (Management Science cikk)

Operációs rendszerek II. Folyamatok ütemezése

Bevezetés a neurális számításokba Analóg processzortömbök,

Regresszió számítás az SPSSben

Képrekonstrukció 9. előadás

EGY TANTÁRGYI ÉS EGY MÓDSZERTANI PEDAGÓGUS- TOVÁBBKÉPZÉS BEMUTATÁSA

K+F a Hálózattervezés területén

Navigáci. stervezés. Algoritmusok és alkalmazásaik. Osváth Róbert Sorbán Sámuel

Online algoritmusok. Algoritmusok és bonyolultságuk. Horváth Bálint március 30. Horváth Bálint Online algoritmusok március 30.

Átírás:

Kollektív tanulás milliós hálózatokban Jelasity Márk

2

3

Motiváció Okostelefon platform robbanásszerű terjedése és Szenzorok és gazdag kontextus jelenléte, ami Kollaboratív adatbányászati alkalmazások lehetőségét teremti meg Egészségügy: járványok nyomon követése, előrejelzése, egyéni diagnosztika Smart city: forgalom optimalizálása, balesetveszélyes helyzetek előrejelzése Földrengés előrejelzés, pénzügyi alkalmazások, stb P2P hálózatok, grid, stb, is releváns platformok 4

P2P rendszermodell Nagyon sok (több millió) eszköz (számítógép) Ezentúl csomópontnak hívjuk őket (node) Csomagkapcsolt hálózat segítségével kommunikálnak Minden csomópont hálózati címmel rendelkezik A cím ismeretében a csomópont számára üzenet küldhető bármely másik csomópontból Az üzenetek a hálózatban késhetnek, és el is veszhetnek, sorrendjük sem garantált Formalizálhatjuk is, pl. a kaotikus modell érdekes és releváns 5

Teljesen elosztott adatmodell Horizontális elosztottság Minden csomóponton kevés, esetleg csak egy adatrekord (innen feltesszük hogy pont egy) Nem engedjük meg az adat mozgatását, csak lokális feldolgozást Privacy preservation (adatvédelem) Az előállított modellek használata olcsó és minden csomópont számára elérhető legyen Demokratikus feltétel 6

Illusztráció: átlagolás 12 3 6 7 2 8 7

Illusztráció: átlagolás 12 3 kérés 6 6 7 2 8 8

Illusztráció: átlagolás 12 3 válasz 12 6 7 2 8 9

Illusztráció: átlagolás 9 3 9 7 2 8 (126)/2=9 10

Osztályozási probléma Adott (x i,y i ) példák egy halmaza, ahol y i x i osztálya (y i pl. 1 vagy 1, kétosztályos esetben) Egy f() modellt szeretnénk, amelyre f(x i )=y i (ill. f(x i ) y i ) minden ire f() gyakran paraméterekkel addott: f w (), így a tanulási probléma hibaminimalizálásra vezethető vissza wben. A hiba gyakran a példák feletti hibák összege 11

12 Osztályozás lineáris modellel

Teljesen elosztott osztályozás A probléma tehát olyan optimalizáló algoritmust találni, amely jól illeszkedik a rendszer és adatmodellünkbe A legtöbb ismert elosztott módszer felteszi, hogy lokálisan is építhető modell, majd ezeket a modelleket kombinálja (ensemble learning) Az online módszerek azonban Egyszerre csak egy adatrekordot igényelnek Ezzel a rekorddal frissítik a modellt A sztochasztikus gradiens módszer egy gyakori online módszer, ezt alkalmazzuk a lineáris modellekre (az SVM módszer hibafüggvényének primál alakjára) 13

Sztochasztikus gradiens Tegyük fel hogy a hiba: Ennek gradiense: Tehát a teljes gradiens módszer az lenne hogy: De csak egy példát veszünk egyszerre, szóval a módszer: n Err w = i=1 Err w w n = i=1 n w t 1 =w t t i=1 Err w, x i Err w, x i w Err w, x i w w t 1 =w t t Err w, x i w 14

A pletyka tanulás 15

A merge függvény Legyen z=merge(x,y)=(xy)/2 (x, y lineáris modellek) Adaline perceptron stochasztikus gradiens módszerével z frissítése egy példával u.olyan hatású mint x és y frissítése az adott példával, majd ezek átlagolása zvel predikálni u.az, mint x és y predikcióját súlyozottan átlagolni Ez azt jeleni, hogy effektíve egy exponenciálisan növekvő számú modellt propagálunk, és ezek szavaztatása a predikciónk! Az lineáris SVM algoritmusra ez nem teljesül pontosan, de a hasonlóság heurisztikusan motiválja a módszert 16

Lokális predikció Csak helyben meglévő modelleket használunk Vagy csak az aktuális modellt Vagy az ingyen összegyűlt modellek szavaztatását is elvégezhetjük 17

Kísérleti kiértékelés Az ismert Pegasos algoritmust alkalmaztuk (lineáris SVM sztochasztikus gradiens módszerrel) a pletyka keretben Ismert adatbázisokon értékeltük ki a módszert Teljesen elosztott adatmodell, egy rekord egy csomóponton Extrém kísérleti beállításokat is használtunk a robosztusság tesztelésére (kaotikus modell) 50% üzenetvesztés 110 ciklusnyi késleltetés 18

Tanuló adatbázisok A kísérletekben felhasznált adatbázisok statisztikái Néhány ismert algoritmus teljesítménye 19

Véletlen séta alapú módszer 20

Átlagolt modellek 21

További eredmények A többosztályos boosting algoritmust is implementáltuk a pletyka tanulás sémájában, a boosting elméleti tulajdonságainak megtartásával A módszert alkalmassá tettük adaptív környezetben való használatra (concept drift) Folyamatosan fut a rendszer A modellek életkoreloszlását fixen tartjuk Minden időpillanatban egy jó modell rendelkezésre áll 22

Adaptivitás 23

Publikációk Róbert Ormándi, István Hegedűs, and Márk Jelasity. Asynchronous peertopeer data mining with stochastic gradient descent. In Emmanuel Jeannot, Raymond Namyst, and Jean Roman, editors, EuroPar 2011, volume 6852 of Lecture Notes in Computer Science, pages 528 540. SpringerVerlag, 2011. Róbert Ormándi, István Hegedűs, and Márk Jelasity. Gossip learning with linear models on fully distributed data. Concurrency and Computation: Practice and Experience, 2012. to appear. István Hegedűs, Róbert BusaFekete, Róbert Ormándi, Márk Jelasity, and Balázs Kégl. Peertopeer multiclass boosting. In EuroPar 2012, Lecture Notes in Computer Science. SpringerVerlag, 2012. to appear. 24

Megjegyzések Ha a megvalósított véletlen séta garantáltan uniform, akkor az összes modell bizonyíthatóan az optimális modellhez konvergál Ha a késleltetés és üzenetvesztés statisztikailag független a csomópontoktól, akkor függetlenül a késleltetésektől és az üzenetvesztés mértékétől a véletlen séta továbbra is uniform marad A gyakorlatban természetesen nem kritikus az uniformitás, de ez függ az adatbázis komplexitásától, a hálózat méretétől, és a bias természetétől is 25