Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Hasonló dokumentumok
Kollektív tanulás milliós hálózatokban. Jelasity Márk

Teljesen elosztott adatbányászat alprojekt

Peer-to-peer (P2P) gépi tanulás. Hegedűs István

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Gépi tanulás a gyakorlatban. Lineáris regresszió

Gépi tanulás a gyakorlatban. Bevezetés

Teljesen elosztott adatfeldogozás és adatbányászat

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Mesterséges Intelligencia MI

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Pletykaalapú gépi tanulás teljesen elosztott környezetben

Gépi tanulás a gyakorlatban SVM

Összefoglalás és gyakorlás

Support vektor alapú tanulás alkalmazásai

Support vektor alapú tanulás alkalmazásai

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Az INTRO projekt. Troposzféra modellek integritásvizsgálata. Rédey szeminárium Ambrus Bence

Megkülönböztetett kiszolgáló routerek az

Hidraulikus hálózatok robusztusságának növelése

TARTALOMJEGYZÉK. TARTALOMJEGYZÉK...vii ELŐSZÓ... xiii BEVEZETÉS A lágy számításról A könyv célkitűzése és felépítése...

Least Squares becslés

[1000 ; 0] 7 [1000 ; 3000]

Bokor Péter. DECOS Nemzeti Nap október 15. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Budapesti Műszaki és Gazdaságtudományi Egyetem december 2.

ÉRZÉKELŐK ÉS BEAVATKOZÓK I. 3. MÉRÉSFELDOLGOZÁS

Neurális hálózatok bemutató

Kereső algoritmusok a diszkrét optimalizálás problémájához

Gépi tanulás a Rapidminer programmal. Stubendek Attila

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Tudásalapú információ integráció

Dr. Kalló Noémi. Termelés- és szolgáltatásmenedzsment. egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék. Dr.

API-MÁGIA MILLIÓ SORNYI ADAT ÚJRARENDEZÉSE. Előadó: Jaksa Zsombor, drungli.com

Online algoritmusok. Algoritmusok és bonyolultságuk. Horváth Bálint március 30. Horváth Bálint Online algoritmusok március 30.

Pletykaalapú gépi tanulás teljesen elosztott környezetben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Számítógép és programozás 2

Numerikus módszerek beugró kérdések

Hálózati réteg. WSN topológia. Útvonalválasztás.

Megerősítéses tanulás 7. előadás

Kereső algoritmusok a diszkrét optimalizálás problémájához

Adja meg, hogy ebben az esetben mely handshake üzenetek kerülnek átvitelre, és vázlatosan adja meg azok tartalmát! (8p)

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Adatbázis rendszerek I

Számítógépes döntéstámogatás. Genetikus algoritmusok

Mesterséges Intelligencia MI

Mesterséges Intelligencia MI

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Konjugált gradiens módszer

Operációs rendszerek II. Folyamatok ütemezése

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Parametrikus tervezés

Opkut deníciók és tételek

dimenziója Szirmay-Kalos László N= 1/r D D= (logn) / (log 1/r) D= (log4) / (log 3) = 1.26 N = 4, r = 1/3 Vonalzó ( l ) db r =1/3 N = 4 r 2 N 2 N m r m

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Modellkiválasztás és struktúrák tanulása

Teljesítmény Mérés. Tóth Zsolt. Miskolci Egyetem. Tóth Zsolt (Miskolci Egyetem) Teljesítmény Mérés / 20

Szoftver-mérés. Szoftver metrikák. Szoftver mérés

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Függvények növekedési korlátainak jellemzése

A könyv tartalomjegyzéke

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I.

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

Informatika ismeretek érettségi szóbeli témakörök

ELTE TáTK Közgazdaságtudományi Tanszék OKTATÁSGAZDASÁGTAN. Készítette: Varga Júlia. Szakmai felelős: Varga Júlia június

Mesterséges Intelligencia I. (I602, IB602)

Elosztott Hash Táblák. Jelasity Márk

A magánélet védelme az elosztott adatbányászatban

A XXI. SZÁZADRA BECSÜLT KLIMATIKUS TENDENCIÁK VÁRHATÓ HATÁSA A LEFOLYÁS SZÉLSŐSÉGEIRE A FELSŐ-TISZA VÍZGYŰJTŐJÉN

A következő feladat célja az, hogy egyszerű módon konstruáljunk Poisson folyamatokat.

Marton József BME-TMIT. Adatbázisok VITMAB november 11.

egy szisztolikus példa

Adatbányászati technikák (VISZM185) 2015 tavasz

Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz

The Flooding Time Synchronization Protocol

Bevezetés a neurális számításokba Analóg processzortömbök,

Társadalmi és gazdasági hálózatok modellezése

1. gyakorlat. Mesterséges Intelligencia 2.

A szimplex tábla. p. 1

Fuzzy rendszerek és neurális hálózatok alkalmazása a diagnosztikában

Az adatbázisok minősége és a kampányok hatékonysága közti összefüggések. Előadó: Bánki Márton PROAKTÍVdirekt Életmód Klub

A hálózattervezés alapvető ismeretei

Rendezések. A rendezési probléma: Bemenet: Kimenet: n számot tartalmazó (a 1,a 2,,a n ) sorozat

Elosztott rendszer architektúrák

ismertetem, hogy milyen probléma vizsgálatában jelent meg ez az eredmény. A kérdés a következő: Mikor mondhatjuk azt, hogy bizonyos események közül

Nem-lineáris programozási feladatok

Az adatok értékelése és jelentéskészítés: Az (átfogó) vizsgálati összefoglalás benyújtása

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Valószínűségi modellellenőrzés Markov döntési folyamatokkal

Mesterséges Intelligencia MI

Adaptív menetrendezés ADP algoritmus alkalmazásával

Alacsony fogyasztású IoT rádiós technológiák

Hálózatok II. A hálózati réteg forgalomirányítása

Átírás:

Teljesen elosztott adatbányászat pletyka algoritmusokkal Jelasity Márk Ormándi Róbert, Hegedűs István

Motiváció Nagyméretű hálózatos elosztott alkalmazások az Interneten egyre fontosabbak Fájlcserélő rendszerek (BitTorrent, stb), Okostelefon alkalmazások Grid, stb Ezek számára speciális adatbányász algoritmusokat kell kifejleszteni! Ajánló rendszerek, spam szűrés, stb 2

Rendszermodell Nagyon sok (több millió) eszköz (számítógép) Ezentúl csomópontnak hívjuk őket (node) Csomagkapcsolt hálózat segítségével kommunikálnak Minden csomópont hálózati címmel rendelkezik A cím ismeretében a csomópont számára üzenet küldhető bármely másik csomópontból Az üzenetek a hálózatban késhetnek, és el is veszhetnek, sorrendjük sem garantált Formalizálhatjuk is, pl. a kaotikus modell érdekes és releváns 3

Adatmodell Minden csomóponton kevés, esetleg csak egy adatrekord (innen feltesszük hogy pont egy) Nem engedjük meg az adat mozgatását, csak lokális feldolgozást Privacy preservation (magánélet tisztelete) Az előállított modellek használata olcsó és minden csomópont számára elérhető legyen Demokratikus feltétel 4

Illusztráció: átlagolás 12 3 6 7 2 8 5

Illusztráció: átlagolás 12 3 kérés 6 6 7 2 8 6

Illusztráció: átlagolás 12 3 válasz 12 6 7 2 8 7

Illusztráció: átlagolás 9 3 9 7 2 8 (126)/2=9 8

Osztályozási probléma Adott (x i,y i ) példák egy halmaza, ahol y i x i osztálya (y i pl. 1 vagy 1, kétosztályos esetben) Egy f() modellt szeretnénk, amelyre f(x i )=y i (ill. f(x i ) y i ) minden ire f() gyakran paraméterekkel addott: f w (), így a tanulási probléma hibaminimalizálásra vezethető vissza wben. A hiba gyakran a példák feletti hibák összege 9

10 Osztályozás lineáris modellel

Teljesen elosztott osztályozás A probléma tehát olyan optimalizáló algoritmust találni, amely jól illeszkedik a rendszer és adatmodellünkbe A legtöbb ismert módszer erősen szinkronizált, és felteszi az olcsó véletlen hozzáférést a teljes adatbázishoz Az online módszerek kivételt képeznek! Egyszerre csak egy adatrekordhoz férnek hozzá Ezzel a rekorddal frissítik a modellt A sztochasztikus gradiens módszer egy gyakori online módszer, ezt alkalmazzuk a lineáris modellekre (az SVM módszer hibafüggvényének primál alakjára) 11

Sztochasztikus gradiens Tegyük fel hogy a hiba: Ennek gradiense: Tehát a teljes gradiens módszer az lenne hogy: De csak egy példát veszünk egyszerre, szóval a módszer: n Err w = i=1 Err w w n = i=1 n w t 1 =w t t i=1 Err w, x i Err w, x i w Err w, x i w w t 1 =w t t Err w, x i w 12

A pletyka tanulás 13

A merge függvény Legyen z=merge(x,y)=(xy)/2 (x, y lineáris modellek) Adaline perceptron stochasztikus gradiens módszerével z frissítése egy példával u.olyan hatású mint x és y frissítése az adott példával, majd ezek átlagolása zvel predikálni u.az, mint x és y predikcióját súlyozottan átlagolni Ez azt jeleni, hogy effektíve egy exponenciálisan növekvő számú modellt propagálunk, és ezek szavaztatása a predikciónk! Az lineáris SVM algoritmusra ez nem teljesül pontosan, de a hasonlóság heurisztikusan motiválja a módszert 14

Lokális predikció Csak helyben meglévő modelleket használunk Vagy csak az aktuális modellt Vagy az ingyen összegyűlt modellek szavaztatását is elvégezhetjük 15

Kísérleti kiértékelés Az ismert Pegasos algoritmust alkalmaztuk (lineáris SVM sztochasztikus gradiens módszerrel) a pletyka keretben Ismert adatbázisokon értékeltük ki a módszert Teljesen elosztott adatmodell, egy rekord egy csomóponton Extrém kísérleti beállításokat is használtunk a robosztusság tesztelésére (kaotikus modell) 50% üzenetvesztés 110 ciklusnyi késleltetés 16

Tanuló adatbázisok A kísérletekben felhasznált adatbázisok statisztikái Néhány ismert algoritmus teljesítménye 17

Véletlen séta alapú módszer 18

Átlagolt modellek 19

Megjegyzések Ha a megvalósított véletlen séta garantáltan uniform, akkor az összes modell bizonyíthatóan az optimális modellhez konvergál Ha a késleltetés és üzenetvesztés statisztikailag független a csomópontoktól, akkor függetlenül a késleltetésektől és az üzenetvesztés mértékétől a véletlen séta továbbra is uniform marad A gyakorlatban természetesen nem kritikus az uniformitás, de ez függ az adatbázis komplexitásától, a hálózat méretétől, és a bias természetétől is 20