Peer-to-peer (P2P) gépi tanulás. Hegedűs István



Hasonló dokumentumok
Teljesen elosztott adatbányászat alprojekt

Pletykaalapú gépi tanulás teljesen elosztott környezetben

Kollektív tanulás milliós hálózatokban. Jelasity Márk

Teljesen elosztott adatfeldogozás és adatbányászat

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Gépi tanulás a gyakorlatban. Lineáris regresszió

2. fejezet Hálózati szoftver

Gépi tanulás a gyakorlatban SVM

V2V - Mobilitás és MANET

Pletykaalapú gépi tanulás teljesen elosztott környezetben

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

DroidLab Androidos eszközökkel épített teszthálózat. Vida Rolland, BME-TMIT szeptember 27.

Adatbányászati technikák (VISZM185) 2015 tavasz

Korszerű optimalizálási módszerek gyakorlati felhasználási lehetőségei a logisztikai folyamatok és rendszerek hatékonyságának növelésében

Az RFID bevezetésének kérdései

Dinamikus programozás alapú szivattyú üzemvitel optimalizálási technikák (főként) kombinatorikus vízműhálózatokra

Dinamikus routing - alapismeretek -

Valós idejû számlázás mobil környezetben

Kvantumkriptográfia III.

Standardizálás, transzformációk

IBM WebSphere Adapters 7. változat 5. alváltozat. IBM WebSphere Adapter for Oracle E-Business Suite felhasználói kézikönyv 7. változat 5.

III.6. MAP REDUCE ELVŰ ELOSZTOTT FELDOLGOZÁSI ALGORITMUSOK ÉS TESZTKÖRNYEZET KIDOLGOZÁSA ADATBÁNYÁSZATI FELADATOK VÉGREHAJTÁSÁHOZ

TERMELÉSI MÉLYSÉG OPTIMALIZÁLÁSA ANT COLONY ALGORITMUS ALKALMAZÁSÁVAL BEVEZETÉS

Sorbanállási modellek

KÖZVETLEN BRÜSSZELI FORRÁS PÁLYÁZATI TÁJÉKOZTATÓ

Objektumok beltéri követését végző ZigBee hálózat telepítő eszközzel

ÖNJAVÍTÓ AGGREGÁLÁS SZENZORHÁLÓZATOKBAN ÉS AGGREGÁTOR NODE VÁLASZTÁS. Schaffer Péter. Tézisfüzet. Konzulens: Buttyán Levente, Ph.D.

Mérési útmutató a Mobil Kommunikáció és Kvantumtechnológiák Laboratórium méréseihez

1 / :21

Mikroszkopikus közlekedési szimulátor fejlesztése és validálása (Development and validating an urban traffic microsimulation)

Support vektor alapú tanulás alkalmazásai

Support vektor alapú tanulás alkalmazásai

A GYÉMÁNTOK ABSZOLÚT RAGYOGÁSA

Intelligens eszközök fejlesztése az ipari automatizálásban

Elosztott rendszerek

Gépi tanulás a gyakorlatban. Bevezetés

WIFI smart alkalmazás. Kezelési útmutató.

A médiatechnológia alapjai

Az Európai Szakképzési Minőségbiztosítási Hálózat (ENQA-VET) ( )

Egyenlőtlenségek és hálózatok a társadalomban

A Zigbee technológia

Számítógépes Hálózatok

Finite Element Methods for Active Contour Models and Balloons for 2D and 3D Images

Alkalmazások teljesítmény problémáinak megszűntetése

2011. május 19., Budapest IP - MIKRO MOBILITÁS

Konfigurációkezelés (2B)

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Dr. h.c. Dr. Szepes András. Informatika 2. INF2 modul. Hálózati ismeretek

Új megközelítés az európai IT biztonságitudatosság növelésben

Adatbiztonság. Tóth Zsolt. Miskolci Egyetem. Tóth Zsolt (Miskolci Egyetem) Adatbiztonság / 22

INVERZ FERTŐZÉSI PROBLÉMA

a gazdaság ökonómiai méretének meghatározására is használható. Egy gazdaság bizonyos tevékenységei, tevékenység csoportjai által előállított SFH

Adatbázis használat I. 5. gyakorlat

Makroökonómia I. segédanyag február

Új algoritmusok a vezetéknélküli szenzoriális kommunikációhoz

Szüntesd meg a torlódást.

Regionális gazdaságtan gyakorlat

AZ IGAZI BIG DATA hogyan használják a világban és egyáltalán használják-e hazánkban?

Relációs algebra áttekintés és egy táblára vonatkozó lekérdezések

Riak. Pronounced REE-ahk. Elosztott adattároló eszköz. Molnár Péter

Zárójelentés. Az autonóm mobil eszközök felhasználási területei, irányítási módszerek

Szenzorhálózatok Útvonalválasztás ( )

A könyv tartalomjegyzéke

Fogalom értelmezések I.

A felsőoktatás nemzetköziesítése

Bevezetés a játékelméletbe Kétszemélyes zérusösszegű mátrixjáték, optimális stratégia

Neurális hálózatok elméleti alapjai TULICS MIKLÓS GÁBRIEL

Passzív optikai hálózat csillapításának mérése optikai adó-vevővel Összeállította: Békefi Ádám hallgató Mészáros István tanszéki mérnök

Készítette: Fedor Anna és Pintér András, design: Miszkuly Bea

Gondolatok a légköri energiák repülésben való jobb hasznosításáról

Globális optimalizálási algoritmusok intervallum korlátos feladatokra

KOMPLEX MOBILITÁS MENEDZSMENT ALGORITMUSOK ÉS ALKALMAZÁSOK

A szolgáltatásbiztonság alapfogalmai

Department of Software Engineering

Nagy hálózatok előfeldolgozása gyorsabb útvonalkereséshez

Hálózatok. Alapismeretek. A hálózatok célja, építőelemei, alapfogalmak

Kaucsukok és hőre lágyuló műanyagok reológiai vizsgálata

10. Genomika 2. Microarrayek és típusaik

WiFi biztonság A jó, a rossz és a csúf

Miskolci Egyetem GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR. Analízis I. példatár. (kidolgozott megoldásokkal) elektronikus feladatgyűjtemény

JELENTÉS. Deák János Egri István Pollák Iván Pongrácz Károly Schuchtár Endre Szabó Sándor

A TERMELÉSI FOLYAMATOK HATÉKONY ÉS OPTIMÁLIS IRÁNYÍTÁSA A KOMPLEX MÓDSZER ALKALMAZÁSÁVAL

Disztribúciós feladatok. Készítette: Dr. Ábrahám István

Kecskeméti Fıiskola GAMF Kar Informatika Tanszék. Johanyák Zsolt Csaba

A GÉPIPARI TUDOMÁNYOS EGYESÜLET MŰSZAKI FOLYÓIRATA 2009/ oldal LX. évfolyam

BKV Zrt. VÁLLALKOZÁSI SZERZŐDÉS

Szenzorhálózatok III.

EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA

Kompetencia alapú matematika oktatás Oláhné Téglási Ilona

Bevezetés. Párhuzamos vetítés és tulajdonságai

10. Előadás. 1. Feltétel nélküli optimalizálás: Az eljárás alapjai

GOOGLE ANALITYCS VS. SPSS CLEMENTINE

Sztochasztikus folyamatok 1. házi feladat

2. feladat Legyenek 1 k n rögzített egészek. Mennyi az. x 1 x 2...x k +x 2 x 3...x k x n k+1 x n k+2...x n

egyedi előfizetői szerződés/szerződésmódosítás általános rendelkezések szolgáltatási És díjazási melléklet Üzleti előfizető részére

Új gépjármű beérkeztetés modul

Az internet ökoszisztémája és evolúciója. Gyakorlat 4

RLC-alapú HSDPA szállítóhálózati torlódásvezérlés

ÚJ FUZZY ALAPÚ KÉPFELDOLGOZÓ ELJÁRÁSOK KIDOLGOZÁSA

EUCIP Core Sillabusz 3.0 változat

Heurisztikák BitTorrent hálózatok max-min méltányos sávszélesség-kiosztására

Átírás:

Peer-to-peer (P2P) gépi tanulás Hegedűs István

Motiváció Adatokban rejlő információk kinyerésének fontossága adatbányászat, gépi-tanulás, modell építés Különböző módszerekkel összegyűjtött adatok feldolgozása Adathalmazokban rejlő minták azonosítása Minták (osztályok) egymástól való elkülönítése Lehetséges felhasználási területek: Spam szűrés Vélemény detekció Ajánló rendszerek

Motiváció Napjainkban rengeteg információ keletkezik lokálisan (szenzor hálózatok, okos telefonok) Adatok centralizálása modell építése Modell építése centralizálás nélkül p2p pletyka alapú algoritmusok alkalmazása (személyes információk a lokális gépen maradnak meglévő algoritmusainkat át kell alakítanunk)

Rendszer- és adatmodell Adott számítógépek (node, peer) egy hálózata Az adatbázis el van osztva a hálózaton Node-onként egy vagy csak néhány példa A node-ok el tudják kérni egy véletlenszerűen választott node címét a hálózatban a NewsCast nevű protokoll segítségével Egy node üzenetet tud küldeni egy másik nodenak, ha ismeri a címét Cél: modell építése üzenete segítségével, de lokális számítást alkalmazva

Osztályozás Két-osztályos eset Adottak tanító példák, ahol és Feladat: keresünk egy modellt,amely helyesen szét tudja választani a különböző osztályba tartozó példákat minimalizálja az alábbi formulát Lineáris esetben a modell egy dimenziós hiperpsíknak ( ) felel meg Egy lehetséges módszer a keresett modell megtalálására a sztochasztikus gradiens módszer (SGD)

Stochastic Gradient Descent (SGD) centralizált eset A SGD egy optimalizálási módszer, amely egy előre definiált függvény ( ) minimumának a helyét próbálja megtalálni gradiens lépések sorozatával. Minden egyes iterációban egyetlen véletlenül választott példa segítségével kiszámolja az gradiens lépést és frissíti a modellt Miért SGD: mivel iterációnként elegendő egy példa az egész adatbázis helyett

Stochastic Gradient Descent (SGD) Legyen a hibafüggvény centralizált eset Ekkor a gradiens Így a gradiens alapú frissítés De mivel az SGD egy példa alapján frissít

P2P SGD Ötlet: a modellek node-ról node-ra ugrálnak és frissítik magukat az ott található tanító példa segítségével Az algoritmus megegyezik az eredeti SGD algoritmus egy kifordított változatával Ha tudjuk garantálni a mintázás véletlenszerűségét, akkor az algoritmusunk ugyan abba az optimumba konvergál További előnyök: az adatok sosem hagyják el a node-okat, személyes, érzékeny információk helyben maradnak

P2P adatbányász keretrendszer Node Network

P2P adatbányász keretrendszer Node join Network

P2P adatbányász keretrendszer Node join Network Model Initialization

P2P adatbányász keretrendszer Node join Network j Model Initialization

P2P adatbányász keretrendszer Node join Network wait(δ) j Model Initialization

P2P adatbányász keretrendszer Node join Network wait(δ) select j Model Initialization p

P2P adatbányász keretrendszer Node join Network wait(δ) select and send j model Model Initialization p

P2P adatbányász keretrendszer Node join Network wait(δ) select and send j model Model Initialization p update, store

SGD alapú Support Vector Pegasos SVM Machines (SVM) SGD alapú ML algoritmus Egy olyan szeparáló hipersíkot keres ( ), amely még maximalizálja a margót is

P2Pegasos SVM algoritmus Definiálnunk kell az updatemodel és az initmodel metódusokat a különféle ML algoritmusok implementálásához Pegasos esetén:

P2Pegasos SVM algoritmus Definiálnunk kell az updatemodel és az initmodel metódusokat a különféle ML algoritmusok implementálásához Pegasos esetén:

P2Pegasos SVM algoritmus Definiálnunk kell az updatemodel és az initmodel metódusokat a különféle ML algoritmusok implementálásához Pegasos esetén:

P2Pegasos SVM algoritmus Definiálnunk kell az updatemodel és az initmodel metódusokat a különféle ML algoritmusok implementálásához Pegasos esetén:

P2Pegasos SVM algoritmus Definiálnunk kell az updatemodel és az initmodel metódusokat a különféle ML algoritmusok implementálásához Pegasos esetén:

P2Pegasos SVM algoritmus Definiálnunk kell az updatemodel és az initmodel metódusokat a különféle ML algoritmusok implementálásához Pegasos esetén:

Predikció kiértékelés Minden node megtartja az utolsó néhány fogadott modellt és azok alapján predikál Egy modell esetén Több modell esetén (szavaztatás)

Kommunikációs költség A módszer kommunikációs költsége megegyezik a pletyka alapú módszerek költségével Minden node a hálózatban Δ időközönként küld egy modellt egy véletlenszerűen választott node-nak O(n) a hálózatban O(1) node-onként Tartalmazza a peer szelekció költségét is

Algoritmus összefoglaló Véletlen séta alapú P2P SGD módszer Modell küldés példa gyűjtögetés helyett Node-ok modelleket gyűjtenek Sima és szavaztatott predikció Lokális számítások és kiértékelés Nincs extra kommunikációs költség Minden node a hálózatban ugyan azt az algoritmust futtatja

Tesztelés PeerSim szimulációs környezet NewsCast alapú peer szelekció A 10 utolsó modell használata szavaztatás esetén Baseline-ok: Pegasos, SVMLight Adatbázisok: Iris, Reuters, SpamBase, Malicious Esetek: Hibamentes (No Failure) Üzenet vesztéses (Drop only): 0.5 valószínűség Késleltetéses (Delay only): [Δ, 10Δ] ből véletlenszerűen Churn (Churn only): Log-normal eloszlásból Minden együtt (All Failures)

Adatbázis jellemzők

Hálózati hibák hatásai

Méret és tanulhatóság Nincs összefüggés az adatbázis mérete és tanulhatósága között A tanulhatóság inkább az adatbázis struktúrájától függ, mint a méretétől

Konvergencia A teljesítmény és a modell hasonlóság között összefüggés van A modell hasonlóság nő a teljesítménnyel mivel a modellek ugyan abba az optimumba konvergálnak

További eredmények

Összefoglaló P2P SGD alapú keretrendszer bemutatása A keretrendszerbe a Pegasos SVM implementálása valamit az algoritmus tesztelése Elvárt teljesítmény sikeres elérése P2P esetben Az algoritmus extrém környezetben is megfelelően működik