Teljesen elosztott adatbányászat alprojekt



Hasonló dokumentumok
Kollektív tanulás milliós hálózatokban. Jelasity Márk

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Pletykaalapú gépi tanulás teljesen elosztott környezetben

Peer-to-peer (P2P) gépi tanulás. Hegedűs István

Support vektor alapú tanulás alkalmazásai

Support vektor alapú tanulás alkalmazásai

Pletykaalapú gépi tanulás teljesen elosztott környezetben

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

Gépi tanulás a gyakorlatban. Lineáris regresszió

A magánélet védelme az elosztott adatbányászatban

P-gráf alapú workflow modellezés fuzzy kiterjesztéssel

Előrenéző és paraméter tanuló algoritmusok on-line klaszterezési problémákra

Kódverifikáció gépi tanulással

MULTIMÉDIA ALAPÚ OKTATÁSI TECHNOLÓGIÁK GYAKORLATI ALKALMAZÁSÁNAK VIZSGÁLATA A KATONAI SZAKNYELVOKTATÁSBAN

Teljesen elosztott adatfeldogozás és adatbányászat

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

Hálózati réteg. WSN topológia. Útvonalválasztás.

VIRTUÁLIS GÉPTEREM KIALAKÍTÁSÁNAK GAZDASÁGI ÉS TECHNOLÓGIAI ELEMZÉSE DÁVID ÁKOS

Számítógépes Hálózatok Felhasználói réteg DNS, , http, P2P

Felhasználói réteg. Számítógépes Hálózatok Domain Name System (DNS) DNS. Domain Name System

Visszacsatolt (mély) neurális hálózatok

Adatbányászati technikák (VISZM185) 2015 tavasz

1: Bevezetés: Internet, rétegmodell Alapok: aszimptótika, gráfok. HálózatokII, 2007

VIRTUAL NETWORK EMBEDDING VIRTUÁLIS HÁLÓZAT BEÁGYAZÁS

Összefoglalás és gyakorlás

Elosztott Hash Táblák. Jelasity Márk

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Felhők teljesítményelemzése felhő alapokon

Tudásalapú információ integráció

Tisztán kivehetı tendencia: kommunikációs hálózatok egyre bonyolultabbakká válnak Hálózat bonyolultsága

Budapesti Műszaki és Gazdaságtudományi Egyetem december 2.

KÜLÖNÖSEN NAGY ADATTÖMEGEK KEZELÉSÉNEK EGYES KÉRDÉSEIRİL DOKTORI ÉRTEKEZÉS TÉZISEI

Felhőszámítástechnika (Cloud Computing) helye és szerepe az on-line világ folyamataiban. Dr. Élő Gábor Széchenyi István Egyetem ITOK 2013

A megerosítéses tanulás és a szimulált hutés kombinált használata: algoritmusok és alkalmazások

Valós idejű kiberfizikai rendszerek 5G infrastruktúrában

Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben

Cisco Networking Academy Program CISCO tanfolyam HBONE rendszergazdák számára

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Drótposta: ; ; Honlapom:

Adatfolyam alapú RACER tömbprocesszor és algoritmus implementációs módszerek valamint azok alkalmazásai parallel, heterogén számítási architektúrákra

Ambiens szabályozás problémája Kontroll és tanulás-1

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Számítógép hálózatok, osztott rendszerek 2009

Intelligens közlekedés: a járműipar és járműirányítás IKT igényei, a VehicleICT projekt. Lengyel László lengyel@aut.bme.hu

Mobil szolgáltatások és alkalmazások fejlesztése

COMPANY PROFILE SZOFI ALGORITHMIC RESEARCH KFT

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

2. Cím: Nézettségmérés új módszerei avagy Audience measurement Kulcsszavak: IPTV, felhasználói viselkedés, média, ajánlórendszerek

Osztott rendszerek (Distributed. systems) Bevezetés. Tartalom. Ficsor Lajos. Miskolci Egyetem Általános Informatikai Tanszék

Osztott rendszerek (Distributed

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Elosztott rendszer architektúrák

AZ INFORMATIKAI BIZTONSÁG ALPROJEKT EREDMÉNYEINEK BEMUTATÁSA

Internet of Things. Dr. Szepessy Zsolt evopro Innovation Kft. HTE INFOKOM október /10/14

Felhő alapú hálózatok Konténerek orkesztrálása Simon Csaba. Budapesti Műszaki és Gazdaságtudományi Egyetem

Bevezetés a párhuzamos programozási koncepciókba

Adatbányászat a felhőben

Történet John Little (1970) (Management Science cikk)

NIIF szolgáltatások a múzeumok számára

Süle Zoltán publikációs listája

Valószínűségi modellellenőrzés Markov döntési folyamatokkal

Új módszerek és eszközök infokommunikációs hálózatok forgalmának vizsgálatához

Virtuális Obszervatórium. Gombos Gergő

FELHŐ és a MAINFRAME. Irmes Sándor

Adatbányászati szemelvények MapReduce környezetben

Support Vector Machines

Számítógépes Hálózatok

Robotika a felhőkben

Policy keretrendszer dinamikus hálózatkompozíciók automatizált tárgyalási folyamatához

Gyors sikerek adatbányászati módszerekkel

Szemantikus protokollt alkalmazó mobil Peer-to-Peer kliensszoftver

Ipari hálózatok biztonságának speciális szempontjai és szabványai

Hálózati Technológiák és Alkalmazások

Szolgáltatás és Minőségfejlesztés a Corvinus Egyetemen Kiss György János Mogyorósi János

ADATBÁNYÁSZAT AZ AUTÓIPARI TERMÉKEK FEJLESZTÉSÉBEN

Pozícióinformáció. Sikeres helyfüggő szolgáltatások mobilra

Adatbányászati és gépi tanulási algoritmusok szoftver szenzorok fejlesztésére. Kulcsár Tibor

2008 IV. 22. Internetes alkalmazások forgalmának mérése és osztályozása. Április 22.

Publikációs lista. Gódor Győző július 14. Cikk szerkesztett könyvben Külföldön megjelent idegen nyelvű folyóiratcikk...

III.5 KILOPROCESSZOROS RENDSZEREK LOGISZTIKAI ALKALMAZÁSA (SZOLGAY PÉTER)

Elosztott rendszerek. Az elıadás. Az elosztott rendszer definíciója. Köztesrétegként felépülı elosztott rendszer

Hálózatba kapcsolt erőforrás platformok és alkalmazásaik. Simon Csaba TMIT 2017

Markov-láncok stacionárius eloszlása

Intelligens adatelemzés

Copyright 2012, Oracle and/or its affiliates. All rights reserved.

A k-szerver probléma

Párhuzamos programozási platformok

NEURONHÁLÓK ÉS TANÍTÁSUK A BACKPROPAGATION ALGORITMUSSAL. A tananyag az EFOP pályázat támogatásával készült.

Neurális hálózatok bemutató

Hidraulikus hálózatok robusztusságának növelése

IoT rendszerfelügyelet

AZ IGAZI BIG DATA hogyan használják a világban és egyáltalán használják-e hazánkban?

III.6. MAP REDUCE ELVŰ ELOSZTOTT FELDOLGOZÁSI ALGORITMUSOK ÉS TESZTKÖRNYEZET KIDOLGOZÁSA ADATBÁNYÁSZATI FELADATOK VÉGREHAJTÁSÁHOZ

webalkalmazások fejlesztése elosztott alapon

Konszolidáció és költségcsökkentés a gyakorlatban. Az Országos Tisztifőorvosi Hivatal Oracle adatbázis konszolidációja

Hálózati architektúrák és Protokollok GI 7. Kocsis Gergely

Párhuzamos és Grid rendszerek

R3-COP. Resilient Reasoning Robotic Co-operating Systems. Autonóm rendszerek tesztelése egy EU-s projektben

Autópálya forgalomszabályozás felhajtókorlátozás és változtatható sebességkorlátozás összehangolásával és fejlesztési lehetőségei

A TANTÁRGY ADATLAPJA

Átírás:

Teljesen elosztott adatbányászat alprojekt Hegedűs István, Ormándi Róbert, Jelasity Márk

Big Data jelenség

Big Data jelenség Exponenciális növekedés a(z): okos eszközök használatában, és a szenzor- és egyéb kontextuális adatok mennyiségében Remek lehetőség az adatbányászatra

Jelenlegi rendszerek Főleg felhő alapú megoldások: Fenntartási költség Privacy: az adatokat felhasználhatják: Üzleti döntéstámogatásra Meglévő software termékek okosítására, pl:google news, Google Now, Gmail SPAM filtering, Evernote tag classification, Siri, Shazam

Cél Teljesen elosztott (infrastruktúra nélküli) nincs központi kontroll Adatvédelmi szempontok szem előtt tartása nincs harmadik fél, nincs mögöttes érdek Határtalan skálázódás Hasonló vagy jobb minőségű szolgáltatások Nyílt rendszer nem profit, hanem (köz)haszon orientált

Rendszer- és adatmodell Rendszermodell: Nagyon nagyszámú csomópont (eszköz) NAT Elvárás: üzenetküldés alapú kommunikáció nincs garancia vagy visszacsatolás az üzenet megérkezéséről (csomagkésés és vesztés) Aszinkron kommunikáció Felhasználók tetszőlegesen és gyorsan ki- és beléphetnek (churn) Terhelés elosztás csomagok mérete, mennyisége kezelhető legyen

Rendszer- és adatmodell Adatmodell: horizontálisan partícionált adatok eszközönként kevés adat nem elegendő lokálisan végzett modellépítésre Elvárások: az adatrekordok (nyers formában) nem hagyhatják el az eszközt! privacy a modellek használata (predikció) lokálisan történjen skálázódás

Pletyka alapú tanulás Előfeltételek: Overlay hálózat: virtuális hálózat (gráf) ami mentén az eszközök kommunikálnak Peer sampling service: felsőbb rétegek számára szomszédok biztosítása a fenti rendszermodellben Ilyen protokollok léteznek, lásd pl. Newscast (Márk korábbi munkáiból)! Newscast: Csomópontonként O(1) kommunikációval, nagy valószínűséggel online, uniform véletlen szomszédok biztosítása a fenti rendszermodellben

Pletyka alapú tanulás - osztályozás Felügyelt osztályozási probléma: Adott: (x i,y i ) párok halmaza a csomópontokon Cél: építsünk egy f paraméterezett modellt, hogy f w (x)=y teljesüljön (nem csak a tanítópéldákra!) Megvalósítás: gyakran valamilyen célfüggvény minimalizálásával: Logisztikus/Lineáris regresszió, ANN, SVM, stb...

Pletyka alapú tanulás - SGD Tfh. egy osztályozási hiba adott A hiba grádiense a paraméter függvényében A teljes grádiens frissítés (teljes adatbázis ismerete szükséges) Grádiens lépés egy tanítópéldával (sztochasztikus változat; uniform mintavételezés kritikus) n Err ( w )= i=1 Err (w,x i ) n Err ( w ) w = Err (w,x i ) i=1 w n Err (w,x w (t+1) =w (t ) α (t ) i ) w i= 1 w (t+1) =w (t ) α (t ) Err (w,x i ) w

Pletyka alapú tanulás - GoLF Pletyka alapú tanulás Gossip Learning Framework (GoLF): Alkalmazzunk online tanulókat (pl. sztochasztikus gradiens) Amely modellek (kezdeményei) véletlen sétákat tesznek a hálózatban A csomópontoknál lévő adatokkal frissítik magukat (pl. sztochasztikus gradiens lépés) Lokális és/vagy globális kombinációs módszerekkel kombinálják a modelleket

Pletyka alapú tanulás - GoLF

Pletyka alapú tanulás - GoLF Predikció: Lokális: egy modell alapján Szavaztatott: több modell többségi döntése mentén

GoLF - Eredmények

GoLF - Publikációk Róbert Ormándi, István Hegedűs and Márk Jelasity. Asynchronous Peer-to-peer Data Mining with Stochastic Gradient Descent. In Proceedings of 17th International European Conference on Parallel and Distributed Computing, EuroPar'11, Bordeux, France, 2011. Róbert Ormándi, István Hegedűs and Márk Jelasity. Gossip learning with linear models on fully distributed data. In Concurrency and Computation: Practice and Experience, CPE, 2012. István Hegedűs, Róbert Busa-Fekete, Róbert Ormándi, Márk Jelasity and Balázs Kégl. Peer-to- Peer Multi-Class Boosting. In Proceedings of 18th International European Conference on Parallel and Distributed Computing, EuroPar'12, Rhodes, Greece, 2012. István Hegedűs, Róbert Ormándi and Márk Jelasity. Gossip-based Learning under Drifting Concepts in Fully Distributed Networks. In Proceedings of 2012 IEEE Sixth International Conference on Self-Adaptive and Self-Organizing Systems, SASO'12, Lion, France, 2012. István Hegedűs, Lehel Nyers and Róbert Ormándi. Detecting Concept Drift in Fully Distributed Environments. In Proceedings of 2012 IEEE 10th Jubilee International Symposium on Intelligent Systems and Informatics, SISY'12, Subotica, Serbia, 2012. Balázs Szörényi, Róbert Busa-Fekete, István Hegedűs, Róbert Ormándi, Márk Jelasity and Balázs Kégl. Gossip-based distributed stochastic bandit algorithms. In Proceedings of The 30th International Conference on Machine Learning (ICML), 3rd Cycle, Atlanta, USA, 2013.