Pletykaalapú gépi tanulás teljesen elosztott környezetben

Hasonló dokumentumok
Teljesen elosztott adatbányászat alprojekt

Peer-to-peer (P2P) gépi tanulás. Hegedűs István

Kollektív tanulás milliós hálózatokban. Jelasity Márk

Pletykaalapú gépi tanulás teljesen elosztott környezetben

Előrenéző és paraméter tanuló algoritmusok on-line klaszterezési problémákra

A forrás pontos megnevezésének elmulasztása valamennyi hivatkozásban szerzői jogsértés (plágium).

Cluster Analysis. Potyó László

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Phenotype. Genotype. It is like any other experiment! What is a bioinformatics experiment? Remember the Goal. Infectious Disease Paradigm

A modern e-learning lehetőségei a tűzoltók oktatásának fejlesztésében. Dicse Jenő üzletfejlesztési igazgató

Klaszterezés, 2. rész

SAR AUTOFÓKUSZ ALGORITMUSOK VIZSGÁLATA ÉS GYAKORLATI ALKALMAZÁSA 2

Kognitív Infokommunikáció: egy ébredő interdiszciplína. Baranyi Péter DSc

Correlation & Linear Regression in SPSS

Using the CW-Net in a user defined IP network

Számítógépes Hálózatok

Számítógéppel irányított rendszerek elmélete. A rendszer- és irányításelmélet legfontosabb részterületei. Hangos Katalin. Budapest

Sebastián Sáez Senior Trade Economist INTERNATIONAL TRADE DEPARTMENT WORLD BANK

On The Number Of Slim Semimodular Lattices

Correlation & Linear Regression in SPSS

Angol Középfokú Nyelvvizsgázók Bibliája: Nyelvtani összefoglalás, 30 kidolgozott szóbeli tétel, esszé és minta levelek + rendhagyó igék jelentéssel

EEA, Eionet and Country visits. Bernt Röndell - SES

Publikációs lista. Gódor Győző július 14. Cikk szerkesztett könyvben Külföldön megjelent idegen nyelvű folyóiratcikk...

Smaller Pleasures. Apróbb örömök. Keleti lakk tárgyak Répás János Sándor mûhelyébõl Lacquerware from the workshop of Répás János Sándor

Csima Judit április 9.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Tudományos Ismeretterjesztő Társulat

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

Választási modellek 3

mondat ami nélkül ne indulj el külföldre

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

Adatbázisok 1. Rekurzió a Datalogban és SQL-99

Tudományos Ismeretterjesztő Társulat

Professional competence, autonomy and their effects

Csima Judit május 10.

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

AZ A PRIORI ISMERETEK ALKALMAZÁSA

Adatfolyam alapú RACER tömbprocesszor és algoritmus implementációs módszerek valamint azok alkalmazásai parallel, heterogén számítási architektúrákra

Pannon Egyetem Vegyészmérnöki és Anyagtudományok Doktori Iskola

Efficient symmetric key private authentication

Néhány folyóiratkereső rendszer felsorolása és példa segítségével vázlatos bemutatása Sasvári Péter

Mapping Sequencing Reads to a Reference Genome

Az M2M szabványosítási helyzete

EN United in diversity EN A8-0206/419. Amendment

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

AZ ERDÕ NÖVEKEDÉSÉNEK VIZSGÁLATA TÉRINFORMATIKAI ÉS FOTOGRAMMETRIAI MÓDSZEREKKEL KARSZTOS MINTATERÜLETEN

STUDENT LOGBOOK. 1 week general practice course for the 6 th year medical students SEMMELWEIS EGYETEM. Name of the student:

Drótposta: ; ; Honlapom:

Eladni könnyedén? Oracle Sales Cloud. Horváth Tünde Principal Sales Consultant március 23.

Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben

Visszacsatolt (mély) neurális hálózatok

P-gráf alapú workflow modellezés fuzzy kiterjesztéssel

AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA

ANGOL NYELVI SZINTFELMÉRŐ 2013 A CSOPORT. on of for from in by with up to at

ANGOL NYELVI SZINTFELMÉRŐ 2014 A CSOPORT

Tudományos Ismeretterjesztő Társulat

USER MANUAL Guest user

(c) 2004 F. Estrada & A. Jepson & D. Fleet Canny Edges Tutorial: Oct. 4, '03 Canny Edges Tutorial References: ffl imagetutorial.m ffl cannytutorial.m

Minta ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA II. Minta VIZSGÁZTATÓI PÉLDÁNY

Bevezetés a kvantum-informatikába és kommunikációba 2015/2016 tavasz

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Az egészségügyi munkaerő toborzása és megtartása Európában

Előszó.2. Starter exercises. 3. Exercises for kids.. 9. Our comic...17

A BÜKKI KARSZTVÍZSZINT ÉSZLELŐ RENDSZER KERETÉBEN GYŰJTÖTT HIDROMETEOROLÓGIAI ADATOK ELEMZÉSE

A jövedelem alakulásának vizsgálata az észak-alföldi régióban az évi adatok alapján

Utasítások. Üzembe helyezés


már mindenben úgy kell eljárnunk, mint bármilyen viaszveszejtéses öntés esetén. A kapott öntvény kidolgozásánál még mindig van lehetőségünk

- eqµah ³. -ry³eblbmebjkargar³

SZOLGÁLTATÁS-VALIDÁCIÓ ITU-T AJÁNLÁSOK ALAPJÁN

Szent László TISZK (SZLTISZK) Kocsis Ibolya

Policy keretrendszer dinamikus hálózatkompozíciók automatizált tárgyalási folyamatához

Searching in an Unsorted Database

Ensemble Kalman Filters Part 1: The basics

Gépi tanulás a gyakorlatban. Lineáris regresszió

A rosszindulatú daganatos halálozás változása 1975 és 2001 között Magyarországon

Utolsó frissítés / Last update: február Szerkesztő / Editor: Csatlós Árpádné

General information for the participants of the GTG Budapest, 2017 meeting

Supporting Information

Android Pie újdonságai

Új fenomén a magyar biztosítási jogban: a biztosítottak közvetlen perlési joga a viszontbiztosítóval szemben a direkt biztosító csődje esetén

A logaritmikus legkisebb négyzetek módszerének karakterizációi

Az Open Data jogi háttere. Dr. Telek Eszter

Construction of a cube given with its centre and a sideline

Utolsó módosítás:

Összefoglalás. Summary. Bevezetés

A TANTÁRGY ADATLAPJA

A magánélet védelme az elosztott adatbányászatban

Információtartalmú elemzések a közlekedéseredetű szennyezőanyagok hatásvizsgálatánál

KELER KSZF Zrt. bankgarancia-befogadási kondíciói. Hatályos: július 8.

A TANTÁRGY ADATLAPJA

Ister-Granum EGTC. Istvan FERENCSIK Project manager. The Local Action Plans to improve project partners crossborder

Directors and Officers Liability Insurance Questionnaire Adatlap vezetõ tisztségviselõk és felügyelõbizottsági tagok felelõsségbiztosításához

A V Á R B Ű V Ö L E T É B E N

Lopocsi Istvánné MINTA DOLGOZATOK FELTÉTELES MONDATOK. (1 st, 2 nd, 3 rd CONDITIONAL) + ANSWER KEY PRESENT PERFECT + ANSWER KEY

és alkalmazások, MSc tézis, JATE TTK, Szeged, Témavezető: Dr. Hajnal Péter

A megerosítéses tanulás és a szimulált hutés kombinált használata: algoritmusok és alkalmazások

Technológia-semlegesség a szabályozásban

A CAN mint ipari kommunikációs protokoll CAN as industrial communication protocol

Discussion of The Blessings of Multiple Causes by Wang and Blei

Átírás:

Pletykaalapú gépi tanulás teljesen elosztott környezetben Hegedűs István Jelasity Márk témavezető Szegedi Tudományegyetem MTA-SZTE Mesterséges Intelligencia Kutatócsopot

Motiváció Az adat adatközpontokban gyűlik Költséges tárolás és adatfeldolgozás karbantartás, infrastruktúra, biztonság Korlátozott hozzáférés még kutatók számára is De az adatot az eszközeink állítják elő

Motiváció ML Alkalmazások Személyre szabott lekérdezések Ajánlórendszerek Dokumentum klaszterezés Spam szűrés Kép szegmentálás

Pletykaalapú tanulás ML általában egy optimalizálási probléma A lokális adat nem elegendő

Pletykaalapú tanulás ML általában egy optimalizálási probléma A lokális adat nem elegendő A modellt a eszközök küldözgetik és frissítik

Pletykaalapú tanulás ML általában egy optimalizálási probléma A lokális adat nem elegendő A modellt a eszközök küldözgetik és frissítik Véletlen séta Példánkénti frissítés Adat helyben marad!

Pletykaalapú tanulás ML általában egy optimalizálási probléma A lokális adat nem elegendő A modellt a eszközök küldözgetik és frissítik Véletlen séta Példánkénti frissítés Adat helyben marad! Stochastic Gradient Descent (SGD)

SGD Célfüggvény

SGD Célfüggvény Gradiens módszer

SGD Célfüggvény Gradiens módszer SGD, az adat online feldolgozható (példánként)

SGD Célfüggvény Gradiens módszer SGD, az adat online feldolgozható (példánként) Pletykaalapú tanulás

Pletykaalapú tanulás SGD-alapú gépi tanuló módszerek használhatók Logistic Regression Support Vector Machines Perceptron Artificial Neural Networks Tanító adat soha sem hagyja el az eszközt A tanult modell lokálisan használható, további kommunikációs költség nélkül

Boosting Boosting módszer online tanulók segítségéve Online FilterBoost algoritmus Versenyképes az AdaBoost-hoz képes

Fogalomsodródás kezelése Két adaptív tanuló módszer Modell életkor eloszlás karbantartásával Modell teljesítmény monitorozással Fogalomsodródás kezelés és detekció

Szinguláris felbontás SGD alapú alacsony rangú mátrix közelítés Egy változat, amely az SVD-hez konvergál Felhasználható Ajánlórendszerekhez Dimenzió redukcióhoz Az érzékeny adat nem hagyja el az eszközt IEEE P2P 14 legjobb cikk díj

Konklúzió Egy módszer lett ajánlva a teljesen elosztott gépi tanulás megvalósítására Egy pletykaalapú keretrendszer lett bemutatva különféle tanuló algoritmusokkal Logistic regression, SVM, Perceptron, Boosting, SVD A fogalomsodródás kezelésének megoldásával

Kapcsolódó publikációk

Kérdések (Alberto Montresor) What are the advantages of executing your approach not in completely decentralized systems (like P2P networks), but instead in a cluster of distributed machines. This should be answered for all the proposed techniques.

Kérdések (Kiss Attila) I. In these algorithms, nodes exchange model parameters. While this is better than sharing personal data, it is well-known that exchanging such information can still leak some sensitive information about the data used to compute these parameters/gradients. In machine learning, the most popular notion of privacy is differential privacy, which gives strong probabilistic guarantees. Differential privacy can be achieved by adding noise to various quantities: either the data itself, the model updates, the objective function, or the output (see e.g. C. Dwork. Differential privacy: A survey of results. In Proceedings of the 5th International Conference on Theory and Applications of Models of Computation, pages 1-19, 2008.)Could the algorithms in the thesis be extended merits and drawbacks in terms of convergence rate and communication cost?

Kérdések (Kiss Attila) II. The author assumes that the homogenous network graph reflects the similarity between nodes (i.e., neighbors in the network graph have similar objectives). However, in practical scenarios, nodes could be different, one node can store larger or more reliable data than the other nodes, communicates faster, has more computing capacity or providing more useful information. This requires strategies to discover good peers and combining this information with the algorithms in the thesis to obtain more efficient decentralized protocols. What could be a good trade-off between exploration and exploitation in peer discovery to improve decentralized learning?

Kérdések (Kiss Attila) III. What is the impact of the network topology on the convergence speed of the algorithm in the thesis? How does this speed depend from the usual graph parameters e.g. from clustering coefficient of the network in general or in special cases? Topológia függő adateloszlások

Kérdések (Kiss Attila) IV. Could the author give negative cases, machine learning methods in the field of classification, clustering or association rules, where gossip based approach is not applicable?