A magánélet védelme az elosztott adatbányászatban

Hasonló dokumentumok
Kollektív tanulás milliós hálózatokban. Jelasity Márk

Teljesen elosztott adatbányászat alprojekt

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Principal Component Analysis

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Készítette: Fegyverneki Sándor

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Kísérlettervezés alapfogalmak

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Monte Carlo módszerek a statisztikus fizikában. Az Ising modell. 8. előadás

Véletlenszám generátorok és tesztelésük. Tossenberger Tamás

Pletykaalapú gépi tanulás teljesen elosztott környezetben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mozgásmodellezés. Lukovszki Csaba. Navigációs és helyalapú szolgáltatások és alkalmazások (VITMMA07)

Kísérlettervezés alapfogalmak

Hálózati réteg. WSN topológia. Útvonalválasztás.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Összefoglalás és gyakorlás

Mesterséges Intelligencia I.

Közösség detektálás gráfokban

14 A Black-Scholes-Merton modell. Options, Futures, and Other Derivatives, 8th Edition, Copyright John C. Hull

10: Peer-To-Peer Hálózatok I. HálózatokII, 2007

A maximum likelihood becslésről

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Szociális hálózatok Gráf alapú módszerek. Adatbányászat. Klaszterezés Szociális hálózatok. Szegedi Tudományegyetem. Adatbányászat

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Véletlenszám generátorok és tesztelésük HORVÁTH BÁLINT

Pletykaalapú gépi tanulás teljesen elosztott környezetben

Dr. Kalló Noémi. Termelés- és szolgáltatásmenedzsment. egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék. Dr.

Elosztott Hash Táblák. Jelasity Márk

Körkép a lakossági felhasználók fogyasztásának készülékszintű becsléséről (NILM)

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Saj at ert ek-probl em ak febru ar 26.

TITOKMEGOSZTÁS ÉS TÖBBRÉSZTVEVŐS SZÁMÍTÁSOK. Szakdolgozat. Írta: Zentai Dániel Matematika bsc szak Alkalmazott matematikus szakirány.

Mérés és adatgyűjtés

2012. október 2 és 4. Dr. Vincze Szilvia

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A szimplex algoritmus

BIOMATEMATIKA ELŐADÁS

Híradástechikai jelfeldolgozás

A sorozat fogalma. függvényeket sorozatoknak nevezzük. Amennyiben az értékkészlet. az értékkészlet a komplex számok halmaza, akkor komplex

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

A gyakorlat célja a fehér és a színes zaj bemutatása.

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Nemparaméteres próbák

Gauss-Seidel iteráció

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Bozóki Sándor. MTA SZTAKI, Budapesti Corvinus Egyetem. Vitaliy Tsyganok

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Hogy keres a Google?

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Internet of Things. Dr. Szepessy Zsolt evopro Innovation Kft. HTE INFOKOM október /10/14

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Fine-Grained Network Time Synchronization using Reference Broadcast

Algoritmuselmélet 18. előadás

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

előadás Diszkrét idejű tömegkiszolgálási modellek Poisson-folyamat Folytonos idejű Markov-láncok Folytonos idejű sorbanállás

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Ensemble előrejelzések: elméleti és gyakorlati háttér HÁGEL Edit Országos Meteorológiai Szolgálat Numerikus Modellező és Éghajlat-dinamikai Osztály 34

Gráf-algoritmusok ERŐS / GYENGE KÖTÉSEK

Algoritmusok Tervezése. Fuzzy rendszerek Dr. Bécsi Tamás

Bevezetés. 1. előadás, február 11. Módszerek. Tematika

IBNR számítási módszerek áttekintése

Közösségek keresése nagy gráfokban

Többváltozós lineáris regressziós modell feltételeinek

Diszkrét matematika 2.

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Centrális határeloszlás-tétel

y ij = µ + α i + e ij

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

Teljesítmény Mérés. Tóth Zsolt. Miskolci Egyetem. Tóth Zsolt (Miskolci Egyetem) Teljesítmény Mérés / 20

Teljesen elosztott adatfeldogozás és adatbányászat

Valószínűségi változók. Várható érték és szórás

Szalai Péter. April 17, Szalai Péter April 17, / 36

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz

Matematikai geodéziai számítások 6.

Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés

Termelés- és szolgáltatásmenedzsment

6. Előadás. Vereb György, DE OEC BSI, október 12.

SZENZOROKRA ÉPÜLŐ ADAPTÍV RENDSZERMODELL

Valószínűségszámítás összefoglaló

Infokommunikációs technológiák és a jövő társadalma (FuturICT.hu)

4. Az A és B események egymást kizáró eseményeknek vagy idegen (diszjunkt)eseményeknek nevezzük, ha AB=O

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Villamosmérnök A4 11. hét Kétdimenziós normális eloszlás, cht - Megoldások

Idő-ütemterv hálók - I. t 5 4

Volatilitási tőkepuffer a szolvencia IIes tőkekövetelmények megsértésének kivédésére

A valószínűségszámítás elemei

A Markovi forgalomanalízis legújabb eredményei és ezek alkalmazása a távközlő hálózatok teljesítményvizsgálatában

Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Nagy Gábor compalg.inf.elte.hu/ nagy ősz

Átírás:

Információs Technológiák és a Jövő Társadalma (FuturICT.hu) TÁMOP-4.2.2.C-11/1/KONV-2012-0013 A magánélet védelme az elosztott adatbányászatban Jelasity Márk Szegedi Tudományegyetem

2

3

Aggodalom a magánéletért Az okos mérőórák érzékeny információkat ismernek Az okostelefonok az egész életünket követik Mikor vagyunk otthon, sőt, mit nézünk a tévében, stb. Szenzorok (gps, hang, kamera), alkalmazások (facebook, google, stb.) Ugyanakkor hasznos adatalapú alkalmazások 4

A magánélet védelmének problémái Személyes adatokat sanitized (tisztított) formában sem biztonságos közzétenni: kapcsolásos támadás (linkage attack) Netflix and IMDB [Narayanan and Smatikov] MGIC and voting register [Latanya Sweeney] Stb. Bizonságos lekérdezés-végrehajtás kell, és kontrollálni kell a megengedett lekérdezéseket ill. az eredményük publikálását 5

Rendszermodell Nagyon nagyszámú eszköz (sok millió) Minden eszközön adat keletkezik Viszonylag kis mennyiségű, azonos típusú adat van minden eszközön (horizontális adateloszlás) Csomagkapcsolt hálózati kommunikáció Minden eszköznek címe van Közvetlenül üzenhetnek egymásnak Ez nem teljesen igaz (NAT, tűzfalak) 6

Magánélet védelmének problémái Lekérdezések végrehajtása Ha nincs megbízható központ, magánéletvédő algoritmus kell Van megbízható központ Magánéletvédő algoritmusok Nincs megbízható központ Kriptográfiai terület, secure multiparty computation algoritmusok 7

Magánélet védelmének problémái Lekérdezések kimenetének publikálása Kimenetből is lehet rekordokra következtetni min, max Több (jól megtervezett) lekérdezés elemzése Differenciál-magánélet Van megbízható központ Magánéletvédő algoritmusok Nincs megbízható központ 8

Magánélet védelmének problémái Lekérdezés-kimenetek publikálása Differenciál-magánélet Van megbízható központ Nincs megbízható központ Lekérdezések végrehajtása Magánéletvédő algoritmusok 9

Elosztott hatványiteráció sajátvektor alkalmazásai n fontossági rangsor, gráfvizualizáció, bizalom mértéke, stb. A hatványiteráció az egyik legegyszerűbb módszer (a normalizálást nem mutatjuk) x i a ij x j i=1 m 1 xi = n i=1 m a ij x j 10

Elosztott adatok gráf alakban x2 x3 w12 x6 w16 x5 w13 x1 w15 w14 x4 m 1 xi = n i=1 m a ij x j 11

Ötlet Az xi csúcs minden j be-szomszédja titokmegosztó (secret sharing) algoritmussal megosztja a wijxj értéket a többi be-szomszéddal A megkapott titokrészletekből egy aggregált értéket elküldenek xi-nek, amely ezekből rekonstruálja az összeget Milyen titokmegosztó algoritmus kell? Robusztus, hatékony, olcsó, egyszerű, és ahol a fenti aggregálás megoldható 12

K-ból k titokmegosztás véletlen összeggel A titok s F. k-1 véletlen számot húzunk F-ből: ezek s 2,...,sk. s1=s-s2-...-sk. A titok részei s1,...,sk, ezeket osztjuk szét Rekonstruálás: mind a k részösszeg kell, s=s1+...sk. Vannak n-ből k módszerek, pl Shamir módszere (polinomok konstans együtthatója) 13

Alkalmazás a hatványiterációban Az xj csúcs a wijxj értékhez tartozó s2,..,sk értéket elküldi k-1 be-szomszédnak Az xj csúcs a megkapott titokrészleteket összeadja és elküldi xi-nek Az xi csúcs összeadja az összes bejövő üzenetet, ami a keresett összeget adja 14

Tulajdonságai Biztonságos a semi-honest adversary modellben Üzenetek száma O(kn+k) egy csúcs egy iterációjában Véletlen részek maradhatnak több iteráción át (O(nk/m+n) ha m iteráción át) K lehet különböző minden be-szomszédra Kaotikus iterációt is lehetővé tesz A hibatűréshez még számos részlet kell amit most nem tárgylunk 15

Magánélet védelmének problémái Lekérdezés-kimenetek publikálása Differenciál-magánélet Van megbízható központ Nincs megbízható központ Lekérdezések végrehajtása Magánéletvédő algoritmusok 16

differenciál-magánélet Rögzítsünk egy D adatbázist Legyen M(D) a lekérdezés kimenete M(D) véletlen változó, a véletlen bitek a az M() függvényből jönnek, D konstans Legyen D' olyan adatbázis, amely D-től csak egy rekordban különbözik M ε-differenciáltan magán (ε-differentially private), ha P(M (D) S ) exp(ε)p (M (D ' ) S ) 17

differenciál-magánélet P( M (D)) P( M (D ' )) Az arányuk korlátos 18

Kompozicionalitás Ha M1 és M2 ε1- illetve ε2-differenciáltan magán és független, akkor M1 és M2 publikálása ε1+ε2differenciáltan magán privacy budget : vagy véges lekérdezés, vagy növekvő pontatlanság Ha a budget kimerül, több lekérdezés nem megengedett (az adatot el kell dobni) 19

A differenciál-magánélet egy megvalósítása Globális érzékenység: Δ g= Laplace eloszlás: x μ 1 f (x μ,β)= exp( ) 2b b max g (D) g ( D ') D, D ' szomszéd Adding noise to deterministic query (Y ~ Laplace(0,Δg/ε)): M (D)=Y + g (D) 20

Okos mérőórák Okos mérőórák hálózata Feladat: Összfogyasztás folyamatos követése Fogyasztás vezérlése az árak manipulációjával Probléma: Nem bízunk a szolgáltatóban (sem) A folyamatos megfigyelés során a fogyasztás eloszlásának statikus paraméterei kiderülnek, még ha minden mérés differenciálisan magán is M (D)=Y + x i 21

Valószínűségi modell Xij: az i. óra j. időpontban Feltesszük, hogy az időben szomszédos mérések függetlenek! 22

Eloszlási differenciálmagánélet Az eloszlásparaméterek felett értelmezzük a differenciál-magánélet fogalmát A konkrét lekérdezés helyett végtelen számú lekérdezést (illetve a lekérdezés eloszlását) vesszük A korábbi valószínűségi modellt tesszük fel 23

Normális eloszlás Ha xij normális eloszlású, az összeg is az Stabil eloszlásokra általában igaz Globális érzékenység a paraméterek terében 24

Normális eloszlás De xij nem normális eloszlású Az eloszlást transzformálhatjuk Normálissá Vagy Bernoullivá 25

Transzformáció normális eloszlássá Ha θi ismert lokálisan, az új normális eloszlású változót xij eloszlásával azonos várható értékkel és szórással, xij-vel azonos kvantilist reprezentálva számoljuk 26

Eredeti eloszlás Viszony a transzformált eloszlással 27

Transzformálás Bernoulli eloszlássá Θi-t nem kell ismerni az új Bernoulli eloszlású változó xijével azonos várható értékű A várható érték nem védett 28

Hozzáadott zaj Ez a módszer több zajt eredményez Nem szükségképpen extra zaj! Pl. a korábbi eloszlásra alkalmazva n=1000 mérőórára 1.9-szeresére növekszik a zaj 29

Megjegyzések Felhasznált fekete doboz komponensek Elosztott biztonságos összeglekérdezés Elosztott biztonságos zaj generálás Fontos feltevés: időbeli függetlenség Egy órát csak elegendő késleltetés után olvasunk le (mintavételezés) Ez segíti a vezérlési hurok stabilitását is 30

Konklúziók Nem elég anonimizálni Nem elég, ha csak aggregált információt adunk közre Jelenlegi módszerek nagyon jelentősen korlátozzák a felhasználást (privacy budget) Pedig már ezt sem triviális megvalósítani (privacy preserving data mining) Valószínűleg túlbiztosítottak A folyamatos megfigyelés nagyon fontos de további problémákat vet fel A hozzájárulásunk erre vonatkozik 31

Publikációk Márk Jelasity, Geoffrey Canright, and Kenth Engø-Monsen. Asynchronous distributed power iteration with gossip-based normalization. In Anne-Marie Kermarrec, Luc Bougé, and Thierry Priol, editors, Euro-Par 2007, volume 4641 of Lecture Notes in Computer Science, pages 514525. Springer-Verlag, 2007. (doi:10.1007/978-3-540-74466-5_55) Juan A. M. Naranjo, Leocadio G. Casado, and Márk Jelasity. Asynchronous privacy-preserving iterative computation on peerto-peer networks. Computing, 94(810):763782, 2012. (doi:10.1007/s00607-012-0200-5) Márk Jelasity and Kenneth P. Birman. Distributional Differential Privacy for Large-Scale Smart Metering. submitted 32