Mintavételezés, szűrés, kilógó esetek detektálása

Hasonló dokumentumok
Mintavételezés, szűrés, outlierek detektálása

Mintavételezés, szűrés, kilógó esetek detektálása

Stream Processing. Big Data elemzési módszerek. Kocsis Imre

Kísérlettervezés alapfogalmak

Adatbányászati szemelvények MapReduce környezetben

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Vizuális adatelemzés

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Virtualizált környezetek teljesítménymérése és elemzése

Teljesítménymodellezés

Felvételi tematika INFORMATIKA

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Searching in an Unsorted Database

Példák jellemzőkre: - minden pixelérték egy jellemző pl. neurális hálózat esetében csak kis képekre, nem invariáns sem a megvilágításra, sem a geom.

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz

Csima Judit április 9.

Házi Feladat. 3 fős csapatok o Javasolt: legyen benne > másodéves informatikus

Közösség detektálás gráfokban

PONTFELHŐ REGISZTRÁCIÓ

Minden az adatról. Csima Judit február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41

Hálózati réteg. WSN topológia. Útvonalválasztás.

Rendszermodellezés: házi feladat bemutatás

Teljesen elosztott adatbányászat alprojekt

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Intelligens adatelemzés

Problémamegoldás kereséssel. Mesterséges intelligencia március 7.

Struktúra nélküli adatszerkezetek

Felhők teljesítményelemzése felhő alapokon

Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján

Klaszterezés, 2. rész

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Nagyméretű adathalmazok vizualizációja

Diszkréten mintavételezett függvények

Algoritmusok és adatszerkezetek 2.

Gépi tanulás Gregorics Tibor Mesterséges intelligencia

A modellellenőrzés érdekes alkalmazása: Tesztgenerálás modellellenőrzővel

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

KÖZELÍTŐ INFERENCIA II.

Nagy méretű adathalmazok vizualizációja

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Mesterséges intelligencia 2. laborgyakorlat

Mérés 3 - Ellenörzö mérés - 5. Alakítsunk A-t meg D-t oda-vissza (A/D, D/A átlakító)

Algoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8.

Kereső algoritmusok a diszkrét optimalizálás problémájához

Idősorok elemzése. Salánki Ágnes

Hátralevı órák. Néhány fontos probléma. Többdimenziós adatbázisok. k dimenziós térbeli indexek

A társadalomkutatás módszerei I. Outline. 1. Zh Egyéni eredmények. Notes. Notes. Notes. 9. hét. Daróczi Gergely november 10.

A valós számok halmaza

R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský

Teljesítménymodellezés

Kockázatkezelés a rezgésdiagnosztikában többváltozós szabályozó kártya segítségével

Kereső algoritmusok a diszkrét optimalizálás problémájához

KÖZELÍTŐ INFERENCIA II.

Számítógép és programozás 2

A Jövő Internet elméleti alapjai. Vaszil György Debreceni Egyetem, Informatikai Kar

A modellezés sajátosságai anomáliákkal terhelt idősorok esetén

Adaptív menetrendezés ADP algoritmus alkalmazásával

Szomszédság alapú ajánló rendszerek

Grid felhasználás: alkalmazott matematika

TABLE ACCESS FULL HASH CLUSTER BY INDEX ROWID BY USER ROWID BY GLOBAL INDEX ROWID BY LOCAL INDEX ROWID

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Populációbecslések és monitoring

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Távérzékelés a precíziós gazdálkodás szolgálatában : látvány vagy tudomány. Verőné Dr. Wojtaszek Malgorzata

Szimuláció. Fault Tolerant Systems Research Group. Budapest University of Technology and Economics. Department of Measurement and Information Systems

A sz.ot.ag. III. Magyar Számítógépes Nyelvészeti Konferencia december 8. Bíró Tamás, ELTE, Budapest / RUG, Groningen, NL 1/ 16

HLSL programozás. Grafikus játékok fejlesztése Szécsi László t06-hlsl

OpenCL - The open standard for parallel programming of heterogeneous systems

Gépi tanulás a gyakorlatban. Bevezetés

IBM SPSS Modeler 18.2 Újdonságok

Populációbecslések és monitoring

Miskolci Egyetem Gépészmérnöki és Informatikai Kar Informatikai Intézet Alkalmazott Informatikai Intézeti Tanszék

Minimum követelmények matematika tantárgyból 11. évfolyamon

Relációs algebra lekérdezések optimalizációja. Adatbázisok használata

Funkcionálanalízis. n=1. n=1. x n y n. n=1

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Hash-alapú keresések

Számítógépes döntéstámogatás. Genetikus algoritmusok

Függvények vizsgálata

Genetikus algoritmusok

Az fmri alapjai Statisztikai analízis II. Dr. Kincses Tamás Szegedi Tudományegyetem Neurológiai Klinika

Információs Rendszerek Szakirány

Gépi tanulás a gyakorlatban. Lineáris regresszió

Minták automatikus osztályba sorolása a mintát leíró jellemzők alapján. Típusok: felügyelt és felügyelet nélküli tanuló eljárások

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Line aris f uggv enyilleszt es m arcius 19.

VÁROSI CSAPADÉKVÍZ GAZDÁLKODÁS A jelenlegi tervezési gyakorlat alkalmazhatóságának korlátozottsága az éghajlat változó körülményei között

Konjugált gradiens módszer

22. GRÁFOK ÁBRÁZOLÁSA

A modellellenőrzés érdekes alkalmazása: Tesztgenerálás modellellenőrzővel

Kódverifikáció gépi tanulással

Mit mond a XXI. század emberének a statisztika?

Stream processing ősz, 10. alkalom Kocsis Imre,

Trigonometria Megoldások. 1) Igazolja, hogy ha egy háromszög szögeire érvényes az alábbi összefüggés: sin : sin = cos + : cos +, ( ) ( )

Nemlineáris jelenségek és Kao2kus rendszerek vizsgálata MATHEMATICA segítségével. Előadás: Szerda, 215 Labor: 16-18, Szerda, 215

SZÁMÍTÁSTUDOMÁNY ALAPJAI

Átírás:

Mintavételezés, szűrés, kilógó esetek detektálása Salánki Ágnes salanki@mit.bme.hu Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement and Information Systems

Az alapfeladat ugyanaz Az aspektus más Alapfogalmak

MINTAVÉTELEZÉS

SRS o Simple Random Sample o random mintavétel Mintavételezés Stratified Sample Cluster sample

SRS o Simple Random Sample Mintavételezés Stratified Sample o Homogén réteg o Mindegyikből random m. Cluster sample

SRS o Simple Random Sample Mintavételezés Stratified Sample Cluster sample o ~azonos méretű klaszterek o Azokból random m.

Idősoroknál Outlierek? Random sampling size mondjuk p = 0.001-nél? Imbalanced adatsorok

SZŰRÉS

Definíciók Jelfeldolgozás frekvencia Fizika hullámhosszok Matematika részhalmaz Industrial rock?? Számítástechnika o Értékek, jellemzően data streamben Mail Tartalom Wordfilter

Ábra és a számértékes példák forrása: [1] Egyszer streamenként: Lokális maximum? Adatfolyamok Globális kérdések: Minden új maximumot jelezzünk Buffer, megengedett számítási memória igény korlátos 1. több forrásból, 2. ismeretlen sebességgel

Szenzor-adatok Adatfolyam-források o 1 millió szenzor x 10/s x 4B Képek o Szatelitek: n TB/nap Internetes szolgáltatók o A legutóbbi órában melyik volt a legnépszerűbb weboldal Hálózati forgalom Tőzsdei adatok

Feldolgozás: időkorlát! Diszk nem használható Megengedett memóriaigény: korlátos Elemenkénti számítási igény: korlátos Szokásos megoldások: o Csúszóablakos tárolás és feldolgozás o Mintavételezés o Közelítő algoritmusok

Eltároljuk Csúszóablakos tárolás o A legutolsó t elemet o Az elmúlt T időben jövőket o A triggertől számító utolsókat Csúszóablakra tervezett algoritmusok o Pl. átlagszámítás

Mintavételezés streamekben Pl. az elmúlt héten hány egyedi query jött? Ezt kb. 10% minta alapján

Random mintavételezés 1/3-os mintavételezés 3 2 1 3 2 1 3 2 1 p = 1.0 p = 1.0 p = 1.0

Mintavételezés streamekben Pl. az elmúlt héten hány egyedi query jött? Ezt kb. 10% minta alapján Random mintavételezés Nem tudunk a minta alapján általánosítani a teljes streamre o Ha kétszer fordul elő, p = 0.18 a mintában o Ha tényleg egyedi a streamben, p = 0.1 a mintában o Stb.

Mintavételezés streamekben: Hash Pl. az elmúlt héten hány egyedi query jött? Ezt kb. 10% minta alapján Érték alapján szűrünk o Pl. hash függvény 0-9 közé o Feltételezések A hash egyenletes az értékek 1/10-e kerül be a 0-ba

Mintavételezés streamekben: hash 1/3-os mintavételezés 2 3 3 3 2 2 1 1 1 Legalább becsülni tudunk Mintavételezés típusa? p = 1/3 p = 1/3 p = 1/3

Pl. találjuk meg o a különlegeseket o az azonosokat o a különbözőeket Szűrés streamekben Már az első is nehéz probléma

Adott: 0-1 stream N buffermérettel Bitszámlálás Ad-hoc query: Hány 1-es van az utolsó k bitben? Néha még erre sincs időnk

Bloom filterek Pl. web crawling: láttuk-e már ezt az URL-t? Bloom filter o bitvektor o hash függvények (h 1, h 2 stb.) Folyamat: x inputra o BESZÚR: h 1 x, h 2 (x) stb. indexekre: 0 1 a vektorban o KERES: ha h 1 x h 2 x... 1, akkor BESZÚR

Bloom filterek N = 11 Input: egész számok h 1 x : a páros bitekből képzett y mod N h 2 x : a páratlan bitekből képzett y mod N

Bloom filterek Folyam h 1 (x) h 2 (x) Filter 00000000000 BESZÚR(25 = 11001) 5 2 00100100000 BESZÚR(159 = 10011111) 7 0 10100101000 BESZÚR(585 = 10010010019) 9 7 10100101010 KERES(118 = 1110110) 3 5 10100101010

Bloom filterek Persze van fals pozitív N mérettel h hash függvénnyel eddig k beszúrt elemmel h o p P = #(1) N o # 1 k N Pl. N = 10 6, h = 5, k = 10 7 értékekkel o p FP = 0.00937

OUTLIER DETEKTÁLÁS

Alapfeladat Vannak-e egyáltalán? Vannak-e egyáltalán? Hogy néznek ki? Szakterület specifikus? Hogyan szeparálhatóak? Nagy adat: aggregálás? Miért? Hatások? Ábra forrása: http://www.dpchallenge.com/image.php?image_id=636539

Alapfeladat

Használati esetek Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-

Használati esetek Képek forrása: http://www.szon.hu/

Használati esetek

Alapfogalmak novelty peculiarity anomaly outlier discordant observations surprise exception rare event aberration

Kevés van belőlük Definíció Gyanús, hogy más a generáló folyamat/forrás

Pont- és kollektív anomála Pontanomália Kollektív anomália

Pont- és kollektív anomála Pontanomália Kollektív anomália

Pont- és kollektív anomália

Viselkedési és kontextusanomália Viselkedési Kontextus Ábrák forrása: http://www.baki-agrocentrum.hu/hu/szakmai-anyagok/agronomiai-informaciok/az-eghajlatvaltozas-zala-megye-szivebol-nezve http://www.metcenter.hu

Viselkedési és kontextusanomália Viselkedési Kontextus Itt: viselkedési és pontanomáliák Ábrák forrása: http://www.baki-agrocentrum.hu/hu/szakmai-anyagok/agronomiai-informaciok/az-eghajlatvaltozas-zala-megye-szivebol-nezve http://www.metcenter.hu

Megközelítések Távolság alapúak Sűrűség alapúak

Megközelítések Távolság alapúak Sűrűség alapúak

VIZUÁLIS MÓDSZEREK

1D Az aggregálás általában nem jó

1D Az aggregálás általában nem jó Néhány kilógó értéket a boxplot egyszerűen elmaszkol

nd Eddig: kilógó esetek az egyes dimenziókban Hogyan általánosítsunk? o Descartes szorzat? o Sűrűségfüggvény bevonása?

nd: Descartes szorzat

nd: Többdimenziós sűrűségfüggvény Generalization of 1D density

nd: Többdimenziós sűrűségfüggvény Egydimenziós általánosítása Több normál kategória is létezhet Minden más outlier, esetleg átmenet a normálok között Pontok nélkül a 0-1 nem látszik

TÁVOLSÁG ALAPÚ TECHNIKÁK

Befoglaló burok Féltér-mélység: Tukey, 1974 1 2 3 4 5 6 7 8 8 7 6 5 4 3 2 1 Min.: 1 2 3 4 4 3 2 1 0 Extrém Medián: majd a végén pontok hds z : min x i : x i z, x j : x j z

Befoglaló burok Féltér-mélység: Tukey, 1974

Befoglaló burok Féltér-mélység: Tukey, 1974

DEMO Befoglaló burok Csomag: depth Hasznos függvények: depth, isodepth Paraméterek: u pont, dpth mélység

DB Distance Based Outlier: szomszédok száma alacsony Paraméterek o r sugarú hipergömb o Szomszédok elvárt π aránya

DEMO DB Csomag: fields Függvény: fields.rdist.near Paraméterek: delta sugár

MCD Minimum Covariance Determinant Alapötlet o Keressük meg a legkompaktabb részhalmazt!

MCD Minimum Covariance Determinant Alapötlet o Keressük meg a legkompaktabb részhalmazt! Kimerítő keresés? 0.0014 0.00041 choose(n = 1000, k = 900) [1] 6.385051e+139 0.00011

Közelítő algoritmus FAST-MCD Véletlenszerűen választott kezdőhalmaz Iteratív Legközelebbi pontok kiválasztása o Mahalanobis távolság alapján

Mahalanobis távolság D x, M = (x θ) T S 1 x θ o S kovarianciamátrix o θ súlypont Ábra forrása: http://stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance

Közelítő algoritmus FAST-MCD Véletlenszerűen választott kezdőhalmaz Iteratív X Legközelebbi pontok kiválasztása o Mahalanobis távolság alapján o Legközelebbi x%

BACON Blocked Adaptive Computationally Efficient Outlier Nominators Kiinduló halmaz félig felügyelt módban is! Új halmaz: küszöbérték alapján

DEMO BACON Csomag: robustx Függvény: mvbacon Paraméterek o init. sel kezdőhalmaz manual man. sel kezdőhalmaz Mahalanobis, dunimedian m kezdőhalmaz mérete

DEMO BACON Csomag: robustx Függvény: mvbacon Paraméterek o init. sel kezdőhalmaz manual man. sel kezdőhalmaz Mahalanobis, dunimedian m kezdőhalmaz mérete

SŰRŰSÉG ALAPÚ TECHNIKÁK

LOF motiváció

LOF Local Outlier Factor Alapötlet: csak a szomszédaival hasonlítsuk össze o lokális sűrűség Outlier kritérium o a lokális sűrűség jóval kisebb, mint a szomszédaimnak átlagosan

DEMO LOF Csomag: DMwR (Data Mining with R) Függvény: lofactor Paraméterek: k szomszédság mérete

Big Data környezet? Közelítő algoritmusok Stream processing

Hivatkozásjegyzék [1] Stream Processing, filtering: Mining of Massive Data Sets o Alapmű: http://infolab.stanford.edu/~ullman/mmds/book.pdf o Coursera tárgy: https://www.coursera.org/course/mmds [2] Outlier Detection o Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys (CSUR), 41(3):15, 2009