Mintavételezés, szűrés, outlierek detektálása

Hasonló dokumentumok
Mintavételezés, szűrés, kilógó esetek detektálása

Mintavételezés, szűrés, kilógó esetek detektálása

Virtualizált környezetek teljesítménymérése és elemzése

Kísérlettervezés alapfogalmak

Vizuális adatelemzés

Rendszermodellezés: házi feladat bemutatás

Klaszterezés, 2. rész

Csima Judit április 9.

Teljesítménymodellezés

Teljesítménymodellezés

Correlation & Linear Regression in SPSS

mobil rádióhálózatokban

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Statistical Inference

Mintavételi eljárások

Teljesítménymodellezés

INFORMATIKA. PRÓBAÉRETTSÉGI május KÖZÉPSZINT. Pontozási és javítási útmutató

Stream Processing. Big Data elemzési módszerek. Kocsis Imre

Dr. Sasvári Péter Egyetemi docens

Statisztika. Politológus képzés. Daróczi Gergely április 24. Politológia Tanszék

Forensic SNP Genotyping using Nanopore MinION Sequencing

Diagnosztikai szemléletű talajtérképek szerkesztése korrelált talajtani adatrendszerek alapján

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

A társadalomkutatás módszerei I. Outline. 1. Zh Egyéni eredmények. Notes. Notes. Notes. 9. hét. Daróczi Gergely november 10.

Cloud computing. Cloud computing. Dr. Bakonyi Péter.

Smaller Pleasures. Apróbb örömök. Keleti lakk tárgyak Répás János Sándor mûhelyébõl Lacquerware from the workshop of Répás János Sándor

Szívkatéterek hajlékonysága, meghajlítása

Vizuális adatelemzés

Választási modellek 2

Felhők teljesítményelemzése felhő alapokon

Modellek paraméterezése: regresszió, benchmarkok

Teljesítménymodellezés

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Kódverifikáció gépi tanulással

Újraszabni Európa egészségügyét II. rész

A felület vizsgálata mikrokeménységméréssel

Baglyos képkeret - BY - 695

Hetet egy csapásra. Máriás Zoltán TMSI Kft. CISA, CSM, CNE, CASE antidotum 2015

V. Rövidpályás Szenior Úszó Országos Bajnokság Gyõr

Jóllét az ökológiai határokon belül

Szimuláció. Fault Tolerant Systems Research Group. Budapest University of Technology and Economics. Department of Measurement and Information Systems

CONCERTO COMMUNITIES IN EU DEALING WITH OPTIMAL THERMAL AND ELECTRICAL EFFICIENCY OF BUILDINGS AND DISTRICTS, BASED ON MICROGRIDS. WP 5 Del 5.

Visszacsatolt (mély) neurális hálózatok

KÖZELÍTŐ INFERENCIA II.

Decision where Process Based OpRisk Management. made the difference. Norbert Kozma Head of Operational Risk Control. Erste Bank Hungary

TAGOZATÁN SATU MARE EXTENSION. Baranyai Tünde, Stark Gabriella

Manuscript Title: Identification of a thermostable fungal lytic polysaccharide monooxygenase and

A társadalomkutatás módszerei I.

A FLOW projekt eredménytermékeinek bemutatása

A jövőbeli hatások vizsgálatához felhasznált klímamodell-adatok Climate model data used for future impact studies Szépszó Gabriella

Tantárgy adatlap Információmenedzsment

Túlélés elemzés október 27.

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Angol Középfokú Nyelvvizsgázók Bibliája: Nyelvtani összefoglalás, 30 kidolgozott szóbeli tétel, esszé és minta levelek + rendhagyó igék jelentéssel

Szolgáltatásminôségi paraméterek elôrejelzésének javítása outlierek detektálásával és eltávolításával

2. Fotometriás mérések II.

Vizuális adatelemzés

Gyakorlat: Sztochasztikus idősor-elemzés alapfogalmai II. Egységgyök-folyamatok és tesztek. Dr. Dombi Ákos

KÖZELÍTŐ INFERENCIA II.

Drótposta: ; ; Honlapom:

RESEARCHING THE CONNECTION BETWEEN URBAN OPEN SPACES

KORRÓZIÓS FIGYELÕ korrózióvédelmi mûszaki tudományos folyóirat. Szerkeszti: a szerkesztõbizottság. A szerkesztõbizottság elnöke: Zanathy Valéria

Cluster Analysis. Potyó László

Teljesen elosztott adatbányászat alprojekt

A cell-based screening system for RNA Polymerase I inhibitors

ÓBUDAI EGYETEM Bánki Donát Gépész és Biztonságtechnikai Mérnöki Kar. International Engineering Symposium at Bánki IESB 2015

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

EEA, Eionet and Country visits. Bernt Röndell - SES

Outsourcing és Cloud Biztonsági kérdések

FAMILY STRUCTURES THROUGH THE LIFE CYCLE

Pisces Hungarici 7 (2013)

A rosszindulatú daganatos halálozás változása 1975 és 2001 között Magyarországon

Választási modellek 3

Cloud computing Dr. Bakonyi Péter.

Supporting Information

IKR Agrár Kft. biztonsági elemzése Füzesabony Területi Központ

Bevezetés a kvantum-informatikába és kommunikációba 2015/2016 tavasz

Felnőttképzés Európában

Teljesítménymodellezés

On The Number Of Slim Semimodular Lattices

Sex: Male Date of Birth: 02 August 1947 Citizenship: Hungarian

A jövedelem alakulásának vizsgálata az észak-alföldi régióban az évi adatok alapján

PETER PAZMANY CATHOLIC UNIVERSITY Consortium members SEMMELWEIS UNIVERSITY, DIALOG CAMPUS PUBLISHER

KÍSÉRLET A STATISZTIKA II. TANTÁRGY SZÁMÍTÓGÉPPEL TÁMOGATOTT TÖMEGOKTATÁSÁRA BALOGH IRÉN VITA LÁSZLÓ

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

MINTAVÉTELEZÉS. Alaptípusai: sampling. véletlen érvényesítésére v. mellőzzük azt. = preferenciális mintav. = véletlen mintav.

Implementation of water quality monitoring

Bozóki Sándor. MTA SZTAKI, Budapesti Corvinus Egyetem. Vitaliy Tsyganok

Lesi Mária: A 2004-ES VERSENYKÉPESSÉG KUTATÁS VÁLLALATI MINTÁJÁNAK ALAPJELLEMZŐI ÉS REPREZENTATIVITÁSA

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Longman Exams Dictionary egynyelvű angol szótár nyelvvizsgára készülőknek

Egészségügyi mérnöki mesterszak hallgatói adatainak elemzése. Computational Biomedicine (Combine) workgroup

Gáspár Bencéné Vér Katalin * AZ ÜZLETI INTELLIGENCIA RENDSZEREINEK KIALAKULÁSÁRÓL

Skills Development at the National University of Public Service

2/1 ARTUR SZERVÍZ Kereskedelmi és Szolgáltató Korlátolt Felelősségű Társaság

ADATREJTÉS ÉS SZÖVEGSTATISZTIKÁK A BMF-SzGTI kriptográfiai tárgycsoportjához kapcsolódó hallgatói projektek és kutatások

IMPRESSZUM. Szerkesztőbizottság elnöke: Szűcs István. Főszerkesztő: Káposzta József

Tudományos Ismeretterjesztő Társulat

SZAKÉRTŐI LEÍRÁS. A keményfa tartósságának meghatározása a fát elpusztító bazídiumos gombák ellen.

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Átírás:

Mintavételezés, szűrés, outlierek detektálása Salánki Ágnes salanki@mit.bme.hu Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement and Information Systems

Az alapfeladat ugyanaz Az aspektus más Alapfogalmak

Az alapfeladat ugyanaz Az aspektus más Alapfogalmak

MINTAVÉTELEZÉS

Mintavételezés SRS Stratified Sample Cluster sample

SRS o Simple Random Sample o random mintavétel Mintavételezés Stratified Sample Cluster sample

SRS o Simple Random Sample Mintavételezés Stratified Sample o Homogén réteg o Mindegyikből random m. Cluster sample

SRS o Simple Random Sample Mintavételezés Stratified Sample o Homogén réteg o Mindegyikből random m. Cluster sample

SRS o Simple Random Sample Mintavételezés Stratified Sample o Homogén réteg o Mindegyikből random m. Cluster sample

SRS o Simple Random Sample Mintavételezés Stratified Sample Cluster sample o ~azonos méretű klaszterek o Azokból random m.

SRS o Simple Random Sample Mintavételezés Stratified Sample Cluster sample o ~azonos méretű klaszterek o Azokból random m.

SRS o Simple Random Sample Mintavételezés Stratified Sample Cluster sample o ~azonos méretű klaszterek o Azokból random m.

Idősoroknál

Idősoroknál Outlierek? Random sampling size mondjuk p = 0.001-nél? Lásd még imbalanced adatsorok

Mintavételezés streamekben Pl. az elmúlt héten hány egyedi lekérdezés jött? megválaszolása n% minta alapján

Random mintavételezés 1/3-os mintavételezés o egyedi lekérdezések aránya: 3/9 o egyedi lekérdezések aránya egy kiválasztott mintában?

Random mintavételezés 1/3-os mintavételezés o egyedi lekérdezések aránya: 3/9 o egyedi lekérdezések aránya egy kiválasztott mintában? 3 2 1 3 2 1 3 2 1

Random mintavételezés 1/3-os mintavételezés o egyedi lekérdezések aránya: 3/9 o egyedi lekérdezések aránya egy kiválasztott mintában? 3 2 1 3 2 1 3 2 1

Random mintavételezés 1/3-os mintavételezés o egyedi lekérdezések aránya: 3/9 o egyedi lekérdezések aránya egy kiválasztott mintában? 3 2 1 3 2 1 3 2 1

Random mintavételezés 1/3-os mintavételezés o egyedi lekérdezések aránya: 3/9 o egyedi lekérdezések aránya egy kiválasztott mintában? 3 2 1 3 2 1 3 2 1

Random mintavételezés 1/3-os mintavételezés o egyedi lekérdezések aránya: 3/9 o egyedi lekérdezések aránya egy kiválasztott mintában? 3 2 1 3 2 1 3 2 1 p = 1.0 p = 1.0 p = 1.0

Mintavételezés streamekben Random mintavételezés 10 vödörrel o Ha tényleg egyedi a streamben, p = 0.1 a mintában (egy adott megfigyelt vödörben) o Ha kétszer fordul elő, a mintába p = 0.18 valószínűséggel kerül csak egy stb.

Mintavételezés streamekben Random mintavételezés 10 vödörrel o Ha tényleg egyedi a streamben, p = 0.1 a mintában (egy adott megfigyelt vödörben) o Ha kétszer fordul elő, a mintába p = 0.18 valószínűséggel kerül csak egy stb. Nem tudunk a minta alapján általánosítani a teljes streamre

Mintavételezés streamekben: Hash Pl. az elmúlt héten hány egyedi lekérdezés jött? megválaszolása n% minta alapján Érték alapján szűrünk o Pl. hash függvény 0-9 közé Az azonosak azonos vödörbe kerülnek o Feltételezések A hash egyenletes az értékek 1/10-e kerül be a 0-ba

Mintavételezés streamekben: hash 1/3-os mintavételezés

Mintavételezés streamekben: hash 1/3-os mintavételezés

Mintavételezés streamekben: hash 1/3-os mintavételezés 1

Mintavételezés streamekben: hash 1/3-os mintavételezés 1

Mintavételezés streamekben: hash 1/3-os mintavételezés 1 1

Mintavételezés streamekben: hash 1/3-os mintavételezés 1 1

Mintavételezés streamekben: hash 1/3-os mintavételezés 1 1 1

Mintavételezés streamekben: hash 1/3-os mintavételezés 1 1 1

Mintavételezés streamekben: hash 1/3-os mintavételezés 2 1 1 1

Mintavételezés streamekben: hash 1/3-os mintavételezés 2 1 1 1

Mintavételezés streamekben: hash 1/3-os mintavételezés 2 2 1 1 1

Mintavételezés streamekben: hash 1/3-os mintavételezés 2 2 1 1 1

Mintavételezés streamekben: hash 1/3-os mintavételezés 3 2 2 1 1 1

Mintavételezés streamekben: hash 1/3-os mintavételezés 2 3 3 3 2 2 1 1 1

Mintavételezés streamekben: hash 1/3-os mintavételezés 2 3 3 3 2 2 1 1 1 p = 1/3 p = 1/3 p = 1/3

Mintavételezés streamekben: hash 1/3-os mintavételezés 2 3 3 3 2 2 1 1 1 Nagyobb biztonsággal tudunk becsülni Mintavételezés típusa? p = 1/3 p = 1/3 p = 1/3

OUTLIER DETEKTÁLÁS

Outlier An outlier is an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism (Hawkins 1980)

Outlier An outlier is an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism (Hawkins 1980)

Outlier An outlier is an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism (Hawkins 1980)

Outlier An outlier is an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism (Hawkins 1980)

Használati esetek Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-

Használati esetek Képek forrása: http://www.szon.hu/

Használati esetek Képek forrása: http://www.szon.hu/

Használati esetek Képek forrása: http://www.szon.hu/

Használati esetek

Használati esetek

Használati esetek

Alapfogalmak novelty peculiarity anomaly outlier discordant observations surprise exception rare event aberration

Kevés van belőlük Definíció Gyanús, hogy más a generáló folyamat/forrás

Kevés van belőlük Definíció Gyanús, hogy más a generáló folyamat/forrás o Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему.

Kevés van belőlük Definíció Gyanús, hogy más a generáló folyamat/forrás o Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему. o Happy families are all alike; every unhappy family is unhappy in its own way. o A boldog családok mind hasonlók egymáshoz, minden boldogtalan család a maga módján az.

Kevés van belőlük Definíció Gyanús, hogy más a generáló folyamat/forrás o Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему. o Happy families are all alike; every unhappy family is unhappy in its own way. o A boldog családok mind hasonlók egymáshoz, minden boldogtalan család a maga módján az. (Tolsztoj: Anna Karenina)

Hivatkozásjegyzék [1] Stream Processing, filtering: Mining of Massive Data Sets o Alapmű: http://infolab.stanford.edu/~ullman/mmds/book.pdf o Coursera tárgy: https://www.coursera.org/course/mmds [2] Outlier Detection o Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys (CSUR), 41(3):15, 2009