Vizuális adatelemzés

Hasonló dokumentumok
Vizuális adatelemzés

Vizuális adatelemzés

Utolsó módosítás: Dr. Pataricza András (Rendszermodellezés) és Kocsis Imre (Big Data elemzési módszerek) idevágó fóliáit felhasználva.

Segítség az outputok értelmezéséhez

Kísérlettervezés alapfogalmak

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Biomatematika 2 Orvosi biometria

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Teljesítménymodellezés

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

[Biomatematika 2] Orvosi biometria

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

A valószínűségszámítás elemei

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Modellek paraméterezése: regresszió, benchmarkok

Változók eloszlása, középértékek, szóródás

Elemi statisztika fizikusoknak

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Kutatásmódszertan és prezentációkészítés

Matematikai statisztika

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

1. tétel. 1. Egy derékszögű háromszög egyik szöge 50, a szög melletti befogója 7 cm. Mekkora a háromszög átfogója? (4 pont)

Teljesítménymodellezés

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Biomatematika 2 Orvosi biometria

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

[Biomatematika 2] Orvosi biometria

STATISZTIKA I. A változók mérési szintjei. Nominális változók. Alacsony és magas mérési szint. Nominális változó ábrázolása

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Mérés és modellezés 1

y ij = µ + α i + e ij

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Méréselmélet MI BSc 1

Több valószínűségi változó együttes eloszlása, korreláció

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Bevezetés az SPSS program használatába

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

1/8. Iskolai jelentés. 10.évfolyam matematika

Nagyméretű adathalmazok vizualizációja

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Mérés és modellezés Méréstechnika VM, GM, MM 1

Vargha András Károli Gáspár Református Egyetem Budapest

Szimuláció. Fault Tolerant Systems Research Group. Budapest University of Technology and Economics. Department of Measurement and Information Systems

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Microsoft Excel Gyakoriság

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Mérési hibák

A leíró statisztikák

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Jelek és rendszerek 1. 10/9/2011 Dr. Buchman Attila Informatikai Rendszerek és Hálózatok Tanszék

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

SZÁMÍTÓGÉPES ADATFELDOLGOZÁS

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

A statisztika alapjai - Bevezetés az SPSS-be -

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

s.s. Bere Anikó Zsuzsanna

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉP SZINT Függvények

Függvények Megoldások

[GVMGS11MNC] Gazdaságstatisztika

Bevezető Mi a statisztika? Mérés Csoportosítás

A konfidencia intervallum képlete: x± t( α /2, df )

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Biostatisztika Összefoglalás

Virtualizált környezetek teljesítménymérése és elemzése

Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Megoldások

matematikai statisztika

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

3/29/12. Biomatematika 2. előadás. Biostatisztika = Biometria = Orvosi statisztika. Néhány egyszerű definíció:

SULINOVA PROGRAMTANTERVÉHEZ ILLESZKEDŐ TANMENET 9. ÉVFOLYAM SZÁMÁRA

Méréselmélet és mérőrendszerek 2. ELŐADÁS (1. RÉSZ)

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Információ megjelenítés Diagram tervezés

Rendszermodellezés: házi feladat bemutatás

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Függvények

A Statisztika alapjai

Orvosi szociológia (1. szeminárium) KUTATÁSMÓDSZERTAN

Követelmény a 7. évfolyamon félévkor matematikából

A sokaság/minta eloszlásának jellemzése

Folyadékszcintillációs spektroszkópia jegyz könyv

Területi statisztikai elemzések

MINTAFELADATOK. 1. Az alábbi diagram egy kiskereskedelmi lánc boltjainak forgalomkoncentrációját szemlélteti:

A kockázat fogalma. A kockázat fogalma. Fejezetek a környezeti kockázatok menedzsmentjéből 2 Bezegh András

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

b) Ábrázolja ugyanabban a koordinátarendszerben a g függvényt! (2 pont) c) Oldja meg az ( x ) 2

1/8. Iskolai jelentés. 10.évfolyam matematika

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Átírás:

Vizuális adatelemzés Rendszermodellezés 2017. Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement and Information Systems 1

Tartalom Miért vizualizálunk? Mit vizualizálunk? Hogyan vizualizálunk? Mire következtetünk? 2

Tartalom Miért vizualizálunk? Mit vizualizálunk? Hogyan vizualizálunk? Mire következtetünk? 3

Analóg megjelenítés A vizualizáció hétköznapjai Digitális megjelenítés Analóg + koord. rendszer Hibrid megjelenítés 4

A vizualizáció alkalmazásai Trend analízis és előrejelzés Idősor analízis Korrelációanalízis Térbeli analízis 5

Számítások ellenőrzése Hibás feltételezések elkerülése és intuíció 6

Összefüggések feltárása Forrás: https://en.wikipedia.org/wiki/1854_broad_street_cholera_outbreak 7

Masszív erőforrások 120.000.000 szenzor 10 10 feldolgozó egység Mindent a szemnek! A folyamat alapja az interakció 1. Adatvizualizáció több ábra együttes vizsgálata 2. Vizuális kiértékelés emberi kognitív képességek használata 3. Vizuális kiválasztás és manipuláció 4. Interpretáció, korreláció más modellekkel, kiértékelés 8

Példa: állapottér vizualizáció (hálózat) https://www3.hhu.de/stups/prob/index.php/state_space_visualization_examples 9

Példa: CAN bus állapottér https://www3.hhu.de/stups/prob/index.php/state_space_visualization_examples 10

Példa: Rendszermodell teljesítménymodell Modellezés Rendszermodell Minőségi (kvalitatív) modell Elemzés tervezése Elvárások Mérendő paraméterek Adatgyűjtés Mérések Benchmarkok Szimuláció Teljesítménymodell Kísérlettervezés 11 Elemzés Feltáró analízis Megerősítő analízis

Mi is lesz? Miért vizualizálunk? Mit vizualizálunk? Hogyan vizualizálunk? Mire következtetünk? 12

Emlékeztető: táblázatos ábrázolás Táblázat sora = modellelem Táblázat oszlopa = tulajdonság Adatelemzési eszközök (pl. R, Python): dataframe o Egy sor egy mérés Név Típus Méret (kb) Utolsó módosítás Dokumentumok könyvtár 2016.02.02 szerződés.pdf fájl 569 2015.11.09 Képek könyvtár 2016.02.02 logó.png fájl 92 2015.03.06 alaprajz.jpg fájl 1226 2016.02.02 o Egyes oszlopoknak típusai vannak 13

Numerikus és kategorikus változók Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek Változók Kategorikus (categorical) o Matematikai műveletek nem értelmezhetőek rajtuk, legfeljebb sorba rendezés 14 Numerikus Kategorikus kor átlaghőmérséklet telefonszám nem

Numerikus változók Folytonos o Mért tetszőleges értéket felvehet adott tartományon belül adott pontosság mellett o Pl. a teremben ülők ZH pontszámának átlaga Numerikus Változók Kategorikus Diszkrét Folytonos o Számolt véges sok értéket vehet fel adott tartományban o Pl. az előadáson ülők száma 15 Diszkrét

Kategorikus változók Ordinális o Teljes rendezés az értékeken o Pl. szállodai csillagok Változók Nominális Numerikus Kategorikus Ordinális Nominális 16

Mi is lesz? Miért vizualizálunk? Mit vizualizálunk? Hogyan vizualizálunk? Mire következtetünk? 17

1 változó eloszlásokra Változók Numerikus Kategorikus ZH pontszám: [13, 15, 2, ] Kurzus: [G01, G03, G15, G17, ] 18

Oszlopdiagram Bemenő változó: kurzus kód Kérdés: az egyes kurzusokra hányan járnak? Oszlopmagasság: adott érték gyakorisága abszolút gyakoriság! Tervezői döntés: értékkészlet darabolása Pl.: kedd-csütörtök-péntek 19

1 változó eloszlásokra Változók Numerikus Kategorikus ZH pontszám: [13, 15, 2, ] Kurzus: [G01, G03, G15, G17, ] 20

Hisztogram Bemenő változó: ZH összpontszám Kérdés: hogyan alakultak a ZH pontszámok? abszolút gyakoriság! Oszlopmagasság: adott intervallum számossága Tervezői döntés: mekkora legyen az intervallum hossza (bin size)? Pl.: elég 1 pontos felbontással, vagy menjünk fél pontokig? 21

Hisztogram Bemenő változó: ZH összpontszám Kérdés: hogyan alakultak a ZH pontszámok? Akik átmentek a beugrón, valószínűleg át is mentek Sokan voltak a határon 18 pont körül volt az átlag, 20 körül a medián 22

Egyszerű statisztikai jellemzés Hol van az adatok közepe? Az átmentek összpontszám mediánja 23 23

Egyszerű statisztikai jellemzés Mennyire szórtak az adatok? Az F1 feladatnál nagyobb volt a szórás, mint az F2-nél 24

Boxplot Bemenő változó: ZH összpontszám Kérdés: hogyan alakultak a ZH pontszámok úgy nagyjából? Egyfajta absztrakció itt is: legyenek intervallumok, felesleges minden pontot kirajzolni 25

(Folytonos) megfigyelések jellemzése A központ jellemzése o Átlag, medián, módusz o {3, 4, 4, 5, 5, 6, 10, 20} Átlag: ~ 7.125 Medián: 5 Módusz: 4 és 5 módusz medián átlag 3 4 5 6 10 20 26

(Folytonos) megfigyelések jellemzése Ha az értékeket növekvően sorba rendezzük, akkor a középső adat az adathalmaz mediánja. Ha nincs középső adat (páros számú érték esetén), akkor a medián a két középső érték átlaga (számtani közepe). A módusz az adathalmazban legtöbbször előforduló érték. Ez nem feltétlenül egyértelmű, ilyenkor több móduszról beszélünk. 27

Terjedelem jellemzése: percentilisek Az n-edik percentilisnél az értékek n%-a kisebb. Percentilis o {3, 4, 4, 5, 5, 6, 10, 20} 50. percentilis: 5 25. percentilis: 4 75. percentilis: 6 Kvartilis o Q1: 25. percentilis o Q3: 75. percentilis o Q2: medián 28

Példa: percentilis ábrázolás 29

Boxplot (Box and whisker plot) 30

Boxplot (Box and whisker plot) Felső outlier határ Q3 Medián Q1 31 Ez már Excelben nem könnyű Alsó outlier határ Outlierek

Boxplot (Box and whisker plot) F2-re általában több pontot kaptak, mint F1-re Az F1 pontszámok 50%-a 4.5 és 7.5 között volt 32

Boxplot (Box and whisker plot) Melyik csoportban hogyan sikerültek a beugrók? G06, G11, G17-ben nagyon jó beugrók G08? 33

Boxplot (Box and whisker plot) Absztrakció: a boxplottal fontos információt is veszíthetünk! 34

Boxplot (Box and whisker plot) Interquartile range A ±1.5 IQR-hez kb. 3σ tartozik 35

Boxplot: kvalitatív jellemzés Min. Median Max. Kvalitatív tartomány Extr. small Small Normal Large Extr. large Q1 1.5 IQR Kvantitatív tartomány Extr. small Small Normal Large Extr. large 36

Alaphalmaz Miért medián, miért nem átlag? o 1000 adatpont ~ U(1, 5) egyenletes eloszlás Válaszidő átlag = medián = 3 ms 3ms ± 2 ms 1 új (hibás) adatpont: 20 s Új medián: sort(resp. times)[501] = 3.02 ms Vál. medián Vál. átlag Robusztus Nem rob. Új átlag: (2 * 10^4 + 3 * 10^3 )/ 1001 = 25 ms! 37

Példa: terhelés vs. kihasználtság Kiugró értékek/ Háttérműveletek? Eltérések?? Lineáris kapcsolat 38 Nagy terhelésnél nem jósolható működés

2 változó kapcsolata Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus 39

Numerikus kategóriánként 40

Numerikus kategóriánként 41

Numerikus kategóriánként 42

2 változó kapcsolata Változók Változók Numerikus Kategorikus Numerikus Kategorikus 1 numerikus, 2 numerikus 2 kategorikus 1 kategorikus 43

Pont pont diagram (scatterplot) Bemenő változó: nagyfeladatokra kapott pontok Kérdés: hogyan viszonyulnak egymáshoz? Együttesen előforduló pontpárokat vizualizálunk Ha az egyik változó értéke hiányzik, nem tudjuk felrajzolni 44

Pont pont diagram (scatterplot) Bemenő változó: nagyfeladatokra kapott pontok Kérdés: hogyan viszonyulnak egymáshoz? Nem biztos, hogy akinek megy az F1, megy az F2 is Hogyan kezeljük a takarásokat? 45

Overplotting 46

Overplotting megoldások 1: jitter 47

Overplotting megoldások 2: átlátszóság 48

Overplotting megoldások 3: méret 49

SOK VÁLTOZÓ 50

>=3 változó A grafikai objektumok attribútumait változtatom o Szín o Méret o Textúra o Hely ez triviálisnak tűnik, de a treemapnél van jelentősége Pl. heatmap, treemap 51

Heatmap: lefutási statisztikák Inkább csak sima szöveget írunk A Startban mindig csak kezdünk, oda nem jutunk vissza 52

Kitekintés: több érték páronkénti korrelációja Kék: pozitív, Piros: ellentétes Változónevek Egymástól független értékek Erős szín: erős korreláció Együtt mozgó értékek R statisztikai szoftver corrgram csomagjával előállítva. Korreláció (ld. Valószínűségszámítás): két érték közti lineáris kapcsolat erőssége és iránya Átló felett: scatterplot mátrix Cél: együtt mozgó értékek kiszűrése, kiugró értékek (outlierek) azonosítása. Mik a terhelés/előrejelzés szempontjából lényeges változók? 53

Treemap: állományrendszer 54

Párhuzamos koordináták Tengelyek: dimenziók/koordináták o tetszőleges számú o tetszőleges skála Egy vonal egy mérés (darabszám?) Kompakt és skálázható Koordináta sorrend befolyásolja a kiértékelést [2, 4, 4, 5, 6] [3, 6, 6, 4, 5] [1, 2, 2, 3, 3] [3, 4, 6, 5, 6] [2, 5, 4, 6, 4] [1, 3, 2, 3, 2] A B C D E 55 A D C E B

Párhuzamos koordináták: tesztesetek elemzése 1 teszteset 1 törött vonal A változók az x tengelyen jelennek meg 56

Párhuzamos koordináták: tesztesetek elemzése Timeout? A hibát detektálók az érdemi számításig valószínűleg el sem jutnak A futási idő és a memóriahasználat valószínűleg pozitív kapcsolatban állnak (sikeres teszteknél) 57

Párhuzamos koordináták: viz. alternatívák 58

Radar chart: egy párhuzamos koord. kiterjesztés 59