Vizuális adatelemzés

Hasonló dokumentumok
Vizuális adatelemzés

Vizuális adatelemzés

Modellek paraméterezése: regresszió, benchmarkok

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Utolsó módosítás: Dr. Pataricza András (Rendszermodellezés) és Kocsis Imre (Big Data elemzési módszerek) idevágó fóliáit felhasználva.

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Kísérlettervezés alapfogalmak

Segítség az outputok értelmezéséhez

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

Változók eloszlása, középértékek, szóródás

Teljesítménymodellezés

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Kutatásmódszertan és prezentációkészítés

Biomatematika 2 Orvosi biometria

Elemi statisztika fizikusoknak

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Teljesítménymodellezés

A valószínűségszámítás elemei

[Biomatematika 2] Orvosi biometria

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Biomatematika 2 Orvosi biometria

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

[Biomatematika 2] Orvosi biometria

Matematikai statisztika

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Rendszermodellezés. Benchmarking. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Kockázatkezelés és biztosítás 1. konzultáció 2. rész

Bevezetés az SPSS program használatába

Jelek és rendszerek 1. 10/9/2011 Dr. Buchman Attila Informatikai Rendszerek és Hálózatok Tanszék

SZÁMÍTÓGÉPES ADATFELDOLGOZÁS

Vargha András Károli Gáspár Református Egyetem Budapest

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kockázatmenedzsment

Biostatisztika Összefoglalás

Koós Dorián 9.B INFORMATIKA

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

A leíró statisztikák

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Hat Szigma Zöldöves Tanfolyam Tematikája

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

1/8. Iskolai jelentés. 10.évfolyam matematika

Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Megoldások

Méréselmélet MI BSc 1

Követelmény a 7. évfolyamon félévkor matematikából

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

y ij = µ + α i + e ij

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Mérés és modellezés Méréstechnika VM, GM, MM 1

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

A Statisztika alapjai

OKM ISKOLAI EREDMÉNYEK

MINTAFELADATOK. 1. Az alábbi diagram egy kiskereskedelmi lánc boltjainak forgalomkoncentrációját szemlélteti:

Virtualizált környezetek teljesítménymérése és elemzése

Mintavételezés, szűrés, outlierek detektálása

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mérés és modellezés 1

A statisztika alapjai - Bevezetés az SPSS-be -

STATISZTIKA I. A változók mérési szintjei. Nominális változók. Alacsony és magas mérési szint. Nominális változó ábrázolása

Méréselmélet és mérőrendszerek 2. ELŐADÁS (1. RÉSZ)

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Szimuláció. Fault Tolerant Systems Research Group. Budapest University of Technology and Economics. Department of Measurement and Information Systems

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

[Biomatematika 2] Orvosi biometria

Több valószínűségi változó együttes eloszlása, korreláció

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Informatikai alapismeretek Földtudományi BSC számára

Nagyméretű adathalmazok vizualizációja

Függvények Megoldások

Információ megjelenítés Diagram tervezés

1. tétel. 1. Egy derékszögű háromszög egyik szöge 50, a szög melletti befogója 7 cm. Mekkora a háromszög átfogója? (4 pont)

SULINOVA PROGRAMTANTERVÉHEZ ILLESZKEDŐ TANMENET 9. ÉVFOLYAM SZÁMÁRA

Microsoft Excel Gyakoriság

Szoftverminőségbiztosítás

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉP SZINT Függvények

Statisztikai alapfogalmak

INTELLIGENS ADATELEMZÉS

Bevezető Mi a statisztika? Mérés Csoportosítás

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

[GVMGS11MNC] Gazdaságstatisztika

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Matematika osztályozó vizsga témakörei 9. évfolyam II. félév:

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás

Mérési adatgyűjtés és adatfeldolgozás 2. előadás

Biostatisztika Összefoglalás

18. modul: STATISZTIKA

A kockázat fogalma. A kockázat fogalma. Fejezetek a környezeti kockázatok menedzsmentjéből 2 Bezegh András

Átírás:

Vizuális adatelemzés Rendszermodellezés 2016. Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement and Information Systems 1

Mi is lesz? Miért vizualizálunk? Mit vizualizálunk? Hogyan vizualizálunk? Mire következtetünk? 2

Mi is lesz? Miért vizualizálunk? Mit vizualizálunk? Hogyan vizualizálunk? Mire következtetünk? 3

Analóg megjelenítés A vizualizáció hétköznapjai Digitális megjelenítés Analóg + koord. rendszer Hibrid megjelenítés 4

A vizualizáció hétköznapjai Trend analízis és előrejelzés Idősor analízis Korrelációanalízis Térbeli analízis 5

Számítások ellenőrzése Hibás feltételezések elkerülése és intuíció 6

Összefüggések feltárása Forrás: https://en.wikipedia.org/wiki/1854_broad_street_cholera_outbreak 7

Összefüggések feltárása Forrás: https://en.wikipedia.org/wiki/1854_broad_street_cholera_outbreak 8

Összefüggések feltárása Forrás: https://en.wikipedia.org/wiki/1854_broad_street_cholera_outbreak 9

Összefüggések feltárása 10 Forrás: https://en.wikipedia.org/wiki/1854_broad_street_cholera_outbreak

Masszív erőforrások 120.000.000 szenzor 10 10 feldolgozó egység Mindent a szemnek! A folyamat alapja az interakció 1. Adatvizualizáció több ábra együttes vizsgálata 2. Vizuális kiértékelés emberi kognitív képességek használata 3. Vizuális kiválasztás és manipuláció 4. Interpretáció, korreláció más modellekkel, kiértékelés 11

Mi is lesz? Miért vizualizálunk? Mit vizualizálunk? Hogyan vizualizálunk? Mire következtetünk? 12

Emlékeztető: táblázatos ábrázolás Táblázat sora = modellelem Táblázat oszlopa = tulajdonság Név Típus Méret (kb) Utolsó módosítás Dokumentumok könyvtár 2016.02.02 szerződés.pdf fájl 569 2015.11.09 Képek könyvtár 2016.02.02 logó.png fájl 92 2015.03.06 alaprajz.jpg fájl 1226 2016.02.02 13

Numerikus és kategorikus változók Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek Változók Kategorikus (categorical) o Matematikai műveletek nem értelmezhetőek rajtuk, legfeljebb sorba rendezés 14 Numerikus Kategorikus kor átlaghőmérséklet telefonszám nem

Numerikus és kategorikus változók Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek Ha egy változó értékei között az alapvető Változók aritmetikai műveletek értelmezettek, akkor a változót numerikusnak tekintjük. Numerikus Kategorikus Minden (categorical) más esetben tehát ha megkülönböztetés, vagy o Matematikai legfeljebb sorba műveletek rendezés értelmes az értékek között akkor a változót kategorikusnak tekintjük. nem értelmezhetőek rajtuk, legfeljebb sorba rendezés 15 Kategorikus kor átlaghőmérséklet telefonszám nem

Numerikus változók Folytonos o Mért tetszőleges értéket felvehet adott tartományon belül adott pontosság mellett o Pl. a teremben ülők ZH pontszámának átlaga Numerikus Változók Kategorikus Diszkrét Folytonos o Számolt véges sok értéket vehet fel adott tartományban o Pl. az előadáson ülők száma 16 Diszkrét

Kategorikus változók Ordinális o Teljes rendezés az értékeken o Pl. szállodai csillagok Változók Numerikus Kategorikus Nominális o Pl. férfi, nő Ordinális Nominális 17

Mi is lesz? Miért vizualizálunk? Mit vizualizálunk? Hogyan vizualizálunk? Mire következtetünk? 18

1 változó eloszlásokra Változók Numerikus Kategorikus ZH pontszám: [13, 15, 2, ] Kurzus: [G01, G03, G15, G17, ] 19

Oszlopdiagram Bemenő változó: kurzus kód Kérdés: az egyes kurzusokra hányan járnak? Vannak nagyon népszerű időpontok/ gyakvezek? Oszlopmagasság: adott érték gyakorisága abszolút gyakoriság! Tervezői döntés: értékkészlet darabolása Pl.: kedd-csütörtök-péntek 20

1 változó eloszlásokra Változók Numerikus Kategorikus ZH pontszám: [13, 15, 2, ] Kurzus: [G01, G03, G15, G17, ] 21

Hisztogram Bemenő változó: ZH összpontszám Kérdés: hogyan alakultak a ZH pontszámok? abszolút gyakoriság! Oszlopmagasság: adott intervallum számossága Tervezői döntés: mekkora legyen az intervallum hossza? Pl.: elég 1 pontos felbontással, vagy menjünk fél pontokig? 22

Hisztogram Bemenő változó: ZH összpontszám Kérdés: hogyan alakultak a ZH pontszámok? Akik átmentek a beugrón, valószínűleg át is mentek Sokan voltak a határon 18 pont körül volt az átlag, 20 körül a medián 23

Egyszerű statisztikai jellemzés Hol van az adatok közepe? Az átmentek összpontszám ának mediánja 23 24

Egyszerű statisztikai jellemzés Mennyire szórtak az adatok? Az F1 feladatnál nagyobb volt a szórás, mint az F2-nél 25

Boxplot Bemenő változó: ZH összpontszám Kérdés: hogyan alakultak a ZH pontszámok úgy nagyjából? Egyfajta absztrakció itt is: legyenek intervallumok, felesleges minden pontot kirajzolni 26

(Folytonos) megfigyelések jellemzése A központ jellemzése o Átlag, medián, módusz o {3, 4, 4, 5, 5, 6, 10, 20} Átlag: ~ 7.125 Medián: 5 Módusz: 4 és 5 módusz medián átlag 3 4 5 6 10 20 27

(Folytonos) mefigyelések jellemzése Ha az értékeket növekvően sorba rendezzük, akkor a középső adat az adathalmaz mediánja. Ha nincs középső adat (páros számú érték esetén), akkor a medián a két középső érték átlaga (számtani közepe). A módusz az adathalmazban legtöbbször előforduló érték. Ez nem feltétlenül egyértelmű, ilyenkor több móduszról beszélünk. 28

Terjedelem jellemzése: percentilisek Az n-edik percentilisnél az értékek n%-a kisebb. Percentilis o {3, 4, 4, 5, 5, 6, 10, 20} 50. percentilis: 5 25. percentilis: 4 75. percentilis: 6 Kvartilis o Q1: 25. percentilis o Q3: 75. percentilis o Q2: medián 29

Boxplot (Box and whisker plot) 30

Boxplot (Box and whisker plot) Felső outlier határ Q3 Medián Q1 31 Ez már Excelben nem könnyű Alsó outlier határ Outlierek

Boxplot (Box and whisker plot) F2-re általában több pontot kaptak, mint F1-re Az F1 pontszámok 50%-a 4.5 és 7.5 között volt 32

Boxplot (Box and whisker plot) Melyik csoportban hogyan sikerültek a beugrók? G06, G11, G17- ben nagyon jó beugrók G08? 33

Boxplot (Box and whisker plot) Absztrakció: a boxplottal fontos információt is veszíthetünk! 34

Boxplot (Box and whisker plot) A ±1.5 csak konvenció Interquartile range Ez majd valószínűségszámításból érthetőbb lesz: normális eloszlásnál ez kb. a ± 3σ-nak felel meg 35

Alaphalmaz Miért medián, miért nem átlag? o 1000 pont ~ U(1, 5) egyenletes eloszlás Válaszidő átlag = medián = 3 ms 3ms ± 2 ms 1 pont: 20 s (= 20 000) Vál. medián Vál. átlag Új medián: sort(resp. times)[501] = 3.02 ms Robusztus Nem rob. Új átlag: (3 103 +2 10 4 ) 36 1001 = 23 ms!

2 változó kapcsolata Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus 37

Numerikus kategóriánként 38

Numerikus kategóriánként 39

Numerikus kategóriánként 40

2 változó kapcsolata Változók Változók Numerikus Kategorikus Numerikus Kategorikus 1 numerikus, 2 numerikus 2 kategorikus 1 kategorikus 41

Pont pont diagram (scatterplot) Bemenő változó: nagyfeladatokra kapott pontok Kérdés: hogyan viszonyulnak egymáshoz? Együttesen előforduló pontpárokat vizualizálunk Ha az egyik változó értéke hiányzik, nem tudjuk felrajzolni 42

Pont pont diagram (scatterplot) Bemenő változó: nagyfeladatokra kapott pontok Kérdés: hogyan viszonyulnak egymáshoz? Nem biztos, hogy akinek megy az F1, megy az F2 is Hogyan kezeljük a takarásokat? 43

Overplotting 44

Overplotting megoldások 1: jitter 45

Overplotting megoldások 2: átlátszóság 46

Overplotting megoldások 3: méret 47

SOK VÁLTOZÓ 48

>=3 változó A grafikai objektumok attribútumait változtatom o Szín o Méret o Textúra o Hely ez triviálisnak tűnik, de a treemapnél van jelentősége Pl. heatmap, treemap 49

Heatmap: lefutási statisztikák Inkább csak sima szöveget írunk A Startban mindig csak kezdünk, oda nem jutunk vissza 50

Treemap: állományrendszer 51

Párhuzamos koordináták: tesztesetek elemzése 1 teszteset 1 törött vonal A változók az x tengelyen jelennek meg 52

Párhuzamos koordináták: tesztesetek elemzése Timeout? A hibát detektálók az érdemi számításig valószínűleg el sem jutnak A futási idő és a memóriahasználat valószínűleg pozitív kapcsolatban állnak 53

Párhuzamos koordináták: viz. alternatívák 54

Wikipedia Benchmarking - Definíció In computing, a benchmark is the act of running a computer program, a set of programs, or other operations, in order to assess the relative performance of an object, normally by running a number of standard tests and trials against it. A benchmarkolás egy program (programok, vagy más műveletek) futtatása szabványos tesztekkel vagy bemenetekkel egy objektum relatív teljesítményének felmérése érdekében 55

Benchmarking motiváció Fejlesztés alatt lévő rendszer Teljesítmény felmérése o Modell alapján becsült értékek o Megvalósított rendszer értékei éles helyzetben Tervezői és menedzsment döntések o Melyik részébe fektessünk több energiát ( pénzt)? Mi alapján döntsünk? o Jelenlegi erősségek és gyengeségek Mi számít erősségnek vagy gyengeségnek? o Mire képesek a hasonló rendszerek, versenytársak? 56

Elvárások Ismételhetőség (Repeatability) o Egy elemen többször megismételt mérés/művelet eredményeinek változékonysága (szóródási faktor) Reprodukálhatóság (Reproducibility) o A mérési rendszer változékonysága, amelyet a műveletek viselkedéseinek különbsége okoz Általánosított felhasználói eset o Átlag felhasználó számára értelmezhető legyen az eredmény 57

OLTP benchmark TPC-C o Online Transaction Processing o Szoftverek és hardverek OLTP teljesítményét méri Komplex benchmark o Több tranzakció típus o Összetett adatbázis séma o Széles skálán mozgó adathalmaz méret Mért metrikák o Áteresztőképesség: transactions per minute (tpmc) o Ár-teljesítmény arány ( hatékonyság): $/tpmc 58

Mintaadatbázis TPC-C o Nagykereskedelmi beszállító cég rendelései o 9 különböző tábla 5 féle tranzakció típus o Rendelés, fizetés, szállítás, rendelés státusza, raktár állapota o Frissítés, beszúrás, törlés, megszakítás ACID tranzakciók o Atomicity, Consistency, Isolation, Durability Változatos felhasználói kérések szimulációja o Tranzakció típusok kezdeményezése adott valószínűséggel Időkorlát az egyes tranzakció típusokra 59

TPC-C adatbázis séma Warehouse W 100K Stock W*100K W Item 100K (fixed) 10 District W*10 3K Legend Table Name <cardinality> secondary index one-to-many relationship Customer W*30K 1+ Order W*30K+ 0-1 New-Order W*5K 1+ 10-15 History W*30K+ Order-Line W*300K+ Forrás: tpc.org 60

KIÉRTÉKELÉS 61

Adattisztítás Pénznem egységesítés (EUR, USD, AUD, JPY) Tizedesjegy, tízes elválasztó ellenőrzés 62

Milyen rendszereket vizsgálunk? Egységesítsü Egységesítsünk? A két leggyakoribb gyártó az esetek 77%-ában szerepel 63

Milyen rendszereket vizsgálunk? Típus szerinti összevonás? 64

Milyen rendszereket vizsgálunk? Általában többféle adatbázis többféle operációs rendszeren fut 65

Benchmark eredmények Milyen az ár/érték arányuk? 66

Benchmark eredmények Logaritmikus skála? 67

Benchmark eredmények Az élmezőny elég változatos Nincs legjobb OS és DB konfiguráció sem 68

Időbeli változások? A legtöbb gyártónál 10 év alatt egy nagyságrenddel csökkent a fajlagos ár 69