Vizuális adatelemzés

Hasonló dokumentumok
Vizuális adatelemzés

Vizuális adatelemzés

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Utolsó módosítás: Dr. Pataricza András (Rendszermodellezés) és Kocsis Imre (Big Data elemzési módszerek) idevágó fóliáit felhasználva.

Segítség az outputok értelmezéséhez

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Virtualizált környezetek teljesítménymérése és elemzése

Elemi statisztika fizikusoknak

Nagyméretű adathalmazok vizualizációja

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

Kísérlettervezés alapfogalmak

Biomatematika 2 Orvosi biometria

[Biomatematika 2] Orvosi biometria

Biomatematika 2 Orvosi biometria

Microsoft Excel Gyakoriság

[Biomatematika 2] Orvosi biometria

Változók eloszlása, középértékek, szóródás

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Matematikai statisztika

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

1. tétel. 1. Egy derékszögű háromszög egyik szöge 50, a szög melletti befogója 7 cm. Mekkora a háromszög átfogója? (4 pont)

STATISZTIKA I. A változók mérési szintjei. Nominális változók. Alacsony és magas mérési szint. Nominális változó ábrázolása

Bevezető Mi a statisztika? Mérés Feldolgozás Adatok rendezése Adatok jellemzése Időbeli elemzés Feladatok. Statisztika I.

Teljesítménymodellezés

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Jelek és rendszerek 1. 10/9/2011 Dr. Buchman Attila Informatikai Rendszerek és Hálózatok Tanszék

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Mintavételezés, szűrés, outlierek detektálása

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

INTELLIGENS ADATELEMZÉS

Intelligens adatelemzés

Kutatásmódszertan és prezentációkészítés

Követelmény a 7. évfolyamon félévkor matematikából

Területi statisztikai elemzések

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

5. fejezet. Vizuális analízis

10. modul: FÜGGVÉNYEK, FÜGGVÉNYTULAJDONSÁGOK

MINTAFELADATOK. 1. Az alábbi diagram egy kiskereskedelmi lánc boltjainak forgalomkoncentrációját szemlélteti:

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biostatisztika Összefoglalás

Teljesítménymodellezés

Teljesítménymodellezés

Kockázatkezelés és biztosítás 1. konzultáció 2. rész

A valószínűségszámítás elemei

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

A konfidencia intervallum képlete: x± t( α /2, df )

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Vizuális adatanalízis

Vargha András Károli Gáspár Református Egyetem Budapest

Információ megjelenítés Diagram tervezés

A leíró statisztikák

Méréselmélet MI BSc 1

Vizsgáljuk elôször, hogy egy embernek mekkora esélye van, hogy a saját

1/8. Iskolai jelentés. 10.évfolyam matematika

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

[GVMGS11MNC] Gazdaságstatisztika

Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Megoldások

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Kockázatmenedzsment

Bevezető Mi a statisztika? Mérés Csoportosítás

SULINOVA PROGRAMTANTERVÉHEZ ILLESZKEDŐ TANMENET 9. ÉVFOLYAM SZÁMÁRA

Szimuláció. Fault Tolerant Systems Research Group. Budapest University of Technology and Economics. Department of Measurement and Information Systems

18. modul: STATISZTIKA

Készítette: Bruder Júlia

Orvosi szociológia (1. szeminárium) KUTATÁSMÓDSZERTAN

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

1/8. Iskolai jelentés. 10.évfolyam matematika

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

MATLAB. 6. gyakorlat. Integrálás folytatás, gyakorlás

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Vizuális adatanalízis

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Biostatisztika Bevezetés. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Termék modell. Definíció:

Mérés és skálaképzés. Kovács István. BME Menedzsment és Vállalatgazdaságtan Tanszék

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

SZÁMÍTÓGÉPES ADATFELDOLGOZÁS

Mérés és modellezés 1

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

A légkördinamikai modellek klimatológiai adatigénye Szentimrey Tamás

3/29/12. Biomatematika 2. előadás. Biostatisztika = Biometria = Orvosi statisztika. Néhány egyszerű definíció:

Számítógépes döntéstámogatás OPTIMALIZÁLÁSI FELADATOK A SOLVER HASZNÁLATA

A beadandó 4 db feladatból áll. Mindegyik feladatra külön jegyet kap, amelyek beszámítanak a félév végi jegybe.

Bevezetés az SPSS program használatába

EGYSZERŰ SZÁMÍTÁSOK TÁBLÁZATKEZELÉS ELINDULÁS SZE INFORMATIKAI KÉPZÉS 1

Felhők teljesítményelemzése felhő alapokon

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Statisztikai alapfogalmak

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

s.s. Bere Anikó Zsuzsanna

Átírás:

Vizuális adatelemzés Salánki Ágnes, Guta Gábor, PhD Dr. Pataricza András Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement and Information Systems 1

Mi is lesz? Miért vizualizálunk? Mit vizualizálunk? Hogyan vizualizálunk? Mire következtetünk? 2

Mi is lesz? Miért vizualizálunk? Mit vizualizálunk? Hogyan vizualizálunk? Mire következtetünk? 3

Analóg megjelenítés A vizualizáció hétköznapjai Digitális megjelenítés Analóg + koord. rendszer Hibrid megjelenítés 4

A vizualizáció hétköznapjai Trend analízis és előrejelzés Idősor analízis Korrelációanalízis Térbeli analízis 5

Számítások ellenőrzése Hibás feltételezések elkerülése és intuíció 6

Összefüggések feltárása 7

Masszív erőforrások 120.000.000 szenzor 10 10 feldolgozó egység Mindent a szemnek! A folyamat alapja az interakció 1. Adatvizualizáció több ábra együttes vizsgálata 2. Vizuális kiértékelés emberi kognitív képességek használata 3. Vizuális kiválasztás és manipuláció 4. Interpretáció, korreláció más modellekkel, kiértékelés 8

Mi is lesz? Miért vizualizálunk? Mit vizualizálunk? Hogyan vizualizálunk? Mire következtetünk? 9

Emlékeztető: táblázatok Sor = elem, megfigyelés Oszlop = jellemző Típus Numerikus érték név fénykard színe nem holdak száma keringési idő Alderaan 1 364 Coruscant 4 368 Darth Vader piros férfi Jabba hímnős Leia Organa nő Luke Skywalker zöld férfi Mace Windu lila férfi Tatooine 3 304 Yoda zöld férfi 10

Numerikus és kategorikus változók Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek Változók Kategorikus (categorical) o Csak megkülönböztetés miatt, már reláció sincs Numerikus Kategorikus kor átlaghőmérséklet telefonszám nem 11

Numerikus változók Folytonos o Mért tetszőleges értéket felvehet adott tartományon belül adott pontosság mellett o Pl. a teremben ülők ZH pontszámának átlaga Numerikus Változók Kategorikus Diszkrét Folytonos o Számolt véges sok értéket vehet fel adott tartományban o Pl. az előadáson ülők száma 12 Diszkrét

Kategorikus változók Rendezett (ordinális) o Teljes rendezés az értékeken o Pl. szállodai csillagok Változók Nem rendezett (reguláris) Numerikus Kategorikus Rendezett Nem rendezett 13

Mi is lesz? Miért vizualizálunk? Mit vizualizálunk? Hogyan vizualizálunk? Mire következtetünk? 14

1 változó eloszlásokra Változók Numerikus Kategorikus ZH pontszám: [13, 15, 2, ] Kurzus: [G01, G03, G15, G17, ] 15

Oszlopdiagram Bemenő változó: kurzus kód Kérdés: az egyes kurzusokra hányan járnak? Vannak nagyon népszerű időpontok/ gyakvezek? Oszlopmagasság: adott érték gyakorisága abszolút gyakoriság! Tervezői döntés: értékkészlet darabolása Pl.: kedd-csütörtök-péntek 16

1 változó eloszlásokra Változók Numerikus Kategorikus ZH pontszám: [13, 15, 2, ] Kurzus: [G01, G03, G15, G17, ] 17

Hisztogram Bemenő változó: ZH összpontszám Kérdés: hogyan alakultak a ZH pontszámok? Oszlopmagasság: adott intervallum számossága abszolút gyakoriság! Tervezői döntés: mekkora legyen az intervallum hossza? Pl.: elég 1 pontos felbontással, vagy menjünk fél pontokig? 18

Hisztogram Bemenő változó: ZH összpontszám Kérdés: hogyan alakultak a ZH pontszámok? Sokan voltak a határon Akik átmentek a beugrón, valószínűleg át is mentek Akik el sem jöttek 20 pont körül volt az átlag/medián 19

Relatív gyakoriságok Bemenő változó: ZH összpontszám Kérdés: hogyan alakultak a ZH pontszámok? Ugyanaz mint hisztogramnál De relatív gyakoriság! 20

Egyszerű statisztikai jellemzés Hol van az adatok közepe? 21

Egyszerű statisztikai jellemzés Mennyire szórtak az adatok? 22

Egyszerű statisztikai jellemzés Vannak-e kilógóak? 23

Boxplot Bemenő változó: ZH összpontszám Kérdés: hogyan alakultak a ZH pontszámok úgy nagyjából? Egyfajta absztrakció itt is: legyenek intervallumok, felesleges minden pontot kirajzolni 24

(Folytonos) megfigyelések jellemzése A központ jellemzése o Átlag, medián, módusz o {3, 4, 4, 5, 5, 6, 10, 20} Átlag: ~ 7.125 Medián: 5 Módusz: 4 és 5 A terjedelem jellemzése? módusz medián átlag 3 4 5 6 10 20 25

Percentilis Percentilisek o Az n-edik percentilisnél az adatok n%-a kisebb o {3, 4, 4, 5, 5, 6, 10, 20} 50. percentilis: 5 25. percentilis: 4 75. percentilis: 6 Kvartilis o Q1: 25. percentilis o Q3: 75. percentilis o Q2: medián 26

Boxplot (Box and whisker plot) 27

Boxplot (Box and whisker plot) Felső outlier határ Q3 Medián Q1 28 Ez már nem fog menni Excelben. (?) Alsó outlier határ Outlierek

Boxplot (Box and whisker plot) F2-re általában több pontot kaptak, mint F1-re Az F1 pontszámok 50%-a 4.5 és 7.5 között volt 29

Boxplot (Box and whisker plot) Melyik csoportban hogyan sikerültek a beugrók? G06, G11, G17-ben nagyon jó beugrók G08? 30

Boxplot (Box and whisker plot) Absztrakció: a boxplottal fontos információt is veszíthetünk! 31

Alaphalmaz Miért medián, miért nem átlag? o 1000 pont ~ U(1, 5) egyenletes eloszlás átlag = medián = 3 ms 3ms ± 2 ms 1 pont: 20 s Válaszidő Új medián: sort(resp. times)[501] = 3.02 ms Vál. medián Vál. átlag Robusztus Nem rob. Új átlag: (2 * 10^4 + 3 * 10^3 )/ 1001 = 25 ms! 32

2 változó kapcsolata Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus 33

Numerikus kategóriánként 34

Numerikus kategóriánként 35

Numerikus kategóriánként 36

2 változó kapcsolata Változók Változók Numerikus Kategorikus Numerikus Kategorikus 1 numerikus, 2 numerikus 2 kategorikus 1 kategorikus 37

Pont pont diagram (scatterplot) Bemenő változó: nagyfeladatokra kapott pontok Kérdés: hogyan viszonyulnak egymáshoz? Együttesen előforduló pontpárokat vizualizálunk Ha az egyik változó értéke hiányzik, nem tudjuk felrajzolni 38

Pont pont diagram (scatterplot) Bemenő változó: nagyfeladatokra kapott pontok Kérdés: hogyan viszonyulnak egymáshoz? Nem biztos, hogy akinek megy az F1, megy az F2 is Hogyan kezeljük a takarásokat? 39

Overplotting 40

Overplotting megoldások 1: jitter 41

Overplotting megoldások 2: átlátszóság 42

Overplotting megoldások 3: méret 43

2 változó kapcsolata Változók Változók Numerikus Kategorikus Numerikus Kategorikus 1 numerikus, 2 numerikus 2 kategorikus 1 kategorikus Ezzel most nem foglalkozunk 44

SOK VÁLTOZÓ 45

>=3 változó A grafikai objektumok attribútumait változtatom o Szín o Méret o Textúra o Hely ez triviálisnak tűnik, de a treemapnél van jelentősége Pl. heatmap, bubble chart, treemap 46

Heat Map: Napi hőmérséklet 47

Bubble chart: átlegéletkor változása régiónként 48

Treemap: állományrendszer 49

Párhuzamos koordináták Sokdimenziós Kompakt és skálázható Koordináta sorrend? [2, 4, 4, 5, 6] [3, 6, 6, 4, 5] [1, 2, 2, 3, 3] [3, 4, 6, 5, 6] [2, 5, 4, 6, 4] [1, 3, 2, 3, 2] A B C D E A D C E B 50

Radar chart: egy párhuzamos koord. kiterjesztés 51