Nagyméretű adathalmazok vizualizációja

Hasonló dokumentumok
Nagy méretű adathalmazok vizualizációja

Vizuális adatelemzés

Vizuális adatelemzés

Adatbányászati szemelvények MapReduce környezetben

Segítség az outputok értelmezéséhez

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

3. Szűrés képtérben. Kató Zoltán. Képfeldolgozás és Számítógépes Grafika tanszék SZTE (

Csima Judit március 9. és 16.

Elemi statisztika fizikusoknak

Utolsó módosítás: Dr. Pataricza András (Rendszermodellezés) és Kocsis Imre (Big Data elemzési módszerek) idevágó fóliáit felhasználva.

Biomatematika 2 Orvosi biometria

Szomszédság alapú ajánló rendszerek

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Az OECD PISA adatbázis elemzése

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

Rendszerintegráció és -felügyelet

Osztályozóvizsga követelményei

Számítógéppel segített modellezés és szimuláció a természettudományokban

1. Template (sablon) 1.1. Függvénysablon Függvénysablon példányosítás Osztálysablon

Bevezetés az SPSS program használatába

A statisztika alapjai - Bevezetés az SPSS-be -

Vizuális adatelemzés

Intelligens adatelemzés

[Biomatematika 2] Orvosi biometria

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Matematikai statisztika

IBM SPSS Modeler 18.2 Újdonságok

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

10. modul: FÜGGVÉNYEK, FÜGGVÉNYTULAJDONSÁGOK

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Felvételi tematika INFORMATIKA

A F u z z y C L I P S a l a p j a i

A statisztika alapjai - Bevezetés az SPSS-be -

c adatpontok és az ismeretlen pont közötti kovariancia vektora

MATLAB. 6. gyakorlat. Integrálás folytatás, gyakorlás

SULINOVA PROGRAMTANTERVÉHEZ ILLESZKEDŐ TANMENET 9. ÉVFOLYAM SZÁMÁRA

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

The modular mitmót system. DPY kijelző kártya C API

A leíró statisztikák

GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Baran Ágnes. Gyakorlat Komplex számok. Baran Ágnes Matematika Mérnököknek Gyakorlat 1 / 33

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Modellkiválasztás és struktúrák tanulása

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Készítette: Trosztel Mátyás Konzulens: Hajós Gergely

Magas szintű optimalizálás

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás

Bevezetés a programozásba. 5. Előadás: Tömbök

Bevezetés a programozásba Előadás: Objektumszintű és osztályszintű elemek, hibakezelés

Alkalmazott statisztika feladatok

Minták automatikus osztályba sorolása a mintát leíró jellemzők alapján. Típusok: felügyelt és felügyelet nélküli tanuló eljárások

Él: a képfüggvény hirtelen változása. Típusai. Felvételeken zajos formában jelennek meg. Lépcsős

Matematika. J a v í t ó k u l c s. 8. évfolyam. Oktatási Hivatal Közoktatási Mérési Értékelési Osztály 1054 Budapest, Báthory utca 10.

Kutatásmódszertan és prezentációkészítés

Termék modell. Definíció:

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Multimédiás adatbázisok

Statisztikai szoftverek esszé

Algoritmuselmélet. Bonyolultságelmélet. Katona Gyula Y.

Való szí nű sé gi va ltózó, sű rű sé gfű ggvé ny, élószla sfű ggvé ny

Híradástechikai jelfeldolgozás

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Searching in an Unsorted Database

Kísérlettervezés alapfogalmak

Deep Learning a gyakorlatban Python és LUA alapon Tanítás: alap tippek és trükkök

Kutatásértékelési szolgáltatások szakmai szemmel: felhasználásához

PONTFELHŐ REGISZTRÁCIÓ

Sztochasztikus kapcsolatok

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

KÉPFELDOLGOZÁS. 10. gyakorlat: Morfológiai műveletek, alakjellemzők

Biomatematika 2 Orvosi biometria

MATLAB. 5. gyakorlat. Polinomok, deriválás, integrálás

A magyar teljesítménytúra-naptár fejlődése,

Információ megjelenítés Diagram tervezés

Gazdasági matematika II. vizsgadolgozat megoldása, június 10

Tantárgy: BEVEZETÉS A TUDOMÁNYOS KUTATÁS MÓD- SZERTANÁBA

Kép mátrix. Feladat: Pap Gáborné-Zsakó László: Algoritmizálás, adatmodellezés 2/35

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

MATLAB alapismeretek V. Eredmények grafikus megjelenítése: oszlopdiagramok, hisztogramok, tortadiagramok

Microsoft Excel Gyakoriság

Modellek ellenőrzése és tesztelése

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

A verem (stack) A verem egy olyan struktúra, aminek a tetejéről kivehetünk egy (vagy sorban több) elemet. A verem felhasználása

KLASZTEREZÉS I. -- Előadás. A klaszterezés feladata és algoritmusai [Concepts 7]

van neve lehetnek bemeneti paraméterei (argumentumai) lehet visszatérési értéke a függvényt úgy használjuk, hogy meghívjuk

A Memory Interface Generator (MIG) beállítása a Logsys Kintex-7 FPGA kártyához

100% BIO Natur/Bio kozmetikumok és testápolás

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Teljesítmény Mérés. Tóth Zsolt. Miskolci Egyetem. Tóth Zsolt (Miskolci Egyetem) Teljesítmény Mérés / 20

Szoftver karbantartási lépések ellenőrzése

SAMSUNG SSM-8000 szoftvercsomag

Átírás:

Nagyméretű adathalmazok vizualizációja Big Data elemzési módszerek Salánki Ágnes, Kocsis Imre salanki, ikocsis@mit.bme.hu 2015.10.22. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Alapvető vizualizációs eszközök

Alapvető vizualizációs eszközök

Alapvető vizualizációs eszközök

Alapvető vizualizációs eszközök

Alapvető vizualizációs eszközök

Alapvető vizualizációs eszközök

Alapvető vizualizációs eszközök

Nagyméretű adathalmazok vizualizációja Nem sokdimenziós, o Dimenziócsökkentő módszerek PCA MDS stb. hanem sok megfigyelést tartalmazó adatok o Számolni úgyis sokáig kell o Megjelenítés?

Miért nehéz? Visual bias of humans Nagyon nagy számú objektumot általában nehéz megkülönböztetni Véges képernyőméret Ha úgyis csak X Y pixelt rajzolunk ki, akkor felesleges kiszámolni mindent aztán meg kerekíteni

Miért nehéz? Visual bias of humans Nagyon nagy számú objektumot általában nehéz megkülönböztetni Véges képernyőméret Ha úgyis csak X Y pixelt rajzolunk ki, akkor felesleges kiszámolni mindent aztán meg kerekíteni

Miért nehéz? Visual bias of humans Nagyon nagy számú objektumot általában nehéz megkülönböztetni Véges képernyőméret Ha úgyis csak X Y pixelt rajzolunk ki, akkor felesleges kiszámolni mindent aztán meg kerekíteni

Miért nehéz? Visual bias of humans Nagyon nagy számú objektumot általában nehéz megkülönböztetni Véges képernyőméret Ha úgyis csak X Y pixelt rajzolunk ki, akkor felesleges kiszámolni mindent aztán meg kerekíteni

Miért nehéz? Visual bias of humans Nagyon nagy számú objektumot általában nehéz megkülönböztetni Véges képernyőméret Ha úgyis csak X Y pixelt rajzolunk ki, akkor felesleges kiszámolni mindent aztán meg kerekíteni A klasszikus megoldás: előbb számoljuk ki pontosan, mit kell majd kirajzolni, majd a kirajzolófüggvénynek átadjuk a konkrétumokat

Esettanulmány PISA 2012 > colnames(pisa2012) [1] "CNT" "OECD" "BirthMonth" "BirthYear" [5] "Gender" "LateForSchool" "Possessions.Computer" "EnjoysMath [9] "ParentsLikeMath" "PlaysChess" "ComputerProgramming" "SchoolHasLaptop [13] "FirstUseOfComputer" "EdCodeMother" "EdCodeFather" "OutOfSchoolStudyTime [17] "Math.Score" "Reading.Score" "Science.Score"

bigvis Bigdata vizualizáció R alapokon tabplot trelliscope

BIGVIS

1 változó Változók Numerikus Kategorikus

1 változó Változók Numerikus Kategorikus {Gender: Female, Male, }

1 változó Változók Numerikus {Math.Score: 609, 613, } Kategorikus {Gender: Female, Male, }

Jellemző mérőszámok egyváltozós esetben Oszlopdiagram, hisztogram o abszolút számosság Boxplot o Kvartilisek + outlierek Mit mennyire nehéz kiszámolni? o Disztributív o Algebrai o holisztikus

Leíró statisztikák Összefoglaló statisztikák típusai: o Disztributív egyetlen, adott méretű köztestár eredmények kombinálhatóak pl. count, sum o Algebrai disztributív statisztikák fix száma kell hozzá Pl. átlag: count + sum o Holisztikus bemenettel növekvő köztestár kell Pl. medián: legalább az elemek fele 1. Általában jól párhuzamosítható 2. Interaktív vizualizációs technikákat támogatja (lásd később iterative refinement )

Bin

2 változó kapcsolata Változók Numerikus Kategorikus

2 változó kapcsolata Változók Változók Numerikus Kategorikus Numerikus Kategorikus

2 változó kapcsolata Változók Változók Numerikus Kategorikus Numerikus Kategorikus 2 kategorikus 1 numerikus, 1 kategorikus 2 numerikus

2 változó kapcsolata Változók Változók Numerikus Kategorikus Numerikus Kategorikus 2 kategorikus 1 numerikus, 1 kategorikus 2 numerikus

2 kategorikus 2 count Sajnos nem megy egymástól függetlenül o p X = x 1, Y = y 1 p X = x 1 p(y = y 1 ) Előbb az egyik szerint számolunk, aztán kategóriánként a másik szerint

2 változó kapcsolata Változók Numerikus Kategorikus

2 változó kapcsolata Változók Változók Numerikus Kategorikus Numerikus Kategorikus

2 változó kapcsolata Változók Változók Numerikus Kategorikus Numerikus Kategorikus 2 kategorikus 1 numerikus, 1 kategorikus 2 numerikus

2 változó kapcsolata Változók Változók Numerikus Kategorikus Numerikus Kategorikus 2 kategorikus 1 numerikus, 1 kategorikus 2 numerikus

Fix szélességű dobozok Bin Egy dimenzióban: x origin width + 1 Általánosítás több dimenzióban m 1 = x 1 + x 2 n 1 + x 3 n 1 n 2 + + x m n i i=1 = x 1 + n 1 ( x 2 + n 2 ( x 3 + x m )

Numerikus is Mindkettő bin, a statisztika alapja count

Numerikus is Mindkettő bin, a statisztika alapja count Az egyiknek csak valamelyik leíró statisztikáját (pl. átlag) számoljuk/vizualizáljuk

Numerikus is Mindkettő bin, a statisztika alapja count Az egyiknek csak valamelyik leíró statisztikáját (pl. átlag) számoljuk/vizualizáljuk

Numerikus is Mindkettő bin, a statisztika alapja count Az egyiknek csak valamelyik leíró statisztikáját (pl. átlag) számoljuk/vizualizáljuk

n > 2 változó Általánosítás: darabolunk a változók szerint, majd ugyanaz, mint fent Általános elv: small multiples o Ugyanazt rajzoljuk ki kategóriák szerint o Pl., matematika-olvasás pontszám scatterplotja országonként o R specifikusan: facet in ggplot2, trellis in lattice Inkább kategorikus, nagyon felderítés: tabplot Inkább numerikus, inkább részletek : Trelliscope

TABPLOT

tabplot

tableplot Szűrünk adott változó lehetséges értékei alapján o Kategorikus: értékkészlet elemei o Numerikus: percentilisekkel A vetített változók jellemző eloszlásait vizualizáljuk o Kategorikus: stacked barchart gyakoriság alapján o Numerikus: átlaggal

tabplot

PISA 2012 tabplot

TRELLISCOPE

Trelliscope Small multiples vizualizáció o A rendező attribútumlista többelemes is lehet (a tabplotban egy változó szerint rendezünk csak) Bemeneti adatszerkezet: ddf (distributed data frame) o Memória, lokális diszk o HDFS Divide & recombine elv még a rajzolás előtt

Devide and recombine

Trelliscope

Cognostics Tetszőleges függvényben megfogalmazható leírója az ábrának/adatnak Később ezekre lehet keresni vagy ezek alapján sorrendezni

Bigdata vizualizáció R alapokon: ami közös bigvis tabplot trelliscope

Bigdata vizualizáció R alapokon: ami közös bigvis tabplot Előbb számolunk, aztán rajzolunk trelliscope

Bigdata vizualizáció R alapokon: a tradeoff bigvis o Interaktív változat o Adaptív binwidth tabplot o Többszörös rendezés Trelliscope o Interaktív változat legalább select, zoom szinten koordinátánként

Bigdata vizualizáció R alapokon: a tradeoff bigvis o Interaktív változat o Adaptív binwidth tabplot o Többszörös rendezés Outlierek? Trelliscope o Interaktív változat legalább select, zoom szinten koordinátánként

Bigdata vizualizáció R alapokon: különbségek R csomag Preferált vizualizáció Paraméterezhetőség ggvis 1D, 2D 5 beépített leíró statisztika, ezek belső paraméterei tabplot sokdimenziós, leginkább sok diszkrét Kód mennyisége kevés Input data.frame kb. semmi kb. semmi data.frame, ff trelliscope sokdimenziós kb. minden sok ddf (memória, lokális diszk, hdfs)

HALADÓ TIPPEK-TRÜKKÖK Milyen elven működnek a fenti eszközök?

MI TÖRTÉNIK, HA NEM TUDJUK ELŐRE, MIT ÉRDEMES MEGNÉZNI? Scagnostic measures

Scagnostic measures Megpróbáljuk kitalálni a 2D scatterplotból az összefüggést, amit ábrázol 3 vizualizációs forma o Konvex burok (convex hull) o Alfa-burok (alpha hull) o Minimális feszítőfa (MST)

Scagnostic measures Outlying Skewed Clumpy Sparse Striated Convex Skinny Stringy Monotonic

Scagnostic measures Outlying Skewed Clumpy Sparse Striated Convex Skinny Stringy Monotonic 0.17 0.68 0.01 0.02 0.02 0.43 0.44 0.33 0.67

Scagnostic measures Outlying Skewed Clumpy Sparse Striated Convex Skinny Stringy Monotonic 0.26 0.79 0.01 0.02 0.02 0.47 0.42 0.33 0.04

Bigvis: simítás Hogyan simítsuk el a zajt és hangsúlyozzuk a trendet? Hogyan szűrjük ki az outliereket? Általános ökölszabály: inkább legyen gyors mint robusztus (lásd még fent a human bias részt)

Bigvis: simítás

Smooth

Smooth Kernel módszerek: o nemcsak szomszédok, o de súlyozás is j-edik bin közelítésénél az i-edik súlya: k i = K x j x i h h: sávszélesség o Szomszédság mérete K itt: triweight K x = 1 x 3 2 I x <1

Smooth Kernel módszerek: o nemcsak szomszédok, o de súlyozás is j-edik bin közelítésénél az i-edik súlya: k i = K x j x i h h: sávszélesség o Szomszédság mérete K itt: triweight K x = 1 x 3 2 I x <1

Smooth Kernel módszerek: o nemcsak szomszédok, o de súlyozás is j-edik bin közelítésénél az i-edik súlya: k i = K x j x i h h: sávszélesség o Szomszédság mérete K itt: triweight K x = 1 x 3 2 I x <1

Bigvis: simítás, binwdith = 0.2

Bigvis: simítás, binwdith = 2

Bigvis: simítási sávszélesség Mekkora az ideális sávszélesség?

Automatikus sávszélesség választás? Pl. leave-one-out cross-validation (LOOCV) aktuális statisztika és a nélküle simított összeh. o root mean squared error o rmse = y i y 2 i /n o keressük a minimumhoz tartozó h-t

Bigvis: simítás, binwdith = 3.5

Tableplot: zoom Iterative refinement of computational results Zoom esetén a binek és a statisztikák újraszámolódnak Támogatja a top-down elemzést o Előbb megnézzük a kategóriákat egymáshoz képest, aztán belezoomolunk

Nagyméretű adathalmazok vizualizációja Perception-based precision : elég a közelítés, a double pontosság se kell mindig Perception-based convergence : elég az első néhány iterációt vizsgálni Screen-wise precision : elég max. 3M különböző értéket számolni Iterative refinement : először elég az aggregátum, aztán majd a részletek

Hivatkozások Kódok: https://github.com/ftsrg/bigdante PISA 2012 adatsor: http://pisa2012.acer.edu.au/downloads.php Scagnostic measures: http://www2.cs.uic.edu/~tdang/file/pacificvispos ter2013.pdf

Hivatkozások Trelliscope: http://tessera.io/docs-trelliscope/ Tabplot: http://www.jdsonline.com/file_download/379/jds-1108.pdf Bigvis: http://vita.had.co.nz/papers/bigvis.pdf