Nagy méretű adathalmazok vizualizációja

Hasonló dokumentumok
Nagyméretű adathalmazok vizualizációja

Adatbányászati szemelvények MapReduce környezetben

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Intelligens adatelemzés

IBM SPSS Modeler 18.2 Újdonságok

100% BIO Natur/Bio kozmetikumok és testápolás

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Statisztikai szoftverek esszé

Biomatematika 2 Orvosi biometria

Bevezetés az ökonometriába

Hallgatók Diplomás Pályakövetési Rendszer Intézményi adatfelvétel a felsőoktatási hallgatók körében Módszertani összefoglaló

VERTESZ Elektronika Kft. REGINFO 2 VHR regisztráló berendezések adatfeldolgozó rendszere

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Esetelemzés az SPSS használatával

Bevezetés a Korreláció &

Paraméteres-, összesítı- és módosító lekérdezések

Mit mond a XXI. század emberének a statisztika?

Erdélyi Magyar Adatbank Biró A. Zoltán Zsigmond Csilla: Székelyföld számokban. Lakáskörülmények

Kutatásmódszertan és prezentációkészítés

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

A Memory Interface Generator (MIG) beállítása a Logsys Kintex-7 FPGA kártyához

Szomszédság alapú ajánló rendszerek

3. Szűrés képtérben. Kató Zoltán. Képfeldolgozás és Számítógépes Grafika tanszék SZTE (

Vizuális adatelemzés

Digitalizáció a vállalatirányításban - Milyen szerep jut a controllingnak? Budapest,

A webanalitika változó világa 4 felvonásban

Vizuális adatelemzés

8. Pontmegfeleltetések

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Média ajánlat június 1.-től érvényes árak

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

Az OECD PISA adatbázis elemzése

Dr. Kalló Noémi. Termelés- és szolgáltatásmenedzsment. egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék. Dr.

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Bevezetés az ökonometriába

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Modellek paraméterezése: regresszió, benchmarkok

OpenCL - The open standard for parallel programming of heterogeneous systems

Segítség az outputok értelmezéséhez

Vitamin D 3 (25-OH) mérése Elecsys 2010 automatán

Elemi statisztika fizikusoknak

Erdélyi Magyar Adatbank Biró A. Zoltán Zsigmond Csilla: Székelyföld számokban. Földtulajdon

y ij e ij BIOMETRIA let A variancia-anal telei Alapfogalmak 2. Alapfogalmak 1. ahol: 7. Előad Variancia-anal Lineáris modell ltozó bontását t jelenti.

A leíró statisztikák

3. fejezet. Tan, Steinbach, Kumar Bevezetés az adatbányászatba

Metaanalízisek. Ferenci Tamás május 16. Ferenci Tamás Metaanalízisek május 16.

Regresszió számítás az SPSSben

Digitális technika VIMIAA02

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Bevezető. Mi is az a GeoGebra? Tények

Korreláció számítás az SPSSben

JOURNAL CITATION REPORTS Tóth Szász Enikő Customer Education Specialist

Modell alapú tesztelés: célok és lehetőségek

Lehoczki Róbert. Szent István Egyetem Vadbiológiai és Vadgazdálkodási Tanszék 2103 Gödöllõ, Páter K. u

Hotdog. Médiaajánlat 2012 Érd el hatékonyan és olcsón!

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Microsoft Access alapok

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

The modular mitmót system. DPY kijelző kártya C API

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók 2. Pataki Béla

Frissdiplomások 2011

Információs Rendszerek Szakirány

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

Alternatív zártláncú tartalomtovábbítás értékesítőhelyek számára

Correlation & Linear Regression in SPSS

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Bevezetés a hipotézisvizsgálatokba

Erdélyi Magyar Adatbank Biró A. Zoltán Zsigmond Csilla: Székelyföld számokban. Társadalmi közérzet

Metaanalízisek. Ferenci Tamás november 27.

Párhuzamos programozási platformok

Magas szintű optimalizálás

Sztochasztikus kapcsolatok

FIZIKAI KÉMIA II. házi dolgozat. Reakciókinetikai adatsor kiértékelése (numerikus mechanizmusvizsgálat)

[Biomatematika 2] Orvosi biometria

Párhuzamos programozási platformok

Bevezetés a programozásba. 5. Előadás: Tömbök

Esetelemzések az SPSS használatával

7. Régió alapú szegmentálás

Kutatás-fejlesztési eredmények a Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszéken. Dombi József

Élpont osztályozáson alapuló robusztus tekintetkövetés

Correlation & Linear Regression in SPSS

SAMSUNG SSM-8000 szoftvercsomag

TANTÁRGYI ADATLAP I. TANTÁRGYLEÍRÁS

A glejes talajrétegek megjelenésének becslése térinformatikai módszerekkel. Dr. Dobos Endre, Vadnai Péter

Szoftver karbantartási lépések ellenőrzése

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Fájlszervezés. Adatbázisok tervezése, megvalósítása és menedzselése

Dr. Dobos Endre, Vadnai Péter. Miskolci Egyetem Műszaki Földtudományi Kar Földrajz Intézet

UAV felmérés tapasztalatai

DHA VÉDELMI RENDSZER EREDMÉNYEINEK STATISZTIKAI VIZSGÁLATA

Számítógépes döntéstámogatás. Statisztikai elemzés

Normál látók és színtévesztők szemkamerás vizsgálatainak statisztikai megközelítése

A pozicionális elit összetétele digitalizált választási jegyzőkönyvekben

STATISZTIKA PRÓBAZH 2005

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

A Hat Szigma bevezetésének tapasztalatai a Siemens Erőműtechnika Kft-nél

13. Túlélési analízis. SURVIVAL ANALYSIS Nyári Tibor Ph.D., Boda Krisztina Ph.D.

Átírás:

Nagy méretű adathalmazok vizualizációja Big Data elemzési módszerek Kocsis Imre, Salánki Ágnes ikocsis, salanki@mit.bme.hu 2014.10.15. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Aggregálunk n nagy mesterségesen tömörítünk

Bin-summarize-smooth-visualize A képernyő pixelszáma erősen véges Az előfeldogozást le kell csatolni a megjelenítésről Lehetővé teszi a o Párhuzamosítást o Out-of-memory adatok megjelenítését A fontosabb 1d és 2d statisztikai eszközök Alapvető forrás: H.Wickham: Bin-summarize-smooth: A framework for visualizing large data

Bin-summarize-smooth-visualize Bin Summarize Smooth Visualize

Condense Bin + summary: nagy adat dobozolt összefoglalók dobozolás (binning), majd néhány leíró statisztika bin-hez rendelése Binning: injektív leképezés Adatbázisban is végezhető

ASA Data Expo 09 Példa adatsor: flight data http://stat-computing.org/dataexpo/2009/the-data.html Változók o Year, Month, DayOfMonth, DayOfWeek o DepTime, SchDepTime, ArrTime, SchArrTime o ArrDelay, DepDelay o Origin, Dest o Distance

Fix szélességű dobozok Egy dimenzióban: Bin x origin width + 1 Általánosítás több dimenzióban m 1 = x 1 + x 2 n 1 + x 3 n 1 n 2 + + x m = x 1 + ( x 2 + n 2 ( x 3 + x m ) i=1 n i Ritka adatok: jobb lenne a nagyobb szélesség o Pl. a variancia csökkentésére o Nehéz probléma Inkább simítás

Bin

Summarise Összefoglaló statisztikák típusai: o Disztributív egyetlen, adott méretű köztestár eredmények kombinálhatóak pl. count, sum o Algebrai disztributív statisztikák fix száma kell hozzá Pl. átlag: count + sum o Holisztikus bemenettel növekvő köztestár kell Pl. medián

Summarise Összefoglaló statisztikák típusai: o Disztributív egyetlen, adott méretű köztestár eredmények kombinálhatóak pl. count, sum o Algebrai disztributív statisztikák fix száma kell hozzá Pl. átlag: count + sum o Holisztikus bemenettel növekvő köztestár kell Pl. medián 1. Általában jól párhuzamosítható 2. Interaktív vizualizáció

Summarize

Túl kicsi a szélesség Smooth Inkább legyen gyors, mint robusztus

Túl kicsi a szélesség Smooth Inkább legyen gyors, mint robusztus

Smooth Kernel módszerek: o nemcsak szomszédok, o de súlyozás is j-edik bin közelítésénél az i-edik súlya: k i = K x j x i h h: sávszélesség o Szomszédság mérete K itt: triweight K x = 1 x 3 2 I x <1

Smooth Kernel módszerek: o nemcsak szomszédok, o de súlyozás is j-edik bin közelítésénél az i-edik súlya: k i = K x j x i h h: sávszélesség o Szomszédság mérete K itt: triweight K x = 1 x 3 2 I x <1

Automatikus sávszélesség választás?

Automatikus sávszélesség választás?

Automatikus sávszélesség választás? Pl. leave-one-out cross-validation (LOOCV) aktuális statisztika és a simított összeh. o root mean squared error o rmse = y i y 2 i /n o keressük a minimumhoz tartozó h-t

Két változó? Az egyik bin, a másik statisztika alapja o mean, median, std. dev. Mindkettő bin alapja, statisztika: count

Két változó? Az egyik bin, a másik statisztika alapja o mean, median, std. dev. Mindkettő bin alapja, statisztika: count

Két változó? Az egyik bin, a másik statisztika alapja o mean, median, std. dev. Mindkettő bin alapja, statisztika: count

Két változó? Az egyik bin, a másik statisztika alapja o mean, median, std. dev. Mindkettő bin alapja, statisztika: count

Két változó? Az egyik bin, a másik statisztika alapja o mean, median, std. dev. Mindkettő bin alapja, statisztika: count

(2,1)-d plot: heatmap/tile plot, contour plot Vizualizáció (n,m)-d plot: o small multiples (faceting) o Interakció Ábra forrása: [1]

Hivatkozások [1] H. Wickham: Bin-summarize-smooth: A framework for visualizing large data. http://vita.had.co.nz/papers/bigvis.pdf (A cikk az IEEE Transactions on Visualization and Computer Graphics folyóiratban fog megjelenni.) [2] Bigvis-t bemutató meetup oldala: http://www.meetup.com/nyhackr/events/112271 042/

Előkészületek

Előkészületek

Válasszunk egy változót

Válasszunk egy változót

Binning; simítás

Binning; simítás

Másik változó

Két változó

Bizonytalanság: CLT, bootstrap Két változó

Hámozás

illetve kézivezérlés