Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Hasonló dokumentumok
Modellek paraméterezése: regresszió, benchmarkok

Vizuális adatelemzés

Rendszermodellezés. Benchmarking. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Pontfelhő létrehozás és használat Regard3D és CloudCompare nyílt forráskódú szoftverekkel. dr. Siki Zoltán

Számítógép-rendszerek fontos jellemzői (Hardver és Szoftver):

HecPoll a vezérlő rendszer

Informatikai alapismeretek Földtudományi BSC számára

PHP-MySQL. Adatbázisok gyakorlat

Modellező eszközök, kódgenerálás

Üzleti IT rendszerek modellezése. Benchmarking. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Microsoft SQL Server telepítése

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

Adatbázis-kezelő rendszerek. dr. Siki Zoltán

ETL keretrendszer tervezése és implementálása. Gollnhofer Gábor Meta4Consulting Europe Kft.

Adatbázis rendszerek. dr. Siki Zoltán

Az MS Excel táblázatkezelés modul részletes tematika listája

Teljesítményprognosztizáló program FELHASZNÁLÓI KÉZIKÖNYV

BaBér. Bérügyviteli rendszer. Telepítési segédlet 2014.

Grayteq. Grayteq DLP Teljesítmény Benchmark. Grayteq DLP Benchmark. Sealar Corporate Proprietary Commercial-in-confidence

LBRA6i integrált rendszer

Kiegészítő témakörök: Táblázatkezelés történeti áttekintés

OpenCL alapú eszközök verifikációja és validációja a gyakorlatban

A telepítési útmutató tartalma

Microsoft Access alapok

Informatika A versenyzők a feladatlapot mindkét kategóriában a II. kategória első fordulójának kivételével csak elektronikus formában kapják meg

Környezeti informatika

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Koós Dorián 9.B INFORMATIKA

Your IT Partner in Business Understanding. Keszőcze Adrienn. Hyperion Planning üzleti szemmel. Bevezetést előkészítő tanulmány

Győri HPC kutatások és alkalmazások

Vizuális adatelemzés

Informatika Informatika

Norway Grants. Az akkumulátor mikromenedzsment szabályozás - BMMR - fejlesztés technológiai és műszaki újdonságai. Kakuk Zoltán, Vision 95 Kft.

DW 9. előadás DW tervezése, DW-projekt

A roma közösségekben dolgozó védőnők munkafeltételeinek javítása című projekt OKTATÁSI ANYAG

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

Mosolygó Ferenc értékesítési konzultáns

Téradatbázisok használata QGIS-ből A DB kezelő modul 2.2 verzió

Infokommunikáció (PF10IK511L) kérdései

KÖSZÖNTJÜK HALLGATÓINKAT!

Csima Judit szeptember 6.

BMD Rendszerkövetelmények

Ügyfél- és címadatok feldolgozása Talenddel

Matematikai geodéziai számítások 6.

Vizuális programozás gyakorlat

LOGISZTIKAI ADATBÁZIS RENDSZEREK UNIÓ, ALLEKÉRDEZÉSEK

Átfogó megoldás a számlafolyamatok felgyorsításához ELO DocXtractor. Laczkó Kristóf ELO Digital Office Kft. Bálint András Prognax Kft.

BaBér bérügyviteli rendszer telepítési segédlete év

Gazdasági informatika alapjai

LOGISZTIKAI ADATBÁZIS RENDSZEREK EXCEL ALAPOK

Haladó irodai számítógépes képzés tematika

SQLServer. Particionálás

informatika általános iskola 8. osztály

Microsoft Excel 2010

Az informáci. Forczek Erzsébet SZTE, ÁOK Orvosi Informatikai Intézet május

Gépi tanulás a gyakorlatban. Lineáris regresszió

Táblázatkezelés Excel XP-vel. Tanmenet

Oktatási cloud használata

Modellek végrehajtása, kódgenerálás

SZÁLLÍTÁSI FELADAT KÖRUTAZÁSI MODELL WINDOWS QUANTITATIVE SUPPORT BUSINESS PROGRAMMAL (QSB) JEGYZET Ábragyűjtemény Dr. Réger Béla LÉPÉSRŐL - LÉPÉSRE

Adatbázisok elmélete

A BLOWER DOOR mérés. VARGA ÁDÁM ÉMI Nonprofit Kft. Budapest, október 27. ÉMI Nonprofit Kft.

Informatika tagozat osztályozóvizsga követelményei

DAT adatcserefájl AutoCAD MAP DWG mapobject konvertáló program dokumentáció

Hálózati operációs rendszerek II.

PRECÍZ Információs füzetek

Rendszerkövetelmények

Minitab 16 újdonságai május 18

ANTILOP A-8200C ÉS A8200B HASZNÁLATI UTASÍTÁS

Telepítési útmutató a Solid Edge ST7-es verziójához Solid Edge

IP Thermo for Windows

Matematikai geodéziai számítások 6.

Algoritmus terv 3. Fejezet: Folyamatok meghatározása

MÉRY Android Alkalmazás

SZÁMÍTÁSOK A TÁBLÁZATBAN

ADATBÁZIS-KEZELÉS. Adatbázis-kezelő rendszerek

Felhasználói leírás a DimNAV Server segédprogramhoz ( )

Fájlrendszerek. A Windows operációs rendszerek fájlrendszere

Dr. Kalló Noémi. Termelés- és szolgáltatásmenedzsment. egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék. Dr.

Táblázatkezelés Excel XP-vel. Tanmenet

Rőczei Gábor Szeged, Networkshop

Adatbányászat és Perszonalizáció architektúra

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Procontrol Device Detector. Felhasználói leírás

ADÓRAKTÁRI MODUL RÖVID BEMUTATÁSA

Általános soros sín (USB) Felhasználói útmutató Rendszerigény Nyomtatója beépített USB portja az alábbi minimális rendszerkonfiguráció mellett használ

LabVIEW példák és bemutatók KÉSZÍTETTE: DR. FÜVESI VIKTOR

Programozási nyelvek a közoktatásban alapfogalmak I. előadás

Projekt beszámoló. NEWSIT News basedearlywarning System forintradaytrading: Hír alapú Korai Figyelmeztető Rendszer Napon belüli Kereskedéshez

Automatizált frekvenciaátviteli mérőrendszer

Adatbázisok I Adatmodellek komponensei. Adatbázis modellek típusai. Adatbázisrendszer-specifikus tervezés

Adatbányászati szemelvények MapReduce környezetben

Csoportos üzenetszórás optimalizálása klaszter rendszerekben

Mobil Telefonon Keresztüli Felügyelet Felhasználói Kézikönyv

Angol szótár V

Ingatlan-nyilvántartási megoldás a magyar állami erdőgazdálkodás számára március 18. GIS open 2010 Székesfehérvár Nyull Balázs DigiTerra Kft.

Az ErdaGIS térinformatikai keretrendszer

OKTATÁSI MINISZTÉRIUM. SZÓBELI VIZSGATÉTELEK A többször módosított 100/1997. (VI. 13.) Korm. rendelet alapján szervezett OKJ szakmai vizsgához

Útmutató az asc-ben készített órarend importálásához. Gyors Áttekintő Segédlet

Teljesítmény Mérés. Tóth Zsolt. Miskolci Egyetem. Tóth Zsolt (Miskolci Egyetem) Teljesítmény Mérés / 20

Átírás:

Vizuális adatelemzés - Gyakorlat Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Adatelemzés szerepe a rendszermodellezésben Lényeges paraméterek meghatározása o Pl. mérési adatokból mik fontosak szimuláció alapja Mérési adatok értelmezése o Milyen eredményt kaptunk valójában? Rendszerek összehasonlítása o Adott feladatra melyik alkalmasabb

A gyakorlat célja Hogyan találhatunk meg magas szintű összefüggéseket egy többdimenziós (mérési) adathalmazban? o Egy adott frekvencia alapján lehet legjobban meghatározni az elhaladó jármű típusát o Bizonyos típusú algoritmusok jobban teljesítenek nagy modelleken, ha sok a változtatás o A kis konfigurációknál számít erősebben az OS Ízelítő két gyakorlati problémából o Jó-e az általunk fejlesztett algoritmus? o Milyen adatbázis konfigurációt válasszunk?

Mit láttunk az előadáson? Diagram típusokat: o Oszlop o Pont-pont (scatterplot) o Scatterplot mátrix o Mozaik o Hisztrogram o Doboz o Párhuzamos koordináták Közelítő módszereket: o Regresszió, lineáris regresszió, simítógörbe Láttuk a matematikai módszert is

Mit fogunk most látni? Végignézzük ezeket a diagramtípusokat egy valódi adathalmazon (benchmark eredmények) Látni fogunk példát a regressziós módszerek használatára

Milyen eszközök állnak rendelkezésünkre? R nyelv és a hozzákapcsolódó fejlesztőkörnyezetek o Bővíthetőség o Kiterjedt alkalmazási/statisztikai lehetőségek Mondrian adatvizualizációs szoftver o Képes RData állományok betöltésére o Képes R környezethez kapcsolódni (pl. regresszió) o Mi most (elsősorban) ezt fogjuk használni

MODELLKEZELŐ ALGORITMUSOK/ESZKÖZÖK ÖSSZEHASONLÍTÁSA

A feladat: modellek kezelése Modell: fogalmak és kapcsolatok (gráf) Kezelés: írás/olvasási műveletek Cél: o Tanszéki fejlesztésű eszköz (EMF IncQuery) és ipari eszközök hatékonyságának elemzése o Mintaillesztés és illesztések karbantartása o Inkrementális : ~ cache használata Esettanulmány (konkrét modell) o Vasúti irányítás o Modellméret: 1-10-100-1000 szorzók

Szintetikus terhelés: Elemzési kérdések o Egyszeri, batch jellegű módosítás (pl. validáció/kiegészítés transzformációval) o Sorozatos felhasználói módosítások o ~mintaillesztési benchmark Eszközök teljesítménye o Modellméret/feladat függvényében o Mit tudnak végrehajtani 10 mp alatt Eszközök erőforrásigénye

BEMUTATÓ (MONDRIAN)

BENCHMARK EREDMÉNYEK ELEMZÉSE

A TPC benchmark Adatbáziskezelő rendszerek mérése o RDBMS+OS+HW Mérési környezet o Mintaadatbázis: Ügyfelek és megrendelések o 5 fajta tranzakció (lekérdezés/módosítás) vegyesen o Felső korlát a futási időre o Valós körülmények: ACID tranzakciók, felhasználói gondolkodási idők Mért adatok o Áteresztőképesség (tpmc) o Hatékonyság ($/tpmc)

TPC-C séma Warehouse W 10 District W*10 3K 100K Stock W*100K W Legend Table Name <cardinality> secondary index Item 100K (fixed) one-to-many relationship Customer W*30K 1+ Order W*30K+ 0-1 New-Order W*5K 1+ 10-15 History W*30K+ Order-Line W*300K+ Forrás: tpc.org

A FELADAT

ADATTISZTÍTÁS Cél: adathalmaz (tpc.org) előkészítése az elemzéshez

Adatok tisztítása manuálisan Kisebb méretű adathalmaz kézzel is tisztítható Előforduló lépések: o Importálás táblázat kezelő szoftverbe (MS Excel, LO Calc) o Felesleges sorok és oszlopok eltávolítása o Cellaformátumok beállítása, tizedespont vs. tizedesvessző o Adatok egységesítése (pl. eltérő valuták egységessé alakítása) o Adatok aggregálása (pl. eltérő adatbázis-kezelők, OSek) o Táblázat exportálása célformátumba

Adatok tisztítása manuálisan o A kiinduló adathalmazunk: o Felesleges adatok: o Sorok (pl. a kezdő sorok, és az állomány végén lévő sorok, amelyek nem kapcsolódnak az eredményekhez) o Oszlopok (pl. Server CPU Type nekünk most nem kell)

Adatok tisztítása manuálisan o További problémák: o Tizedesvessző vs. Pont o Eltérő valutákban megadott költségek o Ezeket cseréljük, konvertáljuk

Adatok tisztítása manuálisan o A tisztított adathalmazunkban: o Megfelelő adatformátumok o Aggregált értékek o Pl. nem foglakozunk az OS-ek és DBMS-ek verziójával (Windows Server 2003 és 2008 egységesen Windows-ként fog szerepelni)

Adatok tisztítása automatikusan Nagy méretű adathalmazok esetén nem alkalmazható a manuális adattisztítás Ilyenkor céleszközöket használunk: o Programozási vagy scriptnyelvek (pl. R, Perl, Python) o Grafikusan tervezett adatfeldolgozási folyamatok (pl. KNIME) o Későbbiekben látunk részletesebb példát (logelemzés)

Adatok tisztítása automatikusan - R

Adatok tisztítása automatikusan - KNIME Adattisztítás + riportgenerálás + adatelemzési eszközök elérése

VIZUÁLIS ELEMZÉS Cél: tisztított adat vizuális elemzése

Elemzési kérdések Mely években megjelent konfigurációkat tartalmazza a benchmark? Mennyire használható/releváns napjainkban? Az egyes beszállítók mely években voltak aktívak? Mely beszállító a nagy játékos? Ha cégünk igényeit egy alacsonyabb teljesítményű konfigurációval is ki tudjuk elégíteni, akkor mely beszállítók közül válasszunk? Mit lehet megállapítani a teljesítmény változásáról? Hogyan alakulnak a tranzakciós és összköltségek? Milyen adatbázis-kezelő szoftvert válasszunk, ha még mindig az olcsóbb megoldást szeretnénk használni? Milyen operációs rendszert válasszunk, ha a teljes költséget minimalizálni akarjuk? Melyik beszállító melyik adatbázis-kezelőben és operációs rendszerben,,utazik''? Melyik beszállítót, adatbázis-kezelőt és operációs rendszert tartalmazza a leggyakrabban az adathalmaz? Próbáljunk összefüggést találni a teljesítmények, költségek, operációs rendszerek és adatbázis-kezelők között!

GYAKORLAT (MONDRIAN)