Modellek paraméterezése: regresszió, benchmarkok

Hasonló dokumentumok
Vizuális adatelemzés

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Teljesítménymodellezés

Adatbányászati szemelvények MapReduce környezetben

Kísérlettervezés alapfogalmak

Teljesítménymodellezés

Vizuális adatelemzés

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Rendszermodellezés. Benchmarking. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Dr. Kalló Noémi. Termelés- és szolgáltatásmenedzsment. egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék. Dr.

Mérési adatok illesztése, korreláció, regresszió

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Korreláció és lineáris regresszió

Bevezetés a Korreláció &

Teljesítménymodellezés

Regressziós vizsgálatok

Regresszió számítás az SPSSben

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Szimuláció. Fault Tolerant Systems Research Group. Budapest University of Technology and Economics. Department of Measurement and Information Systems

Hat Szigma Zöldöves Tanfolyam Tematikája

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

GCF 1.1 Gas Consumption Forecast

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Hogyan lesz adatbányából aranybánya?

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Kísérlettervezés alapfogalmak

A mérések általános és alapvető metrológiai fogalmai és definíciói. Mérések, mérési eredmények, mérési bizonytalanság. mérés. mérési elv

Matematika gyógyszerészhallgatók számára. A kollokvium főtételei tanév

Matematikai geodéziai számítások 6.

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Számítógépes döntéstámogatás. Statisztikai elemzés

Matematikai geodéziai számítások 6.

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Mérési hibák

Rendszermodellezés: házi feladat bemutatás

Teljesítménymodellezés

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Irányításelmélet és technika II.

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Számítógép-rendszerek fontos jellemzői (Hardver és Szoftver):

Logisztikus regresszió október 27.

Kovács Ernő 1, Füvesi Viktor 2

Valós idejű megoldások: Realtime ODS és Database In-Memory tapasztalatok

Mérés és modellezés Méréstechnika VM, GM, MM 1

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Regresszió. Fő cél: jóslás Történhet:

Felhők teljesítményelemzése felhő alapokon

Statisztikai módszerek a skálafüggetlen hálózatok

Exponenciális kisimítás. Üzleti tervezés statisztikai alapjai

Vizuális adatelemzés

A kockázat fogalma. A kockázat fogalma. Fejezetek a környezeti kockázatok menedzsmentjéből 2 Bezegh András

Méréselmélet MI BSc 1

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Több valószínűségi változó együttes eloszlása, korreláció

ADATBÁZIS-KEZELÉS. Adatbázis-kezelő rendszerek

Gyártórendszerek irányítási struktúrái

Mosolygó Ferenc értékesítési konzultáns

BIOMATEMATIKA ELŐADÁS

A FLOW projekt eredménytermékeinek bemutatása

Heckman modell. Szelekciós modellek alkalmazásai.

Az épületek monitoringjával elérhető energiamegtakarítás

Méréselmélet és mérőrendszerek 2. ELŐADÁS (1. RÉSZ)

Teljesítménymodellezés

ITIL alapú IT környezet kialakítás és IT szolgáltatás menedzsment megvalósítás az FHB-ban

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

A Markovi forgalomanalízis legújabb eredményei és ezek alkalmazása a távközlő hálózatok teljesítményvizsgálatában

GEOSTATISZTIKA. Földtudományi mérnöki MSc, geofizikus-mérnöki szakirány. 2018/2019 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

Működési kockázatkezelés fejlesztése a CIB Bankban. IT Kockázatkezelési konferencia Kállai Zoltán, Mogyorósi Zoltán

Tranzakció-kezelés, alapfogalmak. Vassányi István, 2012.

Virtualizált környezetek teljesítménymérése és elemzése

Operációs rendszerek II. Folyamatok ütemezése

Mozgásmodellezés. Lukovszki Csaba. Navigációs és helyalapú szolgáltatások és alkalmazások (VITMMA07)


Korrelációs kapcsolatok elemzése

Gyártástechnológia alapjai Méréstechnika rész. Előadások (2.) 2011.

Üzleti IT rendszerek modellezése. Benchmarking. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Teljesítménymodellezés

Least Squares becslés

STATISZTIKA. Mit nevezünk idősornak? Az idősorok elemzésének módszertana. Az idősorelemzés célja. Determinisztikus idősorelemzés

Túlélés analízis. Probléma:

Mérés és modellezés 1

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Logisztikai szimulációs módszerek

Teljesítmény Mérés. Tóth Zsolt. Miskolci Egyetem. Tóth Zsolt (Miskolci Egyetem) Teljesítmény Mérés / 20

Numerikus matematika. Irodalom: Stoyan Gisbert, Numerikus matematika mérnököknek és programozóknak, Typotex, Lebegőpontos számok

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

VÁROS- ÉS INGATLANGAZDASÁGTAN

Matematikai statisztika c. tárgy oktatásának célja és tematikája

GVMST22GNC Statisztika II.

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

Az éghajlati modellek eredményeinek alkalmazhatósága hatásvizsgálatokban

Statisztika I. 13. előadás Idősorok elemzése. Előadó: Dr. Ertsey Imre

KÖFOP VEKOP A jó kormányzást megalapozó közszolgálat-fejlesztés

Átírás:

Modellek paraméterezése: regresszió, benchmarkok Rendszermodellezés 2017. Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement and Information Systems 1

Rendszermodelltől a teljesítménymodellig Modellezés Rendszermodell Elemzés tervezése Elvárások Adatgyűjtés Mérések Benchmarkok Minőségi (kvalitatív) modell Mérendő paraméterek Szimuláció Kísérlettervezés Elemzés Feltáró analízis Teljesítménymodell Megerősítő analízis 2

Alap kérdés Jól becsüljük meg a mennyiségi paramétereket? Bemeneten érkező kérések száma/időbeli eloszlása Egy adott tevékenység végrehajtási ideje adott erőforráson Várható értékkel közelített döntési valószínűség/gyakoriság 3

Érzékenységvizsgálat Adatok hihetősége o A modell kimeneti paraméterei mennyire érzékenyek a modell bemeneti paramétereinek változására o (erőforrások száma/kapacitása, felhasználók döntései) (folyamat válaszideje, átbocsátása) o parameter sweep : egy paraméter vizsgálata adott tartományban Melyik paramétert mennyire kell tudnunk becsülni? Ökölszabály: adatok hihetősége o mérés_bizonytalansága (szórás) ~ mérések_száma 2 o (kellő mennyiségű adat esetén) Val.szám. 4

MATEMATIKAI BECSLÉSEK: REGRESSZIÓS MÓDSZEREK 5

Feladat Adott sok változó, hosszú időre Szeretnénk bizonyos változók értékét közelíteni o Nehéz mérni o Nem áll rendelkezésre Szeretnénk becsülni/előrejelezni o Még nem történt meg, az idő függvényében közelítjük o Nem volt adott bemenet (pl. adott számú felhasználó) o Csak később lesz látható egy hatás (pl. válaszidő csak a kérések kiszolgálása közben nő meg a várakozás miatt) Mennyire bízhatunk meg a feltételezésekben/következtetésekben? 6

f függvény, bemenet: az attribútumok értéke, kimenet: megfigyelések legjobb közelítése ökölszabály Példa: testtömeg/magasság együttes eloszlás valójában egyenesre illeszthető Regresszió 7

Regressziós módszerek Alapelv: Véletlen változó Közelítés t Y f t Hiba Jósolt esemény Átlagos hiba (mean error) Becsült érték Y f ( X, X,..., X ) 1 2 n ME 8 n t 1 Y t n F t Megfigyelhető változók Mért érték

Lineáris regresszió Egyszerű lin. függvény illesztése az adatokra o nem vár alapvető változást a rendszer viselkedésében Y a bx Legkisebb négyzetek módszere o keressük azokat az a,b paramétereket (itt: a: eltolás, b: meredekség), amelyekre n n 2 t t t t 1 t 1 minimális (Sum of Squared Errors) 2 SSE Y F cél: n n 2 2 Y F Y a bx minimalizálása t t t t t 1 t 1 9

Lineáris regresszió Legjobban illeszkedő egyenes DE: Anscombe s quartet o Minőségileg különböző adatok o Azonos regressziós egyenes 10

Lineáris regresszió (folyt.) Korrelációs együttható (négyzete) o a változó becsült és tényleges értékének kapcsolata o 0 és 1 közti érték o 0: nincs kapcsolat o 1: függvényszerű kapcsolat o R maga: -1.. 1 (kapcsolat iránya) Példa: E-mail szolgáltatás, 8 hétig mérjük a csúcsterhelést. Hogyan közelíthető a terhelés változása? Mekkora a korrelációs együttható? 11 2 t 1 Hét 1 2 3 4 5 6 7 8 Max. terhelés (email/perc) 420 410 437 467 448 460 507 514 R n n t 1 F Y t t Y Y 2 2

Lin. regresszió példa A legkisebb négyzetek módszerével Y=393.98+14.20X Korrelációs együttható: R 2 =0.855 Mért Jósolt terhelés 420 408.18 410 422.38 437 436.58 467 450.78 448 464.98 460 479.18 507 493.38 514 507.58 521.78 Üzenetek/perc (csúcsterhelésnél) 520 500 480 460 440 420 400 0 1 2 3 4 5 6 7 8 9 Hét 12

Két változó kapcsolatának vizsgálata Tfh. lineáris kapcsolat van az egyszerre bejelentkezett felhasználók száma és az elküldött emailek közt. (pl logok alapján) Bejelentkezett felh. átlagos száma (1 óra alatt) 2450 2765 2241 2860 3011 2907 3209 Átl. terhelés (kimenő+bejövő emailek/óra) 19257 20488 18152 21450 21077 20639 22142 Lineáris regressziós közelítés a legkisebb négyzetek módszerével: ÜzenetekSzáma = f(bejelentkezettfelhasználók) Y=9480.48 + 3.95X, R 2 =0.937 erős kapcsolat 13

Nemlineáris módszerek Exponceniális közelítés: o jól illik a Web forgalom növekedéséhez Átalakítjuk a függvényt: Legkisebb négyzetek módszere használható Pl. adottak a legnagyobb mért terhelés értékei Mennyi a várható legnagyobb terhelés az év végén? Yt a b t logy log a t log b t log Yt Y ', log a a ', log b b' Y ' a ' b' t Hónap 1 2 3 4 5 6 7 8 9 10 Max. kérések/sec (Y t ) 1035 1100 1160 1250 1350 1555 1770 1950 2210 2630 ln (Y t ) 6.942 7.003 7.056 7.13 7.207 7.349 7.478 7.575 7.7 7.874 14

Exp. terhelés példa Becslőfüggvény: Y a e t Legkisebb négyzetek módszere a lineáris függvényre bt Eredmény: Y ' a' b' t, a ' 6.717, b ' 0.110, a e 3000 a' Yt 12. hónap: Y t =3093.3 826.33 e 0.11t Kérések max. száma/másodperc 2500 2000 1500 1000 500 0 2 4 6 8 10 12 14 Hónap 15

Mozgó átlagok módszere Rövid távú előrejelzésre jó Egyszerre egy értéket ad meg A becsült érték az utolsó n érték átlaga F t 1 t n 1 i t ahol Y t a t. időpontban mért érték F t+1 a becsült érték n tipikusan 3 és 10 között van (becslés hibája ne legyen túl nagy) n Y i 16

Exponenciális csúszóablak Egy értéket ad meg, az előző méréseket átlagolva Későbbi mérés (és mérési hiba) nagyobb súllyal Rövid távú előrejelzésre alkalmas o (miért exponenciális?) F F Y F t 1 t t t ahol F t :a t. időpontra becsült érték Y t : t. időpontban mért érték Y t - F t : mérési hiba a t. periódusban : súlyozás (0 1, gyakorlatban 0.05 0.3) 17

A két módszer összehasonlítása Adott sávszélesség igények, a két módszerel becsüljük a következő értéket Mozgó átlagok Exp. Hónap módszere Sávszélesség igény (n=3) csúszóablak ( = 0.3) 1 1100 1100.00 2 1020 1100.00 3 1090 1076.00 4 1255 1070.0000 1080.20 5 1195 1121.6667 1132.64 6 1039 1180.0000 1151.35 7 1145 1163.0000 1117.64 8 1066 1126.3333 1125.85 9 1083.3333 1107.90 18

A két módszer összehasonlítása Mozgó átlagok és exp. csúszóablak módszere 1400 1200 1000 800 600 400 200 0 1 2 3 4 5 6 7 8 9 Hónap Mért érték Mozgó átlagok Exp. csúszóablak 19

Mire figyeljünk? Kauzalitás (oksági kapcsolat)!= Korreláció (együttes előfordulás) Informatikai példa: sok felhasználó nagyobb kihasználtság ÉS magas válaszidő 20

DEMÓ Előrejelzés alapú kapacitástervezés, érzékenységvizsgálat 21

Rendszermodellezés BENCHMARKING 22

Why benchmark? 23

Wikipedia Benchmarking - Definíció In computing, a benchmark is the act of running a computer program, a set of programs, or other operations, in order to assess the relative performance of an object, normally by running a number of standard tests and trials against it. A benchmarkolás egy program (programok, vagy más műveletek) futtatása szabványos tesztekkel vagy bemenetekkel egy objektum relatív teljesítményének felmérése érdekében 24

Benchmarking motiváció Fejlesztés alatt lévő rendszer Teljesítmény felmérése o Modell alapján becsült értékek o Megvalósított rendszer értékei éles helyzetben Tervezői és menedzsment döntések o Melyik részébe fektessünk több energiát ( pénzt)? Mi alapján döntsünk? o Jelenlegi erősségek és gyengeségek Mi számít erősségnek vagy gyengeségnek? o Mire képesek a hasonló rendszerek, versenytársak? 25

Elvárások Ismételhetőség (Repeatability) o Egy elemen többször megismételt mérés/művelet eredményeinek változékonysága (szóródási faktor) Reprodukálhatóság (Reproducibility) o A mérési rendszer változékonysága, amelyet a műveletek viselkedéseinek különbsége okoz Általánosított felhasználói eset o Átlag felhasználó számára értelmezhető legyen az eredmény 26

OLTP benchmark TPC-C o Online Transaction Processing o Szoftverek és hardverek OLTP teljesítményét méri Komplex benchmark o Több tranzakció típus o Összetett adatbázis séma o Széles skálán mozgó adathalmaz méret Mért metrikák o Áteresztőképesség: transactions per minute (tpmc) o Ár-teljesítmény arány ( hatékonyság): $/tpmc 27

Mintaadatbázis TPC-C o Nagykereskedelmi beszállító cég rendelései o 9 különböző tábla 5 féle tranzakció típus o Rendelés, fizetés, szállítás, rendelés státusza, raktár állapota o Frissítés, beszúrás, törlés, megszakítás ACID tranzakciók o Atomicity, Consistency, Isolation, Durability Változatos felhasználói kérések szimulációja o Tranzakció típusok kezdeményezése adott valószínűséggel Időkorlát az egyes tranzakció típusokra 28

TPC-C adatbázis séma Warehouse W 100K Stock W*100K W Item 100K (fixed) 10 District W*10 3K Legend Table Name <cardinality> secondary index one-to-many relationship Customer W*30K 1+ Order W*30K+ 0-1 New-Order W*5K 1+ 10-15 History W*30K+ Order-Line W*300K+ Forrás: tpc.org 29

KIÉRTÉKELÉS 30

Adattisztítás Pénznem egységesítés (EUR, USD, AUD, JPY) Tizedesjegy, tízes elválasztó ellenőrzés 31

Milyen rendszereket vizsgálunk? Egységesítsü Egységesítsünk? A két leggyakoribb gyártó az esetek 77%-ában szerepel 32

Milyen rendszereket vizsgálunk? Típus szerinti összevonás? 33

Milyen rendszereket vizsgálunk? Általában többféle adatbázis többféle operációs rendszeren fut 34

Benchmark eredmények Milyen az ár/érték arányuk? 35

Benchmark eredmények Logaritmikus skála? 36

Benchmark eredmények Az élmezőny elég változatos Nincs legjobb OS és DB konfiguráció sem 37

Időbeli változások? A legtöbb gyártónál 10 év alatt egy nagyságrenddel csökkent a fajlagos ár 38