Utolsó módosítás: Dr. Pataricza András (Rendszermodellezés) és Kocsis Imre (Big Data elemzési módszerek) idevágó fóliáit felhasználva.

Hasonló dokumentumok
Vizuális adatelemzés

Vizuális adatelemzés

Biomatematika 2 Orvosi biometria

Segítség az outputok értelmezéséhez

Kutatásmódszertan és prezentációkészítés

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

[Biomatematika 2] Orvosi biometria

Vizuális adatelemzés

Felhők teljesítményelemzése felhő alapokon

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Kísérlettervezés alapfogalmak

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Rendszerintegráció és -felügyelet

A leíró statisztikák

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Elemi statisztika fizikusoknak

Kísérlettervezés alapfogalmak

A valószínűségszámítás elemei

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Biostatisztika Összefoglalás

y ij = µ + α i + e ij

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Hat Szigma Zöldöves Tanfolyam Tematikája

Biostatisztika Összefoglalás

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Matematikai alapok és valószínőségszámítás. Normál eloszlás

6. Előadás. Vereb György, DE OEC BSI, október 12.

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Bevezetés a hipotézisvizsgálatokba

Több valószínűségi változó együttes eloszlása, korreláció

Nagyságrendek. Kiegészítő anyag az Algoritmuselmélet tárgyhoz. Friedl Katalin BME SZIT február 1.

Nagyméretű adathalmazok vizualizációja

Iskolai jelentés. 10. évfolyam szövegértés

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

(Independence, dependence, random variables)

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Hanthy László Tel.:

SZÁMÍTÓGÉPES ADATFELDOLGOZÁS

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

matematikai statisztika

Iskolai jelentés. 10. évfolyam szövegértés

i p i p 0 p 1 p 2... i p i

Adatok statisztikai értékelésének főbb lehetőségei

Valószínűségszámítás összefoglaló

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Biomatematika 13. Varianciaanaĺızis (ANOVA)

[Biomatematika 2] Orvosi biometria

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Statisztikai alapfogalmak a klinikai kutatásban. Molnár Zsolt PTE, AITI

[Biomatematika 2] Orvosi biometria

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

1/8. Iskolai jelentés. 10.évfolyam matematika

Teljesítménymodellezés

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

18. modul: STATISZTIKA

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉP SZINT Függvények

b) Ábrázolja ugyanabban a koordinátarendszerben a g függvényt! (2 pont) c) Oldja meg az ( x ) 2

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

[Biomatematika 2] Orvosi biometria

Mérési hibák

Biomatematika 2 Orvosi biometria

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Az értékelés a következők szerint történik: 0-4 elégtelen 5-6 elégséges 7 közepes 8 jó 9-10 jeles. A szóbeli vizsga várható időpontja

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

A statisztika veszélyei (Darrell Huff: How to Lie with Statistics, 1954)

Gazdasági matematika II. vizsgadolgozat megoldása A csoport

Kettőnél több csoport vizsgálata. Makara B. Gábor

Változók eloszlása, középértékek, szóródás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai statisztika

[Biomatematika 2] Orvosi biometria

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Matematika A3 Valószínűségszámítás, 5. gyakorlat 2013/14. tavaszi félév

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

A forgalomsűrűség és a követési távolság kapcsolata

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Hipotézis vizsgálatok

Függvények Megoldások

Valószínűségi változók. Várható érték és szórás

ANOVA összefoglaló. Min múlik?

ÚJDONSÁGOK A MINITAB STATISZTIKAI SZOFTVER ÚJ KIADÁSÁNÁL (MINITAB 18)

BME Járműgyártás és -javítás Tanszék. Javítási ciklusrend kialakítása

Átírás:

Utolsó módosítás: 2016.05.11. Dr. Pataricza András (Rendszermodellezés) és Kocsis Imre (Big Data elemzési módszerek) idevágó fóliáit felhasználva. 1

Az alsó három szinttel foglalkoztak már a korábbi előadások. A vizuális analízis a monitorozott adatokat használja bemenetként, a rendszerbe általában a Központi felügyelet blokkba kapcsolódik vissza. 2

A historikus adattárolás egyrészt szép dolog, másrészt meg: mit kezdünk azokkal az adatokkal, amiket eltárolunk? Szépen kielemezzük! 3

4

Kapacitástervezés, teljesítménymenedzsment nem elég tudni a pillanatnyi értékeket feldolgozni, a hosszú távú tervezéshez pontosan kell tudni, melyik erőforrásból mekkora tartalékunk van Monitorozási szabályok az adatelemzés segíthet annak kitalálásában, pontosan mely metrikákat érdemes kivezetni pl. real-time, vagy melyeket hogyan kell aggregálni Rendelkezésre állás növelés a szűk keresztmetszetek néha nem mennek fejből Kísérlettervezés meddig kell kiterhelni a rendszert, hogy minden működési módot lássunk? 5

Kísérlet eredeti célja: hogyan befolyásolják a kliens/szerver implementációk/helyszínek egy MS Azure-ban futó webszolgáltatás teljesítményét? Felhasználói szemszög: a QoS metrikánk ezúttal a válaszidő. Az eredeti esettanulmányát lásd a [6] cikkben. 6

WSsDAT percenként kiküld egy ilyen kérést a megfelelő szerverhez A vizsgált webszolgáltatás: kérésre egy 50x50x50-es mátrixot rendezzünk ellenkező irányba, majd ennek az első 100KByte-nyi adatával térjünk vissza 7

8

CV -- coefficient of variation: szórás / átlag. Miért fontos: mert pl. a 2 ms-es szórás mást jelent 4 ms-os átlag válaszidőnél és egy 4 s-os átlagos válaszidőnél. 9

Statisztikai tradíció: ugyanolyan mint a matematikai statisztikából leadott Confirmatory Analysis (hipotézistesztelés, modellválasztás, paraméterillesztés amit valószínűségszámításból tanultunk). Koncepcionális és számítási eszközök: nem használunk mély statisztikát, elemi számításokat és ábrákat annál inkább + az interpretáció sikeressége nagyban függ a szakértői tudástól. Minták felismerését és hipotézisek felállítását segíti: valahol tehát az adatbányászat és a statisztika között van. 10

Erősen ad-hoc: az adatok szisztematikus átvizsgálása, de nincs jól bevált recept, leginkább mélységi keresést végzünk, ha találunk valami érdekeset, akkor aztán megfogalmazunk egy hipotézist ( Statisztikailag szignifikáns-e a válaszidő várható értékének különbsége Java és.net kliens esetén? vagy Normál eloszlást követ-e az RPT? ), aztán a megfelelő teszttel leellenőrizzük. Valamit mond a teszt, aztán görgetünk vissza és folytatjuk a felderítést. Mi nem kell hozzá? Mély statisztikai ismeret: se centrális határeloszlás tétel, se nagy számok törvénye, az majd a 2. fázisban Mi kell hozzá? Szakértői tudás nélkül nem megy ezért beszélünk róla egyáltalán IRF-ből. 11

12

13

14

Bal oldali ábra forrása: [3] 15

Hipotézismentes adatgyűjtés: mindent eltárolunk, amit tudunk (az adatelemzés kezdetén pl. fogalmunk sincs, mit nézzünk) Mi a baj ekkora mennyiségnél? A táblázatokat 1. vagy nagyon sokáig kell böngészni, vagy 2. az aggregálás a világon mindent kisimít ekkora távon, a trend éppen látszik, a tranziensek pont nem és ez baj, mert minket általában az érdekel, hol és mikor történt valami hiba. 16

17

Rekord: általában egy egyértelműen azonosítható mérési regisztrátum Változó: minden, amit az adott pillanatban tudunk a mérésről és a mért adatról 18

Miért fontos ezt tudni? Mert érdemes már rögtön így naplózni az adatokat, hogy segítse a későbbi kiértékelést. 19

Mindig a kísérletből derül ki, hogy egy adott változó az kontextus vagy viselkedési. Például: a) Hőmérsékletet mérünk MO-n: a hőmérséklet viselkedési b) Adott hőmérsékletre felmelegítjük a szerver szobát és számoljuk, hány gép adja meg magát: a hőmérséklet kontextus 20

Nem a reprezentáció a lényeg, hanem az interpretáció! Ha a nem az {1, 2} halmazból veszi fel az értékét (és nem a {nő, férfi}-ból), akkor is kategorikus lesz, mert minden művelet értelmetlen rá. 21

22

Miért fontos, hogy tudjuk a típust? Mert tudnunk kell, milyen ábrázolásmód passzol hozzá. 23

Ha tudjuk a megfelelő ábrázolásmódot, onnan akár vissza is következtethetünk a típusra: pl. az RT vs. Start.time inkább scatterplotra menjen és nem mozaikplotra inkább legyen numerikus, mint kategorikus. A folytonos-diszkrét általában értelmezés kérdése. 24

25

26

27

Intervallum mérete = oszlopszélesség (bin width) 28

29

S := {1.0, 2.0, 3.0}, az oszlopszélesség legyen 1.5. Két különböző hisztogram is ér: ([0, 1.5), [1.5, 3.0]) és ([1.0, 2.5), [2.5, 4.0]) ezek mindegyike érvényes, csak máshonnan indul! 30

31

32

33

34

- Medián: Ha az értékeket növekvően sorba rendezzük, akkor a középső adat az adathalmaz mediánja. Ha nincs középső adat (páros számú érték esetén), akkor a medián a két középső érték átlaga (számtani közepe). - Módusz: A módusz az adathalmazban legtöbbször előforduló érték. Ez nem feltétlenül egyértelmű, ilyenkor több móduszról beszélünk. 35

Ha az outlierekre vagyunk kíváncsiak, akkor persze számoljunk átlagot, de ha az adatsort jellemezni szeretnénk, akkor jobb robusztus statisztikákat használni. 36

37

38

39

Felső: eloszlásfüggvény, alsó: sűrűségfüggvény 40

41

42

43

Overplotting: mi van akkor, ha több ugyanolyan (x,y) értékű pontom van? 44

Két diszkrét numerikusnál ritka, szét kell szedni 45

46

Két folytonosnál: túl sűrű, szedjük szét! 47

48

49

Alak (telített pötty vagy sima, csillag, négyzet stb.) + szín + méret 3 extra dimenzió, szerencsés esetben akár 5 dimenziót is ábrázolhatunk egyszerre 50

Scatterplot matrix: rettenetesen rosszul skálázódik, gyorsan kiszűrhetők az egymással asszociáló változópárok Párhuzamos koordináták: a tengelyek különböző nagyságrendje torzíthat az összefüggésen, aki érti a geometriáját, az könnyen/gyorsan következtet (Pl. egy pontban metszik a tengelyek egymást 1-es vagy -1-es korreláció látszik) Optimális változósorrendet találni? 51

52

53

54

55

56

57

- RT-RTT scatterplot és a többi változat - Hely-kliens típus párok ábrázolása, hiányoznak kombinációk - Lansing-en belül az egyik kiugrik; boxploton megjelenik - Datacenter összehasonlítása / munkaidőben nagyobb a késleltetés Newcastle-ben / java és.net kliens 58

59

60

61

62

63

Szűk keresztmetszetek keresése, legyen az szolgáltatásbiztonság vagy teljesítménymenedzsment : időbeli/térbeli függés fontos lehet. Kapacitástervezés, monitorozás: RTT befolyásol inkább, mint az RPT, akkor monitorozzuk/javítsuk ezt a részét a dolgoknak, felesleges jobb processzort venni, inkább a hálózatunk legyen normálisan bekonfigurálva 64

65

66