STATISZTIKAI ALAPOK Statisztikai alapok_eloszlások_becslések 1
Pulzus példa Egyetemista fiatalokból álló csoport minden tagjának (9 fő) megmérték a pulzusát (PULSE1), majd kisorsolták ki fusson és ki nem (RAN). Futás után újból mérték a pulzust (PULSE). A résztvevők néhány jellemzőjét (dohányzás, nem, magasság, testsúly stb.) a pulzus adatokkal együtt táblázatos formában rögzítették. A táblázatban egy sor egyazon személy adatait tartalmazza. Statisztikai alapok_eloszlások_becslések
MÉRÉSI SKÁLÁK Minőségi változók (attributes) névleges (nominal, categorical) sorrendi (ordered categorical) Mennyiségi változók (variables) intervallum (interval) arányos (proportional) Statisztikai alapok_eloszlások_becslések 3
AZ ADATOK ÁBRÁZOLÁSA Yogi Berra: " You can observe a lot by watching " Statisztikai alapok_eloszlások_becslések 4
Mérési adatok ábrázolása: Pont ábrázolás (Dotplot) Dotplot for Y1 19 0 1 3 Y1 Sok adatra a dotplot nem elég informatív Statisztikai alapok_eloszlások_becslések 5
Mérési adatok ábrázolása: dobozos ábra (Bo-Plot) Statisztikai alapok_eloszlások_becslések 6
Mérési adatok ábrázolása: hisztogram Gyakorisági hisztogram Statisztikai alapok_eloszlások_becslések 7
Mérési adatok ábrázolása: hisztogram Kumulált gyakorisági hisztogram Statisztikai alapok_eloszlások_becslések 8
Dobozos ábra és hisztogram szimmetrikus eloszlásból vett mintára 70 70 65 65 60 60 55 55 50 50 45 45 Ma = 63 Min = 37 75% = 54.6 5% = 44.8 Median = 50.1 40 35 30 40 35 30 0% 5% 10% 15% 0% 5% 30% re l. gya k. Statisztikai alapok_eloszlások_becslések 9
Dobozos ábra és hisztogram aszimmetrikus eloszlásból vett mintára M a = 1 5 M in = 0. 7 5 % = 7.6 5 % =.0 M e d ia n = 4.4 outlier 0 18 16 14 1 10 8 6 4 0 0 18 16 14 1 10 8 6 4 0 0% 5% 10% 15% 0% 5% frequency Statisztikai alapok_eloszlások_becslések 10
1. Hasonlítsuk össze a futás előtti és utáni pulzus értékeket! Két változó együttes ábrázolása. Hasonlítsuk össze nemek szerint a testmagasságokat! Statisztikai alapok_eloszlások_becslések 11
Két változó együttes ábrázolása 3. Van-e összefüggés/kapcsolat a testmagasság és a testsúly értékek között? 3/b. Készíthetünk informatívabb ábrát is? Statisztikai alapok_eloszlások_becslések 1
Milyen típusú kérdéseket tehetünk fel az adatsor láttán? Milyen érték körül ingadoznak a mért nyugalmi pulzus-értékek (átlag, medián)? Mekkora a nyugalmi pulzus-értékek ingadozása (szórás)? Nőtt a vizsgált személyek pulzusa a futás után? MINTA (9 hallgató) Csak ez érdekel minket? Statisztikai alapok_eloszlások_becslések 13
Milyen típusú kérdésekre keresünk majd választ a félév során? Az egyetemista fiatalok (sokaságának) nyugalmi pulzusértéke milyen tartományban található adott (pl. 90%-os) valószínűséggel? Az egyetemista fiatalok (sokaságának) nyugalmi pulzusértéke milyen határérték alatt található adott (pl. 95%-os) valószínűséggel? Befolyásolja-e a futás a pulzus értékét? Várhatóan növekszik-e a pulzus-érték a futás hatására? Különbözik a nők és a férfiak testmagasságának várható értéke? Statisztikai alapok_eloszlások_becslések 14
ALAPFOGALMAK (Vázlat) Véletlen jelenség Sokaság és minta Valószínűségi változó diszkrét vagy folytonos Sűrűség- és eloszlásfüggvény Statisztika és paraméter Véletlen és rendszeres hiba Statisztikai alapok_eloszlások_becslések 15
Az ingadozás, bizonytalanság elkerülhetetlen: ha újra megmérjük ugyanannak a személynek a pulzusát, nem lesz ugyanannyi a gyártott termékpéldányok különböznek ha egy tételből többször veszünk mintát, a talált selejtarány változik ha másik mintát veszünk a vízből, nem lesz teljesen azonos ha másik napon veszünk mintát, nem lesz ugyanolyan azaz az ismételt mérési eredmények nem azonosak Valószínűségi (véletlen) változó fogalma Statisztikai alapok_eloszlások_becslések 16
Sokaság (population) és minta (sample) a sokaság érdekel, de a minta van a kezünkben! Példák a sokaságra, mi lehet a minta az egyes esetekben? egyetemista fiatalok nyugalmi pulzus-értéke a szennyezett vízminta nitrát-koncentrációja egy alkatrészről lekerülő csavarok átmérője a futószalagon gyártott konzervek töltőtömege a lehetséges mérési eredmények a lehetséges gyártott darabok sokasága Statisztikai alapok_eloszlások_becslések 17
Diszkrét valószínűségi változó Példák: pénzérme: fej/írás dobókocka dobás Kísérlet: dobjuk föl a pénzérmét 10-szer, az eredmény (kimenetel) : k-szor fej p() 0.4 0.16 0.08 0.00 0 1 3 4 5 6 7 8 9 10 p k P k F() 1.0 0.8 0.6 0.4 0. 0.0 0 1 3 4 5 6 7 8 9 10 F i Statisztikai alapok_eloszlások_becslések i k 18 k P k p
Folytonos valószínűségi változó Példák: testmagasság, pulzus vízminta koncentrációja Sűrűségfüggvény (density function) P a b a b f Statisztikai alapok_eloszlások_becslések 19 b a d
Folytonos valószínűségi változó Eloszlásfüggvény (distribution function) F() F( i ) i F i P i f Statisztikai alapok_eloszlások_becslések 0 i d
Statisztika (jellemző) - a mintát jellemzik - valószínűségi változók számtani átlag (sample mean) 1 N N i1 tapasztalati medián i és várható érték (epected value) medián paraméter - a sokaságot jellemzik - konstansok E f ( ) d szórásnégyzet (mean square) variancia (variance) (korrigált) Var E N f 1 s N 1 i i1 Statisztikai alapok_eloszlások_becslések 1 d
Módusz, medián, várható érték 0.175 0.131 0.087 módusz várható érték = 8 medián = 7.34 0.044 0.000 0 5 10 15 0 5 Statisztikai alapok_eloszlások_becslések
Várható értékre és a varianciára vonatkozó azonosságok Ec cex Var c c Var Példa Egy lombikba töltött folyadék térfogatának várható értéke 10,05 cm 3, a térfogat varianciája 4*10-4 (cm 3 ). Mekkora a várható érték és a variancia mm 3 -ben? Jelölje a térfogatot cm 3 -ben. E Var 3 3 3 10 10 * E 10 *10, 05 3 3 6 4 10 10 * Var 10 *410 A várható érték tehát 10050 mm 3, a variancia pedig 400 (mm 3 ). Statisztikai alapok_eloszlások_becslések 3
E Várható értékre és a varianciára vonatkozó azonosságok E E E 1 3 1 3 Var Var Var Var 1 3 1 3 csak független val. váltózókra! Ha mindegyik i azonos eloszlású és független:... 1 ne Var... n nvar E n 1 Példa azonos eloszlású független változókra: ismételt mérések Független mérés (ismétlés) fogalma Statisztikai alapok_eloszlások_becslések 4
Véletlen és rendszeres hiba Hiba: a mért érték és a valódi érték különbsége mért értékek () Véletlen hiba Rendszeres (és véletlen) hiba valódi érték (μ 0 ) A mérés várható értéke [E()] hol található a két ábrán? Statisztikai alapok_eloszlások_becslések 5
Torzítatlan mérés Ha a mérés várható értéke megegyezik a valódi értékkel, azaz nincs rendszeres hiba. E 0 Statisztikai alapok_eloszlások_becslések 6
NORMÁLIS ELOSZLÁS f 1 ep 1 Két paramétere van: és E f() f() Var Rövid jelölése: N, különböző Statisztikai alapok_eloszlások_becslések 7 különböző
Normalizált (standardizált) normális eloszlás A normális eloszlás eloszlásfüggvényét (F()) numerikus integrálással számíthatjuk, azonban ehhez háromdimenzió táblázatra lenne szükség. Célszerű tehát transzformációt keresnünk. z Ez 0 Varz 1 z ~ N 0,1 f z 1 z ep z-táblázat használata Statisztikai alapok_eloszlások_becslések 8
Normalizált (standardizált) normális eloszlás z Ez 0 Varz 1 z-táblázat használata f z 1 z ep Nem szerepel benne egyetlen paraméter sem Statisztikai alapok_eloszlások_becslések 9
Mire jó nekünk a z-táblázat? ahol z a a P a Pz z a Statisztikai alapok_eloszlások_becslések 30
Példák a normális eloszlás alkalmazására 1. példa Tegyük fel, hogy ismerjük az egyetemista fiatalok nyugalmi pulzusértékének eloszlását. Kérdés: A fiatalok 90%-ának pulzusa milyen érték alatt található? (Vagy egy véletlenszerűen kiválasztott fiatal pulzusa 90%-os valószínűsége milyen érték alatt lesz?). példa Határozzuk meg azt a szimmetrikus intervallumot, melyben egy 10 g tömegű súly (egyszeri) lemérésekor kapott érték 95%-os valószínűséggel lesz, ha a mérés torzítatlan és varianciája 0,5 g! Statisztikai alapok_eloszlások_becslések 31
P P 1 a f z z 1 a z f z P z 1 a z f α jelölést bevezetve: P z 1 / z / / alsó -z 0 fölsõ z / z Mi változik a számításban, ha 99%-os valószínűségi intervallumot kérdezünk? 0,05 0,01 1-0,95 0,99 1-/ 0,975 0,995 z 1,96,58 Statisztikai alapok_eloszlások_becslések 3
3. példa Határozzuk meg annak valószínűségét, hogy az normális eloszlású valószínűségi változó a (-σ, +σ ) intervallumba eső értéket vesz fel! (Pl. azt kérdezzük, hogy milyen valószínűséggel esik a 10±0,5 intervallumba, ha =10, =0,5) P F F alsó felső Statisztikai alapok_eloszlások_becslések 33
P() P() 0-1 1 z z Statisztikai alapok_eloszlások_becslések 34
zalsó 1 z fölső 1 Intervallum szélessége z P Statisztikai alapok_eloszlások_becslések 35
4. példa Egy próbatest átmérőjére vonatkozó specifikáció: 9,6 cm±0,5 cm. Sok (száz) darabot megvizsgálva azt találták, hogy az átlagos átmérő 9,5 cm, a méret-ingadozás szórásnégyzete pedig 0,05cm. A próbatestek mekkora hányada nem felel meg a specifikációnak, azaz mekkora lesz a selejtarány? 5. példa (. példa módosítva) A 10 g-os súlyt most ötször mérjük le. Milyen szimmetrikus intervallumban lesz a mintaelemek átlaga 95%-os valószínűséggel? (A mérés torzítatlan és varianciája 0,5 g.) Statisztikai alapok_eloszlások_becslések 36
Statisztikai alapok_eloszlások_becslések 37 n i n i n... n 1 1 1 E E n n E E E n n E E n n i i * 1... 1 ] 1 [ 1 n n Var Var n n Var n n Var Var n i i n i i * * 1 1 1 A számtani középérték (átlag)
Centrális határeloszlási tétel Bármilyen eloszlású sokaságból vett minták számtani középértéke közelítőleg normális eloszlást követ az eredeti eloszlás várható értéke körül, varianciájuk pedig /n; tehát N(, /n) eloszlású. Statisztikai alapok_eloszlások_becslések 38
. példa 5. példa.0 1.6 z.0 1.6 átlag z n f() 1. 0.8 alsó egyedi ( ) fölsõ f() 1. 0.8 átlag alsó átlag fölsõ 0.4 0.4 0.0 8 9 10 11 1 P P z 1 / z / 10 1,96 0,5 10 1,96 0,5 0, 95 0.0 8 9 10 11 1 P z n z 1 / / n P 10 1,96 0,5 5 10 1,96 0,5 5 0, 95 Szűkebb intervallum! Statisztikai alapok_eloszlások_becslések 39
.0 1.6 átlag 1. átlag alsó átlag fölsõ f() 0.8 alsó fölsõ 0.4 egyedi 0.0 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 1.0 Statisztikai alapok_eloszlások_becslések 40
- (khi-négyzet-) eloszlás 0.0 f( ) 0.15 0.10 0.05 =4 =7 =10 n i1 z i Egy paramétere van: ν ami négyzetösszeg szabadsági foka E Var 0.00 0 5 10 15 0 5 Statisztikai alapok_eloszlások_becslések 41
- táblázat használata f( ) Statisztikai alapok_eloszlások_becslések 4
s A normális eloszlású sokaságból vett minta tapasztalati szórásnégyzetének eloszlása 1 n 1 n i i1 Bizonyítható, hogy: n i1 i (Részletes levezetése a Fisher-Cochran tétel felhasználásával az előadáson.) Ezt felhasználva: eloszlású n 1 szab. fokkal s eloszlású n 1 szab. fokkal Statisztikai alapok_eloszlások_becslések 43
6.a példa (5. példa szövege, de új kérdéssel) Egy 10 g tömegű súlyt (etalont) ötször mérünk le. Milyen szimmetrikus intervallumban lesz a minta szórásnégyzete 95%-os valószínűséggel? (Az adatok normális eloszlásúak, varianciájuk 0,5 g.) f( ) s s 0, 95 P s alsó fölső 4 alsó 0, 975 0,4844 0.05 fölső 0, 05 11,143 0.05 als ó föls õ Statisztikai alapok_eloszlások_becslések 44
s s 0, 95 P s P alsó alsó fölső fölső 0,4844 0,5 P s 4 P alsó 11,143 0,5 4 s 0,95 fölső 6.b példa Határozzuk meg azt az értéket, amelyet s 95%-os valószínűséggel nem halad meg! s 0, 95 P s P s fölső fölső 0,95 egyoldali! fölső 0, 05 9,488 Statisztikai alapok_eloszlások_becslések 45
7. példa Egy oldat koncentrációját háromszor megmérve az alábbi adatokat kapták: 8,; 8,3 és 8,5 mg/cm 3. a) Jellemezzük a mintát! - statisztikák számítása (átlag, szórásnégyzet) - valószínűségi/ingadozási tartomány számítása az átlagra és a szórásnégyzetre Csak a minta érdekel minket? Statisztikai alapok_eloszlások_becslések 46
Paraméterbecslés Konfidencia-intervallum Becslésnél a sokaság tulajdonságaira (paramétereire) következtetünk a minta adatai (jellemzői/statisztikái) alapján. A becslés kivitelezése: Pontbecslés (egyetlen értéket ad meg) Intervallumbecslés: konfidencia-intervallum, amely bizonyos valószínűséggel magában foglalja a paraméter igazi értékét kétoldali megbízhatósági intervallum egyoldali megbízhatósági intervallum (alsó vagy felső határérték) Statisztikai alapok_eloszlások_becslések 47
Statisztikai alapok_eloszlások_becslések 48 b) Adjunk becslést a minta mögött álló sokaság varianciájára! - pontbecslés - intervallumbecslés (pl. 90%-os valószínűséggel) 1 fölső alsó P ˆ s 1 felső alsó s s P 7. példa folytatása 1 felső alsó s P
Konfidencia-intervallum szemlélete: Sokszor elvégezve a mintavételt a számított konfidenciaintervallumok adott %-ra lesz igaz, hogy tartalmazzák a valódi paraméterértéket. Tehát a konfidencia-intervallum határai lesznek valószínűségi változók. Statisztikai alapok_eloszlások_becslések 49
7. példa folytatása c) Adjunk becslést a sokaság várható értékére! - pontbecslés - intervallumbecslés, ha a variancia előzetesen ismert ˆ P 1 alsó felső P z / z / 1 n n A varianciára előzetes becslés kell! És ha nincs? t-eloszlással számolunk Statisztikai alapok_eloszlások_becslések 50
t-eloszlás (Student-eloszlás) 0.4 0.3 t z E s pl. t= s n f(t) 0. Et 0 0.1 0.0-3 - -1 0 1 3 t Egy paramétere van: ν ami a nevezőben szereplő szórás szabadsági foka (n-1) Statisztikai alapok_eloszlások_becslések 51
t-táblázat használata f(t) fejlécben: α a kétoldali kritikus értékhez láblécben: α az egyoldali kritikus értékhez / / -t / 0 t / Statisztikai alapok_eloszlások_becslések 5
7. példa folytatása c) Adjunk becslést a sokaság várható értékére! - pontbecslés - intervallumbecslés, ha a variancia előzetesen ismert - intervallumbecslés, ha a variancia előzetesen nem ismert P P P 1 alsó felső t t 1 t t s n t s 1 n t= s n Statisztikai alapok_eloszlások_becslések 53
8. (gyakorló) példa 10 ismételt mérés eredménye a következő: 4,46; 3,93; 5,79; 5,17; 3,8; 5,39; 6,54; 3,85; 4,19; 5,50. - Adjunk 95%-os konfidencia-intervallumot a várható értékre! - Adjuk meg a várható érték alsó 95%-os konfidencia-intervallumát! Variable Konfidencia-intervallum_1 Mean Std.Dv. N Confidence -95,000% Confidence +95,000% 4,8640 0,94571 10 4,1875 5,5405 Variable Konfidencia-intervallum_ Mean Std.Dv. N Confidence -95,0% 4,8640 0,94571 10 4,3158 Statisztikai alapok_eloszlások_becslések 54
9. (gyakorló) példa Egy nyolc elemű mintából számolt szórásnégyzet értéke 0,03. - Adjunk 90%-os konfidencia-intervallumot a varianciára! - Milyen határérték felett van a sokaság varianciája 90%-os valószínűséggel! P P 0, 90 alsó s P alsó fölső ( 7) ( 7) alsó 0,95,167 ( 7) ( 7) 14, 067 felső 0,05 felső 0,90 0,0114 0,0743 0, 90 s 0, 90 P alsó P P s felső 0,90 ( 7) ( 7) felső 0,1 0,0134 0, 90 1,017 Statisztikai alapok_eloszlások_becslések 55
F-eloszlás 1 Legyen és két, egymástól független, -eloszlású valószínűségi változó 1, ill. szabadsági fokkal. Az alábbi kifejezés F-eloszlású, ahol a számláló szabadsági fokainak száma 1, a nevezőé : 1 F 1 F s s 1 / / 1 ha 1, akkor F s s 1 Statisztikai alapok_eloszlások_becslések 56
Statisztikai alapok_eloszlások_becslések 57 F-táblázat használata f(f) F F 1 1 1, 1, F F 1, 1 0,05 1 0,95, 1, F F pl.
9. példa analitikus azonos analitikai módszerrel egy-egy méréssorozatot végez, amelyek 4 ill. 7 mérésből állnak. Milyen intervallumban lesz 90 % valószínűséggel a két minta szórásnégyzetének aránya? Minthogy azonos módszerről van szó, a variancia változatlan: 1 P F s / s F = 0,90 alsó 1 fölső,05 3,6 4, 76 F alsó F 0 F felső 1 1 F0,95 3,6 F 6,3 8,94 0,05 0,11 Statisztikai alapok_eloszlások_becslések 58
Paraméterbecslés (folytatás) f ˆ A becslés valószínűségi változó! a - a és b becslés torzítatlan c - c becslésnél a várható érték nem a paraméter b - a jobb becslés mint b, mert kisebb a várható érték körüli ingadozása paraméter becslés Statisztikai alapok_eloszlások_becslések 59 ˆ
A becslések tulajdonságai Torzítatlan becslés: E ˆn torzítás: E ˆn korrekció: ˆ E n Aszimptotikusan torzítatlan becslés: lim E ˆ n n Statisztikai alapok_eloszlások_becslések 60
Torzítatlan becslés E ˆn Példák: E - A számtani átlag torzítatlan becslése a várható értéknek 1 n E n E E i i 1 n i i i ˆ i n i - Az n-edik mért érték torzítatlan becslése a várható értéknek ˆ 4 E 4 Statisztikai alapok_eloszlások_becslések 61
A becslés hatásossága: A becslés hatásosságának mértéke a varianciája. Minél kisebb a variancia, annál hatásosabb (efficiensebb) a becslés. Példák: ˆ Var n hatásosabb ˆ 4 Var 4 kevésbé hatásos Statisztikai alapok_eloszlások_becslések 6
Konzisztens becslés: lim P 0 n A minta elemszámának növelésével a becslés a paraméter igazi értékéhez tart, pontosabban n növelésével egyre csökken annak valószínűsége, hogy -tól jelentősen eltérjen. Példák: ˆ n ˆn n ˆ konzisztens ˆ 4 nem konzisztens Statisztikai alapok_eloszlások_becslések 63
A becslések általánosabb minősítése Közepes négyzetes hiba (Mean square error) MSE E E ˆ E ˆ E ˆ E ˆ ˆ E ˆ E ˆ Var ˆ bias bias = torzítás Statisztikai alapok_eloszlások_becslések 64
Becslési módszerek legkisebb négyzetek módszere: a mért adatok és a becslés közötti eltérések négyzetösszegét minimalizálja, n pl. i min i1 maimum-likelihood módszer: azt a sűrűségfüggvényt, illetve paramétereit fogadjuk el becslésként, amelyből a legnagyobb valószínűséggel kapnánk a ténylegesen kapott mérési adatokat. Statisztikai alapok_eloszlások_becslések 65