STATISZTIKAI ALAPOK Statisztikai alapok_eloszlások_becslések 1
Pulzus példa Egyetemista fiatalokból álló csoport minden tagjának (9 fő) megmérték a pulzusát (PULSE1), majd kisorsolták ki fusson és ki nem (RAN). Futás után újból mérték a pulzust (PULSE). A résztvevők néhány jellemzőjét (dohányzás, nem, magasság, testsúly stb.) a pulzus adatokkal együtt táblázatos formában rögzítették. A táblázatban egy sor egyazon személy adatait tartalmazza. Statisztikai alapok_eloszlások_becslések
MÉRÉSI SKÁLÁK, VÁLTOZÓK TÍPUSAI Minőségi változók (attributes) névleges (nominal, categorical) sorrendi (ordered categorical) Mennyiségi változók (variables) intervallum (interval) arányos (proportional) Minden változótípust a megfelelő statisztikai módszerrel kell elemezni! Statisztikai alapok_eloszlások_becslések 3
LEÍRÓ STATISZTIKÁK Milyen mutatókkal jellemezhetjük az adatokat? 1. Helyzeti mutatók (számtani) átlag: az értékek számtani közepe medián: sorba rendezve a középső érték 1 N N i1 i módusz: a leggyakoribb érték Statisztikai alapok_eloszlások_becslések 4
LEÍRÓ STATISZTIKÁK. Szóródási mutatók terjedelem: a ma. és a min. érték közti különbség kvartilis, interkvartilis terjedelem (IQR) ld. később szórásnégyzet és szórás (SD): 1 átlagtól való átlagos négyzetes eltérés s N 1 N i i1 RSD%: relatív szórás RSD% = s ҧ 100 Statisztikai alapok_eloszlások_becslések 5
AZ ADATOK ÁBRÁZOLÁSA Yogi Berra: " You can observe a lot by watching " Statisztikai alapok_eloszlások_becslések 6
Mérési adatok ábrázolása: Pont ábrázolás (Dotplot) Sok adatra a dotplot nem elég informatív Statisztikai alapok_eloszlások_becslések 7
Mérési adatok ábrázolása: Dobozos ábra (Bo-plot) kvartilis IQR Statisztikai alapok_eloszlások_becslések 8
Mérési adatok ábrázolása: hisztogram Gyakorisági hisztogram Statisztikai alapok_eloszlások_becslések 9
Mérési adatok ábrázolása: hisztogram Kumulált gyakorisági hisztogram Statisztikai alapok_eloszlások_becslések 10
Dobozos ábra és hisztogram szimmetrikus eloszlásból vett mintára 70 70 65 65 60 60 55 55 50 50 45 45 M a = 63 M in = 37 75% = 54.6 5% = 44.8 M edian = 50.1 40 35 30 40 35 30 0% 5% 10% 15% 0% 5% 30% rel. g y ak. Statisztikai alapok_eloszlások_becslések 11
Dobozos ábra és hisztogram aszimmetrikus eloszlásból vett mintára M a = 1 5 M in = 0. 7 5 % = 7. 6 5 % =. 0 M e d ia n = 4. 4 outlie r 0 18 16 14 1 10 8 6 4 0 0 18 16 14 1 10 8 6 4 0 0% 5% 10% 15% 0% 5% frequency Statisztikai alapok_eloszlások_becslések 1
1. Hasonlítsuk össze a futás előtti és utáni pulzus értékeket! Két változó együttes ábrázolása. Hasonlítsuk össze nemek szerint a testmagasságokat! Statisztikai alapok_eloszlások_becslések 13
Két változó együttes ábrázolása 3. Van-e összefüggés/kapcsolat a testmagasság és a testsúly értékek között? 3/b. Készíthetünk informatívabb ábrát is? Statisztikai alapok_eloszlások_becslések 14
Milyen típusú kérdéseket tehetünk fel az adatsor láttán? Milyen érték körül ingadoznak a mért nyugalmi pulzus-értékek (átlag, medián)? Mekkora a mért nyugalmi pulzus-értékek ingadozása (szórás)? Nőtt a vizsgált személyek pulzusa a futás után? MINTA (9 hallgató) Csak ez érdekel minket? Statisztikai alapok_eloszlások_becslések 15
Milyen típusú kérdésekre keresünk majd választ a félév során? Az egyetemista fiatalok (sokaságának) nyugalmi pulzus-értéke milyen tartományban található adott (pl. 90%-os) valószínűséggel? Az egyetemista fiatalok (sokaságának) nyugalmi pulzus-értéke milyen határérték alatt található adott (pl. 95%-os) valószínűséggel? Milyen ingadozásra számíthatunk a pulzus értékekben, ha további hallgatókat vonunk be a vizsgálatba? Befolyásolja-e a futás a pulzus értékét? Várhatóan növekszik-e a pulzus-érték a futás hatására? Különbözik az egyetemisták testmagasságának várható értéke nemek szerint? SOKASÁG (lehetséges értékek) Statisztikai alapok_eloszlások_becslések 16
ALAPFOGALMAK (Vázlat) Sokaság és minta Véletlen jelenség Valószínűségi változó diszkrét vagy folytonos Sűrűség- és eloszlásfüggvény Statisztika és paraméter Véletlen és rendszeres hiba Statisztikai alapok_eloszlások_becslések 17
Sokaság (population) és minta (sample) a sokaság érdekel, de a minta van a kezünkben! Példák a sokaságra, mi lehet a minta az egyes esetekben? egyetemista fiatalok nyugalmi pulzus-értéke a szennyezett vízminta nitrát-koncentrációja egy alkatrészről lekerülő csavarok átmérője a futószalagon gyártott konzervek töltőtömege a lehetséges mérési eredmények a lehetséges gyártott darabok sokasága Véletlen mintavétel! Sokaság (population) Minta (sample) Statisztikai alapok_eloszlások_becslések 18
Az ingadozás, bizonytalanság elkerülhetetlen: ha újra megmérjük ugyanannak a személynek a pulzusát, nem lesz ugyanannyi azaz az ismételt mérési eredmények nem lesznek azonosak ha másik napon / másik készüléken / másik személy mér, nem kapunk ugyanolyan értéket reprodukálhatósági ingadozás ha másik mintát veszünk a szennyezett vízből, nem lesz teljesen azonos a gyártott termékpéldányok különböznek ha egy tételből többször veszünk mintát, a talált selejtarány változik mintán belüli inhomogenitás A mérési eredmények valószínűségi (véletlen) változók! Statisztikai alapok_eloszlások_becslések 19
Valószínűségi változó fogalma Azok a mennyiségek, amelyeknek az értéke nem állandó, hanem esetről esetre más és más, azonban meghatározható, hogy mekkora valószínűséggel esnek megadott határok közé. Statisztikai alapok_eloszlások_becslések 0
Diszkrét valószínűségi változó Példák: pénzérme: fej/írás dobókocka dobás Kísérlet: dobjuk föl a pénzérmét 10-szer, az eredmény (kimenetel) : k-szor fej p() 0.4 0.16 0.08 0.00 0 1 3 4 5 6 7 8 9 10 p k P k F() 1.0 0.8 0.6 0.4 0. 0.0 0 1 3 4 5 6 7 8 9 10 F i Statisztikai alapok_eloszlások_becslések i k 1 k P k p
Folytonos valószínűségi változó Példák: testmagasság, pulzus vízminta koncentrációja Sűrűségfüggvény (density function) P a b a b f Statisztikai alapok_eloszlások_becslések b a d
Folytonos valószínűségi változó Eloszlásfüggvény (distribution function) F() F( i ) i F i P i f Statisztikai alapok_eloszlások_becslések 3 i d
Statisztika (jellemző) - a mintát jellemzik - valószínűségi változók számtani átlag (sample mean) 1 N N i1 tapasztalati medián i és várható érték (epected value) medián paraméter - a sokaságot jellemzik - konstansok E f ( ) d szórásnégyzet (mean square) variancia (variance) (korrigált) N Var E f s 1 N 1 i i1 Statisztikai alapok_eloszlások_becslések 4 d
Várható értékre és a varianciára vonatkozó azonosságok /1 Ec cex Var c c Var Példa Egy lombikba töltött folyadék térfogatának várható értéke 10,05 cm 3, a térfogat varianciája 4*10-4 (cm 3 ). Mekkora a várható érték és a variancia mm 3 -ben? Jelölje a térfogatot cm 3 -ben. E Var 3 3 3 10 10 * E 10 *10, 05 3 3 6 4 10 10 * Var 10 *410 A várható érték tehát 10050 mm 3, a variancia pedig 400 (mm 3 ). Statisztikai alapok_eloszlások_becslések 5
E Várható értékre és a varianciára vonatkozó azonosságok / E E E 1 3 1 3 Var Var Var Var 1 3 1 3 csak független val. váltózókra! Ha mindegyik i azonos eloszlású és független:... 1 ne Var... n nvar E n 1 Példa azonos eloszlású független változókra: ismételt mérések Független mérés (ismétlés) fogalma Statisztikai alapok_eloszlások_becslések 6
Véletlen és rendszeres hiba Hiba: a mért érték és a valódi érték különbsége mért értékek () Véletlen hiba Rendszeres (és véletlen) hiba valódi érték (μ 0 ) A mérés várható értéke [E()] hol található a két ábrán? Torzítatlan mérés: Ha a mérés várható értéke megegyezik a valódi értékkel. Statisztikai alapok_eloszlások_becslések 7
NORMÁLIS ELOSZLÁS f 1 ep 1 Két paramétere van: és E f() f() Var Rövid jelölése: N, különböző Statisztikai alapok_eloszlások_becslések 8 különböző
Normalizált (standardizált) normális eloszlás A normális eloszlás eloszlásfüggvényét (F()) numerikus integrálással számíthatjuk, azonban ehhez háromdimenziós táblázatra lenne szükség. Célszerű tehát transzformációt keresnünk. z Ez 0 Varz 1 z ~ N 0,1 f z 1 z ep Statisztikai alapok_eloszlások_becslések 9
Normalizált (standardizált) normális eloszlás z Ez 0 Varz 1 z-táblázat használata f z 1 z ep Nem szerepel benne egyetlen paraméter sem Statisztikai alapok_eloszlások_becslések 30
Mire jó nekünk a z-táblázat? ahol z a a P a Pz z a Statisztikai alapok_eloszlások_becslések 31
Példák a normális eloszlás alkalmazására 1. példa Tegyük fel, hogy ismerjük az egyetemista fiatalok nyugalmi pulzusértékének eloszlását. Kérdés: A fiatalok 90%-ának pulzusa milyen érték alatt található? (Vagy egy véletlenszerűen kiválasztott fiatal pulzusa 90%-os valószínűsége milyen érték alatt lesz?). példa Határozzuk meg azt a szimmetrikus intervallumot, melyben egy 10 g tömegű súly (egyszeri) lemérésekor kapott érték 95%-os valószínűséggel lesz, ha a mérés torzítatlan és varianciája 0,5 g! Statisztikai alapok_eloszlások_becslések 3
P P 1 a f z z 1 a z f z P z 1 a z f α jelölést bevezetve: P z 1 / z / / alsó -z 0 fölsõ z / z Mi változik a számításban, ha 99%-os valószínűségi intervallumot kérdezünk? 0,05 0,01 1-0,95 0,99 1-/ 0,975 0,995 z 1,96,58 Statisztikai alapok_eloszlások_becslések 33
3. példa Határozzuk meg annak valószínűségét, hogy az normális eloszlású valószínűségi változó a (-σ, +σ ) intervallumba eső értéket vesz fel! (Pl. azt kérdezzük, hogy milyen valószínűséggel esik a 10±0,5 intervallumba, ha =10, =0,5) P F F alsó felső Statisztikai alapok_eloszlások_becslések 34
P() P() 0-1 1 z z Statisztikai alapok_eloszlások_becslések 35
zalsó 1 z fölső 1 Intervallum szélessége ±σ ±σ ±3σ z P Statisztikai alapok_eloszlások_becslések 36
4. példa Egy próbatest átmérőjére vonatkozó specifikáció: 9,6 cm±0,5 cm. Sok (száz) darabot megvizsgálva azt találták, hogy az átlagos átmérő 9,5 cm, a méret-ingadozás szórásnégyzete pedig 0,05cm. A próbatestek mekkora hányada nem felel meg a specifikációnak, azaz mekkora lesz a selejtarány? 5. példa (. példa módosítva) A 10 g-os súlyt most ötször mérjük le. Milyen szimmetrikus intervallumban lesz a mintaelemek átlaga 95%-os valószínűséggel? (A mérés torzítatlan és varianciája 0,5 g.) Statisztikai alapok_eloszlások_becslések 37
Statisztikai alapok_eloszlások_becslések 38 n i n i n... n 1 1 1 E E n n E E E n n E E n n i i * 1... 1 ] 1 [ 1 n n Var Var n n Var n n Var Var n i i n i i * * 1 1 1 A számtani középérték (átlag)
Centrális határeloszlási tétel Bármilyen eloszlású sokaságból vett minták számtani középértéke közelítőleg normális eloszlást követ az eredeti eloszlás várható értéke körül, varianciájuk pedig /n; tehát N(, /n) eloszlású. Statisztikai alapok_eloszlások_becslések 39
. példa 5. példa.0 1.6 z.0 1.6 átlag z n f() 1. 0.8 alsó egyedi () fölsõ f() 1. 0.8 átlag alsó átlag fölsõ 0.4 0.4 0.0 8 9 10 11 1 P P z 1 / z / 101,960,5 101,960,5 0, 95 0.0 8 9 10 11 1 P z n z 1 / / n P 101,960,5 5 101,960,5 5 0, 95 Szűkebb intervallum! Statisztikai alapok_eloszlások_becslések 40
.0 1.6 átlag 1. átlag alsó átlag fö lsõ f() 0.8 alsó fölsõ 0.4 egyedi 0.0 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 1.0 Statisztikai alapok_eloszlások_becslések 41
- (khi-négyzet-) eloszlás 0.0 f( ) 0.15 0.10 0.05 =4 =7 =10 n i1 z i Egy paramétere van: ν ami négyzetösszeg szabadsági foka E Var 0.00 0 5 10 15 0 5 Statisztikai alapok_eloszlások_becslések 4
- táblázat használata f( ) Statisztikai alapok_eloszlások_becslések 43
s A normális eloszlású sokaságból vett minta tapasztalati szórásnégyzetének eloszlása 1 n 1 n i i1 Bizonyítható, hogy: n i1 i eloszlású n 1 szab. fokkal (Részletes levezetése a Fisher-Cochran tétel felhasználásával az előadáson.) Ezt felhasználva: s eloszlású n 1 szab. fokkal Statisztikai alapok_eloszlások_becslések 44
6.a példa (5. példa szövege, de új kérdéssel) Egy 10 g tömegű súlyt (etalont) ötször mérünk le. Milyen szimmetrikus intervallumban lesz a minta szórásnégyzete 95%-os valószínűséggel? (Az adatok normális eloszlásúak, varianciájuk 0,5 g.) f( ) s s 0, 95 P s alsó fölső P 0, 95 alsó fölső 0.05 0.05 4 alsó fölső 0, 975 0,4844 0, 05 11,143 alsó fölsõ Statisztikai alapok_eloszlások_becslések 45
s s 0, 95 P s alsó fölső P alsó fölső 0,48440,5 P s 4 P alsó 11,1430,5 4 s 0,95 fölső 6.b példa Határozzuk meg azt az értéket, amelyet s 95%-os valószínűséggel nem halad meg! s 0, 95 P s P s fölső fölső 0,95 egyoldali! fölső 0, 05 9,488 Statisztikai alapok_eloszlások_becslések 46
7. példa Egy oldat koncentrációját háromszor megmérve az alábbi adatokat kapták: 8,; 8,3 és 8,5 mg/cm 3. a) Jellemezzük a mintát! - statisztikák számítása (átlag, szórásnégyzet) - valószínűségi/ingadozási tartomány számítása az átlagra és a szórásnégyzetre (ha ismerjük a várható értéket és a varianciát) Csak a minta érdekel minket? Statisztikai alapok_eloszlások_becslések 47
Paraméterbecslés Konfidencia-intervallum Becslésnél a sokaság tulajdonságaira (paramétereire) következtetünk a minta adatai (jellemzői/statisztikái) alapján. A becslés kivitelezése: Pontbecslés (egyetlen értéket ad meg) Intervallumbecslés: konfidencia-intervallum, amely bizonyos valószínűséggel magában foglalja a paraméter igazi értékét kétoldali megbízhatósági intervallum egyoldali megbízhatósági intervallum (alsó vagy felső határérték) Statisztikai alapok_eloszlások_becslések 48
Pl. a várható értékre: egy L és U határolta (kétoldali) intervallum: P L U 1 A 100(1-α)%-os alsó L határ: P P L 1 A 100(1-α)%-os fölső U határ: U 1 STATISZTIKAI ALAPOK 49
Statisztikai alapok_eloszlások_becslések 50 b) Adjunk becslést a minta mögött álló sokaság varianciájára! - pontbecslés - intervallumbecslés (pl. 90%-os valószínűséggel) 1 fölső alsó P ˆ s 1 felső alsó s s P 7. példa folytatása 1 felső alsó s P
7. példa folytatása c) Adjunk becslést a sokaság várható értékére! - pontbecslés - intervallumbecslés, ha a variancia előzetesen ismert ˆ P 1 alsó felső P z 1 / z / n n Akkor számolhatunk z-eloszlással, ha a varianciára van előzetes becslésünk! És ha nincs? t-eloszlással számolunk Statisztikai alapok_eloszlások_becslések 51
Konfidencia-intervallum szemlélete Sokszor elvégezve a mintavételt a számított konfidencia-intervallumok adott %-ra lesz igaz, hogy tartalmazzák a valódi paraméterértéket. Tehát a konfidencia-intervallum határai lesznek valószínűségi változók. Statisztikai alapok_eloszlások_becslések 5
t-eloszlás (Student-eloszlás) 0.4 0.3 t z E s pl. t= s n f(t) 0. Et 0 0.1 0.0-3 - -1 0 1 3 t Egy paramétere van: ν ami a nevezőben szereplő szórás szabadsági foka (n-1) Statisztikai alapok_eloszlások_becslések 53
t-táblázat használata f(t) fejlécben: α a kétoldali kritikus értékhez láblécben: α az egyoldali kritikus értékhez / / -t / 0 t / Statisztikai alapok_eloszlások_becslések 54
7. példa folytatása c) Adjunk becslést a sokaság várható értékére! - pontbecslés - intervallumbecslés, ha a variancia előzetesen ismert - intervallumbecslés, ha a variancia előzetesen nem ismert P P 1 t t 1 t t s n t s 1 P alsó felső n t= s n Statisztikai alapok_eloszlások_becslések 55
8. (gyakorló) példa 10 ismételt mérés eredménye a következő: 4,46; 3,93; 5,79; 5,17; 3,8; 5,39; 6,54; 3,85; 4,19; 5,50. - Adjunk 95%-os konfidencia-intervallumot a várható értékre! - Adjuk meg a várható érték alsó 95%-os konfidencia-intervallumát! Variable Konfidencia-intervallum_1 Mean Std.Dv. N Confidence -95,000% Confidence +95,000% 4,8640 0,94571 10 4,1875 5,5405 Variable Konfidencia-intervallum_ Mean Std.Dv. N Confidence -95,0% 4,8640 0,94571 10 4,3158 Statisztikai alapok_eloszlások_becslések 56
9. (gyakorló) példa Egy nyolc elemű mintából számolt szórásnégyzet értéke 0,03. - Adjunk 90%-os konfidencia-intervallumot a varianciára! - Milyen határérték felett van a sokaság varianciája 90%-os valószínűséggel! P P 0, 90 alsó s P alsó fölső ( 7) ( 7) alsó 0,95,167 ( 7) ( 7) 14, 067 felső 0,05 felső 0,90 0,0114 0,0743 0, 90 s 0, 90 P alsó P P s felső 0,90 ( 7) ( 7) felső 0,1 0,0134 0, 90 1,017 Statisztikai alapok_eloszlások_becslések 57
F-eloszlás 1 Legyen és két, egymástól független, -eloszlású valószínűségi változó 1, ill. szabadsági fokkal. Az alábbi kifejezés F-eloszlású, ahol a számláló szabadsági fokainak száma 1, a nevezőé : 1 F 1 F 1 s s / / 1 ha 1, akkor F 1 s s Statisztikai alapok_eloszlások_becslések 58
Statisztikai alapok_eloszlások_becslések 59 F-táblázat használata f(f) F F 1 1 1, 1, F F 1, 1 0,05 1 0,95, 1, F F pl.
9. példa analitikus azonos analitikai módszerrel egy-egy méréssorozatot végez, amelyek 4 ill. 7 mérésből állnak. Milyen intervallumban lesz 90 % valószínűséggel a két minta szórásnégyzetének aránya? Minthogy azonos módszerről van szó, a variancia változatlan: 1 P F alsó s s 1 F fölső = 0,90 F felső,05 3,6 4, 76 F 0 F alsó 1 1 F0,953,6 F 6,3 8,94 0,05 0,11 Statisztikai alapok_eloszlások_becslések 60
Paraméterbecslés (folytatás) f ˆ A becslés valószínűségi változó! a - a és b becslés torzítatlan c - c becslésnél a várható érték nem a paraméter b - a jobb becslés mint b, mert kisebb a várható érték körüli ingadozása paraméter becslés Statisztikai alapok_eloszlások_becslések 61 ˆ
A becslések tulajdonságai Torzítatlan becslés: E ˆn E ˆn torzítás: korrekció: ˆ E n lim E ˆ Aszimptotikusan torzítatlan becslés: n n Statisztikai alapok_eloszlások_becslések 6
Torzítatlan becslés E ˆn Példák: E - A számtani átlag torzítatlan becslése a várható értéknek 1 n E n E E i i 1 n i i i ˆ i n i - Az n-edik mért érték torzítatlan becslése a várható értéknek ˆ 4 E 4 Statisztikai alapok_eloszlások_becslések 63
A becslés hatásossága: A becslés hatásosságának mértéke a varianciája. Minél kisebb a variancia, annál hatásosabb (efficiensebb) a becslés. Példák: ˆ Var n hatásosabb ˆ 4 Var 4 kevésbé hatásos Statisztikai alapok_eloszlások_becslések 64
lim Konzisztens becslés: 0 n ˆ n A minta elemszámának növelésével a becslés a paraméter igazi értékéhez tart, pontosabban n növelésével egyre csökken annak valószínűsége, hogy -tól jelentősen eltérjen. Példák: P ˆn n ˆ konzisztens ˆ 4 nem konzisztens Statisztikai alapok_eloszlások_becslések 65
A becslések általánosabb minősítése Közepes négyzetes hiba (Mean square error) MSE E E ˆ E ˆ E ˆ E ˆ ˆ E ˆ E ˆ Var ˆ bias bias = torzítás Statisztikai alapok_eloszlások_becslések 66
Becslési módszerek legkisebb négyzetek módszere: a mért adatok és a becslés közötti eltérések négyzetösszegét minimalizálja, n pl. i min i1 maimum-likelihood módszer: azt a sűrűségfüggvényt, illetve paramétereit fogadjuk el becslésként, amelyből a legnagyobb valószínűséggel kapnánk a ténylegesen kapott mérési adatokat. Statisztikai alapok_eloszlások_becslések 67