Valószín ségszámítás és statisztika Informatika BSc, esti tagozat Backhausz Ágnes 2016/2017. tavaszi félév
Valószín ségi vektorváltozó Deníció Az X = (X 1,..., X n ) : Ω R n függvény valószín ségi vektorváltozó, ha tetsz leges a i < b i (i = 1, 2,..., n) valós számokra teljesül, hogy {ω Ω : a 1 < X 1 (ω) b 1, a 2 < X 2 (ω) b 2,..., a n < X n (ω) b n } A. Ha X valószín ségi vektorváltozó, akkor az X i valószín ségi változó eloszlását az X i. peremeloszlásának nevezzük. Az X valószín ségi vektorváltozó diszkrét, ha értékkészlete véges vagy megszámlálhatóan végtelen. Példa. X i : egy adott weboldalt az i. órában hányan töltenek be (i = 1, 2,..., 24). (X 1,..., X 24 ) valószín ségi vektorváltozó. Y i : a Duna vízállása az i. napon.
Valószín ségi vektorváltozó: példa 1. ábra. X 1 = 106, X 2 = 133,..., X 20 = 186
A kovariancia Deníció (Kovariancia) Legyenek X és Y olyan valószín ségi változók, melyeknek szórása létezik. Ekkor az X és Y kovarianciája: cov(x, Y ) = E [ (X E(X )) (Y E(Y )) ]. Állítás Legyenek X, Y, Z, X 1,..., X n olyan valószín ségi változók, melyek szórása létezik. Ekkor a következ k teljesülnek. A kovariancia kiszámítása. cov(x, Y ) = E(X Y ) E(X )E(Y ). Szimmetria. cov(x, Y ) = cov(y, X ). Kapcsolat a szórásnégyzettel. cov(x, X ) = D 2 (X ).
A kovariancia tulajdonságai Állítás Konstanssal való kovariancia. cov(x, c) = 0, ha c R. Linearitás. Egyrészt cov(x + Y, Z) = cov(x, Z) + cov(y, Z), másrészt tetsz leges c R számra cov(cx, Y ) = c cov(x, Y ). Függetlenséggel való kapcsolat. Ha az X és Y valószín ségi változók függetlenek, akkor cov(x, Y ) = 0. Összeg szórásnégyzete. D 2 (X + Y ) = D 2 (X ) + D 2 (Y ) + 2cov(X, Y ). Továbbá ( n ) n D 2 X i = D 2 (X i ) + 2 cov(x, Y ). i=1 Különbség szórásnégyzete D 2 (X Y ) = D 2 (X ) + D 2 (Y ). i=1 i<j
Korrelálatlanság Példa. Legyen X Poisson-eloszlású valószín ségi változó 2 paraméterrel. Ekkor cov(x + 3, 2 X ) (e) = 2cov(X + 3, X ) (e) = 2cov(X, X ) + 2cov(3, X ) = (c,d) = 2D 2 (X ) = 2 2 = 4.
Korrelálatlanság Példa. Legyen X Poisson-eloszlású valószín ségi változó 2 paraméterrel. Ekkor cov(x + 3, 2 X ) (e) = 2cov(X + 3, X ) (e) = 2cov(X, X ) + 2cov(3, X ) = (c,d) = 2D 2 (X ) = 2 2 = 4. Deníció (Korrelálatlanság) Ha az X, Y valószín ségi változók kovarianciája 0, akkor azt mondjuk, hogy X és Y korrelálatlanok. Állítás (Függetlenség és korrelálatlanság) Ha az X és Y valószín ségi változók függetlenek és szórásuk létezik, akkor korrelálatlanok. A korrelálatlanságból nem következik a függetlenség. Legyen X és Y két szabályos kockadobás, ezek függetlenek. Legyen továbbá U = X + Y, V = X Y. Ekkor, bár X + Y és X Y nem függetlenek: cov(x + Y, X Y ) (e,d) = D 2 (X ) cov(x, Y ) + cov(x, Y ) D 2 (X ) (f ) = 0.
Korrelációs együttható Deníció Legyenek X és Y olyan valószín ségi változók, melyek szórásnégyzete létezik. Ekkor X és Y korrelációs együtthatója: { cov(x,y ) D(X )D(Y ), ha D(X ) > 0, D(Y ) > 0; R(X, Y ) = 0, ha D(X ) = 0 vagy D(Y ) = 0.
Korrelációs együttható Deníció Legyenek X és Y olyan valószín ségi változók, melyek szórásnégyzete létezik. Ekkor X és Y korrelációs együtthatója: { cov(x,y ) D(X )D(Y ), ha D(X ) > 0, D(Y ) > 0; R(X, Y ) = 0, ha D(X ) = 0 vagy D(Y ) = 0. Állítás Legyenek X és Y olyan valószín ségi változók, melyek szórása létezik. (i) Ekkor teljesül, hogy R(X, Y ) 1. (ii) Legyen a > 0 valós szám, b tetsz leges valós szám. Ekkor R(X, ax + b) = 1 és R(X, ax + b) = 1. (iii) Tegyük fel, hogy R(X, Y ) = 1. Ekkor léteznek olyan a és b valós számok, hogy az Y = ax + b egyenlet 1 valószín séggel teljesül.
Lineáris regresszió 2. ábra. A CFC-12 (freon) gáz koncentrációja az Antarktiszon és az adatokra illesztett egyenes
Lineáris regresszió Egyenes illesztése a legkisebb négyzetek módszerével: Állítás (Lineáris regresszió) Legyenek (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) adott számpárok. Azokat az a és b együtthatókat keressük, melyre a h 2 = 1 n n [y i (ax i + b)] 2 i=1 mennyiség minimális. Ennek megoldása: n i=1 â = (x i x)(y i y) n k=1 (x ; ˆb = y âx. k x) 2 A példában: â = 1, 11; ˆb = 21890
Lineáris modell Deníció (Lineáris modell) Legyenek X 1, X 2,..., X n, Y 1,..., Y n valószín ségi változók, és tegyük fel, hogy valamely a, b valós számokra Y i = ax i + b + ε i, ahol ε 1,..., ε n független N(0, σ 2 ) eloszlású valószín ségi változók. Az így kapott (X i, Y i ) párok együttes eloszlását lineáris modellnek nevezzük. Az X i valószín ségi változókat magyarázó változóknak, az ε i valószín ségi változókat hibának szokták nevezni.
Becslések a lineáris modellben Állítás A lineáris modellben az a, b együtthatók ML-becslése a következ képpen írható: â = n i=1 (X i X )(Y i Y ) n k=1 (X k X ) 2 ; ˆb = Y âx. Továbbá, ezek a becslések torzítatlan becslései az a és b paramétereknek. A hiba szórásának becslése: ˆσ 2 = 1 n (Y i âx i n ˆb) 2. 2 j=1 A becslések szórása: D(â) = σ n j=1 (X j X ) 2 ; D(ˆb) = σ 1 n + X 2 n j=1 (X j X ). 2
El rejelzés a lineáris modellben Állítás Legyen x adott szám. A lineáris modellb l kapott el rejelzés az Y véletlen folyamat x pontban felvett értékére: âx + ˆb. Az el rejelzés szórása: D(âx + ˆb) 1 = σ n + (x X ) 2 n j=1 (X j X ). 2 Az el rejelzés szórásának becslésekor a σ értéket gyakran ˆσ-val helyettesítik.
El rejelzés a lineáris modellben 3. ábra. A CFC-11 és CFC-12 (freon) gáz koncentrációja (forrás: elte.promt.hu)
Reziduálisok A teljes ingadozás (total sum of squares): n j=1 (Y j Y ) 2. Deníció A megmagyarázott ingadozás részaránya (coecient of determination): R 2 = [ n i=1 (X i X )(Y i Y ) ] 2 [ n k=1 (X k X ) 2][ n k=1 (Y k Y ) 2]. Az R 2 értéke 0 és 1 közé esik. Értelmezés: minél közelebb van 1-hez, annál inkább jó közelítést ad a lineáris modell. Ugyanakkor R érzékeny a kiugró értékekre. A példában: R 2 = 0, 9951, vagyis jól illeszkedik a lineáris modell.
Statisztikai alapfogalmak Deníció Egy X = (X 1, X 2,..., X n ) : Ω H R k valószín ségi vektorváltozót (n elem ) mintának nevezünk. Itt H a mintatér, n a minta elemszáma vagy nagysága. Az X i koordináták a minta elemei. Azt mondjuk, hogy a minta független, ha az X 1, X 2,..., X n valószín ségi változók függetlenek. Deníció A mintatéren megadott T : H R k függvényt, illetve a T = T (X ) valószín ségi változót (k-dimenziós) statisztikának nevezzük. Példa. mintaátlag (mean) n X = 1 n j=1 X j
Statisztikai alapfogalmak Deníció Egy X = (X 1, X 2,..., X n ) : Ω H R k valószín ségi vektorváltozót (n elem ) mintának nevezünk. Itt H a mintatér, n a minta elemszáma vagy nagysága. Az X i koordináták a minta elemei. Azt mondjuk, hogy a minta független, ha az X 1, X 2,..., X n valószín ségi változók függetlenek. Deníció A mintatéren megadott T : H R k függvényt, illetve a T = T (X ) valószín ségi változót (k-dimenziós) statisztikának nevezzük. Példa. mintaátlag (mean) n X = 1 n j=1 X j medián: a nagyság szerinti középs mintaelem, vagy a középs kett átlaga.
Leíró statisztikák mintaátlag (mean): X = 1 n n j=1 X j. tapasztalati szórásnégyzet: s 2 n = 1 n n (X j X ) 2 = 1 n j=1 n j=1 X 2 j X 2. tapasztalati szórás: s n = s 2 n. korrigált tapasztalati szórásnégyzet (variance): s 2 n = 1 n 1 n (X j X ) 2 = n n 1 j=1 ( 1 n n j=1 X 2 j X 2 ). korrigált tapasztalati szórás (standard deviation, sd): s n = s 2 n.
Leíró statisztikák minimum: a legkisebb mintaelem, azaz min(x 1, X 2,..., X n ). maximum: a legnagyobb mintaelem, azaz max(x 1, X 2,..., X n ). terjedelem (range): a legnagyobb és legkisebb mintaelem különbsége, azaz max(x 1, X 2,..., X n ) min(x 1, X 2,..., X n ). medián: a nagyság szerinti középs mintaelem, vagy a középs kett átlaga (ha n páros). módusz (mode): a leggyakrabban el forduló mintaelem.
Példa: az adatok elemzése Egy boltban a naponta vásárlók száma: 106 133 171 205 218 211 189 164 148 135 126 120 113 111 102 99 123 158 180 186
Példa: az adatok elemzése Egy boltban a naponta vásárlók száma: 106 133 171 205 218 211 189 164 148 135 126 120 113 111 102 99 123 158 180 186 a mintaelemek száma: n = 20 minimum: 99, maximum: 218, terjedelem: 218 99 = 119 átlag: 149,9, medián: 141,5 korrigált tapasztalati szórás: 38,55
Példa: az adatok elemzése Egy boltban a naponta vásárlók száma: 106 133 171 205 218 211 189 164 148 135 126 120 113 111 102 99 123 158 180 186 a mintaelemek száma: n = 20 minimum: 99, maximum: 218, terjedelem: 218 99 = 119 átlag: 149,9, medián: 141,5 korrigált tapasztalati szórás: 38,55 5 napon volt 115-nél kevesebb vásárló (a napok egynegyedén), és 3 napon jöttek 200-nál többen (a napok 15%-án).
Példa: alapstatisztikák 106 133 171 205 218 211 189 164 148 135 126 120 113 111 102 99 123 158 180 186 mintaelemszám: n = 20 minta: X 1 = 106, X 2 = 133,..., X 20 = 186. átlag: X = 149, 9 tapasztalati szórásnégyzet: s 2 n = 1412, 09 tapasztalati szórás: s n = 37, 58 korrigált tapasztalati szórásnégyzet: s 2 n = 1486, 411 korrigált tapasztalati szórás: s n = 38, 55
Példa: hisztogram A vásárlók számának hisztogramja
Példa: hisztogram Választunk egy intervallumot, mely magában foglalja a mérési adatokat. Az intervallumot egyenl nagyságú részekre osztjuk. Az egyes kis intervallumokba es mérési adatok számát ábrázoljuk.
Momentumok Deníció Legyen X valószín ségi változó, k 1 egész szám. Ekkor az X valószín ségi változó k. momentuma: E(X k ), ha ez a várható érték létezik. Legyen X 1, X 2,..., X n minta. Ekkor a minta k. tapasztalati momentuma: 1 n n j=1 X k j.
Rendezett minta Rendezett minta: a mintaelemeket nagyság szerint növekv sorrendbe állítjuk. Jelölés: (X 1, X 2,..., X n ). Vagyis {X 1, X 2,..., X n } = {X 1, X 2,..., X n } és X 1 X 2... X n. A minimum X 1, a maximum X n. A k. legkisebb mintaelem X k.
Rendezett minta Rendezett minta: a mintaelemeket nagyság szerint növekv sorrendbe állítjuk. Jelölés: (X 1, X 2,..., X n ). Vagyis {X 1, X 2,..., X n } = {X 1, X 2,..., X n } és X 1 X 2... X n. A minimum X 1, a maximum X n. A k. legkisebb mintaelem X k. Példa: a vásárlók számáról kapott húszelem adatsor rendezett mintája: 99 102 106 111 113 120 123 126 133 135 148 158 164 171 180 186 189 205 211 218 X 1 = 99, X 2 = 102, X 3 = 106,..., X 6 = 120,..., X 10 = 135 X 11 = 148,..., X 14 = 171,..., X 20 = 218.
Medián Minta: (X 1, X 2,..., X n ), mintaelemszám: n. Deníció (medián) Ha n páratlan: a rendezett minta középs, (n+1)/2. elemét, azaz X (n+1)/2 -t a minta mediánjának nevezzük. Ha n páros: a rendezett minta n/2. és n/2 + 1. elemének átlagát, azaz a X n/2 + X n/2+1 mennyiséget a minta mediánjának nevezzük. 2 Megjegyzés: páros n esetén a teljes [ X n/2, X n/2+1] intervallumot (vagy annak bármely elemét) is a minta mediánjának lehet hívni. Példa: a vásárlók számáról kapott húszelem minta mediánja: 1 2 (X 10 + X11) = 1 (135 + 148) = 141, 5. 2
Az átlag és a medián összehasonlítása Normális eloszlás 500 elem független minta: X 1, X 2,..., X 500 függetlenek, eloszlásuk normális eloszlás m = 1 várható értékkel és σ = 1 szórással Min. 1st Qu. Median Mean 3rd Qu. Max. -1.9840 0.2847 0.9842 0.9863 1.6930 3.6110 Exponenciális eloszlás 500 elem független minta: Y 1, Y 2,..., Y 500 függetlenek, eloszlásuk exponenciális eloszlás b = 1 paraméterrel. E(Y k ) = 1 és D(Y k ) = 1 minden k = 1, 2,..., 500-ra. Min. 1st Qu. Median Mean 3rd Qu. Max. 0.001326 0.282700 0.637300 0.984900 1.349000 5.895000
A normális eloszlású minta hisztogramja
Az exponenciális eloszlású minta hisztogramja
Az átlag és a medián összehasonlítása Az átlag több információt használ érzékenyebb a kiugró adatokra nem szimmetrikus esetben eltérhet a leggyakrabban meggyelt értékekt l A mediánt is érdemes használni, ha vannak kiugró (esetleg hibás) adatok; az eloszlás nem szimmetrikus.
Tapasztalati eloszlásfüggvény Legyen X tetsz leges valószín ségi változó. Ennek eloszlásfüggvénye az az F : R [0, 1] függvény, melyre minden t R-re. F (t) = P(X t)
Tapasztalati eloszlásfüggvény Legyen X tetsz leges valószín ségi változó. Ennek eloszlásfüggvénye az az F : R [0, 1] függvény, melyre minden t R-re. F (t) = P(X t) Deníció (Tapasztalati eloszlásfüggvény) Legyenek X 1, X 2,..., X n valószín ségi változók. Ennek a mintának az eloszlásfüggvénye az az ˆFn : R [0, 1] függvény, melyre ˆF n (t) = t-nél nem nagyobb mintaelemek száma. n
Példa: tapasztalati eloszlásfüggvény A vásárlók számának tapasztalati eloszlásfüggvénye
Példa: boxplot A vásárlók számának boxplotja a húsznapos adatsorból
Boxplot Deníció (Tapasztalati kvantilis) Legyen X 1, X 2,..., X n minta, és z [0, 1] adott szám. Ekkor a minta tapasztalati z-kvantilise a tapasztalati eloszlásfüggvény z-kvantilise, vagyis: ˆq z = min{t : ˆFn (t) z}. A boxplot készítéséhez szükséges adatok: minimum: a legkisebb mintaelem (99); els kvartilis: a z = 1/4-hez tartozó kvantilis (118,2); medián (141,5); harmadik kvartilis: a z = 3/4-hez tartozó kvantilis (181,5); maximum: a legnagyobb mintaelem (218). terjedelem: maximum - minimum (119).
Példa: boxplot 4. ábra. Forrás: theansweris27.com
QQ-plot A QQ-plot két minta eloszlásának az összehasonlítására szolgál, a kvantilisek összehasonlításával. Minél inkább egyezik a két minta eloszlása, annál közelebb lesz a QQ-plot a (0, 0)-t és (1, 1)-t összeköt egyenes szakaszhoz. Deníció Az X és Y valószín ségi változók azonos eloszlásúak, ha minden a < b-re P(a < X b) = P(a < Y b). Egész érték esetben: minden k egészre P(X = k) = P(Y = k). Példa: két szabályos kockadobás azonos eloszlású.
QQ-plot: azonos eloszlások 5. ábra. Két azonos egyenletes eloszlás (n = 200)
QQ-plot: különböz eloszlások 6. ábra. Egyenletes és normális eloszlás (n = 200)
Az átlag várható értéke Állítás Legyen X 1,..., X n független azonos eloszlású minta, és m = E(X i ) <. Ekkor E(X ) = m.
Az átlag várható értéke Állítás Legyen X 1,..., X n független azonos eloszlású minta, és m = E(X i ) <. Ekkor E(X ) = m. Bizonyítás. ( ) X1 +... + X n E(X ) = E = 1 n n E(X 1 +... + X n ) = 1 nm = m. n Felhasználtuk a várható érték linearitását, és hogy csak eloszlástól függ: E(cX ) = ce(x ), ha c R; E(Y + Z) = E(Y ) + E(Z); ha Y és Z eloszlása megegyezik, akkor E(Y ) = E(Z)
Az átlag szórása Állítás Legyen X 1,..., X n független azonos eloszlású minta, és σ = D(X i ) <. Ekkor D(X ) = σ/ n.
Az átlag szórása Állítás Legyen X 1,..., X n független azonos eloszlású minta, és σ = D(X i ) <. Ekkor D(X ) = σ/ n. Bizonyítás. D(X ) = D ( ) X1 +... + X n n = D(X 1 +... + X n ) n = nσ 2 n = σ n. Felhasználtuk a szórás alábbi tulajdonságait: D(cX ) = c D(X ), ha c R; D 2 (Y + Z) = D 2 (Y ) + D 2 (Z), ha Y és Z függetlenek; ha Y és Z eloszlása megegyezik, akkor D(Y ) = D(Z)
Az átlag konvergenciája 7. ábra. A [0, 1] intervallumon egyenletes eloszlásból vett minta átlaga n = 500-ig
A nagy számok törvénye Tétel (A nagy számok er s törvénye) Legyenek X 1, X 2,... valószín ségi változók, melyek függetlenek és azonos eloszlásúak. Tegyük fel még, hogy m = E(X 1 ) <. Ekkor X n = X 1 + X 2 +... + X n n E(X 1 ) = m teljesül 1 valószín séggel n esetén.
A nagy számok törvénye Tétel (A nagy számok er s törvénye) Legyenek X 1, X 2,... valószín ségi változók, melyek függetlenek és azonos eloszlásúak. Tegyük fel még, hogy m = E(X 1 ) <. Ekkor X n = X 1 + X 2 +... + X n n E(X 1 ) = m teljesül 1 valószín séggel n esetén. Tétel (A nagy számok gyenge törvénye) Legyenek X 1, X 2,... olyan valószín ségi változók, melyek függetlenek és azonos eloszlásúak. Tegyük fel, hogy D(X 1 ) <. Ekkor minden ε > 0 esetén P( X n E(X 1 ) > ε) 0 (n ), azaz X n E(X 1 ) sztochasztikusan.
Normális eloszlások átlaga Legyenek X, Y függetlenek, normális eloszlásúak: N(m 2, σ2 2 ). Ekkor a következ k igazak: X N(m 1, σ 2 1 ), Y X + b eloszlása normális, m 1 + b várható értékkel és σ szórással; ax eloszlása normális am 1 várható értékkel és a σ szórással; X + Y eloszlása normális, m 1 + m 2 várható értékkel és σ1 2 + σ2 2 szórással. Emlékeztet : E(X + Y ) = E(X ) + E(Y ), és ha X és Y függetlenek, akkor D 2 (X + Y ) = D 2 (X ) + D 2 (Y ).
Normális eloszlások átlaga Legyenek X, Y függetlenek, normális eloszlásúak: N(m 2, σ2 2 ). Ekkor a következ k igazak: X N(m 1, σ 2 1 ), Y X + b eloszlása normális, m 1 + b várható értékkel és σ szórással; ax eloszlása normális am 1 várható értékkel és a σ szórással; X + Y eloszlása normális, m 1 + m 2 várható értékkel és σ1 2 + σ2 2 szórással. Emlékeztet : E(X + Y ) = E(X ) + E(Y ), és ha X és Y függetlenek, akkor D 2 (X + Y ) = D 2 (X ) + D 2 (Y ). Ebb l következik: ha X 1,..., X n független normális eloszlásúak m várható értékkel és σ szórással, akkor ) X 1 +... + X n N (m, σ2 n n
Centrális határeloszlástétel Deníció (Eloszlásbeli konvergencia) Legyen X 1, X 2,... valószín ségi változók sorozata, X i eloszlásfüggvénye F i. Az Y valószín ségi változó eloszlásfüggvénye F. Az (X n ) n N sorozat tart Y -hoz eloszlásban, ha F n (t) F (t) (n ) teljesül minden olyan t R-re, melyre F folytonos t-ben. Tétel (Centrális határeloszlástétel) Legyenek X 1, X 2,... független azonos eloszlású valószín ségi változók, melyekre E(X 1 ) = m és D(X 1 ) = σ <. X 1 + X 2 +... + X n n m σ n N(0, 1) eloszlásban n esetén.
Centrális határeloszlástétel Legyenek X 1, X 2,... független azonos eloszlású valószín ségi változók, melyekre E(X 1 ) = m és D(X 1 ) = σ <. Ekkor ( lim P a X ) 1 + X 2 +... + X n n m n σ < b = 1 b e x2 /2 dx. n 2π a A határértéket Φ(b) Φ(a) = P(a Y b) alakban is írhatjuk, ahol Y N(0, 1).
Centrális határeloszlástétel Legyenek X 1, X 2,... független azonos eloszlású valószín ségi változók, melyekre E(X 1 ) = m és D(X 1 ) = σ <. Ekkor ( lim P a X ) 1 + X 2 +... + X n n m n σ < b = 1 b e x2 /2 dx. n 2π a A határértéket Φ(b) Φ(a) = P(a Y b) alakban is írhatjuk, ahol Y N(0, 1). Így is átfogalmazható a tétel állítása: P(nm + aσ n X 1 + X 2 +... + X n < nm + bσ n) Φ(b) Φ(a). Ez azt jelenti, hogy az X n átlag eloszlása közel van egy m várható érték, σ/ n szórású normális eloszláshoz.
Az átlag mint a várható érték becslése X 1, X 2,..., független azonos eloszlású valószín ségi változók, várható értékük: E(X 1 ) = m. Ekkor az X n = 1 n (X 1 +... + X n ) a következ tulajdonságokkal rendelkezik: Torzítatlan becslése m-nek: E(X n ) = m. Konzisztens becslése m-nek: X n m teljesül 1 valószín séggel. Aszimptotikusan normális becslése m-nek: (X n m) n normális eloszláshoz konvergál. A n j=1 a jx j alakú torzítatlan becslések közül ennek a legkisebb a szórása, vagyis a lineáris becslések között ez a leghatásosabb.
A szórás becslése Állítás X 1, X 2,..., független azonos eloszlású valószín ségi változók, σ = D(X j ) szórással. Ekkor E(s 2 n ) = σ 2, vagyis az s 2 n = 1 n 1 n i=1 (X i X ) 2 korrigált tapasztalati szórásnégyzet torzítatlan becslése a szórásnégyzetnek.
A szórás becslése Állítás X 1, X 2,..., független azonos eloszlású valószín ségi változók, σ = D(X j ) szórással. Ekkor E(s 2 n ) = σ 2, vagyis az s 2 n = 1 n 1 n i=1 (X i X ) 2 korrigált tapasztalati szórásnégyzet torzítatlan becslése a szórásnégyzetnek. Sem s n, sem s n nem torzítatlan becslése a szórásnak: E(s n) σ, E(s n) σ. Másrészt s n σ és s n σ is 1 valószín séggel teljesül, vagyis mind a tapasztalati szórás és a korrigált tapasztalati szórás is konzisztens becslése a szórásnak.
Statisztikai mez Deníció Az (Ω, A, P) hármast statisztikai mez nek nevezzük, ha minden P P-re (Ω, A, P) Kolmogorov-féle valószín ségi mez. Deníció Ha valamilyen Θ R q halmazra a P halmaz felírható {P ϑ : ϑ Θ} alakban, akkor paraméteres statisztikai problémáról beszélhetünk. Ilyenkor a Θ halmazt paramétertérnek nevezzük.
Statisztikai mez Deníció Az (Ω, A, P) hármast statisztikai mez nek nevezzük, ha minden P P-re (Ω, A, P) Kolmogorov-féle valószín ségi mez. Deníció Ha valamilyen Θ R q halmazra a P halmaz felírható {P ϑ : ϑ Θ} alakban, akkor paraméteres statisztikai problémáról beszélhetünk. Ilyenkor a Θ halmazt paramétertérnek nevezzük. Deníció (Minta) Legyen (Ω, A, P) statisztikai mez. Egy X = (X 1, X 2,..., X n ) : Ω H R n valószín ségi vektorváltozót (n elem ) mintának nevezünk. Itt H a mintatér, n a minta elemszáma vagy nagysága. A minta független, ha az X 1, X 2,..., X n valószín ségi változók függetlenek.
Kondenciaintervallumok Legyen X = (X 1,..., X n ) független azonos eloszlású minta, (Ω, A, P) pedig statisztikai mez, P = {P ϑ : ϑ Θ}, és tegyük fel, hogy ϑ valós paraméter, vagyis Θ R. Deníció Azt mondjuk, hogy a (T 1 (X ), T 2 (X )) intervallum legalább 1 α megbízhatósági szint kondenciaintervallum ϑ-ra, ha minden ϑ R esetén teljesül, hogy P ϑ (T 1 (X ) < ϑ < T 2 (X )) 1 α. A kondenciaintervallum megbízhatósági szintje: inf ϑ Θ {P ϑ (ϑ (T 1, T 2 ))}.
Kondenciaintervallum a várható értékre A Φ a standard normális eloszlás eloszlásfüggvénye, azaz ha Z N(0, 1): Φ(t) = P(Z t) = 1 2π t e s2 /2 ds. Állítás (Kondenciaintervallum a várható értékre, ismert szórás) Tegyük fel, hogy X 1,..., X n független azonos eloszlású normális eloszlású valószín ségi változók, melyek szórása, σ ismert. Ekkor a ( (T 1, T 2 ) = (X Φ 1 1 α ) σ n (, X + Φ 1 1 α ) ) σ n 2 2 intervallum 1 α megbízhatósági szint kondenciaintervallum az eloszlás várható értékére.
Kondenciaintervallum a várható értékre Legyenek Z 0, Z 1,..., Z n független N(0, 1) eloszlásúak, és t f,q melyre az alábbi teljesül: ( q = P(Y t f,q ) = P Z 0 Z 2 1 +... + Z 2 f t f,q ). az a szám, A hányados eloszlása f szabadsági fokú t-eloszlás. Állítás (Kondenciaintervallum a várható értékre, ismeretlen szórás) Tegyük fel, hogy X 1,..., X n független N(m, σ 2 ) normális eloszlású valószín ségi változók (m, σ ismeretlenek). Ekkor a ( (T 1, T 2 ) = X t n 1,1 α/2 s n n, X + t n 1,1 α/2 sn ) n intervallum 1 α megbízhatósági szint kondenciaintervallum az eloszlás várható értékére.
Hipotézisvizsgálat Legyen (Ω, A, P) paraméteres statisztikai mez, azaz P = {P ϑ : ϑ Θ} valamilyen Θ paramétertérrel. A paraméterteret bontsuk fel két diszjunkt halmaz uniójára: Θ = Θ 0 Θ 1, ahol tehát Θ 0 Θ 1 =. Nullhipotézis. H 0 : ϑ Θ 0. Ellenhipotézis. H 1 : ϑ Θ 1.
Hipotézisvizsgálat Legyen (Ω, A, P) paraméteres statisztikai mez, azaz P = {P ϑ : ϑ Θ} valamilyen Θ paramétertérrel. A paraméterteret bontsuk fel két diszjunkt halmaz uniójára: Θ = Θ 0 Θ 1, ahol tehát Θ 0 Θ 1 =. Nullhipotézis. H 0 : ϑ Θ 0. Ellenhipotézis. H 1 : ϑ Θ 1. A minta X = (X 1,..., X n ), a mintatér legyen B (vagyis (X 1,..., X n ) a B R n halmaz egy véletlen eleme). A mintateret is felbontjuk két diszjunkt halmaz uniójára: B = B 0 B 1, ahol B 0 B 1 =. Elfogadási tartomány: B 0. Ha (X 1,..., X n ) B 0, akkor H 0 -t elfogadjuk. Elutasítási (kritikus) tartomány: B 1. Ha (X 1,..., X n ) B 1, akkor H 0 -t elutasítjuk.
Hipotézisvizsgálat Els fajú hibát vétünk, ha H 0 igaz, és elutasítjuk. A próba terjedelme: α = sup ϑ Θ 0 P ϑ (X B 1 ). Másodfajú hibát vétünk, ha H 0 nem igaz, és elfogadjuk. A próba er függvénye az alábbi β : Θ 1 [0, 1] függvény: β(ϑ) = P ϑ (X B 1 ) (ϑ Θ 1 ).
Hipotézisvizsgálat Els fajú hibát vétünk, ha H 0 igaz, és elutasítjuk. A próba terjedelme: α = sup ϑ Θ 0 P ϑ (X B 1 ). Másodfajú hibát vétünk, ha H 0 nem igaz, és elfogadjuk. A próba er függvénye az alábbi β : Θ 1 [0, 1] függvény: β(ϑ) = P ϑ (X B 1 ) (ϑ Θ 1 ). p-érték: a legnagyobb olyan terjedelem, ami mellett H 0 -t elfogadjuk. p < α: szignikáns eltérés H 0 -tól, statisztikai bizonyíték H 1 -re. p α: nincs szignikáns eltérés H 0 -tól. Az α terjedelem leggyakrabban használt értéke: α = 0, 05.
Egymintás u-próba A próba a normális eloszlás várható értékére vonatkozik ismert szórás mellett. X 1, X 2,..., X n N(m, σ 2 ), ahol m ismeretlen paraméter, σ > 0 ismert. Próbastatisztika (eloszlása standard normális H 0 mellett): u = X m 0 σ n. Kétoldali ellenhipotézis (two-sided): H 0 : m = m 0 ; m 0. H 1 : m Ha u > Φ 1 (1 α/2), akkor elvetjük a nullhipotézist, különben elfogadjuk. A p-érték ilyenkor 2 2Φ( u ). Φ a standard normális eloszlásfüggvény: Φ(t) = t 1 e x2 /2 dx. 2π p < 0, 05: a várható érték szignikánsan eltér m 0 -tól. p 0, 05: nincs szignikáns eltérés m 0 -tól.
Egymintás u-próba Feltételezés: a testmagasság normális eloszlású. Az európai férak átlagos testmagassága 177, 6 cm. Megmértük 10 magyar fér testmagasságát, a magasságok átlaga 173,8 cm lett. A szórást 8 cm-nek feltételezve mondhatjuk-e, hogy a magyar emberek testmagassága szignikánsan eltér az európai átlagtól?
Egymintás u-próba Feltételezés: a testmagasság normális eloszlású. Az európai férak átlagos testmagassága 177, 6 cm. Megmértük 10 magyar fér testmagasságát, a magasságok átlaga 173,8 cm lett. A szórást 8 cm-nek feltételezve mondhatjuk-e, hogy a magyar emberek testmagassága szignikánsan eltér az európai átlagtól? H 0 : m = 177, 6; H 1 : m 177, 6. u = X m 0 σ n 173, 8 177, 6 = 10 = 1, 502. 8 α = 0, 05 terjedelem mellett Φ 1 (1 α/2) = 1, 96. p = 0, 133 > 0, 05. u < Φ 1 (1 α/2), elfogadjuk a nullhipotézist. A testmagasság nem tér el szignikánsan az átlagos európai értékt l az adatok alapján.
Egymintás u-próba A próba a normális eloszlás várható értékére vonatkozik ismert szórás mellett. X 1, X 2,..., X n N(m, σ 2 ), ahol m ismeretlen paraméter, σ > 0 ismert. Próbastatisztika (eloszlása standard normális H 0 mellett): u = X m 0 σ n. Egyoldali ellenhipotézis (one-sided): H 0 : m m 0 ; H 1 : m > m 0. Ha u > Φ 1 (1 α), akkor elvetjük a nullhipotézist, különben elfogadjuk. A p-érték ilyenkor 1 Φ(u). p < 0, 05: a várható érték szignikánsan több m 0 -nál. p 0, 05: a várható érték nem több szignikánsan m 0 -nál.
Egymintás u-próba Feltételezés: a testmagasság normális eloszlású. Az európai férak átlagos testmagassága 177, 6 cm. Megmértük 15 holland fér testmagasságát, a magasságok átlaga 183,7 cm lett. A szórást 8 cm-nek feltételezve mondhatjuk-e, hogy a hollandok testmagassága szignikánsan több az európai átlagnál?
Egymintás u-próba Feltételezés: a testmagasság normális eloszlású. Az európai férak átlagos testmagassága 177, 6 cm. Megmértük 15 holland fér testmagasságát, a magasságok átlaga 183,7 cm lett. A szórást 8 cm-nek feltételezve mondhatjuk-e, hogy a hollandok testmagassága szignikánsan több az európai átlagnál? H 0 : m 177, 6; H 1 : m > 177, 6. u = X m 0 σ n 183, 7 177, 6 = 15 = 2, 95. 8 α = 0, 05 terjedelem mellett Φ 1 (1 α) = 1, 645, így u > Φ 1 (1 α). p-érték: 1 Φ(2, 95) = 0, 0016 < 0, 05. Elutasítjuk a nullhipotézist. Az adatok statisztikailag bizonyítják, hogy a holland férak testmagasságának várható értéke szignikánsan több 177,6 cm-nél.
Kétmintás párosítatlan kétoldali u-próba (two-sample unpaired two-sided u-test) X 1, X 2,..., X n1, Y 1,..., Y n2 független normális eloszlású valószín ségi változók, ahol X i N(m 1, σ1 2), Y i N(m 2, σ2 2). Itt m 1, m 2 ismeretlen paraméterek, σ 1, σ 2 ismertek. Próbastatisztika (eloszlása standard normális H 0 mellett): u = X Y. σ1 2/n 1 + σ2 2/n 2 Kétoldali ellenhipotézis (two-sided): H 0 : m 1 = m 2 ; H 1 : m 1 m 2. Ha u > Φ 1 (1 α/2), akkor elvetjük a nullhipotézist, különben elfogadjuk. A p-érték (p-value) ilyenkor 2 2Φ( u ). p < 0, 05: a várható értékek szignikánsan eltérnek. p 0, 05: a várható értékek nem térnek el szignikánsan.
Kétmintás párosítatlan egyoldali u-próba (two-sample unpaired one-sided u-test) X 1, X 2,..., X n1, Y 1,..., Y n2 független normális eloszlású valószín ségi változók, ahol X i N(m 1, σ1 2), Y i N(m 2, σ2 2). Itt m 1, m 2 ismeretlen paraméterek, σ 1, σ 2 ismertek. Próbastatisztika (eloszlása standard normális H 0 mellett): u = X Y. σ1 2/n 1 + σ2 2/n 2 Egyoldali ellenhipotézis (one-sided): H 0 : m 1 m 2 ; H 1 : m 1 > m 2. Ha u > Φ 1 (1 α), akkor elvetjük a nullhipotézist, különben elfogadjuk. A p-érték (p-value) ilyenkor 1 Φ(u). p < 0, 05: az els eloszlás várható értéke szignikánsan nagyobb a második eloszlásénál.
Egymintás kétoldali t-próba (one-sample two-sided t-test) A normális eloszlás várható értékére, ismeretlen szórás esetén. X 1, X 2,..., X n N(m, σ 2 ), ahol m, σ ismeretlen paraméterek. Próbastatisztika (eloszlása t-eloszlás/student-eloszlás H 0 mellett): t = X m 0 sn n. Kétoldali ellenhipotézis (two-sided): H 0 : m = m 0 ; H 1 : m m 0. Ha t > t n 1,1 α/2, akkor elvetjük a nullhipotézist, különben elfogadjuk. Akkor vetjük el a nullhipotézist, ha p < α; ez azt jelenti, hogy a várható érték szignikánsan eltér m 0 -tól. A kritikus érték: t f,q az f szabadsági fokú (degree of freedom) t-eloszlás q-kvantilise, vagyis az a szám, melyre az alábbi teljesül: ( Z 0 q = P(Y t f,q ) = P t f,q ), Z1 2 +... + Z q 2 ahol Z 0, Z 1,..., Z q független standard normális eloszlásúak.
Példa: Egymintás t-próba Egy gyógyszer hatóanyagtartalma a csomagolás szerint 10 mg. Harminc tabletta hatóanyag-tartalmát megmérve a mérések átlaga 9, 4, korrigált tapasztalati szórása 0, 62 lett. α = 0, 05 terjedelem mellett a mérési adatok alapján eltér-e szignikánsan a hatóanyag-tartalom várható értéke a 10 mgtól?
A kritikus érték: t 29,0,975 = 2, 045 t = 5, 3 > 2, 045, szignikáns eltérés van. p-érték: p = 0, 000011 < 0, 05. Példa: Egymintás t-próba Egy gyógyszer hatóanyagtartalma a csomagolás szerint 10 mg. Harminc tabletta hatóanyag-tartalmát megmérve a mérések átlaga 9, 4, korrigált tapasztalati szórása 0, 62 lett. α = 0, 05 terjedelem mellett a mérési adatok alapján eltér-e szignikánsan a hatóanyag-tartalom várható értéke a 10 mgtól? n = 30; X = 9, 4; s n = 0, 62 Egymintás kétoldali t-próbát végezhetünk, normális eloszlást feltételezve. H 0 : m = 10; H 1 : 10; α = 0, 05; f = n 1 = 29. t = X m 0 s n n = 9, 4 10 0, 62 30 = 5, 3.
Egymintás egyoldali t-próba (one-sample one-sided t-test) A normális eloszlás várható értékére, ismeretlen szórás esetén. X 1, X 2,..., X n N(m, σ 2 ), ahol m, σ ismeretlen paraméterek. Próbastatisztika (eloszlása t-eloszlás H 0 mellett): t = X m 0 s n n. Egyoldali ellenhipotézis (one-sided): H 0 : m m 0 ; H 1 : m > m 0. Ha t > t n 1,1 α, akkor elvetjük a nullhipotézist, különben elfogadjuk. Akkor vetjük el H 0 -t, ha p < α; ez azt jelenti, hogy a várható érték szignikánsan több m 0 -nál. A kritikus érték: t n 1,1 α az f = n 1 szabadsági fokú t-eloszlás 1 αkvantilise, vagyis az f = n 1 szabadsági fokú t-próba kritikus értéke α terjedelem mellett.
Példa: egymintás egyoldali t-próba Százszor megmértük egy szerver válaszidejét (ms-ban). Az átlagos válaszid 0, 52 lett, a korrigált tapasztalati szórás 0, 18. A terjedelmet α = 0, 05-nek választva állíthatjuk-e, hogy a szerver válaszideje szignikánsan meghaladja az 50 ms-ot?
Példa: egymintás egyoldali t-próba Százszor megmértük egy szerver válaszidejét (ms-ban). Az átlagos válaszid 0, 52 lett, a korrigált tapasztalati szórás 0, 18. A terjedelmet α = 0, 05-nek választva állíthatjuk-e, hogy a szerver válaszideje szignikánsan meghaladja az 50 ms-ot? n = 100; X = 0, 52; s n = 0, 18 Mivel elég sok mérési adatunk van, használhatjuk az egymintás egyoldali t-próbát akkor is, ha a válaszid nem normális (hanem például exponenciális) eloszlású: H 0 : m 50; H 1 : m > 50. t = X m 0 s n n = 0, 52 0, 5 100 = 1, 11. 0, 18 Az f = n 1 = 99 szabadsági fokú egyoldali t-próba kritikus értéke α = 0, 05 terjedelem mellett 1, 66. Mivel t < t 99,0,95, elfogadjuk a nullhipotézist, a válaszid várható értéke nem haladja meg szignikánsan az 50 ms-ot. A p-érték: p = 0, 13 0, 05.
Kétmintás párosítatlan t-próba (Student-próba) (two-sample unpaired t-test) Független normális eloszlások várható értékének összehasonlítására, ha a a szórások egyenl k, de nem ismertek. X 1, X 2,..., X n1, Y 1,..., Y n2 független normális eloszlású valószín ségi változók, ahol X i N(m 1, σ 2 ), Y i N(m 2, σ 2 ). Itt m 1, m 2, σ ismeretlen paraméterek (feltételezzük, hogy a két szórás megegyezik). Próbastatisztika (eloszlása t-eloszlás H 0 mellett): X Y t = (n 1 1)sn 2 1 (X ) + (n 2 1)sn 2 2 (Y ) n 1 n 2 (n 1 + n 2 2) n 1 + n 2. Kétoldali ellenhipotézis (two-sided): H 0 : m 1 = m 2 ; H 1 : m 1 m 2. Ha t > t n1 +n 2 2,1 α/2, akkor elvetjük a nullhipotézist, különben elfogadjuk. A kritikus érték az f = n 1 + n 2 2 szabadsági fokú (degree of freedom) kétoldali t-próba kritikus értéke. p < 0, 05: elutasítjuk H 0 -t, a várható értékek szignikánsan eltérnek.
Példa: kétmintás t-próba Az A és B szerverek válaszideje (ms) néhány mérés során: átlag szórás A 42 67 33 58 53 38 47 53 48,875 11,12 B 65 69 83 53 72 39 57 36 42 45 56,1 15,8 A terjedelmet α = 0, 05-nek választva, szignikánsan eltér -e a két szerver válaszidejének várható értéke az adatok alapján?
Példa: kétmintás t-próba Az A és B szerverek válaszideje (ms) néhány mérés során: átlag szórás A 42 67 33 58 53 38 47 53 48,875 11,12 B 65 69 83 53 72 39 57 36 42 45 56,1 15,8 A terjedelmet α = 0, 05-nek választva, szignikánsan eltér -e a két szerver válaszidejének várható értéke az adatok alapján? Kétmintás kétoldali t-próbát alkalmazva: H 0 : m A = m B ; H 1 : m A m B excel: = T.TEST(C2:C9; D2:D9; 2; 2) (2: kétoldali; 2: kétmintás, párosítatlan, azonos szórás): 0, 158 0, 05, elfogadjuk a nullhipotézist, nincs szignikáns eltérés
Példa: kétmintás t-próba Az A és B szerverek válaszideje (ms) néhány mérés során: átlag szórás A 42 67 33 58 53 38 47 53 48,875 11,12 B 65 69 83 53 72 39 57 36 42 45 56,1 15,8 A terjedelmet α = 0, 05-nek választva, szignikánsan eltér -e a két szerver válaszidejének várható értéke az adatok alapján? Kétmintás kétoldali t-próbát alkalmazva: H 0 : m A = m B ; H 1 : m A m B excel: = T.TEST(C2:C9; D2:D9; 2; 2) (2: kétoldali; 2: kétmintás, párosítatlan, azonos szórás): 0, 158 0, 05, elfogadjuk a nullhipotézist, nincs szignikáns eltérés excel: = T.TEST(C2:C9; D2:D9; 2; 3): 0, 161 0, 05 (2: kétoldali; 3: párosítatlan, eltérhetnek a szórások; Welch-próba)
Kétmintás párosítatlan t-próba (two-sample unpaired t-test) Normális eloszlások várható értékének összehasonlítására, ha a két minta független és a szórások egyenl k, de nem ismertek. X 1, X 2,..., X n1, Y 1,..., Y n2 független normális eloszlású valószín ségi változók, ahol X i N(m 1, σ 2 ), Y i N(m 2, σ 2 ). Itt m 1, m 2, σ ismeretlen paraméterek (feltételezzük, hogy a két szórás megegyezik). Próbastatisztika (eloszlása t-eloszlás H 0 mellett): X Y t = (n 1 1)sn 2 1 (X ) + (n 2 1)sn 2 2 (Y ) n 1 n 2 (n 1 + n 2 2) n 1 + n 2. Egyoldali ellenhipotézis (one-sided): H 0 : m 1 m 2 ; H 1 : m 1 > m 2. Ha t > t n1 +n 2 2,1 α, akkor elvetjük a nullhipotézist, különben elfogadjuk. A kritikus érték az f = n 1 + n 2 2 szabadsági fokú egyoldali t-próba kritikus értéke α terjedelem mellett. p < 0, 05: az els várható érték szignikánsan nagyobb a másodiknál.
F -próba Független normális eloszlású minták szórásának összehasonlítására. Legyenek most X 1, X 2,..., X n1, Y 1,..., Y n2 független normális eloszlású valószín ségi változók, ahol X i N(m 1, σ1 2), Y i N(m 2, σ2 2 ). Itt m 1, m 2, σ 1, σ 2 ismeretlen paraméterek. Próbastatisztika (eloszlása F -eloszlás H 0 mellett): F = s 2 n 1. sn 2 2 Kétoldali ellenhipotézis: H 0 : σ 1 = σ 2 ; H 1 : σ 1 σ 2. Ha F > F n1 1,n 2 1(1 α/2) vagy F < F n1 1,n 2 1(α/2), akkor elvetjük a nullhipotézist, különben elfogadjuk. A kritikus érték: q = P(W F d1,d 2 (q)), ahol W = d 2(U 2 1 +U2 2 +...+U2 d 1 ) d 1 (V 2 1 +V 2 2 +...+V 2 d 2 ), és az U i, V i -k mind független standard normális eloszlású valószín ségi változók. p < 0, 05: a szórások szignikánsan eltérnek.
Normális eloszlásra vonatkozó próbák Az alábbiakat kell ellen rizni u, t, F -próba alkalmazásánál: A minta normális eloszlású, vagy a mintaelemszám elég nagy (a centrális határeloszlástétel alapján az átlag közel normális eloszlású).
Normális eloszlásra vonatkozó próbák Az alábbiakat kell ellen rizni u, t, F -próba alkalmazásánál: A minta normális eloszlású, vagy a mintaelemszám elég nagy (a centrális határeloszlástétel alapján az átlag közel normális eloszlású). Kétmintás esetben: a két minta egymástól független (unpaired eset). Ha a két minta természetes módon párosítható, párosított (paired) próba alkalmazható. Példa: megmérjük húsz ember vérnyomását egy adott napon reggel és este. Igaz-e, hogy a reggeli érték jelent sen eltér az estit l?
Normális eloszlásra vonatkozó próbák Az alábbiakat kell ellen rizni u, t, F -próba alkalmazásánál: A minta normális eloszlású, vagy a mintaelemszám elég nagy (a centrális határeloszlástétel alapján az átlag közel normális eloszlású). Kétmintás esetben: a két minta egymástól független (unpaired eset). Ha a két minta természetes módon párosítható, párosított (paired) próba alkalmazható. Példa: megmérjük húsz ember vérnyomását egy adott napon reggel és este. Igaz-e, hogy a reggeli érték jelent sen eltér az estit l? A két minta szórása megegyezik: ez F -próbával ellen rizhet. Különböz szórás esetén a Welch-féle t-próbát lehet használni.
χ 2 -próba: illeszkedésvizsgálat Legyen A 1, A 2,..., A r teljes eseményrendszer, p 1, p 2,..., p r pedig olyan nemnegatív számok, melyek összege 1. H 0 : P(A i ) = p i minden i = 1, 2,..., r-re. H 1 : P(A i ) p i valamelyik i = 1, 2,..., r-re. n független meggyelést végzünk. N i : hányszor következett be A i. Ha van i, hogy N i < 4: néhány osztályt össze kell vonnunk, hogy a próbát alkalmazhassuk (vagyis A i és A j helyett A i A j -t és p 1 + p 2 -t tekintjük). Próbastatisztika: T = r i=1 (N i n p i ) 2 n p i.
χ 2 -próba Adott A i teljes eseményrendszer (i = 1,..., r), és 0 p i számok: r i=1 p i = 1. H 0 : P(A i ) = p i minden i = 1, 2,..., r-re. H 1 : a nullhipotézis nem igaz Próbastatisztika: T = r i=1 (N i n p i ) 2 n p i. χ 2 -próba: H 0 -t elfogadjuk, ha T < c, ahol c az f = r 1 szabadsági fokú, α terjedelm χ 2 -próba c kritikus értéke. Pontosabban: P(Z 2 1 + Z 2 2 +... + Z 2 f < c) = 1 α, ahol Z 1,..., Z f független standard normális eloszlású valószín ségi változók. T > c vagy p < α: elutasítjuk H 0 -t, az eloszlás szignikánsan eltér (p k )-tól. T c vagy p α: elfogadjuk H 0 -t, az eloszlás nem tér el szignikánsan (p k )-tól.
χ 2 -próba: példa Példa: r = 6, dobókockával dobunk, A i : a dobás értéke i. p 1 = p 2 =... = p 6 = 1/6 (szabályos a dobókocka). A próba terjedelmének α = 0, 05-öt választjuk. n = 100 dobásból az alábbi értékek adódtak: érték 1 2 3 4 5 6 gyakoriság 21 11 20 22 11 15
χ 2 -próba: példa Példa: r = 6, dobókockával dobunk, A i : a dobás értéke i. p 1 = p 2 =... = p 6 = 1/6 (szabályos a dobókocka). A próba terjedelmének α = 0, 05-öt választjuk. n = 100 dobásból az alábbi értékek adódtak: érték 1 2 3 4 5 6 gyakoriság 21 11 20 22 11 15 Chi-squared test for given probabilities data: kocka1 X-squared = 7.52, df = 5, p-value = 0.1847 Ekkor T = 7, 52 < c = 11, 1, illetve a p-értékre 0, 1847 > 0, 05. Tehát elfogadjuk a nullhipotézist, nincs szignikáns eltérés a szabályossághoz képest. (Minden szám legalább 4-szer el fordult, nem kellett a beosztáson módosítani.)
χ 2 -próba: példa Ha ezerszer dobunk, és az alábbi eredmények adódnak: érték 1 2 3 4 5 6 gyakoriság 191 154 140 184 156 175 Chi-squared test for given probabilities data: kocka2 X-squared = 11.684, df = 5, p-value = 0.03938 Továbbra is α = 0, 05 terjedelem mellett számolva: T = 11, 684 > c = 11, 1, tehát elutasítjuk a nullhipotézist, statisztikai bizonyítékunk van arra, hogy a dobókocka nem szabályos. A p-érték 0, 03938 < 0, 05, szignikáns eltérés van a szabályossághoz képest.
Becsléses illeszkedésvizsgálat A 1, A 2,..., A r teljes eseményrendszer. N i : hányszor következik be A i egy n elem független mintában. Adott p i (s) minden s S-re. H 0 : van olyan s S, melyre P(A i ) = p i (s) minden r = 1, 2,..., r-re. H 1 : nincs olyan s S, melyre P(A i ) = p i (s) minden r = 1, 2,..., r-re teljesülne. Az s paramétervektor (d dimenziós) maximumlikelihood-becslése legyen ŝ, és legyen ˆp i = p i (ŝ). Számítsuk ki az alábbi mennyiséget: T = r i=1 (N i n ˆp i ) 2 n ˆp i. Legyen f = r d 1. A H 0 -t α terjedelem mellett elfogadjuk, ha T < c, ahol c az f szabadsági fokú kritikus értéke α terjedelem mellett. H 0 -t elutasítjuk, ha T > c (azaz p < α), ilyenkor a minta szignikánsan eltér az S által megadott eloszláscsaládtól.
Becsléses illeszkedésvizsgálat: példa Példa. Az egy futballmérk zésen l tt gólok száma a világbajnokság n = 95 mérk zésén: gólok száma 0 1 2 3 4 5 6 7 8 mérk zések száma 23 37 20 11 2 1 0 0 1 Poisson-esetben az s paraméter maximumlikelihood-becslése: ŝ = X = 0 23 + 1 37 + 2 20 + 3 11 + 4 2 + 5 1 + 8 1 95 = 1, 379. Mivel vannak olyan osztályok, ahova 4-nél kevesebb meggyelés esik, a beosztást módosítjuk: gólok száma 0 1 2 3 4 mérk zések száma 23 37 20 11 4
Becsléses illeszkedésvizsgálat: példa H 0 : az eloszlás Poisson-eloszlásból származik, valamely s > 0 paraméterrel (most d = 1). H 1 : az eloszlás nem Poisson-eloszlás. ˆp = 1, 379 a paraméter maximumlikelihood-becslése. gólok száma 0 1 2 3 4 mérk zések száma 23 37 20 11 4 Poisson(ˆp)-eloszlás 23,92 32,99 22,75 10,46 4,88 Ebben az esetben T = 1, 04, f = 5 1 1 = 3, a kritikus érték 7, 81. T < c: elfogadjuk, hogy a minta Poisson-eloszlásból származik.
Függetlenségvizsgálat Két szempont szerint soroljuk osztályokba a meggyeléseket. Els szempont: A 1,..., A r. Második szempont: B 1,..., B s. H 0 : a két szempont független egymástól, azaz P(A i B j ) = P(A i ) P(B j ) minden i, j-re. H 1 : a nullhipotézis nem igaz, a két szempont összefügg. N ij : hány olyan meggyelés van, melyre A i és B j teljesül. N i = s j=1 N ij (azaz az A i gyakorisága); N j = r i=1 N ij (azaz B j gyakorisága); n pedig az összes meggyelés száma. Ekkor a próbastatisztika: T = r i=1 j=1 ( s Nij N i N j N i N j n n ) 2.
Függetlenségvizsgálat H 0 : a két szempont független egymástól. Próbastatisztika: T = r i=1 j=1 ( s Nij N i N j N i N j n n ) 2. A szabadsági fok f = (r 1)(s 1). c: az f szabadsági fokú χ 2 -próba kritikus értéke α terjedelem mellett. T < c (azaz a p α): elfogadjuk H 0 -t, nem találtunk szignikáns összefüggést a szempontok között. T > c (azaz a p < α): elutasítjuk H 0 -t, az adatok szignikáns összefüggést mutatnak. Ha r = s = 2, a próbastatisztika az alábbi egyszer bb alakra hozható: T = n( N 11 N 22 N 12 N 21 ) 2 N 1 N 2 N 1 N 2.
Függetlenségvizsgálat: példa H 0 : a h mérséklet és a csapadékmennyiség független; H 1 : a h mérséklet és a csapadékmennyiség nem független. n = 100, f = 2 2 = 4, α = 0, 05: meleg átlagos hideg es s 15 10 5 átlagos 10 10 20 száraz 5 20 5 data: ido X-squared = 22.917, df = 4, p-value = 0.0001316 22, 917 > c krit = 9, 49, illetve p < α = 0, 05 elutasítjuk a nullhipotézist, szignikáns összefüggés van a két szempont között.
Pozitív korreláció Tekintsük a függetlenségvizsgálatot abban az esetben, ha mindkét szempont szerint két osztály van. H 0 : a két szempont között nincs pozitív korreláció H 1 : a két szempont között pozitív korreláció van, azaz P(A 1 B 1 ) > P(A 1 )P(B 1 ). A próbastatisztika: u = n N 11N 22 N 12 N 21 N1 N 2 N 1 N 2 Ha u > Φ 1 (1 α), akkor elutasítjuk H 0 -t, különben elfogadjuk. A p-érték: 1 Φ(u).
Pozitív korreláció: példa. Példa. Vérnyomás-sz r vizsgálatnál a 40 évesnél id sebbek közül 24-nek magas, 62-nek megfelel volt a vérnyomása, a 40 évesnél nem id sebbek közül 12-nek volt magas, 88-nak megfelel. Állíthatjuk-e α = 0, 05 terjedelem mellett, hogy a 40 évesnél id sebbek között gyakoribb a magas vérnyomás?
Pozitív korreláció: példa. Példa. Vérnyomás-sz r vizsgálatnál a 40 évesnél id sebbek közül 24-nek magas, 62-nek megfelel volt a vérnyomása, a 40 évesnél nem id sebbek közül 12-nek volt magas, 88-nak megfelel. Állíthatjuk-e α = 0, 05 terjedelem mellett, hogy a 40 évesnél id sebbek között gyakoribb a magas vérnyomás? A 1 : 40 évesnél nagyobb életkor; A 2 = A 1. B 1 : magas vérnyomás; B 2 = B 1. H 0 : P(A 1 B 1 ) P(A 1 )P(B 1 ). N 11 = 24; N 12 = 62; N 21 = 12; N 22 = 88; n = 186. u = n N 11N 22 N 12 N 21 = 24 88 62 12 186, N1 N 2 N 1 N 2 86 100 36 150 és 2, 74 > Φ 1 (0, 95) = 1, 645, így elutasítjuk a nullhipotézist. A nagyobb életkor és a magas vérnyomás között szignikáns pozitív korreláció van. p-érték: 0, 003 < 0, 05.
Homogenitásvizsgálat Legyenek X, Y valószín ségi változók. R-t bontsuk fel diszjunkt halmazok uniójára: A 1,..., A r. H 0 : az X és Y valószín ségi változók eloszlása megegyezik, azaz P(X A i ) = P(Y A i ) minden i = 1, 2,..., r-re. H 1 : az X és Y valószín ségi változók eloszlás eltér, azaz van legalább egy i, melyre P(X A i ) P(Y A i ). X 1,..., X n, Y 1,..., Y m független minta úgy, hogy X 1,..., X n X, Y 1,..., Y n Y. N i az A i gyakorisága az X mintában; M i az A i gyakorisága az Y mintában. A próbastatisztika: T = r i=1 ) M i 2 m n m. N i + M i ( Ni n
Homogenitásvizsgálat A próbastatisztika: T = r i=1 ( Ni n ) M i 2 m n m. N i + M i A szabadsági fok: f = r 1. c: az f szabadsági fokú χ 2 -próba kritikus értéke α terjedelem mellett. T < c (azaz a p α): elfogadjuk H 0 -t, nem találtunk szignikáns eltérést az eloszlások között. T > c (azaz a p < α): elutasítjuk H 0 -t, az eloszlások szignikáns eltérést mutatnak.
Hipotézisvizsgálat A lineáris tag együtthatójára vonatkozó hipotézisvizsgálati feladat a következ (a terjedelem α): H 0 : a = 0 H 1 : a 0 vagy H 1 : a > 0 vagy H 1 : a < 0. A nullhipotézis mellett az alábbi mennyiség n 2 szabadsági fokú t-eloszlású: (n 2) n i=1 t = (X i X ) 2 â n i=1 (Y i âx i ˆb). 2 Kétoldali ellenhipotézis, H 1 : a 0. Ha t > t n 2 (1 α/2), akkor elutasítjuk H 0 -t (az együttható szignikánsan eltér 0-tól), különben elfogadjuk. Egyoldali ellenhipotézis, H 1 : a > 0. Ha t > t n 2 (1 α), akkor elutasítjuk H 0 -t (az együttható szignikánsan nagyobb 0-nál), különben elfogadjuk. Kétoldali ellenhipotézis, H 1 : a < 0. Ha t < t n 2 (α), akkor elutasítjuk H 0 -t (az együttható szignikánsan kisebb 0-nál), különben elfogadjuk.
Torzítatlan becslés (Ω, A, P) statisztikai mez ; P = {P ϑ : ϑ Θ) valamely Θ halmazzal (Θ a paramétertér); ψ : Θ R függvény. Cél: olyan T statisztika keresése, amire a T (X ) valószín ségi változó és a ψ(ϑ) érték valamilyen értelemben közel esnek egymáshoz.
Torzítatlan becslés (Ω, A, P) statisztikai mez ; P = {P ϑ : ϑ Θ) valamely Θ halmazzal (Θ a paramétertér); ψ : Θ R függvény. Cél: olyan T statisztika keresése, amire a T (X ) valószín ségi változó és a ψ(ϑ) érték valamilyen értelemben közel esnek egymáshoz. Deníció (Torzítatlanság) A T : H R statisztika torzítatlan becslés ψ-re, ha minden ϑ Θ-ra E ϑ (T (X 1,..., X n )) = ψ(ϑ). A T statisztika torzítása a b T (ϑ) = E ϑ (T (X 1,..., X n )) ψ(ϑ) függvény. Példa. X 1, X 2,..., X n független minta a [0, ϑ] intervallumon egyenletes eloszlásból. Ekkor 2X torzítatlan becslés ψ(ϑ) = ϑ-ra.
Torzítatlan becslések Állítás (A várható érték torzítatlan becslése) Legyen X 1,..., X n független azonos eloszlású minta. Legyen ψ(ϑ) = E ϑ (X 1 ), azaz a mintának a P ϑ eloszlás szerinti várható értéke. Ekkor a T (X 1,..., X n ) = X statisztika, vagyis a mintaátlag torzítatlan becslés ψ- re. Állítás (A szórásnégyzet torzítatlan becslése) X 1,..., X n független azonos eloszlású minta. Legyen ψ(ϑ) = Dϑ 2(X 1), azaz a mintának a P ϑ eloszlás szerinti szórásnégyzete. Ekkor a T (X 1,..., X n ) = sn 2 statisztika, vagyis a korrigált tapasztalati szórásnégyzet torzítatlan becslés ψ-re. Bizonyítás: a következ oldalakon.
Az átlag várható értéke Állítás Legyen X 1,..., X n független azonos eloszlású minta, és m = E(X i ) <. Ekkor E(X ) = m.
Az átlag várható értéke Állítás Legyen X 1,..., X n független azonos eloszlású minta, és m = E(X i ) <. Ekkor E(X ) = m. Bizonyítás. ( ) X1 +... + X n E(X ) = E = 1 n n E(X 1 +... + X n ) = 1 nm = m. n Felhasználtuk a várható érték linearitását, és hogy csak eloszlástól függ: E(cX ) = ce(x ), ha c R; E(Y + Z) = E(Y ) + E(Z); ha Y és Z eloszlása megegyezik, akkor E(Y ) = E(Z) Tehát a mintaátlag torzítatlan becslés a várható értékre.
Az átlag szórása Állítás Legyen X 1,..., X n független azonos eloszlású minta, és σ = D(X i ) <. Ekkor D(X ) = σ/ n.
Az átlag szórása Állítás Legyen X 1,..., X n független azonos eloszlású minta, és σ = D(X i ) <. Ekkor D(X ) = σ/ n. Bizonyítás. D(X ) = D ( ) X1 +... + X n n = D(X 1 +... + X n ) n = nσ 2 n = σ n. Felhasználtuk a szórás alábbi tulajdonságait: D(cX ) = c D(X ), ha c R; D 2 (Y + Z) = D 2 (Y ) + D 2 (Z), ha Y és Z függetlenek; ha Y és Z eloszlása megegyezik, akkor D(Y ) = D(Z)
A tapasztalati szórásnégyzet Állítás (A tapasztalati szórásnégyzet másik alakja) s 2 n = 1 n [ n k=1 X 2 k ] X 2. Bizonyítás. Átrendezéssel kapjuk, hogy n n [ (X k X ) 2 = X 2 k 2X k X + X 2 ] = k=1 = k=1 n X 2 k n X 2. k=1 n X 2 k 2nX X + n X 2 = k=1 Ebb l adódik, hogy sn 2 = 1 [ n ] (X k X ) 2 = 1 [ n n n k=1 a tapasztalati szórásnégyzet deníciója alapján. k=1 X 2 k ] X 2,
A korrigált tapasztalati szórásnégyzet Ennek a várható értékét szeretnénk kiszámítani: sn 2 = n n 1 s2 n = n [ [ n ] ] 1 X 2 k X 2 = 1 [ n n 1 n n 1 k=1 k=1 X 2 k ] n n 1 X 2. Az els tag várható értéke: ( n ) n E ϑ X 2 k = E ϑ (X 2 k ) = n E ϑ(x 2 1 ) = n [D ϑ 2 (X 1) + E ϑ (X 1 ) 2]. k=1 k=1
A korrigált tapasztalati szórásnégyzet A második taghoz az átlag szórását kell kiszámítani: ( ) Dϑ 2 (X ) = X1 +... + X n D2 ϑ = 1 n n 2 D2 ϑ (X 1 +... + X n ) = 1 n D 2 n 2 ϑ (X k) = = 1 n 2 n D2 ϑ (X 1) = 1 n D2 ϑ (X 1). k=1
A korrigált tapasztalati szórásnégyzet A második taghoz az átlag szórását kell kiszámítani: ( ) Dϑ 2 (X ) = X1 +... + X n D2 ϑ = 1 n n 2 D2 ϑ (X 1 +... + X n ) = 1 n D 2 n 2 ϑ (X k) = = 1 n 2 n D2 ϑ (X 1) = 1 n D2 ϑ (X 1). k=1 Így a második tag várható értéke: E ϑ ( X 2) = D 2 ϑ (X 2 ) + E ϑ (X ) 2 = 1 n 2 D2 ϑ (X 1) + E ϑ (X 1 ) 2. Az összeg lesz a korrigált tapasztalati szórásnégyzet várható értéke: E ϑ (sn 2 ) = n [ D 2 n 1 ϑ (X 1 )+E ϑ (X 1 ) 2] n [ ] 1 n 1 n D2 ϑ (X 1)+E ϑ (X 1 ) 2 = Dϑ 2 (X 1). Tehát s 2 n torzítatlan becslés a szórásnégyzetre.
Hatásosság Deníció (Hatásosság) Legyenek T 1, T 2 torzítatlan becslései a paraméter ψ(ϑ) függvényének. T 1 hatásosabb T 2 -nél, ha Dϑ 2(T 1) Dϑ 2(T 2) teljesül minden ϑ Θ-ra. A T 1 becslés hatásos ψ(ϑ)-ra, ha ψ(ϑ) minden torzítatlan becslésénél hatásosabb (és maga is torzítatlan). Nem mindig létezik hatásos becslés, és lehetséges, hogy T 1 és T 2 közül egyik sem hatásosabb a másiknál.
Hatásosság Deníció (Hatásosság) Legyenek T 1, T 2 torzítatlan becslései a paraméter ψ(ϑ) függvényének. T 1 hatásosabb T 2 -nél, ha Dϑ 2(T 1) Dϑ 2(T 2) teljesül minden ϑ Θ-ra. A T 1 becslés hatásos ψ(ϑ)-ra, ha ψ(ϑ) minden torzítatlan becslésénél hatásosabb (és maga is torzítatlan). Nem mindig létezik hatásos becslés, és lehetséges, hogy T 1 és T 2 közül egyik sem hatásosabb a másiknál. Állítás Legyen (X 1,..., X n ) független azonos eloszlású minta véges szórású eloszlásból. Ekkor ψ(ϑ) = E ϑ (X i )-re a mintaátlag hatásosabb minden n j=1 c jx j alakú becslésnél, ahol 0 c j és n j=1 c j = 1. Az állítás a számtani és négyzetes közepek közötti egyenl tlenségb l adódik. Ugyanakkor a mintaátlag nem minden esetben hatásos becslése a várható értéknek, csak a lineáris kombinációknál hatásosabb.
Konzisztencia Deníció A T n = T n (X 1,..., X n ) konzisztens becsléssorozat ψ(ϑ)-ra, ha minden ϑ Θ-ra (T n (X 1,..., X n )) ψ(ϑ) n esetén sztochasztikusan, azaz minden ϑ Θ és ε > 0-ra teljesül, hogy ( P ϑ Tn ψ(ϑ) > ε ) 0 (n ). Példa. X 1, X 2,... független azonos eloszlású minta. Ekkor T n = X 1+X 2 +...+X n n konzisztens becsléssorozat E ϑ (X 1 )-re, hiszen a nagy számok gyenge törvénye szerint T n E ϑ (X 1 ) sztochasztikusan. Továbbá, ha például X 1, X 2,... függetlenek és N(m, σ 2 ) eloszlásúak, akkor az átlag konzisztens m-re, s n pedig σ-ra (s n is konzisztens σ-ra).
Egyenl tlenségek Állítás (Markov-egyenl tlenség) Legyen t > 0 tetsz leges pozitív szám, X pedig olyan véges várható érték valószín ségi változó, mely csak nemnegatív értékeket vesz fel, vagyis melyre X 0 teljesül. Ekkor P(X t) E(X ). t
Egyenl tlenségek Állítás (Markov-egyenl tlenség) Legyen t > 0 tetsz leges pozitív szám, X pedig olyan véges várható érték valószín ségi változó, mely csak nemnegatív értékeket vesz fel, vagyis melyre X 0 teljesül. Ekkor P(X t) E(X ). t Állítás (Csebisev-egyenl tlenség) Legyen X véges szórású valószín ségi változó, s > 0 pozitív szám. Ekkor P( X E(X ) s) D2 (X ) s 2.
Egyenl tlenségek Állítás (Markov-egyenl tlenség) Legyen t > 0 tetsz leges pozitív szám, X pedig olyan véges várható érték valószín ségi változó, mely csak nemnegatív értékeket vesz fel, vagyis melyre X 0 teljesül. Ekkor P(X t) E(X ). t Állítás (Csebisev-egyenl tlenség) Legyen X véges szórású valószín ségi változó, s > 0 pozitív szám. Ekkor Következmény P( X E(X ) s) D2 (X ) s 2. Legyen X véges szórású valószín ségi változó, s > 0 pozitív szám. Ekkor P( X E(X ) < s) 1 D2 (X ) s 2.
A nagy számok gyenge törvénye Legyenek X 1,..., X n független azonos eloszlású véges szórású valószín ségi változók. Legyen m = E(X 1 ) és σ = D 2 (X 1 ). A korábbiak szerint E(X ) = m; D(X ) = σ2 n.
A nagy számok gyenge törvénye Legyenek X 1,..., X n független azonos eloszlású véges szórású valószín ségi változók. Legyen m = E(X 1 ) és σ = D 2 (X 1 ). A korábbiak szerint E(X ) = m; D(X ) = σ2 n. A Csebisev-egyenl tlenség szerint minden ε > 0-ra P( X m > ε) D2 (X ) ε 2 = σ2 ε 2 n 0 (n ). Tehát X m = E(X 1 ) sztochasztikusan, vagyis az átlag konzisztens becslés a várható értékre.
Maximumlikelihood-módszer Deníció (Likelihood-függvény) Legyen Y 1,..., Y n minta. Ha ezek abszolút folytonosak, és Y j s r ségfüggvénye (a P ϑ -re vonatkozóan) f j,ϑ, akkor a minta likelihood-függvénye: n L n,ϑ (t 1,..., t n ) = f j,ϑ (t j ) j=1 (t 1,..., t n R). Ha a minta diszkrét, akkor a minta likelihood-függvénye: n L n,ϑ (k 1,..., k n ) = P j,ϑ (Y j = k j ) j=1 ((k 1,..., k n ) H).
Maximumlikelihood-módszer Deníció (Maximum-likelihood becslés) A ϑ maximumlikelihood-becslése (ML-becslése) az X 1,..., X n mintából ˆϑ, ha ˆϑ maximalizálja a ϑ L n,ϑ (X 1,..., X n ) függvényt, ahol L n,ϑ a minta likelihood-függvénye. Azaz, ha L n, ˆϑ (X 1,..., X n ) L n,ϑ (X 1,..., X n ) minden ϑ Θ-ra. Példa. X 1,..., X n függetlenek, eloszlásuk exponenciális eloszlás ϑ > 0 paraméterrel. Ekkor L n,ϑ (X 1,..., X n ) = amib l ˆϑ = 1 X. n f j,ϑ (X j ) = j=1 n j=1 [ ] ϑ exp( ϑx j )I(X j > 0),
ML-becslés: exponenciális eloszlás X 1,..., X n függetlenek, eloszlásuk exponenciális eloszlás ϑ > 0 paraméterrel. Ekkor L n,ϑ (X 1,..., X n ) = n f j,ϑ (X j ) = j=1 n j=1 L n,ϑ (X 1,..., X n ) = ϑ n exp [ ] ϑ exp( ϑx j )I(X j > 0). ( ϑ n X j ). j=1
ML-becslés: exponenciális eloszlás X 1,..., X n függetlenek, eloszlásuk exponenciális eloszlás ϑ > 0 paraméterrel. Ekkor L n,ϑ (X 1,..., X n ) = n f j,ϑ (X j ) = j=1 n j=1 L n,ϑ (X 1,..., X n ) = ϑ n exp [ ] ϑ exp( ϑx j )I(X j > 0). ( ϑ ln L n,ϑ (X 1,..., X n ) = n ln ϑ ϑ n X j ). j=1 n j=1 X j
ML-becslés: exponenciális eloszlás X 1,..., X n függetlenek, eloszlásuk exponenciális eloszlás ϑ > 0 paraméterrel. Ekkor L n,ϑ (X 1,..., X n ) = n f j,ϑ (X j ) = j=1 n j=1 L n,ϑ (X 1,..., X n ) = ϑ n exp [ ] ϑ exp( ϑx j )I(X j > 0). ( ϑ ln L n,ϑ (X 1,..., X n ) = n ln ϑ ϑ n X j ). j=1 n j=1 ϑ ln L n,ϑ(x 1,..., X n ) = n nx > 0 ϑ < 1/X. ϑ X j
Az ML-becslés tulajdonságai Nem minden statisztikai mez n létezik ML-becslés. Az ML-becslés nem feltétlenül egyértelm. A ψ(ϑ) függvény ML-becslése ψ( ˆϑ), ahol ˆϑ ML-becslés ϑ-ra. Megfelel feltételek (er s regularitási feltételek mellett) az ML-becslés aszimpotikusan torzítatlan, és aszimptotikusan normális eloszlású, azaz n( ˆϑn ϑ) normális eloszláshoz konvergál eloszlásban n esetén (a P ϑ valószín ségre vonatkozóan). Az alábbi egyenlet a maximumlikelihood-egyenlet: ϑ ln L n,ϑ(x 1,..., X n ) = 0. Megfelel feltételek mellett az ML-becslés a maximumlikelihood-egyenlet megoldása (ha az ML-becslés nem számítható ki, de az egyenlet megoldható, gyakran az egyenlet megoldásával helyettesítik az MLbecslést).
ML-becslés: normális eloszlás X 1,..., X n függetlenek, eloszlásuk normális eloszlás m, σ > 0 paraméterekkel. Ekkor L n,m,σ (X 1,..., X n ) = n f j,ϑ (X j ) = j=1 n [ 1 exp( (X j m) 2 /2σ ]. 2 2πσ j=1
ML-becslés: normális eloszlás X 1,..., X n függetlenek, eloszlásuk normális eloszlás m, σ > 0 paraméterekkel. Ekkor L n,m,σ (X 1,..., X n ) = n f j,ϑ (X j ) = j=1 n [ 1 exp( (X j m) 2 /2σ ]. 2 2πσ j=1 L n,m,σ (X 1,..., X n ) = ( 1 2πσ ) n exp ( n ) (X j m) 2. 2σ 2 j=1
ML-becslés: normális eloszlás X 1,..., X n függetlenek, eloszlásuk normális eloszlás m, σ > 0 paraméterekkel. Ekkor L n,m,σ (X 1,..., X n ) = n f j,ϑ (X j ) = j=1 n [ 1 exp( (X j m) 2 /2σ ]. 2 2πσ j=1 L n,m,σ (X 1,..., X n ) = ( 1 2πσ ) n exp ( n ) (X j m) 2. 2σ 2 j=1 ln L n,m,σ (X 1,..., X n ) = n ln( 2π) n ln σ n j=1 (X j m) 2 2σ 2. Rögzített σ mellett ez akkor maximális, ha n j=1 (X j m) 2 = n j=1 X 2 j 2 n j=1 X jm + nm 2 minimális ˆm = X.
ML-becslés: normális eloszlás ln L n,σ (X 1,..., X n ) = n ln( 2π) n ln σ A σ szerinti parciális derivált: dσ ln L n,σ(x 1,..., X n ) = n n σ + j=1 n j=1 (X j X ) 2 σ 3. Ez pontosan akkor pozitív, ha σ 2 < 1 n n j=1 (X j X ) 2 = s 2 n. (X j X ) 2 2σ 2. Tehát az ML-becslés: ˆm = X ; ˆσ = s n.
ML-becslés: egyenletes eloszlás X 1,..., X n függetlenek, eloszlásuk egyenletes eloszlás az [a, b] intervallumon. Ekkor L n,a,b (X 1,..., X n ) = n f j,ϑ (X j ) = j=1 n 1 I(a X j b) b a. j=1 ( 1 L n,a,b (X 1,..., X n ) = b a ) ni(a min j X j és max X j b). j
ML-becslés: egyenletes eloszlás X 1,..., X n függetlenek, eloszlásuk egyenletes eloszlás az [a, b] intervallumon. Ekkor L n,a,b (X 1,..., X n ) = n f j,ϑ (X j ) = j=1 n 1 I(a X j b) b a. j=1 ( 1 L n,a,b (X 1,..., X n ) = b a ) ni(a min j X j és max X j b). j Ebb l: â = min X j ; ˆb = max X j. j j Az els tényez legyen minél nagyobb (vagyis b a minél kisebb) úgy, hogy a második tényez nem nulla.
ML-becslés: Poisson-eloszlás X 1,..., X n függetlenek, Poisson-eloszlás λ > 0 paraméterrel. Ekkor L n,λ (X 1,..., X n ) = n j=1 λ X j X j! e λ. L n,λ (X 1,..., X n ) = λ n j=1 X j e nλ n j=1 1 X j!.
ML-becslés: Poisson-eloszlás X 1,..., X n függetlenek, Poisson-eloszlás λ > 0 paraméterrel. Ekkor L n,λ (X 1,..., X n ) = n j=1 λ X j X j! e λ. L n,λ (X 1,..., X n ) = λ n j=1 X j e nλ ln L n,λ (X 1,..., X n ) = ln λ n j=1 n X j nλ ln j=1 1 X j!. n j=1 1 X j!
ML-becslés: Poisson-eloszlás X 1,..., X n függetlenek, Poisson-eloszlás λ > 0 paraméterrel. Ekkor L n,λ (X 1,..., X n ) = n j=1 λ X j X j! e λ. L n,λ (X 1,..., X n ) = λ n j=1 X j e nλ ln L n,λ (X 1,..., X n ) = ln λ n j=1 n X j nλ ln j=1 n λ ln L j=1 n,λ(x 1,..., X n ) = X j λ Ezért az ML-becslés: ˆλ = X. 1 X j!. n j=1 1 X j! n > 0 λ < X.
Momentummódszer Legyen X 1,..., X n független azonos eloszlású minta. 1 Az eloszlás k. momentuma: µ k,ϑ = E ϑ (X k 1 ). 2 Legyen ˆµ k = 1 n n j=1 X k az eloszlás k. tapasztalati momentuma. j 3 Írjuk fel az alábbi egyenleteket a legkisebb olyan k-ig, amire az egyenletrendszer egyértelm en meghatározza ϑ-t (bár nincs mindig ilyen k): E ϑ (X 1 ) = 1 n X j ; n E ϑ (X 2 1 ) = 1 n... E ϑ (X k 1 ) = 1 n j=1 n j=1 n j=1 X 2 j ; X k j. 4 A ϑ momentummódszerrel kapott becslése az a ˆϑ, ami megoldása a fenti egyenletrendszernek.
Momentummódszer: Poisson és exponenciális eloszlás X 1,..., X n független Poisson-eloszlásúak λ > 0 paraméterrel. A k = 1-hez tartozó egyenlet: E λ (X 1 ) = X. Mivel a λ paraméter Poisson-eloszlás várható értéke λ: ˆλ = X.
Momentummódszer: Poisson és exponenciális eloszlás X 1,..., X n független Poisson-eloszlásúak λ > 0 paraméterrel. A k = 1-hez tartozó egyenlet: E λ (X 1 ) = X. Mivel a λ paraméter Poisson-eloszlás várható értéke λ: ˆλ = X. X 1,..., X n független exponenciális eloszlásúak λ paraméterrel. A k = 1- hez tartozó egyenlet: E λ (X 1 ) = 1 ϑ = 1 n n X j = X. j=1 Ez egyértelm en oldható meg λ-ra: ˆλ = 1/X.
Momentummódszer: normális eloszlás X 1,..., X n független N(m, σ 2 ) eloszlású minta (azaz normális eloszlású m várható értékkel és σ szórással). A k = 1-hez és k = 2-höz tartozó egyenletek: E m,σ (X 1 ) = m = X ; E m,σ (X 2 1 ) = σ 2 + m 2 = 1 n Xj 2. n A másodikba beírva az els t: σ 2 = 1 n n j=1 X j 2 X 2 = sn 2 (a tapasztalati szórásnégyzet). Tehát az els két egyenlet együtt egyértelm en oldható meg, a momentummódszerrel kapott becslés: ˆm = X ; ˆσ = s n. j=1
Az egyenletes eloszlás várható értéke és szórása Az egyenletes eloszlás s r ségfüggvénye: f (x) = 1, ha a x b, és 0 b a különben. A várható értéke: E(X ) = x f (x)dx = = b2 a 2 2(b a) = a + b 2. b a [ x b a dx = x 2 2(b a) ] b x=a
Az egyenletes eloszlás várható értéke és szórása Az egyenletes eloszlás s r ségfüggvénye: f (x) = 1, ha a x b, és 0 b a különben. A várható értéke: E(X ) = x f (x)dx = = b2 a 2 2(b a) = a + b 2. b a [ x b a dx = x 2 2(b a) ] b x=a A négyzetének a várható értéke: E(X 2 ) = x 2 f (x)dx = b = b3 a 3 3(b a) = a2 + ab + b 2. 3 a x 2 b a dx = 1 [ x 3 b a 3 ] b x=a
Az egyenletes eloszlás várható értéke és szórása Az egyenletes eloszlás s r ségfüggvénye: f (x) = 1, ha a x b, és 0 b a különben. A várható értéke: E(X ) = a + b 2. A négyzetének a várható értéke: E(X 2 ) = a2 + ab + b 2. 3 A szórásnégyzete: D 2 (X ) = E(X 2 ) E(X ) 2 = a2 + ab + b 2 = a2 2ab + b 2 12 3 (b a)2 =. 12 a2 + 2ab + b 2 4
Momentummódszer: egyenletes eloszlás Legyen X 1,..., X n független minta az [a, b] intervallumon egyenletes eloszlásból. A k = 1-hez és k = 2-höz tartozó egyenlet: E a,b (X 2 1 ) = E a,b (X 1 ) = a + b = X ; 2 ( ) (b a)2 a + 2 b + = 1 n Xj 2. 12 2 n j=1 A másodikba beírva az els t: (b a)2 = 1 n 12 n j=1 X j 2 X 2 = sn, 2 amib l â = X 3s n ; ˆb = X + 3sn. ML-becsléssel: â = X 1 = min(x 1,..., X n ), ˆb = X n = max(x 1,..., X n ). Egyik becslés sem torzítatlan.
Tapasztalati momentumok Deníció Legyen k 1 egész. Ekkor a minta k. tapasztalati momentuma (kth sample moment) a mintaelemek k. hatványainak átlaga: 1 n n j=1 X k j. Ekkor a minta k. centrált tapasztalati momentuma (kth sample central moment): m k = 1 n (X j X ) k. n j=1
Ferdeség Deníció A tapasztalati ferdeség (sample skewness) két szokásos deníciója: γ = m 3 s 3 n = 1 n ( 1 n 1 n j=1 (X j X ) 3 n j=1 (X j X 2 ) ). 3/2 γ 1 = n 2 (n 1)(n 2) m3 s 3 n = n (n 1)(n 2) n ( ) Xj 3 X. j=1 s n
Lapultság Deníció A lapultság (sample kurtosis) egy lehetséges deníciója: κ = m n 4 j=1 3 = n (X j X ) 4 m2 2 ( n j=1 (X j X 2 ) ) 3. 2
Példa: normális eloszlás n = 500, m = 3, σ = 2 normális eloszlású minta X = 2, 9677, s n = 2, 14, ferdeség: γ = 0, 04, lapultság: κ = 0, 211.
Példa: exponenciális eloszlás n = 500, λ = 1/3 exponenciális eloszlású minta (szórás: 3) X = 3, 033, s n = 2, 986, ferdeség: γ = 1, 85, lapultság: κ = 4, 78.
Példa: egyenletes eloszlás n = 500, a = 0, b = 6 intervallumon egyenletes eloszlású minta X = 2, 93, s n = 1, 73, ferdeség: γ = 0, 0297, lapultság: κ = 1, 2.
Példa: Poisson-eloszlás n = 500, λ = 3 paraméter Poisson-eloszlású minta X = 2, 922, s n = 1, 64, ferdeség: γ = 0, 53, lapultság: κ = 0, 0064.