Valószín ségszámítás és statisztika

Hasonló dokumentumok
Normális eloszlás paramétereire vonatkozó próbák

Abszolút folytonos valószín ségi változó (4. el adás)

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Valószín ségszámítás és statisztika

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai statisztika szorgalmi feladatok

Matematikai statisztika

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Statisztika Elıadások letölthetık a címrıl

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis vizsgálatok

Backhausz Ágnes 1. Bevezetés A valószínűség elemi tulajdonságai... 5

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Dr. Karácsony Zsolt. Miskolci Egyetem november

Valószín ségszámítás és statisztika

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika elméleti összefoglaló

egyetemi jegyzet Meskó Balázs

Valószínűségi változók. Várható érték és szórás

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Matematikai statisztika c. tárgy oktatásának célja és tematikája

2. A ξ valószín ségi változó eloszlásfüggvénye a következ : x 4 81 F (x) = x 4 ha 3 < x 0 különben

A leíró statisztikák

Hipotézis vizsgálatok

Biomatematika 2 Orvosi biometria

[Biomatematika 2] Orvosi biometria

A valószínűségszámítás elemei

A konfidencia intervallum képlete: x± t( α /2, df )

Eseményalgebra. Esemény: minden amirl a kísérlet elvégzése során eldönthet egyértelmen hogy a kísérlet során bekövetkezett-e vagy sem.

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

1. Példa. A gamma függvény és a Fubini-tétel.

Valószínűségszámítás összefoglaló

A Statisztika alapjai

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Készítette: Fegyverneki Sándor

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Korreláció és lineáris regresszió

Bevezetés a hipotézisvizsgálatokba

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Többváltozós lineáris regressziós modell feltételeinek

Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés

egyenletesen, és c olyan színű golyót teszünk az urnába, amilyen színűt húztunk. Bizonyítsuk

Adatok statisztikai értékelésének főbb lehetőségei

Matematikai statisztika Tómács Tibor

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biostatisztika. Sz cs Gábor. 2018/19 tavaszi félév. Szegedi Tudományegyetem, Bolyai Intézet

Valószín ségszámítás 2.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

Gyak. vez.: Palincza Richárd ( Gyakorlatok ideje/helye: CS , QBF10

Nemparaméteres próbák

Biostatisztika Összefoglalás

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Biostatisztika Összefoglalás

LINEÁRIS MODELLBEN május. 1. Lineáris modell, legkisebb négyzetek elve

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

0,1 P(X=1) = p p p(1-p) Egy p vszgő esemény bekövetkezik-e.

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Matematika III. 9. Statisztikai hipotézisek Prof. Dr. Závoti, József

[Biomatematika 2] Orvosi biometria

Matematikai statisztika feladatsor

Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018

Valószín ségszámítás és statisztika Gyakorlat (Statisztika alapjai)

Villamosmérnök A4 11. hét Kétdimenziós normális eloszlás, cht - Megoldások

A maximum likelihood becslésről

Biometria gyakorló feladatok BsC hallgatók számára

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

3. Egy szabályos dobókockával háromszor dobunk egymás után. Legyen A az az esemény, hogy

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Továbblépés. Általános, lineáris modell. Példák. Jellemzık. Matematikai statisztika 12. elıadás,

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

Elemi statisztika fizikusoknak

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Alkalmazott statisztika feladatok

Varianciaanalízis 4/24/12

Gazdasági matematika II. vizsgadolgozat megoldása A csoport

Valószín ségszámítás és statisztika gyakorlat Programtervez informatikus szak, esti képzés

Valószín ségszámítás. Survey statisztika mesterszak és földtudomány alapszak Backhausz Ágnes 2018/2019.

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Átírás:

Valószín ségszámítás és statisztika Informatika BSc, esti tagozat Backhausz Ágnes 2016/2017. tavaszi félév

Valószín ségi vektorváltozó Deníció Az X = (X 1,..., X n ) : Ω R n függvény valószín ségi vektorváltozó, ha tetsz leges a i < b i (i = 1, 2,..., n) valós számokra teljesül, hogy {ω Ω : a 1 < X 1 (ω) b 1, a 2 < X 2 (ω) b 2,..., a n < X n (ω) b n } A. Ha X valószín ségi vektorváltozó, akkor az X i valószín ségi változó eloszlását az X i. peremeloszlásának nevezzük. Az X valószín ségi vektorváltozó diszkrét, ha értékkészlete véges vagy megszámlálhatóan végtelen. Példa. X i : egy adott weboldalt az i. órában hányan töltenek be (i = 1, 2,..., 24). (X 1,..., X 24 ) valószín ségi vektorváltozó. Y i : a Duna vízállása az i. napon.

Valószín ségi vektorváltozó: példa 1. ábra. X 1 = 106, X 2 = 133,..., X 20 = 186

A kovariancia Deníció (Kovariancia) Legyenek X és Y olyan valószín ségi változók, melyeknek szórása létezik. Ekkor az X és Y kovarianciája: cov(x, Y ) = E [ (X E(X )) (Y E(Y )) ]. Állítás Legyenek X, Y, Z, X 1,..., X n olyan valószín ségi változók, melyek szórása létezik. Ekkor a következ k teljesülnek. A kovariancia kiszámítása. cov(x, Y ) = E(X Y ) E(X )E(Y ). Szimmetria. cov(x, Y ) = cov(y, X ). Kapcsolat a szórásnégyzettel. cov(x, X ) = D 2 (X ).

A kovariancia tulajdonságai Állítás Konstanssal való kovariancia. cov(x, c) = 0, ha c R. Linearitás. Egyrészt cov(x + Y, Z) = cov(x, Z) + cov(y, Z), másrészt tetsz leges c R számra cov(cx, Y ) = c cov(x, Y ). Függetlenséggel való kapcsolat. Ha az X és Y valószín ségi változók függetlenek, akkor cov(x, Y ) = 0. Összeg szórásnégyzete. D 2 (X + Y ) = D 2 (X ) + D 2 (Y ) + 2cov(X, Y ). Továbbá ( n ) n D 2 X i = D 2 (X i ) + 2 cov(x, Y ). i=1 Különbség szórásnégyzete D 2 (X Y ) = D 2 (X ) + D 2 (Y ). i=1 i<j

Korrelálatlanság Példa. Legyen X Poisson-eloszlású valószín ségi változó 2 paraméterrel. Ekkor cov(x + 3, 2 X ) (e) = 2cov(X + 3, X ) (e) = 2cov(X, X ) + 2cov(3, X ) = (c,d) = 2D 2 (X ) = 2 2 = 4.

Korrelálatlanság Példa. Legyen X Poisson-eloszlású valószín ségi változó 2 paraméterrel. Ekkor cov(x + 3, 2 X ) (e) = 2cov(X + 3, X ) (e) = 2cov(X, X ) + 2cov(3, X ) = (c,d) = 2D 2 (X ) = 2 2 = 4. Deníció (Korrelálatlanság) Ha az X, Y valószín ségi változók kovarianciája 0, akkor azt mondjuk, hogy X és Y korrelálatlanok. Állítás (Függetlenség és korrelálatlanság) Ha az X és Y valószín ségi változók függetlenek és szórásuk létezik, akkor korrelálatlanok. A korrelálatlanságból nem következik a függetlenség. Legyen X és Y két szabályos kockadobás, ezek függetlenek. Legyen továbbá U = X + Y, V = X Y. Ekkor, bár X + Y és X Y nem függetlenek: cov(x + Y, X Y ) (e,d) = D 2 (X ) cov(x, Y ) + cov(x, Y ) D 2 (X ) (f ) = 0.

Korrelációs együttható Deníció Legyenek X és Y olyan valószín ségi változók, melyek szórásnégyzete létezik. Ekkor X és Y korrelációs együtthatója: { cov(x,y ) D(X )D(Y ), ha D(X ) > 0, D(Y ) > 0; R(X, Y ) = 0, ha D(X ) = 0 vagy D(Y ) = 0.

Korrelációs együttható Deníció Legyenek X és Y olyan valószín ségi változók, melyek szórásnégyzete létezik. Ekkor X és Y korrelációs együtthatója: { cov(x,y ) D(X )D(Y ), ha D(X ) > 0, D(Y ) > 0; R(X, Y ) = 0, ha D(X ) = 0 vagy D(Y ) = 0. Állítás Legyenek X és Y olyan valószín ségi változók, melyek szórása létezik. (i) Ekkor teljesül, hogy R(X, Y ) 1. (ii) Legyen a > 0 valós szám, b tetsz leges valós szám. Ekkor R(X, ax + b) = 1 és R(X, ax + b) = 1. (iii) Tegyük fel, hogy R(X, Y ) = 1. Ekkor léteznek olyan a és b valós számok, hogy az Y = ax + b egyenlet 1 valószín séggel teljesül.

Lineáris regresszió 2. ábra. A CFC-12 (freon) gáz koncentrációja az Antarktiszon és az adatokra illesztett egyenes

Lineáris regresszió Egyenes illesztése a legkisebb négyzetek módszerével: Állítás (Lineáris regresszió) Legyenek (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) adott számpárok. Azokat az a és b együtthatókat keressük, melyre a h 2 = 1 n n [y i (ax i + b)] 2 i=1 mennyiség minimális. Ennek megoldása: n i=1 â = (x i x)(y i y) n k=1 (x ; ˆb = y âx. k x) 2 A példában: â = 1, 11; ˆb = 21890

Lineáris modell Deníció (Lineáris modell) Legyenek X 1, X 2,..., X n, Y 1,..., Y n valószín ségi változók, és tegyük fel, hogy valamely a, b valós számokra Y i = ax i + b + ε i, ahol ε 1,..., ε n független N(0, σ 2 ) eloszlású valószín ségi változók. Az így kapott (X i, Y i ) párok együttes eloszlását lineáris modellnek nevezzük. Az X i valószín ségi változókat magyarázó változóknak, az ε i valószín ségi változókat hibának szokták nevezni.

Becslések a lineáris modellben Állítás A lineáris modellben az a, b együtthatók ML-becslése a következ képpen írható: â = n i=1 (X i X )(Y i Y ) n k=1 (X k X ) 2 ; ˆb = Y âx. Továbbá, ezek a becslések torzítatlan becslései az a és b paramétereknek. A hiba szórásának becslése: ˆσ 2 = 1 n (Y i âx i n ˆb) 2. 2 j=1 A becslések szórása: D(â) = σ n j=1 (X j X ) 2 ; D(ˆb) = σ 1 n + X 2 n j=1 (X j X ). 2

El rejelzés a lineáris modellben Állítás Legyen x adott szám. A lineáris modellb l kapott el rejelzés az Y véletlen folyamat x pontban felvett értékére: âx + ˆb. Az el rejelzés szórása: D(âx + ˆb) 1 = σ n + (x X ) 2 n j=1 (X j X ). 2 Az el rejelzés szórásának becslésekor a σ értéket gyakran ˆσ-val helyettesítik.

El rejelzés a lineáris modellben 3. ábra. A CFC-11 és CFC-12 (freon) gáz koncentrációja (forrás: elte.promt.hu)

Reziduálisok A teljes ingadozás (total sum of squares): n j=1 (Y j Y ) 2. Deníció A megmagyarázott ingadozás részaránya (coecient of determination): R 2 = [ n i=1 (X i X )(Y i Y ) ] 2 [ n k=1 (X k X ) 2][ n k=1 (Y k Y ) 2]. Az R 2 értéke 0 és 1 közé esik. Értelmezés: minél közelebb van 1-hez, annál inkább jó közelítést ad a lineáris modell. Ugyanakkor R érzékeny a kiugró értékekre. A példában: R 2 = 0, 9951, vagyis jól illeszkedik a lineáris modell.

Statisztikai alapfogalmak Deníció Egy X = (X 1, X 2,..., X n ) : Ω H R k valószín ségi vektorváltozót (n elem ) mintának nevezünk. Itt H a mintatér, n a minta elemszáma vagy nagysága. Az X i koordináták a minta elemei. Azt mondjuk, hogy a minta független, ha az X 1, X 2,..., X n valószín ségi változók függetlenek. Deníció A mintatéren megadott T : H R k függvényt, illetve a T = T (X ) valószín ségi változót (k-dimenziós) statisztikának nevezzük. Példa. mintaátlag (mean) n X = 1 n j=1 X j

Statisztikai alapfogalmak Deníció Egy X = (X 1, X 2,..., X n ) : Ω H R k valószín ségi vektorváltozót (n elem ) mintának nevezünk. Itt H a mintatér, n a minta elemszáma vagy nagysága. Az X i koordináták a minta elemei. Azt mondjuk, hogy a minta független, ha az X 1, X 2,..., X n valószín ségi változók függetlenek. Deníció A mintatéren megadott T : H R k függvényt, illetve a T = T (X ) valószín ségi változót (k-dimenziós) statisztikának nevezzük. Példa. mintaátlag (mean) n X = 1 n j=1 X j medián: a nagyság szerinti középs mintaelem, vagy a középs kett átlaga.

Leíró statisztikák mintaátlag (mean): X = 1 n n j=1 X j. tapasztalati szórásnégyzet: s 2 n = 1 n n (X j X ) 2 = 1 n j=1 n j=1 X 2 j X 2. tapasztalati szórás: s n = s 2 n. korrigált tapasztalati szórásnégyzet (variance): s 2 n = 1 n 1 n (X j X ) 2 = n n 1 j=1 ( 1 n n j=1 X 2 j X 2 ). korrigált tapasztalati szórás (standard deviation, sd): s n = s 2 n.

Leíró statisztikák minimum: a legkisebb mintaelem, azaz min(x 1, X 2,..., X n ). maximum: a legnagyobb mintaelem, azaz max(x 1, X 2,..., X n ). terjedelem (range): a legnagyobb és legkisebb mintaelem különbsége, azaz max(x 1, X 2,..., X n ) min(x 1, X 2,..., X n ). medián: a nagyság szerinti középs mintaelem, vagy a középs kett átlaga (ha n páros). módusz (mode): a leggyakrabban el forduló mintaelem.

Példa: az adatok elemzése Egy boltban a naponta vásárlók száma: 106 133 171 205 218 211 189 164 148 135 126 120 113 111 102 99 123 158 180 186

Példa: az adatok elemzése Egy boltban a naponta vásárlók száma: 106 133 171 205 218 211 189 164 148 135 126 120 113 111 102 99 123 158 180 186 a mintaelemek száma: n = 20 minimum: 99, maximum: 218, terjedelem: 218 99 = 119 átlag: 149,9, medián: 141,5 korrigált tapasztalati szórás: 38,55

Példa: az adatok elemzése Egy boltban a naponta vásárlók száma: 106 133 171 205 218 211 189 164 148 135 126 120 113 111 102 99 123 158 180 186 a mintaelemek száma: n = 20 minimum: 99, maximum: 218, terjedelem: 218 99 = 119 átlag: 149,9, medián: 141,5 korrigált tapasztalati szórás: 38,55 5 napon volt 115-nél kevesebb vásárló (a napok egynegyedén), és 3 napon jöttek 200-nál többen (a napok 15%-án).

Példa: alapstatisztikák 106 133 171 205 218 211 189 164 148 135 126 120 113 111 102 99 123 158 180 186 mintaelemszám: n = 20 minta: X 1 = 106, X 2 = 133,..., X 20 = 186. átlag: X = 149, 9 tapasztalati szórásnégyzet: s 2 n = 1412, 09 tapasztalati szórás: s n = 37, 58 korrigált tapasztalati szórásnégyzet: s 2 n = 1486, 411 korrigált tapasztalati szórás: s n = 38, 55

Példa: hisztogram A vásárlók számának hisztogramja

Példa: hisztogram Választunk egy intervallumot, mely magában foglalja a mérési adatokat. Az intervallumot egyenl nagyságú részekre osztjuk. Az egyes kis intervallumokba es mérési adatok számát ábrázoljuk.

Momentumok Deníció Legyen X valószín ségi változó, k 1 egész szám. Ekkor az X valószín ségi változó k. momentuma: E(X k ), ha ez a várható érték létezik. Legyen X 1, X 2,..., X n minta. Ekkor a minta k. tapasztalati momentuma: 1 n n j=1 X k j.

Rendezett minta Rendezett minta: a mintaelemeket nagyság szerint növekv sorrendbe állítjuk. Jelölés: (X 1, X 2,..., X n ). Vagyis {X 1, X 2,..., X n } = {X 1, X 2,..., X n } és X 1 X 2... X n. A minimum X 1, a maximum X n. A k. legkisebb mintaelem X k.

Rendezett minta Rendezett minta: a mintaelemeket nagyság szerint növekv sorrendbe állítjuk. Jelölés: (X 1, X 2,..., X n ). Vagyis {X 1, X 2,..., X n } = {X 1, X 2,..., X n } és X 1 X 2... X n. A minimum X 1, a maximum X n. A k. legkisebb mintaelem X k. Példa: a vásárlók számáról kapott húszelem adatsor rendezett mintája: 99 102 106 111 113 120 123 126 133 135 148 158 164 171 180 186 189 205 211 218 X 1 = 99, X 2 = 102, X 3 = 106,..., X 6 = 120,..., X 10 = 135 X 11 = 148,..., X 14 = 171,..., X 20 = 218.

Medián Minta: (X 1, X 2,..., X n ), mintaelemszám: n. Deníció (medián) Ha n páratlan: a rendezett minta középs, (n+1)/2. elemét, azaz X (n+1)/2 -t a minta mediánjának nevezzük. Ha n páros: a rendezett minta n/2. és n/2 + 1. elemének átlagát, azaz a X n/2 + X n/2+1 mennyiséget a minta mediánjának nevezzük. 2 Megjegyzés: páros n esetén a teljes [ X n/2, X n/2+1] intervallumot (vagy annak bármely elemét) is a minta mediánjának lehet hívni. Példa: a vásárlók számáról kapott húszelem minta mediánja: 1 2 (X 10 + X11) = 1 (135 + 148) = 141, 5. 2

Az átlag és a medián összehasonlítása Normális eloszlás 500 elem független minta: X 1, X 2,..., X 500 függetlenek, eloszlásuk normális eloszlás m = 1 várható értékkel és σ = 1 szórással Min. 1st Qu. Median Mean 3rd Qu. Max. -1.9840 0.2847 0.9842 0.9863 1.6930 3.6110 Exponenciális eloszlás 500 elem független minta: Y 1, Y 2,..., Y 500 függetlenek, eloszlásuk exponenciális eloszlás b = 1 paraméterrel. E(Y k ) = 1 és D(Y k ) = 1 minden k = 1, 2,..., 500-ra. Min. 1st Qu. Median Mean 3rd Qu. Max. 0.001326 0.282700 0.637300 0.984900 1.349000 5.895000

A normális eloszlású minta hisztogramja

Az exponenciális eloszlású minta hisztogramja

Az átlag és a medián összehasonlítása Az átlag több információt használ érzékenyebb a kiugró adatokra nem szimmetrikus esetben eltérhet a leggyakrabban meggyelt értékekt l A mediánt is érdemes használni, ha vannak kiugró (esetleg hibás) adatok; az eloszlás nem szimmetrikus.

Tapasztalati eloszlásfüggvény Legyen X tetsz leges valószín ségi változó. Ennek eloszlásfüggvénye az az F : R [0, 1] függvény, melyre minden t R-re. F (t) = P(X t)

Tapasztalati eloszlásfüggvény Legyen X tetsz leges valószín ségi változó. Ennek eloszlásfüggvénye az az F : R [0, 1] függvény, melyre minden t R-re. F (t) = P(X t) Deníció (Tapasztalati eloszlásfüggvény) Legyenek X 1, X 2,..., X n valószín ségi változók. Ennek a mintának az eloszlásfüggvénye az az ˆFn : R [0, 1] függvény, melyre ˆF n (t) = t-nél nem nagyobb mintaelemek száma. n

Példa: tapasztalati eloszlásfüggvény A vásárlók számának tapasztalati eloszlásfüggvénye

Példa: boxplot A vásárlók számának boxplotja a húsznapos adatsorból

Boxplot Deníció (Tapasztalati kvantilis) Legyen X 1, X 2,..., X n minta, és z [0, 1] adott szám. Ekkor a minta tapasztalati z-kvantilise a tapasztalati eloszlásfüggvény z-kvantilise, vagyis: ˆq z = min{t : ˆFn (t) z}. A boxplot készítéséhez szükséges adatok: minimum: a legkisebb mintaelem (99); els kvartilis: a z = 1/4-hez tartozó kvantilis (118,2); medián (141,5); harmadik kvartilis: a z = 3/4-hez tartozó kvantilis (181,5); maximum: a legnagyobb mintaelem (218). terjedelem: maximum - minimum (119).

Példa: boxplot 4. ábra. Forrás: theansweris27.com

QQ-plot A QQ-plot két minta eloszlásának az összehasonlítására szolgál, a kvantilisek összehasonlításával. Minél inkább egyezik a két minta eloszlása, annál közelebb lesz a QQ-plot a (0, 0)-t és (1, 1)-t összeköt egyenes szakaszhoz. Deníció Az X és Y valószín ségi változók azonos eloszlásúak, ha minden a < b-re P(a < X b) = P(a < Y b). Egész érték esetben: minden k egészre P(X = k) = P(Y = k). Példa: két szabályos kockadobás azonos eloszlású.

QQ-plot: azonos eloszlások 5. ábra. Két azonos egyenletes eloszlás (n = 200)

QQ-plot: különböz eloszlások 6. ábra. Egyenletes és normális eloszlás (n = 200)

Az átlag várható értéke Állítás Legyen X 1,..., X n független azonos eloszlású minta, és m = E(X i ) <. Ekkor E(X ) = m.

Az átlag várható értéke Állítás Legyen X 1,..., X n független azonos eloszlású minta, és m = E(X i ) <. Ekkor E(X ) = m. Bizonyítás. ( ) X1 +... + X n E(X ) = E = 1 n n E(X 1 +... + X n ) = 1 nm = m. n Felhasználtuk a várható érték linearitását, és hogy csak eloszlástól függ: E(cX ) = ce(x ), ha c R; E(Y + Z) = E(Y ) + E(Z); ha Y és Z eloszlása megegyezik, akkor E(Y ) = E(Z)

Az átlag szórása Állítás Legyen X 1,..., X n független azonos eloszlású minta, és σ = D(X i ) <. Ekkor D(X ) = σ/ n.

Az átlag szórása Állítás Legyen X 1,..., X n független azonos eloszlású minta, és σ = D(X i ) <. Ekkor D(X ) = σ/ n. Bizonyítás. D(X ) = D ( ) X1 +... + X n n = D(X 1 +... + X n ) n = nσ 2 n = σ n. Felhasználtuk a szórás alábbi tulajdonságait: D(cX ) = c D(X ), ha c R; D 2 (Y + Z) = D 2 (Y ) + D 2 (Z), ha Y és Z függetlenek; ha Y és Z eloszlása megegyezik, akkor D(Y ) = D(Z)

Az átlag konvergenciája 7. ábra. A [0, 1] intervallumon egyenletes eloszlásból vett minta átlaga n = 500-ig

A nagy számok törvénye Tétel (A nagy számok er s törvénye) Legyenek X 1, X 2,... valószín ségi változók, melyek függetlenek és azonos eloszlásúak. Tegyük fel még, hogy m = E(X 1 ) <. Ekkor X n = X 1 + X 2 +... + X n n E(X 1 ) = m teljesül 1 valószín séggel n esetén.

A nagy számok törvénye Tétel (A nagy számok er s törvénye) Legyenek X 1, X 2,... valószín ségi változók, melyek függetlenek és azonos eloszlásúak. Tegyük fel még, hogy m = E(X 1 ) <. Ekkor X n = X 1 + X 2 +... + X n n E(X 1 ) = m teljesül 1 valószín séggel n esetén. Tétel (A nagy számok gyenge törvénye) Legyenek X 1, X 2,... olyan valószín ségi változók, melyek függetlenek és azonos eloszlásúak. Tegyük fel, hogy D(X 1 ) <. Ekkor minden ε > 0 esetén P( X n E(X 1 ) > ε) 0 (n ), azaz X n E(X 1 ) sztochasztikusan.

Normális eloszlások átlaga Legyenek X, Y függetlenek, normális eloszlásúak: N(m 2, σ2 2 ). Ekkor a következ k igazak: X N(m 1, σ 2 1 ), Y X + b eloszlása normális, m 1 + b várható értékkel és σ szórással; ax eloszlása normális am 1 várható értékkel és a σ szórással; X + Y eloszlása normális, m 1 + m 2 várható értékkel és σ1 2 + σ2 2 szórással. Emlékeztet : E(X + Y ) = E(X ) + E(Y ), és ha X és Y függetlenek, akkor D 2 (X + Y ) = D 2 (X ) + D 2 (Y ).

Normális eloszlások átlaga Legyenek X, Y függetlenek, normális eloszlásúak: N(m 2, σ2 2 ). Ekkor a következ k igazak: X N(m 1, σ 2 1 ), Y X + b eloszlása normális, m 1 + b várható értékkel és σ szórással; ax eloszlása normális am 1 várható értékkel és a σ szórással; X + Y eloszlása normális, m 1 + m 2 várható értékkel és σ1 2 + σ2 2 szórással. Emlékeztet : E(X + Y ) = E(X ) + E(Y ), és ha X és Y függetlenek, akkor D 2 (X + Y ) = D 2 (X ) + D 2 (Y ). Ebb l következik: ha X 1,..., X n független normális eloszlásúak m várható értékkel és σ szórással, akkor ) X 1 +... + X n N (m, σ2 n n

Centrális határeloszlástétel Deníció (Eloszlásbeli konvergencia) Legyen X 1, X 2,... valószín ségi változók sorozata, X i eloszlásfüggvénye F i. Az Y valószín ségi változó eloszlásfüggvénye F. Az (X n ) n N sorozat tart Y -hoz eloszlásban, ha F n (t) F (t) (n ) teljesül minden olyan t R-re, melyre F folytonos t-ben. Tétel (Centrális határeloszlástétel) Legyenek X 1, X 2,... független azonos eloszlású valószín ségi változók, melyekre E(X 1 ) = m és D(X 1 ) = σ <. X 1 + X 2 +... + X n n m σ n N(0, 1) eloszlásban n esetén.

Centrális határeloszlástétel Legyenek X 1, X 2,... független azonos eloszlású valószín ségi változók, melyekre E(X 1 ) = m és D(X 1 ) = σ <. Ekkor ( lim P a X ) 1 + X 2 +... + X n n m n σ < b = 1 b e x2 /2 dx. n 2π a A határértéket Φ(b) Φ(a) = P(a Y b) alakban is írhatjuk, ahol Y N(0, 1).

Centrális határeloszlástétel Legyenek X 1, X 2,... független azonos eloszlású valószín ségi változók, melyekre E(X 1 ) = m és D(X 1 ) = σ <. Ekkor ( lim P a X ) 1 + X 2 +... + X n n m n σ < b = 1 b e x2 /2 dx. n 2π a A határértéket Φ(b) Φ(a) = P(a Y b) alakban is írhatjuk, ahol Y N(0, 1). Így is átfogalmazható a tétel állítása: P(nm + aσ n X 1 + X 2 +... + X n < nm + bσ n) Φ(b) Φ(a). Ez azt jelenti, hogy az X n átlag eloszlása közel van egy m várható érték, σ/ n szórású normális eloszláshoz.

Az átlag mint a várható érték becslése X 1, X 2,..., független azonos eloszlású valószín ségi változók, várható értékük: E(X 1 ) = m. Ekkor az X n = 1 n (X 1 +... + X n ) a következ tulajdonságokkal rendelkezik: Torzítatlan becslése m-nek: E(X n ) = m. Konzisztens becslése m-nek: X n m teljesül 1 valószín séggel. Aszimptotikusan normális becslése m-nek: (X n m) n normális eloszláshoz konvergál. A n j=1 a jx j alakú torzítatlan becslések közül ennek a legkisebb a szórása, vagyis a lineáris becslések között ez a leghatásosabb.

A szórás becslése Állítás X 1, X 2,..., független azonos eloszlású valószín ségi változók, σ = D(X j ) szórással. Ekkor E(s 2 n ) = σ 2, vagyis az s 2 n = 1 n 1 n i=1 (X i X ) 2 korrigált tapasztalati szórásnégyzet torzítatlan becslése a szórásnégyzetnek.

A szórás becslése Állítás X 1, X 2,..., független azonos eloszlású valószín ségi változók, σ = D(X j ) szórással. Ekkor E(s 2 n ) = σ 2, vagyis az s 2 n = 1 n 1 n i=1 (X i X ) 2 korrigált tapasztalati szórásnégyzet torzítatlan becslése a szórásnégyzetnek. Sem s n, sem s n nem torzítatlan becslése a szórásnak: E(s n) σ, E(s n) σ. Másrészt s n σ és s n σ is 1 valószín séggel teljesül, vagyis mind a tapasztalati szórás és a korrigált tapasztalati szórás is konzisztens becslése a szórásnak.

Statisztikai mez Deníció Az (Ω, A, P) hármast statisztikai mez nek nevezzük, ha minden P P-re (Ω, A, P) Kolmogorov-féle valószín ségi mez. Deníció Ha valamilyen Θ R q halmazra a P halmaz felírható {P ϑ : ϑ Θ} alakban, akkor paraméteres statisztikai problémáról beszélhetünk. Ilyenkor a Θ halmazt paramétertérnek nevezzük.

Statisztikai mez Deníció Az (Ω, A, P) hármast statisztikai mez nek nevezzük, ha minden P P-re (Ω, A, P) Kolmogorov-féle valószín ségi mez. Deníció Ha valamilyen Θ R q halmazra a P halmaz felírható {P ϑ : ϑ Θ} alakban, akkor paraméteres statisztikai problémáról beszélhetünk. Ilyenkor a Θ halmazt paramétertérnek nevezzük. Deníció (Minta) Legyen (Ω, A, P) statisztikai mez. Egy X = (X 1, X 2,..., X n ) : Ω H R n valószín ségi vektorváltozót (n elem ) mintának nevezünk. Itt H a mintatér, n a minta elemszáma vagy nagysága. A minta független, ha az X 1, X 2,..., X n valószín ségi változók függetlenek.

Kondenciaintervallumok Legyen X = (X 1,..., X n ) független azonos eloszlású minta, (Ω, A, P) pedig statisztikai mez, P = {P ϑ : ϑ Θ}, és tegyük fel, hogy ϑ valós paraméter, vagyis Θ R. Deníció Azt mondjuk, hogy a (T 1 (X ), T 2 (X )) intervallum legalább 1 α megbízhatósági szint kondenciaintervallum ϑ-ra, ha minden ϑ R esetén teljesül, hogy P ϑ (T 1 (X ) < ϑ < T 2 (X )) 1 α. A kondenciaintervallum megbízhatósági szintje: inf ϑ Θ {P ϑ (ϑ (T 1, T 2 ))}.

Kondenciaintervallum a várható értékre A Φ a standard normális eloszlás eloszlásfüggvénye, azaz ha Z N(0, 1): Φ(t) = P(Z t) = 1 2π t e s2 /2 ds. Állítás (Kondenciaintervallum a várható értékre, ismert szórás) Tegyük fel, hogy X 1,..., X n független azonos eloszlású normális eloszlású valószín ségi változók, melyek szórása, σ ismert. Ekkor a ( (T 1, T 2 ) = (X Φ 1 1 α ) σ n (, X + Φ 1 1 α ) ) σ n 2 2 intervallum 1 α megbízhatósági szint kondenciaintervallum az eloszlás várható értékére.

Kondenciaintervallum a várható értékre Legyenek Z 0, Z 1,..., Z n független N(0, 1) eloszlásúak, és t f,q melyre az alábbi teljesül: ( q = P(Y t f,q ) = P Z 0 Z 2 1 +... + Z 2 f t f,q ). az a szám, A hányados eloszlása f szabadsági fokú t-eloszlás. Állítás (Kondenciaintervallum a várható értékre, ismeretlen szórás) Tegyük fel, hogy X 1,..., X n független N(m, σ 2 ) normális eloszlású valószín ségi változók (m, σ ismeretlenek). Ekkor a ( (T 1, T 2 ) = X t n 1,1 α/2 s n n, X + t n 1,1 α/2 sn ) n intervallum 1 α megbízhatósági szint kondenciaintervallum az eloszlás várható értékére.

Hipotézisvizsgálat Legyen (Ω, A, P) paraméteres statisztikai mez, azaz P = {P ϑ : ϑ Θ} valamilyen Θ paramétertérrel. A paraméterteret bontsuk fel két diszjunkt halmaz uniójára: Θ = Θ 0 Θ 1, ahol tehát Θ 0 Θ 1 =. Nullhipotézis. H 0 : ϑ Θ 0. Ellenhipotézis. H 1 : ϑ Θ 1.

Hipotézisvizsgálat Legyen (Ω, A, P) paraméteres statisztikai mez, azaz P = {P ϑ : ϑ Θ} valamilyen Θ paramétertérrel. A paraméterteret bontsuk fel két diszjunkt halmaz uniójára: Θ = Θ 0 Θ 1, ahol tehát Θ 0 Θ 1 =. Nullhipotézis. H 0 : ϑ Θ 0. Ellenhipotézis. H 1 : ϑ Θ 1. A minta X = (X 1,..., X n ), a mintatér legyen B (vagyis (X 1,..., X n ) a B R n halmaz egy véletlen eleme). A mintateret is felbontjuk két diszjunkt halmaz uniójára: B = B 0 B 1, ahol B 0 B 1 =. Elfogadási tartomány: B 0. Ha (X 1,..., X n ) B 0, akkor H 0 -t elfogadjuk. Elutasítási (kritikus) tartomány: B 1. Ha (X 1,..., X n ) B 1, akkor H 0 -t elutasítjuk.

Hipotézisvizsgálat Els fajú hibát vétünk, ha H 0 igaz, és elutasítjuk. A próba terjedelme: α = sup ϑ Θ 0 P ϑ (X B 1 ). Másodfajú hibát vétünk, ha H 0 nem igaz, és elfogadjuk. A próba er függvénye az alábbi β : Θ 1 [0, 1] függvény: β(ϑ) = P ϑ (X B 1 ) (ϑ Θ 1 ).

Hipotézisvizsgálat Els fajú hibát vétünk, ha H 0 igaz, és elutasítjuk. A próba terjedelme: α = sup ϑ Θ 0 P ϑ (X B 1 ). Másodfajú hibát vétünk, ha H 0 nem igaz, és elfogadjuk. A próba er függvénye az alábbi β : Θ 1 [0, 1] függvény: β(ϑ) = P ϑ (X B 1 ) (ϑ Θ 1 ). p-érték: a legnagyobb olyan terjedelem, ami mellett H 0 -t elfogadjuk. p < α: szignikáns eltérés H 0 -tól, statisztikai bizonyíték H 1 -re. p α: nincs szignikáns eltérés H 0 -tól. Az α terjedelem leggyakrabban használt értéke: α = 0, 05.

Egymintás u-próba A próba a normális eloszlás várható értékére vonatkozik ismert szórás mellett. X 1, X 2,..., X n N(m, σ 2 ), ahol m ismeretlen paraméter, σ > 0 ismert. Próbastatisztika (eloszlása standard normális H 0 mellett): u = X m 0 σ n. Kétoldali ellenhipotézis (two-sided): H 0 : m = m 0 ; m 0. H 1 : m Ha u > Φ 1 (1 α/2), akkor elvetjük a nullhipotézist, különben elfogadjuk. A p-érték ilyenkor 2 2Φ( u ). Φ a standard normális eloszlásfüggvény: Φ(t) = t 1 e x2 /2 dx. 2π p < 0, 05: a várható érték szignikánsan eltér m 0 -tól. p 0, 05: nincs szignikáns eltérés m 0 -tól.

Egymintás u-próba Feltételezés: a testmagasság normális eloszlású. Az európai férak átlagos testmagassága 177, 6 cm. Megmértük 10 magyar fér testmagasságát, a magasságok átlaga 173,8 cm lett. A szórást 8 cm-nek feltételezve mondhatjuk-e, hogy a magyar emberek testmagassága szignikánsan eltér az európai átlagtól?

Egymintás u-próba Feltételezés: a testmagasság normális eloszlású. Az európai férak átlagos testmagassága 177, 6 cm. Megmértük 10 magyar fér testmagasságát, a magasságok átlaga 173,8 cm lett. A szórást 8 cm-nek feltételezve mondhatjuk-e, hogy a magyar emberek testmagassága szignikánsan eltér az európai átlagtól? H 0 : m = 177, 6; H 1 : m 177, 6. u = X m 0 σ n 173, 8 177, 6 = 10 = 1, 502. 8 α = 0, 05 terjedelem mellett Φ 1 (1 α/2) = 1, 96. p = 0, 133 > 0, 05. u < Φ 1 (1 α/2), elfogadjuk a nullhipotézist. A testmagasság nem tér el szignikánsan az átlagos európai értékt l az adatok alapján.

Egymintás u-próba A próba a normális eloszlás várható értékére vonatkozik ismert szórás mellett. X 1, X 2,..., X n N(m, σ 2 ), ahol m ismeretlen paraméter, σ > 0 ismert. Próbastatisztika (eloszlása standard normális H 0 mellett): u = X m 0 σ n. Egyoldali ellenhipotézis (one-sided): H 0 : m m 0 ; H 1 : m > m 0. Ha u > Φ 1 (1 α), akkor elvetjük a nullhipotézist, különben elfogadjuk. A p-érték ilyenkor 1 Φ(u). p < 0, 05: a várható érték szignikánsan több m 0 -nál. p 0, 05: a várható érték nem több szignikánsan m 0 -nál.

Egymintás u-próba Feltételezés: a testmagasság normális eloszlású. Az európai férak átlagos testmagassága 177, 6 cm. Megmértük 15 holland fér testmagasságát, a magasságok átlaga 183,7 cm lett. A szórást 8 cm-nek feltételezve mondhatjuk-e, hogy a hollandok testmagassága szignikánsan több az európai átlagnál?

Egymintás u-próba Feltételezés: a testmagasság normális eloszlású. Az európai férak átlagos testmagassága 177, 6 cm. Megmértük 15 holland fér testmagasságát, a magasságok átlaga 183,7 cm lett. A szórást 8 cm-nek feltételezve mondhatjuk-e, hogy a hollandok testmagassága szignikánsan több az európai átlagnál? H 0 : m 177, 6; H 1 : m > 177, 6. u = X m 0 σ n 183, 7 177, 6 = 15 = 2, 95. 8 α = 0, 05 terjedelem mellett Φ 1 (1 α) = 1, 645, így u > Φ 1 (1 α). p-érték: 1 Φ(2, 95) = 0, 0016 < 0, 05. Elutasítjuk a nullhipotézist. Az adatok statisztikailag bizonyítják, hogy a holland férak testmagasságának várható értéke szignikánsan több 177,6 cm-nél.

Kétmintás párosítatlan kétoldali u-próba (two-sample unpaired two-sided u-test) X 1, X 2,..., X n1, Y 1,..., Y n2 független normális eloszlású valószín ségi változók, ahol X i N(m 1, σ1 2), Y i N(m 2, σ2 2). Itt m 1, m 2 ismeretlen paraméterek, σ 1, σ 2 ismertek. Próbastatisztika (eloszlása standard normális H 0 mellett): u = X Y. σ1 2/n 1 + σ2 2/n 2 Kétoldali ellenhipotézis (two-sided): H 0 : m 1 = m 2 ; H 1 : m 1 m 2. Ha u > Φ 1 (1 α/2), akkor elvetjük a nullhipotézist, különben elfogadjuk. A p-érték (p-value) ilyenkor 2 2Φ( u ). p < 0, 05: a várható értékek szignikánsan eltérnek. p 0, 05: a várható értékek nem térnek el szignikánsan.

Kétmintás párosítatlan egyoldali u-próba (two-sample unpaired one-sided u-test) X 1, X 2,..., X n1, Y 1,..., Y n2 független normális eloszlású valószín ségi változók, ahol X i N(m 1, σ1 2), Y i N(m 2, σ2 2). Itt m 1, m 2 ismeretlen paraméterek, σ 1, σ 2 ismertek. Próbastatisztika (eloszlása standard normális H 0 mellett): u = X Y. σ1 2/n 1 + σ2 2/n 2 Egyoldali ellenhipotézis (one-sided): H 0 : m 1 m 2 ; H 1 : m 1 > m 2. Ha u > Φ 1 (1 α), akkor elvetjük a nullhipotézist, különben elfogadjuk. A p-érték (p-value) ilyenkor 1 Φ(u). p < 0, 05: az els eloszlás várható értéke szignikánsan nagyobb a második eloszlásénál.

Egymintás kétoldali t-próba (one-sample two-sided t-test) A normális eloszlás várható értékére, ismeretlen szórás esetén. X 1, X 2,..., X n N(m, σ 2 ), ahol m, σ ismeretlen paraméterek. Próbastatisztika (eloszlása t-eloszlás/student-eloszlás H 0 mellett): t = X m 0 sn n. Kétoldali ellenhipotézis (two-sided): H 0 : m = m 0 ; H 1 : m m 0. Ha t > t n 1,1 α/2, akkor elvetjük a nullhipotézist, különben elfogadjuk. Akkor vetjük el a nullhipotézist, ha p < α; ez azt jelenti, hogy a várható érték szignikánsan eltér m 0 -tól. A kritikus érték: t f,q az f szabadsági fokú (degree of freedom) t-eloszlás q-kvantilise, vagyis az a szám, melyre az alábbi teljesül: ( Z 0 q = P(Y t f,q ) = P t f,q ), Z1 2 +... + Z q 2 ahol Z 0, Z 1,..., Z q független standard normális eloszlásúak.

Példa: Egymintás t-próba Egy gyógyszer hatóanyagtartalma a csomagolás szerint 10 mg. Harminc tabletta hatóanyag-tartalmát megmérve a mérések átlaga 9, 4, korrigált tapasztalati szórása 0, 62 lett. α = 0, 05 terjedelem mellett a mérési adatok alapján eltér-e szignikánsan a hatóanyag-tartalom várható értéke a 10 mgtól?

A kritikus érték: t 29,0,975 = 2, 045 t = 5, 3 > 2, 045, szignikáns eltérés van. p-érték: p = 0, 000011 < 0, 05. Példa: Egymintás t-próba Egy gyógyszer hatóanyagtartalma a csomagolás szerint 10 mg. Harminc tabletta hatóanyag-tartalmát megmérve a mérések átlaga 9, 4, korrigált tapasztalati szórása 0, 62 lett. α = 0, 05 terjedelem mellett a mérési adatok alapján eltér-e szignikánsan a hatóanyag-tartalom várható értéke a 10 mgtól? n = 30; X = 9, 4; s n = 0, 62 Egymintás kétoldali t-próbát végezhetünk, normális eloszlást feltételezve. H 0 : m = 10; H 1 : 10; α = 0, 05; f = n 1 = 29. t = X m 0 s n n = 9, 4 10 0, 62 30 = 5, 3.

Egymintás egyoldali t-próba (one-sample one-sided t-test) A normális eloszlás várható értékére, ismeretlen szórás esetén. X 1, X 2,..., X n N(m, σ 2 ), ahol m, σ ismeretlen paraméterek. Próbastatisztika (eloszlása t-eloszlás H 0 mellett): t = X m 0 s n n. Egyoldali ellenhipotézis (one-sided): H 0 : m m 0 ; H 1 : m > m 0. Ha t > t n 1,1 α, akkor elvetjük a nullhipotézist, különben elfogadjuk. Akkor vetjük el H 0 -t, ha p < α; ez azt jelenti, hogy a várható érték szignikánsan több m 0 -nál. A kritikus érték: t n 1,1 α az f = n 1 szabadsági fokú t-eloszlás 1 αkvantilise, vagyis az f = n 1 szabadsági fokú t-próba kritikus értéke α terjedelem mellett.

Példa: egymintás egyoldali t-próba Százszor megmértük egy szerver válaszidejét (ms-ban). Az átlagos válaszid 0, 52 lett, a korrigált tapasztalati szórás 0, 18. A terjedelmet α = 0, 05-nek választva állíthatjuk-e, hogy a szerver válaszideje szignikánsan meghaladja az 50 ms-ot?

Példa: egymintás egyoldali t-próba Százszor megmértük egy szerver válaszidejét (ms-ban). Az átlagos válaszid 0, 52 lett, a korrigált tapasztalati szórás 0, 18. A terjedelmet α = 0, 05-nek választva állíthatjuk-e, hogy a szerver válaszideje szignikánsan meghaladja az 50 ms-ot? n = 100; X = 0, 52; s n = 0, 18 Mivel elég sok mérési adatunk van, használhatjuk az egymintás egyoldali t-próbát akkor is, ha a válaszid nem normális (hanem például exponenciális) eloszlású: H 0 : m 50; H 1 : m > 50. t = X m 0 s n n = 0, 52 0, 5 100 = 1, 11. 0, 18 Az f = n 1 = 99 szabadsági fokú egyoldali t-próba kritikus értéke α = 0, 05 terjedelem mellett 1, 66. Mivel t < t 99,0,95, elfogadjuk a nullhipotézist, a válaszid várható értéke nem haladja meg szignikánsan az 50 ms-ot. A p-érték: p = 0, 13 0, 05.

Kétmintás párosítatlan t-próba (Student-próba) (two-sample unpaired t-test) Független normális eloszlások várható értékének összehasonlítására, ha a a szórások egyenl k, de nem ismertek. X 1, X 2,..., X n1, Y 1,..., Y n2 független normális eloszlású valószín ségi változók, ahol X i N(m 1, σ 2 ), Y i N(m 2, σ 2 ). Itt m 1, m 2, σ ismeretlen paraméterek (feltételezzük, hogy a két szórás megegyezik). Próbastatisztika (eloszlása t-eloszlás H 0 mellett): X Y t = (n 1 1)sn 2 1 (X ) + (n 2 1)sn 2 2 (Y ) n 1 n 2 (n 1 + n 2 2) n 1 + n 2. Kétoldali ellenhipotézis (two-sided): H 0 : m 1 = m 2 ; H 1 : m 1 m 2. Ha t > t n1 +n 2 2,1 α/2, akkor elvetjük a nullhipotézist, különben elfogadjuk. A kritikus érték az f = n 1 + n 2 2 szabadsági fokú (degree of freedom) kétoldali t-próba kritikus értéke. p < 0, 05: elutasítjuk H 0 -t, a várható értékek szignikánsan eltérnek.

Példa: kétmintás t-próba Az A és B szerverek válaszideje (ms) néhány mérés során: átlag szórás A 42 67 33 58 53 38 47 53 48,875 11,12 B 65 69 83 53 72 39 57 36 42 45 56,1 15,8 A terjedelmet α = 0, 05-nek választva, szignikánsan eltér -e a két szerver válaszidejének várható értéke az adatok alapján?

Példa: kétmintás t-próba Az A és B szerverek válaszideje (ms) néhány mérés során: átlag szórás A 42 67 33 58 53 38 47 53 48,875 11,12 B 65 69 83 53 72 39 57 36 42 45 56,1 15,8 A terjedelmet α = 0, 05-nek választva, szignikánsan eltér -e a két szerver válaszidejének várható értéke az adatok alapján? Kétmintás kétoldali t-próbát alkalmazva: H 0 : m A = m B ; H 1 : m A m B excel: = T.TEST(C2:C9; D2:D9; 2; 2) (2: kétoldali; 2: kétmintás, párosítatlan, azonos szórás): 0, 158 0, 05, elfogadjuk a nullhipotézist, nincs szignikáns eltérés

Példa: kétmintás t-próba Az A és B szerverek válaszideje (ms) néhány mérés során: átlag szórás A 42 67 33 58 53 38 47 53 48,875 11,12 B 65 69 83 53 72 39 57 36 42 45 56,1 15,8 A terjedelmet α = 0, 05-nek választva, szignikánsan eltér -e a két szerver válaszidejének várható értéke az adatok alapján? Kétmintás kétoldali t-próbát alkalmazva: H 0 : m A = m B ; H 1 : m A m B excel: = T.TEST(C2:C9; D2:D9; 2; 2) (2: kétoldali; 2: kétmintás, párosítatlan, azonos szórás): 0, 158 0, 05, elfogadjuk a nullhipotézist, nincs szignikáns eltérés excel: = T.TEST(C2:C9; D2:D9; 2; 3): 0, 161 0, 05 (2: kétoldali; 3: párosítatlan, eltérhetnek a szórások; Welch-próba)

Kétmintás párosítatlan t-próba (two-sample unpaired t-test) Normális eloszlások várható értékének összehasonlítására, ha a két minta független és a szórások egyenl k, de nem ismertek. X 1, X 2,..., X n1, Y 1,..., Y n2 független normális eloszlású valószín ségi változók, ahol X i N(m 1, σ 2 ), Y i N(m 2, σ 2 ). Itt m 1, m 2, σ ismeretlen paraméterek (feltételezzük, hogy a két szórás megegyezik). Próbastatisztika (eloszlása t-eloszlás H 0 mellett): X Y t = (n 1 1)sn 2 1 (X ) + (n 2 1)sn 2 2 (Y ) n 1 n 2 (n 1 + n 2 2) n 1 + n 2. Egyoldali ellenhipotézis (one-sided): H 0 : m 1 m 2 ; H 1 : m 1 > m 2. Ha t > t n1 +n 2 2,1 α, akkor elvetjük a nullhipotézist, különben elfogadjuk. A kritikus érték az f = n 1 + n 2 2 szabadsági fokú egyoldali t-próba kritikus értéke α terjedelem mellett. p < 0, 05: az els várható érték szignikánsan nagyobb a másodiknál.

F -próba Független normális eloszlású minták szórásának összehasonlítására. Legyenek most X 1, X 2,..., X n1, Y 1,..., Y n2 független normális eloszlású valószín ségi változók, ahol X i N(m 1, σ1 2), Y i N(m 2, σ2 2 ). Itt m 1, m 2, σ 1, σ 2 ismeretlen paraméterek. Próbastatisztika (eloszlása F -eloszlás H 0 mellett): F = s 2 n 1. sn 2 2 Kétoldali ellenhipotézis: H 0 : σ 1 = σ 2 ; H 1 : σ 1 σ 2. Ha F > F n1 1,n 2 1(1 α/2) vagy F < F n1 1,n 2 1(α/2), akkor elvetjük a nullhipotézist, különben elfogadjuk. A kritikus érték: q = P(W F d1,d 2 (q)), ahol W = d 2(U 2 1 +U2 2 +...+U2 d 1 ) d 1 (V 2 1 +V 2 2 +...+V 2 d 2 ), és az U i, V i -k mind független standard normális eloszlású valószín ségi változók. p < 0, 05: a szórások szignikánsan eltérnek.

Normális eloszlásra vonatkozó próbák Az alábbiakat kell ellen rizni u, t, F -próba alkalmazásánál: A minta normális eloszlású, vagy a mintaelemszám elég nagy (a centrális határeloszlástétel alapján az átlag közel normális eloszlású).

Normális eloszlásra vonatkozó próbák Az alábbiakat kell ellen rizni u, t, F -próba alkalmazásánál: A minta normális eloszlású, vagy a mintaelemszám elég nagy (a centrális határeloszlástétel alapján az átlag közel normális eloszlású). Kétmintás esetben: a két minta egymástól független (unpaired eset). Ha a két minta természetes módon párosítható, párosított (paired) próba alkalmazható. Példa: megmérjük húsz ember vérnyomását egy adott napon reggel és este. Igaz-e, hogy a reggeli érték jelent sen eltér az estit l?

Normális eloszlásra vonatkozó próbák Az alábbiakat kell ellen rizni u, t, F -próba alkalmazásánál: A minta normális eloszlású, vagy a mintaelemszám elég nagy (a centrális határeloszlástétel alapján az átlag közel normális eloszlású). Kétmintás esetben: a két minta egymástól független (unpaired eset). Ha a két minta természetes módon párosítható, párosított (paired) próba alkalmazható. Példa: megmérjük húsz ember vérnyomását egy adott napon reggel és este. Igaz-e, hogy a reggeli érték jelent sen eltér az estit l? A két minta szórása megegyezik: ez F -próbával ellen rizhet. Különböz szórás esetén a Welch-féle t-próbát lehet használni.

χ 2 -próba: illeszkedésvizsgálat Legyen A 1, A 2,..., A r teljes eseményrendszer, p 1, p 2,..., p r pedig olyan nemnegatív számok, melyek összege 1. H 0 : P(A i ) = p i minden i = 1, 2,..., r-re. H 1 : P(A i ) p i valamelyik i = 1, 2,..., r-re. n független meggyelést végzünk. N i : hányszor következett be A i. Ha van i, hogy N i < 4: néhány osztályt össze kell vonnunk, hogy a próbát alkalmazhassuk (vagyis A i és A j helyett A i A j -t és p 1 + p 2 -t tekintjük). Próbastatisztika: T = r i=1 (N i n p i ) 2 n p i.

χ 2 -próba Adott A i teljes eseményrendszer (i = 1,..., r), és 0 p i számok: r i=1 p i = 1. H 0 : P(A i ) = p i minden i = 1, 2,..., r-re. H 1 : a nullhipotézis nem igaz Próbastatisztika: T = r i=1 (N i n p i ) 2 n p i. χ 2 -próba: H 0 -t elfogadjuk, ha T < c, ahol c az f = r 1 szabadsági fokú, α terjedelm χ 2 -próba c kritikus értéke. Pontosabban: P(Z 2 1 + Z 2 2 +... + Z 2 f < c) = 1 α, ahol Z 1,..., Z f független standard normális eloszlású valószín ségi változók. T > c vagy p < α: elutasítjuk H 0 -t, az eloszlás szignikánsan eltér (p k )-tól. T c vagy p α: elfogadjuk H 0 -t, az eloszlás nem tér el szignikánsan (p k )-tól.

χ 2 -próba: példa Példa: r = 6, dobókockával dobunk, A i : a dobás értéke i. p 1 = p 2 =... = p 6 = 1/6 (szabályos a dobókocka). A próba terjedelmének α = 0, 05-öt választjuk. n = 100 dobásból az alábbi értékek adódtak: érték 1 2 3 4 5 6 gyakoriság 21 11 20 22 11 15

χ 2 -próba: példa Példa: r = 6, dobókockával dobunk, A i : a dobás értéke i. p 1 = p 2 =... = p 6 = 1/6 (szabályos a dobókocka). A próba terjedelmének α = 0, 05-öt választjuk. n = 100 dobásból az alábbi értékek adódtak: érték 1 2 3 4 5 6 gyakoriság 21 11 20 22 11 15 Chi-squared test for given probabilities data: kocka1 X-squared = 7.52, df = 5, p-value = 0.1847 Ekkor T = 7, 52 < c = 11, 1, illetve a p-értékre 0, 1847 > 0, 05. Tehát elfogadjuk a nullhipotézist, nincs szignikáns eltérés a szabályossághoz képest. (Minden szám legalább 4-szer el fordult, nem kellett a beosztáson módosítani.)

χ 2 -próba: példa Ha ezerszer dobunk, és az alábbi eredmények adódnak: érték 1 2 3 4 5 6 gyakoriság 191 154 140 184 156 175 Chi-squared test for given probabilities data: kocka2 X-squared = 11.684, df = 5, p-value = 0.03938 Továbbra is α = 0, 05 terjedelem mellett számolva: T = 11, 684 > c = 11, 1, tehát elutasítjuk a nullhipotézist, statisztikai bizonyítékunk van arra, hogy a dobókocka nem szabályos. A p-érték 0, 03938 < 0, 05, szignikáns eltérés van a szabályossághoz képest.

Becsléses illeszkedésvizsgálat A 1, A 2,..., A r teljes eseményrendszer. N i : hányszor következik be A i egy n elem független mintában. Adott p i (s) minden s S-re. H 0 : van olyan s S, melyre P(A i ) = p i (s) minden r = 1, 2,..., r-re. H 1 : nincs olyan s S, melyre P(A i ) = p i (s) minden r = 1, 2,..., r-re teljesülne. Az s paramétervektor (d dimenziós) maximumlikelihood-becslése legyen ŝ, és legyen ˆp i = p i (ŝ). Számítsuk ki az alábbi mennyiséget: T = r i=1 (N i n ˆp i ) 2 n ˆp i. Legyen f = r d 1. A H 0 -t α terjedelem mellett elfogadjuk, ha T < c, ahol c az f szabadsági fokú kritikus értéke α terjedelem mellett. H 0 -t elutasítjuk, ha T > c (azaz p < α), ilyenkor a minta szignikánsan eltér az S által megadott eloszláscsaládtól.

Becsléses illeszkedésvizsgálat: példa Példa. Az egy futballmérk zésen l tt gólok száma a világbajnokság n = 95 mérk zésén: gólok száma 0 1 2 3 4 5 6 7 8 mérk zések száma 23 37 20 11 2 1 0 0 1 Poisson-esetben az s paraméter maximumlikelihood-becslése: ŝ = X = 0 23 + 1 37 + 2 20 + 3 11 + 4 2 + 5 1 + 8 1 95 = 1, 379. Mivel vannak olyan osztályok, ahova 4-nél kevesebb meggyelés esik, a beosztást módosítjuk: gólok száma 0 1 2 3 4 mérk zések száma 23 37 20 11 4

Becsléses illeszkedésvizsgálat: példa H 0 : az eloszlás Poisson-eloszlásból származik, valamely s > 0 paraméterrel (most d = 1). H 1 : az eloszlás nem Poisson-eloszlás. ˆp = 1, 379 a paraméter maximumlikelihood-becslése. gólok száma 0 1 2 3 4 mérk zések száma 23 37 20 11 4 Poisson(ˆp)-eloszlás 23,92 32,99 22,75 10,46 4,88 Ebben az esetben T = 1, 04, f = 5 1 1 = 3, a kritikus érték 7, 81. T < c: elfogadjuk, hogy a minta Poisson-eloszlásból származik.

Függetlenségvizsgálat Két szempont szerint soroljuk osztályokba a meggyeléseket. Els szempont: A 1,..., A r. Második szempont: B 1,..., B s. H 0 : a két szempont független egymástól, azaz P(A i B j ) = P(A i ) P(B j ) minden i, j-re. H 1 : a nullhipotézis nem igaz, a két szempont összefügg. N ij : hány olyan meggyelés van, melyre A i és B j teljesül. N i = s j=1 N ij (azaz az A i gyakorisága); N j = r i=1 N ij (azaz B j gyakorisága); n pedig az összes meggyelés száma. Ekkor a próbastatisztika: T = r i=1 j=1 ( s Nij N i N j N i N j n n ) 2.

Függetlenségvizsgálat H 0 : a két szempont független egymástól. Próbastatisztika: T = r i=1 j=1 ( s Nij N i N j N i N j n n ) 2. A szabadsági fok f = (r 1)(s 1). c: az f szabadsági fokú χ 2 -próba kritikus értéke α terjedelem mellett. T < c (azaz a p α): elfogadjuk H 0 -t, nem találtunk szignikáns összefüggést a szempontok között. T > c (azaz a p < α): elutasítjuk H 0 -t, az adatok szignikáns összefüggést mutatnak. Ha r = s = 2, a próbastatisztika az alábbi egyszer bb alakra hozható: T = n( N 11 N 22 N 12 N 21 ) 2 N 1 N 2 N 1 N 2.

Függetlenségvizsgálat: példa H 0 : a h mérséklet és a csapadékmennyiség független; H 1 : a h mérséklet és a csapadékmennyiség nem független. n = 100, f = 2 2 = 4, α = 0, 05: meleg átlagos hideg es s 15 10 5 átlagos 10 10 20 száraz 5 20 5 data: ido X-squared = 22.917, df = 4, p-value = 0.0001316 22, 917 > c krit = 9, 49, illetve p < α = 0, 05 elutasítjuk a nullhipotézist, szignikáns összefüggés van a két szempont között.

Pozitív korreláció Tekintsük a függetlenségvizsgálatot abban az esetben, ha mindkét szempont szerint két osztály van. H 0 : a két szempont között nincs pozitív korreláció H 1 : a két szempont között pozitív korreláció van, azaz P(A 1 B 1 ) > P(A 1 )P(B 1 ). A próbastatisztika: u = n N 11N 22 N 12 N 21 N1 N 2 N 1 N 2 Ha u > Φ 1 (1 α), akkor elutasítjuk H 0 -t, különben elfogadjuk. A p-érték: 1 Φ(u).

Pozitív korreláció: példa. Példa. Vérnyomás-sz r vizsgálatnál a 40 évesnél id sebbek közül 24-nek magas, 62-nek megfelel volt a vérnyomása, a 40 évesnél nem id sebbek közül 12-nek volt magas, 88-nak megfelel. Állíthatjuk-e α = 0, 05 terjedelem mellett, hogy a 40 évesnél id sebbek között gyakoribb a magas vérnyomás?

Pozitív korreláció: példa. Példa. Vérnyomás-sz r vizsgálatnál a 40 évesnél id sebbek közül 24-nek magas, 62-nek megfelel volt a vérnyomása, a 40 évesnél nem id sebbek közül 12-nek volt magas, 88-nak megfelel. Állíthatjuk-e α = 0, 05 terjedelem mellett, hogy a 40 évesnél id sebbek között gyakoribb a magas vérnyomás? A 1 : 40 évesnél nagyobb életkor; A 2 = A 1. B 1 : magas vérnyomás; B 2 = B 1. H 0 : P(A 1 B 1 ) P(A 1 )P(B 1 ). N 11 = 24; N 12 = 62; N 21 = 12; N 22 = 88; n = 186. u = n N 11N 22 N 12 N 21 = 24 88 62 12 186, N1 N 2 N 1 N 2 86 100 36 150 és 2, 74 > Φ 1 (0, 95) = 1, 645, így elutasítjuk a nullhipotézist. A nagyobb életkor és a magas vérnyomás között szignikáns pozitív korreláció van. p-érték: 0, 003 < 0, 05.

Homogenitásvizsgálat Legyenek X, Y valószín ségi változók. R-t bontsuk fel diszjunkt halmazok uniójára: A 1,..., A r. H 0 : az X és Y valószín ségi változók eloszlása megegyezik, azaz P(X A i ) = P(Y A i ) minden i = 1, 2,..., r-re. H 1 : az X és Y valószín ségi változók eloszlás eltér, azaz van legalább egy i, melyre P(X A i ) P(Y A i ). X 1,..., X n, Y 1,..., Y m független minta úgy, hogy X 1,..., X n X, Y 1,..., Y n Y. N i az A i gyakorisága az X mintában; M i az A i gyakorisága az Y mintában. A próbastatisztika: T = r i=1 ) M i 2 m n m. N i + M i ( Ni n

Homogenitásvizsgálat A próbastatisztika: T = r i=1 ( Ni n ) M i 2 m n m. N i + M i A szabadsági fok: f = r 1. c: az f szabadsági fokú χ 2 -próba kritikus értéke α terjedelem mellett. T < c (azaz a p α): elfogadjuk H 0 -t, nem találtunk szignikáns eltérést az eloszlások között. T > c (azaz a p < α): elutasítjuk H 0 -t, az eloszlások szignikáns eltérést mutatnak.

Hipotézisvizsgálat A lineáris tag együtthatójára vonatkozó hipotézisvizsgálati feladat a következ (a terjedelem α): H 0 : a = 0 H 1 : a 0 vagy H 1 : a > 0 vagy H 1 : a < 0. A nullhipotézis mellett az alábbi mennyiség n 2 szabadsági fokú t-eloszlású: (n 2) n i=1 t = (X i X ) 2 â n i=1 (Y i âx i ˆb). 2 Kétoldali ellenhipotézis, H 1 : a 0. Ha t > t n 2 (1 α/2), akkor elutasítjuk H 0 -t (az együttható szignikánsan eltér 0-tól), különben elfogadjuk. Egyoldali ellenhipotézis, H 1 : a > 0. Ha t > t n 2 (1 α), akkor elutasítjuk H 0 -t (az együttható szignikánsan nagyobb 0-nál), különben elfogadjuk. Kétoldali ellenhipotézis, H 1 : a < 0. Ha t < t n 2 (α), akkor elutasítjuk H 0 -t (az együttható szignikánsan kisebb 0-nál), különben elfogadjuk.

Torzítatlan becslés (Ω, A, P) statisztikai mez ; P = {P ϑ : ϑ Θ) valamely Θ halmazzal (Θ a paramétertér); ψ : Θ R függvény. Cél: olyan T statisztika keresése, amire a T (X ) valószín ségi változó és a ψ(ϑ) érték valamilyen értelemben közel esnek egymáshoz.

Torzítatlan becslés (Ω, A, P) statisztikai mez ; P = {P ϑ : ϑ Θ) valamely Θ halmazzal (Θ a paramétertér); ψ : Θ R függvény. Cél: olyan T statisztika keresése, amire a T (X ) valószín ségi változó és a ψ(ϑ) érték valamilyen értelemben közel esnek egymáshoz. Deníció (Torzítatlanság) A T : H R statisztika torzítatlan becslés ψ-re, ha minden ϑ Θ-ra E ϑ (T (X 1,..., X n )) = ψ(ϑ). A T statisztika torzítása a b T (ϑ) = E ϑ (T (X 1,..., X n )) ψ(ϑ) függvény. Példa. X 1, X 2,..., X n független minta a [0, ϑ] intervallumon egyenletes eloszlásból. Ekkor 2X torzítatlan becslés ψ(ϑ) = ϑ-ra.

Torzítatlan becslések Állítás (A várható érték torzítatlan becslése) Legyen X 1,..., X n független azonos eloszlású minta. Legyen ψ(ϑ) = E ϑ (X 1 ), azaz a mintának a P ϑ eloszlás szerinti várható értéke. Ekkor a T (X 1,..., X n ) = X statisztika, vagyis a mintaátlag torzítatlan becslés ψ- re. Állítás (A szórásnégyzet torzítatlan becslése) X 1,..., X n független azonos eloszlású minta. Legyen ψ(ϑ) = Dϑ 2(X 1), azaz a mintának a P ϑ eloszlás szerinti szórásnégyzete. Ekkor a T (X 1,..., X n ) = sn 2 statisztika, vagyis a korrigált tapasztalati szórásnégyzet torzítatlan becslés ψ-re. Bizonyítás: a következ oldalakon.

Az átlag várható értéke Állítás Legyen X 1,..., X n független azonos eloszlású minta, és m = E(X i ) <. Ekkor E(X ) = m.

Az átlag várható értéke Állítás Legyen X 1,..., X n független azonos eloszlású minta, és m = E(X i ) <. Ekkor E(X ) = m. Bizonyítás. ( ) X1 +... + X n E(X ) = E = 1 n n E(X 1 +... + X n ) = 1 nm = m. n Felhasználtuk a várható érték linearitását, és hogy csak eloszlástól függ: E(cX ) = ce(x ), ha c R; E(Y + Z) = E(Y ) + E(Z); ha Y és Z eloszlása megegyezik, akkor E(Y ) = E(Z) Tehát a mintaátlag torzítatlan becslés a várható értékre.

Az átlag szórása Állítás Legyen X 1,..., X n független azonos eloszlású minta, és σ = D(X i ) <. Ekkor D(X ) = σ/ n.

Az átlag szórása Állítás Legyen X 1,..., X n független azonos eloszlású minta, és σ = D(X i ) <. Ekkor D(X ) = σ/ n. Bizonyítás. D(X ) = D ( ) X1 +... + X n n = D(X 1 +... + X n ) n = nσ 2 n = σ n. Felhasználtuk a szórás alábbi tulajdonságait: D(cX ) = c D(X ), ha c R; D 2 (Y + Z) = D 2 (Y ) + D 2 (Z), ha Y és Z függetlenek; ha Y és Z eloszlása megegyezik, akkor D(Y ) = D(Z)

A tapasztalati szórásnégyzet Állítás (A tapasztalati szórásnégyzet másik alakja) s 2 n = 1 n [ n k=1 X 2 k ] X 2. Bizonyítás. Átrendezéssel kapjuk, hogy n n [ (X k X ) 2 = X 2 k 2X k X + X 2 ] = k=1 = k=1 n X 2 k n X 2. k=1 n X 2 k 2nX X + n X 2 = k=1 Ebb l adódik, hogy sn 2 = 1 [ n ] (X k X ) 2 = 1 [ n n n k=1 a tapasztalati szórásnégyzet deníciója alapján. k=1 X 2 k ] X 2,

A korrigált tapasztalati szórásnégyzet Ennek a várható értékét szeretnénk kiszámítani: sn 2 = n n 1 s2 n = n [ [ n ] ] 1 X 2 k X 2 = 1 [ n n 1 n n 1 k=1 k=1 X 2 k ] n n 1 X 2. Az els tag várható értéke: ( n ) n E ϑ X 2 k = E ϑ (X 2 k ) = n E ϑ(x 2 1 ) = n [D ϑ 2 (X 1) + E ϑ (X 1 ) 2]. k=1 k=1

A korrigált tapasztalati szórásnégyzet A második taghoz az átlag szórását kell kiszámítani: ( ) Dϑ 2 (X ) = X1 +... + X n D2 ϑ = 1 n n 2 D2 ϑ (X 1 +... + X n ) = 1 n D 2 n 2 ϑ (X k) = = 1 n 2 n D2 ϑ (X 1) = 1 n D2 ϑ (X 1). k=1

A korrigált tapasztalati szórásnégyzet A második taghoz az átlag szórását kell kiszámítani: ( ) Dϑ 2 (X ) = X1 +... + X n D2 ϑ = 1 n n 2 D2 ϑ (X 1 +... + X n ) = 1 n D 2 n 2 ϑ (X k) = = 1 n 2 n D2 ϑ (X 1) = 1 n D2 ϑ (X 1). k=1 Így a második tag várható értéke: E ϑ ( X 2) = D 2 ϑ (X 2 ) + E ϑ (X ) 2 = 1 n 2 D2 ϑ (X 1) + E ϑ (X 1 ) 2. Az összeg lesz a korrigált tapasztalati szórásnégyzet várható értéke: E ϑ (sn 2 ) = n [ D 2 n 1 ϑ (X 1 )+E ϑ (X 1 ) 2] n [ ] 1 n 1 n D2 ϑ (X 1)+E ϑ (X 1 ) 2 = Dϑ 2 (X 1). Tehát s 2 n torzítatlan becslés a szórásnégyzetre.

Hatásosság Deníció (Hatásosság) Legyenek T 1, T 2 torzítatlan becslései a paraméter ψ(ϑ) függvényének. T 1 hatásosabb T 2 -nél, ha Dϑ 2(T 1) Dϑ 2(T 2) teljesül minden ϑ Θ-ra. A T 1 becslés hatásos ψ(ϑ)-ra, ha ψ(ϑ) minden torzítatlan becslésénél hatásosabb (és maga is torzítatlan). Nem mindig létezik hatásos becslés, és lehetséges, hogy T 1 és T 2 közül egyik sem hatásosabb a másiknál.

Hatásosság Deníció (Hatásosság) Legyenek T 1, T 2 torzítatlan becslései a paraméter ψ(ϑ) függvényének. T 1 hatásosabb T 2 -nél, ha Dϑ 2(T 1) Dϑ 2(T 2) teljesül minden ϑ Θ-ra. A T 1 becslés hatásos ψ(ϑ)-ra, ha ψ(ϑ) minden torzítatlan becslésénél hatásosabb (és maga is torzítatlan). Nem mindig létezik hatásos becslés, és lehetséges, hogy T 1 és T 2 közül egyik sem hatásosabb a másiknál. Állítás Legyen (X 1,..., X n ) független azonos eloszlású minta véges szórású eloszlásból. Ekkor ψ(ϑ) = E ϑ (X i )-re a mintaátlag hatásosabb minden n j=1 c jx j alakú becslésnél, ahol 0 c j és n j=1 c j = 1. Az állítás a számtani és négyzetes közepek közötti egyenl tlenségb l adódik. Ugyanakkor a mintaátlag nem minden esetben hatásos becslése a várható értéknek, csak a lineáris kombinációknál hatásosabb.

Konzisztencia Deníció A T n = T n (X 1,..., X n ) konzisztens becsléssorozat ψ(ϑ)-ra, ha minden ϑ Θ-ra (T n (X 1,..., X n )) ψ(ϑ) n esetén sztochasztikusan, azaz minden ϑ Θ és ε > 0-ra teljesül, hogy ( P ϑ Tn ψ(ϑ) > ε ) 0 (n ). Példa. X 1, X 2,... független azonos eloszlású minta. Ekkor T n = X 1+X 2 +...+X n n konzisztens becsléssorozat E ϑ (X 1 )-re, hiszen a nagy számok gyenge törvénye szerint T n E ϑ (X 1 ) sztochasztikusan. Továbbá, ha például X 1, X 2,... függetlenek és N(m, σ 2 ) eloszlásúak, akkor az átlag konzisztens m-re, s n pedig σ-ra (s n is konzisztens σ-ra).

Egyenl tlenségek Állítás (Markov-egyenl tlenség) Legyen t > 0 tetsz leges pozitív szám, X pedig olyan véges várható érték valószín ségi változó, mely csak nemnegatív értékeket vesz fel, vagyis melyre X 0 teljesül. Ekkor P(X t) E(X ). t

Egyenl tlenségek Állítás (Markov-egyenl tlenség) Legyen t > 0 tetsz leges pozitív szám, X pedig olyan véges várható érték valószín ségi változó, mely csak nemnegatív értékeket vesz fel, vagyis melyre X 0 teljesül. Ekkor P(X t) E(X ). t Állítás (Csebisev-egyenl tlenség) Legyen X véges szórású valószín ségi változó, s > 0 pozitív szám. Ekkor P( X E(X ) s) D2 (X ) s 2.

Egyenl tlenségek Állítás (Markov-egyenl tlenség) Legyen t > 0 tetsz leges pozitív szám, X pedig olyan véges várható érték valószín ségi változó, mely csak nemnegatív értékeket vesz fel, vagyis melyre X 0 teljesül. Ekkor P(X t) E(X ). t Állítás (Csebisev-egyenl tlenség) Legyen X véges szórású valószín ségi változó, s > 0 pozitív szám. Ekkor Következmény P( X E(X ) s) D2 (X ) s 2. Legyen X véges szórású valószín ségi változó, s > 0 pozitív szám. Ekkor P( X E(X ) < s) 1 D2 (X ) s 2.

A nagy számok gyenge törvénye Legyenek X 1,..., X n független azonos eloszlású véges szórású valószín ségi változók. Legyen m = E(X 1 ) és σ = D 2 (X 1 ). A korábbiak szerint E(X ) = m; D(X ) = σ2 n.

A nagy számok gyenge törvénye Legyenek X 1,..., X n független azonos eloszlású véges szórású valószín ségi változók. Legyen m = E(X 1 ) és σ = D 2 (X 1 ). A korábbiak szerint E(X ) = m; D(X ) = σ2 n. A Csebisev-egyenl tlenség szerint minden ε > 0-ra P( X m > ε) D2 (X ) ε 2 = σ2 ε 2 n 0 (n ). Tehát X m = E(X 1 ) sztochasztikusan, vagyis az átlag konzisztens becslés a várható értékre.

Maximumlikelihood-módszer Deníció (Likelihood-függvény) Legyen Y 1,..., Y n minta. Ha ezek abszolút folytonosak, és Y j s r ségfüggvénye (a P ϑ -re vonatkozóan) f j,ϑ, akkor a minta likelihood-függvénye: n L n,ϑ (t 1,..., t n ) = f j,ϑ (t j ) j=1 (t 1,..., t n R). Ha a minta diszkrét, akkor a minta likelihood-függvénye: n L n,ϑ (k 1,..., k n ) = P j,ϑ (Y j = k j ) j=1 ((k 1,..., k n ) H).

Maximumlikelihood-módszer Deníció (Maximum-likelihood becslés) A ϑ maximumlikelihood-becslése (ML-becslése) az X 1,..., X n mintából ˆϑ, ha ˆϑ maximalizálja a ϑ L n,ϑ (X 1,..., X n ) függvényt, ahol L n,ϑ a minta likelihood-függvénye. Azaz, ha L n, ˆϑ (X 1,..., X n ) L n,ϑ (X 1,..., X n ) minden ϑ Θ-ra. Példa. X 1,..., X n függetlenek, eloszlásuk exponenciális eloszlás ϑ > 0 paraméterrel. Ekkor L n,ϑ (X 1,..., X n ) = amib l ˆϑ = 1 X. n f j,ϑ (X j ) = j=1 n j=1 [ ] ϑ exp( ϑx j )I(X j > 0),

ML-becslés: exponenciális eloszlás X 1,..., X n függetlenek, eloszlásuk exponenciális eloszlás ϑ > 0 paraméterrel. Ekkor L n,ϑ (X 1,..., X n ) = n f j,ϑ (X j ) = j=1 n j=1 L n,ϑ (X 1,..., X n ) = ϑ n exp [ ] ϑ exp( ϑx j )I(X j > 0). ( ϑ n X j ). j=1

ML-becslés: exponenciális eloszlás X 1,..., X n függetlenek, eloszlásuk exponenciális eloszlás ϑ > 0 paraméterrel. Ekkor L n,ϑ (X 1,..., X n ) = n f j,ϑ (X j ) = j=1 n j=1 L n,ϑ (X 1,..., X n ) = ϑ n exp [ ] ϑ exp( ϑx j )I(X j > 0). ( ϑ ln L n,ϑ (X 1,..., X n ) = n ln ϑ ϑ n X j ). j=1 n j=1 X j

ML-becslés: exponenciális eloszlás X 1,..., X n függetlenek, eloszlásuk exponenciális eloszlás ϑ > 0 paraméterrel. Ekkor L n,ϑ (X 1,..., X n ) = n f j,ϑ (X j ) = j=1 n j=1 L n,ϑ (X 1,..., X n ) = ϑ n exp [ ] ϑ exp( ϑx j )I(X j > 0). ( ϑ ln L n,ϑ (X 1,..., X n ) = n ln ϑ ϑ n X j ). j=1 n j=1 ϑ ln L n,ϑ(x 1,..., X n ) = n nx > 0 ϑ < 1/X. ϑ X j

Az ML-becslés tulajdonságai Nem minden statisztikai mez n létezik ML-becslés. Az ML-becslés nem feltétlenül egyértelm. A ψ(ϑ) függvény ML-becslése ψ( ˆϑ), ahol ˆϑ ML-becslés ϑ-ra. Megfelel feltételek (er s regularitási feltételek mellett) az ML-becslés aszimpotikusan torzítatlan, és aszimptotikusan normális eloszlású, azaz n( ˆϑn ϑ) normális eloszláshoz konvergál eloszlásban n esetén (a P ϑ valószín ségre vonatkozóan). Az alábbi egyenlet a maximumlikelihood-egyenlet: ϑ ln L n,ϑ(x 1,..., X n ) = 0. Megfelel feltételek mellett az ML-becslés a maximumlikelihood-egyenlet megoldása (ha az ML-becslés nem számítható ki, de az egyenlet megoldható, gyakran az egyenlet megoldásával helyettesítik az MLbecslést).

ML-becslés: normális eloszlás X 1,..., X n függetlenek, eloszlásuk normális eloszlás m, σ > 0 paraméterekkel. Ekkor L n,m,σ (X 1,..., X n ) = n f j,ϑ (X j ) = j=1 n [ 1 exp( (X j m) 2 /2σ ]. 2 2πσ j=1

ML-becslés: normális eloszlás X 1,..., X n függetlenek, eloszlásuk normális eloszlás m, σ > 0 paraméterekkel. Ekkor L n,m,σ (X 1,..., X n ) = n f j,ϑ (X j ) = j=1 n [ 1 exp( (X j m) 2 /2σ ]. 2 2πσ j=1 L n,m,σ (X 1,..., X n ) = ( 1 2πσ ) n exp ( n ) (X j m) 2. 2σ 2 j=1

ML-becslés: normális eloszlás X 1,..., X n függetlenek, eloszlásuk normális eloszlás m, σ > 0 paraméterekkel. Ekkor L n,m,σ (X 1,..., X n ) = n f j,ϑ (X j ) = j=1 n [ 1 exp( (X j m) 2 /2σ ]. 2 2πσ j=1 L n,m,σ (X 1,..., X n ) = ( 1 2πσ ) n exp ( n ) (X j m) 2. 2σ 2 j=1 ln L n,m,σ (X 1,..., X n ) = n ln( 2π) n ln σ n j=1 (X j m) 2 2σ 2. Rögzített σ mellett ez akkor maximális, ha n j=1 (X j m) 2 = n j=1 X 2 j 2 n j=1 X jm + nm 2 minimális ˆm = X.

ML-becslés: normális eloszlás ln L n,σ (X 1,..., X n ) = n ln( 2π) n ln σ A σ szerinti parciális derivált: dσ ln L n,σ(x 1,..., X n ) = n n σ + j=1 n j=1 (X j X ) 2 σ 3. Ez pontosan akkor pozitív, ha σ 2 < 1 n n j=1 (X j X ) 2 = s 2 n. (X j X ) 2 2σ 2. Tehát az ML-becslés: ˆm = X ; ˆσ = s n.

ML-becslés: egyenletes eloszlás X 1,..., X n függetlenek, eloszlásuk egyenletes eloszlás az [a, b] intervallumon. Ekkor L n,a,b (X 1,..., X n ) = n f j,ϑ (X j ) = j=1 n 1 I(a X j b) b a. j=1 ( 1 L n,a,b (X 1,..., X n ) = b a ) ni(a min j X j és max X j b). j

ML-becslés: egyenletes eloszlás X 1,..., X n függetlenek, eloszlásuk egyenletes eloszlás az [a, b] intervallumon. Ekkor L n,a,b (X 1,..., X n ) = n f j,ϑ (X j ) = j=1 n 1 I(a X j b) b a. j=1 ( 1 L n,a,b (X 1,..., X n ) = b a ) ni(a min j X j és max X j b). j Ebb l: â = min X j ; ˆb = max X j. j j Az els tényez legyen minél nagyobb (vagyis b a minél kisebb) úgy, hogy a második tényez nem nulla.

ML-becslés: Poisson-eloszlás X 1,..., X n függetlenek, Poisson-eloszlás λ > 0 paraméterrel. Ekkor L n,λ (X 1,..., X n ) = n j=1 λ X j X j! e λ. L n,λ (X 1,..., X n ) = λ n j=1 X j e nλ n j=1 1 X j!.

ML-becslés: Poisson-eloszlás X 1,..., X n függetlenek, Poisson-eloszlás λ > 0 paraméterrel. Ekkor L n,λ (X 1,..., X n ) = n j=1 λ X j X j! e λ. L n,λ (X 1,..., X n ) = λ n j=1 X j e nλ ln L n,λ (X 1,..., X n ) = ln λ n j=1 n X j nλ ln j=1 1 X j!. n j=1 1 X j!

ML-becslés: Poisson-eloszlás X 1,..., X n függetlenek, Poisson-eloszlás λ > 0 paraméterrel. Ekkor L n,λ (X 1,..., X n ) = n j=1 λ X j X j! e λ. L n,λ (X 1,..., X n ) = λ n j=1 X j e nλ ln L n,λ (X 1,..., X n ) = ln λ n j=1 n X j nλ ln j=1 n λ ln L j=1 n,λ(x 1,..., X n ) = X j λ Ezért az ML-becslés: ˆλ = X. 1 X j!. n j=1 1 X j! n > 0 λ < X.

Momentummódszer Legyen X 1,..., X n független azonos eloszlású minta. 1 Az eloszlás k. momentuma: µ k,ϑ = E ϑ (X k 1 ). 2 Legyen ˆµ k = 1 n n j=1 X k az eloszlás k. tapasztalati momentuma. j 3 Írjuk fel az alábbi egyenleteket a legkisebb olyan k-ig, amire az egyenletrendszer egyértelm en meghatározza ϑ-t (bár nincs mindig ilyen k): E ϑ (X 1 ) = 1 n X j ; n E ϑ (X 2 1 ) = 1 n... E ϑ (X k 1 ) = 1 n j=1 n j=1 n j=1 X 2 j ; X k j. 4 A ϑ momentummódszerrel kapott becslése az a ˆϑ, ami megoldása a fenti egyenletrendszernek.

Momentummódszer: Poisson és exponenciális eloszlás X 1,..., X n független Poisson-eloszlásúak λ > 0 paraméterrel. A k = 1-hez tartozó egyenlet: E λ (X 1 ) = X. Mivel a λ paraméter Poisson-eloszlás várható értéke λ: ˆλ = X.

Momentummódszer: Poisson és exponenciális eloszlás X 1,..., X n független Poisson-eloszlásúak λ > 0 paraméterrel. A k = 1-hez tartozó egyenlet: E λ (X 1 ) = X. Mivel a λ paraméter Poisson-eloszlás várható értéke λ: ˆλ = X. X 1,..., X n független exponenciális eloszlásúak λ paraméterrel. A k = 1- hez tartozó egyenlet: E λ (X 1 ) = 1 ϑ = 1 n n X j = X. j=1 Ez egyértelm en oldható meg λ-ra: ˆλ = 1/X.

Momentummódszer: normális eloszlás X 1,..., X n független N(m, σ 2 ) eloszlású minta (azaz normális eloszlású m várható értékkel és σ szórással). A k = 1-hez és k = 2-höz tartozó egyenletek: E m,σ (X 1 ) = m = X ; E m,σ (X 2 1 ) = σ 2 + m 2 = 1 n Xj 2. n A másodikba beírva az els t: σ 2 = 1 n n j=1 X j 2 X 2 = sn 2 (a tapasztalati szórásnégyzet). Tehát az els két egyenlet együtt egyértelm en oldható meg, a momentummódszerrel kapott becslés: ˆm = X ; ˆσ = s n. j=1

Az egyenletes eloszlás várható értéke és szórása Az egyenletes eloszlás s r ségfüggvénye: f (x) = 1, ha a x b, és 0 b a különben. A várható értéke: E(X ) = x f (x)dx = = b2 a 2 2(b a) = a + b 2. b a [ x b a dx = x 2 2(b a) ] b x=a

Az egyenletes eloszlás várható értéke és szórása Az egyenletes eloszlás s r ségfüggvénye: f (x) = 1, ha a x b, és 0 b a különben. A várható értéke: E(X ) = x f (x)dx = = b2 a 2 2(b a) = a + b 2. b a [ x b a dx = x 2 2(b a) ] b x=a A négyzetének a várható értéke: E(X 2 ) = x 2 f (x)dx = b = b3 a 3 3(b a) = a2 + ab + b 2. 3 a x 2 b a dx = 1 [ x 3 b a 3 ] b x=a

Az egyenletes eloszlás várható értéke és szórása Az egyenletes eloszlás s r ségfüggvénye: f (x) = 1, ha a x b, és 0 b a különben. A várható értéke: E(X ) = a + b 2. A négyzetének a várható értéke: E(X 2 ) = a2 + ab + b 2. 3 A szórásnégyzete: D 2 (X ) = E(X 2 ) E(X ) 2 = a2 + ab + b 2 = a2 2ab + b 2 12 3 (b a)2 =. 12 a2 + 2ab + b 2 4

Momentummódszer: egyenletes eloszlás Legyen X 1,..., X n független minta az [a, b] intervallumon egyenletes eloszlásból. A k = 1-hez és k = 2-höz tartozó egyenlet: E a,b (X 2 1 ) = E a,b (X 1 ) = a + b = X ; 2 ( ) (b a)2 a + 2 b + = 1 n Xj 2. 12 2 n j=1 A másodikba beírva az els t: (b a)2 = 1 n 12 n j=1 X j 2 X 2 = sn, 2 amib l â = X 3s n ; ˆb = X + 3sn. ML-becsléssel: â = X 1 = min(x 1,..., X n ), ˆb = X n = max(x 1,..., X n ). Egyik becslés sem torzítatlan.

Tapasztalati momentumok Deníció Legyen k 1 egész. Ekkor a minta k. tapasztalati momentuma (kth sample moment) a mintaelemek k. hatványainak átlaga: 1 n n j=1 X k j. Ekkor a minta k. centrált tapasztalati momentuma (kth sample central moment): m k = 1 n (X j X ) k. n j=1

Ferdeség Deníció A tapasztalati ferdeség (sample skewness) két szokásos deníciója: γ = m 3 s 3 n = 1 n ( 1 n 1 n j=1 (X j X ) 3 n j=1 (X j X 2 ) ). 3/2 γ 1 = n 2 (n 1)(n 2) m3 s 3 n = n (n 1)(n 2) n ( ) Xj 3 X. j=1 s n

Lapultság Deníció A lapultság (sample kurtosis) egy lehetséges deníciója: κ = m n 4 j=1 3 = n (X j X ) 4 m2 2 ( n j=1 (X j X 2 ) ) 3. 2

Példa: normális eloszlás n = 500, m = 3, σ = 2 normális eloszlású minta X = 2, 9677, s n = 2, 14, ferdeség: γ = 0, 04, lapultság: κ = 0, 211.

Példa: exponenciális eloszlás n = 500, λ = 1/3 exponenciális eloszlású minta (szórás: 3) X = 3, 033, s n = 2, 986, ferdeség: γ = 1, 85, lapultság: κ = 4, 78.

Példa: egyenletes eloszlás n = 500, a = 0, b = 6 intervallumon egyenletes eloszlású minta X = 2, 93, s n = 1, 73, ferdeség: γ = 0, 0297, lapultság: κ = 1, 2.

Példa: Poisson-eloszlás n = 500, λ = 3 paraméter Poisson-eloszlású minta X = 2, 922, s n = 1, 64, ferdeség: γ = 0, 53, lapultság: κ = 0, 0064.