11. Matematikai statisztika

11. Matematikai statisztika 11.1. Alapfogalmak A statisztikai minta valamely valószínűségi változóra vonatkozó véges számú független kisérlet eredménye. Ez véges sok, azonos eloszlású valószínűségi változó együttese. Az egyes megfigyelési eredmények a minta elemei. A megfigyelések száma a minta elemszáma. Jelölés:ξ 1,ξ 2,...,ξ n Megjegyzés: A kisérletek során mindegyik mintaelem egy konkrét értéket vesz fel: ξ 1 = x 1,ξ 2 = x 2,...,ξ n = x n Szokás az (x 1, x 2,..., x n ) értékhalmazt is statisztikai mintának nevezni. Azt az F n :R R függvényt, amelynek x R helyen felvett értéke az x-nél kisebb megfigyelések számának relatív gyakorisága empirikus eloszlásfüggvénynek nevezzük. 1 F n x 1 x 2 x 3 x 4 x 5... x n x Készítette: Vajda István 169

Glivenko tétele: Legyenξ 1,ξ 2,...,ξ n aξvalósznűségi változóra vonatkozó n- elemű statisztikai minta, ξ eloszlásfüggvénye F, a minta empirikus eloszlásfüggvénye F n. Ha n az empirikus és az elméleti eloszlásfüggvények közötti eltérés maximuma, azaz n = max x R F n (x) F (x), akkor n 1 valószínűséggel egyenletesen 0-hoz konvergál. A statisztikai minta ábrázolható gyakorisági- és sűrűséghisztogram segítségével is: A mintaelemeket tartalmazó intervallumot általában 6-12 részintervallumra bontjuk. Az egyes intervallumokra rajzolt téglalapok területe arányos az intervallumba eső mintaelemek számával. k i i d 1 d 2 d 3... d i 1 d i d n i = d i d i 1 x A gyakorisági hisztogram esetén a téglalapok magassága k i k i =, azaz a téglalap területe megegyezik a részintervallumba eső mintaelemek számával. Ilyenkor a téglalapok terület- i d i d i 1 összege a minta elemszáma. k i n i d 1 d 2 d 3... d i 1 d i d n i = d i d i 1 x A sűrűségi hisztogram esetén a téglalapok magassága k i. Ilyenkor a téglalapok területe az n i adott részintervallumba eső mintaelemek relatív gyakorisága, területösszege pedig 1. Készítette: Vajda István 170

A mintaelemek valamelyα n =α n (ξ 1,ξ 2,...,ξ n ) függvényét statisztikai függvénynek, röviden statisztikának nevezzük. Aξvalószínűségi változóra vonatkozóξ 1,ξ 2,...,ξ n statisztikai minta elemeinek ξ= ξ 1+ξ 2 +...+ξ n n számtani közepét mintaközépnek nevezzük. Megjegyzés: A mintaközép aξvalószínűségi változó várható értékének közelítésére szolgál. Ha aξvalószínűségi változó várható értéke M(ξ)=m, szórása D(ξ) = σ, akkor aξ-re vonatkozóξ 1,ξ 2,...,ξ n statisztikai mintából számított ξ mintaközép várható értéke M( ξ)=m(ξ)=m, szórása D( ξ)= D(ξ) = σ. Megjegyzés: Valamely A esemény relatív gyakorisága a mintaközép speciális esete. Készítette: Vajda István 171

Empirikus szórásnégyzetnek nevezzük a mintaelemeknek a ξ mintaközéptől való négyzetes átlageltérését, azaz az statisztikát. Megjegyzések: S 2 n= (ξ 1 ξ) 2 + (ξ 2 ξ) 2 +...+(ξ n ξ) 2 n Az emirikus szórásnégyzet négyzetgyökét, azaz az (ξ 1 ξ) S n = 2 + (ξ 2 ξ) 2 +...+(ξ n ξ) 2 n statisztikát empirikus szórásnak nevezzük. Az empirikus szórásnégyzet (szórás), az elméleti szórásnégyzet (szórás) közelítésére szolgál. Az S 2 n empirikus szórásnégyzet várható értéke aholσjelöli az elméleti szórást. M(S 2 n 1 n )= n σ2, Korigált empirikus szórásnégyzetnek nevezzük az statisztikát. S 2 n = n n 1 S2 n Készítette: Vajda István 172

Az S 2 n empirikus szórásnégyzet várható értéke M(S 2 n )=σ 2. Az empirikus szórásnak és a mintaközépnek a hányadosát a c v = S n ξ statisztikát variációs tényezőnek nevezzük. Megjegyzés: A variációs tényezőt relatív szórásnak is szokás nevezni. 11.2. Becsléselmélet Legyen az a paraméter a vizsgált ξ valószínűségeloszlás egy elméleti jellemzője. Ha a-t azα n =α n (ξ 1,ξ 2,...,ξ n ) statisztikával kívánjuk becsülni ésα n várható értéke megegyezik az a paraméter értékével azaz M(α n )=a, akkorα n az a paraméternek tozítatlan becslése. Példák: A mintaközépξvárható értékének torzítatlan becslése. A korrigált empirikus szórásξelméleti szórásának torzítatlan becslése. A relatív gyakoriság torzítatlan becslése valamely A esemény P(A) = p valószínűségének. Készítette: Vajda István 173

Az empirikus szórás nem torzítatlan becsléseξelméleti szórásának. Az a paraméternek valamelyα 1,α 2,...,α n becsléssorozatát aszimptotikusan torzítatlan becsléssorozatnak nevezzük, ha lim M(α n)=a. n Az S 2 n empirikus szórásnégyzet aszimptotikusan torzítatlan becsléseσ 2 -nek, azaz az elméleti szórásnégyzetnek. 11.2.1. Konfidenciaintervallumok Az eddig vizsgált ún. pontbecslések mellett gyakran alkalmazzák az intervallumbecsléseket is. A mintából nem tudjuk megmondani az a paraméter pontos értékét, viszont meg tudunk adni egy olyan intervallumot, ami az ismeretlen paramétert nagy pl. 95%-os valószínűséggel tartalmazza. Az ilyen intervallumot az a paraméterre vonatkozó konfidenciaintervallumnak (megbízhatósági intervallumnak) nevezzük. Ha a ξ normális eloszlású valószínűségi változó várható értéke M(ξ) = m, szórása ésξ 1,ξ 2,...,ξ n egyξ-re vonatkozó statisztikai minta, akkor P ( ξ u ε < m< ξ+u ε )=1 ε, haφ(u ε )=1 ε 2. Készítette: Vajda István 174

Megjegyzés: Mivel ξ u ε < m< ξ+u ε ekvivalens az m u ε < ξ<m+u ε összefüggéssel, a tételben is helyes lett volna. 11.3. Hipotézisvizsgálat P ( m u ε < ξ<m+u ε )=1 ε Statisztikai hipotézisen egy vagy több valószínűségeloszlásra vonatkozó valamilyen feltevést értünk. A statisztikai hipotézisvizsgálatban egy igaznak feltételezett állításból indulunk ki (ún. nullhipotézis, jelölése H 0 ), az eloszlás vagy paraméter számára a nullhipotézistől eltérő más lehetőségek (esetleg az összes más lehetőségek) együttesét ellenhipotézisnek vagy alternatív hipotézisnek (jelölése H 1 ) nevezzük. Azt az eljárást, amelynek alapján egy statisztikai hipotézisről döntünk, statisztikai próbának nevezzük. Amennyiben a H 0 hipotézist véges sok paraméter határozza meg, és így a kérdés az eloszlás valamely paraméterére vonatkozik, akkor paraméteres próbáról beszélünk. A döntéssel kapcsolatosan a következő esetek lehetségesek: A H 0 hipotézist elfogadjuk A H 0 hipotézist elutasítjuk H 0 fennáll helyes döntés elsőfajú hiba H 0 nem áll fenn másodfajú hiba helyes döntés Készítette: Vajda István 175

11.3.1. Az egymintás u-próba Tegyük fel, hogy aξvalószínűségi változó normális eloszlású és ismerjük az M(ξ)= szórást. Nullhipotézisünk: H 0 : M(ξ)=m 0 Ellenhipotézis (kétoldali): H 1 : M(ξ) m 0 Ha aξvalószínűségi változóra vonatkozóan rendelkezésünkre áll aξ 1,ξ 2,...,ξ n szatisztikai minta, akkor képezzük a ξ mintaközepet és számítsuk ki az u= ξ m 0 statisztikát. Ekkor (H 0 -t igaznak feltételezve): aholφ(u ε )=1 ε 2. n P( u ε < u<u ε H 0 )=1 ε, Valamely statisztikai próba kritikus tartománya a próbastatisztika azon értékeinek halmaza, amely értékek esetén H 0 -t elvetjük, elfogadási tartománya pedig a próbastatisztika azon értékeinek halmaza, amelyértékek esetén H 0 -t elfogadjuk. Az u-próba esetén az elfogadási tartomány a ] u ε, u ε [ intervallum, a kritikus tartományt az u ε -nál nagyobb, illetve a u ε -nál kisebb értékek alkotják. A fentiek szerint az elsőfajú hiba elkövetésének valószínűsége az u-próba esetén kicsi (ε-nal egyenlő). Azεszámot szokás a próba szignifikanciaszintjének nevezni. Példa: Egy gyár által előállított villanykörtékből egy bizonyos napon 100 elemű mintát vettek. A körték élettartama normális eloszlású 120 óra szórással. A minta alapján az átlagos élettartamra 1570 órát kaptak. Döntse el 5%-os szignifikanciaszinten, hogy ez az eredmény a körték 1600 órás élettartamának megváltozását jelenti-e! Megoldás: H 0 : m 0 = 1600 H 1 : m 0 1600 u= ξ m 0 30 n= 120 10= 2.5 Mivel u ε = 1.96, u a kritikus tartományba esik, így a nullhipotézist 5%-os szignifikanciaszinten elvetjük. Tehát az izzók élettartama megváltozott. Készítette: Vajda István 176

Kicsit módosul a számolás, ha ún. egyoldali ellenhipotézist alkalmazunk. Ilyenkor u ε -t úgy választjuk, hogyφ(u ε )=1 ε teljesüljön. Példa: Egy pékségben készült cipók tömege normális eloszlású 500 g várható értékkel és 20 g szórással. 25 cipót lemérnek és a tömegük átlagára 490 g-ot kaptak. Állíthatjuk-e, hogy a teljes készletnél csökkent a tömeg átlagos értéke? Megoldás: H 0 : m 0 = 500 H 1 : m 0 < 500 u= ξ m 0 10 n= 20 5= 2.5 Mivel u ε = 1.645, u < u ε, tehát u a kritikus tartományba esik. A nullhipotézist ezen a szignifikanciaszinten elvetjük, a cipók tömege a pékségben csökkent. 11.3.2. Az egymintás t-próba Az u próba csak abban az esetben használható, ha a ξ valószínűségi változó szórását már ismerjük. Ha csak annyit tudunk, hogy ξ normális eloszlású változó, és a várható értékére vonatkozó nullhipotésiről szeretnénk dönteni, akkor t-próbát alkalmazhatunk. Ennek alapja a Student vagy t-eloszlás, melynek értékeit a normális eloszláshoz hasonlóan táblázatból kereshetjük ki. A t statisztika hasonló az u statisztikához, csak az elméleti szórás helyett a korrigált empirikus szórás szerepel a nevezőben: t n 1 = ξ m 0 S n ahol az indexben szereplő n 1 a használt t-eloszlás szabadsági foka (ami 1-gyel kisebb a mintaelemszámnál). Példa: Egy tojásszállítmányból 5 darabos mintát vettek, méréskor a tojások súlyára a 6.7, 6.5, 7.1, 7.3 és 6.8 gramm értékeket kaptuk. Döntse el 5%-os szinten, hogy a tojások tömege szignifikánsan eltér-e 7 grammtól! Megoldás: t 4 = ξ m 0 S n H 0 : m 0 = 7 n, H 1 : m 0 7 6.88 7= 5= 0.84 0.319 Mivel t ε = 2.776, t 4 < t ε, tehát a H 0 hipotézist elfogadjuk, a tojások tömege nem tér el szignifikánsan a 7 grammtól. Kicsit módosul a megoldás egyoldali ellenhipotézis esetén. Ilyenkor t ε értékét a p=2ε-nal jelölt oszlopból kell kiolvasni. Készítette: Vajda István 177

Példa: Egy konzervgyárban egy adagológép előírás szerint 500 grammot tölt az üvegbe. Ellenőrzés során 10 üveg lemérésekor a minta átlagára 494 grammot, a tapasztalati szórásra 8.06 grammot kaptak. A tömeg normális eloszlásúnak tekinthető. Döntse el 5%-os szignifikanciaszinten, hogy a gép jól dolgozik-e vagy kevesebbet tölt az üvegekbe! Megoldás: t 9 = ξ m 0 S n n= ξ m 0 S n H 0 : m 0 = 500 H 1 : m 0 < 500 n 1= 6 8.06 3 2.233 Mivel t ε = 1.833, t 9 >t ε, tehát a H 0 hipotézist elvetjük, feltételezhetjük, hogy a gép kevesebbet tölt az üvegekbe 500 grammnál. 11.3.3. Illeszkedésvizsgálat Az olyan statisztikai próbát, amelynek alapján arról döntünk, hogy valamelyξvalószínűségi változó F (ismeretlen) eloszlása lehet-e az F 0 eloszlásfüggvénnyel jellemzett eloszlás, illeszkedésvizsgálatnak nevezzük. Tekintsünk egy olyan kisérletet, amelyben az A 1, A 2,..., A n események teljes eseményrendszert alkotnak. Legyen a nullhipotézis a következő: H 0 : P(A i )=p i, ahol i {1, 2,..., n} és n p i = 1 i=1 Ha N független kisérletet végzünk, és az A 1, A 2,..., A n események rendreν 1,ν 2,...,ν n esetben következnek be ( n ν i = N), akkor képezzük a i=1 n χ 2 n 1 = (ν i Np i ) 2 Np i i=1 statisztikát. Ennek eredményét összehasonlítva aχ 2 eloszlás táblázatából kiolvasott értékkel, dönthetünk H 0 elfogadásáról, illetve elvetéséről: aχ 2 kisebb a táblázatból kiolvasott értéknél, n 1 akkor a H 0 hipotézist elfogadjuk, ellenkező esetben elvetjük. Készítette: Vajda István 178

Példa: Négy érmét 160-szor feldobtunk. A fejek számának gyakorisági eloszlását az alábbi táblázat tartalmazza: Fejek száma (i) 0 1 2 3 4 Gyakoriság (ν i ) 5 35 67 41 12 Ellenőrizzükχ 2 próbával 5%-os szignifikanciaszinten, hogy az érmék szabályosak-e! Megoldás: Ha az érmék szabályosak, akkor a fejek száma binomiális eloszlást követ. Ennek alapján a következő táblázat készíthető: Ennek alapján: Fejek száma (i) 0 1 2 3 4 Gyakoriság (ν i ) 5 35 67 41 12 A binomiális eloszlásnak megfelelő valószínűségek 1 16 4 16 6 16 4 16 1 16 Np i 10 40 60 40 10 ν i Np i 5 5 7 1 2 (ν i Np i ) 2 Np i 2.5 0.625 0.817 0.025 0.4 χ 2 4 4.367<χ2 ε 9.488 Tehát nincs okunk a H 0 hipotézis elvetésére, az érmék szabályosnak tekinthetők. Készítette: Vajda István 179