Matematikai statisztika gyakorlat 018/019 II. félév 1. Táblázatok Viszoyszámok: V = A, ahol A: a viszoyítás tárgya (amit viszoyítuk); B B: a viszoyítás alapja (amihez viszoyítuk) Megoszlási: a sokaság egy részéek a sokaság egészéhez való viszoyítása Koordiációs: a sokaság egy részéek a sokaság egy másik részéhez való viszoyítása Diamikus: két időpot vagy időszak adatáak háyadosa Itezitási: külöböző fajta adatok viszoyítása egymáshoz; gyakra a mértékegységük is eltér Adott sokaság és aak m része eseté az összetett viszoyszám: m m m A i B i V i A i V = m = m = m B i Feladatok (R): B i } {{ } súlyozott számtai átlag A i V i }{{} súlyozott harmoikus átlag 1. A 011. évbe törtéő épszámlálás alapjá a 0-4 év közötti épesség emek szeriti megoszlása 011-be a következő volt: Nem Népesség száma (fő) Férfi 317 039 Nő 301 196 Összese 618 35 (Az adatok a Közpoti Statisztikai Hivatal holapjáról lettek letöltve: http : //www.ksh.hu/epszamlalas/tablak_teruleti_00.) (a) Adja meg a táblázat adataiból számítható megoszlási viszoyszámokat! (b) Adja meg a táblázat adataiból számítható koordiációs viszoyszámokat! (c) A 016-os Mikrocezus szerit Magyarország épessége 9 803 837 fő. Számítsa ki a épsűrűséget! Ez milye viszoyszám?. Az euró eladási árfolyamáak alakulása az K&H Bakál a következő volt: Időpot Árfolyam (Ft/euró) 018. február 8. 318,33 019. február 8. 37,80 (Az adatok a http://www.apiarfolyam.hu/ oldalról lettek letöltve.) Adjo meg a táblázat adataiból számítható diamikus viszoyszámot és értelmezze a kapott értéket! 3. Egy termelő vállalatál a fizikai mukát végzők összese 18000 db alkatrészt állítottak elő, amiből a ők teljesítméye 8500 db volt. A vállalatak 950 férfi fizikai dolgozója va. A őkél a termelékeység, azaz az egy főre jutó termelt meyiség 17 db/fő. (a) Milye viszoyszám található a feladat szövegébe és mi eek a kiszámítási módja? (b) Szerkessze statisztikai táblát a megadott adatokból és töltse ki a hiáyzó adatokat! 4. Néháy iformáció az ELTE matematika alapszakjára 016-ba jeletkezőkről: az állami fiaszírozásos képzésre 348-a jeletkeztek, 36,494%-uk első helye jeletkezett, végül 110-et vettek fel, míg a költségtérítéses képzési formára jeletkezők 10,7%-át, 9 főt vették fel. Összese 141 ember jelölte be az ELTE matematika szakát első helye. (a) Milye viszoyszám(ok) található(k) a feladat szövegébe és mi eek a kiszámítási módja? 1
(b) Szerkessze statisztikai táblát a megadott adatokból és töltse ki a hiáyzó adatokat! 5. Egy vállalat égy részleggel redelkezik, az ott dolgozók bruttó fizetéséről az alábbi adatok állak redelkezésükre: Részleg Átlagkereset (e Ft/fő) Dolgozók létszáma (fő) Raktár 00 10 Összeszerelő 50 16 Műhely 50 8 Irodaház 300 10 Összese...... (a) Milye viszoyszám található a táblázatba és mi eek a kiszámítási módja? (b) Számítsa ki a hiáyzó potozott értékeket! 6. Egy szálloda 016-os vedégforgalmáról az alábbiakat ismerjük: Származási Vedég- Egy vedég- Egy vedégre ország éjszakák éjszakára jutó jutó vedégszerit száma szállás díja éjszakák száma a vedég (éj) (Ft/éj) (éj/f) Belföldi 5000 16000 4 Külföldi 4000 1000 Összese 9000...... (a) Határozza meg a teljes hotelre voatkozóa az egy vedégéjszakára jutó szállás díjat, és (b) az egy vedégre jutó vedégéjszakák számát! 7. Magyarország épességéről az alábbiakat ismerjük: Település jellege Népesség megoszlása Népesség változása 01-be (%) 1990-ről 01-re (%) Budapest 17,4-14,4 Többi város 51,9 -,4 Községek 30,7-0,8 Összese 100,0... (a) 1990 és 01 között évete átlagosa meyivel változott a budapesti lakosság (%-ba kifejezve)? (b) Háy százalékkal változott a épesség száma 1990-ről 01-re? (c) Melyik települése élők részaráya csökket?
. Leíró statisztika Defiíció (Mita). X 1,..., X valószíűségi változó sorozat. A továbbiakba feltesszük, hogy függetleek és azoos eloszlásúak. Realizációja: x 1,..., x Defiíció (Statisztika). A mita valamely függvéye, pl.: Mitaátlag v. átlag: X = 1 X i Tapasztalati szórás: S = 1 (X i X) (az átlagtól való átlagos abszolút eltérés) Korrigált tapasztalati szórás: S = 1 (X i X) 1 Szórási együttható (vagy relatív szórás): V = S X = S 100% (az átlagtól való átlagos eltérés százalékba) X /megjegyzés: lehet a korrigált tapasztalati szórással számoli/ k-adik tapasztalati mometum (k 1, k Z): m k = 1 Xi k Tapasztalati módusz: a legtöbbször előforduló érték Redezett mita: X 1... X a mitaelemek em csökkeő sorredbe Tapasztalati mediá: X +1, ha páratla és X +X +1, ha páros Terjedelem: R = X X1 (legagyobb legkisebb mitaelem) z-kvatilis: q z = if{x : F (x) z}. Ha F ivertálható, akkor q z = F 1 (z). Tapasztalati z-kvatilis: q z értelmezése: a mitaelemek z-ed része legfeljebb a q z, (1 z)-ed része pedig legalább a q z értéket veszi fel (0 < z < 1); sokféleképpe számolható, pl. iterpolációs módszerrel: először megállapítjuk a sorszámot: ( + 1)z = e + t (e: egészrész, t: törtrész), majd kiszámoljuk a z-kvatilist: q z = Xe + t(xe+1 Xe ). Kvartilisek: Speciális kvatilisek, alsó (vagy első) kvartilis: Q 1 = q 1, 4 mediá: Q = q 1, felső (vagy harmadik) kvartilis: Q 3 = q 3 4 Iterkvartilis terjedelem: IQR = q 3 q 1 = Q 3 Q 4 4 1 Tapasztalati eloszlásfüggvéy: F (x) = 1 I(X i < x) { 1 ha X i < x ahol I(X i < x) = idikátor függvéy 0 ha X i x Az F (x) tapasztalati eloszlásfüggvéy és az F (x) elméleti eloszlásfüggvéy közötti eltérés maximuma 1 valószíűséggel egyeletese 0-hoz kovergál, ami azt jeleti, hogy elég agy mita eseté F (x) éréke mide x-re tetszőleges közel va F (x) értékéhez és -et övelve mideütt aak közelébe marad. (Gliveko-Catelli tétel) Defiíció (Boxplot). <boxplotom.jpg> A = max{x 1, Q 1 1, 5 IQR}, B = Q 1, C = Q, D = Q 3, E = mi{x, Q 3 + 1, 5 IQR} F : kieső értékek, azokat tütetjük fel potokkét, amik A- vagy E- kívülre esek 3
Feladatok (R): 1. Egy szabályos dobókockával égyszer dobtuk és a következőket kaptuk: 1, 3, 6, 1. (a) Számolja ki a mitaátlagot, tapasztalati szórást és korrigált tapasztalati szórást, a szórási együtthatót (a korrigált szórást haszálva), valamit a második tapasztalati mometumot! (b) Számítsa ki és rajzolja fel a tapasztalati eloszlásfüggvéyt is! (c) Mi a kockadobás elméleti eloszlásfüggvéye? Ábrázolja ezt a függvéyt is! (d) A f loor(ruif(100, mi = 1, max = 7)) utasítással geeráljo 100 kockadobást és aak ábrázolja a tapasztalati eloszlásfüggvéyét az R program segítségével. (Megjegyzés: geerálhat más számú kockadobást is.) Mit tapasztal? (e) Tekitsük a feti a 101, 103, 106, 101 adatokat, melyeket az előzőekből 100-zal való eltolással kaptuk. Meyi lesz most a mitaátlag és a tapasztalati szórás? (f) Az (a)-potbeli adatokat szorozzuk meg 3-mal: 3, 9, 18, 3. Hogya változik ekkor a mitaátlag és a tapasztalati szórás?. Egy csoportba a hallgatók magassága (cm): 180 163 1500 157 165 165 174 191 17 165 1-68 186 (a) Nézze rá az adatokra! Reálisak? Javítsa az esetleges adathibákat a holapo található alapadatok fájl alapjá! (b) Adja meg a redezett mitát! (c) Rajzolja fel a tapasztalati eloszlásfüggvéyt! Meyi a tapasztalati eloszlásfüggvéy értéke a 180 helye? Értelmezze szövegese! (d) Elemezze a hallgatók testmagasságát alapstatisztikák: átlag, korrigált tapasztalati szórás, szórási együttható, kvartilisek, terjedelem, iterkvartilis terjedelem, tapasztalati ferdeség, tapasztalati csúcsosság segítségével! (e) Készítse boxplot ábrát! (f) Készítse alkalmas osztályközös gyakorisági sort, majd abból hisztogramot! Vesse ezt össze az R program hist utasításával kapott hisztogrammal. 3. A holapo található gdp_1.rdata és gdp_.rdata evű fájl az egy főre jutó GDP (1995-017) mérőszámokat tartalmazza, melyek a Közpoti Statisztikai Hivatal holapjáról lettek letöltve: https : //www.ksh.hu/docs/hu/eurostat_tablak/tabl/tsdec100.html. Foglalja össze az adatokat és készítse ábrákat (boxplot, hisztogtam)! 4. Legye adat = c(, 0, 1, 0, 8, 3, 5, 7, 8,, 3, 5, 1, 7, 8, 3, 5, 3,, 8). Mit számol az alábbi R program? (a) sum(adat < 3) (b) ames(table(adat))[table(adat) == max(table(adat))] (c) sd(adat) == sqrt(sum((adat mea(adat))ˆ)/(legth(adat))) TRUE vagy FALSE? Ameyibe hamis az állítás, hogya lehet igazzá tei? (d) rep = rep(c( A, B ), c(10, 10)) df = cbid(as.data.f rame(adat), as.data.f rame(rep)) library(ggplot) ggplot(df, aes(x = rep, y = adat)) + geom_boxplot(f ill = gold ) + scale_x_discrete(ame = A és B csoport ) 4
3. Statisztikai mita és mitatér Valószíűségi mező: (Ω, A, P) Ω: emüres halmaz (eseméytér), elemi eseméyek (ω) halmaza kísérlet lehetséges kimeeteleiek halmaza; érmedobás: Ω = {F, I} A Ω: σ-algebra (eseméyek családja), véges Ω eseté az eseméytér összes részhalmaza A A lehetséges kimeetelek halmaza; érmedobás: A = {, {F }, {I}, Ω}, pl. A={F} P : A [0, 1] valószíűségi mérték eseméyek valószíűsége; érmedobás: pl. P(A) = 1 Statisztikai mező: (Ω, A, P) ha mide P P-re (Ω, A, P) valószíűségi mező ameyibe P = {P ϑ ϑ Θ R p paramétertér}: paraméteres statisztikai mező Valószíűségi változó: X : Ω R; érmedobás: pl. X(ω) = { 0 ha ω = F 1 ha ω = I ( elemű) mita: X=(X 1, X,..., X ) : Ω χ R valószíűségi változó sorozat, továbbiakba feltesszük, hogy függetleek és azoos eloszlásúak (i.i.d) rögzített ω Ω eseté X 1 (ω) = x 1, X (ω) = x,..., X (ω) = x a mita realizációja: x 1, x,..., x valószíűségi változóra voatkozó darab kísérlet kimeetele, érmedobás: pl. érme ötszöri feldobásáál megfigyelt eseméyek: I, I, F, F, I, így a mita értéke: 1, 1, 0, 0, 1 / itt: Ω = {F, I} 5 / Mitatér: mita lehetséges értékeiek halmaza: χ, R egy részhalmaza; érmedobás: pl. érme ötszöri feldobásáál {0, 1} 5 Elégségesség és teljesség Diszkrét eloszlású X 1, X,..., X i.i.d. mita eseté: A T (X) statisztika elégséges a ϑ paraméterre, ha mide x, t párra, a P ϑ (X = x T (X) = t) valószíűség em függ ϑ-tól. Megj. T (X) elégséges h és g ϑ függvéyek, melyekre P ϑ (X = x) = h(x) g ϑ (T (x)) Abszolút folytoos X 1, X,..., X i.i.d. mita eseté: A T (X) statisztika elégséges a ϑ paraméterre, ha a sűrűségfüggvéyek f,ϑ (x) = h(x) g ϑ (T (x)) alakú faktorizációja. Tegyük fel, hogy az T statisztika elégséges a ϑ paraméterre. Ekkor T miimális elégséges, ha T bármilye más S statisztika függvéye, ami elégséges a ϑ paraméterre. Áll. Ha a mita bármely x, y realizációjára (f ϑ (x)/f ϑ (y) em függ ϑ-tól T (x) = T (y)), akkor T miimális elégséges. A T (X) statisztika teljes, ha mide h valós értékű függvéyre E ϑ (h(t )) = 0, ϑ Θ, akkor P ϑ (h(t ) = 0) = 1 ϑ Θ. Megj. Ha a T statisztika elégséges és teljes, akkor miimális elégséges. Torzítatlaság, hatásosság T (X) statisztika becslése g(ϑ)-ak, ahol ϑ Θ R p, ha T : χ Θ. Máképp: A mitatére értelmezett függvéyt statisztikáak hívjuk. Becslést úgy kaphatuk, ha egy statisztikába a mitát behelyettesítjük. T (X) statisztika torzítatla becslése a ϑ paraméter g(ϑ) függvéyéek, ha E ϑ T (X) = g(ϑ) ϑ Θ eseté. A T (X) becsléssorozat ( = 1,,...) aszimptotikusa torzítatla becslése g(ϑ)-ak, ha E ϑ T (X) g(ϑ) ϑ Θ eseté. Legyeek T 1 (X) és T (X) torzítatla becslései g(ϑ)-ak. Ekkor azt modjuk, hogy T 1 (X) hatásosabb T (X)-él, ha D ϑ (T 1(X)) D ϑ (T (X)) mide ϑ Θ eseté. A T (X) torzítatla becslést hatásos becslések evezzük, ha mide torzítatla becslésél hatásosabb. ** feladatok Rmd formátumba ** 5
4. Blackwellizálás Az eljárás léyege, hogy akármilye torzítatla becslés hatásosságát javíthatjuk azzal, ha egy elégséges statisztikára vett feltélteles várható értékét képezzük. 1. Adjuk egy egyszerű T torzítatla becslést az ismeretle paraméterre, pl. az első (éháy) mitaelem felhaszálásával.. Keressük egy miél egyszerűbb S elégséges statisztikát. 3. Írjuk fel V = E(T S)-et. V szité egy valószíűségi változó, S-ek egy függvéye. Ha S = k, akkor V értéke E(T S = k). Megj. Mivel S elégséges, így V em függ az ismeretle paramétertől. V torzítatla és hatásosabb, mit T (Rao-Backwell tétel). 4. Ha S teljes statisztika, akkor V hatásos becslés. Megj. Hatásos becsléseket a miimális elégséges statisztika függvéyei közt kell keresi. Megj. Ha T elégséges és torzítatla, akkor a blackwellizáltja ömaga. Megj. Ha T elégséges, torzítatla és teljes, akkor hatásos. 5. Maximum-likelihood becslések Legyeek X 1, X,..., X függetle azoos eloszlású (i.i.d.) valószíűségi változók, és legye ϑ Θ az ismeretle paraméter Likelihood függvéy: L(ϑ, x) = f ϑ (x) = f ϑ (x i ), ha az eloszlás folytoos, L(ϑ, x) = P ϑ (X = x) = P ϑ (X i = x i ), ha az eloszlás diszkrét. Log-likelihood függvéy: l(ϑ, x) = l(l(ϑ, x)) Maximum-likelihood módszer (ML-módszer) az ismeretle paraméter becslésére: Azt a paraméterértéket keressük, ahol a likelihood függvéy a legagyobb értéket veszi fel (azaz diszkrét esetbe az ismeretle paraméter azo értéket keressük, amely mellett a bekövetkezett eredméy maximalis valószíűségű): max L(ϑ, x) ϑ Ameyibe a függvéy deriválható ϑ szerit, akkor a maximumot kereshetjük a szokásos módo, az első és második deriváltak segítségével, azoba a feladatukat jeletőse megehezíti, hogy olya -szeres szorzatot kellee deriváli, amelyikek mide tagjába ott va az a változó, ami szerit deriváluk kellee. Ezért likelihood függvéy helyett a log-likelihood függvéy maximumhelyét keressük. Ha ϑ 1 dimeziós, akkor ϑ l(ϑ, x) = 0, míg ha ϑ = (ϑ 1,..., ϑ p ) p dimeziós, akkor ϑi l(ϑ, x) = 0 megoldásából kapjuk a becslést. (A második deriváltak segítségével elleőrizzük, hogy valóba maximum.) Tétel (ML-becslés ivariás tulajdosága): Ha ϑ ML-becslése ˆϑ, akkor tetszőleges g függvéy eseté g(ϑ) ML-becslése g( ˆϑ). Mometumok módszere E módszert akkor szokás alkalmazi az imeretle paraméter(ek) becslésére, amikor sok ismeretle paraméter va, és a ML becslést ehéz kiszámítai. ( ) i A mitából számítható tapasztalati mometumokat m k := xk i egyelővé tesszük az elméleti mometumokkal (M k := E ϑ X k ), az elsőtől kezdve, potosa ayit, ameyi paraméter va. Tehát p darab ismeretle paraméter eseté a következő p ismeretlees egyeletredszert kell megoldai: M 1 = m 1 (= x). M p = m p 6
6. Fisher-féle iformáció Legyeek X 1, X,..., X függetle azoos abszolút folytoos eloszlású (i.i.d.) valószíűségi változók f ϑ sűrűségfüggvéyel, és legye ϑ Θ az ismeretle paraméter Fisher-féle iformáció: ( ( ) ) ( ( ) ) I (ϑ) = E ϑ l(ϑ, X), egy mitaelem iformációja: I 1 (ϑ) = E ϑ ϑ ϑ l f ϑ(x) Ha I 1 (ϑ) < és a ( ) f ϑ (x) ϑ dx = 0 bederiválási feltétel teljesül, akkor E ϑ ϑ l f ϑ(x) = 0 is teljesül* 1, amiből következik, hogy I (ϑ) = I 1 (ϑ). ( ) ( ) Megj. Mivel E ϑ ϑ l f ϑ(x) = 0, az egy elem mita Fisher-féle iformációja: I 1 (ϑ) = Dϑ ϑ l f ϑ(x). Cramér-Rao egyelőtleség: Ha I 1 (ϑ) < és f ϑ (x) dx = 0 (bederiválási feltétel), továbbá a T (X) statisztika a ψ függvéyel képzett ψ(ϑ) paramé- ϑ terfüggvéy torzítatla becslése, Dϑ T (X) < és R f ϑ (x) T (x) dx = ϑ ϑ R T (x)f ϑ (x) dx, akkor D ϑ (T (X)) (ψ (ϑ)) I (ϑ) = (ψ (ϑ)) I 1 (ϑ) (= iformációs határ) Megj. Speciálisa, ha T (X) torzítatla becslése ϑ-ak, továbbá a feti regularitási feltételek teljesülek, akkor D ϑ(t (X)) 1 I (ϑ) = 1 I 1 (ϑ). Megj. A Cramér-Rao tétel em azt állítja, hogy az iformációs határ elérdik valamely torzítatla becslés eseté. Viszot ha elérdik, akkor az a T becslés hatásos (st az egyetle ilye). Az is lehet, hogy va hatásos becslés, de az iformációs határ em érdik el. * 1 ( ) E ϑ ϑ l f ϑ(x) = 1 f ϑ (x) ( fϑ (x) ϑ ) f ϑ (x) dx = f ϑ (x) ϑ dx = 0 ** feladatok Rmd formátumba ** 7
7. Kofideciaitervallumok Eddig: potbecslés, azaz a becsüledő paramétert vagy aak függvéyét a mitaelemekből képzett egyetle statisztikával becsültük. Nem elég iformatív, em tudi meyi bizoytalaság va a becslésbe. Most: a becslés egy egész itervallum, melyek határai statisztikák Legye (Ω, A, P) statisztikai mező, ahol P = {P ϑ ϑ Θ R p }, és legye X 1,..., X függetle, azoos eloszlású mita. Defiíció (Kofideciaitervallum). A (T 1 (X), T (X) statisztikapárral defiiált itervallum legalább 1 ε szitű kofideciaitervallum a ψ(ϑ) paraméterfüggvéyre, ha P ϑ (T 1 (X) < ψ(ϑ) < T (X)) 1 ε ϑ Θ ahol ε előre adott kis pozitív szám (pl. ε = 0, 05, az ehhez tartozó kofideciaszit 95%). Kofideciaitervallum a ormális eloszlás várható értékére - ismert szórás eseté: Legyeek X 1,..., X N(µ, σ ) függetle azoos eloszlású mita, σ ismert, µ ismeretle paraméter, ekkor az (1 α) megbízhatósági szitű kofideciaitervallum µ-re: ahol u 1 α ( X u 1 α σ, X + u 1 α a stadard ormális eloszlás megfelelő kvatilisét jelöli. - ismeretle szórás eseté: ) σ Legyeek X 1,..., X N(µ, σ ) függetle azoos eloszlású mita, σ és µ ismeretle paraméterek, ekkor az (1 α) megbízhatósági szitű kofideciaitervallum µ-re: ( ahol t 1,1 α X t 1,1 α S, X S ) + t 1,1 α az 1 szabadsági fokú t-eloszlás megfelelő kvatilisét jelöli. Megj.: A kofideciaitervallum hossza aál kisebb, miél agyobb az mitaelemszám és miél kisebb a szórás. Ezeket kostas szite tartva, a szigifikaciaszit övelésével (ε csökketésével) viszot ő a kofideciaitervallum hossza. ** feladatok Rmd formátumba ** 8
8. Hipotézisvizsgálat Hipotézis: állítás, amiek igazságát vizsgáli szereték Statisztikai próba: eljárás amiek a segítségével dötést hozhatuk a hipotézisről Legye (Ω, A, P) statisztikai mező, ahol P = {P ϑ ϑ Θ R p }, és legye X = (X 1,..., X ) függetle, azoos eloszású mita a P ϑ sokaságból. Jelölje X a mitateret. Nullhipotézis: H 0 : ϑ Θ 0 Ellehipotézis: H 1 : ϑ Θ 1 Paramétertér: Θ = Θ 0 Θ 1 Dötés: T (X) statisztika (T : X R próbastatisztika) segítségével, melyek ismerjük az eloszlását a ullhipotézis feállása eseté Mitateret két részre botjuk: X = X e X k és X e X k = X k : kritikus tartomáy azo X megfigyelések halmaza, amikre elutasítjuk a ullhipotézist X e : elfogadási tartomáy azo X megfigyelések halmaza, amikre elfogadjuk a ullhipotézist Kritikus érték: c (függ α-tól, ld. alább) X k = {x X : T (x) c} vagy X k = {x X : T (x) c} vagy X k = {x X : T (x) c} X e = {x X : T (x) < c} X e = {x X : T (x) > c} X e = {x X : T (x) < c} Dötés Valós állapot H 0 -t elfogadjuk (X e ) H 0 -t elvetjük (X k ) H 0 igaz (ϑ Θ 0 ) helyes dötés (1 α) elsőfajú hiba (α) H 0 hamis (ϑ Θ 1 ) másodfajú hiba (β) helyes dötés (1 β) Elsőfajú hiba valószíűsége: Egyszerű hipotézis (Θ 0 halmaz egyelemű) eseté: P ϑ0 (X X k ) = α ϑ 0 Θ 0 / = P(elvetjük H 0 -t H 0 igaz) / Összetett hipotézis (Θ 0 halmaz több elemű) eseté: P ϑ (X X k ) α ϑ Θ 0 Próba (potos) terjedelme vagy szigifikaciaszitje: α = sup{p ϑ (X X k ) : ϑ Θ 0 } Megbízhatósági (kofidecia-) szit: 1 α / = P(elfogadjuk H 0 -t H 0 igaz) / A próba meghatározása: előre rögzített α terjedelemhez azt a c értéket keressük, amire a próba potos terjedelme éppe α. Másodfajú hiba valószíűsége: β(ϑ) = P ϑ (X X e ) = 1 P ϑ (X X k ) ϑ Θ 1 / = P ϑ (elfogadjuk H 0 -t H 0 hamis) / Erőfüggvéy: ψ(ϑ) = 1 β(ϑ) / = P(elvetjük H 0 -t H 0 hamis) / Miél erősebb a próba, aál agyobb valószíűséggel veti el a hamis ullhipotézist. Vagyis a próba ereje aak a valószíűsége, hogy egy adott külöbséget adott mitaagyság és terjedelem mellett egy statisztikai próba kimutat. (Kísérletek tervezésekor az erő agyságáak előre meghatározott értékéből határozható meg a mitaelemszám.) A próba erejét addig em tudjuk kiszámoli, ameddig az ellehipotézis egy értékét em rögzítjük ill. em modjuk meg a külübég agyságát, amit ki szereték mutati. p-érték: aak a valószíűsége, hogy igaz H 0 eseté a tapasztalt eltérést vagy aál agyobb eltérést kapuk. Ha egy próbát számítógép segítségével végzük el, redszerit a p-érték révé tuduk dötei: ha p-érték< α, akkor elvetjük H 0 -t. A hipotézisek em egyeragúak. H 0 -t csak idokolt esetbe szereték elutasítai, így az elsőfajú hiba súlyosabbak számít, mit a másodfajú hiba. Általába az elsőfajú hiba legagyobb valószíűségét adjuk meg, de a másodfajú hiba csökketésére is törekszük (pl. mitaagyság övelésével). H 0 elfogadása: statisztikailag em találtuk komoly bizoyítékot arra, hogy H 0 em lee igaz; vagyis H 0 elfogadása eseté sem lehet állítai, hogy H 0 teljesül H 0 elvetése: statisztikailag komoly bizoyítékot találtuk arra, hogy a H 0 em igaz, azaz H 1 igaz ** feladatok Rmd formátumba ** 9
9. Hipotézisvizsgálat: Paraméteres próbák Egymitás próbák X 1,..., X N(µ, σ ) függetle azoos eloszlású mita, µ ismeretle paraméter H 0 : µ = µ 0 H 0 : µ µ 0 H 0 : µ µ 0 H 1 : µ µ 0 H 1 : µ > µ 0 H 1 : µ < µ 0 Egymitás u-próba (σ ismert) Próbastatisztika: u = X µ 0 σ H 0 eseté N(0, 1) Kritikus tartomáyok: X k = {X : u > u 1 α } X k = {X : u > u 1 α } X k = {X : u < u α } = {X : u > u 1 α vagy u < u α } <hipovizsgu.jpg> <hipovizsgu1r.jpg> <hipovizsgu1l.jpg> Kapcsolat a kofideciaitervallummal (az alábbi lépések ekvivalesek): u > u 1 α u > u 1 α vagy u < u 1 α X µ 0 σ X µ 0 > u 1 α σ vagy X µ 0 < u 1 α > u 1 α vagy X µ 0 σ ( σ µ 0 / X u 1 α σ, X + u 1 α < u 1 α ) σ Vagyis a ullhipotézist (kétoldai) potosa akkor utasítjuk el, ha az (1 α) megbízhatósági szitű kofideciaitervallum µ-re em tartalmazza µ 0 -t. Egymitás t-próba (σ ismeretle) Próbastatisztika: t = X µ 0 s H 0 eseté t 1 Kritikus tartomáyok: X k = {X : t > t 1,1 α/ } X k = {X : t > t 1,1 α } X k = {X : t < t 1,α } Kétmitás próbák X 1,..., X N(µ 1, σ ) és Y 1,..., Y m N(µ, σ) függetle miták, µ 1 és µ ismeretle paraméterek H 0 : µ 1 = µ H 0 : µ 1 µ H 0 : µ 1 µ H 1 : µ 1 µ H 1 : µ 1 > µ H 1 : µ 1 < µ a két mita a két mita párokét összetartozó, függetle em függetle σ 1 és σ ismert Kétmitás u-próba Egymitás u-próba a külöbségekre előzetes F-próba σ 1 és σ ismeretle σ 1 = σ σ 1 σ Egymitás t-próba Kétmitás t-próba Welch-próba a külöbségekre Kétmitás u-próba (σ 1, σ ismert) Próbastatisztika: u = X Y σ1 + σ m H 0 eseté N(0, 1) előzetes F-próba (σ 1, σ ismeretle) H 0 : σ 1 = σ H 1 : σ 1 σ Próbastatisztika: (s 1 ) H 0 eseté (s F = F 1,m 1 ha s ) 1 > s (s ) F m 1, 1 ha s > s 1 (s 1 ) H 0 eseté Kétmitás t-próba (σ 1 = σ ismeretle) m Próbastatisztika: t = + m X Y ( 1)(s 1 ) +(m 1)(s ) +m H 0 eseté t +m Welch-próba (σ 1 σ ismeretle) Próbastatisztika: t = X Y (s 1 ) + (s ) m H 0 eseté t f, ahol f ( ) (S 1 ) + (S ) m ( (S 1 ) ) ( (S ) ) 1 + m m 1 10
10-11. Hipotézisvizsgálat: Nemparaméteres próbák Diszkrét illeszkedésvizsgálat Legye X 1,..., X egy elemű mita és tegyük fel, hogy a mitaelemek r külöböző x j (j = 1,... r) értéket vehetek fel. Továbbá jelölje ν j (j = 1,... r) az egyes értékek megfigyelt gyakoriságát, azaz függetle megfigyelést osztályozuk valamilye szempot szerit, r párokét diszjukt osztályba. Az egyes osztályok feltételezett valószíűségei redre p 1,... p r. Osztályok 1... r Összese Értékek x 1 x... x r Gyakoriságok ν 1 ν... ν r Valószíűségek p 1 p... p r 1 Azt vizsgáljuk, hogy a mita eloszlása megegyezik-e a feltételezett eloszlással. Ismert eloszlás eseté tiszta illeszkedésvizsgálatot végzük. Ha viszot az eloszlás paraméteres és csak az eloszláscsaládot ismerjük, a paraméter(eke)t viszot em (pl. az a kérdés, hogy származhatak-e az adatok p paraméterű biomiális eloszlásból), akkor becsléses illeszkedésvizsgálatot végzük. Tiszta illeszkedésvizsgálat: H 0 : P (X i = x j ) = p j j = 1,..., r H 1 : legalább egy j melyre P (X i = x j ) p j Próbastatisztika: T = r (ν j p j ) j=1 Becsléses illeszkedésvizsgálat: p j H 0 eseté χ r 1 Kritikus tartomáy: X k = {x : T (x) > χ r 1,1 α} Legye θ egy s dimeziós paramétervektor, valamit legye ˆθ a θ paramétervektor ML-becslése, és legye ˆp j = p j (ˆθ). H 0 : P (X i = x j ) = ˆp j j = 1,..., r H 1 : legalább egy j melyre P (X i = x j ) ˆp j Próbastatisztika: T = r (ν j ˆp j ) j=1 ˆp j H 0 eseté χ r s 1 Kritikus tartomáy: X k = {x : T (x) > χ r s 1,1 α} Megjegyzés: Mivel a próba aszimptotikus, vigyázuk kell arra, hogy a mita elemszáma elég agy legye. Koyhaszabálykét meg szokás követeli, hogy az ú. elméleti gyakoriság (p j ) legalább 5 legye. Ha ez em teljesül, akkor a kis várt gyakoriságokkal redelkező eseméyeket összevojuk. Függetleségvizsgálat függetle megfigyelést két szempot szerit osztályozuk, az 1. szempot szerit r osztály, míg a. szempot szerit s osztály va. Aak a valószíűsége, hogy egy megfigyelést az 1. szempot szerit az i-edik, a második szerit pedig a j-edik osztályba soroluk, p ij. Az ilye tulajdoságú megfigyelések számát pedig ν ij -vel jelöljük. Az osztályozási eljárás eredméyét ú. kotigeciatábla formájába szokás megadi:. szempot 1... j... s Sorösszegek 1 ν 11... ν 1j... ν 1s ν 1..... 1. szempot i ν i1... ν ij... ν is ν i..... r ν r1... ν rj... ν rs ν r Oszlopösszegek ν 1... ν j... ν s ν ij = megfigyelések gyakorisága az (i, j) osztályba ν i = s ν j = r ν ij j=1 ν ij Hasolóa p i ill. p j a margiális eloszlást jelölik, tehát a [p ij ] mátrix sor-, illetve oszlopösszegei: p i = s H 0 : a két szempot függetle egymástól, azaz p ij = p i p j 1 i r, 1 j s H 1 : a két szempot em függetle, azaz p ij p i p j legalább egy (i, j) párra p ij j=1 p j = r p ij Próbastatisztika: T = r j=1 ( s νij νi ν j ν i ν j ) H 0 eseté χ (r 1)(s 1) 11
Kritikus tartomáy: X k = {x : T (x) > χ (r 1)(s 1),1 α } Megjegyzés: Ha r = s =, akkor a próbastatisztika a következőképpe leegyszerűsödik: T = (ν 11ν ν 1 ν 1 ) H 0 eseté χ ν 1 ν ν 1 ν 1. Homogeitásvizsgálat Va két függetle miták (adatsoruk) az egyikbe, a másikba m megfigyeléssel. Valamilye szempot szerit r, párokét diszjukt osztályba soroljuk a megfigyeléseket. Az i-edik osztály valószíűsége p i az 1. mita és q i a. mita eseté (i = 1,,..., r). Legyeek az egyes osztályok gyakoriságai ν 1,..., ν r az 1. mita és µ 1,..., µ r a. mita eseté. Osztályok 1... r Összese 1. mita Gyakoriságok ν 1 ν... ν r Valószíűségek p 1 p... p r 1. mita Gyakoriságok µ 1 µ... µ r m Valószíűségek q 1 q... q r 1 Azt vizsgáljuk, hogy a két mita ugyaolya eloszlás szerit sorolódik-e be az egyes osztályokba: H 0 : a két eloszlás megegyezik, azaz p i = q i i = 1,... r H 1 : a két eloszlás em egyezik meg, azaz legalább egy i, hogy p i q i Próbastatisztika: T,m = m r ( νi ) µi m H 0 eseté χ r 1 Kritikus tartomáy: X k = {x : T,m (x) > χ ν i + µ r 1,1 α} i 1