Statisztika Elıadások letölthetık a http://www.cs.elte.hu/~arato/stat*.pdf címrıl
Konfidencia intervallum Def.: 1-α megbízhatóságú konfidencia intervallum: Olyan intervallum, mely legalább 1-α valószínőséggel tartalmazza a keresett paramétert. P ( T ( ) T ( )) 1, < < Θ ξ ξ ϑ α ϑ ϑ 1
Konfidencia intervallum normális eloszlás várható értékére (ismert szórás esetén) ξ ξ σ σ 1,..., ~ N ( m, ), ismert, Φ ( u ) = y n y σ σ P ξ u < m < ξ + u 1 α, 1 α 1 α = n n σ ξ α P m > u = 1, 1 α n σ P m < ξ + u = 1 α 1 α n
Konfidencia intervallum normális eloszlás várható értékére (ismeretlen szórás esetén) Ha a szórás nem ismert, becsüljük Tétel (biz. nélkül): normális eloszlású minta esetén a mintaátlag és a tapasztalati szórás független n-1 szabadságfokú t (Student) eloszlás: X, X, X,..., X ~ N (,1), függetlenek 1 X ( ) 1 n n X + X +... + X / ( n 1) ~ t n 1
Konfidencia intervallum normális eloszlás várható értékére (ismeretlen szórás esetén) (folyt.) 1 1 ( ξ ) n 1 n 1, y ( ( ) ( ) ) ξ,..., ξ ~ N ( m, σ ), ɶ σ = ξ ξ +... + ξ ξ / ( n 1) n n n m ~ t n 1 ɶ σ P ( t < t ) = y ɶ σ ɶ σ P ξ t m t 1, n 1,1 α < < ξ + n 1,1 α α = n n ɶ σ P m > ξ t n 1,1 α = 1 α, n ɶ σ P m < ξ + t n 1,1 α = 1 α n
Példa (kenyér. folyt.) Tegyük fel most, hogy nem ismerjük Gyorskenyér Kft kenyereinek szórását. Az átlag 99 g volt. Ismert 1 szórásnál 991,6 g volt a 95%- os megbízhatóságú felsı konfidencia határ. Amennyiben a korrigált tapasztalati szórás is 1, akkor ez a határ csak kis mértékben változik (991,8 g). Azonban 5-es korrigált tapasztalati szórásnál ez az érték 999 g-ra változik.
u és t együtthatók összehasonlítása 1 5% 1,64 ( (1,64) 95%) u = Φ = n 3 4 5 1 5 1 1 t n 1,1 5% 6,31,9,35,13 1,83 1,73 1,68 1,66 1,65
Mindenhol azt olvasni, hogy a napi/heti/havi bad beat nem számít, sokkal fontosabb a hosszútáv, amikor a matematikai esély érvényesül. Jelenlegi eredményeink mennyire reálisak? Mikor ésszerőbb inkább felhagyni a pókerrel? Mikor lehetünk optimisták? Mekkora játékszám szükséges ennek megállapítására? Most bemutatok egy idevágó táblázatot, amely 95% pontossággal megadja a jelenlegi játékszámod és nyerési %-od alapján, hogy a jelen eredményeid mennyire lehetnek valósak. (Pl. Ha 6%-os vagy 1 játék után, akkor a valós nyerési százalékod igen nagy (95%-os) valószínőséggel 5,4-69,6% között van.) Igaz, csak három - 5-55- 6 %-os - mutatóval dolgozik, de attól még igencsak hasznos a jövıbeni tervek megalapozottságához. http://www.pokerakademia.com/poker_blogok/hideyoshi/mi_szamit_hosszutavnak_a_hu_sng_ban/ A táblázat helyességét nem ellenıriztem! /AM/
After polling 1 eligible voters, the Star-Tribune Newspaper reported that 55% of Americans would vote for James Bean and 45% for John F Daniels +/- 3%.
Hipotézisvizsgálat H nullhipotézis (jelezni akarjuk, ha nem igaz) H 1 ellenhipotézis Gyakran paraméterekkel fogalmazzuk meg: H : ϑ Θ H : ϑ Θ 1 1 Θ Θ = Θ 1
Példák Igaz-e, hogy,5 valószínőséggel születik fiúgyermek? H :,5 valószínőséggel születik fiúgyermek H 1 : nem,5 valószínőséggel születik fiúgyermek H : p =,5 H : p,5 1
Kárszám Vezetık száma Példák (folyt.) Mi lehet egy vezetı által okozott károk számának eloszlása? H : a kárszám Poisson eloszlású H 1 : a kárszám nem Poisson eloszlású 1 3 4 5 6 7 >7 Összesen 1954 1667 1966 11 31 5 1 1 1486
Ki tanul jobban? 9. január 5-ei vizsga H : A nık jobban tanulnak Jegy Férfi 1 47 11 3 11 4 9 5 8 Összesen 86 Átlag,1 Nı 4 1 11,7 Összesen 51 1 13 11 1 97,1
Lehetséges hibák Elsıfajú hiba: H igaz, de elutasítjuk Másodfajú hiba: H hamis, de elfogadjuk Döntésünknek a megfigyelésektıl kell függnie. Mintateret részre osztjuk: elfogadási és elutasítási tartományra.
Döntés: Lehetséges hibák Elsıfajú hiba: H igaz, de elutasítjuk Másodfajú hiba: H hamis, de elfogadjuk Aktuális helyzet Elfogadjuk a nullhipotézist Elutasítjuk a nullhipotézist A nullhipotézis igaz Helyes döntés Elsıfajú hiba A nullhipotézis hamis Másodfajú hiba Helyes döntés
Alapfogalmak Emlékeztetı: X mintatér: a minta lehetséges értékeinek halmaza. X= X e U X k X k : azon lehetséges értékek halmaza, amelyek megfigyelése esetén elutasítjuk a nullhipotézist. Gyakran statisztika segítségével határozzuk meg: T ( x ) = 1,, x X x X k k
Elsıfajú hiba valószínősége α a próba terjedelme, ha minden ϑ Θ -ra P ϑ ( ) X α a próba szignifikanciaszintje (másképp: a próba pontos terjedelme), sup P ξ X = ϑ Θ ξ ϑ k α ( ) k α
Példa (egyetlen megfigyelés) H : a megfigyelés N(4,1) eloszlású
Példa (sörök megkülönböztetése) Ki tudják-e választani a különbözı sört? 4 emberen kísérleteztek. H : p = 1, H : p > 1 3 1 3
Az eloszlás H esetén
Kritikus tartomány megválasztása
Másodfajú hiba valószínősége ( ξ X ), Θ e 1 P ϑ ϑ
Példa (sörös) p=.5 esetén a másodfajú hiba valószínősége
Erıfüggvény A próba erıfüggvénye β ( ϑ )= P ϑ ξ X = 1- P ϑ ξ X, ϑ Θ ( ) ( ) k e 1
U-próba ξ 1 ξ n N m σ m σ H : m = m,..., ~ (, ), ismeretlen, ismert. H : m m (kétoldali ellenhipotézis) 1 H ': m < m (egyoldali ellenhipotézis) 1 H '': m > m (egyoldali ellenhipotézis) 1 U = n σ H U ~ N (,1) ξ m m m H 1 U ~ N n,1 σ
U próba (kétoldali ellenhipotézis) Φ ( u ) = y y x m x n u 1 α σ X k = : ( ) ( ) ( ) ( ) ξ X 1 1 α 1 α 1 α P = P U u = Φ u + Φ u = m k m ( ) ( ) α α α = 1 1 + 1 1 =. ( ) ( ) ξ 1 α β ( m ) = P X = P U u = m k m ( ) ξ m m m 1 P m u 1 1 α < U < u P 1 α = m u n n u 1 α < + < 1 α = σ σ m m ξ m m m 1 P m u 1 α n < n < u n 1 α = σ σ σ 1 m m m m Φ u n u n 1, m m 1 α + Φ 1 α n σ σ
Véletlenített próba Eddig adott megfigyelés esetén egyértelmő volt a döntésünk: T ( x ) = 1,, x X x X k k Véletlenített próba esetén sorsolhatunk is: 1, ha T ( x ) > c Ψ ( x ) = γ, ha T ( x ) = c, ha T ( x ) < c
Elsıfajú hiba valószínősége véletlenített próba esetén ϑ Θ ( ) γ ( ) ( ψ ) ( ) -ra az elsıfajú hiba valószínősége: P T ( ξ ) > c + P T ( ξ ) = c = E ( ξ ) α a próba terjedelme, ha minden ϑ Θ -ra E ϑ ϑ ϑ ϑ ψ ( ξ ) α α a próba szignifikanciaszintje (másképp: a próba pontos terjedelme), sup E ψ ( ξ ) = α ϑ Θ ϑ ( )
Legerısebb próba egyszerő hipotézis esetében Egyszerő H és H : Θ = Θ = 1. ( ) ( ) ( ) ( ) ( ) 1 1 1 1 ψ a legerısebb α -terjedelmő próba, ha: P T ( ξ ) > c + γ P T ( ξ ) = c = E ψ ( ξ ) α, ϑ ϑ ϑ továbbá minden más α -terjedelmő ψ ' próbára, annak másodfajú hibavalószínősége nagyobb: E 1 ψ ( ξ ) E 1 ψ '( ξ ). ϑ ϑ
A legerısebb próba A legegyszerőbb eset: H és H 1 is egyszerő (egyelemő). A valószínőséghányados (vh.) próba: Állítás (Neyman-Pearson lemma): a vh. próba legerısebb a saját terjedelmével. Minden <α<1-hez létezik ilyen terjedelmő vh. próba. Minden legerısebb próba ilyen alakú. 1 1 T x = = c ( ) γ L L L L L L 1 1 ( x ) ( x ) ( x ) ( x ) ( x ) ( x ) > < c c
Próbák a normális eloszlás várható értékére: t próba. H : m=m, H 1 m m. Ha nem ismert a szórás (tpróba): ahol ˆ σ t = n n i 1 X σˆ m ( ) X X /( 1 ) = = n i Kritikus tartomány: t >t 1-α/, n-1. (H esetén a próbastatisztika n-1 szabadságfokú, t-eloszlású.) Ha egyoldali az ellenhipotézis, akkor a kritikus tartomány t>t 1-α, n-1 (m>m ), illetve t<-t 1-α, n-1 alakú (m<m ). Ezek is legerısebb próbák!
Megjegyzések A kétoldali esetre kapott próba nem a legerısebb (ilyenkor nincs is ilyen). Ha a minta elemszáma nagy, a t- próba helyett az u-próba is használható (ekkor még a normális eloszlásúságra sincs szükség a centrális határeloszlás tétel miatt).
Kétoldali próbák és konfidencia intervallumok A normális eloszlásnál a várható értékre vonatkozó α terjedelmő próbánál láttuk, hogy a H : m=m hipotézist a H 1 : m m hipotézissel szemben pontosan akkkor fogadjuk el, ha m benne van az 1- α megbízhatóságú konfidencia intervallumban.
Kétmintás eset: párosított megfigyelések Példa: Van-e különbség Budapest és Cegléd napi átlaghımérséklete között? H : m 1 =m a nullhipotézis. Ha ugyanazon napokról van megfigyelésünk mindkét helyen: nem függetlenek a minták. Ekkor a párok tagjai közötti különbséget vizsgálva, az elızı egymintás esetre vezethetı vissza a feladat. H * : m=, H1 * :m az új hipotézisek.
Kétmintás eset: független minták + + + = + ) ( ) ( ) ( Y Y X X Y X m n m n nm t i i m n Ha ismert a szórás: (X n elemő, σ 1 szórású, Y m elemő, σ szórású), alkalmazható a kétmintás u-próba m n Y X u / / 1 σ σ + = Kritikus tartomány: mint az egymintás esetben Ha ismeretlenek, de azonosak a szórások: