Statisztika 2011. október 27.
Külöbség valószíőségszámítás és statisztika között Kísérlet: 4-szer dobuk fel egy érmét. Megszámoljuk a fejek számát. Valszám: Ismert a fejdobás valószíősége. Milye valószíőséggel dobuk két fejet? Statisztikai feladatok: A fejdobás valószíősége em ismert. Két fejet dobtuk. Becsüljük meg a fejdobás valószíőségét! Elfogadhatjuk azt a hipotézist, hogy a fejdobás valószíősége 0,75?
Példa Milye valószíőséggel születik fiúgyermek? Svájcba 1871 és 1900 között a 2.644.757 megszületett gyermekbıl 1.359.671 fiú és 1.285.086 láy volt. Fiúk relatív gyakorisága így 0,5141. Igaz-e, hogy a valószíőség 0,5? És 0,1? Hogya becsülék a fiúszületés valószíőségét?
X i 1, i.fiú = 0, i.láy ( ) P X 1 p, 2.644.757, i = = = = i = 1 X i EX 1 2 i = 1 i i EX = p, D X = p (1 p ), P < x ~ Φ ( x ) DX 1 P u < ( ξ p ) < u ~ 2 Φ ( u ) 1 p (1 p ) p p ( ξ ) = 0.5 = 37 p (1 p ) u = 4 2 Φ ( u ) 1 = 0,999936 ξ X i
1 p (1 p ) 4 2 Φ ( u ) 1 ~ P u < ( ξ p ) < u p (1 p ) ( 2 ( ξ ) ) P u < p < u = u u u u = P < ( ξ p ) < = P ξ < p < ξ + 2 2 2 2 Esetükbe 0,9973 valószíőséggel 0,5132 p 0,5150
Irodalom Jegyzet Baróti-Bogáré-Fejes Tóth-Mogyoródi: Matematikai statisztika jegyzet programozó szakos hallgatókak Taköyv: BOLLA KRÁMLI: Statisztikai következtetések elmélete Dévéyi Gulyás: Matematikai statisztikai módszerek a meteorológiába Példatár Móri-Szeidl-Zempléi: Matematikai statisztika példatár
Cél Matematikai statisztika alapjaiak ismertetése Leíró statisztika (rövid bevezetı) Becsléselmélet Hipotézisvizsgálat Többdimeziós statisztika és Idısorelemzés elemei Alkalmazási készség kialakítása (elsısorba gyakorlato)
A matematikai statisztika tárgya Következtetések levoása adatok alapjá Ipari termelés Mezıgazdaság Szociológia (közvéleméykutatások) Természettudomáyok Pézügyi adatok Valójába az élet szite mide területe
Törtéet Táblázatokat a biztosítók már többszáz éve haszálak Maga a tudomáy fiatal tudomáy, alig 100 éves a múltja Agliai mezıgazdasági alkalmazások voltak az elsık Fejlıdése felgyorsult az utóbbi évtizedekbe (számítógépek jóvoltából)
Matematikai statisztika helye a tudomáyok között Matematikai tudomáy. Ugyaakkor a statisztika mideapi alkalmazása em midig kellıe precíz (teljesülek-e a feltételek?) Ezért léyeges, hogy a feltételezéseiket és következtetéseiket potosa fogalmazzuk meg.
Példák 1. Redkívüli volt-e a 2009. évi jauári Zala megyei idıjárás? Vis maior-e az áramszolgáltató szempotjából? 2. Egy közvéleméykutatás sorá azt kaptuk, hogy 1000 emberbıl 400 választaá az adott pártot. Mások szerit a párt 50%-ot fog kapi. Elıfordulhat-e ez? Mekkora eséllyel?
0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 Példák (folyt.) Va-e a rasszak, emzetiségek hatása a haladóságra? 1991-es USA férfi éphaladóság Fehérek Nem fehérek 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 10 8 6 4 2 0
Kárszám Vezetık száma Példák (folyt.) Mi lehet egy vezetı által okozott károk számáak eloszlása? 0 1 2 3 4 5 6 7 >7 Összese 129524 16267 1966 211 31 5 1 1 0 148006
Ki taul jobba? 2009. jauár 5-ei vizsga Jegy Férfi Nı 1 47 2 11 3 11 4 9 5 8 Összese 86 Átlag 2,1 Összese 4 51 1 12 2 13 2 11 2 10 11 97 2,7 2,1
Ki taul jobba? (folyt.) 2009. jauár 21-ei vizsga Jegy Férfiak Nık 1 14 2 3 3 1 4 1 5 5 Összese 24 Átlag 2,2 Összese 1 15 0 3 0 1 0 1 0 5 1 25 1,0 2,1
Napfoltok száma
Statisztikai adatok Alapadat: közvetleül a sokaságból méréssel vagy leszámlálással kapott eredméy Származtatott adat: alapadatokból mőveletek eredméyekét kapjuk
Adatok potossága Általába korlátozott a potosságuk Abszolút hiba: ε= V-M, ahol V a valóságos adat és M a mért adat. Gyakorlatba em tudjuk meghatározi, csak becsüli tudjuk. Relatív hiba: az abszolút hiba és a mért érték háyadosa: ε/m
Statisztikai ismérvek Vizsgálatba vot csoport: sokaság. Sokaság elemei: egyedek. Egyedek jellemzıi: ismérvek. Lehetséges kimeetelei az ismérvváltozatok. Az ismérvek által adott iformációk alapjá az ismérvek lehetek: Idıbeliek Területiek Meyiségiek Miıségiek.
Ismérvek egy másik csoportosítása A em számmal kifejezhetı, vagy számmal jelölt, de mégsem szám jellegő ismérveket, miısítéses ismérvek evezzük. (pl. fıváros kerülete) A méréssel meghatározható, számmal jellemezhetı ismérveket méréses ismérvek evezzük. (pl. testmagasság)
Ismérvek újabb csoportosítása Az olya miısítéses ismérvet, amelyek adatai redezhetık redezhetı miısítéses ismérvek hívjuk.
Statisztikai elemzés lépései Tervezés (mit vizsgáluk, hogya győjtjük az adatokat) Adatgyőjtés Kódolás (ha szükséges) Elleırzés: leíró statisztikákkal Elemzés: matematikai statisztika módszereivel
Adatok Mitavétel a populációból: eredméye a (statisztikai) mita A mitavétel módja is léyeges (legegyszerőbb eset: bármelyik elem ugyaakkora valószíőséggel kerül a mitába) A mitavétel eredméye: (statisztikai) mita: x 1,x 2,,x (számsorozat) Ugyaakkor egy másik, hasoló mitavételél más mitát kapák, azaz az adott mita véletle kísérlet eredméye. Ha a mita véletle jellegét vizsgáljuk: X 1,X 2,,X valószíőségi változósorozat. Léyeges külöbség az eddigiekhez képest: az eloszlása em (vagy csak részbe) ismert
Leíró statisztika Nem a véletle hatását vizsgálja, haem a kokrét mita megjeleítése, jellemzıiek kiszámítása a feladata. Adatok elredezhetık táblázatba (fotos: forrás feltütetése), illetve ábrázolhatók grafikusa.
Táblázatok Cél: tömör, számszerő jellemzés Ehhez szükség va csoportosításra (felosztása megkülöböztetı ismérv szerit, sok ismérvváltozat eseté osztályozás kell) Eredméy: egy ismérv szeriti csoportosító táblázat Tartalmazhat gyakoriságot vagy relatív gyakoriságot
Statisztikai táblák Megfelelı formával ellátott statisztikai sorok összefüggı redszere Egyszerő tábla: leíró sorokból áll Csoportosító táblák: tartalmazak összesítı rovatot is (lehet beük összehasolítás is) Kombiációs vagy kotigeciatábla: két ismérv szeriti kombiációs csoportosítás. Midkét iráyba tartalmaz összesítést.
Tapasztalati eloszlás Mide megfigyeléshez (x 1,x 2,,x ) 1/ súlyt redel. Ez valószíőségeloszlás! Mitaátlag éppe eek az eloszlásak a várható értéke. Tapasztalati eloszlás eloszlásfüggvéye: tapasztalati eloszlásfüggvéy: F (lépcsısfüggvéy). 1 F ( z ) = χ x < z i i = 1 { } k ( ) ( ) ( ) ( ) F ( z ) =, ha x k < z x k + 1, x 0 =, x + 1 = x x... x : x, x,..., x sorbaredezése. ( ) ( ) ( ) 1 2 1 2 Ha a mita X 1,X 2,,X valószíőségi változósorozat, akkor F (z) is valószíőségi változó.
Példa ormális eloszlás közelítése, =10 30 40 50 60 70 z ormális eloszlás közelítése, =100 30 40 50 60 70 z a/ 0.0 0.2 0.4 0.6 0.8 1.0 a/ 0.0 0.2 0.4 0.6 0.8 1.0
Grafikus ábrázolás Oszlopdiagram: a gyakoriságokkal aráyos az oszlopok magassága Meyiségi ismérvekre: Gyakorisági poligo Hisztogram Megoszlás szemléltetése lehetséges kördiagrammal is.
Hisztogram Adataikat osztályokba soroljuk (midegyiket potosa egybe, pl. az i- edik osztály: a i x<a i+1 ), a csoportok relatív gyakoriságai megegyezek az osztály fölé rajzolt téglalap területével. Összterület:1 (hasoló a sőrőségfüggvéyhez)
Példák Túl sok osztály Potszámok grafikus ábrázolása 20 30 40 50 60 70 80 potszám Frequecy 0 10 20 30 40
Példák Potszámok grafikus ábrázolása 20 30 40 50 60 70 80 90 potszám Frequecy 0 50 100 150 200 250 300 350 Túl kevés osztály
Példák Potszámok grafikus ábrázolása 20 30 40 50 60 70 80 potszám Frequecy 0 50 100 150 200 Jó osztályszám
Középértékek Mitaátlag: x +... + x 1 x : = ha az egyes értékek (l i ) gyakoriságai (f i ) adottak: f l +... + 1 1 k k x : = f l Mediá: a sorbaredezett mita középsı eleme (ha páros sok eleme va: a két középsı átlaga).
Tapasztalati kvatilisek Elméleti kvatilis: abszolút folytoos, szigorúa mooto F eseté q z =F -1 (z) Általába: if{x:f(x)>z} A tapasztalati eloszlás kvatilisei: tapasztalati kvatilisek. z=1/2: mediá. z=1/4, 3/4: kvartilisek
boxplot Gam2 Az egyes dobozok az alsó kvartilistól T5 a felsı kvartilisig tartaak. Középvoal a mediá. Norm A voalak a teljes terjedelmet felölelik, ha ez Ui05 em agyobb a kvartilisek közötti külöbségek 1.5- szereséél. Ha eze kívül is vaak potok, azokat külö-külö jeleíti meg. -4-2 0 2 4 6
Egyéb ábrázolások
Statisztikai mezı ( Ω, A, P ), ϑ Θ ϑ statisztikai mezı, ha Θ paraméterhalmaz ( ) és ΩA,, P ϑ mide paraméter eseté valószíőségi mezı.
Egy érmedobás modellje Nem ismerjük a fejdobás valószíőségét: { } A { { } { } { } } Ω = F,I, = ; F ; I ; F,I, ( { } ) = ( { } ) = [ ] P p P p p p p F, I 1, 0,1.
Mita ξ 1 Def.: A ξ = : Ω X R valószíőségi vektorváltozót ξ mitáak evezzük. : mitaagyság ξ i : i. mitaelem x 1 Def.: mita realizációja: x = a kokrét megfigyelt számsorozat. x
Mitatér Def: X mitatér: a mita lehetséges értékeiek halmaza. Elemei a mitaértékek. -elemő valós mita eseté: X=R -elemő pozitív egész értékő mita eseté: X=N Példa: egy biztosítóál 10 apo keresztül figyelték a bejeletett károk számát, ekkor X=Z 0
Egy bezikútál takoló autók száma 5 apo keresztül Megfigyelések: 78, 89, 167, 90, 85 Mita realizációja: (78, 89, 167, 90, 85) T Mitaagyság: 5
A miták típusai Függetle mita: a mitaelemek függetleek. Függetle azoos eloszlású mita: a mitaelemek függetleek és azoos eloszlásúak. Diszkrét mita: a mitaelemek diszkrétek. Abszolút folytoos eloszlású mita: a mitaelemek abszolút folytoosak.
Eloszláscsaládok ( ξ ξ ) F ( s ) = P < s,..., < s ϑ ϑ 1 1 Függetle mita eseté: ϑ ϑ i = 1 ( ξ ) F ( s ) = P < s i i Függetle azoos eloszlású mita eseté: ( ξ ) ( ) F ( s ) = P < s = F s ϑ ϑ i i ϑ i i = 1 i = 1 Jelölések: E : várható érték P eseté, D : szórás P eseté, f : sőrő ϑ ϑ ϑ ϑ ϑ ségfüggvéy P eseté (absz. folyt. mita) ( ) p ( s ) = P = s (diszkrét mita) ϑ ϑ ξ i ϑ
Példák Egy érmedobás. Fej eseté 1-et íruk, írás eseté 0-át. p k = 1 p ( k ) = P ( ξ = k ) = = p (1 p ) p p 1 1 p k = 0 k 1 k Bezikutas példa. Azt feltételezzük, hogy megfigyeléseik függetle, azoos eloszlású Poissook. p ( k ) = P ( = k ) = e / k!, k = 0,1,2,... i λ λ ξ λ λ k
Statisztikák Def.: Statisztika: a mita függvéye. k T : X R Def.: Statisztika: k T ( ξ ), ha T : X R függvéy.
Példák Tapasztalati mometumok: X = R, x T x T ξ ξ i i mitaközép: ( x ) = = i = 1, ( ξ ) = = i = 1, x k T T k k i i tapasztalati. mometum: ( x ) = i = 1, ( ξ ) = i = 1. ξ
Tapasztalati szóráségyzet = X R, ( ) 2 x ( ) 2 i x ξ i ξ i = 1 2 i = 1 T ( x ) =, T ( ξ ) = s =
Redezett mita A ξ 1,..., ξ mita elemeit agyság szerit sorbaredezve kapjuk az ξ () 1 ξ () 2... ξ () redezett mitát. Ez -dimeziós statisztika Mostatól: a ξ 1,..., ξ mita elemei függetle, azoos eloszlásúak. Ha feltesszük, hogy a közös eloszlásuk abszolút folytoos, akkor felírható a redezett mita k-adik eleméek, ξ () k -ek a sőrőségfüggvéye. (gyakorlat) Spec.: miimum, maximum. Def.: mita terjedelme: ξ () - ξ 1 ()
Tapasztalati eloszlásfüggvéy Tapasztalati eloszlás eloszlásfüggvéye: tapasztalati eloszlásfüggvéy: 1 F ( z ) = χ ξ < z i i = 1 { } k F z z ( ) =, ha ξ < ξ, ξ =, ξ = ( ) ( ) ( ) ( ) k k + 1 0 + 1 Mitaátlag éppe eek az eloszlásak a várható értéke.
Gliveko-Catelli tétel ( statisztika alaptétele ) Tétel: ξ,..., ξ függetle, azoos F eloszlásfüggvéyőek. Ekkor 1 sup F ( z ) F ( z ) 0 majdem mideütt (1 vszgel). z Biz.: Csak folytoos F eloszlásfüggvéyekre látjuk be. Ebbıl következik, hogy tetszılege valós z,..., z számok, hogy 0 1 N s pozitív egész N -hez létezek olya 1 i N 1 F ( z 0 ) = 0, F ( z 1 ) =,..., F ( z i ) =,..., F ( z N 1 ) =, F ( z N ) = 1, N N N z =, z =. N
[ ) Ekkor, ha z z, z, akkor k k + 1 1 F ( z ) F ( z ) F ( z k + 1 ) F ( z k ) = F ( z k + 1 ) F ( z k + 1 ) +, N 1 F ( z ) F ( z ) F ( z k ) F ( z k + 1 ) = F ( z k ) F ( z k ). N Ebbıl következik, hogy 1 sup F ( z ) F ( z ) max F ( z k ) F ( z k ) +. z 0 k N N Tudjuk, hogy rögzített x re 1 F ( x ) = χ ξ < x, i i = 1 { < x } { } ahol χ ξ függetle, azoos eloszlású idikátor valószíőségi i változók, melyek várható értéke { } ( ) E χ ξ < x = P ξ < x = F ( x ). i i
Így a agy számok erıs törvéye szerit 1 F ( x ) = χ ξ < x E χ ξ < x = F ( x ) mm. { } { } i i i = 1 1 Legye A k, N = ω : χ { ξ i ( ω ) < z k } F ( z k ), ekkor i = 1 { ω } P ( A ) = 1 és B = : max F ( z ) F ( z ) 0 = A. B N k, N N k k k, N 0 k N k = 1 e 1 limsup F ( z ) F ( z ). Ebbıl következik, hogy B -e N N N = 1 limsup F ( z ) F ( z ) = 0. 1 valószíőségő eseméyek metszete is N 1 valószíőségő, így B = A is 1 valószíőségő. N k, N N = 1 N = 1 k = 1 1 N 1