Matematikai statisztika gyakorlat Programtervez informatikus alapszak, A szakirány 208/209 tavaszi félév Játékszabályok Az el adás és a gyakorlat számonkérése közös. Az el adásról és a hozzá tartozó konzultációról további információkat Arató Miklóstól lehet szerezni. A gyakorlatokról maximum 3-szor lehet hiányozni. Aki többször hiányzik, nem kaphat jegyet. 86 pontot lehet szerezni a félév során: 2 50 pont: 90 perces "nagy" ZH-k: március 26. és május 4., 8:30-0:00 É 0.79 Jánossy Lajos terem 3 2 pont: 5 perces röpzh-k: március 2., április 6. és május 7., 9:00-9:5 É 0.79 Jánossy Lajos terem 50 pont: önálló beadandó feladat Mindkét "nagy" ZH-n minimálisan el kell érni 5 pontot. Az egyik "nagy" ZH pontszámán lehet javítani. A ZH-k az el adások és a gyakorlatok tananyagát egyaránt számon kérik. A beadandóról: önálló statisztikai elemzés; legalább 20 pontot el kell érni; március 4-ig mindenki választ magának egy megfelel adatbázist; beadási határid : május 20.; ha el bb beküldöd, az oktató visszajelzése (pár nap) alapján javíthatsz az elemzésen és a végs határid ig újra beadhatod. Infók a gyakvezet r l Név Varga László, óraadó Munkahely Morgan Stanley, Risk Management Tanszék Valószín ségelméleti és Statisztika Tanszék (ELTE TTK) E-mail vargal4@cs.elte.hu Honlap vargal4.elte.hu Kötelez irodalom az el adás anyaga: http://amiklos.web.elte.hu/oktatas/209_inf_stat/matstat.htm a gyakorlaton megoldott feladatok Ajánlott irodalom Molnárné-Tóthné: Általános statisztika példatár I. Móri-Szeidl-Zempléni: Matematikai statisztikai feladatok Az órán használt szoftver/programnyelv: R Statisztikai modellezésre, data science-re kiváló Nyílt forráskódú, minden fontos problémára van library/package Letöltési helye: https://cran.r-project.org/ Szövegszerkesztésre ajánlott szoftver: RStudio; letöltési helye: https://www.rstudio.com/products/rstudio/download/.) A 20. évi népszámlálás alapján a 20-24 év közötti népesség nemek szerinti megoszlása (Forrás: http://www.ksh.hu/nepszamlalas/tablak_demografia): Nem Népesség száma (f ) Fér 37 039 N 30 96 Összesen 68 235 a.) Add meg a táblázat adataiból számítható viszonyszámokat! b.) A 206-os Mikrocenzus szerint Magyarország népessége 9 803 837 f. Számítsd ki a néps r séget! Ez milyen viszonyszám? 2.) Az euró eladási árfolyamának alakulása az K&H Banknál a következ volt: Id pont Árfolyam (Ft/euró) 208. február 8. 38,33 209. február 8. 327,80 Adj meg és értelmezz a táblázat adataiból számítható dinamikus viszonyszámot! 3.) Egy termel vállalatnál a zikai munkát végz k összesen 8000 db alkatrészt állítottak el, amib l a n k teljesítménye 8500 db volt. A vállalatnak 950 fér zikai dolgozója van. A n knél a termelékenység, azaz az egy f re jutó termelt mennyiség 7 db/f. a.) Milyen viszonyszám található a feladat szövegében és hogyan számoljuk? b.) Szerkessz statisztikai táblát az adatokból és töltsd ki a hiányzó rubrikákat! 4.) Néhány információ az ELTE matematika alapszakjára 206-ban jelentkez kr l: az állami nanszírozásos képzésre 348-an jelentkeztek, 36,494%-uk els helyen jelentkezett, végül 0-et vettek fel. A költségtérítéses képzési formára jelentkez k 0,227%-át, 9 f t vették fel. Összesen 4 ember jelölte be az ELTE matematika szakát els helyen. a.) Milyen viszonyszám(ok) található(k) a feladat szövegében? b.) Szerkessz statisztikai táblát az adatokból és töltsd ki a hiányzó rubrikákat! 5.) Egy vállalat négy részleggel rendelkezik, az ott dolgozók bruttó zetésér l az alábbi adatok állnak rendelkezésünkre: Részleg Átlagkereset (e Ft/f ) Dolgozók létszáma (f ) Raktár 200 0 Összeszerel 250 6 Tampóm hely 250 8 Irodaház 300 0 Összesen......
a.) Milyen viszonyszám található a táblázatban és hogyan számoljuk? b.) Számítsd ki a hiányzó pontozott értékeket! 6.) Egy szálloda 206-os vendégforgalmáról az alábbiakat ismerjük: Származási Vendégéjszakák Egy vendégéjszakára Egy vendégre jutó ország szerint száma jutó szállás díja vendégéjszakák száma a vendég (éj) (Ft/éj) (éj/f ) Belföldi 5000 6000 4 Külföldi 4000 2000 2 Összesen 9000...... Határozd meg a teljes hotelre vonatkozóan az egy vendégéjszakára jutó szállás díjat és az egy vendégre jutó vendégéjszakák számát! 7.) Magyarország népességér l az alábbiakat ismerjük: Település jellege Népesség megoszlása Népesség változása 202-ben (%) 990-r l 202-re (%) Budapest 7,4-4,4 Többi város 5,9-2,4 Községek 30,7-0,8 Összesen 00,0... a.) 990 és 202 között évente átlagosan mennyivel változott a budapesti lakosság? b.) Hány százalékkal változott a népesség száma 990-r l 202-re? c.) Melyik településen él k részaránya csökkent? 8.) Egy szabályos dobókockával 4-szer dobtunk és a következ ket kaptuk:, 3, 6,. a.) Számold ki a mintaátlagot, tapasztalati szórást és korrigált tapasztalati szórást, a szórási együtthatót (a korrigált szórást használva), valamint a második tapasztalati momentumot! b.) Számítsd ki és rajzold fel a tapasztalati eloszlásfüggvényt! Mennyi a tapasztalati eloszlásfüggvény értéke a 2, 3, 4 helyeken? c.) Mi a kockadobás elméleti eloszlásfüggvénye? Ábrázold ezt a függvényt! d.) A floor(runif(00, min =, max = 7)) utasítással generálj 00 kockadobást és ábrázold a tapasztalati eloszlásfüggvényét! Mit tapasztalsz? e.) Tekintsük a kockadobás értékek 00-zal való eltolását: 0, 03, 06, 0. Mennyi lesz most a mintaátlag és a tapasztalati szórás? f.) Az a.)-pontbeli adatokat szorozzuk meg 3-mal: 3; 9; 0; 3. Hogyan változik ekkor a mintaátlag és a tapasztalati szórás? 9.) Egy csoportban a hallgatók magassága (cm): 80 63 500 57 65 65 74 9 72 65-68 86 a.) Nézzük át nagy vonalakban az adatokat, reálisak-e! Próbáljuk javítani az esetleges adathibákat! b.) Határozd meg a rendezett mintát! c.) Rajzold fel a tapasztalati eloszlásfüggvényt! Mennyi a tapasztalati eloszlásfüggvény értéke a 80 helyen? Értelmezd szövegesen! d.) Elemezd a hallgatók testmagasságát alapstatisztikák: átlag, korrigált tapasztalati szórás, szórási együttható, kvartilisek, terjedelem, interkvartilis terjedelem, tapasztalati ferdeség, tapasztalati csúcsosság segítségével! Értelmezd szövegesen az eredményeket! e.) Készíts boxplot ábrát! f.) Készíts alkalmas osztályközös gyakorisági sort, majd abból hisztogramot! 0.) Elemezd az alábbi adatokat az el z feladat elemzési szempontjai alapján: a.) A honlapomon található Nyarhom.Rdata nev fájl a 204. nyári napi maximum-h mérsékleteket tartalmazza egy településen ( C) b.) Minta futási id kb l: mérd meg 000 alkalommal, hogy az R milyen gyorsan generál és rendez egy 0 4 elem standard normális mintát! Javasolt a microbenchmark package használata a futási id mérésére. A mintából készíts hisztogramokat különböz sávszélesség esetén! Melyiket tartod a "legjobbnak"?.) Legyen adat=c(2,0,,0,8,3,5,7,8,2,3,5,,7,8,3,5,3,2,8). Mit számol az alábbi R program? a.) sum(adat<3) b.) names(table(adat))[table(adat)==max(table(adat))] c.) sd(adat)== sqrt(sum((adat-mean(adat)) 2)/(length(adat))) TRUE vagy FALSE? Amennyiben hamis az állítás, hogyan lehet igazzá tenni? d.) rep=rep(c("a","b"),c(0,0)) df = cbind(as.data.frame(adat),as.data.frame(rep)) library(ggplot2) ggplot(df, aes(x = rep, y = adat)) + geom_boxplot(fill = "gold") + scale_x_discrete(name = "A és B csoport") 2.) Határozzuk meg a mintateret a következ esetekben: a.) Egy dobókocka háromszori feldobása. b.) Egy diák felkelési id pontjait jegyzik fel 20 napon keresztül. c.) Három pénzérmét n-szer dobunk fel. 3.) Legyen X,..., X n független, azonos, abszolút folytonos eloszlású minta, a mintaelemek eloszlásfüggvényét jelölje F (x), a s r ségfüggvényét pedig f(x). Mutasd meg, hogy a minimum és a maximum s r ségfüggvénye a következ : f X (x) = n f(x) ( F (x)) n és f X n (x) = n f(x) (F (x)) n. 4.) Adjunk torzítatlan becslést at E(0, ϑ) eloszlás ismeretlen ϑ > 0 paraméterére T (X) = X T 2 (X) = X n T 3 (X) = X statisztikák segítségével. Hasonlítsuk ket össze hatásosság szempontjából! 5.) Próbáljuk R-ben meghatározni az el z feladat becsléseit! Generáljunk 00000-2
szer 6 elem [0, 3] intervallumon egyenletes eloszlású mintát! Hasonlítsuk össze a becsléseket! 6.) Legyen X,..., X n i.i.d. Exp(λ), λ > 0 eloszlásból. Torzítatlan becslése az ismeretlen λ paraméternek a T (X) = n X... X statisztika? n Útmutatás: az integrál kiszámolásához használjuk az Euler-féle gamma-függvényt: Γ(z) = x z e x dx 0 7.) 0-szer választunk egy gép gyártmányai közül. Mindegyik gyártmányról megállapítjuk, hogy selejtes vagy sem. Minket a gépr l kikerül gyártmányok selejtaránya érdekel, amit nem ismerünk. Modellezzük a problémát a következ képp: legyen X,..., X 0 i.i.d. minta indikátor eloszlásból, ami azt mutatja meg, hogy az egyes gyártmányok selejtesek-e vagy nem. Az X = azt az eseményt jelentse, hogy az. gyártmány selejtes, ennek ismeretlen valószín ségét pedig jelölje p. a.) Határozd meg a mintateret és a paraméterteret! b.) A T (X) = 0 (X +... + X 0 ) statisztika torzítatlanul becsüli a p paramétert? c.) Keressünk elégséges statisztikát! 8.) Torzítatlan-e a tapasztalati közép reciproka az exponenciális eloszlás paraméterére? Ha nem, hogyan lehet torzítatlanná tenni? 9.) Keressünk elégséges statisztikát a következ eloszláscsaládokból vett n elem minta esetén, és ahol tudjuk, írjuk fel a kapott elégséges statisztika eloszlását is. a.) Bin(r, p), r egész ismert, 0 < p < paraméter, b.) Geo(p), 0 < p < paraméter, c.) diszkrét egyenletes az {, 2,..., N} halmazon, N egész paraméter, d.) E( ϑ, ϑ), ϑ > 0 paraméter, e.) E(ϑ, 2ϑ), ϑ > 0 paraméter. 20.) Legyen X,..., X n i.i.d. minta Poi(λ), λ > 0 eloszlásból. a.) Adjunk hatásos becslést a g(λ) = e λ mennyiségre! b.) Milyen más becsléseket alkalmaznál még? c.) Szimuláljunk különböz elemszámú és paraméter Poisson-mintákat, majd vizsgáljuk meg az egyes becslések viselkedését! d.) Alkalmazd ezt a hatásos becslést a vízi halálos balesetek számára, forrás: http: //www.ksh.hu/docs/hun/xstadat/xstadat_eves/i_ods00.html 2.) Legyen X,..., X n i.i.d. Exp(λ), λ > 0 eloszlásból. a.) Adjunk blackwellizálással jó min ség torzítatlan becslést a g(λ) = e cλ mennyiségre (c > 0 konstans)! b.) Generáljunk R-ben paraméter 0 elem exponenciális mintákat és próbáljuk megbecsülni a fenti mennyiségeket c = 0, 5; ; 2; 3; 4-re. Mekkorák lesznek a hibák? 22.) Tekintsünk egy n elem i.i.d. Poisson eloszlású mintát. a.) Adjunk maximum likelihood becslést az ismeretlen paraméterre! b.) Tegyük fel, hogy a http://www.ksh.hu/docs/hun/xstadat/xstadat_eves/ i_ods00.html linken található közúti baleseti halálesetek száma Poissoneloszlást követ. Adjunk becslést az eloszlás paraméterére! c.) Megfelel nek tartod ezt az eljárást? Tegyük fel, hogy az i-edik év Poisson paramétere µρ i 990 (tehát a mintaelemek nem azonos eloszlásúak). Becsüld meg µ-t és ρ-t maximum likelihood módszerrel! d.) Próbálkozz más modellekkel is! 23.) Tekintsünk egy n elem i.i.d. geometriai eloszlású mintát. a.) Adjunk maximum likelihood becslést az ismeretlen paraméterre! b.) Generálj R-ben 0.0 paraméter 200 elem geometriai eloszlású mintákat! Mit lehet mondani a fenti becslés viselkedésér l? 24.) Legyenek (X,..., X n, Y,..., Y m ) független, nem egyforma paraméter normális eloszlású minták. A mintákat nem tudjuk meggyelni, csak az ɛ ij = I(X i < Y j ), i =,..., n, j =,..., m indikátor változókat. Hogyan lehetne az eredeti X, Y változók paramétereit becsülni? 25.) A http://reliawiki.com/index.php/lognormal_example_5_data# Lognormal_Distribution_Examples címen meghibásodási id ket talál. Ezeket gyakran lognormális eloszlással közelítik. a.) Adjunk a paraméterekre maximum likelihood becslést! b.) Becsüljük a paramétereket momentum módszerrel is! c.) Adjunk becslést annak a valószín ségére, hogy az els 700 órában nem történik meghibásodás! 26.) A http://amiklos.web.elte.hu/oktatas/209_inf_stat/felkar.rdata le-ban a Settenked Sáskák Biztosító 83 db felel sségbiztosítási kárát láthatjuk millió forintban. A biztosító az ilyen típusú károkat Pareto-eloszlással modellezi. αβ A Pareto-eloszlás s r ségfüggvénye α (β+x) I(x > 0). α+ a.) Adjunk maximum likelihood becslést az α paraméterre, ha β = 2.5! b.) Adjuk meg α momentum módszeres becslését és vessük össze az ML-becsléssel! c.) Határozzuk meg az el z becsléseket, ha egyik paraméter sem ismert! 27.) A http://amiklos.web.elte.hu/oktatas/209_inf_stat/postagalamb. RData címen 90 postagalamb visszaérkezési id pontját (napban számolva) találjuk meg. Tegyük fel, hogy a visszaérkezési id pontok exponenciális eloszlást követnek. a.) Határozzuk meg a paraméter maximum likelihood becslését! Mivel kellene ezt szorozni, hogy torzítatlan becslést kapjunk? b.) Bizonyítsuk be, hogy az így kapott becslés hatásos! c.) Határozzuk meg a Fisher-féle információmennyiséget! d.) Határozzuk meg az információs határt, ha a paramétert becsüljük! e.) Határozzuk meg az információs határt, ha a paraméter reciprokát becsüljük! f.) Generáljunk 000-szer 2 paraméter 90 elem mintát. Hasonlítsuk össze a 3
kapott négyzetes hibákat az információs határokkal! 28.) Legyen X..., X n i.i.d. minta E(0, ϑ) eloszlásból. a.) Határozd meg a paraméter maximum likelihood becslését! Mivel kellene ezt szorozni, hogy torzítatlan becslést kapjunk? b.) Határozd meg a Fisher-féle információmennyiséget! c.) Határozd meg az információs határt, ha a paramétert becsüljük! d.) Határozd meg az információs határt, ha a paraméter négyzetét becsüljük! e.) 000-szer generálj 0 paraméter 00 elem mintát. Hasonlítsd össze a kapott négyzetes hibákat az információs határokkal! 29.) Legyen X,..., X n N(m, σ 2 ) i.i.d. minta, σ ismert, m ismeretlen. Adjunk m-re α megbízhatóságú szimmetrikus kondenciaintervallumot! 30.) Tekintsük a 9. feladatban szerepl hallgatói magasságokat, amikr l tegyük fel, hogy normális eloszlást követnek. a.) Adjunk 95%-os megbízhatóságú kondenciaintervallumot a hallgatók magasságának várható értékére, ha a magasságok szórása 0 cm! b.) Hány elem mintára van szükség, ha azt szeretnénk, hogy a kondenciaintervallum legfeljebb 8 cm hosszúságú legyen? c.) Adjunk 95%-os megbízhatóságú kondenciaintervallumot a hallgatók magasságának várható értékére és szórására, ha a magasság szórása ismeretlen! 3.) Tekintsük a 27. feladatban szerepl postagalambos mintát, amir l tegyük fel, hogy elemei függetlenek és exponenciális eloszlásúak. a.) Adjunk az ismeretlen paraméterre aszimptotikus intervallumbecslést a centrális határeloszlás-tétel segítségével! b.) Adjunk pont- és intervallumbecslést annak a valószín ségére, hogy egy tubicának 2 óránál kevesebb id re van szüksége a visszaérkezéshez! Hasonlítsuk össze a naiv pontbecsléssel (relatív gyakoriság)! 32.) Tekintsük a 9. feladatban szerepl hallgatói magasságokat, amikr l tegyük fel, hogy függetlenek és a f ϑ (x) = 2x 3ϑ I(ϑ < x < 2ϑ) s r ségfüggvény eloszlásból 2 származnak, ahol ϑ > 0 ismeretlen valós paraméter. a.) Adjunk 95%-os megbízhatóságú kondenciaintervallumot ϑ-ra! Induljunk ki a ϑ ML-becsléséb l, majd próbáljunk meg egy alkalmas transzformációval pivotal statisztikát el állítani, ennek segítségével pedig adjuk meg a legsz kebb, az ML-becslést tartalmazó kondenciaintervallumot! b.) Adjunk pont- és intervallumbecslést annak a valószín ségére, hogy egy hallgató magasabb 90 cm-nél. Vessük össze a relatív gyakorisággal! 33.) A butitizmus betegségnél a vér kitamin tartalma (ezrelékben) jól közelíthet N(20; 4) eloszlással. A butitizmusban nem szenved knél ez az eloszlás N(8; ). Az orvost felkeresi egy beteg, az a feladatunk, hogy döntést hozzunk: butitizmusban szenved-e, avagy sem. a.) Határozzunk meg egy 5%-os els fajú hibavalószín ség próbát elem minta esetén! b.) Határozzuk meg ennek a próbának a másodfajú hibavalószín ségét! c.) Végezzünk 00 kísérletet butitista betegekkel! Hányszor döntünk helyesen? d.) Végezzünk 00 kísérletet butitizmusban nem szenved kkel! Hányszor döntünk helyesen? e.) Oldjuk meg úgy a feladatot, hogy n elem minta alapján szeretnénk dönteni! 34.) 5-elem E(0, ϑ) független mintánk van. A nullhipotézis H 0 : 0 < ϑ 0, az ellenhipotézis pedig H : ϑ > 0. Próbánk a következ : H 0 mellett döntünk, ha a legnagyobb meggyelésünk kisebb 9-nél, különben az ellenhipotézist választjuk. a.) Határozzuk meg a próba terjedelmét! b.) Rajzoljuk fel a próba er függvényét! c.) 000-szer generáljuk le a kísérletet ϑ = 9.8 és ϑ = esetén. Mit tapasztalunk? 35.) 24 emberen végeznek emberkísérletet. 3 korsó sört kell meginniuk. 2 korsó Kukutyini APA sört és egy korsó Rézfalvai IPA sört. Mindenkinek rá kell mutatnia az eltér sörre. Jelölje p annak a valószín ségét, hogy egy kísérleti alany a Rézfalvai APA sört választja ki. A nullhipotézis szerint a sörök megkülönbözhetetlenek, azaz H 0 : p = 3, míg az ellenhipotézis szerint megkülönböztethet k, tehát H : p > 3. Próbánk a következ : elutasítjuk H 0-t, ha legalább y c kísérleti alany helyesen választotta ki a Rézfalvai IPA sört. a.) Rajzoljuk fel a helyesen válaszolók eloszlását p = 3 és p = 0.5 esetén! b.) Határozzuk meg a próba els fajú hibavalószín ségét y c = 2 és y c = 3 esetén! c.) Rajzoljuk fel a próba er függvényét a fenti paramétereknél! d.) 000-szer generáljuk le a kísérletet p = 3 és p = 0.5 esetén. Mit tapasztalunk? 36.) Bublisztánban az ÖDSZ párt vezet ségi tagjainak havi keresete (millió bublikban) jól közelíthet N(µ, 2 2 ) eloszlással. A többi lakosnál a kereset N(µ 2, 4 2 ) eloszlással közelíthet. Rita Tora oknyomozó újságíró kiderítette néhány, a Nagy vezér stadionban szurkoló ember keresetét: VIP páholyban ül k 20.47 2.0 8.67 6.67 8.00 20.40 22.7 20.05 24.85 9.93 9.73 20.39 Normál sorban ül k 4.56 6.67 4.0.9 3.89 5.48 3.89 0.2 5.3 4.24 2.36 0.22 a.) Amennyiben a VIP páholyban csak az ÖDSZ párt vezet ségi tagjai ülnek, akkor 5%-os els fajú hibavalószín ség mellett el tudjuk fogadni a H 0 : µ = 20 hipotézist kétoldali ellenhipotézissel szemben / értelmes egyoldali ellenhipotézissel szemben? b.) Tekintsük a normál sorban ül ket. 5%-os els fajú hibavalószín ség mellett el tudjuk fogadni a H 0 : µ 2 = 8 hipotézist a kétoldali ellenhipotézissel szemben? c.) Mennyi a p-érték az el z részfeladatnál? 4
d.) El tudjuk fogadni a H 0 : µ = µ 2 hipotézist? 37.) A fogyasztóvédelmi hatóság többszöri lakossági bejelentést kapott, hogy a Portokall nev, fél literes kiszerelés narancsitalokban a akonra írt 500 ml-nél jóval kevesebb üdít van. Ez alapján vizsgálatot kezdtek, a fogyasztóvédelem munkatársa vásárolt a boltban 0 darabot, majd megnézte a benne lév édes ned térfogatát (ml): 483, 502, 498, 496, 502, 483, 494, 49, 505, 486. Tegyük fel, hogy egy fél literes üdít s üvegbe töltött narancslé mennyisége normális eloszlást követ. Állíthatjuk-e 95%-os megbízhatóság esetén, hogy a Portokall gyártója át akarja verni a vev ket? 38.) Bálint gazdának 66 tehene van, teheneit reggel kitereli nagy birtokára, és egész nap ott legelésznek. Este összefut a helyi kocsmában a szomszéd gazdálkodóval, Máté gazdával, aki elmeséli, a tehenei tejének tejzsírszázaléka jelent sen megn tt, mióta szilázzsal is eteti ket minden nap. Ezen felbuzdulva, Bálint gazda úgy dönt, hogy 6 kedvenc tehenén kipróbálja ezt a "diétát" egy hónapon keresztül szilázzsal is etette ket, majd megnézte a tejük tejzsírszázalékát: Mit ettek Julcsa Bogár Riska Csendes Bimbó Mula Csak füvet 3,84 3,79 3,78 4,00 3,83 3,84 Szilázst is 3,90 4,05 3,8 4,0 3,8 3,9 Vizsgáljuk meg alkalmas statisztikai próbával, hogy a szilázs növeli-e a tej tejzsírszázalékát! 5