Matematikai statisztika gyakorlat 2018/2019 II. félév

Hasonló dokumentumok
Matematikai statisztika

Leíró és matematikai statisztika gyakorlat 2018/2019 II. félév

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Statisztika 1. zárthelyi dolgozat március 18.

Statisztika 1. zárthelyi dolgozat március 21.

Mo= argmax f(x), ha X abszolút folytonos; Mo= argmax P (X = x i ), ha X diszkrét.

BIOMATEMATIKA ELŐADÁS

Statisztika. Földtudomány szak, geológus szakirány, 2015/2016. tanév tavaszi

A statisztikai vizsgálat tárgyát képező egyedek összességét statisztikai sokaságnak nevezzük.

Segédanyag a Leíró és matematikai statisztika tantárgyhoz március 28.

Eddig megismert eloszlások Jelölése Eloszlása EX D 2 X P(X = 1) = p Ind(p) P(X = 0) = 1 p. Leíró és matematikai statisztika

Intervallum Paraméteres Hipotézisek Nemparaméteres. Statisztika december 2.

Statisztika gyakorlat Geológus szakirány

Matematika B4 I. gyakorlat

biometria III. foglalkozás előadó: Prof. Dr. Rajkó Róbert Hipotézisvizsgálat

Matematikai statisztika gyakorlat Programtervez informatikus alapszak, A szakirány 2018/2019 tavaszi félév Megoldások, végeredmények

6. feladatsor. Statisztika december 6. és 8.

24. tétel A valószínűségszámítás elemei. A valószínűség kiszámításának kombinatorikus modellje.

Segédanyag a Leíró és matematikai statisztika tantárgyhoz március 1.

æ MATEMATIKAI STATISZTIKA Dr. Bolla Marianna, Matematika Intézet, Sztochasztika Tanszék

Statisztika (jegyzet)

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

f (M (ξ)) M (f (ξ)) Bizonyítás: Megjegyezzük, hogy konvex függvényekre mindig létezik a ± ben

2. egy iskola tanulói, a változók: magasságuk cm-ben, súlyuk (tömegük) kilóban; 3. egy iskola tanulói, a változó: tanulmányi átlaguk;

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Zavar (confounding): akkor lép fel egy kísérletben, ha a kísérletet végző nem tudja megkülönböztetni az egyes faktorokat.

kismintás esetekben vagy olyanokban, melyeknél a tanulóalgoritmust tesztadatokon szeretnénk

Populáció. Történet. Adatok. Minta. A matematikai statisztika tárgya. Valószínűségszámítás és statisztika előadás info. BSC/B-C szakosoknak

I. Függelék. A valószínűségszámítás alapjai. I.1. Alapfogalamak: A valószínűség fogalma: I.2. Valószínűségi változó.

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

A szórások vizsgálata. Az F-próba. A döntés. Az F-próba szabadsági fokai

A matematikai statisztika elemei

1. előadás: Bevezetés. Irodalom. Számonkérés. Cél. Matematikai statisztika előadás survey statisztika MA szakosoknak. A matematikai statisztika tárgya

Megjegyzések. További tételek. Valódi határeloszlások. Tulajdonságok. Gyenge (eloszlásbeli) konvergencia

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Dr. Karácsony Zsolt. Miskolci Egyetem november

? közgazdasági statisztika

Statisztikai hipotézisvizsgálatok

Eötvös Loránd Tudományegyetem Informatikai Kar. Analízis 1. Írásbeli beugró kérdések. Készítette: Szántó Ádám Tavaszi félév

2. Hatványsorok. A végtelen soroknál tanultuk, hogy az. végtelen sort adja: 1 + x + x x n +...

Matematikai statisztika

Statisztika október 27.

véletlen : statisztikai törvényeknek engedelmeskedik (Mi az ami közös a népszavazásban, a betegségek gyógyulásában és a fiz. kém. laborban?

ezek alapján kívánunk dönteni. Ez formálisan azt jelenti, hogy ellenőrizni akarjuk,

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Bevezetés a hipotézisvizsgálatokba

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Pályázat címe: Pályázati azonosító: Kedvezményezett: Szegedi Tudományegyetem Cím: 6720 Szeged, Dugonics tér

Nemparaméteres próbák

(A TÁMOP /2/A/KMR számú projekt keretében írt egyetemi jegyzetrészlet):

Matematika I. 9. előadás

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

Komputer statisztika

Áringadozások elıadás Kvantitatív pénzügyek szakirány 2012/13 2. félév

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

egyetemi jegyzet Meskó Balázs

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Sorozatok, határérték fogalma. Függvények határértéke, folytonossága

V. Deriválható függvények

A tárgy címe: ANALÍZIS 1 A-B-C (2+2). 1. gyakorlat

Nevezetes sorozat-határértékek

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

ALGEBRA. egyenlet megoldásait, ha tudjuk, hogy egész számok, továbbá p + q = 198.

VII. A határozatlan esetek kiküszöbölése

A statisztika részei. Példa:

1 k < n(1 + log n) C 1n log n, d n. (1 1 r k + 1 ) = 1. = 0 és lim. lim n. f(n) < C 3

1. A radioaktivitás statisztikus jellege

10.M ALGEBRA < <

Statisztika Elıadások letölthetık a címrıl

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

1 n. 8abc (a + b) (b + c) (a + c) 8 27 (a + b + c)3. (1 a) 5 (1 + a)(1 + 2a) n + 1

Bootstrap (Efron, 1979)

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Valószínűségi változók. Várható érték és szórás

? közgazdasági statisztika

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

[Biomatematika 2] Orvosi biometria

A konfidencia intervallum képlete: x± t( α /2, df )

Valószín ségszámítás és statisztika

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

SZÁMELMÉLET. Vasile Berinde, Filippo Spagnolo

Valószín ségszámítás és statisztika

(d) x 6 3x 2 2 = 0, (e) x + x 2 = 1 x, (f) 2x x 1 = 8, 2(x 1) a 1

Statisztika elméleti összefoglaló

Valószín ségszámítás és statisztika gyakorlat Programtervez informatikus szak, esti képzés

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Adatok statisztikai értékelésének főbb lehetőségei

Tartalom. Kezdeti szimulációs technikák. Tipikus kérdések. A bootstrap módszer. Bevezetés A független, azonos eloszlású eset:

Kutatói pályára felkészítı modul

Normális eloszlás paramétereire vonatkozó próbák

Hipotézis vizsgálatok

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Gyakorló feladatok II.

Rudas Tamás: A hibahatár a becsült mennyiség függvényében a mért pártpreferenciák téves értelmezésének egyik forrása

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Hipotézis-ellenırzés (Statisztikai próbák)

ANALÍZIS I. DEFINÍCIÓK, TÉTELEK

kritikus érték(ek) (critical value).

Átírás:

Matematikai statisztika gyakorlat 018/019 II. félév 1. Táblázatok Viszoyszámok: V = A, ahol A: a viszoyítás tárgya (amit viszoyítuk); B B: a viszoyítás alapja (amihez viszoyítuk) Megoszlási: a sokaság egy részéek a sokaság egészéhez való viszoyítása Koordiációs: a sokaság egy részéek a sokaság egy másik részéhez való viszoyítása Diamikus: két időpot vagy időszak adatáak háyadosa Itezitási: külöböző fajta adatok viszoyítása egymáshoz; gyakra a mértékegységük is eltér Adott sokaság és aak m része eseté az összetett viszoyszám: m m m A i B i V i A i V = m = m = m B i Feladatok (R): B i } {{ } súlyozott számtai átlag A i V i }{{} súlyozott harmoikus átlag 1. A 011. évbe törtéő épszámlálás alapjá a 0-4 év közötti épesség emek szeriti megoszlása 011-be a következő volt: Nem Népesség száma (fő) Férfi 317 039 Nő 301 196 Összese 618 35 (Az adatok a Közpoti Statisztikai Hivatal holapjáról lettek letöltve: http : //www.ksh.hu/epszamlalas/tablak_teruleti_00.) (a) Adja meg a táblázat adataiból számítható megoszlási viszoyszámokat! (b) Adja meg a táblázat adataiból számítható koordiációs viszoyszámokat! (c) A 016-os Mikrocezus szerit Magyarország épessége 9 803 837 fő. Számítsa ki a épsűrűséget! Ez milye viszoyszám?. Az euró eladási árfolyamáak alakulása az K&H Bakál a következő volt: Időpot Árfolyam (Ft/euró) 018. február 8. 318,33 019. február 8. 37,80 (Az adatok a http://www.apiarfolyam.hu/ oldalról lettek letöltve.) Adjo meg a táblázat adataiból számítható diamikus viszoyszámot és értelmezze a kapott értéket! 3. Egy termelő vállalatál a fizikai mukát végzők összese 18000 db alkatrészt állítottak elő, amiből a ők teljesítméye 8500 db volt. A vállalatak 950 férfi fizikai dolgozója va. A őkél a termelékeység, azaz az egy főre jutó termelt meyiség 17 db/fő. (a) Milye viszoyszám található a feladat szövegébe és mi eek a kiszámítási módja? (b) Szerkessze statisztikai táblát a megadott adatokból és töltse ki a hiáyzó adatokat! 4. Néháy iformáció az ELTE matematika alapszakjára 016-ba jeletkezőkről: az állami fiaszírozásos képzésre 348-a jeletkeztek, 36,494%-uk első helye jeletkezett, végül 110-et vettek fel, míg a költségtérítéses képzési formára jeletkezők 10,7%-át, 9 főt vették fel. Összese 141 ember jelölte be az ELTE matematika szakát első helye. (a) Milye viszoyszám(ok) található(k) a feladat szövegébe és mi eek a kiszámítási módja? 1

(b) Szerkessze statisztikai táblát a megadott adatokból és töltse ki a hiáyzó adatokat! 5. Egy vállalat égy részleggel redelkezik, az ott dolgozók bruttó fizetéséről az alábbi adatok állak redelkezésükre: Részleg Átlagkereset (e Ft/fő) Dolgozók létszáma (fő) Raktár 00 10 Összeszerelő 50 16 Műhely 50 8 Irodaház 300 10 Összese...... (a) Milye viszoyszám található a táblázatba és mi eek a kiszámítási módja? (b) Számítsa ki a hiáyzó potozott értékeket! 6. Egy szálloda 016-os vedégforgalmáról az alábbiakat ismerjük: Származási Vedég- Egy vedég- Egy vedégre ország éjszakák éjszakára jutó jutó vedégszerit száma szállás díja éjszakák száma a vedég (éj) (Ft/éj) (éj/f) Belföldi 5000 16000 4 Külföldi 4000 1000 Összese 9000...... (a) Határozza meg a teljes hotelre voatkozóa az egy vedégéjszakára jutó szállás díjat, és (b) az egy vedégre jutó vedégéjszakák számát! 7. Magyarország épességéről az alábbiakat ismerjük: Település jellege Népesség megoszlása Népesség változása 01-be (%) 1990-ről 01-re (%) Budapest 17,4-14,4 Többi város 51,9 -,4 Községek 30,7-0,8 Összese 100,0... (a) 1990 és 01 között évete átlagosa meyivel változott a budapesti lakosság (%-ba kifejezve)? (b) Háy százalékkal változott a épesség száma 1990-ről 01-re? (c) Melyik települése élők részaráya csökket?

. Leíró statisztika Defiíció (Mita). X 1,..., X valószíűségi változó sorozat. A továbbiakba feltesszük, hogy függetleek és azoos eloszlásúak. Realizációja: x 1,..., x Defiíció (Statisztika). A mita valamely függvéye, pl.: Mitaátlag v. átlag: X = 1 X i Tapasztalati szórás: S = 1 (X i X) (az átlagtól való átlagos abszolút eltérés) Korrigált tapasztalati szórás: S = 1 (X i X) 1 Szórási együttható (vagy relatív szórás): V = S X = S 100% (az átlagtól való átlagos eltérés százalékba) X /megjegyzés: lehet a korrigált tapasztalati szórással számoli/ k-adik tapasztalati mometum (k 1, k Z): m k = 1 Xi k Tapasztalati módusz: a legtöbbször előforduló érték Redezett mita: X 1... X a mitaelemek em csökkeő sorredbe Tapasztalati mediá: X +1, ha páratla és X +X +1, ha páros Terjedelem: R = X X1 (legagyobb legkisebb mitaelem) z-kvatilis: q z = if{x : F (x) z}. Ha F ivertálható, akkor q z = F 1 (z). Tapasztalati z-kvatilis: q z értelmezése: a mitaelemek z-ed része legfeljebb a q z, (1 z)-ed része pedig legalább a q z értéket veszi fel (0 < z < 1); sokféleképpe számolható, pl. iterpolációs módszerrel: először megállapítjuk a sorszámot: ( + 1)z = e + t (e: egészrész, t: törtrész), majd kiszámoljuk a z-kvatilist: q z = Xe + t(xe+1 Xe ). Kvartilisek: Speciális kvatilisek, alsó (vagy első) kvartilis: Q 1 = q 1, 4 mediá: Q = q 1, felső (vagy harmadik) kvartilis: Q 3 = q 3 4 Iterkvartilis terjedelem: IQR = q 3 q 1 = Q 3 Q 4 4 1 Tapasztalati eloszlásfüggvéy: F (x) = 1 I(X i < x) { 1 ha X i < x ahol I(X i < x) = idikátor függvéy 0 ha X i x Az F (x) tapasztalati eloszlásfüggvéy és az F (x) elméleti eloszlásfüggvéy közötti eltérés maximuma 1 valószíűséggel egyeletese 0-hoz kovergál, ami azt jeleti, hogy elég agy mita eseté F (x) éréke mide x-re tetszőleges közel va F (x) értékéhez és -et övelve mideütt aak közelébe marad. (Gliveko-Catelli tétel) Defiíció (Boxplot). <boxplotom.jpg> A = max{x 1, Q 1 1, 5 IQR}, B = Q 1, C = Q, D = Q 3, E = mi{x, Q 3 + 1, 5 IQR} F : kieső értékek, azokat tütetjük fel potokkét, amik A- vagy E- kívülre esek 3

Feladatok (R): 1. Egy szabályos dobókockával égyszer dobtuk és a következőket kaptuk: 1, 3, 6, 1. (a) Számolja ki a mitaátlagot, tapasztalati szórást és korrigált tapasztalati szórást, a szórási együtthatót (a korrigált szórást haszálva), valamit a második tapasztalati mometumot! (b) Számítsa ki és rajzolja fel a tapasztalati eloszlásfüggvéyt is! (c) Mi a kockadobás elméleti eloszlásfüggvéye? Ábrázolja ezt a függvéyt is! (d) A f loor(ruif(100, mi = 1, max = 7)) utasítással geeráljo 100 kockadobást és aak ábrázolja a tapasztalati eloszlásfüggvéyét az R program segítségével. (Megjegyzés: geerálhat más számú kockadobást is.) Mit tapasztal? (e) Tekitsük a feti a 101, 103, 106, 101 adatokat, melyeket az előzőekből 100-zal való eltolással kaptuk. Meyi lesz most a mitaátlag és a tapasztalati szórás? (f) Az (a)-potbeli adatokat szorozzuk meg 3-mal: 3, 9, 18, 3. Hogya változik ekkor a mitaátlag és a tapasztalati szórás?. Egy csoportba a hallgatók magassága (cm): 180 163 1500 157 165 165 174 191 17 165 1-68 186 (a) Nézze rá az adatokra! Reálisak? Javítsa az esetleges adathibákat a holapo található alapadatok fájl alapjá! (b) Adja meg a redezett mitát! (c) Rajzolja fel a tapasztalati eloszlásfüggvéyt! Meyi a tapasztalati eloszlásfüggvéy értéke a 180 helye? Értelmezze szövegese! (d) Elemezze a hallgatók testmagasságát alapstatisztikák: átlag, korrigált tapasztalati szórás, szórási együttható, kvartilisek, terjedelem, iterkvartilis terjedelem, tapasztalati ferdeség, tapasztalati csúcsosság segítségével! (e) Készítse boxplot ábrát! (f) Készítse alkalmas osztályközös gyakorisági sort, majd abból hisztogramot! Vesse ezt össze az R program hist utasításával kapott hisztogrammal. 3. A holapo található gdp_1.rdata és gdp_.rdata evű fájl az egy főre jutó GDP (1995-017) mérőszámokat tartalmazza, melyek a Közpoti Statisztikai Hivatal holapjáról lettek letöltve: https : //www.ksh.hu/docs/hu/eurostat_tablak/tabl/tsdec100.html. Foglalja össze az adatokat és készítse ábrákat (boxplot, hisztogtam)! 4. Legye adat = c(, 0, 1, 0, 8, 3, 5, 7, 8,, 3, 5, 1, 7, 8, 3, 5, 3,, 8). Mit számol az alábbi R program? (a) sum(adat < 3) (b) ames(table(adat))[table(adat) == max(table(adat))] (c) sd(adat) == sqrt(sum((adat mea(adat))ˆ)/(legth(adat))) TRUE vagy FALSE? Ameyibe hamis az állítás, hogya lehet igazzá tei? (d) rep = rep(c( A, B ), c(10, 10)) df = cbid(as.data.f rame(adat), as.data.f rame(rep)) library(ggplot) ggplot(df, aes(x = rep, y = adat)) + geom_boxplot(f ill = gold ) + scale_x_discrete(ame = A és B csoport ) 4

3. Statisztikai mita és mitatér Valószíűségi mező: (Ω, A, P) Ω: emüres halmaz (eseméytér), elemi eseméyek (ω) halmaza kísérlet lehetséges kimeeteleiek halmaza; érmedobás: Ω = {F, I} A Ω: σ-algebra (eseméyek családja), véges Ω eseté az eseméytér összes részhalmaza A A lehetséges kimeetelek halmaza; érmedobás: A = {, {F }, {I}, Ω}, pl. A={F} P : A [0, 1] valószíűségi mérték eseméyek valószíűsége; érmedobás: pl. P(A) = 1 Statisztikai mező: (Ω, A, P) ha mide P P-re (Ω, A, P) valószíűségi mező ameyibe P = {P ϑ ϑ Θ R p paramétertér}: paraméteres statisztikai mező Valószíűségi változó: X : Ω R; érmedobás: pl. X(ω) = { 0 ha ω = F 1 ha ω = I ( elemű) mita: X=(X 1, X,..., X ) : Ω χ R valószíűségi változó sorozat, továbbiakba feltesszük, hogy függetleek és azoos eloszlásúak (i.i.d) rögzített ω Ω eseté X 1 (ω) = x 1, X (ω) = x,..., X (ω) = x a mita realizációja: x 1, x,..., x valószíűségi változóra voatkozó darab kísérlet kimeetele, érmedobás: pl. érme ötszöri feldobásáál megfigyelt eseméyek: I, I, F, F, I, így a mita értéke: 1, 1, 0, 0, 1 / itt: Ω = {F, I} 5 / Mitatér: mita lehetséges értékeiek halmaza: χ, R egy részhalmaza; érmedobás: pl. érme ötszöri feldobásáál {0, 1} 5 Elégségesség és teljesség Diszkrét eloszlású X 1, X,..., X i.i.d. mita eseté: A T (X) statisztika elégséges a ϑ paraméterre, ha mide x, t párra, a P ϑ (X = x T (X) = t) valószíűség em függ ϑ-tól. Megj. T (X) elégséges h és g ϑ függvéyek, melyekre P ϑ (X = x) = h(x) g ϑ (T (x)) Abszolút folytoos X 1, X,..., X i.i.d. mita eseté: A T (X) statisztika elégséges a ϑ paraméterre, ha a sűrűségfüggvéyek f,ϑ (x) = h(x) g ϑ (T (x)) alakú faktorizációja. Tegyük fel, hogy az T statisztika elégséges a ϑ paraméterre. Ekkor T miimális elégséges, ha T bármilye más S statisztika függvéye, ami elégséges a ϑ paraméterre. Áll. Ha a mita bármely x, y realizációjára (f ϑ (x)/f ϑ (y) em függ ϑ-tól T (x) = T (y)), akkor T miimális elégséges. A T (X) statisztika teljes, ha mide h valós értékű függvéyre E ϑ (h(t )) = 0, ϑ Θ, akkor P ϑ (h(t ) = 0) = 1 ϑ Θ. Megj. Ha a T statisztika elégséges és teljes, akkor miimális elégséges. Torzítatlaság, hatásosság T (X) statisztika becslése g(ϑ)-ak, ahol ϑ Θ R p, ha T : χ Θ. Máképp: A mitatére értelmezett függvéyt statisztikáak hívjuk. Becslést úgy kaphatuk, ha egy statisztikába a mitát behelyettesítjük. T (X) statisztika torzítatla becslése a ϑ paraméter g(ϑ) függvéyéek, ha E ϑ T (X) = g(ϑ) ϑ Θ eseté. A T (X) becsléssorozat ( = 1,,...) aszimptotikusa torzítatla becslése g(ϑ)-ak, ha E ϑ T (X) g(ϑ) ϑ Θ eseté. Legyeek T 1 (X) és T (X) torzítatla becslései g(ϑ)-ak. Ekkor azt modjuk, hogy T 1 (X) hatásosabb T (X)-él, ha D ϑ (T 1(X)) D ϑ (T (X)) mide ϑ Θ eseté. A T (X) torzítatla becslést hatásos becslések evezzük, ha mide torzítatla becslésél hatásosabb. ** feladatok Rmd formátumba ** 5

4. Blackwellizálás Az eljárás léyege, hogy akármilye torzítatla becslés hatásosságát javíthatjuk azzal, ha egy elégséges statisztikára vett feltélteles várható értékét képezzük. 1. Adjuk egy egyszerű T torzítatla becslést az ismeretle paraméterre, pl. az első (éháy) mitaelem felhaszálásával.. Keressük egy miél egyszerűbb S elégséges statisztikát. 3. Írjuk fel V = E(T S)-et. V szité egy valószíűségi változó, S-ek egy függvéye. Ha S = k, akkor V értéke E(T S = k). Megj. Mivel S elégséges, így V em függ az ismeretle paramétertől. V torzítatla és hatásosabb, mit T (Rao-Backwell tétel). 4. Ha S teljes statisztika, akkor V hatásos becslés. Megj. Hatásos becsléseket a miimális elégséges statisztika függvéyei közt kell keresi. Megj. Ha T elégséges és torzítatla, akkor a blackwellizáltja ömaga. Megj. Ha T elégséges, torzítatla és teljes, akkor hatásos. 5. Maximum-likelihood becslések Legyeek X 1, X,..., X függetle azoos eloszlású (i.i.d.) valószíűségi változók, és legye ϑ Θ az ismeretle paraméter Likelihood függvéy: L(ϑ, x) = f ϑ (x) = f ϑ (x i ), ha az eloszlás folytoos, L(ϑ, x) = P ϑ (X = x) = P ϑ (X i = x i ), ha az eloszlás diszkrét. Log-likelihood függvéy: l(ϑ, x) = l(l(ϑ, x)) Maximum-likelihood módszer (ML-módszer) az ismeretle paraméter becslésére: Azt a paraméterértéket keressük, ahol a likelihood függvéy a legagyobb értéket veszi fel (azaz diszkrét esetbe az ismeretle paraméter azo értéket keressük, amely mellett a bekövetkezett eredméy maximalis valószíűségű): max L(ϑ, x) ϑ Ameyibe a függvéy deriválható ϑ szerit, akkor a maximumot kereshetjük a szokásos módo, az első és második deriváltak segítségével, azoba a feladatukat jeletőse megehezíti, hogy olya -szeres szorzatot kellee deriváli, amelyikek mide tagjába ott va az a változó, ami szerit deriváluk kellee. Ezért likelihood függvéy helyett a log-likelihood függvéy maximumhelyét keressük. Ha ϑ 1 dimeziós, akkor ϑ l(ϑ, x) = 0, míg ha ϑ = (ϑ 1,..., ϑ p ) p dimeziós, akkor ϑi l(ϑ, x) = 0 megoldásából kapjuk a becslést. (A második deriváltak segítségével elleőrizzük, hogy valóba maximum.) Tétel (ML-becslés ivariás tulajdosága): Ha ϑ ML-becslése ˆϑ, akkor tetszőleges g függvéy eseté g(ϑ) ML-becslése g( ˆϑ). Mometumok módszere E módszert akkor szokás alkalmazi az imeretle paraméter(ek) becslésére, amikor sok ismeretle paraméter va, és a ML becslést ehéz kiszámítai. ( ) i A mitából számítható tapasztalati mometumokat m k := xk i egyelővé tesszük az elméleti mometumokkal (M k := E ϑ X k ), az elsőtől kezdve, potosa ayit, ameyi paraméter va. Tehát p darab ismeretle paraméter eseté a következő p ismeretlees egyeletredszert kell megoldai: M 1 = m 1 (= x). M p = m p 6

6. Fisher-féle iformáció Legyeek X 1, X,..., X függetle azoos abszolút folytoos eloszlású (i.i.d.) valószíűségi változók f ϑ sűrűségfüggvéyel, és legye ϑ Θ az ismeretle paraméter Fisher-féle iformáció: ( ( ) ) ( ( ) ) I (ϑ) = E ϑ l(ϑ, X), egy mitaelem iformációja: I 1 (ϑ) = E ϑ ϑ ϑ l f ϑ(x) Ha I 1 (ϑ) < és a ( ) f ϑ (x) ϑ dx = 0 bederiválási feltétel teljesül, akkor E ϑ ϑ l f ϑ(x) = 0 is teljesül* 1, amiből következik, hogy I (ϑ) = I 1 (ϑ). ( ) ( ) Megj. Mivel E ϑ ϑ l f ϑ(x) = 0, az egy elem mita Fisher-féle iformációja: I 1 (ϑ) = Dϑ ϑ l f ϑ(x). Cramér-Rao egyelőtleség: Ha I 1 (ϑ) < és f ϑ (x) dx = 0 (bederiválási feltétel), továbbá a T (X) statisztika a ψ függvéyel képzett ψ(ϑ) paramé- ϑ terfüggvéy torzítatla becslése, Dϑ T (X) < és R f ϑ (x) T (x) dx = ϑ ϑ R T (x)f ϑ (x) dx, akkor D ϑ (T (X)) (ψ (ϑ)) I (ϑ) = (ψ (ϑ)) I 1 (ϑ) (= iformációs határ) Megj. Speciálisa, ha T (X) torzítatla becslése ϑ-ak, továbbá a feti regularitási feltételek teljesülek, akkor D ϑ(t (X)) 1 I (ϑ) = 1 I 1 (ϑ). Megj. A Cramér-Rao tétel em azt állítja, hogy az iformációs határ elérdik valamely torzítatla becslés eseté. Viszot ha elérdik, akkor az a T becslés hatásos (st az egyetle ilye). Az is lehet, hogy va hatásos becslés, de az iformációs határ em érdik el. * 1 ( ) E ϑ ϑ l f ϑ(x) = 1 f ϑ (x) ( fϑ (x) ϑ ) f ϑ (x) dx = f ϑ (x) ϑ dx = 0 ** feladatok Rmd formátumba ** 7

7. Kofideciaitervallumok Eddig: potbecslés, azaz a becsüledő paramétert vagy aak függvéyét a mitaelemekből képzett egyetle statisztikával becsültük. Nem elég iformatív, em tudi meyi bizoytalaság va a becslésbe. Most: a becslés egy egész itervallum, melyek határai statisztikák Legye (Ω, A, P) statisztikai mező, ahol P = {P ϑ ϑ Θ R p }, és legye X 1,..., X függetle, azoos eloszlású mita. Defiíció (Kofideciaitervallum). A (T 1 (X), T (X) statisztikapárral defiiált itervallum legalább 1 ε szitű kofideciaitervallum a ψ(ϑ) paraméterfüggvéyre, ha P ϑ (T 1 (X) < ψ(ϑ) < T (X)) 1 ε ϑ Θ ahol ε előre adott kis pozitív szám (pl. ε = 0, 05, az ehhez tartozó kofideciaszit 95%). Kofideciaitervallum a ormális eloszlás várható értékére - ismert szórás eseté: Legyeek X 1,..., X N(µ, σ ) függetle azoos eloszlású mita, σ ismert, µ ismeretle paraméter, ekkor az (1 α) megbízhatósági szitű kofideciaitervallum µ-re: ahol u 1 α ( X u 1 α σ, X + u 1 α a stadard ormális eloszlás megfelelő kvatilisét jelöli. - ismeretle szórás eseté: ) σ Legyeek X 1,..., X N(µ, σ ) függetle azoos eloszlású mita, σ és µ ismeretle paraméterek, ekkor az (1 α) megbízhatósági szitű kofideciaitervallum µ-re: ( ahol t 1,1 α X t 1,1 α S, X S ) + t 1,1 α az 1 szabadsági fokú t-eloszlás megfelelő kvatilisét jelöli. Megj.: A kofideciaitervallum hossza aál kisebb, miél agyobb az mitaelemszám és miél kisebb a szórás. Ezeket kostas szite tartva, a szigifikaciaszit övelésével (ε csökketésével) viszot ő a kofideciaitervallum hossza. ** feladatok Rmd formátumba ** 8

8. Hipotézisvizsgálat Hipotézis: állítás, amiek igazságát vizsgáli szereték Statisztikai próba: eljárás amiek a segítségével dötést hozhatuk a hipotézisről Legye (Ω, A, P) statisztikai mező, ahol P = {P ϑ ϑ Θ R p }, és legye X = (X 1,..., X ) függetle, azoos eloszású mita a P ϑ sokaságból. Jelölje X a mitateret. Nullhipotézis: H 0 : ϑ Θ 0 Ellehipotézis: H 1 : ϑ Θ 1 Paramétertér: Θ = Θ 0 Θ 1 Dötés: T (X) statisztika (T : X R próbastatisztika) segítségével, melyek ismerjük az eloszlását a ullhipotézis feállása eseté Mitateret két részre botjuk: X = X e X k és X e X k = X k : kritikus tartomáy azo X megfigyelések halmaza, amikre elutasítjuk a ullhipotézist X e : elfogadási tartomáy azo X megfigyelések halmaza, amikre elfogadjuk a ullhipotézist Kritikus érték: c (függ α-tól, ld. alább) X k = {x X : T (x) c} vagy X k = {x X : T (x) c} vagy X k = {x X : T (x) c} X e = {x X : T (x) < c} X e = {x X : T (x) > c} X e = {x X : T (x) < c} Dötés Valós állapot H 0 -t elfogadjuk (X e ) H 0 -t elvetjük (X k ) H 0 igaz (ϑ Θ 0 ) helyes dötés (1 α) elsőfajú hiba (α) H 0 hamis (ϑ Θ 1 ) másodfajú hiba (β) helyes dötés (1 β) Elsőfajú hiba valószíűsége: Egyszerű hipotézis (Θ 0 halmaz egyelemű) eseté: P ϑ0 (X X k ) = α ϑ 0 Θ 0 / = P(elvetjük H 0 -t H 0 igaz) / Összetett hipotézis (Θ 0 halmaz több elemű) eseté: P ϑ (X X k ) α ϑ Θ 0 Próba (potos) terjedelme vagy szigifikaciaszitje: α = sup{p ϑ (X X k ) : ϑ Θ 0 } Megbízhatósági (kofidecia-) szit: 1 α / = P(elfogadjuk H 0 -t H 0 igaz) / A próba meghatározása: előre rögzített α terjedelemhez azt a c értéket keressük, amire a próba potos terjedelme éppe α. Másodfajú hiba valószíűsége: β(ϑ) = P ϑ (X X e ) = 1 P ϑ (X X k ) ϑ Θ 1 / = P ϑ (elfogadjuk H 0 -t H 0 hamis) / Erőfüggvéy: ψ(ϑ) = 1 β(ϑ) / = P(elvetjük H 0 -t H 0 hamis) / Miél erősebb a próba, aál agyobb valószíűséggel veti el a hamis ullhipotézist. Vagyis a próba ereje aak a valószíűsége, hogy egy adott külöbséget adott mitaagyság és terjedelem mellett egy statisztikai próba kimutat. (Kísérletek tervezésekor az erő agyságáak előre meghatározott értékéből határozható meg a mitaelemszám.) A próba erejét addig em tudjuk kiszámoli, ameddig az ellehipotézis egy értékét em rögzítjük ill. em modjuk meg a külübég agyságát, amit ki szereték mutati. p-érték: aak a valószíűsége, hogy igaz H 0 eseté a tapasztalt eltérést vagy aál agyobb eltérést kapuk. Ha egy próbát számítógép segítségével végzük el, redszerit a p-érték révé tuduk dötei: ha p-érték< α, akkor elvetjük H 0 -t. A hipotézisek em egyeragúak. H 0 -t csak idokolt esetbe szereték elutasítai, így az elsőfajú hiba súlyosabbak számít, mit a másodfajú hiba. Általába az elsőfajú hiba legagyobb valószíűségét adjuk meg, de a másodfajú hiba csökketésére is törekszük (pl. mitaagyság övelésével). H 0 elfogadása: statisztikailag em találtuk komoly bizoyítékot arra, hogy H 0 em lee igaz; vagyis H 0 elfogadása eseté sem lehet állítai, hogy H 0 teljesül H 0 elvetése: statisztikailag komoly bizoyítékot találtuk arra, hogy a H 0 em igaz, azaz H 1 igaz ** feladatok Rmd formátumba ** 9

9. Hipotézisvizsgálat: Paraméteres próbák Egymitás próbák X 1,..., X N(µ, σ ) függetle azoos eloszlású mita, µ ismeretle paraméter H 0 : µ = µ 0 H 0 : µ µ 0 H 0 : µ µ 0 H 1 : µ µ 0 H 1 : µ > µ 0 H 1 : µ < µ 0 Egymitás u-próba (σ ismert) Próbastatisztika: u = X µ 0 σ H 0 eseté N(0, 1) Kritikus tartomáyok: X k = {X : u > u 1 α } X k = {X : u > u 1 α } X k = {X : u < u α } = {X : u > u 1 α vagy u < u α } <hipovizsgu.jpg> <hipovizsgu1r.jpg> <hipovizsgu1l.jpg> Kapcsolat a kofideciaitervallummal (az alábbi lépések ekvivalesek): u > u 1 α u > u 1 α vagy u < u 1 α X µ 0 σ X µ 0 > u 1 α σ vagy X µ 0 < u 1 α > u 1 α vagy X µ 0 σ ( σ µ 0 / X u 1 α σ, X + u 1 α < u 1 α ) σ Vagyis a ullhipotézist (kétoldai) potosa akkor utasítjuk el, ha az (1 α) megbízhatósági szitű kofideciaitervallum µ-re em tartalmazza µ 0 -t. Egymitás t-próba (σ ismeretle) Próbastatisztika: t = X µ 0 s H 0 eseté t 1 Kritikus tartomáyok: X k = {X : t > t 1,1 α/ } X k = {X : t > t 1,1 α } X k = {X : t < t 1,α } Kétmitás próbák X 1,..., X N(µ 1, σ ) és Y 1,..., Y m N(µ, σ) függetle miták, µ 1 és µ ismeretle paraméterek H 0 : µ 1 = µ H 0 : µ 1 µ H 0 : µ 1 µ H 1 : µ 1 µ H 1 : µ 1 > µ H 1 : µ 1 < µ a két mita a két mita párokét összetartozó, függetle em függetle σ 1 és σ ismert Kétmitás u-próba Egymitás u-próba a külöbségekre előzetes F-próba σ 1 és σ ismeretle σ 1 = σ σ 1 σ Egymitás t-próba Kétmitás t-próba Welch-próba a külöbségekre Kétmitás u-próba (σ 1, σ ismert) Próbastatisztika: u = X Y σ1 + σ m H 0 eseté N(0, 1) előzetes F-próba (σ 1, σ ismeretle) H 0 : σ 1 = σ H 1 : σ 1 σ Próbastatisztika: (s 1 ) H 0 eseté (s F = F 1,m 1 ha s ) 1 > s (s ) F m 1, 1 ha s > s 1 (s 1 ) H 0 eseté Kétmitás t-próba (σ 1 = σ ismeretle) m Próbastatisztika: t = + m X Y ( 1)(s 1 ) +(m 1)(s ) +m H 0 eseté t +m Welch-próba (σ 1 σ ismeretle) Próbastatisztika: t = X Y (s 1 ) + (s ) m H 0 eseté t f, ahol f ( ) (S 1 ) + (S ) m ( (S 1 ) ) ( (S ) ) 1 + m m 1 10

10-11. Hipotézisvizsgálat: Nemparaméteres próbák Diszkrét illeszkedésvizsgálat Legye X 1,..., X egy elemű mita és tegyük fel, hogy a mitaelemek r külöböző x j (j = 1,... r) értéket vehetek fel. Továbbá jelölje ν j (j = 1,... r) az egyes értékek megfigyelt gyakoriságát, azaz függetle megfigyelést osztályozuk valamilye szempot szerit, r párokét diszjukt osztályba. Az egyes osztályok feltételezett valószíűségei redre p 1,... p r. Osztályok 1... r Összese Értékek x 1 x... x r Gyakoriságok ν 1 ν... ν r Valószíűségek p 1 p... p r 1 Azt vizsgáljuk, hogy a mita eloszlása megegyezik-e a feltételezett eloszlással. Ismert eloszlás eseté tiszta illeszkedésvizsgálatot végzük. Ha viszot az eloszlás paraméteres és csak az eloszláscsaládot ismerjük, a paraméter(eke)t viszot em (pl. az a kérdés, hogy származhatak-e az adatok p paraméterű biomiális eloszlásból), akkor becsléses illeszkedésvizsgálatot végzük. Tiszta illeszkedésvizsgálat: H 0 : P (X i = x j ) = p j j = 1,..., r H 1 : legalább egy j melyre P (X i = x j ) p j Próbastatisztika: T = r (ν j p j ) j=1 Becsléses illeszkedésvizsgálat: p j H 0 eseté χ r 1 Kritikus tartomáy: X k = {x : T (x) > χ r 1,1 α} Legye θ egy s dimeziós paramétervektor, valamit legye ˆθ a θ paramétervektor ML-becslése, és legye ˆp j = p j (ˆθ). H 0 : P (X i = x j ) = ˆp j j = 1,..., r H 1 : legalább egy j melyre P (X i = x j ) ˆp j Próbastatisztika: T = r (ν j ˆp j ) j=1 ˆp j H 0 eseté χ r s 1 Kritikus tartomáy: X k = {x : T (x) > χ r s 1,1 α} Megjegyzés: Mivel a próba aszimptotikus, vigyázuk kell arra, hogy a mita elemszáma elég agy legye. Koyhaszabálykét meg szokás követeli, hogy az ú. elméleti gyakoriság (p j ) legalább 5 legye. Ha ez em teljesül, akkor a kis várt gyakoriságokkal redelkező eseméyeket összevojuk. Függetleségvizsgálat függetle megfigyelést két szempot szerit osztályozuk, az 1. szempot szerit r osztály, míg a. szempot szerit s osztály va. Aak a valószíűsége, hogy egy megfigyelést az 1. szempot szerit az i-edik, a második szerit pedig a j-edik osztályba soroluk, p ij. Az ilye tulajdoságú megfigyelések számát pedig ν ij -vel jelöljük. Az osztályozási eljárás eredméyét ú. kotigeciatábla formájába szokás megadi:. szempot 1... j... s Sorösszegek 1 ν 11... ν 1j... ν 1s ν 1..... 1. szempot i ν i1... ν ij... ν is ν i..... r ν r1... ν rj... ν rs ν r Oszlopösszegek ν 1... ν j... ν s ν ij = megfigyelések gyakorisága az (i, j) osztályba ν i = s ν j = r ν ij j=1 ν ij Hasolóa p i ill. p j a margiális eloszlást jelölik, tehát a [p ij ] mátrix sor-, illetve oszlopösszegei: p i = s H 0 : a két szempot függetle egymástól, azaz p ij = p i p j 1 i r, 1 j s H 1 : a két szempot em függetle, azaz p ij p i p j legalább egy (i, j) párra p ij j=1 p j = r p ij Próbastatisztika: T = r j=1 ( s νij νi ν j ν i ν j ) H 0 eseté χ (r 1)(s 1) 11

Kritikus tartomáy: X k = {x : T (x) > χ (r 1)(s 1),1 α } Megjegyzés: Ha r = s =, akkor a próbastatisztika a következőképpe leegyszerűsödik: T = (ν 11ν ν 1 ν 1 ) H 0 eseté χ ν 1 ν ν 1 ν 1. Homogeitásvizsgálat Va két függetle miták (adatsoruk) az egyikbe, a másikba m megfigyeléssel. Valamilye szempot szerit r, párokét diszjukt osztályba soroljuk a megfigyeléseket. Az i-edik osztály valószíűsége p i az 1. mita és q i a. mita eseté (i = 1,,..., r). Legyeek az egyes osztályok gyakoriságai ν 1,..., ν r az 1. mita és µ 1,..., µ r a. mita eseté. Osztályok 1... r Összese 1. mita Gyakoriságok ν 1 ν... ν r Valószíűségek p 1 p... p r 1. mita Gyakoriságok µ 1 µ... µ r m Valószíűségek q 1 q... q r 1 Azt vizsgáljuk, hogy a két mita ugyaolya eloszlás szerit sorolódik-e be az egyes osztályokba: H 0 : a két eloszlás megegyezik, azaz p i = q i i = 1,... r H 1 : a két eloszlás em egyezik meg, azaz legalább egy i, hogy p i q i Próbastatisztika: T,m = m r ( νi ) µi m H 0 eseté χ r 1 Kritikus tartomáy: X k = {x : T,m (x) > χ ν i + µ r 1,1 α} i 1