Tartalom. Kezdeti szimulációs technikák. Tipikus kérdések. A bootstrap módszer. Bevezetés A független, azonos eloszlású eset:

Hasonló dokumentumok
Bootstrap (Efron, 1979)

BIOMATEMATIKA ELŐADÁS

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

A statisztikai vizsgálat tárgyát képező egyedek összességét statisztikai sokaságnak nevezzük.

Statisztika 1. zárthelyi dolgozat március 21.

Áringadozások elıadás Kvantitatív pénzügyek szakirány 2012/13 2. félév

Matematikai statisztika

kismintás esetekben vagy olyanokban, melyeknél a tanulóalgoritmust tesztadatokon szeretnénk

A matematikai statisztika elemei

biometria III. foglalkozás előadó: Prof. Dr. Rajkó Róbert Hipotézisvizsgálat

Matematikai statisztika

Zavar (confounding): akkor lép fel egy kísérletben, ha a kísérletet végző nem tudja megkülönböztetni az egyes faktorokat.

Populáció. Történet. Adatok. Minta. A matematikai statisztika tárgya. Valószínűségszámítás és statisztika előadás info. BSC/B-C szakosoknak

Statisztika 1. zárthelyi dolgozat március 18.

Matematika B4 I. gyakorlat

Intervallum Paraméteres Hipotézisek Nemparaméteres. Statisztika december 2.

24. tétel A valószínűségszámítás elemei. A valószínűség kiszámításának kombinatorikus modellje.

Kutatói pályára felkészítı modul

1. előadás: Bevezetés. Irodalom. Számonkérés. Cél. Matematikai statisztika előadás survey statisztika MA szakosoknak. A matematikai statisztika tárgya

Statisztika október 27.

7. el adás Becslések és minta elemszámok fejezet Áttekintés

Statisztika elméleti összefoglaló

Eddig megismert eloszlások Jelölése Eloszlása EX D 2 X P(X = 1) = p Ind(p) P(X = 0) = 1 p. Leíró és matematikai statisztika

Megjegyzések. További tételek. Valódi határeloszlások. Tulajdonságok. Gyenge (eloszlásbeli) konvergencia

Sorozatok, határérték fogalma. Függvények határértéke, folytonossága

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

f (M (ξ)) M (f (ξ)) Bizonyítás: Megjegyezzük, hogy konvex függvényekre mindig létezik a ± ben

Statisztika. Földtudomány szak, geológus szakirány, 2015/2016. tanév tavaszi

I. Függelék. A valószínűségszámítás alapjai. I.1. Alapfogalamak: A valószínűség fogalma: I.2. Valószínűségi változó.

6. feladatsor. Statisztika december 6. és 8.

6. Minısítéses ellenırzı kártyák

Reakciómechanizmusok leírása. Paraméterek. Reakciókinetikai bizonytalanságanalízis. Bizonytalanságanalízis

18. Valószín ségszámítás. (Valószín ségeloszlások, függetlenség. Valószín ségi változók várható

1. elıadás: Bevezetés. Számonkérés. Irodalom. Valószínőségszámítás helye a tudományok között. Cél

Statisztika Elıadások letölthetık a címrıl

Eötvös Loránd Tudományegyetem

Lineáris kódok. u esetén u oszlopvektor, u T ( n, k ) május 31. Hibajavító kódok 2. 1

2. Hatványsorok. A végtelen soroknál tanultuk, hogy az. végtelen sort adja: 1 + x + x x n +...

2. egy iskola tanulói, a változók: magasságuk cm-ben, súlyuk (tömegük) kilóban; 3. egy iskola tanulói, a változó: tanulmányi átlaguk;

VII. A határozatlan esetek kiküszöbölése

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

[Biomatematika 2] Orvosi biometria

Statisztikai hipotézisvizsgálatok

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

A statisztika részei. Példa:

Kopulák. 2 dimenziós példák különbözı összefüggıséggel. Példák. Elliptikus kopulák. Sőrőségfüggvények. ( u) 7. elıadás március 24.

Valószín ségszámítás és statisztika

A szórások vizsgálata. Az F-próba. A döntés. Az F-próba szabadsági fokai

Statisztika gyakorlat Geológus szakirány

Valószín ségszámítás és statisztika gyakorlat Programtervez informatikus szak, esti képzés

1. A radioaktivitás statisztikus jellege

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Paraméterek. Reakciómechanizmusok leírása. Megbízható kémiai modellek kifejlesztése sok mérési adat egyidejő feldolgozása alapján

æ MATEMATIKAI STATISZTIKA Dr. Bolla Marianna, Matematika Intézet, Sztochasztika Tanszék

Leíró és matematikai statisztika gyakorlat 2018/2019 II. félév

Statisztika (jegyzet)

véletlen : statisztikai törvényeknek engedelmeskedik (Mi az ami közös a népszavazásban, a betegségek gyógyulásában és a fiz. kém. laborban?

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

Pontfolyamatok definíciója. 5. előadás, március 10. Példák pontfolyamatokra. Pontfolyamatok gyenge konvergenciája

Hipotézis-ellenırzés (Statisztikai próbák)

V. Deriválható függvények

Matematika I. 9. előadás

Matematikai statisztika gyakorlat 2018/2019 II. félév

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

A maximum likelihood becslésről

1. gyakorlat - Végtelen sorok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

3. SOROZATOK. ( n N) a n+1 < a n. Egy sorozatot (szigorúan) monotonnak mondunk, ha (szigorúan) monoton növekvő vagy csökkenő.

= dx 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05

Normális eloszlás tesztje

Wiener-folyamatok definiciója. A funkcionális centrális határeloszlástétel. Norbert Wienerre, a második pedig egy Brown nevű XIX. században élt angol

2. gyakorlat - Hatványsorok és Taylor-sorok

Kalkulus II., második házi feladat

Matematikai statisztika elıadás III. éves elemzı szakosoknak. Zempléni András 9. elıadásból (részlet)

Továbblépés. Általános, lineáris modell. Példák. Jellemzık. Matematikai statisztika 12. elıadás,

Komputer statisztika

3.1. A Poisson-eloszlás

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Pályázat címe: Pályázati azonosító: Kedvezményezett: Szegedi Tudományegyetem Cím: 6720 Szeged, Dugonics tér

Biosta'sz'ka és informa'ka

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

4. A méréses ellenırzı kártyák szerkesztése

Számsorozatok. 1. Alapfeladatok december 22. sorozat határértékét, ha. 1. Feladat: Határozzuk meg az a n = 3n2 + 7n 5n létezik.

ezek alapján kívánunk dönteni. Ez formálisan azt jelenti, hogy ellenőrizni akarjuk,

Matematikai statisztika gyakorlat Programtervez informatikus alapszak, A szakirány 2018/2019 tavaszi félév Megoldások, végeredmények

A brexit-szavazás és a nagy számok törvénye

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Gyakorló feladatok II.

Mo= argmax f(x), ha X abszolút folytonos; Mo= argmax P (X = x i ), ha X diszkrét.

Approximációs tételek a kupongyűjtő problémában. Doktori (Ph.D.) értekezés tézisei

Segédanyag a Leíró és matematikai statisztika tantárgyhoz március 28.

Autoregressziós folyamatok

Valószín ségszámítás (jegyzet)

Sorozatok. [a sorozat szigorúan monoton nő] (b) a n = n+3. [a sorozat szigorúan monoton csökken] (c) B a n = n+7

Átírás:

Tartalom A bootstrap módszer Zempléi Adrás TTK, Valószíőségelméleti és Statisztika Taszék 2010. október 21 Bevezetés A függetle, azoos eloszlású eset: emparaméteres paraméteres eset Alkalmazások a rétegzett mitavételél Az összefüggıség hatása Megvalósítás az R-be, példák Tipikus kérdések Statisztikai becslések tulajdoságai Mitaátlagra, függetle azoos eloszlású (iid) mitára általába ismertek (pl. aszimptotikus eredméyek) Vajo az aszimptotika alkalmazható-e kokrét mita eseté? Mediára? Kvatilisekre? Mi va, ha em teljesül az iid feltétel? Kellee általáos vizsgálati módszer Kezdeti szimulációs techikák Jackkife: az összes lehetséges módo kihagyuk egy mitaelemet Balaced repeated replicatio (BRR) rétegzett mitavételél, a szóráségyzet becslésére mide réteget két részre osztuk, lehetıleg hasolóra a háttérváltozók szerit ortogoális Hadamard mátrix (+1,-1 elemő) sorai szerit választuk a két csoportból 2 Az eredméy: ( a i a) / aholaaz eredeti mitából kapott becslés a i pedig az egyes replikások alapjá kapott becslés 1

Moder módszer: bootstrap Ha em tudjuk a becslés eloszlását, szórását: vegyük visszatevéses mitát a mitából (bootstrap mita), és ezekre számoljuk ki a statisztika értékét. Ha az eljárást sokszor megismételjük, képet kapuk az eljárásuk stabilitásáról. Tapasztalati kofidecia itervallum: a kapott értékek (α/2, 1- α/2) kvatilisei közötti tartomáy. Bootstrap módszer: elméleti bevezetés Efro (1979) X 1, X 2,... iid val. változók (ismeretle) F elo.fv-el X ={X 1,..., X } mita T =t (X ; F) a becsüledı meyiség (például egy tesztstatisztika: eloszlása G ) Cél: G eloszlásáak becslése Bootstrap módszer: AdottX -bıl m elemő visszatevéses mitát veszük (általába m = ) X m = {X 1,..., X m } 1 X közös eloszlása: F = δ X i i m, ( ) T = tm Xm; F Ismétlés ˆ 6 G m, i= 1 Alaptétel (Efro) A feti esetbe, ha σ 2 =D 2 (X i ) véges, és a statisztika a stadardizált mitaátlag akkor ha. T = ( X µ ) /σ * sup P* ( T < x) Φ( x) = o(1), x A bizoyítás a Berry-Essée tétele alapul, a kovergecia gyorsabb is tud lei, mit a klasszikus ormális közelítésé. Paraméteres bootstrap Az illesztett paraméteres eloszlásból geeráljuk a mitákat és ezekre számoljuk ki a statisztikát. Kicsi mitaelemszám eseté jobb, mit a emparaméteres. Gyakra haszálják pl. lieáris modellekél. 2

Bootstrap a regresszióál Megfigyelésekre a szokásos módo (együttese az összes koordiátára) Paraméteres módszer: az illesztett modell reziduálisaiból veszük mitát visszatevéssel, majd ezt adjuk hozzá az illesztett értékhez Választás a vizsgálat célja alapjá Modell kiválasztás: emparaméteres bootstrap Modell megbízhatóság: paraméteres bootstrap Kofidecia itervallum A ormális közelítéshez potosítás célszerő. BC-módszer a határok meghatározására: ( α ) ˆ 1 z0+ z F Φ( z0+ ) ( α ) 1 a( z0+ z ) Fˆ a bootstrap statisztika értékek tapasztalati eloszlásfüggvéye z (α) a szokásos empirikus kvatilis z 0 a torzítást (bias) korrigálja a pedig a szórás övekedés gyorsulását (acceleratio) korrigálja a =0, z 0 =0 eseté, és ha Fˆ a ormális eloszlás, éppe z (α) az eredméy. BC-képlet motivációja és alkalmazása Ha valamely mooto m(θ) traszformációt alkalmazva a becslésre ormális eloszlású lesz: m ( ˆ) θ ~ N( m( θ ) z0(1+ am( θ )),1+ am( θ )) Ebbıl a mootoitás miatt P ˆ θ <θ ) = Φ( z ) ( 0 azaz z 0 köye becsülhetı a becslése a loglikelihood függvéy deriváltjáak ferdeségébıl kapható meg Példa: kofidecia itervallum a korrelációra Stadard itervallum (a tapasztalati korreláció ormalitásá alapul) szimmetrikus em reális kicsi mitákál Boostrap aszimmetrikus, potosabb a lefedési valószíőség Kérdéses, hogy paraméteres vagy emparaméteres bootstrap módszert érdemes-e alkalmazi (a paraméteres általába óvatosabb tágabb itervallumot ad) 3

Példa paraméteres bootstrapra Vajo lehet az adatokra illesztett gamma eloszlás alakparamétere 1? Boot miták az expoeciális eloszlásból (ez a Γ(1,λ) eloszlás). Statisztika: az alak ML becslése ezekre a mitákra. Boot p-érték: az esetek háy százalékába volt 1-tıl távolabbi a becslés, mit a megfigyelt érték. Bootstrap a rétegzett mitákál Három lehetıség: Mide rétegbıl választuk boot mitát A rétegekbıl választuk boot rétegeket és ott az eredeti megfigyeléseket A rétegeket és a mitaelemeket is mitavételezzük Balaced bootstrap Általáosítása a BRR mitavételek. Az a kikötés, hogy összességébe mide mitaelem ugyaayiszor szerepelje a bootstrap mitákba. Az átlag potos becslését adja Ha még további kikötéseket is felteszük az elıfordulási gyakoriságokra, akkor a szóráségyzetet is potosa állítja elı. God: em mide esetbe kostruálható Összefüggı eset Ha a mitaelemek em függetleek (pl. m-összefüggıek, azaz a legfeljebb m távolságra levı megfigyelések között va kapcsolat), a feti módszer em mőködik: T ( X µ) = határeloszlása ormális, de más szórással. Viszot most is: * sup P ( T < x) Φ( x / σ ) = o(1) x *, Azaz az egyszerő bootstrap em tükrözi az adatok összefüggıségét. Ezért módosítai kell. 4

Blokk bootstrap módszerek Több lehetıség, az egyik leggyakrabba haszált: Circular block bootstrap (CBB, Politis és Romao, 1992) 1. Legye Y (folytatjuk az idısort az t = X mod ( t) elejétıl kezdve) 2. Legye i 1, i 2..., i m véletle, visszatevéses mita az {1, 2,..., }-bıl 3. b:blokkméret, =m b ( ) a bootstrap mita: Y( k 1) b+ j = Yi k+ j 1 k=1,,m; j=1,...,b 17 Egy tipikus tétel Akár midjárt vektorváltozókra: tegyük fel, hogy E( X 2+ε )< alkalmas ε>0-ra. Legye a folyamat erıse keverı (azaz a távoli megfigyelések közötti kapcsolat elég gyorsa lecseg), α() keverési együtthatóval. Ha erre teljesül, hogy = 1 α ( ) ε /(2+ ε ) < és a blokkméretre 1/b+b/ 0 ( ), akkor D ( T 2 * * ) Σ azaz aszimptotikusa helyes becslést kapuk. Kérdés: mekkora legye a blokkméret? Függ attól, hogy mit is akaruk becsüli. Hall, Horowitz és Jig (1995) alapjá: O( 1/3 ), ha a torzítást vagy a szórást becsüljük O( 1/4 ), ha a T statisztika eloszlásfüggvéyét becsüljük O( 1/5 ), ha a T statisztika eloszlásfüggvéyét becsüljük Gyakorlati alkalmazás Az elızı tételek em alkalmazhatóak közvetleül Politis és Romao (2004) automatikus blokkméret-meghatározása (szórásbcslésre): G = k R( k) ahol k= 4 = D R( k) és 3 k= G és D is becsüledı, véges közelítı összeggel, a tapasztalati kovariaciák felhaszálásával. 1/ 2 2G D 3 N 1/ 3 2 5

Gyakorlati megvalósítás Saját programmal sem boyolult R boot köyvtáráak éháy függvéye: Kofidecia itervallum becslésre (abc.ci) Statisztika paramétereiek számolására (boot) Példa Rétegzett populáció, rétegekét eltérı paraméterekkel: N(m+a k,σ k ) (k=1,..3), E(a k )=0, D 2 (a k )=γ k. 2. pop: agyobb várható érték és szórás, 3. pop: kisebb v.é., legagyobb szórás Frequecy 0 5 10 15 20 Histogram of xdat1 Frequecy 0 10 20 30 40 50 Histogram of xdat2 Frequecy 0 10 20 30 40 50 60 Histogram of xdat3 7 8 9 10 12 xdat1 8 10 12 14 16 xdat2 2 4 6 8 12 xdat3 A háromféle bootstrap eredméye Az igazi eloszlás 1: csak a rétegek véletleek 2: csak az elemek véletleek 3: midkét elem véletle Frequecy 0 20 40 60 80 100 Histogram of ered 9.0 10.0 11.0 ered Frequecy 0 20 40 60 80 100 120 140 Histogram of ered2 9.8 10.0 10.2 ered2 Frequecy 0 10 20 30 40 50 60 70 Histogram of ered3 9.0 10.0 11.0 ered3 Magát a geerálást ismételve 500-szor: Az elsı és a 3. modell megfelelı, a 2. csak a csoportoko belüli szóródást mutatja. Megfelelı súlyozással javíthatóak! Frequecy 0 50 100 150 Histogram of ee 8 9 10 11 12 ee 6

Becslések Várható értékre Az összes elem átlaga (rétegek súlyozott átlaga) A rétegek súlyozatla átlaga Véletle populációba midkettı torzítatla, rögzítettbe csak az elsı. Megvalósítás az R-be Boot csomag Kofidecia itervallum: abc.ci A haszált módszer: approximative bias corrected accelerated (azaz az elızıek szerit közelítı becslést ad a bootstrap torzítására és a szórásbecslés esetleges potatlaságára is). Példa: bigcity adatbázis (49 USA-beli agyváros épessége 1920-ba és 1930-ba),a becsült korreláció: corr=0.98. A bootstrap kofidecia itervallumok: megb. alsó h. felsı h. 0.90 0.958 0.992 0.95 0.949 0.993 Nem szimmetrikus! R:Boot függvéy Tetszıleges statisztikára alkalmas Argumetumai: adatok statisztika miták száma típus, Eredméy: torzítás szórás, Még midig a Boot függvéy Paraméteres és emparaméteres is lehet Nemparaméteres: ordiary bootstrap balaced bootstrap: mide egyes mitaelem ugyaayi mitába szerepel atithetic resamplig: mide mitával együtt a párja is szerepel (az a pár, ahol x k () helyett az x -k+1 () szerepel) permutatio (a mitaelemek permutációját haszálja) 7

Másik lehetıség kofidecia itervallum számítására Boot.ci A boot függvéy meghívása utái elemzés Az elızıeke kívül studetized itervallum is kapható Elıye, hogy így a miták külö is elemezhetıek Grafikus megjeleítés plot.boot: paraméteres modell (expoeciális eloszlás illesztése az adatokra) Desity 0.000 0.002 0.004 0.006 0.008 0.010 0.012 0.014 H i s t o g r a m o f t 50 100 150 200 t* 5 0 1 0 0 2 0 0 t * - 3-1 0 1 2 3 Q u a t i le s o f S t a d a r d N o r m a l Összefoglalás A szimulációs vizsgálatok szite megkerülhetetleek az eredméyek megbízhatóságáak elemzésekor Fı kérdés: melyik módszert válasszuk egy összetett elemzés vizsgálatáál Hivatkozások T. J. DiCiccio ad B. Efro: Bootstrap cofidece itervals. Statist. Sci. Vol. 11, 3 (1996), 189-228. P. J. Bickel ad D. A. Freedma: Asymptotic Normality ad the Bootstrap i Stratified Samplig, A. Statist. Vol. 12, (1984), 470-482. Rao, J.N.K., Wu, C.F.J., 1988. Resamplig ifereces with complex survey data. J. Amer. Statist. Assoc. 83, 231-241. O. Pos: Bootstrap of meas uder stratified samplig. Electroic Joural of Statistics, Vol. 1 (2007) 381 391 S.N. Lahiri: Resamplig methods for Depedet Data (Spriger, 2003) Hall, P., Horowitz, J., Jig, B.-Y. (1995). O blockig rules for the bootstrap with depedet data. Biometrika 82:561 574. D. N. Politis ad H. White (2004): Automatic Block-Legth Selectio for the Depedet Bootstrap. ECONOMETRIC REVIEWS, Vol. 23, No. 1, pp. 53 70. 8