Tartalom A bootstrap módszer Zempléi Adrás TTK, Valószíőségelméleti és Statisztika Taszék 2010. október 21 Bevezetés A függetle, azoos eloszlású eset: emparaméteres paraméteres eset Alkalmazások a rétegzett mitavételél Az összefüggıség hatása Megvalósítás az R-be, példák Tipikus kérdések Statisztikai becslések tulajdoságai Mitaátlagra, függetle azoos eloszlású (iid) mitára általába ismertek (pl. aszimptotikus eredméyek) Vajo az aszimptotika alkalmazható-e kokrét mita eseté? Mediára? Kvatilisekre? Mi va, ha em teljesül az iid feltétel? Kellee általáos vizsgálati módszer Kezdeti szimulációs techikák Jackkife: az összes lehetséges módo kihagyuk egy mitaelemet Balaced repeated replicatio (BRR) rétegzett mitavételél, a szóráségyzet becslésére mide réteget két részre osztuk, lehetıleg hasolóra a háttérváltozók szerit ortogoális Hadamard mátrix (+1,-1 elemő) sorai szerit választuk a két csoportból 2 Az eredméy: ( a i a) / aholaaz eredeti mitából kapott becslés a i pedig az egyes replikások alapjá kapott becslés 1
Moder módszer: bootstrap Ha em tudjuk a becslés eloszlását, szórását: vegyük visszatevéses mitát a mitából (bootstrap mita), és ezekre számoljuk ki a statisztika értékét. Ha az eljárást sokszor megismételjük, képet kapuk az eljárásuk stabilitásáról. Tapasztalati kofidecia itervallum: a kapott értékek (α/2, 1- α/2) kvatilisei közötti tartomáy. Bootstrap módszer: elméleti bevezetés Efro (1979) X 1, X 2,... iid val. változók (ismeretle) F elo.fv-el X ={X 1,..., X } mita T =t (X ; F) a becsüledı meyiség (például egy tesztstatisztika: eloszlása G ) Cél: G eloszlásáak becslése Bootstrap módszer: AdottX -bıl m elemő visszatevéses mitát veszük (általába m = ) X m = {X 1,..., X m } 1 X közös eloszlása: F = δ X i i m, ( ) T = tm Xm; F Ismétlés ˆ 6 G m, i= 1 Alaptétel (Efro) A feti esetbe, ha σ 2 =D 2 (X i ) véges, és a statisztika a stadardizált mitaátlag akkor ha. T = ( X µ ) /σ * sup P* ( T < x) Φ( x) = o(1), x A bizoyítás a Berry-Essée tétele alapul, a kovergecia gyorsabb is tud lei, mit a klasszikus ormális közelítésé. Paraméteres bootstrap Az illesztett paraméteres eloszlásból geeráljuk a mitákat és ezekre számoljuk ki a statisztikát. Kicsi mitaelemszám eseté jobb, mit a emparaméteres. Gyakra haszálják pl. lieáris modellekél. 2
Bootstrap a regresszióál Megfigyelésekre a szokásos módo (együttese az összes koordiátára) Paraméteres módszer: az illesztett modell reziduálisaiból veszük mitát visszatevéssel, majd ezt adjuk hozzá az illesztett értékhez Választás a vizsgálat célja alapjá Modell kiválasztás: emparaméteres bootstrap Modell megbízhatóság: paraméteres bootstrap Kofidecia itervallum A ormális közelítéshez potosítás célszerő. BC-módszer a határok meghatározására: ( α ) ˆ 1 z0+ z F Φ( z0+ ) ( α ) 1 a( z0+ z ) Fˆ a bootstrap statisztika értékek tapasztalati eloszlásfüggvéye z (α) a szokásos empirikus kvatilis z 0 a torzítást (bias) korrigálja a pedig a szórás övekedés gyorsulását (acceleratio) korrigálja a =0, z 0 =0 eseté, és ha Fˆ a ormális eloszlás, éppe z (α) az eredméy. BC-képlet motivációja és alkalmazása Ha valamely mooto m(θ) traszformációt alkalmazva a becslésre ormális eloszlású lesz: m ( ˆ) θ ~ N( m( θ ) z0(1+ am( θ )),1+ am( θ )) Ebbıl a mootoitás miatt P ˆ θ <θ ) = Φ( z ) ( 0 azaz z 0 köye becsülhetı a becslése a loglikelihood függvéy deriváltjáak ferdeségébıl kapható meg Példa: kofidecia itervallum a korrelációra Stadard itervallum (a tapasztalati korreláció ormalitásá alapul) szimmetrikus em reális kicsi mitákál Boostrap aszimmetrikus, potosabb a lefedési valószíőség Kérdéses, hogy paraméteres vagy emparaméteres bootstrap módszert érdemes-e alkalmazi (a paraméteres általába óvatosabb tágabb itervallumot ad) 3
Példa paraméteres bootstrapra Vajo lehet az adatokra illesztett gamma eloszlás alakparamétere 1? Boot miták az expoeciális eloszlásból (ez a Γ(1,λ) eloszlás). Statisztika: az alak ML becslése ezekre a mitákra. Boot p-érték: az esetek háy százalékába volt 1-tıl távolabbi a becslés, mit a megfigyelt érték. Bootstrap a rétegzett mitákál Három lehetıség: Mide rétegbıl választuk boot mitát A rétegekbıl választuk boot rétegeket és ott az eredeti megfigyeléseket A rétegeket és a mitaelemeket is mitavételezzük Balaced bootstrap Általáosítása a BRR mitavételek. Az a kikötés, hogy összességébe mide mitaelem ugyaayiszor szerepelje a bootstrap mitákba. Az átlag potos becslését adja Ha még további kikötéseket is felteszük az elıfordulási gyakoriságokra, akkor a szóráségyzetet is potosa állítja elı. God: em mide esetbe kostruálható Összefüggı eset Ha a mitaelemek em függetleek (pl. m-összefüggıek, azaz a legfeljebb m távolságra levı megfigyelések között va kapcsolat), a feti módszer em mőködik: T ( X µ) = határeloszlása ormális, de más szórással. Viszot most is: * sup P ( T < x) Φ( x / σ ) = o(1) x *, Azaz az egyszerő bootstrap em tükrözi az adatok összefüggıségét. Ezért módosítai kell. 4
Blokk bootstrap módszerek Több lehetıség, az egyik leggyakrabba haszált: Circular block bootstrap (CBB, Politis és Romao, 1992) 1. Legye Y (folytatjuk az idısort az t = X mod ( t) elejétıl kezdve) 2. Legye i 1, i 2..., i m véletle, visszatevéses mita az {1, 2,..., }-bıl 3. b:blokkméret, =m b ( ) a bootstrap mita: Y( k 1) b+ j = Yi k+ j 1 k=1,,m; j=1,...,b 17 Egy tipikus tétel Akár midjárt vektorváltozókra: tegyük fel, hogy E( X 2+ε )< alkalmas ε>0-ra. Legye a folyamat erıse keverı (azaz a távoli megfigyelések közötti kapcsolat elég gyorsa lecseg), α() keverési együtthatóval. Ha erre teljesül, hogy = 1 α ( ) ε /(2+ ε ) < és a blokkméretre 1/b+b/ 0 ( ), akkor D ( T 2 * * ) Σ azaz aszimptotikusa helyes becslést kapuk. Kérdés: mekkora legye a blokkméret? Függ attól, hogy mit is akaruk becsüli. Hall, Horowitz és Jig (1995) alapjá: O( 1/3 ), ha a torzítást vagy a szórást becsüljük O( 1/4 ), ha a T statisztika eloszlásfüggvéyét becsüljük O( 1/5 ), ha a T statisztika eloszlásfüggvéyét becsüljük Gyakorlati alkalmazás Az elızı tételek em alkalmazhatóak közvetleül Politis és Romao (2004) automatikus blokkméret-meghatározása (szórásbcslésre): G = k R( k) ahol k= 4 = D R( k) és 3 k= G és D is becsüledı, véges közelítı összeggel, a tapasztalati kovariaciák felhaszálásával. 1/ 2 2G D 3 N 1/ 3 2 5
Gyakorlati megvalósítás Saját programmal sem boyolult R boot köyvtáráak éháy függvéye: Kofidecia itervallum becslésre (abc.ci) Statisztika paramétereiek számolására (boot) Példa Rétegzett populáció, rétegekét eltérı paraméterekkel: N(m+a k,σ k ) (k=1,..3), E(a k )=0, D 2 (a k )=γ k. 2. pop: agyobb várható érték és szórás, 3. pop: kisebb v.é., legagyobb szórás Frequecy 0 5 10 15 20 Histogram of xdat1 Frequecy 0 10 20 30 40 50 Histogram of xdat2 Frequecy 0 10 20 30 40 50 60 Histogram of xdat3 7 8 9 10 12 xdat1 8 10 12 14 16 xdat2 2 4 6 8 12 xdat3 A háromféle bootstrap eredméye Az igazi eloszlás 1: csak a rétegek véletleek 2: csak az elemek véletleek 3: midkét elem véletle Frequecy 0 20 40 60 80 100 Histogram of ered 9.0 10.0 11.0 ered Frequecy 0 20 40 60 80 100 120 140 Histogram of ered2 9.8 10.0 10.2 ered2 Frequecy 0 10 20 30 40 50 60 70 Histogram of ered3 9.0 10.0 11.0 ered3 Magát a geerálást ismételve 500-szor: Az elsı és a 3. modell megfelelı, a 2. csak a csoportoko belüli szóródást mutatja. Megfelelı súlyozással javíthatóak! Frequecy 0 50 100 150 Histogram of ee 8 9 10 11 12 ee 6
Becslések Várható értékre Az összes elem átlaga (rétegek súlyozott átlaga) A rétegek súlyozatla átlaga Véletle populációba midkettı torzítatla, rögzítettbe csak az elsı. Megvalósítás az R-be Boot csomag Kofidecia itervallum: abc.ci A haszált módszer: approximative bias corrected accelerated (azaz az elızıek szerit közelítı becslést ad a bootstrap torzítására és a szórásbecslés esetleges potatlaságára is). Példa: bigcity adatbázis (49 USA-beli agyváros épessége 1920-ba és 1930-ba),a becsült korreláció: corr=0.98. A bootstrap kofidecia itervallumok: megb. alsó h. felsı h. 0.90 0.958 0.992 0.95 0.949 0.993 Nem szimmetrikus! R:Boot függvéy Tetszıleges statisztikára alkalmas Argumetumai: adatok statisztika miták száma típus, Eredméy: torzítás szórás, Még midig a Boot függvéy Paraméteres és emparaméteres is lehet Nemparaméteres: ordiary bootstrap balaced bootstrap: mide egyes mitaelem ugyaayi mitába szerepel atithetic resamplig: mide mitával együtt a párja is szerepel (az a pár, ahol x k () helyett az x -k+1 () szerepel) permutatio (a mitaelemek permutációját haszálja) 7
Másik lehetıség kofidecia itervallum számítására Boot.ci A boot függvéy meghívása utái elemzés Az elızıeke kívül studetized itervallum is kapható Elıye, hogy így a miták külö is elemezhetıek Grafikus megjeleítés plot.boot: paraméteres modell (expoeciális eloszlás illesztése az adatokra) Desity 0.000 0.002 0.004 0.006 0.008 0.010 0.012 0.014 H i s t o g r a m o f t 50 100 150 200 t* 5 0 1 0 0 2 0 0 t * - 3-1 0 1 2 3 Q u a t i le s o f S t a d a r d N o r m a l Összefoglalás A szimulációs vizsgálatok szite megkerülhetetleek az eredméyek megbízhatóságáak elemzésekor Fı kérdés: melyik módszert válasszuk egy összetett elemzés vizsgálatáál Hivatkozások T. J. DiCiccio ad B. Efro: Bootstrap cofidece itervals. Statist. Sci. Vol. 11, 3 (1996), 189-228. P. J. Bickel ad D. A. Freedma: Asymptotic Normality ad the Bootstrap i Stratified Samplig, A. Statist. Vol. 12, (1984), 470-482. Rao, J.N.K., Wu, C.F.J., 1988. Resamplig ifereces with complex survey data. J. Amer. Statist. Assoc. 83, 231-241. O. Pos: Bootstrap of meas uder stratified samplig. Electroic Joural of Statistics, Vol. 1 (2007) 381 391 S.N. Lahiri: Resamplig methods for Depedet Data (Spriger, 2003) Hall, P., Horowitz, J., Jig, B.-Y. (1995). O blockig rules for the bootstrap with depedet data. Biometrika 82:561 574. D. N. Politis ad H. White (2004): Automatic Block-Legth Selectio for the Depedet Bootstrap. ECONOMETRIC REVIEWS, Vol. 23, No. 1, pp. 53 70. 8