Bootstrap (Efro, 979) 4. elıadás 204. március 3. Bootstrap módszerek, többdimeziós extrém-érték eloszlások illeszkedésvizsgálata Újramitavételezési eljárás, a becsléseik szórásáak vizsgálatára, modell-illeszkedés elleırzésére Számtala változatát dolgozták ki azóta, az egyik leggyorsabba fejlıdı részterülete a statisztikáak Elıye: rugalmas a mita/a statisztika eloszlására voatkozó feltételek változására Bootstrap módszer - bevezetés X, X 2,... i.i.d. val. változók (ismeretle) F elo.fv-el X ={X,..., X } mita T =t (X ; F) a becsüledı meyiség (például egy tesztstatisztika: eloszlása G ) Cél: G eloszlásáak becslése Bootstrap módszer: Adott X -bıl m elemő visszatevéses mitát veszük (általába m = ) X m = {X,..., X m } X közös eloszlása: F i = T m, = tm( Xm; F) Ismétlés G ˆ m, δ X i i= Alaptétel (Efro) A feti esetbe, ha σ 2 =D 2 (X i ) véges, és a statisztika a stadardizált mitaátlag akkor ha. T = ( X µ ) /σ * sup P* ( T < x) Φ( x) = o(), x A bizoyítás a Berry-Essée tétele (a cetrális határeloszlás tételél a kovergecia sebességet adja meg) alapul, a kovergecia gyorsabb is tud lei, mit a klasszikus ormális közelítésé. 3
Paraméteres bootstrap Az illesztett paraméteres eloszlásból geeráljuk a mitákat és ezekre számoljuk ki a statisztikát Kicsi mitaelemszám eseté gyakra jobb, mit a emparaméteres Gyakra haszálják pl. lieáris modellekél Példa paraméteres bootstrapra Vajo lehet az illesztett gamma eloszlás alakparamétere? Bootstrap miták az expoeciális eloszlásból (ez a Γ(,λ) eloszlás) Statisztika: az alak ML becslése ezekre a mitákra Bootstrap p-érték: háy esetbe volt -tıl távolabbi a becslés, mit a megfigyelt esetbe/az összes mita száma Bootstrap a regresszióál Megfigyelésekre a szokásos módo (együttese az összes koordiátára) Paraméteres módszer: az illesztett modell reziduálisaiból veszük mitát visszatevéssel, majd ezt adjuk hozzá az illesztett értékhez Választás a vizsgálat célja alapjá Modell kiválasztás: emparaméteres bootstrap Modell megbízhatóság: paraméteres bootstrap Kofidecia itervallum A ormális közelítéshez potosítás célszerő. BC-módszer a határok meghatározására: ( α ) ˆ z0+ z F Φ( z0+ ) ( α ) a( z0+ z ) Fˆ a bootstrap statisztika értékek tapasztalati eloszlásfüggvéye z (α) a szokásos empirikus kvatilis z 0 a torzítást (bias) korrigálja a pedig a szórás övekedés gyorsulását (acceleratio) korrigálja a =0, z 0 =0 eseté, és ha Fˆ a ormális eloszlás, éppe z (α) az eredméy.
BC-képlet motivációja és alkalmazása Ha valamely mooto m(θ) traszformációt alkalmazva a becslésre ormális eloszlású lesz: m ( ˆ) θ ~ N( m( θ ) z0(+ am( θ )),+ am( θ )) Ebbıl a mootoitás miatt P ˆ θ <θ ) = Φ( z ) ( 0 azaz z 0 köye becsülhetı a becslése a loglikelihood függvéy deriváltjáak ferdeségébıl kapható meg Példa: kofidecia itervallum a korrelációra Stadard itervallum (a tapasztalati korreláció ormalitásá alapul) szimmetrikus em reális kicsi mitákál Boostrap aszimmetrikus, potosabb a lefedési valószíőség Kérdéses, hogy paraméteres vagy emparaméteres bootstrap módszert érdemes-e alkalmazi (a paraméteres általába óvatosabb tágabb itervallumot ad) Nemparaméteres bootstrap típusok ordiary bootstrap, balaced bootstrap: mide egyes mitaelem ugyaayi mitába szerepel atithetic resamplig: mide mitával együtt a párja is szerepel (az a pár, ahol x k () helyett az x -k+ () szerepel) permutatio (a mitaelemek permutációját haszálja) wild (weighted) bootstrap: em mitát veszük, haem súlyozzuk a mitaelemeket Összefüggı eset Ha a mitaelemek em függetleek (pl. m- összefüggıek), a feti módszer em mőködik: T = ( X µ) határeloszlása ormális, de más szórással. Viszot most is: * sup P ( T < x) Φ( x / σ ) = o() x *, Azaz az egyszerő bootstrap em tükrözi az adatok összefüggıségét. Ezért ilyekor módosítai kell.
Blokk bootstrap módszerek Több lehetıség, az egyik leggyakrabba haszált: Circular block bootstrap (CBB, Politis és Romao, 992). Legye Y t = X mod (folytatjuk az idısort az ( t) elejétıl kezdve) 2. Legye i, 2 i..., i m véletle, visszatevéses mita az {, 2,..., }-bıl 3. b:blokkméret, =m b ( ) a bootstrap mita: Y Y k=,,m; j=,...,b ( k ) b+ j = ik+ j 3 Egy tétel a blokk-bootstrapra Akár midjárt vektorváltozókra: tegyük fel, hogy E( X 2+ε )< alkalmas ε>0-ra. Legye a folyamat erıse keverı, α() keverési együtthatóval. Ha erre teljesül, hogy = α ( ) ε /(2+ ε ) < és a blokkméretre /b+b/=o() ( ), akkor D ( T 2 * * ) Σ azaz aszimptotikusa helyes becslést kapuk. Kérdés: mekkora legye a blokkméret? Függ attól, hogy mit is akaruk becsüli. Hall, Horowitz és Jig (995) alapjá: O( /3 ), ha a torzítást vagy a szórást becsüljük O( /4 ), ha a T statisztika eloszlásfüggvéyét becsüljük O( /5 ), ha a T statisztika eloszlásfüggvéyét becsüljük Gyakorlati alkalmazás Az elızı tételek em alkalmazhatóak közvetleül Politis és Romao (2004) automatikus blokkméret-meghatározása (szórásbecslésre): k= ahol G = k R( k) és G és D is becsüledı, véges közelítı összeggel, a tapasztalati kovariaciák felhaszálásával. /3 2 2G D /3 4 = D R( k) 3 k= 2
Gyakorlati megvalósítás Saját programmal sem boyolult R boot köyvtáráak éháy függvéye: Kofidecia itervallum becslésre (abc.ci) Statisztika paramétereiek számolására (boot) Példa Rétegzett populáció, rétegekét eltérı paraméterekkel: N(m+a k,σ k ) (k=,..3), E(a k )=0, D 2 (a k )=γ k. 2. pop: agyobb várható érték és szórás, 3. pop: kisebb v.é., legagyobb szórás Frequecy 0 5 0 5 20 Histogram of xdat Frequecy 0 0 20 30 40 50 Histogram of xdat2 Frequecy 0 0 20 30 40 50 60 Histogram of xdat3 7 8 9 0 2 xdat 8 0 2 4 6 xdat2 2 4 6 8 2 xdat3 A háromféle bootstrap eredméye Az igazi eloszlás : csak a rétegek véletleek, ebbıl mide mitaelemet kiválasztuk 2: csak az elemek véletleek, mide csoportból ugyaazok 3: midkét elem véletle Frequecy 0 20 40 60 80 00 Histogram of ered 9.0 0.0.0 ered Frequecy 0 20 40 60 80 00 20 40 Histogram of ered2 9.8 0.0 0.2 ered2 A bootstrap miták átlagát ézzük Frequecy 0 0 20 30 40 50 60 70 Histogram of ered3 9.0 0.0.0 ered3 Magát a geerálást ismételve 500-szor: A 3. modell tőik a legjobbak, de az. sem rossz. A 2. csak a csoportoko belüli szóródást mutatja. Frequecy 0 50 00 50 Histogram of ee 8 9 0 2 ee
Bootstrap és az extrém-érték modellek A emparaméteres bootstrap módszerek gyakra alulbecslik a bizoytalaságot A paraméteres bootstrap a leggyakoribb Itt egy óvatosabb módszert is számoltuk: a boot miták profil likelihood kofidecia itervallumaiak mediájából Tesztek többdimezióba Nics sok tapasztalat egy új módszerre késıbb még visszatérük Az elızıekhez hasolóa az empirikus és a várt eloszlásfüggvéyek eltérését lehet vizsgáli Nehézség: a kritikus értékek szimulációjához mide bootstrap mitáál emcsak véletle vektorokra, haem kétdimeziós modellillesztésre is szükség va. Egy egyszerő módszer { } fˆ( x) d x Predikciós tartomáyok: R ˆ ( u) = x : fˆ( x) u ; β ( u) = Rˆ ( u) Ha α-hoz úgy választjuk u α -t, hogy β(u α )= α legye, akkor R(u α ) α megbízhatóságú predikciós tartomáy Khi-égyzet próba alkalmazható az egyes (diszjukt) tartomáyok valószíőségére például α=0.5, 0.75, 0.9, 0.95, 0.975, 0.99- hez tartozó tartomáyok közötti részekre További tesztek Késıbb még többször visszatérük a témára A kopulák tárgyalásáál (ott egyeletes eloszlásúak a peremek és számos eljárás voatkozik rájuk). Az ottai módszerek a MGEV eloszlásokra is alkalmazhatóak leszek egy lehetséges eljárást még most bemutatuk. A szitfölötti maximumokál is lesz teszt-eljárás. A sokdimeziós problémákra is lesz illeszkedésvizsgálat, ez is fotos lehet a gyakorlati problémákál
Egy többdimeziós illeszkedésvizsgálati módszer ötlete Valószíőségi itegrál traszformáció (PIT) a d- dimeziós egységkockába képez: 64 Megfigyelések 474448 Pszeudo 644 megfigyelések 7444 8 Xi = ( X i,..., X id ) ~H PITUi = ( U i,..., U id ) ~C, i=,..., re (U ij =F j (X ij )) Kedall traszformáció: (K függvéy) Κ θ, t) P( C ( F ( X ),..., ( F ( X )) t) = P( C ( U,..., U ) ) ( = θ d d θ d t Elıy: -dimeziós 25 A K függvéye alapuló teszt Empirikus verzió: ahol Kedall folyamat Ei = κ ( t) = ( K ( θ, t) K ( t)) Cramér-vo Mises típusú statisztika: K ( t) = ( Ei t), t [ 0,] ( U j U i,..., U jd U id) j= S i= ahol Φ a súlyfüggvéy 26 2 = κ ( t)) Φ 0 ( ( t) dt Alkalmazás szélsebesség maximumokra Mita: = 259 megfigyelés heti szélsebesség maximumokra 3 émetországi városra Automatikus blokk-méret választás eredméye: Tow Optimal blocklegth Bremerhave 28 Fehmar 3 Schleswig 5 meteorológiailag ics értelme Blokk-bootstrap blokkméret választás a szélsebesség maximumokra Módszer:. AR() modell illesztése az adatokra: X t = µ + φx t + Zt, Z t ~Extrém-érték elo. 2. Az elméleti D 2 ( X ) kiszámítása az AR() folyamatból. 3. A b* optimális blokkméret meghatározása: ahol az átlag szimulált szóráségyzete elıször metszi az elméleti értéket 27 28
Empirical K Theoretical K Empirical K Theoretical K Empirical K Theoretical K Empirical K Theoretical K A bootstrap szimuláció eredméye A teszt eredméye külöbözı modellekre Gumbel Bremerhave & Fehmar Clayto b* = 6 Tow Bremer- Fehmar Schleswig have Optimal block-legth 6 7 3 X-mea variace 0,0073 0,0035 0,0037 Theoretical value 0,0077 0,0034 0,0030 IID X-mea-variace 0,0043 0,0020 0,008 Sample size reductio,7,74 2,09 29 0.0 0.4 0.8 0.0 0.4 0.8 0.0 0.2 0.4 0.6 0.8.0 Gauss 0.0 0.2 0.4 0.6 0.8.0 0.0 0.4 0.8 0.0 0.4 0.8 0.0 0.2 0.4 0.6 0.8.0 Studet-t 0.0 0.2 0.4 0.6 0.8.0 0.0000 0.0004 0.0008 0.002 =54 =257 GAUSS STUD-T GUMBEL 95% critical value observed statistics CLAYTON 30 Bootstrap a predikciós tartomáyokra Predictio regios (Bremerhave & Fehmar) 25 20 5 0 5 0 block= lower boud block=7 lower boud block=30 lower boud block= upper boud block=7 upper boud block=30 upper boud Pred. regios: 50-95-99.8% lower(5%) bouds upper(95%) bouds Hivatkozások Bortot, P.-Gaeta, C.: Multivariate extremes http://www2.stat.uibo.it/bortot/ricerca/eciclope dia.pdf Efro B.: Bootstrap methods: Aother look at the jackkife. (A. Statist., 979) S.N. Lahiri: Resamplig methods for Depedet Data (Spriger, 2003) D. N. Politis ad H. White (2004): Automatic Block-Legth Selectio for the Depedet Bootstrap. ECONOMETRIC REVIEWS, Vol. 23, No., pp. 53 70. 0 5 0 5 20 25 30 Szélsebesség (m/s) 3