Bootstrap (Efron, 1979)

Hasonló dokumentumok
Tartalom. Kezdeti szimulációs technikák. Tipikus kérdések. A bootstrap módszer. Bevezetés A független, azonos eloszlású eset:

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

BIOMATEMATIKA ELŐADÁS

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

kismintás esetekben vagy olyanokban, melyeknél a tanulóalgoritmust tesztadatokon szeretnénk

Áringadozások elıadás Kvantitatív pénzügyek szakirány 2012/13 2. félév

Statisztika 1. zárthelyi dolgozat március 21.

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Matematikai statisztika

Intervallum Paraméteres Hipotézisek Nemparaméteres. Statisztika december 2.

Matematikai statisztika

Zavar (confounding): akkor lép fel egy kísérletben, ha a kísérletet végző nem tudja megkülönböztetni az egyes faktorokat.

7. el adás Becslések és minta elemszámok fejezet Áttekintés

A statisztikai vizsgálat tárgyát képező egyedek összességét statisztikai sokaságnak nevezzük.

Statisztika elméleti összefoglaló

biometria III. foglalkozás előadó: Prof. Dr. Rajkó Róbert Hipotézisvizsgálat

Kopulák. 2 dimenziós példák különbözı összefüggıséggel. Példák. Elliptikus kopulák. Sőrőségfüggvények. ( u) 7. elıadás március 24.

Matematika B4 I. gyakorlat

Pontfolyamatok definíciója. 5. előadás, március 10. Példák pontfolyamatokra. Pontfolyamatok gyenge konvergenciája

Eötvös Loránd Tudományegyetem

f (M (ξ)) M (f (ξ)) Bizonyítás: Megjegyezzük, hogy konvex függvényekre mindig létezik a ± ben

Populáció. Történet. Adatok. Minta. A matematikai statisztika tárgya. Valószínűségszámítás és statisztika előadás info. BSC/B-C szakosoknak

Statisztika 1. zárthelyi dolgozat március 18.

Statisztika. Földtudomány szak, geológus szakirány, 2015/2016. tanév tavaszi

Kutatói pályára felkészítı modul

A matematikai statisztika elemei

6. feladatsor. Statisztika december 6. és 8.

Statisztika Elıadások letölthetık a címrıl

Eddig megismert eloszlások Jelölése Eloszlása EX D 2 X P(X = 1) = p Ind(p) P(X = 0) = 1 p. Leíró és matematikai statisztika

Reakciómechanizmusok leírása. Paraméterek. Reakciókinetikai bizonytalanságanalízis. Bizonytalanságanalízis

9-10. elıadás április 26. Problémák magas dimenzióban Az idıbeni összefüggıség és a nemstacionaritás szerepe

véletlen : statisztikai törvényeknek engedelmeskedik (Mi az ami közös a népszavazásban, a betegségek gyógyulásában és a fiz. kém. laborban?

Paraméterek. Reakciómechanizmusok leírása. Megbízható kémiai modellek kifejlesztése sok mérési adat egyidejő feldolgozása alapján

Statisztika október 27.

Normális eloszlás tesztje

Hipotézis-ellenırzés (Statisztikai próbák)

Megjegyzések. További tételek. Valódi határeloszlások. Tulajdonságok. Gyenge (eloszlásbeli) konvergencia

3.1. A Poisson-eloszlás

A szórások vizsgálata. Az F-próba. A döntés. Az F-próba szabadsági fokai

18. Valószín ségszámítás. (Valószín ségeloszlások, függetlenség. Valószín ségi változók várható

6. Minısítéses ellenırzı kártyák

Statisztika gyakorlat Geológus szakirány

Továbblépés. Általános, lineáris modell. Példák. Jellemzık. Matematikai statisztika 12. elıadás,

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Statisztika (jegyzet)

VII. A határozatlan esetek kiküszöbölése

Wiener-folyamatok definiciója. A funkcionális centrális határeloszlástétel. Norbert Wienerre, a második pedig egy Brown nevű XIX. században élt angol

Matematika I. 9. előadás

24. tétel A valószínűségszámítás elemei. A valószínűség kiszámításának kombinatorikus modellje.

Statisztikai programcsomagok

Matematikai statisztika gyakorlat 2018/2019 II. félév

Bevezetés a hipotézisvizsgálatokba

I. Függelék. A valószínűségszámítás alapjai. I.1. Alapfogalamak: A valószínűség fogalma: I.2. Valószínűségi változó.

= dx 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

1. A radioaktivitás statisztikus jellege

Pályázat címe: Pályázati azonosító: Kedvezményezett: Szegedi Tudományegyetem Cím: 6720 Szeged, Dugonics tér

Sorozatok, határérték fogalma. Függvények határértéke, folytonossága

æ MATEMATIKAI STATISZTIKA Dr. Bolla Marianna, Matematika Intézet, Sztochasztika Tanszék

A statisztika részei. Példa:

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

A tárgy címe: ANALÍZIS 1 A-B-C (2+2). 1. gyakorlat

Kontingencia táblák. Khi-négyzet teszt. A nullhipotézis felállítása. Kapcsolatvizsgálat kategorikus változók között.

[Biomatematika 2] Orvosi biometria

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Leíró és matematikai statisztika gyakorlat 2018/2019 II. félév

kritikus érték(ek) (critical value).

Komputer statisztika

Modern szimulációs módszerek

2. gyakorlat - Hatványsorok és Taylor-sorok

1. előadás: Bevezetés. Irodalom. Számonkérés. Cél. Matematikai statisztika előadás survey statisztika MA szakosoknak. A matematikai statisztika tárgya

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Nemparaméteres próbák

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Statisztikai hipotézisvizsgálatok

Mo= argmax f(x), ha X abszolút folytonos; Mo= argmax P (X = x i ), ha X diszkrét.

ANALÍZIS I. TÉTELBIZONYÍTÁSOK ÍRÁSBELI VIZSGÁRA

PÉLDATÁR A SZÁMÍTÓGÉPES TESZTHEZ. Írta Dr. Huzsvai László

Valószín ségszámítás és statisztika gyakorlat Programtervez informatikus szak, esti képzés

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

1. Sajátérték és sajátvektor

KÍSÉRLETTERVEZÉS ÉS ÉRTÉKELÉS A MIKROBIOLÓGIAI GYAKORLATBAN

Eloszláscsaládokhoz való illeszkedés vizsgálata Ph.D. értekezés

Matematikai statisztika gyakorlat Programtervez informatikus alapszak, A szakirány 2018/2019 tavaszi félév Megoldások, végeredmények

A maximum likelihood becslésről

Gyakorlati kérdések. 2. előadás, február 22. Szimuláció (Chambers, 1976) Michael-féle szórásstabilizált P-P plot

Többváltozós lineáris regressziós modell feltételeinek

Valószín ségszámítás (jegyzet)

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

Matematikai statisztika gyakorlatok összefoglaló

2. egy iskola tanulói, a változók: magasságuk cm-ben, súlyuk (tömegük) kilóban; 3. egy iskola tanulói, a változó: tanulmányi átlaguk;

A peremeloszlások. Valószínőségszámítás elıadás III. alk. matematikus szak. Példa. Valószínőségi vektorváltozók eloszlásfüggvénye.

Eötvös Loránd Tudományegyetem Informatikai Kar. Analízis 1. Írásbeli tételek. Készítette: Szántó Ádám Tavaszi félév

Andai Attila: november 13.

hogy alkalmas konstrukcióval megadható-e olyan sztochasztikus folyamat, melynek ezek

Tudjuk, hogy az optimumot az ún. regressziós görbe szolgáltatja, melynek egyenlete:

Átírás:

Bootstrap (Efro, 979) 4. elıadás 204. március 3. Bootstrap módszerek, többdimeziós extrém-érték eloszlások illeszkedésvizsgálata Újramitavételezési eljárás, a becsléseik szórásáak vizsgálatára, modell-illeszkedés elleırzésére Számtala változatát dolgozták ki azóta, az egyik leggyorsabba fejlıdı részterülete a statisztikáak Elıye: rugalmas a mita/a statisztika eloszlására voatkozó feltételek változására Bootstrap módszer - bevezetés X, X 2,... i.i.d. val. változók (ismeretle) F elo.fv-el X ={X,..., X } mita T =t (X ; F) a becsüledı meyiség (például egy tesztstatisztika: eloszlása G ) Cél: G eloszlásáak becslése Bootstrap módszer: Adott X -bıl m elemő visszatevéses mitát veszük (általába m = ) X m = {X,..., X m } X közös eloszlása: F i = T m, = tm( Xm; F) Ismétlés G ˆ m, δ X i i= Alaptétel (Efro) A feti esetbe, ha σ 2 =D 2 (X i ) véges, és a statisztika a stadardizált mitaátlag akkor ha. T = ( X µ ) /σ * sup P* ( T < x) Φ( x) = o(), x A bizoyítás a Berry-Essée tétele (a cetrális határeloszlás tételél a kovergecia sebességet adja meg) alapul, a kovergecia gyorsabb is tud lei, mit a klasszikus ormális közelítésé. 3

Paraméteres bootstrap Az illesztett paraméteres eloszlásból geeráljuk a mitákat és ezekre számoljuk ki a statisztikát Kicsi mitaelemszám eseté gyakra jobb, mit a emparaméteres Gyakra haszálják pl. lieáris modellekél Példa paraméteres bootstrapra Vajo lehet az illesztett gamma eloszlás alakparamétere? Bootstrap miták az expoeciális eloszlásból (ez a Γ(,λ) eloszlás) Statisztika: az alak ML becslése ezekre a mitákra Bootstrap p-érték: háy esetbe volt -tıl távolabbi a becslés, mit a megfigyelt esetbe/az összes mita száma Bootstrap a regresszióál Megfigyelésekre a szokásos módo (együttese az összes koordiátára) Paraméteres módszer: az illesztett modell reziduálisaiból veszük mitát visszatevéssel, majd ezt adjuk hozzá az illesztett értékhez Választás a vizsgálat célja alapjá Modell kiválasztás: emparaméteres bootstrap Modell megbízhatóság: paraméteres bootstrap Kofidecia itervallum A ormális közelítéshez potosítás célszerő. BC-módszer a határok meghatározására: ( α ) ˆ z0+ z F Φ( z0+ ) ( α ) a( z0+ z ) Fˆ a bootstrap statisztika értékek tapasztalati eloszlásfüggvéye z (α) a szokásos empirikus kvatilis z 0 a torzítást (bias) korrigálja a pedig a szórás övekedés gyorsulását (acceleratio) korrigálja a =0, z 0 =0 eseté, és ha Fˆ a ormális eloszlás, éppe z (α) az eredméy.

BC-képlet motivációja és alkalmazása Ha valamely mooto m(θ) traszformációt alkalmazva a becslésre ormális eloszlású lesz: m ( ˆ) θ ~ N( m( θ ) z0(+ am( θ )),+ am( θ )) Ebbıl a mootoitás miatt P ˆ θ <θ ) = Φ( z ) ( 0 azaz z 0 köye becsülhetı a becslése a loglikelihood függvéy deriváltjáak ferdeségébıl kapható meg Példa: kofidecia itervallum a korrelációra Stadard itervallum (a tapasztalati korreláció ormalitásá alapul) szimmetrikus em reális kicsi mitákál Boostrap aszimmetrikus, potosabb a lefedési valószíőség Kérdéses, hogy paraméteres vagy emparaméteres bootstrap módszert érdemes-e alkalmazi (a paraméteres általába óvatosabb tágabb itervallumot ad) Nemparaméteres bootstrap típusok ordiary bootstrap, balaced bootstrap: mide egyes mitaelem ugyaayi mitába szerepel atithetic resamplig: mide mitával együtt a párja is szerepel (az a pár, ahol x k () helyett az x -k+ () szerepel) permutatio (a mitaelemek permutációját haszálja) wild (weighted) bootstrap: em mitát veszük, haem súlyozzuk a mitaelemeket Összefüggı eset Ha a mitaelemek em függetleek (pl. m- összefüggıek), a feti módszer em mőködik: T = ( X µ) határeloszlása ormális, de más szórással. Viszot most is: * sup P ( T < x) Φ( x / σ ) = o() x *, Azaz az egyszerő bootstrap em tükrözi az adatok összefüggıségét. Ezért ilyekor módosítai kell.

Blokk bootstrap módszerek Több lehetıség, az egyik leggyakrabba haszált: Circular block bootstrap (CBB, Politis és Romao, 992). Legye Y t = X mod (folytatjuk az idısort az ( t) elejétıl kezdve) 2. Legye i, 2 i..., i m véletle, visszatevéses mita az {, 2,..., }-bıl 3. b:blokkméret, =m b ( ) a bootstrap mita: Y Y k=,,m; j=,...,b ( k ) b+ j = ik+ j 3 Egy tétel a blokk-bootstrapra Akár midjárt vektorváltozókra: tegyük fel, hogy E( X 2+ε )< alkalmas ε>0-ra. Legye a folyamat erıse keverı, α() keverési együtthatóval. Ha erre teljesül, hogy = α ( ) ε /(2+ ε ) < és a blokkméretre /b+b/=o() ( ), akkor D ( T 2 * * ) Σ azaz aszimptotikusa helyes becslést kapuk. Kérdés: mekkora legye a blokkméret? Függ attól, hogy mit is akaruk becsüli. Hall, Horowitz és Jig (995) alapjá: O( /3 ), ha a torzítást vagy a szórást becsüljük O( /4 ), ha a T statisztika eloszlásfüggvéyét becsüljük O( /5 ), ha a T statisztika eloszlásfüggvéyét becsüljük Gyakorlati alkalmazás Az elızı tételek em alkalmazhatóak közvetleül Politis és Romao (2004) automatikus blokkméret-meghatározása (szórásbecslésre): k= ahol G = k R( k) és G és D is becsüledı, véges közelítı összeggel, a tapasztalati kovariaciák felhaszálásával. /3 2 2G D /3 4 = D R( k) 3 k= 2

Gyakorlati megvalósítás Saját programmal sem boyolult R boot köyvtáráak éháy függvéye: Kofidecia itervallum becslésre (abc.ci) Statisztika paramétereiek számolására (boot) Példa Rétegzett populáció, rétegekét eltérı paraméterekkel: N(m+a k,σ k ) (k=,..3), E(a k )=0, D 2 (a k )=γ k. 2. pop: agyobb várható érték és szórás, 3. pop: kisebb v.é., legagyobb szórás Frequecy 0 5 0 5 20 Histogram of xdat Frequecy 0 0 20 30 40 50 Histogram of xdat2 Frequecy 0 0 20 30 40 50 60 Histogram of xdat3 7 8 9 0 2 xdat 8 0 2 4 6 xdat2 2 4 6 8 2 xdat3 A háromféle bootstrap eredméye Az igazi eloszlás : csak a rétegek véletleek, ebbıl mide mitaelemet kiválasztuk 2: csak az elemek véletleek, mide csoportból ugyaazok 3: midkét elem véletle Frequecy 0 20 40 60 80 00 Histogram of ered 9.0 0.0.0 ered Frequecy 0 20 40 60 80 00 20 40 Histogram of ered2 9.8 0.0 0.2 ered2 A bootstrap miták átlagát ézzük Frequecy 0 0 20 30 40 50 60 70 Histogram of ered3 9.0 0.0.0 ered3 Magát a geerálást ismételve 500-szor: A 3. modell tőik a legjobbak, de az. sem rossz. A 2. csak a csoportoko belüli szóródást mutatja. Frequecy 0 50 00 50 Histogram of ee 8 9 0 2 ee

Bootstrap és az extrém-érték modellek A emparaméteres bootstrap módszerek gyakra alulbecslik a bizoytalaságot A paraméteres bootstrap a leggyakoribb Itt egy óvatosabb módszert is számoltuk: a boot miták profil likelihood kofidecia itervallumaiak mediájából Tesztek többdimezióba Nics sok tapasztalat egy új módszerre késıbb még visszatérük Az elızıekhez hasolóa az empirikus és a várt eloszlásfüggvéyek eltérését lehet vizsgáli Nehézség: a kritikus értékek szimulációjához mide bootstrap mitáál emcsak véletle vektorokra, haem kétdimeziós modellillesztésre is szükség va. Egy egyszerő módszer { } fˆ( x) d x Predikciós tartomáyok: R ˆ ( u) = x : fˆ( x) u ; β ( u) = Rˆ ( u) Ha α-hoz úgy választjuk u α -t, hogy β(u α )= α legye, akkor R(u α ) α megbízhatóságú predikciós tartomáy Khi-égyzet próba alkalmazható az egyes (diszjukt) tartomáyok valószíőségére például α=0.5, 0.75, 0.9, 0.95, 0.975, 0.99- hez tartozó tartomáyok közötti részekre További tesztek Késıbb még többször visszatérük a témára A kopulák tárgyalásáál (ott egyeletes eloszlásúak a peremek és számos eljárás voatkozik rájuk). Az ottai módszerek a MGEV eloszlásokra is alkalmazhatóak leszek egy lehetséges eljárást még most bemutatuk. A szitfölötti maximumokál is lesz teszt-eljárás. A sokdimeziós problémákra is lesz illeszkedésvizsgálat, ez is fotos lehet a gyakorlati problémákál

Egy többdimeziós illeszkedésvizsgálati módszer ötlete Valószíőségi itegrál traszformáció (PIT) a d- dimeziós egységkockába képez: 64 Megfigyelések 474448 Pszeudo 644 megfigyelések 7444 8 Xi = ( X i,..., X id ) ~H PITUi = ( U i,..., U id ) ~C, i=,..., re (U ij =F j (X ij )) Kedall traszformáció: (K függvéy) Κ θ, t) P( C ( F ( X ),..., ( F ( X )) t) = P( C ( U,..., U ) ) ( = θ d d θ d t Elıy: -dimeziós 25 A K függvéye alapuló teszt Empirikus verzió: ahol Kedall folyamat Ei = κ ( t) = ( K ( θ, t) K ( t)) Cramér-vo Mises típusú statisztika: K ( t) = ( Ei t), t [ 0,] ( U j U i,..., U jd U id) j= S i= ahol Φ a súlyfüggvéy 26 2 = κ ( t)) Φ 0 ( ( t) dt Alkalmazás szélsebesség maximumokra Mita: = 259 megfigyelés heti szélsebesség maximumokra 3 émetországi városra Automatikus blokk-méret választás eredméye: Tow Optimal blocklegth Bremerhave 28 Fehmar 3 Schleswig 5 meteorológiailag ics értelme Blokk-bootstrap blokkméret választás a szélsebesség maximumokra Módszer:. AR() modell illesztése az adatokra: X t = µ + φx t + Zt, Z t ~Extrém-érték elo. 2. Az elméleti D 2 ( X ) kiszámítása az AR() folyamatból. 3. A b* optimális blokkméret meghatározása: ahol az átlag szimulált szóráségyzete elıször metszi az elméleti értéket 27 28

Empirical K Theoretical K Empirical K Theoretical K Empirical K Theoretical K Empirical K Theoretical K A bootstrap szimuláció eredméye A teszt eredméye külöbözı modellekre Gumbel Bremerhave & Fehmar Clayto b* = 6 Tow Bremer- Fehmar Schleswig have Optimal block-legth 6 7 3 X-mea variace 0,0073 0,0035 0,0037 Theoretical value 0,0077 0,0034 0,0030 IID X-mea-variace 0,0043 0,0020 0,008 Sample size reductio,7,74 2,09 29 0.0 0.4 0.8 0.0 0.4 0.8 0.0 0.2 0.4 0.6 0.8.0 Gauss 0.0 0.2 0.4 0.6 0.8.0 0.0 0.4 0.8 0.0 0.4 0.8 0.0 0.2 0.4 0.6 0.8.0 Studet-t 0.0 0.2 0.4 0.6 0.8.0 0.0000 0.0004 0.0008 0.002 =54 =257 GAUSS STUD-T GUMBEL 95% critical value observed statistics CLAYTON 30 Bootstrap a predikciós tartomáyokra Predictio regios (Bremerhave & Fehmar) 25 20 5 0 5 0 block= lower boud block=7 lower boud block=30 lower boud block= upper boud block=7 upper boud block=30 upper boud Pred. regios: 50-95-99.8% lower(5%) bouds upper(95%) bouds Hivatkozások Bortot, P.-Gaeta, C.: Multivariate extremes http://www2.stat.uibo.it/bortot/ricerca/eciclope dia.pdf Efro B.: Bootstrap methods: Aother look at the jackkife. (A. Statist., 979) S.N. Lahiri: Resamplig methods for Depedet Data (Spriger, 2003) D. N. Politis ad H. White (2004): Automatic Block-Legth Selectio for the Depedet Bootstrap. ECONOMETRIC REVIEWS, Vol. 23, No., pp. 53 70. 0 5 0 5 20 25 30 Szélsebesség (m/s) 3