Eötvös Loránd Tudományegyetem

Hasonló dokumentumok
BIOMATEMATIKA ELŐADÁS

Bootstrap (Efron, 1979)

Tartalom. Kezdeti szimulációs technikák. Tipikus kérdések. A bootstrap módszer. Bevezetés A független, azonos eloszlású eset:

A statisztikai vizsgálat tárgyát képező egyedek összességét statisztikai sokaságnak nevezzük.

f (M (ξ)) M (f (ξ)) Bizonyítás: Megjegyezzük, hogy konvex függvényekre mindig létezik a ± ben

Statisztika 1. zárthelyi dolgozat március 21.

kismintás esetekben vagy olyanokban, melyeknél a tanulóalgoritmust tesztadatokon szeretnénk

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Statisztika 1. zárthelyi dolgozat március 18.

Matematikai statisztika

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Intervallum Paraméteres Hipotézisek Nemparaméteres. Statisztika december 2.

I. Függelék. A valószínűségszámítás alapjai. I.1. Alapfogalamak: A valószínűség fogalma: I.2. Valószínűségi változó.

Statisztika. Földtudomány szak, geológus szakirány, 2015/2016. tanév tavaszi

24. tétel A valószínűségszámítás elemei. A valószínűség kiszámításának kombinatorikus modellje.

A matematikai statisztika elemei

Matematika B4 I. gyakorlat

Eötvös Loránd Tudományegyetem Informatikai Kar. Analízis 1. Írásbeli beugró kérdések. Készítette: Szántó Ádám Tavaszi félév

A szórások vizsgálata. Az F-próba. A döntés. Az F-próba szabadsági fokai

Zavar (confounding): akkor lép fel egy kísérletben, ha a kísérletet végző nem tudja megkülönböztetni az egyes faktorokat.

2. egy iskola tanulói, a változók: magasságuk cm-ben, súlyuk (tömegük) kilóban; 3. egy iskola tanulói, a változó: tanulmányi átlaguk;

18. Valószín ségszámítás. (Valószín ségeloszlások, függetlenség. Valószín ségi változók várható

Megjegyzések. További tételek. Valódi határeloszlások. Tulajdonságok. Gyenge (eloszlásbeli) konvergencia

Rudas Tamás: A hibahatár a becsült mennyiség függvényében a mért pártpreferenciák téves értelmezésének egyik forrása

Statisztikai hipotézisvizsgálatok

véletlen : statisztikai törvényeknek engedelmeskedik (Mi az ami közös a népszavazásban, a betegségek gyógyulásában és a fiz. kém. laborban?

Komputer statisztika

Populáció. Történet. Adatok. Minta. A matematikai statisztika tárgya. Valószínűségszámítás és statisztika előadás info. BSC/B-C szakosoknak

Eddig megismert eloszlások Jelölése Eloszlása EX D 2 X P(X = 1) = p Ind(p) P(X = 0) = 1 p. Leíró és matematikai statisztika

æ MATEMATIKAI STATISZTIKA Dr. Bolla Marianna, Matematika Intézet, Sztochasztika Tanszék

Matematikai statisztika gyakorlat 2018/2019 II. félév

6. feladatsor. Statisztika december 6. és 8.

2. Hatványsorok. A végtelen soroknál tanultuk, hogy az. végtelen sort adja: 1 + x + x x n +...

A maximum likelihood becslésről

biometria III. foglalkozás előadó: Prof. Dr. Rajkó Róbert Hipotézisvizsgálat

Áringadozások elıadás Kvantitatív pénzügyek szakirány 2012/13 2. félév

3.1. A Poisson-eloszlás

(A TÁMOP /2/A/KMR számú projekt keretében írt egyetemi jegyzetrészlet):

1 k < n(1 + log n) C 1n log n, d n. (1 1 r k + 1 ) = 1. = 0 és lim. lim n. f(n) < C 3

A statisztika részei. Példa:

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A brexit-szavazás és a nagy számok törvénye

Pontfolyamatok definíciója. 5. előadás, március 10. Példák pontfolyamatokra. Pontfolyamatok gyenge konvergenciája

A figurális számokról (IV.)

Pályázat címe: Pályázati azonosító: Kedvezményezett: Szegedi Tudományegyetem Cím: 6720 Szeged, Dugonics tér

7. el adás Becslések és minta elemszámok fejezet Áttekintés

Reakciómechanizmusok leírása. Paraméterek. Reakciókinetikai bizonytalanságanalízis. Bizonytalanságanalízis

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

ezek alapján kívánunk dönteni. Ez formálisan azt jelenti, hogy ellenőrizni akarjuk,

VÉLETLENÍTETT ALGORITMUSOK. 1.ea.

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Leíró és matematikai statisztika gyakorlat 2018/2019 II. félév

3. SOROZATOK. ( n N) a n+1 < a n. Egy sorozatot (szigorúan) monotonnak mondunk, ha (szigorúan) monoton növekvő vagy csökkenő.

1. előadás: Bevezetés. Irodalom. Számonkérés. Cél. Matematikai statisztika előadás survey statisztika MA szakosoknak. A matematikai statisztika tárgya

Wiener-folyamatok definiciója. A funkcionális centrális határeloszlástétel. Norbert Wienerre, a második pedig egy Brown nevű XIX. században élt angol

Modern szimulációs módszerek

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Statisztika október 27.

1. A radioaktivitás statisztikus jellege

Autoregressziós folyamatok

Sorozatok, határérték fogalma. Függvények határértéke, folytonossága

Feladatok és megoldások a 11. heti gyakorlathoz

Sorozatok október 15. Határozza meg a következ sorozatok határértékeit!

KÍSÉRLETTERVEZÉS ÉS ÉRTÉKELÉS A MIKROBIOLÓGIAI GYAKORLATBAN

Kutatói pályára felkészítı modul

Kalkulus I. Első zárthelyi dolgozat szeptember 16. MINTA. és q = k 2. k 2. = k 1l 2 k 2 l 1. l 1 l n 6n + 8

Eötvös Loránd Tudományegyetem Informatikai Kar. Analízis 1. Írásbeli tételek. Készítette: Szántó Ádám Tavaszi félév

VII. A határozatlan esetek kiküszöbölése

Loss Distribution Approach

A tárgy címe: ANALÍZIS 1 A-B-C (2+2). 1. gyakorlat

Statisztika elméleti összefoglaló

Területi koncentráció és bolyongás Lengyel Imre publikációs tevékenységében

Diagnosztika és előrejelzés

Hipotézis-ellenırzés (Statisztikai próbák)

Számsorozatok. 1. Alapfeladatok december 22. sorozat határértékét, ha. 1. Feladat: Határozzuk meg az a n = 3n2 + 7n 5n létezik.

Statisztikai programcsomagok

Differenciaegyenletek aszimptotikus viselkedésének

Biosta'sz'ka és informa'ka

Mo= argmax f(x), ha X abszolút folytonos; Mo= argmax P (X = x i ), ha X diszkrét.

Nevezetes sorozat-határértékek

Statisztika (jegyzet)

Ingatlanfinanszírozás és befektetés

Statisztika gyakorlat Geológus szakirány

Eloszláscsaládokhoz való illeszkedés vizsgálata. Ph. D. értekezés tézisfüzete

Kopulák. 2 dimenziós példák különbözı összefüggıséggel. Példák. Elliptikus kopulák. Sőrőségfüggvények. ( u) 7. elıadás március 24.

Innen. 2. Az. s n = 1 + q + q q n 1 = 1 qn. és q n 0 akkor és csak akkor, ha q < 1. a a n végtelen sor konvergenciáján nem változtat az, ha

Azonos névleges értékű, hitelesített súlyokból alkotott csoportok együttes mérési bizonytalansága

( a b)( c d) 2 ab2 cd 2 abcd 2 Egyenlőség akkor és csak akkor áll fenn

Matematikai statisztika

min{k R K fels korlátja H-nak} a A : a ξ : ξ fels korlát A legkisebb fels korlát is:

Kvantum párhuzamosság Deutsch algoritmus Deutsch-Jozsa algoritmus

Tudjuk, hogy az optimumot az ún. regressziós görbe szolgáltatja, melynek egyenlete:

f(n) n x g(n), n x π 2 6 n, σ(n) n x

8.1. A rezgések szétcsatolása harmonikus közelítésben. Normálrezgések. = =q n és legyen itt a potenciál nulla. q i j. szimmetrikus. q k.

Kombinatorika. Variáció, permutáció, kombináció. Binomiális tétel, szita formula.

Járványterjedési modellek nem-markov hálózati folyamatokra. Doktori értekezés tézisei

V. Deriválható függvények

Matematika I. 9. előadás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

Átírás:

aa BOOTSTRAP MÓDSZEREK ÉS ALKALMAZÁSAIK Doktori értekezés tézisei VARGA LÁSZLÓ Témavezető: Zempléi Adrás Egyetemi doces, CSc Matematika Doktori Iskola Vezető: Faragó Istvá Alkalmazott Matematika Doktori Program Vezető: Karátso Jáos Eötvös Lorád Tudomáyegyetem Valószíűségelméleti és Statisztika Taszék Természettudomáyi Kar 2017

1. Bevezetés A disszertáció az elméleti/alkalmazott statisztikai eljárások egy számításigéyes családjáról szól: bootstrap módszerekről. A PhD dolgozat több ézőpotot mutat be: vázolja a legfotosabb bootstrap módszereket, megvilágítja az elméleti eredméyek mögött rejlő matematika ehézségeit, új módszerekkel bővíti a bootstrap elméletét és bemutatja azok gyakorlati alkalmazhatóságát. Ez a tézisfüzet agyrészt a disszertáció felépítését követi. A PhD dolgozat a szerző [1], [2] és [3] publikációi yugszik, melyek az elméleti eredméyeket külöböző meteorológiai jeleségek modellezésére alkalmazzák. 2. Fejezetek valószíűségelméletből és statisztikából Ez a szakasz valószíűségelméletből, idősorok elméletéből (stacioárius folyamatok, vektor autoregresszió), a kopulák elméletéből (illeszkedésvizsgálat a Kedall-függvéy segítségével, kopulák homogeitásvizsgálata) és extrém érték elméletből (egy- és kétváltozós maximumo alapuló és küszöbmeghaladási modellek) tartalmaz a későbbi fejezetek számára szükséges megközelítéseket és eredméyeket. 3. Bootstrap módszerek A bootstrap egy redszerit visszatevéses mitavétele alapuló statisztikai eljárás, amit számos statisztikai feladat megoldására lehet haszáli: a beüket érdeklő statisztika eloszlásáak becslésére, torzítás csökketésére, hipotézisvizsgálatra, kofideciaitervallumok és -halmazok készítésére, idősorok előrejelzésére stb. A bootstrap módszereket az elmúlt évszázad utolsó két évtizedébe fejlesztették ki kiváló tudósok. A fő kocepciót Bradley Efro vezette be klasszikus cikkébe ([6]), és azóta köszöhetőe a számos kiterjesztések és általáosításak az egyik legszélesebb körbe elterjedt Mote Carlo módszerré vált. A bootstrap módszerek gyakorlati alkalmazhatósága expoeciálisa megőtt a számítógépes hardware és a programozási yelvek gyors fejlődéséek köszöhetőe. A bevezetését követő évekbe a bootstrap számos korlátjára derült féy, melyek az eredeti kocepció módosításához és regeteg kiterjesztéshez vezettek, így megszületett a paraméteres/félparaméteres bootstrap, reziduális bootstrap, blokk bootstrap, súlyozott bootstrap, dupla/tripla bootstrap és az -bőlm (agolba m-out-of-) bootstrap. Godolkozásomra és ezáltal a disszertációra a [9], [8] és [11] taköyvek gyakorolták a legagyobb hatást. 3.1. A bootstrap alapelve Az i.i.d. bootstrap alapötlete az, hogy az eredeti mitából visszatevéses mitavételezéssel további mitákat veszük. Formálisa felírva, legye X = (X 1,..., X ) T egy 1

i.i.d., valószíűségi változókból álló sorozat ismeretle F eloszlásfüggvéyel és legye T = t (X ; F ) egy beüket érdeklő statisztika (például az X mitaátlag). Az X i valószíűségi változók akár vektorváltozók is lehetek ilyekor X mátrix lesz. Redszerit az a fő célkitűzés, hogy T egy bizoyos függvéyéek az eloszlását megbecsüljük, például gyakra va szükségük T szórására vagy egy magas kvatilisére. Adott X mitára, P, E, D 2 ad Cov fogja jelöli a feltételes valószíűséget, a feltételes várható értéket, a feltételes variaciát és a feltételes kovariaciát, például P ( ) = P ( X ). Az i.i.d. bootstrap módszert formalizálhatjuk is: egy adott X mitából mit alaphalmazból m elemű X m = {X 1,..., X m} véletle mitákat veszük: P (X j = X i ) = P (X j = X i X ) = 1 i = 1,..., j = 1,..., m, így a bootstrap mita elemei feltételese függetleek és azoos eloszlásúak leszek. Ezáltal az Xi boostrap mitaelemek közös eloszlását az F (x) = 1 I(X i x) empirikus eloszlásfüggvéy határozza meg. A bootstrap mita agysága redszerit megegyezik az eredeti mita méretével. A következő lépés a statisztika bootstrap verziójáak defiiálása: T m, = t m (X m; F ). Ha az eljárást sokszor megismételjük, akkor T ismeretle G eloszlását a bootstrap verziók G m eloszlásával becsülhetjük. A problémák többségébe a G m-tól függő meyiségek kiszámításához számítógépes szimulációkra va szükség. A matematikai elmélet fejlesztése sorá az egyik legfotosabb szempot aak a vizsgálata (legalább szimulációkkal), hogy a statisztika bootstrap eloszlása elég közel va-e az eredeti eloszláshoz. Azt modjuk, hogy a bootstrap gyegé/erőse kozisztes, ameyibe egy alkalmasa választott metrikába a két eloszlás távolsága sztochasztikusa/egy valószíűséggel 0-hoz tart lásd [14] 3.1 fejezetét a téma bővebb kifejtéséért. 3.2. Blokk bootstrap módszerek Ameyibe adataik összefüggők és stacioáriusak, akkor a blokk bootstrap a legelfogadottabb újramitavételezési módszer; [11] alaposa tárgyalja ezt az eljárást. A blokk bootstrap alapötlete az a szádék, hogy megpróbáljuk az összefüggőséget átörökítei a mitákra. Eek érdekébe egy-egy mitaelem helyett egész blokkokból veszük újabb mitákat, majd ezeket a blokkokat összerakjuk, precízebbe leírva: 1. Tekerjük fel az X 1,..., X adatokat egy körvoalra, azaz defiiáljuk az X t = X tmod() (t Z + ) sorozatot, ahol mod() a "modulo " osztást jelöli. Ez azt jeleti, hogy X k = X k+ = X k+2 =... = X k mide k {1, 2,..., }-re. 2. Határozzuk meg a blokkok kezdőidexeit: az A {1,..., } halmazra kocetrált I 1, I 2,... valószíűségi változó sorozatot. 3. Határozzuk meg a blokkok hosszát: az L 1, L 2,... emegatív egész értékű valószíűségi változó sorozatot. 2

4. Defiiáljuk a blokkokat: B(I i, L i ) = { X Ii, X Ii+1,..., X Ii+L i 1} i = 1, 2,... 5. Rakjuk össze a blokkokat: X = {B(I 1, L 1 ), B(I 2, L 2 ),...}. A klasszikus blokk bootstrap a mozgó blokk bootstrap (MBB), ahol a blokkméret egy rögzített 1 b egész szám és a blokkokat az eredeti mitából veszik azoos valószíűséggel, azaz a blokkok kezdőidexei egyeletes eloszlásúak az A={1, 2,..., b+1} halmazo. A cirkuláris blokk bootstrap (CBB) midössze ayiba külöbözik az MBBtől, hogy A={1, 2,..., }. A stacioárius blokk bootstrap (SBB) a CBB általáosítása, a blokkméretek függetle geometriai eloszlásúak p (0, 1] paraméterrel. Általáosított blokk bootstrap A PhD dolgozatba egy olya blokk bootstrap módszert vezettük be, amely kiküszöbölte azt a problémát, amit az egész blokkagyságok okoztak a kokrét motivációt lásd a 3.4 fejezetbe. Kiterjesztésükbe a blokkméret valószíűségi változó, a módszer pedig a CBB-t is magába foglalja speciális esetkét. Ameyibe 1 b R, akkor legye az általáosított blokk bootstrap mita a következő. Tekerjük fel most is a mitát egy körvoalra. Tetszőleges k {1, 2,..., } eseté a blokkok legyeek az alábbiak (hosszuk vagy b, vagy b ) : {X k, X k+1,..., X k+ b 1 } 1 b + b valószíűséggel {X k, X k+1,..., X k+ b 1 } b b valószíűséggel ahol b jelöli b felső, míg b az alsó egészrészét. Végül illesszük össze a blokkokat. Az előzőekbe leírt általáosított blokk bootstrap (GBB) "paramétereit" a blokk bootstrap-él bevezetett jelölésekkel is felírhatjuk: 1 b R az elvárt blokkméret, amit előre rögzítük A = {1, 2,..., } I i X Uif(A) i = 1, 2,... feltételese függetleek egymástól P (L i = b ) = 1 P (L i = b ) = b b i = 1, 2,... feltételese függetleek egymástól I i és L j feltételese függetleek mide i és j eseté 1. Állítás. A GBB módszer eseté mide i = 1, 2,...-re azt kapjuk a blokkméretekre, hogy E L i = b és D 2 L i = (b b )(1 b b ). A cirkuláris blokk bootstrap mitához hasolóa a mi általáosított bootstrap miták is redszerit em stacioárius folyamat (az eredeti mitára feltételese). Mostatól fel fogjuk tei, hogy a bootstrap mita hossza megegyezik az eredeti mitamérettel, azaz m =. Defiiáljuk a következő valószíűségi változókat: N s : a b méretű blokkok száma; 3

N l : a b méretű blokkok száma; R: a maradék blokkméret hossza, azaz R = N s b N l b. Az alábbi állítás megadja N s eloszlását, amiből N l és R eloszlása már köyedé kiszámolható. 2. Állítás. Legye p = b b, ekkor N s eloszlása a következő: j = 0, 1,..., -re 0 ha (j+1) b egész [ ][( ) ( ) ] b j b p b (1 p) j 1 j + j b 1 j + j b 1 b + b (1 p) ha j b egész P (N s=j) = b ( ) j 1 j j + j b b p j b b (1 p) j egyébkét j b Az alkalmazásokba a bootstrap mitaátlag kovariaciamátrixáak yomára lesz szükség, ebbe segít a következő tétel. 1. Tétel. A bootstrap átlag kovariaciamátrixát az alábbi módo lehet kiszámítai: [ ] Cov (X b) = b 2 2 Cov (X b,i) E N s + D N 2 s X (X ) T + [ ] + b 2 2 Cov (X b,i) E N l + D N 2 l X (X ) T + + 1 b 1 2 i 2 P (R = i) Cov (X i,1) + D R 2 X (X ) T, i=0 ahol X b,i az i-edik b méretű blokk átlaga (i = 1, 2,...). 3.3. Súlyozott bootstrap A súlyozott (weighted vagy multiplier) bootstrap az i.i.d. bootstrap kiterjesztéséek tekithető. A klasszikus súlyozott bootstrap ötlete először a [7] köyv 10. fejezetébe jelet meg és a későbbiekbe számos alkalmazásra lelt. Az elmúlt évekbe kutatásaim egyik fókuszpotjába eek az elméletek egy részterülete, a súlyozott likelihood bootstrap állt. Úgyevezett bootstrap súlyokat vezetük be, melyeket τ = (τ,1, τ,1,..., τ, )-el jelölük és feltesszük róluk, hogy az X mitához tartozó valószíűségi változók. [13] a súlyozott bootstrap-et a maximum likelihood becsléssel kombiálta úgy, hogy a log-likelihood függvéy elemeit megszorozta a megfelelő súlyokkal. Ebbe a kotextusba P ( ) olya feltételes valószíűséget jelöl, amikor a súlyok véletleek, a mita viszot rögzített. A disszertációba Wilks klasszikus, az általáosított likelihood-háyados tesztstatisztikára voatkozó eredméyéek ([15]) egy további általáosítását és aak bizoyítását mutatjuk be. 4

Tegyük fel, hogy adott egy eloszláscsalád f ϑ (x) sűrűségfüggvéyel, ahol ϑ Θ R p ismeretle paraméter. Egy X = (X 1,..., X ) T i.i.d. mita log-likelihood függvéyét l(ϑ X ) = l(ϑ) = log f ϑ (X i ) fogja jelöli, a paraméter maximum likelihood becslését pedig ϑ = arg max l(ϑ). Defiiáljuk a log-likelihood függvéy (bootstrap) súlyozott verzióját az alábbi módo: ϑ l (ϑ X ) = l (ϑ) = τ,i log f ϑ (X i ), és legye ϑ a súlyozott ML-becslés. A súlyokra tett feltételek redszerit kotextusról kotextusra változak, ezért csak a mi feladatukra voatkozó feltételredszert fogjuk bemutati. Tegyük fel, hogy az alábbi feltételek teljesülek a bootstrap súlyokra: A1. függetleek az adatgeeráló folyamattól; A2. véges második mometummal redelkezek mide = 1, 2,... eseté; A3. P (τ,i 0) = 1; i = 1,..., ; = 1, 2,...; A4. Eτ,i = 1 i = 1,..., ; = 1, 2,...; 1 A5. Létezik egy olya γ R, amire τ,i 2 p γ; A6. Létezik egy olya q < 1 valós szám, amire Cov(τ,i, τ,j ) q i j 1 i j ; = 1, 2,... A feti feltételekek számos eloszlás eleget tesz, mi az alkalmazásokál az i.i.d. expoeciális és a poliomiális (multiomiális) eloszlást haszáltuk: ( (τ,1,..., τ,) Multiomial ; 1,..., 1 ) ad (τ,1,..., τ,) i.i.d. Exp(1). Egyrészt az egyszerűségük miatt választottuk ezeket, másrészt azért, hogy megézzük, a koordiáták közötti gyege összefüggőség (poliomiális eloszlás) jeletős hatást gyakorol-e az adott probléma eseté a végeredméyre (például a 4.2 fejezetbe a kofideciaitervallumok lefedési valószíűségére). Tegyük fel, hogy az eloszláscsaládra stadard erős regularitási feltételek teljesülek, például a [4] 191. ( oldalá ) lévő (RR). Készítsük a paramétertérből egy két részből álló σ }q partíciót: ϑ = ρ }p q és legye σ it(p r H (Θ)), ahol H a Θ paramétertér első q koordiátájáak megfelelő altér. Defiiáljuk a korlátozott ML-becslést az alábbi módo: ϑ = ( σ ρ ) ( σ = arg max l ρ ρ 5 ). (1)

Jelölje ϑ a feti (1) [ súlyozott verzióját. Wilks eredméye yomá tudjuk, hogy σ = σ eseté T := 2 l( ϑ ) l( ϑ ] d ) χ2 q. 2. Tétel. A véletle súlyozású általáosított likelihood-háyados statisztika aszimptotikus eloszlása. Erős regularitási feltételek eseté és haszálva az eddigi jelöléseket; ha σ = σ, akkor T := 2 γ [ l ( ϑ ) l ( ϑ ) ] d χ2 q. A 2. tétel bizoyításához további állításokra volt szükségük. Az első a többdimeziós határeloszlás-tétel, míg a második a agy számok gyege törvéyéek egy általáosítása véletle súlyokkal. 3. Állítás. Legyeek τ -ek az ebbe a fejezetbe bevezetett, A1-A6 feltételekek eleget tevő valószíűségi változók (súlyok); Y 1, Y 2,... i.i.d. p dimeziós valószíűségi vektorváltozók 0 p várható érték vektorral és Σ kovariaciamátrixszal. Ameyibe a súlyok függetleek az Y i valószíűségi vektorváltozóktól, akkor 1 τ,i Y i d N p(0 p, γσ). 4. Állítás. Legyeek τ -ek az ebbe a fejezetbe bevezetett, A1-A6 feltételekek eleget tevő valószíűségi változók (súlyok); Y 1, Y 2,... i.i.d. valószíűségi változók véges első két mometummal. Ameyibe a súlyok függetleek az Y i valószíűségi változóktól, akkor 1 τ,i Y i p EY 1. 3.4. Blokkméret megállapítása a gyakorlatba A szakirodalomba két általáos stratégiát szoktak javasoli az ideális blokkméret kiválasztására, az egyik almitavételezése ([10], subsamplig), a másik emparaméteres behelyettesítése ([12], oparametric plugi) alapul. A 4.1 és 4.3 fejezetekbe egy ezektől eltérő, modell alapú megközelítést mutatuk be: úgy próbáljuk megtaláli a legjobb blokkméretet, hogy először egy reméyeik szerit megfelelőe illeszkedő vektor autoregressziós VAR(p) modellt illesztük a többdimeziós adatokra, majd megézzük, melyik blokkméretre lesz az eredeti mitából blokk bootstrap-pel vett mita mitaátlagáak kovariaciamátrixa legközelebb a VAR-modellből származó mita mitaátlagáak kovariaciamátrixához. Ez az eljárás kellőe általáos ahhoz, hogy más, a VAR-ál akár jóval boyolultabb sztochasztikus folyamatokra is alkalmazi lehesse. A 4.1 fejezetbe az optimális b blokkméretet a következő képlettel számítjuk: b = argmi 1 b Z tr ( Cov ( )) X VAR tr (Cov (Xb)), (2) 6

ahol Cov (X b) a blokk bootstrap átlag kovariaciamátrixa b blokkagyság eseté és a Cov ( ) X VAR meyiséget az alábbi módo kapjuk meg. Elegedő csak VAR(1) folyamatokkal foglalkozi, mert egy d dimeziós VAR(p) felírható pd dimeziós VAR(1)-két. Ha va egy d dimeziós VAR(1) folyamatuk X t = AX t 1 +ε t, Cov(ε t ) = C alakba, akkor { Cov(X VAR ) = 1 1 ( Γ X (0) + 1 h [A ) h Γ X (0) + (Γ X (0)) T (A h ) T ]}, (3) h=1 ahol Γ X az autokovariacia mátrix és vec(γ X (0)) = (I d 2 A A) 1 vec(c). A szakirodalomba redszerit egész blokkmérettel végzik a szimulációkat. Azoba azt tapasztaltuk, hogy a (2) képlettel kapott egész blokkméretek eseté éha igecsak jeletős a két yom közti eltérés, ami akár jeletős torzítást is okozhat, főleg kisebb blokkagyságok eseté. Sajos hasoló a helyzet az alfejezet elejé megemlített, a szakirodalomba széles épszerűségek örvedő két általáos techikával is, ez volt a fő motivációja a 3.2 fejezetbe bevezetett általáosított blokk bootstrap-ek. Ezért aztá a (2) képlet helyett az alábbi egyelet megoldását javasoljuk az ismeretle 1 b R változó szerit: tr ( Cov(X VAR ) ) ( ) = tr Cov (X b). (4) A 4.3 fejezetbe ezt a megközelítést követjük a blokkméret meghatározása sorá. 3.5. Profil likelihood és az extrémumok bootstrap-ezése A 4.2 fejezetbe a korábba kimodott 2. tételt fogjuk arra haszáli, hogy kofideciaitervallumot készítsük a küszöbmeghaladáso alapuló egyváltozós extrémértékeloszlás visszatérési értékeire. A Pickads Balkema de Haa tétel alapjá tudjuk, hogy egy adott küszöbérték felett a megfigyelések általáosított Pareto-eloszlással (GPD) közelíthetők, amely eloszlás az alábbi eloszlásfüggvéyel redelkezik: ( ) 1 1 1 + H(x) = ξx ξ σ if ξ 0, 1 e x σ if ξ = 0 ahol ξ-t alakparaméterek, σ-t pedig skálaparaméterek hívják. Mi az alkalmazásokba egy másfajta paraméterezéssel dolgoztuk: ξ és a q-kvatilis (visszatérési érték) H 1 (q) voltak a paramétereik, ekkor a log-likelihood függvéy a következő alakot ölti: l(ξ, H 1 (q) X ) = log h ξ,h 1 (q)(x i ), ahol h ξ,h 1 (q)(z) = (1 q) ξ 1 ξh 1 (q) ( 1 + z (1 q) ξ 1 H 1 (q) ) 1 ξ 1 az új paraméterezésű sűrűségfüggvéy. Jelölje az ML-becsléseket ˆξ és H 1 (q). Most bevetjük a 3.3 fejezetbe beve- 7

zetett súlyokat a log-likelihood függvéy elemeit szorozzuk meg velük: l (ξ, H 1 (q) X ) = τ i log h ξ,h 1 (q)(x i ). A profil likelihood egy széles körbe haszált módszer arra, hogy visszatérési értékek (kvatilisek) vagy más fotos paraméterek értékeire kofideciaitervallumot kostruáljuk. Az eljárás alapja az ú. profil log-likelihood függvéy ([5], p. 33-36), amit jele esetbe a következőképp defiiálhatuk: l p (H 1 (q) X ) = max ξ l(ξ, H 1 (q) X ). (5) Tehát az l p függvéy rögzített kvatilis értékekre a log-likelihood függvéy ξ szeriti lokális maximumát adja meg. A súlyozott bootstrap-et a profil likelihood módszerrel kombiáltuk, hogy a visszatérési értékekre kofideciaitervallumot határozzuk meg. A profil log-likelihood függvéy bootstrap verziója (5) értelemszerű módozata: l p(h 1 (q) X ) = max ξ l (ξ, H 1 (q) X ). Legye γ a 3.3 fejezetbeli A5 feltételbe szereplő kostas, ami a súlyok második mometumáak átlagából számolt sztochasztikus határérték. A 2. tétel szerit erős regularitási feltételek mellett, ameyibe a súlyokra az A1 A6 feltételek teljesülek, akkor 2 γ [ l (ˆξ, H 1 (q) X ) l p(h 1 (q) X ) ] d χ2 1. (6) Ezt az aszimptotikus eredméyt felhaszálhatjuk arra, hogy a visszatérési értékekre kofideciaitervallumot kostruáljuk. A továbbiakba jelölje 1 α a megbízhatósági szitet, c 1 α a χ 2 1-eloszlás (1 α)-kvatilisét és x = (x 1,..., x ) a tapasztalati mitát. Ezáltal (6)-t felhaszálva, az alábbi Iα súlyozott profil kofideciaitervallumot készíthetjük: I α = { H 1 (q) : lp(h 1 (q) x) l (ˆξ, H 1 (q) x) γ c 1 α 2 }, (7) amely redszerit szélesebb a hagyomáyos profil likelihood kofideciaitervallumál és gyakra jobba is teljesít ála. Szimulációik azt mutatták, jóval potosabb lefedési valószíűséggel redelkezik a hagyomáyos profil itervallumhoz képest, ameyibe a mita kevert GPD eloszlásból származik (a 4.2. fejezetbe volt rá szükség). 4. Alkalmazások 4.1. Kopulaillesztés és bootstrap szélsebességi adatok modellezésébe Ez az alfejezet [1] cikk alapjá készült. Két észak-émet állomás, Hamburg és Fehmar 50 éves api szélsebességi maximumait modelleztük. Fő céluk az volt, hogy az össze- 8

függőségi struktúrát kopulákkal elemezzük és előrejelzéseket készítsük. Külöböző kopula modelleket illesztettük és az illeszkedést a Kedall-függvéy segítségével elleőriztük, de mivel adataik összefüggők voltak, a hagyomáyos tesztelési eljárás módosításra szorult. A kritikus értékeket CBB elve vett, kisebb elemszámú mitákból geeráltuk, felhaszálva az effektív mitaméret fogalmát. Ezt a kisebb mitaelemszámot és a blokkméretet a következő módo határoztuk meg. Először egy VAR(1) folyamatot illesztettük az adatokra, ami jóak bizoyult, majd a (2) képletet megoldva, optimális blokkagyságak b = 8 adódott. Az effektív mitaméret azt a mitaagyságot jeleti, amivel egy függetle mitából vett mita mitaátlagáak a variaciája megegyezik a megfigyelt, összefüggőséget is magába tartalmazó mitaátlag variaciájával. Több dimeziós megfigyelések eseté a variacia helyett a kovariaciamátrix yomát lehet haszáli. A mi esetükbe az effektív mitaméretre e = tr(σ) =2580 0.3715 tr(cov 8 (X)) 0.6101 =1571 adódott. Összességébe azt kaptuk, hogy a grafikus módszerek és a tesztek szerit egyötetűe a Gumbel kopula illeszkedett a legjobba, de mitaméret-korrekció élkül a Gumbel kopula illeszkedését is erőse elutasítottuk vola. 4.2. Küszöbmeghaladási modellek és a súlyozott bootstrap a meteorológiába Ez az alfejezet a [2] cikket mutatja be. A felhaszált megfigyelések az E-OBS adatbázis 63 éves api csapadékadataiból származak, öt magyarországi állomást választottuk Budapest, Tapolca, Várpalota, Székesfehérvár és Hatva településekhez közel. Az elemzés célja az volt, hogy modellezzük az csapadékok kiugró értékeit; megvizsgáljuk, ebből a szempotból megfigyelhető-e változás a klímákba; illetve magas visszatérési szitekhez tartozó visszatérési értékekre itervallumbecslést adjuk. Először egyváltozós küszöbérték-modellekkel foglalkoztuk. Küszöbértékek 10 mm-t választottuk, azt kaptuk, hogy a (7) súlyozott profil likelihood itervallum számos esetbe jobba teljesített, mit a hagyomáyos profil itervallumbecslés, viszot a súlyok eloszlása em bizoyult fotos téyezőek. A vizsgált 63 év alatt a GPD eloszlás paraméterei az idő függvéyébe szigifikás módo megváltoztak, ez a változás pedig a magas visszatérési értékekél külööse jeletős volt, megerősítve azt, hogy jóval gyakrabbá váltak a szélsőséges időjárási eseméyek. Hasoló eredméyekre jutottuk a kétváltozós BGPD II extrém érték modell illesztése sorá is, például a Tapolca Budapest párok eseté az összefüggőségi paraméter értéke szigifikás módo megőtt, illetve a vizsgált állomáspárok feléél a 10 éves visszatérési értékekek megfelelő extrém eseméyek bekövetkezéséek együttes valószíűsége erőteljes emelkedést mutatott. 4.3. Általáosított blokk bootstrap alkalmazása hőmérsékleti adatok modellezésébe Ez az alfejezet [3] cikk alapjá készült. Az E-OBS adatbázisba található 5 kárpátmedecei állomáspár összefüggőségi struktúráját modelleztük. Azt a célt tűztük ki ma- 9

guk elé, hogy a miták első és második feléek összefüggőségi struktúráját kopulák homogeitásvizsgálatával összehasolítsuk egymással. Mideekelőtt szimulációkat hajtottuk végre aak érdekébe, hogy a kopula homogeitásvizsgálat teszt erejét bootstrap eseté is megvizsgáljuk. Azt kaptuk, hogy a próba kozisztes és még kis mitára is elfogadható ereje va. Megéztük továbbá a blokkméret tesztre gyakorolt hatását, ami az esetek többségébe meglehetőse gyegéek bizoyult. Ezutá a disszertációba bevezetett általáosított blokk bootstrap segítségével p-értékeket szimuláltuk. A blokkméretet a (4) képlet megoldásával határoztuk meg. A VAR modell most is jól illeszkedett, így a mitaátlag kovariaciamátrixát (3) képlettel lehetett számítai. Meteorológiai szempotból [3] cikkükek az volt a fő következtetése, hogy a hőmérséklet-adatok összefüggőségi struktúrájába változást lehet megfigyeli, ami aál erősebb, miél távolabb va egymástól a két állomáspár. A PhD értekezés alapjául szolgáló publikációk: [1] P. Rakoczai, L. Varga, ad A. Zempléi. Copula fittig to autocorrelated data with applicatios to wid speed modellig. Aales Uiversitatis Scietarium de Rolado Eotvos Nomiatae, Sectio Computatorica, 43:3 20, 2014. [2] L. Varga, P. Rakoczai, ad A. Zempléi. Applicatios of threshold models ad the weighted bootstrap for hugaria precipitatio data. Theoretical ad applied climatology, 124(3-4):641 652, 2016. [3] L. Varga ad A. Zempléi. Geeralised block bootstrap ad its use i meteorology. Advaces i Statistical Climatology, Meteorology ad Oceaography, 3(1):55 66, 2017. További hivatkozások: [4] A. A. Borovkov ad A. M. Mathematical statistics. Gordo Breach, Amsterdam, 1998. [5] S. Coles. A itroductio to statistical modelig of extreme values. Spriger Verlag, 2001. [6] B. Efro. Bootstrap methods: aother look at the jackkife. The Aals of Statistics, 7(1), 1979. [7] B. Efro. The jackkife, the bootstrap ad other resamplig plas. CBMS-NFS, 1982. [8] B. Efro ad R. J. Tibshirai. A itroductio to the bootstrap. CRC press, 1994. [9] P. Hall. The bootstrap ad Edgeworth expasio. Spriger Sciece & Busiess Media, 2013. [10] P. Hall, J. L. Horowitz, ad B.-Y. Jig. O blockig rules for the bootstrap with depedet data. Biometrika, 82(3):561 574, 1995. [11] S. N. Lahiri. Resamplig methods for depedet data. Spriger Sciece & Busiess Media, 2003. [12] S. N. Lahiri, K. Furukawa, ad Y.-D. Lee. A oparametric plug-i rule for selectig optimal block legths for block bootstrap methods. Statistical Methodology, 4(3):292 321, 2007. [13] Michael A Newto ad Adria E Raftery. Approximate bayesia iferece with the weighted likelihood bootstrap. Joural of the Royal Statistical Society. Series B (Methodological), pages 3 48, 1994. [14] J. Shao ad D. Tu. The jackkife ad bootstrap. Spriger Sciece & Busiess Media, 2012. [15] S. S. Wilks. The large-sample distributio of the likelihood ratio for testig composite hypotheses. The Aals of Mathematical Statistics, 9(1):60 62, 1938. 10

aa