Eötvös Loránd Tudományegyetem Természettudományi Kar Horvat Anna Konvergencia-sebesség az extrémérték modellekben BSc Elemz Matematikus Szakdolgozat Témavezet : Dr. Zempléni András Valószín ségelméleti és Statisztika Tanszék Budapest, 2016
Tartalomjegyzék Bevezetés 4 1. Elméleti háttér 5 1.1. Motiváció.................................... 5 1.2. Az n elem minta maximumának határeloszlása............... 6 1.3. Maximum vonzási tartományok........................ 8 2. Konvergencia-sebesség 11 2.1. Egyenletes konvergencia-sebesség....................... 12 2.2. A becslés pontosítása.............................. 15 2.3. Fordított eredmények.............................. 17 2.4. Konvergencia Ψ α -hoz.............................. 20 3. Kitekintés 22 3.1. Küszöbmeghaladás............................... 22 3.2. Becslés GPD-vel................................. 24 4. Szimulációk 26 4.1. n elem, exponenciális eloszlású minta maximumának eloszlása....... 27 4.2. n elem, egyenletes eloszlású minta maximumának eloszlása........ 28 4.3. n elem, standard normális eloszlású minta maximumának eloszlása.... 30 Összegzés 34 2
Köszönetnyilvánítás Köszönöm témavezet mnek, Zempléni Andrásnak, hogy szakdolgozatom elkészítéséhez hasznos tanácsokat adott és iránymutatásul szolgált. Hálás vagyok türelméért és megértéséért. Valamint köszönöm családomnak az egyetemi éveim alatt nyújtott kitartó támogatást. 3
Bevezetés Extrém események az élet minden területén el fordulhatnak. Ezen események közös jellemz je, hogy nagyon ritkán következnek be, viszont hatásuk annál jelent sebb. Ilyen eseménynek tekinthet k a nagy árvizek, földrengések; a pénzügyi világban extrém esemény például egy t zsdekrach, vagy egy nagy katasztrófa esetén a biztosítók legnagyobb kizetései. Az extrémérték elmélet f feladata, hogy a kevés ismert meggyelés, adatok alapján olyan modelleket készítsen, amelyekkel elég jó el rejelzések adhatók ezen események bekövetkezésére. Dolgozatom célja az egyes valószín ségi változó sorozatok maximumainak konvergenciájának vizsgálata a megfelel extrémérték eloszlásokhoz, illetve a velük kapcsolatos elméleti eredmények összefoglalása. Ezzel összhangban bevezetem az ún. g-sv függvények fogalmát, amely segítségünkre szolgál a konvergencia rendjének megállapításában. Az els fejezetben röviden ismertetem a klasszikus extrémérték elméleti eredményeket, köztük a Fisher-Tipett-Gnedenko tételt, amely az extrémérték elmélet alapját képezi: egy minta maximumának vagy minimumának háromféle határeloszlása lehet; valamint a GEV eloszláscsaládot, amellyel a három extrémérték eloszlás egy formulába írható (Jenkinson, 1955). Ezt követ en a második fejezetben Richard L. Smith: Uniform Rates of Convergence in Extreme Value Theory [7] c. cikke alapján részletesebben kitérek a mintamaximumok közelítésére az extrémérték eloszlásokhoz: ismertetem a korábban említett g-sv függvényeket, melyeket alkalmazok is a konvergencia vizsgálatánál. A három határeloszlás közül Fréchet eloszláshoz vizsgálom részletesen a mintamaximumok konvergenciáját, röviden pedig a Weibull határeloszláshoz. A harmadik fejezetben egy kis kitér következik: mintamaximumok helyett egy minta u küszöb feletti, "elég nagy" értékeit vizsgálom, és bemutatom, miként alkalmazhatóak a második fejezetben bemutatott g-sv függvények a küszöbmeghaladáson alapuló modellezésben. Végül a negyedik fejezetben szimulációkon keresztül szemléltetem az egyes extrémérték eloszlásokhoz a konvergenciát. 4
1. fejezet Elméleti háttér 1.1. Motiváció A független valószín ségi változók maximumának határeloszlásáról szóló elmélet a centrális határeloszlás tétellel (CHT) számos hasonlóságot mutat. Legyen X 1, X 2,... független, azonos eloszlású valószín ségi változók. Míg a CHT az X 1 +... + X n összeg határeloszlását adja meg n esetén, addig az extrém érték elmélet a minta extrémumainak (max (X 1, X 2,..., X n ) vagy min (X 1, X 2,..., X n )) határeloszlását vizsgálja, ha n. Tehát a CHT az extrém érték elmélet motivációjaként is tekinthet. Legyen X 1 +X 2 +...+X n = S n. A CHT kimondja, hogy X 1, X 2,... független, azonos eloszlású, véges szórású valószín ségi változók összege alkalmas konstansokkal normalizálva a standard normális eloszlásfüggvényhez konvergál eloszlásban, ha n tart a végtelenbe. A konstansok: a n = n EX 1 és b n = n DX 1. A tétel formalizálva: ( ) Sn a n P x Φ(x), n. (1.1) b n 1.1. Deníció. Legyen X 1, X 2,... független, azonos F eloszlású valószín ségi változók. Ekkor az F a G vonzási tartományába tartozik, ha megadható a n, b n normáló sorozat, hogy X 1 +... + X n a n b n G. Tehát (1.1) esetén az F eloszlásfüggvény a normális eloszlás vonzási tartományába tartozik, azaz F DA(Φ). Ám ha a szórásnégyzet végtelen, a független, azonos eloszlású valószín ségi változók normalizált összege α-stabilis eloszláshoz tart. 1.2. Deníció. Egy X valószín ségi változó stabilis, ha X 1 és X 2 függetlenek és azonos eloszlásúak X-szel, és bármely a > 0-ra és b > 0-ra teljesül, hogy ax 1 + bx 2 d = cx + d, ahol c > 0 és d valós. 5
1.2. Az n elem minta maximumának határeloszlása Legyen X 1, X 2,... független, azonos eloszlású valószín ségi változók sorozata F közös eloszlásfüggvénnyel, és M n = max (X 1,..., X n ). Az M n maximum eloszlásfüggvénye: P (M n x) = P (X 1 x,..., X n x) = F n (x). Ekkor az M n x F, ha n 1 valószín séggel, ahol x F az F jobboldali végpontja, vagyis x F = sup{x R: F (x) < 1}. Ez nem igazán hordoz magában információt, így felmerül a kérdés, hogy van-e nem elfajult határeloszlása a lineárisan transzformált M n maximumnak. A CHT-hez hasonlóan próbáljuk a határeloszlást meghatározni, keressük, mely eloszlás vonzási tartományába fog tartozni. 1.3. Tétel. (Fisher-Tippett-Gnedenko tétel) Legyen X 1, X 2... független, azonos eloszlású valószín ségi változók sorozata F közös eloszlásfüggvénnyel. Ekkor, hogyha léteznek olyan valós a n > 0, b n normalizáló sorozatok, és ( ) Mn b n P x = F n (a n x + b n ) G(x), n, (1.2) a n ahol G nem elfajult eloszlásfüggvény, akkor G az alábbi három eloszlásfüggvény-típus valamelyikébe tartozik: { 0, x 0 Φ α (x) = exp{ x α }, x > 0, α > 0 { exp{ ( x) α }, x < 0, α > 0 Ψ α (x) = 1, x 0 Λ α (x) = exp { exp{ x}}, < x <. 1.4. Deníció. A Φ α (x) Fréchet, a Ψ α (x) Weibull és Λ α (x) Gumbel eloszlásfüggvényeket standard extrémérték eloszlásfüggvényeknek hívjuk. 1.5. Deníció. Ha X 1,..., X n független, az X változóval azonos eloszlású valószín ségi változók, valamint a n > 0 és b n alkalmas konstansok úgy, hogy akkor az X valószín ségi változót max-stabilisnak nevezzük. M n d = a n X + b n, (1.3) Legyen X 1, X 2... független, azonos eloszlású valószín ségi változók. Ekkor az (1.3) átírható az alábbi alakba: M n b n a n d = X. (1.4) Megállapíthatjuk, hogy minden max-stabilis eloszlás határeloszlása a lineárisan transzformált független, azonos eloszlású valószín ségi változók maximumának. S t a max-stabilis eloszlások az egyedüli határeloszlásai a normalizált maximumoknak. 6
1.6. Tétel. Max-stabilis eloszlások halmaza egybeesik az alkalmasan normált maximumok határeloszlásával. Ennélfogva, hogyha az X olyan extrém valószín ségi változó, amely eleget tesz (1.4)-nek, a Fisher-Tipett-Gnedenko tétel 3 esete megegyezik a következ kkel: Fréchet: M n d = n 1 α X, ugyanis ha X 1, X 2,... független, azonos eloszlású valószín - ségi változók Φ α (x) eloszlásfüggvénnyel, akkor P (M n < n 1 α x) = Φ n α (n 1 α x) = exp{ n(n 1 α x) α } = Φ α (x) Weibull: M n d = n 1 α X, ugyanis ha X 1, X 2,... független, azonos eloszlású valószín ségi változók Ψ α (x) eloszlásfüggvénnyel, akkor P (M n < n 1 α x) = Ψ n α (n 1 α x) = exp{ n( n 1 α x) α } = Ψ α (x) Gumbel: M n d = X + ln n, ugyanis ha X 1, X 2,... független, azonos eloszlású valószín ségi változók Λ α (x) eloszlásfüggvénnyel, akkor P (M n < x + ln n) = Λ n α(x + ln n) = exp{ n exp{ x ln n}} = Λ α (x). Az el z három eloszláscsaládot magába foglalja a következ nagy eloszláscsalád, a GEV (Generalized Extreme Value) eloszlás: [ ( )] 1 x µ G(x) = exp ξ 1 + ξ σ, (1.5) ( ) x µ ahol 1 + ξ > 0. A képletben a µ a hely-, a σ a skálaparaméter. A ξ az alakparaméter, amely megadja az eloszlás szélének lecsengésének sebességét. σ Ha ξ > 0: lassan lecseng eloszlás (Fréchet) ξ = 0: gyorsan lecseng eloszlás (Gumbel) ξ < 0: rövid szél eloszlás (negatív Weibull). 7
Eloszlásfüggvények Sűrűségfüggvények F(x) 0.0 0.2 0.4 0.6 0.8 1.0 Weibull Gumbel Frechet f(x) 0.0 0.2 0.4 0.6 0.8 1.0 Weibull Gumbel Frechet 4 2 0 2 4 4 2 0 2 4 x x 1.1. ábra. Standard extrém érték eloszlások eloszlásfüggvénye és s r ségfüggvénye 1.3. Maximum vonzási tartományok A továbbiakban vizsgáljuk meg, hogy milyen feltételeknek kell érvényesülniük F -re, hogy az F eloszlású független valószín ségi változók standardizált maximuma a megfelel maxstabilis eloszláshoz konvergáljanak eloszlásban. De el bb, ahogy a valószín ségi változók összegénél is tettük, vezessük be az extrém érték eloszlások vonzási tartományát is. 1.7. Deníció. Abban az esetben, ha (1.2) teljesül valamilyen nem elfajult G eloszlásfüggvénnyel, akkor F a G max-vonzási tartományában (maximum domain of attraction, röviden MDA) van. Jelölése: F MDA(G). Láthatjuk, hogy mivel az extrém érték eloszlások folytonosak, így az M n b n G kifejezés felírható a következ képpen is: a n lim P (M n < a n x + b n ) = lim F n (a n x + b n ) = G(x) ahol x R. n n Ezt ismerve könnyen belátható a következ állítás. 1.8. Állítás. Az F eloszlás a G extrém érték eloszlás max-vonzási tartományába tartozik az a n > 0, b n konstansokkal akkor és csak akkor, ha nf (a n x + b n ) ln G(x), n, x R Ha G(x) = 0, a határérték -nek vehet. 8
A konvergencia vizsgálathoz szükséges még ismertetnünk a reguláris- és lassú változású függvények fogalmát. 1.9. Deníció. (Reguláris változású függvény) A h: (0, ) (0, ) függvény reguláris változású a végtelenben p R indexszel, ha x > 0 esetén h(tx) lim t h(t) = xp. 1.10. Deníció. (Lassú változású függvény) Legyen h: (0, ) (0, ) regurális változású függvény. Ha p = 0, vagyis h(tx) lim t h(t) = 1, akkor a h függvényt lassú változásúnak mondjuk. Ha egy h(x) függvény reguláris változású p indexszel, akkor mindig felírható h(x) = x p L(x) alakban, ahol L egy lassú változású függvény. A továbbiakban vizsgáljuk meg az egyes extrémérték eloszlások maximum vonzási tartományainak karakterizációját. Els ként tekintsük a Fréchet-eloszlás esetét. 1.11. Tétel. (Fréchet-eloszlás max-vonzási tartománya) Az F eloszlásfüggvény a Φ α (x) vonzási tartományába tartozik akkor és csak akkor, ha ahol L egy lassú változású függvény, és F = 1 F. F (x) = x α L(x), (1.6) Az MDA(Φ α ) összes eloszlásának jobboldali végpontja végtelen, vagyis x F =. A Weibull-eloszlásból egyszer transzformációval megkaphatjuk a Fréchet eloszlást, a kapcsolatuk a következ képpen írható le: Ψ α ( 1 x) = Φα (x), x > 0. Ennek ismeretében várható, hogy a vonzási tartományaik is szoros kapcsolatban vannak. Továbbá ismert, hogy a Weibull max-vonzási tartományába tartozó eloszlásoknak van x F véges jobboldali végpontjuk. 1.12. Tétel. (Weibull-eloszlás max-vonzási tartománya) Az F eloszlásfüggvény a Ψ α (x) vonzási tartományába tartozik akkor és csak akkor, ha x F véges és ahol L egy lassú változású függvény. F ( x F 1 x) = x α L(x), (1.7) A Gumbel eloszlás max-vonzási tartománya tartalmaz számos véges- és végtelen jobb végponttal rendelkez eloszlást. Ezen eloszlás vonzási tartományának jellemzése jóval bonyolultabb az el z kett nél, összességben az exponenciális lecsengés eloszlások tartoznak ide. Karakterizáció helyett nézzünk egy példát. 9
1.13. Példa. Legyen F λ paraméter exponenciális eloszlás. Ekkor ( ) Mn b n P < x = F n (a n x + b n ) = (1 exp{ λ(a n x + b n )}) n a n Válasszuk a konstansokat úgy, hogy a n = 1 λ és b n = log n λ. Így ( 1 exp{ x} n) 1 n exp { exp{ x}}, tehát F M DA(Λ). Az 1.2 ábrán látható, hogy véletlenszer en generált exponenciális eloszlású n elem minta maximumai λ = 2 paraméter mellett, a példában alkalmazott konstansokkal valóban a Gumbel eloszláshoz tartanak. Tapasztalati és határeloszlások F(x) 0.0 0.2 0.4 0.6 0.8 1.0 n=2 n=10 n=100 n=1000 Határeloszlás 1 0 1 2 3 4 x 1.2. ábra. λ = 2 paraméter exponenciális eloszlású n elem minta maximumának konvergenciája a Gumbel határeloszláshoz. A konvergencia viszonylag gyors. 10
2. fejezet Konvergencia-sebesség Ebben a fejezetben a Fisher-Tipett-Gnedenko tételben megfogalmazott ( ) Mn b n P x = F n (a n x + b n ) G(x), n a n konvergencia sebességét fogjuk vizsgálni. A témát Richard L. Smith [7] cikke alapján közelítjük meg. A konvergencia-sebesség fontos a határeloszlás tételek esetében, mert segítségével megadható egy n küszöb, úgy, hogy a legalább n elem mintákra már elegend en jól simul a tapasztalati eloszlás a határeloszlás görbéjére. A fejezetben megnézzük ennek tulajdonságait, vele kapcsolatos tételeket, példát. Az extrémérték eloszlások konvergenciasebességére nem születtek olyan eredmények, mint a CHT esetében a Berry-Esséen tétel, amely fels becslést ad a normális közelítés hibájára általános feltételek esetén. 2.1. Tétel. (Berry-Esséen) Legyen X 1, X 2,... független, azonos eloszlású valószín ségi változók, továbbá E X 1 3 véges és T n := ( n k=1 X k n m) / (σ n). Ekkor sup x F Tn (x) Φ(x) C E X 1 m 3 σ n, ahol C egy olyan konstans, amelyet id r l id re pontosítanak (2010-ben C = 0, 4785). Az extrémérték eloszlások konvergencia-sebességének vizsgálatánál az adott F eloszlás szélének viselkedését kell vizsgálnunk, hiszen a legkisebb és legnagyobb értékek az eloszlások szélén helyezkednek el. Tekintsük a G = Φ α esetet. Az 1.11 tételben láttuk, hogy az a n, b n normalizáló konstansok létezésének szükséges és elégséges feltétele az F szélének reguláris viselkedése α indexszel. Ezzel ekvivalens felírás log F (tx) lim t log F (t) = x α, x > 0. (2.1) Rendezzük át (1.6)-ot, amelyb l az L lassú változású függvény a következ képpen felírható: L(t) = t α log F (t), t > 0. (2.2) A következ fogalom rendkívül fontos lesz a továbbiakban. 11
2.2. Deníció. Azt mondjuk, hogy az L lassú változású függvény a g maradékfüggvénnyel, ha L(tx) 1 = O(g(t)), x > 0, t, (2.3) L(t) ahol g olyan függvény, hogy g(t) 0 t esetén. A továbbiakban jelöljük a fentebb deniált fogalmat g-sv-vel, mely az angol megfelel jének rövidítéséb l származik (slowly varying with remainder function g). A konvergencia rendjér l viszonylag pontos eredményeket kapunk általa. A tételeinkben rendre megjelenik az elmélet, eredményeinkkel szoros párhuzamban fog állni. A következ rövid példán keresztül láthatjuk, hogyha L g-sv függvény, akkor hogyan kapjuk meg a konvergencia-sebességet. Legyen b n = 0 és a n olyan sorozat, hogy Továbbá legyen log F (a n ) 1 n log F (a n ). (2.4) n log F (a n ) = 1 + O(r(n)), (2.5) ahol r n = g(a n ). Legyen x > 0. Ekkor felhasználva, hogy F reguláris változású: Ebb l következik, hogy n log F (a n x) = log F (a nx) log F (a n ) (1 + O(r n)) = x α L(a nx) L(a n ) (1 + O(r n)) = x α (1 + O(r n )). F n (a n x) Φ α (x) = O(r n ). (2.6) Ez az összefüggés felvet több érdekes kérdést is, a továbbiakban ezekkel foglalkozunk. 2.1. Egyenletes konvergencia-sebesség A kérdések közül els ként azt vizsgáljuk meg, hogy a (2.6) hogyan viselkedik 0 < x < esetén, ehhez el ször tekintsük a következ lemmát. 2.3. Lemma. Legyen L g-sv függvény valamely pozitív g függvénnyel, amelyre g(tx) g(t) < C, x > 1, t t 0, (2.7) C és t 0 pozitív konstansokkal. Ekkor (2.3) egyenletesen konvergál (0, )-n és léteznek olyan K, t 0 konstansok, amelyekre log L(tx) log L(t) Kg(t)(1 + log x), x 1, t t 0. (2.8) 12
Látni fogjuk, hogy ha az L g-sv függvény, és teljesíti a (2.7)-et, valamint g(tx) g(t) Bx θ minden t t 0 és x 1 esetén, ahol θ > 0, B > 0, (2.9) akkor az F egyenletesen tart az extrémérték határeloszláshoz 0 < x < esetén. A g-re vonatkozó (2.7) és (2.9) feltételek enyhék, hiszen az els feltétel automatikusan teljesül g-re, ha az csökken függvény, a második kikötés pedig csupán annyit jelent, hogy g nem csökkenhet túl gyorsan. A következ konvergencia-sebességre vonatkozó tétel az egyenletességre vonatkozó feltételeket összefoglalja, amit be is bizonyítunk. 2.4. Tétel. Tegyük fel, hogy F (x) < 1 minden véges x-re, és log F reguláris változású függvény α indexszel, ahol α > 0. Továbbá a (2.2) szerint deniált L függvény legyen g-sv függvény valamely g pozitív függvénnyel, amely megfelel a (2.7) és (2.9) feltételeknek. Legyen b n = 0 és a n (2.4) szerint deniálva, valamint r n = g(a n ). Ekkor sup F n (a n x) Φ α (x) = O(r n ), n. (2.10) x Vagyis a hiba nagyságrendjét úgy határozzuk meg, hogy vesszük az eloszlásgörbék különbségének supremumát. Bizonyítás. Ha F folytonos, n log F (a n ) = 1 minden n-re. Különben legyen ε n pozitív számokból álló sorozat úgy, hogy ε n = O(r n ) n esetén. Ekkor n log F (a n ) 1 n log F (a n (1 ε n )) = [ n log F (a n )](1 ε n ) α L(a n(1 ε n )) L(a n ) = [ n log F (a n )](1 + O(r n )). Tehát n log F (a n ) = 1 + O(r n ). (2.11) Bizonyításunkhoz felhasználjuk (2.8)-t, valamint megfelel jét 0 < x < 1 esetén, ami a következ : log L(tx) log L(t) Kg(tx)(1 + log x ), tx t 0. (2.12) Adott δ 0-hoz létezik t δ > t 0, úgy, hogy ha x > 0 és t > t δ, tx > t δ, akkor log L(tx) log L(t) δ(1 + log x ). (2.13) A 0 < x < 1 esetben (2.9)-b l kifejeztük g(tx)-et és behelyettesítettük (2.12)-be, és tx t 0 feltétel mellett teljesül. log L(tx) log L(t) K B g(t)x θ (1 + log x ) (2.14) 13
Ebb l újradeniáljuk K-t, ami legyen K : log L(tx) log L(t) K g(t)x 2θ. (2.15) A bizonyítás további részében tegyük fel, hogy δ < α 4. Külön fogjuk igazolni az x > 1 és 0 < x < 1 eseteket. Kezdjük az el bbivel, tehát legyen x > 1. A (2.8) és (2.13) log ( log F (a n x)) + log ( log F (a n )) α log x = log L(a n x) + log L(a n ) < (1 + log x) min (Kr n, δ) feltéve, hogy a n > t δ. Felhasználva (2.11)-t és K -t, megkapjuk, hogy minden elég nagy n-re: log ( log F (a n x)) log n α log x (1 + log x) min (Kr n, 2δ). (2.16) Vezessük be a H függvényt, amelyet a következ képpen deniálunk: H(y) = exp{ e y }. Ha y 1 = log ( n log F (a n x)) és y 2 = α log x, akkor ezeket H-ba helyettesítve: H(y 1 ) = F n (a n x), H(y 2 ) = Φ α (x), H(y 1 ) H(y 2 ) = (y 1 y 2 )H (ξ), ahol y 1 < ξ < y 2 és H = exp{ y exp{ y}} H els deriváltja. Legyen x > e. Ekkor (2.16) révén ξ > α log x 2δ(2 log x) = (α 4δ) log x, H (ξ) < H ((α 4δ) log x) x (α 4δ), x. Így visszahelyettesítve H(y 1 ) H(y 2 ) = (y 1 y 2 )H (ξ)-be, x és n esetén F n (a n x) Φ α (x) < y 1 y 2 x (α 4δ) < Kr n (1 + log x)x (α 4δ). Így a jobb oldal O(r n ), hiszen az x-t l függ tényez korlátos, aminek következtében F n (a n x) Φ α (x) konvergenciájának sebessége egyenletesen O(r n ) minden x > 1 esetén. Folytassuk a bizonyítást 0 < x < 1-re. A (2.16)-hez hasonlóan log ( log F (a n x)) log n α log x < min ( 2δ(1 + log x ), Kr n x 2θ), (2.17) ahol a n x t δ. Legyen ismét y 1, y 2 és ξ az x > 1 esethez hasonlóan deniálva. Ha x < 1 e, akkor ξ < (α 4δ) log x, és H (ξ) < H ( (α 4δ)) = x (α 4δ) exp { x (α 4δ)}, 14
és így x és n esetén, a n x t δ mellett F n (a n x) Φ α (x) Kr n x 2θ α+4δ exp{ x (α 4δ) }. (2.18) Ez, ha x 0 valójában O(r n ), tehát az állítást beláttuk x > t δ a n -ra. Elegend igazolnunk, hogy F n (t δ ) és Φ α ( t δ a n ) is o(r n ). A fentebbi feltételek F -re és g-re biztosítják, hogy r n legfeljebb olyan gyorsan csökkenhet, mint n valahányadik hatványa. Mivel F (t δ ) < 1, F n (t δ ) = o(r n ) nyilvánvaló (hiszen feltettük, hogy r n nem csökkenhet túl gyorsan). Másrészt, a n n 1 2 α, így ( ) ( ) { } tδ tδ Φ α Φ α = exp n 1 2, a n n 1 2 α t α δ ami szintén o(r n ), tehát beláttuk az állítást. Érdekes kérdés lehet még, hogy az a n, melyet (2.4) szerint deniáltunk, milyen széles intervallumon válaszható, hogy a tétel érvényes maradjon, vagyis teljesüljön az egyenletes konvergencia 0 < x < intervallumon. Ahhoz, hogy a konvergencia-sebesség O(r n ) legyen, a n -re a (2.5) szükséges és elégséges feltétel. 2.2. A becslés pontosítása Ebben a részben megvizsgáljuk, hogy meg tudunk-e határozni egy f hibatagot a közelítésben. A 2.4 tételben a hiba nagyságának rendjér l kaptunk információt, ami O(r n ), a gyakorlatban viszont sokszor van szükség annak függvényes formájára. Legyen az L és g függvény a (0, ) intervallumon értelmezve, és g legyen olyan függvény, hogy g(t) 0, ha t. Ekkor L(tx) 1 v(x)g(t), x > 0, t. (2.19) L(t) A cikk szerint, hogy ha (2.19) fennáll, és v teljesíti a feltételt, hogy létezik olyan x, hogy v(x) 0, és minden y-ra teljesül, hogy v(xy) v(y) 0, akkor g reguláris változású függvény p indexszel, ahol p 0 és v(x) = ch p (x) valamely c konstansra és h p -re, ahol h p (x) = x 1 up 1 du. 2.5. Tétel. Legyen L, F, a n és b n a (2.4) tételben látottakhoz hasonlóan deniálva. Tegyük fel, hogy L (2.19) szerinti g-sv függvény, ahol g reguláris változású függvény p indexszel, és v(x) = ch p (x) p 0 esetén. Ekkor 0 < x < esetén 2.6. Következmény. Ha p < 0, akkor egyenletesen x > 1, ahogy n. F n (a n x) Φ α (x) = cr n h p (x)x α Φ α (x) + o(r n ). (2.20) F n (a n x) Φ α (x) = cr n x α Φ α (x)(h p (x) + o(1)) 15
Ez az eredmény jelent s a gyakorlatban, tipikusan a legfontosabb kérdés a konvergencia az eloszlások fels szélén. 2.7. Következmény. Tegyük fel, hogy létezik f(x) = F (x) és legyen f(x) k(x) = F (x) log F (x). Tegyül fel még, hogy lim xk(x) = α, x amely ekvivalens von Mises szükséges, de nem elégséges feltételével az F n (a n (x)) Φ α (x)- ra vonatkozólag. Továbbá teljesüljön, hogy xyk(xy) α lim y yk(y) α = xp, x > 0. Legyen a n olyan, hogy F (a n ) = exp{ 1 }. Ekkor n F n (a n x) = Φ α (x) + 1 α (a nk(a n ) α)xh p (x)φ α (x) + o(a n k(a n ) α) konvergencia 0 < x < esetén egyenletes lesz, ahol φ α (x) = Φ α(x). 2.8. Példa. Most nézzünk meg egy példát. Tekintsük az F eloszlásfüggvényt olyannak, hogy F (x) = 1 cx α dx α β + o(x α β ), x, ahol c > 0 és d 0 konstansok, és 0 < β < α. Legyen L(x) a (2.2)-nél látottakhoz hasonlóan deniált lassú változású függvény. Tudjuk, hogy az 1 F (x) = F (x) jó közelítése a log F (x), tehát 1 F (x) log F (x). Ezt felhasználva ( ( L(tx) L(t) = (tx)α 1 1 c(tx) α d(tx) α β + o((tx) α β ) ) (t) α( 1 (1 c(t) α d(t) α β + o((t) α β )) ) = 1 + d(tx) β /c + o((tx) β ) 1 + dt β /c + o(t β ) = 1 + dt β /c + 1 + d(tx) β /c (1 + dt β /c) + o((tx) α β ) 1 + dt β /c + o(t β ) = 1 dt β (1 x β ) + o(t β ), c és ez éppen a (2.19)-ben fennálló eset, ahol g(t) = t β és v(x) = d(1 x β )/c. Az a n sorozat pontos értékét ugyan nehéz megadni, de láttuk, hogy Φ α (x) esetén a n = n 1 α és b n = 0. Tehát legyen a n (nc) 1 α, és így g(a n ) (nc) β α n esetén. Alkalmazzuk a 2.5 tételt, és megkapjuk, hogy F n (a n (x)) = Φ α (x) + n ( β α c 1 β α dx α 1 x β) ( ) Φ α (x) + o n β α, 0 < x <. A példa, illetve az ott látott módszer alkalmazható a Pareto- és a stabilis eloszlások maximuma konvergencia-sebességének becslésére (a Paretonál d = 0). 16
2.3. Fordított eredmények Korábban már láttuk, hogy az a n konstansoknak milyen intervallumba kell esniük, hogy az egyenletes sebesség érvényes maradjon az extrémérték eloszlásokhoz, most pedig ennél er sebb feltételeket keresünk. Feltehetjük a kérdést, hogy vajon az a n és b n konstansok optimálisak-e, azaz ezen normalizáló sorozatok mellett a leggyorsabb-e a konvergencia sebessége az extrém érték eloszlásokhoz. Amint látni fogjuk, ez nem mindig igaz. Másik kérdés is feltehet, méghozzá az, hogy mi történik akkor, ha a 2.4 tételünkben módosított normalizáló sorozatokat vizsgálunk, vajon akkor is érvényes-e az egyenletes sebesség, szükséges-e a g-sv tulajdonság. Mivel ez a két kérdés szorosan összefügg, így ezeket a részeket együtt vizsgáljuk meg. Legyenek a n > 0, b n és r n > 0 olyan módosított sorozatok, hogy r n 0 és F n (a nx + b n) = Φ α (x)(1 + O(r n)) (2.21) egyenletesen x (0, ) valamely véges halmazán. L legyen továbbra is (2.2) szerinti lassú változású függvény, és ahol a n (2.4) szerint van deniálva. a n a n 1 és b n a n 0, (2.22) 2.9. Tétel. L (2.3) szerinti g-sv függvény olyan g függvénnyel, hogy g(a n) = r n, ha r n = max (r n, b n/a n ). Bizonyítás. F reguláris változású tulajdonsága miatt (2.21) átírható ( ) α n a n + b n L(a x nx + b n) = 1 + O(r n). (2.23) Ekkor a konvergencia-sebesség az extrém érték eloszlásokhoz egyenletes véges x intervallumokon. Rögzítsük x 0 > 1-et, ekkor a konvergencia-sebesség egyenletes lesz a 1 x 2x 2x 2 0 0 esetén. Adott t > 0-hoz legyen n(t) a legkisebb olyan egész szám, amelyre a n(t) t. Az n(t) jól deniált, mert tudjuk, hogy az a n, ami következik (2.22)-ból, és a n+1 Továbbá igaz n(t)-re, hogy teljesíti az a n 1. a n(t) < x 0 t, minden elég nagy t esetén. (2.24) Ehhez hasonlóan (2.22)-ból és (2.24)-ból b n(t) 0 t esetén is teljesül. t Rögzítsük t-t, és teljesüljön rá a (2.24) és b n(t) < 1 t 2x 0. Adott y legyen olyan, hogy 1 x 0 < y < x 0, és legyen x(y) olyan, hogy a n(t) x(y) + b 1 n(t) = ty. Hogyha az x(y) <, 2x 2 0 akkor behelyettesítve az el z ket azt az ellentmondást kapjuk, hogy y < x 0 + 1 = 1, 2x 2 0 2x 0 x 0 17
hiszen 1 1 x 0 < y < x 0 nem teljesül. Így innent l fogva az x 2x 2x 2 0 feltétel mellett 0 folytatjuk az igazolást. Alkalmazzuk a (2.23)-t x(y)-ra és x(1)-re: ( L(ty) L(t) = a n(t) + b n(t) x(y) ( yx(1) = x(y) ( ty b n(t) y = ty b n(t) ( b n(t) = 1 α t ) α ( ) α ( 1 + O(r ) α a n(t) + b n(t) (1 + O(r x(1) n(t)) ) n(t)) ) ) α (1 + O(r n(t)) ) ) ( 1 1 ) + o y ( b n(t) t ) + O ( r n(t)). 1 Látható, hogy a konvergencia-sebesség egyenletes x 0 < y < x 0 esetén, és mivel x 0 tetsz legesen választható, így gyakorlatilag bármely véges y intervallumon egyenletes a sebesség. Írjuk át a kapott összefüggést egy vele ekvivalens alakba g 1 (t) = α b n(t) és t g 2 (t) = r n(t) deniálásával: L(ty) L(t) 1 = g 1(t)(1 1 y ) + o(g 1(t)) + O(g 2 (t)). (2.25) Legyen g(t) = r n (t); az r n = max (r n, b n/a n) deníciójából és (2.24)-b l következik, hogy g 1 (t) és g 2 (t) nagyságrendje O(g(t)), t esetén, így innent l L teljesíti (2.3)-t g-vel. Hogyha b n korlátos, akkor a 2.9 tételb l következik, hogy L g-sv függvény olyan g-vel, a nr n hogy g(a n) = r n. Ha g-re teljesülnek a 2.4 tétel feltételei, vagyis hogy g csökken függvény, de nem gyorsan csökken, akkor láthatjuk, hogy ha a n és b n helyébe a n -t és b n = 0-át helyettesítünk, akkor a konvergencia sebessége O(g(a n )). Az el bb említett g-re vonatkozó (2.7), (2.9) és (2.22) feltételek mellett ez megegyezik az O(r n )-nel vagy O(r n)-vel, vagyis a konvergencia sebessége nem javul az új, módosított sorozatok használatával. Ám felmerül a kérdés, mi történik, ha b n nem korlátos. Akkor látni fogjuk, hogy az a nr n új sorozatok javítani fognak a n és b n konstansokon, csak speciálisabb feltételek mellett. Tegyük fel, hogy r n rn 0. Ekkor b n, így g 2(t) a n r n g 1 0 ha t, és így (2.25) (t) ekvivalens L(ty) L(t) 1 = g 1(t)(1 1) + o(g y 1(t)), y > 0, (2.26) ami gyakorlatilag a (2.19), vagyis a g 1 reguláris változású függvény 1 indexszel. 2.10. Tétel. Az olyan a n és b n konstansok létezésének, amelyekkel a 2.9 tétel teljesül az r n r n 0 feltétel mellett, szükséges és elégséges feltétele, hogy L g-sv függvény (2.19) szerinti alakban, ahol g valamilyen reguláris változású függvény 1 indexszel. Továbbá v(y) = c(1 1 ), y > 0, c 0. y 18
Hogyha ez teljesül, az a n és b n konstansokat választhatjuk a következ képpen: a n + b n = a n, b n = 1 α ca ng(a n ). Azaz ezen feltételek mellett a konvergenciánk sebessége javulni fog. Bizonyítás. El ször lássuk be a szükségességet. Ha g = g 1 és c = 1, akkor éppen (2.26)-t kapjuk, tehát az állítást beláttuk. Most pedig nézzük az elégségességet. Használjuk a g- sv függvények második, (2.19)-ben deniált felírását, és legyen r n = g(a n ). Felhasználva (2.11)-et, a következ t kapjuk: Így n log F (a nx + b n) = log F (a nx + b n) log F (a n + b n) (1 + o(r n)) ( ) a = n x + b α n L(a nx + b n) a n + b n L(a n + b n) (1 + o(r n)) ( ) ) αb = x (1 α + n + r a n c (1 1/x) + o(r n ) n ( = x α 1 + r n c(1 1/x)(1 a ) n ) + o(r n ) = x α (1 + o(r n )). a n n(a nx + b n) α L(a nx + b n) = 1 + o(r n), amely pontosan (2.23) O(r n ) helyett o(r n)-nel, amib l látható, hogy javult a konvergencia. Anderson (1971) némileg er sebb feltételek mellett szintén belátta a szükségességet. ( ( ) a F n (a nx b n) Φ α (x) = α n 1 a ( n + o max a n ) a n x cr nh p x x α Φ α (x) ), b n, r n. + α b n a n 1 Ez levezethet a 2.5 tételb l, és egyenletes x-ben, ha x n = a nx n + b n és a 2.5 tételt alkalmazzuk x n -re. Az egyenlet jobb oldala akkor és csak akkor o(r n ), ha p = 1, ekkor ha a tételben kimondott módon választjuk az a n és b n konstansokat, a f tag elt nik. Azonban ezen konstansok alkalmazásával a f tag bámely p esetén lokálisan minimalizálva van x = 1 környékén. Így, ha (2.19) fentáll, lehetséges az a n és b n sorozatok helyett ezek módosításait használni még akkor is, ha p 1. a n 19
2.4. Konvergencia Ψ α -hoz Az 1.12 tételben láttuk, hogy milyen feltételek mellett tart egy eloszlásfüggvény a Weibullhatáreloszláshoz. Egyik feltétele az volt, hogy az F eloszlásfüggvénynek egy véges x F végponttal kell rendelkeznie, a másik pedig az, hogy az F 1 (x) = F (x F 1 ) szerint deniált F 1 (x)-nek a Φ α (x) vonzási tartományában kell lennie (lsd. (1.7)). Ebben a részben x vizsgáljuk meg röviden egy F eloszlásfüggvény konvergenciájának sebességét a Ψ α -hoz, hasonlóan az el z részekhez. Legyenek a n és b n konstansok olyanok, amely mellett lim F n (a n x + b n ) = Ψ α (x). n Legyen c n = 1 a n és ε n = c n (x F b n ). A vonzási tartományok karakterizációjánál szintén láttuk, hogy a Weibull és Fréchet határeloszlások között szoros kapcsolat van: legyen x és y olyan, hogy y = 1. Ekkor x ( ) cn y F (a n x + b n ) = F 1, 1 + ε n y s t Ψ α (x) = Φ α (y). Ha b n = x F, azaz ε n = 0, akkor a Fréchetnél látott 2.4 és 2.5 tételt közvetlenül alkalmazhatjuk mostani esetünkben is. 2.11. Tétel. Tegyül fel, hogy F 1 teljesíti a 2.4 tétel hipotézisét. Legyen b n = x F és a n olyan, amelyre teljesül, hogy log F (x F a n ) 1 n log F (x F a n ). Legyen r n = g( 1 a n ). Ekkor sup F n (a n x + b n ) Ψ α (x) = O(r n ). x 2.12. Tétel. Tegyük fel, hogy F 1 teljesíti a 2.5 tétel hipotézisét. Ekkor F n (a n x + b n ) Ψ α (x) = cr n h p ( x)( x) α Ψ α (x) + o(r n ) egyenletesen < x < 0 esetén. A 2.12 tételb l látható a h p ( 1) = h y p(y) összefüggés. 2.13. Példa. Az egyenletes eloszlás a Weibull eloszlás vonzási tartományába tartozik, így tekintsük az F (x) = x a eloszlásfüggvényt. Értelmezzük F -et a (0, 1) intervallumon, b a tehát a = 0, b = x F = 1. Az (1.7)-b l L(t) = x α F (x F 1 ). Így x L(tx) L(t) = (tx)α (1 F (x F 1 )) + tx o((tx) 1 ) t α (1 F (x F 1)) + t o(t 1 ) = x α (tx) 1 + o((tx) 1 ) t 1 + o(t 1 ) = x α t 1 + (tx) 1 t 1 + o((tx) 1 ) t 1 + o(t 1 ) = 1 t 1 (1 x 1 ) + o(t 1 ). 20
Így legyen g(t) = t 1, v(x) = (1 x 1 ). Az r n = g( 1 a n ). Válasszuk a n = n 1, így g( 1 a n ) = n 1 és b n = 1. Így F n (a n x + b n ) = Ψ α (x) + n 1 ( x) α (1 x 1 )Ψ α (x) + o(n 1 ). A Weibull határeloszlás esetén az a n és b n módosító sorozatok esetén nem lesz gyorsabb a konvergencia, így azokat most nem ismertetjük. 21
3. fejezet Kitekintés 3.1. Küszöbmeghaladás A konvergencia-sebességr l szóló elméleti összefoglalónkban nagy hasznát láttuk a lassú változású függvények g-sv tulajdonságának, tételeinkben és azok bizonyításában rendre fontos szerepet kaptak. Most vizsgáljuk meg, miként alkalmazható mindez a gyakorlatban, jelen esetben az eloszlások szélének vizsgálatában. Ezen fejezet alapjául [6] cikk szolgál, amely az eloszlásfüggvények szélének becslésével, azok aszimptotikus tulajdonságával foglalkozik, egy küszöb meghaladásán alapulva. Amiért számunkra érdekes, hogy több eredményt is a g-sv tulajdonság alkalmazásával kapott meg. Másrészt az eredmények lefedik az extrém érték elmélet mindhárom határeloszlás típusát is, amelyek közül a Fréchet esetet nézzük meg. El ször tekintsük a vizsgált rész elméleti hátterét röviden. El z fejezetünk határeloszlás tételét a gyakorlatban úgy lehet használni, hogy az egyes blokkokból (ilyen blokkok lehetnek jellemz en fél éves vagy éves blokkok) kiválasztjuk a maximumot, és azt már extrém-érték eloszlásúnak tételezzük fel. Ezt a módszert blokk-maximum módszernek hívjuk. Azonban ebben a részben már nem a blokk-maximum módszert alkalmazzuk, az F eloszlásfüggvény szélének vizsgálata egy küszöb túllépésén fog alapulni. A blokk-maximum módszer egyik hátránya, hogy az - amúgy is kevés rendelkezésre álló - extrém adatok közül csak a maximumot használja fel, így viszont sok adat elvész. A küszöbmeghaladáson alapuló modellek során el re megadunk egy magas küszöböt, és amely események ezt túllépik, azokat fogjuk extrém értékeknek hívni. Ez formálisan a következ : legyen X 1, X 2,... független, azonos eloszlású valószín ségi változók közös F eloszlásfüggvénnyel. Tekintsük extrém eseményeknek azokat, amelyek egy magas, tetsz legesen megválasztott u küszöbértéket túllépnek, és legyen x F < F fels végpontja. Ekkor Pickands (1975) eredményei alapján F u (y) = F (u + y) F (u), u < x F, 0 < y < x F u (3.1) 1 F (u) a feltételes eloszlásfüggvénye az X u-nak, ha X > u. Deniáljuk az általánosított Pareto 22
eloszlást (Generalized Pareto Distribution, GPD): { 1 (1 ky σ G(y; σ, k) = ) 1 k, k 0, σ > 0, 1 exp{ y }, k = 0, σ > 0, (3.2) σ ahol 0 < y <, ha k 0, 0 < y < σ, ha k > 0. k Ha az u küszöbszint tart az eloszlásfüggvény jobb oldali végpontjához, akkor a GPD jó közelítése lesz az u szint feletti maximumok eloszlásának, vagyis lim u x F sup F u (y) G(y; σ, k) = 0 (3.3) 0<y<x F u rögzített k-ra és σ(u)-ra akkor és csak akkor, ha az F valamely H extrémérték eloszlás maximum vonzási tartományában van. Hogyha H = Φ α, akkor k = 1 α, ha H = Ψ α, akkor k = 1 α, és H = Λ α esetén a k = 0. Így megkaphatunk egy becslést az F eloszlás fels szélér l, ami konzisztens mindhárom maximum vonzási tartománnyal. Általánosított Pareto eloszlás G(x) 0.0 0.2 0.4 0.6 0.8 1.0 k= 1 k=0 k=1 0 1 2 3 4 5 x 3.1. ábra. Általánosított Pareto eloszlás különböz alakparaméterekkel 23
3.2. Becslés GPD-vel Legyen X 1,..., X n független, azonos eloszlású valószín ségi változók közös F eloszlásfüggvénnyel. Rögzítsünk egy magas u küszöböt. Legyen Y 1,..., Y N az extrém értékek, vagyis azok a változók, amelyek túlléptek u-n, és N jelzi a küszöbmeghaladások számát. Ekkor Y i = X j u, ahol az i. túllépés indexe j. Ekkor a küszöbmeghaladások független, azonos eloszlású valószín ségi változók közös F u eloszlásfüggvénnyel. Az F u -t szeretnénk becsülni a GPD-vel. Egy u küszöb esetén maximum likelihood paraméterbecslést végzünk G(y; σ, k)-ra, és ezekkel a ˆσ és ˆk becsült paraméterekkel közelítjük F u -t. Legyen g(y; σ, k) = G(y; σ, k) y a GPD s r ségfüggvénye. Tekintsünk Y 1,..., Y N független, azonos eloszlású valószín ségi változókat a pontos GPD s r séggel. Jelölje L N (σ, k) = N log g(y i, σ, k) i=1 [ σ LN a log-likelihood függvényt. Legyen (σ, k)-ra U N (σ, k) =, L ] N negatív gradiens vektor és legyen I N (σ, k) 2 2 információs mátrix olyan, hogy diagonális elemei: σ k σ 2 L N, 2 L N, és az o-diagonális elemei: σ L N σ 2 k 2 σ k. Ekkor k < 1 esetén EU 2 N = 0, és ahol M = 1 (1 2k)(1 k) EU N U T N N = EI N N = M, [ ] [ ] 1 k 1 2 1, M 1 = (1 k). 1 2 1 1 k Ekkor a (ˆσ N, ˆk N ) lokális maximumokra teljesül, hogy [ ] ˆσNσ [[ ] ] 1 0 N ˆk Nk N, M 1, 1 0 k < 1 2. (3.4) Az N a kétváltozós normális eloszlást jelöli. Az Y 1,..., Y N legyen most az F u -ból meghatározva. Ha (3.3) tétel teljesül, akkor meglehet határozni egy olyan φ maradékfüggvényt, amelyre lim u x F sup F u (y) G(y; σ, k) = O(φ(u)), (3.5) 0<y<x F u ahol φ(u) 0 u x F esetén. Precízebb eredményekért tegyük fel, hogy N, u = u N x F és σ = σ N = σ(u N ). Ekkor [ ˆσN ] N σn 1 N [ M ˆk 1 b, M 1 ], N k 24
ahol 1 N EU N (σ N, k) b, ahol b véges vektor, NI 1 N (σ, k ) p M 1, egyenletesen(σ, k )-n. Nézzük meg a Fréchet-határeloszlásra vonatkozó eredményeket részletesebben. Legyen F eloszlásfüggvény a Φ α vonzási tartományában. Ekkor az (1.6)-ból L(t) = t α F (t). 3.1. Állítás. Legyen L lassú változású függvény φ maradékfüggvénnyel. Tegyük fel, hogy L teljesíti a (2.3) vagy a (2.19) feltételt, g helyett most φ-re. Legyen w egy valós érték függvény (1, )-n. Tegyük fel valamely p 0-val, hogy vagy (2.19) teljesül φ reguláris változású függvénnyel, melynek indexe p, vagy (2.3) teljesül nem növekv φ-vel, és φ(tx) φ(t) Cxp, t t 0 0, x > 1, C <. Ha p = 0 és w(x) x ε dx véges valamely ε > 0 esetén, vagy p < 0 és w integrálható, 1 akkor w(x) L(tx) L(t) dx = w(x)dx + O(φ(t)). Ha 2.19 teljesül, akkor 1 1 w(x) L(tx) L(t) dx = 1 1 w(x)dx + φ(t) 1 w(x)v(x)dx + o(φ(t)), ahol v a 2.19-ben meghatározott függvény. Most már megfogalmazhatjuk f eredményünket a Φ α (x) esetén. 3.2. Tétel. Legyen L (2.19) szerint meghatározott lassú változású függvény φ maradékfüggvénnyel. Legyen Y 1,..., Y N független, azonos eloszlású valószín ségi változók közös F un eloszlásfüggvénnyel, ahol N, u N olyan, hogy Ncφ(uN ) µ, < µ <. α p Legyen k = 1, σ α N = u N α. Ekkor a GPD paramétereire felírt likelihood függvénynek létezik egy (ˆσ N, ˆk N ) lokális maximuma, amelyre 1 valószín séggel [ ˆσN ] µ(1 k)(1 + 2kp) N σn 1 N 1 k + kp ˆk N k µ(1 k)k(1 + p), M 1. 1 k + kp Ha L (2.3) szerint meghatározott lassú változású függvény φ nem növ maradékfüggvénnyel, és Nφ(u N ) 0, akkor az eredmény ugyanaz marad, de µ = 0 lesz, azaz teljesül az aszimptotikus torzítatlanság. 25
4. fejezet Szimulációk Érdekes lehet szimulációkon keresztül megvizsgálni a mintamaximumok konvergenciáját a határeloszlásokhoz. A szimulációkat az R statisztikai programcsomaggal készítettem, 3 különböz eloszlásra: normális, exponenciális illetve egyenletes eloszlásokra. A szimulációk készítésének menete a következ képpen zajlott: el ször generáltam egy adott eloszlású, n elem véletlen mintát, melyb l az elemek sorbarendezése után kiválasztottam a legnagyobb elemet, a maximumot. Ezt a lépést kell en sokszor megismételtem, és a kiválasztott legnagyobb elemek adták az n elem minta maximumainak eloszlását, M n -t. Ezt az M n -t a megfelel a n és b n sorozatokkal normalizáltam, és különböz módszerekkel szemléltettem a konvergencia sebességét. El ször ábrázoltam a megfelel en normalizált, adott eloszlású minta maximumainak tapasztalati eloszlásfüggvényeit az adott n mintanagyságokra a határeloszlásukkal. Ez rendkívül szemléletes, hiszen látható, hogy a görbék a különböz n-ek esetén milyen szépen simulnak a határeloszlás görbéjére. Második lépésként megvizsgáltam a határeloszlás és a normalizált maximumok QQplotját, valamint Michael-féle szórás stabilizált PP-plotját [4]. A QQ- és PP-plotot a modellek diagnosztizálására szokták alkalmazni, képet ad arról, hogy az általunk használt modell mennyire jó úgy, hogy összehasonlítja a tapasztalati- és illesztett eloszlásfüggvényt. A pontok minél inkább illeszkednek az x = y egyenesre, annál jobb a modellünk. Amellett, hogy a QQ- és PP-plottal a modell milyenségét vizsgáljuk, a konvergencia gyorsaságáról is képet ad úgy, hogy a mintanagyságokra hogyan javul az illeszkedés. Végül Kolmogorov-Szmirnov próbával vizsgáltam a tapasztalati- és határeloszlás görbék eltérésének supremumát, amely által számszer eredményt kaptam a konvergencia sebességére. A Kolmogorov-Szmirnov próbát illeszkedés ellen rzésére alkalmazzák, egymintás esetben megadja, hogy egy n elem minta eloszlása csakugyan az az eloszlás-e, amit feltettünk, két mintás esetben pedig, hogy a két minta azonos eloszlásból való-e. Lényege (az egymintás esetre), hogy a döntést a tapasztalati és az elméleti eloszlásfüggvény abszolút eltérésének supremuma alapján hozzuk meg. Glivenko tétele szerint a tapasztalati eloszlásfüggvény egyenletesen tart a valódi eloszlásfüggvényhez, azaz: d n = sup ˆF n (x) F (x) 0. x Így a nullhipotézisünk az, hogy a minta a feltételezett elméleti eloszlásból származik, az 26
ellenhipotézisünk pedig az, hogy nem. A minta minden elemére kiszámoljuk a különbséget, és ha a d max, azaz a legnagyobb különbség nagyobb, mint egy el re meghatározott α-ra d α, akkor a nullhipotézisünk nem teljesül. A supremumot a sorbarendezett mintaértékeken számoljuk. Számunkra a d n -ek változása lesz érdekes a különböz n-ekre, mely megmutatja, milyen gyorsan csökken a két eloszlásgörbe eltérése. A szimulációk során az exponenciális- és egyenletes minta maximumának esetében k-t 10 4 -nek, normális eloszlású minta esetén 5 10 3 -nak választottam technikai okokból. Mégis, ezen ismétlésszámok mellett is a minták maximumainak eloszlása elegend en hasonlítottak a különböz extrémérték eloszlásokhoz. Végül a szimulációk bemutatása el tt megjegyzem, hogy ugyan a részletesen bemutatott elmélet nem alkalmazható a Gumbel esetre, de gyakorlati fontosságuk miatt fontos ket megvizsgálni. Ismert, hogy az exponenciális- és normális eloszlású minta maximumeloszlása is a Gumbel határeloszláshoz tart. 4.1. n elem, exponenciális eloszlású minta maximumának eloszlása Az 1.13 példában bevezettük, hogy az exponenciális eloszlású minta maximumának eloszlása a Gumbel eloszláshoz tart. A normáló konstansok maradjanak az 1.13-ban látottakhoz hasonlóak. Az 1.2 ábrán szemmel látható, hogy már n = 10 esetén is csak kis eltérés van az empirikus- és a Gumbel eloszlásgörbék között. A görbéket n szerint növekv sorrendben illesztettem az ábrára, így az, hogy csak a piros görbe látható azt jelenti, hogy teljesen lefedi az n = 100-as esetet és a Gumbel eloszlás görbéjét. Tehát az exponenciális eloszlású minta maximumának eloszlása gyorsan konvergál a határeloszláshoz. Tekintsük a PP-plot ábrát az n elem minta maximumával és Gumbel eloszlással. A konvergencia gyorsaságát támasztja alá a 4.1 ábra is. A képen látható, hogy gyakorlatilag már n = 100-tól illeszkednek a pontpárok az egyenesre. PP plot n=10 re PP plot n=100 ra Feltett eloszlás 0.0 0.2 0.4 0.6 0.8 1.0 Feltett eloszlás 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Empirikus eloszlás Empirikus eloszlás 4.1. ábra. A standard Gumbel eloszlás összehasonlítva a normalizált exponenciális maximumeloszlással 27
A QQ-plot ábrán is jól illeszkednek a pontok az x = y egyenesre. A nagyobb eltérést adó pontok a véletlennek az eredményei: nagyobb ismétlésszám esetében szinte tökéletes az illeszkedés. QQ plot n=10 re QQ plot n=100 ra Empirikus eloszlás 2 0 2 4 6 8 Empirikus eloszlás 2 0 2 4 6 8 10 2 0 2 4 6 8 2 0 2 4 6 8 Feltett eloszlás Feltett eloszlás 4.2. ábra. A standard Gumbel eloszlás összehasonlítva a normalizált exponenciális maximumeloszlással A Kolmogorov-Szmirnov próba eredményei a 4.1 táblázatban vannak összefoglalva. A két eloszlás különbségének maximuma sebesen csökken, a p-érték eredményei pedig gyorsan n nek. Ugrásszer növekedést látunk n = 1000 és n = 5000 p-értékei között. mintanagyság (n) d max p-érték n = 2 0.1636 < 10 16 n = 10 0.0336 < 10 10 n = 100 0.014 0.04064 n = 1 000 0.0083 0.4994 n = 5 000 0.0061 0.8456 4.1. táblázat. Kolmogorov-Szmirnov próba exponenciális eloszlású minta maximumára a Gumbel eloszlással A következtetésünk tehát, hogy egy exponenciális eloszlású minta maximumának eloszlása hamar felveszi a Gumbel-eloszlás görbe alakját. 4.2. n elem, egyenletes eloszlású minta maximumának eloszlása Az egyenletes eloszlású mintamaximumok eloszlása a Weibull maximum vonzási tartományába tartozik. Mi most tekintsük az U(0, 1) standard egyenletes eloszlású minta maximumát. Az M n normalizálásához válasszuk az a n = 1 n és b n = 1 konstansokat. 28
Tapasztalati és határeloszlások F(x) 0.0 0.2 0.4 0.6 0.8 1.0 n=10 n=100 n=1000 n=5000 Határeloszlás 6 4 2 0 2 x 4.3. ábra. Az a n, b n konstansokkal normált standard egyenletes eloszlású minta maximumának közelítése a Weibull eloszláshoz Az exponenciális mintamaximumhoz hasonló helyzet áll fent, ugyanis olyan gyorsan konvergál az egyenletes mintamaximum eloszlása a Weibull eloszláshoz, hogy már 100 mintaelem esetén is illeszkedik az empirikus görbe az elméleti görbére. Ezt mutatja, hogy csak világoskék, n = 5000 mintához tartozó görbe látszik, amely letakarja az n = 100 és n = 1000 eseteket is. A PP-plotok az egyenletes mintamaximumoknál is gyors illeszkedést mutatnak. PP plot n=10 re PP plot n=100 ra Feltett eloszlás 0.0 0.2 0.4 0.6 0.8 1.0 Feltett eloszlás 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Empirikus eloszlás Empirikus eloszlás 4.4. ábra. A Weibull eloszlás összehasonlítva a normalizált egyenletes maximumeloszlással A 4.5 ábrán n = 10 esetén ugyan a kvantilis pontpárok nem illeszkednek az egyenesre, n = 100-tól már az eloszlásgörbék alapján várt értékeket látunk. 29
QQ plot n=10 re QQ plot n=100 ra Empirikus eloszlás 6 5 4 3 2 1 0 Empirikus eloszlás 8 6 4 2 0 8 6 4 2 0 8 6 4 2 0 Feltett eloszlás Feltett eloszlás QQ plot n=1000 re QQ plot n=5000 re Empirikus eloszlás 8 6 4 2 0 Empirikus eloszlás 8 6 4 2 0 8 6 4 2 0 8 6 4 2 0 Feltett eloszlás Feltett eloszlás 4.5. ábra. A Weibull eloszlás összehasonlítva a normalizált egyenletes maximumeloszlással A Kolmogorov-Szmirnov próba is a várt eredményeinket igazolja. A görbék eltérése már n = 10 esetén is alacsony volt, n növekedtével közel 0 a különbség. mintanagyság (n) d max p-érték n = 10 0.0264 10 6 n = 100 0.0106 0.2108 n = 1 000 0.0092 0.3624 n = 5 000 0.0059 0.8722 4.2. táblázat. Kolmogorov-Szmirnov próba n elem egyenletes eloszlású minta maximumára Weibull eloszlással 4.3. n elem, standard normális eloszlású minta maximumának eloszlása A különböz határeloszlások maximum vonzási tartományainál már láttuk, hogy az exponenciális lecsengés eloszlások, tehát a normális eloszlású minták maximuma is a Gumbel eloszláshoz konvergál. 30
Keressük a megfelel a n és b n normalizáló sorozatokat a kvantilisek segítségével. Legyen 0 < q < 1. Ekkor F n q-kvantilise az az x q, amelyre teljesül, hogy F n (x q ) = q. Azonos valószín ségi változók maximumának eloszlásfüggvénye F n (x) = F n (x), ezért x q,n = F 1 (q 1 n ). Választhatjuk b n -nek a mediánt, vagyis b n = x 1 2 ;n és a n -t pedig a két kvartilis különbségének, azaz a n = x 3 4 ;n x 1 4 ;n. Mivel a becslésünk mediánja 0, szórása 1, így a határeloszlásunknak is hasonlóan kell viselkednie. Legyen β a skálaparaméter és α a helyparaméter. A medián α + β log log 2, ami tehát egyenl 0-val, és a szórás β(log log 4 log log 4 ), ami egyenl 1-gyel. A két 3 egyenletb l megkapjuk a paramétereket: β = 1 log log 4 log log( 4), α = log log 2 log log 4 log log 4. 3 3 A Gumbel eloszlást ezekkel standardizáljuk. Tapasztalati és határeloszlások F(x) 0.0 0.2 0.4 0.6 0.8 1.0 n=1000 n=100000 n=1000000 n=10000000 Határeloszlás 2 1 0 1 2 3 x 4.6. ábra. Kvantilisekkel normált standard normális eloszlású minta maximumának közelítése az α, β paraméter Gumbel eloszláshoz. A legnagyobb mintanagysághoz tartozó görbe majdnem lefedi a határeloszlást. A normalizáló konstansoknak természetesen nem muszáj pontosan ezeket az értékekek felvenniük, az is elegend, ha csupán közelítik ezeket. Nézzünk egy konkrét példát, ahol a normalizáló konstansok [9] alapján a következ k: ( ) 4 log log 2 2 a log n = 2 4/3 2 2 log n, b n = 2 log n log (log n) + log (4π log2 2) 2. 2 log n 31
Tapasztalati és határeloszlások F(x) 0.0 0.2 0.4 0.6 0.8 1.0 n=1000 n=100000 n=1000000 n=10000000 Határeloszlás 2 1 0 1 2 3 x 4.7. ábra. Az a n, b n konstansokkal normált standard normális eloszlású minta maximumának közelítése az α, β paraméter Gumbel eloszláshoz Most nézzük meg, mennyire illeszkednek a pontpárok az x = y egyenesre. QQ plot n=1000 re QQ plot n=100 000 re Empirikus eloszlás 2 1 0 1 2 3 4 5 Empirikus eloszlás 2 1 0 1 2 3 4 1 0 1 2 3 4 5 1 0 1 2 3 4 5 Feltett eloszlás Feltett eloszlás 4.8. ábra. A Gumbel eloszlás összehasonlítva a standard normális eloszlású minta normalizált maximumeloszlásával 32
QQ plot n=1 000 000 ra QQ plot n=10 000 000 ra Empirikus eloszlás 2 1 0 1 2 3 4 Empirikus eloszlás 1 0 1 2 3 4 5 1 0 1 2 3 4 5 1 0 1 2 3 4 5 Feltett eloszlás Feltett eloszlás 4.9. ábra. A Gumbel eloszlás összehasonlítva a standard normális eloszlású minta normalizált maximumeloszlásával A 4.8 és 4.9 ábrákon látható, hogy van konvergencia, ám a lassú közelítést igazolja az is, hogy 10 6 -os mintanagyságra sincs tökéletes illeszkedés. Nézzük meg, milyen tendenciát mutat az eloszlásgörbék távolságának supremuma. mintanagyság (n) d max p-érték n = 1 000 0.0447 < 10 9 n = 100 000 0.0404 < 10 7 n = 1 000 000 0.0316 < 10 5 n = 10 000 000 0.0308 0.0001484 4.3. táblázat. Kolmogorov-Szmirnov próba normális eloszlású minta maximumára Gumbel eloszlással A 4.3 táblázat d max elemei noha lassan, de csökkenek, vagyis valóban közelíti az a n, b n konstansok által normalizált maximumok eloszlása a Gumbel eloszlást. 33
Összegzés Szakdolgozatomban a független, azonos eloszlású valószín ségi változók maximumának konvergenciáját vizsgáltam a Fisher-Tipett-Gnedenko tételben megfogalmazott határeloszlásokhoz. Az elméleti eredményeket összefoglaló részben a Fréchet-eloszlásra tértem ki részletesen. Láthattuk, hogy milyen fontos a normalizáló konstansok megválasztása a konvergencia sebességének szempontjából, és azt is, hogyan javíthatunk rajtuk. A Weibull eloszlással lév szoros kapcsolata miatt ezek a Fréchet határeloszlásra vonatkozó eredmények - egy kis transzformációval - alkalmazhatóak voltak a Ψ α esetre is, melyet rövidebben ismertettem. A Gumbel határeloszlás esete jóval bonyolultabb az el z kett nél, és meghaladja eme dolgozat kereteit, így arra nem tértem ki, jóllehet ennek vizsgálata érdekes lehet. A dolgozatban bemutattam a g-sv függvények jelent ségét, a konvergencia rendjér l kaphatunk információt általuk. Mind a tételekben és bizonyításokban alkalmaztuk ket. Az extrém-érték elmélet egy másik megközelítése a küszöb feletti értékek vizsgálata. Megnéztem, miképpen alkalmazhatók a g-sv függvények a küszöbmeghaladáson alapuló modellek esetén. Láthattuk, hogy az Általánosított Pareto eloszlás (GPD) jó közelítése az u szint feletti maximumok eloszlásának. Ezen GPD paramétereinek becslésére kaptunk eredményeket. Végül szimulációk segítségével vizsgáltam és szemléltettem a mintamaximumok konvergenciáját a határeloszlásokhoz. Láthattunk két gyors, és egy rendkívül lassú konvergencia-sebességet. Ugyan a Gumbel eloszlás elméleti összefoglalónkban nem jelent meg, mégis érdekes volt a mintamaximumok ezen eloszláshoz tartó közelítését szemlélni. Az egyenletes eloszlású mintamaximumok Ψ α -hoz és exponenciális eloszlású mintamaximumok Λ α -hoz tartó konvergenciája gyors, n = 100 esetén is felvették a határeloszlásuk görbéjének alakját. A normális eloszlású mintamaximumoknál láthattuk, ha kvantilisekkel normáltuk az M n -t, lényegesen gyorsabban közelített a Gumbel eloszláshoz, mint amikor konstansokkal normalizáltunk. Utóbbi esetben még n = 10 7 mintanagyságra sem simult a határeloszlásgörbére. A szimulációk során az R program evd csomagját használtam, a GPD ábra készítéséhez pedig az fextremes csomagot alkalmaztam. 34