Extrém-érték modellezés Zemplén András Alkalmazott modul 03. február. Extrém-érték elemzés Klasszkus módszerek: év maxmumon alapulnak Küszöb felett értékek elemzése: adott szntet meghaladó mnden árvízbıl használ adatot. Többdmenzós módszerek: a közel mérıállomások összefüggıségét s vzsgálja (extrémumok együttes vselkedése) Extrém-érték eloszlások Legyenek X, X,,X n független, azonos eloszlású valószínőség változók. Ha vannak a n, b n normáló konstansok, hogy [max(x, X,, X n )-a n ]/ b n nemelfajuló határeloszláshoz közelít, akkor ez a határeloszlás szükségképpen max-stabls vagy úgynevezett extrém-érték eloszlás. Extrém-érték eloszlások karakterzácója Normalzált maxmumok lehetséges határeloszlása: α Frechet: Fα ( x) = exp( x ) (x>0) α poztív parameter. α Webull: F ( x) = exp( ( x) ) (x<0) α Gumbel: F( x) = exp( exp( x)) Megjegyzések Bzonyítás technka, az eloszlásfüggvény és a maxmum mővelet kapcsolatán alapul. Az adódó függvényegyenletnek ez a 3 megoldása van. Az eredmények hasonlóak a stabls eloszlások karaktersztkus függvényehez. Érdekes kérdés: adott F eloszlásfüggvény esetén melyk határeloszláshoz konvergál az F eloszlású mnta normalzált maxmuma? Nem mnden esetben lehet normáln: dszkrét eloszlásokra oszcllálhat a maxmum eloszlása. A normálhatóság feltétele Folytonos eloszlásokra az eloszlásfüggvény regulárs vselkedése szükséges a felsı végpont közelében (teljesül mnden fontos eloszlásra): F az α paraméterő Fréchet eloszlás max-vonzás tartományához tartozk (F MDA(F α )), akkor és csak akkor, ha -F~x -α L(x) (L lassú változású függvény: L(tx)/L(x) ha x ) F MDA(W α )), akkor és csak akkor, ha x F < és - F(x F /x) ~x -α L(x) A Gumbel MDA jellemzése bonyolultabb, lényegében az exponencáls lecsengéső eloszlások tartoznak de (példa: exponencáls, normáls).
ha Általánosított extrém-érték (GEV) eloszlás G z µ ( z) = exp + σ µ, σ, µ + z > 0. σ / Néhány példa GEV eloszlás sőrőségfüggvényére (Lokácós és skála paramétert s tartalmazó modell.) Függetlenség vzsgálata Év maxmumok, Vásárosnamény Tegyük fel, hogy megtsztítottuk adatankat. A kndulópont az év maxmumok függetlensége. Seres xdat Autokorrelácó függvény: R(X t,x t+k ) a Záhony vízsznt év maxmum sorozatára ACF -0. 0 5 0 5 Lag Tovább jellemzık Vsszatérés szntek (adott dı, pl. 5, 50 év alatt várhatóan egyszer kapunk lyen vagy magasabb értéket) becslése Konfdenca ntervallumok (olyan ntervallumok, melyek nagy valószínőséggel tartalmazzák az smeretlen paramétereket) konstruálása, lehetséges módszerek: a maxmum lkelhood becslés aszmptotkájából profl lkelhood alapján smételt mntavételezés eljárások (resamplng: bootstrap, jackknfe) Bayes- megközelítés Vsszatérés szntek σ GEV p-kvantlse: z p = µ ( yp ), ha 0 µ σ log y p, ha = 0, ahol y p = log( p), G ( z p) =. ẑ p µ, σ, p az az árvíznagyság, amelyet átlagosan /p évente egyszer halad meg az éves maxmáls árvíz. Annak valószínősége, hogy /p évnél elıbb megjelenk, nagyobb ½-nél! Ha ˆ<0, akkor az eloszlás becsült felsı végpontja z =µ σ ˆ ˆ / ˆ. ˆ0
Vsszatérés sznt-görbe z p ábrázoljuk log(-p) vel szemben, logartmkus skálán. Lneárs, ha = 0, σ konvex, határértéke µ ha < 0 konkáv, ha>0 Folyt.: = 0. pont.: = -0. return level 0 5 0 5 Küszöb fölött csúcsok módszere (POT) Azok az események extrémek, amelyek meghaladnak egy rögzített, magas küszöböt Elınye: Több adatot lehet használn A becsléseket nem befolyásolják kcs árvzek Hátránya: Függ a küszöb megválasztásától A declusterezés (annak eldöntése, hogy mely maxmumok származnak egy eseménybıl) nem mndg egyértelmő. 5 0 5 0 0 0 5 0 0 0 0 0 r e tu r n p e r o d (y e a r s ) Elmélet alapok Legyenek X, X,,X n független, azonos eloszlású val. változók. Ha ennek a sorozatnak a normalzált maxmuma konvergál egy extrém-érték eloszláshoz (µ,σ, paraméterekkel), akkor y / ~ σ ) P( X u< y X > u) (+ ha y>0 és + y / ~ σ > 0 ahol ~ σ = σ + ( µ u ) (Általánosított Pareto eloszlás, GPD.) Az aszmptotka n és u végtelenhez tartása mellett érvényes. ACF Autokorrelácó függvény, Záhony vízsznt baloldal: mnden 400 fölött értékre jobb oldal: deklaszterezés után (a csúcsok) Seres dat[, ] ACF Seres xdat Vsszatérés szntek Az általánosított Pareto eloszlás p-kvantlse: σ x, ha 0; p = u+ ζ u p xp = u+ σ log ζ u, ha = 0, ahol p n ζ u = P( X > u). u ζˆu = n Ha n y az évente észlelt sznt felett maxmumok átlagos száma T évente vsszatérı az /T*n y kvantls. 0 5 0 5 0 5 30 Lag 0 5 0 5 0 Lag Ha ˆ<0, akkor az eloszlás felsı végpontja x ˆ / ˆ ˆ = u σ.
Küszöb választás Átlagos meghaladás ábrája: Tetszıleges u küszöbre ábrázoljuk az X-u átlagát (azokra a megfgyelésekre, amelyekre X>u) u függvényében. Ha a Pareto modell gaz, ez a görbe közel lneárs. A megmagyarázása nehéz lehet a megfgyelések maxmumához közel megfgyelhetı nagy ngadozása matt. Alternatíva: tekntsük a paraméterbecslések értéket különbözı küszöbök esetén. Staconartás Kérdés, hogy az adatok valóban teknthetık-e staconárusnak (alternatíva: lehet trend/perodkus komponens). Lehet klasszkus tesztekkel vzsgáln (pl. ch-négyzet). Az egyk módszert be s mutatjuk. Nemparaméteres megközelítés Mann-Kendall trendteszt S = n n = j= + Független, azonos eloszlású, egyezések nélkül esetre: n( n )(n 5) ES=0, D ( S) = + 8 sgn( x x j ) Ha n nagy, S közelítıleg normáls eloszlású. Alkalmazható már n>0-re s. Néhány érték (a standardzált S- statsztka értéke) Év maxmumok Szeged Záhony V.Namény vízállás 0.35 0.03 0.089 vízhozam -0.99 A nap maxmáls vízállásra (Záhony): S=-.4. Mért? Az alacsony vízállásértékek lefelé mutató trendje az ok. Ugyanez az érték a vízhozamra: S=-.47 Staconárus sorozatok Ha nem teljesül a függetlenség (mnt pl. az eredet naponként méréseknél), a normalzált maxmumok határeloszlása továbbra s GEV eloszlás, ha a függıség a távol megfgyelések között 0-hoz tart. Az év maxmumokra a GEV modell tehát elméletleg s megalapozott. POT modellekre, a klaszter-maxmumok használhatóak. (A klasztereket defnáln kell).
A nemstaconartás esete Lneárs regresszós modellek beépíthetıek a maxmum lkelhood megközelítésbe. Profl lkelhood, lkelhood-hányados próbák számíthatóak az egymásba ágyazott modellekre. Esetleg szétbontva a megfgyeléseket évszakokra, külön-külön teljesülhet a staconartás. Másk alkalmazás: gépjármő felelısség bztosítás Adattsztítás (negatív károk, nem megfelelı dıpontok, stb. kszőrése.) Inflácós hatás elemzése (lényeges, mert a mntát azonos eloszlásúnak képzeljük). Negyedéves eltolással 5 db éves részre bontottuk az adatokat. KSH fogyasztó árndex adatok nem megfelelıek (gyorsabb a kárkfzetés növekedése). Az nflácós hatás becslése Az ágazat kárnövekedés ráta A kárkfzetés adatok medánjara (a kugró értékek matt az átlag nem megfelelı!) llesztett nemparaméteres smítás eredményeként adódott az ágazat kárnövekedés ráta a vzsgált tartományon. Ez tartalmazza az nflácót, a gépjármő-állomány megváltozásának hatását mnden más, trend jellegő kárnagyság-módosító hatást. Az adatok jelenértékre transzformálásához ezt k kellett egészíten az dıszak elején és végén..0...3.4.5.6 A KSH adata és a számolt kárnagyság-növekedés x x x x xx x xxxxxxxxxxxx x xxx x xxx 0 0 0 30 40 50 60 hónapok o x smított hav árndex számított kárnagyság xxxxxxx xxx x xxx x x A KSH adata és a becsült kárnagyság-növekedés. A kezdı hónap 999. júlus, az utolsó hónap a KSH adatanál 004 október, a kárnagyság-adatsornál 004. január. Extrapolácó: hónappal eltolt (éves mozgóátlaggal smított) KSH árndex segítségével kapott lneárs regresszóval. gyakorság A jelenértékre transzformált adatok 0 000 000 3000 4000 gyakorság 0 000 000 3000 4000 Károk össz-száma: kb. 38000. Néhány alapstatsztka: Medán: 7.9*0-4 Átlag: 0.00 Felsı kvartls: 0.008 99%-os kvantls:0.087 99.9%-os kvantls: 0. A bztosítás kockázat és az extrém-érték elemzés A legnagyobb kockázatot a nagy károk jelentk. A m esetünkben: Kvantls 50% 75% 90% 95% 99% 99.9% Részarány 7.7% % 4.% 53.% 7.8% 87% Azaz a kárkfzetés közel feléért a legnagyobb 5% a felelıs. Nncsenek természetesen adódó blokkok (év maxmumok). 0.00 0.04 0.08 relatív károk 0.000 0.004 0.008 relatív károk
alak-paraméter krt.érték vs. teszt-stat. krt.érték vs. teszt-stat. 0.55 0.70 0 4-0.6 0.0 Alkalmazás a küszöbválasztáshoz Kárnagyságok 0.00 0.004 0.006 0.008 0.00 0.0 0.04 Az alak-paraméter változása a küszöbsznt függvényében 0.00 0.004 0.006 0.008 0.00 0.0 0.04 Az A-D statsztka értéke a küszöbsznt függvényében 0.5 0.6 0.7 0.8 0.9.0 Küszöb kvantls Olyan küszöböt választunk, melyre a próba elfogadja a GPD modell lleszkedését. Az ábrából leolvasható, hogy 0.003 felett szntek jönnek számításba. A szokásos gond: torzítás (alacsony szntnél) vs. nagy szórás (magas szntnél) Választásank: 0.0035, 0.005 Modell dagnosztka Valószínőség ábra (P-P plot), a pontja: ˆ ( n) {( F( x ), )} n+ Kvantls ábra (Q-Q plot), a pontja: {( ( ) x n, Fˆ ( ))} n+ Mndkét esetben a pontok közel kell, hogy legyenek a fıdagonálshoz, ha jó az lleszkedés. Pareto eloszlás llesztése az adott szntet meghaladó kárkfzetés adatokra GPD eloszlás skála: 0.00 alak: 0.67 paraméterekkel QQ-plot A küszöbsznt: 0.0035 GPD eloszlás skála: 0.003 alak: 0.737 paraméterekkel QQ-plot A küszöbsznt: 0.005 0.0 0.5.0.5 Nem jó az lleszkedés A kapott eloszlások ugyan véges várható értékőek, de a szórás végtelen. Alternatíva: lognormáls eloszlás ( ( ln( x) µ ) σ A sőrőségfüggvénye: f x) = e πσx A paraméterek maxmum lkelhood N N becslése: ln( x ) ^ ( ln( x ) µ ) ^ µ = = N, σ = Az lleszkedés nem jó a teljes adatsorra (túl gyors a lecsengése a ténylegesen fellépı nagy károkhoz képest). = N 0 00 400 600 800 000 Lognormáls eloszlás llesztése a relatív kárnagyságra 0.000 0.00 0.00 0.003 0.004 0.005 Módosítás Csak az u-nál ksebb károkra llesztjük a lognormáls eloszlást, a nagyobbakra GPD-t. Maxmum lkelhood becslés: numerkus módszerekkel lehet maxmalzáln a loglkelhood függvényt: n* (ln( x ) µ ) n*ln( σ ) + ( n n*)( F( u)) = σ ahol n* jelöl az u-nál ksebb károk számát, F pedg a (µ,σ) paraméterő lognormáls eloszlás eloszlásfüggvényét.
Lognormáls eloszlás llesztése a relatív kárnagyságra 0 00 400 600 800 000 0.000 0.00 0.00 0.003 0.004 0.005 Továbblépés A GPD lleszkedés nem volt megfelelı annak ellenére, hogy a statsztka feltehetıen elsısorban a közepesen nagy mntaelemek nagy számának és vszonylag jó lleszkedésének köszönhetıen elfogadta a GPD-modellt. Továbbfejlesztett modell: késlekedés dıtıl való függés fgyelembe vétele. levágás: x<0.005 A késlekedés dı A néhány, rendelkezésre álló adat egyke. Alapstatsztká: Átlag: 7 nap, Medán: 4 nap, Felsı kvartls: 7 nap Maxmum: 55 nap. Beépíthetı a modellbe, feltételezésenk: Skálaparaméter változása: σ ( t) = α t+ β (t a késlekedés dı) Alakparaméter nem változk. Maxmum lkelhood módszer most s alkalmazható. Illeszkedésvzsgálat a háttérváltozót s tartalmazó modellben A kvantls (QQ) plot-ot módosítan kell: ~ = + ˆ Yt u Y t log ˆ ˆ α t + ˆ β standard exponencáls eloszlású, ha teljesül a modell (Coles, []). A késlekedés dıtıl függı modell ( ) β Skálaparaméter változása: σ t = α t+ (t a késlekedés dı) Alakparaméter nem változk Maxmum lkelhood módszer most s alkalmazható PP-plot, a küszöbsznt 0.005 A késlekedés dõtõl függõ Lkelhood statsztka értéke: 69.5688 Szgnfkanca szntje: 0 0 4 6 QQ-plot, a küszöbsznt 0.005 A késlekedés dõtõl függõ GPD eloszlás skála():.9e-05 skála () 0.0077 alak: 0.7057 paraméterekkel Modell szgnfkancavzsgálata Az elızıek értelmében D= { l ( M ) l ( )} 0 M 0 szabadságfokú χ eloszlású, ha nncs szgnfkáns lneárs trend a skálaparaméterre. Ennek az értéke most D=0.3, lletve D=69., am gyakorlatlag tetszılegesen kcs p mellett szgnfkáns hatást mutat. 0 4 6 8
A késlekedés dı és a kárnagyság késlekedés dõ 0 500 000 500 Nem értékelhetı az ábra r=0.05 relatív kár 0.0000 0.000 0.000 0.0030 Az ábrák mutatják, hogy csak a magas kvantlsek érzékenyek a késlekedés dıre ezért kaptuk az erıs összefüggést a Pareto eloszlás llesztésénél A kárkfzetés feltételes kvantlse Feltétel: a késlekedés ksebb a p-kvantlsénél 5% 50% 75% 90% relatív kár 0.0 0.04 0.06 0.08 A kárkfzetés feltételes kvantlse Feltétel: a késlekedés ksebb a p-kvantlsénél 95% 97.5% 99% 99.9% 0.80 0.85 0.90 0.95.00 0.80 0.85 0.90 0.95.00 relatív kárnagyság valószínûség (p) valószínûség (p) Tovább lehetıségek A kárkfzetés deje már egyáltalán nem jelentkezk tényezıként (azaz elfogadható az nflácó kszőrésére alkalmazott modell) PP-plot, a küszöbsznt 0.005 Bekövetkezés dejétõl függõ Lkelhood statsztka értéke: e-06 Szgnfkanca szntje: 0.999 0 4 6 QQ-plot, a küszöbsznt 0.005 Bekövetkezés dejétõl függõ GPD eloszlás skála(): 0 skála () 0.0037 alak: 0.737358 paraméterekkel 0 50 00 50 00 A becslések bzonytalansága Szmulácós vzsgálatok: bootstrap (az eredet mntából vsszatevéses mntákat véve) a 0.005 küszöb-értékre K é s l.d õ tõ l v a ló fü g g é s 0 0 40 60 80 00 0 40 A la k p a r a m é te r Tapasztalat 95%-os konfdenca-ntervallumok: (.8;.98)*0-5 (0.64;0.796) Tehát az dıfüggı paraméter becslése bzonytalanabb, de a nagyságrendje ennek s pontos. Bzonyosnak teknthetı tehát, hogy a kárösszeg nem véges szórású. 0 4 6 8 5.0 e -0 6.0 e -0 5 3.5 e -0 5 0.6 0 0.7 0 0.8 0 B e c s ült p a ra m é te r B e c s ü lt p a ra m é te r Konfdenca ntervallumok más esetekre Ha nem lenne szerepe a késlekedés dınek, ksebb lenne a szórása a paraméterbecsléseknek, például: (0.74; 0.750) lenne a 95%-os konfdenca ntervallum az alakparaméterre. A modellt feltételezve, GPD-eloszlásból s generáltunk mntákat. Az alakparaméter ngadozása tt s hasonló volt az általunk kapott értékekhez: (0.637; 0.76) a 95%- os konfdenca ntervallum, tehát a modell alkalmazása ebbıl a szempontból s reáls. Tovább kérdések A bztosító számára például az év összkárkfzetés lényegesebb mennység. Szmulácó: a nagy károkat a becsült paraméteres modellel közelítve, a késlekedés dıt a tapasztalat eloszlásával. Eredmények (a megfgyelt kfzetés %-ában): az esetek 0.5 %-ában > 50% az esetek 0.%-ában > 00% Pontosabb szmulácóhoz/vzsgálathoz a ksebb károkkal s kell foglalkozn. Itt más eloszlás jön szóba.