Etrém-érték modellezés Zemplén András Alkalmazott modl 016. febrár -9. Etrém-érték elemzés Klasszks módszerek: év mammon alaplnak Küszöb felett értékek elemzése: adott szntet meghaladó mnden árvízből használ adatot. Többdmenzós módszerek: a közel mérőállomások összefüggőségét s vzsgálja (etrémmok együttes vselkedése) Etrém-érték eloszlások Legyenek X 1, X,,X n független, azonos eloszlású valószínűség változók. Ha vannak a n, b n normáló konstansok, hogy [ma(x 1, X,, X n )-a n ]/ b n nemelfajló határeloszláshoz közelít, akkor ez a határeloszlás szükségképpen ma-stabls vagy úgynevezett etrém-érték eloszlás. Etrém-érték eloszlások karakterzácója Normalzált mammok lehetséges határeloszlása: Frechet: F ( ) ep( ) (>0) poztív parameter. Webll: Gmbel: F ( ) ep( ( ) F( ) ep( ep( )) ) (<0) Megjegyzések Bzonyítás technka, az eloszlásfüggvény és a mamm művelet kapcsolatán alapl. Az adódó függvényegyenletnek ez a 3 megoldása van. Az eredmények hasonlóak a stabls eloszlások karaktersztks függvényehez. Érdekes kérdés: adott F eloszlásfüggvény esetén melyk határeloszláshoz konvergál az F eloszlású mnta normalzált mamma? Nem mnden esetben lehet normáln: dszkrét eloszlásokra oszcllálhat a mamm eloszlása. A normálhatóság feltétele Folytonos eloszlásokra az eloszlásfüggvény reglárs vselkedése szükséges a felső végpont közelében (teljesül mnden fontos eloszlásra): F az paraméterű Fréchet eloszlás ma-vonzás tartományához tartozk (FMDA(F )), akkor és csak akkor, ha 1-F~ - L() (L lassú változású függvény: L(t)/L()1 ha ) F MDA(W )), akkor és csak akkor, ha F < és 1- F( F 1/) ~ - L() A Gmbel MDA jellemzése bonyolltabb, lényegében az eponencáls lecsengésű eloszlások tartoznak de (példa: eponencáls, normáls).
ha Általánosított etrém-érték (GEV) eloszlás G z ( z) ep,, 1 1 z 0. 1/ Néhány példa GEV eloszlás sűrűségfüggvényére (Lokácós és skála paramétert s tartalmazó modell.) Függetlenség vzsgálata Év mammok, Vásárosnamény Tegyük fel, hogy megtsztítottk adatankat. A kndlópont az év mammok függetlensége. Seres dat Atokorrelácó függvény: R(X t,x t+k ) a Záhony vízsznt év mamm sorozatára ACF -0. 0 5 10 15 Lag Tovább jellemzők Vsszatérés szntek (adott dő, pl. 5, 50 év alatt várhatóan egyszer kapnk lyen vagy magasabb értéket) becslése Konfdenca ntervallmok (olyan ntervallmok, melyek nagy valószínűséggel tartalmazzák az smeretlen paramétereket) konstrálása, lehetséges módszerek: a mamm lkelhood becslés aszmptotkájából profl lkelhood alapján Vsszatérés szntek GEV p-kvantlse: z p (1 yp ), ha 0 log y p, ha = 0, ahol log( 1 p), G,, ( zp) 1 p. ẑ p y p az az árvíznagyság, amelyet átlagosan 1/p évente egyszer halad meg az éves mamáls árvíz. Annak valószínűsége, hogy 1/p évnél előbb megjelenk, nagyobb ½-nél! ˆ Ha 0, akkor az eloszlás becsült felső végpontja z ˆ ˆ / ˆ. ˆ0
Vsszatérés sznt-görbe z p ábrázoljk log(1-p) vel szemben, logartmks skálán. Lneárs, ha = 0, konkáv, határértéke ha < 0 konve, ha > 0 Folyt.: = 0. pont.: = -0. retrn level 0 5 10 15 Küszöb fölött csúcsok módszere (POT) Azok az események etrémek, amelyek meghaladnak egy rögzített, magas küszöböt Előnye: Több adatot lehet használn A becsléseket nem befolyásolják kcs árvzek Hátránya: Függ a küszöb megválasztásától A declsterezés (annak eldöntése, hogy mely mammok származnak egy eseményből) nem mndg egyértelmű. 1 5 10 50 100 500 1000 retrn perod (years) Elmélet alapok Legyenek X 1, X,,X n független, azonos eloszlású val. változók. Ha ennek a sorozatnak a normalzált mamma konvergál egy etrém-érték eloszláshoz (μ,σ,ξ paraméterekkel), akkor / y 1 ~ ) P( X y X ) 1 (1 ha y>0 és 1y / ~ 0 ahol ~ ( ) (Általánosított Pareto eloszlás, GPD.) Az aszmptotka n és végtelenhez tartása mellett érvényes. ACF Atokorrelácó függvény, Záhony vízsznt baloldal: mnden 400 fölött értékre jobb oldal: deklaszterezés tán (a csúcsok) Seres dat[, ] ACF Seres dat Vsszatérés szntek Az általánosított Pareto eloszlás p-kvantlse: 1, ha 0; p 1 p 1 p log, ha = 0, ahol p n P( X ). ˆ n Ha n y az évente észlelt sznt felett mammok átlagos száma T évente vsszatérő az 1/T*n y kvantls. 0 5 10 15 0 5 30 Lag 0 5 10 15 0 Lag Ha ˆ 0, akkor az eloszlás felső végpontja ˆ / ˆ ˆ1.
Küszöb választás Átlagos meghaladás ábrája: Tetszőleges küszöbre ábrázoljk az X- átlagát (azokra a megfgyelésekre, amelyekre X>) függvényében. Ha a Pareto modell gaz, ez a görbe közel lneárs. A megmagyarázása nehéz lehet a megfgyelések mammához közel megfgyelhető nagy ngadozása matt. Alternatíva: tekntsük a paraméterbecslések értéket különböző küszöbök esetén. Staconartás Kérdés, hogy az adatok valóban teknthetők-e staconársnak (alternatíva: lehet trend/perodks komponens). Lehet klasszks tesztekkel vzsgáln (pl. ch-négyzet). Az egyk módszert be s mtatjk. Nemparaméteres megközelítés Mann-Kendall trendteszt S n 1 n 1 j1 Független, azonos eloszlású, egyezések nélkül esetre: n( n 1)(n 5) ES=0, D ( S) 18 sgn( j ) Ha n nagy, S közelítőleg normáls eloszlású. Alkalmazható már n>10-re s. Néhány érték (a standardzált S- statsztka értéke) Év mammok vízállás vízhozam Szeged 0.35-0.199 Záhony 0.03 V.Namény 0.089 A nap mamáls vízállásra (Záhony): S=-.4. Mért? Az alacsony vízállásértékek lefelé mtató trendje az ok. Ugyanez az érték a vízhozamra: S=-.47 Staconárs sorozatok Ha nem teljesül a függetlenség (mnt pl. az eredet naponként méréseknél), a normalzált mammok határeloszlása továbbra s GEV eloszlás, ha a függőség a távol megfgyelések között 0-hoz tart. Az év mammokra a GEV modell tehát elméletleg s megalapozott. POT modellekre, a klaszter-mammok használhatóak. (A klasztereket defnáln kell).
A nemstaconartás esete Lneárs regresszós modellek beépíthetőek a mamm lkelhood megközelítésbe. Profl lkelhood, lkelhood-hányados próbák számíthatóak az egymásba ágyazott modellekre. Esetleg szétbontva a megfgyeléseket évszakokra, külön-külön teljesülhet a staconartás. Másk alkalmazás: gépjármű felelősség bztosítás Adattsztítás (negatív károk, nem megfelelő dőpontok, stb. kszűrése.) Inflácós hatás elemzése (lényeges, mert a mntát azonos eloszlásúnak képzeljük). Negyedéves eltolással 15 db 1 éves részre bontottk az adatokat. KSH fogyasztó árnde adatok nem megfelelőek (gyorsabb a kárkfzetés növekedése). Az nflácós hatás becslése Az ágazat kárnövekedés ráta A kárkfzetés adatok medánjara (a kgró értékek matt az átlag nem megfelelő!) llesztett nemparaméteres smítás eredményeként adódott az ágazat kárnövekedés ráta a vzsgált tartományon. Ez tartalmazza az nflácót, a gépjármű-állomány megváltozásának hatását mnden más, trend jellegű kárnagyság-módosító hatást. Az adatok jelenértékre transzformálásához ezt k kellett egészíten az dőszak elején és végén. 1.0 1.1 1. 1.3 1.4 1.5 1.6 A KSH adata és a számolt kárnagyság-növekedés 0 10 0 30 40 50 60 hónapok o smított hav árnde számított kárnagyság A KSH adata és a becsült kárnagyság-növekedés. A kezdő hónap 1999. júls, az tolsó hónap a KSH adatanál 004 október, a kárnagyság-adatsornál 004. janár. Etrapolácó: hónappal eltolt (éves mozgóátlaggal smított) KSH árnde segítségével kapott lneárs regresszóval. becsült kárnövekedés 1.0 1. 1.4 1.6 A kárnagyság-növekedés etrapolácója o számított kárnagyság etrapolált értékek Kssé csökkent a változás dnamkája az eredet adatsorhoz képest. gyakorság A jelenértékre transzformált adatok 0 1000 000 3000 4000 gyakorság 0 1000 000 3000 4000 Károk össz-száma: kb. 38000. Néhány alapstatsztka: Medán: 7.9*10-4 Átlag: 0.00 Felső kvartls: 0.0018 99%-os kvantls:0.0187 99.9%-os kvantls: 0.1 0 10 0 30 40 50 hónap 0.00 0.04 0.08 relatív károk 0.000 0.004 0.008 relatív károk
A bztosítás kockázat és az etrém-érték elemzés A legnagyobb kockázatot a nagy károk jelentk. A m esetünkben: Kvantls 50% 75% 90% 95% 99% 99.9% Részarány 7.7% % 41.% 53.1% 71.8% 87% Azaz a kárkfzetés közel feléért a legnagyobb 5% a felelős. Nncsenek természetesen adódó blokkok (év mammok). alak-paraméter krt.érték vs. teszt-stat. krt.érték vs. teszt-stat. 0.55 0.70 0 4-0.6 0.0 Alkalmazás a küszöbválasztáshoz Kárnagyságok 0.00 0.004 0.006 0.008 0.010 0.01 0.014 Az alak-paraméter változása a küszöbsznt függvényében 0.00 0.004 0.006 0.008 0.010 0.01 0.014 Az A-D statsztka értéke a küszöbsznt függvényében 0.5 0.6 0.7 0.8 0.9 1.0 Küszöb kvantls Olyan küszöböt választnk, melyre a próba elfogadja a GPD modell lleszkedését. Az ábrából leolvasható, hogy 0.003 felett szntek jönnek számításba. A szokásos gond: torzítás (alacsony szntnél) vs. nagy szórás (magas szntnél) Választásank: 0.0035, 0.005 Modell dagnosztka Valószínűség ábra (P-P plot), a pontja: ˆ ( ) {( F( n ), )} n 1 Kvantls ábra (Q-Q plot), a pontja: {( ( ) n, Fˆ 1 ( ))} n 1 Mndkét esetben a pontok közel kell, hogy legyenek a fődagonálshoz, ha jó az lleszkedés. Pareto eloszlás llesztése az adott szntet meghaladó kárkfzetés adatokra GPD eloszlás skála: 0.00 alak: 0.671 paraméterekkel QQ-plot A küszöbsznt: 0.0035 GPD eloszlás skála: 0.003 alak: 0.737 paraméterekkel QQ-plot A küszöbsznt: 0.005 0.0 0.5 1.0 1.5 Nem jó az lleszkedés A kapott eloszlások gyan véges várható értékűek, de a szórás végtelen. Alternatíva: lognormáls eloszlás ln 1 ( A sűrűségfüggvénye: f ) e A paraméterek mamm lkelhood N N becslése: ln( ) ^ ln( ) ^ 1 N, Az lleszkedés nem jó a teljes adatsorra (túl gyors a lecsengése a ténylegesen fellépő nagy károkhoz képest). 1 N 0 00 400 600 800 1000 Lognormáls eloszlás llesztése a relatív kárnagyságra 0.000 0.001 0.00 0.003 0.004 0.005
Módosítás Csak az -nál ksebb károkra llesztjük a lognormáls eloszlást, a nagyobbakra GPD-t. Mamm lkelhood becslés: nmerks módszerekkel lehet mamalzáln a loglkelhood függvényt: n* (ln( ) ) n*ln( ) ( n n*)(1 F( )) 1 ahol n* jelöl az -nál ksebb károk számát, F pedg a (,) paraméterű lognormáls eloszlás eloszlásfüggvényét. 0 00 400 600 800 1000 Lognormáls eloszlás llesztése a relatív kárnagyságra 0.000 0.001 0.00 0.003 0.004 0.005 levágás: <0.005 Továbblépés A GPD lleszkedés nem volt megfelelő annak ellenére, hogy a statsztka feltehetően elsősorban a közepesen nagy mntaelemek nagy számának és vszonylag jó lleszkedésének köszönhetően elfogadta a GPD-modellt. Továbbfejlesztett modell: késlekedés dőtől való függés fgyelembe vétele. A késlekedés dő A néhány, rendelkezésre álló adat egyke. Alapstatsztká: Átlag: 17 nap, Medán: 4 nap, Felső kvartls: 7 nap Mamm: 1515 nap. Beépíthető a modellbe, feltételezésenk: Skálaparaméter változása: t t (t a késlekedés dő) Alakparaméter nem változk. Mamm lkelhood módszer most s alkalmazható. Illeszkedésvzsgálat a háttérváltozót s tartalmazó modellben A kvantls (QQ) plot-ot módosítan kell: ~ 1 ˆ Yt Y t log 1 ˆ ˆ t ˆ standard eponencáls eloszlású, ha teljesül a modell (Coles, []). A késlekedés dőtől függő modell Skálaparaméter változása: (t a késlekedés dő) t t Alakparaméter nem változk Mamm lkelhood módszer most s alkalmazható PP-plot, a küszöbsznt 0.005 A késlekedés dõtõl függõ Lkelhood statsztka értéke: 69.15688 Szgnfkanca szntje: 0 0 4 6 QQ-plot, a küszöbsznt 0.005 A késlekedés dõtõl függõ GPD eloszlás skála(1): 1.9e-05 skála () 0.00771 alak: 0.70517 paraméterekkel 0 4 6 8
Modell szgnfkancavzsgálata Az előzőek értelmében D l 1( M1) l0( M 0) 1 szabadságfokú eloszlású, ha nncs szgnfkáns lneárs trend a skálaparaméterre. Ennek az értéke most D=10.3, lletve D=69.1, am gyakorlatlag tetszőlegesen kcs p mellett szgnfkáns hatást mtat. A késlekedés dő és a kárnagyság késlekedés dõ 0 500 1000 1500 Nem értékelhető az ábra r=0.05 relatív kárnagyság Az ábrák mtatják, hogy csak a magas kvantlsek érzékenyek a késlekedés dőre ezért kaptk az erős összefüggést a Pareto eloszlás llesztésénél Tovább lehetőségek relatív kár 0.0000 0.0010 0.000 0.0030 A kárkfzetés feltételes kvantlse Feltétel: a késlekedés ksebb a p-kvantlsénél 5% 50% 75% 90% 0.80 0.85 0.90 0.95 1.00 relatív kár 0.0 0.04 0.06 0.08 A kárkfzetés feltételes kvantlse Feltétel: a késlekedés ksebb a p-kvantlsénél 95% 97.5% 99% 99.9% 0.80 0.85 0.90 0.95 1.00 A kárkfzetés deje már egyáltalán nem jelentkezk tényezőként (azaz elfogadható az nflácó kszűrésére alkalmazott modell) PP-plot, a küszöbsznt 0.005 Bekövetkezés dejétõl függõ Lkelhood statsztka értéke: e-06 Szgnfkanca szntje: 0.999 0 4 6 QQ-plot, a küszöbsznt 0.005 Bekövetkezés dejétõl függõ GPD eloszlás skála(1): 0 skála () 0.003171 alak: 0.737358 paraméterekkel valószínûség (p) valószínûség (p) 0 4 6 8 0 50 100 150 00 A becslések bzonytalansága Szmlácós vzsgálatok: bootstrap (az eredet mntából vsszatevéses mntákat véve) a 0.005 küszöb-értékre Késl.dõtõl való függés 0 0 40 60 80 100 10 140 Alakparaméter Tapasztalat 95%-os konfdenca-ntervallmok: (1.181;.98)*10-5 (0.64;0.796) Tehát az dőfüggő paraméter becslése bzonytalanabb, de a nagyságrendje ennek s pontos. Bzonyosnak teknthető tehát, hogy a kárösszeg nem véges szórású. Konfdenca ntervallmok más esetekre Ha nem lenne szerepe a késlekedés dőnek, ksebb lenne a szórása a paraméterbecsléseknek, példál: (0.74; 0.750) lenne a 95%-os konfdenca ntervallm az alakparaméterre. A modellt feltételezve, GPD-eloszlásból s generáltnk mntákat. Az alakparaméter ngadozása tt s hasonló volt az általnk kapott értékekhez: (0.637; 0.76) a 95%- os konfdenca ntervallm, tehát a modell alkalmazása ebből a szempontból s reáls. 5.0 e-06.0 e-05 3.5 e-05 Becsült paraméter 0.60 0.70 0.80 Becsült paraméter
Tovább kérdések A bztosító számára példál az év összkárkfzetés lényegesebb mennység. Szmlácó: a nagy károkat a becsült paraméteres modellel közelítve, a késlekedés dőt a tapasztalat eloszlásával. Eredmények (a megfgyelt kfzetés %-ában): az esetek 0.5 %-ában > 150% az esetek 0.%-ában > 00% Pontosabb szmlácóhoz/vzsgálathoz a ksebb károkkal s kell foglalkozn. Itt más eloszlás jön szóba.