Extrém-érték modellezés Zemplén András Val.modellek 2018. febrár 21. Extrém-érték elemzés Klasszks módszerek: év maxmmon alaplnak Küszöb felett értékek elemzése: adott szntet meghaladó mnden árvízből használ adatot. Többdmenzós módszerek: a közel mérőállomások összefüggőségét s vzsgálja (extrémmok együttes vselkedése) Extrém-érték eloszlások Legyenek X 1, X 2,,X n független, azonos eloszlású valószínűség változók. Ha vannak a n, b n normáló konstansok, hogy [max(x 1, X 2,, X n )-a n ]/ b n nemelfajló határeloszláshoz közelít, akkor ez a határeloszlás szükségképpen max-stabls vagy úgynevezett extrém-érték eloszlás. Extrém-érték eloszlások karakterzácója Normalzált maxmmok lehetséges határeloszlása: Frechet: F ( x) exp( x ) (x>0) poztív parameter. Webll: F ( x) exp( ( x) ) (x<0) Gmbel: F( x) exp( exp( x)) Megjegyzések Bzonyítás technka, az eloszlásfüggvény és a maxmm művelet kapcsolatán alapl. Az adódó függvényegyenletnek ez a 3 megoldása van. Az eredmények hasonlóak a stabls eloszlások karaktersztks függvényehez. Érdekes kérdés: adott F eloszlásfüggvény esetén melyk határeloszláshoz konvergál az F eloszlású mnta normalzált maxmma? Nem mnden esetben lehet normáln: dszkrét eloszlásokra oszcllálhat a maxmm eloszlása. A normálhatóság feltétele Folytonos eloszlásokra az eloszlásfüggvény reglárs vselkedése szükséges a felső végpont közelében (teljesül mnden fontos eloszlásra): F az paraméterű Fréchet eloszlás max-vonzás tartományához tartozk (FMDA(F )), akkor és csak akkor, ha 1-F~x - L(x) (L lassú változású függvény: L(tx)/L(x)1 ha x ) F MDA(W )), akkor és csak akkor, ha x F < és 1- F(x F 1/x) ~x - L(x) A Gmbel MDA jellemzése bonyolltabb, lényegében az exponencáls lecsengésű eloszlások tartoznak de (példa: exponencáls, normáls).
ha Általánosított extrém-érték (GEV) eloszlás G z ( z) exp,, 1 1 z 0. 1/ Néhány példa GEV eloszlás sűrűségfüggvényére (Lokácós és skála paramétert s tartalmazó modell.) Függetlenség vzsgálata Év maxmmok, Vásárosnamény Tegyük fel, hogy megtsztítottk adatankat. A kndlópont az év maxmmok függetlensége. Seres xdat Atokorrelácó függvény: R(X t,x t+k ) a Záhony vízsznt év maxmm sorozatára ACF -0.2 0 5 10 15 Lag Tovább jellemzők Vsszatérés szntek (adott dő, pl. 25, 50 év alatt várhatóan egyszer kapnk lyen vagy magasabb értéket) becslése Konfdenca ntervallmok (olyan ntervallmok, melyek nagy valószínűséggel tartalmazzák az smeretlen paramétereket) konstrálása, lehetséges módszerek: a maxmm lkelhood becslés aszmptotkájából profl lkelhood alapján Vsszatérés szntek GEV p-kvantlse: z p (1 yp ), ha 0 log y p, ha = 0, ahol log( 1 p), G ( zp) 1. ẑ p y p,, p az az árvíznagyság, amelyet átlagosan 1/p évente egyszer halad meg az éves maxmáls árvíz. Annak valószínűsége, hogy 1/p évnél előbb megjelenk, nagyobb ½-nél! ˆ Ha 0, akkor az eloszlás becsült felső végpontja z ˆ ˆ / ˆ. ˆ0
Vsszatérés sznt-görbe z p ábrázoljk log(1-p) vel szemben, logartmks skálán. Lneárs, ha = 0, konkáv, határértéke ha < 0 konvex, ha > 0 Folyt.: = 0.2 pont.: = -0.2 retrn level 0 5 10 15 Küszöb fölött csúcsok módszere (POT) Azok az események extrémek, amelyek meghaladnak egy rögzített, magas küszöböt Előnye: Több adatot lehet használn A becsléseket nem befolyásolják kcs árvzek Hátránya: Függ a küszöb megválasztásától A declsterezés (annak eldöntése, hogy mely maxmmok származnak egy eseményből) nem mndg egyértelmű. 1 5 10 50 100 500 1000 retrn perod (years) Elmélet alapok Legyenek X 1, X 2,,X n független, azonos eloszlású val. változók. Ha ennek a sorozatnak a normalzált maxmma konvergál egy extrém-érték eloszláshoz (μ,σ,ξ paraméterekkel), akkor / y 1 ~ ) P( X y X ) 1 (1 ha y>0 és 1y / ~ 0 ahol ~ ( ) (Általánosított Pareto eloszlás, GPD.) Az aszmptotka n és végtelenhez tartása mellett érvényes. ACF Atokorrelácó függvény, Záhony vízsznt baloldal: mnden 400 fölött értékre jobb oldal: deklaszterezés tán (a csúcsok) Seres dat2[, 2] ACF Seres xdat Vsszatérés szntek Az általánosított Pareto eloszlás p-kvantlse: 1 x, ha 0; p 1 p 1 xp log, ha = 0, ahol p n P( X ). ˆ n Ha n y az évente észlelt sznt felett maxmmok átlagos száma T évente vsszatérő az 1/T*n y kvantls. 0 5 10 15 20 25 30 Lag 0 5 10 15 20 Lag Ha ˆ 0, akkor az eloszlás felső végpontja x ˆ / ˆ. ˆ1
Küszöb választás Átlagos meghaladás ábrája: Tetszőleges küszöbre ábrázoljk az X- átlagát (azokra a megfgyelésekre, amelyekre X>) függvényében. Ha a Pareto modell gaz, ez a görbe közel lneárs. A megmagyarázása nehéz lehet a megfgyelések maxmmához közel megfgyelhető nagy ngadozása matt. Alternatíva: tekntsük a paraméterbecslések értéket különböző küszöbök esetén. Staconartás Kérdés, hogy az adatok valóban teknthetők-e staconársnak (alternatíva: lehet trend/perodks komponens). Lehet klasszks tesztekkel vzsgáln (pl. ch-négyzet). Az egyk módszert be s mtatjk. Nemparaméteres megközelítés Mann-Kendall trendteszt S n 1 n 1 j1 Független, azonos eloszlású, egyezések nélkül esetre: 2 n( n 1)(2n 5) ES=0, D ( S) 18 sgn( x x j ) Ha n nagy, S közelítőleg normáls eloszlású. Alkalmazható már n>10-re s. Néhány érték (a standardzált S- statsztka értéke) Év maxmmok vízállás vízhozam Szeged 0.235-0.199 Záhony 0.203 V.Namény 0.089 A nap maxmáls vízállásra (Záhony): S=-22.4. Mért? Az alacsony vízállásértékek lefelé mtató trendje az ok. Ugyanez az érték a vízhozamra: S=-2.47 Staconárs sorozatok Ha nem teljesül a függetlenség (mnt pl. az eredet naponként méréseknél), a normalzált maxmmok határeloszlása továbbra s GEV eloszlás, ha a függőség a távol megfgyelések között 0-hoz tart. Az év maxmmokra a GEV modell tehát elméletleg s megalapozott. POT modellekre, a klaszter-maxmmok használhatóak. (A klasztereket defnáln kell).
A nemstaconartás esete Lneárs regresszós modellek beépíthetőek a maxmm lkelhood megközelítésbe. Profl lkelhood, lkelhood-hányados próbák számíthatóak az egymásba ágyazott modellekre. Esetleg szétbontva a megfgyeléseket évszakokra, külön-külön teljesülhet a staconartás. Másk alkalmazás: gépjármű felelősség bztosítás Adattsztítás (negatív károk, nem megfelelő dőpontok, stb. kszűrése.) Inflácós hatás elemzése (lényeges, mert a mntát azonos eloszlásúnak képzeljük). Negyedéves eltolással 15 db 1 éves részre bontottk az adatokat. KSH fogyasztó árndex adatok nem megfelelőek (gyorsabb a kárkfzetés növekedése). Az nflácós hatás becslése A kárkfzetés adatok medánjara (a kgró értékek matt az átlag nem megfelelő!) llesztett nemparaméteres smítás eredményeként adódott az ágazat kárnövekedés ráta a vzsgált tartományon. Ez tartalmazza az nflácót, a gépjármű-állomány megváltozásának hatását mnden más, trend jellegű kárnagyság-módosító hatást. Az adatok jelenértékre transzformálásához ezt k kellett egészíten az dőszak elején és végén. gyakorság A jelenértékre transzformált adatok 0 1000 2000 3000 4000 0.00 0.04 0.08 relatív károk gyakorság 0 1000 2000 3000 4000 0.000 0.004 0.008 relatív károk Károk össz-száma: kb. 38000. Néhány alapstatsztka: Medán: 7.9*10-4 Átlag: 0.002 Felső kvartls: 0.0018 99%-os kvantls:0.0187 99.9%-os kvantls: 0.1 A bztosítás kockázat és az extrém-érték elemzés A legnagyobb kockázatot a nagy károk jelentk. A m esetünkben: Kvantls 50% 75% 90% 95% 99% 99.9% Részarány 7.7% 22% 41.2% 53.1% 71.8% 87% Azaz a kárkfzetés közel feléért a legnagyobb 5% a felelős. Nncsenek természetesen adódó blokkok (év maxmmok). alak-paraméter krt.érték vs. teszt-stat. krt.érték vs. teszt-stat. 0.55 0.70 0 2 4-0.6 0.0 Alkalmazás a küszöbválasztáshoz Kárnagyságok 0.002 0.004 0.006 0.008 0.010 0.012 0.014 Az alak-paraméter változása a küszöbsznt függvényében 0.002 0.004 0.006 0.008 0.010 0.012 0.014 Az A-D statsztka értéke a küszöbsznt függvényében 0.5 0.6 0.7 0.8 0.9 1.0 Küszöb kvantls Olyan küszöböt választnk, melyre a próba elfogadja a GPD modell lleszkedését. Az ábrából leolvasható, hogy 0.003 felett szntek jönnek számításba. A szokásos gond: torzítás (alacsony szntnél) vs. nagy szórás (magas szntnél) Választásank: 0.0035, 0.005
Modell dagnosztka Valószínűség ábra (P-P plot), a pontja: ˆ ( n) {( F( x ), )} n 1 Kvantls ábra (Q-Q plot), a pontja: {( ( ) x n, Fˆ 1 ( ))} n 1 Mndkét esetben a pontok közel kell, hogy legyenek a fődagonálshoz, ha jó az lleszkedés. Tapasztalat eloszlás Pareto eloszlás llesztése az adott szntet meghaladó kárkfzetés adatokra GPD eloszlás skála: 0.002 alak: 0.671 paraméterekkel QQ-plot A küszöbsznt: 0.0035 Tapasztalat eloszlás GPD eloszlás skála: 0.003 alak: 0.737 paraméterekkel QQ-plot A küszöbsznt: 0.005 0.0 0.5 1.0 1.5 Nem jó az lleszkedés A kapott eloszlások gyan véges várható értékűek, de a szórás végtelen. Alternatíva: lognormáls eloszlás A sűrűségfüggvénye: f A paraméterek becslése: N ln( ^ 2 lnx 1 2 2 ( x) e 2x x ), N Az lleszkedés nem jó a teljes adatsorra (túl gyors a lecsengése a ténylegesen fellépő nagy károkhoz képest). 1 N 2 ln( x ) ^ 1 N 0 200 400 600 800 1000 Lognormáls eloszlás llesztése a relatív kárnagyságra 0.000 0.001 0.002 0.003 0.004 0.005 0 200 400 600 800 1000 Lognormáls eloszlás llesztése a relatív kárnagyságra Csak az -nál ksebb károkra llesztjük a lognormáls eloszlást, a nagyobbakra GPD-t. 0.000 0.001 0.002 0.003 0.004 0.005 Továbblépés A GPD lleszkedés nem volt megfelelő annak ellenére, hogy a statsztka feltehetően elsősorban a közepesen nagy mntaelemek nagy számának és vszonylag jó lleszkedésének köszönhetően elfogadta a GPD-modellt. Továbbfejlesztett modell: késlekedés dőtől való függés fgyelembe vétele. levágás: x<0.005
A késlekedés dő A néhány, rendelkezésre álló adat egyke. Alapstatsztká: Átlag: 17 nap, Medán: 4 nap, Felső kvartls: 7 nap Maxmm: 1515 nap. Beépíthető a modellbe, feltételezésenk: Skálaparaméter változása: t t (t a késlekedés dő) Alakparaméter nem változk. Maxmm lkelhood becslés módszer most s alkalmazható. Illeszkedésvzsgálat a háttérváltozót s tartalmazó modellben A kvantls (QQ) plot-ot módosítan kell: ~ 1 ˆ Yt Y t log 1 ˆ ˆ t ˆ standard exponencáls eloszlású, ha teljesül a modell A késlekedés dőtől függő modell Skálaparaméter változása: (t a késlekedés dő) t t Alakparaméter nem változk Maxmm lkelhood módszer most s alkalmazható Tapasztalat eloszlás PP-plot, a küszöbsznt 0.005 A késlekedés dõtõl függõ Lkelhood statsztka értéke: 69.215688 Szgnfkanca szntje: 0 Tapasztalat eloszlás 0 2 4 6 QQ-plot, a küszöbsznt 0.005 A késlekedés dõtõl függõ GPD eloszlás skála(1): 1.9e-05 skála (2) 0.002771 alak: 0.702517 paraméterekkel Modell szgnfkancavzsgálata D 2l 1( M1) l0( M 0) 1 szabadságfokú 2 eloszlású, ha nncs szgnfkáns lneárs trend a skálaparaméterre. Ennek az értéke most D=102.3, lletve D=69.21, am gyakorlatlag tetszőlegesen kcs p mellett szgnfkáns hatást mtat. 0 2 4 6 8 A késlekedés dő és a kárnagyság késlekedés dõ 0 500 1000 1500 Nem értékelhető az ábra r=0.05 relatív kár 0.0000 0.0010 0.0020 0.0030 Az ábrák mtatják, hogy csak a magas kvantlsek érzékenyek a késlekedés dőre ezért kaptk az erős összefüggést a Pareto eloszlás llesztésénél A kárkfzetés feltételes kvantlse Feltétel: a késlekedés ksebb a p-kvantlsénél 25% 50% 75% 90% relatív kár 0.02 0.04 0.06 0.08 A kárkfzetés feltételes kvantlse Feltétel: a késlekedés ksebb a p-kvantlsénél 95% 97.5% 99% 99.9% 0.80 0.85 0.90 0.95 1.00 0.80 0.85 0.90 0.95 1.00 relatív kárnagyság valószínûség (p) valószínûség (p)
Tapasztalat eloszlás Tovább lehetőségek A kárkfzetés deje már egyáltalán nem jelentkezk tényezőként (azaz elfogadható az nflácó kszűrésére alkalmazott modell) PP-plot, a küszöbsznt 0.005 Bekövetkezés dejétõl függõ Lkelhood statsztka értéke: 2e-06 Szgnfkanca szntje: 0.999 Tapasztalat eloszlás 0 2 4 6 QQ-plot, a küszöbsznt 0.005 Bekövetkezés dejétõl függõ GPD eloszlás skála(1): 0 skála (2) 0.003171 alak: 0.737358 paraméterekkel 0 50 100 150 200 A becslések bzonytalansága Szmlácós vzsgálatok: bootstrap (az eredet mntából vsszatevéses mntákat véve) a 0.005 küszöb-értékre Késl.dõtõl való függés 0 20 40 60 80 100 120 140 Alakparaméter Tapasztalat 95%-os konfdenca-ntervallmok: (1.181;2.928)*10-5 (0.64;0.796) Tehát az dőfüggő paraméter becslése bzonytalanabb, de a nagyságrendje ennek s pontos. Bzonyosnak teknthető tehát, hogy a kárösszeg nem véges szórású. 0 2 4 6 8 5.0 e-06 2.0 e-05 3.5 e-05 0.60 0.70 0.80 Becsült paraméter Becsült paraméter Konfdenca ntervallmok más esetekre Ha nem lenne szerepe a késlekedés dőnek, ksebb lenne a szórása a paraméterbecsléseknek, példál: (0.724; 0.750) lenne a 95%-os konfdenca ntervallm az alakparaméterre. A modellt feltételezve, GPD-eloszlásból s generáltnk mntákat. Az alakparaméter ngadozása tt s hasonló volt az általnk kapott értékekhez: (0.637; 0.76) a 95%- os konfdenca ntervallm, tehát a modell alkalmazása ebből a szempontból s reáls. Tovább kérdések A bztosító számára példál az év összkárkfzetés lényegesebb mennység. Szmlácó: a nagy károkat a becsült paraméteres modellel közelítve, a késlekedés dőt a tapasztalat eloszlásával. Eredmények (a megfgyelt kfzetés %-ában): az esetek 0.5 %-ában > 150% az esetek 0.2%-ában > 200% Pontosabb szmlácóhoz/vzsgálathoz a ksebb károkkal s kell foglalkozn. Itt más eloszlás jön szóba.