9-10. elıadás 2013. április 26. Problémák magas dimenzióban Az idıbeni összefüggıség és a nemstacionaritás szerepe Ismétlés Tanultunk Többdimenziós stabilis eloszlásokról Többdimenziós extrém-érték eloszlásokról Többdimenziós Pareto eloszlásokról Kopulákról Tehát mintha csak választanunk kellene a modellek között
Modellek Ezek nemparaméteres struktúrák, de a becslésekhez modellek kellenek Paraméterbecslés: például maximum likelihood módszerrel Paraméterszám: Ha túl kevés (pl. tipikus arkhimédeszi kopuláknál: 1), nem lesz jó az illeszkedés Ha túl sok (pl. minden párhoz egy a Gauss kopuláknál) akkor nem lesz megbízható a becslés Illeszkedésvizsgálat A tesztstatisztikák eloszlása nem ismert, ezért bootstrap szimuláció alapján határozhatók meg a kritikus értékek De: minden bootstrap mintára is illeszteni kell a modellt, ami magas dimenzióban igen lassú ezért ez gyakorlatilag kivitelezhetetlen
Súlyozott bootstrap A súlyok: τ 1,τ 2,,τ n : azonos eloszlásúak, függetlenek a mintától E(τ i )=1, D(τ i )=1. A bootstrap minta: τ 1 X 1,τ 2 X 2,,τ n X n A minta elemszáma várható értékben n Általánosítása a hagyományos bootstrapnek: akkor τ eloszlása polinomiális(n;1/n,,1/n) Új teszt-eljárás Az empirikus kopula és az illesztett paraméteres modell eltérése a természetes statisztika. Ennek határeloszlása n ' ( C C ) = n( C C + C C ) C u, v) ΘC n ϑ n n ϑ ϑ ( ϑ A súlyozott bootstrap mintára vonatkozó határeloszlás tétel révén ez közelíthetı anélkül, hogy mindig becsülni kellene a paramétert. ϑ ϑ n
S A teszt lépései 1. C n kiszámítása és a θ megfelelı tulajdonságú becslésének meghatározása 2. A Cramer- von Mises statisztika kiszámítása: n = n 2 ( n ( u, v) Cθ n ( u, v) ) dcn ( u, v) = ( Cn ( Ui, n, Vi, n ) Cθ n ( Ui, n, Vi, n )) nc [ 0,1] i= 1 3. A súlyozott boostrap statisztikák kiszámítása 4. Ebbıl a kritikus érték (ill. a p-érték) becsülhetı Az eljárás gyorsabb, mint a paraméteres bootstrap 2 Gyakorlati tapasztalatok A teszt 3-10 dimenzióban meglehetısen gyorsan kiszámolható A copula csomagban már benne van, legalábbis az alap-módszerek A módszer ereje függ a paraméter becslés módjától: a maximum-pszeudo likelihood általában jó eredményt ad Alternatíva lehet még az IFML, ahol elıször a peremeket becsüljük ML módszerrel, majd a kopula paramétert szintén ML módszerrel Páronkénti Kendall-τ értékébıl is kapható becslés
A peremek szerepe A kopula paraméter lefedési valószínőségei a dimenzió függvényében. Ismert peremeloszlásokra rendben van, de ismeretlen peremek esetén magas dimenzióra nagyon lecsökken Vine kopulák Sokdimenzióban is használható struktúrák Kétdimenziós kopulákon alapulnak, a további struktúrát gráf határozza meg 2 Kopula sőrőségfüggvény C( x, y) c12( x, y) = x y Ebbıl az eredeti eloszlás sőrőségfüggvénye: c 12 (F 1 (x),f 2 (y))f 1 (x)f 2 (y) Feltételes sőrőségfüggvény: f(x y)=c 12 (F 1 (x),f 2 (y))f 1 (x)
Konstrukció páronkénti kopulákkal 3 dimenzióban: f(x 1,x 2,x 3 )=f 1 23 (x 1 x 2,x 3 ) f 2 3 (x 2 x 3 )f 3 (x 3 )= c 12 3 (F 1 3 (x 1 x 3 ), F 2 3 (x 2 x 3 );x 3 )c 13 (F(x 1 ),F(x 3 )) c 23 (F(x 2 ),F(x 3 ))f 1 (x 1 )f 2 (x 2 )f 3 (x 3 ) A felírás nem egyértelmő 3 dimenzióban 3 féle felbontás van; 5 dimenzióban viszont már 240 Egyszerősítés: eltekintünk a feltételes kopulák függésétıl a feltételben szereplı változóktól, azaz a példában f(x 1,x 2,x 3 )=f 1 23 (x 1 x 2,x 3 ) f 2 3 (x 2 x 3 )f 3 (x 3 )= c 12 3 (F 1 3 (x 1 x 3 ),F 2 3 (x 2 x 3 ))c 13 (F(x 1 ),F(x 3 )) c 23 (F(x 2 ),F(x 3 ))f 1 (x 1 )f 2 (x 2 )f 3 (x 3 ) Vine kopulák gráfjai A páronkénti kopulákkal történı felírás gráfokkal jellemezhetı Tulajdonság: d dimenzióban d-1 gráf van A következı gráf csúcsai az elızı élei Ha két csúcs között fut él, akkor az elızı gráfban a megfelelı éleknek volt közös csúcsa
Vine kopulák típusai és gyakorlati alkalmazásuk C-vine: a gráfok csillag-alakúak D-vine: a gráfok utak A gyakorlatban a legfontosabb párokat külön-külön becsüljük például a Kendallféle τ alapján, a többit pedig együttesen (univerzálisan, ugyanazzal a kopulával ez az úgynevezett egyszerősítés) Megválaszolandó kérdések Milyenek legyenek a pár-kopulák? A korábban látott tesztekkel vizsgálható az illeszkedés Az elsı szint kopuláinak becslése után az adatokat transzformálva ugyanezt elvégezhetjük a következı szintre Az iteráció addig megy, amíg nem tudjuk a további szinteket a fentieknek megfelelıen egyszerősíteni
Gyakorlati alkalmazások 16 dimenziós adatsorra kivitelezhetı volt a teljes modell illesztése Az elsı lépésben azt a feszítıfát keressük, amelyre az éleken a Kendall-féle τ értékek összege maximális Levágás: egy bizonyos szint felett minden pár-kopulát függetlennek tételezünk fel Egyszerősítés: egy bizonyos szint felett minden pár-kopulát azonosnak tekintünk Még magasabbra Az elızıekben látott módszerek legfeljebb néhányszor 10 dimenzióban vitelezhetıek ki Még magasabb dimenzióra a fı gond a megbízható elemzéshez szükséges adatmennyiség hiánya (exponenciálisan kellene nınie a dimenzióval) Egyszerősítés kell: Ritkasági feltétel (Lasso és változatai) De pénzügyi adatsorokra (pl. kovarianciamátrix közvetlen becslésénél) nem reális
Faktormodell Már láttuk a megfigyelhetı faktormodellt: X it =µ i +β i1 Z 1t + + β ik Z kt +ε it Mátrixos alakban: X t =µ+bz t +ε t ahol t=1,,t és a vektorok n hosszúságúak. Fontos mennyiség a cov(ε t ) (pl. becslések hibájához kell). Ideális esetben diagonális, de legalábbis ritka. Ritkasági feltétel: a soronkénti nem 0 elemek m t számára: 2 T m t = o 2 K logn A becslés ritkítása A legegyszerőbb eszköz: levágás. Csak azokat az elemeket tekintjük nem 0-nak, amelyek becslése meghalad egy adott küszöböt. Az együtthatókat a szokásos legkisebb négyzetes módszerrel becsülve: ˆ ε = x ˆ β ' Z it A becsült kovarianciamátrix: T 1 ' Σˆ ε = ˆt ˆ ε t T ε it t= 1 i t
Küszöbválasztás Adaptív módszer a kovarianciamátrix elemeinek ritkítására: ˆ σ τ ij T 1 ' 2 ij ω T, ahol ˆ θij = ( ˆ εt ˆ ε ˆ σij ) t T t= 1 = ˆ σ I ˆ ˆ ij σij θ ω t m t =o(1) és a sajátértékekre vonatkozó feltételek esetén a módosított becslés is konzisztens, a konvergencia sebessége is megadható Szimulációs vizsgálatok 1. Kalibráció: 1. valódi részvény-adatokra 3 faktoros modellt illesztünk, megbecsüljük β értékét és a kovariancia-mátrixát. 2. Ebbıl ritka mátrixot készítünk 3. A faktorok értékét VektorAR folyamatból szimuláljuk 2. Szimuláció: 1. 3D normális eloszlású β vektor a fenti paraméterekkel megadott eloszlásból 2. Z és ε szimulálása a modell szerint 3. A kovariancia mátrixot a fenti ritkításos eljárással becsüljük 4. n változik 20 600 között
Eredmények Tehát jobb közelítés a ritkított mátrix, mint a szokásos becslés Extrémumok stacionárius sorozatokra Ha csak gyenge összefüggıség áll fenn, a maximumok határeloszlása továbbra is GEV Ehhez elég az alábbi feltétel (D(u n )): P max i A A 1 2 X i < un P maxxi i A1 < un P maxxi i A2 < un α( n, l) ahol A 1 ={i 1,,i p } és A 2 ={j 1,,j q }: 1 i 1 <...< i p < j 1 < j q és j 1 -i p >l,α(n,l) 0, ha n megfelelıl=l n =o(n) sorozatra.
Tulajdonságok Független azonos eloszlású sorozatra minden u n re teljesül a D(u n ) feltétel Ha normális eloszlású a sorozat, akkor elég az autokorrelációkra a ρ n log(n) 0 feltétel Ez gyengébb, mint az általában szokásos gyenge keverés Ha teljesül u n =a n z+b n -re, akkor a normalizált maximumok határeloszlása szintén GEV (Leadbetter, 1974) De: a paraméterek eltérhetnek a független azonos eloszlású esetre adódótól Az extremális index Ha az eredeti X 1,X 2,, X n sorozathoz képezzük az X 1 *,X 2 *,, X n * független, azonos eloszlású sorozatot és feltesszük, hogy [max(x 1 *,X 2 *,, X n *)-a n ]/b n G 1 és [max(x 1,X 2,, X n )-a n ]/b n G 2 akkor a D(u n ) feltétel esetén G 1θ =G 2 Tulajdonságok: 0<θ 1 Az alakparaméter ugyanaz a két esetben Független sorozatra θ=1, de a megfordítás nem igaz
Becslés θ becsülhetı például abból a tulajdonságból, hogy θ az átlagos (küszöb feletti) klaszterméret reciproka De nem könnyő a becslés különbözı küszöbökre és becslési módszerekre igencsak eltérı értékek adódhatnak Nemstacionaritás Számtalan ok eredményezheti Hatása minden becslésre jelentıs lehet Érdemes a stacionaritást tesztelni Például a korreláció becslés eloszlása ismert (normális eloszlású mintára) Ebbıl konstruálható illeszkedésvizsgálat. Még a K-S teszt is kb a párok és ablakok 3-8%-át elutasítja (α=0.01-re)
Példa: 4 részvény napi hozamai közötti korreláció Bal oldal: részvényadatok, jobb oldal: szimulált, stacionárius sorozat A korreláció becslése folyamatosan növı ablakméret mellett A valódi adatokra nagyon nagy a fluktuáció, nem látszik konvergencia További gyakorlati tapasztalatok Hosszabb idıintervallum (T>200) általában nem vezet pontosabb korreláció-becsléshez (mérhetı a portfólió-kockázat tapasztalt növekedésével) Stilizált tények a hozam-idısorokról A hozamok nem korreláltak De a négyzetük (és az abszolút értékük) erısebben korrelált A volatilis periódusok klaszterekben jelennek meg A napi hozamok eloszlása távol van a normálistól (még a havi aggregáltak sem normális eloszlásúak)
GARCH modell Megvalósítja a stilizált tényeket GARCH(1,1) talán ez a leggyakrabban használt Becslés: QML (normális eloszlást feltételez az innovációkra) konzisztens, aszimptotikusan normális (ha teljesül sok-sok feltétel, elsısorban a stacionaritás) Gyakorlatban kérdéses a stabilitása GARCH folyamatok extrémumai A peremeloszlások hatványrendben csengenek le és regulárisak, tehát a maximum határeloszlása Frechet Az extremális index létezik és 1-nél kisebb, tehát van extremális klaszteresedés (ugyanez igaz a σ-ra és X -ra is)
Hivatkozások Kojadinovic,I., Yan,J. and Holmes,M.: Fast largesample goodness-of-fit tests for copulas. 2011. J. Dißmann, E. C. Brechmann, C. Czado, D. Kurowicka: Selecting and estimating regular vine copulae and application to financial returns. 2012. J. Fan, Y. Liao, and M. Mincheva: High-dimensional covariance matrix estimation in approximate factor models. 2011. Embrechts, P., Hofert, M.: Statistical inference for copulas in high dimensions: A simulation study. 2013