Modern szimulációs módszerek Zempléni András Valószínűségelméleti és Statisztika Tanszék Matematikai Intézet Eötvös Loránd Tudományegyetem Természettudományi Kar Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 1 / 29
Vázlat Szimuláció - történet, fejlődés (mintavétel, Monte Carlo módszerek ) Bootstrap - módszerek, alkalmazások Markov lánc Monte Carlo (MCMC, Metropolis-Hastings) Alkalmazások: fizika biológia statisztika (hipotézisvizsgálat, Bayes-i statisztika) pénzügyek (opcióárazás) Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 2 / 29
Történet Monte Carlo szimuláció lényege: ismeretlen mennyiséget közelít nagy számú véletlen kísérlet eredményével (Ulam, Neumann 1946) Az elnevezés (Monte Carlo) valójában titkos kód volt Alkalmazások: Genetikus algoritmusok (1951) Metropolis algoritmus (1953) Bootstrap (Efron, 1979) Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 3 / 29
Bootstrap A név eredete: Münchhausen báró története arról, hogy a saját hajánál fogva húzta ki magát a mocsárból. A haj helyett az angol fordításban "bootstrap" szerepelt. Sok helyen használják az elnevezést: Üzleti életben: a cég fejlesztése külső segítség nélkül Műszaki életben: bootstrap áramkörök Számítástechnikában: a bootolás is ebből ered (az operációs rendszer töltődik be először, és ez gondoskodik a további programról) Statisztikában: Újramintavételezési eljárás, a becsléseink szórásának vizsgálatára, modell-illeszkedés ellenőrzésére Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 4 / 29
Bootstrap (Efron, 1979) A jackknife módszer módosításaként indult Az eljárás: X m = {X 1,..., X m} visszatevéses mintavétellel az eredeti mintából egyszerű, mint maga a "bootstrap" Általában m = n, de m < n is előfordul Számtalan változatát dolgozták ki azóta, az egyik leggyorsabban fejlődő részterülete a statisztikának Eredeti alkalmazásai: hiba/eloszlás becslés konfidencia-intervallum konstruálás Általánosítások: adatbányászat térbeli modellezés p-érték korrekció stb. Elismert "breakthrough in statistics" Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 5 / 29
A legegyszerűbb eset Legyenek X n = (X 1, X 2,..., X n ) független, azonos eloszlású (i.i.d.) valószínűségi változók, F (ismeretlen) közös eloszlással ˆϑ = T n (X n ; F) minket érdeklő valószínűségi változó (statisztika) Cél: ˆϑ eloszlásának becslése Bootstrap módszer: Adott X -re, visszatevéssel m elemű mintát veszünk: Xm = {X1,..., X m} a mintaelemek közös eloszlása: F n = n 1 n δ Xi i=1 ˆϑ m,n = T m (X m; F n ) Ismétlések ˆϑ eloszlása közelítés T n eloszlására Az ötlet: ˆϑ ˆϑ ingadozása hasonló ˆϑ ϑ ingadozásához Nagy mintára, kellően sima függvényekre igazolható Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 6 / 29
Torzítás-csökkentés Populációs egyenlet: E( ˆϑ ϑ + t F) = 0 Ehelyett megoldjuk a minta-egyenletet: Ebből ˆt = ˆϑ E( ˆϑ F n ). E( ˆϑ ˆϑ + t F n ) = 0 Visszahelyettesítve: ˆϑ bc := 2 ˆϑ E( ˆϑ F n ). Példa: klasszifikációnál hiba-arány becslés. Ha a tanuló-adatokat használjuk erre is (err n ), jelentős torzítást kapunk (túl optimista a módszer) A bootstrap alkalmazása: azokra a pontokra becsülünk, amik épp nincsenek benne a mintában (err b ). Ez azért torzított, mert ismétlések vannak. A megoldás: 0.368err n + 0.632err b. Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 7 / 29
Az i.i.d. bootstrap korlátai Bizonyos esetekben a becslés nem lesz konzisztens Példa (Singh, 1981) Def: {X n } n 1 m-függő valamely m 0 számra, ha {X 1,..., X k } és { X k+m+1,... } függetlenek minden k 0-ra. Jel. σm 2 = Var(X 1 ) + 2 m 1 i=1 Cov(X 1, X 1+i ) Legyen a becsülendő statisztika: T n = n(x n µ) Ennek bootstrap megfelelője: Tn,n = n(x n X n ) Tétel Legyen {X n } n 1 stacionárius m-függő v.v. sorozat, EX 1 = µ, σ 2 = Var(X 1 ) (0, ), m n=1 Cov(X 1, X 1+i ) 0 és σ 2 m 0. Ekkor lim sup P (T n n,n x) P(T n x) 0 m.m. x Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 8 / 29
Alkalmazása az összefüggő esetre Circular blokk bootstrap (CBB) 1 Y t = X tmod(n) azaz periodikusan kiterjesztjük a mintát 2 Legyen i 1, i 2,... i l minta az {1,..., N} halmazon egyenletes eloszlásból 3 Adott b blokkméretre készítsünk N =lb (N N) pszeudo-megfigyelést: Y (k 1)b+j = Y ik +j 1 ahol j = 1,..., b; k = 1,..., l 4 A minket érdeklő statisztika kiszámítása a pszeudo-megfigyelésekből: Y N = (N ) 1 (Y 1 +... + Y N ) 5 Itt már van konzisztencia a fenti példában Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 9 / 29
Egy másik "kritikus" eset A konzisztencia bizonyítása a határeloszlástételen alapul Vastag szélű (pl. nem véges szórású) esetre stabilis eloszlás a határérték Ekkor a szokásos bootstrap nem konzisztens Ilyen esetekben általában segít, ha m < n elemű mintákat veszünk Különösen igaz ez az extrém-érték modellekben: kis mintákra tipikusan túl szűk konfidenciaintervallumokat kapunk a maximumra Érdemes m << n elemű bootstrap mintákat venni és a feladatot kevésbé extrém kvantilisek becslésére visszavezetni Ekkor a visszatevés nélküli mintavétel (részminta) is lehetséges, gyakran jobb tulajdonságú Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 10 / 29
Az (m, n) bootstrap Bickel és Sakov (2008) cikke algoritmust ad az optimális m megválasztására, az eredmény m n, ha az n elemű minta is jó (az i.i.d. esetre, E(X i ) = 0, tfh. D 2 (X i ) < ) m(x m X n ) N(0, σ) ha n, m Tehát m X m N( m X n, σ) ha m m Xn = m/n n X n N(0, λσ) ahol λ = lim m/n A jó eredményt m/n 0 esetén kapjuk (λ > 0 esetén véletlen mérték a határeloszlás) Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 11 / 29
Az m kiválasztása Az előzőek szerint a jó tartományban a bootstrap eloszlás nem változik lényegesen Ha m túl nagy, vagy túl kicsi, akkor a bootstrap eloszlások különbözőek Tehát az algoritmus: 1 Legyen m j = [ q j n ] (0 < q < 1) 2 Minden m j -re határozzuk meg a T m j,n eloszlását (szimulációval) 3 Válasszuk azt az m-et, amire ˆm = argminρ(t m j,n, T m j+1,n) (ahol ρ az eloszlásbeli konvergenciával konzisztens metrika - pl. Kolmogorov-Szmirnov távolság) Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 12 / 29
A súlyozott (vad) bootstrap Itt az egyes mintelemek súlya a véletlen mennyiség (bootstrap súlyok): τ n,i (i = 1, 2,..., n), ahol n a minta elemszáma. A klasszikus esetben τ nemnegatív egész értékű. Az általános τ súlyok a likelihood függvényre alkalmazhatóak (hatványként) Alkalmazások: Először a regressziónál: ŷi = ŷ i + τ i ε i. Heteroszkedasztikus esetben érdemes használni További lehetőség: kopulák illeszkedésvizsgálata (gyorsabb szimulációk statisztikák határeloszlására) Feltételek: 1 A súlyok függetlenek az adatoktól, τ n1,..., τ nn azonos eloszlású 2 P(τ ni 0) = 1 i = 1,..., n; n = 1, 2,... 3 Az első két momentuma a τ ni -nek véges 4 lim Eτ ni = 1 i = 1, 2,... n 5 γ := lim Eτ 2 n ni < Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 13 / 29
Gyakorlati alkalmazások Példák a súlyeloszlásra (τ n1,..., τ nn ) Polinomiális ( n; 1 n,..., 1 ), n (τ n1,..., τ nn ) i.i.d. Exp(1). Extrém-érték modell: tipikus feladat a kvantilisbecslés. Ehhez: profil log-likelihood a kvantilisekkel paraméterezett esetre l p (H 1 (q) X n ) = max ξ l(ξ, H 1 (q) X n ) Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 14 / 29
Eredmények Tétel (Varga L.- Rakonczai P.- ZA, 2015) Ha teljesül az 1-5 feltétel a bootstrap súlyokra, akkor 2 [ ] l (ˆξ, γ H 1 (q) X n ) l p(h 1 n (q) X n ) χ 2 1, ahol γ a második momentumok határértéke az 5. feltételben. Ebből 1 α megbízhatóságú konfidencia intervallum a kvantilisekre: { Iα = H 1 (q) : c 2 l p(h 1 (q) X n ) l (ˆξ, H 1 (q) X n ) γ c } 1 α. 2 ahol c 1 α a χ 2 1 eloszlás (1 α)-kvantilise. Ez a konfidencia intervallum általában szélesebb, mint a hagyományos profil likelihood intervallum. Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 15 / 29
Példa Napi csapadék adatokat vizsgáltunk Szint fölötti csúcsok módszerével Általánosított Pareto modellből becsültük a kvantiliseket (visszatérési szint) Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 16 / 29
Többdimenziós kopulák tesztelése A tesztstatisztikák eloszlása nem ismert, ezért bootstrap szimuláció alapján határozhatók meg a kritikus értékek De: minden bootstrap mintára is illeszteni kell a modellt, ami magas dimenzióban igen lassú - ezért ez gyakorlatilag kivitelezhetetlen Az empirikus kopula és az illesztett paraméteres modell eltérése a természetes statisztika. Ennek határeloszlása ) n (C n C ˆϑ n = ) n (C n C ϑ + C ϑ C ˆϑn C ϑ ΘĊϑ ahol Θ = lim ( ) n ˆϑ n ϑ A súlyozott bootstrap mintára vonatkozó határeloszlás tétel révén ez közelíthető anélkül, hogy mindig becsülni kellene a paramétert. Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 17 / 29
A teszt lépései C n kiszámítása és a ϑ megfelelő tulajdonságú becslésének meghatározása A Cramer- von Mises statisztika kiszámítása: ( 2 [0,1] C n (u, v) C ˆϑn(u,v)) dcn (u, v) = ( ) 2 n i=1 C n (U i,n, V i,n ) C ˆϑn (U i,n, V i,n ) A súlyozott boostrap statisztikák kiszámítása Ebből a kritikus érték (ill. a p-érték) becsülhető Az eljárás gyorsabb, mint a paraméteres bootstrap, 3-5 dimenzióban jól alkalmazható Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 18 / 29
Adatbányászati alkalmazás: bagging Bootstrap Aggregating A tanuló adatokból vett bootstrap minták előrejelzéseinek átlaga folytonos esetben (vagy a többségi szavazással adódó döntés, pl. dichotóm esetben) Adatbányászati módszerek stabilitásának növelésére alkalmas Matematikailag, ha ˆϑ n = h n (L 1,..., L n ), akkor ˆϑ n = E (h n (L 1,..., L n)) az előrejelző. Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 19 / 29
Tulajdonságok Az instabil esetben jelentősen csökkentheti a varianciát A becslés stabil, ha ˆϑ n ϑ sztochasztikusan (ϑ konstans érték) Példa instabil esetre: ˆϑ n = I { Ȳ n x}. Ekkor ha x = x n (c) = µ + cσn 1/2 (E(Y ) = µ, D(Y ) = σ), akkor ˆϑ n I {Z c}, ahol Z std. normális eloszlású. D 2 ( ˆϑ n ) Φ(c)(1 Φ(c)), ami c = 0- ra maximális, 1/4. ˆϑ n Φ(c Z ), aminek c = 0 esetén 1/12 a varianciája - tehát harmada az eredetinek. Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 20 / 29
Lineáris modell Y = Xβ + ε Itt az egyik legfontosabb kérdés az, hogy mely együtthatók szignifikánsak: az ortogonalitást feltételezve a feladat egyszerűsíthető: ˆϑ n (x) = j ˆβ j I { ˆβj t n,j } x (j) Ez akkor instabil, ha β n = bσ/ n és az előző példához hasonlóan itt is jelentősen csökkenti a szórást a bagging. A bagging tehát ott tud hatékony lenni, ahol nem folytonos, "hard" küszöböktől függ a döntés Sokkal kisebb a hatása, ha már a döntés-függvény is folytonos Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 21 / 29
MCMC Markov lánc Monte Carlo: olyan eloszlásból szimulál, ami nincs explicit módon megadva (pl. nem tudjuk a hegy abszolút magasságát - de a magassággal arányos időt szeretnénk ott tölteni) Klasszikus alkalmazás: d dimenziós test térfogatának kiszámítása Matematikai statisztika: Gibbs-mintavétel (Bayes-i megközelítés: iteratív eljárás a poszteriori eloszlás kiszámítására) Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 22 / 29
Metropolis-Hastings algoritmus Eredeti verzió: Metropolis-Rosenbluth-Teller(1953): szimmetrikus javaslati eloszlásra Általánosítás: Hastings (1970) A XX.század tíz legfontosabb algoritmusának egyike (többek között a szimplex módszerrel, a gyors Fourier-transzformációval együtt) A nagy előnye, hogy olyan sűrűségfüggvényekből is tudunk segítségével véletlen számot generálni, amelyeket csak konstans szorzó erejéig ismerünk Viszont hátránya, hogy az eloszlást csak aszimptotikusan közelíti meg, és az egymás után kapott mintaelemek összefüggnek Ezekre a burn-in (beégetés) és a ritkítás ad megoldást Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 23 / 29
Metropolis-Hastings algoritmus Kezdőpont: x 0, a P eloszlásból szeretnénk szimulálni Átmenetvalószínűség: Q(y x) eloszlás y-ban Ebből mintát véve megkapjuk a javasolt értéket: y Az elfogadás valószínűsége: α = min {1, P(y)/P(x)}. Tehát a valószínűbb pontba biztosan átlépünk Látható, hogy valóban elég a P-t konstans szorzó erejéig ismerni Magas dimenzióban sokkal hatékonyabb, mint a hagyományos véletlenszám generátorok (pl. az elfogadás-elvetés módszere) Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 24 / 29
Reversible jump MCMC algoritmus A dimenziószám is változhat Példák: Keverék-eloszlások Spline illesztés Idősoros modelleknél a rend becslése Átmenetvalószínűség hasonló a fentihez: Q(y x) eloszlás y-ban, ebből kapjuk adott x-re a javasolt értéket Új lépések: Komponens megszüntetése Új komponens beiktatása Algoritmus (eltekintve technikai feltételektől) Kezdőállapot: x n 1 Lépés-típus kiválasztása Az adott típusnak megfelelő javaslat Elfogadási valószínűség kiszámítása Döntés az elfogadásról Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 25 / 29
Példa Tanszéki kutatási projekt keretében árvízi adatokat vizsgáltunk Felső ábra: 1900-2010 között az árvizek időpontja és a becsült valószínűsége (naponként) Alsó ábra: Piros: becsült valószínűség Zöld: Első változás helyének becsült sűrűségfüggvénye Kék: Második változás helyének becsült sűrűségfüggvénye Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 26 / 29
Adatbányászat: Bayes-i modell gráfokon A csúcsokhoz tartoznak az X V megfigyelések (valószínűségi változók) Markov struktúra: feltételesen függetlenek azok a változók, amik között nincs él Például X V N(0, Σ) esetén ϑ g := Σ Adatbányászati feladat: a minta alapján a legjobb gráf kiválasztása A Bayes-i score: ϑ g L(ϑ g ; X V )π(ϑ g )dϑ g (π az apriori eloszlás) Megfelelő π esetén a RJ-MCMC módszer alkalmazható, nagy gráfok esetén is mert elég lokálisan számolni a csúcsok környezetében Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 27 / 29
Bronzkori sírok Az adatok a kupola görbületét mutatják. A kérdés a töréspontok száma Egy ilyen "méhkas"-sír Mükénéből Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 28 / 29
Hivatkozások Lahiri, S.N.: Resampling Methods for Dependent Data (Springer, 2003) Bickel, P.J. and Sakov, A.: On the Choice of m in the m Out of n Bootstrap and its Application to Confidence Bounds for Extrema (2008) Kojadinovic,I., Yan,J. and Holmes,M.: Fast large-sample goodness-of-fit tests for copulas (2011) Bühlmann, P. and Yu, B.: Analysing bagging (Ann. Stat., 2000) Varga, L., Rakonczai, P. and Zempléni, A.: Applications of threshold models and the weighted bootstrap for Hungarian precipitation data (2015). Fan, Y. and Sisson, S.A.: Reversible Jump Markov chain Monte Carlo (2010) Guidici, P.: Bayesian data mining, with application to benchmarking and credit scoring (2001) Zempléni András (Val.elm. és Stat.Tsz.) Intézeti szeminárium, 2016. április 26 29 / 29