Alapfogalmak. Trendelemzés Szezonalitás Modellek. Matematikai statisztika Gazdaságinformatikus MSc október 29. 1/49

Matematikai statisztika Gazdaságinformatikus MSc 8. előadás 2018. október 29. 1/49

alapfogalmak Elméleti idősor - valószínűségi változók egy indexelt {X t, t T } családja, avagy időtől függő véletlen mennyiség. T az időpontok halmaza, ami lehet diszkrét vagy folytonos. egyváltozós idősor: skalár értékű val. változóból származik többváltozós idősor: vektor értékű val. változóból származik (Gyakorlatban olyan jelenségeket akarunk vleírni, mint pl.: napi záróárfolyamok a tőzsdén, éves gabonatermés stb.) - mintában ezek jelennek meg mint empirikus idősor 2/49

alapfogalmak MOL részvények záróárfolyama (2005-2008) 3/49

alapfogalmak eloszlásfüggvény: x R és t T esetén F (x, t) = P(X t < x) sűrűségfüggvény: f (x, t) = df (x,t) dx együttes eloszlásfüggvény hasonlóan definiálható a többváltozós eloszlásfüggvényhez, csak most időpontokkal lesznek indexelve a változók 4/49

alapfogalmak várható érték: m(t) = E(X t ) variancia: d 2 (t) = σ 2 (X t ) autokovariancia: cov(s, t) = E((X s m(s))(x t m(t))) autokorreláció: corr(s, t) = cov(s,t) d(s)d(t) 5/49

alapfogalmak autokovariancia függvény c(k) = cov(x t, X t+k ), (k = 0, 1,...) autokorrelációs függvény (ACF) r(k) = c( k ) c(0) parciális autokorrelációs függvény (PACF) ρ(1) = r(1), ρ(2) = r(1) r 2 (1) 1 r 2 (1),..., ρ(k): X t és X t+k közötti parciális korrelációs együttható = úgy mennyire korrelálnak, ha kiszűrjük a köztes változók hatását. egy idősort autokorrelálatlannak (emlékezet nélkülinek) hívunk, ha r(1) = r(2) =... = 0 6/49

alapfogalmak Determinisztikus modell: az idősort alakító tényezők teljeskörűen számbavehetők, ezáltal az idősor alakulása időben tökéletes pontossággal feĺırható. A véletlen csak a gyakorlatban játszik szerepet. De a véletlen szerepe itt véget is ér, a későbbi időpontokra ennek már nincs hatása. dekompozíciós modellek: különböző, eltérő tartalmú komponensekre bontott idősor, additív vagy multiplikatív formában felépítve. additív modell X t = T t + C t + S t + u t, multiplikatív modell X t = T t C t S t u t, ahol T, C és S a trend, a ciklikus és a periodikus komponens, u pedig a véletlen folyamat. Sztochasztikus elemzés: a véletlen eltérés később is hatással van az idősor alakulására, azaz folyamatépítő szerepe van. 7/49

alapfogalmak trend : a hosszútávú tendenciát kifejező, a teljes időtartományon megmutatkozó hatás szezonalitás : rövidebb ismétlődő periódusokban jelentkező hatás ciklikusság : hosszabb, szabálytalanul ismétlődő ciklikus hatás hiba : zaj, 0/1 várható értékű, kis szórású 8/49

alapfogalmak - Példa Példa: legyen α R tetszőleges, és Xt D = αt + u t Xt S = α + Xt 1 S + u t, X0 S = 0, ahol u t N(0, σ). Ekkor E(X D t ) = αt és E(X S t ) = αt σ 2 (X D t ) = σ 2 és σ 2 (X S t ) = tσ 2 tehát a két idősor várható értékben ugyan azonos, de míg Yt D szórása állandó, addig Yt S szórása időben változó (azaz beépülnek a sokkok az idősorba). 9/49

alapfogalmak - Példa 10/49

alkalmazásai Előrejelzés Célunk, hogy a múltbeli lefolyás alapján a folyamat jövőbeli lefolyását szabályozott pontossággal megbecsüljük. 11/49

alkalmazásai 12/49

alkalmazásai Adatpótlás Ilyenkor az a feladat, hogy az idősor adott időléptékű realizációja alapján köztes időpontokban becsüljük meg a lehetséges értékeket. Például egy hiányzó hőmérsékleti adatot egy idősorban, vagy napi adatsorban a délelőtti (félnapi) adatokat. 13/49

alkalmazásai 14/49

alkalmazásai Folyamatszabályozás Ilyenkor a vizsgált idősor egy most éppen zajló gyártási folyamat adatait tartalmazza. Célunk, hogy kontrolláljuk a folyamatot, ellenőrizzük, hogy minden szabályosan történik, vagy be kell-e avatkoznunk 15/49

alkalmazásai 16/49

Az idősorelemzés legalapvetőbb fogalma - lényegében egy megkötést jelent az idősor valószínűségi struktúrájára nézve az idősor statisztikai kezelhetőségének érdekében. 17/49

Definíció Az (X t ) idősor erős értelemben stacionárius, ha minden véges dimenziós vetületének együttes eloszlása eltolásinvariáns. Azaz k 1 esetén t 1,..., t k indexhalmazra (X t1,..., X tk ) és (X t1+h,..., X tk +h) eloszlása megyezik bármely h R esetén. Túl sokat követel, a gyakorlatban túl kevés adat áll a rendelkezésre az ellenőrzéséhez. 18/49

Az (X t ) idősor gyenge értelemben stacionárius, ha első- és második momentuma eltolásinvariáns, azaz EX t = m minden t esetén, és Cov(X t, X s ) = γ(t s) bármely t, s pár esetén.nyilvánvaló, hogy gyengén stacionárius idősor esetén σ 2 (X t ) konstans minden t esetén. 19/49

Az idősor gra[u+fb01]kus vizsgálata (pl. trendet tartalmazó idősor nyilvánvalóan megsérti a gyenge stacionaritás várható értékének állandóságára vonatkozó feltételét) A korrelogram lecsengésének vizsgálata (stacioner idősorok esetén a korrelogram tipikusan lecsengő, míg nem-stacioner esetben ez nem teljesül) 21/49

Feladat. Legyen X t+1 = αx t + ε t, t N, ahol X 0 egy valószínűségi változó, ε t pedig i.i.d. sorozat 0 várható értékkel és konstans σ szórással. Milyen feltételek mellett lesz a folyamat stacionárius? Megoldás. Iterálva az egyenletet adódik, hogy X t+1 = αx t +ε t = α(αx t 1 +ε t 1 )+ε t =... = t α k ε t k +α k+1 X 0 k=0 Tehát EX t+1 = α t+1 EX 0, ami akkor lesz t-től független, ha vagy α = 1 vagy EX 0 = 0. Az α = 1 eset a véletlen bolyongás esete, ezzel most nem foglalkozunk. Tehát azt kell feltennünk, hogy EX 0 = 0, és ekkor EX t = 0 minden t esetén. Nem bizonyítjuk, de α < 1 is szükséges. Illetve ezen két feltétel elégséges is. 22/49

Feladatunk 1. Nem-stacionárius idősort alkalmas transzformációval stacionáriussá tenni: trendelemzés/szűrés - determinisztikus és sztochasztikus eset szezonalitás szűrés periodicitás szűrés 2. Stacionárius idősorok modellezése, becslése és előrejelzése Lineáris modellek: AR, MA, ARMA, ARIMA 23/49

Mozgó átlagolás: a trendet az eredeti idősor dinamikus átlagaként álĺıtjuk elő. Tegyük fel, hogy idősorunk T hosszú, és legyen k a mozgó ablak szélessége. Képezzük ekkor az X 1 = X 1 +... + X k k. X T k+1 = X T k+1 +... + X T k átlagokat. Az átlagolás hatására eltűnik mind a véletlen hatás, mind a szezonális ingadozás az adatsorból, a mozgó átlagok pedig a trend közeĺıtő értékeit adják. Ezeket az értékeket kivonva az eredeti idősorból a trendhatás megszűnik. 24/49

Analitikus trendszámítás: az idősor grafikonja alapján választjuk a trendfüggvény alakját, majd ennek ismeretlen paramétereit a legkisebb négyzetek módszerével becsüljük. Ezt már egyszer a regresszióanaĺızisnél vettük. 25/49

Modell - lineáris trend. X t = β 0 + β 1 t + u t, ahol u t a hibatag és szeretnénk úgy választani β 0, β 1 -et, hogy minimális legyen. Ekkor ˆβ 1 = ˆβ 0 = X ˆβ 1 t T (X t β 0 β 1 t) 2 t=1 T (Xt X )(t t) t=1 T t=1 (Xt X )2 T t=1 (t t)2 26/49

Ugyanúgy: be tudjuk vezetni a determinációs együtthatót lineárisra visszavezethető trendfüggvényeket vizsgálni magasabb rendű polinomokat, más függvényeket vizsgálni 27/49

Sztochasztikus trend szűrése: Ebben az esetben az előző módszerek már nem működnek. Új trükk: differenciázás művelete, mely egy új, transzformált idősort képez az eredeti idősor t-edik és (t 1)-edik elemének különbségeként. Például, ha az idősorunk Y S t = α + Y S t 1 + X t, Y 0 = 0 alakú, ahol X t maga stacionárius folyamat, akkor Y t = Yt S Yt 1 S a differenciázott folyamat, mely már stacionárius lesz. 28/49

Sztochasztikus lineáris trend szűrésére jó, de másfajta trendfüggvényt nem tud kiszűrni az adatokból. Magasabbrendű trendfüggvények kezelésére a többszöri differenciázás művelete lesz a megoldás. Definíció. Egy idősort d-ed rendben integrált idősornak nevezünk, ha d-ed rendű differenciázottja már stacionárius idősor. Jele: I(d). 29/49

Tegyük fel, hogy idősorunkban trendhatás már nem érvényesül.ekkor a modellünk Y ij = Y + d j + X ij alakú, ahol X ij stacionárius véletlen hatás, d j a szezonális komponens,és Y = 1 n m Y ij nm i=1 j=1 ahol n a periódusok száma (pl. évek), m pedig az ezen belüli szakaszok (pl. hónapok, negyedévek) száma. A véletlen hatás kiküszöbölése érdekében szezononként átlagolunk: Y j = n i=1 Y ij Ekkor Y j = Y + d j, azaz a szezonális eltérés (szezonális index) becslése nem más, mint az Y j Y különbség. 30/49

vizsgálat 31/49

vizsgálat lineáris trendfüggvény: 174,256-556t, azaz 1994. decemberében az értékesített sör mennyisége 174,256 hl volt, folyamatosan csökkent 556 hl-rel. pl: januári szezonalitás 63, 679 hl. 32/49

Ciklikusság Ciklikusság is kiszűrhető, de ennek a matematikai hátteréről bővebben nem beszélek. 33/49

Hipotézisvizsgálatok Amint megvagyunk a trend, szezonalitás és ciklikusság kiszűrésével, ellenőriznünk kell, hogy dekompozíciós modellünk jól magyaráz-e, azaz a maradéktag e t elemei azonos eloszlású, teljesen függetlenek-e. Erre több hasonló módszer létezik: Váltakozásmódszer Csúcsmódszer Előjelmódszer 34/49

Hipotézisvizsgálatok Váltakozásmódszer Definiáljuk δ t, mint 0 1 függvényt a t = 1, 2,..., T 1 értékekre a következőképp: δ t = 1 e t+1 > e t, és legyen u T = T t=1 δ t. Megmutatható, hogy ha e t -k azonos eloszlásúak és teljesen függetlenek, akkor E(u T ) = 1 2 (T 1) és σ 2 (u T ) = 1 12 (T + 1), valamint u T standardizáltja elég gyorsan tart a standard normálishoz. Ezzel tesztelünk. Legyen H 0 : u T = 1 2 (T 1). A szokásos módon adott szignifikanciaszinten tudunk dönteni H 0 -ról, melynek elfogadása esetén nem érdemes további trendet keresnünk. Csúcsmódszer és az előjelmódszer hasonló statisztikákkal működik. 35/49

- exponenciális szűrés A simító eljárások a sztochasztikus modellezésnél egyszerűbb, áttekinthetőbb modelleket álĺıtanak fel. A determinisztikus modellezésnél jobban figyelembe veszik az idősor véletlen jellegét, belső összefüggéseit. Egyfajta közbenső pontosságú és komplexitású modell-családot alkotnak. Ez a modell-család onnan kapta a nevét, hogy az idősor t-edik elemét a múltbeli elemek exponenciálisan csökkenő súlyokkal vett lineáris kombinációjával becsüli. Egyszeres simítás esetén (α (0, 1)): t ˆX t = α(1 α) i X t i + (1 α) t X 0 i=1 36/49

- AR(p) Definíció 1. Az (ε t ), t N v.v-sorozatot fehérzajnak nevezzük, ha Eε t = 0, σ 2 (ε t ) ugyanaz t-re, és Cov(ε t, ε s ) = 0, ha t s. Definíció 2. Az (X t ), t N v.v-sorozatot AR(p)-nek nevezzük, ha léteznek olyan α 1, α 2,..., α p számok, hogy minden t-re X t + α 1 X t 1 +... + α p X t p = ε t, ahol ε t fehérzaj. AR=autoregresszív 37/49

- AR(2) 38/49

- MA(q) Definíció 3. Az (X t ), t N v.v-sorozatot MA(q)-nek nevezzük, ha léteznek olyan β 0, β 1,..., β q számok, hogy minden t-re X t = β 0 ε t +... + β q ε t q, ahol ε i fehérzaj. MA=moving averages 39/49

- ARIMA Definíció 4. Az (X t ), t N v.v-sorozatot ARMA(p, q)-nak nevezzük, ha létezik olyan Y t AR(p) és Z t MA(q), hogy X t = Y t + Z t. Definíció 5. Az (X t ), t N v.v-sorozatot ARIMA(p, s, q)-nak nevezzük, az s-edrendű differenciázottja ARMA(p, q). Raktárkészletet nem határozzák meg egyetlen időszak beszerzései és eladásai, ezek csupán a raktárkészlet változásait határozzák meg. 41/49

- ARIMA - Példák X t = e t + θe t 1 42/49

- ARIMA - Példák X t = e t + θe t 1 43/49

- ARIMA - Példák X t = e t φx t 1 44/49

- ARIMA - Példák X t = e t φx t 1 45/49

Hipotézisvizsgálatok A modellépítés után ún. Ljung - Box teszttel ellenőrizhetjük, hogy modellünk mennyire releváns. H 0 : a hibatagok teljesen független, azonos eloszlásúak (ρ(1) =... = ρ(k) = 0) Próbastatisztika. Q = n (n + 2) K k=1 ρ(k) ˆ 2 n k, ahol n = n s, ha ARIMA(p,s,q)-val közeĺıtettünk. H 0 teljesülése esetén χ 2 K eloszlást követ. 46/49

Példa 47/49

Példa 48/49

Folyt. köv. 49/49