Alapfogalmak. Trendelemzés Szezonalitás Modellek. Matematikai statisztika Gazdaságinformatikus MSc október 29. 1/49

Hasonló dokumentumok
előadás Idősorok elemzése

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

Autoregresszív és mozgóátlag folyamatok

Diagnosztika és előrejelzés

STATISZTIKA. Mit nevezünk idősornak? Az idősorok elemzésének módszertana. Az idősorelemzés célja. Determinisztikus idősorelemzés

Idősorok elemzése november 14. Spektrálelemzés, DF és ADF tesztek. Idősorok elemzése

Az idősorok összetevői Trendszámítás Szezonalitás Prognosztika ZH

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Exponenciális kisimítás. Üzleti tervezés statisztikai alapjai

Valószínűségi változók. Várható érték és szórás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Továbblépés. Általános, lineáris modell. Példák. Jellemzık. Matematikai statisztika 12. elıadás,

Szezonális ingadozás. (Stacionárius idősoroknál, ahol nem beszélhetünk trendről, csak a véletlen hatást kell kiszűrni. Ezzel nem foglalkozunk)

Többváltozós lineáris regressziós modell feltételeinek

DIFFERENCIAEGYENLETEK

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége


Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Idősorok elemzése előadás. Előadó: Dr. Balogh Péter

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

5. előadás - Regressziószámítás

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Valószínűségszámítás összefoglaló

egyenletesen, és c olyan színű golyót teszünk az urnába, amilyen színűt húztunk. Bizonyítsuk

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

A sztochasztikus idősorelemzés alapjai

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Termelés- és szolgáltatásmenedzsment

GVMST22GNC Statisztika II.

Statisztika elméleti összefoglaló

GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Abszolút folytonos valószín ségi változó (4. el adás)

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Készítette: Fegyverneki Sándor

Statisztika II előadáslapok. 2003/4. tanév, II. félév

(Independence, dependence, random variables)

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Dr. Kalló Noémi. Termelés- és szolgáltatásmenedzsment. egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék. Dr.

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Matematikai statisztikai elemzések 7.

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Markov-láncok stacionárius eloszlása

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A maximum likelihood becslésről

Idősorok elemzése. Salánki Ágnes

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Adatok statisztikai értékelésének főbb lehetőségei

3. fejezet. Lineáris folyamatok Zaj folyamatok. 1. Az ε(t) folyamat független érték zaj, ha a várható értéke 0 és

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

A mérési eredmény megadása

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

4. Az A és B események egymást kizáró eseményeknek vagy idegen (diszjunkt)eseményeknek nevezzük, ha AB=O

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

BIOMATEMATIKA ELŐADÁS

Matematikai geodéziai számítások 6.

Gazdasági matematika II. vizsgadolgozat megoldása, június 10

Korreláció és lineáris regresszió

[Biomatematika 2] Orvosi biometria

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

Matematikai geodéziai számítások 6.

Nemparaméteres próbák

A többváltozós lineáris regresszió 1.

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

[Biomatematika 2] Orvosi biometria

A Statisztika alapjai

VEKTORTEREK I. VEKTORTÉR, ALTÉR, GENERÁTORRENDSZER október 15. Irodalom. További ajánlott feladatok

y ij = µ + α i + e ij

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Biomatematika 2 Orvosi biometria

Idősoros elemzés minta

Bevezetés a hipotézisvizsgálatokba

Least Squares becslés

Fraktálok. Kontrakciók Affin leképezések. Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék. TARTALOMJEGYZÉK Kontrakciók Affin transzformációk

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Gyakorlat: Sztochasztikus idősor-elemzés alapfogalmai II. Egységgyök-folyamatok és tesztek. Dr. Dombi Ákos

Normák, kondíciószám

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Több valószínűségi változó együttes eloszlása, korreláció

Funkcionálanalízis. n=1. n=1. x n y n. n=1

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Differenciálegyenletek. Vajda István március 4.

Vizsgafeladatok. 1. feladat (3+8+6=17 pont) (2014. január 7.)

Bevezetés az ökonometriába

Statisztikai módszerek a skálafüggetlen hálózatok

Vektorterek. Wettl Ferenc február 17. Wettl Ferenc Vektorterek február / 27

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Diszkrét matematika II., 8. előadás. Vektorterek

ÉRZÉKELŐK ÉS BEAVATKOZÓK I. 3. MÉRÉSFELDOLGOZÁS

Gyakorló feladatok I.

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Átírás:

Matematikai statisztika Gazdaságinformatikus MSc 8. előadás 2018. október 29. 1/49

alapfogalmak Elméleti idősor - valószínűségi változók egy indexelt {X t, t T } családja, avagy időtől függő véletlen mennyiség. T az időpontok halmaza, ami lehet diszkrét vagy folytonos. egyváltozós idősor: skalár értékű val. változóból származik többváltozós idősor: vektor értékű val. változóból származik (Gyakorlatban olyan jelenségeket akarunk vleírni, mint pl.: napi záróárfolyamok a tőzsdén, éves gabonatermés stb.) - mintában ezek jelennek meg mint empirikus idősor 2/49

alapfogalmak MOL részvények záróárfolyama (2005-2008) 3/49

alapfogalmak eloszlásfüggvény: x R és t T esetén F (x, t) = P(X t < x) sűrűségfüggvény: f (x, t) = df (x,t) dx együttes eloszlásfüggvény hasonlóan definiálható a többváltozós eloszlásfüggvényhez, csak most időpontokkal lesznek indexelve a változók 4/49

alapfogalmak várható érték: m(t) = E(X t ) variancia: d 2 (t) = σ 2 (X t ) autokovariancia: cov(s, t) = E((X s m(s))(x t m(t))) autokorreláció: corr(s, t) = cov(s,t) d(s)d(t) 5/49

alapfogalmak autokovariancia függvény c(k) = cov(x t, X t+k ), (k = 0, 1,...) autokorrelációs függvény (ACF) r(k) = c( k ) c(0) parciális autokorrelációs függvény (PACF) ρ(1) = r(1), ρ(2) = r(1) r 2 (1) 1 r 2 (1),..., ρ(k): X t és X t+k közötti parciális korrelációs együttható = úgy mennyire korrelálnak, ha kiszűrjük a köztes változók hatását. egy idősort autokorrelálatlannak (emlékezet nélkülinek) hívunk, ha r(1) = r(2) =... = 0 6/49

alapfogalmak Determinisztikus modell: az idősort alakító tényezők teljeskörűen számbavehetők, ezáltal az idősor alakulása időben tökéletes pontossággal feĺırható. A véletlen csak a gyakorlatban játszik szerepet. De a véletlen szerepe itt véget is ér, a későbbi időpontokra ennek már nincs hatása. dekompozíciós modellek: különböző, eltérő tartalmú komponensekre bontott idősor, additív vagy multiplikatív formában felépítve. additív modell X t = T t + C t + S t + u t, multiplikatív modell X t = T t C t S t u t, ahol T, C és S a trend, a ciklikus és a periodikus komponens, u pedig a véletlen folyamat. Sztochasztikus elemzés: a véletlen eltérés később is hatással van az idősor alakulására, azaz folyamatépítő szerepe van. 7/49

alapfogalmak trend : a hosszútávú tendenciát kifejező, a teljes időtartományon megmutatkozó hatás szezonalitás : rövidebb ismétlődő periódusokban jelentkező hatás ciklikusság : hosszabb, szabálytalanul ismétlődő ciklikus hatás hiba : zaj, 0/1 várható értékű, kis szórású 8/49

alapfogalmak - Példa Példa: legyen α R tetszőleges, és Xt D = αt + u t Xt S = α + Xt 1 S + u t, X0 S = 0, ahol u t N(0, σ). Ekkor E(X D t ) = αt és E(X S t ) = αt σ 2 (X D t ) = σ 2 és σ 2 (X S t ) = tσ 2 tehát a két idősor várható értékben ugyan azonos, de míg Yt D szórása állandó, addig Yt S szórása időben változó (azaz beépülnek a sokkok az idősorba). 9/49

alapfogalmak - Példa 10/49

alkalmazásai Előrejelzés Célunk, hogy a múltbeli lefolyás alapján a folyamat jövőbeli lefolyását szabályozott pontossággal megbecsüljük. 11/49

alkalmazásai 12/49

alkalmazásai Adatpótlás Ilyenkor az a feladat, hogy az idősor adott időléptékű realizációja alapján köztes időpontokban becsüljük meg a lehetséges értékeket. Például egy hiányzó hőmérsékleti adatot egy idősorban, vagy napi adatsorban a délelőtti (félnapi) adatokat. 13/49

alkalmazásai 14/49

alkalmazásai Folyamatszabályozás Ilyenkor a vizsgált idősor egy most éppen zajló gyártási folyamat adatait tartalmazza. Célunk, hogy kontrolláljuk a folyamatot, ellenőrizzük, hogy minden szabályosan történik, vagy be kell-e avatkoznunk 15/49

alkalmazásai 16/49

Az idősorelemzés legalapvetőbb fogalma - lényegében egy megkötést jelent az idősor valószínűségi struktúrájára nézve az idősor statisztikai kezelhetőségének érdekében. 17/49

Definíció Az (X t ) idősor erős értelemben stacionárius, ha minden véges dimenziós vetületének együttes eloszlása eltolásinvariáns. Azaz k 1 esetén t 1,..., t k indexhalmazra (X t1,..., X tk ) és (X t1+h,..., X tk +h) eloszlása megyezik bármely h R esetén. Túl sokat követel, a gyakorlatban túl kevés adat áll a rendelkezésre az ellenőrzéséhez. 18/49

Az (X t ) idősor gyenge értelemben stacionárius, ha első- és második momentuma eltolásinvariáns, azaz EX t = m minden t esetén, és Cov(X t, X s ) = γ(t s) bármely t, s pár esetén.nyilvánvaló, hogy gyengén stacionárius idősor esetén σ 2 (X t ) konstans minden t esetén. 19/49

20/49

Az idősor gra[u+fb01]kus vizsgálata (pl. trendet tartalmazó idősor nyilvánvalóan megsérti a gyenge stacionaritás várható értékének állandóságára vonatkozó feltételét) A korrelogram lecsengésének vizsgálata (stacioner idősorok esetén a korrelogram tipikusan lecsengő, míg nem-stacioner esetben ez nem teljesül) 21/49

Feladat. Legyen X t+1 = αx t + ε t, t N, ahol X 0 egy valószínűségi változó, ε t pedig i.i.d. sorozat 0 várható értékkel és konstans σ szórással. Milyen feltételek mellett lesz a folyamat stacionárius? Megoldás. Iterálva az egyenletet adódik, hogy X t+1 = αx t +ε t = α(αx t 1 +ε t 1 )+ε t =... = t α k ε t k +α k+1 X 0 k=0 Tehát EX t+1 = α t+1 EX 0, ami akkor lesz t-től független, ha vagy α = 1 vagy EX 0 = 0. Az α = 1 eset a véletlen bolyongás esete, ezzel most nem foglalkozunk. Tehát azt kell feltennünk, hogy EX 0 = 0, és ekkor EX t = 0 minden t esetén. Nem bizonyítjuk, de α < 1 is szükséges. Illetve ezen két feltétel elégséges is. 22/49

Feladatunk 1. Nem-stacionárius idősort alkalmas transzformációval stacionáriussá tenni: trendelemzés/szűrés - determinisztikus és sztochasztikus eset szezonalitás szűrés periodicitás szűrés 2. Stacionárius idősorok modellezése, becslése és előrejelzése Lineáris modellek: AR, MA, ARMA, ARIMA 23/49

Mozgó átlagolás: a trendet az eredeti idősor dinamikus átlagaként álĺıtjuk elő. Tegyük fel, hogy idősorunk T hosszú, és legyen k a mozgó ablak szélessége. Képezzük ekkor az X 1 = X 1 +... + X k k. X T k+1 = X T k+1 +... + X T k átlagokat. Az átlagolás hatására eltűnik mind a véletlen hatás, mind a szezonális ingadozás az adatsorból, a mozgó átlagok pedig a trend közeĺıtő értékeit adják. Ezeket az értékeket kivonva az eredeti idősorból a trendhatás megszűnik. 24/49

Analitikus trendszámítás: az idősor grafikonja alapján választjuk a trendfüggvény alakját, majd ennek ismeretlen paramétereit a legkisebb négyzetek módszerével becsüljük. Ezt már egyszer a regresszióanaĺızisnél vettük. 25/49

Modell - lineáris trend. X t = β 0 + β 1 t + u t, ahol u t a hibatag és szeretnénk úgy választani β 0, β 1 -et, hogy minimális legyen. Ekkor ˆβ 1 = ˆβ 0 = X ˆβ 1 t T (X t β 0 β 1 t) 2 t=1 T (Xt X )(t t) t=1 T t=1 (Xt X )2 T t=1 (t t)2 26/49

Ugyanúgy: be tudjuk vezetni a determinációs együtthatót lineárisra visszavezethető trendfüggvényeket vizsgálni magasabb rendű polinomokat, más függvényeket vizsgálni 27/49

Sztochasztikus trend szűrése: Ebben az esetben az előző módszerek már nem működnek. Új trükk: differenciázás művelete, mely egy új, transzformált idősort képez az eredeti idősor t-edik és (t 1)-edik elemének különbségeként. Például, ha az idősorunk Y S t = α + Y S t 1 + X t, Y 0 = 0 alakú, ahol X t maga stacionárius folyamat, akkor Y t = Yt S Yt 1 S a differenciázott folyamat, mely már stacionárius lesz. 28/49

Sztochasztikus lineáris trend szűrésére jó, de másfajta trendfüggvényt nem tud kiszűrni az adatokból. Magasabbrendű trendfüggvények kezelésére a többszöri differenciázás művelete lesz a megoldás. Definíció. Egy idősort d-ed rendben integrált idősornak nevezünk, ha d-ed rendű differenciázottja már stacionárius idősor. Jele: I(d). 29/49

Tegyük fel, hogy idősorunkban trendhatás már nem érvényesül.ekkor a modellünk Y ij = Y + d j + X ij alakú, ahol X ij stacionárius véletlen hatás, d j a szezonális komponens,és Y = 1 n m Y ij nm i=1 j=1 ahol n a periódusok száma (pl. évek), m pedig az ezen belüli szakaszok (pl. hónapok, negyedévek) száma. A véletlen hatás kiküszöbölése érdekében szezononként átlagolunk: Y j = n i=1 Y ij Ekkor Y j = Y + d j, azaz a szezonális eltérés (szezonális index) becslése nem más, mint az Y j Y különbség. 30/49

vizsgálat 31/49

vizsgálat lineáris trendfüggvény: 174,256-556t, azaz 1994. decemberében az értékesített sör mennyisége 174,256 hl volt, folyamatosan csökkent 556 hl-rel. pl: januári szezonalitás 63, 679 hl. 32/49

Ciklikusság Ciklikusság is kiszűrhető, de ennek a matematikai hátteréről bővebben nem beszélek. 33/49

Hipotézisvizsgálatok Amint megvagyunk a trend, szezonalitás és ciklikusság kiszűrésével, ellenőriznünk kell, hogy dekompozíciós modellünk jól magyaráz-e, azaz a maradéktag e t elemei azonos eloszlású, teljesen függetlenek-e. Erre több hasonló módszer létezik: Váltakozásmódszer Csúcsmódszer Előjelmódszer 34/49

Hipotézisvizsgálatok Váltakozásmódszer Definiáljuk δ t, mint 0 1 függvényt a t = 1, 2,..., T 1 értékekre a következőképp: δ t = 1 e t+1 > e t, és legyen u T = T t=1 δ t. Megmutatható, hogy ha e t -k azonos eloszlásúak és teljesen függetlenek, akkor E(u T ) = 1 2 (T 1) és σ 2 (u T ) = 1 12 (T + 1), valamint u T standardizáltja elég gyorsan tart a standard normálishoz. Ezzel tesztelünk. Legyen H 0 : u T = 1 2 (T 1). A szokásos módon adott szignifikanciaszinten tudunk dönteni H 0 -ról, melynek elfogadása esetén nem érdemes további trendet keresnünk. Csúcsmódszer és az előjelmódszer hasonló statisztikákkal működik. 35/49

- exponenciális szűrés A simító eljárások a sztochasztikus modellezésnél egyszerűbb, áttekinthetőbb modelleket álĺıtanak fel. A determinisztikus modellezésnél jobban figyelembe veszik az idősor véletlen jellegét, belső összefüggéseit. Egyfajta közbenső pontosságú és komplexitású modell-családot alkotnak. Ez a modell-család onnan kapta a nevét, hogy az idősor t-edik elemét a múltbeli elemek exponenciálisan csökkenő súlyokkal vett lineáris kombinációjával becsüli. Egyszeres simítás esetén (α (0, 1)): t ˆX t = α(1 α) i X t i + (1 α) t X 0 i=1 36/49

- AR(p) Definíció 1. Az (ε t ), t N v.v-sorozatot fehérzajnak nevezzük, ha Eε t = 0, σ 2 (ε t ) ugyanaz t-re, és Cov(ε t, ε s ) = 0, ha t s. Definíció 2. Az (X t ), t N v.v-sorozatot AR(p)-nek nevezzük, ha léteznek olyan α 1, α 2,..., α p számok, hogy minden t-re X t + α 1 X t 1 +... + α p X t p = ε t, ahol ε t fehérzaj. AR=autoregresszív 37/49

- AR(2) 38/49

- MA(q) Definíció 3. Az (X t ), t N v.v-sorozatot MA(q)-nek nevezzük, ha léteznek olyan β 0, β 1,..., β q számok, hogy minden t-re X t = β 0 ε t +... + β q ε t q, ahol ε i fehérzaj. MA=moving averages 39/49

40/49

- ARIMA Definíció 4. Az (X t ), t N v.v-sorozatot ARMA(p, q)-nak nevezzük, ha létezik olyan Y t AR(p) és Z t MA(q), hogy X t = Y t + Z t. Definíció 5. Az (X t ), t N v.v-sorozatot ARIMA(p, s, q)-nak nevezzük, az s-edrendű differenciázottja ARMA(p, q). Raktárkészletet nem határozzák meg egyetlen időszak beszerzései és eladásai, ezek csupán a raktárkészlet változásait határozzák meg. 41/49

- ARIMA - Példák X t = e t + θe t 1 42/49

- ARIMA - Példák X t = e t + θe t 1 43/49

- ARIMA - Példák X t = e t φx t 1 44/49

- ARIMA - Példák X t = e t φx t 1 45/49

Hipotézisvizsgálatok A modellépítés után ún. Ljung - Box teszttel ellenőrizhetjük, hogy modellünk mennyire releváns. H 0 : a hibatagok teljesen független, azonos eloszlásúak (ρ(1) =... = ρ(k) = 0) Próbastatisztika. Q = n (n + 2) K k=1 ρ(k) ˆ 2 n k, ahol n = n s, ha ARIMA(p,s,q)-val közeĺıtettünk. H 0 teljesülése esetén χ 2 K eloszlást követ. 46/49

Példa 47/49

Példa 48/49

Folyt. köv. 49/49