Üzleti előrejelzések készítésének módszerei

Hasonló dokumentumok
STATISZTIKA. Mit nevezünk idősornak? Az idősorok elemzésének módszertana. Az idősorelemzés célja. Determinisztikus idősorelemzés

Az idősorok összetevői Trendszámítás Szezonalitás Prognosztika ZH

Matematikai statisztikai elemzések 7.

Szezonális ingadozás. (Stacionárius idősoroknál, ahol nem beszélhetünk trendről, csak a véletlen hatást kell kiszűrni. Ezzel nem foglalkozunk)


Idősorok elemzése előadás. Előadó: Dr. Balogh Péter

Exponenciális kisimítás. Üzleti tervezés statisztikai alapjai

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Vizsgafeladatok. 1. feladat (3+8+6=17 pont) (2014. január 7.)

Többváltozós lineáris regressziós modell feltételeinek

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Statisztika I. 13. előadás Idősorok elemzése. Előadó: Dr. Ertsey Imre

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A mérési eredmény megadása

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

A leíró statisztikák

Korrelációs kapcsolatok elemzése

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

STATISZTIKA I. Centrális mutatók. Helyzeti középértékek. Középértékek. Bimodális eloszlás, U. Módusz, Mo. 4. Előadás.

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Termelés- és szolgáltatásmenedzsment

KÖZPONTI STATISZTIKAI HIVATAL. Szóbeli vizsgatevékenység

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Sorozatok I. Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma)

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Matematikai geodéziai számítások 6.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

ELTE TáTK Közgazdaságtudományi Tanszék MAKROÖKONÓMIA. Készítette: Horváth Áron, Pete Péter. Szakmai felelős: Pete Péter

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Szezonális kiigazítás az NFSZ regisztrált álláskeresők idősorain. Készítette: Multiráció Kft.

Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Sorozatok II.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Diagnosztika és előrejelzés

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Matematikai geodéziai számítások 6.

y ij = µ + α i + e ij

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

A maximum likelihood becslésről

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

6. Függvények. Legyen függvény és nem üreshalmaz. A függvényt az f K-ra való kiterjesztésének

Korreláció és lineáris regresszió

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mérési adatok illesztése, korreláció, regresszió

Autoregresszív és mozgóátlag folyamatok

Biomatematika 2 Orvosi biometria

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Függvények Megoldások

Statisztika elméleti összefoglaló

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Alapfogalmak. Trendelemzés Szezonalitás Modellek. Matematikai statisztika Gazdaságinformatikus MSc október 29. 1/49

Kutatásmódszertan és prezentációkészítés

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉP SZINT Függvények

Konvexitás, elaszticitás

Dr. Kalló Noémi. Termelés- és szolgáltatásmenedzsment. egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék. Dr.

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Függvények

[Biomatematika 2] Orvosi biometria

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

MAKROÖKONÓMIA. Készítette: Horváth Áron, Pete Péter. Szakmai felelős: Pete Péter február

A GDP hasonlóképpen nem tükrözi a háztartások közötti munka- és termékcseréket.

Irányításelmélet és technika II.

A kálium-permanganát és az oxálsav közötti reakció vizsgálata 9a. mérés B4.9

Valószínűségszámítás összefoglaló

Regressziós vizsgálatok

Regresszió számítás az SPSSben

Bevezetés a Korreláció &

Sorozatok határértéke SOROZAT FOGALMA, MEGADÁSA, ÁBRÁZOLÁSA; KORLÁTOS ÉS MONOTON SOROZATOK

MÉSZÁROS JÓZSEFNÉ, NUMERIKUS MÓDSZEREK

STATISZTIKA I. A változók mérési szintjei. Nominális változók. Alacsony és magas mérési szint. Nominális változó ábrázolása

A szezonális kiigazításról

1. A vállalat. 1.1 Termelés

A Föld középpontja felé szabadon eső test sebessége növekszik, azaz, a

352 Nevezetes egyenlôtlenségek. , az átfogó hossza 81 cm

Közgazdaságtan alapjai. Dr. Karajz Sándor Gazdaságelméleti Intézet

Viszonyszám A B. Viszonyszám: két, egymással kapcsolatban álló statisztikai adat hányadosa, ahol A: a. viszonyítadóadat

A regisztrált álláskeresők számára vonatkozó becslések előrejelző képességének vizsgálata

Méréselmélet és mérőrendszerek 2. ELŐADÁS (1. RÉSZ)

Statisztikai alapfogalmak

A Statisztika alapjai

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Függvények

ÁRAMKÖRÖK SZIMULÁCIÓJA

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Matematikai geodéziai számítások 10.

Az MNB statisztikai mérlege a júliusi előzetes adatok alapján

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Egyenletek, egyenlőtlenségek VII.

Tanulási cél Szorzatfüggvényekre vonatkozó integrálási technikák megismerése és különböző típusokra való alkalmazása. 5), akkor

Átírás:

MISKOLCI EGYETEM Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Üzleti előrejelzések készítésének módszerei Polyák Andrea 2013

Tartalomjegyzék 1. Bevezetés...3 2. Alapfogalmak...5 2.1. Idősorok sajátosságai...6 2.2. Az idősorok elemzésének egyszerűbb eszközei...9 2.2.1. Számtani átlag... 10 2.2.3. Átlagos változás mutatói... 11 2.2.4. Szóródásmutatók... 12 2.3. Kiválasztott idősoraim jellemzői és vizsgálata egyszerűbb számításokkal.... 13 3. Az idősorelemzés modelljei... 17 3.1. A dekompozíciós modellek... 18 3.1.1. Trendszámítás... 19 3.1.1.1. Analitikus trendszámítás... 20 3.1.1.2. A mozgóátlagolású trendszámítás... 27 3.1.2. A szabálytalan ciklus... 31 3.1.3. A szezonális ingadozások... 32 3.2. A simító eljárások... 38 3.2.1. Egyszeres exponenciális simítás... 39 3.2.2. Kettős exponenciális simítások... 41 3.2.3. Brown féle korrigált kettős exponenciális simítás... 43 3.3. AutoRegresszív- és MozgóÁtlag- modellek... 47 3.3.1. Az autokorreláció... 50 3.3.2. Mozgóátlag-folyamatok... 51 3.3.3. Az egyváltozós modellek autoregresszív modellje... 52 3.3.4. AutoRegresszív MozgóÁtlag folyamatok... 57 4. Összegzés, véleményezés... 69 Summary... 72 Irodalomjegyzék... 73 Melléklet... 74 2

1. Bevezetés Az embereket mindig érdekelte a jövőbeni események alakulása, a jövő megismerése, hiszen ezáltal felkészülhettek és könnyebben alkalmazkodhattak az újdonságokhoz. Nincs ez másként a közgazdaság területén sem. A tudományos jövőkutatás célja a várható fejlődési tendenciák, jövőképek feltárása, hatásainak, következményeinek elemzése, valamint alternatívák képzése az egyes felmerülő problémák kezelésére. Terveket készíteni, elérhető célokat kitűzni és azokat elérni csakis megfelelő előrejelzések alapján lehet, s ez jelentheti a siker kulcsát is egyben. A múlt eseményeit tartalmazó adatok, megfigyelések különösen hasznos információkkal szolgálhatnak. A bizonytalan gazdasági környezet felerősítette a múltbéli adatok elemzésének és a (pontosabb) előrejelzések készítésnek igényét, éppen ezért választottam szakdolgozatom témájául az előrejelzési modellek bemutatását, összehasonlítását. Az általam vizsgált idősorok ugyanis olyan információkat nyújthatnak a jövőre nézve, melyeknek minden gazdasági szereplő döntéshozatalában jelentős szerepe lehet. Megvizsgáltam, hogyan is alkalmazhatóak az egyes idősor modellek minden szakmai és háttér információ nélkül, mennyire eltérőek vagy éppen hasonlóak az egyes technikák lépései és milyen eredményekre vezetnek. A módszerek bemutatása a kialakulásuk sorrendjét tükrözi, hiszen mint minden tudományágban az egyes modellek folyamatosan fejlődnek, finomodnak, törekedve minél megbízhatóbb előrejelzések előállítására. Az idősorokkal kapcsolatos alapismeretek áttekintése után a determinisztikus, majd a sztochasztikus idősorelemzés legismertebb és leggyakrabban alkalmazott technikáit mutatom be. Sokféle csoportosítású modellel találkozunk majd, melyek mind a finomodás, tökéletesedés eredményeként jöttek létre. A hazai és a nemzetközi szakirodalom olykor eltérő módon osztályozza az egyes előrejelzési modelleket, ezért megpróbáltam dolgozatomban egységessé tenni őket. 3

A módszerek csupán elméleti leírása nem elégséges a technikák megértéséhez, éppen ezért az idősorelemzés modelljeit két idősor megfigyelésein fogom lefuttatni. A gyakorlati bemutatás célja az, hogy teljesebb képet kapjunk az egyes módszerek előnyeiről, hátrányairól, alkalmazhatóságainak feltételeiről. Az előrejelzési módszerek tárgyául két teljesen különböző idősort választottam, hogy a különböző technikákat értelemszerűen vagy egyik, vagy másik idősor segítségével megismertethessem. Célom tehát, hogy az általam bemutatott modellekről a lehető legteljesebb kép álljon elő az olvasó számára. A szakdolgozatom keretei természetesen sokszor nem teszik lehetővé a bonyolultabb statisztikai, matematikai összefüggések bizonyítását. A módszerek fejlődésével olyan kritériumok, feltételek állnak elő, melyeknek részletes magyarázata és bizonyítása túlmutat a dolgozatom célján, ezért ott el kell fogadnunk az egyes kritériumokat. Szintén lehetetlen lenne a dolgozat keretein belül bemutatni az összes előrejelzési technikát, de úgy gondolom, az általam kiválasztottak megértésével leegyszerűsödik a bonyolultabb módszerek megismerése. Szükségünk lesz a témakörhöz tartozó alapvető statisztikai ismeretekre, amelyeket a következő fejezet első felében azonnal fel is frissítünk. 4

2. Alapfogalmak Szakdolgozatomban tehát az idősoros adatok elemzési és előrejelzési technikáit fogom bemutatni, azonban ehhez szükséges bizonyos alapfogalmak ismerete. Felmerül az első kérdés: mi is az idősor? A választ megkapjuk, ha a közgazdászok által gyakran használt adatokat az alábbi csoportokba osztjuk: Idősoros adatok Keresztmetszeti adatok Paneladatok Az idősorok adatai olyan mennyiségekre vonatkoznak, melyeket rendszeresen, meghatározott időközönként figyelnek meg. Lehetnek makroökonómiai adatok (GDP, kamatláb, stb.) vagy pénzügyi adatok (például részvények árváltozása) és gyűjthetőek évente, akár havonta, naponta, óránként, stb. A legfontosabb, hogy az adatoknak időben rendezettnek kell lenniük, sorrendjük meghatározott, ezért nevezzük idősoros adatoknak. A megfigyelt idősort Y-nal jelölhetjük, és Y-nak a t-edik időszaki értékét Y t -vel azonosítjuk. A teljes időszak t=1 től t=t ig tart, ahol T jelenti az adatbázisban található időszakok számát. Az idősoroktól merőben eltérőek a keresztmetszeti adatok. Az adatok e csoportja a gazdaság egyéni szereplőit jellemzi, melyek, mint megfigyelési egységek lehetnek például emberek, vállalatok vagy országok. Gyakori, hogy a csoport tagjainak valamilyen jellemzője az elemzés tárgya, úgy, mint adott iparág dolgozóinak a bére. A keresztmetszeti adatok megfigyelései általában i=1 től N-ig futnak és N jelöli a megfigyelések számát. Vannak olyan adatbázisok, melyek ötvözik az idősorok és a keresztmetszeti adatok sajátosságait, ezek a paneladatok. Ha például 10 európai ország GDP-jét vizsgáljuk 1960-tól 2012-ig, akkor paneladatokkal dolgozunk. Ha T jelöli az éveket, míg N az 5

egyes országokat, akkor az elemzés során T*N Y-ra vonatkozó megfigyelés áll rendelkezésre. Felmerül azonban az újabb kérdés: honnan gyűjthetőek be az adatok? A források tárháza majdhogynem végtelen. Például különböző nemzeti statisztikai hivatalok adatbázisai, ahonnan az egyes országok nemzeti számláinak rendszerén keresztül előállított makroökonómiai adatokat szerezhetjük meg. A mikroökonómiai adatokat pedig cégek, háztartások megkeresésével állítják elő az erre szakosodott szervek. Az adatbegyűjtés módjára a számos forrás és téma miatt nem is lehet általános érvényű tanácsot adni. 2.1. Idősorok sajátosságai Mint már korábban kiemeltem a megfigyelések sorrendjének kitüntetett szerepe van! Az egyes társadalmi, gazdasági jelenségek leírásánál elengedhetetlen, hogy a megfigyeléseket hozzárendeljük egy időponthoz vagy időtartamhoz, melyeket nem lehet felcserélni, ugyanis ez a megfigyelés szempontjából fontos információt hordoz. Ennek a szigorúbb módszertani kötöttségnek köszönhetően az idősorok elemzése a statisztika többé-kevésbé különálló területe lett. 1 A megfigyelések elvben ugyan egymástól különböző távolságra lehetnek, de a továbbiakban feltételezzük, hogy bármely két egymást követő megfigyelés közti távolság azonos, tehát ekvidisztans idősorról beszélünk. Az időpontnak, időtartamnak olyan szempontból is nagy szerepe van, hogy az adatok újbóli felvétele (azonos körülmények között, ugyanazon pillanatban, intervallumban) lehetetlen, megismételhetetlen. A társadalmi-gazdasági jelenségek ekvidisztans időpontokban vagy időszakokban megfigyelt értékei alkothatnak állapot- vagy tartamidősorokat. Ezt a vizsgált jelenség természete határozza meg. Az állapotidősorok egy állósokaság időbeli változását mutatják, az egyes időpontokra vonatkozó állapotfeltételek eredményét rögzítik (tehát a jelenség pillanatnyi állapotát jellemzik). Példa lehet az ilyen idősorokra a népesség, 1 Domán Cs.-Szilágyi R.- Varga B.: Statisztikai elemzések alapjai II. 120. oldal 6

állatállomány, készlet, stb., melyet egy kiválasztott, eszmei időpontban mérünk. Az állapotidősor adatai nem csoportosítás útján jönnek létre, összegzésüknek nincs értelme. A tartamidősor, mint azt a neve is jelzi, időtartamra vonatkozik, tehát olyan jelenségeket ír le, melyek csak adott időintervallumon mérhetőek (például házasságkötések száma 2010-ben). De miért is használunk idősoros adatokat? Az idősoros adatok használatának célja tulajdonképpen valamilyen modell segítségével elemezi az idősort, vagy regressziós modell felállítása, amivel két esetleg több változó közötti kapcsolatot vizsgálhatjuk, számszerűsíthetjük. Idősor leírása, rekonstruálása Magyarázat Előrejelzés 1. ábra: Az idősorelemzés lépései Forrás: Saját szerkesztés Az elemzések lépései a következők: 1. Első lépésként leírjuk, rekonstruáljuk az idősort. Egyszerű vagy bonyolult modell segítségével próbáljuk megragadni az idősorban rejlő tendenciát, valamint megkeressük a visszatérő szabályosságokat. A belső összefüggések lehetnek nyilvánvalóak, azonban számolni kell a rejtett belső kapcsolatokkal is. Továbbá külön kell választani a törvényszerűségeket és a véletlennek tekinthető zavaró hatásokat. 2. Az idősor leírását a magyarázat követi. Ebben a lépésben magyarázatot keresünk az idősor viselkedésére. Ekkor leírjuk az időben lezajló események kapcsolatát, egyfajta oksági modellt segítségével (például regressziós modellekkel). 7

3. Az idősorelemzés talán legjellemzőbb feladata azonban az előrejelzés! A leírt és feltárt összefüggések, valamint a mögöttes magyarázó tényezők együttes mérlegelésével megkíséreljük az idősor várható alakulását előrevetíteni. 2 Dolgozatom tárgya egy szeparált jelenség (továbbiakban változó) vizsgálatára alkalmas módszerek összehasonlítása. (A terjedelemmel kapcsolatos követelmények nem teszik lehetővé, hogy a több változót egyszerre elemző módszereket, a többváltozós idősorelemzés módszereit bemutassam. ) Egy jelenség vizsgálata tehát egy változóra, egy idősorra vonatkozik. Sokféle módszer áll a rendelkezésünkre, ha az idősor adataiból további információt szeretnénk kinyerni. Mint már a bevezetőben említettem, az egyszerűbb módszerektől haladok majd az összetettebbekig, többek közt azért, mert a látszólag egyszerű, kevés információ nyújtására képes technikák képezik a bonyolultabb eljárások alapjait. Nem elegendő azonban, hogy pusztán kinyerjünk bizonyos információkat az idősorból. Fontos, hogy azok tartalmát tudjuk értelmezni és összefoglalni. Nagy segítséget jelentenek ilyenkor a táblázatok és grafikonok. Grafikus ábrázolás Sok helyen találkozunk majd grafikonokkal, melyek az idősor és az adott módszer hatásának szemléltetését szolgálják. Ideális esetben nagy mennyiségű megfigyeléssel rendelkezünk, amely túlontúl sok ahhoz, hogy azok önmagukban értelmezhetőek legyenek. A grafikon segítségével azonban sokkal áttekinthetőbb a folyamat alakulása és kivehetők annak legfőbb jellemzői. Informatív is egyben, hiszen megmutatja, hogy egy változó hogyan alakul időben. (Keresztmetszeti adatok esetében más technikákat kell alkalmazni, úgy, mint hisztogram vagy pontdiagram, de mivel a későbbiek nem lesz szó keresztmetszeti adatokról, így nem találkozhatunk az előbb említett ábrázolási technikákkal sem.) A grafikus ábrák előállítására tökéletesen alkalmasak az Excel nyújtotta eszközök, azonban bizonyos számításoknál, módszerek lefuttatásánál nagy segítségünkre 2 Hunyadi L.- Vita L.: Statisztika I. Aula Kiadó 2008., 259. oldal 8

lehetnek statisztikai programcsomagok. Az általam használt GRETL (Gnu Regression, Econometrics and Time-series Library) ökonometriai szoftver segítségével jelentősen leegyszerűsödött az adatbázis tagjainak kezelése, valamint grafikonok készítésének folyamata és az összefoglaló adatok kinyerése. A program bárki számára ingyenesen hozzáférhető és a felhasználók segítségével folyamatos fejlesztés alatt áll. Leegyszerűsített megjelenítése és a folyamatos fejlesztések eredményeként rendkívül hasznos programot alkalmazhatunk (többek közt) az idősorok elemzésére és előrejelzésére. A programcsomag alkalmazása tehát egyszerű, a különösen bonyolult módszerek eredményeit is könnyen előállíthatjuk és ábrázolhatjuk vele, amint azt majd a dolgozat későbbi részében látni is fogjuk. A következő pontban bemutatom az idősorok elemzésére, magyarázatára és előrejelzésére alkalmas módszerek statisztikai hátterét. Igyekszem minél több grafikonnal illusztrálni a technikákat az általam választott idősorok felhasználásával, hogy a lehető legtisztább képet kapjuk a kidolgozott módszerek alkalmazhatóságáról és különbözőségéről. 2.2. Az idősorok elemzésének egyszerűbb eszközei 2. ábra: GRETL programcsomag logója Forrás: http://gretl.sourceforge.ne t/index.html A vizsgálat tárgya tehát csak egyetlen jelenség, egy mutatóval leírható időbeli alakulásának vizsgálata. Minden egyes időpontban/ időszakban a vizsgált mutató (Y t ) különböző értékeket vehet fel. Más megközelítésből kijelenthetjük, hogy Y t valószínűségi változó, hiszen értéke sok, egyenként számba nem vehető tényezőtől függ, vagyis véletlen. A továbbiakban vizsgáljuk tehát Y -T, Y -T+1,, Y t, Y T sorozatot, melyet elméleti idősornak nevezünk. A gyakorlatban az elméleti idősor nem áll rendelkezésünkre, hanem csak a megfigyelt értékei, melyek a következő elemekből állnak: y 1, y 2,, y t,, y n amely jelenti a megfigyelt idősort, továbbiakban egyszerűen csak idősort. 9

Az idősorok legegyszerűbb feladata a megfigyelt értékek átlagának meghatározása. Mielőtt hozzákezdenénk a módszer használatához, meg kell állapítanunk a vizsgált idősorról, hogy az tartam- vagy állapotidősor. Előbbi esetében a számtani, utóbbi vizsgálatakor a kronologikus átlagot használjuk. 2.2.1. Számtani átlag Tartamidősor esetében tehát a számtani átlagot alkalmazzuk, az alábbi képletbe való behelyettesítéssel: y = y n (1.1) Pl. megmutatja egy hónapra jutó átlagos beruházások értékét. Vagyis egy időszakra jutó átlagos értéket mutat, az alapadattal azonos mértékegységben. Kronologikus átlag Mint azt már tisztáztuk az állapotidősor adatai egy időpontra vonatkoznak, melyet egy eszmei időpontban figyeltünk meg ebből következik, hogy az idősor átlaga az átlagos állománynagyságot jelöli majd. Ha csak két időpontot vizsgálnánk, akkor ez nyitó és záró állomány egyszerű számtani átlaga, több esetén pedig a két-két időpont közötti időszakra vonatkozó átlagos állományok egyszerű számtani átlagával közelítjük. y = y + y 2 (1.2) Két időpont esetén tehát y 1 és y 2 értékek számtani átlaga adja meg a két időpont közötti időszak átlagos állományát. Ezt a módszert tovább folytatva kapjuk y 2 -t: Míg az (n-1)- edik időszakra vonatkozóan adódik: y = y + y 2 (1.3) y = y + y 2 (1.4) 10

Ebből pedig egész időszakra vonatkozó átlagos állományt meg tudjuk határozni, melynek képlete: y ( ) = y + y + + y n 1 = y + y 2 + y 2 n 1 (1.5) Első pillantásra a kapott adatok nem túl beszédesek, felhasználásuk nem széleskörű, a módszerek egyetlen előnye látszólag csakis az egyszerűségben rejlik. Azonban az átlag és (majd a későbbiekben látni fogjuk) a szóródásmutatók rendkívül fontos szerepet játszanak az idősor elemzésben, hiszen a bemutatott alkalmazás bonyolultabb elemzések részeiként is megjelenik, vagy bizonyos feltételeket közölhetnek. Az idősorok további egyszerű, specifikus jellemzői az átlagos változás mutatói, nevezetesen a változás átlagos mértéke (d ) és a változás átlagos üteme (l ). Ezek a mutatók próbálják megragadni az idősorok lényeges tulajdonságát kifejező fő tendenciát. 2.2.3. Átlagos változás mutatói A változás átlagos mértékét megkapjuk, ha az egymást közvetlenül követő időszakokra kiszámítjuk a változás d t =y t -y t-1 mértékét, majd azokból egyszerű számtani átlagot számolunk: d = d n 1 = y y n 1 (1.6) Tehát d mutató az egy időszakra jutó átlagos változást adja meg és mértékegysége az idősor adatainak mértékegységével megegyező. Ez a módszer az időszakról időszakra nagyjából azonos mértékben változó, azaz közelítőleg lineáris fejlődést leíró idősorok alaptendenciáinak tömör jellemzésére használható, mivel azt feltételezi, hogy a mögötte lévő szóródás kicsi, az egymást követő időszakok változása nagyjából hasonló. Látható, hogy csak az idősor első és utolsó adatától függ, azokra nagymértékben érzékeny. Ha az első és/vagy utolsó adat lényegesen eltér az idősor 11

alapirányzatától, akkor a mutató nem lesz jól jellemző és ezt a hátrányt a használat során szem előtt kell tartani. A változás átlagos ütemét (l ) úgy számíthatjuk ki, hogy az egymást követő időszakok l t =y t / y t-1 változási ütemeit vesszük, és ezekből számítunk mértani átlagot. Ekkor l 2 =y 2 /y 1, l 3 =y 3 /y 2,,l n = y n /y n-1 l = l = y + y + + y y y y = y y (1.7) Az l mutató a változás átlagos ütemét mértékegység nélküli viszonyszámmal adja meg, amit általában százalékos formában szoktunk kifejezni. Akkor hasznos számítása, ha az idősor értéke időszakról időszakra nagyjából azonos ütemben változik, közelítőleg exponenciális fejlődést mutat. Ez a mutató is érzékeny az idősor első és utolsó értékére. Ha már egy változót vizsgálunk, és annak tulajdonságait akarjuk minél tömörebben megfogalmazni, akkor nem hagyhatjuk ki a legfontosabb szóródás mutatókat. Szóródáson az idősor adatainak különbözőségét értjük. 2.2.4. Szóródásmutatók A legáltalánosabban használt mértéke a szórás, mely az egyes értékek számtani átlagtól vett eltérésének négyzetes átlaga: σ = (y y ) N 1 (1.8) Ahol y t az adott időponthoz tartozó változó értéke, y pedig a sor számtani átlaga. A szórás megmutatja, hogy az egyes (ismérv) értékek átlagosan mennyivel térnek el az átlagtól. Jelölhetjük s-sel vagy σ-val. Az elemzés során a későbbiekben rendkívül fontos szerepet kap a szórás négyzete is, amit varianciának nevezünk (σ 2 ). 12

Szükség lehet arra is, hogy az y t értékek nagyságrendjétől és mértékegységétől elvonatkoztatott mérőszámmal mérjük és tegyük összehasonlíthatóvá a szóródást. Erre nyújt megoldást a relatív szórás, melynek jele a V és képlete: V = σ y (1.9) A relatív szórás azt fejezi ki, hogy a szórás az átlagnak hányad része, ezért %-os formában adjuk meg. Ezen alap mutatók ismerete, átismétlése elengedhetetlen a dolgozat tárgyát képző technikák megértéséhez. De ne rohanjunk még ennyire előre. Először ismerkedjünk meg az általam választott idősorokkal, melyek segítségével bemutatom az idősorok elemzési- előrejelzési technikáit. 2.3. Kiválasztott idősoraim jellemzői és vizsgálata egyszerűbb számításokkal. Az általam választott idősorok adatai a www.eia.gov honlapról elérhető adatbázisból származnak. Az Independent Statistics and Analysis, U.S. Energy Information Administration honlapjáról az energiaszektorra vonatkozó információkat szerezhetünk régiónként, országonként, kontinensenként vagy akár gazdasági társulásonként. Elérhetőek a fogyasztásra, előállításra, árakra vonatkozó információk természetesen különböző alapanyagokra, vagy már feldolgozott termékekre egyaránt. A dolgozatomban bemutatásra kerülő első idősor a közlekedési ágazat összes kőolajfogyasztását tartalmazza. A megfigyelések éves rendszerességgel készültek, 1949 és 2011 között, így összesen 63 adat áll a rendelkezésünkre. A fogyasztás mértékegysége pedig millió hordó. A második idősor, amellyel a későbbiek folyamán foglalkozunk részletesebben, a WTI árakat tartalmazza, havi rendszerességgel. A WTI (West Texas Intermediate) olyan nyersolajfajta, melyet referenciaként használnak az olajkereskedelemben és a hordónkénti ár alakulását mutatja be. Az idősor 1994 januárjától 2012 novemberéig szolgáltat, összesen 227 megfigyelést. 13

Az idősorok tárgyának tulajdonképpen most nincs jelentősége, hiszen nem bányászati vagy kereskedelmi szempontból van szükségünk az idősor adataira, hanem a bemutatott módszerek lefuttatása miatt. De most vessünk egy pillantást az idősorok grafikonjaira. A közlekedési ágazat kőolajfogyasztását tartalmazó idősor alakulását összefoglalóan az alábbi grafikon szemlélteti: A közlekedési ágazat kőolajfogyasztása (1949-2011) Millió hordó 6000 5000 4000 3000 2000 1000 0 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 t időpontok Kőolaj fogyasztás 1. grafikon: a közlekedési ágazat kőolajfogyasztása Forrás: http://www.eia.gov/totalenergy/data/annual/index.cfm#consumption A fenti idősorral és grafikonnal a következő fejezet első felében fogunk foglalkozni. Az idősor tulajdonságai lehetővé teszik, hogy a viszonylag egyszerűbb elemzési, előrejelzési módszerekkel ismerkedhessünk meg a gyakorlatban. A 2. grafikon a West Texas Intermediate, mint a New York-i árupiac egyik alaptermékének árának alakulását szemlélteti. 14

Ár (Dollár/hordó) 160 140 120 100 80 60 40 20 0 WTI ár alakulása (1994-2012) 1994.01. 1994.11. 1995.09. 1996.07. 1997.05. 1998.03. 1999.01. 1999.11. 2000.09. 2001.07. 2002.05. 2003.03. 2004.01. 2004.11. 2005.09. 2006.07. 2007.05. 2008.03. 2009.01. 2009.11. 2010.09. 2011.07. 2012.05.. Időpont 2. grafikon: WTI árak alakulás Forrás: http://www.eia.gov/dnav/pet/hist/leafhandler.ashx?n=pet&s=rwtc&f=d Már ránézésre is megállapítható, hogy jelentős különbségek vannak a két idősor szerkezetét illetően. A különbözőséget magyarázó okokkal és definíciókkal a 3. fejezet második felében foglalkozunk részletesen. Mielőtt megismernénk az elemzési, előrejelzési módszereket tekintsük meg a kiválasztott idősorok egyszerűbb mutatóit, melyeket az alábbi táblázat tartalmaz. Idősor/ Mutatók Közlekedési szektor kőolajfogyasztása Mértékegység 1. táblázat: Idősorok mutatói WTI hordónkénti ára Mértékegység Számtani átlag 3 336, 121 Millió hordó - Kronologikus átlag - 46,74 Dollár/hordó Átlagos változás mutatói Változás átlagos 59,6885 Millió hordó 0,316372 Dollár/hordó mértéke Változás átlagos 1,0237 % 1,019072 % üteme Módusz - 15,03 Dollár/hordó Medián 3493,965 Millió hordó 32,13 Dollár/hordó Minimum 1125,796 Millió hordó 11,35 Dollár/hordó 15

Maximum 5214,663 Millió hordó 133,88 Dollár/hordó Szóródás mutatók Szórás 1 215,5905 Millió hordó 30,20092 Dollár/hordó Variancia 1 477 660, 230 912,0954 (Szórásnégyzet) Relatív szórás 0,364372 % 0,646193 % Tartamidősor Állapotidősor Forrás: saját szerkesztés A táblázat által összefoglalt adatok részletesebb elemzésére most nem kerül sor, a számítások egyszerűen elvégezhetőek a megadott képletekbe való behelyettesítéssel. Ezen mutatók a későbbiekben bemutatásra kerülő technikák alapját képzik, kiszámításuk ott nyer értelmet, hiszen így még nem közölnek túl sok információt. A 3. fejezetben tehát olyan elemzési, előrejelzési eszközöket (és azoknak gyakorlati alkalmazásait) ismerünk meg, melyek alkalmazkodnak az idősorok sajátosságaihoz, így már-már külön ágán képezik a statisztika tudományának. Lássuk tehát az idősorelemzés modelljeit. 16

3. Az idősorelemzés modelljei Az idősorok modelljeit két teljesen különböző, szélsőségesnek tekinthető modellcsaládba sorolhatjuk, melyeket determinisztikus és sztochasztikus idősorelemzésnek hívunk. A későbbiekben látni fogjuk, hogy a statisztika fejlődése során megjelentek e módszereknek kombinációi, de előtte definiáljuk a két fogalmat. A determinisztikus idősorelemzés alapelve az, hogy az idősorok előre adott, hosszú távon érvényesülő, eleve determinált pályát követnek. 3 Az idősort ekkor tartósan érvényesülő tendencia, más néven trend, valamint tartósan ható, szabályos, jól modellezhető hullámmozgás (szezonalitás) határozza meg. Az elemzés célja ennek a pályának a leírása, az egyes elemek elkülönítése és ez által az idősor várható alakulásának hosszabb távú előrejelzése. A véletlent ugyan elfogadja, de zavaró elemnek tekinti, igyekszik annak hatását minél jobban kiszűrni, tehát megszabadulni a véletlen elemektől. Elmondható, hogy ez az irányzat inkább leíró, mintsem következtető szemléletet képvisel. Ezzel szemben a sztochasztikus idősorelemzés a rövid távú hatások elemzésével foglalkozik elsődlegesen. Alapelve az, hogy minden idősort sztochasztikus folyamatnak tekint, melynek pillanatnyi alakulását saját korábbi állapotából és a véletlen hatásokból lehet magyarázni. A véletlen szerves alkotóeleme a folyamatoknak, a jelenség fő mozgatójává válik. Ez a megközelítés felhasználja az intervallumbecslés és a hipotézisvizsgálat eszköztárát. A két irányzat a gyakorlatban persze nem válik mereven szét, s mint már említettem, ötvözve őket önálló modell- és módszercsaládok alakultak ki. Az így kialakult modellcsaládok közül a következőek a leggyakrabban alkalmazottak: Dekompozíciós idősormodellek Simító eljárások ARMA modellek 3 Hunyadi-Mundruczó-Vita: Statisztika, Aula Kiadó 1997., 535. oldal 17

3.1. A dekompozíciós modellek A legkorábban kialakult és az egyik legnépszerűbb modellezési eljárásokat értjük alatta. Dekompozíciós modellek Trendszámítás Analitikus trendszámítás Szabálytalan ciklus kimutatása Szezonális ingadozások Mozgóátlagolású trendszámítás 3. ábra: Dekompozíciós modellek csoportosítása Forrás: Saját szerkesztés A dekompozíciós modellek alapfeltételezése, hogy az idősorok négy fő, egymástól szétválasztható komponensre bonthatóak, ezáltal külön is vizsgálhatók: Hosszú távú irányzatot kifejező trend ( ), Az ettől szabályos (havi, negyedéves) ingadozásokkal eltérő szezonális komponens (s), A (többnyire hosszabb távú) szabálytalan ingadozást, hullámzást kifejező ciklikus komponens (c), Véletlen összetevő (ε). Az összetevők összeg- illetve sorozatszerűen kapcsolódhatnak egymáshoz, az előbbi az ún. additív, az utóbbi a multiplikatív modellekhez vezet. Az additív forma azt feltételezi, hogy a ciklus, a szezonális hatás és a véletlen tag is állandó, a trendtől független ingadozásokat végez: 18

y = y + s + c + ε (1.10) Multiplikatív modell szerint a ciklus, a szezonális trend és a véletlen tag ingadozásai a trendhez viszonyítva, annak arányában állandók: y = y s c ν (1.11) Ahol tehát: ŷ a hosszú távú alapirányzat vagy trend, s, illetve s* a szabályos rövidtávú (szezonális) ingadozást leíró komponens, c, illetve c* a szabálytalan hosszabb távú ingadozásokat leíró ciklikus komponens, és ε illetve ν a zavaró hatásokat leíró véletlen változók, melyekről többnyire csak azt feltételezik, hogy 0, illetve 1 körül ingadoznak, azaz várható értékük 0 vagy 1. A gyakorlati idősorok esetében sokszor egy vagy két komponens hiányozhat. Rövid idősorok esetében a hosszabb ciklusok többnyire nem mutathatók ki, ezért a módszertan elsősorban trend, illetve szezonális komponens meghatározására irányul. A determinisztikus idősorelemzés fő célja azonban a hosszú távú, tartós tendenciák megadása, melynek elengedhetetlen része a trendszámítás. 3.1.1. Trendszámítás A gondolatmenete nagyon egyszerű: az idősor alkotta pontokra valamilyen, előre meghatározott típusú függvényt illesztünk úgy, hogy az a lehető legjobban illeszkedjék a pontokra, azaz a lehető legjobban leírja a pontok által hordozott tendenciát. Azonban tisztázni kell o Milyen típusú függvénnyel akarjuk leírni az idősort? o Hogyan mérjük az illeszkedést és mikor tekintjük azt jónak? Elvben bármilyen függvény alkalmas arra, hogy trendfüggvényként használjuk, azt az idősor által leírt folyamat jellege határozza meg. A tendenciát legjobban leíró függvényre az idősor adatai és annak grafikus ábrája alapján következtethetünk. 19

Az illeszkedés mérésére a statisztika leginkább a legkisebb négyzetek módszerét alkalmazza, melynek lényege, hogy olyan függvényt keresünk, mely esetén a megfigyelt és a modell által számított értékek közti eltérés négyzetösszege minimális. (Az illesztett függvény és a megfigyelések közti pontonként vett távolságok előjele változhat. Nekünk csak az eltérés nagysága lényeges, így az eltéréseket négyzetre emeljük, és ezt minimalizáljuk.) A megfigyelési pontok és a trendértékek közötti eltérések/ távolságok a reziduumok. A trend egyenesét tehát úgy kell megválasztani, hogy az eltérések négyzetösszege minimális, a lehető legkisebb legyen. (A későbbiekben, a regressziószámítás áttekintésénél a 3.3. fejezet, 50. oldalán, külön kitérek a reziduumok bemutatására) Visszakanyarodva a trendszámítás módszeréhez, először is két trendszámítási családot kell megkülönböztetnünk. Analitikus trendszámítás esetén tudjuk, vagy legalábbis feltételezzük, hogy a tartós irányzat valamilyen analitikusan jól leírható függvény szerint alakul (vagy ilyennel megközelíthető). A cél tehát a függvény előállítása. Mozgóátlagolású trendszámítás esetén is feltételezzük a tartós trendet és a cél ismét annak meghatározása, azonban a trendet csak a megfigyelt idősor értékeinek különféle átlagolásával állítjuk elő. (Nem feltételezünk analitikusan leírható függvényt.) Most vizsgáljuk meg kicsit közelebbről a két trendszámítási módszert. 3.1.1.1. Analitikus trendszámítás Az analitikus trendszámítás a determinisztikus idősorelemzés legkorábban kialakult, legnépszerűbb és a számítógépek által is leginkább támogatott fajtája. Az analitikus trendszámítás az idősorban lévő tartós tendenciát alkalmasan választott analitikus függvénnyel írja le. 4 4 Hunyadi-Mundruczó-Vita: Statisztika, Aula Kiadó, 1997. 539.oldal 20

A továbbiakban ez a fogalom is két féle csoportra oszlik, mivel meg kell különböztetnünk lineáris és nemlineáris trendszámítást. Ha olyan jelenség időbeli változását vizsgálva azt tapasztaljuk, hogy az időegységenként bekövetkezett változás (lehet növekedés vagy csökkenés egyaránt) abszolút értelemben közel állandó, a változás egyenletes, az alapirányzat értékeit lineáris trenddel határozhatjuk meg. Ekkor az idősort a következő függvénnyel írhatjuk le: y = β + β t + ε (1.12) (t=1,2,,n) Ahol: t= az időváltozót kifejező, egymástól egyenlő távolságra lévő értékek sorozata β és β pedig a lineáris trendfüggvény ismeretlen paraméterei ε a t-edik időponthoz tartozó véletlen változó, melyről feltételezzük, hogy várható értéke 0. Feladatunk tehát β és β paraméterek becslése, mely a legkisebb négyzetek módszerével történik. A legkisebb négyzetek módszer megadja majd azokat a β és β paramétereket, melyek mellett a maradék, vagyis a véletlen változó hatása minimális, tehát a függvény a lehető legjobban leírja az idősort. Az egyenlet a becsülni kívánt paraméterekkel felírva: Tehát minimalizálni akarjuk a véletlen változó y = β + β t + e (1.13) e értékét. Az egyenletet ez alapján rendendezzük és négyzetre emeljük, ekkor megkapjuk a minimalizálandó értéket: y β β t 2 (1.14) majd deriváljuk és a deriváltakat 0-val egyenlővé tesszük, akkor megkapjuk az úgynevezett normálegyenleteket: 21

y = n β + β t (1.15) t y = β t + β t (1.16) A számítógépes programcsomagok meglehetősen leegyszerűsítik a lineáris trendfüggvény paramétereinek becslését, hiszen kész eljárásokat adnak az egyenletrendszer megoldására. A paraméterek közül β jelenti majd a t=0 időponthoz tartozó trendértéket, vagyis a tengelymetszetet, míg β a trendfüggvény konstans meredekségét jelöli (időegység alatt mennyivel változik a trend). Megmutatja, hogy időegység alatt mekkora az egy időszakra jutó átlagos változás (növekedés/ csökkenés) mértéke. Mind a β mind a β mértékegysége az eredeti megfigyelések mértékegységével azonos. A β mutató figyelembe veszi az idősor valamennyi értékét, így kevésbé érzékeny a szélső megfigyelési adatokra. A becsült paraméterek segítségével a megfigyelési időszakra könnyen előállíthatók a trendfüggvény értékei (y ) a kívánt t értékek behelyettesítésével: y = β + β t (1.17) (y ) segítségével minden időpontra kiszámíthatók a véletlen változó tapasztalati értékei, melyeket reziduumnak nevezünk: y y = e (1.18) Minél kisebbek tehát a reziduumok értékei abszolút értelemben, annál sikeresebb a lineáris függvény illesztése. Az illeszkedés jóságát meghatározhatjuk az alábbi képletbe való behelyettesítéssel: s = e n (1.19) Ez a mutató a reziduális variancia. Alsó korlátja 0, (ekkor tökéletes az illeszkedés), felső korlátja pedig nincs és nagyobb értékei rosszabb illeszkedésre utalnak. 22

Amennyiben a megfigyelési időszakon kívüli, t=n+1, n+2 értékeket helyettesítjük az (1.17.) egyenletbe, akkor tulajdonképpen a megfigyelési időszakon túlnyúló időszakra kiterjesztjük a trendfüggvényt, vagyis előrejelzéseket készítünk. Ekkor azt is feltételezzük, hogy a véletlen változó tulajdonságai változatlanok maradnak, nem változnak a megfigyelési időszak után, ami rendkívül súlyos kijelentés. A lineáris trenddel (és a többi trenddel is) ezért óvatosan kell bánni, mivel az előrejelzések feltételesek, szakmai ismeretek alapján feltételezzük, hogy a megfigyelt viselkedés a jövőben is megmarad és hasonlóképpen halad tovább. Most vizsgáljuk meg, hogyan működik a módszer az első, a közlekedési ágazat kőolajfogyasztását bemutató idősor esetében. Először is kijelenthetjük, hogy az idősorunk determinisztikus, hosszútávon érvényesülő trend és jól jellemezhető szezonalitás figyelhető meg, ezért a dekompozíciós módszerek alkalmasak az idősor leírására, méghozzá additív módon. A közlekedési ágazat kőolaj fogyasztása (1949-2011) Millió hordó 6000 5000 4000 3000 2000 1000 0 y = 65,451x + 1241,7 R² = 0,9741 1 3 5 7 9 111315171921232527293133353739414345474951535557596163 Időpont Kőolaj fogyasztás Lineáris (Kőolaj fogyasztás) 3. grafikon: A közlekedési ágazat kőolajfogyasztása lineáris trenddel Forrás: Saját szerkesztés A lineáris trend könnyen megadható az Excel segítségével, mint az látható is a grafikon területén. Az illeszkedés jóságáról R 2 segítségével kapunk információt. R 2 értéke ugyanis 0 és 1 között mozoghat és nagyobb értékei jobb illeszkedést jeleznek. Azonban felírható az egyenlet az egyenletrendszerek segítségével is. Ha az 23

alapadatokat behelyettesítjük a (1.15) és (1.16) képletekbe, az alábbi egyenletrendszert kapjuk: 210175,652 = 63 β + β 2016 (1.20) 8089091,287 = 2016 β + β 85344 (1.21) Az egyenletrendszer megoldásával természetesen megkapjuk a keresett β és β együtthatók értékeit és fel tudjuk írni a keresett trendegyenletet: y = 1241,698 + 65,451 t (1.22) A trendegyenletbe t időszakok behelyettesítésével megkapjuk az y becsült értékeket, melyeket, ha összevetjük a valódi megfigyelésekkel és négyzetre emeljük, akkor megkapjuk a reziduumok négyzetösszegét és a reziduális varianciát, amik, mint már tudjuk az illeszkedés jóságáról adnak információt. Esetünkben: e 2374746,361 s 37694,39 Ezek a mutatók önmagukban kevésbé értelmezhetők, az illeszkedés jóságáról úgy adhatnak képet, ha más, (nem lineáris) függvények reziduális varianciájával hasonlítjuk össze. A trendegyenletet felhasználhatjuk előrejelzések készítéséhez is, ha a megfigyelési időszakon túli t-vel dolgozunk a képletben. Jelezzünk most előre csak a lineáris trend segítségével 5 évre (t=63+1, 63+2,,63+5). 24

A közlekedési ágazat kőolajfogyasztásának előrejelzése Millió hordó 6000 5000 4000 3000 2000 1000 0 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 t időpont Kőolajfogyasztás Becsült kőolajfogyasztás 4. grafikon: A közlekedési ágazat kőolajfogyasztásának előrejelzése lineáris trenddel Forrás: Saját szerkesztés A számítás menete: y = 1241,7 + 65,451 64 = 5430,562Millió hordó y = 1241,7 + 65,451 65 = 5496,013Millió hordó y = 1241,7 + 65,451 66 = 5561,464Millió hordó y = 1241,7 + 65,451 67 = 5626,915Millió hordó y = 1241,7 + 65,451 68 = 5692,366Millió hordó Ha csak a trend alapján próbáljuk megbecsülni az értékeket, félrevezető adatokat kapunk. A lineáris trend ugyan jól illeszkedik az idősor folyamatára, azonban nem tudja korrigálni az értékeket a grafikonon is látható hullámmozgással. A trendegyenlet megadja, hogy milyen érték körül fognak elhelyezkedni, de részletesebben nem szolgál információval. Önmagában inkább a tendencia leírására szolgál, mintsem pontosabb becslések elkészítésére. Azt is látnunk kell, hogy a lineáris trendfüggvény olyan elemzésekhez alkalmazható sikerrel, ahol az idősor alaptendenciája lineáris. Azonban a társadalmi-gazdasági jelenségek vizsgálatakor sűrűn találkozhatunk ettől eltérő jellegű idősoroktól. Ezeket nemlineáris trendfüggvényekkel írhatjuk le, melyek között kiemelkedő jelentőséggel 25

bír az exponenciális trend. Mivel az azonos ütemben való növekedés elég gyakori a társadalmi-gazdasági idősorok esetében (például a népesség nagyságának alakulása, gazdasági növekedések mutatói is exponenciális növekedést/ csökkenést mutatnak) ezért foglalkozunk vele részletesebben. Exponenciális trendegyenlet felírására (csak a megfigyelt idősorra) a következő alapmodellt használhatjuk: y = β β v (1.23) (t=1,2,,n), Ahol t= az időváltozót kifejező, egymástól egyenlő távolságra lévő értékek sorozata β és β az exponenciális trendfüggvény ismeretlen paraméterei a v t pedig véletlen tényező, ami 1 körül ingadozik. Itt kapcsolódunk vissza a multiplikatív alapmodellhez, hiszen az exponenciális trend ebből származtatható, míg a lineáris trend az additív modellből. Az exponenciális trend paramétereit szintén a legkisebb négyzetek módszerével tudjuk becsülni. Az egyszerűbb és átláthatóbb lépések kedvéért nem eredeti formában alkalmazzuk a legkisebb négyzetek módszerét, hanem mindkét oldal logaritmusát véve. logy = logβ + t logβ + logv (1.24) Ekkor majdnem olyan egyenlettel dolgozunk, mintha lineáris trenddel lenne dolgunk, s bizonyos behelyettesítések után végezetül megkapjuk a becsült exponenciális trendet: y = β β (1.25) A paraméterek értelmezései is a lineáris trend paramétereivel azonosak, tehát β jelenti majd a t=0 időponthoz tartozó trendértéket, vagyis a tengelymetszetet, míg β a trend szerinti növekedési ütemet adja az eredeti mértékegységtől függetlenül, százalékos formában. 26

Az exponenciális trendet olyan idősorok leírásához és simításhoz használjuk, amelyek növekvő vagy csökkenő ütemben nőnek, illetve csökkennek. A β paraméter értéke adja meg az exponenciális trendfüggvény jellemző alakját. 5 Az exponenciális trenddel készített előrejelzések, csakúgy, mint a lineárisak, óvatosan kezelendők, mivel a függvény sajátossága, hogy érzékeny mind β paraméterre, mind t kitevőre. A β becslésénél elkövetett kis hiba is erősen torzíthatja az eredményeket, hangsúlyozott szerepéből kifolyólag. Egyéb nemlineáris trendek Fontos megjegyeznünk, hogy a valóságban az exponenciális jellegű trendek jelentős része nem valódi exponenciális trend. Egyfajta telítődési folyamatot írnak le, mivel a gyakorlatban az exponenciális jellegű növekedés gyakran korlátokba ütközik, lelassul és elveszti exponenciális jellegét. Ezeket s-görbének nevezi a szakirodalom. Az s- görbe kezdetben megegyezik az exponenciális trenddel, de egyszer aztán megtorpan és lelassul a növekedés. Tipikusan ilyen folyamat egy járvány terjedése vagy a mobiltelefonok elterjedése, közösségi oldalak felhasználóinak számának alakulása. S- görbe alakú korlátos növekedési folyamatot logisztikus függvény, Gompertz- és Johnston-görbe segítségével lehet közelíteni. Az analitikus trendszámítás esetén feltételeztük tehát, hogy a trendfüggvény típusát meg tudjuk adni és meg is adtuk. De mit tehetünk akkor, ha ettől a feltevéstől eltekintünk? 3.1.1.2. A mozgóátlagolású trendszámítás Amennyiben a vizsgálandó folyamat analitikus függvényének meghatározását középvagy hosszú távú ciklusok zavarják, valamint nincs kellő információnk az adott folyamatról, érdemes a mozgóátlagolású trendszámítás módszerét alkalmazni. Gyakran használják a fő tendencia meghatározására, mivel egyszerű és kevés kiinduló adat szükséges a használatához. 5 Hunyadi L.-Vita L.: Statisztika I. Aula Kiadó, Budapest, 2008, 279.o. 27

A mozgóátlagolású trendszámítás lényege, hogy az idősor t-edik eleméhez úgy rendelünk trendértéket, hogy átlagoljuk az idősor t-edik elemének bizonyos környezetében lévő elemeket. 6 A legegyszerűbb, ha a t edik elemet megelőző és követő értékeket vesszük figyelembe, s ekkor a mozgóátlagolású trend a következő formulából adódik: y = y + y + y 3 (1.26) (t=2,3,,n-1) Minden lehetséges t-re kiszámítva az átlagokat 3 tagú mozgóátlagot kapunk. Fontos látni, hogy nem lehet minden megfigyeléshez mozgóátlagolású trendet kapcsolni, hiszen az eredeti idősor eleje és vége élvész, mivel ekkor nem tudunk értéket rendelni az átlag kiszámításához! A továbbiakban ne 3, hanem m tagból számítsunk mozgóátlagot. Attól függően, hogy m páros vagy páratlan, különböző képleteket kell használnunk. Ha m páratlan, akkor m felírható m=2k+1 alakban, s az egyenlet a következőképpen alakul: y = y + y + + y + + y 2k + 1 (1.27) Fontos, hogy t-k 1 és t+k n legyen! (Az első, legegyszerűbb esetben m=3 és k=1 volt, tehát a t-edik időponthoz tartozó trendértéket a t-edik, a t-ediket megelőző és követő k számú megfigyelt értékek számtani átlagaként határoztuk meg.) Látható, hogy az idősor elején és végén lévő időszakokra nem lehetséges mozgóátlag számítása. A rövidülést k segítségével fejezzük ki: 2k=m-1. 6 Korpás: Általános statisztika II., Nemzeti Tankönyvkiadó, 1997, 248.oldal 28

Amennyiben m páros, akkor m=2k. Egyszerű számtani átlag használatával ekkor nem tudjuk biztosítani, hogy y t-k előtt és után azonos számú tag szerepeljen az átlagolásban, ezért súlyozott számtani átlagot használunk. Az alábbi képletbe helyettesítsünk be: y = 1 2 y + y + + y + + y + 1 2 y 2k (1.28) A t-k 1 és t+k n egyenlőtlenségeknek ekkor is fenn kell állniuk. A rövidülés ekkor pedig 2k=m. A mozgóátlagolású trendek- amennyiben nincs lényeges információnk az idősorrólalkalmazása hasznos lehet, hiszen a legegyszerűbb módon simítják az idősort. Az átlagolás útján tulajdonképpen csökkentjük a véletlen tag szerepét, de t mozgatásával biztosítjuk az alaptendencia megmaradását. Ha m-et növeljük (vagyis több tagból számolunk átlagot), akkor tudnunk kell, hogy csökken a véletlen szerepe, egyre rövidebb lesz a trend és maga a tendencia felismerése is nehezebbé válik. A mozgóátlagolás fontos kérdése tehát a tagszámok helyes megválasztása. Ez már a dekompozíciós modellek másik csoportjához, a szezonalitás vizsgálatához vezet. Szezonalitás alatt rövidtávú ingadozást értünk, amelyet a korábbiakban s-sel jelöltünk és feltételezzük az időben állandó hullámhosszat és szabályos amplitúdót. Ez általában éven belüli folyamatokra jellemző, és ha ismert a hullámhossza, akkor befolyásolja a mozgóátlag tagszámának megválasztását. Kimutatható ugyanis, hogy ha a mozgóátlagolás tagszáma (m) a periódus hosszának (p) egészszámú többszöröse, akkor a mozgóátlagolás kisimítja a periódust, míg más esetekben a mozgóátlagolás vagy nem simít elegendően, vagy újabb, esetleg az eredetitől eltérő hullámhosszú periódust generál, azaz nem létező ciklikus hatásokat vihet az idősorba. 7 A mozgóátlagolás módszere tehát egyszerű, a simítás sikeressége azonban függ az m megválasztásától, aminek jó meghatározására nincs egzakt kritérium. m nem lehet kicsi, hiszen akkor az idősorban megmarad a véletlen hatás, de m nem lehet túl nagy sem a sok trendérték vesztés miatt. A periodicitás (p) vizsgálatával megadható olyam 7 Hunyadi-Mundruczó-Vita: Statisztika, Aula Kiadó, 1997. 557.oldal 29

m, amely helyes információt közöl az idősorról. (p ismeretében a tagszámot a periodicitás hullámhosszával tegyük egyenlővé) Lássuk, hogyan valósul meg mindez a gyakorlatban. Számítsunk először 3 tagú mozgóátlagot. Már megfogalmaztuk, hogy ekkor 2k=m-1 a rövidülés, vagyis ha m=3, akkor 2 tagot vesztünk, méghozzá az idősorhoz tartozó első és utolsó tagjához nem tudunk értéket kapcsolni. 6000 A közlekedési ágazat kőolajfogyasztása 3 tagú mozgóátlaggal Millió hordó 5000 4000 3000 2000 1000 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 t időpont Kőolajfogyasztás 3 tagú mozgóátlag 5. grafikon: A közlekedési ágazat kőolajfogyasztása 3 tagú mozgóátlaggal Forrás: Saját szerkesztés Látható, hogy a 3 tagú mozgóátlag enyhén simítja az idősor adatait, ugyanakkor az alaptendencia szépen megmarad. Vegyünk most 10 tagú mozgóátlagot. Ekkor m=10=2k, súlyozott számtani átlaggal számítjuk ki az egyes értékeket a már korábban megadott képlet segítségével: y = 1 2 y + y + + y + + y + 1 2 y 2 5 (1.29) Az első értéket a 6. időponthoz tudjuk rendelni, s tovább folytatva kapjuk meg a 10 tagú mozgóátlagolású trendet, mely az X. grafikonon látható: 30

A közlekedési ágazat kőolajfogyasztása 10 tagú mozgóátlaggal 6000 5000 Millió hordó 4000 3000 2000 1000 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 t időpont Kőolajfogyasztás 10 tagú mozgóátlag 6. grafikon: A közlekedési ágazat kőolajfogyasztása 10 tagú mozgóátlaggal Forrás: Saját szerkesztés A mozgóátlagok tagszámának ily módon történő emelése láthatóan nagyobb simítást eredményez. A tendencia még leolvasható, azonban az idősor enyhe hullámmozgása már kevésbé figyelhető meg. Számolnunk kell a rövidüléssel is, amely 2k=m=10, tehát az idősor első 5 és utolsó 5 eleméhez nem tudunk értéket csatolni. Ajánlatosabb ezért rövidebb idősort és rövidebb mozgóátlagokkal vizsgálni, ha pontosabban szeretnénk leírni az idősort. De mi történik akkor, ha hosszabb távú, esetleg nem szabályos ciklusok meghatározása a feladat? Az analitikus trendszámítás és a mozgóátlagolású trendszámítás külön-külön nem képesek kezelni a megfigyelt adatokat, célszerű tehát összevetni őket! 3.1.2. A szabálytalan ciklus A szabálytalan természetű, közép- és hosszú távú ciklus (C) meghatározható az előbb bemutatott két módszer egymást kiegészítő, kombináló alkalmazásával. Ez a dekompozíciós módszer család második tagja. Az eljárás kétféleképpen történhet: 31

Először elkészítjük az idősor mozgóátlagolású trendjét, majd abból analitikus trendet számítunk. Ekkor a mozgóátlagolású trend és az arra épített analitikus trend különbsége kiadja a ciklust. Másik lehetőség az analitikus trend illesztése az idősorra. Ezt a következő lépésben le kell vonni az idősor elemeiből és ekkor megkapjuk a maradék ciklust, periodikus ingadozást és a véletlen komponenst. A ciklusból, a periodikus ingadozásból és a véletlen komponensből mozgó átlagolás segítségével már meg lehet határozni a ciklus értékeit. Bármelyik módszer használható, bár eltérőek, a folyamat végén általában egymáshoz közel álló eredményekre jutnak. A mozgóátlagolású trendszámítás kapcsán már szükségünk volt a szezonális ingadozások definíciójának bevezetésére, most viszont kicsit részletesebben is bemutatnám a dekompozíciós modellek e tagját. 3.1.3. A szezonális ingadozások Mint már korábban megfogalmaztam, szezonális ingadozásnak a rendszeresen ismétlődő, azonos periodicitású = hullámhosszú, szabályos amplitúdójú és leginkább rövid távú ingadozásokat nevezzük. Ez az elnevezés csak az éven belüli, leginkább évszakok változásával kapcsolatos ingadozások esetében indokolt. (Más periodicitású, de szintén rendszeresen ismétlődő ingadozásokra inkább az idényszerű kifejezést használjuk.) Feladatunk az S, vagy S* komponens értékeinek becslése a megfigyelt idősor alapján. A módszer első lépése a trend (ideiglenes) kiszűrése az idősorból. Feltételezzük továbbá a középtávú ciklus hiányát, tehát a szezonális és a véletlen hatás kapcsolatát kell megvizsgálnunk. A szezonalitásról kijelentettük, hogy állandó hullámhosszal és szabályos amplitúdóval kezeljük, így S-ről átlagolással megszűrhetjük a véletlen komponenst. 32

Mielőtt elemeznénk az idősort, a megfigyelt elemeket két indexszel lássuk el: legyen i az egyes periódusok sorszáma, míg j a periódusokon belüli időszakok sorszáma. Legyen továbbá a perióduson belüli időszakok száma p, vagyis j=1,2,,p. Ez alapján a megfigyelt idősor periódusainak száma lesz, vagyis i=1,2,. Legyen egész szám, hiszen ekkor feltételezzük, hogy idősorunk csak teljes periódusokból áll. Visszatér itt is az additív vagy multiplikatív modell választásának problémája. A választás kulcsa a szezonalitás jellege. Ha feltételezzük, hogy minden periódusban azonos mértékű a kilengések nagysága, akkor az a szezonalitás mértékével egyenlő, azzal jellemezhető, az additív modell itt alkalmazható. Ekkor a megfigyelt idősorra felírható egyenlet: y = y + S + e (1.30) És ahogy korábban megadtuk, (i=1,2, ) és (p=1,2,, p). y a korábban bemutatott módszerek egyikével maghatározott trendfüggvény becsült értéke, e ij pedig a véletlen komponens trendszámítás után megmaradt értéke. A szezonalitás állandóságát feltételezzük, tehát S indexében csak j található. Ha a következő lépésben a trendértékeket levonjuk és leválasztjuk a véletlen komponenst is, akkor megkapjuk a nyers szezonális eltéréseket: s = y y n p (1.31) Az s j, vagyis a becsült nyers szezonalitás eltérés azt mutatja, hogy a megfigyelt idősor a j-edik szezonban átlagosan mennyivel tér el a trendértéktől a szabályosan ismétlődő szezonhatás következtében. Követelményünk az, hogy egy perióduson belül a szezonális eltérések kiegészítsék egymást, ezért s j nyers szezonális eltérések helyett a korrigált szezonális eltéréseket alkalmazzuk, hogy bemutassuk a szezonhatásokat: s = s s (1.32) 33

Látható, hogy a nyers szezonális eltéréseket a saját átlaguktól vett eltéréssel helyettesítjük. De hogyan is értelmezzük a kiszámított értékeket? Hogyan működik a mi idősorunk esetében? Eddig éves szinten meghatározott fogyasztásokat vizsgáltunk az idősorunk esetében, most térjünk át a havi megfigyelésekre és határozzuk meg a korábbiakban megismert trendegyenletek közül a legjobban illeszkedőt. Ragadjuk ki az idősorunkból a 2001. március- 2006. március időszakot és vizsgáljuk meg havi bontásban! Az eredményt az alábbi grafikonon láthatjuk: Millió hordó 15 14,5 14 13,5 13 12,5 12 11,5 11 A közlekedési ágazat kőolajfogyasztása (2001.03-2006.03) y = 12,774e 0,0016x 1 11 21 31 41 51 61 t időpont Valós kőolajfogyasztás Expon. (Valós kőolajfogyasztás) 7. grafikon: A közlekedési ágazat kőolajfogyasztása (2001.03-2006.03) Forrás: Saját szerkesztés Láthatjuk, hogy exponenciális trendegyenletet használunk majd. Ha az y = 12,752, exponenciális trendegyenletbe behelyettesítünk és képezzük az eredeti megfigyelésektől vett eltéréseket, akkor, mint már tudjuk, megkapjuk a nyers szezonális eltéréseket. Ha az adott idő intervallumban havi adatok helyett a szezonok hosszát 3 hónapban (egy évben tehát 4 szezonnal számolunk) adjuk meg, akkor az eredmény így alakul: 34

Millió hordó 43 42 41 40 39 38 37 36 35 Szezonális kőolajfogyasztás (2001-2006) 1 2 3 4 5 6 7 8 9 10 1112 13 1415 1617 1819 20 n (szezon) Szezonális kőolajfogyasztás Becsült szezonális kőolajfogyasztás 8. grafikon: Szezonális kőolajfogyasztás Forrás: Saját szerkesztés Mit is látunk a fenti grafikonon? A 2001. március és 2006. március között vizsgált időszakot 20 szezonra bonthatjuk, melyek egyenként 3 hónapot ölelnek fel. Az így előállított idősor megfigyeléseire szintén felírhatunk egy trendegyenletet, ahol az y = 38,24 + 0,1894 t lineáris trend esetén lesz az eltérések négyzetösszege minimális. Ha összevetjük a valós és a trend által előállított, becsült kőolajfogyasztást, akkor különbözetül, mint már tudjuk, a nyers szezonális eltérést (S j ) kapjuk. Az összes megfigyelésünk száma n=20, míg a szezonok száma évente p=4. s = s = képletünk ekkor ezeket az értékeket tartalmazza: (37,78 38,43) + (39,37 38,62) + + (41,18 42,028) 20 4 = 0,0012 Ekkor S j nyers szezonális eltérés értékére 0,0012 millió hordó-t kapunk. Ez nem meglepő, hiszen természetes követelmény az, hogy a szezonális hatások egy perióduson belül kiegyenlítsék egymást! Gyakran e tulajdonság fennállása miatt használatos S j nyers szezonális eltérés helyett, az s = s s korrigált szezonális eltérés. A könnyebb értelmezéshez tekintsünk meg az alábbi táblázatot: 35

2. táblázat: Szezonális eltérések Szezonok Évek j=1 j=2 j=3 j=4 i=1-0,6494 0,7512 0,8718-0,4776 i=2-1,097 0,8836 0,7142-0,0452 i=3-1,6246-0,054 0,6066-0,1528 i=4-0,8722 0,6084 0,749 0,1096 i=5-0,8298 0,6108 0,7514-0,848 Összesen -5,073 2,8 3,693-1,414 Átlag -1,0146 0,56 0,7386-0,2828 Forrás: Saját szerkesztés S 1 esetében a számítások alapján elmondhatjuk, hogy az általunk megfigyel idősor, a közlekedési ágazat kőolajfogyasztása az első szezonban (j=1) átlagosan 1,0146 millió hordóval tért el a trendértéktől a szabályosan ismétlődő szezonhatás következtében. s -ot megkapjuk, ha a négy szezon értékeit a szezonok számával elosztjuk, vagyis: 1,0146 + 0,56 + 0,7386 0,2828 s = = 0,003 4 (1.33) Ezzel az értékkel kell módosítanunk az egyes szezonok értékeit, tehát: s = s s = 1,0146 0,003 = 1,0176 (1.34) Az első negyedév korrigált szezonális eltérése így 1,0176 millió hordó (1,0176 millió hordóval kevesebb), a második szezonra a számítás ismételt elvégzésével s =0,557 millió hordó értéket kapunk, míg s = 0,7356 millió hordó és s = 0,2825 millió hordó. A szezonális hatások itt is kiegyenlítik egymást, más idősor esetén természetesen jóval nagyobb szezonális eltérések állhatnak fenn. A mi idősoruk jellegzetességei miatt az additív modellt használtuk a szezonalitás elemzésére, de mikor választható a multiplikatív modell? Akkor, ha a szezonalitás amplitúdója a trendértékkel arányosan változik (vagyis alacsonyabb szinten kisebbek, magasabb szinten nagyobbak a kilengések), a kilengések trendhez viszonyított aránya pedig nagyjából állandó. 36

A megfigyelt idősorra felírható egyenlet multiplikatív modell esetében: y = y S u (1.35) Az additív modellnél alkalmazottaknál hasonlóan itt is meghatározható S becsült szezonindex: s = y y n p (1.36) A becsült nyers szezonindex kifejezi, hogy a j-edik szezonban a megfigyelt idősor átlagosan hányszorosa a trendértéknek a szezonalitás következtében. A nyers szezonindex számtani átlagával való osztásával könnyedén megkaphatjuk a korrigált szezonindexet: s = s (1.37) s A kiszámított szezonális eltérések és szezonindexek értelmezésünk nem bonyolult és jól jellemzik a szezonalitás sémáját. Ha az idősort megtisztítjuk a szezonalitási mutatókkal, akkor azt szezonális kiigazításnak nevezzük, az idősort pedig szezonálisan kiigazított idősornak. A szezonális elemzés meglehetősen erős feltételezésekhez kötött, ezáltal nem képes a gyakorlatban előforduló esetek mindegyikét leírni. Hátrányai, hogy nem tudja kezelni a változó amplitúdót, változó hullámhosszú ciklusokat, és a valóságban nem egy, hanem kettő vagy több ciklus komponens eredőjeként állnak elő az idősorok. A hosszú távú idősorelemzés egyre inkább eltávolodik a statisztika klasszikus eszközeitől, azok az esetek nagy részében nem alkalmazhatóak. Éppen ezért, a dekompozíciós modellek után, most ismerkedjük meg az idősor elemzések módszereinek másik, nagy csoportjával. Korábban már a mozgóátlagolású trendszámításnál érintettük a simító eljárásokat, de külön fejezetrészt kell szentelnünk e technikáknak. 37

3.2. A simító eljárások A sztochasztikus idősormodellek alapfilozófiája az igazodás, az előrejelzés hibáiból való szisztematikus tanulás és a folyamatos pályakorrekció. A simító eljárások e sztochasztikus és a korábban tárgyalt determinisztikus modellek között helyezkednek el. Nem fogadják el az eleve elrendelt pályát, legalábbis nem erre alapozzák filozófiájukat. Az eredményeket fokozatosan, lépésenként felülvizsgálják és az újabb információkkal korrigálják, kiszűrve a véletlen ingadozásokat. A simító eljárásokat, vagy más néven kiegyenlítő módszereket, prognózisok, előrejelzések készítéséhez dolgozták ki. A modellek becsléseit egyszer kell csak elvégezni, a későbbiekben az új információkkal korrigálni, helyesbíteni kell a már felállított modellt, tehát rugalmas, nem igényel újraszámítást. Ismerkedjünk meg most ezekkel a módszerekkel. A simító eljárásokat prognózisok készítésére használják, amit korrigálnak a hibákkal: y = y + αf(e ) (1.38) ( 0 α 1) Ahol α igazodást, simítást kifejező paraméter f(e t ) a hibakorrekciós függvény Mit is fejez ki a fenti egyenlet? A következő, t+1-edik időszakra vonatkozó előrejelzést megkapjuk, ha t-edik időszakra vonatkozó előrejelzést korrigáljuk szintén t-edik időszakban elkövetett e t hibával. Az α, mint az igazodást/simítást kifejező paraméter határozza meg, hogy milyen mértékben vesszük figyelembe az elkövetett hibát. Ha α 0 körüli, vagyis csaknem eltekintünk tőle, akkor nem tükrözi a tanulás folyamatát, hiszen az előrejelzésünk majdnem megegyezik az előző időszakra vonatkozó becsléssel. Ekkor túlságosan is kisimítja az idősort, eltüntetve annak ingadozásait. Ha α nagy, 1 körüli, az sem hatékony, hiszen erősen kalkulál a hibával, s nem szűri ki a véletlen ingadozásokat és nem rajzolja ki a tendenciát. Az α szerepe és annak helyes megválasztása kulcsfontosságú. 38

Az egyenletben még konkretizálnunk kell a hibakorrekciós függvény alakját. Az a legegyszerűbb, ha f konstans. Ekkor a korrekciós tagban a simító paraméter az elkövetett hibával szorzódik, s ez az összefüggés lesz majd a Brow-féle exponenciális simítású modellek alakja. Ha az előbbi kijelentés érvényesül, akkor a következő alapegyenletet írhatjuk fel: y = y + α(y y ) = (1 α)y + αy (1.39) A képlet jobb oldalából kidomborodik, mennyire nagy szerepe van α-nak: ha kicsi, akkor erősen simít, megmerevedik az előrejelzés, ellenkező esetben az előző időszak megfigyelései értékeihez igazodik, késéssel követi a folyamatot. Amennyiben alakítunk az alapképleten (beszorozzuk mindkét oldalt (1-α)-val, kiemelünk, rendezzük az egyenletet), akkor a következő képletet kapjuk: Ahol w i =α(1-α) i, i=0,1,2, és w = 1, valamint w i 0 y = w y (1.40) A fenti egyenletnél t-t végtelennek tekintjük (csak átmenetileg), ezáltal feltételezve az idősor hosszúságát és homogenitását, így az utolsó tag eltűnik, s a folyamat függetlenné tesszük az induló értéktől. A következőekben ismerjük meg a Brown féle exponenciális simítás két legegyszerűbb alkalmazását. 3.2.1. Egyszeres exponenciális simítás Az exponenciális simítás legegyszerűbb esetét az jelenti, ha olyan idősorra alkalmazzuk, amely nem tartalmaz sem trendet, sem szezonalitást és az ingadozásai is tendenciában állandónak tekinthetők. 8 Ezt a tulajdonság halmazt összefoglalóan stacionaritásnak, az ilyen idősort pedig stacionárius idősornak nevezzük. Tehát feltételezzük, hogy az általunk vizsgált idősor y t =β 0 +ε t alakú. 8 Hunyadi-Mundruczó-Vita: Statisztika, Aula Kiadó, 1997. 578. oldal 39

β 0 jelenti az átlagot kifejező konstanst, ε t pedig 0 várható értékű, egymástól független, σ 2 varianciájú valószínűségi változók sorozata. A kezdeti megfigyelési y t értékeket esetenként az idősor átlagával helyettesítik (y ). Ekkor kimutatható, hogy a t+1-edik időpontra vonatkozó előrejelzés torzítatlan: E(y ) = β (1.41) Az érték független α-tól. Más esetben azonban fenn áll alfa választásának problémája, mert az előrejelzés varianciája (Var(y )) ismét függ az α-tól: A nagy α-k nagyobb varianciát eredményeznek, ezáltal kevésbé simítanak Ha α=1, akkor az eljárás nem simít, mivel a variancia megegyezik az eredeti y változók varianciájával Amennyiben α kicsi, vagyis 0 körüli, tökéletesen simít, mert a variancia határértékben 0-hoz tart. Az alapeljárást és a hozzá megadott feltételeket, tulajdonságokat nevezzük Brown féle egyszeres simításnak. Trendmentes, hosszú idősorra torzítatlan előrejelzést ad, valamint α értékétől függően képes kisimítani az idősort. Az exponenciális simítás érdemben csak egy időszakra képes előrejelzést adni, hiszen alapelve az, hogy a mindenkori előrejelzések folyamatos felülvizsgálatából épül fel. És ha nem áll rendelkezésre az y t+1, akkor jobb híján a becsült y -et használnánk, akkor egy pont mindig önmagát ismétlő sort kapnánk! y = αy + (1 α)y = y (1.42) Milyen módon válasszuk meg α-t az optimális előrejelzés biztosításához? Nincs meghatározott módszer α megadására. A legkisebb négyzetek módszere (, mint azt már tudjuk, az eredeti sortól vett eltérés négyzetösszegének minimálissá tétele a cél) az egyik leggyakrabban alkalmazott módszer, azonban nem bizonyított, hogy a legalkalmasabb α megadására. Lehet az átlagos abszolút, vagy százalékos átlagos 40

abszolút hiba minimalizálást alkalmazni, de tulajdonképpen lehet ezektől eltérő módszert is választani. Az egyszeres exponenciális simítás gyakorlatát külön nem mutatom be, mivel a lépésekkel találkozunk a kettős exponenciális simítás metodikájánál is. 3.2.2. Kettős exponenciális simítások Az előző módszer hiányosságát az adta, hogy nem volt képes a trenddel rendelkező sorokat simítani és ez által előre jelezni. Adódik a kérdés: a vélhetően lineáris trendet követő idősorok esetén hogyan készítsünk előrejelző becsléseket? Erre a kérdésre dolgozták ki a simító eljárásoknak összetettebb formáit, például a Brown féle kettős simítás módszerét. A kétszeres simítás az egyszeresen kisimított sor újbóli egyszeres simítását takarja, ez a módszer kulcseleme, az egyszeres simításnál bemutatott előrejelzési módszer tehát megmarad. Az egyszeres simítás képlete így módosul: S ( ) ( ) = αy + (1 α)s (1.43) Az első simított értéket S t (1) jelenti, ahol az (1) index utal az egyszeres simításra. Ebből következik a kétszeres simítás egyenlete: S ( ) = αs ( ) ( ) + (1 α)s (1.44) Ahol S t (2) a kétszeresen simított értéket jelöli. Látható, hogy a kezdeti értéket most is az előző időszaki értéket tekintjük, összegezve a fenti két egyenletet, megkapjuk a kétszeres exponenciális simítás előrejelzését: y = 2S ( ) ( ) S (1.45) 41

Lássuk, hogyan is alkalmazható a gyakorlatban. Térjünk vissza 63 megfigyelésből álló, a közlekedési ágazat kőolajfogyasztás évenkénti alakulását bemutató idősorunkhoz. Millió hordó 5500 4500 3500 2500 1500 500 A közlekedési ágazat kőolajfogyasztásasimítással (1949-2011) 1 4 7 10 13 16 19 22 25 28 31 34 37 t időpont 40 43 46 49 52 Kőolajfogyasztás α=0,1 α=0,4 α=0,8 55 58 61 64 9. grafikon: A közlekedési ágazat kőolajfogyasztása simítással Forrás: Saját szerkesztés A grafikonon kivehető, hogy a különböző α értékek hogyan simítják az idősort. Az α értékének magasabbra vétele jobb lekövetést eredményez. Az α különböző eseteinek kiszámítását most nem mutatom be részletesen, de az első 3 értéket α=0,1 esetében az alábbi módon kapjuk meg: S 0 (1) kezdőértékünk y 1 = 1125,796 millió hordó értékkel egyenlő, mellyel az első 3 egyszeresen simított érték (millió hordó): S (1) 1 = 0,1*1125,796+0,9*1125,796=1125,796 S (1) 2 = 0,1*1225+0,9*1125,796=1135,716 S (1) 3 = 0,1*1347,707+0,9*1135,716=1156,915 Láthatjuk, hogyan korrigál a tényadatokkal és az előzőleg kiszámolt, becsült értékekkel. 42

Most az egyszeresen simított értékekből állítsuk elő a kétszeresen kisimított sor első néhány értékét (millió hordóban): S (2) 0 = S (1) 1 = 1125,796 lesz a kezdő értékünk S (2) 1 = 0,1*1125,796+0,9*1125,796=1125,796 S (2) 2 = 0,1*1135,716+0,9*1125,796=1126,788 S (2) 3 = 0,1*1156,915+0,9*1126,788=1129,801 Ezt a folyamatot kell folytatni az összes y és y értékkel. Amint minden S (1) (2) t és S t-1 értéket előállítottunk, az (1.45) számú képletbe behelyettesítve megkaphatjuk az előrejelzést: y = 2 4681,3 4150,591 = 5212,009 (1.46) Az előrejelzett 5212,009 millió hordónyi kőolajfogyasztás meglehetősen torz érték, amely a módszer hiányosságait egyértelműen megmutatja és ez a torzulás csak halmozódik a későbbi becsült értékekben. A kettős exponenciális simítás módszere hiába egy továbbfejlesztett módszer, azonban itt is fenn állnak a α megválasztásának következményei: kicsi α esetén, mint láthatjuk, torzítással számolhatunk és érzékenyen reagál a kezdő értékekre, míg nagy α túlzottan követi az induló értéket. Hogy e hibákat orvosolják, kifejlesztésre került a Brown féle korrigált kettős exponenciális simítás módszere. Ez a technika már nem csak az egyszeres simítás lépéseinek ismétléséből áll, hanem a mindenkori trendértéken kívül a trendértéket előállító két paramétert is felülvizsgálja, és újra meghatározza az újabb megfigyelések birtokában. Összegezve elmondhatjuk, hogy a trendfüggvény illesztése, fokozatos módosítása adja az előrejelzések helyes értékeit. 3.2.3. Brown féle korrigált kettős exponenciális simítás Először is ismernünk kell természetesen a trendfüggvény kezdő paramétereit. Itt szintén lineáris trend illesztésével nyerünk adatokat, majd e paramétereket fogjuk 43

lépésről lépésre módosítani. A korábban felírt S ( ) és S ( ) értékeket használjuk, de az alábbi módon előállítva: S ( ) = β 1 α α β (1.47) S ( ) = β 2 1 α α β (1.48) Az előállított paraméterek értékének meghatározása után minden egyes t időszakra újra megbecsüljük a trend szintjét (β ) és meredekségét (β ). Amint minden adat előállt, már megadhatók a mindenkori simított vagyis előrejelzett értékek: Ahol T jelenti az előrejelzés hosszát. y = β, + β, T (1.49) Lássuk mennyiben tér el a kettős exponenciális simítás módszerétől. A számítások első lépéseként írjuk fel az idősor lineáris trendegyenletét. A dolgozatban már korábban találkoztunk vele: y = 1241,7 + 65,451 t (1.50) Most határozzuk meg, mely alfa esetén minimális az eltérések négyzetösszege. Tegyük fel, hogy ez α=0,8 esetében valósul meg. Ekkor már az (1.47) és (1.48) egyenletek alapján meghatározhatjuk a simított sorok kezdeti értékeit, millió hordóban: S ( ) = 1241,7 0,2 65,451 = 1225,34 0,8 S ( ) = 1241,7 2 0,2 65,451 = 1208,9745 0,8 Tudjuk, hogy a β paraméterek induló értékei megegyeznek a trendegyenlet paramétereivel, így adódik is az első időszak becslése: y = 1241,7 + 65,451 = 1307,151 millió hordó 44

Most felhasználjuk a simító egyenleteket a soron következő simított értékek előállításához: S ( ) = 0,8 1125,796 + 0,2 1225,34 = 1145,7048 S ( ) = 0,8 1145,7048 + 0,2 1208,9745 = 1158,36 Ezek segítségével meg is kaphatjuk a korrigált trendparamétereket. β, = 2 1145,7048 1158,36 = 1133,0496 β, = 0,8 (1145,7048 1158,36) = 50,6208 0,2 Számítsuk ki ezek után az y értéket: 1133,0496-50,6208= 1082,4288 millió hordó. Ezek tulajdonképpen a Brown féle korrigált kettős exponenciális simítás alaplépései. Ha a megfigyelési időszakon túli időpontokra akarunk előrejelezni, akkor az utolsó megfigyeléshez tartozó, jelen esetben β, = 4892,717 és β, = 13,4787 értékekkel megtehetjük azt, s az alábbi becsléseket kaphatjuk, például a következő 5 évre: y = 4892,717 + ( 13,4787) = 4879,238 millió hordó y = 4892,717 + 2 ( 13,4787) = 4865,759 millió hordó y = 4892,717 + 3 ( 13,4787) = 4852,281 millió hordó y = 4892,717 + 4 ( 13,4787) = 4838,802 millió hordó y = 4892,717 + 5 ( 13,4787) = 4825,323 millió hordó A Brown féle korrigált kettős exponenciális simítást és előrejelzéseket is tartalmazó sort az alábbi grafikonon szemléltetem: 45

A közlekedési ágazat kőolajfogyasztása Brown féle korrigált kettős exponenciális simítással Millió hordó 5000 4000 3000 2000 1000 Tényeleges kőolajfogyasztás Előrejelzés 0 1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 t időpont 10. grafikon: A közlekedési ágazat kőolajfogyasztása Brown féle korrigált kettős exponenciális simítással Forrás: Saját szerkesztés A fenti grafikonon látható az eredeti megfigyeléseket tartalmazó idősor és a Brown féle korrigált kettős exponenciális simítással készült érékek összehasonlítása. Látjuk, hogy az előrejelzett adatok jól lekövetik az idősort, ami nem csak α magasabb értéke, hanem a módszer technikája miatt sikeres. A becslések nem lesznek a lehető legmegbízhatóbbak, de a módszer jelentős fejlettséget mutat a korábbi technikák előrejelzési képességeihez képest. A simító eljárások közül most csak a leggyakrabban alkalmazottakat mutattam be. A fentieknél jóval bonyolultabb eljárások is léteznek, melyek a nemlineáris idősorok, szezonális sorok, üzleti ciklusok illetve a változó szezonalitás vizsgálatára is alkalmasak. Szakdolgozatom keretei sajnos nem teszik lehetővé bonyolultabb módszerek további bemutatását, azok sokrétűsége és összetettsége miatt. A fejezet eddigi részeiben a determinisztikus és determinisztikus-sztochasztikus modell között átmenetet képző technikákkal ismerkedtünk meg. A következő alfejezetben új idősor szemlélteti majd az előrejelzési technikák lépéseit, alkalmazhatóságát, amely már csak tisztán sztochasztikus idősorokkal foglalkozik. 46

3.3. AutoRegresszív- és MozgóÁtlag- modellek Mint már olvashattuk, az idősorokat két szélsőséges csoportba sorolhatjuk. Lehetnek ugyanis determinisztikus vagy sztochasztikus idősorok. Megállapítottuk, hogy a determinisztikus idősorok valamilyen eleve elrendelt, hosszú távon érvényesülő pályát követnek. Az ilyen sorok vizsgálatára alkalmaztuk a dekompozíciós modelleket. A sztochasztikus és determinisztikus modellek közötti ingadozó idősorok elemzésére, előrejelzésére használtuk a simító eljárásokat. Most pedig elérkeztünk a tisztán sztochasztikus idősor elemzéséhez. Az ilyen idősorok esetén a véletlen szerves alkotóeleme a folyamatoknak, s a véletlen változóra szigorú és pontos feltételezéseket kell alkalmaznunk. A legegyszerűbb és legelterjedtebb sztochasztikus idősormodellezési technikák, melyek szakdolgozatomban helyet foglalnak: az AutoRegresszív és MozgóÁtlagolású (ARMA) modellek. Mielőtt részletesen megismerkednénk az idősorelemzési modellek harmadik csoportjával, röviden elevenítsük fel, mit is tudunk a korreláció és regresszió számításról. E témakör ismerete ugyanis elengedhetetlen az autoregresszív és mozgóátlagolású módszerek megértéséhez. Korreláció- és Regresszió számításról általánosságban A társadalmi-gazdasági folyamatok elemzése sokszor terjed ki két változó közötti összefüggések vizsgálatára. A két változó kapcsolatának számszerűsítéséhez fontos a korreláció. A korreláció általánosításaként definiálhatjuk a regressziót, mely lényeges jellemzője, hogy egyszerre több változót is képes kezelni és foglalkozik a változók okokozati összefüggéseivel. Korreláció X és Y változók vizsgálata esetén, (ha t=1, N különböző megfigyelési egységek) a két változó közötti korrelációt az alábbi képlettel adhatjuk meg: (Y Y )(X X ) r = (Y Y ) (X X ) (1.51) 47

Ahol Y t és X t a változók egyes megfigyelési időpontban felvett értékei, míg Y és X az egyes változók átlagai. A gyakorlatban a számítógépes programcsomagok természetesen tartalmazzák ezt a képletet, mert meglehetősen időigényes lenne a korreláció kiszámítása egy-egy hosszabb idősor esetén. Az eredményül kapott r érték mindig -1 és 1 között mozog. A pozitív értékek pozitív kapcsolatot, míg a negatív értékek ellentétes kapcsolatot jelentenek. Ha r=0, akkor X és Y nem korrelálnak egymással, míg 1 tökéletesen pozitív, -1 pedig tökéletesen negatív kapcsolatot takar. (X és Y valamint Y és X közötti korreláció ugyanazt jelenti.) Az r korrelációs együtthatót még felírhatjuk ilyen formában is: r = C σ σ (1.52) A fenti képletben a X és Y ismérvek szórását vizsgálja a kovarianciával (C). A kovariancia tulajdonképpen a változók együtt-ingadozásának összefoglaló mutatószáma. Szintén jelzi a változók közötti kapcsolat meglétét, illetve irányát, ugyanolyan formában, mint az r, vagyis a korrelációs együttható esetében láttuk. Viszont a kapcsolat szorosságáról a kovariancia csak a szóródás ismerétében adhat információt, önmagában nem. Fontos a korreláció vizsgálatánál elgondolkodni az okság kérdésén. Sokszor kíváncsiak vagyunk és kutatjuk azt, hogy valóban az egyik változó alakulása okozza-e a másik alakulását. Ezt nem csak a kapott eredmények megfelelő értelmezésével kell elvégeznünk, hanem a józanészre, a logikára hagyatkozva. Szeretünk ugyanis az oksági kapcsolat és a korreláció közé egyenlőségjelet tenni, amely sok esetben nem indokolt. Mint már említettem az elemzések során nem csak két változóval dolgozhatunk. A regressziós számítások alkalmasabbak a több változó közötti kapcsolat elemzésére, de előfordul, hogy az empirikus kutatók, hogy minden pár közötti korrelációt kiszámítanak. Foglalkozzunk a továbbiakban egy kicsit a regressziószámítással. 48

Regressziószámítás Sok változó és a közöttük lévő összetett kapcsolat elemzésének fontos eszköze a regresszió. Ha csak két változót tekintünk (X és Y) akkor a regressziót egyváltozósnak nevezzük. (Ne zavarjon meg minket, hogy az idősorok esetén Y, mint egyedüli változó vizsgálatakor is az egyváltozós idősor elemezés kifejezést használjuk) Vegyük most a két változó közötti legegyszerűbb, lineáris kapcsolatot, melyet a következő módon írhatjuk fel: Y = α + βx (1.53) Ahol α konstans (ha grafikusan ábrázolnánk, akkor az egyenes tengelymetszete), β pedig a meredekséget jelöli. Így kapjuk meg a regressziós egyenest. ( Tulajdonképpen az egyenes felállításának módja, az analitikus trendszámításnál bemutatottakkal megegyezik.) A valóságban természetesen nem ismerjük α és β együtthatók valódi értékét, így Y és X közötti regressziós modellünk mindig csak a valódi összefüggésnek közelítése lehet. Az emiatt keletkezett hibával együtt az alábbi regressziós modellt írhatjuk fel: Y = α + βx + e (1.54) Ahol α és β regressziós együtthatók, e jelöli a hibát, Y-t függő, X-et pedig magyarázó változónak nevezzük. Mivel e itt is jelen van, mint hiba és az együtthatókat nem tudjuk pontosan megadni, ezért becsült értékeket rendelünk hozzájuk: α és β együtthatók formájában, melyek közelítsenek a legjobban az eredeti értékekhez. Ha grafikusan ábrázolnánk pontdiagramon a változókat, akkor a regressziós modell feladata úgyis megfogalmazható, hogy a pontokra leginkább illeszkedő egyenest keresi (csak úgy, mint a trendszámítás során láthattuk). Korábban már találkoztunk a reziduum kifejezéssel, de most azonban ki kell térnünk a hiba és a reziduum közötti különbségre! A hiba egy adott adatpont, megfigyelés és a valódi regressziós egyenes között mérhető távolság. Ezzel szemben, az α és β együtthatók által felírt regressziós egyenes és az adatpontok közötti távolság a reziduum (vagy maradéktag). Maradéktagot u -val jelöljük és az (1.55.) képlet alapján ki is számíthatjuk. 49

ut = Yt α + β Xt (1.55) A reziduumok nagyságát a reziduumok négyzetösszegével mérjük (SSR = u ). Célunk tehát a legjobban illeszkedő egyenes megtalálása, amely akkor következik be, ha a maradéktagok négyzetösszege (SSR) a lehető legkisebb. A dekompozíciós modellnél megismert legkisebb négyzetek módszerét lehet itt is alkalmazni a lehető legkisebb maradéktag négyzetösszegének megadására. E rövid elméleti áttekintés célja tulajdonképpen az, hogy átvezessen minket a sztochasztikus idősorok vizsgálatára, melyek összetettebb, hosszabb matematikai és statisztikai lépések elvégzését igénylik. Azért, hogy ezen technikák lépéseit könnyebben megértsük, új idősor megfigyeléseit kell alkalmaznunk. Eddig a közlekedési ágazat kőolajfogyasztását vizsgáltuk, mert annak sajátosságai lehetővé tették a dekompozíciós és a simító eljárások egy részének bemutatását. Mivel a továbbiakban sztochasztikus idősorra vonatkozó módszerekkel ismerkedünk meg, ezért értelemszerűen sztochasztikus idősor lesz a vizsgálatunk tárgya. A későbbiekben tehát a 2. fejezetben már említett W(est) T(exas) I(ntermediate) hordónkénti árának havi alakulásával foglalkozunk, 1994.01 és 2012.11 hó között. 3.3.1. Az autokorreláció A továbbiakban olyan technikákat fogok bemutatni, amelyek nem a hagyományos korrelációszámítást keretében két idősor elemei közötti az összefüggést keresik, hanem egy idősor megfigyelései közötti korrelációt. Úgyis mondhatnánk, hogy csak egyváltozós idősorelemzést végzünk, ahol megvizsgálunk egy idősor változóját és annak késleltetettje közötti kapcsolatot. Konkrétan az adott Y változó és annak saját, p időszakkal való késleltetettje közötti korrelációt keressük. Ezt a korrelációt r p -vel jelöljünk és p-edik késleltetettjéhez tartozó autokorrelációnak nevezzük. Az r p p függvényeként megadja az autokorrelációs függvényt, ami meglehetősen gyakran használt eszköz, mert igen sok 50

információval szolgál az idősorról, ezáltal megkönnyíti az idősorok jellegének elemzését. Az autokorrelációs függvény minden p =1,2,, P értékhez kiszámolja r p értékét, ahol P jelenti a leghosszabb késleltetést, például havi gyakoriságú adatok esetén P=12. Megjegyzendő, a késleltetett korrelációjának kiszámításánál is vesztünk adatot, mivel r 1 meghatározásánál Y 1 és Y 0 -ra lenne szükségünk, viszont ez utóbbit nem ismerjük. Ezért r 1 és Y késleltetettjének meghatározásához csak t=2,,t időszakokat használhatjuk. Tehát amikor r p -t szeretnénk kiszámítani, akkor elhagyjuk az első p megfigyelést! Így hosszú késleltetés esetén igencsak kevés megfigyelésünk lesz, ha pedig p=t értelemszerűen nem marad egy megfigyelés sem. Az autokorrelációs függvény segítségével jól jellemezhetőek az idősorok tulajdonságai, de célszerű az adott változót és késleltetettjének értékeit kifinomultabb eszközökkel is megvizsgálni, melyekkel később ismerkedünk meg. Az idősorok vizsgálatának egyik módszere a Mozgóátlag folyamatok. A módszert nem fogom olyan részletességgel bemutatni, mint az autoregresszív módszereket, viszont a későbbiekben bemutatásra kerülő ARMA modellek alapját képezi, ezért ismerete feltétlenül szükséges. 3.3.2. Mozgóátlag-folyamatok A módszer alapját a tisztál véletlen folyamatok képezik. Tisztán véletlen folyamatról beszélünk akkor, ha az idősor független, azonos eloszlású valószínűségi változókból áll és diszkrét időközönként lett megfigyelve. Ekkor a várható értékek és a variancia konstans, míg az autokovariancia-függvény így adható meg: γ (k)=cov(y t, Y t+k )= 0 (k 0) A tisztán véletlen folyamatokra a műszaki alkalmazásokból származóan fehér zaj kifejezést is használjuk. A Mozgóátlag folyamat használatához a későbbiekben is gyakran hasznosított ε t véletlen változókról kijelentjük, hogy tisztán véletlen folyamat. Mi lesz azonban a 51

különbség? Nem fehér zaj folyamatok esetén ε t véletlen változóról annyit állítunk, hogy várható értéke 0 [E(Y t )=μ=0] és a varianciája állandó (σ 2 ), most viszont kiegészítjük azzal, hogy a különböző időpontokhoz tartozó ε t változók korrelálatlanok [Cov(ε t, ε t-k )=0]! A mozgóátlag folyamatok úgyis értelmezhetők, mint különböző időpontokhoz tartozó fehér zajok lineáris kombinációja, amely az idősor jelenlegi értékét a jelenlegi és a megelőző időpontok véletlen változóiként írja le. Az alapelvet megadva most már felírhatjuk a Mozgóátlag folyamatok képletét: y = ε + θ ε + + θ ε (1.56) Ahol θ, mint együttható és ε, mint a tisztán véletlen folyamat elemei szerepelnek. Képlettel definiált y t folyamatot q-ad rendű mozgóátlagolású folyamatnak nevezzük és MA(q)-mel jelöljük. ε- okról kijelentettük, hogy minden t-re 0 a várható értékük, E(ε t) =0, ebből pedig az következik, hogy Y várható értéke is 0 [E(Y t )=0] és Y t varianciája ezért var(y t )= ( θ )σ. A kovariancia megadható γ k =cov(y t, Y t-k ) formában (k=0,1,2, m). Az MA(q) folyamat független θ együtthatók értékeitől, tehát mindig stacionárius (a stacionaritás definícióját nemsokára kifejtem) lesz, azonban most ennek bizonyítása a dolgozatban nem kap helyet. A gyakorlatban a mozgóátlag folyamatokkal a trendek kiszűrésére alkalmas módszerek használatánál találkozhatunk. Most nem kap helyet a MA(q) folyamat gyakorlati bemutatása, haladjunk inkább tovább a komplexebb, ARMA folyamatok megismeréséhez, ahol majd egyben látjuk a rész módszerek alkalmazásait. 3.3.3. Az egyváltozós modellek autoregresszív modellje Eljutottunk az autoregresszív modellekhez, melyek olyan regressziós modellek, ahol a magyarázó változók az eredményváltozó késleltetettjei. Rövidítése: AR. 52

Az AR(1) modell (ahol tehát a magyarázóváltozó a függő változó egy időszakos y = α + φy + e (1.57) késleltetettje) képlete az alábbi módon írható fel: Ahol α regressziós együttható és a korábbiakkal ellentétben most nem β, hanem ϕ a másik együttható, mely leírja a tagok kapcsolatát. 9 A magyarázó változót y t-1 jelöli. Fontos, hogy y 1 időszakos késletetése y 0 lenne, ami viszont nem megfigyelhető, ezért itt is a t=2,,t időszakokat használjuk a késleltetett y meghatározásához. Most kanyarodjuk el egy kicsit a stacionaritás fogalmához, ugyanis AR(1) modell ϕ együtthatója közeli kapcsolatban van a felvezetésnél említett autokorrelációs függvénnyel és a nem stacionaritás fogalmával. Ha ugyanis ϕ < 1, akkor Y-t stacionáriusnak nevezzük, míg ha ϕ =1 akkor nem stacionáriusnak. ( ϕ >1 esetet nem vizsgáljuk a közgazdaságtudományban, mert ezek robbanásszerű viselkedéseket írnak le, melyek csak rendkívüli helyzetben figyelhetőek meg (például hiperinfláció). De mit is jelent a stacionaritás és miért vizsgáljuk? Stacionaritás A sztochasztikus idősorelemzés modelljeinek vannak feltételei, amely új fogalmakkal most megismerkedünk. A stacionaritás, mint az idősor egyik jellemzője ugyanis alapvetően meghatározza a későbbi módszerek alkalmazásának menetét. A stacionaritást legérthetőbben úgy értelmezhetjük, mint az idősort alkotó változók fő jellemzőinek egyfajta időbeli stabilitása. E fő jellemzők: Az egyes változók várható értéke: E(Y ) = μ Az egyes változók varianciája: Var(Y ) = σ A különböző időpontokhoz tartozó változó kapcsolatát kifejező (auto)kovariancia: Cov(Y, Y ) = γ 9 A regressziós modell együtthatóit is görög betűkkel jelöljük. Bármilyen görög betű alkalmas erre a célra, de érdemes a különböző magyarázó változóknál illetve képleteknél, kiterjesztéseknél külön görög betűt használni, az esetleges félreértések elkerülése érdekében. 53

A stacionaritás meglétének, milyenségének megállapításához a fenti 3 jellemzőt és azok kapcsolatát kell megvizsgálnunk és ezek alapján beszélhetünk szigorú vagy gyenge stacionaritásról, illetve nem stacionárius folyamtokról. Szigorú stacionaritás A vizsgálat első lépéseként meghatározzuk y t változó első és második értékeit, momentumait. Ha t 1 =t 2 =t, akkor az autokovariancia egyszerűen σ 2. Másképp kifejezve, ha y 1, y 2,, y n n-elemű megfigyeléseinek eloszlása megegyezik az y 1+k, y 2+k,,y n+k megfigyelések együttes eloszlásaival, akkor az idősor szigorúan stacionárius, minden n és k esetén. Ekkor μ t =μ és σ t 2 = σ 2 vagyis a várható érték és a variancia t-től független. Mivel az együttes eloszlások megegyeznek, az eloszlás végső soron kizárólag k megválasztásától függ és k=t 2 -t 1 különbséget késleltetésnek nevezzük. Szigorú stacionaritás esetében γ(t 1, t 2 ) autokovariancia függvényt megadhatjuk γ(k) formában, ahol k ismét a késleltetést jelöli. A γ(k) függvényt autokovariancia-függvénynek nevezzük, és ennek segítségével megkaphatjuk az autokorreláció függvényt, ρ(k)-t: ρ(k) = γ(k) γ(0) (1.58) Ahol γ(k) az autokovariancia-függvény, γ(0) pedig megegyezik a σ 2 varianciával. Ha ρ(k)-t k függvényében ábrázoljuk, akkor korrelogramot kapunk. A szigorú stacionárius idősorok esetében az y(t) változók valószínűségi eloszlása t-től független. Nem csak a várható érték és a variancia állandó, hanem az összes magasabb rendű momentum is. Ezek a feltételezések azonban rendkívül erősek, nézzük mi jellemzőbb inkább a gyakorlatban. Gyenge stacionaritás Széles értelemben véve stacionárius vagy kovariancia stacionárius idősoroknak is nevezzük őket. A várható érték ekkor állandó és autokovariancia-függvény csak a késleltetések számától függ, magasabb rendű momentumokról pedig nem feltételezünk semmit. Az autokovariancia-függvény ekkor így írható fel: 54

E[Y(t)] = μ és cov[y(t), Y(t + k)] = γ(k) (1.59) Az idősorelemzés azonban nem merül ki a stacionárius idősorok vizsgálatával, sőt a gyakorlatban előforduló idősorok többsége nem stacionárius. Nem stacionárius folyamatok Nem stacionárius idősor esetén a μ t várható érték időben változik, lehet t például lineáris vagy négyzetes trend. A stacionárius és nem stacionárius idősorok megkülönböztetése rendkívül fontos, mert nem stacionárius idősort regressziós modellben szerepeltetni tilos. A nem stacionárius idősorok esetén (amennyiben α=0 és ϕ =1) az AR(1) modell így írható fel: Y = Y + e (1.60) Ezt nevezzük véletlen bolyongásnak. Véletlen bolyongás esetén olyan idősorral van dolgunk, amelyet nem tudunk valamilyen jól leírható logika szerint jellemezni, legfőképpen nem előre jelezni. Jó példa erre egy részvény árfolyama. A részvény mai árfolyama a tegnapi ár egy hibatag összege. Ha a részvényárfolyamok nem véletlen bolyongás szerint alakulnának, akkor változásuk előre jelezhető lenne (és például a befektetők számára arbitrázslehetőség nyílna meg). De a részvényárak esetén feltételezhetjük, hogy véletlen bolyongás szerint alakulnak, ezt pedig értelem szerint ki kell küszöbölnünk, hogy az autoregressziós modellt alkalmazni tudjuk. Másképp megfogalmazva az egységgyökkel rendelkező idősorok sztochasztikus trendszerű viselkedést mutatnak. Az egységgyök megléte a következő problémákat okozza a módszer alkalmazása során: Nem csak a ϕ értéke 1, hanem az autokorrelációi is egyhez közeliek lesznek, melyek a késleltetés hosszának növelésével alig csökkennek Y emlékszik a múltra vagyis erősen korrelál a saját korábbi értékeivel, az idősornak hosszú távú emlékezete van (A stacionárius soroknak nincs hosszú távú emlékezete) 55

a sorozat trendszerű viselkedést mutat, méghozzá sztochasztikus trendet (a stacionárius idősorok is tartalmazhatnak trendet, de csakis determinisztikus trendet, ekkor trendstacionáriusnak nevezve őket) Az idősor trendszerű viselkedése önmagában tehát még nem jelenti azt, hogy egységgyököt tartalmazó idősorral van dolgunk. Az egységgyök meglétét azonban nem lehet csak az idősorra rápillantva megállapítani. A teszteléshez ki kell számítanunk y differenciáltjait, amelynek eredményeképpen megkapjuk y idősort. Ez a lépés nem csak a tesztelésre alkalmas, mivel y idősor elemei egyúttal stacionárius idősort eredményeznek, ezáltal az idősor alkalmas lesz az autoregressziós modell alkalmazására is. (Az egységgyökkel rendelkező idősorokat ezért gyakran differenciastacionárius idősoroknak.) Az egységgyök tesztelését a teljes ARMA folyamat bemutatásánál ismertetem, ahol már a konkrét idősorral és több elméleti háttérrel könnyebben megérthetjük majd a stacionaritás vizsgálatát. Most viszont a y idősor előállítása után haladjunk tovább egyelőre az autoregressziós modell alkalmazásával. AR(1) modell kiterjesztései Az AR(1) modellt eddig egyszerű regresszióként értelmeztük, ahol y előző időszaki értéke a magyarázó változó. Ám célszerű és megoldható y több késleltetését is magyarázó változóként szerepeltetni, amit a modell p-ed rendű autoregresszióra való kiterjesztésével végzünk el, amit AR(p)-vel jelölünk: y = α + φ Y + + φ Y + e (1.61) Ahol t=p+1,,t és α,ϕ pedig már az ismert együtthatók. Alakítsuk át az egyenletet a differenciált y értékek segítségével, vagyis vonjunk le mindkét oldalból y t-1 -et. Ekkor, némi átrendezés és leegyszerűsítés után a következő egyenletet kapjuk: y = α + ρy + γ Y + + γ Y + e (1.62) 56

A ρ és γ 1,, γ p-1 együtthatók a kiinduló egyenlet ϕ 1, ϕ p együtthatóinak egyszerű függvényei, Y t-p helyett pedig Y t-p+1 taggal találkozunk. A fenti egyenlet szinte megegyezik AR(p)-vel, csupán a felírás formája különbözik. Az utóbbi képletben ρ mutatja majd a stacionaritást, mivel ha ρ= 0, akkor y AR(p) idősornak egységgyöke van, míg ha -2< ρ < 1, akkor az idősor stacionárius. Láthatjuk, hogy ρ=0 esetén Y t-1 eltűnik, csak Y-t és annak késleltetettjeit tartalmazza a képlet, tehát a differenciákkal stacionáriussá tettük az idősort. Amennyiben AR(p) modellhez determinisztikus trendet adunk, akkor az egyváltozós idősorelemzések során igen gyakran használt modellt kapunk: Y = α + ρy + γ Y + + γ Y + δ + e (1.63) A két képlet megegyezik, azzal a kivétellel, hogy utóbbit a δ t determinisztikus trenddel kiegészítettük. Most, hogy már megismerkedtünk az autoregresszív és mozgóátlag folyamatokkal, legalábbis az elméleti alapokkal, lépjünk tovább a sztochasztikus idősorok elemzési módszereinek vizsgálatával és a gyakorlati lefuttatással. 3.3.4. AutoRegresszív MozgóÁtlag folyamatok Az AR- és a MA-modellek egyesítéseként új módszert használhatunk, melyet autoregresszív-mozgóátlag modelleknek (röviden ARMA) nevezünk. A módszer keretein belül a p és q- ad rendű autoregresszív és mozgóátlagolású modellek magasabb rendű folyamatait vizsgáljuk. Mivel a két módszer egyesítéséről beszélünk, így logikus, hogy a következő képlet adja az ARMA(p,q) modellt: Y = φ Y + φ Y + + φ Y + ε + θ ε + + θ ε (1.64) A képletben p és q időpontokat a különböző együtthatókra vonatkozóan használjuk, ε t a MA modell során megismert, nulla várható értékű és σ 2 varianciájú, tehát tisztán véletlen folyamat. 57

A modell használatához kialakítottak egy interaktív modellépítési stratégiát, melyet kidolgozóik után Box-Jenkins modellezésnek is nevezünk. A modell népszerűségét annak köszönheti, hogy bármely idősorra alkalmazható, függetlenül attól, hogy stacionárius-e vagy sem, tartalmaz-e szezonális komponenst és a legtöbb statisztikaiökonometriai programcsomag (mint az általam használ Gretl program is) által alkalmazható. A stratégia első lépései használhatók az AR(p) módszernél felvezetett egységgyök vizsgálatra, ahol külön nem tértünk ki rá, ezt a hiányosságot most pótolom. A Box-Jenkins-féle modellezés lépéseit a 4. ábra mutatja. 4. ábra: Az ARMA modellezés Box-Jenkins-féle módszere Forrás: G. S. Maddala: Bevezetés az ökonometriába, 595.oldal Hogyan is működik a modell? 1. Első lépésben, ha nem stacionárius idősorral van dolgunk, addig differenciáljuk az idősort, míg stacionáriussá nem válik. Mi alapján dönthető el, hogy egy idősor stacionárius? Többféleképpen megtehetjük, különböző próbák segítségével. A dolgozatomban most a talán legismertebb stacionaritás vizsgálatra alkalmas teszt, a 58

Dickey-Fuller-próba kap helyet, melyet kifejlesztőikről neveztek el. Alapegyenlete így írható fel: y = ρ y + ε (1.65) Ahol ρ>0. Ezután felállítjuk a hipotézist, miszerint H 0 : ρ=1. Ekkor egységgyök van az idősorban. Értelemszerűen H 1 : ρ 1, ekkor stacionárius idősorral van dolgunk. A fenti egyenlet és hipotézis akkor alkalmazható, ha sem konstans, sem trend nincs az idősorunkban. Konstans tagot tartalmazó idősornál ugyanis az egyenletünk: Ahol c a konstans tag, λ=ρ-1 képpen adható meg. Konstans tagot és trendet tartalmazó idősor esetén pedig: y = c + λ y + ε (1.66) Δy = c + δ t + λ y + ε (1.67) egyenletet alkalmazzuk (AR(1)-nél már láthattuk, hogy δ jeleníti meg a trendet). Foglalkozzunk most a véletlen bolyongásnál összetettebb folyamatok egységgyök vizsgálatával. Ekkor az előbb felírt 3 egyenletet ki kell bővítenünk. Sem konstans tagot, sem trendet nem tartalmaz az idősor: Δy = λ y + θ Δy + θ Δy + θ Δy + ε (1.68) Konstans tagot tartalmazó idősor: Δy = c + λ y + θ Δy + θ Δy + θ Δy + ε (1.69) 59

Konstans tagot és trendet is tartalmazó idősor: Δy = c + δ t + λ y + θ Δy + θ Δy + θ Δy + ε (1.70) Ahol k a késleltetések száma. A kibővített egyenleteket összefoglalóan kiterjesztett Dickey-Fuller tesztnek nevezzük (Augmented Dickey Fuller test), röviden: ADF. A k késleltetések számának megválasztása problémát okozhat, ezért más próbákkal is tesztelik az idősort, melyek közül a másik legelterjedtebb a Kwiatkowski és szerzőtársai által kifejlesztett KPSS teszt. A teszt nullhipotézise éppen ellentettje az ADF-nek, mert itt a stacionaritást nézzük, míg az ellenhipotézis elfogadása esetén beszélhetünk egységgyökről vagy differencia stacionaritásról. A KPSS teszt kiinduló modellje: y = μ + ρ y + ε (1.71) A null és az ellenhipotézis pedig: H o : 1 és H 1 : és μ=0 A teszt nehézsége itt is a t értékének megválasztása, de a több módszerrel szerzett eredmények megerősíthetik a feltevéseinket. Mind a két teszt esetében össze kell vetni a kapott értékeket a teszt kritikus értékeivel, melyek megtalálhatóak a Mellékletben. Alapesetben a hipotézisek vizsgálatára a Student-féle t eloszlást használnánk, de egységgyök jelenléte esetében a kritikus értékek félrevezetőek lennének. Dickey-Fuller teszt esetében, ha a ρ-hez tartozó t (teszt statisztika) kisebb, mint az általunk megválasztott szignifikancia szinthez és megfigyelésekhez tartozó érték, akkor elvetjük az egységgyök létezésének hipotézisét. ( A Dickey-Fuller eloszlás értékei természetesen itt is konstans és trend nélküli, konstanst tartalmazó vagy konstanst és trendet is tartalmazó idősor szerinti csoportosításban vannak.) A KPSS teszt eredményeként kapott értéket is össze kell hasonlítanunk a megfelelő szignifikancia szinthez tartozó kritikus értékkel. Meg kell azonban jegyeznünk, hogy a Dickey-Fuller-próba hajlamos ott is egységgyököt találni, ahol nincs, mivel egy trendstacionárius idősor igencsak 60

hasonlíthat egy egységgyököt tartalmazóra. Megtörténhet ugyanakkor az ellenkezője is, ugyanis sok olyan idősorral találkozhatunk, amelyek még akkor is utalnak egységgyök jelenlétére, amikor nincs is egységgyökük. (Ezeket strukturális töréseknek nevezzük, olyan makroökonómiai sorokban fordulnak elő, ahol hirtelen változás, például háború áll elő.) Megfigyelhetjük az egységgyök jelenlétét a korrelogram segítségével is. A korreláció áttekintésénél már megadtuk, hogy a korrelogram a ρ(k) autokorreláció függvény [ρ(k) = ( ) ] k (késleltetés szám) szerinti ábrázolása. Stacioner idősor esetén a k ( ) növelésével a korrelogram nullává válik. y t idősor korrelogramját vizsgálva tehát differenciáljuk addig az idősort, míg a kis késleltetés szám mellett a korrelogram nullává válik. Ha megállapítottuk, hogy az idősorunk egységgyököt tartalmaz, akkor képezzük annak differenciáltját. Általában egy differenciálás után stacionárius idősort kapunk, ha mégsem, akkor ismételjük meg az eljárást. 2. Vizsgáljuk meg a stacionárius idősort, hogy a megfigyelések milyen p és q rendű folyamatokból származnak. Ez az identifikáció folyamata, ekkor történik a kiinduló modell felírása, beazonosítása. Meghatározzuk a megfigyelt idősor jellemzőit és megkeressük, hogy melyik elméleti modellel mutat legnagyobb hasonlóságot a mi idősorunk. Tehát felírunk egy előzetesen helyesnek vélt ARMA-modellt. A korrelogram és a parciális korrelogram segítheti p és q értékek előzetes becslését. A becslési eljárások bemutatásával most sajnos nem foglalkozunk, mert azok rendkívül bonyolultak. Viszont a statisztikai/ökonometriai programcsomagok segítségével leegyszerűsödik a feladatunk. 3. A feltételezett modell alapján meg kell becsülnünk ϕ és θ paramétereket. Most is alkalmazhatjuk a legkisebb négyzetek módszerét, de tudnunk kell, hogy ezen esetek bonyolultabbak, mint a korábban felírtak (Többnyire iterációs eljárásokkal adják meg a paramétereket, de jelen dolgozatban erre szintén nem térek ki.). A cél itt is az, hogy a becsült paraméterekkel az illeszkedés a lehető legjobb legyen. Lehetséges 61

többször másik becslést készíteni, esetleg túl- vagy alulbecsülni a függvényt, hogy még jobban meggyőződhessünk az illeszkedés jóságáról. 4. Meg kell vizsgálnunk, hogy megfelelő-e a modell, vagyis a modell egészében jól írja-e le a valóságot. (Amennyiben jól írja le a valóságot, akkor a maradéktagok véletlennek tekinthetők.) Ha nemleges választ kapunk, akkor vissza kell térnünk a második lépéshez és új modellt kell felállítanunk. Amennyiben jól illeszkedik a modell, akkor továbbléphetünk az utolsó pontra. 5. A modellt felhasználhatjuk előrejelzési célokra, ami tulajdonképpen a vizsgálatunk célja A folyamat látszólagos bonyolultságát a stacionaritás problémája, a késleltetések számának megadása és a megfelelő p, q és a többi paraméter megadása jelentheti. A gyakorlatban azonban akár az általam használt GRETL programcsomag óriási segítséget jelentett az adatok és értékek előállításához. A 11. grafikon ismerős lehet, hiszen a 2. fejezetben már megismertük az idősorunk alapvető jellemzőit. WTI árak alakulása (1994-2012) Dollár/ hordó 160 140 120 100 80 60 40 20 0 1 17 33 49 65 81 97 113 129 145 161 177 193 209 225 WTI árak (Dollár/ Hordó) t időpont 11. grafikon: WTI árak alakulás (1994-2012) Forrás: http://www.eia.gov/dnav/pet/hist/leafhandler.ashx?n=pet&s=rwtc&f=m 62

Most lássuk, hogyan is működik az ARMA folyamat a WTI hordónkénti árának vizsgálatánál, a GRETL program segítségével. 1. lépés: Stacionaritás vizsgálata, differenciálás. Vessük össze a konstans és trend nélküli, konstans tagot tartalmazó, valamint konstanst és trendet tartalmazó, ADF tesztelt értékeinket a megfelelő kritikus értékekkel. Mindhárom esetben 12 a késleltetések száma. A GRETL program segítségével kapott értékeket az alábbi táblázat mutatja: 3. táblázat: Augmented Dickey-Fuller teszt és értékek Forrás: Saját előállítás, GRETL programcsomag segítségével Láthatjuk, hogy a konstans nélkül vizsgált t érték 0,500105, mely nagyobb, mint az 5%-os szignifikancia szinthez tartozó kritikus -1,95 érték. A konstans tagot tartalmazó t= -0,820433 is nagyobb, mint a -2,88 kritikus érték és ugyanez a helyzete áll fenn az 63

utolsó esetben, mert t= -3,04795 nagyobb, mint -3,43. 10 Ezek alapján, mivel a ρ-hoz tartozó t értékek nagyobbak, mint a kritikus értékek, ezért elfogadjuk a H 0 hipotézist, vagyis az idősornak egységgyöke van. Azért, hogy ezt teljes biztossággal kijelenthessük, végezzük el a KPSS tesztet is: 4. táblázat: KPSS teszt értékei A fenti táblázatból azt látjuk, hogy a t statisztikánk minden szignifikancia szinten nagyobb, mint a kritikus értékek. Mivel a módszer fordítottan működik, mint az ADF teszt, ezért itt el kell vetnünk a H 0 hipotézis, amely szerint az idősornak stacionáriusnak kellene lennie. Mindkét teszt megerősítette tehát, hogy egységgyök problémával állunk szemben, s így nem lehet ARMA modellt illeszteni az idősorunkra. Hogy orvosoljuk a bajt, képezzük az idősor differenciáltját. Fontos hogy nem csupán q és p paramétert kell előzetesen megbecsülnünk, hanem itt a differenciálások fokát (d) is, amely beépül a modellünkbe, amit ezentúl ARIMA( p,d, q) -nak fogunk hívni. A különbségek alakulását az alábbi grafikonon szemléltetem: 10 Mint már említettem, a kritikus értékeket tartalmazó táblázatok a mellékletben kapnak helyet. 64

12. grafikon: WTI árak első differenciáltja Forrás: Saját szerkesztés Azt hogy idő sor esetében, hogy szükséges-e az (újra) differenciálás a korrelogram (autokorrelációs függvény, ACF ) segítségével dönthetjük el, ami egy sor adatainak és a múltbeli értékeinek korrelációs együtthatóinak, azaz az autokorrelációs együtthatók ábrája. 5. ábra: WTI árak auto és parciális autokorrelogramjai Forrás: Saját előállítás, GRETL programcsomag segítségével Az első korrelogramon láthatjuk, hogy az ACF értékei lassan közelítenek a 0-hoz, amely egyértelműen az egységgyökkel rendelkező idősorok jellemzője. 65

Az első differenciálás eredményét a 6. ábra tartalmazza, ahol máris szembetűnő a különbség, és ez azt jelenti, hogy nem kell tovább differenciálnunk az idősort, ugyanis a 0-hoz közeledés nem lassú. 6. ábra: Első differenciált auto és parciális autokorrelogram Forrás: Saját előállítás, GRETL programcsomag segítségével 2. lépés: a feltételezett modell megadása Az autokorrelációs függvény felrajzolása abban is segítségünkre van, hogy becslést ad a mozgóátlagolású (MA) tag q -fokára. Ehhez csupán a korrelogram alakját fogjuk megvizsgálni. Ha a korrelogram q -nál kisebb értékeknél nem mutat semmilyen határozott alakot, míg q tól nagyobb értékekre nulla, akkor a késleltetéseknek q -t kell választani. Például az elsőrendű mozgóátlag (MA(1)) folyamat esetén kizárólag ez első érték nem nulla, az összes többi pedig nulla. Amennyiben megfigyeljük az autokorrelációs függvényünket, nem láthatunk semmilyen határozott alakot, ezért MA (0)- rendű fokkal dolgozunk. A parciális autokorreláció függvény (PACF) pedig az autoregresszív (AR) tag p kezdeti értékének eldöntésében segít minket. 66

A parciális korrelogram értéke egy bizonyos késleltetés után nulla körül fog mozogni. Ez a késleltetés lesz a p kezdeti értéke. Azaz egy elsőrendű autokorrelációs AR (1) folyamatnál a parciális korrelogram első eleme nem nulla, a többi mind nulla közelében marad. Pontosan ez az, amit a saját korrelogramunkon is megfigyelhetünk. Az ACF és a PACF megfigyeléseinek alapján a Box-Jenkins folyamat harmadik lépését az ARIMA (1,1,0) modellel kezdem. A folyamat 3. és 4. lépése jelenti a paraméterek becslését és azok leellenőrzését. Mindkét lépés olyan összetettebb, egymáshoz kapcsolódó kritériumrendszerek ismeretét igényli, amelyek egyesével történő bemutatására nincs lehetőségem jelen dolgozat keretein belül. A statisztikai programcsomagok itt is könnyedén elvégzik a különféle számításokat, melyek kiértékeléséhez több kritikus érték egyszerre történő vizsgálatára van szükség (például modellszelekció). Ez azonban, mint mondottam jóval mélyebb és alaposabb statisztikai ismereteket kíván. Ha az ellenőrzés során alkalmatlannak találjuk a modellt, akkor vissza kell térnünk a modell identifikációjának lépéséhez. A lépések elvégzésével, a feltételezett modell alul és túlillesztésével valamint más modellekkel való összemérések eredményeképpen, az ARIMA (1,1,0) modellt tartom legalkalmasabbnak az előrejelzések készítéséhez. Az ARIMA (1,1,0) modell egyenlete: y = 0,0147009 0,364065y (1.72) 5. táblázat: ARIMA (1,1,0) értékei Forrás: Saját előállítás, GRETL programcsomag segítségével 67

Elérkeztünk az utolsó lépéshez, vagyis az előrejelzések megadásához. 5. lépés: A modell előrejelzési célokra való felhasználása A 13. grafikon piros vonallal jelzi a megfigyeléseinket, míg kék színnel követhetjük az előrejelzést. 1 éves, vagyis 12 hónap időtartamra vonatkozó előrejelzést kaptunk. Az ábrán látható, hogy még viszonylag rövid időtartamra sem tudta a modell a megfelelő előrejelzéseket előállítani és sajnos nagyon gyorsan tágul a konfidencia intervallum is. 13. grafikon: WTI árak előrejelzése ARMA folyamat segítségével Forrás: Saját előállítás, GRETL programcsomag segítségével Az egy évre előrejelzett értékek a következők 2012. dec.. 85,6 dollár/hordó 2013. jún.. 86,68 dollár/hordó 2013. jan.. 85,43 dollár/hordó 2013. júl.. 87,98 dollár/hordó 2013. febr.. 85,56 dollár/hordó 2013. aug.. 87,29 dollár/hordó 2013. márc.. 85,8 dollár/hordó 2013. szept.. 87,6 dollár/hordó 2013. ápr.. 86,08 dollár/hordó 2013. okt.. 87,9 dollár/hordó 2013. máj.. 86,38 dollár/hordó 2013. nov.. 88,21 dollár/hordó 68

4. Összegzés, véleményezés Elérkeztünk az idősorok elemzési, előrejelzési modellek végéhez, s egyúttal a szakdolgozatom záró oldalaihoz. Összefoglalásképpen úgy gondoltam szemléletesebb és hatékonyabb, ha táblázatba foglalom az általam bemutatott módszerek alapelveit, előnyeit és hátrányait. Remélem, ezáltal még érthetőbbé válnak a módszerek és azoknak egymásra épülési logikája is. Nézzük tehát sorban a dekompozíciós modellektől indulva, hogyan jutunk el az autoregressziós és mozgóátlagolású folyamatokhoz, útba ejtve a simító eljárások lépéseit. Idősorelemzés típusa Alapelv Alapképlet Előny Hátrány Determinisztikus Dekompozíciós modell Szabálytalan Trendszámítás ciklus Analitikus Mozgóátlagolású Tartós Az analitikus irányzat A trendet csak a és mozgóátlagolású analitikusan megfigyelt idősor jól leírható értékeinek különféle trendek függvény átlagolásával állítjuk elő összegyúrása szerint alakul y = β + β t Egyszerű, becslést ad A változók értékeit a későbbiekben változatlannak tekinti, torzít, ciklust nem tud kiszűrni y + + y + + y 2k + 1 Kevés induló értéket igényel, ciklusokat képes kiszűrni Nem ad előrejelzés, csupán tendenciát, m tagszám helyes megadása nehézkes, mivel csökkenhet a véletlen szerepe/ eltűnik a trend - Képes a szabálytalan ciklus kiszűrésére Óvatosan kell bánni az előző módszerek paramétereinek megválasztásával Szezonális ingadozások A trend kiszűrése után a szezonális ingadozások vizsgálata s = y y n p Az idősor a j-edik szezonban átlagosan mennyivel tér el a trendértéktől a szabályosan ismétlődő szezonhatás következtében. Nem tudja kezelni a változó amplitúdójú, változó hosszúságú ciklusokat Kritikus paraméter β, β m β, β és m n, p Becslés Lehetséges Nem lehetséges Nem Nem lehetséges lehetséges 69

Idősorelemzés típusa Alapelv Alapképlet Előny Hátrány Egyszeres exponenciális simítás A simító eljárások legegyszerűbb esete, trend és szezonalitás nélküli idősorra alkalmazható y = = (1 α)y + αy Egyszerű az alkalmazása, Csak egy időszakra adhat előrejelzést, α megválasztásának nehézsége Determinisztikus-Sztochasztikus Simító eljárások Kettős exponenciális simítás Lineáris trenddel rendelkező idősor kisimítására alkalmas ( ) ( ) S = αy + (1 α)s ( ) ( ) S = αs + (1 ( ) α)s Egyszerű alkalmazás a trenddel rendelkező sorokra Rossz α választása esetén fennálló torzulások: merevedés, gyenge simítás Brown féle korrigált kettős exponenciális simítás A mindenkori trendértéken kívül a trendértéket előállító két paramétert is felülvizsgálja, és újra meghatározza az újabb megfigyelések birtokában S ( ) = β 2 1 α α β ( ) S = β 1 α α β Kezelni tudja a trendet, α értéken kívül más paraméterekkel is dolgozik, Kiszámítása időigényes, az előbbieknél is nagyobb fokú odafigyelést igényel. Kritikus paraméter α α α, β, β Csak egyetlen Lehetséges, de óvatosan kell Becslés Lehetséges időszakra kezelni Idősorelemzés típusa Alapelv Alapképlet Sztochasztikus AutoRegresszív MozgóÁtlag folyamatok AR MA ARMA Olyan regressziós modellek, ahol a magyarázó változók az eredményváltozó késleltetettjei y = = α + φy + +e A különböző időpontokhoz tartozó fehér zajok lineáris kombinációja, amely az idősor jelenlegi értékét a jelenlegi és a megelőző időpontok véletlen változóiként írja le y = ε + θ ε + + θ ε Az AR és MA módszerek egyesítésével lehetséges a p és q- ad rendű autoregresszív és mozgóátlagolású modellek magasabb rendű folyamatainak vizsgálata és ezek alapján pontosabb előrejelzés. y = φ y + φ y + + 70

Előny Hátrány Remekül leírja az idősor tagjai közötti kapcsolatot Előzetes számításokat igényel, nem minden típusú idősornál alkalmazható. (Stacionaritás) Trendek kiszűrésére alkalmas, anélkül, hogy elhagyná a véletlen változókat. Nem tud előrejelezni, csak a meglévő adatokból dolgozik +φ y + ε + θ ε + + θ ε A korábbi modellek előnyös tulajdonságait hasznosítja, alkalmazza egy módszer keretein belül. Előzetes számítások szükségesek (Stacionaritás vizsgálata, differenciálás). A korábbiakhoz képest jóval mélyebb statisztikai, matematikai ismeretek ajánlottak használatához Kritikus paraméter α, φ, ε ε, θ, q φ, θ, ε, késleltetések száma Becslés Lehetséges Önmagában nem lehetséges Lehetséges A táblázatok segítségével megpróbált átláthatóan összefoglalni mindazt, amit a szakdolgozatomban bemutattam és kielemeztem. Természetesen a gyakorlatban jóval több módszerrel találkozhatunk, de úgy gondolom a most megismert technikák elengedhetetlenek az idősor elemzések és előrejelzések szempontjából. Láthattuk milyen különbségek vannak az egyes módszerek lépései és az általuk képzett előrejelzések minősége, megbízhatósága között. A statisztika, mint tudományág fejlődése természetesen magába foglalja ezen módszerek fejlődését is. Az autoregresszív és mozgóátlagolású modellek a legfejlettebbek, az általunk vizsgáltak közül. Ha jobban elmélyülünk a témában, akkor találkozhatunk olyan ARMA modellekkel, melyek általánosítottak (GARMA), nem lineáris trendet elemeznek (NARMA), szezonalitást kezelnek (SARIMA) vagy éppen több idősor illesztésével az idegen idősor múltbeli értékeivel is keresik a kapcsolatot (Vektor ARIMA- VARIMA). A modellek természetesen sohasem lesznek mentesek a hibáktól, az elkészített előrejelzéseket mindig bizonyos szintű fenntartással kell kezelni, hiszen láthattuk, a (nem feltétlenül ismert) valóság és a becsült adatok között mindig lesz eltérés. A becslések megfelelő kezelése azonban elősegítheti munkánkat, az alkalmazkodás folyamatát, s az utólagos elemzéssel még pontosabb előrejelzéseket vagy éppen előrejelzési eljárásokat alakíthatunk ki. 71

Summary In the last few decades the times series analysis started to be a special part of the statistic field. The methods became more reliable and give more accurate information than before. Unfortunately the Hungarian and the international literature are not aligned. So I decided to write my master thesis about the comparison of the time series analysis methods. At first I presented the main informations about the time series. We need this basic knowledge to understand the complex methods. To make easier the understanding process I chose two kind of times series which are almost opposite if we want to categorize them. The first time series gives information about the petroleum consumpition of the transportation sector. The number of observation are 63 and made annualy. I analized this time series with the simplier models like analitical trend calculation, or moving average trend calculation. The other time series gives information about the WTI spot prices. The number of observation are 227 and made monthly. This time series was really usefull to demonstrate the specialty of the ARMA process. I used the oconometrical program called GRETL to make easier the analysis and forecasting process in case of the ARMA process. In the end of the process and methods I calculated forecasts to demonstrate how big is the difference between models and models. We have to notice we should take these forecasts carefully! All of the methods have advantages and disadvantages. I didn t show all of the time series modell only few of them but I could say the later models improve these old models to develope more usefull and reliable techniques. 72

Irodalomjegyzék Domán Csaba- Szilágyi Roland- Dr. Varga Beatrix: Statisztikai elemzések alapjai I.-II., 2009 James D. Hamilton: Time Series Analysis, Princeton University Press, 1994 Dr. Havasy György- Molnár Máténé Dr.- Dr. Szunyogh Zsuzsanna- Tóth Mártonné Dr.: Általános Statisztika I.-II., Nemzeti Tankönyvkiadó, Budapest, 1996 Hunyadi László- Vita László: Statisztika I.-II., AULA Kiadó Kft., Budapest, 2008 Hunyadi László- Vita László: Statisztika közgazdászoknak, Budapest, 2002 Gary Koop: Közgazdasági adatok elemzése, Osiris Kiadó Kft., Budapest 2009 G. S. Maddala: Bevezetés az ökonometriába, Nemzeti Tankönyvkiadó, Budapest, 2004 Polgárné Hoschek Mónika: Statisztikai idősorelemzés a tőzsdén, Phd értekezés, Sopron, 2011 Webes források: Wikipédia WTI fogalom http://hu.wikipedia.org/wiki/west_texas_intermediate Adatok táblázatosan: Közlekedési ágazat kőolajfogyasztása http://www.eia.gov/totalenergy/data/annual/index.cfm#consumption WTI árak alakulása http://www.eia.gov/dnav/pet/hist/leafhandler.ashx?n=pet&s=rwtc&f=m U.S. Energy Information Administration: http://www.eia.gov/ Bevezetés az ökonometriába előadássorozatok: http://www.medstat.hu/eloadas10handout.pdf Az ADF és KPSS tesztek kritikus értékei táblázatos formában: http://www.economics.utoronto.ca/jfloyd/book/statabs.pdf 73

Melléklet 1. A közlekedési ágazat kőolajfogyasztása 1949 és 2011 között 2. A WTI hordónkénti árának alakulása 1994 és 2012 között Dátum WTI árak (Dollár/ Hordó) 1994.01. 15,03 1994.02. 14,78 1994.03. 14,68 1994.04. 16,42 1994.05. 17,89 1994.06. 19,06 1994.07. 19,66 1994.08. 18,38 1994.09. 17,45 1994.10. 17,72 1994.11. 18,07 1994.12. 17,16 1995.01. 18,04 1995.02. 18,57 1995.03. 18,54 1995.04. 19,9 1995.05. 19,74 1995.06. 18,45 1995.07. 17,33 1995.08. 18,02 1995.09. 18,23 1995.10. 17,43 1995.11. 17,99 1995.12. 19,03 1996.01. 18,86 1996.02. 19,09 1996.03. 21,33 1996.04. 23,5 1996.05. 21,17 1996.06. 20,42 1996.07. 21,3 1996.08. 21,9 1996.09. 23,97 1996.10. 24,88 1996.11. 23,71 1996.12. 25,23 1997.01. 25,13 1997.02. 22,18 1997.03. 20,97 1997.04. 19,7 1997.05. 20,82 1997.06. 19,26 1997.07. 19,66 1997.08. 19,95 1997.09. 19,8 1997.10. 21,33 1997.11. 20,19 1997.12. 18,33 1998.01. 16,72 1998.02. 16,06 1998.03. 15,12 1998.04. 15,35 1998.05. 14,91 74

1998.06. 13,72 1998.07. 14,17 1998.08. 13,47 1998.09. 15,03 1998.10. 14,46 1998.11. 13 1998.12. 11,35 1999.01. 12,52 1999.02. 12,01 1999.03. 14,68 1999.04. 17,31 1999.05. 17,72 1999.06. 17,92 1999.07. 20,1 1999.08. 21,28 1999.09. 23,8 1999.10. 22,69 1999.11. 25 1999.12. 26,1 2000.01. 27,26 2000.02. 29,37 2000.03. 29,84 2000.04. 25,72 2000.05. 28,79 2000.06. 31,82 2000.07. 29,7 2000.08. 31,26 2000.09. 33,88 2000.10. 33,11 2000.11. 34,42 2000.12. 28,44 2001.01. 29,59 2001.02. 29,61 2001.03. 27,25 2001.04. 27,49 2001.05. 28,63 2001.06. 27,6 2001.07. 26,43 2001.08. 27,37 2001.09. 26,2 2001.10. 22,17 2001.11. 19,64 2001.12. 19,39 2002.01. 19,72 2002.02. 20,72 2002.03. 24,53 2002.04. 26,18 2002.05. 27,04 2002.06. 25,52 2002.07. 26,97 2002.08. 28,39 2002.09. 29,66 2002.10. 28,84 2002.11. 26,35 2002.12. 29,46 2003.01. 32,95 2003.02. 35,83 2003.03. 33,51 2003.04. 28,17 2003.05. 28,11 2003.06. 30,66 2003.07. 30,76 2003.08. 31,57 2003.09. 28,31 2003.10. 30,34 2003.11. 31,11 2003.12. 32,13 2004.01. 34,31 2004.02. 34,69 2004.03. 36,74 2004.04. 36,75 2004.05. 40,28 2004.06. 38,03 2004.07. 40,78 2004.08. 44,9 2004.09. 45,94 2004.10. 53,28 2004.11. 48,47 2004.12. 43,15 2005.01. 46,84 2005.02. 48,15 2005.03. 54,19 2005.04. 52,98 2005.05. 49,83 2005.06. 56,35 2005.07. 59 2005.08. 64,99 2005.09. 65,59 2005.10. 62,26 2005.11. 58,32 2005.12. 59,41 2006.01. 65,49 2006.02. 61,63 2006.03. 62,69 2006.04. 69,44 2006.05. 70,84 2006.06. 70,95 2006.07. 74,41 2006.08. 73,04 2006.09. 63,8 2006.10. 58,89 2006.11. 59,08 2006.12. 61,96 2007.01. 54,51 2007.02. 59,28 2007.03. 60,44 2007.04. 63,98 2007.05. 63,46 2007.06. 67,49 2007.07. 74,12 2007.08. 72,36 2007.09. 79,92 2007.10. 85,8 2007.11. 94,77 2007.12. 91,69 2008.01. 92,97 2008.02. 95,39 2008.03. 105,45 2008.04. 112,58 2008.05. 125,4 2008.06. 133,88 2008.07. 133,37 2008.08. 116,67 2008.09. 104,11 2008.10. 76,61 2008.11. 57,31 2008.12. 41,12 2009.01. 41,71 2009.02. 39,09 2009.03. 47,94 2009.04. 49,65 2009.05. 59,03 2009.06. 69,64 2009.07. 64,15 2009.08. 71,05 2009.09. 69,41 2009.10. 75,72 2009.11. 77,99 2009.12. 74,47 2010.01. 78,33 2010.02. 76,39 2010.03. 81,2 2010.04. 84,29 2010.05. 73,74 2010.06. 75,34 2010.07. 76,32 2010.08. 76,6 2010.09. 75,24 2010.10. 81,89 2010.11. 84,25 2010.12. 89,15 2011.01. 89,17 2011.02. 88,58 2011.03. 102,86 2011.04. 109,53 2011.05. 100,9 2011.06. 96,26 2011.07. 97,3 2011.08. 86,33 2011.09. 85,52 2011.10. 86,32 2011.11. 97,16 2011.12. 98,56 2012.01. 100,27 2012.02. 102,2 2012.03. 106,16 2012.04. 103,32 2012.05. 94,66 2012.06. 82,3 2012.07. 87,9 2012.08. 94,13 2012.09. 94,51 2012.10. 89,49 2012.11. 86,53 75

3. A Dickey-Fuller teszt kritikus értékei 4. A Kwiatkowski Phillips Schmidt Shin teszt kritikus értékei