Mortalitás és fertilitás modellezés

Hasonló dokumentumok
A Lee-Carter módszer magyarországi

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

Autoregresszív és mozgóátlag folyamatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Természetes népmozgalom

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

EGER DEMOGRÁFIAI FOLYAMATAINAK ELEMZÉSE ÉS ELŐREJELZÉSE (összegzés)

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

A Statisztika alapjai

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Valószínűségszámítás összefoglaló

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

TÁJÉKOZTATÓ BÉKÉS MEGYE NÉPEGÉSZSÉGÜGYI HELYZETÉRŐL

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

[Biomatematika 2] Orvosi biometria

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

STATISZTIKA. Mit nevezünk idősornak? Az idősorok elemzésének módszertana. Az idősorelemzés célja. Determinisztikus idősorelemzés

Diagnosztika és előrejelzés

A MIDAS_HU modell elemei és eredményei

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Statisztika elméleti összefoglaló

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Alapfogalmak. Trendelemzés Szezonalitás Modellek. Matematikai statisztika Gazdaságinformatikus MSc október 29. 1/49

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

Statisztikai módszerek a skálafüggetlen hálózatok

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Megoldott feladatok november 30. n+3 szigorúan monoton csökken, 5. n+3. lim a n = lim. n+3 = 2n+3 n+4 2n+1

DIFFERENCIAEGYENLETEK

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Bevezetés. 1. előadás, február 11. Módszerek. Tematika

Továbblépés. Általános, lineáris modell. Példák. Jellemzık. Matematikai statisztika 12. elıadás,

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

AZ EGÉSZSÉGESEN ÉS A FOGYATÉKOSSÁG NÉLKÜL LEÉLT ÉVEK VÁRHATÓ SZÁMA MAGYARORSZÁGON

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

A kockázat fogalma. A kockázat fogalma. Fejezetek a környezeti kockázatok menedzsmentjéből 2 Bezegh András

Differenciálegyenletek numerikus megoldása

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Demográfiai modellek (folytatás)

Normák, kondíciószám

A maximum likelihood becslésről

Adatok statisztikai értékelésének főbb lehetőségei

6. Előadás. Megyesi László: Lineáris algebra, oldal. 6. előadás Bázis, dimenzió

Matematikai geodéziai számítások 5.

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Least Squares becslés

egyenlőtlenségnek kell teljesülnie.

Exponenciális kisimítás. Üzleti tervezés statisztikai alapjai

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Matematikai geodéziai számítások 6.

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

A GDP hasonlóképpen nem tükrözi a háztartások közötti munka- és termékcseréket.

11. Előadás. 11. előadás Bevezetés a lineáris programozásba

Ipari matematika 2. gyakorlófeladatok

Szezonális kiigazítás az NFSZ regisztrált álláskeresők idősorain. Készítette: Multiráció Kft.

y ij = µ + α i + e ij

Statisztika II előadáslapok. 2003/4. tanév, II. félév

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

EPIDEMIOLÓGIA I. Alapfogalmak

BIOMATEMATIKA ELŐADÁS

Gauss-Seidel iteráció

LNM folytonos Az interpoláció Lagrange interpoláció. Lineáris algebra numerikus módszerei

Matematikai geodéziai számítások 6.

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

A termékenység és a párkapcsolatok nyitott kérdései

Előfeltétel: legalább elégséges jegy Diszkrét matematika II. (GEMAK122B) tárgyból

Matematikai geodéziai számítások 10.

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Abszolútértékes és gyökös kifejezések

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Az idősorok összetevői Trendszámítás Szezonalitás Prognosztika ZH

0-49 pont: elégtelen, pont: elégséges, pont: közepes, pont: jó, pont: jeles

Gauss elimináció, LU felbontás

Poncelet egy tételéről

KÖZPONTI STATISZTIKAI HIVATAL. Szóbeli vizsgatevékenység

Normális eloszlás tesztje

Korreláció és lineáris regresszió

Kutatásmódszertan és prezentációkészítés

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

15. LINEÁRIS EGYENLETRENDSZEREK

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Fodor Péter. Halandósági táblák el rejelzése

Termelés- és szolgáltatásmenedzsment

Explicit hibabecslés Maxwell-egyenletek numerikus megoldásához

Irányításelmélet és technika II.

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Matematika III előadás

Typotex Kiadó. Jelölések

3. Előadás. Megyesi László: Lineáris algebra, oldal. 3. előadás Lineáris egyenletrendszerek

IBNR számítási módszerek áttekintése

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematika A2 vizsga mgeoldása június 4.

Markov-láncok stacionárius eloszlása

Elemi statisztika fizikusoknak

Átírás:

Eötvös Loránd Tudományegyetem Természettudományi Kar Mortalitás és fertilitás modellezés Szakdolgozat Készítette: Csuka Viktória Matematika BSc, Matematikai elemző szakirány Témavezető: Prőhle Tamás Valószínűségelméleti és Statisztika Tanszék Matematika Intézet Budapest 2015

Tartalomjegyzék Bevezetés 5 0.1. Motiváció.................................. 5 0.2. Alapvető mutatók és alapfogalmak.................... 5 1. Halálozás és termékenység Magyarországon 7 1.1. Mortalitási modellek............................ 8 1.2. Termékenységi mutatók........................... 9 2. Lee-Carter modell 12 2.1. A modell elméleti alapjai.......................... 12 2.2. A modell alkalmazása............................ 13 2.3. Paraméterek becslése............................ 14 2.4. ˆκ t kiigazítása................................ 16 3. ARIMA modellek 18 3.1. ARMA folyamatok............................. 19 3.2. ARIMA folyamatok............................. 19 3.3. Yule-Walker-egyenletek........................... 20 4. Számítások 22 4.1. A Lee-Carter modell gyakorlati alkalmazása............... 22 4.2. Lee-Carter modell élettartam adatokra.................. 23 4.3. Lee-Carter modell termékenység adatokra................ 25 5. Összefoglalás 28 Irodalomjegyzék 29 2

Ábrák jegyzéke 1.1. Magyarországon a várható élettartam alakulása............. 7 1.2. A születéskor várható átlagos élettartam alakulása Magyarországon és a Nyugat-Európai országokban........................ 8 1.3. Élveszületések és halálozások száma és aránya Magyarországon 1960-2010 11 1.4. Élveszületések és halálozások aránya Magyarországon 1960-2010.... 11 4.1. A francia mortalitás adatok α paramétere................ 24 4.2. A francia mortalitás adatok β paramétere................ 24 4.3. A francia mortalitás adatok κ paramétere................. 25 4.4. A Lee-Carter κ paraméterének 50 éves előrejelzése............ 25 4.5. 1921-2002 közötti fertilitás adatok..................... 26 4.6. Várható gyermekszám előrejelzése Lee-Carter modellel......... 27 3

Köszönetnyilvánítás Ezúton szeretném megköszönni témavezetőmnek, Pröhle Tamásnak a rengeteg időt és energiát amit a szakdolgozatom elkészítése során rám szánt, hasznos tanácsaival és észrevételeivel rendszeresen segítette munkámat. Továbbá szeretném megköszönni a családomnak a rengeteg támogatást és azoknak a tanároknak, oktatóknak akik tudásukkal segítették tanulmányaimat. 4

Bevezetés 0.1. Motiváció Szakdolgozatom témájának kiválasztásakor arra törekedtem, hogy mindenképp olyan témát válasszak, amely során a matematika olyan gyakorlati területén való alkalmazását tekintsem, amely szorosan kötődik mindennapjainkhoz és, amely olyan kérdésekre ad választ, ami a gazdaságot egyértelműen érinti. A mortalitás és a fertilitás két alapvető demográfiai jelenség. Így esett a választásom a népességstatisztikára. A dolgozatom középpontjában szerepel továbbá a Lee-Carter-modell, hiszen Magyarországon is ezt a modellt alkalmazzák a születéskor várható átlagos élettartam meghatározására és, melyről megmutatom, hogy alkalmazható a fertilitás becslésére is. 0.2. Alapvető mutatók és alapfogalmak 0.1. Definíció. Nyers születési arányszám: az ezer főre jutó élveszületések száma ugyanazon év évközepi népességhez viszonyítva. 0.2. Definíció. Nyers halálozási arányszám: a halálozások ezer lakosra jutó száma, évközepi népességre számítva. 0.3. Definíció. Halálozási arányszám (Nem -és korspecifikus): a nem és kor szerinti halálozások ezer megfelelő nemű és korú népességre jutó száma, évközepi népességre számítva. 0.4. Definíció. Termékenység: a szülőképes korban lévő női népesség, vagy egyes csoportjaira jutó születések száma. 5

0.2. Alapvető mutatók és alapfogalmak 0.5. Definíció. Teljes termékenységi arányszám: azt fejezi ki, hogy az adott év-kor szerinti születési gyakorisága mellett egy nő élete folyamán hány gyermeknek adna életet. 0.6. Definíció. Általános termékenységi arányszám: Értéke azt mutatja, hogy az adott év kor szerinti termékenységi viszonyainak tartós megmaradása esetén egy nő élete folyamán hány gyermeknek adna életet. 0.7. Definíció. Korspecifikus termékenységi arányszám: egy adott életkorhoz tartozó nők termékenységét fejezi ki 0.8. Definíció. Várható átlagos élettartam: azt fejezi ki, hogy a különböző életkorúak az adott év halandósági viszonyai mellett még hány évi élettartamra számíthatnak. 0.9. Definíció. Halál: A halálozás az ENSZ Statisztikai Bizottságának ajánlása szerint az élet minden jelének végleges elmúlása az élveszületés megtörténte után bármely idővel. (Demográfia, 1996. 243.o) 0.10. Definíció. Halálozási valószínűség: annak az esélye, hogy az adott (t) évben egy x éves személy már nem lesz életben a következő (t + 1.) évben x + 1 éves korában. 0.11. Definíció. Kitettség: Az x éves g csoporthoz tartozó emberek megélt életéveinek a számát jelenti a t. évben. 6

1. fejezet Halálozás és termékenység Magyarországon Az elmúlt évtizedekben a várható élettartam jelentősen megnőtt, mivel a halálozási tendencia az erősen iparosodott országokban a legutóbbi években csökkenő. 1980 és 2010 között például Magyarországon a férfiak születéskor várható élettartama 65,45- ről 70,50-re, míg a nőké 72,70-ről 78,11 évre nőtt. 1.1. ábra. Magyarországon a várható élettartam alakulása Magyarországon a várható élettartam emelkedése nem volt mindig egyenletes. A nyugateurópai országokhoz képest a halálozási mutatók tekintetében hazánk állandó lemaradásban van. (Lásd az 1.2 ábrát!) A demográfia és a biztosításmatematika területén már több modellt is kidolgoztak, amely reprezentálja a mortalitást. Hagyományosan egy paraméteres görbét használtak 7

1.1. Mortalitási modellek éves halálozási arány illesztésére, ezek kidolgozásában Moivre-nek (1725), Gompertznek (1825) és Weibull-nak (1939) volt úttörő szerepe. Az elmúlt 30 évben számos megközelítést dolgoztak ki annak érdekében, hogy sztochasztikus modellek segítségével megbizhatóbb előrejelzést készítsenek a halandóságról. Ilyen volt McNown és Rogers (1989, 1992), Bell és Monsell (1991), és Lee és Carter (1992) munkássága is. A Lee- Carter formula lett az egyik legismertebb és a világon számos helyen használják a korspecifikus halálozási arány előrejelzésére. Másrészről, a Lee-Carter modellt és kiterjesztéseit számos más célra is alkalmazzák. Lényegében a modell feltételezi, hogy a halálozási trendek dinamikáját idővel csak egy paraméter, a mortalitási index szabályozza. A Box-Jenkins modellt, más néven autoregresszív mozgóátlag folyamatot (AR- MA) gyakran használják stacionárius, és differenciálás után stacionárius előrejelzések készítésére. 1.2. ábra. A születéskor várható átlagos élettartam alakulása Magyarországon és a Nyugat-Európai országokban 1.1. Mortalitási modellek Úgy tudjuk a legjobban értékelni a halálozási valószínűségek időbeli alakulását, ha a modellezésük során a halálozást befolyásoló véletlen tényezők szerepét minimalizáljuk az adott évben. Minden halálozási modell alapja az egy főre jutó halálozások száma, vagyis a központi mortalitási ráta. Ezt a következőképpen definiáljuk: m x,t = D x,t /E x,t (1.1) 8

1.2. Termékenységi mutatók D x,t azoknak az x éves embereknek a számát jelöli, akik a t. időszakra meghaltak. E x,t jelenti a t. évben az x éves emberek megélt életéveinek a számát, azaz a kitettséget. A központi halálozási rátákat általában éves alapon figyelik meg, 0 éves kortól egy maximális életkorig (x {0, 1,..., 110}). A halálozások számát a Központi Statisztika Hivatal statisztikáiból tudhatjuk meg. A mortalitási rátákból származtathatók az egyéves halálozási valószínűségek. Tegyük fel, hogy a kitettség a kor lineáris függvénye, ekkor a következő összefüggés írható fel: q x,t = m x,t 1 + 1 2 m x,t (1.2) 1.2. Termékenységi mutatók A termékenység demográfiai értelemben az utódok nemzésére és világra hozatalára irányuló képességet, illetve készséget jelenti, ezáltal az emberi élet megújításának és megújulásának alapvető fontosságú tényezője. A születések száma a termékenység egy adott szintje mellett a szülőképes korú női népesség számától és korösszetételétől is függ, a halálozások számát pedig az adott halandósági viszonyok mellett lényegesen befolyásolja a népesség egészének korösszetétele. Egy naptári év termékenységének jellemzésére a legáltalánosabban használt és legismertebb mutató a teljes termékenységi arányszám. A teljes termékenységi arányszám (TFR = Total Fertility Rate) nem más, mint a 15-49 év közötti, szülőképes korban lévő nőkre számított korspecifikus termékenységi arányszámok (ASFR = Age Specific Fertility Rate) összege. Ez a következőképpen számítható ki: ASF R i = B a E a 1000 (1.3) B a az élve születések évi száma (i. női korosztályban) és E a jelöli az i. női korosztály évközepi számát. A szülőképes korúnak Európában - és Magyarországon is - a 15-49 éves korcsoport- 9

1.2. Termékenységi mutatók ba tartozó nőket tekintik. Ez alapján az általános termékenységi arányszám: GF R = B P n 15 49 1000 (1.4) GFR az általános termékenységi arányszámot jelöli (General Fertility Rate), B az élveszületések számát és P a megfelelő korú női népességet jelenti. Ezt a mutatót főként a szülőképes nők korösszetételének változása befolyásolja. Pl. jelenleg az összes élveszületések kétharmada a 20-29 éves nőktől származik, míg a 40-49 éves nőktől mindössze 1 százalék. A nyers élveszületési arányszám (Crude Birth Rate) és az általános termelékenységi arányszám között a következő összefüggés van: GF R = B P n 15 49 n (1.5) A magyar lakosságot 1980-ig a természetes szaporodás, 1981-től a természetes fogyás jellemezte és jellemzi az utóbbi években is. Az 1990-es évektől a természetes fogyás fokozatosan gyorsult Magyarországon, aminek elsősorban a magas halálozás miatti veszteség a magyarázata, de hozzájárult a folyamat kialakulásához az élveszületési arányszámban bekövetkezett jelentős csökkenés is. (Lásd az 1.3 és az 1.4 ábrákat!) 10

1.2. Termékenységi mutatók 1.3. ábra. Élveszületések és halálozások száma és aránya Magyarországon 1960-2010 1.4. ábra. Élveszületések és halálozások aránya Magyarországon 1960-2010 11

2. fejezet Lee-Carter modell 2.1. A modell elméleti alapjai A módszert eredetileg halálozási adatokra fejlesztették ki. Azóta a szakirodalomban széles körben elemzik, fejlesztik és használják is gyakorlati alkalmazások során. A neve onnan származik, hogy először az 1933-1987 közötti éves amerikai halálozási adatokra alkalmazva Ronald D. Lee és Lawrence R. Carter publikálta 1992-ben. A Lee-Carter modell egy numerikus algoritmus, amit a halálozás és a várható élettartam előrejelzése során használnak. Lee és Carter amerikai mortalitási rátákat modelleztek, amely során egy extrapolatív módszert találtak ki és alkalmaztak. Modelljükben a halálozás három paramétertől függ: két determinisztikus kor- és egy sztochasztikus időparamétertől. A korábbi modellekhez képest az volt az erénye, hogy a halálozási ráták előrejelzéséhez idősor-elemzési módszerekkel kombinált egy egyszerű demográfiai modellt. Ráadásul anélkül, hogy magában foglalta volna a halálozási ráta változását befolyásoló orvosi, életviteli és egyéb tényezőket is. A mortalitás előrejelzéséhez használt módszerek közül a vezető statisztikai modellé vált a demográfiai szakirodalomban. - Deaton és Paxson [2004] A modell: ln(m x,t ) = α x + β x κ t + ε x,t (2.1) 12

2.2. A modell alkalmazása ahol m x,t az x éves ember t. időszakra (évre) vonatkozó halálozási rátáját jelenti, κ t halálozási szintre való érzékenység a t. évben, β x mutatja az érzékenységet az x életkorban, α a mortalitási ráta alapértéke, ε x,t pedig a hibatag. A halálozási előrejelzés érdekében Lee és Carter feltette, hogy β x és α x csak a kortól függ, időben állandó marad, ˆκ t nem függ a kortól csak az időszaktól, míg ε függhet a kortól és időtől is. A model hatékonyságának az oka alapvetően az, hogy a megfigyelt adatokhoz viszonyítva kevésszámú paraméterre épül így jól működik. A modellben x a vizsgált személyek kora (korcsoportja) x {0, 1,..., N} és t az időszak (általában évek, de lehetnek negyedévek, illetve hónapok is) t {1,..., T }. Ennek megfelelően a paraméterek (α 0, α 1,..., α N ), (β 0, β 1,..., β N ), (κ 0, κ 1,..., κ N ), így a paraméter száma 2(N +1)+T. Amennyiben m x,t értétek közt nincsen hiányzó érték úgy (N +1) T megfigyelésünk van. Az esetlegesen hiányzó értékekből származó probléma többféleképpen is megoldható. 1. Az egyik lehetséges út, a modell illesztése előtt interpolációval pótolni a hiányzó értékeket. 2. Egy másik lehetséges megoldás a modell α, β és κ paraméterein alapulú klasszikus idősoros technika. Többféle eljárás létezik, de ezekkel most részletesen nem foglalkozunk. 2.2. A modell alkalmazása A modell alkalmazása 3 lépésből áll: 1. A modell paramétereinek becslése. 2. A modellezett halálozások számának a megfigyelt halálozások számához való igazítása (κ t kiigazítása). 13

2.3. Paraméterek becslése 3. Előrejelzés készítése a halálozási rátákra vonatkozóan. A Lee-Carter modell túlparaméterezett abban az értelemben, hogy invariáns az alábbi transzformációkra: [8] β x cβ x κ t 1 c κ t c R, c 0 α x α x β x c κ t κ t + c c R Ez nem egy fogalmi akadály, ez csupán azt jelenti, hogy a paraméterek, amiket a modellhez társítottak, végtelen számú ekvivalens maximum helye lehet, amelyek mind azonos előrejelzéseket eredményeznek. A gyakorlatban mi csupán veszünk egy tetszőleges, de következetes paraméterezést, ami elegendő az azonosításhoz. Ezt meg tudjuk tenni azáltal, hogy bevezetünk két korlátot. Lee és Carter a következő két feltételt vezette be a paraméterek egyértelmű meghatározása érdekében: N β x = 1 (2.2) x=1 T κ t = 0 (2.3) t=1 T jelöli az évek számát, N pedig a legmagasabb életkort, ami a megfigyelésben szerepel. 2.3. Paraméterek becslése A formula mátrixos alakban is felírható: M = A + b.k (2.4) M = (M x,t ) (2.5) M x,t = ln(m x,t ) α x (2.6) ahol M egy r n-es mátrix és minden M i,j eleme megfelel a korspecifikus i. halálozási ráta természetes logaritmusával a j. évben. A szintén egy r n-es mátrix. Azok az elemek amelyek ugyanabba a kategóriába tartoznak egyenlőek, így: a 1,j = a 2,j =... = a r,j 14

2.3. Paraméterek becslése az azonos j. évre, b egy r 1-es vektor, k pedig egy 1 n-es vektor. A korábban bevezetett két korlát nélkül nem lenne egyetlen megoldása az egyenletnek. Az α x korspecifikus paraméter, az adott paraméterezés és peremfeltételek mellett a halálozási ráták logaritmusának várható értéke. Ezért a megfigyelt halálozási rátákból számolt ˆα x = 1 T ln(m x,t ) (2.7) T x=1 átlag egy a céljainknak megfelelő, torzitatlan becslése. Az A mátrix elemeinek ismeretében, a mátrixos egyenletet átírhatjuk az alábbi formába: M = M A = b.k (2.8) A következőkben az M mártixot fogjuk közeliteni Lee és Carter ajánlásának megfelelően az SVD (szinguláris értékek szerinti felbontás) 1 módszer segítségével. Ezzel a módszerrel az M mátrix legkisebb négyzetekkel vett tetszőleges pontosságú közelitését megkaphatjuk. Ugyanis az SVD felbontás szerinti l = 0,..., N-re vannak olyan B l illetve K l vektorok, amelyekre az M mátrix m x,t eleme N m x,t = B l,x Kl,t T (2.9) l=0 Ráadásul, ha a B l és K l vektorokat a szinguláris értékek csökkenő sorrendjében vesszük figyelembe, akkor az fenti összeg első, például n tagja az M legjobb n-ed rendű közelötése a négyzetes eltérés értelemében. A mondottak miatt a Lee-Carter módszer az M közelitéseként az SVD felbontás első vektorpárját alkalmazza. Vagyis, azt a közelitést veszi, hogy: M B 1 K1 T (2.10) ahol B 1 és K 1 az M mátrix szinguláris felbontás szerinti első faktora. 1 Ez a módszer a pozitív szemidefinit mátrixok spektrálfelbontásának általánosítása nem csak négyzetes mátrixokra. 15

2.4. ˆκ t kiigazítása A Lee-Carter módszer szerint az így nyert ˆα x paramétereket időfüggetlen korspecifikus paraméterként; a ˆκ t paramétereket pedig korfüggetlen, időfüggő, látens folyamatként értelmezzük. A ˆβ x paraméter pedig azt fejezi ki, hogy milyen mértékben függ egy adott kor rátája az adott időpontra jellemző ˆκ t értéktől. Az ε x,t a mortalitási ráta véletlen változásainak azt a részét modellezi, amely a többi korra, időpontra jellemző rátától független. Összefoglalva, a becslés kiindulásaként a következő értékeket alkalmazhatjuk. Legyen ˆα x mint korábban: ˆα x = T x=1 ln(m x,t) T (2.11) Legyen az M mátrixnak a v 1 és az u 1 az első szinguláris bázispárja és a σ 1 az első szinguláris értéke. Ekkor, figyelembe véve a peremfeltételeket is: ˆκ t = σ 1 v 1,t u 1,x (2.12) x X ˆβ x = u 1,x x X u 1,x (2.13) A második lépés során a ˆκ t paramétereket kiigazítjuk, hogy a megfigyelt és a modellezett halálozások száma minden egyes évben megegyezzen egymással. 2.4. ˆκ t kiigazítása Erre tulajdonképpen azért van szükség, mert a modell paramétereinek becslésekor a fiatal korok mortalitási rátái ugyanolyan súlyt kapnak, mint az idős korokéi, holott az előbbiek lényegesen kisebb mértékben járulnak hozzá az összes halálozás számához. ˆκ t -t helyettesítjük κ t -vel, melyet a következő egyenlőségból egyértelműen meghatározhatunk: D x,t = x x [E x,t exp(ˆα x,t + ˆβ xˆκ t )] (2.14) 16

2.4. ˆκ t kiigazítása Ezek után már csak a harmadik lépés van hátra, melynek során előrevetítjük a mortalitási rátákat a jövőre, és az így kapott értékek alapján becslést készítünk a jövőben várható átlagos élettartamra. Az előrejelzés során az ˆα x és a ˆβ x paramétereket konstansoknak tekintjük és a κ t = [ κ (i) 1, κ (i) 2,..., κ (i) t ] T idősorát standard egyváltozós idősor-elemzési módszert használva extrapoláljuk. Végeredményben ezeket az extrapolált látens faktorokat helyettesítjük vissza a Lee-Carter-egyenletbe, hogy megkapjuk a jövőbeli mortalitási rátákat, majd a valószínűségeket. 17

3. fejezet ARIMA modellek Az idősorok egyik alap modellje az ARMA modell (autoregresszív mozgóátlag modell) és annak kiterjesztettje az ARIMA modell (AutoRegressive Integrated Moving Average / Integrált Autoregresszív Mozgóátlag Folyamatok). 3.1. Definíció. Idősor: Egy valószínűségi változó sorozat, amely általában időben ekvidisztáns időpontokban tett megfigyelések sorozata. 3.2. Definíció. Stacionárius: Egy folyamat, ha valamilyen valószínűségi jellemzője időben eltolásinvariáns. 3.3. Definíció. Bővebb értelemben stacionárius: Abban az esetben, ha a várhatóérték, a szórás és az időben azonos távolságra levő megfigyelések kovarieciája időben eltolásinvariáns. 3.4. Definíció. Szűkebb értelemben stacionárius: Ha a végesdimenziós eloszlásai eltolásinvariánsak. 3.5. Definíció. Végesdimenziós eloszlás: Adott számú egymásutáni megfigyelés együttes eloszlása. 3.6. Definíció. Ha X n a következő alakban írható fel: p X(t) = X t + ϕ 1 X t 1 +... + ϕ p X t p + ε t = c + ϕ i X t i + ε t (3.1) ahol ϕ i -k valós számok, ε pedig fehérzaj. Ekkor X autoregressziós p-ed rendű folyamat. Jelölése: AR(p) 18 i=1

3.3. Yule-Walker-egyenletek 3.7. Definíció. q Y (t) = ϑ 0 ε t + ϑ 1 ε t 1 +... + ϑ q ε t q = η + ε t + ϑ j ε t j (3.2) folyamatot q-rendű mozgóátlag folyamatnak nevezzük. Jelölés: MA(q) j=1 3.1. ARMA folyamatok Az ARMA modellek a sztochasztikus idősorelemzés legegyszerűbb és a gazdasági gyakorlatban leginkább elterjedt ágát jelentik, melyeket az AR- és az MA-modellek egyesítéseként állítottak elő. Az ARMA folyamatok jelentősége az utóbbi évtizedekben megnőtt, s a tapasztalatoknak köszönhetően matematikailag jól kezelhetőek és általánosíthatóak. Az autoregresszív jelző arra utal, hogy Y t részben saját véges múltjára vonatkozó lineáris regressziójaként írható fel. A mozgó átlag jelző pedig azt fejezi ki, hogy a lineáris regresszió "hibatagja" az ε t fehérzaj mozgó átlaga, azaz a jelen és a véges múlt lineáris kombinációja. 3.8. Definíció. Legyen ε(t) független, 0 várható értékű, stacionárius zaj. Ekkor ha: p q X t + ϕ i X t i = ϑ j ε t j (3.3) i=1 j=0 ha az X t folyamat a fenti egyenletet elégíti akkor az egy ARMA(p,q) folyamat. 3.2. ARIMA folyamatok 3 fő részből áll: 1. AR(p) 2. I(d) 3. MA(q) p,d,q nem negatív egész számok, p az autoregresszív feltételek száma, d a nem-szezonális különbségek száma, és q az elcsúsztatott becslési hibák száma az előrejelzési egyenletben. 3.9. Definíció. ARIMA: Egy folyamat ARIMA(p,d,q), hogyha a folyamat d-ed rendű differenciálfolyamat egy ARMA(p,q) folyamat. 19

3.3. Yule-Walker-egyenletek 3.3. Yule-Walker-egyenletek Udny Yule és Gilbert Walker nevéhez köthető a következő egyenletrendszer: p γ m = ϕ k γ m k + σεδ 2 m,0 (3.4) k=1 Ahol m = 0, 1, 2,.... Itt a γ m az X t folyamat m. autokovarieciája. σ ε a bemeneti zaj eljárás szórása és a δ m,0 a Kronecker-féle delta függvénye 1. Csak akkor 1, ha az m = 0. Ha vesszük az m = 1,..., p egyenleteket, akkor azok egy egyenletrendszert alkotnak. Az egyenletrendszer megoldható az ábrázolt egyenletre m > 0 a mátrixos formulában, így megkapjuk az egyenletrendszert γ p ϕ 1 γ 1 γ 0 γ 1 γ 2... γ 2 γ 1 γ 0 γ 1... ϕ 2 =........ γ p 1 γ p 2 γ p 3... ϕ p (3.5) Az ismert-becsült γ esetén az egyenlet alapján az autoregresszió ϕ {ϕ m : m = 1, 2,..., p} együtthatói megbecsülhetőek. Ezekből a becslésekből és az m=0 egyenletet felhasználva becslést kaphatunk a zaj σ szórására: m γ 0 = ϕ k γ k + σε 2 (3.6) k=1 Tehát látható, hogy az autokorrelációs függvény első p+1 eleme meghatározza az AR paramétereket. A teljes függvény ezután rekurzív módon kiszámítható. Ugyanis a felső egyenletnek teljesülnie kell, j=p+1-re is. 1 A Kronecker-féle delta matematikai kétváltozós (általában valós számokon értelmezett) függvény és értéke 1, ha a két változó értéke egyenlő, minden más esetben 0. Például δ 12 = 0, de δ 33 = 1. A függvényt Leopold Kronecker (1823-1891) német matematikusról nevezték el. 20

3.3. Yule-Walker-egyenletek Például: r=1: Ezért r(j) = r ϕ k r(k j)j = p + 1, p + 2,... (3.7) k=1 γ 1 = ϕ 1 γ 0 r 1 = γ 1 /γ 0 = ϕ 1 p=2 A Yule-Walker egyenletek AR(2) folyamatra γ 1 = ϕ 1 γ 0 + ϕ 2 γ 1 γ 2 = ϕ 1 γ 1 + ϕ 2 γ 0 Tudjuk, hogy γ k = γ k, és az első egyenlet eredményei alapján: A rekurzív formula eredményeit használva: r 1 = γ 1 /γ 0 = ϕ 1 1 ϕ 2 r 2 = γ 2 /γ 0 = γ2 1 γ 2 2 + γ 2 1 γ 2 21

4. fejezet Számítások 4.1. A Lee-Carter modell gyakorlati alkalmazása R.D. Lee és L. Carter az amerikai élettartam adatok elemzésekor, a κ t modellezésére számos integrált autoregresszív-mozgóátlag (ARIMA) modellt tesztelt, végül úgy találták, hogy egy egyszerű véletlen bolyongás (random walk) modell illeszkedik legjobban az adataikra. Ugyan elvileg lehetséges, hogy egyéb adatokra más modellspecifikáció alkalmasabb, de a szakirodalomban és az alkalmazásokban szinte kivétel nélkül ezzel a modellel lehet találkozni. Szakdolgozatomban az R program-környezet 1 demography 2 nevezetű kiegészitését használva készítettünk előrejelzést a várható élettartam és termékenység adatokra a Lee- Carter modell segítségével. 1 Az R egy magas szintű programozási nyelv és környezet, melynek legfontosabb felhasználása az adatelemzés és az ahhoz kapcsolódó grafikus megjelenítés. 2 Rob J Hyndman with contributions from Heather Booth, Leonie Tickle and John Maindonald. (2014). demography: Forecasting mortality, fertility, migration and population data. R package version 1.18. http://cran.r-project.org/package=demography 22

4.2. Lee-Carter modell élettartam adatokra A demography csomag fr.mort adathalmaz a franciaországi népesség számokat és halálozási rátákat tartalmazza 1816 és 2006 közt éves bontásban nemenként. Tehát összesen 191 év adata áll rendelkezésre. Ennek alapján készítettük a modellt az 1996-2006-os évekre a 0-110 korosztály mindegyikére, és egy előrejelzést, az követketkező 50 évre, 2056-ig. A szükséges program lépések egy kivonata az alábbi. library(demography) M <- lca(fr.mort, adjust="e0") F <- forecast(m, 50) plot(m, c ) plot(f, c ) A demogdata osztályú fr.mort tartalmazza a feldolgozott adatokat. Ezek alapján, az lca() program végzi el a Lee-Carter modell illesztését. Létrehoz egy lca osztályú objektumot. A létrejött M modell objektum alapján a forecast.lca() program készíti el az 50 éves előrejelzést. A keletkező F objektum osztálya fmforecast. E lista tipusú változó kt.f eleme tartalmazza a κ t komponens előrejelzését és az előrejelzésnek az alapértelmezés szerint 80%-os konfidencia tartományának határait. 23

A programrészlet grafikus eredményei: 4.1. ábra. A francia mortalitás adatok α paramétere 4.2. ábra. A francia mortalitás adatok β paramétere 24

4.3. ábra. A francia mortalitás adatok κ paramétere 4.4. ábra. A Lee-Carter κ paraméterének 50 éves előrejelzése 4.3. Lee-Carter modell termékenység adatokra A Lee-Carter modell A demography csomag aus.fert adathalmaza az ausztráliai nők fertilitás adatait tartalmazza 1921 és 2002 között, 7 korcsoportban. E korcsoportok a következők: "<20" "20-24" "25-29" "30-34" "35-39" "40-44" "44<". Előbb a tfr() program segítségével, kiszámítjuk a teljes népességre vonatkozó fertilitás értéket, a rendelkezésre álló 82 évre. Így egy 82 hosszú ts osztályú objektum jön létre. Az fdm() program segítségével, közvetlen az aus.fert adatokból létrehozunk egy fdm és ftsm, azaz egy functional demographic model típusú w2 változót. Ez a lépés jelenti a Lee-Carter modell illesztését. Az illesztett modell alapján az forecast.fdm() készíti el 25

a paraméterek előrejelzését. A kapott fmforecast és demogdata osztályú w3 objektum alapján a tfr() program PI=TRUE paraméterezés melletti ismételt meghívása eredményezi a bemutatott előrejelzés konfidencia tartományát. A konfidencia tartomány a κ t komponens 400-szori idősoros szimulációja alapján készül, úgy, hogy a szimulált idősoroknak időpontonként veszi az alapértelmezés szerinti 10-90%-os kvantiliseit. A kvantiliseket stats::quantile() függvény alapértelmezés szerinti, 7-es sorszámú módszerével számolja, amely egy folytonos eloszlásokra érvényes, módusz alapú technika. A szükséges program lépések egy kivonata az alábbi. w1<-tfr(aus.fert) # kiszamoljuk a tfr-t plot(w1) w2<-fdm(aus.fert) # keszitunk egy fdm-et w3 <- forecast(w2) w4 <- tfr(w3,pi=true,nsim=400) plot(w4) A programrészlet grafikus eredményei: 4.5. ábra. 1921-2002 közötti fertilitás adatok 26

4.6. ábra. Várható gyermekszám előrejelzése Lee-Carter modellel 27

5. fejezet Összefoglalás Szakdolgozatomban demográfiai kérdésekkel foglalkoztam, hiszen manapság a társadalmat jellemző változások között szerepel a növekvő születéskor várható átlagos élettartam, a született gyermekek számának alakulása és így a populációban bekövetkező változások is. Ezek hatására dolgozatom célja a népességstatisztika vizsgálata volt, melyhez az előrejelzések során a Lee-Carter modellt alkalmaztam. Az eredményeim megbízhatóságának növelése érdekében a számításokat az R programkörnyezetet segítségével végeztem. A bevezetésben a szükséges fogalmakat és mutatókat vezettem be és definiáltam. Ezek után az első fejezetben ismertettem a mortalitást, a születéskor várható átlagos élettartamot és annak alakulását Magyarországon, majd a fertilitást és magyarországi jellemzőit is. A második fejezetben részletesen vizsgáltam a Lee-Carter módszert és alkalmazásait. A negyedik fejezetben pedig az autoregresszív mozgóátlagolású folyamatokat ismertettem. Végül pedig számításokat végeztem az R programkörnyezetben a Lee-Carter módszer segítségével a születéskor várható átlagos élettartam és a termékenység előrejelzésére, majd ezeket dokumentáltam. Összességében elmondható, hogy eredményeim megerősítették a dolgozat kiinduló feltevését, vagyis a Lee-Carter módszer a fertilitás előrejelzésére való alkalmazása sikeres volt. A módszer széleskörűen alkalmazható. 28

Irodalomjegyzék [1] www.ksh.hu, Demográfiai adatbázis, elérés időpontja [2015.03.15] [2] www.wikipedia.org, fogalmak angol-magyar megfeleltetése szempontjából, elérés időpontja [2015.02.26] [3] R programkörnyezet, Demográfiai adatbázis, elérés időpontja [2015] [4] Ronald D. Lee, Lawrence Carter: Modeling and Forecasting the Time Series of U.S. Mortality, Journal of the American Statistical Association, 87(419), (Szeptember) 659-671, [1992] [5] Májer István, Dr. Kovács Erzsébet: Élettartam-kockázat - ugdíjrendszerre nehezedő egyik teher, Statisztikai szemle, 89. évfolyam 7-8. szám, [2011] [6] Baran Sándor, Gáll József, Ispány Márton, Pap Gyula: A Lee-Carter módszer magyarországi alkalmazása, elérés időpontja [2015.04.11] [7] Kamarás Ferenc: Termékenység, népesség-reprodukció, [2006] [8] Federico Girosi, Gary King: Understanding the Lee-Carter Mortality Forecasting Method, Harvard University, [2007] [9] Lucía Anderozzi, María Teresa Blaconá, Nora Arnesi: The Lee-Carter method for estimating and forecasting mortality: an application for Argentina, National University of Rosario, Argentina, [2011] [10] Colin Newell: Methots and Models in Demography, The Guilford Press, New York, [1990] [11] Ádány Róza: Megelőző orvostan és népegészségtan, Debreceni Egyetem, [2011] 29

Nyilatkozat Név: Csuka Viktória ELTE Természettudományi Kar, szak: Matematika Bsc Neptun azonosító: F855BK Szakdolgozat címe: Mortalitás és fertilitás modellezés Alulírott Csuka Viktória, az Eötvös Loránd Tudományegyetem hallgatója kijelentem, hogy ezt a diplomamunkát meg nem engedett segítség nélkül, saját magam készítettem, és a diplomamunkában a megadott forrásokat használtam fel. Minden olyan részt, amelyet szó szerint, vagy azonos értelemben, de átfogalmazva más forrásból átvettem, egyértelműen, a forrás megadásával megjelöltem. Budapest, 2015.05.28. Csuka Viktória hallgató aláírása