Maros Alexandra. Kárszámok és kárnagyságok közti kapcsolat modellezése. Budapesti Corvinus Egyetem Közgazdaságtudományi Kar

Hasonló dokumentumok
Abszolút folytonos valószín ségi változó (4. el adás)

1. Példa. A gamma függvény és a Fubini-tétel.

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A maximum likelihood becslésről

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Likelihood, deviancia, Akaike-féle információs kritérium

Eseményalgebra. Esemény: minden amirl a kísérlet elvégzése során eldönthet egyértelmen hogy a kísérlet során bekövetkezett-e vagy sem.

Gazdasági matematika II. tanmenet

Általánosított lineáris modellek a biztosításban

2. A ξ valószín ségi változó eloszlásfüggvénye a következ : x 4 81 F (x) = x 4 ha 3 < x 0 különben

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

L'Hospital-szabály március 15. ln(x 2) x 2. ln(x 2) = ln(3 2) = ln 1 = 0. A nevez határértéke: lim. (x 2 9) = = 0.

egyenletesen, és c olyan színű golyót teszünk az urnába, amilyen színűt húztunk. Bizonyítsuk

Valószín ségszámítás és statisztika

Megoldások. ξ jelölje az első meghibásodásig eltelt időt. Akkor ξ N(6, 4; 2, 3) normális eloszlású P (ξ

Függvények július 13. f(x) = 1 x+x 2 f() = 1 ()+() 2 f(f(x)) = 1 (1 x+x 2 )+(1 x+x 2 ) 2 Rendezés után kapjuk, hogy:

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

0,424 0,576. f) P (X 2 = 3) g) P (X 3 = 1) h) P (X 4 = 1 vagy 2 X 2 = 2) i) P (X 7 = 3, X 4 = 1, X 2 = 2 X 0 = 2) j) P (X 7 = 3, X 4 = 1, X 2 = 2)

Taylor-polinomok. 1. Alapfeladatok április Feladat: Írjuk fel az f(x) = e 2x függvény másodfokú Maclaurinpolinomját!

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

egyetemi jegyzet Meskó Balázs

Biztosítási ügynökök teljesítményének modellezése

Lineáris leképezések. Wettl Ferenc március 9. Wettl Ferenc Lineáris leképezések március 9. 1 / 31

Határozott integrál és alkalmazásai

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika elméleti összefoglaló

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Nemparaméteres próbák

Készítette: Fegyverneki Sándor

Gazdasági matematika II. vizsgadolgozat megoldása A csoport

KOVÁCS BÉLA, MATEMATIKA I.

IBNR számítási módszerek áttekintése

Lineáris egyenletrendszerek

A negatív binomiális eloszlás paramétereinek becslése

Least Squares becslés

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Determinánsok. A determináns fogalma olyan algebrai segédeszköz, amellyel. szolgáltat az előbbi kérdésekre, bár ez nem mindig hatékony.

BIOMATEMATIKA ELŐADÁS

15. LINEÁRIS EGYENLETRENDSZEREK

Függvények határértéke, folytonossága

7. gyakorlat. Lineáris algebrai egyenletrendszerek megoldhatósága

[Biomatematika 2] Orvosi biometria

Normális eloszlás paramétereire vonatkozó próbák

Lineáris algebra 2. Filip Ferdinánd december 7. siva.banki.hu/jegyzetek

25 i, = i, z 1. (x y) + 2i xy 6.1

Végeselem modellezés alapjai 1. óra

Lineáris leképezések. 2. Lineáris-e az f : R 2 R 2 f(x, y) = (x + y, x 2 )

A KroneckerCapelli-tételb l következik, hogy egy Bx = 0 homogén lineáris egyenletrendszernek

Valószínűségi változók. Várható érték és szórás

Gazdasági matematika II. vizsgadolgozat megoldása, június 10

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

GAZDASÁGMATEMATIKA KÖZÉPHALADÓ SZINTEN

Függvények növekedési korlátainak jellemzése

Korreláció és lineáris regresszió

Számelméleti alapfogalmak

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Matematikai statisztika szorgalmi feladatok

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

A mérési eredmény megadása

Bemenet modellezése (III.), forgalommodellezés

y ij = µ + α i + e ij

Valószínűségszámítás összefoglaló

Statisztikai módszerek a skálafüggetlen hálózatok

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Statisztika Elıadások letölthetık a címrıl

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Matematikai geodéziai számítások 5.

3. Előadás. Megyesi László: Lineáris algebra, oldal. 3. előadás Lineáris egyenletrendszerek

Megoldott feladatok november 30. n+3 szigorúan monoton csökken, 5. n+3. lim a n = lim. n+3 = 2n+3 n+4 2n+1

Line aris f uggv enyilleszt es m arcius 19.

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

Lineáris algebra és a rang fogalma (el adásvázlat, szeptember 29.) Maróti Miklós

1. Komplex függvények dierenciálhatósága, Cauchy-Riemann egyenletek. Hatványsorok, elemi függvények

Irányításelmélet és technika II.

7. gyakorlat. Lineáris algebrai egyenletrendszerek megoldhatósága

A Statisztika alapjai

A Markowitz modell: kvadratikus programozás

Feladatok a Gazdasági matematika II. tárgy gyakorlataihoz

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Ellátási lánc optimalizálás P-gráf módszertan alkalmazásával mennyiségi és min ségi paraméterek gyelembevételével

4. Az A és B események egymást kizáró eseményeknek vagy idegen (diszjunkt)eseményeknek nevezzük, ha AB=O

Vektorterek. Wettl Ferenc február 17. Wettl Ferenc Vektorterek február / 27

Keresztmetszet másodrendű nyomatékainak meghatározása

A következő feladat célja az, hogy egyszerű módon konstruáljunk Poisson folyamatokat.

Gépi tanulás és Mintafelismerés

KOVÁCS BÉLA, MATEMATIKA I.

352 Nevezetes egyenlôtlenségek. , az átfogó hossza 81 cm

A leíró statisztikák

Yule és Galton-Watson folyamatok

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Valószín ségszámítás és statisztika

Folyadékszcintillációs spektroszkópia jegyz könyv

Utolsó el adás. Wettl Ferenc BME Algebra Tanszék, Wettl Ferenc (BME) Utolsó el adás / 20

5. előadás - Regressziószámítás

Átírás:

Budapesti Corvinus Egyetem Közgazdaságtudományi Kar Eötvös Loránd Tudományegyetem Természettudományi Kar Maros Alexandra Kárszámok és kárnagyságok közti kapcsolat modellezése Biztosítási- és pénzügyi matematika MSc szakdolgozat Témavezet : Szamoránsky János AEGON Magyarország Általános Biztosító Zrt. Bels konzulens: Backhausz Ágnes ELTE TTK Valószín ségelméleti és Statisztika tanszék Budapest, 2018

Köszönetnyilvánítás Ezúton szeretném megköszönni témavezet mnek, Szamoránsky Jánosnak, hogy elvállalta a konzulensi teend ket, mindig a rendelkezésemre állt, útmutatást adott a téma feldolgozásához, segít készen elmagyarázta a témához kapcsolódó fogalmakat és további irodalmakat ajánlott, amelyekben részletesen utána tudtam olvasni a téma elméleti hátterének. Továbbá, köszönettel tartozom bels konzulensemnek, Backhausz Ágnesnek gondos munkájáért, aki mind szakmailag, mind formailag áttekintette munkámat és felhívta gyelmemet az esetleges hibákra és hiányosságokra, lehet vé téve ezzel azok kiküszöbölését és segítve szakmai fejl désemet. Külön köszönöm Édesanyámnak és Édesapámnak, hogy végigolvasták szakdolgozatomat, és észrevételeikkel, valamint tanácsaikkal hozzájárultak, hogy a dolgozat végs formája a lehet legjobb legyen. Szeretnék továbbá köszönetet mondani barátaimnak, akik mindig mellettem álltak és támogattak a dolgozat írásakor. Budapest, 2018. május 10. Maros Alexandra 2

Tartalomjegyzék Bevezetés 5 1. Elméleti összefoglaló 7 1.1. Általánosított lineáris modell..................... 7 1.1.1. Exponenciális szórásmodell................... 8 1.1.2. Általánosított lineáris modell a biztosításban......... 11 1.1.3. A modell struktúrája...................... 13 1.1.4. Gyakorlati megvalósítás.................... 15 1.1.5. Illeszkedésvizsgálat....................... 16 1.2. Az aggregált károk modellje...................... 18 1.2.1. Független eset.......................... 19 1.2.2. Összefügg eset......................... 20 2. Általánosított lineáris modell a független esetben 21 3. Általánosított lineáris modell az összefügg esetben 24 4. Modellezés 28 4.1. Az adatok bemutatása......................... 28 4.2. Modellek a független esetben...................... 31 4.2.1. Kárszám modell......................... 32 4.2.2. Átlagkár modell......................... 33 4.2.3. Aggregált károk modellje.................... 34 4.3. Modellek az összefügg esetben.................... 35 4.3.1. Kárszám modell......................... 35 4.3.2. Átlagkár modell......................... 35 4.3.3. Aggregált károk modellje.................... 42 3

TARTALOMJEGYZÉK 4.4. Az eredmények összehasonlítása.................... 43 4.4.1. Az illeszkedések vizsgálata................... 45 5. Összefoglalás 48 5.1. Megállapítások, eredmények...................... 48 5.2. További modellezési lehet ségek.................... 49 Irodalomjegyzék 50 4

Bevezetés A biztosítási díjszámításokban és modellezésben általában feltételezik, hogy a károk száma és nagyságuk független egymástól. Azonban vannak vizsgálatok, melyek szerint ez a feltételezés nem teljesül. Gondoljunk például a kötelez gépjárm -felel sségbiztosításra: lehetséges, hogy egy szerz d csak a munkába járáshoz használja az autóját, így például kárt okozhat azzal, ha a dugóban ülve nekikoccan az el tte álló autónak; egy másik esetben viszont lehet, hogy egy szerz d minden hétvégén messzire jár a rokonaihoz az autójával, és rendszeresen utazik autópályán, ahol már akkor is nagyon nagy kárt okozhat, ha csak egy pillanatra nem gyel a forgalomra. Ekkor el fordulhat, hogy az el bbi szerz d több, de kisebb kárt okoz, míg az utóbbi kevesebb, de nagyobb összeg károkat. Fontos, hogy szakdolgozatom során egy kár összegén én csak azt az összeget értem, amit a biztosító a káreseményre kizet, míg valójában a biztosítók egy kár összegén általában a kárkizetés + kártartalék összegét értik (ezt szokás kárráfordításnak is nevezni). Az alábbiakban négy fontos fogalmat tisztázok, amelyeket a dolgozatom során használni fogok. kárdarabszám = adott id szakban bekövetkezett és bejelentett károk száma kárszükséglet = adott id szakban bekövetkezett és bejelentett károk összege kárgyakoriság = kárdarabszám adott id szakban kockázatban töltött id átlagkár = kárszükséglet kárdarabszám Ezek alapján: kárszükséglet = kárdarabszám átlagkár. Szakdolgozatomban a kárszükséglet szinonimájaként gyakran az összkár kifejezést fogom használni, a kárdarabszámot pedig sokszor röviden kárszámnak fogom nevezni, illetve az átlagkárt néhol átlagos kárnagyságnak fogom hívni. Továbbá, tételes kárnagyságként fogok hivatkozni arra az összegre, amely egy 5

BEVEZETÉS szerz d nek egy adott bejelentett kárára vonatkozik (az átlagos kárnagyság tehát a tételes kárnagyságok összege osztva a kárdarabszámmal). Az elméleti részeknél minden esetben felteszem, hogy a tételes kárnagyságok függetlenek és azonos eloszlásúak, így ott a tételes kárnagyságokat sokszor röviden kárnagyságnak fogom hívni. Kés bb azonban a modellezés során az átlagos kárnagysággal fogok dolgozni (látni fogjuk, hogy bizonyos feltételek mellett a modellezés során nem számít, hogy a tételes kárnagyságokkal vagy az átlagos kárnagysággal dolgozunk), és mivel ott már nem szerepelnek majd tételes kárnagyságok, így el fordul majd, hogy ott is röviden a kárnagyság szót fogom használni. Dolgozatomban el ször ismertetem a modellezéshez szükséges elméletet, majd egy valós portfólió adatain keresztül vizsgálom a kárszámok és a kárnagyságok közti összefüggést. Az általánosított lineáris modellek segítségével megbecsülöm a várható kárszámot és a várható átlagos kárnagyság értékét, és ezekb l számolom ki a várható kárszükségletet. A modellezés során használt portfóliómra a tételes kárnagyságok nem voltak elérhet ek, csak az összkárt lehetett tudni minden szerz d re, így én a gyakorlati példámban az összkárból számítottam ki az átlagos kárnagyságot. Az els három fejezetben ismertetem a modellezés elméleti hátterét. Az els fejezetet a [3] és a [4] irodalmak alapján dolgoztam ki, míg a második és harmadik fejezetet többnyire az [1] és [2] irodalmak felhasználásával készítettem. Amennyiben egy-egy elméleti részt közvetlenül, vagy részletesebb levezetés nélkül használtam fel, akkor a forrást külön jeleztem a dolgozat során. A negyedik fejezet azt mutatja be, hogy hogyan valósítottam meg a modellezéseimet, és milyen eredményeket kaptam. Ennek felépítéséhez sok ötletet merítettem az [1] és [2] irodalmakból, s t, kezdetben abból a modellb l indultam ki, amelyeket ezek az irodalmak is vizsgáltak. Ugyanakkor én ett l eltér modelleket is vizsgáltam, így ezt a fejezetet nagyrészt önállóan írtam, hiszen a korábbi fejezetek elméleteit valósítottam meg egy gyakorlati példán keresztül. El fordult, hogy felhasználtam az említett irodalmakat is ebben a fejezetben, de azt az adott alkalmazásnál külön jeleztem. A felhasznált portfóliómban egy éves gépjárm biztosítások adatai szerepelnek. Mivel a biztosításban leggyakrabban Poisson-eloszlásúnak feltételezik a kárdarabszámot, és Gamma eloszlásúnak a kárnagyságot, így a modellezéseim során én is ezekkel az eloszlásokkal dolgoztam. Az utolsó fejezetben végül összefoglalom, hogy érdemes-e a biztosításban azt feltételezni, hogy összefüggés áll fenn a kárszámok és a kárnagyságok között, továbbá felvázolom, hogy azon túl, amit én alkalmaztam, milyen további lehet ségek vannak a téma vizsgálatára. 6

1. fejezet Elméleti összefoglaló 1.1. Általánosított lineáris modell Szakdolgozatomban az általánosított lineáris modellek segítségével vizsgálom a kárdarabszámok, kárnagyságok, és különféle determinisztikus magyarázó változók közötti összefüggést. Legyenek X 1,..., X p ezen magyarázó változók lehetséges értékei, melyek közül néhány magához a szerz d höz kapcsolódik (például életkor, lakhely, nem), néhány pedig a biztosított vagyontárgyhoz (gépjárm biztosítás esetén a gépjárm höz, például üzemanyag típus, lakásbiztosítás esetén az épülethez, például területi elhelyezkedés). Ezek segítségével szeretnénk becsülni egy Y változót (ezt szokás függ változónak vagy magyarázott változónak nevezni, szakdolgozatomban ez a kárdarabszám illetve a kárnagyság lesz). A klasszikus lineáris modellben feltesszük, hogy minden meggyelés független egymástól, és normális eloszlású µ i várható értékkel és közös σ 2 szórásnégyzettel. Továbbá a magyarázott változó Y = Xβ + ɛ alakú, ahol ɛ N(0, σ 2 ɛ ) és így E(Y ) = p β j X j, j=1 ahol β 1,..., β p a becsülend paraméterek. Azonban a biztosításban a magyarázott változó nem feltétlenül normális eloszlású: Y -t sokszor nemnegatívnak vagy diszkrétnek feltételezzük (például, ha a kárdarabszámot szeretnénk modellezni), pedig a klasszikus lineáris modellben a normalitás miatt Y negatív értékeket is felvehet. Ráadásul, ebben a korlátolt környezetben a magyarázó változókkal csak additív hatást tudunk vizsgálni. Az általánosított lineáris modell ehhez képest jóval általánosabb. Egyrészt elengedi a normalitás feltételezését, a meggyelésekr l azt tesszük fel, hogy egy ún. exponenciális szórásmodell osztályból származnak (így már nem feltétlenül közös a szórásuk). Másrészt bevezeti a link függvény fogalmát, így a modellben nem Y várható értékét, hanem annak valamely függvényét becsüljük a magyarázó 7

1. FEJEZET. ELMÉLETI ÖSSZEFOGLALÓ változókkal additív módon (ezáltal multiplikatív hatást is modellezhetünk), tehát az alábbi egyenlet alapján becsüljük Y várható értékét: g(e(y )) = p β j X j. j=1 Továbbá, az általánosított lineáris modellben kapcsolat áll fenn a várható érték és a szórásnégyzet között (ez a modell eloszlás feltételezéséb l következik), így ebben az esetben a várható érték modellezésénél indirekt módon a szórásnégyzetet is modellezzük. 1.1.1. Exponenciális szórásmodell A klasszikus lineáris modell a normális eloszlást használja, ezt terjeszti ki az általánosított lineáris modellben használt exponenciális szórásmodell (angolul exponential dispersion model ). Vannak irodalmak, amelyek az exponenciális család, illetve exponenciális eloszláscsalád fogalmat társítják az általánosított lineáris modellhez (például [3]), azonban az exponenciális család valójában csak egy részhalmaza az exponenciális szórásmodellnek, így én a [4] és [1] irodalmak alapján, az exponenciális szórásmodell segítségével szeretném bemutatni az általánosított lineáris modellt. Az általánosított lineáris modellben feltesszük, hogy a meggyeléseink (Y 1,..., Y m ) ebbe az exponenciális szórásmodellbe tartoznak, ami alapján az i- edik meggyelés s r ségfüggvénye { } yi θ i b(θ i ) f Yi (y i ; θ i, φ) = exp + c(y i, φ) (1.1) a i (φ) alakú, ahol a i (φ), b(θ i ) és c(y i, φ) adott függvények. A b(θ i ) függvényt kumuláns függvénynek nevezzük, és feltesszük, hogy kétszer folytonosan dierenciálható, invertálható, és a deriváltjai is invertálhatóak. A φ > 0 paramétert pedig szórásparaméternek nevezzük, és míg a θ i paraméter különbözhet minden i-re, addig ez a φ paraméter megegyezik minden meggyelésre. Ez a szórásparaméter lehet ismert és ismeretlen is (ez utóbbi esetben az általánosított lineáris modellben becsülni kell ezt a φ paramétert is), és amennyiben ismert, akkor Y i az exponenciális család tagja. Fontos, hogy az (1.1) kifejezés csak olyan y i -kre érvényes, amelyek lehetséges értékei az Y i meggyelésnek; minden más y i értékre f Yi (y i ; θ i, φ) = 0. A szakdolgozatom esetén ez azt jelenti, hogy az (1.1) képlet csak y i 0 esetén teljesül (különben a s r ségfüggvény 0), ugyanis én a kárdarabszámot és az átlagos kárnagyságot fogom modellezni, amelyek csak nemnegatív értékeket vehetnek fel. Az exponenciális szórásmodellhez tartozó eloszlásoknak két fontos tulajdonsága van: 8

1. FEJEZET. ELMÉLETI ÖSSZEFOGLALÓ a) az eloszlást egyértelm en meghatározza a várható értéke és szórása, b) a szórásnégyzet a várható érték függvénye. Ez a két tulajdonság az ún. kumuláns generáló függvény segítségével látható be, amely a momentumgeneráló függvény logaritmusa. Annak érdekében, hogy a számításokat könnyebben át lehessen látni, jelölje most Y i helyett Y egy adott meggyelést, amely tehát az exponenciális szórásmodellhez tartozik. Ekkor Y momentumgeneráló függvénye: M Y (t) =E(e ty ) = e ty f Y (y; θ, φ)dy = = exp { } y(θ + t a(φ)) b(θ) exp + c(y, φ) dy a(φ) { } b(θ + t a(φ)) b(θ) a(φ) { } y(θ + t a(φ)) b(θ + t a(φ)) exp + c(y, φ) a(φ) Itt az integrál mögött egy exponenciális szórásmodellhez tartozó s r ségfüggvény áll, így az integrál értéke 1. Ezek alapján tehát Y momentumgeneráló függvénye { } b(θ + t a(φ)) b(θ) M Y (t) = exp, a(φ) és így a kumuláns generáló függvény dy. Ψ(t) = log(m Y (t)) = b(θ + t a(φ)) b(θ). a(φ) A kumuláns generáló függvény deriváltjai a t = 0 helyen megadják Y ún. kumulánsait. Az els kumuláns a várható érték, a második pedig a szórásnégyzet. A kumuláns függvény els és második deriváltjai az alábbiak: Ψ (t) = b (θ + t a(φ)), Ψ (t) = b (θ + t a(φ)) a(φ). Ezek alapján Y várható értéke és szórásnégyzete: Jelölje Y várható értékét µ, azaz: E(Y ) = Ψ (0) = b (θ), D 2 (Y ) = Ψ (0) = b (θ) a(φ). µ = E(Y ) = b (θ). (1.2) 9

1. FEJEZET. ELMÉLETI ÖSSZEFOGLALÓ Kihasználva, hogy b invertálható, beírhatjuk a θ = (b ) 1 (µ) kifejezést a b (θ) függvénybe, és ezáltal megkapjuk az ún. varianciafüggvényt: V (µ) = b (b 1 (µ)). Ezáltal Y szórásnégyzetét átírhatjuk a következ alakra: D 2 (Y ) = V (µ) a(φ). (1.3) Így tehát a szórásnégyzet valóban a várható érték függvénye. Mivel V ( ) a b( ) deriváltjainak függvénye, így a V (µ) = b (b 1 (µ)) egyenlet alapján b( ) megkapható dierenciálegyenletek segítségével. Így [4] alapján, ha Y az exponenciális szórásmodellek osztályába tartozik, és ismerjük a várható értékét és szórásnégyzetét, ezzel meghatározhatjuk a kumuláns függvényét. Viszont az exponenciális szórásmodellben a kumuláns függvény meghatározza Y s r ségfüggvényét, tehát igaz, hogy azokat az eloszlásokat, amelyek ehhez a modellhez tartoznak, egyértelm en meghatározza a várható értékük és a szórásnégyzetük. Térjünk most vissza arra a jelölésre, hogy az i-edik meggyelést Y i jelöli. A klasszikus lineáris modellben azt feltételezzük, hogy minden Y i meggyelésnek azonos a szórásnégyzete, azaz minden i-re D 2 (Y i ) = φ. Ezt úgy lehetne a legáltalánosabban kiterjeszteni, ha megengednénk, hogy minden meggyelésnek különbözzön a szórásnégyzete, azaz minden i-re D 2 (Y i ) = φ i, azonban ez túlparaméterezetté tenné a modellt. Az általánosított lineáris modellben a varianciafüggvény a kett között ad egy átmenetet, ugyanis a szórásnégyzet V (µ i )-n és a i (φ)-n keresztül változhat minden i esetén, de ezáltal nincs szükség a modellben újabb i-t l függ paraméter bevezetésére. Néhány nevezetes eloszláscsalád, amelyeknek bizonyos esetei az exponenciális szórásmodellhez tartoznak ([5] alapján): Poisson. Ha Y i P oisson(λ i ), akkor θ i = log λ i, a i (φ) = 1, b(θ i ) = e θ i c(y i, φ) = log y i! választással (ha y i pozitív egész): és f Yi (y i ; θ i, φ) = exp {y i log λ i λ i log y i!}. Normális. Ha Y i N(µ i, σ 2 ), akkor θ i = µ i, a i (φ) = σ 2, b(θ i ) = b(µ i ) = µ 2 i /2 és c(y i, φ) = y2 i 2σ log 2πσ 2 választással: 2 { µi y i µ 2 i /2 f Yi (y i ; θ i, φ) = exp + y2 i σ 2 2σ log } 2πσ 2. 2 Gamma. Ha Y i Γ(α, λ i ), akkor θ i = λ i /α, a i (φ) = 1/α, b(θ i ) = log( θ i ) és c(y i, φ) = (α 1) log(y i ) log Γ(α) + α log(α) választással (y i > 0 esetén): f Yi (y i ; θ i, φ) = { yi ( λ i /α) ( 1) log(λ i /α) exp 1/α } + (α 1) log(y i ) log Γ(α) + α log(α). 10

1. FEJEZET. ELMÉLETI ÖSSZEFOGLALÓ 1.1.2. Általánosított lineáris modell a biztosításban Tegyük fel, hogy van m meggyelésünk, és jelölje az i-edik meggyelés magyarázott változóját Y i (kárdarabszám vagy átlagkár), további jellemz it (nem, életkor stb.) pedig X i,j. Ezeket a jellemz ket összegy jthetjük egy X mátrixba, ahol a mátrix i-edik sora X i = {X i,j : j} az i-edik biztosított jellemz it gy jti össze. X i,j lehet kategorikus és folytonos változó is, azonban én a dolgozatomban csak azzal az esettel foglalkozom, amikor minden magyarázó változó kategorikus. Ebben az esetben az X mátrix csak 0-1 elemeket tartalmaz: amennyiben az i-edik meggyelés rendelkezik a j-edik tulajdonsággal, akkor X i,j = 1, különben X i,j = 0. Legyen például két magyarázó változónk, a szerz d neme (fér, n ) és életkora (18-30, 31-50, 51+), ekkor 5 féle X i,j magyarázó változó van: X i,1 : a szerz d fér X i,2 : a szerz d n X i,3 : a szerz d 18-30 éves X i,4 : a szerz d 31-50 éves X i,5 : a szerz d 50 évnél id sebb. Legyen 4 meggyelésünk: egy 24 éves n, egy 60 éves fér, egy 50 éves n, és egy 35 éves fér. Ekkor: 0 1 1 0 0 X = 1 0 0 0 1 0 1 0 1 0. 1 0 0 1 0 Különböz magyarázó változók osztályainak metszetét szegmensnek nevezzük. A biztosítottakat a közös jellemz ik alapján ilyen szegmensekbe soroljuk. Vegyünk egy olyan példát, amikor 3 magyarázó változónk van: életkor (18-30, 31-50, 51+), nem (fér, n ) és lakhely (A, B, C). Ekkor egy szegmenst alkotnak például a 18-30 év közötti, B-ben él férak. A modell az alábbi három fontos dolgot feltételezi. 1. Szerz dések függetlensége: legyen n különböz biztosítási szerz désünk, és legyen az i-edik szerz dés magyarázott változója Y i. Ekkor Y 1,..., Y n függetlenek. 2. Id beli függetlenség: tegyük fel, hogy van n diszjunkt id intervallumunk, és legyen az i-edik intervallumbeli magyarázott változó Y i. Ekkor Y 1,..., Y n függetlenek. 3. Homogenitás: tegyük fel, hogy van két szerz désünk, amelyek ugyanabban a szegmensben helyezkednek el, és azonos ideig voltak kockázatban, vagy azonos számú kárt okoztak, továbbá a magyarázott változóik Y 1 és Y 2. Ekkor Y 1 és Y 2 azonos eloszlásúak. A 3. tulajdonság alapján tehát egy adott szegmensben a biztosítottaknak egyforma a kárszükségletük. 11

1. FEJEZET. ELMÉLETI ÖSSZEFOGLALÓ Az exponenciális szórásmodellben gyakori választás az a i (φ) = φ/ω i, ahol ω i jelöli az i-edik meggyelés súlyát, és így (1.3) alapján D 2 (Y i ) = φ V (µ i) ω i, tehát az egyes meggyelések súlyait is gyelembe tudjuk venni az általánosított lineáris modellben. Innent l a szakdolgozatomban csak ezt az a i (φ) = φ/ω i függvényt fogom használni. Egy meggyelés súlya lehet például a kárdarabszám, amennyiben a kárnagyságot szeretnénk modellezni, de a károk nem elérhet ek káreseményenként lebontva, csak szerz désenként összegezve. Például, ha csak annyit tudunk, hogy egy szerz désen 4 kár történt, amelyeknek az összege 100 000 Ft, akkor a modellben az átlagkárt vesszük gyelembe (ami jelen esetben 25 000 Ft), súlyként használva a kárdarabszámot. Ezzel tulajdonképpen azt modellezzük, mintha történt volna 4 darab 25 000 Ft érték kár, ami így valóban összesen 100 000 Ft (persze a valóságban lehet hogy volt 2 darab 5000 Ft érték és 2 db 45 000 Ft érték, de sajnos az összesített adatokból ez már nem deríthet ki, és így ez a legjobb feltételezés, amivel becsülhetünk). Fontos észrevétel, hogy az exponenciális szórásmodell reproduktív, azaz ha Y 1 és Y 2 független valószín ségi változók, amelyek ugyanahhoz az exponenciális szórásmodellhez tartoznak, és csak a súlyaik különböznek (ω 1 és ω 2 ), akkor a súlyozott átlaguk, Y = (ω 1 Y 1 + ω 2 Y 2 )/(ω 1 + ω 2 ) is ugyanahhoz az exponenciális szórásmodellhez tartozik, ω = ω 1 + ω 2 súllyal. Ebb l pedig az következik, hogy ha az általánosított lineáris modellben összevonjuk egy faktor két osztályát, feltételezve, hogy a meggyeléseik azonos eloszlásúak, akkor az összevont csoport eloszlása is az exponenciális szórásmodell tagja lesz. Az általánosított lineáris modellben az Y vektor minden eleme független, és az exponenciális szórásmodellhez tartozik. Az Y vektor és az X magyarázó változók mátrixa között a következ kapcsolat áll fenn: µ := E(Y ) = g 1 (η), ahol η = X β az ún. lineáris prediktor, g(x) pedig az ún. link függvény, amely monoton és dierenciálható, (így létezik g 1 (x) az ún. inverz link függvény), és célunk a β paramétervektor becslése. Ezen egyenl ség és az (1.2) egyenl ség alapján Ha η helyére behelyettesítjük Xβ-t, azt kapjuk, hogy µ = E(Y ) = b (θ) = g 1 (η). (1.4) b (θ) = g 1 (Xβ), így tehát láthatjuk, hogy kapcsolat áll fenn a β és a θ paraméterek között. 12

1. FEJEZET. ELMÉLETI ÖSSZEFOGLALÓ Amennyiben egy magyarázó változó hatása már a becslés el tt ismert, akkor nem szeretnénk hozzá β paramétert becsülni, hanem inkább a rendelkezésre álló információt is szeretnénk hasznosítani a modellben. Az ilyen változókat oszetnek nevezzük, ξ-vel jelöljük, és egy ilyen változó hatása a következ módon illeszthet a modellbe: η = X β + ξ. Tehát ξ paraméterét nem becsüljük, hanem a priori 1-nek állítjuk be. Amennyiben a kárdarabszámot szeretnénk becsülni, és a link függvény logaritmikus (azaz g(x) = log x), akkor a kockázatban töltött id t (d i ) a következ képpen vehetjük gyelembe: η i = X i β + log(d i ), és ekkor E(Y i ) = e η = d i e X i β. Ez tehát azt jelenti, hogy aki kétszer annyi id t töltött kockázatban, az várhatóan kétszer annyi kárt okoz, mint az, aki egységnyi id t volt kockázatban. 1.1.3. A modell struktúrája Összefoglalva tehát az általánosított lineáris modell a következ (a szórásnégyzetnél feltételezve, hogy a i (φ) = φ/ω i alakú az exponenciális szórásmodellben): E(Y i ) = g 1 ( j X i,j β j + ξ i ) = µ i D 2 (Y i ) = φ V (µ i) ω i ahol Y i g(x) X i,j β j ξ i V (x) φ ω i a magyarázott változó vektor i-edik eleme, a link függvény, a magyarázó változókból képzett mátrix i-edik sorának j-edik eleme, a paramétervektor j-edik eleme, az ismert hatások oszet vektorának i-edik eleme, a varianciafüggvény, a szórásparaméter, az i-edik meggyelés súlya. 13

1. FEJEZET. ELMÉLETI ÖSSZEFOGLALÓ Célunk a β paramétervektor maximum likelihood becslése. A meggyelések vektora Y = ( Y 1,..., Y m ) T, amelynek minden eleme független, és az exponenciális szórásmodellhez tartozik. Az exponenciális szórásmodellhez tartozó eloszlások s r ségfüggvénye alapján a θ = ( θ 1,..., θ m ) T paramétervektorhoz tartozó likelihood függvény L(θ; φ, y) = m f Yi (y i ; θ i, φ) = m { } yi θ i b(θ i ) exp + c(y i, φ), a i (φ) és mivel a i (φ) = φ/ω i, így L(θ; φ, y) = m { } ωi (y i θ i b(θ i )) exp + c(y i, φ), φ és ezek alapján a loglikelihood függény m ω i (y i θ i b(θ i )) l(θ; φ, y) = + c(y i, φ) φ = 1 m m ω i (y i θ i b(θ i )) + c(y i, φ). (1.5) φ Mivel c(y i, φ) nem függ θ-tól, így θ és β maximum likelihood becslésének kiszámításánál a deriváláskor ki fog esni. Ahhoz, hogy a β paramétervektor maximum likelihood becslését megkaphassuk a θ-ra kapott loglikelihood függvény segítségével, felhasználjuk, hogy (1.4) alapján µ i = b (θ i ) és p g(µ i ) = η i = X i,j β j + ξ i. (1.6) j=1 Vegyük észre, hogy nem számít, hogy ebben az (1.6) egyenletben szerepel-e a ξ i oszet hatás, hiszen a β j szerinti deriválás során úgyis kiesik. Így tehát a loglikelihood függvény β j szerinti deriváltja a láncszabály alapján: l β j = m l θ i θ i β j = 1 φ m ω i (y i b (θ i )) θ i β j = 1 φ m ω i (y i b (θ i )) θ i µ i µ i η i η i β j. (1.7) Mivel µ i = b (θ i ), így µ i / θ i = b (θ i ). Kihasználva, hogy V (µ i ) = b (θ i ), az inverz függvény deriválási szabálya alapján θ i / µ i = 1/V (µ i ). Hasonlóan, mivel µ i = g 1 (η i ), így µ i / η i = 1/g (µ i ). Továbbá mivel η i = j X i,jβ j, így η i / β j = X i,j. 14

1. FEJEZET. ELMÉLETI ÖSSZEFOGLALÓ Amennyiben a kapott deriváltakat behelyettesítjük az (1.7) egyenletbe, azt kapjuk, hogy l = 1 m y i µ i ω i β j φ V (µ i )g (µ i ) X i,j. Ha ezeket a deriváltakat beszorozzuk φ-vel és egyenl vé tesszük nullával, megkapjuk a maximum likelihood egyenleteket: m ω i y i µ i V (µ i )g (µ i ) X i,j = 0, j = 1,..., p, (1.8) ahol p a becsülend paraméterek számát jelöli. Fontos, hogy µ i paramétervektortól, ugyanis (1.6) alapján ( p ) µ i = g 1 (η i ) = g 1 X i,j β j + ξ i, j=1 függ a β így ezt behelyettesítve a kapott maximum likelihood egyenletekbe, és megoldva β-ra, megkapjuk a β paramétervektor maximum likelihood becslését. Fontos azonban megjegyezni, hogy a számítógépes programok iteratív eljárással határozzák meg a becsült β paramétereket, ugyanis nagy adatmennyiség esetén a megoldás pontos kiszámítása nagyon bonyolulttá válik. A leggyakrabban alkalmazott eljárás az ún. NewtonRaphson-módszer, ahol kiindulunk egy β (0) paramétervektorból (például β (0) = 0), és az iteratív lépés a következ : β (n+1) = β (n) H 1 s, ahol H egy p p méret mátrix, amely a loglikelihood függvény második deriváltjait tartalmazza, s pedig egy p hosszúságú vektor, amely a loglikelihood függvény els deriváltjait tartalmazza. Amennyiben β (n+1) és β (n) eltérése kicsi, az iteráció megáll, és ˆβ = β (n+1). 1.1.4. Gyakorlati megvalósítás A modellben a β paramétervektort maximum likelihood becsléssel határozzuk meg. A szegmensek száma attól függ, hogy mennyi magyarázó változót, és azokon belül hány osztályt veszünk gyelembe (azaz, hogy milyen szinten aggregáljuk az adatokat). Amennyiben minden meggyelést egy szegmensbe sorolunk (tehát nem vizsgáljuk a magyarázó változók hatását), akkor a becslésünk az egész portfolióra vonatkozó átlag lesz, ez az ún. zérómodell (angolul null modell). Ha viszont minden meggyelésre külön becsülünk paramétereket (teljes modell vagy angolul full modell), akkor pontosan annyi β i paramétert kapunk, ahány meggyelésb l áll a modell, és így könnyen lehetséges, hogy az egyenletrendszer túlhatározott lesz. A kett közti kompromisszumot adja az a módszer, amelyben az általunk kiválasztott magyarázó változók által meghatározott szegmensekre végezzük el a 15

1. FEJEZET. ELMÉLETI ÖSSZEFOGLALÓ becslést. Ezt úgy valósítjuk meg, hogy kijelölünk egy szegmenst, ez lesz az ún. alaposztály (legyen például a korábban említett, 18-30 év közötti B-beli férak szegmense), ennek a becsült paramétere legyen β 0 (ez az alaposztály becslése, angolul intercept term), és minden további jellemz nek is becsülünk egy-egy β i paramétert. Ekkor a magyarázó változókból alkotott X mátrix els oszlopa csupa 1-esekb l áll (ez az oszlop felel meg az alaposztálynak), a további oszlopok pedig az alaposztálytól való eltérést mutatják. Például legyenek a meggyeléseink a következ ek: egy 24 éves B-beli n, egy 60 éves A-beli fér, egy 50 éves C-beli n, és egy 35 éves C-beli fér. Mivel az alaposztály a 18-30 év közötti B-beli férak szegmense, így most az X mátrix a következ képpen néz ki (a sorok rendre az említett meggyelések): 1 0 0 0 0 1 X = 1 0 1 1 0 0 1 1 0 0 1 1, 1 1 0 0 1 0 ahol a második illetve a harmadik oszlop jelöli, ha a meggyelés kora eltér az alaposztályétól (31-50 év közötti vagy 50 év feletti), a negyedik és ötödik oszlop jelöli, hogyha nem B-ben lakik (hanem A-ban vagy C-ben), az utolsó oszlop pedig azt jelöli, ha a meggyelés nem fér, hanem n. Az alaposztálybeli szerz dések kárszükséglete β 0, és (logaritmikus link függvényt alkalmazva) minden további szegmens kárszükséglete β 0 β i1 β ik, ahol az i-edik szegmensnek az alaposztálytól eltér jellemz inek becsült paraméterei a β ij -k. Tehát, ha egy szerz dés valamelyik jellemz je eltér az alaposztályétól, akkor annak a jellemz nek a paraméterével még be kell szorozni β 0 -t, és így kapjuk meg a szerz dés kárszükségletét. A korábbi példán alkalmazva a következ lenne a paraméterezés: Életkor Paraméter 18-30 31-50 β 1 50+ β 2 Lakhely Paraméter A β 3 B C β 4 Alaposztály becslése β 0 Nem Paraméter Fér N β 5 Így tehát egy 18-30 év közötti B-beli fér kárszükséglete β 0, de például egy 31-50 év közötti B-beli n kárszükséglete β 0 β 1 β 5. Ezzel a módszerrel jóval kevesebb β i paramétert kell becsülni, mint a teljes modell esetén, és így az egyenletrendszer egyértelm en meghatározott. 1.1.5. Illeszkedésvizsgálat Az általánosított lineáris modell használatának egyik el nye, hogy hipotézisvizsgálattal tesztelni tudjuk, hogy az általunk készített modell mennyire 16

1. FEJEZET. ELMÉLETI ÖSSZEFOGLALÓ illeszkedik jól az adatokra. Az illeszkedés megfelel ségét a már korábban említett teljes modell segítségével vizsgálhatjuk, hiszen ez a modell tökéletesen illeszkedik az adatokra, így az általunk vizsgált modellt összehasonlíthatjuk a teljes modellel. Ezt az összehasonlítást segíti egy távolságfogalom, amely a vizsgált modell eltérését mutatja meg a teljes modellt l a likelihood-hányados próba segítségével. Jelölje a becsült θ vektort θ a teljes modell esetén, ˆθ pedig a vizsgált modell esetén, továbbá jelölje ˆµ a vizsgált modellben becsült várható értékek vektorát. Ekkor, amennyiben a meggyelések száma m, a likelihood-hányados próba az (1.5) egyenl ség alapján a következ : 2 ( ) l( θ; φ, y) l(ˆθ; φ, y) = 2 φ = m ω i [y i ( θ i ˆθ i ) D(y, ˆµ), φ ahol D(y, ˆµ) jelöli a vizsgált modell távolságát a teljes modellt l. ( )] b( θ i ) b(ˆθ i ) Amennyiben a vizsgált modellben a becsült paraméterek száma p, akkor a likelihood-hányados próba eloszlása: D(y, ˆµ) φ = 2 ( ) l( θ; φ, y) l(ˆθ; φ, y) χ 2 m p. (1.9) Gyakran azonban φ értéke nem ismert, és a modellezés során ezt is becsülni kell. Mivel (1.9) alapján ( ) D(y, ˆµ) E = m p, (1.10) φ így egy gyakran használt becslés φ-re a következ : ˆφ D = D(y, ˆµ) m p. Ezt a távolságfogalmat alkalmazhatjuk egymásba ágyazott modellek összehasonlítására is. Két modellt akkor nevezünk egymásba ágyazottnak, ha az egyik modell magyarázó változóinak halmaza részhalmaza a másik modell magyarázó változói által alkotott halmaznak, vagy ha az egyik modellben egy adott magyarázó változó osztályainak halmaza részhalmaza a másik modellben ugyanazon magyarázó változó osztályai által alkotott halmaznak (vagy ha mindkett teljesül). Az el bbi esetre példa, ha az A modellben a magyarázó változók a szerz d neme és az életkora, a B modellben pedig a szerz d neme, életkora és lakhelye, akkor az A modell a B modellbe van ágyazva. Az utóbbi esetre egy példa, ha az A modellben az életkor változónak 3 osztálya van (pl. 18-30, 31-50, és 50 év feletti), a B modellben pedig 2 osztálya van, amely részhalmaza az A-beli osztályoknak (pl. 18-50 és 50 év feletti), akkor a B modell az A modellbe van ágyazva. Azaz, például ha egy magyarázó változó osztályait összevonjuk, azzal egymásba ágyazott modelleket kapunk. 17

1. FEJEZET. ELMÉLETI ÖSSZEFOGLALÓ Tegyük fel, hogy az A modellben p A a becsülend paraméterek száma, a B modellben pedig p B, és tegyük fel, hogy p B > p A, azaz az A modell a B modellbe van ágyazva. Ekkor, ha azt szeretnénk tesztelni, hogy az A modellt alkalmazhatjuke a B modell helyett egyszer sítésképp, akkor használhatjuk a teljes modellt l való eltéréseik különbségeit tesztstatisztikának, azaz: D(y, ˆµ A ) D(y, ˆµ B ) φ = 2[l A( θ A ; φ, y) l B ( θ B ; φ, y)] φ χ 2 p B p A. Így χ 2 próba segítségével tesztelhetjük azt a nullhipotézist, amely szerint a b vebb modellben az elhagyott p B p A darab paraméter mindegyike egyenl nullával: amennyiben a tesztstatisztika értéke kisebb, mint a megfelel kritikus érték, akkor azt mondhatjuk, hogy alkalmazhatjuk az A modellt a B modell helyett. Egy másik lehet ség az illeszkedés vizsgálatára a Pearson-féle khi-négyzet próba, amelynek a tesztstatisztikája az általánosított lineáris modell esetén a következ : χ 2 = m (y i ˆµ i ) 2 D 2 (Y i ) = 1 φ m (y i ˆµ i ) 2 ω i. V (ˆµ i ) Hasonlóan az el z esethez, E(χ 2 ) m p, így φ becslése ebben az esetben: ˆφ χ = 1 m p m (y i ˆµ i ) 2 ω i. V (ˆµ i ) Amennyiben φ nem ismert, [1] alapján érdemesebb az utóbbi becslést alkalmazni, ugyanis ˆφ D érzékenyebb a kerekítési hibákra. 1.2. Az aggregált károk modellje Egy adott id szakban a biztosító által kizetett kárkizetés az abban az id szakban bekövetkezett és bejelentett károk összege. Az aggregált károk modellje az N S = véletlen tagszámú összeg, ahol N a károk száma, és Y 1,..., Y N független azonos eloszlású kárnagyságok (tehát Y d i = Y ). A biztosító célja, hogy minden szerz désre megbecsülje ezeknek az aggregált károknak a várható értékét és szórását annak érdekében, hogy tisztában legyen egy-egy szerz d kockázatosságával. Y i 18

1. FEJEZET. ELMÉLETI ÖSSZEFOGLALÓ 1.2.1. Független eset Tegyük fel, hogy a kárdarabszám és a kárnagyság független egymástól, azaz Y 1,..., Y N nemcsak függetlenek és azonos eloszlásúak, hanem minden i-re Y i független N-t l. Ebben az esetben S eloszlása megkapható N és Y i eloszlásaiból, és így ([1] alapján) az eloszlásfüggvénye s 0 esetén F S (s) = P(S s) = P(S s N = n) P(N = n), n=0 továbbá felhasználva, hogy Y i d = Y, S generátorfüggvénye (G S (t)), illetve momentumgeneráló függvénye (M S (t)) a következ : S várható értéke és szórásnégyzete: G S (t) = G N (G Y (t)), M S (t) = M N (log(m Y (t))). (1.11) E(S) = E(N)E(Y ), (1.12) D 2 (S) = E 2 (Y )D 2 (N) + E(N)D 2 (Y ), (1.13) azaz az összkár els két momentumát meghatározza a kárszám és a kárnagyság els két momentuma. A biztosításban általában azt a feltételezést alkalmazzák, hogy a kárnagyság és a kárdarabszám független egymástól. Gyakran a kárdarabszámot N P oisson(λ) változóként, a kárnagyságot pedig Y i Γ(α, β) változóként modellezik. Ekkor S összetett Poisson-eloszlású, továbbá az N = n feltétel mellett S Γ(nα, β), és így az alábbiak teljesülnek: s β αn yγ(αn) yαn e yβ λn e λ dy ha s > 0 n! F S (s) = n=0 0 P(N = 0) = e λ ha s = 0 E(S) = λ α β, ( ) α + α D 2 2 (S) = λ. Továbbá, ebben az esetben N és Y momentumgeneráló függvénye ( M N (t) = exp(λ(e t 1)) és M Y (t) = 1 t ) α ha t < β, β amib l az (1.11) egyenlet alapján következik, hogy β 2 M S (t) = exp[λ((1 t/β) α 1)], ha t < β. 19

1. FEJEZET. ELMÉLETI ÖSSZEFOGLALÓ Független esetben tehát a kárszükséglet várható értéke könnyen meghatározható: a kárnagyság és a kárdarabszám várható értékének szorzata. Ebben a modellben azonban nem tudjuk vizsgálni a kárszám és a kárnagyság között esetlegesen fennálló összefüggést. Az összefügg esetben viszont van erre lehet ség, és ezáltal egy pontosabb becslés adható a biztosító várható kárkizetésére. 1.2.2. Összefügg eset Legyenek továbbra is Y 1,..., Y N függetlenek és azonos eloszlásúak adott N esetén, és tegyük fel, hogy minden i-re Y i függ N-t l, azaz a kárnagyság függ a kárdarabszámtól. Ebben az esetben S eloszlásának meghatározásához szükség van egy β N paraméterre, ami megmutatja az összefüggést a kárszámok és a kárnagyságok között, és ekkor S várható értéke és szórásnégyzete már nem írható fel N és Y els két momentumából. Független esetben ismert S eloszlása. Összefügg esetben már sokkal bonyolultabb feladat felírni S eloszlásfüggvényét, így a kárszükséglet meghatározásához csak S várható értékét szeretnénk megbecsülni úgy, hogy az magában foglalja a kárszám és a kárnagyság közötti összefüggést. Ezt az általánosított lineáris modell segítségével tehetjük meg, felhasználva a kárdarabszám várható értékét, a kárnagyság feltételes várható értékét N = n feltétel mellett, továbbá az említett β N paramétert. 20

2. fejezet Általánosított lineáris modell a független esetben Vizsgáljuk most az aggregált károk modelljét a szerz dések szintjén. Vegyük gyelembe az i-edik szerz d által okozott károk összegét: N i S i = Y ij, j=1 ahol N i az i-edik szerz d által okozott károk száma, Y i1,..., Y ini pedig az általa okozott károk nagysága, amelyek független azonos eloszlásúak (tehát Y d ij = Y i ). Legyen továbbá az átlagos kárnagyság: Ekkor az aggregált károk modellje: j=1 Y i = 1 N i N i j=1 N i 1 S i = Y ij = N i N i Y ij. N i j=1 Y ij = N i Y i. Tehát az összkár a kárdarabszám és az átlagos kárnagyság (azaz átlagkár) szorzata. Mivel a kárnagyságok függetlenek és azonos eloszlásúak, így az átlagkár várható értéke a következ : E(Y i ) = E(Y i N i = k) P(N i = k) = E(Y i N i = k) P(N i = k) = E(Y i ) k=0 Ez azt jelenti, hogy a tételes kárnagyságok és az átlagkár várható értéke megegyezik. Így az (1.12) egyenl ség alapján k=0 E(S i ) = E(N i )E(Y i ) = E(N i )E(Y i ), 21

2. FEJEZET. ÁLTALÁNOSÍTOTT LINEÁRIS MODELL A FÜGGETLEN ESETBEN amib l pedig az következik, hogy az aggregált károk modellezésénél mindegy, hogy a tételes kárnagyságokat, vagy egy szerz dés átlagos kárnagyságát alkalmazzuk. Szakdolgozatomban a modellezés során én az átlagkárt fogom használni. Legyen az i-edik meggyeléshez tartozó sor az X magyarázó változók mátrixában x i = ( x i1,..., x ip ). Ekkor ha Ni és Y i link függvénye g Ni és g Yi, akkor ν i := E(N i x i ) = g 1 N i (x i α), és µ i := E(Y i x i ) = g 1 Y i (x i β), ahol α és β p dimenziós oszlopvektorok, amelyek a becsült együtthatókat tartalmazzák. Fontos megjegyezni, hogy az i-edik meggyelés magyarázó változói között szerepelhet egy ξ i oszet hatás is, azonban annak az együtthatóját a priori 1-nek választjuk. Továbbá feltehet, hogy ν i és µ i ugyanazokból a magyarázó változókból állnak el, ugyanis ha van olyan x ij, amely csak az egyiknél fordul el, akkor a neki megfelel α i -t vagy β i -t választhatjuk a priori nullának a másiknál. Mivel N i és Y i függetlenek tetsz leges szegmens esetén, így: E(S i x i ) = E(N i x i )E(Y i x i ) = ν i µ i = g 1 N i (x i α) g 1 Y i (x i β). Azaz, az összkár várható értéke megkapható a kárdarabszám és a kárnagyság várható értékének szorzatából. Speciálisan, ha mindkét link függvény logaritmikus: E(S i x i ) = ν i µ i = e x iα+x i β. (2.1) Ekkor ν i > 0 és µ i > 0, tehát a kárdarabszám és a kárnagyság várható értéke pozitív, emiatt a biztosításban gyakran használják a logaritmikus link függvényt. A továbbiakban a szakdolgozatomban én is csak ezt a link függvényt fogom alkalmazni. Amennyiben N i és Y i az exponenciális szórásmodellhez tartoznak, akkor (1.13) alapján D 2 (S i x i ) = ν i φv Yi (µ i ) + ψv Ni (ν i )µ 2 i, ahol V Ni a kárdarabszámhoz, V Yi pedig a kárnagysághoz tartozó varianciafüggvény, és a hozzájuk tartozó szórásparaméterek ψ és φ. A biztosításban gyakran feltételezik, hogy a kárdarabszám Poisson, a kárnagyság pedig Gamma eloszlású. Szakdolgozatomban a modellezés során én is ezekkel az eloszlásokkal fogok dolgozni. Amennyiben az i-edik meggyelés kárdarabszámának eloszlása N i P oisson(ν i ), és az i-edik meggyelés j-edik kárnagyságának eloszlása pedig Y ij Gamma(1/φ, 1/(µ i φ)), ahol ν i > 0 és µ i > 0, akkor S i összetett Poisson-eloszlású, és ebben az esetben V Yi (µ i ) = µ 2 i, V Ni (ν i ) = ν i, ψ = 1, φ > 0, így: D 2 (S i x i ) = φν i µ 2 i + ν i µ 2 i = ν i µ 2 i (φ + 1). (2.2) 22

2. FEJEZET. ÁLTALÁNOSÍTOTT LINEÁRIS MODELL A FÜGGETLEN ESETBEN A továbbiakban csak ezt az esetet vizsgálom, amikor tehát N i és Y ij ilyen eloszlásúak. A független esetben a kárdarabszámhoz és a kárnagysághoz tartozó becsülend paraméterek α és β vektora külön-külön megbecsülhet az általánosított lineáris modell segítségével. Logaritmikus link függvénnyel a modellben a kárdarabszám és az átlagkár várható értéke ν i = e x iα és µ i = e x iβ, ahol α = ( ) T α 1,..., α p és β = ( ) T β 1,..., β p a becsülend paramétervektorok, melyek azonosak minden i meggyelésre. Tegyük fel, hogy az adataink m meggyelést tartalmaznak. Ekkor (1.8) alapján α és β kiszámításához az alábbi maximum likelihood egyenleteket kell megoldani: m m n i j=1 (n i ν i ) ν i x ik ν i = (y ij µ i ) x φµ 2 ik µ i = i m x ik (n i ν i ) = 0, k = 1,..., p, m n i 1 x ik (y ij µ i ) = 0 k = 1,..., p, φ µ i j=1 ahol n i a meggyelt kárdarabszámokat, y ij pedig a meggyelt kárnagyságokat jelöli. Fontos észrevétel, hogy a külön-külön meggyelt kárnagyságok (Y ij ) eloszlása nem egyezik meg az átlagkár (Y i ) eloszlásával. Bár mindkett Gamma eloszlású µ i várható értékkel, a szórásnégyzeteik különböznek: D 2 (Y ij ) = µ 2 i φ, viszont az N i = n i feltétel mellett D 2 (Y i ) = (µ 2 i φ)/n i. Amennyiben az i-edik meggyelés átlagkára y i, akkor az átlagkárral számolva a β paramétervektor kiszámításához az alábbi maximum likelihood egyenleteket kell megoldani: m n i x ik (y φ µ i µ i ) = 0 k = 1,..., p. i j=1 Némi átalakítással azonban a különálló kárnagyságokkal számolt β paramétervektorra vonatkozó maximum likelihood egyenletek is ugyanerre az alakra hozhatóak: m n i 1 x ik m 1 x ik n i (y ij µ i ) = (y ij µ i ) φ µ i φ µ i = m j=1 1 x ik n i (y φ µ i µ i ) = 0 k = 1,..., p. i Ez tehát azt jelenti, hogy β becsléséhez mindegy, hogy a tételes kárnagyságokat vesszük gyelembe, vagy pedig az átlagkárt úgy, hogy a kárdarabszámot (n i ) használjuk súlyként. Szakdolgozatomban a modellezés során ez utóbbit fogom alkalmazni. Fontos megjegyezni, hogy míg a kárdarabszámra vonatkozó modell a teljes adathalmazt gyelembe veszi, addig az átlagkár esetén csak azok a meggyelések kerülnek bele a modellbe, amelyek esetén legalább 1 káresemény történt. 23

3. fejezet Általánosított lineáris modell az összefügg esetben Vizsgáljuk ismét az aggregált károk modelljét a szerz dések szintjén. Az összefügg esetben azt feltételezzük, hogy az i-edik meggyelés kárnagyságai (Y ij ) függnek a meggyelés kárdarabszámától (N i ). Ez azt jelenti, hogy az E(Y i N i ) feltételes várható érték (amely ekvivalens E(Y ij N i )-vel) az N i kárdarabszám függvénye. A modellezés szempontjából ez azt jelenti, hogy az átlagkár becsléséhez a magyarázó változók közé vesszük a kárdarabszámot is. A független esethez hasonlóan az összefügg esetben is mindegy, hogy a kárnagyságokat (Y ij ) vagy az átlagkárt (Y i ) használjuk a modellezés során. Azonban egy fontos különbség a két modell között, hogy míg független esetben az aggregált károk várható értéke felbontható a kárdarabszám és az átlagkár várható értékének szorzatára, addig az összefügg esetben ez már nem teljesül. Ugyanis abban az esetben, ha N i és Y i összefügg ek, akkor: E(S i x i ) = E(N i Y i x i ) = E ( E(N i Y i x i, N i ) x i ) = E ( N i E(Y i x i, N i ) x i ) E(N i x i )E(Y i x i ). Az a feltételezés, hogy az átlagkár függ a kárdarabszámtól, nincs hatással a kárdarabszám becslésére, tehát csakúgy, mint a független esetben, itt is ν i = E(N i x i ) = g 1 N i (x i α) = e x iα, logaritmikus link függvényt alkalmazva. Azonban az átlagkár modellezése változik, hiszen ebben az esetben az összkár modellezéséhez szükség van az E(Y i N i, x i ) várható érték becslésére, amely a következ egyenl ség alapján történik: g Yi ( E(Yi N i, x i ) ) = x i β + N i β N, (3.1) 24

3. FEJEZET. ÁLTALÁNOSÍTOTT LINEÁRIS MODELL AZ ÖSSZEFÜGGŽ ESETBEN ahol β = ( ) T β 1,..., β p az eredeti p magyarázó változóhoz tartozó becsülend paraméter, β N pedig a kárdarabszámhoz tartozó paraméter. Ez a β N együttható mutatja meg a kárdarabszám és az átlagkár közti összefüggést. Amennyiben β N pozitív, az azt jelenti, hogy a nagyobb kárszámú meggyelések átlagkára is nagyobb. Ha β N negatív, akkor pont fordítva, a nagyobb kárszámú meggyelésekhez kisebb átlagkár tartozik. Ha pedig β N = 0, akkor a független esethez tartozó modellt kapjuk vissza. Továbbra is logaritmikus link függvényt feltételezve, a (3.1) egyenl ség átrendezhet a következ alakra: µ (N) i := E(Y i N i, x i ) = e x iβ+n i β N µ i e β N N i, (3.2) ahol tehát µ (N) i jelöli az összefügg eset átlagkárának várható értékét (az (N) kitev vel utalva arra, hogy ebben az esetben már a kárdarabszám is a magyarázó változók között szerepel). Továbbá a független esethez hasonlóan µ i jelöli azt az értéket, amely a kárdarabszámon kívül az összes többi magyarázó változó hatását tartalmazza. Ez a µ i alakjában hasonlít a független modellben kapott átlagkár várható értékének becslésére, azonban itt az összefügg modell β paramétervektora van behelyettesítve, ami nem egyezik meg a független esetben kapott β paramétervektorral, ugyanis a jelenlév új β N paraméter miatt a többi β i paraméter becslése megváltozik az összefügg modell esetén. Így tehát a (3.2) egyenl séget felhasználva, az aggregált károk várható értéke a következ : E(S i x i ) = E ( N i E(Y i x i, N i ) x i ) = E ( Ni µ i e β N N i x i ) = µi M N i (β N x i ), ahol M N i jelöli N i momentumgeneráló függvényének deriváltját a β N helyen. Amennyiben N i P oisson(ν i ), akkor M Ni (t) = exp{ν i (e t 1)}, és így az el z ek alapján: E(S i x i ) = µ i M N i (β N x i ) = ν i µ i exp{ν i (e β N 1) + β N }. (3.3) Ha ezt az eredményt összehasonlítjuk a (2.1) egyenlettel, láthatjuk, hogy az aggregált károk várható értékének becslésének alakja a független és az összefügg esetben csak annyiban tér el, hogy az összefügg esetben a képletben még szerepel egy exp{ν i (e β N 1) + β N } szorzó is, amire tekinthetünk úgy, hogy ez az összefüggésre vonatkozó korrekciós tag. Amennyiben β N = 0, ez a korrekciós tag 1-gyel egyenl, tehát visszakapjuk a független esetben kapott eredményt. Fontos azonban megjegyezni, hogy β N 0 esetén az összefügg eset β paramétervektorának becslése nem egyezik meg a független eset β vektorának becslésével, tehát ekkor a független esetben kapott µ i és a korrekciós tag szorzata nem egyenl µ (N) i -nel. Összefügg esetben (amennyiben N i P oi(ν i ), és Y ij Gamma(1/φ, 1/(µ i φ)), ahol ν i > 0 és µ i > 0) az aggregált károk szórásnégyzete a következ (a részletes 25

3. FEJEZET. ÁLTALÁNOSÍTOTT LINEÁRIS MODELL AZ ÖSSZEFÜGGŽ ESETBEN levezetés megtalálható az [1] irodalom 52-54. oldalán): D 2 (S i x i ) = ν i µ 2 i [ν i exp { } ν i (e 2β N 1) + 4β N + (φ + 1) exp { } ν i (e 2β N 1) + 2β N Amennyiben β N = 0, azt kapjuk, hogy ν i exp { ν i (e β N 1) + 2β N } ]. D 2 (S i x i ) = ν i µ 2 i [ν i exp(0) + (φ + 1) exp(0) ν i exp(0)] = ν i µ 2 i (φ + 1), amely megegyezik a független esetben kapott (2.2) egyenl séggel. Összességében tehát az összefügg eset nagyon hasonló a független esethez, hiszen az aggregált károk várható értékét itt is a kárdarabszám és az átlagkár várható értékével (ν i és µ (N) i ) tudjuk meghatározni, csak ebben az esetben a képletben még szerepel egy korrekciós szorzótényez, amely kifejezi az összefügg séget. Csakúgy, mint a független esetben, itt is az általánosított lineáris modell segítségével határozzuk meg ν i és µ (N) i várható értékét, az alábbi egyenletek alapján: ν i = e x iα és µ (N) i = e x iβ+n i β N, ahol tehát α = ( α 1,..., α p ) T, β = ( β 1,..., β p ) T és β N R a becsülend paraméterek. A független esetben α és β kiszámítható külön-külön az általánosított lineáris modell segítségével, azonban az összefügg esetben egyben becsüljük meg az összes paramétert. Így a likelihood függvény felírásához szükségünk van az átlagkár és a kárdarabszám együttes s r ségfüggvényére: f Y,N (y, n) = f Y N (y n) f N (n). Így, amennyiben m meggyelésünk van, a likelihood függvény a következ : L(α, β, β N ; y, n) = m f Y,N (y i, n i ) = m f Y N (y i n i ) f N (n i ), ahol y i és n i jelöli a meggyelt átlagkárokat és kárdarabszámokat, és így a loglikelihood függvény: l(α, β, β N ; y, n) = m l N (α; n i ) + m l Y N (β, β N ; y i n i ). Láthatjuk, hogy a loglikelihood függvény felbomlik a kárdarabszám és az átlagkár loglikelihood függvényeinek összegére. Ezek alapján α-t az l N (α; n i ) loglikelihood függvényb l tudjuk megbecsülni, β-t és β N -t pedig az l Y N (β, β N ; y i n i ) függvényb l. Amennyiben minden i esetén N i Poisson-eloszlású ν i várható értékkel, Y i N i pedig Gamma eloszlású µ (N) i várható értékkel és (µ 2 i φ)/n i szórásnégyzettel, 26

3. FEJEZET. ÁLTALÁNOSÍTOTT LINEÁRIS MODELL AZ ÖSSZEFÜGGŽ ESETBEN akkor a megoldandó likelihood-egyenletek α-ra, β-ra és β N -re rendre a következ k (a részletes levezetés megtalálható az [1] irodalomban az 56-59. oldalon): m x ik (n i ν i ) = 0 k = 1,..., p, m m n i φ n i φ x ik µ (N) i n i µ (N) i (y i µ (N) i ) = 0 k = 1,..., p, (y i µ (N) i ) = 0 k = 1,..., p. Fontos észrevétel, hogy összefügg esetben az α-ra vonatkozó likelihood egyenletek megegyeznek a független esetben felírt egyenletekkel. Ezek alapján tehát α becslése megegyezik a függetlenséget és az összefüggést feltételez modell esetén. Ez azonban már nem mondható el a β paramétervektorra, hiszen itt az összefügg esetben már a magyarázó változók között szerepel a kárdarabszám, ezáltal itt egy újabb paramétert is kell becsülni (β N ), ez pedig hatással van a többi β i paraméterre is. Összefoglalva tehát, az összefüggést feltételez modell egy viszonylag egyszer kiterjesztése a független modellnek, hiszen ez utóbbiban annyi módosul, hogy az átlagkár modellezése során a magyarázó változók közé vesszük a kárdarabszámot. Ezáltal azonban a kárdarabszám becslése nem változik, és az összkár becslése továbbra is megkapható a kárdarabszám és az átlagkár várható értékének szorzatából, csak még be kell szorozni egy korrekciós tényez vel. Ráadásul, az átlagkár modellezésénél a magyarázó változóként használt kárdarabszám együtthatója megmutatja, hogy milyen kapcsolat áll fenn az átlagkár és a kárdarabszám között. 27

4. fejezet Modellezés Ebben a fejezetben egy konkrét példán keresztül vizsgálom a kárszámok és az átlagkár közti összefüggést, azaz alkalmazom az általánosított lineáris modellt a független és az összefügg esetben is. Ezt az R program glm függvényével valósítom meg úgy, hogy az adatok 80%-át használom fel a modell illesztésre, és a maradék 20%-on vizsgálom az illeszkedést (ez az ún. keresztkiértékeléses módszer, angolul cross-validation). 4.1. Az adatok bemutatása A modellezéshez a [6] irodalom Car nev adathalmazát 1 használtam fel, amely egyéves, 2004 és 2005 közötti gépjárm biztosításokat tartalmaz. A meggyelések száma 67 856, amelyek közül 4 624 esetben legalább 1 kár következett be (az átlagkár modellezéséhez csak az utóbbiakat használtam fel, míg a kárdarabszám modellezése során az összes meggyelést felhasználtam). A károk száma minden meggyelés esetén 0-tól 4-ig terjedhet, eloszlásukat az alábbi táblázat mutatja be. Kárszám Meggyelések száma Arány 0 63 232 93,186% 1 4 333 6,386% 2 271 0,399% 3 18 0,027% 4 2 0,003% Összesen: 67 856 100% 4.1. táblázat. A meggyelt kárdarabszámok eloszlása 1 Az adatok megtalálhatóak ezen a weblapon: http://www.businessandeconomics.mq. edu.au/our_departments/applied_finance_and_actuarial_studies/research/books/ GLMsforInsuranceData/data_sets. 28

4. FEJEZET. MODELLEZÉS Láthatjuk, hogy azon szerz dések száma, amelyek esetében több kár is történt, elég kevés. Egy-egy szerz dés azonban különböz ideig volt kockázatban, így érdemes úgy is megvizsgálni a kárdarabszámok eloszlását, hogy nem a szerz dések számát, hanem a kockázatban töltött id ket adjuk össze. Az alábbi táblázat a kárszámonkénti összes kockázatban töltött id t tartalmazza (évben megadva). Kárszám Összes kockázatban töltött id Arány 0 28 974,299794 91,112% 1 2 619,780972 8,238% 2 192,232717 0,604% 3 12,736482 0,040% 4 1,768652 0,006% Összesen: 31 801 100% 4.2. táblázat. A meggyelt kárszámok eloszlása a kockázatban töltött id szerint Érdekesség, hogy ezen két táblázat alapján egy szerz d átlagos kockázatban töltött ideje körülbelül fél év. Továbbá láthatjuk, hogy az utóbbi esetben a kármentes esetek aránya csökkent, míg a pozitív károk aránya minden kárszámra n tt. A gyakoriságok azonban itt és az el z esetben is arra utalnak, hogy a kárszámok Poisson-eloszlásúak, így a modellezés során ezt az eloszlást fogom feltételezni a kárdarabszámra. Fontos megjegyezni, hogy a biztosításban is legtöbbször Poisson-eloszlásúnak feltételezik a kárdarabszámot. Az átlagkárok esetén a legkisebb érték 200, míg a legnagyobbé 55 922,13. Az átlagkárok eloszlását az alábbi ábra mutatja. 4.1. ábra. Az átlagkárok eloszlása a teljes átlagkár-terjedelemre Láthatjuk, hogy a kis átlagkárok aránya elég magas, továbbá van néhány kiugró érték, azonban ezen az ábrán nehéz megvizsgálni, hogy pontosan milyen a kisebb 29