AZ ÁLTALÁNOSÍTOTT LINEÁRIS MODELL ÉS BIZTOSÍTÁSI ALKALMAZÁSAI
|
|
- Géza Soós
- 10 évvel ezelőtt
- Látták:
Átírás
1 MÓDSZERTANI TANULMÁNYOK AZ ÁLTALÁNOSÍTOTT LINEÁRIS MODELL ÉS BIZTOSÍTÁSI ALKALMAZÁSAI A biztosítási károk alakulásának modellezésére jól alkalmazható az általánosított lineáris modell, amely alkalmas arra, hogy a nem normális eloszlást követő változók, például halálozási adatok, vagy a gépjárműtörés-károk várható számát becsüljük. A magyarázó változók között szerepeltethetünk mennyiségi és minőségi változókat, sőt ezek kölcsönhatásai is beépíthetők a modellbe. A függő változó és a magyarázó változók prediktora között sajátos függvénykapcsolat (link) létezhet. Ezek közül ismertet néhányat a tanulmány, és példákat mutat a logit modell illesztésére, valamint tesztelésére. A TÁRGYSZÓ: Általánosított lineáris modell. Logit modell illesztése. z általánosított lineáris modell (Generalized Linear Model GLM) kevert mérési skálájú változók lineáris modellezésére alkalmas. Egyik speciális esete 1 a lineáris regresszió, amelyben a normális eloszlást követő Y i függő változó várható értéke E(Y i ) = i. Az egyetlen magyarázó változót tartalmazó modell a következő alakban írható fel: Y i = i + i, ahol i = a + bx i és Y i ~ N( i, ). /1/ Az a + bx tagot az Y változó lineáris prediktorának nevezzük. Ez a modell alapvetően két okból lehet nem kielégítő: ha az Y függő változó nem követ normális eloszlást, és ha a függő változó függvénye a lineáris prediktornak, és nem közvetlenül egyenlő vele. A normális eloszláson kívül az általánosított lineáris modellben a függő változó eloszlására az exponenciális eloszlások családjába tartozó binomiális és Poisson-eloszlás feltételezése a leggyakoribb. A függő változó várható értéke, i gyakran a magyarázó változók g( ) függvénye, és a kapcsolatot leíró függvényt a szakirodalom link függvénynek nevezi. Így a GLMmodellt a link függvénnyel felírva: Y i = i + i, ahol E(Y i ) = i és g( i ) = x i,, n j ij j 1 // 1 A GLM további speciális esete például a kereszttáblára illesztett loglineáris modell. Az exponenciáliseloszlás-család magában foglalja a normális, a binomiális és Poisson-eloszlás mellett a gamma és a béta eloszlást is. Statisztikai Szemle, 79. évfolyam, szám
2 690 adódik, ahol a g( ) jobb oldala a magyarázó változók lineáris prediktora. 3 A GLM általános definíciója szerint a modell függő változói az Y 1, Y,, Y n független, az exponenciáliseloszlás-családhoz tartozó, azonos eloszlású valószínűségi változók. Az x magyarázó változók között szerepelhetnek olyan mennyiségi változók, mint az életkor vagy a jövedelem, valamint olyan faktorok több kategóriát tartalmazó minőségi változók, mint a nemek, foglalkozások vagy a gépjármű-kockázati csoportok. EXPONENCIÁLIS ELOSZLÁSOK CSALÁDJA Legyen Y olyan valószínűségi változó, amelynek eloszlása a és a paraméter 4 függvénye. Az Y eloszlása beletartozik az exponenciális eloszlások családjába, ha valószínűségeloszlása (sűrűségfüggvénye) felírható az alábbi formában: b y f y;, exp cy,, /3/ a ahol a( ), b( ), és c(, ) függvények. A továbbiakban a normális, a binomiális és a Poisson-eloszlásokról megmutatjuk, hogy az exponenciális eloszlások családjába tartoznak. a) Normális eloszlás várható értékkel (és varianciával) f y 1 1 exp 1 y 1 y y exp log. /4/ A normális eloszlás sűrűségfüggvénye a /3/ szerinti alakra hozható, ha =, b() = / = /, a() = = és c(y, ) = -(1/){y / + log()}. b) Binomiális eloszlás (n, p) paraméterekkel, n ismert. Tegyük fel, hogy Z ~ B(n,p). Mivel kényelmesebb a modellek felírása az arányokkal, mint a kedvező esetek számával, ezért legyen Y = Z/n. n f z expnylog p n ny z nz ny nny z p 1 p így f y PY y PZ ny p 1 p n ny p 1 p n ny n nylog1 p log exp nylog nlog1 p log p n exp nylog log1 p log. /5/ 1 p ny 3 A függő változóra felírt GLM alternatívát jelent a magyarázó változók transzformációjával szemben. 4 Az egyszerűbb tárgyalás kedvéért tegyük fel, hogy a értéke ismert.
3 ÁLTALÁNOS LINEÁRIS MODELL 691 Ez a modell a /3/ szerinti alakot ölti, ha p log és így 1 p e p 1 e, továbbá n,. b() = log(1 + exp()) = log(1 p), = n, a() = 1/ és cy log ny c) Poisson-eloszlás várható értékkel f y. /6/ y! y exp expy log log y! Ez a függvény megfelel a /3/ szerinti képletnek, ha = log, b() = exp() =, a() = = 1 és c(y,) = log y! AZ EXPONENCIÁLIS ELOSZLÁSCSALÁD Y VÁLTOZÓJÁNAK VÁRHATÓ ÉRTÉKE ÉS VARIANCIÁJA Az Y változó várható értéke és varianciája a b() és az a() függvények segítségével határozható meg. A likelihood függvény legyen: L n i1 f ( y,, ) Jelölje a log-likelihood függvényt l = logl, és a score 5 függvényt U = dl/dθ = = dlogl/dθ. A score függvény alábbi két tulajdonságát használjuk fel Y várható értékének és szórásnégyzetének előállításához: E(U) = E(dlogL/dθ) = 0, /7/ Var(U) = E(dU/dθ) = E(d logl/dθ ). /8/ Az exponenciáliseloszlás-család logaritmusa /3/ alapján l = {y b()}/ a() + c(y,) 5 A score itt a log-likelihood függvénynek a vizsgált paraméter szerinti parciális deriváltja. Nincs elfogadott magyar neve.
4 69 és így U = dl/dθ = {y b ()}/a(). /9/ A /7/ alapján E(U) = 0 miatt E(Y) = b (). A /8/ szerinti deriváltra du/d = b ()/a() adódik, ezért a /9/ szerinti U függvény varianciája: Fejezzük ki /10/-ből Var(Y)-t: Var(U) = E(b ()/a()) = Var(Y)/a (). /10/ Var(Y) = a ()E(b ()/a()) = a()b (). /11/ A b ()-t varianciafüggvénynek nevezi és Var()-vel jelöli a szakirodalom, mert azt mutatja meg, hogyan függ y i varianciája az y i várható értékétől. Vizsgáljuk meg a varianciafüggvény alakját a három nevezetes eloszlás esetében. 1. Normális eloszlást felírva b() = /, és így = E(Y) = b () =, a szórásnégyzet pedig Var(Y) = a()b () = 1 =. Mivel b () = 1, a varianciafüggvény Var() = 1, azaz konstans. 6. Binomiális eloszlást feltételezve b() = log(1 + exp()) és így = E(Y) = b () = = exp()/{1 + exp()} = p, továbbá Var(Y) = a()b () = (1/n)[exp()/{1 + exp()} ] = = p(1 p)/n. A második deriváltra b () = p(1 p) = (1 ) adódik, ezért a varianciafüggvény Var() = (1 ). 3. Poisson-eloszlást feltételezve b() = exp(), és ezért = E(Y) = b () = exp() =, továbbá a szórásnégyzet is megegyezik a várható értékkel: Var(Y) = = a()b () = exp() 1 = =. Mivel b () =, a varianciafüggvény: Var() =. AZ EXPONENCIÁLIS ELOSZLÁSCSALÁD HÁROM TAGJÁRA ILLESZTHETŐ ÁLTALÁNOSÍTOTT LINEÁRIS MODELLEK Ha a g( ) függvény éppen megegyezik az exponenciális eloszláscsaládból választott eloszlás paraméterét és a -t összekapcsoló függvénnyel, akkor a kapcsolatot leíró függvényt kanonikus link-nek nevezzük. a) Normális eloszlású Y változó, a várható értéke:. A /4/-ből leolvasható, hogy =, ezért az azonosság teremti meg a kanonikus kapcsolatot: g() =. /1/ 6 A normális eloszlás konstans varianciafüggvénye összhangban van azzal a nevezetes tulajdonsággal, hogy a normális eloszlás két paramétere (a várható érték és a variancia) független.
5 ÁLTALÁNOS LINEÁRIS MODELL 693 b) Binomiális változó esetén Z ~ B(n,p) az arány Y = Z/n. p Az /5/-ből következően log log, és így az esélyhányados logaritmusa, a logit a kanonikus 1 p 1 függvény: g log. /13/ 1 c) Poisson-eloszlás esetén Y ~ Poisson (). A /6/ alapján = log = log, és így látható, hogy a kanonikus kapcsolatot a logaritmus függvény teremti meg: g() = log. /14/ Eddigi eredményeinket az 1. tábla foglalja össze. Ha a és a g( ) oszlopok tartalmát összevetjük, akkor egyértelművé válik, hogy a -t azért nevezik kanonikus paraméternek, mert megegyezik a kanonikus kapcsolatot leíró g( ) függvénnyel. Az exponenciális eloszláscsalád paraméterei közötti kapcsolat Eloszlás E(Y) = Var() g( ) link Normális (, ) 1 Binomiális (n,p) np log p/(1 p) n p(1 p)/n log p/(1 p) Poisson () log 1 log 1.tábla AZ ÁLTALÁNOSÍTOTT LINEÁRIS MODELL PARAMÉTEREINEK MAXIMUM LIKELIHOOD BECSLÉSE A GLM-modell alkalmazása során ismertnek tételezzük fel a függő változó valószínűségeloszlását, ezért a likelihood függvény úgy írható fel, mint az exponenciális eloszláscsalád sűrűségfüggvényeinek szorzata. A log-likelihoodot maximalizáljuk, hogy meghatározzuk a lineáris prediktorban szereplő paraméterek értékét, majd meghatározzuk a becslés standard hibáját. A GLM-modellek adatokhoz történő illesztése számítógépes programcsomagokkal, például az Splus-szal vagy az SPSS-szel végezhető el. Ha feltáró, vagy új szóhasználattal adatvezérelt elemzést végzünk, akkor általában úgy járunk el, hogy a modellváltozatok egész sorát illesztjük az adatokhoz. Az egyes lépésekben bizonyos változókat és faktorokat kizárunk, illetve bevonunk a modellbe, hogy mérni tudjuk kizárásuk, illetve bevonásuk hatását a modell illeszkedésére. A GLM-modellnek a megfigyelt adatokhoz való illeszkedését jellemezhetjük: a modellváltozatok között a log-likelihood függvények eltérésének mérőszáma (deviancia) alapján, a becsült és a megfigyelt értékek közti reziduumok vizsgálatával.
6 694 Modell-deviancia Tegyük fel, hogy p( n) számú paramétert tartalmazó általánosított lineáris modellt illesztettünk az y 1,, y n megfigyelt adatokra. A maximum likelihood (ML) becsléssel kapott paraméterekkel felírt log-likelihood értékét jelölje βˆ. Ha ugyanilyen (azonos eloszlású függő változót és link függvényt tartalmazó) modellt illesztünk megfigyeléseinkre, de a modell most n darab, azaz a megfigyelésekkel megegyező számú paramétert tartalmaz, akkor telített modellt kapunk. A telített modell tökéletesen illeszkedik az adatokhoz, ezért az ML becsléssel kapott paramétervektor mellett a log-likelihood felveszi a maximumát:. Az első modell jól leírja az adatokat, ha βˆ közel van a telített modell log-likelihood értékéhez, sokkal kisebb, mint. ˆβ max -hoz; és gyenge a modell illeszkedése, ha βˆ ˆβ max ˆβ max A modellek log-likelihoodja közötti különbség kétszeresét, a devianciát jelölje D: βˆ βˆ D max. /15/ Ha a minta elég nagy, akkor a devianciát mérő statisztika közelítőleg eloszlású, szabadságfoka a paraméterek számában elért csökkenés: (n p). D ~ χ n p A D mutatót akkor is kiszámíthatjuk, ha a modell csak a konstans tagot tartalmazza, ekkor a jele D 0, és neve null-deviancia, szabadságfoka pedig (n 1). Tegyük fel, hogy az M modellnek p darab paramétere és D devianciája, 7 míg az M 1 modellnek q számú paramétere (q < p) és D 1 devianciája van, vagyis az M 1 modell beágyazott modellje (speciális esete) az M modellnek. Felmerül a kérdés, hogy a (p q) extra paraméter bevonása az M modellbe lényegesen jobb illeszkedést biztosít-e, mint az egyszerűbb M 1 modell. Az illeszkedés javulását a deviancia változásával mérhetjük, mert D 1 D is pq eloszlást követ. Ha a két modell egyformán hatékony, akkor a D 1 D értéke kicsi; ha pedig M lényegesen jobban illeszkedik, mint M 1, akkor D 1 D viszonylag nagy. Az M 1 és M közötti választásra jobb oldali kritikus tartománnyal rendelkező -próbát használunk. 8 Hüvelykujj-szabályként olykor használhatjuk azt, hogy az M modellt preferáljuk M 1 ellenében, ha D 1 D > (p q). Reziduumok Az előzőkben láttuk, hogy a deviancia alapján összehasonlíthatjuk különböző modellek illeszkedésének jóságát. Az egyes modellek további vizsgálatához felhasználhatjuk a megfigyelt és az illesztett értékek eltérését, azaz a reziduumot, amely az i-edik megfi 7 A modellváltozatok reziduális devianciái közvetlenül is összehasonlíthatók, mert ha két modell D mutatójának különbségét vesszük, akkor a /15/-ből éppen kiesik a telített modell log-likelihoodja. 8 Ez a próba megegyezik a likelohood arány vagy más néven maximum likelihood arány teszttel.
7 ÁLTALÁNOS LINEÁRIS MODELL 695 gyelésre yi ˆ i értékű. A reziduumok összege zérus, és az egyes eltérések jelentősége sem ítélhető meg a megfigyelt vagy az illesztett érték nagyságának ismerete nélkül. Ezért a reziduumokat általában standardizálás után vizsgáljuk. Az egyes megfigyelések hatását a reziduum-deviancia 9 értéke alapján minősítjük, amelynek előjele megegyezik az y ˆ ) egyedi eltérés előjelével, nagysága pedig ( i i D i. Így a reziduum-devianciák négyzetösszege éppen a /15/ szerinti D devianciát, azaz a likelihood arány teszt próbafüggvényének értékét adja. ÁLTALÁNOSÍTOTT LINEÁRIS MODELLEK BIZTOSÍTÁSI ALKALMAZÁSAI 1. Halandósági becslések. Példaként tételezzük fel, hogy Y x egy adott évben a legközelebbi születésnapjuk szerint x éves korú népességben bekövetkezett halálesetek számát fejezi ki. Az x évesek kockázati időtartamát 10 c jelölje E x, és a x halálozási intenzitás Gompertz-törvénye 11 szerint alakul: x = Bc x. Ekkor egy lehetséges modell az alábbi alakban írható fel: Y x ~ Poisson E, ahol x = Bc x. /16/ A Poisson-eloszlású változó várható értéke az eloszlás paramétere, ezért c x E c x x c Y x E x x és így loge(y x ) = log E + logbc x = log E + logb + (logc)x, azaz c x /17/ loge(y x ) = a + bx. /18/ Itt tehát az Y függő változó várható értékének logaritmusa az életkor lineáris függvénye, azaz a két változó közti kapcsolatot a logaritmusfüggvény teremti meg, ezért itt a kanonikus kapcsolatot alkalmazzuk. A lineáris prediktor g( i ) = a + bx i, ahol a = logb és b = logc. Halandósági modellünkben definiáljuk a Z halálozási rátát az x éves korban meghaltak számának és a kockázati időtartamnak az arányával: Z x = Y x /E x. Ekkor egy adott x i életkorban 1 megfigyelünk Y i számú halálesetet az E i kockázatban töltött időre, és ezek arányaként kapjuk a Z i halálozási rátát, ahol Z i = i + i. Legyen a halálozási ráta várható 9 A reziduum-devianciák aszimptotikusan normális eloszlást követnek. 10 Angolul az exposure vagy az exposed to risk kifejezés szerepel. Ez a biztosított kockázatnak kitettségét, azaz azt az időtartamot fejezi ki, amíg az adott évben a biztosított az állományba tartozik. 11 Gompertz halandósági függvénye 185-ből való. A függvényben szereplő paraméterekre az alábbi megkötések érvényesek: B 0, c 1 és x 0. A Gompertz-függvény tulajdonságait részletesen lásd Valkovics; A továbbiakban egyszerűsítjük a jelölést, és Y x helyett Y i jelöli az x = x i életkorban meghaltak számát.
8 696 értéke /16/ szerint a halálozási intenzitás: E(Z i ) = i, ezért a /18/-ból log i = a + bx i adódik, ahol a = logb és b = logc. Tehát a halálozási rátát is a logaritmusfüggvény, mint kanonikus link becsli.. Gépjárműkár-adatok becslése. A biztosítónál rendelkezésre áll a kötvénytulajdonosok néhány adata, többek között a nemük, az életkoruk, a lakóhelyük, a gépjármű kockázati besorolása, és az adott időszak alatt bekövetkezett károk száma. Tegyük fel, hogy az i-edik kötvénytulajdonosnál bekövetkezett károk száma i paraméterű Poisson-eloszlást követ, ahol a i logaritmusa a kockázati faktorok lineáris függvénye : log i = x i1 + x i + + p x ip. A modell felépítése során különböző megfontolásokat követhetünk. Kiválaszthatunk egyetlen fontosnak tartott változót, bevonhatunk további változókat és faktorokat, valamint szerepeltethetjük ezek interakcióit is az alábbiak szerint. 1. modell: életkorváltozó. Ha csak az x 1 -gyel jelölt életkorváltozót (értékei: 17, 18, 19, ) szerepeltetjük a lineáris prediktorban, akkor x 1 becsli a károk várható számának logaritmusát.. modell: életkor + nem. Az életkor mellett a nemek szerinti különbség is döntően befolyásolhatja a kárszámok alakulását. A nem olyan faktor, amely két lehetséges értéket vesz fel: férfi = 0 és nő = l. Az ilyen bináris változó többféleképpen is beépíthető a modellbe. Ha a változó értéke x =0 a férfiak és 1 a nők esetében, akkor a prediktor x 1 + x, vagy egyszerűbben felírva: x 1 + (ahol jelenti a károk számában a női hatást). 3. modell: életkor + nem + kockázati csoport. A biztosító a gépjárműveket például három kockázati csoportba sorolja, így ez a faktor háromfokú ordinális skálán mér. Ha az első csoport jelenti az alapszintű kockázatot, akkor a további két csoport extra kockázatát a 1 és paraméterek fejezik ki, és a modellben két magyarázó dummy változó szerepel. Lineáris prediktorunk az (i + 1)-edik kockázati csoportban a következő: x i. (i = 1,) 4. modell: életkor + nem + kockázati csoport + (nem) (kockázati csoport). A GLM-modell fontos kiterjesztését jelenti az a lehetőség, hogy figyelembe vehető az egyes változók és faktorok interakciója. Példaként említhető az, hogy a gépjárművek kockázati besorolása másként hat a kárszámra, ha fiatal vagy ha tapasztalt vezető ül egy azonos kockázati csoportba sorolt autó volánjánál. Az életkor és a kockázati csoport közötti interakció hatását a modellben egy újabb paraméter fejezi ki: x i + i. A számítások elvégzéséhez a (feltételezett) biztosítási állományból válasszuk ki véletlenszerűen 55 kötvénytulajdonos adatait. A függő változó legyen az egy év alatt egy
9 ÁLTALÁNOS LINEÁRIS MODELL 697 kötvényen bekövetkező károk száma. A kárszám a feltételezések szerint Poissoneloszlást követ, Y i ~ Poisson( i ), ezért a (kanonikus) log link függvényt írjuk fel például a 3. modell szerint: log i = x i + + i, ahol 0 a konstans tag, 1 az életkori hatás együtthatója (x az életkor változó), a női vezetők kárhatását méri, és 1 valamint a B és C kockázati csoportba 13 sorolt gépjárművek káralakulásra gyakorolt többlethatását fejezi ki (ha az A kockázati csoport jelenti az alapkockázatot). Mivel az A kockázatú járművet vezető férfiakra írjuk fel a legegyszerűbb modellt ( x i ), ők jelentik a kárszám becslésénél a referenciacsoportot. Hét GLM-modellt illesztettünk az Splus szoftverrel, és a számítások a következő eredményekre vezettek: a magyarázó változót nem tartalmazó null-modell devianciája D 0= 66,306, szabadságfoka 54; az egyváltozós modellek deviancia-mértéke jelentősen különbözik egymástól. Az M 1 modellben az életkor változó bevonásával a D 1 = 61,146, szabadságfoka 53. A deviancia csökkenése M 0 -hoz viszonyítva 5,160 és D 0 D 1 szabadságfoka egy. Ha csak a nem, mint magyarázó változó épült be az M modellbe, akkor a deviancia értéke 66,301 (szabadságfoka 53), és ez csak 0,005-es csökkenést jelent. A nem változó bevonása tehát nem javította szignifikánsan a modell illeszkedését. Amikor a kockázati csoport volt az M 3 modellben az egyetlen magyarázó változó, akkor a D 3 = 56,168 (szabadságfoka 5), és ez a null modell devianciáját 10,138-del csökkenti szabadságfok mellett. Az egyváltozós modellek közül M 1 és M 3 preferálható M 0 -val szemben. Feltételezhető, hogy az illeszkedés tovább javítható újabb magyarázó változó vagy faktor bevonásával. A fenti eredmények alapján a kétváltozós modellek közül csak a kockázati csoportot is tartalmazó M 4 és M 5 változatokat számszerűsítettük. A kockázati csoport és a nemek együttes szerepeltetése az M 4 -ben 56,136 devianciát eredményez (51 szabadságfokkal). A férfi nő megkülönböztetés a modell illeszkedését nem javítja szignifikánsan, mert 1 szabadságfok mellett D 3 D 4 =0,03. Az ötödik modellben a kockázati csoport és az életkor prediktora szerepel, az eltérések mértéke D 5 = 50,08 (a szabadságfok itt is 51). Az M 3 modellhez képest a javulás szignifikáns, mert D 3 D 5 = 5,95 és ez jóval nagyobb, mint az egységnyi szabadságfok kétszerese. A hatodik modell mindhárom magyarázó változót tartalmazza, és így a deviancia 50,05 és szabadságfoka 50. Az illeszkedés javulása nem szignifikáns, mert D 5 D 6 = 0,003 és a szabadságfok 1. Az eddigi eredmények alapján az ötödik modellt választjuk, melynek számítógépes eredményeit 14 a. tábla mutatja. A magyarázó változók a táblában: a kötvénytulajdonos életkora és a kockázati csoport. 13 Az A jelölje a kicsi, olcsó és nem túl erős motorú kocsikat, a B a közepes tulajdonságúakat, és a C kategóriába tartozzanak az erős, gyors és drága autók. 14 A konstans a szokásos szignifikanciaszintek mellett nem különbözik zérustól. A t-teszt kritikus értéke 50 szabadságfok és 5 százalékos kétoldali szignifikanciaszint mellett,01.
10 698. tábla Kockázati csoport és életkor-együtthatók becsült értéke a GLM-ben Megnevezés Paraméter Standard hiba t-teszt (Konstans) -0, ,543-0,3155 B kockázat 1, ,486,5614 C kockázat 1, ,5166,940 Életkor -0,09 0,0130 -,447 Null-deviancia: 66,306 Szabadságfok: 54 Reziduális deviancia: 50,08 Szabadságfok: 51 E modell alapján a lineáris prediktorok számítása néhány személyre a következő: 36 éves (férfi) A kockázati csoportba sorolt autóval: = -0, [36 (-0,09)] = -1,33; 4 éves (nő) C kockázatú autóval ( nem szerepel a modellben): = -0, [4 (-0,09)] + 1,51887 = 0,6463; 53 éves (férfi) B kockázatú gépjárművel: = -0, [53 (-0,09)] +1,09783 = -0,6. A Poisson-eloszlást feltételező modellben log-t becsüljük, így becsült értéke exp( életkor+kockázat), és ezért az illesztett várható kárszámok az előbb bemutatott három személy esetében a következők: 36 éves, alapkockázatú vezető becsült kárszáma: exp(-1,33)= 0,94; 53 éves, B kockázati csoportba sorolt vezető becsült kárszáma: exp(-0,6)=0,537; 4 éves, C csoportba sorolt vezető becsült kárszáma: exp(0,6463)=1,908. A hetedik lépésben az ötödik modell illeszkedését a kockázati csoport és az életkor kölcsönhatásának szerepeltetésével kívántuk javítani. Interakciót is tartalmazó GLM illesztése Megnevezés Paraméter Standard hiba t-teszt (Konstans) -0,0376 0,834-0,0451 B kockázat 0,687 1,0677 0,5889 C kockázat,4646 1,5479 1,593 Életkor -0,0335 0,045-1,3676 KorB kockázat 0,013 0,093 0,4484 KorC kockázat -0,0307 0,049-0, tábla Null-deviancia: 66,306 Szabadságfok: 54 Reziduális deviancia: 49,106 Szabadságfok: 49
11 ÁLTALÁNOS LINEÁRIS MODELL 699 A deviancia mértéke 55 6 = 49 szabadságfok mellett 49,106, és D 5 D 7 = 1,10, ami 1 szabadságfok mellett nem jelent szignifikáns csökkenést. A számítógépes eredményekből (3. tábla) látható, hogy az interakció együtthatója egyik kockázati csoportban sem különbözik szignifikánsan zérustól, sőt maguk a kockázati csoportok is elveszítették statisztikai jelentőségüket. A legjobb modellnek tehát az életkort és kockázati csoportokat mint magyarázó változókat tartalmazó 5. modell tekinthető. A 4. táblában az 5. modellel becsült kárszámok szerepelnek. 4. tábla Életkor és kockázati csoport alapján becsült kárszámok Életkor (év) A kockázati csoport B kockázati csoport C kockázati csoport 17 0,513 1,537,34 4 0,418 1,5 1, ,94 0,88 1, ,179 0,537 0,818 A díjkalkuláció során Magyarországon is használják a GLM-becslést, amellyel például megállapítható, hogy a 17 éves A kockázatú vezető és az 53 éves B típust vezető autós közel azonos díjat fizethet, mert várt kárgyakoriságuk nagyon hasonló. HALÁLOZÁSI ARÁNY BECSLÉSE LOGISZTIKUS REGRESSZIÓVAL A GLM-modellt arányra is felírhatjuk. Legyen Y i az n i elemű csoportban a vizsgált esetek arányát mérő változó, és így i = E(Y i ) = p i. Ha halálozási adatokhoz illesztünk általánosított lineáris modellt, akkor binomiális eloszlást tételezünk fel, és a /13/ alapján: Y i = p i + i, ahol log[p i /(1 p i )] = a + bx i. A kapcsolatot leíró függvényben az esélyhányados logaritmusa g(p) = log[p /(1 p)] szerepel, ezért ezt a modellt a szakirodalom az arányokra felírt logisztikus regressziós modellnek, vagy röviden logit modellnek nevezi. Hasonlóan jól alkalmazható a logit modell különböző kezelések, hatóanyagok, például rovarirtó szerek hatásainak 15 tesztelésére. Tegyük fel, hogy a kísérleti egyedeket k számú csoportba osztjuk, és az i-edik csoportban n i számú egyed van. Az egyes csoportok minden tagja x i dózist kap az adott hatóanyagból, és az i-edik csoportban z i számú pusztulás következik be (és n i z i egyed túléli a kezelést). Becsülni kívánjuk azt a p i valószínűséget, hogy egy egyed elpusztul, ha x i mennyiséget kap a hatóanyagból. Ha Z jelöli az n elemű csoportban az elpusztultak számát, akkor Z (n, p) paraméterű binomiális eloszlást követ, nem pedig normális eloszlást. A p valószínűség és az x magyarázó változó között a kapcsolat általában nem lineáris. Mivel a becslés során a bevezetőben említett mindkét probléma felmerül, célszerű az általánosított lineáris modellt használni. 15 Ezért az angol nyelvű szakirodalomban a GLM-modell függő változóját response -ként és nem dependent -ként említik.
12 700 Mintapéldánkban, ahol egy rovarirtó hatását elemezzük 10 csoportba osztva vizsgálunk 607 egyedet. Az egyes csoportok különböző dózisú kezelést/vegyszert kaptak, ezt a magyarázó változó (dózis) méri (a megfelelő mértékegységben). A függő változó az elpusztult rovarok arányát adja meg csoportonkénti bontásban. 5. tábla Csoport Csoportonkénti pusztulási adatok és dózisok A csoport mérete Az elpusztult rovarok száma Az elpusztult rovarok aránya Dózis ,1094 3, ,1970 3, ,54 4, ,403 4, ,4909 4, ,7167 4, ,854 4, ,8947 4, ,9500 4, ,0000 4,868 Az 1. ábra vízszintes tengelyén a dózis, függőleges tengelyén a logit alakulása látható. 1. ábra. Dózis és pusztulás kapcsolata 3 1 logit ,6 3,8 4,0 4, 4,4 4,6 4,8 dózis Szembetűnő az 1. ábrán, hogy a két változó kapcsolata nem lineáris, tehát várható, hogy a lineáris prediktor illesztésével nem kapunk megfelelő modellt. A logisztikus regresszió alkalmazásával a null-modell devianciája 98,067. A 9-es szabadságfoknál 5 százalékos szignifikanciaszinten a -eloszlás kritikus értéke 16,679, tehát ez a modell nem megfelelő. Ha a dózist mint magyarázó változót bevonjuk a modellbe, akkor a 8 szabadságfokú modell devianciája 17,34, ami a null-modellhez képest szignifikáns csökkenést jelent 1 szabadságfok mellett. A számítások eredményét a 6. tábla tartalmazza.
13 ÁLTALÁNOS LINEÁRIS MODELL 701 Lineáris prediktor illesztése logit modellel Megnevezés Paraméter Standard hiba t-teszt (Konstans) -0,73 1,595-1,797 Dózis 4,7331 0,3654 1, tábla Null-deviancia: 98,0666 Szabadságfok: 9 Reziduális deviancia: 17,3397 Szabadságfok: 8 A prediktor értéke 4 egységnyi dózis esetén: -0,73 + (4 4,7331) = -1,3399. A logit kapcsolat miatt az elpusztult rovarok arányának illesztett értéke azaz exp( 0 1x) p, 1 exp( x) exp(-1,3399)/[1 + exp(-1,3399)] = 0,08. Természetes, hogy a dózis mint magyarázó változó szerepeltetése a null-modellhez képest jelentősen javítja a modell illeszkedését. A megfigyelt adatokat jól leíró modell közelítően 8 eloszlású. A deviancia értéke (17,34) azonban nagyobb, mint a táblabeli kritikus érték, amely 5 százalékos valószínűségi szinten 15,507. A modell illeszkedése tökéletesíthető, ha a prediktorban kvadratikus tag is szerepel: 0 1 pi log 1 p i x 0 1 1i x i, ahol i x1i x. Az illesztés eredményét a 7. tábla tartalmazza. 7. tábla Kvadratikus prediktor illesztése logit modellel Megnevezés Paraméter Standard hiba t-teszt (Konstans) 47, ,8194,5056 Dózis -6,9889 8,9119-3,084 Dózis négyzete 3,716 1, ,5313 Null-deviancia: 98,0666 Szabadságfok: 9 Reziduális deviancia: 4,590 Szabadságfok: 7 A deviancia 4,590, a szabadságfok 7, és ez 1,644-del csökkenti a lineáris modell devianciáját. Négy egységnyi dózis mellett a prediktor 47, [4 (-6,9889)]+ + (4 3,716) = -1,4000, és a becsült pusztulási arány exp(-1,4)/[1 exp(-1,4)] = =0,198.
14 70. ábra. A lineáris és a kvadratikus prediktor illesztése 1,0 1,0 Elpusztult rovarok aránya 0,8 0,6 0,4 0, Elpusztult rovarok aránya 0,8 0,6 0,4 0, 0, 0,4 0,6 0,8 1,0 Lineáris modellel illesztett arány 0, 0,4 0,6 0,8 1,0 Kvadratikus modellel illesztett arány A kvadratikus modellel készített becslés lényegesen jobban illeszkedik az adatokhoz mind a modell devianciaértéke, mind a. ábra jobb oldali része alapján. Az ábrák vízszintes tengelyén a logit modellel illesztett, a függőleges tengelyen pedig a megfigyelt pusztulási arány (5. tábla) szerepel. IRODALOM DOBSON, A. J. (1990): An introduction to Generalized Linear Models. ChapmanHall, 174 old. FÜSTÖS, L. KOVÁCS, E. (1989): A számítógépes adatelemzés statisztikai módszerei. Tankönyvkiadó, Budapest. 380 old. JOBSON, J. D. (199): Applied multivariate data analysis. Volume II. Springer Verlag, 731 old. KRZANOWSKI, W. J. (1998): An introduction to statistical modelling, Arnold, 5 old. MCCULLOCH, C. E. SEARLE, S. R. (001): Generalized, linear, and mixed models. Wiley Series in Probability and Statistics, 35 old. VALKOVICS, E. (001): A Gompertz-függvény felhasználási lehetőségei a demográfiai modellezésben. Statisztikai Szemle, 79. évf..sz old. VENABLES, W. N. RIPLEY, B. D. (1999): Modern applied statistics with S-Plus. Springer-Verlag 3 rd ed. 50 old. SUMMARY There are two main reasons why the linear regression model may be unsatisfactory in some applications. The response variable may not be normally distributed, or the mean of the response variable is a function of the linear predictor, rather than the predictor itself. The GLM is used to fit a model under different distributional assumptions. Logit is the link function for the binomial distribution, logarithm link is used for the Poisson distribution, and the identity link is fitted in case of the Gauss distribution. The explanatory (predictor) variables can be mixed, quantitative variables, or factors with a number of different categories. The goodness-of-fit is measured by the likelihood ratio or scaled deviance, which statistics follow chi-square distribution. The generalized linear model can be useful for insurance data including linear predictor for the response variable. Gompertz law of mortality to Yx, the number of deaths at age x is an example of fitting GLM. Car rating groups are estimated under Poisson distribution assumption, when logit link is the canonical link. Several models are fitted, and tested using the deviance measure.
Likelihood, deviancia, Akaike-féle információs kritérium
Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 1 Likelihood, deviancia, Akaike-féle információs kritérium Likelihood függvény Az adatokhoz paraméteres modellt illesztünk. A likelihood függvény a megfigyelt
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus
LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála
LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála a független változó: névleges vagy sorrendi vagy folytonos skála BIOMETRIA2_NEMPARAMÉTERES_5 1 Y: visszafizeti-e a hitelt x: fizetés (életkor)
Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg
LMeasurement.tex, March, 00 Mérés Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg a mérendő mennyiségben egy másik, a mérendővel egynemű, önkényesen egységnek választott
Statisztikai következtetések Nemlineáris regresszió Feladatok Vége
[GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet A standard lineáris modell
Regressziós vizsgálatok
Regressziós vizsgálatok Regresszió (regression) Általános jelentése: visszaesés, hanyatlás, visszafelé mozgás, visszavezetés. Orvosi területen: visszafejlődés, involúció. A betegség tünetei, vagy maga
Logisztikus regresszió október 27.
Logisztikus regresszió 2017. október 27. Néhány példa Mi a valószínűsége egy adott betegségnek a páciens bizonyos megfigyelt jellemzői (pl. nem, életkor, laboreredmények, BMI stb.) alapján? Mely genetikai
e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:
Normális eloszlás ξ valószínűségi változó normális eloszlású. ξ N ( µ, σ 2) Paraméterei: µ: várható érték, σ 2 : szórásnégyzet (µ tetszőleges, σ 2 tetszőleges pozitív valós szám) Normális eloszlás sűrűségfüggvénye:
Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis
SZDT-09 p. 1/36 Biometria az orvosi gyakorlatban Regresszió Túlélésanalízis Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Logisztikus regresszió
Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János
Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision
Többváltozós lineáris regressziós modell feltételeinek
Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Petrovics Petra Doktorandusz Többváltozós lineáris regressziós modell x 1, x 2,, x p
Többváltozós lineáris regressziós modell feltételeinek tesztelése I.
Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Kvantitatív statisztikai módszerek Petrovics Petra Többváltozós lineáris regressziós
Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió
SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Korrelációszámítás
A maximum likelihood becslésről
A maximum likelihood becslésről Definíció Parametrikus becsléssel foglalkozunk. Adott egy modell, mellyel elképzeléseink szerint jól leírható a meghatározni kívánt rendszer. (A modell típusának és rendszámának
Least Squares becslés
Least Squares becslés A négyzetes hibafüggvény: i d i ( ) φx i A négyzetes hibafüggvény mellett a minimumot biztosító megoldás W=( d LS becslés A gradiens számítása és nullává tétele eredményeképp A megoldás
Matematikai statisztika c. tárgy oktatásának célja és tematikája
Matematikai statisztika c. tárgy oktatásának célja és tematikája 2015 Tematika Matematikai statisztika 1. Időkeret: 12 héten keresztül heti 3x50 perc (előadás és szeminárium) 2. Szükséges előismeretek:
Egyszempontos variancia analízis. Statisztika I., 5. alkalom
Statisztika I., 5. alkalom Számos t-próba versus variancia analízis Kreativitás vizsgálata -nık -férfiak ->kétmintás t-próba I. Fajú hiba=α Kreativitás vizsgálata -informatikusok -építészek -színészek
Regresszió számítás az SPSSben
Regresszió számítás az SPSSben Kvantitatív statisztikai módszerek Petrovics Petra Lineáris regressziós modell X és Y közötti kapcsolatot ábrázoló egyenes. Az Y függ: x 1, x 2,, x p p db magyarázó változótól
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,
Logisztikus regresszió
Logisztikus regresszió 9. előadás Kvantitatív statisztikai módszerek Dr. Szilágyi Roland Függő változó (y) Nem metrikus Metri kus Gazdaságtudományi Kar Független változó () Nem metrikus Metrikus Kereszttábla
Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1
Statisztika - bevezetés 00.04.05. Méréselmélet PE MIK MI_BSc VI_BSc Bevezetés Véletlen jelenség fogalma jelenséget okok bizonyos rendszere hozza létre ha mindegyik figyelembe vehető egyértelmű leírás általában
Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok
Eloszlás-független módszerek (folytatás) 14. elıadás (7-8. lecke) Illeszkedés-vizsgálat 7. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok elemzésére Illeszkedés-vizsgálat Gyakorisági sorok
Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió
Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió 1. A fizetés (Y, órabér dollárban) és iskolázottság (X, elvégzett iskolai év) közti kapcsolatot vizsgáljuk az Y t α + β X 2 t +
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 3 III. VÉLETLEN VEKTOROK 1. A KÉTDIMENZIÓs VÉLETLEN VEKTOR Definíció: Az leképezést (kétdimenziós) véletlen vektornak nevezzük, ha Definíció:
4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis
1. feladat Regresszióanalízis. Legkisebb négyzetek elve 2. feladat Az iskola egy évfolyamába tartozó diákok átlagéletkora 15,8 év, standard deviációja 0,6 év. A 625 fős évfolyamból hány diák fiatalabb
A Markowitz modell: kvadratikus programozás
A Markowitz modell: kvadratikus programozás Harry Markowitz 1990-ben kapott Közgazdasági Nobel díjat a portfolió optimalizálási modelljéért. Ld. http://en.wikipedia.org/wiki/harry_markowitz Ennek a legegyszer
Logisztikus regresszió
Logisztikus regresszió Bekövetkezés esélye Valószínűség (P): 0 és 1 közötti valós szám, az esemény bekövetkezésének esélyét fejezi ki. Fej dobásának esélye: 1:2 = 1 2 = 0,5. Odds/esélyérték (O): a tét
Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a
Kabos: Statisztika II. t-próba 9.1 Egymintás z-próba Ha ismert a doboz szórása de nem ismerjük a doboz várhatóértékét, akkor a H 0 : a doboz várhatóértéke = egy rögzített érték hipotézisről úgy döntünk,
Korreláció és lineáris regresszió
Korreláció és lineáris regresszió Két folytonos változó közötti összefüggés vizsgálata Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi Fizika és Statisztika I. előadás 2016.11.02.
Statisztika elméleti összefoglaló
1 Statisztika elméleti összefoglaló Tel.: 0/453-91-78 1. Tartalomjegyzék 1. Tartalomjegyzék.... Becsléselmélet... 3 3. Intervallumbecslések... 5 4. Hipotézisvizsgálat... 8 5. Regresszió-számítás... 11
Hipotézis vizsgálatok
Hipotézis vizsgálatok Hipotézisvizsgálat Hipotézis: az alapsokaság paramétereire vagy az alapsokaság eloszlására vonatkozó feltevés. Hipotézis ellenőrzés: az a statisztikai módszer, amelynek segítségével
STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba
Egymintás u-próba STATISZTIKA 2. Előadás Középérték-összehasonlító tesztek Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum
2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!
GAZDASÁGSTATISZTIKA KIDOLGOZOTT ELMÉLETI KÉRDÉSEK A 3. ZH-HOZ 2013 ŐSZ Elméleti kérdések összegzése 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! 2. Mutassa be az
Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás
STATISZTIKA Hipotézis, sejtés 11. Előadás Hipotézisvizsgálatok, nem paraméteres próbák Tudományos hipotézis Nullhipotézis felállítása (H 0 ): Kétmintás hipotézisek Munkahipotézis (H a ) Nullhipotézis (H
Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre
Statisztika I. 1. előadás Előadó: Dr. Ertsey Imre Regresszió analízis A korrelációs együttható megmutatja a kapcsolat irányát és szorosságát. A kapcsolat vizsgálata során a gyakorlatban ennél messzebb
GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet
GVMST22GNC Statisztika II. 3. előadás: 8. Hipotézisvizsgálat Kóczy Á. László Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet Hipotézisvizsgálat v becslés Becslés Ismeretlen paraméter Közeĺıtő
Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok
STATISZTIKA 1. Előadás Hipotézisvizsgálatok Tematika 1. Hipotézis vizsgálatok 2. t-próbák 3. Variancia-analízis 4. A variancia-analízis validálása, erőfüggvény 5. Korreláció számítás 6. Kétváltozós lineáris
y ij = µ + α i + e ij
Elmélet STATISZTIKA 3. Előadás Variancia-analízis Lineáris modellek A magyarázat a függő változó teljes heterogenitásának két részre bontását jelenti. A teljes heterogenitás egyik része az, amelynek okai
Diszkriminancia-analízis
Diszkriminancia-analízis az SPSS-ben Petrovics Petra Doktorandusz Diszkriminancia-analízis folyamata Feladat Megnyitás: Employee_data.sav Milyen tényezőktől függ a dolgozók beosztása? Nem metrikus Független
Bevezetés a Korreláció &
Bevezetés a Korreláció & Regressziószámításba Petrovics Petra Doktorandusz Statisztikai kapcsolatok Asszociáció 2 minőségi/területi ismérv között Vegyes kapcsolat minőségi/területi és egy mennyiségi ismérv
Logisztikus regresszió
Logisztikus regresszió Kvantitatív statisztikai módszerek Dr. Szilágyi Roland Függő változó (y) Nem metrikus Metri kus Gazdaságtudományi Kar Független változó (x) Nem metrikus Metrikus Kereszttábla elemzés
Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók
Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz
Bevezetés az ökonometriába
Bevezetés az ökonometriába Többváltozós regresszió: nemlineáris modellek Ferenci Tamás MSc 1 tamas.ferenci@medstat.hu 1 Statisztika Tanszék Budapesti Corvinus Egyetem Hetedik előadás, 2010. november 10.
Túlélés analízis. Probléma:
1 Probléma: Túlélés analízis - Túlélési idő vizsgálata speciális vizsgálati módszereket igényel (pl. két csoport között az idők átlagait nem lehet direkt módon összehasonlítani) - A túlélési idő nem normális
Biztosítási ügynökök teljesítményének modellezése
Eötvös Loránd Tudományegyetem Természettudományi Kar Budapest Corvinus Egyetem Közgazdaságtudományi Kar Biztosítási ügynökök teljesítményének modellezése Szakdolgozat Írta: Balogh Teréz Biztosítási és
BIOMATEMATIKA ELŐADÁS
BIOMATEMATIKA ELŐADÁS 9. Együttes eloszlás, kovarianca, nevezetes eloszlások Debreceni Egyetem, 2015 Dr. Bérczes Attila, Bertók Csanád A diasor tartalma 1 Bevezetés, definíciók Együttes eloszlás Függetlenség
Biostatisztika VIII. Mátyus László. 19 October
Biostatisztika VIII Mátyus László 19 October 2010 1 Ha σ nem ismert A gyakorlatban ritkán ismerjük σ-t. Ha kiszámítjuk s-t a minta alapján, akkor becsülhetjük σ-t. Ez további bizonytalanságot okoz a becslésben.
Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58
u- t- Matematikai statisztika Gazdaságinformatikus MSc 2. előadás 2018. szeptember 10. 1/58 u- t- 2/58 eloszlás eloszlás m várható értékkel, σ szórással N(m, σ) Sűrűségfüggvénye: f (x) = 1 e (x m)2 2σ
Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n
Elemi statisztika >> =weiszd=
STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése
4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól
Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre
Statisztika I. 11. előadás Előadó: Dr. Ertsey Imre Összefüggés vizsgálatok A társadalmi gazdasági élet jelenségei kölcsönhatásban állnak, összefüggnek egymással. Statisztika alapvető feladata: - tényszerűségek
1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása
HIPOTÉZIS VIZSGÁLAT A hipotézis feltételezés egy vagy több populációról. (pl. egy gyógyszer az esetek 90%-ában hatásos; egy kezelés jelentősen megnöveli a rákos betegek túlélését). A hipotézis vizsgálat
Khi-négyzet eloszlás. Statisztika II., 3. alkalom
Khi-négyzet eloszlás Statisztika II., 3. alkalom A khi négyzet eloszlást (Pearson) leggyakrabban kategorikus adatok elemzésére használjuk. N darab standard normális eloszlású változó négyzetes összegeként
A Markowitz modell: kvadratikus programozás
A Markowitz modell: kvadratikus programozás Losonczi László Debreceni Egyetem, Közgazdaság- és Gazdaságtudományi Kar Debrecen, 2011/12 tanév, II. félév Losonczi László (DE) A Markowitz modell 2011/12 tanév,
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,
Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )
Budapesti Műszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Hidrodinamikai Rendszerek Tanszék, Budapest, Műegyetem rkp. 3. D ép. 334. Tel: 463-6-80 Fa: 463-30-9 http://www.vizgep.bme.hu Alap-ötlet:
Kutatásmódszertan és prezentációkészítés
Kutatásmódszertan és prezentációkészítés 10. rész: Az adatelemzés alapjai Szerző: Kmetty Zoltán Lektor: Fokasz Nikosz Tizedik rész Az adatelemzés alapjai Tartalomjegyzék Bevezetés Leíró statisztikák I
y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell
Példa STATISZTIKA Egy gazdálkodó k kukorica hibrid termesztése között választhat. Jelöljük a fajtákat A, B, C, D-vel. Döntsük el, hogy a hibridek termesztése esetén azonos terméseredményre számíthatunk-e.
Biomatematika 13. Varianciaanaĺızis (ANOVA)
Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 13. Varianciaanaĺızis (ANOVA) Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision Date:
Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet
Operációkutatás I. 2017/2018-2. Szegedi Tudományegyetem Informatikai Intézet Számítógépes Optimalizálás Tanszék 11. Előadás Portfólió probléma Portfólió probléma Portfólió probléma Adott részvények (kötvények,tevékenységek,
Készítette: Fegyverneki Sándor
VALÓSZÍNŰSÉGSZÁMÍTÁS Összefoglaló segédlet Készítette: Fegyverneki Sándor Miskolci Egyetem, 2001. i JELÖLÉSEK: N a természetes számok halmaza (pozitív egészek) R a valós számok halmaza R 2 {(x, y) x, y
(Independence, dependence, random variables)
Két valószínűségi változó együttes vizsgálata Feltételes eloszlások Két diszkrét változó együttes eloszlása a lehetséges értékpárok és a hozzájuk tartozó valószínűségek (táblázat) Példa: Egy urna 3 fehér,
: az i -ik esélyhányados, i = 2, 3,..I
Kabos: Adatelemzés Ordinális logisztikus regresszió-1 Többtényezős regresszió (az adatelemzésben): Y közelítése b 1 X 1 + b 2 X 2 +... + b J X J alakban, y n = b 1 x n,1 + b 2 x n,2 +... + b J x n,j +
Segítség az outputok értelmezéséhez
Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró
A valószínűségszámítás elemei
A valószínűségszámítás elemei Kísérletsorozatban az esemény relatív gyakorisága: k/n, ahol k az esemény bekövetkezésének abszolút gyakorisága, n a kísérletek száma. Pl. Jelenség: kockadobás Megfigyelés:
[Biomatematika 2] Orvosi biometria
[Biomatematika 2] Orvosi biometria 2016.02.29. A statisztika típusai Leíró jellegű statisztika: összegzi egy adathalmaz jellemzőit. A középértéket jelemzi (medián, módus, átlag) Az adatok változékonyságát
Matematikai statisztika 4. gyakorlat, 2018/2019 II. félév
Matematikai statisztika 4. gyakorlat, 2018/2019 II. félév 2019-03-5 Feladatok: 1. (a) λ > 0 paraméterű Poisson-eloszlásból vett n elemű minta esetén adjunk hatásos becslést a g(λ) = e λ mennyiségre! e
Túlélés elemzés október 27.
Túlélés elemzés 2017. október 27. Néhány példa Egy adott betegség diagnózisától kezdve mennyi ideje van hátra a páciensnek? Tipikusan mennyi ideig élhet túl? Bizonyos ráktípus esetén mennyi idő telik el
Többváltozós lineáris regresszió 3.
Többváltozós lineáris regresszió 3. Orlovits Zsanett 2018. október 10. Alapok Kérdés: hogyan szerepeltethetünk egy minőségi (nominális) tulajdonságot (pl. férfi/nő, egészséges/beteg, szezonális hatások,
Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév
Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév A pirossal írt anyagrészeket nem fogom közvetlenül számon kérni a vizsgán, azok háttérismeretként,
1. Példa. A gamma függvény és a Fubini-tétel.
. Példa. A gamma függvény és a Fubini-tétel.. Az x exp x + t )) függvény az x, t tartományon folytonos, és nem negatív, ezért alkalmazható rá a Fubini-tétel. I x exp x + t )) dxdt + t dt π 4. [ exp x +
6. előadás - Regressziószámítás II.
6. előadás - Regressziószámítás II. 2016. október 10. 6. előadás 1 / 30 Specifikációs hibák A magyarázó- és eredményváltozók kiválasztásának alapja: szakirányú elmélet, mögöttes viselkedés ismerete, múltbeli
Valószínűségi változók. Várható érték és szórás
Matematikai statisztika gyakorlat Valószínűségi változók. Várható érték és szórás Valószínűségi változók 2016. március 7-11. 1 / 13 Valószínűségi változók Legyen a (Ω, A, P) valószínűségi mező. Egy X :
A többváltozós lineáris regresszió III. Főkomponens-analízis
A többváltozós lineáris regresszió III. 6-7. előadás Nominális változók a lineáris modellben 2017. október 10-17. 6-7. előadás A többváltozós lineáris regresszió III., Alapok Többváltozós lineáris regresszió
Egy és többváltozós logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban
Egy és többváltozós logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban Dr. Prohászka Zoltán Az MTA doktora Semmelweis Egyetem III. Sz. Belgyógyászati Klinika 2015-11-26 prohoz@kut.sote.hu
GVMST22GNC Statisztika II.
GVMST22GNC Statisztika II. 4. előadás: 9. Kétváltozós korreláció- és regressziószámítás Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet Korrelációszámítás
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen
Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés
Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés Elek Péter 1. Valószínűségi változók és eloszlások 1.1. Egyváltozós eset Ismétlés: valószínűség fogalma Valószínűségekre vonatkozó axiómák
Mérési adatok illesztése, korreláció, regresszió
Mérési adatok illesztése, korreláció, regresszió Korreláció, regresszió Két változó mennyiség közötti kapcsolatot vizsgálunk. Kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti mintában,
Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.
Valószín ségelméleti és matematikai statisztikai alapfogalmak összefoglalása (Kemény Sándor - Deák András: Mérések tervezése és eredményeik értékelése, kivonat) Véletlen jelenség: okok rendszere hozza
Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?
Egymintás próbák σ s μ m Alapkérdés: A populáció egy adott megegyezik-e egy referencia paraméter értékkel/tulajdonsággal? egymintás t-próba Wilcoxon-féle előjeles
Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com
Adatelemzés SAS Enterprise Guide használatával Soltész Gábor solteszgabee[at]gmail.com Tartalom SAS Enterprise Guide bemutatása Kezelőfelület Adatbeolvasás Szűrés, rendezés Új változó létrehozása Elemzések
Matematikai geodéziai számítások 10.
Matematikai geodéziai számítások 10. Hibaellipszis, talpponti görbe és közepes ponthiba Dr. Bácsatyai, László Matematikai geodéziai számítások 10.: Hibaellipszis, talpponti görbe és Dr. Bácsatyai, László
Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018
Hipotézisvizsgálat az Excel adatelemző eljárásaival Dr. Nyéki Lajos 2018 Egymintás t-próba Az egymintás T-próba azt vizsgálja, hogy különbözik-e a változó M átlaga egy megadott m konstanstól. Az a feltételezés,
Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka
Geokémia gyakorlat 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek Geológus szakirány (BSc) Dr. Lukács Réka MTA-ELTE Vulkanológiai Kutatócsoport e-mail: reka.harangi@gmail.com ALAPFOGALMAK:
Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.
Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef. Feladatok Gazdaságstatisztika 7. Statisztikai becslések (folyt.); 8. Hipotézisvizsgálat
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 2 II. A valószínűségi VÁLTOZÓ És JELLEMZÉsE 1. Valószínűségi VÁLTOZÓ Definíció: Az leképezést valószínűségi változónak nevezzük, ha
Lineáris regressziós modellek 1
Lineáris regressziós modellek 1 Ispány Márton és Jeszenszky Péter 2016. szeptember 19. 1 Az ábrák C.M. Bishop: Pattern Recognition and Machine Learning c. könyvéből származnak. Tartalom Bevezető példák
Adatok statisztikai értékelésének főbb lehetőségei
Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció
egyetemi jegyzet Meskó Balázs
egyetemi jegyzet 2011 Előszó 2. oldal Tartalomjegyzék 1. Bevezetés 4 1.1. A matematikai statisztika céljai.............................. 4 1.2. Alapfogalmak......................................... 4 2.
Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása
Matematikai alapok és valószínőségszámítás Statisztikai becslés Statisztikák eloszlása Mintavétel A statisztikában a cél, hogy az érdeklõdés tárgyát képezõ populáció bizonyos paramétereit a populációból
Varianciaanalízis 4/24/12
1. Feladat Egy póker kártya keverő gép a kártyákat random módon választja ki. A vizsgálatban 1600 választott kártya színei az alábbi gyakorisággal fordultak elő. Vizsgáljuk meg, hogy a kártyák kiválasztása
Matematikai statisztikai elemzések 6.
Nyugat-magyarországi Egyetem Geoinformatikai Kara Prof. Dr. Závoti József Matematikai statisztikai elemzések 6. MSTE6 modul Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió, többváltozós
STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.
STATISZTIKA 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 MAGY. MAT. TÖRT. KÉM. ANNA BÉLA CILI András hármas. Béla Az átlag 3,5! kettes. Éva ötös. Nóri négyes. 1 mérés: dolgokhoz valamely szabály alapján szám rendelése
Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016
Gyakorlat 8 1xANOVA Dr. Nyéki Lajos 2016 A probléma leírása Azt vizsgáljuk, hogy milyen hatása van a család jövedelmének a tanulók szövegértés teszten elért tanulmányi eredményeire. A minta 59 iskola adatait
Több valószínűségi változó együttes eloszlása, korreláció
Tartalomjegzék Előszó... 6 I. Valószínűségelméleti és matematikai statisztikai alapok... 8 1. A szükséges valószínűségelméleti és matematikai statisztikai alapismeretek összefoglalása... 8 1.1. Alapfogalmak...
A mérési eredmény megadása
A mérési eredmény megadása A mérés során kapott értékek eltérnek a mérendő fizikai mennyiség valódi értékétől. Alapvetően kétféle mérési hibát különböztetünk meg: a determinisztikus és a véletlenszerű
Statisztikai becslés
Kabos: Statisztika II. Becslés 1.1 Statisztikai becslés Freedman, D. - Pisani, R. - Purves, R.: Statisztika. Typotex, 2005. Reimann J. - Tóth J.: Valószínűségszámítás és matematikai statisztika. Tankönyvkiadó,
Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat
Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi fizika és statisztika I. előadás 2016.11.09 Orvosi
BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.
BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011. 1 Mérési hibák súlya és szerepe a mérési eredményben A mérési hibák csoportosítása A hiba rendűsége Mérési bizonytalanság Standard és kiterjesztett