RITKA ESEMÉNYEK ELŐFORDULÁSI GYAKORISÁGÁNAK TRENDELEMZÉSE R-KÖRNYEZETBEN



Hasonló dokumentumok
Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Logisztikus regresszió október 27.

Likelihood, deviancia, Akaike-féle információs kritérium

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Biostatisztika VIII. Mátyus László. 19 October

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

[Biomatematika 2] Orvosi biometria

TÁJÉKOZTATÓ BÉKÉS MEGYE NÉPEGÉSZSÉGÜGYI HELYZETÉRŐL

Túlélés analízis. Probléma:

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

y ij = µ + α i + e ij

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Logisztikus regresszió

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Adatok statisztikai értékelésének főbb lehetőségei

Regressziós vizsgálatok

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Segítség az outputok értelmezéséhez

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Többváltozós lineáris regressziós modell feltételeinek

Biomatematika 13. Varianciaanaĺızis (ANOVA)

13. Túlélési analízis. SURVIVAL ANALYSIS Nyári Tibor Ph.D., Boda Krisztina Ph.D.

Bevezetés a hipotézisvizsgálatokba

EPIDEMIOLÓGIA I. Alapfogalmak

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Az SPC (statisztikai folyamatszabályozás) ingadozásai

: az i -ik esélyhányados, i = 2, 3,..I

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Hipotézis vizsgálatok

[Biomatematika 2] Orvosi biometria

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Korreláció és lineáris regresszió

BKM KH NSzSz Halálozási mutatók Bács-Kiskun megyében és a megye járásaiban

TUDOMÁNY NAPJA 2013 DEBRECEN, A képzettség szerepe a gazdasági növekedésben szektorális megközelítésben

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

6. Előadás. Vereb György, DE OEC BSI, október 12.

Nemzeti Onkológiai Kutatás-Fejlesztési Konzorcium 1/48/ Részjelentés: November december 31.

Korreláció és Regresszió

A évi hőhullám expozíció, egészségi hatás és módosító tényezők összefüggésének kistérségi modellezése

Matematikai statisztika c. tárgy oktatásának célja és tematikája

EPIDEMIOLÓGIA. Fogalma:

Matematikai geodéziai számítások 6.

Lineáris regresszió vizsgálata resampling eljárással

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Juhász Attila, Nagy Csilla. Közép-magyarországi Regionális Intézete, Budapest. SHA főre. Budapest Ország Pest megye

BIOMATEMATIKA ELŐADÁS

GEOSTATISZTIKA II. Geográfus MSc szak. 2019/2020 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

Normális eloszlás tesztje

Least Squares becslés

GEOSTATISZTIKA. Földtudományi mérnöki MSc, geofizikus-mérnöki szakirány. 2018/2019 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

IBNR számítási módszerek áttekintése

V. Gyakorisági táblázatok elemzése

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Okozati következtetések levonása megfigyeléses adatokból

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

KÖVETKEZTETŐ STATISZTIKA

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

A POISSON-REGRESSZIÓ ALKALMAZÁSA A SZOCIOLÓGIAI ÉS DEMOGRÁFIAI KUTATÁSBAN MOKSONY FERENC

ISMÉTELT MÉRÉSES MODELLEK R-KÖRNYEZETBEN

FIT-jelentés :: Terézvárosi Kereskedelmi és Közgazdasági Szakközépiskola és Szakiskola 1064 Budapest, Szondy utca 41. OM azonosító:

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai geodéziai számítások 6.

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Minitab 16 újdonságai május 18

Regresszió számítás az SPSSben

Intézményi jelentés. 10. évfolyam

Intézményi jelentés. 10. évfolyam

3.2. MANIFESZT HIÁNYHELYZETEK BETÖLTETLEN ÁLLÁSOK ÉS KIHASZNÁLATLAN KAPACITÁSOK

FIT-jelentés :: Csillaghegyi Általános Iskola 1038 Budapest, Dózsa György u. 42. OM azonosító: Intézményi jelentés. 8.

Folyóvízminőség becslés térinformatikai módszerekkel. Nagy Zoltán Geográfus Msc. Szegedi Tudományegyetem

FIT-jelentés :: Szegedi Gábor Dénes Műszaki és Környezetvédelmi Középiskola és Szakiskola 6724 Szeged, Mars tér 14. OM azonosító:

Matematikai geodéziai számítások 10.

FIT-jelentés :: Veszprémi Dózsa György Német Nemzetiségi Nyelvoktató Általános Iskola 8200 Veszprém, Szent István utca 56. OM azonosító:

Biometria gyakorló feladatok BsC hallgatók számára

FIT-jelentés :: Terézvárosi Kereskedelmi és Közgazdasági Szakközépiskola és Szakiskola 1064 Budapest, Szondy utca 41. OM azonosító:

EGER DEMOGRÁFIAI FOLYAMATAINAK ELEMZÉSE ÉS ELŐREJELZÉSE (összegzés)

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

Hunyadi János Általános Iskola

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Bevezetés a Korreláció &

Korrelációs kapcsolatok elemzése

Átírás:

RITKA ESEMÉNYEK ELŐFORDULÁSI GYAKORISÁGÁNAK TRENDELEMZÉSE R-KÖRNYEZETBEN AGYÉRBETEGSÉGEK OKOZTA MAGYARORSZÁGI HALÁLOZÁSI ARÁNYSZÁMOK VIZSGÁLATA 1981 ÉS 2010 KÖZÖTT Virág Katalin Szegedi Tudományegyetem Általános Orvostudományi Kar, Orvosi Fizikai és Orvosi Informatikai Intézet A kutatás a TÁMOP 4.2.4.A/2-11-1-2012-0001 azonosító számú Nemzeti Kiválóság Program Hazai hallgatói, illetve kutatói személyi támogatást biztosító rendszer kidolgozása és működtetése konvergencia program című kiemelt projekt keretében zajlott. A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. 2014. március 25.

BEVEZETÉS Epidemiológiai kutatások során gyakran megbetegedések, halálozások előfordulási gyakoriságának időbeli változásait vizsgálják. Ezen cikk ritka események bekövetkezési gyakoriságának vagy a népességhez viszonyított arányának trendelemzését mutatja be konkrét példán keresztül. A statisztikai elemzéseket a mindenki számára ingyenesen elérhető R-környezetben végezzük, és a felhasznált kódokat mellékeljük. ADATOK A Központi Statisztikai Hivatal adatai alapján vizsgáljuk a központi idegrendszerre ható érsérülések okozta magyarországi halálozási rátát nemek szerint, 1981 és 2010 között (BNO-kód: 1981-1995: 430-438; 1996-2010: I60-I69). ELEMZÉS 1. Kor szerint standardizált arányszámok számítása Ha a halálozási ráta korcsoportonként eltérő, akkor a teljes populációra vonatkozó ráta a populáció korösszetételétől is függ. Eltérő korstruktúrájú populációk összehasonlíthatósága érdekében a halálozási vagy más arányszámokat standardizálni kell, ezzel biztosítva, hogy a halálozási ráták közötti különbség nem a populációk eltérő korösszetételének köszönhető. A standardizálás kétféleképpen történhet: direkt és indirekt módszerrel ([8]). 1.1. Direkt standardizálás Ez az elterjedtebb módszer. A direkt standardizáláshoz egy standard populációra van szükség (referencia-népesség), amely lehet a svéd populáción alapuló Európai standard populáció, a Világ standard populáció, vagy akár a két összehasonlítandó populáció egyesítése is. Azt mutatja meg, hogy milyen lenne a teljes populációra vonatkozó halálozási ráta a referencia-népesség korstruktúrájának fennállása esetén. - 1 -

1.2. Indirekt standardizálás Az indirekt standardizáció standard rátákkal történik. Azt mutatja meg, hogy milyen lenne a populáció halálozási rátája a referenciaként használt kor-specifikus halálozási arányszámok fennállása esetén. 1.3. Agyérbetegségek okozta halálozási arányok vizsgálata Az 1. ábra a központi idegrendszerre ható érsérülések okozta halálozási rátát mutatja be nemek szerint. Az évi halálozási arányok kiszámításához az évközepi lakosságszámot vettük figyelembe. 300 A központi idegrendszerre ható érsérülések 250 Halálozási arány 100 ezer főre 200 150 100 Férfi Nő 50 0 1980 1985 1990 1995 2000 2005 2010 Év 1. ábra. Nyers halálozási arányszámok Az ábra alapján nők esetén rendre magasabbak a halálozási arányok, mint férfiaknál. Lehetséges, hogy ez a két csoport eltérő korstruktúrájának köszönhető, ezért az éves halálozási arányokat kor szerint standardizáljuk. A direkt standardizálás módszerét alkalmazzuk, referencia népességnek az Európai standard populációt választva. Az európai standard populáció korstruktúráját az 1. táblázat tartalmazza. A standardizáció lépéseit az 1981-es év halálozási arányain mutatjuk be a 2. táblázatban. Direkt standardizációhoz először nemenként és korcsoportonként kiszámítjuk a halálozások várható számát (a halálozási arányokat megszorozzuk a standard populáció létszámával), majd a kapott eredményeket mindkét nem esetén összeadjuk. - 2 -

Életkor Európai standard populáció (%) Európai standard populáció (100 000) 0-4 8 8000 5-9 7 7000 10-14 7 7000 15-19 7 7000 20-24 7 7000 25-29 7 7000 30-34 7 7000 35-39 7 7000 40-44 7 7000 45-49 7 7000 50-54 7 7000 55-59 6 6000 60-64 5 5000 65-69 4 4000 70-74 3 3000 75-79 2 2000 80-84 1 1000 85+ 1 1000 Összesen 100 100000 1. táblázat. Európai standard populáció Korcsoport Standard populáció Halálozási arány Férfi Halálozások várható száma Halálozási arány Halálozások várható száma 0-4 8000 0,0000073 0,0583 0,0000026 0,0205 5-9 7000 0,0000000 0,0000 0,0000025 0,0174 10-14 7000 0,0000053 0,0374 0,0000028 0,0199 15-19 7000 0,0000212 0,1482 0,0000097 0,0677 20-24 7000 0,0000293 0,2049 0,0000360 0,2522 25-29 7000 0,0000387 0,2709 0,0000444 0,3108 30-34 7000 0,0000983 0,6884 0,0000928 0,6497 35-39 7000 0,0001746 1,2220 0,0001348 0,9435 40-44 7000 0,0004333 3,0328 0,0002191 1,5336 45-49 7000 0,0006824 4,7771 0,0004478 3,1346 50-54 7000 0,0013328 9,3293 0,0008836 6,1854 55-59 6000 0,0022959 13,7756 0,0012806 7,6837 60-64 5000 0,0038618 19,3090 0,0022194 11,0971 65-69 4000 0,0072658 29,0630 0,0047994 19,1976 70-74 3000 0,0125759 37,7278 0,0093034 27,9103 75-79 2000 0,0218106 43,6213 0,0173390 34,6779 80-84 1000 0,0302788 30,2788 0,0276637 27,6637 85-X 1000 0,0482742 48,2742 0,0453801 45,3801 Összesen 100000 241,8190 186,7456 Kor szerint standardizált halálozási arány 100 ezer főre 242 187 Nő 2. táblázat. Direkt standardizáció - 3 -

300 A központi idegrendszerre ható érsérülések 250 Kor szerint standardizált halálozási arány 100 ezer főre 200 150 100 50 Férfi Nő 0 1980 1985 1990 1995 2000 2005 2010 Év 2. ábra. Kor szerint standardizált halálozási arányszámok A 2. ábra a kor szerint standardizált halálozási arányokat mutatja. Ezek a halálozási ráták férfiak esetén rendre magasabbak, mint nőknél. Standardizálás nélkül a nőknél megfigyelhető magasabb halálozási arány annak köszönhető, hogy a nők körében magasabb az idősek aránya, mint férfiak esetén. 2. Trendelemzés Ha a függő változó valamilyen ritka esemény előfordulási gyakorisága vagy a népességhez viszonyított aránya, akkor az eloszlása általában jól közelíthető a Poissonvagy a negatív binomiális eloszlások valamelyikével. A népességhez viszonyított arányok esetén gyakori a túlszóródás ( overdispersion ), vagyis a variancia meghaladja az átlagot; sérül a hagyományos Poisson-regresszió feltétele, miszerint a várható érték és a variancia megegyezik ([1] [7]). 2.1. Általánosított lineáris modellek A Poisson- és a negatív binomiális regressziók az általánosított lineáris modellek családjába tartoznak. Az általánosított lineáris modellek az egyszerű lineáris modellek általánosításai: a függő változó eloszlása eltérhet a normális eloszlástól (akár diszkrét eloszlást is követhet); a függő változó várható értéke helyett annak valamilyen függvényét írják le a magyarázó változók lineáris függvényeként (egy kapcsolatfüggvény segítségével); - 4 -

megengedik a variancia átlagtól való függését. 2.2. Gyakorisági adatok regressziója: Poisson-regresszió Ha a függő változó valamilyen ritka esemény előfordulási gyakorisága (pl. adott populációban adott időtartam alatt előforduló új megbetegedések száma), akkor a Poisson-modell használható. Ha Y Poisson eloszlású μ > 0 várható értékkel, akkor: P = =! =0,1,2, ; E =Var =. A lineáris modell (logaritmikus kapcsolatfüggvény használatával): ln = E = =, ahol : függő változó, ~ Poisson ; : magyarázó változók vektora; : regressziós együtthatók vektora. 2.3. Túlszóródás ( overdispersion ) Poisson eloszlás esetén a várható érték és a variancia megegyezik, az ún. diszperziós paraméter 1-gyel egyenlő. Ha a megfigyelt gyakoriságokat a kockázatnak kitett népességhez viszonyítjuk, akkor gyakran a variancia meghaladja a várható értéket, vagyis túlszóródás figyelhető meg. A Poisson-regresszió lehetséges általánosításai túlszóródás esetén: Robusztus módszer: a kovariancia mátrixot robusztus ( szendvics ) módszerrel becsüljük, miközben a várható érték becslése változatlan. Kvázi-Poisson modell: a diszperziós paramétert a modellből becsüljük. A regressziós együtthatók változatlanok, a standard hibák nagyobbak. Negatív binomiális modell: keverék Poisson-eloszlás, ahol feltételezzük, hogy a függő változó várható értéke Gamma-eloszlást követ. Zero-inflated modell: ha az adatok között sok nulla szerepel. Zero-truncated modell: ha az adatok között egyáltalán nincs nulla. - 5 -

Joinpoint-regresszió: ha trendvizsgálat során az adatsorban töréspontok vannak. Egzakt Poisson-regresszió: nagyon kis gyakoriságok esetén. 2.4. Agyérbetegségek okozta halálozási arányok vizsgálata 100 150 200 Férfi Nő 3. ábra. Kor szerint standardizált halálozási arányok eloszlása A kor szerint standardizált halálozási arányokra Poisson- és negatív binomiális regressziót illesztettünk, majd a két modellt likelihood-hányados próbával hasonlítottuk össze. Ez alapján az egyszerűbb Poisson-modellt választottuk, mert a negatív binomiális regresszió nem javította szignifikánsan a modellilleszkedést. A regressziós együtthatók becsléseit és ezek konfidencia intervallumait (robusztus kovariancia mátrix használata esetén) a 3. táblázat tartalmazza. Látható, hogy az agyérbetegségek következtében elhunytak aránya szignifikánsan csökkenő (évenként körülbelül 2,6%-os) trendet mutat, és a nemek között is szignifikáns különbség állapítható meg 5%-os szinten (férfiak esetén majdnem 30%-kal magasabb a halálozási arány, mint nőknél). A 4. ábrán az eredeti adatpontokat és az illesztett (a Poisson-regresszió által becsült) görbéket láthatjuk. Becslés Konfidencia intervallum Alsó végpont Felső végpont p-érték Intercept 5,569 5,532 5,605 < 0,0001 Év -0,026-0,029-0,024 < 0,0001 Nem (nő) -0,340-0,373-0,308 < 0,0001 3. táblázat. Regressziós együtthatók - 6 -

250 Becsült halálozási arányok 200 150 100 Nem Férfi Nő 0 10 20 30 Év 4. ábra. Poisson-regresszió által illesztett modell - 7 -

A STATISZTIKAI ANALÍZISHEZ ALKALMAZOTT R-KÓDOK # a szükséges csomagok library(mass) library(aer) library(multcomp) library(msm) library(ggplot2) # adatbázis beolvasása adat <- read.csv2("standardizalt_nemek szerint.csv") adat <- within(adat, Nem <- factor(nem, levels = 0:1, labels = c("férfi", "Nő"))) attach(adat) # átlag és variancia számítása tapply(agyerbetegseg, Nem, function(x){sprintf("átlag (Variancia) = %1.2f (%1.2f)", mean(x), var(x))}) # hisztogramok készítése hist(agyerbetegseg[nem == "Férfi"]) hist(agyerbetegseg[nem == "Nő"]) # doboz-ábra készítése boxplot(agyerbetegseg ~ Nem) # Poisson-regresszió summary(poisson <- glm(agyerbetegseg ~ Ev + Nem, family = "poisson")) (Poisson_est <- cbind(estimate = coef(poisson), confint(poisson), summary(poisson)$coef[, "Pr(> z )"])) # Robusztus kovariancia mátrix használatával (Poisson_rest <- cbind(coeftest(poisson, vcov = sandwich), confint.default(glht(poisson, vcov = sandwich)))) exp(poisson_rest[, 1]) # diszperziós paraméter becslése deviance(poisson)/df.residual(poisson) - 8 -

# Túlszóródás ellenőrzése dispersiontest(poisson) # Modellilleszkedés ellenőrzése with(poisson, cbind(res.deviance = deviance, df = df.residual, p = pchisq(deviance, df.residual, lower.tail = FALSE))) # Negatív binomiális regresszió summary(nb <- glm.nb(agyerbetegseg ~ Ev + Nem)) # Poisson-regresszió és negatív binomiális regresszió összehasonlítása Poisson_NB <- list("poisson" = Poisson, "Negatív binomiális" = NB) cbind("2logl" = 2*sapply(Poisson_NB, function(x) round(loglik(x), digits = 1)), "AIC" = sapply(poisson_nb, function(x) AIC(x))) cbind("2log(l_nb)-2log(l_poisson)" = 2*(logLik(NB)-logLik(Poisson)), "Df" = 1, p = pchisq(2*(loglik(nb)-loglik(poisson)), df = 1, lower.tail = FALSE)) # Illesztett modell ábrázolása adat$becsles <- predict(poisson, type = "response") adat <- adat[with(adat, order(nem, Ev)), ] ggplot(adat, aes(x = Ev, y = becsles, colour = Nem)) + geom_point(aes(y = Agyerbetegseg)) + geom_line(size = 1) + labs(x = "Év", y = "Becsült halálozási arányok") detach(adat) - 9 -

HIVATKOZÁSOK [1] A. Agresti. Categorical Data Analysis, Second Edition. Hoboken, New Jersey, John Wiley & Sons, Inc., 2002, pp. 115-164, 385-387, 559-563. [2] C. Cameron. Advances in Count Data Regression Talk for the Applied Statistics Workshop, March 28, 2009. http://cameron.econ.ucdavis.edu/racd/count.html. [3] Data Analysis Examples. UCLA: Statistical Consulting Group. from http://www.ats.ucla.edu/stat/dae/ (accessed October 12, 2013). [4] J. Dobson. An Introduction to Generalized Linear Models, Second Edition. Boca Raton, Florida, Chapman & Hall/CRC, 2002, pp. 151-170. [5] S. Everitt. Modern Medical Statistics: A Practical Guide. London, Arnold, 2003, pp. 1-20. [6] A. Zeileis, C. Kleiber, and S. Jackman. Regression Models for Count Data in R, Journal of Statistical Software, vol. 27(8), pp. 1-25, 2008. [7] A. Pedan. Analysis of Count Data Using the SAS System. Proceedings of the Twenty- Sixth Annual SAS Users Group International Conference, Cary, NC: SAS Institute Inc., 2001. [8] O.B. Ahmad, C. Boschi-Pinto, A.D. Lopez, C.JL. Murray, R. Lozano, M. Inoue. Age standardization of rates: a new WHO standard. (GPE discussion paper series no. 31). Geneva, World Health Organization, 2001. [9] R 2.15.3: A Language and Environment for Statistical Computing, R Development Core Team, R Foundation for Statistical Computing, Vienna, Austria) - 10 -