Lináris rgrsszió Éltkor (Ag) és szisztolés vérnyomás (SBP) Ag SBP Ag SBP Ag SBP 22 131 41 139 52 128 23 128 41 171 54 105 24 116 46 137 56 145 27 106 47 111 57 141 28 114 48 115 58 153 29 123 49 133 59 157 30 117 49 128 63 155 32 122 50 183 67 176 33 99 51 130 71 172 35 121 51 133 77 178 40 147 51 144 81 217 SBP (mm Hg) 220 SBP 81.54 + 1.222 Ag 200 180 160 140 120 100 80 20 30 40 50 60 70 80 90
Két folytonos változó kapcsolata (SBP és Ag) y yβ 0 +β 1 x A β 1 rgrssziós gyüttható : Az x és y közötti kapcsolatot fjzi ki Mkkora a válozás y értékébn, ha x 1 gységnyit változik Lgkisbb négyztk módszrévl bcsül Többszörös lináris rgrsszió Egy folytonos változó és folytonos magyarázó változók csoportjának kapcsolata x Y β 0 + β 1 X 1 + β 2 X 2 +... + β k X k +ε A β i parciális rgrssziós gyüttható: - az a mnnyiség, amivl Y változik, ha X i 1 gységnyit változik, miközbn a többi X i értékét rögzítjük Példa: SBP vs. kor, tstsúly, magasság, stb.
Logisztikus rgrsszió (Logistic rgrssion) Hasznos, ha gy tulajdonság, vagy kimntl mglétét vagy hiányát szrtnénk mgjósolni magyarázó változók gy csoportja sgítségévl. Ekkor a függő változó dichotom. A magyarázó változók Xi csoportja lht dichotom (ign/nm) katgóriális, folytonos (kor, tömg, stb...) Az gyváltozós lmzés nm mindig ad hlys kockázat bcslést. Az pidmiológiai vizsgálatokban általában több kockázati tényzőt és intrakcióit kll figylmb vnni. Ilyn stkbn lht a logisztikus rgrssziót használni.
Éltkor (kor) és szívkoszorúér (CD) mgbtgdésr utaló szimptómák kor CD kor CD kor CD 22 0 40 0 54 0 23 0 41 1 55 1 24 0 46 0 58 1 27 0 47 0 60 1 28 0 48 0 60 0 30 0 49 1 62 1 30 0 49 0 65 1 32 0 50 1 67 1 33 0 51 0 71 1 35 1 51 1 77 1 38 0 52 0 81 1 Hogyan lht zkt az adatokat lmzni? A btg és nm btg nők átlagos éltkorának összhasonlítása: Nm btg: Btg: 38.6 év 58.7 év (p<0.0001) Lináris rgrsszió? 1,2 1,0,8,6,4,2 0,0 CD -,2 20 30 40 50 60 70 80 90 KOR
Miért n használjunk lináris rgrssziót? Sérülnk a fltétlk: A hiba tagok varianciái különbözők. Nm normális loszlásúak. A prdiktált valószínűségk nm 0 és 1 közé snk. A szívoszorúér btgség prvalnciája (%) korcsoportonként Btg korcsoport Csoport mért száma % 20-29 5 0 0 30-39 6 1 17 40-49 7 2 29 50-59 7 4 57 60-69 5 4 80 70-79 2 2 100 80-89 1 1 100 A logisztikus függvény prvalncia (%) valószínűség 11 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0 0 1+ a + bx P ( y x) a + bx 10 30 50 70 90 kor
A logisztikus rgrsszió modllj a Z 1 P( smény), Z b Z Z 0 + 1 + 1 + kifjzésből rd. b X 1 Az smény stünkbn a mgbtgdés. Az smény sély (odds): P( smény) P( nm smény) P( smény) 1 P( smény) Z, így logit(y) Y ln( odds) ln Z b0 + b1 X 1 Y. Mgjgyzés: Az általános lináris rgrsszió: Y b 0 + b 1 X 1 + b 2 X 2 +... + b k X k + Az általánosított lináris modll: Y g(b 0 + b 1 X 1 + b 2 X 2 +... + b k X k )+, azaz E(Y) g(b 0 + b 1 X 1 + b 2 X 2 +... + b k X k ) Ha f g -1 zt hívjuk link függvénynk, akkor f(e(y)) b 0 + b 1 X 1 + b 2 X 2 +... + b k X k Különböző link függvényk lhtségsk.
A logit transzformáció lőnyi: hasonló tulajdonságok, mint lináris rgrsszió stén a logit [, ] a valószínűség: 0 P 1 Közvtlnül kapcsolatba hozható a btgség sélyévl: P ln 1 P β + 0 β X 1 1 P β 0 + β 1 X P β intrprtációja: Rizikó faktor (X) Ign nm Btgség (Y) Ign P(Y X1) P(Y X0) nm 1-P(Y X1) 1-P(Y 10) 1 P β 0 + β 1 X P odds F β + β 0 1 β 0 + β 1 β 1 B OR β 0 odds F β ln( OR) β 0 B 1 β 1 az ln(or) változása, ha X gységnyit változik A H 0 : β 1 0 hipotézis tsztlés (Wald tszt) 2 β var( β ) 2 χ df 1 ± β 1 1. 96SE ( β 1 ) Konfidncia intrvallum:
Logisztikus rgrsszió stén a paramétrkt az ún. maximum liklihood módszrrl bcsüljük (Úgy határozzuk mg az gyütthatókat, hogy a mgfigylt értékk valószínűség maximális lgyn.) Az gyütthatókra vonatkozó output: Stp 1 a kor Constant a. Variabl(s) ntrd on stp 1: kor. Variabls in th Equation B S.E. Wald df Sig. Exp(B) Lowr Uppr,132,046 8,053 1,005 1,141 1,042 1,249-6,708 2,354 8,121 1,004,001 95,0% C.I.for EXP(B) Ezk szrint: logit(cd)z -6,708 + 0,132 * kor OR 1.141 Konfidncia intrvallum az OR-r : (1.042; 1.249) Ha azt szrtnénk mgmondani, hogy gy 55 évs nő stén mkkora a szívkoszorúér mgbtgdés valószínűség, akkor Z -6,708 + 0,132 * 55 0,552, azaz 1 P ( CD) 0,63 Z, azaz 63%. 1 +
Ha az éltkor szrint csinálunk két katgóriát, és úgy végzzük l az lmzést (kor_kat 0, ha Ag<50, kor_kat 1, ha Ag>50): Variabl B S.E. Wald df Sig R Exp(B) KOR_KAT(1) 2,2380,8165 7,5132 1,0061,3501 9,3749 Constant -1,3217,5627 5,5169 1,0188 Logisztikus rgrsszió nélkül: Ag Összs <50 >50 CD + 10 4 14-4 15 19 Összs 14 19 33 OR 9.375 Többszörös logisztikus rgrsszió Több mint 1 magyarázó változó. Lhtnk: dichotóm, ordinális, nominális, folytonos, ln P β 0 + β 1X1 + β 2X +... + 1 P 2 β i k intrprtációja: β n X n az ln(odds) változása, ha X i gységnyit változik miközbn a többi X rögzíttt Az 1 b jlntés jobban érthtő, ha még gy magyarázó változót bvszünk a modllb. Az új változó (dohányos) érték 1, ha a btg dohányzik, vagy hosszabb idig dohányzott a múltban, gyébként pdig 0.
Ekkor az output: Variabls in th Equation Stp 1 a kor dohányos Constant B S.E. Wald df Sig. Exp(B) Lowr Uppr,128,051 6,337 1,012 1,137 1,029 1,256 2,471 1,110 4,960 1,026 11,840 1,345 104,218-7,599 2,728 7,757 1,005,001 a. Variabl(s) ntrd on stp 1: kor, dohányos. 95,0% C.I.for EXP(B) Az lőző példában lévő 55 évs nm dohányos nő odds-a (sély) a szívkoszorúér mgbtgdésr: log(odds nm dohányos )-7,599 + 2,471*0 +0,128* kor -,559 Ha dohányos lnn, akkor log(odds dohányos )-7,599 + 2,471*1+0,128* kor 1,912. A kttő közti változás 2,471. Az sélyhányados: OR odds dohányos / odds nm dohányos xp(2,471)11,84. Az outputban még az OR-r vonatkozó konfidncia intrvallumot is mgtalálhatjuk. A két modllbn az Ag gyütthatói: 0.128 és 0.132, azaz nincs lénygs különbség. A dohányzás nm confoundr az éltkorra nézv.