Biomatematika (SZIE ÁOTK, 2011. tavasz) 1 A logit modell (=logisztikus regresszió) Ha a függő változó (y ) dichotom (=két lehetséges értéke van, pl. túlélés-halál, siker-kudarc stb.), akkor általában azt feltételezzük, hogy a magyarázó változók az eredmény bekövetkezési valószínűségét befolyásolják, ezért inkább a π = P(y bekövetkezik) valószínűséget tekintjük függő változónak. Példa: Függ-e a tanulásra fordított időtől annak valószínűsége, hogy sikerül a vizsga statisztikából? Függ-e attól is, hogy vizsga előtt iszunk kávét? Gyengét vagy erőset? Pozitív vagy negatív az összefüggés? Fellép-e interakció a magyarázó változók között? A tanulásra fordított idő folytonos kovariáns, a kávéivás pedig faktor (3 szinttel: nem iszunk, gyengét iszunk, erőset iszunk).
Biomatematika (SZIE ÁOTK, 2011. tavasz) 2 A kínálkozó legegyszerűbb modell, a lineáris regresszió alkalmazhatatlan, mert a bekövetkezési valószínűség becsült értékei nem mindig fognak 0 és 1 közé esni. A logit modell alapgondolata, hogy a valószínűség helyett egy olyan a valószínűséggel egyenértékű mérőszámot használunk, az ún. logit-et amelynek értékei nem korlátozódnak a [0, 1] tartományra. π O = π / (1- π) l = ln( π / (1- π) ) valószínűség oddsz logit Visszafelé: l O = exp(l) π = exp(l) / (1+exp(l))
Biomatematika (SZIE ÁOTK, 2011. tavasz) 3 Ismétlés: 0.2 Valószínűség 0.75 0 0.5 1 (szinte) lehetetlen azonos eséllyel igen vagy nem (szinte) biztos 0.25 Oddsz 3 0 1 (szinte) lehetetlen azonos eséllyel igen vagy nem (szinte) biztos 1.386 Logit 1.098 0 (szinte) lehetetlen azonos eséllyel igen vagy nem (szinte) biztos Házi feladat: ellenőrizzék a számításokat!
Biomatematika (SZIE ÁOTK, 2011. tavasz) 4 A logit transzformáció egyértelmű megfeleltetést teremt a [0, 1] és a [, + ] tartományok között. oddsz 5 logit logit( ) ln 4 1 valószínűség logit 0 0.001 6.907 0.01 4.595 0.1 2.197 0.25 1.099 0.5 0 0.75 1.099-1 -2-3 -4-5 3 2 1 0 probab. 0 0,5 1
A regressziós egyenlet Biomatematika (SZIE ÁOTK, 2011. tavasz) 5 logit(π) = 0 + 1 x 1 + 2 x 2 +, itt π = P(y bekövetkezik). Az egyenletben az x-ek folytonosak vagy dichotomok. Dichotom magyarázó változó esetén az értékeket 0/1-gyel kódoljuk. A 0 lesz a referencia-csoport, az 1 a vizsgált csoport kódja. Például ha az egyik magyarázó változó A beteg manduláját korábban eltávolították-e? 0-nem, 1-igen akkor a mandulaműtéten átesetteket hasonlítjuk a többiekhez, mint referenciacsoporthoz. A kapott regressziós együtthatóból kiolvashatjuk, hogy befolyásolja-e (és hogyan, mennyire) az y bekövetkezésének esélyét a mandula eltávolítása. > 0: növeli, < 0: csökkenti, = 0: nem befolyásolja
Biomatematika (SZIE ÁOTK, 2011. tavasz) 6 Ha olyan kategóriás magyarázó változónk van, amelynek k > 2 kategóriája van, akkor abból (k 1) darab x-et készítünk. Például ha a magyarázó változó Milyen gyakran fogyaszt alkoholt? (A) soha (B) évente 1-2-szer (C) havonta 1-2-szer (D) hetente többször akkor ebből három x-et képezünk: dummy változók válasz x 1 x 2 x 3 A 0 0 0 B 1 0 0 C 0 1 0 D 0 0 1 és ezzel a (B), (C) és (D) csoportokat hasonlítjuk az (A)-hoz mint referenciacsoporthoz. A kapott három regressziós együttható az y bekövetkezésének esélyéről informál a (B), (C) és (D) csoportban az (A)-hoz képest!
Biomatematika (SZIE ÁOTK, 2011. tavasz) 7 Mit olvashatunk ki a regressziós együtthatókból? A regressziós együtthatóból esélyhányadost (=odds ratio, OR ) számolhatunk amelynek jelentése OR e a) ha az x magyarázó változó folytonos (pl. testtömeg): az x egy egységgel való növekedése hányszorosára növeli az y bekövetkezésének oddszát átlagosan! (feltéve, hogy mindig ugyanannyira) b) ha az x magyarázó változó dichotom a vizsgált csoportban az y bekövetkezésének oddsza hányszorosa a referenciacsoportbelinek c) ha a magyarázó változó több mint 2 kategóriás a szóban forgó csoportban az y bekövetkezésének oddsza hányszorosa a referenciacsoportbelinek
Biomatematika (SZIE ÁOTK, 2011. tavasz) 8 Példa: Mondjuk, a tanulással töltött időhöz tartozó regressziós együttható becslése és a hozzá tartozó SE, illetve p-érték a következők: Ekkor az esélyhányados b = 0.71, SE = 0.23, p = 0.002. OR = e b = 2.718 0.71 = 2.03, vagyis 1 nappal több tanulás az y bekövetkezésének (a sikeres vizsgának) az oddszát 2.03-szorosára növeli. 95%-os konfidenciaintervallum az oddsz növekedésére: e b 1.96 SE = 2. 718 0.71 1.96 0.23 = (1.30, 3.19) A p-érték pedig azt mondja, hogy a sikeres vizsga esélye függ a tanulással töltött időtől (szignifikáns, bizonyító erejű).
Biomatematika (SZIE ÁOTK, 2011. tavasz) 9 Példa: Mondjuk, a mandulaműtétre, mint magyarázó változóra az alábbi regressziós együtthatót kaptuk: Ennek alapján b = 0.73, SE = 0.31, p = 0.0112. OR = e b = 2.718 0.73 = 0.48, vagyis azoknál, akik korábban átestek mandulaműtéten, az y bekövetkezésének (pl. torokgyulladásnak) az oddsza kisebb (0.48-szorosa a referenciacsoportbelinek). A p-érték alapján a különbség szignifikáns. Konfidenciaintervallumot is adhatnánk, ugyanúgy, mint az előbb.
Biomatematika (SZIE ÁOTK, 2011. tavasz) 10 Példa: Mondjuk, a vizsga előtti kávéivásra az alábbi regressziós együtthatókat kaptuk: b gyenge kávé = 0.31, SE = 0.15, p = 0.039, b erős kávé = -0.43, SE = 0.33, p = 0.193, Ezek alapján OR gyenge kávé = 2.718 0.31 = 1.36, OR erős kávé = 2.718-0.43 = 0.65, vagyis egy gyenge kávé elfogyasztása a sikeres vizsga oddszát 1.36-szorosára növeli a kávét nem iváshoz képest. Az oddsz szignifikánsan nő, mert p < 0.05. Az erős kávé 0.65-szeresre csökkenti az oddsz-t a kávét nem iváshoz képest. A p-érték 0.193, a csökkentés nem szignifikáns.
Biomatematika (SZIE ÁOTK, 2011. tavasz) 11 Ha két vizsgált csoport közötti esélyhányados érdekel, akkor azt így kaphatjuk: OR i j OR OR i j e ( b i b j Például az erős és gyenge kávét ivók csoportja között: 2.718 (-0.43 0.31) = 2.718-0.74 = 0.48, vagyis az erős kávét ivók esélye 48%-a a gyenge kávét ivók esélyének. Ezek fiktív megállapítások, illusztrációk, nem támasztja alá kísérlet! )
Biomatematika (SZIE ÁOTK, 2011. tavasz) 12 Kitekintés: az általánosított lineáris modell Láttuk, hogy a logisztikus regresszió a lineáris regresszióhoz képest abban különbözik, hogy a baloldalon nem maga az y, hanem egy függvénye, logit( P(y bekövetkezik) ) áll. (Nem láttuk, de az is különbség, hogy az véletlen komponensnek most nem normális eloszlásúnak kell lennie, hanem másmilyennek.) A jobboldal egyébként ugyanaz, az x -ek egy lineáris kifejezése. Az általánosított lineáris modellben megválaszthatjuk, hogy az y helyett mely függvényét használjuk (pl. logit, probit, log), az milyen eloszlású (pl. binomiális, Poisson stb). R-ben: family link függvény
Biomatematika (SZIE ÁOTK, 2011. tavasz) 13 A logisztikus regressziós modellezés menete azonos a lineáris regressziós modellezésével. Főbb különbségek: A modell illesztése nem a legkisebb négyzetek módszerével, hanem a maximum likelihood módszerrel történik. Ennek lényege, hogy olyan modellt illesztünk, melynek valószínűsége az ún. likelihood a megfigyelt adatok (a minta) mellett a lehető legnagyobb. A magyarázó erő számszerűsítésére az R 2 helyett más mérőszámokat használnak (az R 2 interpretációja problémás). A modell diagnosztikája bonyolult, rendszerint statisztikussal való konzultációt igényel. Bánjunk takarékosan a magyarázó változókkal! Ha sok irreleváns változót teszünk a modellbe, nem sok jóra számíthatunk!
Biomatematika (SZIE ÁOTK, 2011. tavasz) 14 Példa: Egérembriók fejlődése során a blastocysta állapot elérésének valószínűségét vizsgálták in vitro körülmények között. Összesen 94 embrió szerepelt a kísérletben. A magyarázó változók az egycellástól a kétcellás állapotig tartó idő, a kétcellástól a háromcellásig tartó idő, valamint az, hogy az embrió időközben fragmentálódott-e (károsodott-e). Logisztikus regresszióval modellezzük a blastocysta állapot elérésének valószínűségét. Minden embrióra feljegyezzük: elérte-e a blastocysta állapotot (blastocyst: 1, ha elérte, 0, ha nem dichotom vagy más néven dummy változó), a kétcellás állapotig tartó időt (time2c, folytonos), a kétcellástól a háromcellásig tartó időt (D3C2C, folytonos), fragmentálódott-e (fragmented: 1, ha igen, 0, ha nem, dichotom).
Biomatematika (SZIE ÁOTK, 2011. tavasz) 15 A célváltozó a blastocyst, folytonos kovariánsok a time2c és a D3C2C magyarázó változók, fragmented pedig kétszintű faktor (amit azonban rögtön dummy változó formájúra írtunk át). Az adatokat táblázatba rendeztük, melyben minden embriónak egy sor és minden változónak egy oszlop felel meg: embryo id time2c D3C2C fragmented blastocyst 1 1556 1254 0 1 2 1355 1164 0 1 3 1436 1605 0 0 4 1355 1295 0 1 5 1496 1705 0 0 6 1536 1374 1 0 7 1294 1221 1 1 8 1424 1302 0 1
A regressziós egyenlet Biomatematika (SZIE ÁOTK, 2011. tavasz) 16 logit( P(blastocyst=1) ) = 0 + 1 time2c + 2 D3C2C + 3 fragmented Valójában két regressziós egyenletről van szó, ugyanúgy, mint az ANCOVA modellnél (vö. 11. előadás): logit( P(blastocyst=1) ) = 0 + 3 0 + 1 time2c + 2 D3C2C a nem fragmentálódott embriókra, logit( P(blastocyst=1) ) = 0 + 3 a fragmentálódottakra. + 1 time2c + 2 D3C2C Az egyenlet skálája logaritmusos, ezért a blastocysta oddsza exp( 3 )-szeres a fragmentálódott embriókra a nem fragmentálódottakhoz képest. (Azt gondoljuk, hogy az oddsz csökken, ezért 3 ra negatív értéket várunk.)
D3C2C Biomatematika (SZIE ÁOTK, 2011. tavasz) 17 Vizsgáljuk meg a kapcsolatot először grafikusan! Graphs >> XY conditioning plot 2200 2000 1800 1600 1400 1200 nem fragmentálódott nem érte el elérte 1100 1200 1300 1400 1500 1600 1100 1200 1300 1400 1500 1600 time2c fragmentálódott Minél rövidebb a 2C-ig, illetve a 2C-től a 3C-ig terjedő időszak, annál nagyobb a blastocysta valószínűsége. A fragmentálódás csökkenti a valószínűséget, bár ezt nehéz a grafikonról megítélni, mert kevés a fragmentálódott embrió.
Biomatematika (SZIE ÁOTK, 2011. tavasz) 18 A modell illesztéséhez válasszuk a Statistics >> Fit models >> Generalized linear model funkciót. A párbeszéd-panelt az alábbi módon állítsuk be:
Biomatematika (SZIE ÁOTK, 2011. tavasz) 19 Az eredmény: Estimate Std. Error z value Pr(> z ) (Intercept) 60.752853 16.139927 3.764 0.000167 *** time2c -0.022677 0.007294-3.109 0.001878 ** D3C2C -0.018798 0.004987-3.769 0.000164 *** fragmented -3.413947 1.281424-2.664 0.007718 ** Amit kaptunk, formailag pontosan ugyanolyan, mint az ANCOVA vagy a lineáris regresszió eredménytáblája. A különbség az értelmezésben van. Ha a 2C állapot eléréséig tartó idő (time2c) egy perccel több, akkor a blastocysta állapot elérésének oddsza exp(-0.022677) 0.978- szeresére változik. Reálisabb és könnyebben elképzelhető, ha a 10 perccel több idő hatását számítjuk ki: ekkor az oddsz exp(10 (-0.022677)) 0.80-szoros. A csökkenés szignifikáns, p=0.001878.
Biomatematika (SZIE ÁOTK, 2011. tavasz) 20 Ha a 2C-től 3C-ig tartó idő (D3C2C) 10 perccel megnő miközben a többi magyarázó változó ugyanaz marad, akkor a blastocysta állapot elérésének oddsza exp(-0.18798) 0.83-szorosára csökken. Ha az embrió a fejlődése közben fragmentálódik, akkor a blastocysta állapot elérésének oddsza drasztikusan, exp(-3.413947) 0.03-szeresére csökken. Vegyük azért figyelembe, hogy a standard hiba nagy, a csökkenés 95%-os konfidenciaintervalluma exp(-3.41 ± 1.96 1.28) [0.003, 0.41]. Ezért, bár a csökkenés szignifikáns, elképzelhető, hogy populációs mértéke csak 0.41-szeres. Az általánosított lineáris modellek diagnosztizálása jóval nehezebb, mint a lineáris regresszió ANOVA ANCOVA modelleké. Az R lehetőséget ad ugyan a grafikus modellvizsgálatra, de ez inkább csak a kiugró értékek, torzító pontok kiszűrésére elegendő.
Std. deviance resid. 0.0 1.0 Std. Pearson resid. -4 0 2 4 Residuals -2 0 2 Std. deviance resid. -2 0 2 Biomatematika (SZIE ÁOTK, 2011. tavasz) 21 A menüből válasszuk a Models >> Graphs >> Basic diagnostic plots funkciót: glm(blastocysta ~ time2c + D3C2C + fragmented) Residuals vs Fitted 17 15 59-20 -15-10 -5 0 5 10 Predicted values Scale-Location 1759 15-20 -15-10 -5 0 5 10 Predicted values 15 59 Normal Q-Q -2-1 0 1 2 Theoretical Quantiles Residuals vs Leverage 17 Cook's distance 0.00 0.10 0.20 0.30 Leverage 15 93 17 1 0.5 0.5 1 A reziduumok szórása nem kell, hogy homogén legyen, eloszlása sem szükségképpen normális. Néhány kiugró érték előfordul a bal felső reziduumplot-on. A jobb alsó ábráról látszik, hogy ezek nem torzító pontok.
Biomatematika (SZIE ÁOTK, 2011. tavasz) 22 Van azonban egy egyszerű módszer, amivel könnyen vizsgálható a logisztikus regresszió illeszkedése. Csoportosítsuk a 2C-ig és a 2C-3C-ig tartó időszakokat mondjuk 300 percenként, adjuk össze a csoportokban megfigyelt blastocystás embriók számát (megfigyelt gyakoriság) és a blastocysta modell szerinti valószínűségeit (várt gyakoriság). Ha e két érték minden csoportban jó egyezést mutat, akkor a modell jól illeszkedik az adatokhoz. Illesztett valószínűségek: > embryo$expected = fitted(glmmod) Csoportosítás: > embryo$bintime2c = with(embryo, round(time2c/300)*300) > embryo$bind3c2c = with(embryo, round(d3c2c/300)*300)
Biomatematika (SZIE ÁOTK, 2011. tavasz) 23 Összegzés, megfigyelt és várt gyakoriságok: > aggregate(embryo[,c("blastocyst","expected")], by=list(bintime2c=embryo$bintime2c, BinD3C2C=embryo$BinD3C2C, fragmented=embryo$fragmented), function(x) round(sum(x),2)) Bintime2C BinD3C2C fragmented blastocyst expected 1 1200 1200 0 16 15.99 2 1500 1200 0 24 24.52 3 1200 1500 0 8 7.61 4 1500 1500 0 14 14.40 5 1200 1800 0 0 0.34 6 1500 1800 0 1 0.15 7 1200 2100 0 0 0.00 8 1200 1200 1 1 1.00 9 1500 1200 1 1 1.01 10 1200 1500 1 4 3.98 11 1500 1500 1 0 0.01 12 1500 2100 1 0 0.00 Az illeszkedés minden csoportban jó!
Biomatematika (SZIE ÁOTK, 2011. tavasz) 24 Érdemes a magyarázó változók szóródási diagramján ábrázolni a blastocysta valószínűségének szintvonalait ezek egyenesek lesznek, ami kifejezi a modell lineáris jellegét library(graphics); contour(...):
Biomatematika (SZIE ÁOTK, 2011. tavasz) 25 A statisztika megalapozója, tudománnyá szervezője, a kurzus során tanultak nagy részének felfedezője Sir Ronald Aymler Fisher angol statisztikus, matematikus és biológus volt (1890-1962).