π = P(y bekövetkezik)

Hasonló dokumentumok
Logisztikus regresszió október 27.

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Likelihood, deviancia, Akaike-féle információs kritérium

Segítség az outputok értelmezéséhez

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Többváltozós lineáris regressziós modell feltételeinek

Logisztikus regresszió

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Korreláció és lineáris regresszió

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Egy és többváltozós logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Mérési adatok illesztése, korreláció, regresszió

: az i -ik esélyhányados, i = 2, 3,..I

Egy és (többváltozós) logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

Túlélés analízis. Probléma:

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Logisztikus regresszió

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Regressziós vizsgálatok

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Logisztikus regresszió

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

(Independence, dependence, random variables)

Többváltozós lineáris regresszió 3.

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Diszkriminancia-analízis

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

BIOMETRIA_ANOVA_2 1 1

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

KISTERV2_ANOVA_

Regresszió és ANOVA. Freedman: fejezet. Freedman: fejezet. Freedman: fejezet

Ökonometria. Dummy változók használata. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Hetedik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Hipotézis vizsgálatok

Több valószínűségi változó együttes eloszlása, korreláció

Regresszió számítás az SPSSben

Bevezetés a Korreláció &

Matematikai geodéziai számítások 6.

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

A többváltozós lineáris regresszió III. Főkomponens-analízis

Kettőnél több csoport vizsgálata. Makara B. Gábor

AZ ÁLTALÁNOSÍTOTT LINEÁRIS MODELL ÉS BIZTOSÍTÁSI ALKALMAZÁSAI

Biostatisztika VIII. Mátyus László. 19 October

Matematikai geodéziai számítások 6.

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

[Biomatematika 2] Orvosi biometria

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

Matematika. Xántus János Két Tanítási Nyelvű Gimnázium és Szakgimnázium OM azonosító: Telephelyi jelentés Telephely kódja: 001

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

[Biomatematika 2] Orvosi biometria

Elméleti összefoglalók dr. Kovács Péter

Figyelem, próbálja önállóan megoldani, csak ellenőrzésre használja a következő oldalak megoldásait!

Készítette: Fegyverneki Sándor

6. előadás - Regressziószámítás II.

KÖVETKEZTETŐ STATISZTIKA

GRADUÁLIS BIOSTATISZTIKAI KURZUS február hó 22. Dr. Dinya Elek egyetemi docens

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

y ij = µ + α i + e ij

Egy és (többváltozós) logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

Szövegértés. Xántus János Két Tanítási Nyelvű Gimnázium és Szakgimnázium OM azonosító: Telephelyi jelentés Telephely kódja: 001

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

[Biomatematika 2] Orvosi biometria

Több laboratórium összehasonlítása, körmérés

Minitab 16 újdonságai május 18

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Least Squares becslés

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Biomatematika 2 Orvosi biometria

Túlélés elemzés október 27.

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Biomatematika 2 Orvosi biometria

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

FIT-jelentés :: Erzsébet Utcai Általános Iskola 1043 Budapest, Erzsébet u. 31. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Számítógépes döntéstámogatás. Statisztikai elemzés

[Biomatematika 2] Orvosi biometria

Typotex Kiadó. Tartalomjegyzék

FIT-jelentés :: Fabriczius József Általános Iskola 2112 Veresegyház, Fő út OM azonosító: Telephely kódja: 001. Telephelyi jelentés

[Biomatematika 2] Orvosi biometria

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

A kockázat fogalma. A kockázat fogalma. Fejezetek a környezeti kockázatok menedzsmentjéből 2 Bezegh András

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

FIT-jelentés :: Cecei Általános Iskola 7013 Cece, Árpád u. 3. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

FIT-jelentés :: Széchenyi István Gimnázium 1118 Budapest, Rimaszombati u OM azonosító: Telephely kódja: 001. Telephelyi jelentés

FIT-jelentés :: Újbudai Széchenyi István Gimnázium 1118 Budapest, Rimaszombati út 2-4. OM azonosító: Telephely kódja: 001

FIT-jelentés :: Telephelyi jelentés. 8. évfolyam :: Általános iskola

FIT-jelentés :: Telephelyi jelentés. 8. évfolyam :: Általános iskola

FIT-jelentés :: Eötvös József Főiskola Gyakorló Általános Iskolája 6500 Baja, Bezerédj utca 15. OM azonosító: Telephely kódja: 001

Az állat becsült kor. teljes súly. teljes hossz orrtól. törzs hossza. pocak körkörös méret. hátsó láb hossza kör

Átírás:

Biomatematika (SZIE ÁOTK, 2011. tavasz) 1 A logit modell (=logisztikus regresszió) Ha a függő változó (y ) dichotom (=két lehetséges értéke van, pl. túlélés-halál, siker-kudarc stb.), akkor általában azt feltételezzük, hogy a magyarázó változók az eredmény bekövetkezési valószínűségét befolyásolják, ezért inkább a π = P(y bekövetkezik) valószínűséget tekintjük függő változónak. Példa: Függ-e a tanulásra fordított időtől annak valószínűsége, hogy sikerül a vizsga statisztikából? Függ-e attól is, hogy vizsga előtt iszunk kávét? Gyengét vagy erőset? Pozitív vagy negatív az összefüggés? Fellép-e interakció a magyarázó változók között? A tanulásra fordított idő folytonos kovariáns, a kávéivás pedig faktor (3 szinttel: nem iszunk, gyengét iszunk, erőset iszunk).

Biomatematika (SZIE ÁOTK, 2011. tavasz) 2 A kínálkozó legegyszerűbb modell, a lineáris regresszió alkalmazhatatlan, mert a bekövetkezési valószínűség becsült értékei nem mindig fognak 0 és 1 közé esni. A logit modell alapgondolata, hogy a valószínűség helyett egy olyan a valószínűséggel egyenértékű mérőszámot használunk, az ún. logit-et amelynek értékei nem korlátozódnak a [0, 1] tartományra. π O = π / (1- π) l = ln( π / (1- π) ) valószínűség oddsz logit Visszafelé: l O = exp(l) π = exp(l) / (1+exp(l))

Biomatematika (SZIE ÁOTK, 2011. tavasz) 3 Ismétlés: 0.2 Valószínűség 0.75 0 0.5 1 (szinte) lehetetlen azonos eséllyel igen vagy nem (szinte) biztos 0.25 Oddsz 3 0 1 (szinte) lehetetlen azonos eséllyel igen vagy nem (szinte) biztos 1.386 Logit 1.098 0 (szinte) lehetetlen azonos eséllyel igen vagy nem (szinte) biztos Házi feladat: ellenőrizzék a számításokat!

Biomatematika (SZIE ÁOTK, 2011. tavasz) 4 A logit transzformáció egyértelmű megfeleltetést teremt a [0, 1] és a [, + ] tartományok között. oddsz 5 logit logit( ) ln 4 1 valószínűség logit 0 0.001 6.907 0.01 4.595 0.1 2.197 0.25 1.099 0.5 0 0.75 1.099-1 -2-3 -4-5 3 2 1 0 probab. 0 0,5 1

A regressziós egyenlet Biomatematika (SZIE ÁOTK, 2011. tavasz) 5 logit(π) = 0 + 1 x 1 + 2 x 2 +, itt π = P(y bekövetkezik). Az egyenletben az x-ek folytonosak vagy dichotomok. Dichotom magyarázó változó esetén az értékeket 0/1-gyel kódoljuk. A 0 lesz a referencia-csoport, az 1 a vizsgált csoport kódja. Például ha az egyik magyarázó változó A beteg manduláját korábban eltávolították-e? 0-nem, 1-igen akkor a mandulaműtéten átesetteket hasonlítjuk a többiekhez, mint referenciacsoporthoz. A kapott regressziós együtthatóból kiolvashatjuk, hogy befolyásolja-e (és hogyan, mennyire) az y bekövetkezésének esélyét a mandula eltávolítása. > 0: növeli, < 0: csökkenti, = 0: nem befolyásolja

Biomatematika (SZIE ÁOTK, 2011. tavasz) 6 Ha olyan kategóriás magyarázó változónk van, amelynek k > 2 kategóriája van, akkor abból (k 1) darab x-et készítünk. Például ha a magyarázó változó Milyen gyakran fogyaszt alkoholt? (A) soha (B) évente 1-2-szer (C) havonta 1-2-szer (D) hetente többször akkor ebből három x-et képezünk: dummy változók válasz x 1 x 2 x 3 A 0 0 0 B 1 0 0 C 0 1 0 D 0 0 1 és ezzel a (B), (C) és (D) csoportokat hasonlítjuk az (A)-hoz mint referenciacsoporthoz. A kapott három regressziós együttható az y bekövetkezésének esélyéről informál a (B), (C) és (D) csoportban az (A)-hoz képest!

Biomatematika (SZIE ÁOTK, 2011. tavasz) 7 Mit olvashatunk ki a regressziós együtthatókból? A regressziós együtthatóból esélyhányadost (=odds ratio, OR ) számolhatunk amelynek jelentése OR e a) ha az x magyarázó változó folytonos (pl. testtömeg): az x egy egységgel való növekedése hányszorosára növeli az y bekövetkezésének oddszát átlagosan! (feltéve, hogy mindig ugyanannyira) b) ha az x magyarázó változó dichotom a vizsgált csoportban az y bekövetkezésének oddsza hányszorosa a referenciacsoportbelinek c) ha a magyarázó változó több mint 2 kategóriás a szóban forgó csoportban az y bekövetkezésének oddsza hányszorosa a referenciacsoportbelinek

Biomatematika (SZIE ÁOTK, 2011. tavasz) 8 Példa: Mondjuk, a tanulással töltött időhöz tartozó regressziós együttható becslése és a hozzá tartozó SE, illetve p-érték a következők: Ekkor az esélyhányados b = 0.71, SE = 0.23, p = 0.002. OR = e b = 2.718 0.71 = 2.03, vagyis 1 nappal több tanulás az y bekövetkezésének (a sikeres vizsgának) az oddszát 2.03-szorosára növeli. 95%-os konfidenciaintervallum az oddsz növekedésére: e b 1.96 SE = 2. 718 0.71 1.96 0.23 = (1.30, 3.19) A p-érték pedig azt mondja, hogy a sikeres vizsga esélye függ a tanulással töltött időtől (szignifikáns, bizonyító erejű).

Biomatematika (SZIE ÁOTK, 2011. tavasz) 9 Példa: Mondjuk, a mandulaműtétre, mint magyarázó változóra az alábbi regressziós együtthatót kaptuk: Ennek alapján b = 0.73, SE = 0.31, p = 0.0112. OR = e b = 2.718 0.73 = 0.48, vagyis azoknál, akik korábban átestek mandulaműtéten, az y bekövetkezésének (pl. torokgyulladásnak) az oddsza kisebb (0.48-szorosa a referenciacsoportbelinek). A p-érték alapján a különbség szignifikáns. Konfidenciaintervallumot is adhatnánk, ugyanúgy, mint az előbb.

Biomatematika (SZIE ÁOTK, 2011. tavasz) 10 Példa: Mondjuk, a vizsga előtti kávéivásra az alábbi regressziós együtthatókat kaptuk: b gyenge kávé = 0.31, SE = 0.15, p = 0.039, b erős kávé = -0.43, SE = 0.33, p = 0.193, Ezek alapján OR gyenge kávé = 2.718 0.31 = 1.36, OR erős kávé = 2.718-0.43 = 0.65, vagyis egy gyenge kávé elfogyasztása a sikeres vizsga oddszát 1.36-szorosára növeli a kávét nem iváshoz képest. Az oddsz szignifikánsan nő, mert p < 0.05. Az erős kávé 0.65-szeresre csökkenti az oddsz-t a kávét nem iváshoz képest. A p-érték 0.193, a csökkentés nem szignifikáns.

Biomatematika (SZIE ÁOTK, 2011. tavasz) 11 Ha két vizsgált csoport közötti esélyhányados érdekel, akkor azt így kaphatjuk: OR i j OR OR i j e ( b i b j Például az erős és gyenge kávét ivók csoportja között: 2.718 (-0.43 0.31) = 2.718-0.74 = 0.48, vagyis az erős kávét ivók esélye 48%-a a gyenge kávét ivók esélyének. Ezek fiktív megállapítások, illusztrációk, nem támasztja alá kísérlet! )

Biomatematika (SZIE ÁOTK, 2011. tavasz) 12 Kitekintés: az általánosított lineáris modell Láttuk, hogy a logisztikus regresszió a lineáris regresszióhoz képest abban különbözik, hogy a baloldalon nem maga az y, hanem egy függvénye, logit( P(y bekövetkezik) ) áll. (Nem láttuk, de az is különbség, hogy az véletlen komponensnek most nem normális eloszlásúnak kell lennie, hanem másmilyennek.) A jobboldal egyébként ugyanaz, az x -ek egy lineáris kifejezése. Az általánosított lineáris modellben megválaszthatjuk, hogy az y helyett mely függvényét használjuk (pl. logit, probit, log), az milyen eloszlású (pl. binomiális, Poisson stb). R-ben: family link függvény

Biomatematika (SZIE ÁOTK, 2011. tavasz) 13 A logisztikus regressziós modellezés menete azonos a lineáris regressziós modellezésével. Főbb különbségek: A modell illesztése nem a legkisebb négyzetek módszerével, hanem a maximum likelihood módszerrel történik. Ennek lényege, hogy olyan modellt illesztünk, melynek valószínűsége az ún. likelihood a megfigyelt adatok (a minta) mellett a lehető legnagyobb. A magyarázó erő számszerűsítésére az R 2 helyett más mérőszámokat használnak (az R 2 interpretációja problémás). A modell diagnosztikája bonyolult, rendszerint statisztikussal való konzultációt igényel. Bánjunk takarékosan a magyarázó változókkal! Ha sok irreleváns változót teszünk a modellbe, nem sok jóra számíthatunk!

Biomatematika (SZIE ÁOTK, 2011. tavasz) 14 Példa: Egérembriók fejlődése során a blastocysta állapot elérésének valószínűségét vizsgálták in vitro körülmények között. Összesen 94 embrió szerepelt a kísérletben. A magyarázó változók az egycellástól a kétcellás állapotig tartó idő, a kétcellástól a háromcellásig tartó idő, valamint az, hogy az embrió időközben fragmentálódott-e (károsodott-e). Logisztikus regresszióval modellezzük a blastocysta állapot elérésének valószínűségét. Minden embrióra feljegyezzük: elérte-e a blastocysta állapotot (blastocyst: 1, ha elérte, 0, ha nem dichotom vagy más néven dummy változó), a kétcellás állapotig tartó időt (time2c, folytonos), a kétcellástól a háromcellásig tartó időt (D3C2C, folytonos), fragmentálódott-e (fragmented: 1, ha igen, 0, ha nem, dichotom).

Biomatematika (SZIE ÁOTK, 2011. tavasz) 15 A célváltozó a blastocyst, folytonos kovariánsok a time2c és a D3C2C magyarázó változók, fragmented pedig kétszintű faktor (amit azonban rögtön dummy változó formájúra írtunk át). Az adatokat táblázatba rendeztük, melyben minden embriónak egy sor és minden változónak egy oszlop felel meg: embryo id time2c D3C2C fragmented blastocyst 1 1556 1254 0 1 2 1355 1164 0 1 3 1436 1605 0 0 4 1355 1295 0 1 5 1496 1705 0 0 6 1536 1374 1 0 7 1294 1221 1 1 8 1424 1302 0 1

A regressziós egyenlet Biomatematika (SZIE ÁOTK, 2011. tavasz) 16 logit( P(blastocyst=1) ) = 0 + 1 time2c + 2 D3C2C + 3 fragmented Valójában két regressziós egyenletről van szó, ugyanúgy, mint az ANCOVA modellnél (vö. 11. előadás): logit( P(blastocyst=1) ) = 0 + 3 0 + 1 time2c + 2 D3C2C a nem fragmentálódott embriókra, logit( P(blastocyst=1) ) = 0 + 3 a fragmentálódottakra. + 1 time2c + 2 D3C2C Az egyenlet skálája logaritmusos, ezért a blastocysta oddsza exp( 3 )-szeres a fragmentálódott embriókra a nem fragmentálódottakhoz képest. (Azt gondoljuk, hogy az oddsz csökken, ezért 3 ra negatív értéket várunk.)

D3C2C Biomatematika (SZIE ÁOTK, 2011. tavasz) 17 Vizsgáljuk meg a kapcsolatot először grafikusan! Graphs >> XY conditioning plot 2200 2000 1800 1600 1400 1200 nem fragmentálódott nem érte el elérte 1100 1200 1300 1400 1500 1600 1100 1200 1300 1400 1500 1600 time2c fragmentálódott Minél rövidebb a 2C-ig, illetve a 2C-től a 3C-ig terjedő időszak, annál nagyobb a blastocysta valószínűsége. A fragmentálódás csökkenti a valószínűséget, bár ezt nehéz a grafikonról megítélni, mert kevés a fragmentálódott embrió.

Biomatematika (SZIE ÁOTK, 2011. tavasz) 18 A modell illesztéséhez válasszuk a Statistics >> Fit models >> Generalized linear model funkciót. A párbeszéd-panelt az alábbi módon állítsuk be:

Biomatematika (SZIE ÁOTK, 2011. tavasz) 19 Az eredmény: Estimate Std. Error z value Pr(> z ) (Intercept) 60.752853 16.139927 3.764 0.000167 *** time2c -0.022677 0.007294-3.109 0.001878 ** D3C2C -0.018798 0.004987-3.769 0.000164 *** fragmented -3.413947 1.281424-2.664 0.007718 ** Amit kaptunk, formailag pontosan ugyanolyan, mint az ANCOVA vagy a lineáris regresszió eredménytáblája. A különbség az értelmezésben van. Ha a 2C állapot eléréséig tartó idő (time2c) egy perccel több, akkor a blastocysta állapot elérésének oddsza exp(-0.022677) 0.978- szeresére változik. Reálisabb és könnyebben elképzelhető, ha a 10 perccel több idő hatását számítjuk ki: ekkor az oddsz exp(10 (-0.022677)) 0.80-szoros. A csökkenés szignifikáns, p=0.001878.

Biomatematika (SZIE ÁOTK, 2011. tavasz) 20 Ha a 2C-től 3C-ig tartó idő (D3C2C) 10 perccel megnő miközben a többi magyarázó változó ugyanaz marad, akkor a blastocysta állapot elérésének oddsza exp(-0.18798) 0.83-szorosára csökken. Ha az embrió a fejlődése közben fragmentálódik, akkor a blastocysta állapot elérésének oddsza drasztikusan, exp(-3.413947) 0.03-szeresére csökken. Vegyük azért figyelembe, hogy a standard hiba nagy, a csökkenés 95%-os konfidenciaintervalluma exp(-3.41 ± 1.96 1.28) [0.003, 0.41]. Ezért, bár a csökkenés szignifikáns, elképzelhető, hogy populációs mértéke csak 0.41-szeres. Az általánosított lineáris modellek diagnosztizálása jóval nehezebb, mint a lineáris regresszió ANOVA ANCOVA modelleké. Az R lehetőséget ad ugyan a grafikus modellvizsgálatra, de ez inkább csak a kiugró értékek, torzító pontok kiszűrésére elegendő.

Std. deviance resid. 0.0 1.0 Std. Pearson resid. -4 0 2 4 Residuals -2 0 2 Std. deviance resid. -2 0 2 Biomatematika (SZIE ÁOTK, 2011. tavasz) 21 A menüből válasszuk a Models >> Graphs >> Basic diagnostic plots funkciót: glm(blastocysta ~ time2c + D3C2C + fragmented) Residuals vs Fitted 17 15 59-20 -15-10 -5 0 5 10 Predicted values Scale-Location 1759 15-20 -15-10 -5 0 5 10 Predicted values 15 59 Normal Q-Q -2-1 0 1 2 Theoretical Quantiles Residuals vs Leverage 17 Cook's distance 0.00 0.10 0.20 0.30 Leverage 15 93 17 1 0.5 0.5 1 A reziduumok szórása nem kell, hogy homogén legyen, eloszlása sem szükségképpen normális. Néhány kiugró érték előfordul a bal felső reziduumplot-on. A jobb alsó ábráról látszik, hogy ezek nem torzító pontok.

Biomatematika (SZIE ÁOTK, 2011. tavasz) 22 Van azonban egy egyszerű módszer, amivel könnyen vizsgálható a logisztikus regresszió illeszkedése. Csoportosítsuk a 2C-ig és a 2C-3C-ig tartó időszakokat mondjuk 300 percenként, adjuk össze a csoportokban megfigyelt blastocystás embriók számát (megfigyelt gyakoriság) és a blastocysta modell szerinti valószínűségeit (várt gyakoriság). Ha e két érték minden csoportban jó egyezést mutat, akkor a modell jól illeszkedik az adatokhoz. Illesztett valószínűségek: > embryo$expected = fitted(glmmod) Csoportosítás: > embryo$bintime2c = with(embryo, round(time2c/300)*300) > embryo$bind3c2c = with(embryo, round(d3c2c/300)*300)

Biomatematika (SZIE ÁOTK, 2011. tavasz) 23 Összegzés, megfigyelt és várt gyakoriságok: > aggregate(embryo[,c("blastocyst","expected")], by=list(bintime2c=embryo$bintime2c, BinD3C2C=embryo$BinD3C2C, fragmented=embryo$fragmented), function(x) round(sum(x),2)) Bintime2C BinD3C2C fragmented blastocyst expected 1 1200 1200 0 16 15.99 2 1500 1200 0 24 24.52 3 1200 1500 0 8 7.61 4 1500 1500 0 14 14.40 5 1200 1800 0 0 0.34 6 1500 1800 0 1 0.15 7 1200 2100 0 0 0.00 8 1200 1200 1 1 1.00 9 1500 1200 1 1 1.01 10 1200 1500 1 4 3.98 11 1500 1500 1 0 0.01 12 1500 2100 1 0 0.00 Az illeszkedés minden csoportban jó!

Biomatematika (SZIE ÁOTK, 2011. tavasz) 24 Érdemes a magyarázó változók szóródási diagramján ábrázolni a blastocysta valószínűségének szintvonalait ezek egyenesek lesznek, ami kifejezi a modell lineáris jellegét library(graphics); contour(...):

Biomatematika (SZIE ÁOTK, 2011. tavasz) 25 A statisztika megalapozója, tudománnyá szervezője, a kurzus során tanultak nagy részének felfedezője Sir Ronald Aymler Fisher angol statisztikus, matematikus és biológus volt (1890-1962).