Logisztikus regresszió október 27.

Hasonló dokumentumok
LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Logisztikus regresszió

Túlélés elemzés október 27.

Likelihood, deviancia, Akaike-féle információs kritérium

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Regressziós vizsgálatok

Regresszió számítás az SPSSben

Logisztikus regresszió

Egy és többváltozós logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

: az i -ik esélyhányados, i = 2, 3,..I

Logisztikus regresszió

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Bevezetés a Korreláció &

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Egy és (többváltozós) logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

Lineáris regresszió vizsgálata resampling eljárással

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Túlélés analízis. Probléma:

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

π = P(y bekövetkezik)

Korreláció és lineáris regresszió

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Sztochasztikus kapcsolatok

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Egy és (többváltozós) logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

Statisztika II. feladatok

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

BIOMETRIA_ANOVA_2 1 1

13. Túlélési analízis. SURVIVAL ANALYSIS Nyári Tibor Ph.D., Boda Krisztina Ph.D.

AZ ÁLTALÁNOSÍTOTT LINEÁRIS MODELL ÉS BIZTOSÍTÁSI ALKALMAZÁSAI

KISTERV2_ANOVA_

Diszkriminancia-analízis

6. Előadás. Vereb György, DE OEC BSI, október 12.

Az R statisztikai programozási környezet: az adatgyűjtéstől a feldolgozáson és vizualizáción át a dinamikus jelentéskészítésig

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria

y ij = µ + α i + e ij

Bevezetés a hipotézisvizsgálatokba

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Matematikai geodéziai számítások 6.

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Gyakorlat: Sztochasztikus idősor-elemzés alapfogalmai II. Egységgyök-folyamatok és tesztek. Dr. Dombi Ákos

A maximum likelihood becslésről

ÚJDONSÁGOK A MINITAB STATISZTIKAI SZOFTVER ÚJ KIADÁSÁNÁL (MINITAB 18)

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Többváltozós lineáris regresszió 3.

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Többváltozós lineáris regressziós modell feltételeinek

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

ELTE TáTK Közgazdaságtudományi Tanszék OKTATÁSGAZDASÁGTAN. Készítette: Varga Júlia. Szakmai felelős: Varga Júlia június

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Least Squares becslés

1., Egy területen véletlenszerűen kihelyezet kvadrátokban megszámlálták az Eringium maritimum (tengerparti ördögszekér) egyedeit.

Statisztikai módszerek a skálafüggetlen hálózatok

A klímaváltozás hatása a tartószerkezetekre és az építési szabványokra

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

PhEur Two-dose multiple assay with completely randomised design An assay of corticotrophin by subcutaneous injection in rats

Hipotézis vizsgálatok

1. (Sugár Szarvas fgy., 186. o. S13. feladat) Egy antikvárium könyvaukcióján árverésre került. = x = 6, y = 12. s y y = 1.8s x.

11.Négymezős táblázatok. Egyezés mérése: kappa statisztika Kockázat becslés: esélyhányados (OR) Kockázat becslés: relatív kockázat (RR)

Adatok statisztikai értékelésének főbb lehetőségei

Mérési hibák

Matematikai geodéziai számítások 6.

Az fmri alapjai Statisztikai analízis II. Dr. Kincses Tamás Szegedi Tudományegyetem Neurológiai Klinika

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Több laboratórium összehasonlítása, körmérés

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Több valószínűségi változó együttes eloszlása, korreláció

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Kabos Sándor. Térben autokorrelált adatrendszerek

Id függ preferenciaadatok modellezése. Berger Máté

Idősoros elemzés. Ferenci Tamás, január 7.

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Idősoros elemzés minta

A többváltozós lineáris regresszió III. Főkomponens-analízis

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

PDF created with FinePrint pdffactory Pro trial version Adott egy X folytonos változó, ami normális eloszlású.

Mérési adatok illesztése, korreláció, regresszió

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Matematikai geodéziai számítások 10.

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

A többváltozós lineáris regresszió 1.

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Segítség az outputok értelmezéséhez

Ökonometria gyakorló feladatok 1.

DÖNTÉSHOZATALI MODELLEZŐ ESZKÖZ TRANSZNACIONÁLIS ALKALMAZÁSA

Diagnosztika és előrejelzés

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

y ij e ij BIOMETRIA let A variancia-anal telei Alapfogalmak 2. Alapfogalmak 1. ahol: 7. Előad Variancia-anal Lineáris modell ltozó bontását t jelenti.

Statisztikai alapfogalmak a klinikai kutatásban. Molnár Zsolt PTE, AITI

Átírás:

Logisztikus regresszió 2017. október 27.

Néhány példa Mi a valószínűsége egy adott betegségnek a páciens bizonyos megfigyelt jellemzői (pl. nem, életkor, laboreredmények, BMI stb.) alapján? Mely genetikai polimorfizmusok hajlamosítanak egy adott betegségre vagy védenek attól? Randomizált kontrollált kísérletben a kezelés hatásosságát szeretnénk mérni, potenciális zavaró változók hatásának kiszűrésével.

Logisztikus regressziós modell p = esemény valószínűsége p = 1 1 + e β 0+β 1 X 1 + +β n X n p 1 p = e β 0+β 1 X 1 + +β n X n ln p 1 p = β 0 + β 1 X 1 + + β n X n

Logisztikus regressziós modell értelmezése odds X 1,, X n = p 1 p = e β 0+β 1 X 1 + +β n X n OR = odds X 1 + 1 odds(x 1 ) = e β 0+β 1 (X 1 +1)+ +β n X n e β 0+β 1 X 1 + +β n X n = = e β 1(X 1 +1) e β 1X 1 = e β 1

Általánosított lineáris modellek E Y = μ = g 1 (β 0 + β 1 X 1 + + β n X n ) g: link függvény

https://en.wikipedia.org/wiki/generalized_linear_model

Példa adat > df <- read.table("logreg_df.txt", header=t, quote="", sep="\t", as.is=f)

Logisztikus regresszió R-ben > fit <- glm( Outcome.1 ~ Age + Gender + Social + Stress + Height + Weight, data = df, family = "binomial" ) > summary( fit )

Eredmény

Deviance residuals d i = s i 2 y i log(p i ) + 1 y i log 1 p i s i = 1, ha y i = 1 1, ha y i = 0

Koefficiensek Estimate = β i Std. Error = A koefficiens standard hibája Z value = Estimate / Std. Error Pr(> z ) = A kapott Z value mennyire extrém standard normális eloszlást feltételezve

A modell jósága Null deviance = Mennyire magyarázza az adatainkat az üres modell Residual deviance = Mennyire magyarázza az adatainkat a változó(ka)t tartalmazó modell AIC = Akaike information criterion

Kategorikus változó referenciaértéke

Interakció vizsgálata

Interakció vizsgálata

Interakció vizsgálata fit.ni <- glm( Outcome.2 ~ Gender + Social, data = df, family = "binomial" ) summary( fit.ni ) fit.wi <- glm( Outcome.2 ~ Gender * Social, data = df, family = "binomial" ) summary( fit.wi ) library(scatterplot3d) attach(df) par(mfrow=c(1,2)) scatterplot3d(gender, Social, predict(fit.ni,type = "response"), color="red", cex.symbols = 2, zlab = "Probability", main="(no interaction)") scatterplot3d(gender, Social, predict(fit.wi,type = "response"), color="red", cex.symbols = 2, zlab = "Probability", main="(with interaction)") par(mfrow=c(1,1))

Interakció vizsgálata

Melyik modell a helyes? AIC, Akaike information criterion Statisztikai modellek relatív jóságának mérése, információelméleti alapon Mennyi információt veszítünk, ha az adott modellel reprezentáljuk azt a folyamatot, amely az adatot generálta? Relatív mérőszám, modellek összehasonlítása Paraméterek számával büntet => túlilleszkedés elkerülése AIC = 2k 2ln(L) k: paraméterek száma L: Likelihood, az adat valószínűsége az adott modellt feltéve

AIC használata AIC 1, AIC 2, AIC 3,, AIC R R számú modell AIC min : minimális AIC érték Annak valószínűsége, hogy az i. modell esetén legkisebb az információveszteség (azaz ez a modell a legjobb): exp 1 2 AIC min AIC i

Melyik modell a helyes? Példa. fit.ni <- glm( Outcome.2 ~ Gender + Social, data = df, family = "binomial" ) fit.wi <- glm( Outcome.2 ~ Gender * Social, data = df, family = "binomial" ) AIC (no interaction) = 1030.6 AIC (with interaction) = 1012.2 AIC min = AIC (with interaction) P(AIC (no interaction) a helyes modell) = = exp((aic (with interaction) - AIC (no interaction) )/2) ~= 0.0001

Egymással összefüggő prediktorok

Egymással összefüggő prediktorok

Egymással összefüggő prediktorok

Egymással összefüggő prediktorok

Egymással összefüggő prediktorok

Egymással összefüggő prediktorok Melyik modell helyes? Melyik változó hatása szignifikáns? Modell (Outcome.3 ~ ) AIC P(jobb modell, mint a legjobb) Szignifikáns változó Height 1258.7 ~ 0% Height Weight 1261.9 ~ 0% Weight Height + Weight 1216 ~ 0% Height, Weight Gender + Height + Weight 1140.9 ~ 17.4% Gender Gender 1137.4 legjobb Gender

Hasznos függvények summary(fit) # display results confint(fit) # 95% CI for the coefficients exp(coef(fit)) # exponentiated coefficients exp(confint(fit)) # 95% CI for exponentiated coefficients predict(fit, type="response") # predicted values residuals(fit, type="deviance") # residuals

Feladat: Outcome.4 változó vizsgálata Mely változók szignifikánsak? Melyik a legjobb modell? Van interakció? Táblázat előállítása: Koefficiensek (exp) 95% konfidencia intervallum (exp) p-érték Modell értelmezése?