Logisztikus regresszió

Hasonló dokumentumok
Logisztikus regresszió október 27.

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Likelihood, deviancia, Akaike-féle információs kritérium

Least Squares becslés

Regressziós vizsgálatok

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Logisztikus regresszió

Többváltozós lineáris regressziós modell feltételeinek

Logisztikus regresszió

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Korreláció és lineáris regresszió

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Bevezetés a Korreláció &

Regresszió számítás az SPSSben

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

π = P(y bekövetkezik)

Mérési adatok illesztése, korreláció, regresszió

A nyelvészeti kísérletekben egy személytől szinte mindig többféle. Ismert módszer az ismételt méréses ANOVA, ahol a független

Adatok statisztikai értékelésének főbb lehetőségei

Diszkriminancia-analízis

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

(Independence, dependence, random variables)

[Biomatematika 2] Orvosi biometria

Több valószínűségi változó együttes eloszlása, korreláció

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Túlélés elemzés október 27.

Matematikai geodéziai számítások 6.

Túlélés analízis. Probléma:

ÚJDONSÁGOK A MINITAB STATISZTIKAI SZOFTVER ÚJ KIADÁSÁNÁL (MINITAB 18)

Matematikai geodéziai számítások 6.

Segítség az outputok értelmezéséhez

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

AZ ÁLTALÁNOSÍTOTT LINEÁRIS MODELL ÉS BIZTOSÍTÁSI ALKALMAZÁSAI

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Typotex Kiadó. Tartalomjegyzék

Varianciaanalízis 4/24/12

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Faktoranalízis az SPSS-ben

Faktoranalízis az SPSS-ben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Egy és többváltozós logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

A valószínűségszámítás elemei

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Az első számjegyek Benford törvénye

Idősorok elemzése előadás. Előadó: Dr. Balogh Péter

Statisztika I. 13. előadás Idősorok elemzése. Előadó: Dr. Ertsey Imre

BIOMETRIA_ANOVA_2 1 1

KISTERV2_ANOVA_

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Többváltozós lineáris regresszió 3.

Biomatematika 2 Orvosi biometria

: az i -ik esélyhányados, i = 2, 3,..I

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Normális eloszlás tesztje

Biomatematika 2 Orvosi biometria

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Gyakorló feladatok. Az alábbi feladatokon kívül a félév szemináriumi anyagát is nézzék át. Jó munkát! Gaál László

1. ábra: Magyarországi cégek megoszlása és kockázatossága 10-es Rating kategóriák szerint. Cégek megoszlása. Fizetésképtelenné válás valószínűsége

STATISZTIKA. Mit nevezünk idősornak? Az idősorok elemzésének módszertana. Az idősorelemzés célja. Determinisztikus idősorelemzés

A valószínűségszámítás elemei

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

6. előadás - Regressziószámítás II.

Minimum követelmények matematika tantárgyból 11. évfolyamon

6. Folytonosság. pontbeli folytonosság, intervallumon való folytonosság, folytonos függvények

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

A többváltozós lineáris regresszió III. Főkomponens-analízis

Kutatásmódszertan és prezentációkészítés

Adatbányászati szemelvények MapReduce környezetben

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

[Biomatematika 2] Orvosi biometria

Korrelációs kapcsolatok elemzése

Számítógépes döntéstámogatás. Statisztikai elemzés

HÁZI DOLGOZAT. Érmefeldobások eredményei és statisztikája. ELTE-TTK Kémia BSc Tantárgy: Kémia felzárkóztató (A kémia alapjai)

[Biomatematika 2] Orvosi biometria

Biomatematika 13. Varianciaanaĺızis (ANOVA)

1. Gauss-eloszlás, természetes szórás

1. Lineáris differenciaegyenletek

Lineáris regressziós modellek 1

Szövegértés. Borsos Miklós Általános Iskola OM azonosító: Telephelyi jelentés Telephely kódja: 003. Általános iskola, 6.

FIT-jelentés :: Klebelsberg Kuno Általános Iskola és Gimnázium 1028 Budapest, Szabadság u. 23. OM azonosító: Telephely kódja: 001

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Ismételt méréses multifaktoriális varianciaanaĺızis (repeated measures MANOVA) szeptember 19.

Átírás:

Logisztikus regresszió

Bekövetkezés esélye Valószínűség (P): 0 és 1 közötti valós szám, az esemény bekövetkezésének esélyét fejezi ki. Fej dobásának esélye: 1:2 = 1 2 = 0,5. Odds/esélyérték (O): a tét hányszorosa lesz a nyeremény, vagyis a nyerés esélye. Azaz: hányszor akkora a valószínűsége annak, hogy valami bekövetkezik, mint az, hogy nem. Ha fejre fogadok, a nyerés esélye: 1:1 = 1 1 = 1. Ha vesztek, 1-et vesztek, ha nyerek, 1-et nyerek. Értékek: 0 és között. Előnye: tartalmazza a megfigyelések számát. Logit (L): az odds értékének e-alapú logaritmusa. Értéke 1-es odds-ra 0, 3-asra 1,99, 0,33-ra 1,99. A szélső értékei és. Előnye: nagyobb számértéket kisebb számmal lehet kifejezni.

Matematikai összefüggések P 0 0,01 0,1 0,5 0,9 0,99 1 O 0 0,0101 0,111 1 9 99 L 4, 60 2, 20 0 2,20 4,60 O = P 1 P, P = O 1+O L = ln(o) = ln( P 1 P ), ami az Euler-féle számot veszi bázisul. R-ben 2-es logaritmus: log2(), 10-es: log10(), e-alapú log(). Logit vagy log odds: a valószínűségi érték transzformálása úgy, hogy bármilyen értéket felvehessen, ne csak 0 és 1 közöttit. A logisztikus modellben nincs hibaterminus és variancia.

Logisztikus regressziós modell paremétereinek becslése: legnagyobb valószínűség (maximum likelihood), hasonlóan a lineáris regresszió legkisebb négyzetek által meghatározott regressziós egyenes becsléséhez. Itt: azon paraméterek megtalálása, amelyek mellett legvalószínűbb, hogy éppen a megfigyelt értékeket kapjuk. Illeszkedés jóságát adja meg, azaz az egyes adatpontok összes valószínűsége. Generalised linear models: a modell értékeinek visszavezetése lineáris értékekre egy összekötő függvényen keresztül. Itt a függvény L = ln( P 1 P ).

Logisztikus függvény Példa: magyar á és a magánhangzó közötti átmenet az 1. és 2. formáns távolságának lépésenkénti változtatásával. Kérdés: 1. hol van a kategóriahatár a két hang között, 2. milyen éles a kategóriahatár? Döntés rövid és hosszú /a/ között RÖVID válasz gyakorisága 0 50 100 150 200 250 1 2 3 4 5 6 7 8 9 centralizáltság mértéke

Lehetséges alkalmazások: Táblázatba rendezett adatok gyakoriságokkal és binomiális adatokkal, pl. horkoló, dohányzó és túlsúlyos személyek között mekkora arányban fordul elő magas vérnyomás, szemben a nem horkoló, de dohányzó és túlsúlyos személyekkel stb. glm(...,family="binomial") táblázatban összefoglalt adatokra. Bináris döntések, pl. szómemorizálási feladat szófajok szerint: előfordult-e egy adott szó egy adott szövegben. lrm() az rms csomagban, ha soronként egy megfigyelésünk van. Kevert modellek alkalmazása manipulált körülmények között, például mész méz döntés, ha a frikatíva zöngésségét 0 és 100% között manipuláljuk 11 lépésben. lmer(..., family="binomial"), lme4 csomag. Példák: logreg.txt

summary(glm()) Deviance residuals: elvárt megfigyelésektől való eltérés pozitív és negatív irányba, hasonlóan a reziduálisokhoz a lineáris modelleknél. Minél nagyobb az eltérés, annál gyengébb a modell illeszkedése. Dispersion parameter for binomial family taken to be 1: a logisztikus regressziós modell nem tartalmazza a varianciát, hiszen cellánként egy értékünk van. Residual deviance: egy χ 2 eloszlásra illesztett érték, 4-es szabadsági fokra 9,49-es határértékkel 5%-os konfidenciahatár esetén, tehát a modell jósága bőven megfelelő. Number of Fisher Scoring iterations: 4: modellillesztések száma, amik után a jelenlegi output létrejött. Default maximum: 25.

Faktorhatások értelmezése summary(h,corr=t): ha az egyes faktorok közötti korreláció alacsony, a nélkülük számolt modell nem térne el szignifikánsan a jelenlegitől. Mivel a z-érték alapján a dohányzás hatása nem szignifikáns, lehet vele egyszerűsíteni a modellt.

Példa Baayen 2008, Logistic regression c. fejezet, languager csomag, english adatmátrix. Lexikális döntés: a képen látható alak létező szó-e? english$correctlexdex: 30-ból hány ember azonosította a szót létező szóként. Milyen nyelvi kategóriák befolyásolják a szófelismerést? Hogyan függenek össze a felismerési adatok a RTlexdec változóban tárolt reakcióidőkkel?

GLM soronkénti adatokra Ha nem gyakorisági táblázatokkal dolgozunk, hanem egy adat = egy sor: lrm() függvény a rms csomagból. Baayen példája: regularity adatmátrix a languager csomagból. Holland szavak szabályos és szabálytalan ragozása és az ezt befolyásoló potenciális faktorok (gyakoriság, valencia stb.). h = lrm(regularity InflectionalEntropy+Valency,regularity) Eredmények megtekintése NEM summary() függvénnyel, hanem anova()-val vagy modellobjektum nevének beírásával, itt h.

Generalised linear mixed models Logisztikus regresszió számítása bináris vagy kategoriális (k = 2) adatokra random hatással. Összehasonĺıtás alapja a lineáris kevert modellekhez hasonlóan: intercept (k) és meredekség (m) és ennek alapján inflexiós pont ( k/m) minden egyes random hatásként definiált egységre (beszélő, item stb.). Perception of voicing in /s/ /z/ Adatok: devoice.rdata probability of VOICED response 0.0 0.2 0.4 0.6 0.8 1.0 mean inflection point: 30.08 0 20 40 60 80 100 proportion of voicing %

h = lmer(response prop.voice+(1+prop.voice subj), +family="binomial",data=devoice) Görbe ábrázolása a coef(h) függvényből kinyert k és m együtthatók alapján. Összes eredmény ábrázolása átlagolással. curve(exp(mean(d.coef$m)*x+mean(d.coef$k))/ +(1+exp(mean(d.coef$m)*x+mean(d.coef$k))), +xlim=c(0,100),ylim=c(0,1))