Likelihood, deviancia, Akaike-féle információs kritérium

Hasonló dokumentumok
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Logisztikus regresszió október 27.

Least Squares becslés

Többváltozós lineáris regressziós modell feltételeinek

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

egyetemi jegyzet Meskó Balázs

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Statisztika elméleti összefoglaló

AZ ÁLTALÁNOSÍTOTT LINEÁRIS MODELL ÉS BIZTOSÍTÁSI ALKALMAZÁSAI

Logisztikus regresszió

A maximum likelihood becslésről

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Adatok statisztikai értékelésének főbb lehetőségei

Logisztikus regresszió

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Lineáris regressziós modellek 1

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

A L Hospital-szabály, elaszticitás, monotonitás, konvexitás

Logisztikus regresszió

1. ábra. 24B-19 feladat

Irányításelmélet és technika II.

Többváltozós lineáris regresszió 3.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztikai módszerek a skálafüggetlen hálózatok

Line aris f uggv enyilleszt es m arcius 19.

A +Q töltés egy L hosszúságú egyenes szakasz mentén oszlik el egyenletesen (ld ábra ábra

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Q 1 D Q 2 (D x) 2 (1.1)

: az i -ik esélyhányados, i = 2, 3,..I

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Feladatok megoldásokkal az ötödik gyakorlathoz (Taylor polinom, szöveges szélsőérték problémák)

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Gazdasági matematika II. vizsgadolgozat megoldása, június 10

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

11. gyakorlat megoldásai

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

5. előadás - Regressziószámítás

A többváltozós lineáris regresszió III. Főkomponens-analízis

FIZIKAI KÉMIA II. házi dolgozat. Reakciókinetikai adatsor kiértékelése (numerikus mechanizmusvizsgálat)

Diagnosztika és előrejelzés

Differenciálegyenletek. Vajda István március 4.

11. gyakorlat megoldásai

Mesterséges Intelligencia I.

A negatív binomiális eloszlás paramétereinek becslése

Statisztika 1. zárthelyi dolgozat március 21.

Segítség az outputok értelmezéséhez

6. Folytonosság. pontbeli folytonosság, intervallumon való folytonosság, folytonos függvények

Megoldások. ξ jelölje az első meghibásodásig eltelt időt. Akkor ξ N(6, 4; 2, 3) normális eloszlású P (ξ

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Matematikai statisztika 4. gyakorlat, 2018/2019 II. félév

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI


Hipotézis vizsgálatok

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Tanulási cél Szorzatfüggvényekre vonatkozó integrálási technikák megismerése és különböző típusokra való alkalmazása. 5), akkor

Biometria gyakorló feladatok BsC hallgatók számára

LINEÁRIS MODELLBEN május. 1. Lineáris modell, legkisebb négyzetek elve

Számítógépes döntéstámogatás. Statisztikai elemzés

Nemlineáris programozás 2.

Többváltozós Regresszió-számítás

Adatmodellez es, f uggv enyilleszt es m arcius 12.

Matematika A1a Analízis

Matematikai statisztikai elemzések 6.

π = P(y bekövetkezik)

Megoldások MATEMATIKA II. VIZSGA (VK) NBT. NG. NMH. SZAKOS HALLGATÓK RÉSZÉRE (Kérjük, hogy a megfelelő szakot jelölje be!

Túlélés analízis. Probléma:

1. Példa. A gamma függvény és a Fubini-tétel.

Az első számjegyek Benford törvénye

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

MUNKAGAZDASÁGTAN. Készítette: Köllő János. Szakmai felelős: Köllő János január

A lineáris programozás alapfeladata Standard alak Az LP feladat megoldása Az LP megoldása: a szimplex algoritmus 2018/

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

A lineáris programozás alapfeladata Standard alak Az LP feladat megoldása Az LP megoldása: a szimplex algoritmus 2017/

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

f (M (ξ)) M (f (ξ)) Bizonyítás: Megjegyezzük, hogy konvex függvényekre mindig létezik a ± ben

Figyelem, próbálja önállóan megoldani, csak ellenőrzésre használja a következő oldalak megoldásait!

Regressziós vizsgálatok

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

Dr. Karácsony Zsolt. Miskolci Egyetem november

Függvények vizsgálata

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

y + a y + b y = r(x),

Általánosított lineáris modellek a biztosításban

Feladatok megoldásokkal a 9. gyakorlathoz (Newton-Leibniz formula, közelítő integrálás, az integrálszámítás alkalmazásai 1.

A mérési eredmény megadása

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Gépi tanulás a gyakorlatban. Lineáris regresszió

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

Feladatok és megoldások a 13. hétre

Autoregresszív és mozgóátlag folyamatok

Átírás:

Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 1 Likelihood, deviancia, Akaike-féle információs kritérium Likelihood függvény Az adatokhoz paraméteres modellt illesztünk. A likelihood függvény a megfigyelt adatok valószínűsége a modell lehetséges paramétereinek függvényében. X: adatok vektora, θ=(θ 1, θ 2,, θ p ): paraméterek vektora, L(X, θ): likelihood függvény.

Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 2 Példa: Kecsegéket fogtunk egy folyóból. Három különböző, azonos méretű kvadrátban egymástól függetlenül 5, 3 és 2 kecsegét találtunk. Feltesszük, hogy a gyakoriságok λ paraméterű Poisson-eloszlásból származnak. A megfigyelt adatok valószínűsége L 5, 3, 2, λ = λ5 5! e λ λ3 3! e λ λ2 2! e λ. Maximum likelihood becslés Az a paramétervektor, amely mellett a likelihood függvény maximális. A likelihood függvény helyett általában annak logaritmusát, az ún. loglikelihood függvényt maximalizáljuk. l(x, θ) = ln( L(X, θ) )

Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 3 A példában a loglikelihood függvény l λ, 5, 3, 2 = 10ln λ 3λ ln(5! 3! 2!). Ez ott lehet maximális, ahol a λ szerinti deriváltja zérus. A derivált 10 10 10 3, ennek zérushelye λ =. A második derivált λ 3 negatív, tehát a függvénynek ezen a helyen maximuma van, vagyis λ = 10 tényleg maximum likelihood becslés. 3 A maximum likelihood becslés általában aszimptotikusan optimális abban az értelemben, hogy nagy minták, sok adat esetén ennek van a lehető legkisebb standard hibája. λ 2

Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 4 Általánosított lineáris modellek esetén a modell egyenlete g EY = β 0 + β 1 X 1 + + β p X p. Az i-ik megfigyelt adat Y i, ami az X i1, X i2,, X ip magyarázó változókhoz tartozik. A modell adatvektora (Y 1,, Y n ), paramétervektora (β 0, β 1,, β p ), likelihood-függvénye L(Y 1,, Y n, β 0, β 1,, β p ) alakú. A g linkfüggvény ismeretében a likelihood-függvény képletszerűen felírható, de ezt nem tanuljuk. (A magyarázó változók nem adatok, hanem olyan jellemzők, amik mellett az adatokat megfigyeljük. Ezért értékeik valószínűségei nem szerepelnek a likelihood-függvényben.) Telített (saturated) a modell, ha a paraméterek száma megegyezik a megfigyelések számával, p + 1 = n. A nullmodell a g EY = β 0, csak a konstans (intercept) szerepel benne.

Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 5 Telített modell esetében a paraméterek maximum likelihood becslése mellett a modell szerinti várható értékek (expected values) és a megfigyelt értékek (observed values) egybeesnek. A telített modell tehát pontosan tükrözi az adatokat, lényegkiemelést nem tartalmaz. Szerepe annyi, hogy hozzá viszonyítjuk a többi modellt. Minden modell része a telített modellnek abban az értelemben, hogy benne bizonyos magyarázó változóknak, interakcióknak megfelelő együtthatók hiányoznak, vagyis értékük nulla. Ezért a modellek loglikelihood-értékének maximuma (=a maximum likelihood becslés melletti loglikelihood-érték) nem nagyobb a telített modell loglikelihood-értékének maximumánál

Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 6 (=a maximum likelihood becslés melletti loglikelihoodértéknél). Egy modell devianciája -2-szer a loglikelihood-függvény maximuma. A modell devianciája mínusz a telített modell devianciája a reziduális deviancia. A nullmodell devianciája mínusz a telített modell devianciája a nulldeviancia. Könnyen látható, hogy a reziduális deviancia és a nulldeviancia nem lehet negatív és a reziduális deviancia nem nagyobb a nulldevianciánál. (Ugyanakkor egy modell devianciája lehet negatív.) Általában vizsgálhatjuk, hogy egy szűkebb modell devianciája mennyivel nagyobb egy azt magában foglaló bővebb modell devianciájánál. Ha a bővebb modell csak véletlenszerűen, nem

Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 7 szisztematikusan különbözik a szűkebbtől, akkor a devianciák különbsége olyan χ 2 -eloszlású valószínűségi változó, melynek szabadsági foka a két modell paraméterei számának különbsége. Ez lehetővé teszi egymásba ágyazott modellek ANOVA-val történő összehasonlítását. Csak ugyanolyan linkfüggvényű és egymásba ágyazott modellek hasonlíthatók össze ANOVA-val! Egy logisztikus regressziós és egy Poisson-regressziós modell például nem hasonlítható össze. Egy Poisson és egy kvázi-poisson se! Az Akaike-féle információs kritérium (AIC) a modell devianciája plusz a modell paramétereinek kétszerese.

Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 8 Egy jól illeszkedő modell devianciája kicsi, de ha túl sok paraméter kerül a modellbe, akkor a telített modell felé közelítünk és a modell lényegkiemelő szerepe csökken. Az Akaike-féle információs kritérium a két ellentétes hatást kiegyensúlyozza. Egy jól illeszkedő, nem túlillesztett modell Akaike-féle információs kritériuma kicsi. A stepaic R-függvény egymásba ágyazott modellek közül az AIC minimalizálásával automatikusan kiválaszt egy modellt. Ez általában jó, vagy közel van az optimálishoz. Ha két egymásba ágyazott modell között 2-nél kevesebbel tér el AIC, akkor a két modell nem különbözik lényegesen.

Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 9 Modellválasztáskor figyeljünk arra is, hogy a magyarázó változók ne legyenek egymással erős kapcsolatban. Ezt a vif függvénnyel ellenőrizhetjük. Természetesen a választott modellnek megfelelően illeszkednie is kell az adatokhoz. Attól, hogy a reziduális deviancia és/vagy az AIC kicsi, még gyakran előfordul, hogy a modell rosszul illeszkedik!