Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 1 Likelihood, deviancia, Akaike-féle információs kritérium Likelihood függvény Az adatokhoz paraméteres modellt illesztünk. A likelihood függvény a megfigyelt adatok valószínűsége a modell lehetséges paramétereinek függvényében. X: adatok vektora, θ=(θ 1, θ 2,, θ p ): paraméterek vektora, L(X, θ): likelihood függvény.
Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 2 Példa: Kecsegéket fogtunk egy folyóból. Három különböző, azonos méretű kvadrátban egymástól függetlenül 5, 3 és 2 kecsegét találtunk. Feltesszük, hogy a gyakoriságok λ paraméterű Poisson-eloszlásból származnak. A megfigyelt adatok valószínűsége L 5, 3, 2, λ = λ5 5! e λ λ3 3! e λ λ2 2! e λ. Maximum likelihood becslés Az a paramétervektor, amely mellett a likelihood függvény maximális. A likelihood függvény helyett általában annak logaritmusát, az ún. loglikelihood függvényt maximalizáljuk. l(x, θ) = ln( L(X, θ) )
Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 3 A példában a loglikelihood függvény l λ, 5, 3, 2 = 10ln λ 3λ ln(5! 3! 2!). Ez ott lehet maximális, ahol a λ szerinti deriváltja zérus. A derivált 10 10 10 3, ennek zérushelye λ =. A második derivált λ 3 negatív, tehát a függvénynek ezen a helyen maximuma van, vagyis λ = 10 tényleg maximum likelihood becslés. 3 A maximum likelihood becslés általában aszimptotikusan optimális abban az értelemben, hogy nagy minták, sok adat esetén ennek van a lehető legkisebb standard hibája. λ 2
Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 4 Általánosított lineáris modellek esetén a modell egyenlete g EY = β 0 + β 1 X 1 + + β p X p. Az i-ik megfigyelt adat Y i, ami az X i1, X i2,, X ip magyarázó változókhoz tartozik. A modell adatvektora (Y 1,, Y n ), paramétervektora (β 0, β 1,, β p ), likelihood-függvénye L(Y 1,, Y n, β 0, β 1,, β p ) alakú. A g linkfüggvény ismeretében a likelihood-függvény képletszerűen felírható, de ezt nem tanuljuk. (A magyarázó változók nem adatok, hanem olyan jellemzők, amik mellett az adatokat megfigyeljük. Ezért értékeik valószínűségei nem szerepelnek a likelihood-függvényben.) Telített (saturated) a modell, ha a paraméterek száma megegyezik a megfigyelések számával, p + 1 = n. A nullmodell a g EY = β 0, csak a konstans (intercept) szerepel benne.
Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 5 Telített modell esetében a paraméterek maximum likelihood becslése mellett a modell szerinti várható értékek (expected values) és a megfigyelt értékek (observed values) egybeesnek. A telített modell tehát pontosan tükrözi az adatokat, lényegkiemelést nem tartalmaz. Szerepe annyi, hogy hozzá viszonyítjuk a többi modellt. Minden modell része a telített modellnek abban az értelemben, hogy benne bizonyos magyarázó változóknak, interakcióknak megfelelő együtthatók hiányoznak, vagyis értékük nulla. Ezért a modellek loglikelihood-értékének maximuma (=a maximum likelihood becslés melletti loglikelihood-érték) nem nagyobb a telített modell loglikelihood-értékének maximumánál
Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 6 (=a maximum likelihood becslés melletti loglikelihoodértéknél). Egy modell devianciája -2-szer a loglikelihood-függvény maximuma. A modell devianciája mínusz a telített modell devianciája a reziduális deviancia. A nullmodell devianciája mínusz a telített modell devianciája a nulldeviancia. Könnyen látható, hogy a reziduális deviancia és a nulldeviancia nem lehet negatív és a reziduális deviancia nem nagyobb a nulldevianciánál. (Ugyanakkor egy modell devianciája lehet negatív.) Általában vizsgálhatjuk, hogy egy szűkebb modell devianciája mennyivel nagyobb egy azt magában foglaló bővebb modell devianciájánál. Ha a bővebb modell csak véletlenszerűen, nem
Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 7 szisztematikusan különbözik a szűkebbtől, akkor a devianciák különbsége olyan χ 2 -eloszlású valószínűségi változó, melynek szabadsági foka a két modell paraméterei számának különbsége. Ez lehetővé teszi egymásba ágyazott modellek ANOVA-val történő összehasonlítását. Csak ugyanolyan linkfüggvényű és egymásba ágyazott modellek hasonlíthatók össze ANOVA-val! Egy logisztikus regressziós és egy Poisson-regressziós modell például nem hasonlítható össze. Egy Poisson és egy kvázi-poisson se! Az Akaike-féle információs kritérium (AIC) a modell devianciája plusz a modell paramétereinek kétszerese.
Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 8 Egy jól illeszkedő modell devianciája kicsi, de ha túl sok paraméter kerül a modellbe, akkor a telített modell felé közelítünk és a modell lényegkiemelő szerepe csökken. Az Akaike-féle információs kritérium a két ellentétes hatást kiegyensúlyozza. Egy jól illeszkedő, nem túlillesztett modell Akaike-féle információs kritériuma kicsi. A stepaic R-függvény egymásba ágyazott modellek közül az AIC minimalizálásával automatikusan kiválaszt egy modellt. Ez általában jó, vagy közel van az optimálishoz. Ha két egymásba ágyazott modell között 2-nél kevesebbel tér el AIC, akkor a két modell nem különbözik lényegesen.
Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 9 Modellválasztáskor figyeljünk arra is, hogy a magyarázó változók ne legyenek egymással erős kapcsolatban. Ezt a vif függvénnyel ellenőrizhetjük. Természetesen a választott modellnek megfelelően illeszkednie is kell az adatokhoz. Attól, hogy a reziduális deviancia és/vagy az AIC kicsi, még gyakran előfordul, hogy a modell rosszul illeszkedik!