Fogalom STATISZTIKA 8 Előadás Többszörös lineáris regresszió Egy jelenség vizsgálata során általában az adott jelenséget több tényező befolyásolja, vagyis többnyire nem elegendő a kétváltozós modell elemzése Szükség van további olyan magyarázó változók vizsgálatára, amik a jelenség egzaktabb leírását teszik lehetővé Azokat a kapcsolatokat, amelyeknél az egyik tényezőre több másik tényező is hatással van többszörös kapcsolatoknak nevezzük, a kapcsolatok mennyiségi jellemzőinek, illetve szorosságának vizsgálatát pedig többszörös korreláció- és regresszió-analízisnek hívjuk A standard lineáris modell A standard lineáris regressziós modell mátrixalgebrai jelölése ( = = 11 12 21 22 nm = = Eredménytáblázat Alkalmazhatósági feltételek Koefficiensek Standard hiba t érték p-érték Alsó 95% Felső 95% Ugyanazok, mint a kétváltozós regressziónál Tengelymetszet 1,234563411 3,866114742 0,31932922 0,750955-6,552191393 9,021318 Nepesseg 2,23675E-05 9,05174E-06 2,47107595 0,017323 4,1364E-06 4,06E-05 Analfabetak 4,14283659 0,874353193 4,73817288 2,19E-05 2,381798861 5,903874 Jovedelem 1,61062E-06 1,70924E-05 0,09422998 0,925345-3,28153E-05 3,6E-05 Fagyos_napok 0,000581306 0,01005366 0,05782029 0,954148-0,019667806 0,02083 1
Miért nem teljesülhetnek a feltételek? Multikollinearitás: a magyarázó változók nem lineárisan függetlenek Autokorreláció: a hibatagok lineárisan nem függetlenek Heteroszkedaszticitás: a hibák szórásnégyzete nem konstans Multikollinearitás (Ragnar Frisch) A standard lineáris regressziós modell feltételezi, hogy a magyarázó változók egymástól lineárisan függetlenek Ha azonban valamelyik magyarázó változó kifejezhető a többi tényező lineáris kombinációjaként (azaz függvényszerű kapcsolatban áll a többi magyarázó változóval) akkor multikollinearitásról beszélünk Nagymértékű redundáns információk Ha a magyarázó változók lineárisan nem függetlenek A becslés és az előrejelzés torzított marad A regressziós együtthatók standard hibái nőnek A becsléseink bizonytalanná válnak A multikollinearitás mérése szintetikus mutatóval A magyarázó változók determinációs együtthatóinak összege, ha megegyezik a többszörös determinációs együttható értékével, akkor nem áll fenn a magyarázó változók között multikollinearitás Az egyes magyarázó változók hatásainak elkülönítése nem lehetséges VIF (Variance Inflation Factors) Varianciainflációs tényező azt mutatja, hogy a j- edik változó becsült együtthatójának varianciája hányszorosa annak, ami a multikollinearitás teljes hiányakor lenne Ezért ezt a mutatószámot a j-edik változóhoz tartozó variancianövelő tényezőnek nevezzük VIF Minimális értékét, az 1-et akkor veszi fel, amikor a j-edik magyarázó változó nem korrelál a többivel Ahogy nő az R 2 j, úgy nő a VIF értéke is, jelezve, hogy a kollinearitás hányszorosára növeli a varianciával mért becslési hibát Ha R 2 j =1 a VIF mutató nem értelmezhető, ez a teljes vagy extrém multikollinearitás A VIF reciprokát toleranciamutatónak nevezik 2
VIF meghatározása A magyarázó változók korrelációs mátrixának inverzéből A főátló elemei Nepesseg Analfabetak Jovedelem Fagyos_napok Nepesseg 1,25 0,08-0,35 0,55 Analfabetak 0,08 2,17 0,63 1,34 Jovedelem -0,35 0,63 1,35 0,00 Fagyos_napok 0,55 1,34 0,00 2,08 VIF értékei 1 2 gyenge 2 5 erős (zavaró) 5 felett nagyon erős (káros) multikollinearitás Multikollinearitás csökkentése Változók törlése Ridge regresszió használata Ez a többszörös regresszió-analízis olyan változata, amely kezeli a multikollinearitást Autokorreláció A hibatagok lineárisan nem függetlenek Az autokorreláció különböző rendű lehet, attól függően, hogy a hibatag i-edik értéke melyik értékkel van kapcsolatban Ha a hibatag i-edik értéke közvetlenül az előtte lévő értékkel áll korrelációs kapcsolatban, akkor elsőrendű autokorreláció-ról beszélünk Az elsőrendű autokorreláció modellje: Az elsőrendű autokorreláció mérése Durbin-Watson teszt: Durbin-Watson teszt döntési táblája Alternatív hipotézis Ho: ró=0 Elfogadjuk Elutasítjuk Nincs döntés Ró>0 d>du d<dl dl d du Ró<0 d<4-du D>4-dL 4-dL d 4-dU Lineáris autokorrelációs együttható: Ha a teszt alapján nem tudunk döntést hozni, vagyis a próbafüggvény értéke a semleges zónák valamelyikébe esik, akkor több lehetőséggel is élhetünk: A modell paramétereinek a becslését újra el kell végezni, de nagyobb minta alapján Meg kell változatni a szignifikancia-szintet úgy, hogy döntési helyzetbe kerüljünk Más próbafüggvényt kell alkalmazni 3
A Durbin-Watson teszt döntési szabálya Heteroszkedaszticitás Heteroszkedaszticitás tesztelése Ki kell számítani külön az egyes magyarázó változóknak, illetve a becsült eredményváltozóknak a reziduumok abszolút értékeivel való szorosságát jellemző lineáris korrelációs együtthatót, amelyek közül a legnagyobb abszolút értékű kerül tesztelésre Ha a nullhipotézist elvetjük, akkor a modell heteroszkedasztikusnak tekinthető A többszörös lineáris regressziószámítás lépései 1 Modellalkotás, változók bevonása 2 Illeszkedés vizsgálata 3 Korrelációs index, determinációs együttható 4 Variancia-analízis, F-próba 5 Együtthatók t-próbája 6 Validálás Korrelációs mátrix Multikollinearitás Gyilkossag Nepesseg Analfabetak Jovedelem Fagyos_napok Gyilkossag 1,00 0,34 0,70-0,23-0,54 Nepesseg 0,34 1,00 0,11 0,21-0,33 Analfabetak 0,70 0,11 1,00-0,44-0,67 Jovedelem -0,23 0,21-0,44 1,00 0,23 Fagyos_napok -0,54-0,33-0,67 0,23 1,00 M 1 =0,39 4
Illeszkedésvizsgálat Gyilkossag = Nepesseg + Analfabetak + Jovedelem + Fagyos_napok Együtthatók: Estimate Std Error t value Pr(> t ) (Intercept) 1,235e+00 3,866e+00 0,319 0,7510 Nepesseg 2,237e-05 9,052e-06 2,471 0,0173 * Analfabetak 4,143e+00 8,744e-01 4,738 2,19e-05 *** Jovedelem 1,611e-06 1,709e-05 0,094 0,9253 Fagyos_napok 5,813e-04 1,005e-02 0,058 0,9541 --- Signif codes: 0 *** 0,001 ** 0,01 * 0,05 0,1 1 Residual standard error: 2,535 on 45 degrees of freedom Multiple R-squared: 0,567, Adjusted R-squared: 0,5285 F-statistic: 14,73 on 4 and 45 DF, p-value: 9,133e-08 Magyarázó változók bevonása, törlése 1 Lépésenkénti (Stepwise) regresszió Fordward Backward Vegyes módszer (mixed) 2 Hatványhalmaz regresszió (All subset regresszió) Halmaz részhalmazainak száma Hatványhalmaz regresszió 2 = Pl négyelemű halmaz Részhalmaz Száma Egy elemű 4 Két elemű 6 Három elemű 4 Négy elemű 1 A legjobb modell kritériumai Nem létezik egyetlen legjobb modell mérőszám A végső modell kiválasztása a becslési pontosság és az egyszerűség kompromisszuma Ockham borotvája filozófiai elv Modellek vizsgálata Beágyazott modellek vizsgálata ANOVAval AIC (Akaike information criterion) A kisebb érték jelenti az adekvátabb modellt Nem feltétel, hogy a modell beágyazott legyen 5
Beágyazott modellek 1 Modell Gyilkosságok=a+b 1 Analfabéták+b 2 Lakosság 2 Modell Gyilkosságok=a+b 1 Analfabéták+b 2 Lakosság +b 3 Jövedelem+b 4 Fagyos_napok AIC (Akaike, 1973) = ln / +2 Ahol n: a minta elemszáma RSS: a maradékok eltérés-négyzetösszege P: a modell paramétereinek száma (konstans is) Mérések, megfigyelések korrigálása 1 Töröljük a befolyásos értékeket 2 Transzformáljuk a változókat 3 Töröljünk vagy adjunk hozzá változókat 4 Használjunk másik regressziós modellt 1 Megfigyelések törlése A kiugró értékek törlése sokszor javít a normális eloszlás feltételén A befolyásos értékek törlése után a modellt újból becsülni kell Az újabb diagnosztika lehet, hogy újabb befolyásos vagy kiugró értékeket jelez Ekkor addig kell ismételni a modell becslést, amíg elfogadható eredményt nem kapunk 2 Változók transzformálása 1 A modell nem teljesíti a normális eloszlást 2 A linearitás feltétele nem teljesül 3 Heteroszkedasztikus a modell 21 Nem normális eloszlás esetén A függő változó (y) transzformálása segíthet y értékét y λ értékére cserélhetjük Arány, hányados esetén logit transzformáció λ gyakori értékei: -2; -1; -0,5; 0,5; 2 vagy log(y) balra ferde eloszlás esetén EZ NEVEZIK BOX-COX TRANSZORMÁCIÓNAK 6
22 Nemlinearitás esetén A magyarázó változók (x) transzformálása segíthet A hatványkitevők becslése a 23 Heteroszkedasztikus modell esetén Függő változó (y) transzformációja, hatványkitevő keresése BOX-TIDWELL TRANSZFORMÁCIÓ 3 Változók törlése vagy hozzáadása Törlés Multikollinearitás VIF (variance inflation factor) változása 4 Egyéb modellek Multikollinearitás esetén ridge regresszió Sok kiugró vagy befolyásos érték esetén robusztus regresszió Nem normális eloszlás esetén nemparaméteres regresszió Nemlinearitás esetén nemlineáris regresszió Maradékok nem függetlenek többlépcsős regresszió A modell általánosíthatósága Hogyan működne a modellünk a valóságban, milyen pontos előrejelzést tehetünk vele? Kereszt validálás (crossvalidation) Különböző adatokon végezzük el a regressziós modell illesztését és a validációt Szigorúbb validálási eljárások Paraméterek becslése ( training sample ) Validáció ( hold-out sample ) 7
K-szoros kereszt-validáció Svájci bicska A teljes mintát k-számú véletlen mintára osztjuk A k számú alminták egy csoportja a validációt, a maradék k-1 csoportok kombinációja a modell optimalizálását szolgálja Amikor a k egyenlő n-nel, a megfigyelések számával, ezt nevezik az angol szakirodalomban jackknifing -nek Törölt maradékok = " () A magyarázó változók relatív jelentősége Standardizált regressziós együtthatók becslése Változókat standardizáljuk Standardizált együttható = Path koefficiens Standardizált regressziós együtthatók Estimate Std Error t value Pr(> t ) Nepesseg 0,270510 0,108274 2,498 0,0161 * Analfabetak 0,684050 0,142792 4,791 1,77e-05 *** Jovedelem 0,010724 0,112560 0,095 0,9245 Fagy_napok 0,008185 0,140019 0,058 0,9536 Std regressziós együttható értelmezése A magyarázó változó egy szórásnyi növekedése a függő változó szórását a standardizált regressziós együttható értékével növeli meg vagy csökkenti, attól függően, hogy milyen az előjele A többi magyarázó változó értéke ilyenkor állandó, nem változik Nincs tengelymetszet! 8
Több változó ábrázolása Háromdimenziós ábra Regressziós sík Több változó ábrázolása Háromdimenziós ábra Regressziós sík 9