Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Petrovics Petra Doktorandusz
Többváltozós lineáris regressziós modell x 1, x 2,, x p és y közötti kapcsolatot ábrázoló egyenes. Az y függ: x 1, x 2,, x p p db magyarázó változótól A véletlen ingadozásától (ε) β 0, β 1,, β p regressziós együtthatóktól. Y = β 0 + β 1 x 1 + β 2 x 2 + + β p x p +ε
A hibatagra vonatkozó feltételek 1. Várható értéke 0 M(ε) = 0 2. Varianciája konstans Var(ε) = σ 2 3. A hibatag értékei nem autokorreláltak. 4. Normális eloszlású valószínűségi változó.
A magyarázó változókra vonatkozó feltételek 1. Egymástól lineárisan függetlenek legyenek. (egyik magyarázó változót se lehessen a többi magyarázó változó lineáris kombinációjaként előállítani) 2. Értékeik rögzítettek legyenek, ne változzanak mintáról mintára. 3. Mérési hibát nem tartalmaznak. 4. Nem korrelálnak a hibatényezővel.
Standard lineáris regressziós modell Ahol az előbb említett feltételek teljesülnek. Amennyiben a mintabeli adatok nem igazolják a feltételek teljesülését, bonyolultabb modellre és becslési eljárásokra van szükség.
SPSS (Feladat) 10 véletlenszerűen kiválasztott vállalat adatai a következők: y - árbevétel x 1 -vagyon x 2 -létszám 1 35 54 98 2 27 52 120 3 42 50 95 4 47 58 145 5 53 82 184 6 45 72 106 7 61 120 240 8 58 108 175 9 65 92 165 10 77 122 202
A hibatagra vonatkozó feltételek ellenőrzése a) Várható értéke 0 M(ε) = 0 b) Varianciája konstans Var(ε) = σ 2 c) A hibatag értékei nem autokorreláltak. d) Normális eloszlású valószínűségi változó.
1. M(ε) = 0 A hibatagok pozitív és negatív értékei kiegyenlítik egymást. Ha eltér a 0-tól, annak oka lehet, hogy kihagytunk a modellből egy szignifikáns magyarázó változót. Nehéz a gyakorlatban ellenőrizni. Ha feltételezzük, hogy a legkisebb négyzetek módszere érvényesül, akkor teljesül ez a feltétel.
A hibatagra vonatkozó feltételek ellenőrzése a) Várható értéke 0 M(ε) = 0 b) Varianciája konstans Var(ε) = σ 2 c) A hibatag értékei nem autokorreláltak. d) Normális eloszlású valószínűségi változó.
2. Homoszkedaszticitás (Var(ε) = σ 2 ) A hibatag varianciája állandó. Ha nem: heteroszkedaszticitás Logaritmizálni! Tesztelése: o Grafikus a becsült reziduumokat a kiválasztott magyarázó változó vagy az ŷ függvényében ábrázoljuk o Statisztikai tesztek Goldfeld-Quandt-féle teszt
Homoszkedaszticitás grafikus tesztelése e e e x i x i x ŷ i ŷ ŷ Homoszkedasztikus hibatag Heteroszkedasztikus hibatag e reziduum x i becsült érték
H 0 : σ j2 = σ 2 H 1 : σ j2 σ 2 Lépései: Homoszkedaszticitás Goldfeld- 1. Rangsor Quandt-féle tesztelése χ 2 n - r 2 (a varianciák eloszlást követnek és ezek egymástól függetlenek) 2. Független részminták (, ahol r > 0, > p ) 3. Regressziós függvények, reziduális szórásnégyzet (s e2 ) 2 2 4. F-próba: e 1 s n r 1 F = = ν 1 = ν 2 = e 2 2 s 2 2 n - r 2 n - r ; r ; 2 2 n - r 2 H 0 F (α/2) F (1-α/2); ν 1,ν 2
SPSS Analyze / Regression / Linear - Plots Függő változó Standardizált becsült érték Standardizált reziduum Törölt reziduum Korrigált becsült érték Studentizált reziduum Studentizált törölt reziduum Standardizált becsült érték (ZPRED) és a standardizált reziduum (ZRESID) viszonya Homoszkedaszticitás?
Output A reziduumok varianciája ~konstans Homoszkedaszticitás
Ha heteroszkedasztikus LOGARITMIZÁLÁS! y x 1 x 2 x p log (? y)
A hibatagra vonatkozó feltételek ellenőrzése a) Várható értéke 0 M(ε) = 0 b) Varianciája konstans Var(ε) = σ 2 c) A hibatag értékei nem autokorreláltak. d) Normális eloszlású valószínűségi változó.
A hibatag értékei korrelálatlanok Egyszerű véletlen mintavétel esetében ez a feltétel automatikusan teljesül. Ha a modell idősoros adatokra épül, gyakran előfordul a hibatagok autokorreláltsága. Autokorreláció oka: Nem megfelelő függvénytípus. Nem véletlen jellegű mérési hiba. A modellben nem szerepel valamennyi lényeges magyarázó változó (nem tudjuk, hogy kell / túl rövid idősor / nincs adat).
Autokorreláció grafikus tesztelése e e t t A kihagyott változók miatt a reziduumok nem véletlenszerűek, hanem az egymást követő értékek között jelentős korreláció van. e t Az autokorreláció a függvénytípus helytelen megválasztásának a következménye. + KVANTITATÍV TESZTEK!
Autokorreláció tesztelése Durbin- Watson próbával H 0 : ρ = 0 korrelálatlan H 1 : ρ 0 autokorreláció + zavaró autokorreláció 0 d l d u 2 4-d u 4-d l 4 Elfogadási tartomány - zavaró autokorreláció d n ( e t t = 2 = n t = 1 e e 2 t 2 t 1 ) Határai: 0 d 4 Pozitív autokorreláció: 0 d Negatív autokorreláció: 2 d Bizonytalansági tartomány: nem tudunk dönteni Növelni kell a megfigyelések számát Új változót kell bevonni a modellbe 2 4
A Durbin-Watson próba döntési táblázata H 1 Elfogadjuk H 0 :p=0 Elvetjük Nincs döntés p>0 d>d u d<d l d l <d<d u Pozitív autokorreláció p<0 Negatív autokorreláció d<4-d u d>4-d l 4-d l <d<4-d u d u illetve d l értékét a Durbin-Watson táblázatból határozzuk meg Forrás: Kerékgyártó-Mundruczó [1999]
Durbin-Watson próba - SPSS Analyze / Regression / Linear - Statistics
Miskolci Egyetem Gazdaságtudományi Kar Durbin-Watson statisztika (5%-os szignifikanciaszint mellett) n Forrás: Statisztikai képletgyűjtemény 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 50 60 70 80 90 100 m=1 m=2 m=3 m=4 m=5 dl du dl du dl du dl du dl du 1,08 1,10 1,13 1,16 1,18 1,20 1,22 1,24 1,26 1,27 1,29 1,30 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,43 1,44 1,50 1,55 1,58 1,61 1,63 1,65 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,45 1,46 1,47 1,48 1,48 1,49 1,50 1,50 1,51 1,51 1,52 1,52 1,53 1,54 1,54 1,54 1,59 1,62 1,64 1,66 1,68 1,69 0,95 0,98 1,02 1,05 1,08 1,10 1,13 1,15 1,17 1,19 1,21 1,22 1,24 1,26 1,27 1,28 1,30 1,31 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,46 1,51 1,55 1,59 1,61 1,63 1,54 1,54 1,54 1,53 1,53 1,54 1,54 1,54 1,54 1,55 1,55 1,55 1,56 1,56 1,56 1,57 1,57 1,57 1,58 1,58 1,58 1,59 1,59 1,59 1,60 1,60 1,63 1,65 1,67 1,69 1,70 1,72 0,82 0,86 0,90 0,93 0,97 1,00 1,03 1,05 1,08 1,10 1,12 1,14 1,16 1,18 1,20 1,21 1,23 1,24 1,26 1,27 1,28 1,29 1,31 1,32 1,33 1,34 1,42 1,48 1,52 1,56 1,59 1,61 1,75 1,73 1,71 1,69 1,68 1,68 1,67 1,66 1,66 1,66 1,66 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,66 1,66 1,66 1,66 1,67 1,69 1,70 1,72 1,73 1,74 0,69 0,74 0,78 0,82 0,86 0,90 0,93 0,96 0,99 1,01 1,04 1,06 1,08 1,10 1,12 1,14 1,16 1,18 1,19 1,21 1,22 1,24 1,25 1,26 1,27 1,29 1,38 1,44 1,49 1,53 1,57 1,59 1,97 1,93 1,90 1,87 1,85 1,83 1,81 1,80 1,79 1,78 1,77 1,76 1,76 1,75 1,74 1,74 1,74 1,73 1,73 1,73 1,73 1,73 1,72 1,72 1,72 1,72 1,72 1,73 1,74 1,74 1,75 1,76 0,56 0,62 0,67 0,71 0,75 0,79 0,83 0,86 0,90 0,93 0,95 0,98 1,01 1,03 1,05 1,07 1,09 1,11 1,13 1,15 1,16 1,18 1,19 1,21 1,22 1,23 1,34 1,41 1,46 1,51 1,54 1,57 2,21 2,15 2,10 2,06 2,02 1,99 1,96 1,94 1,92 1,90 1,89 1,88 1,86 1,85 1,84 1,83 1,83 1,82 1,81 1,81 1,80 1,80 1,80 1,79 1,79 1,79 1,77 1,77 1,77 1,77 1,78 1,78
0 d l d u 2 4-d u 4-d l 4 0,95 1,54 2,46 3,05 1,381 d l <d<d u nincs döntés Be kell venni még változót a modellbe / Növelni kell a megfigyelések számát!
A hibatagra vonatkozó feltételek ellenőrzése a) Várható értéke 0 M(ε) = 0 b) Varianciája konstans Var(ε) = σ 2 c) A hibatag értékei nem autokorreláltak. d) Normális eloszlású valószínűségi változó.
A hibatag eloszlása normális Tesztelése: Grafikusan a reziduumokat várható értékük függvényében ábrázoljuk haranggörbe normális eloszlás Kvantitatív módszerekkel illeszkedésvizsgálat 2 χ - próba Ferdeségi, csúcsossági mérőszámokkal
Grafikus tesztelés - SPSS Analyze / Regression / Linear - Plots Függő változó Standardizált becsült érték Standardizált reziduum Törölt reziduum Korrigált becsült érték Studentizált reziduum Studentizált törölt reziduum Hisztogram
Output A harang alakú standard normális eloszlás középértéke 0, szórása 1. Közelítőleg NORMÁLIS (de nem egyértelműen)
2. megoldás Analyze / Regression / Linear - SAVE
Normális eloszlás grafikus tesztelése 2. - SPSS Graphs / Histogram - Display normal curve A normális eloszlásgörbe harang alakú. Közelítőleg normális eloszlás.
Nonparametric Test Analyze / Nonparametric Test / 1-Samle K-S... H 0 - normális eloszlás H 1 - nem normális eloszlás
Output Ha a szignifikanciaszint (p) kisebb mint 5% (0,05), elutasítjuk a nullhipotézist. Most nagyobb 0,05-nél, vagyis elfogadjuk, hogy normális eloszlású a görbe. Normális eloszlású
Köszönöm a figyelmet!