Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Kvantitatív statisztikai módszerek Petrovics Petra
Többváltozós lineáris regressziós modell x 1, x 2,, x p és y közötti kapcsolatot ábrázoló egyenes. Az y függ: x 1, x 2,, x p p db magyarázó változótól A véletlen ingadozásától (ε) β 0, β 1,, β p regressziós együtthatóktól. Y = β 0 + β 1 x 1 + β 2 x 2 + + β p x p +ε
A hibatagra vonatkozó feltételek 1. Várható értéke 0 M(ε) = 0 2. Varianciája konstans Var(ε) = 2 3. A hibatag értékei nem autokorreláltak. 4. Normális eloszlású valószínűségi változó.
A magyarázó változókra vonatkozó feltételek 1. Egymástól lineárisan függetlenek legyenek. (egyik magyarázó változót se lehessen a többi magyarázó változó lineáris kombinációjaként előállítani) 2. Értékeik rögzítettek legyenek, ne változzanak mintáról mintára. 3. Mérési hibát nem tartalmaznak. 4. Nem korrelálnak a hibatényezővel.
Standard lineáris regressziós modell Ahol az előbb említett feltételek teljesülnek. Amennyiben a mintabeli adatok nem igazolják a feltételek teljesülését, bonyolultabb modellre és becslési eljárásokra van szükség.
SPSS (Feladat) 10 véletlenszerűen kiválasztott vállalat adatai a következők: y - árbevétel x 1 -vagyon x 2 -létszám 1 35 54 98 2 27 52 120 3 42 50 95 4 47 58 145 5 53 82 184 6 45 72 106 7 61 120 240 8 58 108 175 9 65 92 165 10 77 122 202
A hibatagra vonatkozó feltételek ellenőrzése a) Várható értéke 0 M(ε) = 0 b) Varianciája konstans Var(ε) = 2 c) A hibatag értékei nem autokorreláltak. d) Normális eloszlású valószínűségi változó.
1. M(ε) = 0 A hibatagok pozitív és negatív értékei kiegyenlítik egymást. Ha eltér a 0-tól, annak oka lehet, hogy kihagytunk a modellből egy szignifikáns magyarázó változót. Nehéz a gyakorlatban ellenőrizni. Ha feltételezzük, hogy a legkisebb négyzetek módszere érvényesül, akkor teljesül ez a feltétel.
A hibatagra vonatkozó feltételek ellenőrzése a) Várható értéke 0 M(ε) = 0 b) Varianciája konstans Var(ε) = 2 c) A hibatag értékei nem autokorreláltak. d) Normális eloszlású valószínűségi változó.
2. Homoszkedaszticitás (Var(ε) = 2 ) A hibatag varianciája állandó. Ha nem: heteroszkedaszticitás Logaritmizálni! Tesztelése: o Grafikus a becsült reziduumokat a kiválasztott magyarázó változó vagy az ŷ függvényében ábrázoljuk o Statisztikai tesztek Goldfeld-Quandt-féle teszt
Homoszkedaszticitás grafikus tesztelése e e e x i ŷ x i ŷ x i ŷ Homoszkedasztikus hibatag Heteroszkedasztikus hibatag e reziduum x i becsült érték
Homoszkedaszticitás Goldfeld- Quandt-féle tesztelése H 0 : j2 = 2 H 1 : j2 2 2 n-r 2 (a varianciák eloszlást követnek és ezek egymástól függetlenek) Lépései: 1. Rangsor 2. Független részminták (, ahol r > 0, > p ) 3. Regressziós függvények, reziduális szórásnégyzet (s e2 ) 2 2 4. F-próba: e1 s n r 1 F 1 2 e 2 2 s 2 2 n - r 2 n - r ; r; 2 2 n - r 2 H 0 F (α/2) F (1-α/2); ν 1,ν 2
SPSS Analyze / Regression / Linear - Plots Függő változó Standardizált becsült érték Standardizált reziduum Törölt reziduum Korrigált becsült érték Studentizált reziduum Studentizált törölt reziduum Standardizált becsült érték (ZPRED) és a standardizált reziduum (ZRESID) viszonya Homoszkedaszticitás?
Output A reziduumok varianciája ~konstans Homoszkedaszticitás
LOGARITMIZÁLÁS! Transform/Compute variable Ha heteroszkedasztikus
A hibatagra vonatkozó feltételek ellenőrzése a) Várható értéke 0 M(ε) = 0 b) Varianciája konstans Var(ε) = 2 c) A hibatag értékei nem autokorreláltak. d) Normális eloszlású valószínűségi változó.
A hibatag értékei korrelálatlanok Egyszerű véletlen mintavétel esetében ez a feltétel automatikusan teljesül. Ha a modell idősoros adatokra épül, gyakran előfordul a hibatagok autokorreláltsága. Autokorreláció oka: Nem megfelelő függvénytípus. Nem véletlen jellegű mérési hiba. A modellben nem szerepel valamennyi lényeges magyarázó változó (nem tudjuk, hogy kell / túl rövid idősor / nincs adat).
Autokorreláció grafikus tesztelése e e e t t A kihagyott változók miatt a reziduumok nem véletlenszerűek, hanem az egymást követő értékek között jelentős korreláció van. t Az autokorreláció a függvénytípus helytelen megválasztásának a következménye. + KVANTITATÍV TESZTEK!
Autokorreláció tesztelése Durbin- Watson próbával H 0 : ρ = 0 korrelálatlan H 1 : ρ 0 autokorreláció + zavaró autokorreláció - zavaró autokorreláció 0 d l d u 2 4-d u 4-d l 4 Elfogadási tartomány d n t 2 ( e t n t 1 e e 2 t Határai: ) 2 t 1 0 d 4 Pozitív autokorreláció: 0 d 2 Negatív autokorreláció: 2 d 4 Bizonytalansági tartomány: nem tudunk dönteni Növelni kell a megfigyelések számát Új változót kell bevonni
A Durbin-Watson próba döntési táblázata H 1 Elfogadjuk H 0 :p=0 Elvetjük p>0 Pozitív autokorreláció p<0 Negatív autokorreláció Nincs döntés d>d u d<d l d l <d<d u d<4-d u d>4-d l 4-d l <d<4-d u d u illetve d l értékét a Durbin-Watson táblázatból határozzuk meg Forrás: Kerékgyártó-Mundruczó [1999]
Durbin-Watson próba - SPSS Analyze / Regression / Linear - Statistics
Durbin-Watson statisztika (5%-os szignifikanciaszint mellett) Forrás: Statisztikai képletgyűjtemény n m = 1 m = 2 m = 3 m = 4 m = 5 d L d U d L d U d L d U d L d U d L d U 15 1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2,21 16 1,10 1,37 0,98 1,54 0,86 1,73 0,74 1,93 0,62 2,15 17 1,13 1,38 1,02 1,54 0,90 1,71 0,78 1,90 0,67 2,10 18 1,16 1,39 1,05 1,53 0,93 1,69 0,82 1,87 0,71 2,06 19 1,18 1,40 1,08 1,53 0,97 1,68 0,86 1,85 0,75 2,02 20 1,20 1,41 1,10 1,54 1,00 1,68 0,90 1,83 0,79 1,99 21 1,22 1,42 1,13 1,54 1,03 1,67 0,93 1,81 0,83 1,96 22 1,24 1,43 1,15 1,54 1,05 1,66 0,96 1,80 0,86 1,94 23 1,26 1,44 1,17 1,54 1,08 1,66 0,99 1,79 0,90 1,92 24 1,27 1,45 1,19 1,55 1,10 1,66 1,01 1,78 0,93 1,90 25 1,29 1,45 1,21 1,55 1,12 1,66 1,04 1,77 0,95 1,89 26 1,30 1,46 1,22 1,55 1,14 1,65 1,06 1,76 0,98 1,88 27 1,32 1,47 1,24 1,56 1,16 1,65 1,08 1,76 1,01 1,86 28 1,33 1,48 1,26 1,56 1,18 1,65 1,10 1,75 1,03 1,85 29 1,34 1,48 1,27 1,56 1,20 1,65 1,12 1,74 1,05 1,84 30 1,35 1,49 1,28 1,57 1,21 1,65 1,14 1,74 1,07 1,83 31 1,36 1,50 1,30 1,57 1,23 1,65 1,16 1,74 1,09 1,83 32 1,37 1,50 1,31 1,57 1,24 1,65 1,18 1,73 1,11 1,82 33 1,38 1,51 1,32 1,58 1,26 1,65 1,19 1,73 1,13 1,81 34 1,39 1,51 1,33 1,58 1,27 1,65 1,21 1,73 1,15 1,81 35 1,40 1,52 1,34 1,58 1,28 1,65 1,22 1,73 1,16 1,80 36 1,41 1,52 1,35 1,59 1,29 1,65 1,24 1,73 1,18 1,80 37 1,42 1,53 1,36 1,59 1,31 1,66 1,25 1,72 1,19 1,80 38 1,43 1,54 1,37 1,59 1,32 1,66 1,26 1,72 1,21 1,79 39 1,43 1,54 1,38 1,60 1,33 1,66 1,27 1,72 1,22 1,79 40 1,44 1,54 1,39 1,60 1,34 1,66 1,29 1,72 1,23 1,79 50 1,50 1,59 1,46 1,63 1,42 1,67 1,38 1,72 1,34 1,77 60 1,55 1,62 1,51 1,65 1,48 1,69 1,44 1,73 1,41 1,77 70 1,58 1,64 1,55 1,67 1,52 1,70 1,49 1,74 1,46 1,77 80 1,61 1,66 1,59 1,69 1,56 1,72 1,53 1,74 1,51 1,77 90 1,63 1,68 1,61 1,70 1,59 1,73 1,57 1,75 1,54 1,78 100 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,57 1,78
0 d l d u 2 4-d u 4-d l 4 0,95 1,54 2,46 3,05 1,381 d l <d<d u nincs döntés Be kell venni még változót a modellbe / Növelni kell a megfigyelések számát!
A hibatagra vonatkozó feltételek ellenőrzése a) Várható értéke 0 M(ε) = 0 b) Varianciája konstans Var(ε) = 2 c) A hibatag értékei nem autokorreláltak. d) Normális eloszlású valószínűségi változó.
A hibatag eloszlása normális Tesztelése: Grafikusan a reziduumokat várható értékük függvényében ábrázoljuk haranggörbe normális eloszlás Kvantitatív módszerekkel illeszkedésvizsgálat 2 - próba Ferdeségi, csúcsossági mérőszámokkal
Grafikus tesztelés - SPSS Analyze / Regression / Linear - Plots Függő változó Standardizált becsült érték Standardizált reziduum Törölt reziduum Korrigált becsült érték Studentizált reziduum Studentizált törölt reziduum Hisztogram
Output A harang alakú standard normális eloszlás középértéke 0, szórása 1. Közelítőleg NORMÁLIS (de nem egyértelműen)
2. megoldás Analyze / Regression / Linear - SAVE
Normális eloszlás grafikus tesztelése 2. - SPSS Graphs / Histogram - Display normal curve A normális eloszlásgörbe harang alakú. Közelítőleg normális eloszlás.
Nonparametric Test Analyze / Nonparametric Test / 1-Samle K-S... H 0 - normális eloszlás H 1 - nem normális eloszlás
Output Ha a szignifikanciaszint (p) kisebb mint 5% (0,05), elutasítjuk a nullhipotézist. Most nagyobb 0,05-nél, vagyis elfogadjuk, hogy normális eloszlású a görbe. Normális eloszlású
Köszönöm a figyelmet! stgpren@uni-miskolc.hu