Töváltozós Regresszió-számítás 3. előadás Döntéselőkészítés módszertana Dr. Szilágyi Roland
Korreláció Célja a kacsolat szorosságának mérése. Regresszió Célja a kacsolatan megfigyelhető törvényszerűség megfogalmazása, amelyet valamilyen függvény ír le. X (X, X,, X ): magyarázó változó(k), független változó(k) Y: eredményváltozó, függő változó Ok-okozati kacsolat: X okozza Y változását
Töváltozós lineáris regressziós modell,,, és y közötti kacsolatot árázoló egyenes. Az y függ:,,, d magyarázó változótól A véletlen ingadozásától (ε) β 0, β,, β regressziós együtthatóktól. Y = β 0 + β + β + + β +ε
Töváltozós lineáris regresszió adatstruktúrája y y y y n X n n n 0
5 Töváltozós lineáris regresszió min ) ( ;) ; ; ; ( 0 0 y f 0 0 0 0 y y y n y
6 Az egyenletrendszer mátri alakan felírva n y y y y 0 X X y X T T
Az egyenletrendszer mátri alakan felírva X T y X T X X T X X T y
ANOVA A variancia forrása Eltérésnégyzetösszeg (SS) Szaadságfok (DF) Átlagos négyzetösszeg (MS) F-érték SSR S = (ŷ y ŷ i ) Regresszió (R) MSR=SSR/ Hiatényező (E) SSE S = (y ŷ e i ) n-- MSE=SSE/(n--) F MSR MSE Teljes (T) SST S = (y y n- - y i )
Modell tesztelés H 0 : 0 H : j 0. F SSR SSE n
β araméterek tesztelése Ha t számított <t kritikus H 0 Ha t számított >t kritikus H 0 : 0 : 0 i i H H ii e i i i i v s s( = t ) ; n t kritikus t
Töváltozós lineáris regressziós modell feltételrendszere A hiatagra vonatkozó feltételek. Várható értéke 0 M(ε) = 0. Varianciája konstans Var(ε) = 3. A hiatag értékei nem autokorreláltak. 4. Normális eloszlású valószínűségi változó.
A magyarázó változókra vonatkozó feltételek. Egymástól lineárisan függetlenek legyenek. (egyik magyarázó változót se lehessen a töi magyarázó változó lineáris kominációjaként előállítani). Értékeik rögzítettek legyenek, ne változzanak mintáról mintára. 3. Mérési hiát nem tartalmaznak. 4. Nem korrelálnak a hiatényezővel.
Feltétel Felt. sérülése Köv. Ellenőrzés Megjegyzés Linearitás Független (egymástól) Normális eloszlás Nem korreláltak Függő és független változókra vonatkozó feltétel Nem lineáris kacsolat Multikollinearitás Nem normális eloszlás Autokorreláció Homoszkedaszticitás Heteroszkedaszticitás; korrelál az X i -vel Becsült értékek sérülése Megízhatatlan ecslés, magas st. hia a regr. koefficiensnél Pontdiagram, r F szignifikáns, t nem; Korrelációs mátri; VIF-mutató Hiatagokra vonatkozó feltétel F-teszt, t-teszt érvénytelen Nem hatásos, nagy KI Nem hatásos, nagy KI Reziduumok standardizált eloszlásának hisztogramjai Reziduumok árázolása az idő / a megfigyelések sorrendjéen; Durin- Watson teszt Pontdiagram a standardizált reziduumok szórásáról Kizárólag töváltozós regr. esetéen Legkise négyzetek módszere kiküszööli Idősornál merülhet fel a roléma. Logaritmizálás vagy a súlyozottan LNM segít Forrás: Sajtos-Mitev [006], 7.o.
Standard lineáris regressziós modell Ahol az elő említett feltételek teljesülnek. Amennyien a mintaeli adatok nem igazolják a feltételek teljesülését, onyolulta modellre és ecslési eljárásokra van szükség.
A hiatagra vonatkozó feltételek ellenőrzése. Várható értéke 0 M(ε) = 0. Varianciája konstans Var(ε) = 3. A hiatag értékei nem autokorreláltak. 4. Normális eloszlású valószínűségi változó.
. M(ε) = 0 A hiatagok ozitív és negatív értékei kiegyenlítik egymást. Ha eltér a 0-tól, annak oka lehet, hogy kihagytunk a modellől egy szignifikáns magyarázó változót. Nehéz a gyakorlatan ellenőrizni. Ha feltételezzük, hogy a legkise négyzetek módszere érvényesül, akkor teljesül ez a feltétel.
A hiatagra vonatkozó feltételek ellenőrzése. Várható értéke 0 M(ε) = 0. Varianciája konstans Var(ε) = 3. A hiatag értékei nem autokorreláltak. 4. Normális eloszlású valószínűségi változó.
. Homoszkedaszticitás (Var(ε) = ) A hiatag varianciája állandó. Ha nem: heteroszkedaszticitás Tesztelése: o Grafikus a ecsült reziduumokat a kiválasztott magyarázó változó vagy az ŷ függvényéen árázoljuk o Statisztikai tesztek Goldfeld-Quandt-féle teszt, (Különösen akkor, ha a heteroszkedaszticitás valamelyik magyarázó változóhoz kacsolódik.)
Homoszkedaszticitás grafikus tesztelése e e e i ŷ i ŷ i ŷ Homoszkedasztikus hiatag Heteroszkedasztikus hiatag e reziduum
H 0 : j = H : j Léései: Homoszkedaszticitás Goldfeld- Quandt-féle tesztelése n-r. Rangsor: a keresztmetszeti adatokat y szerint rangsora rendezzük.. Független részminták, (ahol r > 0, > ) 3. Regressziós függvények, reziduális szórásnégyzet (s e ) számítása az. és 3. csoortra 4. F-róa: e s F H 0 e s (a varianciák eloszlást követnek és ezek egymástól függetlenek) n r n - r n - r ; r; F (α/) n - r F (-α/); ν,ν
A hiatagra vonatkozó feltételek ellenőrzése. Várható értéke 0 M(ε) = 0. Varianciája konstans Var(ε) = 3. A hiatag értékei nem autokorreláltak. 4. Normális eloszlású valószínűségi változó.
A hiatag értékei korrelálatlanok Keresztmetszeti adatokól történő egyszerű véletlen mintavétel esetéen ez a feltétel automatikusan teljesül. Ha a modell idősoros adatokra éül, gyakran előfordul a hiatagok autokorreláltsága. Autokorreláció oka: Nem megfelelő függvénytíus. Nem véletlen jellegű mérési hia. A modellen nem szereel valamennyi lényeges magyarázó változó (nem ismerjük fel a szereét / túl rövid idősor / nincs adat).
Autokorreláció grafikus tesztelése e t t e e A kihagyott változók miatt a reziduumok nem véletlenszerűek, hanem az egymást követő értékek között jelentős korreláció van. t Az autokorreláció a függvénytíus helytelen megválasztásának a következménye. + KVANTITATÍV TESZTEK!
Autokorreláció tesztelése Durin- H 0 : ρ = 0 korrelálatlan Watson róával H : ρ 0 autokorreláció + zavaró autokorreláció - zavaró autokorreláció 0 d l d u 4-d u 4-d l 4 Elfogadási tartomány d Határai: n t ( e t 0 d 4 Pozitív autokorreláció: 0 d Negatív autokorreláció: d 4 t Bizonytalansági tartomány: nem tudunk dönteni Növelni kell a megfigyelések számát Új változót kell evonni a modelle t n e e t )
A Durin-Watson róa döntési H >0 Pozitív autokorreláció <0 Negatív autokorreláció tálázata Elfogadjuk H 0 :=0 Elvetjük Nincs döntés d>d u d<d l d l <d<d u d<4-d u d>4-d l 4-dl <d<4-d u d u illetve d l értékét a Durin-Watson tálázatól határozzuk meg Forrás: Kerékgyártó-Mundruczó [999]
A hiatagra vonatkozó feltételek ellenőrzése. Várható értéke 0 M(ε) = 0. Varianciája konstans Var(ε) = 3. A hiatag értékei nem autokorreláltak. 4. Normális eloszlású valószínűségi változó.
A hiatag eloszlása normális Tesztelése: Grafikusan árákkal Kvantitatív módszerekkel illeszkedésvizsgálat - róa Ferdeségi, csúcsossági mérőszámokkal
A reziduumok eloszlásának grafikus tesztelése e z A reziduumokat várható értékük függvényéen árázoljuk. Ha az ára megközelítően lineáris, akkor a feltétel teljesült.
Illeszkedésvizsgálat H 0 : P r (ε j ) = P j (normális eloszláshoz tartozó megfelelő valószínűségi érték) H : J j : P r (ε j ) P j r ( f ) i npi np i H 0 ( ),( r )
A magyarázó változókra vonatkozó feltételek. Egymástól lineárisan függetlenek legyenek. (egyik magyarázó változót se lehessen a töi magyarázó változó lineáris kominációjaként előállítani). Értékeik rögzítettek legyenek, ne változzanak mintáról mintára. 3. Mérési hiát nem tartalmaznak. 4. Nem korrelálnak a hiatényezővel.
Multikollinearitás Mintaeli tulajdonság alkalmazható. mintán kívül nem Ellenőrzése: X j =f(x, X,,X j-, kézése után: X j+,,x ) regressziós modell Töszörös determinációs együtthatóval F-róával (F>F krit ) VIF-mutatóval
VIF-mutató Variancianövelő tényező VIF VIF= VIF ha R j =0 (amikor a j. magyarázó változó nem korrelál a töi magyarázó változóval) VIF R j = (a j. magyarázó változó ontosan kifejezhető a töi lineáris kominációjaként) VIF - gyenge multikollinearitás 5 VIF VIF 5 - erős zavaró multikollinearitás R - nagyon erős, káros multikollinearitás j j
Káros multikollinearitás esetén megkeressük azokat a magyarázó változókat, amelyek a zavart okozzák, és elhagyjuk őket a modellől; az egymással nagyon szoros kacsolatan álló magyarázó változókat egy új változóan összevonjuk (főkomonensek), amely mása lesz, mint az eredeti, de hordozza azok információtartalmát.
Köszönöm a figyelmet! stcsera@uni-miskolc.hu