5. előadás - Regressziószámítás 2016. október 3. 5. előadás 1 / 18
Kétváltozós eset A modell: Y i = α + βx i + u i, i = 1,..., T, ahol X i független u i -től minden i esetén, (u i ) pedig i.i.d. sorozat 0 várható értékkel és σ szórással. (OLS modell) Paraméterbecslés: legkisebb négyzetes módszerrel történik, azaz a V (a, b) = T e 2 i = i=1 T (Y i a bx i ) 2 i=1 veszteségfüggvényt kell minimalizálni az a, b paraméterek függvényében. ˆα = Ȳ ˆβ X és ˆβ = T i=1 X iy i XȲ T i=1 X2 i T X 2. σ 2 becslése: s 2 = T i=1 e2 i T 2. 5. előadás 2 / 18
Determinációs együttható TSS: T i=1 (Y i Ȳ )2 az átlagtól való teljes szóródás, RSS: T i=1 e2 i a hibák négyzetösszege, azaz a nem magyarázható szóródás ESS: ˆβ T i=1 (X i X)(Y i Ȳ ) a magyarázott szóródás. Világos, hogy T SS = ESS + RSS, így definiálható az R 2 = ESS T SS = 1 RSS T SS [0, 1] determinációs együttható, mely az illeszkedés jóságát méri. Könnyen látható, hogy R =Corr(Y i, Ŷ ). Könnyen igazolható, hogy α, β és σ becslései torzítatlanok, és ezek a legjobb lináris torzítatlan becslései (BLUE) a paramétereknek. 5. előadás 3 / 18
Alapmodell A modell: ahol T k, Y t = β 1 + β 2 X 2,t +... + β k X k,t + u t, t = 1,..., T, X 2,..., X k (k 1) darab független regresszor, avagy magyarázó változó, Y a függő, avagy magyarázott változó, u t azonos eloszlású, korrelálatlan sorozat, azaz Eu t = 0, Eu 2 t = σ 2 és Eu t u s = 0, ha t s. (OLS) Legyen y = (Y 1,..., Y T ), β = (β 1,..., β k ), u = (u 1,..., u T ), 1 X 2,1... X k,1 1 X 2,2... X k,2 X =.... 1 X 2,T... X k,t Ekkor a modell az y = Xβ + u kompakt formában is felírható. 5. előadás 4 / 18
Paraméterbecslés Legyen b R k egy tetszőleges futó paramétervektor. Ekkor a hibavektor e = e(b) = y Xb, tehát a költségfüggvény, azaz a hibák négyzetösszege a V (b) = e e = (y Xb) (y Xb) = y y 2b X y + b X Xb alakot ölti. Ennek a minimumát kellene megtalálni. Mivel V (b) = 2X y + 2X Xb b 2 V (b) b 2 = 2X X 0, ˆβ = (X X) 1 X y, ha X teljes rangú, mert ekkor létezik az inverz és egyértelmű a minimum. 5. előadás 5 / 18
Többszörös determinációs együttható Mivel X X ˆβ = X y = X (X ˆβ + e( ˆβ)), így X e( ˆβ) = 0, azaz a hibavektor mindegyik regressziós vektorral korrelálatlan! Ezt felhasználva adódik, hogy a teljes négyzetösszeg (TSS) felírható az alábbi felbontásban: T (Y i Ȳ )2 = y y T Ȳ 2 = (ŷ + e) (ŷ + e) T Ȳ 2 = i=1 = ŷ ŷ + 2 e ŷ +e e T }{{} Ȳ 2 = (ŷ ŷ T Ȳ 2 ) + }{{}}{{} e e 0 ESS RSS Így, hasonlóan a korábbi esethez, definiálható az R 2 = ESS T SS = 1 RSS T SS [0, 1] többszörös determinációs együttható. Ha β 1 0, akkor R =Corr(Y i, Ŷ ). 5. előadás 6 / 18
Probléma Kérdés: új változó felvétele a modellbe változtatja-e R 2 értékét? Az világos, hogy ekkor R 2 értéke csökkeni biztosan nem fog, hiszen "jobban" magyarázzuk Y -t, azaz egy nagyobb változókészleten minimalizáljuk a veszteségfüggvényt. Ezzel együtt viszont nő a modell bonyolultága, ami nem mindig jó! Tehát, ha R 2 -tel jellemezzük a modellünket, akkor mindig az összes potenciális magyarázó változó felhasználása lesz a legjobb döntés. A valóságban azonban ez korántsem biztos! Fontos lesz számunkra a modell ún. általánosító-képessége, azaz hogy mennyire jól tud a mintán kívüli világról is számot adni. Erre a feladatra viszont az R 2 nem a legszerencsésebb mutató, hiszen ez a minta jó "megjegyzését" adja, de nekünk ennél több kell! 5. előadás 7 / 18
Egy lehetséges megoldás Modellszelekció: olyan módosítás, mely figyelembe veszi a modell változóinak számát is, és meghatározható vele az optimális magyarázó-változók köre. Ennek egy lehetséges eszköze a korrigált determinációs együttható: R 2 = 1 RSS(T 2) T SS(T k) Büntetjük a magyarázó változók számának növelését. Könnyen látható, hogy R 2 R 2, azaz 1-nél biztosan kisebb ez is, de vigyázat, lehet negatív is! A gyakorlatban heurisztikus stratégiákat használunk (forward, backward és stepwise szelekciós módszerek), hogy ne kelljen az összes 2 k kombinációt tesztelni. 5. előadás 8 / 18
Egy másik lehetséges megoldás Módosított veszteségfüggvény használata (avagy információs kritériumok), melyek egyszerre büntetik a magyarázó változók nagy számát és a nagy hibát, a kettő közt egyensúlyt keresve: V SC (b) = ln e(b) e(b) T V AIC (b) = ln e(b) e(b) T Itt k optimális értéke is keresendő! + k T lnt + 2k T Modellszelekciós tesztek: a változók elhagyására vonatkozó Wald- és Lagrange Multiplikátor-teszt. (Ezeket most az idő rövidsége miatt nem tárgyaljuk részletesebben.) 5. előadás 9 / 18
Statisztikai tulajdonságok Tétel A β paraméter fenti ˆβ becslése torzítatlan becslés, továbbá D 2 ( ˆβ) = (X X) 1 σ 2. Tétel A zaj σ 2 szórásnégyzetének torzítatlan becslése s 2 = e( ˆβ) e( ˆβ) T k. Tétel (Gauss-Markov) Legyen c R k tetszőleges és µ = c β. Ennek legkisebb szórású, lineáris, torzítatlan (BLUE) becslése az y minta alapján ˆµ = c ˆβ, ahol ˆβ a lineáris regressziós együtthatók fenti LS-becslése. 5. előadás 10 / 18
Parciális korrelációs együttható Cél: két kvantitatív változó kapcsolatából ki akarjuk szűrni egy vagy több kvantitatív változó hatását. Kérdés: milyen lenne a vizsgált két változó kapcsolata, ha a kiszűrt változókat állandó szinten tartanánk? Válasz: parciális korrelációs együttható ρ XY,Z = ρ XY ρ XZ ρ Y Z 1 ρ 2 XZ 1 ρ 2 Y Z Feltételek: kvantitatív (skálás) változóink vannak; csak lineáris összefüggés létezik köztük; X és Y között ugyanolyan jellegű és szintű kapcsolat van a Z változó teljes értéktartományában. 5. előadás 11 / 18
Parciális korrelációs együttható Ha a vizsgált változók együttes eloszlása többdimenziós normális, akkor ezek a feltételek szükségképpen fennállnak, azaz csak lineáris típusú összefüggések léphetnek fel, és a két változó közti összefüggés a harmadik változó bármely rögzített értéke esetén ugyanakkora lesz. Mérlegelés nélküli, automatikus használata esetén komoly bajok forrása lehet! 5. előadás 12 / 18
Példa: k = 3 eset A háromváltozós modell becslése az alábbi alakban írható fel: Y t = ˆβ 1 + ˆβ 2 X 2,t + ˆβ 3 X 3,t + e t, t = 1,..., T. Átlagolva a fenti egyenletet adódik, hogy Ȳ = ˆβ 1 + ˆβ 2 X2 + ˆβ 3 X3. Kivonva egymásból a kettőt kapjuk, hogy Y t }{{ Ȳ = } ˆβ 2 (X 2,t X 2 ) + }{{} ˆβ 3 (X 3,t X 3 ) +e t, t = 1,..., T, }{{} =:ξ t =:η 2,t =:η 3,t azaz a konstans tagot kiküszöböltük a modellből. Ekkor T T T det(x X) = ( η2,t)( 2 η3,t) 2 ( η 2,t η 3,t ) 2 = = ( T i=1 η 2 2,t)( i=1 i=1 i=1 T η3,t)(1 2 r23), 2 ahol r 23 = corr(x 2, X 3 ). i=1 5. előadás 13 / 18
Példa: k = 3 eset Mivel D 2 ( ˆβ) = σ 2 (X X) 1, így adódik, hogy D 2 ( ˆβ 2 ) = σ 2 T i=1 η2 3,t ( T i=1 η2 2,t )( T i=1 η2 3,t )(1 r2 23 ) = σ2 ( T i=1 η2 2,t )(1 r2 23 ) D 2 ( ˆβ 3 ) = σ 2 T i=1 η2 2,t ( T i=1 η2 2,t )( T i=1 η2 3,t )(1 r2 23 ) = σ2 ( T i=1 η2 3,t )(1 r2 23 ) Azaz ha r 23 1, azaz X 2 és X 3 között szoros a lineáris kapcsolat, akkor a paraméterek szórása nagy lesz. Ezt a jelenséget hívják multikollinearitásnak. Határesetben X oszlopai lineárisan összefüggők, így ilyenkor β nem is becsülhető. Tehát vigyázni kell az új változók felvételével, mert ekkor nő a multikollinearitás esélye, ami rontja a becslések hibáját! 5. előadás 14 / 18
Multikollinearitás Az a jelenség, amikor a magyarázó változók lineáris kapcsolatban vannak egymással. Bár nem tökéletesen precíz, de a gyakorlatban azzal jellemezzük, hogy mennyire magyarázzák egymást. Az ennek megfelelő mérőszám az ún. tolerancia: Tol j = 1 R 2 j = 1 R 2 X j X 2,X 3,...,X j 1,X j+1,...,x k, azaz hogy a vizsgált magyarázó változót mennyire magyarázza a többi magyarázó változó. Ekkor D 2 ( ˆβ RSS/(T k) j ) = (T 1)D 2 (X j ) 1 Tol j azaz, ha a tolerancia romlik (csökken), akkor a becsült paraméter szórása nő! 5. előadás 15 / 18
GLS-becslés A modell most is y = Xβ + u alakú, és tegyük fel, hogy ahol Ω > 0 ismert kovariancia mátrix, u N (0, σ Ω 1/2 ), nem feltétlenül diagonális, és ha az, a diagonális elemek akkor sem feltétlenül egyenlők, azaz a modell heteroszkedasztikus, ami annyit jelent, hogy a zaj nem lesz azonos eloszlású folyamat, és a függetlenségi feltételt sem őrizzük meg minden esetben. Mi történik ekkor az OLS becsléssel? A torzítatlanság és a konzisztencia nem romlik el, de már nem lesz hatásos a becslés, azaz nem ez lesz a legkisebb szórású becslése a paramétereknek. A becsült standard hibák is torzítottak lesznek, így a tesztek érvényüket vesztik! 5. előadás 16 / 18
GLS-becslés Ω szimmetria tulajdonsága és pozitív definitsége miatt Ω 1 is szimmetrikus pozitív definit mátrix, így létezik olyan P nemszinguláris mátrix, melyre Ω 1 = P P. Szorozzuk végig ezzel a P mátrixszal balról a modell-egyenletet. Ekkor P y = P Xβ + P u, és legyen P y = ỹ, P X = X és P u = ũ. Könnyen látszik, hogy ekkor E(ũũ ) = P E(uu )P = P (σ 2 Ω)P = σ 2 P (P P ) 1 P = σ 2 I, tehát a transzformált modell már homoszkedasztikus, így működnek a korábbi becsléseink. Azaz ˆβ = ( X X) 1 X ỹ = (X P P X) 1 X P P y = = (X Ω 1 X) 1 X Ω 1 y. 5. előadás 17 / 18
GLS-becslés Ha Ω nem ismert, akkor az esetek nagy részében a becslése reménytelen. Arra van módszer, hogy diagonális, de nem homoszkedasztikus esetben az σ 2 (X ΩX) mátrixot becsüljük, ekkor ugyanis σ 2 (X ΩX) = T σi 2 X i X i, i=1 ahol σ i ismeretlen ugyan, de becsülhető az kifejezéssel, azaz σ 2 ˆΩ =diag(e 2 i ). e i = (y X i ˆβ) 2 5. előadás 18 / 18