Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

[GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

A standard lineáris modell A lineáris sztochasztikus kapcsolat: M(Y X = X i ) = β 0 + β 1 X i. Ȳ i = β 0 + β 1 X i, azaz ha Y i = β 0 + β 1 X i + E i, akkor M(E) = 0. minta alapján η i = β 0 + β 1 X i + ε i, ε i valószínűségi változó. Bármi lehet! Standard lineáris modell 1 ε i (illetve η i ) normális eloszlásúak 2 cov(ε i, ε j ) = 0 ha i j 3 M(ε i ) = 0 4 D(ε i ) = σ (független X i -től)

Becslés során elkövetett hibák Kétféle hiba: 1 Mintából becsült paraméterek; becslés tehát nem pontos. 2 Az ismérvek között csak sztochasztikus kapcsolat van, nem függvényszerű, csak azt a részt kapjuk meg Y -ból, ami X -ből következik. Ha X i rögzített, a becslőfüggvények ˆβ 0 = ( η i ) ( Xi 2 ) ( Xi ) ( X i η i ) n Xi 2 ( X i ) 2 ˆβ 1 = n X i η i ( X i ) ( η i ) n Xi 2 ( X i ) 2 = ( (Xi X ) 2 η i ) (Xi X ) 2 Mindkettő az η i valószínűségi változók lineáris kombinációja.

A becslőfüggvények tulajdonságai 1 M( ˆβ 0 ) = β 0, M( ˆβ 1 ) = β 1 torzítatlanok 2 Szórásuk, azaz a becslés standard hibája megadható: D( ˆβ 0 ) = σ ˆβ0 = σ D( ˆβ 1 ) = σ ˆβ1 = σ 3 A becslés konzisztens. X 2 i n d 2 X 1 n d 2 X Itt σ az ε (nem ismert) szórása külön becsülni kell a mintából.

Minta szórásának becslése Az elméleti szórás: D(ε) = σ ε A mintából becsült szórás: ˆσ ε = 1 n (ηi ŷ i ) 2 Konkrét mintából becsült szórás: s e = e 2 i n 2 Itt ei 2 a minimalizálni kívánt négyzetösszeg, n 2 pedig a szabadságfokok száma torzítatlan becslés.

A regressziós becslés abszolút és relatív hibája Abszolút hiba Kifejezi, hogy a regressziós becslések (ŷ i ) átlagosan mennyivel térnek el az eredményváltozó (y i ) megfigyelt értékeitől. Itt s e, ld. fent, vagy s e = s y 1 r 2 Relatív hiba Kifejezi, hogy a regressziós becslések átlagosan hány %-kal térnek el az eredményváltozó megfigyelt értékeitől. Itt: V e = sē y. A gyakorlatban 10% alatti relatív hiba esetén jó a regressziós becslés.

A paraméterek intervallumbecslése Belátható, hogy β 1 ˆβ 1 σ ˆβ 1 n 2 szabadságfokú Student t-eloszlást követ. 1 α valószínűségi szint esetén ( ) β 1 b 1 t α (1 2 ) s b 1 ; b 1 + t α (1 2 ) s b 1 ( ) β 0 b 0 t α (1 2 ) s b 0 ; b 0 + t α (1 2 ) s b 0

Regressziós becslések és prognózisok A regressziós függvény minden x 0 értékre kidob egy ŷ 0 -t. Ez mit jelent? 1 Az Ȳ 0 = M(Y X = X 0 ) becslése. 2 Annak becslése, hogy (X 0, Y 0 ) minta esetén y 0 mekkora lehet. 1. Az x 0 értékhez tartozó feltételes várható érték intervallumbecslése. A ŷ 0 szórása meghatározható (itt: konkrét mintára): 1 sŷ0 = s e n + (x 0 x) 2 (x x) 2 (Ez x közelében a legjobb, távolodva romlik a becslés.) A konfidenciaintervallum pedig: ( ) ŷ 0 t α (1 2 ) s 1 e n + (x 0 x) 2 (x x) 2 ; ŷ 0 + t α (1 2 ) s 1 e n + (x 0 x) 2 (x x) 2

Regressziós becslések és prognózisok 2. Az egyedi y 0 becslések konfidenciaintervalluma... ha egy hiányzó Y 0 adatot kívánunk becsülni adott X 0 helyen. Y 0 = ˆβ 0 + ˆβ 1 X 1 + ε 0 = ŷ 0 + ε 0 σ 2 Y 0 = σ 2 ŷ 0 + σ 2 e A Y 0 szórása meghatározható (itt: konkrét mintára): 1 sŷ0 = s e n + (x 0 x) 2 (x x) 2 + 1 A ( konfidenciaintervallum pedig: ŷ 0 t α (1 2 ) s e 1 n + (x 0 x) 2 (x x) 2 + 1; ŷ 0 + t (1 α 2 ) s e ) 1 n + (x 0 x) 2 (x x) 2 + 1

A regressziófüggvény hipotézis-ellenőrzése A regressziófüggvény mintából származik, kérdés érvényes-e a sokaságra is. 1 Szignifikáns-e β 1? 2 Szignifikáns-e maga a regressziófüggvény? (két ismérv esetén a kettő ugyanaz)

A regressziós együttható (β 1 ) tesztelése Feltételezzük, hogy nincs korreláció, a tapasztalati paraméter b 1 0-tól való eltérését a véletlen okozza. H 0 : β 1 = 0, H 1 : β 1 0. n elemű minta esetén β 1 ˆβ 1 ˆσ ˆβ1 n 2 szabadságfokú t-eloszlást követ. α szignifikanciaszinten elfogadjuk, ha t = b 1 s b1 < t (n 2) 1 α 2

Varianciaanaĺızis a regressziószámításban y i = ŷ i + e i 1 y i : az Y megfigyelt értéke (X = x i ) 2 ŷ i = b 0 + b 1 x i : az x i -hez tartozó regressziós becslés 3 e i : maradéktag v. reziduum. n i=1 (y i ȳ) 2 = n i=1 (ŷ i ȳ) 2 + n i=1 (y i ŷ) 2 SST = SSR + SSE reziduális négyzetösszeg SSE = 0 függvényszerű kapcsolat. SSE 0 sztochasztikus kapcsolat.

Varianciaanaĺızis 2 A szórásnégyzet Eltérés- Szabadságfok Átlagos forrása négyzetösszeg négyzetösszeg Regresszió SSR = (ŷ i ȳ) 2 1 (ŷi ȳ) 2 1 (yi ŷ) 2 Hibatényező SSE = (y i ŷ) 2 n 2 Teljes SST = (y i ȳ) 2 n 1 Hipotézisvizsgálat: tagadjuk a regresszió létezését. H 0 : β 1 = 0 és H 1 : β 1 0 SSR = külső; SSE = belső szórás F -próba. Konkrét minta esetén: F 0 = SSR 1 SSE F (1) (n 2) n 2 n 2

Szorosság mérése varianciaanaĺızis-tábla alapján Determinációs együttható (r 2 ) A regresszió által megmagyarázott eltérés-négyzetösszegnek az y teljes eltérés-négyzetösszegéhez való aránya. r 2 = SSR SST = SST SSE SST = 1 SSE SST

Diagnosztikai tesztek Diagnosztikai teszt Értékeli a modellt; levont következtetések valódiságát támasztja alá. A reziduális változó tapasztalati értékeit (e i ) vizsgáljuk. Megfelel az elméleti ε i -nek hasonló tulajdonságokkal kell, hogy rendelkezzen. Például: a hibatényező szórása állandó nem jó, ha nő a szórás!

Robusztus becslési módszerek Mérési hibák: pontatlan adatok, eĺırás, stb. robusztus becslési módszerek: kevésbé érzékenyek. Nyesett átlag: elhagyunk nα megfigyelést a rangsor két szélén, majd újra becslés.

Nemlineáris regresszió Ha az X változó hatása Y -ra függ X nagyságától nemlineáris regresszió. Fontosabb típusai: hatványkitevős exponenciális parabolikus hiperbolikus A paraméterek meghatározására legkisebb négyzetek módszere.

Parabolikus regressziófüggvény Az eltérés-négyzetösszeg: ŷ = b 0 + b 1 x + b 2 x 2 f (b 0, b 1, b 2 ) = (y i ŷ i ) 2 = (y i b 0 b 1 x i b 2 x 2 i ) 2 A 0-val egyenlővé tett b 0, b 1, b 2 szerinti parciális deriváltakból kapjuk a normálegyenleteket: yi =b 0 n +b 1 xi +b 2 x 2 i xi y 1 =b 0 xi +b i x 2 i +b 2 x 3 i x 2 i y i =b 0 x 2 i +b 1 x 3 i +b 2 x 4 i Mikor használjuk? Ha a két változó közötti összefüggés iránya megváltozik Gyakori, hogy azt vizsgáljuk, hol maximális.

Hatványkitevős regressziófüggvény ŷ = b 0 x b 1 log ŷ = log b 0 + b 1 log x lineáris kapcsolat log x és log y között. Megoldás, mint a lineáris regressziónál A hatványkitevő a rugalmassági együtthatóval azonos. 1%-kal nagyobb x értékhez hány %-kal nagyobb y tartozik.

Exponenciális regressziófüggvény ŷ = b 0 b 1 x log ŷ = log b 0 + log b 1 x lineáris kapcsolat x és log y között. A b 1 arra ad választ, hogy a tényezőváltozó egységnyi növekedése hányszorosára változtatja az eredményváltozó értékét.

9.8. Feladat 19 ország adatai alapján vizsgálták az 1 lakosra jutó GDP, X és az 1000 lakosra jutó személygépkocsik száma, Y közötti összefüggést. Számítási eredmények: Lineáris regressziófüggvény: ŷ = 83, 4 + 0, 0935x. A megfigyelt változók szórásai: σ (x) = 1149; σ (y) = 120, 5. lg x = 67, 57, (lg y) 2 = 107, 5812, lg y = 44, 7463, (lg x lg y) = 160, 0585, (lg x) 2 = 240, 8056.

9.8. Feladat Feladat: a) Milyen szoros a kapcsolat a két ismérv között? b) Hány %-ban játszik szerepet az X ismérv az Y szórásában? c) Írjuk fel a hatványkitevős regresszió normálegyenleteit és számítsuk ki a paramétereket! d) Értelmezzük mindkét regressziófüggvény b 1 paraméterét! e) Adjunk becslést egy olyan országra, amelynek az 1 lakosra jutó GDP-mutatója 7200 dollár!

9.8. Feladat Megoldás a) Milyen szoros a kapcsolat a két ismérv között? A kapcsolat szorosságát a kovarianciával, vagy lineáris korrelációs együtthatóval mérhetjük. Tudjuk, hogy β 1 = cov(ξ, η) D 2 (ξ) cov(ξ, η) = β 1 D 2 (ξ) cov(ξ, η) = 0, 0935 1149 2 = 123439 R(ξ, η) = cov(ξ, η) D(ξ)D(η) R(ξ, η) = 123439 = 89, 1% 1149 120, 5

9.8. Feladat Megoldás b) Hány %-ban játszik szerepet az X ismérv az Y szórásában? A determinációs együttható (r 2 ) határozza meg. r 2 = R 2 (ξ, η) = 0, 891 2 = 79, 5%. Az X ismérv az Y szórását 79,5%-ban határozza meg.

9.8. Feladat Megoldás c) Írjuk fel a hatványkitevős regresszió normálegyenleteit és számítsuk ki a paramétereket! Hatványkitevős regressziófüggvény:ŷ = b 0 x b 1 azaz lg ŷ = lg b 0 + b 1 lg x. Normálegyenletek: lg yi = n lg b 0 + b 1 lg xi lg xi lg y i = lg b 0 lg xi + b 1 lg x 2 i 44, 75 = 19 lg b 0 + 67, 57b 1 160, 06 = 67, 57 lg b 0 + 240, 81b 1 b 1 = 1, 83, lg b 0 = 4, 165, azaz b 0 = 0, 000068, így ŷ = 0, 000068x 1,83.

9.8. Feladat Megoldás d) Értelmezzük mindkét regressziófüggvény b 1 paraméterét! Lineáris regresszió: Ha a GDP 1000 dollárral nő, akkor 1000 lakosonként 93,5 autóval több lesz. Hatványkitevős regresszió: Ha a GDP 1%-kal nő, (kb.) hány %-kal nő az 1000 lakosra jutó gépkocsik száma.

9.8. Feladat Megoldás e) Adjunk becslést egy olyan országra, amelynek az 1 lakosra jutó GDP-mutatója 7200 dollár! Lineáris regresszió: ŷ = 83, 4 + 0, 0935x = 83, 4 + 0, 0935 7200 = 589, 8. Hatványkitevős regresszió: ŷ = 0, 000068x 1,83 = 0, 000068 7200 1,83 = 807, 2.