Bevezetés az ökonometriába Többváltozós lineáris regresszió: modellspecifikáció, interakció Ferenci Tamás MSc 1 tamas.ferenci@medstat.hu 1 Statisztika Tanszék Budapesti Corvinus Egyetem Ötödik előadás, 2010. október 13.
Tartalom 1 Ismétlés Utóbbi előadások áttekintése 2 Háztartási Költségvetési Felvétel (HKF) 3
Utóbbi előadások áttekintése Előző részeink tartalmából Ismerkedés az ökonometriával, az ökonometriai modellezéssel Többváltozós lineáris regresszió alapjai, modelljellemzés Mintavételi vonatkozások: becslések és hipotézisvizsgálat Modelljellemzés
Háztartási Költségvetési Felvétel (HKF) A HKF-ről Durván: háztartásokra irányuló, költségvetésüket vizsgáló adatfelvétel (évtizedek óta készít a KSH ilyeneket) Pontos célsokaság: magánháztartásban élő magyar állampolgárok Pontos cél: a lakosság jövedelmeinek és kiadásainak, mind pénzbeli mind természetbeli vetületben való kimutatása Célsokaság lekérdezése (éves) és naplóvezetés (havi) is igen részletes adatok (főleg: jövedelmek (munka-, tőke- stb.), fogyasztott termékek és szolgáltatások stb.) Célsokasági HT-ok rotálása a mintában (egyharmad per év), érdekesség kedvéért a mintavétel típusa: véletlen, R, TL Súlyozás (a mintában tízezer körüli HT), kalibrálás
Háztartási Költségvetési Felvétel (HKF) Eredmény- és magyarázó változóink Ökonometriai feladatunk most a háztartások kiadásának modellezése lesz Eredményváltozó: a háztartás éves kiadása [eft] Ismét igen sok magyarázó változó (-jelölt) 1 Település: régió, város, vidék 2 Lakásjellemzők: méret, jelleg 3 Háztartásjellemzők 1 Méret: taglétszám, fogyasztási egység 2 Szerkezet: aktív, inaktív, eltartott, munkanélküli 3 Felszereletség: tartós fogyasztási cikkek 4 HT tagok demográfiai jellemzői 5 Jövedelmi, vagyoni jellemzők 6 Fogyasztási szokások
A modellspecifikációról általában Részben hasonló kérdések mint a modellszelekciónál, nincs éles elkülönítés De: a modellszelekciónál nem foglalkoztunk azzal, hogy a változó elhagyás/hozzávétel strukturálisan mit jelent, csak azzal, hogy milyen hatásai vannak ( fenomenologikus leírás) Most a másik felével foglalkozunk: a változó bevonás/elhagyás hogyan hat a modell belső struktúrájára További modellspecifikációs kérdések: a modell bonyolultságának egyéb meghatározói (a változók számán túl): változók közti interakciók és függvényforma-választás
Változó bevonásának hatása a modellre Vessük össze ezt a két (demonstráció kedvéért igen kicsi) modellt az esettanulmány feladatára: KiadEFt = 339, 746 (13,783) + 0, 637354 JovEFt (0,0064924) T = 8314 R 2 = 0, 5369 F (1, 8312) = 9637, 2 ˆσ = 662, 02 (standard errors in parentheses) KiadEFt = 283, 172 (16,988) + 0, 616911 (0,0074136) JovEFt + 34, 1727 TLetszam (6,0199) T = 8314 R 2 = 0, 5386 F (2, 8311) = 4852, 8 ˆσ = 660, 78 (standard errors in parentheses) Miért változott meg a jövedelem becsült koefficiense?
Változó bevonásának hatása a modellre Mondjuk, hogy a bővebb modell írja le a valóságos helyzetet (a gyakorlatban ezt persze soha nem tudhatjuk, filozófiai kérdés) Azaz a valós helyzet a második regresszió Az érdekes, hogy ez alapján előre meg tudjuk mondani, hogy az első regresszióban mi lesz a jövedelem együtthatója! (... és ebből persze a változás okát is rögtön le tudjuk olvasni) A jövedelem ugyanis nem csak a kiadásra hat sztochasztikusan, hanem a taglétszámra is: TLetszam = 1, 65553 + 0, 000598206 JovEFt (0,025067) (1,1807e 005) T = 8314 R 2 = 0, 2359 F (1, 8312) = 2566, 9 ˆσ = 1, 2040 (standard errors in parentheses)
Változó bevonásának hatása a modellre Ebből összerakhatjuk a szűkebb regresszióban a jövedelem együtthatóját: 0,637 = 0,617 + 0,000598 34,17 A bővebb modellben az együttható 0,617: ennyi a jövedelem közvetlen (direkt) hatása (ha egy egységgel nő stb.), és itt véget is ér a sztori, mert a bővebb modellben a taglétszámot állandó értéken tartjuk (v.ö. a c.p. feltevés) ezért nincs jelentősége a taglétszám és a jövedelem közti sztochasztikus kapcsolatnak A szűkebb modellben viszont a jövedelem egységnyi növekedése a taglétszámot is növeli tendenciájában, a növekvő taglétszám viszont (önmagában is!) növeli a kiadást, ez lesz az indirekt hatás Totális hatás = direkt hatás + indirekt hatás(ok)
Változó bevonásának hatása a modellre A szűkebb regresszióban nem tudjuk izolálni a taglétszám hatását: ha a jövedelem nő, az a bővebb modellben nem társul a taglétszám növekedésével (v.ö. a paraméter c.p. értelmezésével), a szűkebb modellben viszont igen (hiszen ott nem endogén változó a taglétszám) a szűkebb modellben a kihagyott változón keresztül terjedő hatások is beépülnek az együtthatóba A gyakorlatban persze nem tudhatjuk, hogy mi a kihagyott változó
A specifikációs torzítás iránya Ez a torzítás milyen irányban módosítja a becsült paramétert? Az indirekt hatástól függ, és nem tudható általánosságban: növelheti, csökkentheti (és változatlanul is hagyhatja) a becsült koefficienst!
A Lagrange Multiplikátor (LM)-próba A hipotézispár teljesen azonos alakú a Wald-F-teszttel: U : Ŷ = β 1 + β 2X 2 +... + β q 1X q 1 + β qx q + β q+1x q+1 +... + β q+mx q+m R : Ŷ = β 1 + β 2X 2 +... + β q 1X q 1 + β qx q és H 0 : β q+1 = β q+2 =... = β q+m = 0 A különbség a modellezés filozófiájában van (ld. később), a teszt tulajdonságai, alkalmazhatósága is eltérő Alapötlet: becsüljük meg a szűkebb modellt, és számítsuk ki ez alapján a becsült reziduumokat. Ha fennáll H 0, akkor ezek a reziduumok nem magyarázhatóak lényegesen sem a szűkebb modell változóival (OLS következménye), sem a vizsgált változókkal (H 0 következménye). Azaz: ha a becsült reziduumokat kiregresszáljuk az összes változóval, akkor sem tudjuk azt lényegesen magyarázni, ha fennáll a H 0.
Az próbafüggvénye Ezen intuitív indoklás után a próbafüggvény: n RûR X 2,X 3,...,X k χ 2 m Itt û R jelölés arra utal, hogy a szűkebb (R) modellből kapott reziduumokról van szó
Interakció Ismétlés Eddigi modellünkben a marginális hatások a többi változó szintjétől függetlenül állandóak voltak Hihető ez? 1 Ft pluszjövedelem taglétszámtól függetlenül azonos többletkiadást jelent...? Ha nem, akkor azt mondjuk, hogy a két változó között interakció van: az egyik marginális hatásának nagyságát befolyásolja a másik szintje A kapcsolat tehát a marginális hatás és a szint között van (nem marginális hatás és marginális hatás vagy szint és szint között!) Kézenfekvő indulás: az egyik változó szintje lineárisan hasson a másik marginális hatására; sokaságban felírva: (β J + β JT Tag) Jov, ahol β JT az interakció hatását kifejező (lineáris) együttható
Interakció Ismétlés Helyezzük ezt be a (sokasági) regresszióba: Y = β 0 + (β J + β JT Tag) Jov + β T Tag, azonban felbontva a zárójelet: Y = β 0 + β J Jov + β JT Tag Jov + β T Tag = = β 0 + β J Jov + (β T + β JT Jov) Tag Tehát az interakció szükségképp, automatikusan szimmetrikus : ha az egyik változó szintje hat a másik marginális hatására akkor szükségképp fordítva is: a másik szintje is hatni fog az előbbi marginális hatására Azaz egyszerre lesz igaz, hogy (β J + β JT Tag) Jov és (β T + β JT Jov) Tag: attól függően, hogy milyen szempontból nézzük (melyik marginális hatását vizsgáljuk, ezt még ld. később is)
Interakció Ismétlés A regresszióban így elég egyszerűen ennyit írni: β T Tag + β J Jov + β JT (Jov Tag).... mindkét másik szintjétől függő marginális hatás ebből kiadódik, függően attól, hogy hogyan bontjuk fel a zárójelet (melyik változót vizsgáljuk)
A marginális hatás fogalma Marginális hatás: a magyarázó változó kis növelésének hatására mekkora az eredményváltozó egységnyi magyarázóváltozó-növelésre jutó változása Tipikus egyszerűsítés: a magyarázó változó egységnyi növelésének hatására mennyit változik az eredményváltozó Feltettük, hogy az 1 egység kicsinek tekinthető; mértékegységgel nem kell törődni Idáig az i-edik magyarázó változó ilyen módon értelmezett marginális hatása és a β i számértéke gyakorlatilag szinonima volt
A marginális hatás precízebben Definíció alapján a marginális hatás: Y X j, ha X j kicsiny Ugye egyetemen vagyunk a marginális hatás Y X j A többváltozós lineáris regresszió eddigi (sokasági) modelljében Y = β 1 + β 2 X 2 +... + β k X k, ezért Y X j = X j [β 1 + β 2 X 2 +... + +... + β j 1 X j 1 + β j X j + β j+1 X j+1 +... + β k X k ] = = β j...hát ezért tekinthettük eddig a marginális hatást és a becsült regressziós koefficienst szinonimának!
A marginális hatás interakciók esetén Ha azonban interakció van, például a l-edik és az m-edik tag között, akkor az l-edik marginális hatása: Y = [β 1 + β 2 X 2 +... + X l X l +... + β l X l +... + β m X m +... + β k X k + β lm X l X m ] = = β l + β lm X m Így precíz az előbbi állításunk arról, hogy ha az egyik szerint vizsgáljuk a marginális hatást, akkor az a másik szintjétől fog függeni (gondoljuk hozzá a másik szerinti deriválást is!)
A linearitás újabb megsértése Eddig megnéztük, hogy mit jelent az, ha megsértjük a marginális hatás nem függ attól, hogy a többi magyarázó változót milyen szinten rögzítjük következményét a linearitásnak És ha a marginális hatás nem függ attól, hogy milyen szintről indulva növeljük a változót következményt szeretnénk oldani? A változó marginális hatása függ a saját szintjétől... hasonló az előző esethez, de nem egy másik változó szintje hat a marginális hatásra, hanem a sajátja mintha önmagával lenne interakcióban! És tényleg: β j X j helyett β j X j + β jj X j X j esetén a j-edik magyarázó változó marginális hatása: [... + βj X j + β jj Xj 2 +... ] = β j + 2β jj X j X j
Grafikus magyarázat Ismétlés Szemléletesen az egy magyarázó változós esetben: 45 40 35 30 25 20 15 10 5 0-5 -10 3x+10 2x^2-16x+24 0 2 4 6 8 Szélsőértékhely nyilvánvaló (első derivált előjelet vált): β j + 2β jj X j = 0 X j = β j 2β jj
Záró gondolat az interakció, kvadratikus hatás témájához Ez már átvezet a függvényforma-választás kérdéséhez a modellspecifikáción belül Ilyen értelemben lényeges különbség van a kettő között: kvadratikus hatást feltételezve a modell továbbra is paramétereiben lineáris lesz (noha változóiban nem az), interakcióval már nem! Látni fogjuk: OLS-nek mindegy a változóban nemlinearitás Emiatt az igazi újdonság az interakció A kvadratikus hatást, és a többi változóban való nemlinearitást később részletesen tárgyaljuk