Bevezetés az ökonometriába Többváltozós lineáris regresszió: mintavételi vonatkozások és modelljellemzés Ferenci Tamás MSc 1 tamas.ferenci@medstat.hu 1 Statisztika Tanszék Budapesti Corvinus Egyetem Harmadik előadás, 2010. szeptember 28.
Tartalom 1 Ismétlés Utóbbi előadások áttekintése 2 A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása 3 A többszörös determinációs együttható 4 Parciális korreláció Standardizált regresszió
Előző részeink tartalmából Utóbbi előadások áttekintése Ismerkedés az ökonometria fogalmával, feladataival, módszereivel Az ökonometriai modellalkotás menete Kétváltozós szóródás jellemzése Regresszió kétváltozós esetben Lineáris regresszió általában, többváltozós esetben
Legfontosabb eredmények képletekben Utóbbi előadások áttekintése A többváltozós lineáris regresszió matematikai kerete nagyon tömören: Ŷ = β 1 + β 2 X 2 + β 3 X 3 +... + β k X k û i = Y i Ŷi n 2 ESS = û i min β i=1 ESS Előrejelzés látható a fentiekből Értelmezés: koefficiensek (meredekség, tengelymetszet), elaszticitás
A mintavételi helyzet hatásai A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása Az adatbázisunk alapján megkaptuk a regressziós egyenest ( β) De vigyázat: az adatbázis csak egy minta az eladásra kínált lakások sokkal bővebb sokaságából a β i paraméterek annak hatását is tükrözik, hogy konkrétan milyen mintát választottunk Mintavételi ingadozás lép fel (még akkor is, ha tökéletes a mintavétel, ennek tehát semmi köze pl. a reprezentativitáshoz) Tehát: az egyes β i paraméterek mintáról-mintára ingadoznak : minden mintából más paramétereket kapnánk (Természetesen reméljük, hogy az ingadozás kellemes tulajdonságokkal bír, például a valós érték körül történik, szorosan körülötte stb., erről később)
Az OLS mint becslőfüggvény A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása Ha ismernénk az egész sokaságot, akkor arra lefuttatva megkaphatnánk a tökéletes β i paramétereket (értsd: nem terheli őket mintavételi hiba) Ezeket nevezzük sokasági vagy elméleti regressziós koefficienseknek Tehát: van egy sokasági paraméter, amit mi mintából próbálunk megsaccolni... nem ismerős? Ez épp a becslés statisztikai feladata! Az OLS tehát egy becslőfüggvény! (Mint az X csak kicsit bonyolultabb... ) ezért a kalap Vizsgálhatóak tehát a tulajdonságai, mint becslőfüggvény
OLS modellfeltevései A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása Bizonyos feltételek teljesülése esetén az OLS szolgáltatta becslések BLUE-k (Gauss-Markov tétel): Best (minimális varianciájú) Linear (lineáris a mintaelemekben) Unbiased (torzítatlan) Ezért szeretjük az OLS-t! A feltételek amiknek teljesülnie kell (a nyilvánvalóakon túl): Homoszkedaszticitás Autokorrelálatlanság Ezeket együttesen szokás a lineáris modell standard modellfeltevéseinek nevezni később részletesen tárgyaljuk őket
Egy példa a BLUE tulajdonságra A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása Például a szobaszám mintavételi eloszlása (csak szemléltetés: feltételeztük, hogy a valódi érték β Szobaszam = 1,18) 1 0.8 0.6 0.4 0.2 0-0.5 0 0.5 1 1.5 2 2.5 3 Összekapcsoltan mutatja a mintáról-mintára ingadozást és a becslőfüggvény jellemzőit
Változó relevanciája A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása Definíció (Változó relevanciája) Egy változót relevánsnak nevezünk, ha a sokasági paramétere nem nulla: β i 0. Elárulom, hogy a β i becsült regressziós koefficiensek mintavételi ingadozását a következő összefüggés írja le: β i β ( ) i t n k ŝe βi
Hipotézisvizsgálat változó relevanciájára A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása Ez alapján már konstruálhatunk próbát változó relevanciájának vizsgálatára: 1 H 0 : β i = 0 2 Ekkor (azaz ha ez fennáll!) a t emp,i = β i ŝe( β kifejezés n k i) szabadságfokú t-eloszlást követ (nulleloszlás) 3 Számítsuk ki a konkrét t emp,i -t a mintánkból és döntsük el, hogy hihető-e, hogy t n k -ból származik A hipotézisvizsgálat elvégzéséhez szükséges minden tudnivalót a nullhipotézisen kívül összefoglal tehát a következő kifejezés (a későbbiekben is ezt a sémát fogjuk használni hipotézisvizsgálatok megadására): t emp,i = β ( i ) t n k. ŝe βi
A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása Példa változó relevanciájának vizsgálatára Az alapterület példáján: hihető-e, hogy a 0,2964 0,0108 = 27,43 ebből az eloszlásból származik: 0.5 t(1398) 0.4 0.3 0.2 0.1 0-5 -4-3 -2-1 0 1 2 3 4 5 Jellemzés: kritikus érték, p-érték
A gretl outputján A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása
Konfidenciaintervallum a paraméterekre A regresszió mintavételi szempontból A mintavételi eloszlás és hasznosítása Ez alapján könnyen szerkeszthető CI is, 1 α megbízhatósági szintre: ( ) β i ± t 1 α/2 ŝe βi. A gretl-ben (1 α = 0,95): Mi az összefüggés a CI és a p-érték között?
Modell jóságának viszonyítási pontjai A többszörös determinációs együttható A modell minősítéséhez kézenfekvő az ESS-t felhasználni Önmagában semmit nem ér, viszonyítani kell! Két kézenfekvő viszonyítási alap: Tökéletes (v. szaturált, perfekt modell): minden mintaelemre a pontos értéket becsüli û i = 0 ESS = 0 Nullmodell: semmilyen külső információt nem használ fel minden mintaelemet az átlaggal becsül. Definíció (Teljes négyzetösszeg, TSS) Egy adott regressziós modell teljes négyzetösszegének nevezzük a hozzá tartozó (tehát ugyanazon eredményváltozóra vonatkozó) nullmodell hibanégyzetösszegét: TSS = ESS null = n ( Yi Y ) 2. i=1
Hogyan jellemezzük modellünk jóságát? A többszörös determinációs együttható A minősítést képezzük a hol járunk az úton? elven: a tökéletesen rossz modelltől a tökéletesen jó modellig vezető út mekkora részét tettük meg Az út hossza TSS (= TSS 0), amennyit megtettünk : TSS ESS Definíció (Regressziós négyzetösszeg, RSS) Egy adott regressziós modell négyzetösszegének nevezzük a teljes négyzetösszegének és a hibanégyzetösszegének különbségét: RSS = TSS ESS.
Az új mutató bevezetése A többszörös determinációs együttható Ezzel az alkalmas modelljellemző mutató: Definíció (Többszörös determinációs együttható, R 2 ) Egy modell többszörös determinációs együtthatója (jele: RY X 2 1,...,X k, vagy ha a változók megadása nem fontos, egyszerűen R 2 ): R 2 = TSS ESS TSS = RSS TSS.
Az R 2 -ről bővebben A többszörös determinációs együttható Tulajdonság Minden regressziós modellre, amiben van konstans: 0 R 2 1. Hiszen ESS < TSS, ez a definíció alapján nyilvánvaló Ebből adódóan az R 2 egy modell jóságának legszéleskörűbben használt mutatója Értelmezhető %-ként: a magyarázó változók ismerete mennyiben csökkentette az eredményváltozó tippelésekor a bizonytalanságunkat (ahhoz képest, mintha nem ismertünk volna egyetlen magyarázó változót sem) De vigyázat: nagyságának megítélése, változók száma stb. A belőle vont pozitív négyzetgyököt többszörös korrelációs együtthatónak szokás nevezni
Az R 2 -ről bővebben A többszörös determinációs együttható Ha van konstans a modellben, akkor érvényes a következő felbontás: n ( Yi Y ) 2 n ( ) 2 n ) 2 = Y i Ŷi + (Ŷi Y i=1 i=1 i=1 (Négyzetek nélkül nyilvánvaló, de négyzetekkel is!) Röviden tehát: TSS = ESS + RSS Összevetve az előző definícióval, kapjuk hogy ) 2 RSS = (Ŷi Y
Egy megjegyzés a konstans szerepéről A többszörös determinációs együttható Az előzőek is motiválják, hogy megállapítsuk: konstanst mindenképp szerepltetünk a regresszióban, ha inszignifikáns, ha nem látszik különösebb értelme stb. akkor is! csak és kizárólag akkor hagyhatjuk el, ha az a modell tartalmából adódóan elméleti követelmény (erre látni fogunk nemsokára egy példát is, a standardizált regressziót) Ellenkező esetben (ún. konstans nélküli regresszió), a fenti felbontás nem teljesül, így a hol járunk az úton elven konstruált R 2 akár negatív is lehet!
Függetlenségvizsgálat A többszörös determinációs együttható A modellünk lényegesen különbözik-e a nullmodelltől? Tehát: van-e lényeges magyarázó ereje? Formálisan H 0 : β 2 = β 3 =... = β k = 0 Ha ez fennáll, szokás azt a megfogalmazást használni, hogy a modell egészében irreleváns (vö. változó irrelevanciája) Az ellenhipotézis nem az, hogy valamennyi változó releváns, hanem hogy van legalább egy, ami releváns!
Függetlenségvizsgálat A többszörös determinációs együttható A próba: RSS/ (k 1) F emp = ESS/ (n k) F k 1,n k ANOVA-tábla (a gretl-ben):
A parciális korreláció tartalma Parciális korreláció Standardizált regresszió Az eddig látott korrelációt mindig két változó között értelmezzük Megjelennek benne a többi változón keresztül terjedő hatások mit jelent ez megfogalmazás? Látszólagos korreláció jelensége (pl. félszobák száma és terület között) Ennek algebrai szűrésével (konkrét módszer most nem érdekes) nyerjük a parciális korrelációt Jelölése, pl. ha Y és X j között számítjuk, minden más magyarázó változó hatását szűrve: corr ( Y, X j.x 1, X 2,..., X j 1, X j+1,..., X k )
A parciális korrelációról Parciális korreláció Standardizált regresszió Olyan kontextusban, ahol ezt használjuk, a hagyományos korrelációt néha megkülönböztetésül totális korrelációnak nevezzük Egy érdekes összefüggés: corr ( ) t Y, X j.x 1, X 2,..., X j 1, X j+1,..., X k = j 2 tj 2 + (n k)
A standardizált regresszió logikája Parciális korreláció Standardizált regresszió Az eddig látott β i regressziós koefficiensek mértékegység-függőek mi is történik ha m 2 -ről áttérünk a cm 2 -re? Szeretnénk ettől megszabadulni: egy lehetőség, ha standardizáljuk az egész adatbázisunkat (eredményváltozót és magyarázó változókat is!) Ekkor lefuttatva a regressziót, a βi ún. standardizált regressziós koefficienseket nyerjük Érvényes a β i = β i σx i σy összefüggés (azaz a standardizált együtthatók megkapásához nem kell ténylegesen standardizálni az adatbázist)
A standardizált regresszió értelme Parciális korreláció Standardizált regresszió Ezek értelmezése: mint a szokásos regressziós együttható, de szórásnyi változásokat köt össze szórásnyi változóssal A szokásos β i koefficiensek nem alkalmasak a hozzájuk tartozó változó hatásnagyságának jellemzésére (bár intuitíve nagyon is így tűnhet: jó naggyal kell szorozni, akkó biztos nagyon hat az eredményváltozóra ) ld. a mértékegységfüggést A βi standardizált koefficiensek viszont már (persze csak mint heurisztikus mérőszámok) alkalmasak erre! Még egy érdekes összefüggés (R 2 alternatív számítása): R 2 = n β i corr (Y, X i ). i=1