Ökonometriai modellek paraméterei: számítás és értelmezés Írta: Werger Adrienn, Renczes Nóra, Pereszta Júlia, Vörösházi Ágota, Őzse Adrienn Javította és szerkesztette: Ferenci Tamás (tamas.ferenci@medstat.hu) 2011. január 5. Ez a segédanyag (mélységét, horizontját tekintve: szigorúan csak emlékeztető!) összefoglalja a fontosabb ökonometriai modellek paramétereinek tárgyterületi értelmezését, valamint megmutatja számításuk menetét szimbolikusan, és a gretl programcsomag 1 használatával. A paraméterek a modellek jellege, típusa szerint vannak csoportosítva, és a következő részeket tartalmazhatják: J A paraméter általánosan használt jelölése, esetleg jelölései. É A paraméter értelmezése általában. M Megjegyzés a paraméterrel, illetve értelmezésével kapcsolatban. P Adatbázis neve: Paraméter konkrét értéke A paraméter értelmezése egy konkrét példán. A fejléc tartalmazza, hogy a példa melyik félév során vett adatbázisra vonatkozik, és azt is megadja, hogy konkrétan melyik paraméterre (annak értékével együtt). A paraméter számítása szimbolikus formában, a modell bemeneti paraméterei alapján. G A paraméter kiszámításának útja gretl programcsomag alatt. Jelölések Mintanagyság A mintanagyságot (mintaméretet, a megfigyelési egységek számát) n jelöli. Az egyes megfigyelési egységekre általában az i futóindexszel hivatkozunk: i = 1, 2,..., n. Eredményváltozó A modellünk eredményváltozóját általánosságban Y jelöli, a rá vonatkozó egyes konkrét megfigyelések (tehát az egyes megfigyelési egységek eredményváltozói): Y 1, Y 2,..., Y n. Mátrixalgebrai formalizmussal: Y 1 Y 2 Y n 1 = [Y i ] =.. Y n Becsült eredményváltozó Valamilyen modell használatával becsült eredményváltozót általánosságban az Ŷ jelöli. Az egyes megfigyelési egységekre a modellel becsült eredményváltozó- 1 A gretl egy ingyenes, nyílt forráskódú ökonometriai programcsomag, lásd http://gretl.sourceforge.net/. 1
1. KÉTVÁLTOZÓS KAPCSOLATVIZSGÁLAT 2 kat az Y 1, Y 2,..., Y n jelöli. Mátrixalgebrai formalizmussal: Ŷ 1 ] Ŷ 2 Ŷ n 1 = [Ŷi =.. Reziduum ( Valamely ) modell használatával becsült, és a tényleges eredményváltozók különbségét û = Y Ŷ jelöli. Az egyes megfigyelési egységeknél az értéke û 1, û 2,..., û n. Mátrixalgebrai formalizmussal: Ŷ n û 1 û 2 û n 1 = [û i ] =.. û n Becsült paraméterek száma Egy modell becsült paramétereinek számát k jelöli. (Figyelem: lineáris regresszióban, ha az tartalmaz konstanst is, a magyarázó változók száma ennél eggyel kevesebb, azaz k 1!) Magyarázó változók A modellünk magyarázó változóit általánosságban X jelöli. Az egyes változók jele: X 2, X 3,..., X k. (Tehát számuk k 1 darab, összhangban a k definíciójával, ld. az előző megjegyzést.) Az X j -re vonatkozó i-edik megfigyelés (tehát az i-edik megfigyelési egység j-edik magyarázó változójának) jele X ij. Mátrixalgebrai formalizmussal: X 12 X 13 X 1k X n (k 1) = [ ] X 22 X 23 X 2k X i(k+1) =....... X n2 X n3 X nk 1. Kétváltozós kapcsolatvizsgálat Kovariancia J cov (X, Y) É Két változó közti sztochasztikus kapcsolat irányát a kovariancia előjele adja meg, erőssége a kovariancia abszolút értékével függ össze. P Lakás adatbázis: cov (Terulet, KinAr) = 712,1 A kínálati ár és terület között pozitív irányú sztochasztikus kapcsolat van, melynek erősségét a 712,1 jellemzi. G Közvetlenül nem számítható. cov (X, Y) = n [( Xi X ) ( Y i Y )] n Lineáris korrelációs együttható J corr (X, Y) É Két változó közti sztochasztikus kapcsolat irányát a lineáris korrelációs együttható előjele, erősségét a lineáris korrelációs együttható (szükségképp 0 és 1 közötti) abszolútértéke adja meg.
2. TÖBBVÁLTOZÓS LINEÁRIS REGRESSZIÓ 3 P Lakás adatbázis: corr (Terulet, KinAr) = 0,86 A kínálati ár és terület között pozitív irányú sztochasztikus kapcsolat van, melynek erősségét a 0,86 adja meg, azaz a kapcsolat erős. corr (X, Y) = cov (X, Y) σx σy G A két változó kijelölése után a View menü Correlation matrix pontjára, vagy jobb kattintás után a helyi menü ugyanilyen nevű pontjára kattintással felbukkanó ablak első sorában található. (A két út között egy különbség van: az első megoldás előbb egy olyan ablakot hoz fel, amin lehetőségünk van módosítani a vizsgált változókat.) Kettőnél több változó kijelölése esetén a program korrelációs mátrixot prezentál. 2. Többváltozós lineáris regresszió M Ebben a pontban Y = β 1 + β 2 X 2 + β 3 X 3 +... + β k X k + u k elméleti (sokasági) modellt feltételezünk, mely mintából becsülve Ŷ = β 1 + β 2 X 2 + β 3 X 3 +... + β k X k + û k alakú. G Ebben a pontban sok paraméternél fogunk hivatkozni az ún modell-ablakra, mely a prezentációs formája a többváltozós lineáris regressziónak a gretl-ben: minden lineáris regresszióhoz tartozik egy ilyen ablak (melyet a gretl a modell létrehozásakor nyit meg), ebben láthatóak a modell paraméterei, végezhetőek el a rá vonatkozó próbák stb. Az ablakot létrehozni (azaz többváltozós regressziós modell létrehozni) két (ekvivalens) módon lehet. Menüből: Model \ Ordinary Least Squares. Alsó eszköztárból: β feliratú ikon (jobbról a második). A feljövő ablakban meg kell adni (nyíl-gombokkal) az eredményváltozót (Dependent variable és a magyarázó változókat (Independent variable). (Ez utóbbinál a const a konstanst jelenti, szintén eltávolítható!) Az eredményváltozó melletti Set as default bepipálásával a későbbi modelleknél is a most beállított eredményváltozót hozza be egyfajta alapértelmezésként eredményváltozónak. (Ez persze módosítható.) Becsült regressziós koefficiens J βj É Azt mutatja meg, hogy ceteris paribus (a többi tényező változatlansága esetén) az X j magyarázó változó egy egységnyi növekedésének hatására az Y eredményváltozó a modellünk szerint várhatóan mennyivel változik. M Tehát ez a paraméter abszolút (azaz a változó természetes egységében mért) változást köt össze abszolút változással. P Lakás adatbázis: β Alapterulet = 0,297 Ceteris paribus a terület 1 m 2 -es növekedésének hatására a kínálati ár modellünk szerint várhatóan 297 eft-tal nő. β j = [ ( ) 1 X T X X Y] T, j azaz a fenti mátrixművelet eredményeként adódó vektor j-edik eleme. (A vektor tehát az összes becsült regressziós koefficienst összefogó vektor.) Itt X az X mátrix kiegészítve (bal szélén) egy csupa 1-est tartalmazó oszloppal: X = [1, X].
2. TÖBBVÁLTOZÓS LINEÁRIS REGRESSZIÓ 4 G A modell-ablak coefficient oszlopában találhatóak az egyes becsült regressziós koefficiensek (mindegyik sorban az adott sorba írt magyarázó változóhoz tartozó). Standard hiba (becsült regressziós koefficiens becsült standard hibája) ) J ŝe ( βj É A becsült regressziós koefficiens mintavételi ingadozását jellemző paraméter: a becsült regressziós koefficiens mintavételi eloszlásának szórása. P Lakás adatbázis: ŝe ( βalapterulet ) = 0,01 Az alapterület becsült regressziós koefficiensének szórása 0,01 m 2. ) ŝe ( βj = ESS [ ( ] 1 n k X X) T, jj ahol a jelölés ismét arra utal, hogy a mátrixművelet eredményeként adódó mátrix j-edik sorának j-edik oszlopában lévő elemet kell tekinteni (és továbbvinni a számításban). G A modell-ablak std. error oszlopában találhatóak az egyes (becsült) standard hibák (mindegyik sorban az adott sorba írt magyarázó változó becsült regressziós koefficienséhez tartozó). Konfidenciaintervallum a becsült regressziós koefficiensre J CI j (α) É Azt adja meg, hogy az X j magyarázó változó koefficiense milyen intervallumba esik nagy (1 α, általában 95 %) megbízhatósággal, ha tekintettel vagyunk a koefficiens mintavételi ingadozására. (Precízen: nagyon sokszor megismételve a mintavételt, az ilyen módon megkonstruált konfidenciaintervallumok az összes mintavétel 1 α részében tartalmaznák a tényleges sokasági koefficienst.) P Lakás adatbázis: CI Alapterulet (0,95) = [ 8,78; 5,60] Az alapterület elméleti regressziós koefficiensét a mintavételi ingadozás miatt pontosan nem ismerjük, de nagy (95 %-os) megbízhatósággal állíthathatjuk, hogy a [ 8,78; 5,60] intervallumba esik. CI j (α) = β ) j ± t 1 α/2 ŝe ( βj G A modell-ablak Analysis menüjének Confidence intervals for coefficients pontjával előhívható ablak 95% CONFIDENCE INTERVAL oszlopában találhatóak a 95 %-os konfidenciaintervallumok határai. (A megbízhatósági szint az eszköztár α feliratú (jobbról negyedik) ikonjára kattintva állítható.) t-hányados J t j É A magyarázó változó relevanciájára vonatkozó próba tesztstatisztikája. (Ennél H 0 : β j = 0, azaz a j-edik (sokasági, elméleti) regressziós koefficiens 0, vagyis a változó irreleváns.) P Lakás adatbázis: t Alapterulet = 29,13
2. TÖBBVÁLTOZÓS LINEÁRIS REGRESSZIÓ 5 Az alapterület t-hányadosának értéke, azaz az irrelevanciájára irányuló próba tesztstatisztikája 29,13. β j t j = ) ŝe ( βj G A modell-ablak t-ratio oszlopában találhatóak az t-hányadosok (mindegyik sorban az adott sorba írt magyarázó változó becsült regressziós koefficienséhez tartozó). t-próba p-értéke J p j É Az a szignifikanciaszint, amelynél a t-próba nullhipotézisét éppen elfogadjuk/elvetjük: ennél nagyobb szignifikanciaszint választása esetén elvetjük, kisebb választása esetén elfogadjuk a H 0 -t. (Tehát minél kisebb, annál inkább elvetjük a H 0 -t, vagyis az X j magyarázó változó relevanciájában annál biztosabbak vagyunk.) P Lakás adatbázis: p Alapterulet = 0,000 Az alapterülethez tartozó p-érték 0,000, vagyis a terület releváns változó a modellben minden szokásos szignifikanciaszinten. p j = 2F n k ( t j ) = 2 [1 F n k (t j )], ahol F n k az n k szabadságfokú t-eloszlás eloszlásfüggvénye. G A modell-ablak p-value oszlopában találhatóak a t-próbák p-értékei (mindegyik sorban az adott sorba írt magyarázó változó becsült regressziós koefficienséhez tartozó). Standardizált becsült regressziós koefficiens J βj É Azt mutatja meg, hogy ceteris paribus az X j magyarázó változó egy (saját) szórásnyi növekedésének hatására az eredményváltozó a (saját) szórásának hányszorosával változik modellünk szerint várhatóan. M A standardizált becsült regressziós koefficiens nem függ a változók mértékegységétől (szemben a sima regressziós koeficienssel). M Alkalmas a változó hatásnagyságának heurisztikus mérésére (szemben a sima regressziós koeficienssel). P Lakás adatbázis: βalapterulet = 0,639 Minden mást változatlanul tartva, ha a terület a saját szórásával megnő, akkor ennek hatására a kínálati ár modellünk szerint várhatóan a szórásának 0,639-szorosával nő. β j = β j σx i σy. (Elvileg a teljesen standardizált adatbázison lefuttatott OLS becsült regressziós koefficienseként is megragadható.)
2. TÖBBVÁLTOZÓS LINEÁRIS REGRESSZIÓ 6 G Közvetlenül nem számítható. (Illetve csak valamennyi változó standardizálásával, majd OLS futtatásával.) Parciális korreláció J corr (Y, X j.x 1, X 2,..., X j 1, X j+1,..., X k ) É Az X j magyarázó változó és az eredményváltozó sztochasztikus kapcsolatát jellemzi, ha kiszűrjük a többi változón keresztül terjedő hatásokat. P Lakás adatbázis: corr (KinAr, Alapterulet.Terasz, obaszam,..., Emelet, DeliFekves) = 0,615 Az alapterület és az eredményváltozó sztochasztikus kapcsolatát jellemző parciális korrelációs érték 0,615, ha kiszűrjük a többi változón keresztül terjedő hatásokat. corr (Y, X j.x 1, X 2,..., X j 1, X j+1,..., X k ) = t 2 j t 2 j + (n k) G Közvetlenül nem számítható. Reziduális (vagy hiba-) négyzetösszeg J ESS É A mintaelemek tényleges értékei és modellünk szerint becsült értékei közötti különbségek négyzeteinek összege. P Lakás adatbázis: ESS = 110866 Az adatbázisunkban a kínálati árat az alapterület, teraszméret,..., déli tájolás változókkal magyarázva a mintaelemek tényleges kínálati árai és modellünk szerint becsült kínálati árai közötti különbségek négyzeteinek összege 110866 Ft 2. ESS = û T û = n û 2 i = n ( ) 2 Y i Ŷi G A modell-ablak Sum squared resid pontja mellett található a reziduális négyzetösszeg. Másik ezzel egyenértékű lehetőségként a modell-ablak Analysis menüjének ANOVA pontjára kattintva megnyíló ablakban, a Residual sorának első (Sum of squares feliratú) oszlopában is megtalálható. Teljes négyzetösszeg J T SS É A nullmodell (tökéletesen rossz modell, amiben minden mintaelemet az átlaggal becsültünk) ESS-e. P Lakás adatbázis: T SS = 541720 Az adatbázisban a kínálati árat a tökéletesen rossz modellel becsülve (azaz olyannal, amelyik mindegyiket az átlagos kínálati árral becsüli), a mintaelemek tényleges kínálati árai és modellünk szerint becsült kínálati árai (tehát az átlagos kínálati ár) közötti különbségek négyzeteinek összege 541720 Ft 2.
2. TÖBBVÁLTOZÓS LINEÁRIS REGRESSZIÓ 7 n ( T SS = Yi Y ) 2 G A modell-ablak Analysis menüjének ANOVA pontjára kattintva megnyíló ablakban, a Total sorának első (Sum of squares feliratú) oszlopában található a teljes négyzetösszeg. Regressziós négyzetösszeg J RSS É Azt mutatja meg, hogy mennyivel csökkent az ESS a nullmodellhez képest azáltal, hogy felhasználtunk magyarázó változókat. P Lakás adatbázis: RSS = 430854 A modellünkben a reziduális négyzetösszeg 430854 Ft 2 -tel csökkent az elméleti maximumhoz (a nullmodelléhez ESS-éhez) képest azáltal, hogy felhasználtuk az alapterület, teraszméret,..., déli tájolás magyarázó változókat. RSS = T SS ESS = n ( Yi Y ) 2 n ( ) 2 Y i Ŷi M Belátható, hogy ha van konstans a modellben, akkor RSS = n 2 (Ŷi Y) G A modell-ablak Analysis menüjének ANOVA menüpontjára kattintva megnyíló ablakban, a Regression sorának első (Sum of squares feliratú) oszlopában található a teljes négyzetösszeg. Többszörös determinációs együttható J R 2 Y X 1,X 2,...,X n vagy ha egyértelmű, akkor egyszerűen R 2 É A magyarázó változók ismerete mennyiben csökkentette az eredményváltozó tippelésekor a bizonytalanságunkat (ahhoz képest, mintha nem ismertünk volna egyetlen magyarázó változót sem). Ezzel egyenértékű: az eredményváltozó szóródásának mekkora részét magyarázzák a magyarázó változók. M A többszörös determinációs együtthatóból vont pozitív négyzetgyök a többszörös korrelációs együttható, jele: R Y X1,X 2,...,X n vagy ha egyértelmű, akkor egyszerűen R: R = R 2. P Lakás adatbázis: R 2 = 0,795 A kínálati ár becslésének bizonytalansága 79,5%-kal csökken, ha ehhez felhasználjuk a lakás alapterületét, teraszméretét,..., déli tájolását mint információkat. Ezek a változók a kínálati ár szóródásának 79,5%-át magyarázzák.
2. TÖBBVÁLTOZÓS LINEÁRIS REGRESSZIÓ 8 R 2 = RSS T SS = T SS ESS T SS = 1 ESS T SS G A modell-ablak R-squared pontja mellett található a többszörös determinációs együttható. Másik ezzel egyenértékű lehetőségként a modell-ablak Analysis menüjének ANOVA pontjára kattintva megnyíló ablakban, az R^2 sorában is megtalálható. Globális F -próba tesztstatisztikája J F É A modell egészének relevanciájára irányuló próba tesztstatisztikája. (Ennél H 0 : β 2 = β 3 =... = β k = 0, azaz mindegyik (sokasági, elméleti) regressziós koefficiens 0, vagyis a modell egészében is irreleváns.) P Lakás adatbázis: F = 776,1 A modell irrelevanciájára irányú próba tesztstatisztikája 776,1. F = RSS/ (k 1) ESS/ (n k) = R 2 / (k 1) (1 R 2 ) / (n k) G A modell-ablak F("n-1","n-k") pontja mellett található a globális F -próba tesztstatisztikája. Másik ezzel egyenértékű lehetőségként a modell-ablak Analysis menüjének ANOVA pontjára kattintva megnyíló ablakban, az F("n-1","n-k") kezdetű sor végén, a szögletes zárójelek előtt is megtalálható. (Itt "n-1" és "n-k" a konkrét modellből számolt n 1 és n k számértékeket jelenti.) Globális F -próba p-értéke J p F É Ahhoz a H 0 nullhipotézishez tartozó p-érték, miszerint minden változó irreleváns (minden β j (j > 1) egyszerre 0), más szóval a modell egészében irreleváns. Minél kisebb ez a p-érték, annál biztosabbak lehetünk abban, hogy H 0 elvethető, azaz létezik legalább egy változó a modellben, ami releváns. P Lakás adatbázis: p F = 0,000 A globális F -próbához tartozó p-érték 0,000, vagyis minden szokásos szignifkanciaszinten kijelenthető, hogy a modellben van releváns változó, az nem egészében irreleváns. Itt hallgatói munkát várok a t-próba mintájára! G A modell-ablak P-value(F) pontja mellett található a globális F -próba p-értéke. Másik ezzel egyenértékű lehetőségként az modell-ablak Analysis menüjének ANOVA pontjára kattintva megnyíló ablakban, az F ("n-1", "n-k") kezdetű sor végén, a szögletes zárójelekben is megtalálható. (Itt "n-1" és "n-k" a konkrét modellből számolt n 1 és n k számértékeket jelenti.) Tolerancia J Tol j É Azt mutatja meg, hogy az X j magyarázó változót mennyiben nem magyarázza a modellben szereplő összes többi magyarázó változó.
2. TÖBBVÁLTOZÓS LINEÁRIS REGRESSZIÓ 9 M Értéke azzal függ össze, hogy az X j magyarázó változó mennyi új információt jelent a többi magyarázó változó mellett. P akágazatsoros termelési függvény adatbázis: Tol AnyagiRaf = 0,383 Az anyagi ráfordítás alakulását 38,3%-ban nem magyarázza a modellünbe bevont többi magyarázó változó. Tol j = 1 R 2 j = 1 R 2 X j X 2,X 3,...,X j 1,X j+1,...,x k, ahol R 2 j azon regresszió többszörös determinációs együtthatója, melyben X j az eredményváltozó, és az összes magyarázó változó, X j kivételével, a magyarázó változó. G Közvetlenül nem számítható. Varianciainfláló faktor J VIF j É Azt mutatja meg, hogy a β j becsült regressziós koefficiens mintavételi szórásnégyzete az elvi minimumának (vagyis annak az értékének, amit akkor venne fel, ha a multikollinearitás 0 lenne, azaz a többi magyarázó változó egyáltalán nem magyarázná X j -t) hányszorosa pusztán annak következtében, hogy X j -t magyarázza a többi magyarázó változó. M A multikollinearitás súlyosságát méri. P akágazatsoros termelési függvény adatbázis: VIF AnyagiRaf = 2,61 Az anyagi ráfordítás becsült regressziós koefficiensének mintavételi szórásnégyzete az elvi minimumának (vagyis annak az értékének, amit akkor venne fel, ha a multikollinearitás 0 lenne, azaz a többi magyarázó változó egyáltalán nem magyarázná az anyagi ráfordítást) 2,61-szorosa pusztán annak következtében, hogy az anyagi ráfordítást magyarázza a többi magyarázó változó. VIF j = 1 Tol j G A modell-ablak Tests menüjének Collinearity pontjával előhívható ablakban a változók neve mellett.