Bevezetés az ökonometriába



Hasonló dokumentumok
1. II. esettanulmány Szakágazati mélységű termelési függvény becslése... 1

Bevezetés az ökonometriába

Idősoros elemzés minta

Idősoros elemzés. Ferenci Tamás, január 7.

Bevezetés az ökonometriába

Ökonometria. Modellspecifikáció. Ferenci Tamás 1 Hatodik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Gyakorlat: Sztochasztikus idősor-elemzés alapfogalmai II. Egységgyök-folyamatok és tesztek. Dr. Dombi Ákos

Ökonometria. Dummy változók használata. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Hetedik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Ökonometria. Modellspecifikáció. Ferenci Tamás 1 Hatodik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

STATISZTIKA PRÓBAZH 2005

Esetelemzések az SPSS használatával

BIOMETRIA_ANOVA_2 1 1

Esetelemzés az SPSS használatával

KISTERV2_ANOVA_

1., Egy területen véletlenszerűen kihelyezet kvadrátokban megszámlálták az Eringium maritimum (tengerparti ördögszekér) egyedeit.

Statisztika II. feladatok

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Elméleti összefoglalók dr. Kovács Péter

Ökonometria gyakorló feladatok Többváltozós regresszió

Ökonometria gyakorló feladatok - idősorok elemzése

Ökonometriai modellek paraméterei: számítás és értelmezés

- az egyik kiemelked fontosságú állapotjelz a TD-ban

Statisztikai szoftverek esszé

Standardizálás, transzformációk

1. (Sugár Szarvas fgy., 186. o. S13. feladat) Egy antikvárium könyvaukcióján árverésre került. = x = 6, y = 12. s y y = 1.8s x.

Correlation & Linear Regression in SPSS

Erdélyi Magyar Adatbank Biró A. Zoltán Zsigmond Csilla: Székelyföld számokban. Földtulajdon

Correlation & Linear Regression in SPSS

Ökonometria BSc Gyakorló feladatok a kétváltozós regresszióhoz

Sztochasztikus kapcsolatok

GyőrBike a győri közösségi bérkerékpár rendszer első éve

Ökonometria gyakorló feladatok 1.

WIL-ZONE TANÁCSADÓ IRODA

Erdélyi Magyar Adatbank Biró A. Zoltán Zsigmond Csilla: Székelyföld számokban. Lakáskörülmények

5. előadás - Regressziószámítás

Statisztika, próbák Mérési hiba

Lineáris algebrai módszerek a kombinatorikában

Normál eloszlás. Gyakori statisztikák

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

A többváltozós lineáris regresszió 1.

Több laboratórium összehasonlítása, körmérés

Statisztikai programcsomagok

A Hat Szigma bevezetésének tapasztalatai a Siemens Erőműtechnika Kft-nél

A statisztika részei. Példa:

Ökonometria. /Gyakorlati jegyzet/

Regressziószámítás alkalmazása kistérségi adatokon

Kerékpáros közösségi kölcsönző rendszer működésének szabályszerűségei

Bemenet modellezése II.

Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása fejezet. A variabilitás mér számai 3.

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

MINİSÉGSZABÁLYOZÁS. Dr. Drégelyi-Kiss Ágota

A KÖRNYEZETI INNOVÁCIÓK MOZGATÓRUGÓI A HAZAI FELDOLGOZÓIPARBAN EGY VÁLLALATI FELMÉRÉS TANULSÁGAI

Statisztika II előadáslapok. 2003/4. tanév, II. félév

SZENT ISTVÁN EGYETEM GÖDÖLLŐ A MEZŐGAZDASÁGI VÁLLALATOK FIZETÉSKÉPTELENSÉGÉNEK ELŐREJELZÉSE ARUTYUNJAN ALEX

Mesterséges intelligencia, 7. előadás október 13. Készítette: Masa Tibor (KPM V.)

statisztikai menürendszere Dr. Vargha András 2007

Ökonometria. Adminisztratív kérdések, bevezetés. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Első fejezet. Budapesti Corvinus Egyetem

Minőség-képességi index (Process capability)

TÖBBSZÖRÖS REGRESZIÓS ANALÍZIS I. Többszörös lineáris regresszió. Füst György

Gráfelmélet/Diszkrét Matematika MSc hallgatók számára. Párosítások

Lineáris programozás. Modellalkotás Grafikus megoldás Feladattípusok Szimplex módszer

Csődvalószínűségek becslése a biztosításban

Hipotézis vizsgálatok

Az R statisztikai programozási környezet: az adatgyűjtéstől a feldolgozáson és vizualizáción át a dinamikus jelentéskészítésig

Statistical Dependence

Likelihood, deviancia, Akaike-féle információs kritérium

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Műszerek tulajdonságai

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

SZTOCHASZTIKUS MÓDSZEREK

Haladó. Jegyzet: Brealey/Myers: Modern vállalati pénzügyek II.

1. Ismétlés Utóbbi előadások áttekintése IV. esettanulmány Uniós országok munkanélkülisége... 1

A klímamodellek alkalmazásának tapasztalatai a magyarországi gabona félék hozam előrejelzéseiben

Valószín ségelmélet házi feladatok

Üzleti terv sablonhoz - képzési kitöltési útmutató -

Dr. Szőke Szilvia Dr. Balogh Péter: Nemparaméteres eljárások

Nemetz O.H. Tibor emlékére május 9.

Bevezetés az ökonometriába

A BUBOR szerepe a monetáris politika működtetésében és a kamattranszmisszióban

Magyarországon személysérüléses közúti közlekedési balesetek okozóik és abból alkoholos állapotban lévők szerinti elemzése. Rezsabek Tamás GSZDI

ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

MITISZK Miskolc-Térségi Integrált Szakképző Központ

Vitamin D 3 (25-OH) mérése Elecsys 2010 automatán

A nyugdíjban, nyugdíjszerű ellátásban részesülők halandósága főbb ellátástípusok szerint

Bevezetés a Korreláció &

SZAKDOLGOZAT. Takács László

Heckman modell. Szelekciós modellek alkalmazásai. Mikroökonometria, 12. hét Bíró Anikó Emlékeztető

JELENTÉS AZ ELŐREJELZÉSRŐL

Miskolci Egyetem. Diszkrét matek I. Vizsga-jegyzet. Hegedűs Ádám Imre

Beadható feladatok december Add meg az alábbi probléma állapottér-reprezentációját!


H I R D E T M É N Y AZ OTP BANK ÖNKÉNTES NYUGDÍJPÉNZTÁRI TAGOKNAK 1 NYÚJTOTT SZEMÉLYI KÖLCSÖN TERMÉKÉNEK feltételeiről

Készítette: Timári Júlia

Kapcsolt vállalkozások az iparűzési adóban ki mit kezd az összeszámítási szabállyal?

III. rész: A VÁLLALATI MAGATARTÁS

Választási modellek 3

Regresszió számítás az SPSSben

AJÁNLATTÉTELI FELHÍVÁS

Statistical Inference

Átírás:

Bevezetés az ökonometriába Többváltozós lineáris regresszió: modellszelekció Ferenci Tamás MSc 1 tamas.ferenci@medstat.hu 1 Statisztika Tanszék Budapesti Corvinus Egyetem Negyedik előadás, 2010. október 6.

Tartalom Ismétlés 1 Ismétlés Utóbbi előadások áttekintése 2 Szakágazati mélységű termelési függvény becslése 3 s kritériumok

Utóbbi előadások áttekintése Előző részeink tartalmából Ismerkedés az ökonometria fogalmával, feladataival, módszereivel Az ökonometriai modellalkotás menete Többváltozós lineáris regresszió alapjai Mintavételi vonatkozások: becslések és hipotézisvizsgálat Modelljellemzés és egyéb kérdések

Szakágazati mélységű termelési függvény becslése A termelési függvény és becslése A termelési függvény mikro-ból mindenkinek ismerős; nagyon absztrakt formában: Y = f (K, L) Standard mikroökonomia vállalatfelfogása: a vállalat feketedoboz (az f transzformáció jellemzi), bedobjuk az inputot (K, L), kijön az output (Y ) abszolút absztrakt definíció Mi most ezt szakágazati szinten kívánjuk megkonstruálni ténylegesen (valós magyar adatok a 2000-es évek elejéről, TEÁOR)

Az operacionalizálás problémája Szakágazati mélységű termelési függvény becslése Hogyan mérjük az Y -t, K-t és L-et? Milyen mérhető változók jellemezhetik ezeket az absztrakt, közvetlenül mérhetetlen fogalmakat? (Ezek lesznek az ún. proxy változók.) Számtalan ötletünk lehet! Például Y -ra: 1 Bruttó kibocsátás (BK) proxy: bevételek + saját teljesítmények 2 Hozzáadott érték (HÉ) = BK - anyagi ráfordítás 3 Nettó termelés (NT) = HÉ - amortizáció 4 Üzleti tevékenység eredménye = NT - személyi ráfordítások Látható a gondolati ív (a halmozódás tekintetbe vételével) Mi most a legutolsót fogadjuk el eredményváltozónak

Az operacionalizálás problémája Szakágazati mélységű termelési függvény becslése Hasonlóan sok minden jön szóba a termelési tényezők (K, L) mérésére 1 Alkalmazotti létszám (a munka, L proxyja) 2 Eszközoldalról (K) 1 Befektetett eszközök 2 Forgóeszközök 3 Forrásoldalról (ismét csak K) 1 Saját tőke 2 Kötelezettségek (hosszúlejáratú és rövidlejáratú) 4 Ráfordítások 1 Anyagi jellegű 2 Személyi jellegű (ez megint a munka proxyja) 3 Értékcsökkenés (beruházás költségének proxyja)

Szakágazati mélységű termelési függvény becslése Az operacionalizálás problémája Valójában ennél is sokkal több szóba jövő magyarázó változónk van, ld. adatbázis Na, és ezek között hogy döntünk? Vagy sehogy, használjuk fel az összeset magyarázó változónak? Vagy ez nem a legjobb ötlet...? Adatunk mindenesetre az összesről van

Szakágazati mélységű termelési függvény becslése Az adatbázis madártávlatból (és rövidítve) a gretl-ben

Szakágazati mélységű termelési függvény becslése Ez alapján a nemzetgazdasági adatok A gretl-ből (rövidítve az outputot): Summary Statistics, using the observations 1 479 Variable Mean Median Minimum Maximum VallSzam 459,486 133,000 3,00000 8850,00 Letszam 4,36180 1,63000 0,000000 68,0480 BefEszk 64,2911 8,31900 0,000000 4976,91... SzemRaf 9,35387 3,27500 0,000000 195,477 ECsLeir 3,68161 0,906000 0,000000 171,327 UzlEred 3,42915 0,823000 316,089 147,612 Variable Std. Dev. C.V. Skewness Ex. kurtosis VallSzam 1003,46 2,18388 4,68757 26,7210 Letszam 7,77652 1,78287 4,25300 24,3733 BefEszk 305,655 4,75424 11,6269 162,521... SzemRaf 18,2895 1,95529 5,02168 34,3529 ECsLeir 10,8249 2,94027 9,47091 125,786 UzlEred 19,7072 5,74698 6,96213 153,594 Az összes vállalat száma az adatbázisban: 459,486 479 = 220094.

Szakágazati mélységű termelési függvény becslése A függvény megbecslése az összes magyarázó változóval Közönségesen, gretl-t használva kapjuk: Model 1: OLS, using observations 1 479 Dependent variable: UzlEred Coefficient Std. Error t-ratio p-value const 0,492420 0,392503 1,2546 0,2103 Letszam 0,209215 0,129890 1,6107 0,1079 BefEszk 0,0283055 0,00953996 2,9670 0,0032 ForgEszk 0,0322876 0,0144480 2,2347 0,0259 SajToke 0,0280578 0,0103175 2,7194 0,0068 HLejKot 0,0202520 0,0119768 1,6909 0,0915 RLejKot 0,0587465 0,0146904 3,9990 0,0001 AnyagRaf 0,0271746 0,00312947 8,6835 0,0000 SzemRaf 0,0362635 0,0794771 0,4563 0,6484 ECsLeir 1,08389 0,0818685 13,2394 0,0000 Mean dependent var 3,429146 S.D. dependent var 19,70724 Sum squared resid 25775,51 S.E. of regression 7,413396 R 2 0,861156 Adjusted R 2 0,858491 F (9, 469) 323,2098 P-value(F ) 8,7e 195 Log-likelihood 1634,194 Akaike criterion 3288,388 Schwarz criterion 3330,105 Hannan Quinn 3304,787 R 2 = 0,86, nem indul rosszul

Értelmezési kérdések Ismétlés Szakágazati mélységű termelési függvény becslése Speciális, mikroökonómiai indíttatású (ökonometria, ugyebár!) értelmezési feladatok és megválaszolásaik 1 Határtermék (Ht j = dŷ dx j ): épp β j 2 Helyettesítési határarány: épp Ht j Ht i 3 Átlagtermék: Ȳ X j = β j β i (lásd nemzetgazdasági adatok!)

Új változó bevonásának hatásai s kritériumok Most azt fogjuk megtárgyalni, hogy miért nem mindig érdemes az összes szóba jövő változót felhasználni a modellezésben Ennek szemléltetéséhez elindulunk egy olyan modellből, ami nem tartalmaz minden változót, és megnézzük mi történik, ha kibővítjük egy változóval Tegyük fel tehát, hogy van olyan változónk, amit még nem használtuk fel magyarázó változóként mi történik ha olyan modellt becslünk, amiben a jelenlegiken túl ez is szerepel? Ezt nevezzük a változó (modellbe történő) bevonásának Tételmondat: új változó bevonásával R 2 értéke mindenképp nő (de legalábbis nem csökken), teljesen függetlenül attól, hogy mi a bevont változónk, mik vannak már a modellben stb. intuitív indoklás

Új változó bevonásának hatásai s kritériumok Miért lehet akkor baj mégis? Ezt a következő egyszerű példán mutatjuk be: Ŷ = β 1 + β B Ber + β F Fo + û, Tegyük most fel (nyilván nem igaz ilyen erősen, de nem teljesen elrugaszkodott), hogy a Bér-hez képest a Fő hozzáadása már felesleges, mégpedig azért mert nem hordoz további információt (ugyanazt írja le más szemszögből), mi mégis bevonjuk a modellünkbe

Multikollinearitás Ismétlés s kritériumok Mi történik ilyenkor? a magyarázó változók egymást is magyarázni fogják a modellünk minősége romlik (egyelőre értsd: c. p. feltevés, ill. becsülhetőség), minél jobban magyarázzák egymást, annál inkább (extrém példa: lineáris összefüggőség) Ez a multikollinearitás: az a jelenség, hogy a magyarázó változók lineáris kapcsolatban vannak egymással Bár nem tökéletesen precíz, de ezt a gyakorlatban azzal jellemezzük, hogy mennyire magyarázzák egymást Ennek megfelelő mérőszám az ún. tolerancia: Tol Ber = 1 R 2 Ber Fo

Multikollinearitás Ismétlés s kritériumok Általában: a vizsgálat magyarázó változót mennyire magyarázza a többi magyarázó változó, tehát Tol j = 1 R 2 j = 1 R 2 X j X 2,X 3,...,X j 1,X j+1,...,x k Minél nagyobb Rj 2, annál kisebb a tolerancia intuitíve: annál kevesebb többletinformációt hoz be ez a változó a modellbe a többi magyarázó változó mellett

Multikollinearitás hatása s kritériumok Írjuk most fel egy már bent levő változó koefficiensének mintavételi varianciáját: ) var ( βj = ESS/ (n k) (n 1) var ( X j ) 1 Tol j Látszik, hogy egy magyarázó változó koefficiensének a mintavételi varianciája c. p. nő, ahogy a tolerancia romlik (csökken); elvi minimum erre a varianciára a tolerancia = 1-nél Itt a c.p.-t úgy képzeljük el, mintha tudnánk csak a multikollinearitást változtatni

A multikollinearitás mérése s kritériumok Bevezetjük a variancia infláló tényezőt (VIF): VIF j = 1 Tol j VIF j = 1 jelentése: a fenti variancia az elvi minimum (tehát: a magyarázó változót egyáltalán nem magyarázza a többi magyarázó változó); VIF j = 2: a mintavételi variancia megduplázódott pusztán a multikollinearitás miatt (tehát amiatt, hogy a magyarázó változók egymást is magyarázzák) ahhoz képest mintha nem lenne multikollinearitás stb. A használatával kapcsolat fenntartások ügyében ld. Maddalát

Multikollinearitás a gretl-ben s kritériumok

A modellszűkítésről Ismétlés s kritériumok Pár filozófiai megjegyzés, hogy miért akarhatunk modellt szűkíteni (változót elhagyni a modellből), ha ezzel úgyis rontunk az R 2 -en 1 Multikollinearitás 2 Általánosítóképesség, túlilleszkedés (szabadsági fokok lekötése) Melyik változót lehet érdemes ezek miatt elhagyni? mérlegelés a fentiekben javulás és az R 2 romlása között Visszatekintve az első modellünkre ne hagyjuk ki a Személyi ráfordítást? (Nagyon inszignifikáns!) Ha ezt megtesszük, akkor az R 2 0,861156-ról 0,861094-ra romlik Na, ez most sok vagy kevés? teszt kéne, hogy segítse ezt a mérlegelést! (Vagy más kritérium, ld. később)

s kritériumok Változók elhagyására vonatkozó Wald-teszt Általánosítunk: nem csak egy változó elhagyására mutatjuk meg a tesztet (persze speciálisan arra is, vagy akár az összes változó elhagyására is jó! ezeket lásd később) Két modell között döntünk, egy bővebb (U unrestricted) és egy szűkebb (R restricted) között U : Ŷ = β 1 + β 2X 2 +... + β q 1X q 1 + β qx q + β q+1x q+1 +... + β q+mx q+m R : Ŷ = β 1 + β 2X 2 +... + β q 1X q 1 + β qx q Nested (beágyazott) modellszelekció: a szűkebb modell minden változója benne van a bővebb modellben Nullhipotézis: H 0 : β q+1 = β q+3 =... = β q+m = 0, tehát az utolsó m darab változó még összességében sem bír lényeges magyarázó erővel elhagyhatóak anélkül, hogy a modell lényegesen romlana

s kritériumok Változók elhagyására vonatkozó Wald-teszt A próba: F emp = ( R 2 R0 2 ) /m (1 R 2 ) / (n k) F m,n k Itt R 2 az eredeti, R0 2 a szűkített modell többszörös determinációs együtthatója

Speciális Wald-hipotézisek s kritériumok Vegyük észre, hogy ez az igen általános megközelítés a két, eddig látott tesztet is tartalmazza speciális esetként! Ha m = 1, akkor F = tj 2 : visszakaptuk a t-tesztet Ám figyelem: a Wald-teszt nem ekvivalens a t-próba m-szeri elvégzésével (külön-külön az egyes változókra) Ha m = k 1, akkor F Wald = F ANOVA : visszakaptuk a függetlenségvizsgálatot Logikusak, hiszen a nullhipotézisek is azonos alakúak lettek

Egy példa a gretl-ben Ismétlés s kritériumok Létszám és Személy ráfordítás elhagyása egyszerre Test for omission of variables - Null hypothesis: parameters are zero for the variables Letszam SzemRaf Test statistic: F(2, 469) = 10,3011 with p-value = P(F(2, 469) > 10,3011) = 4,18568e-005

s kritériumok Koefficiensek lineáris kombinációjának jelentősége Pár gyakorlati kérdésfelvetés: 1 Igaz-e, hogy a hosszú és rövid lejáratú kötelezettség határterméke ugyanannyi? (Tehát: nincs különbség köztük (ilyen értelemben), mennyiségük kezelhető együtt.) 2 Igaz-e, hogy a forgóeszköz határterméke épp négyszerese a sajáttőke határtermékének? 3 Igaz-e, hogy az összes határtermék összege épp nulla? Ami közös bennük: mind a magyarázó változók elméleti (sokasági) regressziós koefficienseinek lineáris kombinációjára vonatkoznak! λ β1 β 1 + λ β2 β 2 +... + λ βk β k = Λ

s kritériumok Koefficiensek lineáris kombinációjának jelentősége A példáinkban rendre: 1 H 0 : β HLejKot = β RLejKot, így λ βhlejkot = +1, λ βrlejkot = 1, a többi λ nulla és Λ = 0 2 H 0 : β ForgoE = 4 β SajatToke, így λ βforgoe = +1, λ βsajattoke = 4, a többi λ nulla és Λ = 0 3 H 0 : β Letszam + β BefEszk +... + β ECsLeir = 1, így λ βletszam = 1, λ βbefeszk = 1,..., λ βecsleir = 1 és Λ = 1

s kritériumok Megvalósítás: egyik lehetőség, hogy a t-próbához hasonló alakra vezetjük vissza Legyen λ β1 β1 + λ β2 β2 +... + λ βk βk = Λ, ekkor Ez az ún. közvetlen t-próba Λ Λ ) t n k ŝe ( Λ

s kritériumok Vizsgálható Wald-jellegű próbával is (most nem foglalkozunk vele bővebben, de a gretl ezt használja): Restriction: b[forgeszk] - 4*b[SajToke] = 0 Test statistic F(1, 468) = 0,00455049, with p-value = 0,946246 Restricted estimates:...

Az R 2 megjavítása Ismétlés s kritériumok Ahogy láttuk az R 2 önmagában nem minősít egy modellt, mert csak a hibát minimálja, a túl sok változó káros hatásával egyáltalán nem foglalkozik ( egyoldalú mérlegelés) Nem lehetne ezt valahogy kijavítani? tehát olyan mutatót konstruálni, ami mindkét szempontra tekintettel van? Ötlet: induljunk ki az R 2 -ből, de büntessük a magyarázó változók számának növelését Bár máshonnan származik, de épp ennek a logikának felel meg a korrigált R 2 : R 2 = 1 ( 1 R 2) n 1 n k Ez már alkalmas különböző számú magyarázó változót tartalmazó modellek összehasonlítására

Automatikus modellszelekció s kritériumok Emiatt használható automatikus modellszelekcióra is Megadjuk a változók egy maximális halmazát, és a gép kiválasztja, hogy melyik részhalmaza az optimális: melyeket érdemes egy modellbe bevonni, hogy az a legjobb legyen Jóság valamilyen célfüggvény szerint (ami ugye nem R 2, hogy a dolognak értelme is legyen (miért is?), hanem pl. R 2 ) Az optimális részhalmaz speciálisan lehet az üres halmaz, vagy az összes potenciális változó is Heurisztikus stratégiák, hogy ne kelljen a 2 n kombinációt tesztelni: Forward szelekció Backward szelekció Stepwise szelekció

Információs kritériumok Ismétlés s kritériumok Vannak további mutatók is, melyek egyszerre büntetik a magyarázó változók nagy számát és a nagy hibát, a kettő között egyensúlyt keresve, pl. Akaike: AIC = ESS n e 2k n Schwarz (Bayesian): AIC = ESS n n k n Hannan-Quinn: AIC = ESS 2k n (ln n) n Teljesen más elven (információelméleti alapon) épülnek fel mint az R 2 Hiba jellegű mutatók, ezért őket minimalizálni akarjuk és nem maximalizálni! Sok van belőlük, döntsük el előre, hogy melyiket használjuk a modellszelekcióra! Természetesen szintén alkalmasak automatikus modellszelekció irányítására célfüggvényként