Ökonometria. Dummy változók használata. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Hetedik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék



Hasonló dokumentumok
1. Ismétlés Utóbbi előadások áttekintése IV. esettanulmány Uniós országok munkanélkülisége... 1

Bevezetés az ökonometriába

Többváltozós lineáris regresszió 3.

6. előadás - Regressziószámítás II.

Bevezetés az ökonometriába

A többváltozós lineáris regresszió III. Főkomponens-analízis

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Lineáris regresszió vizsgálata resampling eljárással

Regresszió számítás az SPSSben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Korreláció és lineáris regresszió

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Ökonometria gyakorló feladatok 1.

Ökonometria BSc Gyakorló feladatok a kétváltozós regresszióhoz

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Ökonometria gyakorló feladatok Többváltozós regresszió

Idősoros elemzés minta

Ökonometriai modellek paraméterei: számítás és értelmezés

Bevezetés az ökonometriába

[Biomatematika 2] Orvosi biometria

Bevezetés az ökonometriába

Bevezetés a Korreláció &

Adatok statisztikai értékelésének főbb lehetőségei

Magyarország növekedési kilátásai A magyarországi vállalatok lehetőségei és problémái MTA KRTK KTI workshop

Ökonometria. Modellspecifikáció. Ferenci Tamás 1 Hatodik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

A gravitációs modell felhasználása funkcionális távolságok becslésére

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

Idősoros elemzés. Ferenci Tamás, január 7.

Korrelációs kapcsolatok elemzése

Regionális diszparitások: a GDP és a munkanélküliségi ráta regionális összefüggéseinek vizsgálata az Európai Unióban.

Diszkriminancia-analízis

Melléklet 1. A knn-módszerhez használt változólista

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Elméleti összefoglalók dr. Kovács Péter

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Az első számjegyek Benford törvénye

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Heckman modell. Szelekciós modellek alkalmazásai.

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Lineáris regressziószámítás 1. - kétváltozós eset

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Ökonometria. Modellspecifikáció. Ferenci Tamás 1 Hatodik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

1. II. esettanulmány Szakágazati mélységű termelési függvény becslése... 1

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Hipotézis vizsgálatok

Gyakorlat: Sztochasztikus idősor-elemzés alapfogalmai II. Egységgyök-folyamatok és tesztek. Dr. Dombi Ákos

társadalomtudományokban

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

A többváltozós lineáris regresszió 1.

Matematikai statisztikai elemzések 6.

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Bevezetés a hipotézisvizsgálatokba

Diagnosztika és előrejelzés

Logisztikus regresszió

Kvantitatív statisztikai módszerek

Függetlenségvizsgálat, Illeszkedésvizsgálat

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Typotex Kiadó. Tartalomjegyzék

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Regresszió és ANOVA. Freedman: fejezet. Freedman: fejezet. Freedman: fejezet

y ij = µ + α i + e ij

Több diszkrét kimenet multinomiális és feltételes logit modellek

1. (Sugár Szarvas fgy., 186. o. S13. feladat) Egy antikvárium könyvaukcióján árverésre került. = x = 6, y = 12. s y y = 1.8s x.

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

és élelmiszer-ipari termékek hozhatók forgalomba, amelyeket a vonatkozó jogszabá-

5. el adás. Solow-modell I. Kuncz Izabella. Makroökonómia. Makroökonómia Tanszék Budapesti Corvinus Egyetem

Nemlineáris modellek

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Többváltozós Regresszió-számítás

TUDOMÁNY NAPJA 2013 DEBRECEN, A képzettség szerepe a gazdasági növekedésben szektorális megközelítésben

Figyelem, próbálja önállóan megoldani, csak ellenőrzésre használja a következő oldalak megoldásait!

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Koordináta-geometria. Fogalom. Jelölés. Tulajdonságok, definíciók

Egy és többváltozós logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

Logisztikus regresszió

Gépi tanulás a gyakorlatban. Lineáris regresszió

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

Többváltozós lineáris regressziós modell feltételeinek

[Biomatematika 2] Orvosi biometria

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Ökonometria. Adminisztratív kérdések, bevezetés. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Első fejezet. Budapesti Corvinus Egyetem

A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

választ ad arra, hogy milyen makrogazdasági tényezõk befolyásolják a romániai, és ezen belül a bukaresti kétszobás lakásárak alakulását.

Lineáris egyenletrendszerek

Statisztika elméleti összefoglaló

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Átírás:

Dummy változók használata Ferenci Tamás 1 tamas.ferenci@medstat.hu 1 Statisztika Tanszék Budapesti Corvinus Egyetem Hetedik fejezet

Tartalom IV. esettanulmány 1 IV. esettanulmány Uniós országok munkanélkülisége 2

Uniós országok adatbázisa Uniós országok munkanélkülisége Makroökonómiai feladatot kell megoldanunk: vizsgáljuk a munkanélküliség alakulását, befolyásoló tényezőit az Európai Unió országain belül! Kvantitatív vizsgálat a feladat, ökonometriai modellezést fogunk bevetni A munkanélküliség munkanélküliségi rátaként (%-ban mérve) van operacionalizálva, a GDP az EU-átlaghoz relatíve (szintén %-ban mérve) A fenti eredmény és magyarázó változón kívül még azt is tudjuk, hogy az egyes országok melyik kategóriába esnek tagságuk szerint: régi tag, újonnan csatlakozó, tagjelölt (Az adatbázis 2002-ből való, így értendőek a kategóriák)

Nominális tulajdonságok a regresszióban A kérdés, ami mostani kutatásainkat motiválja: hogyan szerepeltethetünk egy minőségi (nominális) tulajdonságot, pl. férfi/nő, egészéges/beteg, régi tagállam/újonnan csatlakozó/tagjelölt (az EU-ban) stb. egy regressziós modellben A regresszió csak számszerű adatokat tud felhasználni valahogy kódolni kell a nominális tulajdonság lehetséges értékeit (kimeneteit, csoportjait) Eddig csak mennyiségi tulajdonságokkal foglalkoztunk, aminek kódolása triviális volt: a naturáliában kifejezett értékével (m 2, eft stb.) A minőségi változókat úgy kódoljuk, hogy a lehetséges (véges sok!) kimenet mindegyikéhez hozzárendelünk egy egész (ritkábban racionális) számot, pl. a férfi nemet 0-val, a nőt 1-gyel kódoljuk

Dummy változó fogalma A kódolást megvalósíthatjuk olyan változóval vagy változókkal, melyek csak 0 vagy 1 értéket vehetnek fel Az ilyen változókat nevezzük dummy változónak Ha két kimenet van, akkor a kódolás teljesen kézenfekvő: egy dummy változóra van szükségünk, mely (például) 0 értéket vesz fel férfira, 1-et nőre Bonyolultabb a helyzet, ha több kimenet van Triviális kódolás: D1 D2 D3 A 1 0 0 B 0 1 0 C 0 0 1... ám vegyük észre, hogy 3 csoporthoz nem kell 3 dummy változó, kódolható 2-vel is!

Referencia-kódolás IV. esettanulmány Általában k kimenet kódolása megoldható k 1 dummy változóval az ún. referencia-kódolás logikájával Itt kiválasztunk egy kimenetet, aminél mind a k 1 darab dummy változó 0 értéket vesz fel (ez az ún. kontrollcsoport), és a többi k 1 csoportot az jelzi, hogy a k 1 dummy változó közül melyik vesz fel 1 értéket (mindig csak 1!) R A A 1 0 Például (3 kimenetre): B 0 1 C 0 0 Itt C a referenciacsoport, R A és R B a két szükséges (ugye k = 3!) magyarázó változó Vegyük észre, hogy R A D A és R B D B (tehát a két kódoláshoz pontosan ugyanazon dummykra van szükség, csak a referencia-kódolásnál eldobjuk az egyiket) R B

Referencia-kódolás az uniós országok példáján Triviális módon kódoltuk dummyval, hogy egy ország melyik kategóriába (régi tag, újonnan csatlakozó, tagjelölt) esik, referencia-kódolást kapunk, ha valamelyiket elhagyjuk:

Dummy változó csapda Ha van konstans a modellben, akkor tilos is k csoporthoz k dummyt használni a kódoláshoz Ellenkező esetben egzakt multikollinearitás jön létre (gondoljuk végig, hogy a dummy változókhoz mi tartozik az X mátrixban, ld. előbb!); ez az ún. dummy változó csapda További magyarázat: gondoljunk bele, ha mégis lenne konstans és k csoporthoz k darab dummy, akkor k értéket (a k csoportra becsülendő eredményváltozót, hiszen ne feledjük, itt mindegyikhez egyetlen számot becsülünk eredményként, azaz mindegyik elemeire ugyanazt a konstans adjuk vissza eredményváltozóként) k + 1 változóban (konstans + k darab dummy) kéne eltárolnunk nem oldható meg egyértelmű módon; mindenképp k darab változóban kell ezeket tárolnunk Ha k csoportot mégis k dummyval kódolunk (a triviális módon), akkor nem szerepeltethetünk konstanst

Dummy változó csapda Az előző okfejtésből az is látszik, hogy k kategóriához kell is k 1 darab dummy (ha van konstans, különben k darab) különben nem lenne hol tárolni a becsült eredményváltozóként visszaadandó értékeket

Triviális kódolás konstans nélkül A két kódolási mód (k darab dummy, nincs konstans és k 1 darab dummy, van konstans) jól szemléltethető egy csak a nominális tulajdonsággal magyarázó regresszióval Eredményváltozónk legyen tehát a munkanélküliségi ráta, magyarázó változónk a csoporttagság (varianciaanalízis-modell) k darab dummy, nincs konstans: D A D B D C A 1 0 0 B 0 1 0 C 0 0 1 Együtthatók értelmezése? Y = β A D A + β B D B + β C D C + u

Referencia-kódolás konstanssal k 1 darab dummy, van konstans: D A D B A 1 0 B 0 1 C 0 0 Együtthatók értelmezése? Y = β + β AD A + β BD B + u

A kettő kapcsolata IV. esettanulmány Értelmezésnél egy dolgot tartsunk mindig szem előtt: ugyanarra a csoportra ugyanannak az értéknek kell kijönnie, akárhogy kódolunk! Például a B csoportra: β B = β + β B... ezért a fenti egyenlet így kell kinézzen: Y = β C + (β A β C ) D A + (β B β C ) D B + u

Mindezek az EU országok munkanélküliségének példáján A két különböző módon kódolt modell megbecslése: Dependent variable: MnRata Coefficient Std. Error t-ratio p-value D1 6,58000 1,11155 5,9197 0,0000 D2 10,4400 1,36136 7,6688 0,0000 D3 11,7000 2,48550 4,7073 0,0001 R 2 0,210656 Adjusted R 2 0,147509 F (2, 25) 3,335935 P-value(F ) 0,051979 Coefficient Std. Error t-ratio p-value const 11,7000 2,48550 4,7073 0,0001 D1 5,12000 2,72273 1,8805 0,0717 D2 1,26000 2,83391 0,4446 0,6604 R 2 0,210656 Adjusted R 2 0,147509 F (2, 25) 3,335935 P-value(F ) 0,051979 Értelmezzük az együtthatókat! az értelmezések eltérnek, de egy adott csoport értéke mindenképp ugyanannyi Vegyük észre, hogy a változónkénti szignifikanciák eltérhetnek (mert másra fognak vonatkozni!), de a modellminősítő mutatók nem

Fontos hipotézisvizsgálatok Referencia-kódolás esetén (a triviális kódolás tesztelésének általában nincs sok tartalma) a kézenfekvő kérdés, hogy van-e különbség a csoportonkénti értékek (amik ugye itt konstans számok) között (mint az ANOVA-nál) Precízebben: szignifikáns-e egy adott csoportbeli érték eltérése a referenciacsoportétől Ez itt nem más, mint β relevanciája Egyszerűen t-próbával ellenőrizhető! Az ANOVA megfelelője: H 0 : β A = β B =... = 0 H 1 : j : β j 0

Dummyzás folytonos magyarázó változó jelenléte mellett Amit eddig csináltunk az lényegében az volt, amit konstans dummyzásának nevezhetünk: csoportonként eltérő (de konstans) értékkel becsültük az eredményváltozót Mi van, ha bevonunk egy magyarázó változót, pl. a GDP-t? Azaz ekkor már nem egy konstanst becsülünk az egyes csoportokra, hanem egy egyenest (GDP függvényében) Dummyzással (tehát a csoporttagság szerint) eltéríthetjük az egyenesek tengelymetszetét és meredekségét is! Lehet csoportonként különböző 1 +1 egység GDP-hatása 2 a 0 GDP-hez tartozó munkanélküliségi szint

Y IV. esettanulmány Eltérő tengelymetszet Ha csak a tengelymetszetet térítjük el (+1 egység GDP hatása ugyanaz minden csoportban, de nem ugyanannyi a 0 GDP-hez tartozó munkanélküliség) 25 beta_1 + beta_x * X beta_1 + beta_d * D + beta_x * X 20 15 10 5 0 0 2 4 6 8 10 X Algebrailag: Y = β 1 + β D D + β X X + u

Y Eltérő meredekség IV. esettanulmány Ha csak a meredekséget térítjük el (0 GDP-hez ugyanakkora munkanélküliség tartozik, de +1 egység GDP hatása csoportonként eltérő) 35 30 beta_1 + beta_x * X beta_1 + (beta_x + beta_d) * X 25 20 15 10 5 0 0 2 4 6 8 10 X Algebrailag: Y = β 1 + (β X + β D D) X + u

Eltérő tengelymetszet és meredekség Akár a tengelymetszet és a meredekség is lehet különböző De hát ez megoldható a minta szétszedésével is! Például a globális regresszió: Dependent variable: MnRata Coefficient Std. Error t-ratio p-value const 14,3628 1,59829 8,9863 0,0000 GDP 0,0745601 0,0182874 4,0771 0,0004 R 2 0,390001 Adjusted R 2 0,366540 F (1, 26) 16,62304 P-value(F ) 0,000382 Regresszió a régi tagállamok csoporton belül: Coefficient Std. Error t-ratio p-value const 12,7791 2,48209 5,1485 0,0002 GDP 0,0580442 0,0225065 2,5790 0,0229 R 2 0,338464 Adjusted R 2 0,287577 F (1, 13) 6,651238 P-value(F ) 0,022900

Eltérő tengelymetszet és meredekség Regresszió az újonnan csatlakozók csoporton belül Coefficient Std. Error t-ratio p-value const 23,9611 4,71505 5,0818 0,0010 GDP 0,258530 0,0866423 2,9839 0,0175 R 2 0,526725 Adjusted R 2 0,467566 F (1, 8) 8,903502 P-value(F ) 0,017497 Regresszió a tagjelöltek csoporton belül Coefficient Std. Error t-ratio p-value const 108,550 1,06888 101,5551 0,0063 GDP 4,87500 0,0433013 112,5833 0,0057 R 2 0,999921 Adjusted R 2 0,999842 F (1, 1) 12675,00 P-value(F ) 0,005655

Eltérő tengelymetszet és meredekség És persze megoldható mindez dummyzással is ahogy előbb láttuk, csak a módszereket kell kombinálni: a konstanst és a meredekséget is megdummyzzuk Mi értelme ennek a minta szétszedéséhez képest? Egyrészt spórolunk a szabadsági fokokkal (nagyobb erejű próbák stb.), másrészt fontos hipotéziseket vizsgálhatunk egyszerűen (ld. mindjárt)

A dummyzás általános modellje Az előző két eset (konstans és meredekség dummyzása) így foglalható tehát össze az előbb mondottaknak megfelelően (3 csoportra): Y = β 1 + β 2 X + u, de úgy, hogy β 1 = α + α A D A + α B D B és β 2 = γ + γ A D A + γ B D B Vegyük észre, hogy a meredekség dummyzása a dummy és a mennyiségi változó közti interakcióra vezet: Y = α + α A D A + α B D B + γx + γ A (D A X) + γ B (D B X) + u Végeredmény bizonyos értelemben ugyanaz... de messzemenően több lehetőségünk van a fenti modellel makroökonómiailag releváns hipotézisek tesztelése!

Hipotézisvizsgálat a dummyzott modellben Pl.: van-e egyáltalán bármilyen eltérés a csoportok között? (Értsd: eltér-e a becsült egyenes (bármilyen szempontból) a csoportok között, vagy mindegyikben teljesen ugyanaz?) Ez az ún. strukturális törés, hipotézispárja: H 0 : α A = α B = γ A = γ B = 0, H 1 : valamelyik ezek közül nem nulla, tehát van strukturális törés És most jön a szép rész: ha a fenti modellt megbecsültük (sima OLS-sel), akkor ez a hipotézis egyszerűen egy közönséges Wald- (vagy hasonló) próbát jelent! Hasonlóképp: nem lehet, hogy csak a tengelymetszetek eltérőek? ez az ún. párhuzamos ráták hipotézise, H 0 : γ A = γ B = 0; szintén Wald-teszttel elintézhető Minden hasonló (itt: makroökonómiailag releváns) kérdés vizsgálata változó vagy változók relevanciájának tesztelésére vezethető vissza

Kontraszt-kódolás IV. esettanulmány Kontraszt-kódolás: trükkös kódolás úgy kitalálva, hogy a dummy-k együtthatója ne a referencia-csoporthoz, hanem az átlaghoz képesti eltérést jelentse Itt fordulhat elő, hogy a dummy változó nem 0 és 1 értéket vehet csak fel Ha a csoportok tagszáma nem ugyanannyi (pl. ez a helyzet az EU-s adatbázis esetén is), akkor ún. súlyozott kontraszt változókat kell alkalmazni (itt ráadásul már nem is egész értékeket fognak a dummy változóink felvenni) Nem foglalkozunk vele ennél bővebben