1. Ismétlés Utóbbi előadások áttekintése IV. esettanulmány Uniós országok munkanélkülisége... 1

Hasonló dokumentumok
Ökonometria. Dummy változók használata. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Hetedik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Bevezetés az ökonometriába

6. előadás - Regressziószámítás II.

Többváltozós lineáris regresszió 3.

A többváltozós lineáris regresszió III. Főkomponens-analízis

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Bevezetés az ökonometriába

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Adatok statisztikai értékelésének főbb lehetőségei

Ökonometria gyakorló feladatok 1.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Ökonometria BSc Gyakorló feladatok a kétváltozós regresszióhoz

Korreláció és lineáris regresszió

Lineáris regresszió vizsgálata resampling eljárással

[Biomatematika 2] Orvosi biometria

Regresszió számítás az SPSSben

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Melléklet 1. A knn-módszerhez használt változólista

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Ökonometriai modellek paraméterei: számítás és értelmezés

Többváltozós lineáris regressziós modell feltételeinek

Ökonometria gyakorló feladatok Többváltozós regresszió

Lineáris regressziószámítás 1. - kétváltozós eset

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Statisztika elméleti összefoglaló

Matematikai statisztikai elemzések 6.

Bevezetés a Korreláció &

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Többváltozós Regresszió-számítás

Heckman modell. Szelekciós modellek alkalmazásai.

Typotex Kiadó. Tartalomjegyzék

Statisztika II előadáslapok. 2003/4. tanév, II. félév

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Bevezetés az ökonometriába

Ökonometria. Modellspecifikáció. Ferenci Tamás 1 Hatodik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Magyarország növekedési kilátásai A magyarországi vállalatok lehetőségei és problémái MTA KRTK KTI workshop

Korrelációs kapcsolatok elemzése

Logisztikus regresszió

A többváltozós lineáris regresszió 1.

ELTECON MA Keresztmetszeti és panel ökonometria tematika

Diszkriminancia-analízis

Nemlineáris modellek

y ij = µ + α i + e ij

Az első számjegyek Benford törvénye

Diagnosztika és előrejelzés

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

A gravitációs modell felhasználása funkcionális távolságok becslésére

Logisztikus regresszió

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Bevezetés a hipotézisvizsgálatokba

társadalomtudományokban

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

Regresszió a mintában: következtetés

Likelihood, deviancia, Akaike-féle információs kritérium

1. A standard lineáris regressziós modell és feltevései

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

A standard modellfeltevések, modelldiagnosztika

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Hipotézis vizsgálatok

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

1. II. esettanulmány Szakágazati mélységű termelési függvény becslése... 1

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Diszkrét matematika II., 8. előadás. Vektorterek

TUDOMÁNY NAPJA 2013 DEBRECEN, A képzettség szerepe a gazdasági növekedésben szektorális megközelítésben

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Egy és többváltozós logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

Több valószínűségi változó együttes eloszlása, korreláció

Ökonometria. Modellspecifikáció. Ferenci Tamás 1 Hatodik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

A PiFast program használata. Nagy Lajos

Kétértékű függő változók: alkalmazások Mikroökonometria, 8. hét Bíró Anikó Probit, logit modellek együtthatók értelmezése

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.

Autoregresszív és mozgóátlag folyamatok

Matematikai statisztika c. tárgy oktatásának célja és tematikája

5. előadás - Regressziószámítás

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Bevezetés az ökonometriába

Vektorok, mátrixok, lineáris egyenletrendszerek

[Biomatematika 2] Orvosi biometria

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Online melléklet. Kertesi Gábor és Kézdi Gábor. c. tanulmányához

Gépi tanulás a gyakorlatban. Lineáris regresszió

A mérések általános és alapvető metrológiai fogalmai és definíciói. Mérések, mérési eredmények, mérési bizonytalanság. mérés. mérési elv

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Átírás:

Tartalom Tartalomjegyzék 1. Ismétlés 1 1.1. Utóbbi előadások áttekintése.................................. 1 2. IV. esettanulmány 1 2.1. Uniós országok munkanélkülisége................................ 1 3. Nominális tulajdonságok kódolása 2 3.1. Regresszió csak nominális tulajdonsággal............................ 2 3.2. Regresszió folytonos magyarázó változó bevonásával..................... 5 1. Ismétlés 1.1. Utóbbi előadások áttekintése Előző részeink tartalmából Ismerkedés az ökonometriával, az ökonometriai modellezéssel Többváltozós lineáris regresszió alapjai Mintavételi vonatkozások: becslések és hipotézisvizsgálat Modellszelekció Modellspecifikáció (specifikációs torzítás), interakció Az OLS standard modellfeltevései, heteroszkedaszticitás és kezelése 2. IV. esettanulmány 2.1. Uniós országok munkanélkülisége Uniós országok adatbázisa Makroökonómiai feladatot kell megoldanunk: vizsgáljuk a munkanélküliség alakulását, befolyásoló tényezőit az Európai Unió országain belül! Kvantitatív vizsgálat a feladat, ökonometriai modellezést fogunk bevetni A munkanélküliség munkanélküliségi rátaként (%-ban mérve) van operacionalizálva, a GDP az EU-átlaghoz relatíve (szintén %-ban mérve) A fenti eredmény és magyarázó változón kívül még azt is tudjuk, hogy az egyes országok melyik kategóriába esnek tagságuk szerint: régi tag, újonnan csatlakozó, tagjelölt (Az adatbázis 2002-ből való, így értendőek a kategóriák) 1

3. Nominális tulajdonságok kódolása 3.1. Regresszió csak nominális tulajdonsággal Nominális tulajdonságok a regresszióban A kérdés, ami mostani kutatásainkat motiválja: hogyan szerepeltethetünk egy minőségi (nominális) tulajdonságot, pl. férfi/nő, egészéges/beteg, régi tagállam/újonnan csatlakozó/tagjelölt (az EUban) stb. egy regressziós modellben A regresszió csak számszerű adatokat tud felhasználni valahogy kódolni kell a nominális tulajdonság lehetséges értékeit (kimeneteit, csoportjait) Eddig csak mennyiségi tulajdonságokkal foglalkoztunk, aminek kódolása triviális volt: a naturáliában kifejezett értékével (m 2, eft stb.) A minőségi változókat úgy kódoljuk, hogy a lehetséges (véges sok!) kimenet mindegyikéhez hozzárendelünk egy egész (ritkábban racionális) számot, pl. a férfi nemet 0-val, a nőt 1-gyel kódoljuk Dummy változó fogalma A kódolást megvalósíthatjuk olyan változóval vagy változókkal, melyek csak 0 vagy 1 értéket vehetnek fel Az ilyen változókat nevezzük dummy változónak Ha két kimenet van, akkor a kódolás teljesen kézenfekvő: egy dummy változóra van szükségünk, mely (például) 0 értéket vesz fel férfira, 1-et nőre Bonyolultabb a helyzet, ha több kimenet van Triviális kódolás: D1 D2 D3 A 1 0 0 B 0 1 0 C 0 0 1... ám vegyük észre, hogy 3 csoporthoz nem kell 3 dummy változó, kódolható 2-vel is! Referencia-kódolás Általában k kimenet kódolása megoldható k 1 dummy változóval az ún. referencia-kódolás logikájával Itt kiválasztunk egy kimenetet, aminél mind a k 1 darab dummy változó 0 értéket vesz fel (ez az ún. kontrollcsoport), és a többi k 1 csoportot az jelzi, hogy a k 1 dummy változó közül melyik vesz fel 1 értéket (mindig csak 1!) Például (3 kimenetre): R A R B A 1 0 B 0 1 C 0 0 Itt C a referenciacsoport, R A és R B a két szükséges (ugye k = 3!) magyarázó változó Vegyük észre, hogy R A D A és R B D B (tehát a két kódoláshoz pontosan ugyanazon dummykra van szükség, csak a referencia-kódolásnál eldobjuk az egyiket) 2

Referencia-kódolás az uniós országok példáján Triviális módon kódoltuk dummyval, hogy egy ország melyik kategóriába (régi tag, újonnan csatlakozó, tagjelölt) esik, referencia-kódolást kapunk, ha valamelyiket elhagyjuk: Dummy változó csapda Ha van konstans a modellben, akkor tilos is k csoporthoz k dummyt használni a kódoláshoz Ellenkező esetben egzakt multikollinearitás jön létre (gondoljuk végig, hogy a dummy változókhoz mi tartozik az X mátrixban, ld. előbb!); ez az ún. dummy változó csapda További magyarázat: gondoljunk bele, ha mégis lenne konstans és k csoporthoz k darab dummy, akkor k értéket (a k csoportra becsülendő eredményváltozót, hiszen ne feledjük, itt mindegyikhez egyetlen számot becsülünk eredményként, azaz mindegyik elemeire ugyanazt a konstans adjuk vissza eredményváltozóként) k + 1 változóban (konstans + k darab dummy) kéne eltárolnunk nem oldható meg egyértelmű módon; mindenképp k darab változóban kell ezeket tárolnunk Ha k csoportot mégis k dummyval kódolunk (a triviális módon), akkor nem szerepeltethetünk konstanst Dummy változó csapda Az előző okfejtésből az is látszik, hogy k kategóriához kell is k 1 darab dummy (ha van konstans, különben k darab) különben nem lenne hol tárolni a becsült eredményváltozóként visszaadandó értékeket Triviális kódolás konstans nélkül A két kódolási mód (k darab dummy, nincs konstans és k 1 darab dummy, van konstans) jól szemléltethető egy csak a nominális tulajdonsággal magyarázó regresszióval Eredményváltozónk legyen tehát a munkanélküliségi ráta, magyarázó változónk a csoporttagság (varianciaanalízis-modell) k darab dummy, nincs konstans: D A D B D C A 1 0 0 B 0 1 0 C 0 0 1 Y = β A D A + β B D B + β C D C + u Együtthatók értelmezése? 3

Referencia-kódolás konstanssal k 1 darab dummy, van konstans: D A D B A 1 0 B 0 1 C 0 0 Y = β + β AD A + β BD B + u Együtthatók értelmezése? Értelmezésnél egy dolgot tartsunk mindig szem előtt: ugyanarra a csoportra ugyanannak az értéknek kell kijönnie, akárhogy kódolunk! Például a B csoportra: β B = β + β B... ezért a fenti egyenlet így kell kinézzen: Y = β C + (β A β C ) D A + (β B β C ) D B + u Mindezek az EU országok munkanélküliségének példáján A két különböző módon kódolt modell megbecslése: Dependent variable: MnRata D1 6,58000 1,11155 5,9197 0,0000 D2 10,4400 1,36136 7,6688 0,0000 D3 11,7000 2,48550 4,7073 0,0001 R 2 0,210656 Adjusted R 2 0,147509 F (2, 25) 3,335935 P-value(F ) 0,051979 const 11,7000 2,48550 4,7073 0,0001 D1 5,12000 2,72273 1,8805 0,0717 D2 1,26000 2,83391 0,4446 0,6604 R 2 0,210656 Adjusted R 2 0,147509 F (2, 25) 3,335935 P-value(F ) 0,051979 Értelmezzük az együtthatókat! az értelmezések eltérnek, de egy adott csoport értéke mindenképp ugyanannyi Vegyük észre, hogy a változónkénti szignifikanciák eltérhetnek (mert másra fognak vonatkozni!), de a modellminősítő mutatók nem Fontos hipotézisvizsgálatok Referencia-kódolás esetén (a triviális kódolás tesztelésének általában nincs sok tartalma) a kézenfekvő kérdés, hogy van-e különbség a csoportonkénti értékek (amik ugye itt konstans számok) között (mint az ANOVA-nál) Precízebben: szignifikáns-e egy adott csoportbeli érték eltérése a referenciacsoportétől Ez itt nem más, mint β relevanciája Egyszerűen t-próbával ellenőrizhető! Az ANOVA megfelelője: H 0 : β A = β B =... = 0 H 1 : j : β j 0 4

Y Y 3.2. Regresszió folytonos magyarázó változó bevonásával Dummyzás folytonos magyarázó változó jelenléte mellett Amit eddig csináltunk az lényegében az volt, amit konstans dummyzásának nevezhetünk: csoportonként eltérő (de konstans) értékkel becsültük az eredményváltozót Mi van, ha bevonunk egy magyarázó változót, pl. a GDP-t? Azaz ekkor már nem egy konstanst becsülünk az egyes csoportokra, hanem egy egyenest (GDP függvényében) Dummyzással (tehát a csoporttagság szerint) eltéríthetjük az egyenesek tengelymetszetét és meredekségét is! Lehet csoportonként különböző 1. +1 egység GDP-hatása 2. a 0 GDP-hez tartozó munkanélküliségi szint Eltérő tengelymetszet Ha csak a tengelymetszetet térítjük el (+1 egység GDP hatása ugyanaz minden csoportban, de nem ugyanannyi a 0 GDP-hez tartozó munkanélküliség) 25 beta_1 + beta_x * X beta_1 + beta_d * D + beta_x * X 20 15 10 5 0 0 2 4 6 8 10 X Algebrailag: Y = β 1 + β D D + β X X + u Eltérő meredekség Ha csak a meredekséget térítjük el (0 GDP-hez ugyanakkora munkanélküliség tartozik, de +1 egység GDP hatása csoportonként eltérő) 35 30 beta_1 + beta_x * X beta_1 + (beta_x + beta_d) * X 25 20 15 10 5 0 0 2 4 6 8 10 X Algebrailag: Y = β 1 + (β X + β D D) X + u 5

Eltérő tengelymetszet és meredekség Akár a tengelymetszet és a meredekség is lehet különböző De hát ez megoldható a minta szétszedésével is! Például a globális regresszió: Dependent variable: MnRata Regresszió a régi tagállamok csoporton belül: const 14,3628 1,59829 8,9863 0,0000 GDP 0,0745601 0,0182874 4,0771 0,0004 R 2 0,390001 Adjusted R 2 0,366540 F (1, 26) 16,62304 P-value(F ) 0,000382 const 12,7791 2,48209 5,1485 0,0002 GDP 0,0580442 0,0225065 2,5790 0,0229 R 2 0,338464 Adjusted R 2 0,287577 F (1, 13) 6,651238 P-value(F ) 0,022900 Eltérő tengelymetszet és meredekség Regresszió az újonnan csatlakozók csoporton belül Regresszió a tagjelöltek csoporton belül const 23,9611 4,71505 5,0818 0,0010 GDP 0,258530 0,0866423 2,9839 0,0175 R 2 0,526725 Adjusted R 2 0,467566 F (1, 8) 8,903502 P-value(F ) 0,017497 const 108,550 1,06888 101,5551 0,0063 GDP 4,87500 0,0433013 112,5833 0,0057 R 2 0,999921 Adjusted R 2 0,999842 F (1, 1) 12675,00 P-value(F ) 0,005655 Eltérő tengelymetszet és meredekség És persze megoldható mindez dummyzással is ahogy előbb láttuk, csak a módszereket kell kombinálni: a konstanst és a meredekséget is megdummyzzuk Mi értelme ennek a minta szétszedéséhez képest? Egyrészt spórolunk a szabadsági fokokkal (nagyobb erejű próbák stb.), másrészt fontos hipotéziseket vizsgálhatunk egyszerűen (ld. mindjárt) A dummyzás általános modellje Az előző két eset (konstans és meredekség dummyzása) így foglalható tehát össze az előbb mondottaknak megfelelően (3 csoportra): Y = β 1 + β 2 X + u, de úgy, hogy β 1 = α + α A D A + α B D B és β 2 = γ + γ A D A + γ B D B Vegyük észre, hogy a meredekség dummyzása a dummy és a mennyiségi változó közti interakcióra vezet: Y = α + α A D A + α B D B + γx + γ A (D A X) + γ B (D B X) + u Végeredmény bizonyos értelemben ugyanaz... de messzemenően több lehetőségünk van a fenti modellel makroökonómiailag releváns hipotézisek tesztelése! 6

Hipotézisvizsgálat a dummyzott modellben Például: van-e egyáltalán bármilyen eltérés a csoportok között? (Értsd: eltér-e a becsült egyenes (bármilyen szempontból) a csoportok között, vagy mindegyikben teljesen ugyanaz?) Ez az ún. strukturális törés, hipotézispárja: H 0 : α A = α B = γ A = γ B = 0, H 1 : valamelyik ezek közül nem nulla, tehát van strukturális törés És most jön a szép rész: ha a fenti modellt megbecsültük (sima OLS-sel), akkor ez a hipotézis egyszerűen egy közönséges Wald- (vagy hasonló) próbát jelent! Hasonlóképp: nem lehet, hogy csak a tengelymetszetek eltérőek? ez az ún. párhuzamos ráták hipotézise, H 0 : γ A = γ B = 0; szintén Wald-teszttel elintézhető Minden hasonló (itt: makroökonómiailag releváns) kérdés vizsgálata változó vagy változók relevanciájának tesztelésére vezethető vissza Kontraszt-kódolás Kontraszt-kódolás: trükkös kódolás úgy kitalálva, hogy a dummy-k együtthatója ne a referenciacsoporthoz, hanem az átlaghoz képesti eltérést jelentse Itt fordulhat elő, hogy a dummy változó nem 0 és 1 értéket vehet csak fel Ha a csoportok tagszáma nem ugyanannyi (pl. ez a helyzet az EU-s adatbázis esetén is), akkor ún. súlyozott kontraszt változókat kell alkalmazni (itt ráadásul már nem is egész értékeket fognak a dummy változóink felvenni) Nem foglalkozunk vele ennél bővebben 7