Dummy változók használata Ferenci Tamás 1 tamas.ferenci@medstat.hu 1 Statisztika Tanszék Budapesti Corvinus Egyetem Hetedik fejezet
Tartalom IV. esettanulmány 1 IV. esettanulmány Uniós országok munkanélkülisége 2
Uniós országok adatbázisa Uniós országok munkanélkülisége Makroökonómiai feladatot kell megoldanunk: vizsgáljuk a munkanélküliség alakulását, befolyásoló tényezőit az Európai Unió országain belül! Kvantitatív vizsgálat a feladat, ökonometriai modellezést fogunk bevetni A munkanélküliség munkanélküliségi rátaként (%-ban mérve) van operacionalizálva, a GDP az EU-átlaghoz relatíve (szintén %-ban mérve) A fenti eredmény és magyarázó változón kívül még azt is tudjuk, hogy az egyes országok melyik kategóriába esnek tagságuk szerint: régi tag, újonnan csatlakozó, tagjelölt (Az adatbázis 2002-ből való, így értendőek a kategóriák)
Nominális tulajdonságok a regresszióban A kérdés, ami mostani kutatásainkat motiválja: hogyan szerepeltethetünk egy minőségi (nominális) tulajdonságot, pl. férfi/nő, egészéges/beteg, régi tagállam/újonnan csatlakozó/tagjelölt (az EU-ban) stb. egy regressziós modellben A regresszió csak számszerű adatokat tud felhasználni valahogy kódolni kell a nominális tulajdonság lehetséges értékeit (kimeneteit, csoportjait) Eddig csak mennyiségi tulajdonságokkal foglalkoztunk, aminek kódolása triviális volt: a naturáliában kifejezett értékével (m 2, eft stb.) A minőségi változókat úgy kódoljuk, hogy a lehetséges (véges sok!) kimenet mindegyikéhez hozzárendelünk egy egész (ritkábban racionális) számot, pl. a férfi nemet 0-val, a nőt 1-gyel kódoljuk
Dummy változó fogalma A kódolást megvalósíthatjuk olyan változóval vagy változókkal, melyek csak 0 vagy 1 értéket vehetnek fel Az ilyen változókat nevezzük dummy változónak Ha két kimenet van, akkor a kódolás teljesen kézenfekvő: egy dummy változóra van szükségünk, mely (például) 0 értéket vesz fel férfira, 1-et nőre Bonyolultabb a helyzet, ha több kimenet van Triviális kódolás: D1 D2 D3 A 1 0 0 B 0 1 0 C 0 0 1... ám vegyük észre, hogy 3 csoporthoz nem kell 3 dummy változó, kódolható 2-vel is!
Referencia-kódolás IV. esettanulmány Általában k kimenet kódolása megoldható k 1 dummy változóval az ún. referencia-kódolás logikájával Itt kiválasztunk egy kimenetet, aminél mind a k 1 darab dummy változó 0 értéket vesz fel (ez az ún. kontrollcsoport), és a többi k 1 csoportot az jelzi, hogy a k 1 dummy változó közül melyik vesz fel 1 értéket (mindig csak 1!) R A A 1 0 Például (3 kimenetre): B 0 1 C 0 0 Itt C a referenciacsoport, R A és R B a két szükséges (ugye k = 3!) magyarázó változó Vegyük észre, hogy R A D A és R B D B (tehát a két kódoláshoz pontosan ugyanazon dummykra van szükség, csak a referencia-kódolásnál eldobjuk az egyiket) R B
Referencia-kódolás az uniós országok példáján Triviális módon kódoltuk dummyval, hogy egy ország melyik kategóriába (régi tag, újonnan csatlakozó, tagjelölt) esik, referencia-kódolást kapunk, ha valamelyiket elhagyjuk:
Dummy változó csapda Ha van konstans a modellben, akkor tilos is k csoporthoz k dummyt használni a kódoláshoz Ellenkező esetben egzakt multikollinearitás jön létre (gondoljuk végig, hogy a dummy változókhoz mi tartozik az X mátrixban, ld. előbb!); ez az ún. dummy változó csapda További magyarázat: gondoljunk bele, ha mégis lenne konstans és k csoporthoz k darab dummy, akkor k értéket (a k csoportra becsülendő eredményváltozót, hiszen ne feledjük, itt mindegyikhez egyetlen számot becsülünk eredményként, azaz mindegyik elemeire ugyanazt a konstans adjuk vissza eredményváltozóként) k + 1 változóban (konstans + k darab dummy) kéne eltárolnunk nem oldható meg egyértelmű módon; mindenképp k darab változóban kell ezeket tárolnunk Ha k csoportot mégis k dummyval kódolunk (a triviális módon), akkor nem szerepeltethetünk konstanst
Dummy változó csapda Az előző okfejtésből az is látszik, hogy k kategóriához kell is k 1 darab dummy (ha van konstans, különben k darab) különben nem lenne hol tárolni a becsült eredményváltozóként visszaadandó értékeket
Triviális kódolás konstans nélkül A két kódolási mód (k darab dummy, nincs konstans és k 1 darab dummy, van konstans) jól szemléltethető egy csak a nominális tulajdonsággal magyarázó regresszióval Eredményváltozónk legyen tehát a munkanélküliségi ráta, magyarázó változónk a csoporttagság (varianciaanalízis-modell) k darab dummy, nincs konstans: D A D B D C A 1 0 0 B 0 1 0 C 0 0 1 Együtthatók értelmezése? Y = β A D A + β B D B + β C D C + u
Referencia-kódolás konstanssal k 1 darab dummy, van konstans: D A D B A 1 0 B 0 1 C 0 0 Együtthatók értelmezése? Y = β + β AD A + β BD B + u
A kettő kapcsolata IV. esettanulmány Értelmezésnél egy dolgot tartsunk mindig szem előtt: ugyanarra a csoportra ugyanannak az értéknek kell kijönnie, akárhogy kódolunk! Például a B csoportra: β B = β + β B... ezért a fenti egyenlet így kell kinézzen: Y = β C + (β A β C ) D A + (β B β C ) D B + u
Mindezek az EU országok munkanélküliségének példáján A két különböző módon kódolt modell megbecslése: Dependent variable: MnRata Coefficient Std. Error t-ratio p-value D1 6,58000 1,11155 5,9197 0,0000 D2 10,4400 1,36136 7,6688 0,0000 D3 11,7000 2,48550 4,7073 0,0001 R 2 0,210656 Adjusted R 2 0,147509 F (2, 25) 3,335935 P-value(F ) 0,051979 Coefficient Std. Error t-ratio p-value const 11,7000 2,48550 4,7073 0,0001 D1 5,12000 2,72273 1,8805 0,0717 D2 1,26000 2,83391 0,4446 0,6604 R 2 0,210656 Adjusted R 2 0,147509 F (2, 25) 3,335935 P-value(F ) 0,051979 Értelmezzük az együtthatókat! az értelmezések eltérnek, de egy adott csoport értéke mindenképp ugyanannyi Vegyük észre, hogy a változónkénti szignifikanciák eltérhetnek (mert másra fognak vonatkozni!), de a modellminősítő mutatók nem
Fontos hipotézisvizsgálatok Referencia-kódolás esetén (a triviális kódolás tesztelésének általában nincs sok tartalma) a kézenfekvő kérdés, hogy van-e különbség a csoportonkénti értékek (amik ugye itt konstans számok) között (mint az ANOVA-nál) Precízebben: szignifikáns-e egy adott csoportbeli érték eltérése a referenciacsoportétől Ez itt nem más, mint β relevanciája Egyszerűen t-próbával ellenőrizhető! Az ANOVA megfelelője: H 0 : β A = β B =... = 0 H 1 : j : β j 0
Dummyzás folytonos magyarázó változó jelenléte mellett Amit eddig csináltunk az lényegében az volt, amit konstans dummyzásának nevezhetünk: csoportonként eltérő (de konstans) értékkel becsültük az eredményváltozót Mi van, ha bevonunk egy magyarázó változót, pl. a GDP-t? Azaz ekkor már nem egy konstanst becsülünk az egyes csoportokra, hanem egy egyenest (GDP függvényében) Dummyzással (tehát a csoporttagság szerint) eltéríthetjük az egyenesek tengelymetszetét és meredekségét is! Lehet csoportonként különböző 1 +1 egység GDP-hatása 2 a 0 GDP-hez tartozó munkanélküliségi szint
Y IV. esettanulmány Eltérő tengelymetszet Ha csak a tengelymetszetet térítjük el (+1 egység GDP hatása ugyanaz minden csoportban, de nem ugyanannyi a 0 GDP-hez tartozó munkanélküliség) 25 beta_1 + beta_x * X beta_1 + beta_d * D + beta_x * X 20 15 10 5 0 0 2 4 6 8 10 X Algebrailag: Y = β 1 + β D D + β X X + u
Y Eltérő meredekség IV. esettanulmány Ha csak a meredekséget térítjük el (0 GDP-hez ugyanakkora munkanélküliség tartozik, de +1 egység GDP hatása csoportonként eltérő) 35 30 beta_1 + beta_x * X beta_1 + (beta_x + beta_d) * X 25 20 15 10 5 0 0 2 4 6 8 10 X Algebrailag: Y = β 1 + (β X + β D D) X + u
Eltérő tengelymetszet és meredekség Akár a tengelymetszet és a meredekség is lehet különböző De hát ez megoldható a minta szétszedésével is! Például a globális regresszió: Dependent variable: MnRata Coefficient Std. Error t-ratio p-value const 14,3628 1,59829 8,9863 0,0000 GDP 0,0745601 0,0182874 4,0771 0,0004 R 2 0,390001 Adjusted R 2 0,366540 F (1, 26) 16,62304 P-value(F ) 0,000382 Regresszió a régi tagállamok csoporton belül: Coefficient Std. Error t-ratio p-value const 12,7791 2,48209 5,1485 0,0002 GDP 0,0580442 0,0225065 2,5790 0,0229 R 2 0,338464 Adjusted R 2 0,287577 F (1, 13) 6,651238 P-value(F ) 0,022900
Eltérő tengelymetszet és meredekség Regresszió az újonnan csatlakozók csoporton belül Coefficient Std. Error t-ratio p-value const 23,9611 4,71505 5,0818 0,0010 GDP 0,258530 0,0866423 2,9839 0,0175 R 2 0,526725 Adjusted R 2 0,467566 F (1, 8) 8,903502 P-value(F ) 0,017497 Regresszió a tagjelöltek csoporton belül Coefficient Std. Error t-ratio p-value const 108,550 1,06888 101,5551 0,0063 GDP 4,87500 0,0433013 112,5833 0,0057 R 2 0,999921 Adjusted R 2 0,999842 F (1, 1) 12675,00 P-value(F ) 0,005655
Eltérő tengelymetszet és meredekség És persze megoldható mindez dummyzással is ahogy előbb láttuk, csak a módszereket kell kombinálni: a konstanst és a meredekséget is megdummyzzuk Mi értelme ennek a minta szétszedéséhez képest? Egyrészt spórolunk a szabadsági fokokkal (nagyobb erejű próbák stb.), másrészt fontos hipotéziseket vizsgálhatunk egyszerűen (ld. mindjárt)
A dummyzás általános modellje Az előző két eset (konstans és meredekség dummyzása) így foglalható tehát össze az előbb mondottaknak megfelelően (3 csoportra): Y = β 1 + β 2 X + u, de úgy, hogy β 1 = α + α A D A + α B D B és β 2 = γ + γ A D A + γ B D B Vegyük észre, hogy a meredekség dummyzása a dummy és a mennyiségi változó közti interakcióra vezet: Y = α + α A D A + α B D B + γx + γ A (D A X) + γ B (D B X) + u Végeredmény bizonyos értelemben ugyanaz... de messzemenően több lehetőségünk van a fenti modellel makroökonómiailag releváns hipotézisek tesztelése!
Hipotézisvizsgálat a dummyzott modellben Pl.: van-e egyáltalán bármilyen eltérés a csoportok között? (Értsd: eltér-e a becsült egyenes (bármilyen szempontból) a csoportok között, vagy mindegyikben teljesen ugyanaz?) Ez az ún. strukturális törés, hipotézispárja: H 0 : α A = α B = γ A = γ B = 0, H 1 : valamelyik ezek közül nem nulla, tehát van strukturális törés És most jön a szép rész: ha a fenti modellt megbecsültük (sima OLS-sel), akkor ez a hipotézis egyszerűen egy közönséges Wald- (vagy hasonló) próbát jelent! Hasonlóképp: nem lehet, hogy csak a tengelymetszetek eltérőek? ez az ún. párhuzamos ráták hipotézise, H 0 : γ A = γ B = 0; szintén Wald-teszttel elintézhető Minden hasonló (itt: makroökonómiailag releváns) kérdés vizsgálata változó vagy változók relevanciájának tesztelésére vezethető vissza
Kontraszt-kódolás IV. esettanulmány Kontraszt-kódolás: trükkös kódolás úgy kitalálva, hogy a dummy-k együtthatója ne a referencia-csoporthoz, hanem az átlaghoz képesti eltérést jelentse Itt fordulhat elő, hogy a dummy változó nem 0 és 1 értéket vehet csak fel Ha a csoportok tagszáma nem ugyanannyi (pl. ez a helyzet az EU-s adatbázis esetén is), akkor ún. súlyozott kontraszt változókat kell alkalmazni (itt ráadásul már nem is egész értékeket fognak a dummy változóink felvenni) Nem foglalkozunk vele ennél bővebben