1. II. esettanulmány Szakágazati mélységű termelési függvény becslése... 1

Átírás

1 Tartalom Tartalomjegyzék 1. II. esettanulmány Szakágazati mélységű termelési függvény becslése Általánosítóképesség, túlilleszkedés 3 3. Modellszelekció A modellszelekció tartalma Modellszelekciós tesztek A Wald-teszt A Lagrange Multiplikátor (LM)-teszt Kitérő: modellezési filozófiák Modellszelekciós mutatók, kritériumok Multikollinearitás Lineáris megkötések tesztelése Egy lineáris megkötés tesztelése Több egyidejű lineáris megkötés tesztelése II. esettanulmány Ebben az esettanulmányban egy olyan példát hozunk, ahol potenciális magyarázó változók egy nagyon széles köre áll rendelkezésre adott eredményváltozó magyarázására. Felmerül a kérdés, hogy ilyenkor mindenképp az összeset érdemes-e felhasználni a regresszióban. Esetleg csak a néhány legjobbat? Ha ez utóbbi, akkor pontosan hány legjobbat? És egyáltalán, mi dönti el, hogy melyek a legjobb magyarázóváltozók...? Másodlagosan, az esettanulmány arra a problémakörre is rámutat, hogy bizonyos esetekben a változók (akár eredmény, akár magyarázó oldalon) absztrakt tulajdonságot írnak le, amit nem lehet közvetlenül megragadni (mérni). Ilyen esetben a közvetlenül nem mérhető változóhoz olyan változót, vagy változókat kell találni, melyek azzal kapcsolatban vannak (lehetőleg minnél szorosabban), de már mérhetőek Szakágazati mélységű termelési függvény becslése A termelési függvény és becslése A termelési függvény mikro-ból mindenkinek ismerős; nagyon absztrakt formában: Y = f (K, L) Standard mikroökonomia vállalatfelfogása: a vállalat feketedoboz (az f transzformáció jellemzi), bedobjuk az inputot (K, L), kijön az output (Y ) abszolút absztrakt definíció Mi most ezt szakágazati szinten kívánjuk megkonstruálni ténylegesen (valós magyar adatok a es évek elejéről, TEÁOR szerinti bontás) Az operacionalizálás problémája eredményváltozó Hogyan mérjük az Y -t, K-t és L-et? Milyen mérhető változók jellemezhetik ezeket az absztrakt, közvetlenül mérhetetlen fogalmakat? (Ezek lesznek az ún. proxy változók.) Számtalan ötletünk lehet! Például Y -ra: 1

2 1. Bruttó kibocsátás (BK) proxy: bevételek + saját teljesítm. 2. Hozzáadott érték (HÉ) = BK - anyagi ráfordítás 3. Nettó termelés (NT) = HÉ - amortizáció 4. Üzleti tevékenység eredménye = NT - személyi ráfordítások Látható a gondolati ív (a halmozódás tekintetbe vételével) Mi most a legutolsót fogadjuk el eredményváltozónak Ezt, vagyis amikor kitaláljuk, hogy egy közvetlenül nem mérhető jelenséget milyen módon teszünk közvetlenül mérhetővé, operacionalizálásnak nevezzük Az operacionalizálás problémája magyarázó változók Hasonlóan sok minden jön szóba a termelési tényezők (K, L) mérésére 1. Alkalmazotti létszám (a munka, L proxyja) 2. Eszközoldalról (K) (a) Befektetett eszközök (b) Forgóeszközök 3. Forrásoldalról (ismét csak K) (a) Saját tőke (b) Kötelezettségek (hosszúlejáratú és rövidlejáratú) 4. Ráfordítások (a) Anyagi jellegű (b) Személyi jellegű (ez megint a munka proxyja) (c) Értékcsökkenés (beruházás költségének proxyja) Az optimális magyarázó változó-kör kialakításának problémája Valójában ennél is sokkal több szóba jövő magyarázó változónk van, ld. adatbázis Na, és ezek között hogy döntünk, melyiket használjuk magyarázó változóként? Vagy sehogy, egyszerűen használjuk fel az összeset? Vagy ez nem a legjobb ötlet...? (Adatunk mindenesetre az összesről van) Az adatbázis madártávlatból és rövidítve a gretl-ben 2

3 Ez alapján a nemzetgazdasági adatok A gretl-ből (rövidítve az outputot): Summary Statistics, using the observations Variable Mean Median Minimum Maximum VallSzam 459, ,000 3, ,00 Letszam 4, , , ,0480 BefEszk 64,2911 8, , ,91 SzemRaf 9, , , ,477 ECsLeir 3, , , ,327 UzlEred 3, , , ,612 Variable Std. Dev. C.V. Skewness Ex. kurtosis VallSzam 1003,46 2, , ,7210 Letszam 7, , , ,3733 BefEszk 305,655 4, , ,521 SzemRaf 18,2895 1, , ,3529 ECsLeir 10,8249 2, , ,786 UzlEred 19,7072 5, , ,594 Az összes vállalat száma az adatbázisban: 459, = A függvény megbecslése az összes magyarázó változóval Közönségesen, gretl-t használva kapjuk: Model 1: OLS, using observations Dependent variable: UzlEred Coefficient Std. Error t-ratio p-value const 0, , ,2546 0,2103 Letszam 0, , ,6107 0,1079 BefEszk 0, , ,9670 0,0032 ForgEszk 0, , ,2347 0,0259 SajToke 0, , ,7194 0,0068 HLejKot 0, , ,6909 0,0915 RLejKot 0, , ,9990 0,0001 AnyagRaf 0, , ,6835 0,0000 SzemRaf 0, , ,4563 0,6484 ECsLeir 1, , ,2394 0,0000 Mean dependent var 3, S.D. dependent var 19,70724 Sum squared resid 25775,51 S.E. of regression 7, R 2 0, Adjusted R 2 0, F (9, 469) 323,2098 P-value(F ) 8,7e 195 Log-likelihood 1634,194 Akaike criterion 3288,388 Schwarz criterion 3330,105 Hannan Quinn 3304,787 R 2 = 0,86, nem indul rosszul Kis kitérő: értelmezési kérdések Speciális, mikroökonómiai indíttatású (ökonometria, ugyebár!) értelmezési feladatok és megválaszolásaik 1. Határtermék (Ht j = dŷ dx j ): épp β j 2. Helyettesítési határarány: épp Htj Ht i 3. Átlagtermék: Ȳ X j = βj β i (lásd nemzetgazdasági adatok!) 2. Általánosítóképesség, túlilleszkedés Pár gondolat a magyarázó változók körének kiválasztásához Eddig egyetlen minősítőjét láttuk egy modell jóságának: az R 2 -et Tételmondat: új változó bevonásával R 2 értéke mindenképp nő (de legalábbis nem csökken), teljesen függetlenül attól, hogy mi a bevont változónk, mik vannak már a modellben stb. intuitív indoklás Tehát: ha az R 2 -tel jellemezzük a modellünket, akkor mindig az összes potenciális magyarázó változó felhasználása lesz a legjobb döntés A valóságban azonban már nem biztos! 3

4 Mert: az R 2 a minta jó leírását jellemzi, de mi a sokaságot akarjuk megragadni A kettő ellentmondásba kerülhet! A tételmondat indoklásaként gondoljunk arra, hogy legrosszabb esetben az újonnan bevont változó együtthatójára nulla mindenképp becsülhető ekkor pedig ESS szempontjából pont ott vagyunk, mint az eredeti modell esetében! Általánosítóképesség Azt, hogy a modell a mintából kinyert információk alapján mennyire jól tud a sokaságról (tehát a mintán kívüli világról) is számot adni, általánosítóképességnek nevezzük Igazából mi erre játszunk!... ennyiben (erre a célra) az R 2 nem szerencsés mutató Az R 2 a minta jó megjegyzését mutatja. Ez nekünk nem öncél gondoljunk bele: ha csak a mintát akarnánk megjegyezni, akkor kár is regressziós modellt alkotni, használhatnánk egyszerűen magát a mintát is, ami ugye a rendelkezésünkre áll... Általánosítóképesség Persze az sem jó megközelítés, hogy az R 2 -tel nem törődünk, hiszen ha nem szedünk ki elég információt a mintából, akkor sem várható, hogy a sokaságról jól tudunk nyilatkozni (mivel arra vonatkozóan csak a mintára támaszkodhatunk) Tehát: kompromisszumra van szükség a mintainformációk felhasználásában ha túl keveset használunk fel, akkor nem nyerünk elég jó képet a sokaságról... ha túl sokat használunk fel, akkor túlságosan ráfókuszálunk a mintára Ahogy egyre több információt nyerünk ki a mintából (egyre jobban elköteleződünk mellette), úgy egy pontig javul, majd ezen túl automatikusan romlik az általánosítóképesség Alulilleszkedés, túlilleszkedés A fentiek jól értelemzhetőek a gépi tanulás fogalomkészletével Itt a tanulás információkinyerés a mintából Ha ezt túl kis mértékben hajtjuk végre, akkor alulilleszkedésről ha túl nagy mértékben, akkor túlilleszkedésről (túltanulásról) beszélünk A túltanított modell látszólag nagyon jó (a mintát jól megragadja), de valójában nem az, mert a mintán kívüli képességei gyatrák lesznek (hiszen túlságosan ráfókuszált a mintára) Túlilleszkedés túl sok magyarázó változó miatt A magyarázó változók száma tipikus példája a tanítás fokának Túl kis mértékű tanítás (túl kevés magyarázó változó) esetén az alulilleszkedés miatt lesz rossz a modellünk túl nagy mértékű tanítás (túl sok magyarázó változó) esetén a túlilleszkedés, az általánosítóképesség leromlása miatt Szemléletes megjelenés: a bevont magyarázó változók száma csökkenti a tesztek szabadsági fokainak számát (erre ugyanis sokszor jön elő valamilyen n k jellegű kifejezés), leköti a szabadsági fokokat 4

5 Egy példa a túlilleszkedésre Egyszerű kétváltozós feladat: egy magyarázó- és egy eredményváltozó A példánkban a tanítás fokát tehát nem a magyarázó változók számával fogjuk mérni, hanem a függvényforma bonyolultságával: Y = β 1 + β 2 X 2 + u, Y = β 1 + β 2 X 2 + β 2X u, Y = β 1 + β 2 X 2 + β 2X β 2 X2 3 + u stb. Tehát az eredményváltozót a magyarázó változó egyre nagyobb fokszámú polinomjával közelítjük (a polinom fokszámát jelölje p) (A függvényforma ilyen megválasztásával később foglalkozunk részleteiben, de most nem is ez a lényeg) Egy példa a túlilleszkedésre Hogy tudjuk mi a jól illeszkedő modell, elárulom, hogy az adatokat valójában egy Y = 5 X 3 +1+u modell szerint generáltam, ahol u N (0; 0,3) Tehát lényegében: zajos harmadfokú függvény A jól illeszkedő modell ezt most tudjuk, általában persze nem! a harmadfokú lenne Alulilleszkedés: p = 0 2,76989 Alulilleszkedés: p = 1 5,12654x 0,

6 Nagyjából jó illeszkedés: p = 2 7,13434x 2 2,77819x + 1,22967 Nagyjából jó illeszkedés: p = 3 2,48264x 3 + 3,17392x 2 1,06319x + 1,0774 Nagyjából jó illeszkedés: p = 4 11,6577x 4 22,0369x ,2496x 2 5,39823x + 1,34003 Túlilleszkedés: p = 5 94,7601x 5 236,514x ,631x 3 77,138x ,8264x + 0,

7 Túlilleszkedés: p = 6 556,426x ,28x ,87x ,69x 3 489,325x ,8299x 1,52203 Túlilleszkedés: p = ,18x ,2x ,1x ,4x ,8x ,67x 2 380,286x + 14,6986 Túlilleszkedés: p = ,2x ,x ,x ,x ,x ,x ,6x ,04x+112,114 7

8 Túlilleszkedés: p = ,x 9 + 3, x 8 8, x 7 + 1, x 6 9, x 5 + 4, x 4 1, x ,x ,1x + 807,137 Túlilleszkedés: p = 10 8, x 10 5, x 9 + 1, x 8 2, x 7 + 2, x 6 1, x 5 + 5, x 4 1, x 3 + 2, x ,x ,46 Túlilleszkedés: p = 11 9, x 11 6, x , x 9 3, x 8 + 3, x 7 2, x 6 + 1, x 5 5, x 4 + 1, x 3 1, x 2 + 1, x 44723,9 8

9 Túlilleszkedés: p = 12 1, x 12 1, x , x 10 7, x 9 + 9, x 8 8, x 7 + 4, x 6 2, x 5 + 6, x 4 1, x 3 + 1, x 2 1, x Túlilleszkedés: p = 13 1, x 13 1, x , x 11 9, x , x 9 1, x 8 + 1, x 7 6, x 6 + 2, x 5 7, x 4 + 1, x 3 1, x 2 + 1, x 3, Túlilleszkedés: p = 14 2, x 14 1, x , x 12 1, x , x 10 3, x 9 + 3, x 8 2, x 7 + 9, x 6 3, x 5 + 8, x 4 1, x 3 + 1, x 2 1, x + 3,

10 Hiba az egyes fokszámok mellett Jobban láthatóan... Itt a függőleges tengely logaritmikus beosztású, hogy a nagyon kis számok tartományában is látszódjanak a változások. A túlilleszkedés hatása Itt a tanítás mértékét a polinom fokszáma jelzi A példa tökéletesen mutatja, hogy mi a túlilleszkedés tartalma: A mintaadatokat ugyan egyre jobban megtanuljuk de közben a mintán kívüli világról egyre kevesebbet tudunk mondani (holott minket ez érdekelne igazából) A túltanulás igazi problematikáját az adja, hogy ez utóbbi elkerülhetetlenül bekövetkezik, ha a tanítást túl sokáig folytatjuk 10

11 Túl sok magyarázó változó okozta túlilleszkedés Magyarázó változó felhasználása szintén egyfajta tanítást jelent! A felhasznált magyarázó változók száma tehát a tanítás mértékét adja meg Túl sok magyarázó változóval fellép a túltanítás! Az R 2 ezt nem jellemzi, csak a mintához való illeszkedést Valahogy javítani kell; ezzel fogunk most foglalkozni 3. Modellszelekció 3.1. A modellszelekció tartalma A modellszelekció fogalma Modellszelekció alatt az optimális magyarázó változó-kör meghatározását értjük Ennek megfelelően foglalkozik változó bevonásának/elhagyásának hatásával de nem mikroszkopikusan (mi történik a többi változó becsült paramétereivel stb.), hanem makroszkopikusan (mi történik a modell jóságával) Az előbbi inkább a modellspecifikáció kérdése, később fogunk vele foglalkozni Továbbá: a modellszelekció inkább a magyarázó változók körének kialakításával foglalkozik, a modellspecifikáció inkább adott magyarázó változók mellett a függvényformával (de nincs egyértelmű határ) A modellszelekció problematikájának megoldása Az biztos, hogy a mintához való illeszkedés az R 2 -tel jellemezhető Innentől két módon lehet továbbhaladni a modellszelekcióval: 1. Két modell között úgy döntünk, hogy megnézzük, hogy lényeges-e köztük az R 2 -beli különbség... és csak akkor választjuk a bővebbet, ha az lényegesen nagyobb R 2 -tel bír (más szóval: egy modellből mindazon változókat elhagyjuk, melyek nem csökkentik lényegesen az R 2 -et, még ha számszerűen csökkentik is) 2. Definiálunk olyan mutatót az R 2 helyett, mely az R 2 -hez hasonlóan figyelembe veszi a mintához való illeszkedést, de azzal szemben az ehhez szükséges magyarázó változók számát is Most e két megközelítést fogjuk közelebbről is megvizsgálni Itt (és mindenhol máshol is) a lényegeset természetesen úgy értjük, hogy mintavételi értelemben lényeges, tehát olyan mértékű, ami nem egyeztethető össze a mintavételi ingadozással: adott szignifikanciaszinten nem hihető, hogy a változás pusztán a mintavételi ingadozásnak tudható be, ezzel szemben feltehető, hogy tényleges sokasági különbség van a hátterében. 11

12 3.2. Modellszelekciós tesztek A modellszűkítésről Már láttuk, hogy miért akarhatunk modellt szűkíteni (változót elhagyni a modellből), még ha ezzel rontunk is az R 2 -en (és még látni fogunk más okot is) Melyik változót lehet érdemes ezek miatt elhagyni? mérlegelés a fentiekben javulás és az R 2 romlása között Visszatekintve az első modellünkre ne hagyjuk ki a Személyi ráfordítást? (Nagyon inszignifikáns!) Ha ezt megtesszük, akkor az R 2 0, ról 0, ra romlik Na, ez most sok vagy kevés? teszt kéne, hogy segítse ezt a mérlegelést! (Vagy más kritérium, ld. később) A Wald-teszt Változók elhagyására vonatkozó Wald-teszt Általánosítunk: nem csak egy változó elhagyására mutatjuk meg a tesztet (persze speciálisan arra is, vagy akár az összes változó elhagyására is jó! ezeket lásd később) Két modell között döntünk, egy bővebb (U unrestricted) és egy szűkebb (R restricted) között U : Y = β 1 + β 2X β q 1X q 1 + β qx q + β q+1x q β q+mx q+m + u R : Y = β 1 + β 2X β q 1X q 1 + β qx q Nested (beágyazott) modellszelekció: modellben a szűkebb modell minden változója benne van a bővebb Nullhipotézis: H 0 : β q+1 = β q+2 =... = β q+m = 0, tehát az utolsó m darab változó még összességében sem bír lényeges magyarázó erővel elhagyhatóak anélkül, hogy a modell lényegesen romlana Változók elhagyására vonatkozó Wald-teszt A próba: F emp = ( ) R 2 R0 2 /m (1 R 2 ) / (n k) F m,n k Itt R 2 az eredeti, R 2 0 a szűkített modell többszörös determinációs együtthatója Ebből a felírásból látszik jól, hogy ez a teszt a többszörös determinációs együtthatók különbségét ítéli meg. Speciális Wald-hipotézisek Vegyük észre, hogy ez az igen általános megközelítés a két, eddig látott tesztet is tartalmazza speciális esetként! Ha m = 1, akkor F = t 2 j : visszakaptuk a t-tesztet Ám figyelem: a Wald-teszt nem ekvivalens a t-próba m-szeri elvégzésével (külön-külön az egyes változókra) Ha m = k 1, akkor F Wald = F ANOVA : visszakaptuk a függetlenségvizsgálatot Logikusak, hiszen a nullhipotézisek is azonos alakúak lettek 12

13 Egy példa a gretl-ben Létszám és Személy ráfordítás elhagyása egyszerre Test for omission of variables -\\ Null hypothesis: parameters are zero\\ for the variables\\ Letszam\\ SzemRaf\\ Test statistic: F(2, 469) = 10,3011\\ with p-value = P(F(2, 469) > 10,3011) =\\ 4,18568e-005\\ A Lagrange Multiplikátor (LM)-teszt Változók elhagyására vonatkozó LM-teszt Az LM (Lagrange Multiplikátor) próba hipotézispárja teljesen azonos alakú a Wald-F-teszttel: U : Y = β 1 + β 2X β q 1X q 1 + β qx q + β q+1x q β q+mx q+m + u R : Y = β 1 + β 2X β q 1X q 1 + β qx q és H 0 : β q+1 = β q+2 =... = β q+m = 0 A különbség a modellezés filozófiájában van (ld. később), a teszt tulajdonságai, alkalmazhatósága is eltérő Alapötlet: becsüljük meg a szűkebb modellt, és számítsuk ki ez alapján a becsült reziduumokat. Ha fennáll H 0, akkor ezek a reziduumok nem magyarázhatóak lényegesen sem a szűkebb modell változóival (OLS következménye), sem a vizsgált változókkal (H 0 következménye). Azaz: ha a becsült reziduumokat kiregresszáljuk az összes változóval, akkor sem tudjuk azt lényegesen magyarázni, ha fennáll a H 0. Az LM-próba próbafüggvénye Ezen intuitív indoklás után a próbafüggvény: n R 2 χ 2 û R X 2,X 3,...,X q+m m Itt û R jelölés arra utal, hogy a szűkebb (R) modellből kapott reziduumokról van szó Kitérő: modellezési filozófiák Az LM és a Wald-teszt eltérései Ha ugyanazt a hipotézist vizsgálják, mi a különbség köztük? A nyilvánvaló: teljesen más elven épülnek fel Ennek konkrétabb következményei: 1. Nem feltétlenül ugyanakkor utasítanak el; sőt, ennél több is mondható: az LM-próba mindig az elfogadás felé hajlik (olyan értelemben, hogy ha ez elutasít, akkor a Wald is, viszont ha a Wald elfogad, akkor az LM is elfogad) 2. A Wald kismintás próba, az LM-próba nagymintás (értsd: tulajdonságai csak aszimptotikus értelemben garantáltak), de azért a gyakorlatban már néhányszor 10 mintaelemre is elég jól szokott közelíteni 3. Belátható, hogy a Wald-teszt csak a korlátozatlan, az LM-teszt csak a korlátozott modell becslését igényli; ez utóbbi egyszerűbb (gyakorlatban számít!) 13

14 Az LM és a Wald-teszt eltérései Van egy általánosabb különbség is: más modellezési filozófiához illeszkednek A Wald-teszt inkább az általánostól az egyszerűig filozófiának (Hendry/LSE) felel meg (a korlátozatlan modellből indul, és kérdezi, hogy lépjünk-e a csökkentés irányába) Az LM-próba inkább az egyszerűtől az általánosig filozófiának felel meg (a korlátozott modellből indul, és kérdezi, hogy lépjünk-e a bővítés irányába)... hát ez a különbség hiába ugyanaz formailag a hipotézispár! (Az LM-tesztet kicsit általánosabban is használják az ökonometriában, más hipotézisek tesztelésére is) Nem igazán lehet válaszolni arra a kérdésre, hogy melyik a jobb modellezési filozófia: nagyon sok, részben egymásnak ellentmondó, elméleti és gyakorlati szempont merül fel a választásnál. Ezzel a kérdéssel könyvtárnyi irodalom foglalkozik Modellszelekciós mutatók, kritériumok Az R 2 megjavítása Ahogy láttuk az R 2 önmagában nem minősít egy modellt, mert csak a hibát minimálja, a túl sok változó káros hatásával egyáltalán nem foglalkozik ( egyoldalú mérlegelés) Nem lehetne ezt valahogy kijavítani? tehát olyan mutatót konstruálni, ami mindkét szempontra tekintettel van? Ötlet: induljunk ki az R 2 -ből, de büntessük a magyarázó változók számának növelését Bár máshonnan származik, de épp ennek a logikának felel meg a korrigált R 2 : R 2 = 1 ( 1 R 2) n 1 n k Ez már alkalmas különböző számú magyarázó változót tartalmazó modellek összehasonlítására A korrigált R 2 klasszikus bevezetése szerint 1 R 2 megegyezik a (sokasági) hibatag és az eredményváltozó becsült szórásának hányadosával. Az R 2 főbb tulajdonságai R 2 R 2 Ebből következően 1-nél nem lehet több de 0-nál lehet kisebb (ha sok magyarázó változóval is csak gyenge magyarázást (kis R 2 -et) tud elérni) Ez már csökkenhet is új változó bevonásával (ez a változó t-hányadosától függ) Automatikus modellszelekció Emiatt használható automatikus modellszelekcióra is Megadjuk a változók egy maximális halmazát, és a gép kiválasztja, hogy melyik részhalmaza az optimális: melyeket érdemes egy modellbe bevonni, hogy az a legjobb legyen Jóság valamilyen célfüggvény szerint (ami ugye nem R 2, hogy a dolognak értelme is legyen (miért is?), hanem pl. R2 ) 14

15 Az optimális részhalmaz speciálisan lehet az üres halmaz, vagy az összes potenciális változó is Heurisztikus stratégiák, hogy ne kelljen a 2 n kombinációt tesztelni: Forward szelekció Backward szelekció Stepwise szelekció Információs kritériumok Vannak további mutatók is, melyek egyszerre büntetik a magyarázó változók nagy számát és a nagy hibát, a kettő között egyensúlyt keresve, pl. Akaike: AIC = ESS n e 2k n Schwarz (Bayesian): BIC = ESS n n k n Hannan-Quinn: HQC = ESS n 2k n (ln n) Teljesen más elven (információelméleti alapon) épülnek fel mint az R 2 Hiba jellegű mutatók, ezért őket minimalizálni akarjuk és nem maximalizálni! Sok van belőlük, döntsük el előre, hogy melyiket használjuk a modellszelekcióra! Természetesen szintén alkalmasak automatikus modellszelekció irányítására célfüggvényként 4. Multikollinearitás A magyarázó változók körében rejlő egyéb probléma-lehetőségek Van egy másik oka is annak, hogy túl sok magyarázó változó használata miért lehet problémás: az, hogy a magyarázó változók a tipikus gyakorlati esetekben egymást is magyarázzák, vannak közöttük lineáris kapcsolatok Ezt a következő egyszerű példán mutatjuk be: Ŷ = β 1 + β B Ber + β F Fo + û, Tegyük most fel (nyilván nem igaz ilyen erősen, de nem teljesen elrugaszkodott), hogy a Bér-hez képest a Fő hozzáadása már felesleges, mégpedig azért mert nem hordoz további információt (ugyanazt írja le más szemszögből), mi mégis bevonjuk a modellünkbe Multikollinearitás Mi történik ilyenkor? a magyarázó változók egymást is magyarázni fogják a modellünk minősége romlik (egyelőre értsd: c. p. feltevés, ill. becsülhetőség), minél jobban magyarázzák egymást, annál inkább (extrém példa: lineáris összefüggőség) Ez a multikollinearitás: az a jelenség, hogy a magyarázó változók lineáris kapcsolatban vannak egymással Bár nem tökéletesen precíz, de ezt a gyakorlatban azzal jellemezzük, hogy mennyire magyarázzák egymást Ennek megfelelő mérőszám az ún. tolerancia: Tol Ber = 1 R 2 Ber Fo 15

16 Multikollinearitás leírása Általában: a vizsgálat magyarázó változót mennyire magyarázza a többi magyarázó változó, tehát Tol j = 1 R 2 j = 1 R 2 X j X 2,X 3,...,X j 1,X j+1,...,x k Minél nagyobb Rj 2, annál kisebb a tolerancia intuitíve: annál kevesebb többletinformációt hoz be ez a változó a modellbe a többi magyarázó változó mellett Multikollinearitás hatása Írjuk most fel egy már bent levő változó koefficiensének mintavételi varianciáját: ) ESS/ (n k) var ( βj = (n 1) var (X j ) 1 Tol j Látszik, hogy egy magyarázó változó koefficiensének a mintavételi varianciája c. p. nő, ahogy a tolerancia romlik (csökken); elvi minimum erre a varianciára a tolerancia = 1-nél Itt a c.p.-t úgy képzeljük el, mintha tudnánk csak a multikollinearitást változtatni A multikollinearitás mérése Bevezetjük a variancia infláló tényezőt (VIF): VIF j = 1 Tol j VIF j = 1 jelentése: a fenti variancia az elvi minimum (tehát: a magyarázó változót egyáltalán nem magyarázza a többi magyarázó változó); VIF j = 2: a mintavételi variancia megduplázódott pusztán a multikollinearitás miatt (tehát amiatt, hogy a magyarázó változók egymást is magyarázzák) ahhoz képest mintha nem lenne multikollinearitás stb. A használatával kapcsolatban vannak bizonyos fenntartások! Multikollinearitás a gretl-ben 16

17 5. Lineáris megkötések tesztelése 5.1. Egy lineáris megkötés tesztelése Megkötések tesztelése a lineáris regressziós modellben Egy kicsit térjünk vissza a modellszelekciós tesztekhez A β q+1 = β q+2 =... = β q+m = 0 alakú nullhipotézis felfogható úgy, mint egy megkötés a modell paramétereire Más, ennél bonyolultabb alakú (nem pusztán egy koefficiens nullával egyezőségét előíró) megszorítások is elképzelhetőek Ezekkel fogunk most foglalkozni (egyelőre egy egyenlőségre korlátozódva) Ezt szokás lineáris kombináció tesztelésének is nevezni Ez utóbbi azt jelenti, hogy bár a megkötés bonyolultabb alakú, több koefficenst is érintő lehet, de csak egy egyenletet tartalmazhat. (Emiatt például a Wald-próba nem lesz így felírható, hiszen annak nullhipotézise m egyenletet tartalmaz.) Koefficiensek lineáris kombinációjának jelentősége Pár gyakorlati kérdésfelvetés: 1. Igaz-e, hogy a hosszú és rövid lejáratú kötelezettség határterméke ugyanannyi? (Tehát: nincs különbség köztük (ilyen értelemben), mennyiségük kezelhető együtt.) 2. Igaz-e, hogy a forgóeszköz határterméke épp négyszerese a sajáttőke határtermékének? 3. Igaz-e, hogy az összes határtermék összege épp nulla? Ami közös bennük: mind a magyarázó változók elméleti (sokasági) regressziós koefficienseinek lineáris kombinációjára vonatkoznak! λ β1 β 1 + λ β2 β λ βk β k = Λ Koefficiensek lineáris kombinációjának jelentősége A példáinkban rendre: 1. H 0 : β HLejKot = β RLejKot, így λ βhlejkot = +1, λ βrlejkot = 1, a többi λ nulla és Λ = 0 2. H 0 : β ForgoE = 4 β SajatToke, így λ βforgoe = +1, λ βsajattoke = 4, a többi λ nulla és Λ = 0 3. H 0 : β Letszam + β BefEszk β ECsLeir = 1, így λ βletszam = 1, λ βbefeszk = 1,..., λ βecsleir = 1 és Λ = 1 Lineáris kombináció tesztelése A normális lineáris modellben erre teszt szerkeszthető Megvalósítás: egyik lehetőség, hogy a t-próbához hasonló alakra vezetjük vissza Legyen λ β1 β1 + λ β2 β λ βk βk = Λ, ekkor Λ Λ ) t n k ŝe ( Λ Ez az ún. közvetlen t-próba 17

18 Lineáris kombináció tesztelése Vizsgálható Wald-jellegű próbával is (most nem foglalkozunk vele bővebben, de a gretl ezt használja): Restriction:\\ b[forgeszk] - 4*b[SajToke] = 0\\ Test statistic F(1, 468) = 0, ,\\ with p-value = 0,946246\\ Restricted estimates:\\...\\ 5.2. Több egyidejű lineáris megkötés tesztelése Több megkötés egyidejű tesztelése Az eddigiek kombinálhatóak is: több megkötés (mindegyikük lineáris kombináció), melyeknek egyszerre kell teljesülniük Célszerű felírás: H 0 : Rβ = r, ahol R m k típusú (tehát m a megszorítások száma) Az erre adható teszt: F emp = ( ) T [ R β r R ( X T X ) ] 1 1 ( ) R T R β r /m F (m, n k) ESS/ (n k) Feltétel még, hogy R teljes sorrangú legyen (rank R = m), ami azt a kézenfekvő követelményt fogalmazza meg, hogy a megszorítások ne legyenek (lineáris értelemben) redundánsak. Konkrét példák a fenti sémára Ellenőrizhető, hogy ha például R = ( ) és r = 0, akkor a t-tesztet R = és r =. akkor az ANOVA-t R = ( λ β1 λ β2... λ βk ) és r = Λ, akkor a lineáris kombináció tesztelését kapjuk vissza. 18