Tisztelt Olvasó! Jelen oktatási anyag az ökonometria főbb statisztikai módszereinek a bemutatása céljából, a módszertani elvek, az alkalmazott

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "Tisztelt Olvasó! Jelen oktatási anyag az ökonometria főbb statisztikai módszereinek a bemutatása céljából, a módszertani elvek, az alkalmazott"

Átírás

1 Tisztelt Olvasó! Jelen oktatási anyag az ökonometria főbb statisztikai módszereinek a bemutatása céljából, a módszertani elvek, az alkalmazott algoritmusok működésének megértését és az adatállományok megfelelő elemzését segítendő készült. Ennek érdekében a könyv szándéka: 1. Az elemzendő gazdasági társadalmi problémát megfogalmazni, 2. a hozzá tartozó adatállomány struktúráját bemutatni, 3. részletes számításokkal, becslésekkel alátámasztani az alkalmazott módszertani hátteret, 4. végül Függelék jelleggel csatolni információkat a részletesebb módszertani követhetőség érdekében. Alapvető cél, hogy olyan ökonometriai módszerek kerüljenek tárgyalásra, melyek a modern közgazdasági-társadalmi problémák megoldására alkalmasak. Az egyes statisztikai elvek, módszerek esettanulmány/példa jellegűek, mindig egy megfelelő specifikus adatállomány, probléma köré szervezve. A könyv hazai gazdasági-társadalmi adatokat alkalmaz és alapvető statisztikai-matematikai ismeretekre támaszkodik. 1

2 Bevezetés Statisztikai módszerek gazdasági-társadalmi környezetben való alkalmazása ökonometriai célú elemzéseket és előrejelzéseket eredményez. A koncepció modell szemléletű, melynek feladatai főbb mozzanatai rendre az alábbiak: Szakmai (közgazdasági, marketing, pszichológiai, stb.) indíttatású modellek, hipotézisek megfogalmazása. A hipotetikus modellek elméleti alkotó elemeinek empirikus, statisztikai becslése. A becsült modellek statisztikai tesztelése, aminek során arról döntünk, hogy a modell részletei adekvátak-e az adatokkal, vagy sem. Az adekvát modellek sorából kiemelendő az, mely diagnosztikailag is megfelelő, és ugyanakkor a legjobb előrejelző. A kiválasztott modell két fő alkalmazási célja: előrejelzés (prognózis, predikció) készítése, elemzési célú hatásvizsgálat, ok-okozati kapcsolatokra építve. 2

3 Keresztmetszeti adatelemzés A keresztmetszeti adatelemzés alapvetően módszertanilag abban különbözik az idősori hatásokat is tartalmazó adatok elemzésétől, hogy az állományt alkotó megfigyelések egymás utáni felsorolásának a sorrendje érdektelen, tehát nem tartalmaz ordinalitást. Így mindazon módszertanok, melyek az ordinális sorrend jelenlétére (pl. időbeliség) támaszkodnak, itt értelmüket vesztik (lásd pl. később az idősori Durbin- Watson tesztet). Minden statisztikai-modell alapja (pillére) a lineáris regresszió, ezért ezen módszer részletes bemutatásával kezdjük a tematika tárgyalását. Szubjektív döntés eredménye, hogy végül melyik konkrét modellt választjuk alkalmazásra. Természetesen ebben statisztikai tesztek és diagnosztikák segítenek. A statisztikai elemzésben általában a hangsúly nem a vizsgált változó (dependent, target, regressor, predictor) konkrét értékén van, hanem az illető jellemző egymástól élesen elkülönülő kategóriáinak egyikéhez való tartozás a lényeg. Ez a categorical kimenet értelemszerűen megjelenhet egy oksági modellnek mind a magyarázott bal oldalán, mind a magyarázó jellegű jobb oldalán. Ennek megvalósítása az aktuálisan alkalmazott statisztikai módszertan megfelelő megválasztását igényli. Továbbmenve, a valóság nemlineáris, ezért ezt a tényt is kezelni kell tudni megfelelő nemlineáris modellek alkalmazásával. A minél alkalmasabb modell meghatározása és kiválasztása optimálási feladat, vagyis célfüggvény kérdése. Ennek során két értelmes cél lehet: 1. a modell hibájának a minimalizálása, vagy 2. az általa szolgáltatott eredmények hihetőségének a maximalizálása. A korlátozott értékkészletű eredmény változók modellezése központi kérdésű az ökonometriában, mert jelenlétük természetes, kézenfekvő. Például gépkocsi használat nélkül zéró az üzemanyag költség magas jövedelem mellett, vagy, hogy egy vállalkozás csődbe megy, vagy nem (kimenet) összefügg a gazdálkodásával. 3

4 A hiba minimalizálása Az ökonometriai elemzés alapvető statisztikai módszere a regresszió számítás, akár lineáris, akár nem lineáris az aktuális modell. A regressziós modell alapvetően egy függő jellegű eredmény, és több független jellegű, szerepüket tekintve előrejelző (predictor, magyarázó, független) változók kölcsönhatására bontható. Míg a függő változó, mint elemzési cél adottság, a független, a vizsgált jelenséget magyarázó változók induló körének megadása már szakmailag szubjektív. Ebből a végső, releváns magyarázó-kör kialakulása statisztikai alapú, objektív szelektálás eredménye, tehát döntési probléma. A lineáris regresszió minden ökonometriai-statisztikai modell alapvető módszere. Egy statisztikai modell mindig hibával jár, amely hiba mértékét az ún. reziduális, maradék érték számszerűsíti. A legkisebb négyzetek módszer a modell összesített négyzetes-hibáját minimalizáló eljárás, melynek során: 1. A reziduális változó normális eloszlása követelmény akkor, ha az empirikus modell becsült jellemzőire valószínűségi állítást (hipotézist) kívánunk tesztelni, vagy megbízhatósági intervallumot kívánunk megadni. 2. Két statisztikai adatsor egymás melletti (akár keresztmetszeti, akár idősori) együtt ingadozása jelenthet valódi ok-okozati kapcsolatot, de takarhat ok-okozati kapcsolat nélküli, ún. hamis együtt ingadozást is. 3. Az előrejelzett pontbecslés mellett annak szűk, intervallum-kiterjesztésű megadása alapvető igény! 4

5 A többváltozós lineáris regresszió terminológiája, jelölésrendszere A vizsgált Y jelenség, a függő, dependent változó, példánkban a budai használt lakások kínálati ára, ahol i a lakások indexe, n a megfigyelések (lakások) száma (a mintaméret), míg j az Y árat magyarázó independent, predictor, vagy regresszor jellegű X magyarázó változók indexe. A lineáris regressziós modell alapvetően a várható Y értéket most a várható kínálati árat hivatott modellezni az X predictor változók lineáris kombinációja alapján, de előrejelzési hibák óhatatlan elkövetése mellett. A várható lakásár alakulását az X predictorok alakulásával a β j parciális regressziós koefficiensek kapcsolják össze, ok-okozati viszonyt definiálva, majd számszerűsítve. A Y lakásárat a regressziós modell az alábbi összetevőkre bontja: 1. A predictorok hatása:β 1 X 1 +β 2 X 2 + +β k X k a modellbe bevont predictorok együttes lineáris hatása. 2. A torzítás mértéke: aβ 0 paraméter, mely a modellből kimaradt változók átlagos hatását sűríti. Ez konstans abban az értelemben, hogy mértéke minden lakás mellett Constant, egyforma. Megszokott hivatkozásai e faktornak: Constant, Const, Intercept, Tengelymetszet, Konstans. 3. Az egyedi hiba: Az átlagos hibán felül marad még egy egyedi (értsd lakásonkénti), de összességében lehetőleg minél kisebb hiba, a maradék, azε i error veszteség, vagy másképpen eltérésváltozó, vagy további megszokott terminológia szerint a véletlen hatás. Ez másik megnevezéssel és jelöléssel az u-unexplained változó. Utóbbi megnevezést és jelölést alkalmazza a Gretl ökonometriai regressziós program. Az 1. és 2. pont együttesen a lineáris prediktor:β 0 +β 1 X 1 +β 2 X 2 + +β k X k, mely az egyes prediktor értékek, szintek ismeretében adja a lineáris előrejelzést (az ún. predicted value értéket). Ez a lineáris prediktor az Y eredményváltozó X magyarázó változók szerinti feltételes várható értéke: E(Y X). A lineáris prediktor becsült értéke (azaz a regresszió számított értéke) az ún. lineáris score. A becsült paraméterek összes száma a modellben p=k+1, ahol a predictor jellegű változók száma k. Predictor változóként példánkban 7 szerepel, de a modell 8 változós, mert a 8. utas az Y lakásár. A terminológia szerinti Y függő (eredmény) és X független (magyarázó) változók megszokott megnevezései alkalmazási területtől függően a nemzetközi irodalomban: Dependent, Explained, Predictand, Regressand, Response, Outcome, Endogenous, Independent, Explanatory, Predictor, Regressor, Stimulus, Covariate, Exogenous. 5

6 Lakásáralku Tekintsük példaként egy budai, használt, eladásra kínált X lakás arculatát : X = [ Terület=70m 2, Terasz=5m 2, Szoba=2, Félszoba=1, Fürdő=1, Emelet=2, Tájolás=Déli ] amely mellett a várható Kínálati_Ár a predictorok alapján lineáris modell szerint becsülve: MFt. Kérdés, hogy milyen felső árról indulunk, és meddig engedünk: a regressziós becslési feladat következő lépése tehát az induló kínálati ár, majd az áralkut záró ár szintjének a meghatározása. A statisztikai alapú megoldás: a feltételes várható kínálati ár 95% konfidencia intervallumának a meghatározása. Ennek során: a pontbecslés standard hibája SE=0.91, mellyel a 95% CI felső határ az alsó határ pedig CI U = *0.91 = 28.56, CI L = *0.91 = 24.98MFt. Tehát az alku folyamat során a CI U értékről indulunk, és legfeljebb a CI L A módszertani részleteket a további oldalak, fejezetek magyarázzák. értékig engedünk. 6

7 A Klasszikus Legkisebb Négyzetek módszer paraméterbecslés Az adatállomány első oszlopa (i-index) a kínált lakások sorszámait, a második pedig a kínálati áraikat (Y) tartalmazza. A következő oszlopok a magyarázó X változók értékeit tartalmazzák. Figyeljük meg, hogy az első három lakás, majd a következő kettő egyforma X struktúrával rendelkezik, csak a kínálati árban változnak, feltételes eloszlásokat alkotva! A déli fekvés (1,0) kimenetű változó elnevezése a statisztikában indikátor változó, mely valamely tulajdonság meglétét 1, hiányát pedig 0 értékkel rögzíti. Másik szokásos elnevezése dummy változó. A regressziós koefficiensek az adatok felett a fejrovatban jelennek meg. A koefficiensek alkalmazása kétirányú: egyfelől i) előrejelzés, másfelől ii) érzékenységi hatásvizsgálat. Az előrejelzési feladat: Az első lakásra végzett Ár becslésünket mutatja az első sor predictor értékeiből következő lineáris Pred.Ár score: millió forint. A reziduum ezen lakás kínálati árának és az előrejelzésének a különbsége. A kivonással nyert hiba 0.23 millió forint. Ahogy haladunk a drágább lakások felé, a hiba nagyságrendje is változik. Ha valamennyit összeadjuk, az összeg mindig zéró (ezt a lineáris OLS modell biztosítja) tehát ezt nem lehet minimálni, ezért négyzetre emelve keressük a hibák minimumát. Azon paramétereket választjuk, melyek mellett a hibák négyzetösszege minimális. Ez a legkisebb négyzetek elvén alapuló paraméterbecslés, ahol a négyzetre emelés bünteti a kiugró, ún. outlier hibákat, felnagyítva azok hatásukat. A módszer megnevezése: Ordinary Least Squares. Az elemzési feladat: Elemzésre is alkalmasak a modell koefficiensei, ha szignifikánsak. Tartalmilag parciális regressziós koefficiensek, ceteris paribus (c.p.) értelmezéssel. E koefficiensek mert most a modell lineáris marginális hatások. Mivel a marginális hatás az Y jellegű Ár változó megfelelő magyarázó változója szerinti parciális derivált, ez most lineáris modell mellett maga a regressziós paraméter, becslése így a megfelelő koefficiens. Például az alapterület koefficiense 0.309, vagyis, ha az alapterület c.p. 1m 2 -rel magasabb, akkor a kínálati ár várhatóan MFt-tal drágább. Vegyük észre, hogy a lineáris modellben a marginális hatás Lakás_X_jellemző-független! Egy másik alapvető érzékenység-vizsgálati irány a rugalmasság, elaszticitás mérése. Itt a kérdésfeltevés, hogy az X j magyarázó változó 1százalékos emelkedése hatására az X változók szintjeinek rögzített kombinációjából indulva c.p. a pred.y előrejelzés százalékos mértékben hogyan reagál. Értéke formálisan Marginális hatás / Átlaghatás. Például az első lakás alapterülete esetén El.(Ár, Terület) = 0.309/(10.47/32)= E szerint, ha az alapterület 1% növekedést mutat c.p., ez az Árban várhatóan 0.945% emelkedést eredményez az első három lakáskategória csoportban. Figyeljük meg, hogy az eredmény közvetlenül százalékos értelmű és hogy a lineáris modellben a rugalmasság Lakás(X_jellemző) függő. 7

8 Az illeszkedés vizsgálata: A mintabeli modell előrejelzéseinek magához a mintához való illeszkedését az Előrejelzett v.s. Megfigyelt Y(Ár) értékek közötti r 2 determinációs együttható jellemzi, aminek értéke r 2 (pred.y,obs.y)= Ez egyben többszörös R 2 determinációs együttható, mivel pred.y lévén lineáris kombináció egyidejűleg a magyarázó változók kombinált hatását sűríti. Értelmezését tekintve, a modell X predictorai az Ár alakulását százalékban magyarázzák. 7

9 A legkisebb négyzetek OLS (Ordinary Least Squares) becslési módszer jelölései A standard regressziós modellben az X predictorok előre rögzített [ x i1, x i2,, x ij,,x ik ] variánsai mellett végzünk véletlen megfigyelést az Y függő változóra, ahol az i. megfigyelés (lakás) eredményeként az y i mintaelem (lakásár) adódik. Az (y,x) kisbetűs jelölés a továbbiakban az (Y,X) jelenségek manifesztálódott értékeire, a becslési szándékra pedig a ^ kalap (hat) hangsúly utal, ami a becsült értéket (predicted value) jelenti. Példánk alapvető szándéka a lakásár előrejelzése a becsült koefficiensek ismeretében. A függő változó várható értékének az előrejelzését az ún. lineáris score adja, a b regressziós koefficiensek, mint súlyok alkalmazásával: 1 ŷ = b 0 + b 1 x 1 + b 2 x b k x k. A b jelölés kifejezetten a regressziós Béta paraméter OLS becslésére utal. A hibaváltozó becsült értéke az e tapasztalati reziduum: e = y -ŷ Az OLS modell a reziduális négyzetösszeget minimálja a regressziós koefficiensek tekintetében. Jelen példában valamennyi lakásnál az elkövetett e hibát négyzetre emeli, ezek SSE (Error Sum of Squares) összegét minimálja a becsült b koefficiensek tekintetében. Más szóval az OLS paraméterbecslés mindig azt a,,,... koefficiens vektort szolgáltatja eredményül, amely mellett a modell hiba-négyzetösszege minimális, miközben: 1. A legkisebb négyzetekkel nyert reziduum a mintában biztosítottan korrelálatlan a magyarázó változókkal, és átlaguk zéró, ha a modell tartalmaz tengelymetszetet Ha nincs tengelymetszet a modellben, akkor az OLS kritérium szerint sem az átlagos zéró reziduum, sem a zéró korreláció kritérium teljesülése nem biztosított a becsült modellben. 1 Vegyük észre, hogy az eredményváltozóra adott regressziós becslés a feltételes várható érték becslése. A hangsúly azért fontos, mert készíthetünk a centrális tendencia más paraméterére, pl. a robusztus mediánra is regressziós becslést. 2 A zéró átlag tulajdonság abból fakad, hogy intercept jelenléte esetén a tapasztalati OLS reziduumok összege zéró. 8

10 A véletlen hatás forrásai Az ε eltérés változóban megtestesülő előrejelzési hiba maradékként adódik, az Y tényadat ismeretében. Tekintettel tartalmára, szokásos szinonim megnevezései: 1. Eltérés, vagy reziduális változó, 2. Hiba (error term) változó, 3. Véletlen (random term) változó, 4. Zaj (noisy) változó, 5. Innováció az idősorban. A további tárgyalásokban mindegyik terminológia megjelenik, a szövegkörnyezet, és az alkalmazott adatállomány jellegének a függvényében. A véletlen és zajos megfogalmazások arra utalnak, hogy megfelelő előrejelzés mellett a maradék már véletlenszerűen kell alakuljon abban az értelemben, hogy a magyarázó változók tekintetében tovább már nem modellezhető. A véletlen változó a modell átlagos torzításától vett véletlen egyedi eltéréseket számszerűsíti. Praktikus modell nem működik hiba nélkül. A hiba főbb forrásai: 1. Lényeges okot, magyarázó változót kihagytunk a modellből: nem mindegy a fűtési rendszer, a lakás övezete, közlekedése, stb., ami jelen modellben nem került figyelembe vételre. 2. Fölösleges változót szerepeltetünk a modellben: a szobaszám minden bizonnyal redundáns információt hordoz, mert magasabb alapterület többnyire (nem mindig) magasabb szobaszámmal és így magasabb árral jár együtt, miközben az árat valójában az alapterület mozgatja. 3. A lineáris függvénytípus nem alkalmas az ár alakulásának a leírására, például az emelet függvényében. 4. Nem megfelelő proxy (helyettesítő) változót alkalmaztunk az Övezet leírására. Helytelen proxy választás az Övezetet a Kerülettel azonosítani. 5. Modellkövetelmény szerint a véletlen változó várható értéke zéró, és korrelálatlan a magyarázó változókkal. Egyedül az Y eredményváltozóval korrelál: intuitíve, extrém, outlier árakhoz legyen akár alacsony, akár magas az elkövetett hiba is értelemszerűen, arányosan alacsonyabb, illetve magasabb. A predictorral való korrelálatlanság követelménye az ún. Exogenitási kritérium. A követelmény a kritérium teljesülését formálisan az X j magyarázó változó és az ε hibaváltozó közötti zéró kovariancia formában fogalmazza meg. Fontos részlet, hogy az exogenitási követelmény empirikusan manifesztálódik az OLS módszer alkalmazásakor, de nem biztosított a változók elvi kapcsolataiban, közgazdasági megfontolásokat és statisztikai tesztelési és becslési meggondolásokat és megoldásokat igényel. 9

11 A hibacsökkenés heurisztikus mérése A táblázat Modellek című oszlopában találhatók az alapmodellek. A második oszlop közli az egyes hibaforrások hibáit. Itt az SS jelölés a négyzetösszegre (Sum of Squares) utal. A harmadik oszlop az egyes hibatípusokhoz tartozó hibákat az extrém nagy hiba (null modell) százalékában fejezi ki. A felső sorban a Totális hiba, vagyis a null (intercept only, másik szóhasználattal üres) modell hibája szerepel. Az üres, null modell a konstans tagon kívül nem tartalmaz szakmai-gazdasági X predictort, amik szórnák az árakat, vagyis minden megfigyelésre (most lakásra) azonos, konstans előrejelzést ad, ami OLS becslés esetén egyben a számtani átlag. Ennek oka, hogy az OLS négyzetösszeget minimál, és a számtani átlag négyzetes minimum tulajdonságú. Így az üres modell konstans tagjának OLS becslése értelemszerűen maga a számtani átlag, esetünkben az átlagos kínálati lakásár. A 7 magyarázó változó hatására melyeket bevontunk a modellbe ezen aktuális tárgyi modell SSE értéke lett a minimált hiba. Az üres induló, majd az aktuális tárgyi modell hibáinak különbsége adja a modellbe bevont predictoroknak köszönhető csökkenést az induló hibában. Mint említettük, az utolsó oszlop utolsó sora ezen javulás százalékos megoszlását közli. A többszörös determinációs együttható definiálása Az R 2 többszörös determinációs együttható klasszikus definíciója a regressziós hibacsökkenés százalékos mértéke: R SSR/SST1SSE/SST. Az R 2 mutató tehát megadja, hogy az aktuális modellünk illesztésével a maximálisan elérhető hibacsökkenés (SST) hány százalékát sikerült abszolválnunk. Értéke 0 és 1 közé esik (0-100%). Az R 2 mutatót a modell magyarázó erejeként értelmezzük. Másik megközelítésben az R 2 megadja, hogy tárgyi modellünk az Y mintabeli szóródását hány százalékban magyarázza. 1 A használt lakások kínálati árára illesztett OLS modellünk R 2 értéke 81.22%. Ez a fentiek értelmében azt jelenti, hogy a 7 lakásjellemző figyelembevételével a maximálisan lehetséges hibacsökkenés 81.22%-a valósult meg. Ha újabb paramétereket (X predictorokat) vonnánk be a modellbe, akkor tovább csökkenne az aktuális hiba. Kérdés, hogy jelentősen, vagy elhanyagolhatóan csökkenne-e a hiba? Megéri-e újabb változót, paramétert bevonni? A hibacsökkenés elméleti korlátja az ún. szaturált (saturated) modell elérése. A szaturált modell annyi paraméterrel van feltöltve, mint amennyi a mintabeli reprodukálandó információk száma. Így az előrejelzése perfekt, hibátlan, és az OLS becslés esetén a hiba értelemszerűen zéró: SS szaturált =0. A szaturált modellnek - mint szélső esetnek - természetesen csak viszonyítási alap szerepe van: jó illeszkedés érdekében ehhez a modellhez kell minél közelebb kerülni, de minél kevesebb paraméter alkalmazásával. Ez a modellépítés takarékossági, vagy parszimónia alapelve. Minél több paramétert költünk el az illeszkedés jóságának a javítása érdekében, annál közelebb kerülünk a szaturált modellhez, de annál kevésbé alkalmas a modell a mintán kívüli megfigyelések előrejelzésére. 10

12 A tanuló minta a rendelkezésre álló teljes minta azon szegmense, melyhez a modellt a paraméterek optimális becslése érdekében illesztjük. A teszt minta ezzel szemben a teljes mintának a tanuló mintán felüli azon része, amely elkülönítése arra szolgál, hogy a becsült modell előrejelző képességét torzításmentesen ellenőrizzük. A tanuló minta triviális esetben (leválasztás nélkül) egybeesik a teljes mintával. 1 Felhívjuk a figyelmet, hogy az R 2 illeszkedés-javulásként (magyarázó-erőként) való értelmezése, illetve intervallum megjelölése feltételezi, hogy konstans tagot is tartalmazó OLS modellről van szó. Más becslési eljárások, illetve konstans tag hiánya esetén az SSR, SSE és SST ugyan számítható, azonban a belőlük képzett R 2 elveszti a fenti tartalmát, és a (0-1) intervallumon kívülre is eshet. 10

13 A függetlenség vizsgálat ANOVA (Analysis of Variance) tesztje Az ANOVA teszt arra szolgál, hogy teszteljük a modell globális előrejelző képességét. Null hipotézise azt állítja, hogy a jelöltek közül egyetlen X predictor sem releváns a modellben. Az alternatívája szerint legalább egy predictor fontos. A teszt végrehajtásának praktikus igénye akkor jelentkezik, ha relatíve, szemre kicsiny az R 2 értéke. Az ANOVA null és alternatív hipotézise az üres null modellt állítja szembe az aktuális modellel. A teszteléshez a magyarázott (explained) v.s. nem magyarázott (unexplained) hatások összevetésére képezünk egy törtet (lásd a formulát alább). A számlálóba a hibacsökkenésnek az egy bevont parciális paraméterre eső fajlagos értékét helyezzük (SSR/k), mely azt mutatja, hogy az alkalmazott predictorok átlagosan milyen mértékben járultak hozzá a hiba csökkenéséhez. Ezzel szemben a nevezőbe a megmaradt (ledolgozandó) hibának az egy, még a szaturált modell eléréséig bevonható paraméterekre eső fajlagos értéke kerül: SEE/(n-k-1). A tört számlálóját és nevezőjét egyaránt elosztva SST-vel, valamint felhasználva a többszörös determinációs együttható formuláját, az R 2 összefüggéshez jutunk , n p) A teszt-statisztika mely nem lehet negatív H 0 érvénye mellett F-eloszlást követ. Magas F-érték releváns, alacsony pedig irreleváns modellre utal. A zéró közeli és zéró távoli F-értékek elhatárolása végett szükséges egy kritikus F-érték megadása előre rögzített alfa (konvencionálisan alfa=5%) szignifikancia (döntési) szinten. A kritikus F-érték megadása az F-eloszlás sűrűségfüggvényének az alakját, tehát az F-statisztika számlálója és nevezője szabadsági fokának - mint paramétereknek - az ismeretét, és a szignifikancia (döntési) szint rögzítését igényli. Az F-eloszlás sűrűségfüggvényének az alakját tekintve enyhén balra csúcsosan aszimmetrikus, mint az ábra mutatja. A számláló szabadsági foka a lenullázott magyarázó változók száma, ami esetünkben k=7, a nevező szabadsági foka pedig a mintaméret mínusz a becsült paraméterek száma, ami n-k-1=n-p, esetünkben 642-8=634. Példánkban a számított F-érték Kérdés, hogy ez zéró közeli, vagy zéró távoli értéknek minősül, ahol ez utóbbi esetben bizonyul a modell egésze relevánsnak (értsd: tartalmaz előrejelzésre alkalmas információt). A p-érték döntéselméleti alkalmazása Hogy ne kelljen adott szabadságfok pár mellett megkeresni a kritikus F-értéket, integráljuk a sűrűségfüggvény alatti területet a számított F-értékhez képest az extrém magas F-értékek (most a pozitív végtelen) irányában és ezt az ún. p-értéket (p-value, P-value, Prob., Sig.) viszonyítjuk a rögzített (konvencionálisan 5%) szignifikancia szinthez. Ha ugyanis a számított F-érték a (ki nem keresett) kritikus F-től (ahová a piros nyíl a vízszintes tengelyre mutat) jobbra esik, mint példánkban, akkor a p-érték szükségszerűen kisebb mint 5%, lévén az 5%-os kritikus értéktől definíció szerint jobbra éppen 5% terület (valószínűség) esik. Példánkban a számított F-érték 391.8, ami az adott szabadsági fok pár mellett messze szignifikáns (mert a p- érték kerekítve 0.000), a döntés tehát H 1, azaz a modell egésze tartalmaz valamely releváns előrejelzésre alkalmas X információt a lakásár alakulását illetően. Ha nem is mindet. 11

14 A releváns regresszorok hipotézisvizsgálati alapú kiválasztása Alapvető kritérium, hogy az irreleváns predictorok elhagyásával egyszerűsödjön a modell. A változó releváns, ha magyarázó hatással bír az Y függő változóra, ekkor a Béta paramétere nem zéró. Erre a becsült koefficiens zérótávoli értéke utal, tekintet nélkül az előjelére. A koefficiens zérótávoli megítélése viszont csak akkor megbízható, ha kicsiny annak a mintavételi szórása, vagyis a standard hibája, tehát megismételt mintavételek után is zérótávoli maradna. E kettős megközelítést kombinálja a t-statisztika, melynek számítási módja: t=coeff/se(coeff). Magas abszolút értékű t-statisztika releváns, zéróközeli t-érték viszont irreleváns magyarázó változóra utal. A t-statisztika nagyságának a megítélése hipotézisvizsgálat alkalmazásával, döntés alapján történik. Az első oszlop közli a teljes modell magyarázó változóit, a második a koefficiensek pontbecsléseit, a harmadik pedig a koefficiensek becsült standard hibáit. A konstans értéke Ez a kihagyott változók átlagos hatása, tehát a modell torzítása: az alkalmazott magyarázó változók most átlagosan millió forint értékben felülbecslik a lakásárat, mert ennek levonásával kerülünk közelebb a valósághoz. Hipotézisvizsgálat: az X predictor nem releváns akkor, ha a Béta X paramétere zéró. Formálisan: H 0 : Béta=0. A H 1 alternatíva szerint a paraméter akár pozitív, akár negatív nem zéró. Erre zérótávoli t-érték utal, ami kicsiny p- értéket eredményez. Hogy mi a kicsiny p-érték, az döntési határ kérdése. Konvencionális választás a p<0.05 döntési szint. A regresszor megtartását szigorítandó, csökkenthetjük a döntési szintet pl. a p<0.01 szignifikancia szintre, ahol a szignifikancia szint definíció szerint a statisztikai elsőfajú hiba elkövetésének a valószínűsége! Kétoldali t-teszt alkalmazása 5%-os szignifikancia szinten, DF szabadsági fok mellett 1. H 0 : a t-érték nem szignifikáns, azaz zéró-közeli, H 1 : a t-érték szignifikáns, vagyis zéró-távoli. Kritikus t- értékek: ±1.96 (magas mintaméret mellett bármely DF mellett alkalmazhatók). A kritikus értékektől az extrém (végtelen) irányokban megosztva, definíció szerint egyaránt 2.5%; 2.5% valószínűség esik. 2. Döntés a kritikus érték alapján: ha a számított t-érték a kritikus t-érték extrém szárnyai valamelyikére (végtelen irányba) esik, akkor a döntés: H 1, egyébként pedig H Döntés a p-érték alapján: Legyen a p-érték a számított ±t-értékektől extrém irányba integrált területek összege a sűrűségfüggvény alatt. Ha a p-érték kisebb mint 5%, akkor szükségszerűen a számított érték a kritikus érték extrém szárnyára esik, tehát a döntés H 1, egyébként H 0. Rögzített, konvencionális 5%-os szignifikancia szinten a p<0.05 tartomány (kisebb mint 5%) jelez szignifikáns t- értéket, tehát releváns magyarázó változót. A p-érték számítása igényli a t-eloszlás DF szabadsági fokának a megadását, ami DF=(mintaméret becsült paraméterek száma) = (n-k-1) = (n-p). Látható, hogy a Const tengelymetszet (a modell torzítása) szignifikáns, míg a Félszoba, Emelet és Déli fekvés paraméterek parciálisan inszignifikánsak. A szignifikáns negatív konstans modellspecifikációs hibára utal, miszerint árcsökkentő predictorok maradtak ki a modellből. 12

15 Az 5%-os t-teszt ekvivalens módon végrehajtható úgy is, hogy készítünk a Béta paraméterre egy 95%-os konfidencia intervallumot (CI 95% ), és azt vizsgáljuk, hogy tartalmazza-e a hipotetikus értéket, jelen esetben a zérót. Ha igen, akkor az alsó és felső határ ellentmondó előjelű hatást mond ugyanarra a statisztikai tartalomra, tehát nem állítjuk, hogy a paraméter nem zéró. A 95% megbízhatóságú CI alsó és felső határa: CI(95) = Coeff ±t DF(.975) *SE(Coeff), ahol most t 634(.975) =1.964 a 0.975, vagyis 97.5% rendű kvantilis. Látható, hogy ahol a t-teszt p-értéke nagyobb mint 0.05, ott a CI 95% alsó és felső határának előjele ellentétes! 12

16 Változók együtt ingadozása Az ábra az Y lakásárakat a függőleges, az X szobaszámot pedig a vízszintes tengelyen ábrázolja. Eredményül a szóródás kétdimenziós megítélésének vizuális eszközét, az ún. pontfelhőt kapjuk a síkban. Az ábrán a zöld tengelyek a két változó átlagos értékeit jelzik, a pontfelhőt 4 szegmensre bontva, ahol metszéspontjuk az átlagpont. Az emelkedő pontfelhő mint esetünkben - pozitív korrelációra utal, mikor átlag feletti X többnyire átlag feletti Y értékkel, míg megfordítva, átlag alatti X többnyire átlag alatti Y értékkel párosul. Ekkor a pontok többsége vagy az 1. vagy a 3. sík-negyedben található, ahol az átlagtól vett eltérések azonos előjelűek, tehát az átlagtól vett eltérések (X-Xátlag)*(Y-Yátlag) szorzatai túlnyomóan pozitív előjelűek, ebből következően e szorzatok átlaga is az ún. Cov(X,Y) kovariancia mutató is pozitív előjelű. Példánkban az átlagtól vett eltérések szorzatainak az átlaga, a kovariancia értéke: Az ár átlaga és szórása rendre 34.5 és 23.9, míg a szobaszámé rendre 2.9 és A kovariancia abszolút értékének lehetséges felső határa a két változó szórásainak a szorzata. Így a szórások szorzatával való osztással a kovariancia a [-1,+1] intervallumra normálható az alábbi módon. Az r=kovariancia(x,y)/[ Szórás(X) * Szórás(Y) ] Pearson-féle lineáris korrelációs együttható értéke példánkban: ami szoros pozitív irányú együtt ingadozást jelez. r = = / [23.9*1.33] Kérdés, hogy a szoros együtt ingadozás valódi ok-okozati kapcsolatot takar-e, vagy csupán egyéb közös mozgatók, okok közvetett eredője? Fölmerül például a lehetőség, hogy a magasabb árat valójában a magasabb alapterület okozza, de a magasabb alapterület többnyire (nem föltétlenül mindig) magasabb szobaszámmal együtt jelentkezik, tehát közvetetten a magasabb szobaszám is magasabb árral jár együtt, bár az ár alakulásának nem ez a valódi oka. A heteroszkedaszticitás jelenléte, vagy hiánya A homoszkedaszticitás hipotézise azt tételezi fel, hogy a kínálati ár varianciája bármely szobaszám rögzítése mellett konstans, tehát homogén. E feltételezésnek a minta vagy ellent mond, vagy nem. Ez statisztikai hipotézisellenőrzési eljárással tesztelhető. Ha a homogenitási hipotézis nem tartható, akkor a függő változó varianciája heteroszkedasztikus, heterogén, és az OLS regressziós koefficiensek standard hibái torzítottak. Torzított standard hibák torzított t-statisztika értékekhez vezetnek, amik torzított regresszor-listát eredményeznek! Az outlierek detektálása és kiszűrése Az extrém megfigyelési egységek akár függő, akár predictor szerepkörben kiszűrendők, mivel jelenlétük a statisztikai adatokon nyugvó tendenciákat elvezetik. 13

17 A releváns változók heurisztikus szelektálása A prediktor változók releváns/irreleváns voltát megítélhetjük ún. heurisztikus mérőszámok alapján is, melyek szemben a hipotézisvizsgálattal - nem igényelnek valószínűségi eloszlással kapcsolatos feltételezéseket. Két nevezetes heurisztikus módszer a változók egyedi relevancia-vizsgálatára a standardizált koefficiens, illetve a parciális korreláció. Standardizált regressziós koefficiens A standardizált koefficiens a standardizált változókra illesztett regresszióban szereplő regressziós koefficiens:! "! "..."! "#, ahol a * felső index a standardizált változót és a vonatkozó paraméterét jelzi. A változók standardizált értéke a centrált (átlagtól tisztított) változó szórással való normálása (osztása) eredményeként áll elő:!!!$ % &, ahol!$ a számtani átlag,σ X pedig a szórás. A standardizált változó három tulajdonságát kell kiemelnünk: 1. Átlaga 0, szórása pedig 1. (A bizonyítást az Olvasóra bízzuk.) 2. Az X* egységnyi növekedése azt jelenti, hogy az eredeti nem standardizált változó egy szórásnyit emelkedik:! "1!!$ % & "1!"% &!$ % &. 3. Az X* mértékegység-független, mivel a számláló és a nevező mértékegysége megegyezik. Ezzel szemben az eredeti szinten mért változókra vonatkozó koefficiensek függnek Y és X mértékegységétől. Ha például a lakások kínálati árát millióft-ról ezerft-ra változtatjuk, akkor az OLS modellben az összes regressziós koefficiens megváltozik (ezerrel szorzódik). A standardizálás eredményeként az intercept lenullázódik a regressziós modellben. Lineáris modellről lévén szó, a standardizált regressziós koefficiens továbbra is marginális hatás tartalommal bír, tehát Béta* megmutatja, hogy c.p. X* egységnyi növekedése Y* értékét várhatóan hány egységgel változtatja. Ugyanakkor a fentiek alapján a standardizált regressziós koefficiens marginális hatás tartalma az eredeti változók viszonyára is lefordítható: ha X c.p. egy szórásnyit emelkedik, akkor Y várhatóan a saját szórásának Béta* arányában szorzódik: inflálódik/deflálódik. A dián szereplő táblázat második oszlopa a lakások kínálati árára illesztett eredeti OLS modellt ismétli. A harmadik oszlop pedig a standardizált lakásárra illesztett standardizált OLS modellt publikálja. Utóbbi esetben a prediktorok is standardizáltak. Vegyük például az alapterület prediktort, amelynek standardizált OLS koefficiense Ez azt jelenti, hogy ha az alapterület c.p. 1-szórásnyi alapterülettel magasabb (nem érdekes, hogy ez mennyi) 14

18 akkor a kínálati ár a saját szórása 63.7%ával emelkedik. Ugyanez a mérték a szobaszám tekintetében csak 7%. A standardizált koefficiensek azért használhatók az egyedi relevancia-vizsgálat heurisztikus módszereként, mert mértékegység-függetlenek és így összehasonlítható módon mutatják a prediktorok hatását az Y eredményváltozóra. A standardizált koefficiensek egymáshoz való nagyságrendi viszonya megmutatja, hogy melyik magyarázó változó bír jelentős, és melyik elhanyagolható hatással a függő változóra. Visszatérve az esettanulmányunkhoz, a Kínálati ár szempontjából a leginkább releváns lakásjellemző a Terület, mivel ennek a legnagyobb a standardizált koefficiense (0.637). Második helyen a Terasz méret áll. Ezzel szemben a as standardizált koefficiensével a Félszoba szám mutatkozik e legkevésbé releváns magyarázó változónak. A standardizált koefficiensek alapján való relevancia-vizsgálatnak van egy, a koefficiensek relatív nagyságrendjével szoros kapcsolatban álló leágazása. Az OLS modell többszörös determinációs együtthatója előállítható a standardizált koefficiensek és a megfelelő lineáris korrelációk skaláris szorzatával. Példánkban ez a következőképpen alakul: ( 0.004) ( 0.031) ( 0.133) = =0.812 Ebből megítélhető, hogy mely magyarázó változók járulnak leginkább hozzá az aktuális magyarázott hányadhoz. Esetünkben az alapterület hatása kiemelkedő: a 81.2 százalékos illeszkedésjavulásból közel 56 százalékpont a Terület prediktorhoz kapcsolható. Ezzel szemben a félszobáé elhanyagolható, hozzájárulása az R 2 -hez praktikusan zéró. Parciális korreláció A magyarázó változók fontosságát az eredményváltozóval való korrelációjuk is rangsorolja. E korrelációs érték lehet valódi ok-okozati jellegű, de lehet látszólagos, egyszerű együtt ingadozás eredménye is. Mint láttuk korábban, a szobaszám lineáris korrelációja magas, r(ár,szoba)=0.742, a standardizált koefficiense viszont alacsony: Fölmerül a lehetőség, hogy az alapterület mozgatja mind az ár, mind a szobaszám alakulását, aminek közös eredményeként a szobaszám az árral is együtt ingadozik. Az X változó fontosságát elvileg az jelzi, ha kivéve a modellből, az R 2 determináció jelentősen csökken. Ekkor értelemszerűen visszatesszük az X változót a modellbe. Ha elhanyagolható a romlás, akkor nem tesszük vissza. Az R 2 romlás/javulás mértékének százalékos megítélése a szűkebb modell (H 0 : Béta X =0) szaturált modelltől való (potenciálisan ledolgozható) távolságának a bázisában (százalékában) történik. A szaturált modell R 2 értéke: 1. Az így nyert megoszlási arányszám az ún. parciális determinációs együttható: 1 2,3.4 = : 958, 6: ahol a H 1, H 0 alsóindexek rendre a Béta X =0, illetve a Béta X 0 modellspecifikációra utalnak, illetve az r 2 alsóindexében a pont jobb oldalán lévő Z a többi prediktor hatásától való tisztítást jelzi. A parciális korreláció a parciális determinációs együttható négyzetgyöke, a parciális regressziós koefficiens előjelét örökölve. A parciális korrelációs együttható a modellben szereplő többi (Z) prediktor hatásától tisztítva mutatja az X predictor és az Y függő, dependent változó közötti kapcsolat szorosságát. A koefficiens értéke a normál, köztes hatásoktól tisztítatlan lineáris korrelációs együtthatóhoz hasonlóan 0 és 1 közé esik. Példánkban a szobaszám nélküli (H 0 ) modell determinációja R 2 =0.8108, míg a bővített (H 1 ) modellé , tehát a romlás/javulás a szűkebb modell szaturált modelltől való távolsága százalékában: 14

19 1 = Lévén a szobaszám OLS koefficiense pozitív, ezért a pozitív gyöke a parciális korreláció: Vegyük észre, hogy a szobaszám és kínálati ár kapcsolat-szorossága a másik hat lakásjellemző hatásának szűrését követően radikálisan lecsökkent, ről re. A parciális korrelációs együttható alapján tehát a két változó közötti ok-okozati kapcsolat gyenge, ahogyan azt egyébként az alacsony standardizált OLS koefficiens is jelezte. Formálisan, a parciális determinációs együttható kifejezhető a t-statisztika négyzete, és a szabadsági fok függvényében: t 2 / ( t 2 + DF). A Szoba szám predictor esetén a számítási mód: / ( ) =

20 Regressziós előrejelzés a tengelymetszet felhasználásával Feladatunk előrejelzést adni az Y feltételes várható értékére az X 0 predictor pontban (tehát az X 0 lakás feltétel mellett). Ekkor: Pred.Y = Const + Coeff * X 0 Példánkban tekintsük a várható Ár becslését Szobaszám=2 mellett. Az OLS regresszió alapján: Pred.Ár = Const + Coeff * 2 = * 2 = 23 MFt. Itt praktikus probléma, hogy a 23±t*St.Error formátumú CI konfidencia tartomány számítása olyan információkat igényel, amik a standard OLS outputban nem állnak rendelkezésre. Az előrejelzés konfidencia intervallumának számítását egyszerűsítendő, a fenti előrejelzést ekvivalens módon meghatározhatjuk egy transzformált adatállományon regresszált Const tag kalkulálásával is annak érdekében, hogy a kívánt eredmény standard OLS output részeként adódjon. Az alábbiak szerint. Adjuk hozzá az OLS modell jobb oldalához és vonjuk is ki abból a Coeff * X 0 értéket: Pred.Y = Const + Coeff * X 0 + Coeff * X Coeff * X 0 = [ Const + Coeff * X 0 ] + Coeff * (X X 0 ). A [.] zárójelben szereplő tengelymetszet így egyben a keresett előrejelzés, de a magyarázó változó transzformálódott úgy, hogy minden X megfigyelésből rendre levontuk az előrejelzési pont (jelen esetben a Szoba=2) értékét. Példánkban tehát minden szobaszámból levontunk két szobát Szobaszám-2 módon, és az Árat e transzformált magyarázó változón regresszáltuk. A kapott regresszió: Pred.Ár = * (Szobaszám -2). Most a Szobaszám=2 feltétel melletti eredeti előrejelzés egybeesik a becsült 23 tengelymetszettel. Mivel a standard OLS output része a konstans tag standard hibája, így az előrejelzésre tetszőleges megbízhatóság mellett a CI konfidencia intervallum automatikusan kalkulálható. 15

21 Többváltozós áralku kalkuláció Többváltozós esetben a pred.y feltételes várható érték 95% CI konfidencia intervallumának a meghatározása analóg módon történik. Példánkban az eladásra kínált lakás arculata, tehát a kovariáns a következő: X = [ Terület=70m 2, Terasz=5m 2, Szoba=2, Félszoba=1, Fürdő=1, Emelet=2, Tájolás=Déli ] amely mellett a várható Kínálati_Ár pontbecslése MFt. Így annak a lineáris modellnek a tengelymetszete Const=26.77, melynek predictorai rendre: (Terület-70), (Terasz-5), (Szoba-2), (Félszoba-1), (Fürdő-1), (Emelet-2), (Tájolás-1). A tengelymetszet standard hibája SE(Const)=0.91, mellyel a kontans tag 95% CI felső határa: alsó határa pedig CI U = *0.91 = 28.56, CI L = *0.91 = 24.98MFt. Tehát az alku folyamat során a CI U értékről indulunk, és a CI L értékig engedünk. 16

22 Az OLS becslési módszer alkalmazási feltételei Az OLS becslés (mintavételi értelemben) torzítatlan és egyben hatásos (legkisebb mintavételi ingadozással járó) lineáris becslés az alábbi feltételek teljesülése esetén: 1. Exogenitás: A hiba nem korrelál a magyarázó változókkal. Technikailag ez a kritérium a X és az ε zéró kovarianciáját követeli meg: ABC!,# Linearitás: Az Y a magyarázó változók paramétereiben lineáris függvénye. A paraméterekben vett linearitáson van tehát a hangsúly. A későbbiekben a nem lineáris de linearizálható modelleknél látni fogjuk, hogy az X predictorokban vett nem linearitás önmagában nem sérti az OLS alkalmazási feltételeit. 3. Szférikus hibatag: Ez a kritérium a jól viselkedő hibatag kritériuma, amely több pillérre támaszkodik. Egyrészt, szükséges a hiba normális eloszlása: # D EF D,% D G. Másrészt, a hiba várható értékének zérónak kell lennie: F D # D 0. Harmadrészt, szükséges a hiba feltételes szóródásának a homogenitása (értsd konstans volta): % D HI1# K D %. Negyedrészt, az egyedi hibáknak korrelálatlanoknak kell lenniük egymással, azaz teljesülni kell a ABC# D,# L 0 megkötésnek minden (i, j) relációban az i = j esettől eltekintve. A harmadik kritériumot a homoszkedaszticitás feltételének, a negyediket pedig idősoros modellek esetén az autokorrelálatlanság feltételének nevezzük. (Lásd a későbbiekben.) Az OLS alkalmazási feltételeinek nem teljesülése eltérő fajsúlyú és vonatkozású következményekkel járnak. A torzítatlan paraméterbecsléshez az exogenitás és a linearitás elengedhetetlen. Ezek bármelyikének sérülése esetén L M N L, azaz az empirikus koefficiensek várható értéke nem fog megegyezni a sokasági (elméleti) megfelelőikkel. A hibatag szférikusságának nem teljesülése két vonatkozással jár. Egyrészt, nem szférikus hiba esetén már nem igaz, hogy az OLS hatásos lineáris becslés. Másrészt, a hiba (ill. az Y) nem normális eloszlása esetén az alkalmazott hipotézisvizsgálati eljárások megbízhatatlanná válnak. Ugyanakkor le kell szögeznünk, hogy a szférikus hiba, mint feltétel, nem szükséges a torzítatlan paraméterbecsléshez. A linearitás adottság, vagy jellemzi az Y dependent változó mögött álló adatgeneráló folyamatot, vagy nem. Az exogenitás azonban jelentős részben modell-specifikációs kérdés. Releváns változók kihagyása a modellből, vagy a regresszió függvény-formájának rossz megválasztása (lineáris modell illesztése egy nem lineáris folyamatra) egyaránt az exogenitás sérülését okozza, mivel szisztematikus, az X magyarázóváltozókkal összefüggésben álló tartalmat delegál az eltérés változóba. Az exogenitás nem teljesülésének az esetét endogenitásnak hívjuk. A hibatagok szférikus voltának tesztelése a modelldiagnosztika keretében történik (5. fejezet). A reziduum normalitásának, homoszkedaszticitásának és (auto)korrelálatlanságának tesztelésére egyaránt rendelkezünk statisztikai eszközökkel. Mivel az OLS alkalmazása biztosítja, hogy konstans tag megléte esetén az empirikus hiba korrelálatlan lesz a regresszorokkal, ezért az OLS reziduumra elvégzett modelldiagnosztika keretében az exogenitást tesztelni nem tudjuk. 1 1 Az exogenitás tesztelésére, illetve az endogén modellek torzítatlan becslésére az ún. Intrumentális Változók (IV) becslési eljárás alkalmazott. Az IV módszer bemutatás azonban meghaladja a kurzus kereteit. 17

23 Modellszelekció Elemzésre és előrejelzésre alkalmazhatunk szűkebb, vagy bővebb modellt, és változtathatjuk mind a függő, mind a független változók körét. A cél egy minél egyszerűbb, takarékosabb, parsimonious modellt építeni, de amely előrejelzése megfelelően pontos. A jelen induló elképzelés szerint a modellt fokozatosan szűkítve egyszerűsítjük addig, míg annak nem romlik jelentősen az előrejelzése, vagy ellenkezőleg fokozatosan bővítjük mindaddig, míg jelentősen javul az előrejelzése. Az egyes koncepciók megnevezései rendre: backward és foreward változó-szelekció. Ily módon paramétereikben egymásba ágyazott, ún. nested modellek sorából választva kapjuk a végső, final modell verziót. Paramétereik tekintetében egymásba nem ágyazott modellek között is tudnunk kell szelektálni. A következő esettanulmányok illusztratív adatállományai: 1. hazai szakágazatok a megfigyelési egységek és termelési modell becslése az ökonometriai cél, ahol az egyes szakágazatok átlagos vállalkozásai a megfigyelési egységek, és az egy vállalkozásra jutó mérleg és eredményadat képezi a változókat, 2. hazai háztartások a megfigyelési egységek és fogyasztási modell becslése az ökonometriai cél, ahol a háztartási évi jövedelmének a háztartás éves összes kiadására gyakorolt parciális határhatásának az elemzése az elsődleges feladat. 18

24 A termelési függvény, mint ökonometriai modell Függő változó szerepben a termelés méretét kívánjuk elemezni és előrejelezni a termelési tényezők, mint magyarázó változók függvényében. A vizsgált eredményváltozó példánkban az üzleti (másik megnevezéssel üzemi) tevékenység eredménye, tehát a megtermelt jövedelem, melynek levezetése a bruttó kibocsátásból kiindulva történik a hozzáadott érték, majd a nettó termelés megadása során jutva el az üzleti tevékenység eredményéhez. Egy lépésben meghatározva, az üzleti tevékenység eredménye: a bruttó kibocsátás csökkentve az összes ráfordítással. Az üzleti tevékenység eredménye a vállalkozás (szakágazat) jövedelem-termelési képességet mutatja abban a tevékenységi körben, amire a vállalkozás létrejött. 19

25 A magyarázó változók intuitív köre Az esettanulmányban a magyarázó változók induló körét négy X faktor köré szervezzük: 1. Létszámigény, 2. Eszközigény, 3. Forrásigény, 4. Ráfordításigény. Felhívjuk a figyelmet, hogy: 1. Az Alkalmazott létszám és a Személyi jellegű ráfordítások egyaránt a munkafelhasználást jellemző változók. Együtt való ingadozásuk ágazatról ágazatra lehet kézenfekvő, de nem szükségszerű. 2. A Befektetett eszközök + Forgóeszközök összeg nem adja ki az Összes eszközöket, mert a hiányzó harmadik komponens az aktív időbeli elhatárolások. 3. A Saját tőke lehet negatív. 4. A Hosszú és Rövidlejáratú kötelezettségek összege még nem az összes kötelezettségek, mert a kiegészítő harmadik komponens a hátrasorolt kötelezettségek. 20

26 A szakágazati adatállomány A megfigyelési egységek a magyar gazdaság szakágazatai, vagyis a leginkább homogén tevékenységű vállalkozás-csoportok. Sorszámuk az oldalrovatban szerepel, ez az adott év szerinti nómenklatúrában szám szerint 479. Tevékenységüket a TEÁOR kódjuk azonosítja, mely a nómenklatúra szerint egy tevékenységi kört definiál. A minta mérete: n=479. Szakágazaton belül minden vállalkozásra összesítésre kerültek az adott jellemző (pl. létszám) vállalati adatai, majd az egy vállalkozásra vetített értékük alkotja a regressziós modell adatállomány-rekordjait. Az egyes változókat tartalmazzák az oszlopok. A létszám adatok főben, az értéki adatok pedig millió forintban mértek. A mintában a év összes kettős könyvvitelt vezető vállalkozása szerepel, a vállalkozások száma a 3. oszlopban olvasható. Az utolsó sor tájékoztató jellegű, a regressziós adatállománynak nem része. A nemzetgazdasági szintű átlagos, egy vállalkozásra vetített értékeket tartalmazza. Ily módon az egyes szakágazati értékek súlyozott számtani átlaga, ahol súlyként a vállalkozások száma szerepel. Lévén súlyozott átlagok sorozata, nem esik egybe a lineáris regressziós adatállomány súlyozatlan átlagpontjával. 21

27 Modellszűkítési koncepciók A dia a példánkban szereplő legbővebb 10 változós full modell javasolt szűkítési módjait tárgyalja. A táblázatban előbb a full modell szerepel a koefficiensekkel és a p-értékekkel. Ezt követően pedig az alább tárgyalandó szűkített modellek kerülnek bemutatásra. Minden modell esetén kiemelve szerepelnek a parciális t- próba alapján 1 százalékos szinten inszignifikáns változók p-értékei, amik potenciálisan elhagyhatók. (Csoportos szelektálásuk azonban mindig tesztelendő! Lásd később.) Az R 2 értéke modellről-modellre haladva az utolsó sorban látható. A táblázatban három koncepció, javaslat van arra vonatkozóan, hogy első megközelítésben miként érdemes szűkíteni a full modellt. Kérdés, hogy érdemes-e ezt megtenni. Türkizzel kiemeltek a modellszűkítések paraméter specifikációi és a járulékos becslési eredményeik. 1. Először az inszignifikáns (a magas mintaméret miatt szigorú, 1%-os szignifikancia szinten) Saját Tőke és Személyi Ráfordítás együttes elhagyása szerepel: zérón megszorított koefficienssel szerepelnek a változólistában (O : QR QS5 0). Csökken az R 2, de kérdés, hogy jelentősen, vagy elhanyagolhatóan: a es R 2 érték mindössze re csökkent, tehát alig változott a két paraméter elhagyásának a következtében. Ezzel szemben áll a vonatkozó két paraméter megtakarítása, amelynek köszönhetően a modell szabadsági foka 469-ről (479-8)=471-re nő. 2. A második javaslatban a Befektetett Eszköz és a Forgóeszköz paraméterét egyenlőként kezeljük, azaz bármelyik változó is mozdul, a hatása az Üzleti Eredményre a közös paraméter: Ez a hipotézis a koefficiensek egyezőségét állítja (O : TU VU ). Az R 2 értéke lett, ami most egy nagyobb mértékű romlás. Ezzel szemben áll a szabadsági fok egységnyi növekménye A harmadik modellben elhagytuk az alkalmazotti Létszámot (zéró koefficiens megszorítással szerepel a változólistában, O : W 0), mert lehet, hogy a személyi ráfordítás minden lényeges munkaráfordítás információt tartalmaz már, ezért az alkalmazott létszám redundáns, fölösleges változó. Vegyük észre, hogy ennek hatására az inszignifikáns Személyi Ráfordítás paraméter szignifikánssá válik, és előjele is megváltozik. Az R 2 új értéke ennek hatására: Összefoglalva három alapvető technika javasolt egy kiinduló, full modell szűkítésére: 1. A t-próba alapján parciálisan irreleváns változók együttes elhagyása. Változók csoportos szelektálása azonban mindig tesztelendő Wald- vagy LM-teszttel! 2. Prediktorok összevonása (pl. a különböző eszköztípusok helyett egy aggregát eszköz prediktor szerepeltetése), vagy ekvivalens módon koefficiensek egyezőségére tett megkötés. A megszorításban érintett prediktorok kiválasztásánál első körben a hasonló tartalmú X j -ket érdemes figyelembe venni. Második körben pedig a hasonló nagyságrendű becsült paraméterrel rendelkezőket. Utóbbi esetben azonban érdemes figyelni arra, hogy a statisztikai megkötés a vizsgált jelenség szempontjából tartalmilag is értelmezhető legyen. 22

28 3. A vizsgált jelenség szempontjából redundáns prediktorok szelektálása akkor is, ha egyébként p-értékük ezt nem indokolná. A modellépítés (szűkítés) során a három technika elméletileg tetszőleges sorrendben használható. Praktikusan azonban célravezető első lépésben mindig a t-próbák alapján az irrelevánsnak tűnő magyarázó változók elhagyásával próbálkozni. 1 Vegyük észre, hogy a két paraméter egyezőségére tett megkötés révén a modellben becsülendő paraméterek száma 10-ről 9-re csökken. 22

29 Modellszelekciós Parszimonia Kritériumok A heurisztikus szelekciós kritériumok alkalmazása azt a célt szolgálja, hogy közel azonos pontosságú modellek közül a paraméterekkel takarékosabban bánó modellt tartsuk meg végső modellként. Ugyanis minél egyszerűbb modellel tudunk jó illeszkedést adni a tanuló-training mintán, annál megbízhatóbb prognózis adható a mintán kívüli teszt-minta értékekre. Szemben a hipotézisvizsgálati módszerekkel, e kritériumok alkalmazása nem igényli az eredményváltozó eloszlásának az ismeretét. A klasszikus R 2 mutató modellközi viszonylatban mint célfüggvény nem alkalmas maximálásra, mert értéke újabb paraméter bevonásával praktikusan mindig nő (nem csökken), tehát végül a legbővebb modellt preferálná. A kritériumok közös működési elve: a kisebb hibát preferáljuk, de ezek közül is azt választva, amelyik a lehető legkevesebb paramétert költi el: fölösleges vagyis nem jelentős javulást hozó újabb paraméter bevonása büntetendő! A korrigált R 2 kritérium értelemszerűen a magas R 2 értéket preferálja. Ha kicsit nő az R 2, de ezt a hatást túlszárnyalja a paraméterek számának fölösleges bővülése, akkor csökkenhet is a korrigált R 2 értéke. Mivel magyarázott hányad maximálására szolgál a mutató magja, tehát a kritérium modellről-modellre haladva maximálandó. A következő három kritérium magja az átlagos négyzetes hiba: SSE/n, tehát az egy megfigyelési egységre vetített négyzetes hiba. Lévén a hiba minél kisebb, annál pontosabb a modell, tehát ezen kritériumok modellről modellre haladva minimálandók, ahol az illeszkedés javulását ellensúlyozza, bünteti a paraméterek számának a növekedése. Ezt a hatást veszi figyelembe a büntető faktor. A büntetés mértékének egyre szigorúbb sorrendje: Akaike, Hannan-Quinn, Schwarz-Bayes. 23

30 Szelekciós kritériumok alkalmazása Az oldalrovat a korábban megismert full modell háromféle megszorított változatát sorolja fel, ahol az = megszorítások a megfelelő predictorok paramétereire vonatkoznak. A fejrovat közli rendre a hiba-négyzetösszeget, a klasszikus R 2 értéket, majd a korrigált R 2 értékét, végül az Akaike és a Schwarz-Bayes-kritériumokat. A hiba-négyzetösszeg publikálása csak az újra-számolhatóságot szolgálja. Mint látható, a klasszikus R 2 a legtöbb paramétert alkalmazó modell esetén a legmagasabb, tehát nem alkalmas a fölöslegesen bevont paraméterek büntetésére. Mindemellett a korrigált (adjusted) R 2 és az Akaike az utolsó, a Schwarz viszont az utolsó előtti modellt preferálja, amikor kivesszük a saját tőkét és a személyi ráfordításokat a modellből. 24

31 Fölösleges változó bevonása Kérdés, hogy egy újabb prediktor modellbe való bevonásának mi a hatása a korábban már bevont prediktorok koefficienseire! Ugyanis az újabb prediktor lehet indokolt, de lehet indokolatlan is! A fenti modellekben Y az Üzleti eredmény (MFt), a Fő változó az alkalmazotti létszámot a Bér (MFt) változó pedig a személyi jellegű ráfordítást jelöli. A valódiként feltételezett modell csak a Bér prediktort tartalmazza, de a becsült modell az R 2 magyarázó erő javítása érdekében a Fő változót is tartalmazza. 1 Óhatatlanul a Bér is magyarázottá válik az alkalmazotti létszám, azaz a Fő által. Így a Bér redundánssá válhat, pedig elméletileg relevánsként kezeljük. Redundáns magyarázó változó nem tolerált a modellben. Annál inkább tolerált egy magyarázó változó a modellben, minél kevésbé magyarázzaőt a többi magyarázó változó. A tolerancia mutató (T x ) azt mutatja meg, hogy az X magyarázó változó mintabeli szóródásából hány százalék az önálló információ, azaz a többi prediktor által nem magyarázott rész. A tolerancia komplementere (1T 3 ) pedig értelemszerűen azt adja meg, hogy az X szóródásának hány százalékát magyarázza a modellben szereplő többi prediktor. Praktikusan T X komplementere azon OLS modell R 2 értékének, amelyben az X változót magyarázzuk a többi prediktorral. 2 A (in)tolerancia, azaz a prediktorok egymás általi magyarázottsága mögött a multikollinearitás jelensége áll. A multikollinearitás alatt a magyarázó változók egymásközti X-körben értelmezett korrelációinak rendszerét értjük. A multikollinearitás a modellel járó adottság, a magyarázó változók ugyanis általában sztochasztikus kapcsolatban állnak egymással, azaz korrelálnak. Ezért a multikollinearitás jelenléte természetes, nem föltétlenül modellspecifikációs hiba. Erőssége azonban már nagyban függ a modellspecifikációtól. Minél több magyarázó változót vonunk ugyanis be a modellbe, annál erősebb lesz a multikollinearitás, és annál inkább csökken az egyes prediktorok toleranciája. Esettanulmányunk és tágabb értelemben a tolerancia/multikollinearitás jelensége kapcsán a konklúzió a parcális bér-koefficiens standard hibájára vonatkozik. A mintavételi varianciát (négyzetes standard hibát) mutatja a 3. pont, a bér-koefficiensre felírva. 3 A formulában az 1/Tolerancia tényező a tolerancia csökkenésével emelkedik. A végtelenig is emelkedhet. A koefficiens szórásnégyzete tehát a tolerancia csökkenése mellett ceteris paribus megnő (inflálódik). Az 1/Tolerancia mutatót emiatt szokás Variancia Inflátor Faktornak (VIF) is nevezni. A szórás növekedésével a t-statisztika csökken, a megfelelő p-érték ennek megfelelően nő, azaz egyre kevésbé mutatkozik fontosnak a Bér változó. A releváns Bér kikerülhet tehát a modellből pusztán annak hatására, hogy az irreleváns létszám Fő bekerült: tanulság tehát, hogy fölösleges változó bevonásának hatására korábban bevont releváns változó kieshet a modellből. Meg kell említenünk azonban, hogy bár új változó bevonásával a modellben szereplő regresszorok toleranciája csökken (biztosan nem nő), és így a VIF mutatójuk emelkedik, a koefficiensek standard hibájának emelkedése nem törvényszerű. A modell hiba-négyzetösszege ugyanis új változó bevonásával csökken (biztosan nem nő), és így a négyzetes Coeff standard hiba formulában szereplő reziduális variancia (lásd a diát) becsült értéke is csökken, mivel HI1 X # YG. Új változó bevonásával tehát a koefficiensek varianciájában két ellentétes hatás jut érvényre: egyrészt csökken a számított reziduális variancia, másrészt nő a VIF mutató. A két ellentétes hatás eredője vagyis az, hogy a koefficiens standard hibája nő, vagy csökken alapvetően attól függ, hogy az új, bevont prediktor releváns a magyarázott jelenség szempontjából vagy sem. Amennyiben nem releváns (fölösleges), akkor a hibanégyzetösszegben és a számított reziduális varianciában bekövetkező csökkenés jellemzően nem lesz elegendő, hogy ellensúlyozza a VIF növekedését.

32 A szakágazati termelési modell esete Vegyük észre, hogy ha a megelőző empirikus szakágazati termelési modellben az alkalmazott létszám változót visszatesszük a modellbe, tehát visszatérünk a full modellre, akkor a Személyi Ráfordítás paraméter inszignifikánssá válik. Tekintve, hogy a Létszám és a Személyi Ráfordítás ugyanazon termelési tényező felhasználását mérik különböző aspektusból, ezért a köztük lévő korreláció értelemszerűen erős a mintában ennek értéke: 1 QS5,W =0.94. Így a jelenség hátterében minden bizonnyal az áll, hogy a Létszám bevonása a modellbe inflálja a Személyi Ráfordítás koefficiens standard hibáját. 1 Az R 2 érték új prediktor bevonásával mindig emelkedik (biztosan nem csökken). 2 Formálisan: &Z 4=(1 &Z ), ahol[=[!,...,! L9,! L],...,! ]. 3 A formula a háromváltozós OLS modellre vonatkozik. 25

33 Lényeges változó kihagyásának hatása a modellből Legyen a valódi termelési modellünk háromváltozós, ahol a két magyarázó változó rendre a Forgó Eszközök és a Saját Tőke. A regressziós koefficiensek nagyságrendi összehasonlíthatósága miatt tekintsük a standardizált változók rendszerében számított, ún. standardizált paramétereket. Így a tengelymetszet definíció szerint zéró, Béta* pedig a megfelelő standardizált parciális koefficienst jelöli. A Forgóeszköz* valódi parciális hatása az Üzleti eredményre* vonatkozóan: Béta* Fe = Hagyjuk ki most a modellből a Saját tőke (relevánsnak feltételezett) prediktor változót. Így a kétváltozós - 1_magyarázó változós - modell b* fe koefficiens értéke e redukált modellben az Üzleti eredmény és a Forgóeszközök közötti lineáris korreláció értéke (mivel a változók standardizáltak). Vessük össze a változást a valódi modell megfelelő paraméterének a viszonylatában. A háromváltozós lineáris modell standardizált paramétereinek a számítására zárt formula áll rendelkezésre, mely a három lehetséges korrelációt alkalmazza: 1. r(üzleti eredmény, Forgóeszköz) = , 2. r(üzleti eredmény, Saját tőke) = , 3. r(forgóeszköz, Saját tőke) = A Forgóeszközök* változó koefficiensének számítási lépései rendre: A Fe koefficiens* számlálója: r(üzleti eredmény, Forgóeszközök) r(üzleti eredmény, Saját tőke) r(forgóeszközök, Saját tőke). A Fe koefficiens* nevező értékének az alakulása: 1. az Y Üzleti eredmény (dependent) változótól független, 2. a kér prediktor közötti korreláció által meghatározott. A két prediktor közötti korreláció adott esetben a koefficiens előjelét át is válthatja. A valódi paraméter értéke a mintánkban , míg a torzított koefficiens értéke Tehát a releváns Saját Tőke prediktor kihagyása a modellből: az Fe koefficienst* koefficienst felülbecsli. 26

34 Lényeges változó kihagyásának hatása a modellből Legyen a hipotetikus termelési modellünk háromváltozós, ahol a két magyarázó változó rendre a Befektetett eszközök és a Saját tőke. A regressziós koefficiensek egymással való fontossági rangsorolása érdekében mint korábban - a standardizált változókat súlyozó, ún. standardizált paramétereket tekintjük. A tengelymetszet ezért definíció szerint zéró, Béta* pedig a standardizált parciális koefficienst jelöli. A Befektetett Eszközök* valódi parciális hatása az Üzleti Eredményre* vonatkozóan: Béta* Be = Hagyjuk ki most a modellből a Saját tőke (egyébként hipotézisünk szerint releváns) prediktor változót. Így a kétváltozós (1_magyarázó változós) modell b* be koefficiens értéke a redukált standardizált modellben az Üzleti eredmény és a Befektetett eszközök közötti lineáris korreláció értéke (mivel standardizáltak a változók). Vessük össze a változást a valódi modell megfelelő paraméterének a viszonylatában, ahol a háromváltozós lineáris modell standardizált paramétereinek a számítására zárt formula áll rendelkezésre, mely az alábbi három lehetséges korrelációt alkalmazza: 1. r(üzleti eredmény, befektetett eszköz) = r(üzleti eredmény, saját tőke) = , 3. r(befektetett eszköz, saját tőke) = A Befektetett Eszközök* változó koefficiensének számítási lépései rendre: A Be koefficiens* számlálója: r(üzleti eredmény, Befektetetett eszköz) r(üzleti eredmény, Saját tőke) r(befektetett eszközök, Saját tőke). A Be koefficiens* nevező értékének az alakulása: 1. Az Y Üzleti eredmény (dependent) változótól független, 2. a kér prediktor közötti korreláció által meghatározott. A valódi paraméter értéke a mintánkban , míg a torzított koefficiens értéke Tehát a releváns Saját tőke prediktor kihagyása a modellből: a Be koefficienst* felülbecsli, miközben előjelet is vált. A háromváltozós esetre felírt zárt formulát, valamint a páronkénti korrelációkat megvizsgálva megállapíthatjuk, hogy az előjelváltásnak a két prediktor közötti magas korreláció az oka. 27

35 Útelemzés az Üzleti Eredmény alakulására Posztulált modellünkben az Üzleti eredmény a dependent függő változó, a Saját tőke és a Befektetett eszközök pedig az alkalmazott prediktorok. Feladatunk a Saját tőke marginális hatásának a vizsgálata Befektetett eszközök szerepeltetése mellett, majd annak elhagyásával. Ennek során megkülönböztetjük a Saját tőke direkt, indirekt és teljes hatását. A Saját tőke direkt hatása a Saját tőke parciális marginális hatása az eredményváltozóra lineáris modell esetében a parciális regressziós koefficiens, amely jelen modellben: Béta St = Ennek értelme, hogy ha 1 millió forinttal emelkedik a Saját tőke, c.p millió forinttal nő az Üzleti eredmény várhatóan, átlagosan. A Saját tőke indirekt értelemben a többi prediktorra gyakorolt hatásán keresztül is hat az eredményváltozóra. Az indirekt hatás tehát két hatást foglal magában: egyrészt a Saját tőke egységnyi növekményének hatását a Befektetett eszközökre, másrészt a Befektetett eszközök indukált változásának a hatását az Üzleti eredményre. 1 Visszatérve a szemléltető példánkhoz, a Befektetett eszközökre illesztett kétváltozós OLS modellben a Saját tőke koefficiense (2. pont). Ez azt jelenti, hogy a Saját tőke egységnyi növekménye c.p. várhatóan egységnyi növekményt eredményez a Befektetett eszközökben. Ezt a növekményt felszorozva a Befektetett eszközök Üzleti eredményre gyakorolt parciális hatásával megkapjuk a Saját tőke indirekt hatását: _`QR N TU Vegyük észre, hogy a Saját tőke Üzleti eredményre gyakorolt indirekt hatása a Befektetett eszközökkel való sztochasztikus kapcsolatán alapul. Egy predictor indirekt hatása tehát nem önálló, parciális hatás, hanem a multikollinearitásból fakadó jelenség, a predictorok parciális hatásánál rögzített ceteris paribus feltétel praktikus feloldása. Modellspecifikációs szempontból az indirekt hatás fontossága abban áll, hogy számszerűsíti a releváns változó kihagyásából fakadó specifikációs torzítást. Példánkban, a Saját tőke indirekt hatása , amely a Befektetett eszközök kihagyásával megjelenik torzításként a Saját tőke paraméterében, ról ( )=0.031-re csökkentve azt. A csökkenés oka, hogy a Saját tőke koefficiens a szűkített modellben a predictor (direkt+indirekt) = totális hatását testesíti meg lefelé torzítva ezzel a becsült direkt marginális hatást. 1 Formálisan X j indirekt hatása Y-ra X l -en keresztül a következő: a! b a! L b, ahol b az X l parciális regressziós koefficiense az Y-ra illesztett regresszióban. 28

36 Wald teszt paramétereiben nested modellek szelektálására A Wald-féle tesztet paramétereikben egymásba ágyazott modellek közötti választásra használjuk. A szűkebb modellt a bővebből kapjuk, annak paramétereire megszorításokat téve. Kérdés, hogy érdemes-e szűkíteni, vagy maradjunk az eredeti, bővebb modellnél. Jelölje a megszorítások számát általában m. Tekintsük elsőként az X magyarázó változókat, melyek között m számú hipotézisünk szerint nem releváns, tehát e sorban valamennyi Béta paraméter zéró, tehát az adott X változóknak együttesen sincs hatása a modellben, valamennyien egyidejűleg elhagyhatók. Formálisan, például két paraméterre vonatkozóan: Béta 4 =Béta 8 =0. Itt két megszorítás történik, tehát m=2. Ha valamennyi Béta paramétert lenullázzuk, akkor az Üres, másképpen Null modellt kapjuk, mely az ún. ANOVA tesztet eredményezi. A hipotéziskört bővíthetjük pl. olyan megfontolásokkal is, miszerint Béta j +Béta l =0, vagyis a paraméterek kioltják egymás hatását, vagy pl. Béta j =Béta l, tehát a két változó hatása azonos. Ezzel a megszorítások száma 1+1-gyel nő. Megfelelő c súlyok megadásával bármely megszorítás felírható, mint a paraméterek lineáris kombinációja. A tágabb modellben a meg nem szorított változók paraméterei ún. szabad paraméterként szerepelnek. A Wald-F-teszt számlálójában és nevezőjében összeveti a magyarázó változók körében történt elmozdulás okozta R 2 változást: R 2 H1 a bővebb, meg nem szorított modellhez, R 2 H0 pedig a szűkebb, megszorított modellhez tartozik. A modellszűkítés konkrét hipotézisei példánkban: 1. A Saját tőke és a Személyi ráfordítás Béta paramétere egyaránt nulla. 2. A következő hipotézis szerint a Hosszú és a Rövid lejáratú kötelezettségek marginális hatása azonos. 3. Utolsó hipotézisként a Befektetett.eszközök és a Forgóeszközök kioltják egymás marginális hatásait. Kivonva a két R 2 értéket egymásból adódik, ahol a számláló szabadsági foka a megszorítások m=4 száma, a nevező szabadsági foka pedig n-p, vagyis a mintaméret csökkentve a H 1 modell becsült paramétereinek a számával (479-10). A döntéshez, hogy jelentős-e az R 2 csökkenés, vagy elhanyagolható, rögzíteni kell egy döntési szintet. Most a magas mintaméret miatt szigorú, 1%-os szignifikancia-szinten döntünk. A p-érték kerekítve 0.000, ami lévén kisebb mint 1% a kritikus értéktől jobbra eső zéró-távoli F- értéket jelez, ami a null hipotézis-rendszer elutasítását támasztja alá. Mint konklúzió, a null-hipotézisek között van legalább egy elutasítandó. 29

37 A Lagrange-Multiplikátor teszt alkalmazása Az építkező modellszelekció alapvető eszköze a Lagrange-Multiplikátor teszt. Az LM-teszt végrehajtása nem F, hanem Chi2 eloszlású statisztika számításával történik. Példánkban most csak a Befektetett eszközök és a Forgó eszközök paramétereinek egyezőségét, tehát az azonos marginális hatás hipotézisét teszteljük, aminek gondolatmenete a következő: 1. A hipotézis szerint formálisan a két paraméter különbsége zéró. 2. A teszt alapja a parciális determinációs együttható, miszerint a megszorított H 0 modellről való maximális javulás lehetséges terjedelme (1-R 2 H0), aminek csak egy bizonyos hányada valósul meg a megszorítás feloldásával. E lehetséges terjedelem példánkban ( ). A megszorított H 0 modellről való tényleges javulás mértéke a H 1 szabad modellre áttérve azonban csak: (R 2 H1 - R 2 H0) = ( ). A javulás százalékos mértéke: ( ) / ( ). Ennek zéró közeli, vagy zéró távoli voltának a megítélése a döntési feladat. 3. A LM-teszt a parciális determináció mértékét a Chi 2 -tengelyre vetítve ítéli meg: 1. A teszt statisztika Chi 2 formulája m=1 szabadsági fokkal: Chi 2 (m) = n * (R 2 H1 - R 2 H0) / (1-R 2 H0) = 479 * ( ) / ( ) = (1). 2. A szignifikáns Chi 2 érték alapján döntésünk, hogy a kétféle eszköztípus paraméterei (marginális hatásai) szignifikánsan eltérők! 30

38 A specifikációs torzítás kezelése Hangsúlyozzuk, hogy most a háztartás Összes évi jövedelme növekményének parciális hatását vizsgáljuk a háztartás Összes évi kiadása alakulására vonatkozóan. Ez az ún. kiadási (fogyasztási) határhajlandóság. A specifikációs torzítás csökkentésének alapvetően két útja van: 1. Egyfelől minden lényeges predictor bevonása a modell regresszor körébe, 2. másfelől minden irreleváns predictor elhagyása a regresszor körből. A fenti dia példája a szükséges bevonásra példa: itt ugyanis a függő változó a háztartások összes kiadása, ami egy komplex kiadási együttes. Ezért e komplexitás minél inkább való lefedése vezet a preferált modellhez, de szem előtt tartva a paraméter-takarékosság szempontját is. A jelen modellben a felsorolt 6 faktor rejti mindazon manifeszt predictorokat, melyeket érdemes mérni a Jövedelem-hatás (kiadási határhajlandóság) minél torzítatlanabb becslése, elemzése érdekében. 31

39 Háztartási Költségvetési Felvétel (HKF) Példa A közgazdasági elemzési cél a kiadási határhajlandóság becslése, elemzése. A megfigyelési egységeket a hazai háztartások alkotják. Mintánkban 8314 háztartástípus szerepel, melyek egy év teljeskörű háztartás populációját reprezentálják. Egy típushoz számos háztartás tartozik, lefedve így 3,700,000 háztartást. A kiadási határhajlandóság közgazdasági jelentése jelen példában, hogy ha ezer forinttal magasabb az éves összes háztartási jövedelem, akkor c.p. a háztartások átlagosan, várhatóan 513 forinttal hajlandók növelni évi összes kiadásaikat (Modell_3). Természetesen az éves összes kiadást olyan sok más összetevő mozgatja, hogy a fenti didaktikai célú modell messze alulspecifikált. A modell függő (Y) változója a háztartás éves összes kiadása (Ezer forint). A magyarázó predictorok köre: 1. Éves összes háztartási jövedelem (Ezer forint), 2. A háztartás taglétszáma (Fő), 3. A lakás becsült értéke (Millió forint), 4. A háztartás által üzemeltett gépkocsik futott kilométere (Ezer kilométer). Három modellt építünk: M1, M2, M3 azonosítóval, ahol a predictorok rendre: 1. M1: Jövedelem, 2. M2: Jövedelem + Taglétszám, 3. M3: Jövedelem + Taglétszám + Lakásérték + Gépkocsi_kilométer. A kiadási határhajlandóság becslése a lineáris modellben a Jövedelem változó parciális regressziós koefficiense. Láthatóan, ahogy egyre több predictor szerepel magyarázó változóként a modellben, ezzel együtt változik (most csökken) a kiadási határhajlandóság, vagyis a Jövedelem koefficiens marginális hatása. Ennek oka, hogy ha lényeges magyarázó változók maradnak ki a modellből (mint pl. a lakásérték és a futott kilométer) akkor ezek hatását a már szereplő predictorok (jövedelem, taglétszám) magukba építik, így pl. a Jövedelem koefficiens értéke nagyságrendben torzítottá válik. Ez a nagyságrendi jellegű torzítás a specifikációs torzítás. Fölhívjuk továbbá a figyelmet az alábbi részletekre: 1. Ez a torzítás nem mintavételi értelmű, mert az OLS koefficiens mintavételi értelemben torzítatlan. 2. Ez a modellspecifikációs torzítás az útelemzéstől függően lehet alulbecslés és lehet felülbecslés is. 3. Ha a modell tévesen specifikált most az M3 a preferált modell akkor a kiadási hajlandóság elemzése tévesen nem 513Ft, hanem vagy 637Ft, vagy 617Ft. 32

40 4. Tehát, ha ezer forinttal magasabb az éves összes háztartási jövedelem, akkor c.p. a háztartások átlagosan, várhatóan 513 forinttal hajlandók növelni évi összes kiadásaikat. Természetesen az éves összes kiadást olyan sok más összetevő mozgatja, hogy a fenti didaktikai célú modell messze alulspecifikált. Ezért az 513 Ft is tovább hangolandó. 32

41 Változóiban és paramétereiben nemlineáris OLS modellek A gazdasági, társadalmi jelenségek többnyire nem lineárisan alakulnak. Kétféle megközelítésben lehet nem lineáris a statisztikai modell: változóiban, vagy paramétereiben. Változóiban nem lineáris például a modell, mikor a változók interakcióit vagy kvadratikus hatásaikat alkalmazzuk magyarázó változóként. A paramétereiben a modell kétféleképpen lehet nem lineáris. Egyfelől oly módon nem lineáris, hogy változóinak alkalmas transzformációjával lineáris regresszióra vezet: így paraméterei tekintetében lineárissá, miközben változóiban nem lineárissá válik. A másik esetben nem vezethető vissza semmilyen transzformációval lineáris modellre, ekkor a paraméterek becslése iteratív módszer alkalmazását igényli, mely egy adott induló megoldásból lépésről lépésre közelíti az optimálist. Jelen fejezet olyan nem lineáris modellekkel foglalkozik, melyek lineáris regresszióra visszavezethetők, így paramétereik OLS módon becsülhetők. A modellek megnevezése utalhat az alkalmazandó transzformációra, a modell sajátos jegyeire (marginális hatás, vagy rugalmasság tekintetében), vagy a paraméterei értelmére, jelentésére. A függvénytípus megválasztása alapvetően nem illeszkedésvizsgálati, hanem szakmai indokláson alapul: azt a függvényt preferáljuk, amelynek elméleti tulajdonságai elsősorban a rugalmassága konform az empirikus megfelelőkkel, illetve paramétereinek az értelme azt az információt adja, amit kutatunk. 33

42 Interakciók tesztelése Modellépítési lehetőség a meglévő változók interakcióinak bevonása a magyarázó változók körébe. A hazai háztartások sokaságát és adatait vizsgálandó, tekintsük az Y: kiadás X: {jövedelem, taglétszám, életkor (a háztartásfő életkora)} ún. főhatás modellt. 1 Adott X predictor direkt, fő hatását a saját paraméterén keresztül fejti ki. Ez a paraméter azt feltételezi, hogy X marginális hatása nem függ más változók szintjétől, esetleg saját szintjétől sem. Vegyük a kiadási határhajlandóság esetét. Ha a jövedelem 1 millió forinttal magasabb, kérdés, hogy ez mekkora változást eredményez a kiadásban. A főhatás modell szerint mindegy, hogy mekkora szintről emelkedik a jövedelem, és mindegy, hogy hány fős háztartás esetén. Reálisan viszont nem egyformán nő a kiadás, ha egy alacsony vagy ha egy magas jövedelmi szint a kiinduló érték, és más a hatása 1fős, és más 3fős háztartások esetén. A probléma a változók interakcióinak a figyelembe vételéhez vezet el. Második lépésben feloldjuk a konstans marginális hatás feltevést, és megengedjük, hogy a Jövedelem hatása függjön a Taglétszámtól egy Lambda paraméteren át, majd a Taglétszám hatása szintén függjön a Jövedelemtől szintén egy Lambda paraméteren át, és a Kor hatása függjön magától az életkortól egy Béta paraméteren át. Látszik, hogy a főhatás mellett Lambda*Taglétszám interakció is módosítja a kiadási határhajlandóságot és a Lambda*Jövedelem interakció is befolyásolja a Taglétszám hatását. Hasonlóan, a Kor hatása is változik attól függően, hogy milyen idősen öregszik valaki 1Évet. Most a Jövedelem és a Taglétszám egymással interakcióba lépett, a Kor pedig kvadratikusan szerepel. Öninterakció kvadratikus hatást eredményez. Felbontva a zárójeleket és elvégezve a szorzásokat, a modell úgy bővült két változóval (J*T és K*K=K 2 ), hogy nem figyeltünk meg új változót, hanem már meglévők szorzata szerepel új változóként az adatállományban. A J*T interakcióhoz értelemszerűen egy közös Lambda koefficiens tartozik. A bővített modell bár paramétereiben lineáris, változóiban már nem lineáris, de OLS módszerrel becsülhető. Az életkor hatása másodfokú polinommal írandó le, melynek a Kor szerinti deriváltja a Kor marginális hatása: Béta1+2Béta2*Kor. Az interakciók relevanciájának a tesztelése a paramétereik (Lambda, Béta2) tesztelése útján történik. 1 A modell bevezeti az R-project statisztikai program jelölését, miszerint Y magyarázott az X változókkal 34

43 Példa interakciók alkalmazására Tekintsük a Tagszám*Jövedelem és a Kor 2 változókkal bővített lineáris modellt. Az adott háztartás létszám és jövedelmi adatát összeszoroztuk, életkori adatát pedig négyzetre emeltük. Egy 3000EFt, 2Fős, 40Éves háztartás esetén a két új adat rendre: 3000*2 és 40*40. A Tag*Jöv interakció koefficiense , ami a Lambda paraméter megfelelője. A négyzetre emelt életkor szorzója , ez pedig a β 2 paraméter becslése. A t-statisztika alapján mindkét hatás szignifikáns, azaz megőrzendő a modellben bármilyen szokásos szignifikancia szintet alkalmazva. (Megjegyezzük, hogy a mintaméret igen magas.) A kvadratikus életkor hatás az előrejelzésben Kor-0.185*Kor 2, míg marginális hatása: *0.185*Kor. Egy 40 éves háztartásfő esetén ez: *0.185*40 =1.181EFt. A marginális hatást Kor tekintetében zéróra megoldva, a maximális kiadás a 43.2 éves háztartásfő esetén várható. A taglétszám marginális hatása úgy számítandó, hogy valamennyi magyarázó változóból, mely tartalmazza a tagszámot, kiemeljük a tagszámot, és számszerűsítjük az együtthatóját: *Jövedelem. Ha tehát egy fővel nő a taglétszám, akkor e formulának megfelelően változik a kiadás. Egy 3MFt háztartás esetén: *3000 = EFt. A Jövedelem határhatása hasonlóan számítható. Itt is kiemeljük a Jövedelem változót, aminek az együtthatója Tag. Tehát egy 2Fős háztartás esetén a kiadási határhajlandóság: *2=0.647EFt. Természetesen a modellben további magyarázó tényezőkként a Jövedelem és a Taglétszám kvadratikus hatásai, valamint a Kor Jövedelemmel és a Kor Taglétszámmal vett interakciói is becsülhetők és tesztelhetők. Indikátor jellegű (dummy) változó kvadratikus hatása nem vizsgálható, mert önmaga, tehát jelenléte egzakt multikollinearitást okozna a modellben! Megjegyezzük, hogy a dián szereplő modell a magyar háztartások teljes mintájára (n= ) lett becsülve a HKF adatállomány alapján. 1 1 A GRETL-ben a Súlyozott Legkisebb Négyzetek (Weighted Least Squars, WLS) eljárást alkalmaztuk. A WLS egy olyan OLS becslés, ahol a minta-elemek rögzített súlyfaktorral szorzódnak. Az alkalmazás célja, hogy súlyozza az egyes megfigyelések fontosságát a paraméter-becslés során. A korábbiakban már tárgyaltuk, hogy a HKF adatállomány 8314 háztartástípust tartalmaz a figyelembe vett háztartásjellemzők alapján, amely lefedi a teljes magyar lakosságot az adatfelvétel időpontjában (2003) szám szerint háztartást. A WLS becslés során súlytényezőként a Suly változót használtuk (lásd HKF.gdt), mely az egyes háztartástípusok számosságát sorolja. A WLS eredmények így ekvivalensek a teljes háztartás-népességre futatott OLS becsléssel. 35

44 A konstans rugalmasságú modell A modell multiplikatív módon definiált, tehát mindkét oldalának logaritmálásával (log-log transzformáció) már lineáris modellt kapunk. E modell valamennyi változójában logaritmált, tehát változóiban nem lineáris. Ha az Y eredményváltozó a Termelés, és az X magyarázó változók a termelési tényezők, akkor az ú.n. Cobb-Douglass termelési modellt definiáljuk. Esetünkben Y az értékesítés nettó árbevétele, a termelési tényezők pedig a munka felhasználás M, és a tőke ráfordítás T. A tényezők szorzódnak, a paraméterek pedig a kitevőben szerepelnek. Szokás a modellt ezért multiplikatív, vagy hatványkitevős modellként is hivatkozni:β m a munka,β t pedig a tőke felhasználás paramétere. Véve mindkét oldal logaritmusát, a Munka, Tőke és Const logaritmáltak, de a paraméterek nem logaritmált lineáris paraméterek maradnak. A pontbecslés során így kapjuk közvetlenül az OLS koefficienseket. A modell jellemzője: Meghatározva a parciális rugalmasságokat Munka és Tőke szerint, a regressziós kitevőket nyerjük, amik a magyarázó változók tekintetében konstans értékek. A termelés rugalmassága e modell szerint tehát független attól, hogy a termelési tényező c.p. milyen base-line szintről nő 1% (relatív) mértékben. Innen a modell megnevezése: konstans rugalmasságú modell. A modell másik gyakori elnevezése az alkalmazott linearizálási transzformációra, a logaritmálásra utalva: log-log modell. 36

45 A volumenhozadék tesztelése A Munka és a Tőke mellé újabb tényezőket is felvéve, a koefficiensek értékeit publikálja a táblázat. Minden változó logaritmált értékben szerepel. Ezért az OLS koefficiensek egyben parciális elaszticitások. Ha pl. a Befektetett eszközök értéke 1%-kal magasabb, akkor a Hozzáadott érték 0.929%-kal magasabb várhatóan, c.p. A Hozzáadott érték klasszikus termelési függő változó, értéke nem lehet negatív, zéró értéke sem életszerű, tehát logaritmálható. A volumenhozadék a parciális rugalmasságok összege: ha valamennyi termelési tényező egyidejűleg 1%- kal emelkedik, akkor várhatóan ennyi %-kal emelkedik a Hozzáadott érték. Ha ez a valóságban nagyobb, mint 1, akkor a növekvő volumenhozadék, ha egyenlő 1, akkor az állandó, ha pedig kisebb mint 1, akkor a csökkenő volumenhozadék esete adódik. A mintabeli megfelelő, kalkulált érték Teszteljük az állandó volumenhozadék hipotézisét: tartható, vagy sem. Az 1.38 pontbecslés standard hibája A t-statisztika értékét úgy számítjuk, hogy az empirikus értékből levonjuk a hipotézis szerinti 1-et és a különbséget normáljuk a standard hibával: (1.38-1)/0.04=9.5. Lévén a p-érték itt praktikusan zéró (0.0000), ezért elutasítjuk az állandó hozadék hipotézisét. Tehát a növekvő hozadék hipotézisét fogadjuk el. Az R 2 értéke itt nem informatív, mert a lineáris regressziós OLS becslés logaritmált (zsugorított) skála adatain alapszik. Probléma, hogy ha az eredeti Y adatokon számítunk nem lineáris modellből R 2 értéket, az lehet negatív is, vagy nagyobb mint 1. Megoldás: a megfigyelt és az előrejelzett Y értékek közötti R 2 számítása és értelmezése. 37

46 A konstans rugalmasság tesztelése A konstans rugalmasság azt jelenti, hogy a Hozzáadott érték rugalmassági szintje független a predictor változók szintjeitől. Ennek a vizsgálatához ki kell jelölnünk, hogy melyik termelési tényező függvényében tekintjük a rugalmasságot, majd empirikus rugalmasságok sorozatát kell számítanunk és modellezni. Ha az empirikus rugalmasságok nem mondanak ellent a konstans szintnek, akkor a Cobb-Douglas függvény adekvát. Példánkban a Hozzáadott értéknek, mint termelési mutatónak a Forgó eszközök szerinti rugalmasságát tekintjük. Ennek során a következő lépéseket járjuk végig: 1. Rendezzük az adatállományt (értsd szakágazatokat) növekvőleg a Forgó eszközök értékei szerint, 2. számítjuk a Forgó eszközök relatív hozam-sorozatát: FeHozam = (X i X i-1 ) / X i-1, 3. számítjuk a Hozzáadott érték relatív hozam-sorozatát: HeHozam = (Y i Y i-1 ) / Y i-1, 4. számítjuk a Hozzáadott érték vs. Forgó eszköz empirikus, szakágazat-sorosan rendezett rugalmasságait, amit a HeHozam / FeHozam hányados definiál. 5. Végül az így létrejött empirikus rugalmasság-sorozatot, mint függő változót regresszáljuk a modell predictor változói függvényében, és teszteljük a koefficiensek szignifikanciáját. Az eredmények a következők: 1. Minden becsült koefficiens a p-értékek alapján inszignifikáns, vagyis zéró közeli. 2. Az R 2 determinációs együttható értéke elenyésző (a statisztikai tesztnek sincs gyakorlati értelme). Konklúzió: 1. A Hozzáadott értéknek a Forgó eszközök függvényében vett rugalmassága konstansnak tekinthető. 2. A többi predictor esetében az elemzés analóg módon végrehajtandó. A tengelymetszet-konstanssal kapcsolatban a következő megjegyzéseket emeljük ki: 1. Jelen esetben inszignifikáns a modellben, tehát elhagyható, előjele nem értelmezendő. 2. Ha szignifikáns, akkor outlier szakágazatok jelenléte esetén, a koefficiensek specifikációs torzítottsága elkerülése érdekében, elhagyása indokolt. 38

47 Az exponenciális, növekedési modell A modell Háztartási Költségvetési Felvételi, azaz HKF03 adatokat elemez a évre vonatkozóan, ahol: Y a háztartás éves összes jövedelme EFt. Az exponenciális függvény kitevőjében szerepel a lineáris regressziós predictor. A modell paraméterének jelentése: ha pl. egy fővel magasabb a taglétszám, akkor miként változik relatív értelemben (százalékosan) a háztartás jövedelme. Ezt fejezi ki aβparaméter: X+1 hatására Y értéke egzaktan exp(β) értékkel inflálódik, amely inflátor 1-hez viszonyított százalékos értéke a növekedés ráta. A paraméterbecslés módja: az induló modellt visszavezetjük a lineáris modellre logaritmálással, ahol csak az eredményváltozó logaritmált, a paraméterek nem transzformálódnak. A linearizálás következményeként előálló függvényforma nyomán ezt a modellcsaládot log-lin modelleknek is hívjuk. Az árnyaltabb modellspecifikáció érdekében bevont magyarázó változók köre: 1. a háztartásfő (HF) neme, iskolai végzettsége, kora, 2. a vállalkozók, munkanélküliek, alkalmazottak száma, 3. majd a háztartás teljes taglétszáma. E predictor körben c.p. a taglétszám növekedési rátája: 100(exp(0.1605)-1)=17.41%. Azaz, ha c.p. a taglétszám egy fővel emelkedik, akkor a háztartás éves jövedelme várhatóan százalékkal emelkedik. Vegyük észre, hogy ezen érték magasabb mint a megfelelő koefficiens 100szorosa: 100*0.1605=16.05%. Ez mindig így van. 39

48 A pillanatnyi növekedési ütem Tekintve a Jövedelem és az Életkor kapcsolatát, fölmerül a kérdés, hogy ha a Kor végtelen kicsiny 1 egységgel idősebb (abszolút értelemben), hány százalékkal változik (relatív értelemben) a Jövedelem. A növekedési ráta értéke most zéró közeli X változás környezetében becsülendő. A válasz a regressziós Coeff koefficiens, kétféle megközelítésben indokolva: 1. A regressziós koefficiens a logaritmusban mért differencia (X tart 0-hoz) esetén, ami a kérdésre ad választ. 2. A koefficiens a növekedési rátát közelíti, ha Coeff 0: Exp(Coeff)-1 Coeff. Vegyük észre, hogy példánkban most = exp(0.0011)-1 (négy tizedes-jegy pontossággal). A közelítés még pontosabb, ha az életkort napokban, órákban, percekben, másodpercekben, stb. mérjük. Innen a pillanatnyi ütem megnevezés. Összefoglalva: A log-lin modelleknél a prediktorok hatáselemzéséhez kapcsolódó két alapvető fogalom a növekedési ráta és a pillanatnyi növekedési ütem. Mindkettő a magyarázó változó eredményváltozóra gyakorolt százalékos marginális hatását méri, csak utóbbi zéró közeli határátmeneti értelemben egységnyi X változás, míg előbbi egzaktul egységnyi X változás esetén. A két relatív marginális hatás közel megegyezik, ha a vonatkozó Béta koefficiens zéró közeli. A hatáselemzés másik útja a rugalmasság számítás. Amint a dián látható, a logaritmált modell rugalmassága: Coeff*X, tehát a magyarázó prediktor lineáris függvénye. Az eredményváltozó magyarázó változó szerinti parciális rugalmasság tehát a log-log modellekkel szemben a log-lin modelleknél nem konstans, hanem függ az X kiindulási szintjétől. Más szóval a rugalmasság pontfüggő. Például, a háztartás éves jövedelmének kor szerinti becsült rugalmassága *Kor százalék. Ez azt jelent, hogy 50 éves háztartásfő esetén a kor 1 százalékos emelkedése a háztartás jövedelmét várhatóan (0.0011*50)=0.055 százalékkal emeli meg. 40

49 Keresleti-kínálati Lin-log modell Használt lakások kínálati árának (Ár: MFt) az alakulása a T alapterület függvényében az illusztratív példa. A lakásár eredeti mértékegységében (lineárisan) szerepel, de az alapterület logaritmizált formában: ezért a megnevezés, lin-log modell. A modelltípus alkalmazásának az igénye akkor merül fel, ha az az alapvető kérdés, hogy a Terület relatív, 1%-os növekmény hatására mennyi a várható abszolút MFt változás az Árban. A probléma jellege miatt a modellt keresleti-kínálati modellként szokás alkalmazni. A becsült modell szerinti Ár = *ln(Terület). A pillanatnyi növekedési ütem szabály szerint, ha a Terület 1%-kal emelkedik, akkor a megfelelő növekedés az ln(terület) változóban 0.01 volt. Ekkor viszont az Ár Béta*0.01 mértékben emelkedik. Mivel az Ár Millió forintban van, ezért az értelmezés, hogy ha egy százalékkal nagyobb az alapterület, akkor forinttal nő a kínálati ár c.p., várhatóan. A rugalmasság számítása: vegyük a lakás árnak a terület szerinti deriváltját, ami Béta/T. Ezt szorozva a T/Ár tényezővel (X/Y) kapjuk a rugalmasság formuláját: Béta/Ár (Béta/Y). A rugalmasság tehát az eredményváltozó függvénye, reciprok módon. Ha 1%-kal nagyobb az alapterület a 30 Milliós lakások körében, akkor 1.103%-kal drágább a lakás. 41

50 A telítődési modell A modellben J a háztartás éves összes jövedelmét jelenti (Eft). Az éves kiadás kifejezetten a háztartás éves élvezeti cikkekre fordított kiadásaira vonatkozik. Az első modellben a kiadás tömegét tekintjük értékben, a második modellben viszont az élvezeti cikkek részarányát az összes kiadáson belül. Számunkra most nagyságrendileg az Alfa paraméter az érdekes, mert ha növekedik a jövedelem, akkor a reciprok összefüggés miatt a Béta/J tört értéke csökken és a kiadás közelít az Alfa értékhez. Ha a Béta paraméter előjele pozitív, akkor J emelkedésével egyre kevesebbet adunk az Alfa paraméterhez, tehát a függvény csökkenő. Ha a Béta paraméter előjele negatív, akkor egyre kevesebbet veszünk el az Alfa paraméter értékéből, tehát a függvény növekvő. A táblázat első modelljében az Alfa érték 97.4, tehát a negatív Béta paraméter miatt ehhez növekszik az EFt kiadás. A táblázat második modelljében az Alfa paraméter 6.2%, tehát a pozitív Béta miatt az élvezeti cikkekre fordított kiadás aránya ehhez az értékhez csökken. Az elaszticitás (rugalmasság) mind az Y eredmény, mind pedig az X magyarázó változó függvénye, reciprok összefüggés szerint. Egy 200ezres kiadású és 2milliós jövedelmű háztartás esetén a rugalmasság 0.034%, míg egy 10% kiadású és 2milliós jövedelmű háztartás esetén %. 42

51 A RESET nemlinearitási teszt A RESET teszt nem alkalmas javasolni az adekvát függvényformát, csak azt, hogy a linearitás tartható-e, vagy sem. Háztartás-statisztikai példánkban a hazai háztartások évi összes élelmiszer-kiadása a függő változó, és a predictorok rendre: Taglétszám, Életkor, Éves összes jövedelem. A lineáris v.s. nem lineáris összevetés gondolatmenete, lépései e teszt szerint a következők: 1. Regresszáljuk a Kiadást(Y), a Létszám(X 1 ), Kor(X 2 ) és a Jövedelem(X 3 ) függvényében. 2. Meghatározzuk a regresszió prediktált értékeit: c, c d,c e hatványozással Kibővítjük a regresszor kört e hatványozott prediktált értékekkel. 4. Teszteljük F-teszttel, hogy a bővítés jelentős magyarázó erő javulást eredményez-e, vagy nem. 5. Ha a javulás jelentős, akkor a modell nem lineáris. 6. Többet nem tudunk állítani. Példánkban a prediktált Y hatványértékekkel való bővítést tesztelő Wald-F próba p-értéke 0. Ez azt jelenti, hogy minden standard szignifikancia szinten elvetjük az alábbi nullhipotézist: O0: 2 c 8 2c f 2c g 0 A három hatványozott pred(y) bevonása a modellbe tehát érdemi magyarázó erő javulást eredményezett. Így a RESET teszt alapján kijelenthetjük, hogy a modellünk nem lineáris. A nem-linearitás forrását azonban a teszt alapján nem tudjuk megítélni, ez további modellbővítési próbálkozásokat (modellspecifikációs lépéseket) és azok statisztikai próbáit igényli. 1 A GRETL modelldiagnosztikai eszköztárában szereplő RESET-teszt csak a pred(y) második és harmadik hatványával operál. Minden egyéb tekintetben azonban ekvivalens az itt leírtakkal. 43

52 Változóikban nem-linearitási tesztek Kétféle esetet tárgyalunk, de ha szükséges, akkor a kétféle megközelítés kombinálható, és más esetekre is kiterjeszthető. Az egyik hipotézis szerint érdemes az eredeti mértékegységben mért prediktor kört kiegészíteni azok kvadratikus hatásaival, a másik hipotézis pedig a prediktorok körét azok logaritmizált értékeivel bővítené. (Használhatnánk interakciókat is, bár az Ábra ezt nem tartalmazza.) Mindkét hipotézis a Lagrange-Multiplikátor módszer alapján kerül tesztelésre, de most egy ún. segédregressziós becslés eredményeire alapozva. Ennek lényege, hogy becsüljük a Kiadásokat a Tag, a Kor, és a Jövedelem független változókkal, majd ezen modell reziduumait regresszáljuk: 1. egyfelől a kvadratikus hatásokkal bővítve az eredeti hármas prediktor kört, 2. másfelől a logaritmált változókkal bővítve az eredeti hármas prediktor kört. Mivel a reziduum már nem tartalmazza az eredeti három prediktor hatását, ezért ha a segédregresszió szignifikáns magyarázó-erővel rendelkezik, akkor érdemes szerepeltetni a változók nem lineáris hatásait is a modellünkben, ellenkező esetben viszont nem. Szemléltetésként vegyük a kvadratikus hatásokkal való bővítés esetét. A nested modellszelekcióhoz felállítandó hipotézisrendszer a következő: O 0 : R 8 h 8 i 8 0 H 1 : A három bevont négyzetes prediktor közül legalább egy releváns. Figyelem, a hipotézisrendszer közvetlenül a reziduumra illesztett segédregresszióra vonatkozik! További sajátosság, hogy a H 0 modell praktikusan az üres modell, hiszen a reziduumok az alapmodell prediktorainak hatásától már tisztítottak. 1 A H 1 modell maga a segédregresszió. A teszt tehát lényegében a segédregresszióra elvégzett függetlenségvizsgálat. Mindezek alapján belátható, hogy a H 0 modell többszörös determinációs együtthatója zéró. A kapcsolódó LM próba értéke a következő (az eltérés a dián szereplő értéktől a kerekítésből fakad): jk : lm ~Aop23. 6: 9 A próba p-értéke zéró, így a H 0 hipotézist elvetjük a H 1 -el szemben. A három kvadratikus hatás között tehát van releváns a Kiadás alakulása szempontjából. Annak eldöntése, hogy mind a három négyzetes hatás releváns-e, további nested modell-tesztet igényel. Zárásként megjegyezzük, hogy a segédregresszió függetlenségvizsgálatát hasonló statisztikai tartalom mellett Wald-F próbával is elvégezhetjük. 1 A H 0 modell üres modell voltát úgy is könnyű belátni, ha felidézzük, hogy az OLS becslésnél az empirikus reziduumok korrelálatlanok a magyarázó változókkal. Így a segédregresszióban szereplő basic predictorok az eredményváltozó szempontjából irrelevánsak. 44

53 Kategória kimenetű predictorok alkalmazása Egy nominális változó kimeneteit kategóriák alkotják (munkanélküli-nem munkanélküli, férfi-nő, Budapest-vidék, stb.). A fejezet statisztikai mondandója, hogy milyen módszerrel lehet szerepeltetni egy regressziós modellben nominális változókat predictor változó szerepben. A módszertan egyben a strukturális törés tesztelése is. 45

54 A strukturális törés Adott évben európai országok (szám szerint 28) fejlettsége (egy főre jutó relatív GDP%) alapján magyarázzuk a munkanélküliségi ráta (%) alakulását az egyes országok Uniós statusa ismeretében: A, B, C csoportok rendre. Az adatokat a tábla közli. Az első oszlop a munkanélküliségi rátát, az utolsó oszlop pedig a GDP% értékeit tartalmazza. Az egy főre jutó GDP Olaszország bázisában (%) értendő, és eggyel korábbi évet jellemez, mint a Ráta. A D A, D B, D C indikátor változók az (1,0) értékek egyikével jelzik a csoport tagság meglétét vagy hiányát. Az indikátor változók szinonim megnevezése: dummy változó. A vizsgálat a Ráta v.s. Fejlettség kétváltozós regressziós kapcsolat elemzését célozza. Lehet, hogy a regressziós paramétereket nem érinti csoporthatás. Ez egy Globális kapcsolat adekvát alkalmazását tenné lehetővé. A globális, minden csoportra közösen érvényes kapcsolat megnevezése: pooled regresszió. Reálisan a kapcsolat legmélyebben árnyalható úgy, hogy a kétváltozós kapcsolatok minden paraméterükben csoportfüggők: a GDP hatása a rátára másik országcsoportban más és más tendencia mentén érvényesül. E jelenség tesztelése a statisztikai feladat. A statisztikai teszt alkalmazása egymásba ágyazott modellek specifikálását igényli, rendre: 1. a legbővebb modell esetünkben 6 paraméterrel a valamennyi paraméterében specifikus regresszió, melynek leginkábbi megszorítása adja a pooled egyenest 2 paraméterrel, 2. kézenfekvő közbülső megszorítás lehet a különböző szinteken, de párhuzamosan haladó kapcsolatok esete 4 paraméter alkalmazásával, 3. másféle közbülső meggondolás lehet a közös tengelymetszetből induló, de eltérő meredekségek mentén haladó regressziós egyenesek hipotézise, szintén 4 paraméter alkalmazásával. A paramétereikben egymásba ágyazott modellek szembe állíthatók a másikkal, és a szelekció Wald-F vagy LM-Chi2 statisztika alapján is történhet. Látható, hogy Bulgária outlier, ami a C csoport jellemzőit, eredményeit alapvetően befolyásolja, de ha Bulgáriát elhagyjuk, akkor a C csoportban a GDP nem szóródik, így regressziója nem definiált, továbbá második X nem vonható be, mert csak két megfigyelés marad a csoportban. 46

55 A strukturális törés szélső esetei Az ábrán 4 kétváltozós regressziós egyenes szerepel, 2 modellt reprezentálva. Az egyik szélső modell a törésmentes globális (Pooled) egyenes 2 paraméterrel: Ráta = GDP R2 = A másik szélső modell a totálisan, 3 egyenesre tört modell 6 paraméter becslésével: RátaA = GDP D A =1 RátaB = GDP D B =1 RátaC = GDP D C =1 A csoportnak megfelelő egyeneseket alkalmazva mindenkor, totálisan értelemszerűen kisebb hibát követünk el, mint a pooled egyenest használva. A globális egyenes R 2 együtthatója: Ez vetendő össze példánkban az F-statisztikával a totálisan tört modell R 2 értékével. Ehhez meg kell fogalmazni a teljesen tört modellt 6-paraméteres formában, melyre az R 2 érték OLS módon adódik, és ugyanakkor paramétereire 4 megszorítást téve a beágyazott Pooled egyenest nyerjük. A vizsgált két R 2 érték különbség tesztelésével a strukturális törés tesztjét hajtjuk végre. 47

56 A Fix hatású modell paraméterezése A csoportspecifikus egyenesek közös modellbe foglalása indikátor változók és interakcióik megfelelő alkalmazásával történik. Mind a tengelymetszet, mind a meredekség paramétereket csoportokra törjük, így a globális megfelelőiket elimináljuk a modellből. A Fix tengelymetszeteket az Alfa A, Alfa B, Alfa C rögzített paraméterek, a Fix meredekségeket pedig a Béta A, Béta B, Béta C paraméterek jelentik. E paraméterek becsülendők. Képezve az Alfa A *D A tagot, ez csak akkor lesz Alfa A, ha az A csoportban vagyunk, mert ekkor D A =1, egyébként D A =0. Ez érvényes a B és a C csoportok megfelelőire is. Az algoritmus ismervén az Ország D # indikátor értékét, szelektálja a megfelelő Alfa # tengelymetszetet. Képezve a Béta A *D A tagot, ez csak akkor lesz Béta A, ha az A csoportban vagyunk, mert ekkor D A =1, egyébként D A =0. Ez érvényes a B és a C csoportok megfelelőire is. Az algoritmus a D # indikátor érték alapján szelektálja a megfelelő Béta # meredekséget. Rendelkezésre áll a 6-paraméteres totálisan tört modell egyetlen regresszióba foglalva, mely az előrejelzés közben mindig ahhoz az egyeneshez nyúl, amely csoportban előrejelzést adunk, és adja a 6- paraméteres modell R 2 együtthatóját. A becsülendő regresszió magyarázó változói a zárójelek felbontása után adódnak: 1. egyfelől valamennyi csoport D indikátorai (szelektálandó tengelymetszet szerepkörben), főhatásként, 2. másfelől valamennyi indikátor interakciói az X változóval (szelektálandó meredekség szerepkörben). Vegyük észre, hogy globális tengelymetszet ebben a modellben nem szerepeltethető, mert a csoporton belüli konstans tagokkal együtt egzakt multikollinearitást okozva, túlparaméterezné a modellt. A Pooled regresszió hipotézise a csoport-specifikus tengelymetszetek egymással, valamint a csoportspecifikus meredekségek egymással való egyezésében fogalmazandó meg. 48

57 A Fix-hatás tesztelése A Totálisan_tört, és a Globális regresszió közötti választást szolgálják a modellszámítások alábbi eredményei. A H 1 modell tartalmazza mindhárom indikátort mint fő hatást, és mindhárom indikátor GDPfejlettséggel vett interakcióit. A modell értelemszerűen nem tartalmaz globális tengelymetszetet (konstans tagot), és a 6 paraméter alkalmazásával elért R 2 = Szűkítve a modellt a H 0 szerinti globális egyenesre 2 paraméterrel, az R 2 értéke lecsökken: Kérdés, hogy a 4 paraméter eliminálásának köszönhető R 2 romlás jelentős, vagy sem. Ha jelentős, akkor nem hagyjuk el a paramétereket, de ha nem jelentős, akkor nincs rájuk szükség. Ennek eldöntéséhez az F-tesztre támaszkodunk, melynek számított értéke F=3.845, (4, 22) szabadsági fok párral. A vonatkozó p-érték 0.016, ami kisebb mint 5%, tehát 5 százalékos döntési szinten az F-érték szignifikáns, vagyis a totálisan tört modell jelentős, a globális egyenes semmiképpen nem váltja ki. Vegyük észre, hogy 1% döntési szinten a döntés megfordulna, de az alacsony mintaméret (n=28) miatt a reális döntési szint (%) most inkább lazítandó. Az F-statisztika számlálójának szabadsági foka 4, mert H 0 négy megszorítást tesz a H 1 modell paramétereire: 6 helyett 2 paramétert becslünk. 49

58 Variancia analízis: Csoportspecifikus Null modellek Tekintsük az indikátor változók paramétereinek a tartalmát, jelentését akkor, ha exogén X változót nem vonunk be a modellbe, hanem a Ráta alakulását csak a csoporttagság függvényében vizsgáljuk. Most is választhatunk a Fix hatású, globális tengelymetszet nélküli, vagy a (C) referencia csoporthoz viszonyító globális tengelymetszetet tartalmazó alkalmazások közül. Mindkét modell csoporton belüli előrejelzése konstans és értelemszerűen azonos, az A csoportban Béta A, a B csoportban Béta B, a C csoportban pedig Béta C. A Fix-hatású modell esetében a indikátorok koefficiensei: rendre: 6.58%, 10.44%, 11.70%. A számtani átlag négyzetes minimum tulajdonsága alapján, a legkisebb négyzetek OLS koefficiensei most a Ráta csoportokon belüli átlagos értékeit adják, ezért a % a mértékegység. Így bár alacsony a mintaméret mégis, a szignifikáns t-statisztika értékek (zéró közeli p-értékek) azt a triviális helyzetet adják vissza, miszerint a Ráta átlagos értéke egyik csoportban sem zéró. Ezzel szemben, a második modell indikátorainak a koefficiensei a C referencia csoporthoz képest vett többleteket becslik: és rendre. Mivel százalékos mutatóban vett különbségek, ezért értékük százalékpontban értendő. Értelemszerűen az A csoport átlagos rátája 5.12 százalékponttal alacsonyabb a C csoporténál, a B csoporté pedig 1.26 százalékponttal alacsonyabb szintén a C csoporténál, miközben a C csoport átlagos Rátája 11.7%, ami a globális tengelymetszet. Vegyük észre, hogy az indikátor koefficiensek p-értékei most az eltéréseket tesztelik. Ennek értelmében a eltérés közel szignifikáns, míg a eltérés egyértelműen inszignifikáns. A Fix-hatású modell 1. előrejelzése a részátlagokat adja országonként, melyek varianciája a Külső Variancia = 2.14^2, 2. reziduumai a részátlagtól szűrt Ráta értékek, melyek varianciája a Belső Variancia = ^2. Az R 2 = determináció e specifikációban megegyezik a Ráta: Külső/Totális módon definiált Wilkslambda variancia-hányadosával. 50

59 Referencia csoport alkalmazása Egy referencia kategória megválasztása mellett (ez lehet a kategóriák bármelyike) a három tengelymetszet és a három meredekség megkülönböztetését megvalósíthatjuk a referencia kategória indikátorának az elhagyásával, de tengelymetszet és az X főhatás szerepeltetése mellett, mert 3 kategória leírása három paramétert igényel. Példánkban C a referencia kategória, majd Alfa és Béta a globális paraméterek, melyek egyben a C csoport paramétereit adják. Ekkor (D A,D B ) az (1,0),(0,1),(0,0) értékük szerint a tengelymetszetet Alfa bázisában, majd a meredekséget Béta bázisában korrigálják, megfelelően: az A csoport meredeksége Béta+Béta A, a B csoportté Béta+Béta B, a tengelymetszetek pedig rendre Alfa+Alfa A, és Alfa+Alfa B. E paraméterezésben a Pooled egyenes hipotézisét a korrigáló koefficiensek zéró volta fogalmazza meg: Alfa A =Alfa B =Béta A =Béta B =0. A tesztelést szolgáló, becsülendő modell struktúrája tartalmazza a globális tengelymetszetet, a D A és D B dummy főhatásokat, az X főhatását és a D A és D B indikátorok X kovariánssal vett interakcióit. A megszorított modell koefficienseit számszakilag a Pooled egyenes koefficiensei adják. A bővebb és szűkebb modellek R 2 többszörös determinációs együtthatói megegyeznek a szelekciós módszer értékeivel, így az F-teszt konklúziója változatlan: A globális egyenes hipotézise elvetendő. 51

60 Párhuzamos egyenesek hipotézise Fölmerül a kérdés, hogy bár a ráták szintje országcsoportonként változik, de a GDP-fejlettség marginális hatása azonos. E probléma módszertanilag a különböző tengelymetszetű, de párhuzamos meredekségű regressziók feltevésének becsléséhez, majd teszteléséhez vezet el. A teszt végrehajtható mind a Fix hatású modell mind a Referencia csoport modell alkalmazásával. Illesztve bármelyik módszerrel a Full (6 paraméteres) modellt, az előbbi elven azt a megszorítást tesszük, hogy a meredekségek egyenlők egymással: Béta A =Béta B =Béta C, míg az utóbbi elven a referencia meredekség korrigálásai egyöntetűen zérók: Béta A =Béta B =0. A párhuzamos egyenesek melletti R2 érték bármelyik paraméterezéssel 0.4, a megszorítások száma most 2. Így az F-érték 7.384, p=0.004 szignifikancia értékkel. Lévén az F-statisztika értéke a p-érték alapján szignifikáns, így a meredekségek is különbözőek konklúziót megfogalmazó alternatív hipotézist fogadjuk el 5százalékos döntési szinten. 52

61 Kontraszt változók szerepe a csoporthatások vizsgálatában Meghatározva a GDP relatív szintje alapján várt globális trendet a Munkanélküliségi Ráta (MR) alakulásában, célunk a csoportoknak köszönhető többlet hatás becslése és tesztelése. Feltevés szerint a meredekség Béta paramétere csoport-független, a tengelymetszetek azonban egy rögzített centrális Alfa érték körül alakulnak csoportról-csoportra, vagyis csoport-specifikusak. Az OLS paraméterbecslés megfelelő technikai eszköze most az ún. Kontraszt változók alkalmazása. A modell az alábbi problémát fogalmazza meg: az X GDP által indokolt trendhez képest mennyi az egyes országcsoportok Alfa A, Alfa B, Alfa C additív hatása (többlete, elmaradása), és ez a hatás jelentős-e, vagy sem. A többlethatás forrása a csoport-specifikus tengelymetszet véletlen eltérése egy centrális Alfa tengelymetszettől. A modell formálizálása egyszerű, hiszen a GDP várható főhatását korrigáljuk a megfelelő csoporthatásokkal: Ráta = Alfa + Béta*X + Alfa A D A + Alfa B D B + Alfa C D C + Error. Így azonban az Alfa globális tengelymetszet szerepeltetése numerikus problémát okozna, mert D A +D B +D C =1 miatt lineárisan összefüggő változók lennének az adatok között. Becsülhetővé válik viszont a modell a csoporthatások összegének zéró voltát megkövetelve: Alfa A +Alfa B +Alfa C =0. Kifejezve az Alfa C =(-Alfa A -Alfa B ) hatást és visszahelyettesítve az induló modellbe, kapunk egy trendet, melyben az Alfa A,, Alfa B koefficiensek kontraszt változói rendre: K A =(D A -D C ), K B =(D B -D C ). E változók abban különböznek a klasszikus dummy kódolástól, hogy a referencia kategória (most a C csoport) esetén a {-1,-1} értékeket veszik fel rendre. Az Alfa C koefficiens becsült értéke a zéró-összeg megszorítás alapján következik: = Az exogén GDP pedictor koefficiense egyben a párhuzamos regressziók közös meredeksége, míg pl. a K A változó Alfa A =1.124 koefficiense nem más, mint az átlagos tengelymetszettől vett A-csoportbeli eltérés. Az A- csoport tengelymetszete ezen eltérés és a centrális (főhatás/átlagos) Alfa összegeként adódik: = A végső előrejelző modell a fentiek alapján: Pred(MR)= GDP+1.124D A D B D C. 53

62 54

63 A fejezet két részre tagolódik: a modelldiagnosztikára, illetve a kvantilis regresszióra. A modelldiagnosztika a regressziós modell reziduumainak előre rögzített szempontok szerinti vizsgálatát jelenti. Alapvető célja, hogy az alkalmazott becslési eljárás feltételeit utólagosan verifikálja az empirikus hibatagok vizsgálatával. Elnevezése is erre utal: a modell alkalmazási feltételek szerinti megbízhatóságának a diagnosztiázálása. Az OLS becslés alkalmazásának feltételei az exogenitás, illetve a szférikus hibatag. Amint azt korábban már leszögeztük, az exogenitás tesztelésére az OLS reziduumok nem alkalmasak, mivel a zéró regresszor-hibatag korreláció (Cov(X,e)=0) a becslés során adottságként jelentkezik. Az OLS modell diagnosztikája így a hibatag szférikus voltának vizsgálatára korlátozódik. Utóbbi keretében a reziduum normalitása, illetve homoszkedaszticitása tesztelendő. Az alkalmazási feltételek vizsgálatán túl, hagyományosan a modelldiagnosztika részét képezi az extrém (ún. outlier) megfigyelések detektálása, illetve ezzel párhuzamban az eredmények robosztusságának a tesztelése. Az outlier dependent értékek, azaz a minta tendenciájától markánsan eltérő (Y,X) pontok jelenlétére az OLS becslés különösen érzékeny. Az OLS ugyanis hibanégyzetösszeget minimál, ezért a nagy hibát (e i ) generáló extrém Y értékek szükségszerűen magukhoz húzzák az illesztett regressziós egyenest, azaz a paraméter-vektort. A paraméterbecslésre gyakorolt hatásuk miatt ezeket az extrém megfigyeléseket az angolszász terminológia csak influantial observations (befolyásos megfigyelések) névvel illeti. Az outlier megfigyelések detektálásának módszertana nem képezi a kurzus részét. Ehelyett rögtön a probléma megoldására fókuszálva, az extrém megfigyelésekre robosztus eredménnyel szolgáló kvantilis regressziókat tárgyaljuk a fejezet második felében. A kvantilis regresszió alkalmazási területe kettős. Az egyik alkalmazási terület a már említett robosztus becslés az outlier megfigyelésektre. A módszertan másik alkalmazási területe az, amikor X ismeretében az Y eredményváltozó eloszlásának nem a centrális értékére (várható értékére, mediánjára) vagyunk kíváncsiak, hanem az eloszlás meghatározott kvantilisére (pl. 9. decilis). (A módszer neve is innen származik.) A feltételes kvantilisek vizsgálata tipikusan például a jövedelemeloszlás (szegénység-) vizsgálat során jelentkezik igényként. 55

64 A fejezet során tárgyalt témákat egy fogyasztási modell esettanulmányán keresztül szemléltetjük. A modell a háztartások éves élelmiszer-fogyasztását (ElelmEFt) magyarázza három változó segítségével: a háztartás éves jövedelmével (JovEFt vagy J), a háztartás taglétszámával (Tletszam vagy T) és a háztartásfő korával (Hfkora vagy K). A változók mértékegysége ezerft, fő és év. A minta a háztartások 2003-as költségvetési felvételében szereplő 8314 háztartástípus. Az OLS illesztés eredményét a dia publikálja. 56

65 A reziduális változó normalitása Formálisan Az OLS koefficiens az Y eredményváltozó mintabeli y értékeinek a lineáris kombinációjaként áll elő: OLS \ X X 1 X ^ y. Következésképpen, ha az eredményváltozó normális eloszlású, akkor a b_ols koefficiensek is normális eloszlásúak 1 Ekkor a t-statisztika Student-féle t-eloszlást követ, H 0 érvénye mellett. Ha viszont y nem normális, akkor a t-statisztika nem t-eloszlású. Hasonlóképpen az eredményváltozó normalitása szükséges ahhoz, hogy a Wald-teszt és az LM-teszt a feltételezett F és Chi 2 eloszlást kövessék legalább is kis minta esetén. Amennyiben tehát a normalitás nem teljesül, a hagyományos próbák megbízhatatlanná, a hipotézis tesztelési következtetések és a konfidencia intervallum konklúziók pedig inkorrekté válnak. Az Y dependent változó normalitása tehát vizsgálatot igényel, ami a modelldiagnosztika részét képezi. Ha az eredmény változó normális eloszlású, akkor a várható értékétől vett eltérése is normális eloszlású. Ezen eltérés mintából való becslése a reziduum. Praktikusan tehát a reziduum eloszlásvizsgálata ad lehetőséget az Y változó normalitásának a tesztelésére. Normalitási tesztek (reziduális illeszkedésvizsgálat) Az alábbiakban két normalitási tesztet, a Jarque-Bera (JB) tesztet és a Doornik-Hansen (DH) tesztet mutatjuk be. A JB teszt az egyik legismertebb normalitási teszt. A GRETL program alapértelmezésben a DH tesztet használja a modelldiagnosztika során. 2 Mindkét teszt esetén a H 0 hipotézis a normalitást, míg H 1 a nem normalitás jelenti. A Jarque-Bera teszt-statisztika Chi 2 -eloszlású mindig DF=2 konstans szabadsági fokkal, mert a normális eloszlás két alapvető jellemzőjét, az S ferdeséget (skewness) és a K csúcsosságot (curtosis) teszteli: normál eloszlás esetén S= 0 és K= 3. Amint a formulából látható (dia), a tesztstatisztika a normalitástól való távolságot méri, úgy hogy a normalitásra alacsony, zéró-közeli Chi 2 érték és ezzel egyetemben magas p-érték utal. Vegyük észre, hogy a tesztstatisztika értékét az n mintaméret növeli, míg szabadsági foka konstans. Ezért megfelelően magas mintaméret mellett semmilyen minta nem teljesíti a tesztet. Módszertanilag analóg teszt a Doornik-Hansen próba, mely szintén a ferdeség és a csúcsosság (empirikus értékei) alapján méri a reziduumok illeszkedését a normális eloszláshoz. A JB teszttel szemben azonban ezt nem egy zárt formula, hanem algoritmus eredményeként teszi. Normalitási teszt a fogyasztási modell reziduumaira: A fogyasztási modell reziduumainak empirikus eloszlását (hisztogramját) publikáltuk a dián. Az eloszlás becsült ferdesége és csúcsossága a következő: pred(s)= 1.37, pred(k)= A JB teszt kalkulált értéke: 8314*( /6+( ) 2 /24) A számított p-érték zéró. A DH teszt szintén zéró p-értékre vezet. Így mindkét teszt alapján egyértelműen elutasítjuk a H0 normalitási hipotézist. A fogyasztási modellünk reziduuma (eredmény változója) tehát nem normális eloszlású. Ez a vizsgált jelenségből kifolyólag várható volt. 1 A félkövér változó minden esetben vektort jelöl. A b tehát a becsült paramétervektort szimbolizálja. 2 Ugyanakkor a programcsomag a DH és a JB teszteken túl, további két normalitási tesztet (Shapiro-Wilk próba, Lilliefors próba) is elvégez az adatállományban szereplő változókra külön futtatva, tehát nem a klasszikus modelldiagnosztika részeként. 3 Az eltérés a dián szereplő értéktől a kerekítési hibának köszönhető. 57

66 A heteroszkedaszticitás jelensége Az OLS becslés alkalmazási feltételei kapcsán már említettük, hogy jól viselkedő, ún. szférikus hibatagot feltételezünk. Azt is leszögeztük, hogy ez a feltétel nem szükséges az OLS paraméterek torzítatlanságához, azonban a leghatásosabb (legkisebb mintavételi ingadozású) becslés tulajdonsághoz elengedhetetlen. A jól viselkedő hibatag egyik ismérve, hogy a feltételes szóródása konstans: HI1# q D % D % minden i-re. Ilyenkor a modellt homoszkedasztikusnak hívjuk. Ha a szórás változó, akkor a modell heteroszkedasztikus:hi1# q D % D M%. 1 A jelenség megértése végett időzzünk el egy pillanatra az eredményváltozó feltételes szórásának tartalmánál regressziós környezetben. Mint ismert, a regressziós függvény X feltétele mellett adja meg az Y várható értékét. A megfigyelt, tényleges eredmény-változó ezen feltételes várható érték és a véletlen eredőjeként áll elő:r D q D " # D. A véletlen hibatag nem modellezhető valószínűségi változó zéró várható értékkel ésσ i szórással: # D E0,% D G. Mindez azt is jelenti, hogy a tényleges (manifeszt) Y értékek x i kovariáns feltétele (értéke) mellett a reziduális szórással megegyező mértékben szóródnak a várható értékük körül: HI1r q D HI1 q D "# D HI1 q D "HI1# q D 0"% D. Úgy is fogalmazhatunk, hogy az y szóródása a regressziós várható érték körül a reziduális szórásnak köszönhető, és azzal egyenértékű. Az alábbi ábra az Y feltételes szórását mutatja be kétváltozós regressziónál a homoszkedaszticitás és a heteroszkedaszticitás esetére. Mindkét esetben három függőleges vonal szúr le az x-tengelyre kijelölve a magyarázó változó x 1, x h és x l értékeit. A pirossal jelölt (elméleti) regressziós egyenes megadja a vonatkozó várható értékeket. A ban elforgatott sűrűségfüggvények pedig az Y eloszlását reprezentálják a várható érték körül. A heteroszkedasztikus modell esetén láthatóan különbözik a sűrűségfüggvények alakja, amely egyenértékű a szórásnégyzet különbözéségével. Jelen esetben az egyre szélesedő Gauss-görbék egyre nagyobb mértékű szóródást jeleznek. A homoszkedasztikus modellnél a sűrűségfüggvények azonosak, azonos szórásnégyzetet jelezve. Változó reziduális szóródás (heteroszkedaszticitás) Konstans reziduális szóródás (homoszkedaszticitás) 58

67 A heteroszkedaszticitás lehet modellspecifikáció következménye, illetve származhat önmagában a vizsgált jelenségből is. A modellspecifikáció által indukált heteroszkedaszticitás esetei a következők lehetnek: 1. Kihagyott releváns változó: A kihagyott releváns változó a hibatagba delegálódik, és így értelemszerűen mozgatja annak szóródását az Y-ra gyakorolt hatásán keresztül. 2. A regresszió csoport-átlagokon való futtatása: Sokszor a mintánkat egy csoportosított sokaság csoport- átlagai alkotják. Vegyük példának a már tárgyalt szakágazati termelési modellt, ahol a 479 megfigyelést a szakágazati átlagok képezték. Más szóval az n i elemszámú i-dik szakágazat dependent változója az átlagos (egy vállalkozásra eső) szakágazati üzleti t u eredmény volt:r$ D s r L w D. Az independent változók hasonló módon számítódtak. Lv Könnyen belátható, hogy amennyiben az egyes szakágazatokban (csoportokban) eltérő számú vállalat (megfigyelés) szerepel, akkor a szakágazati (csoport-) átlagokra futatott regresszió mesterségesen válik heteroszkedasztikussá Skála-hatás indukálta heteroszkedaszticitás: Bizonyos jelenségek esetén az eredményváltozó lehetséges szóródási tartományát illetően érvényesül egyfajta mennyiségi/skála determináció. Más szóval a magyarázó változó értéke kijelöli az eredményváltozó releváns szóródási tartományát, ezáltal heteroszkedasztikussá téve a modellt. Esettanulmányunk kiváló példája a skálahatás indukálta heteroszkedaszticitásnak. A háztartások jövedelmének abszolút nagysága ugyanis meghatározza az (élelmiszer)kiadások lehetséges felső határát és ezáltal szóródási tartományát is. Nyilván a háztartás jövedelmének a növekedésével a kiadások alakulásának is nagyobb a szabadsági foka. Ugyanez igaz a háztartás taglétszám szerinti méretére is. A skálahatás indukálta heteroszkedaszticitás elkerülésére lehetséges megoldásként az egy főre eső, fajlagos értékek (JovEft/Taglétszám, ElelmEft/Tagletszam) használata adódik. 1 Közismert, hogy független, azonos eloszlású (independetly and identically distributed, iid) megfigyelések számtani átlagának a varianciája az egyedi megfigyelések varianciájának az összege, normálva a mintaelemszámmal:hi1r$ D % D. Az átlag szórása tehát függ a mintaelem-számtól. Így viszont eltérő számoságú csoportok számtani átlagát véve, akkor is eltérő varianciájú megfigyelésekhez jutunk, ha egyébként az átlagolás alapját képező csoportelemek feltételes szóródása megegyezik 1 Az elnevezés a feltételes szórás függvényének matematikai nevére, a szkedasztikus függvényre utal. 58

68 A fentiekből kiindulva praktikus tanácsot fogalmazhatunk meg a heteroszkedaszticitásnak az eredményváltozó vagy a reziduum pontdiagramja alapján történő felismeréséhez. Ami az eredményváltozót illeti, könnyen belátható, hogy ha a modell homoszkedasztikus, akkor az Y pontfelhő egy konstans szélességű sávban alakul az X j magyarázó változó mentén. Ez a sáv lehet linearisan növekvő/csökkenő vagy nem-lineáris is a regressziós görbe függvényében. Heteroszkedaszticitás esetén az Y pontfelhő szélessége (szóródási amplitúdója) változik. A dián szemléltetésként a jövedelem függvényében ábrázoltuk az élelmiszerkiadás alakulását a mintában szereplő 8314 háztartásra. A pontfelhő szóródása láthatóan növekszik: az élelmiszerkiadások terjedelme adott jövedelmi kategóriáról magasabb jövedelmi kategóriára lépve egyre tágul. Ez közgazdaságilag kézenfekvő, logikus jelenség. A tágulást a két közös pontból induló nyíl határolja be. A táguló pontfelhő a heteroszkedaszticitás jelenlétére utal. Az Y pontfelhő kapcsán tett megállapításaink egyszerűen konvertálhatóak a reziduális pontfelhőre. Homoszkedaszticitás esetén a reziduumokat bármely X j mentén ábrázolva a x-tengellyel párhuzamos sávban alakuló szóródást kell tapasztalnunk. Ellenkező esetben a modell heteroszkedasztikus. Az ábra (jobbra) az élelmiszerkiadásra illesztett modellünk reziduumait közli a jövedelem függvényében. A reziduális pontfelhő örökölve az ElelmEft növekvő szóródását a JovEft függvényében láthatóan tágul, és nem egy, a zéró köré illesztett sávban szóródik. A heteroszkedaszticitás forrásai A heteroszkedaszticitás lehet modellspecifikáció következménye, illetve származhat önmagában a vizsgált jelenségből is. A modellspecifikáció által indukált heteroszkedaszticitás esetei a következők lehetnek: 1. Kihagyott releváns változó: A kihagyott releváns változó a hibatagba delegálódik, és így értelemszerűen mozgatja annak szóródását az Y-ra gyakorolt hatásán keresztül. 2. A regresszió csoport-átlagokon való futtatása: Sokszor a mintánkat egy csoportosított sokaság csoportátlagai alkotják. Vegyük példának a már tárgyalt szakágazati termelési modellt, ahol a 479 megfigyelést a szakágazati átlagok képezték. Más szóval az n i elemszámú i-dik szakágazat dependent változója az átlagos (egy vállalkozásra eső) szakágazati üzleti eredmény volt:r$ D s r L w D. Az independent változók hasonló módon számítódtak. Könnyen belátható, hogy amennyiben az egyes szakágazatokban(csoportokban) eltérő számú vállalat (megfigyelés) szerepel, akkor a szakágazati (csoport) átlagokra futatott regresszió mesterségesen válik heteroszkedasztikussá Skála-hatás indukálta heteroszkedaszticitás: Bizonyos jelenségek esetén az eredményváltozó lehetséges szóródási tartományát illetően érvényesül egyfajta mennyiségi/skála determináció. Más szóval a magyarázó változó értéke kijelöli az eredményváltozó releváns szóródási tartományát, ezáltal heteroszkedasztikussá téve a modellt. Esettanulmányunk kiváló példája a skálahatás indukálta heteroszkedaszticitásnak. A háztartások jövedelmének abszolút nagysága ugyanis meghatározza az (élelmiszer)kiadások lehetséges felső határát és ezáltal szóródási tartományát is. Nyilván a háztartás jövedelmének a növekedésével a kiadások alakulásának is nagyobb a szabadsági foka. Ugyanez igaz a háztartás taglétszám szerinti méretére is. A skálahatás indukálta heteroszkedaszticitás elkerülésére lehetséges megoldásként az egy főre eső, fajlagos értékek (JovEft/Taglétszám, ElelmEft/Tagletszam) használata adódik. 1 Közismert, hogy független, azonos eloszlású (independetly and identically distributed, iid) megfigyelések számtani átlagának a varianciája az egyedi megfigyelések varianciájának az összege, normálva a mintaelem-számmal:hi1r$ D % D. Az átlag szórása tehát függ a mintaelem-számtól. Így viszont eltérő számoságú csoportok számtani átlagát véve, akkor is eltérő varianciájú megfigyelésekhez jutunk, ha egyébként az átlagolás alapját képező csoportelemek feltételes szóródása megegyezik 59 t u Lv

69 A heteroszkedaszticitás következménye és kezelése A heteroszkedaszticitás nem befolyásolja az OLS becslés mintavételi értelemben vett torzítatlanságát ( N xwq ). Nem konstans reziduális szórás mellett azonban az OLS becslés elveszíti a leghatásosabb lineáris becslés tulajdonságát. Heteroszkedasztikus modell esetén ugyanis az Általánosított Legkisebb Négyzetek (Generalized Least Squares, GLS) módszer hatásosabb paraméterbecslést szolgáltat, mint az OLS. Ennél is fajsúlyosabb negatív következmény azonban, hogy az OLS standard hibák torzítottak és inkonzisztensek lesznek. 1 A torzított standard hiba miatt a modellépítéshez hagyományosan használt hipotézisvizsgálati tesztek kalkulált p-értéke helytelenné, a tesztek pedig ezáltal megbízhatatlanná válnak. Ez a t-próbánál kézenfekvő, hiszen a koefficiens becsült szórása közvetlenül is megjelenik a Coeff/s.e.(Coeff) képletben. A Wald-F és az LM-Chi2 próbáknál a belátás nem ennyire triviális, így ehelyütt eltekintünk tőle. A fentiekből kifolyólag a heteroszkedaszticitást kezelni szükséges. Ez háromféleképpen történhet: 1. Megszüntetjük a heteroszkedaszticitásért felelős esetleges modellspecifikációs hibát. Például abszolút értékek helyett fajlagos értékekkel dolgozunk. Vagy bővítjük a regresszorok körét a magyarázandó jelenség szempontjából relevánsnak vélt további X változókkal. 2. GLS becslést alkalmazunk. A GLS becslés tulajdonképpen egy transzformált (átskálázott) adatállományra elvégzett OLS becslés, amely esetén a homoszkedaszticitás adottságként jelentkezik (lásd a későbbiekben). A GLS becslés természetesen az OLS paraméterektől eltérő eredményhez vezet. 3. Az OLS becslést megtartva, a heteroszkedaszticitásra robosztus módon kalkuláljuk a paraméterek standard hibáit. Az OLS standard hibák torzítottsága abból fakad, hogy a mögöttes formula feltételezi a% D % összefüggést, amely heteroszkedaszticitás esetén nyilvánvalóan nem állja meg a helyét. 2 Kézenfekvő megoldásként adódik, hogy a % D reziduális szórásnégyzetet alkalmas proxy (becslő/közelítő) változóval helyettesítsük a standard hiba formulájában. A White-féle robosztus standard hiba becslés az OLS reziduumok négyzetét használja a % D helyettesítésére: pred(σ i2 ) = e i2. A White-féle standard hiba nagy hátránya, hogy kis mintában túl optimista a koefficiens mintavételi ingadozását illetően: a koefficiens valódi szórását jellemzően alulbecsli. Ennek korrigálására több megoldás született, melyeket itt nem részletezünk. 3 A heteroszkedaszticitás kezelésének zárásaként egy fontos dologra fel kell hívnunk a figyelmet. Mind a GLS eljárás, mind a robosztus standard hiba becslés nagymintás eljárások, kismintás tulajdonságaik nem ismertek. Ez praktikusan azt jelenti, hogy kicsi minta esetén nem biztos, hogy jobban járunk, ha a normál OLS becslést, akár GLS-re, akár robosztus standard hibára cseréljük. A minta kicsi vagy elegendően nagy volta nem határozható meg egzaktul. Az n=100 mintaelem-számot azonban alkalmazhatjuk egyfajta mintanagyságot klasszifikáló hüvelykujjszabályként. További megjegyzés az alkalmazással kapcsolatban, hogy nagy minta esetén egyre inkább a robosztus standard hiba becslés használata válik általánossá a GLS becsléssel szemben. 4 1 Az inkonzisztencia azt implikálja, hogy a koefficiens-szórás becslésének torzítottsága a mintaelem-szám növekedésével sem szűnik meg. 2 A dián a kétváltozós OLS modell b meredekségi paraméterének négyzetes standard hiba formulája szerepel. Többváltozós esetben a formula komplikáltabb, azonban a lényeg nem változik: a basic OLS becslés során alkalmazott VAR H0 (b) formula hibás a H1 heteroszkedaszticitás esetén. 3 A GRETL háromféle korrigált White standard hiba becslést tesz lehetővé. Bár mindmáig a basic White standard hiba a leggyakrabban használt heteroszkedaszticitás robosztus standard hiba, egyre inkább terjed a fentiek értelmében korrigált változatainak az alkalmazása. 4 Ez annak köszönhető, hogy a GLS eljárás feltételezi a reziduális szórásnégyzet ismeretét, amely a valóságban nem realisztikus. A becsült szórásnégyzettel operáló FGLS (lásd később) pedig a% D modellezésével az inkonzisztencia egyik forrásává válhat. 60

70 A heteroszkedaszticitási tesztek logikája Egy regressziós modell hetero-/homoszkedaszticitásának tesztelésére több statisztikai próba ismert. A három legismertebb próba a White-teszt, a Breusch-Pagan-tesz, és a Koenker-tesz. Ezen próbák közös logikát követnek: 1. Első lépésben megfogalmazzák a hipotézisrendszert, ahol a H0 hipotézis a homoszkedaszticitás, a H1 hipotézis pedig a heteroszkedaszticitás: O0:HI1# q D % O1:HI1# q D % D M% 2. Második lépésben a tesztelendő modell reziduumának valamilyen f(e) transzformációjára (pl. négyzetére) mint dependent változóra ún. segédregressziót illesztenek. 3. Harmadik lépésben függetlenség-vizsgálatot végeznek, azaz tesztelik a segédregresszióban szereplő magyarázó változók globális relevanciáját. 4. Amennyiben a függetlenségvizsgálat alapján a segédregresszió szignifikáns magyarázó erővel rendelkezik a dependent transzformált reziduum tekintetében, elvetik a homoszkedaszticitás null-hipotézisét, ellenkező esetben pedig elfogadjuk azt. 1 A közös alapgondolat mellett, az egyes heteroszkedaszticitási próbák két dimenzió mentén differenciálódnak: egyrészt, az empirikus reziduumokra alkalmazott transzformáció tekintetében; másrészt, a segédregresszióban szerepeltetett Z prediktorok tekintetében. White-teszt A legismertebb és egyben leggyakrabban alkalmazott heteroszkedaszticitási teszt a White-próba. A White-próba a fenti logikát követve megfogalmazza a H0:homoszekdaszticitás H1:heteroszkedaszticitás hipotézisrendszerét. Ezt követően az OLS reziduumok négyzetére (yz D z D ) egy olyan segédregressziót illeszt, melyben a prediktorok a tesztelendő modell prediktorai, azok kvadratikus hatásai, illetve interakciói: 4!,...,!,...,!!,...,!! 9. Végül a segédregresszióra elvégzett függetlenség-vizsgálat alapján dönt a H0 elfogadásáról, vagy elvetéséről. Esettanulmányunkban az élelmiszerkiadást a jövedelemmel, a taglétszámmal, illetve a háztartásfő korával magyarázzuk. Ennek megfelelően a vonatkozó White-próba segédregressziójában 3 főhatás (J,T,K), 3 kvadratikus hatás (J 2, T 2, K 2 ), illetve három interakció (J*T, J*K, T*K) fog megjelenni. Az OLS illesztés eredménye a következő: Y1z{ z 37841"17.9 "213.7"1204.2}" e " } " }24.1} R 2 = , n= A negyedik pont logikája abban keresendő, hogy amennyiben a transzformált OLS reziduumok szóródása magyarázható, a feltételes reziduális szórás nem lehet konstans. Ennek hátterében az áll, hogy a reziduum feltételes szórása megegyezik a reziduumok négyzetének várható értékével: HI1# q D # q D # q D # q D, ahol # q D 0. Utóbbi pedig azt eredményezi, hogy a torzítatalan OLS reziduumok, illetve azok transzformáltja megfelelő proxy változói a feltételes reziduális szórásnak. Így, amennyiben f(e) magyarázható azaz nem konstans, akkor ugyanez igaz ahi1# q D -re is. 61

71 Breusch-Pagan teszt A White-próba a leginkább elterjedt heteroszkedaszticitási próba. Gyakori kritika azonban vele szemben, hogy az erejével kapcsolatban kevés ismerettel rendelkezünk. 1 A White-próbánál kevésbé általános, de éppen ebből kifolyólag nagyobb erővel rendelkező heteroszkedaszticitási próba a Breusch-Pagan (BP) próba. A Breusch- Pagan próba, hasonlóan a White-próbához, a bevezetőben felvázolt gondolatmenetet követi. Sajátossága, hogy a segédregresszió eredményváltozójaként a feltételes reziduális szórásnégyzet átlagos szórásnégyzettől % való relatív eltérését használja, azaz a kettő szórásnégyzet hányadosával operál. Mivel mindkét szórásnégyzet nem megfigyelhető (sokasági) paraméter, ezért értelemszerűen az empirikus megfelelőiket, azaz a becsült varianciákat alkalmazzuk a próba során. A próba a segédregresszió magyarázó változó-körét az alapmodell magyarázó változó-körével felelteti meg. Ennek megfelelően a segédregresszió a következőképpen néz ki: 2 8 ~ u 8 u ~ 8 QQU t " K "..." K ", aholy1z{% D z D, Y1z{% és u a hibatag. A segédregresszió globális magyarázó erejét tesztelő LM próba a regressziós hibacsökkenést szorozza 0.5- tel: jk 2 Aop2 ƒv, ahol az eloszlás m szabadásig foka a segédregresszió k prediktor száma. A próbát az élelmiszerkiadást magyarázó modellünkre futtatva a következő segédregressziót kapjuk: Y1z{z " e "0.13" d }, SSR= A számított tesztstatisztika és p-érték : jk Aop2 d Y0.000 Hasonlóan tehát a White-teszthez, a BP-teszt alapján is elutasítjuk a H0 homoszkedaszticitás hipotézist a H1 heteroszkedaszticitás alternatív hipotézissel szemben. Koenker-teszt A BP-teszt érzékeny a reziduum normalitására, mint feltételre. A Koenker-teszt ezzel szemben robosztus a normalitásra. Szokták emiatt robosztus BP-tesztnek is hívni. A BP teszthez képest egyetlen lényegi változás a segédregresszió dependent változójával kapcsolatos. Továbbra is a feltételes reziduális szórás átlagos szórástól való eltérésén van a hangsúly. A Koenker-teszt esetén azonban nem a relatív, hanem az abszolút eltérés magyarázandó: 62

72 Az Általánosított Legkisebb Négyzetek módszere (Generalized Least Squares, GLS) Az Általánosított Legkisebb Négyzetek módszere nem követeli meg a homoszkedasztikus hibatagot. Minden olyan esetben, amikor teljesül az exogenitási kritérium torzítatlan becslést szolgáltat a paraméterekre. Abban az esetben pedig, amikor a hibatag nem szférikus akár a változó reziduális szórás (heteroszkedaszticitás), akár a reziduumok egymással való korrelációja (auto-/keresztkorreláció) miatt a leghatásosabb is egyben. Szférikus hibatag esetén azonban az OLS hatásosabb becslés a GLS eljárásnál. Ami a módszer lényegét illeti, a GLS eljárás praktikusan az adatállomány transzformált változatára elvégzett OLS becslés. A transzformáció oly módon történik, hogy a hibatag homoszkedaszticitása (vagy auto- /keresztkorrelálatlansága) biztosított legyen. A mögöttes gondolatot az egyszerűség kedvéért a következő kétváltozós, lineáris modellen keresztül szemléltetjük: D "! D "# D, aholhi1#! D % D. A feltételes reziduális variancia tehát nem konstans, a modell heteroszkedasztikus. Osszuk el a regressziós egyenlet mindkét oldalát aσ i szórással: 2 u ~ u : ~ u " & u ~ u " u ~ u D ~ u "! D "# D Látható, hogy így egy transzformált adatállományra felírt modellhez jutunk, ahol minden egyes megfigyelést a saját reziduális szórásával normálunk. ( D D % D,! D! D % D, # D # D % D ). Azt is könnyű belátni, hogy a transzformált adatállományra felírt modell homoszkedasztikus, egységnyi szórással: 8 ~ 8 u ~ u HI1#! D HI1# % D! D Š & u ~ u 8 1 Mivel a transzformáció nem érinti a paramétereket, ezért azok becsülhetőek a transzformált modell OLS illesztésével. Heteroszkedasztikus modell esetén tehát az egyedi reziduális szórásokkal normálva az adatállományt hatásos és torzítatlan OLS becsléshez jutunk. 1 A GLS becslés alkalmazása során két probléma merül fel. Egyrészt, teoretikusan eltűnik a konstans, hiszen a % D tag meredekségi tag tartalmú,β 0 koefficienssel. Másrészt, a reziduális szórás ismeretlen. Az első probléma nem fajsúlyos, mindössze az R 2 értelmezését érinti. A második probléma viszont kardinális jelentőséggel bír. Szórás hiányában ugyanis a GLS becslés nem megvalósítható. A probléma orvoslását a reziduális szórás becslése adja. Amennyiben ugyanis képesek vagyunk a reziduum feltételes varianciáját konzisztens módon becsülni, akkor a prediktált varianciákat használva a sokasági varianciák helyett a GLS becslés megvalósítható. 2 A becsült varianciákkal való operálás miatt az (F)GLS becslés nagymintás eljárás. Az ökonometriai szoftvercsomagok az (F)GLS becslést négy lépésben hajtják végre: 1. Becslik a modellt OLS alapon. 2. Az OLS reziduumok valamely transzformáltját jellemzően négyzetét magyarázzák egy segédregresszió keretében. 3. Az illesztett segédregresszióval prediktálják a reziduális szórásokat, majd utóbbiakkal normálják az adatállományt. 4. A transzformált adatállományra futtatják az OLS modellt. 63

73 A GLS becslést számítva az élelmiszerkiadást magyarázó modellünkre a dián jelölt eredményekre jutunk. Összehasonlítás végett, az alap OLS becslés eredményét is feltüntettük. Látható, hogy a GLS becslés eredményeként a koefficiensek megváltoztak. Továbbá a GLS standard hibák kisebbek az OLS standard hibáknál. Utóbbiakról tudjuk, hogy torzítottak, hiszen mindhárom teszt korábban egyértelműen kimutatta a modell heteroszkedasztikus jellegét. Figyelembe véve a nagy mintaelem-számot, a GLS becslés egyértelműen preferált az OLS becsléssel szemben. 64

74 Kvantilis regresszió Továbbra is magyar háztartások (n=8314) éves élelmiszer kiadásait vizsgáljuk az éves jövedelmeik (ezerft) függvényében. Az egyszerűség kedvéért most tekintsünk el a három prediktorral magyarázó alapmodellünktől, és nézzük azt a kétváltozós esetet, amikor az egyetlen magyarázó változó a háztartások jövedelme. A dián megjelenik a két-dimenziós pontfelhő már ismert diagramja. A diagram 4 regressziós egyenest ábrázol, melyek értelmezése rögzített X jövedelmi szint mellett rendre a következő: 1. OLS: Az átlagos kiadást becsli: X, 2. LAD: A medián kiadást becsli: X, 3. Tau(0.9): A felső decilis kiadást becsli: X, 4. Tau(0.1): Az alsó decilis kiadást becsli: X. A pontfelhő jellegzetességei: 1. Outlierek jelennek meg mind a Jövedelem, mind a Kiadás tekintetében. 2. A kiadás terjedelme a jövedelmi szint szerint tágul, jelezve a heteroszkedaszticitást. Látható, hogy egyetlen regressziós egyenessel nem lehet leírni a teljes pontfelhőt, és ha a közepes kiadást modellezzük, akkor az OLS egyenes nem adekvát, mert a feltételes átlagot modellezve érzékeny az outlierekre. A közepes kiadás modellezésére most célszerű a feltételes mediánt modellezni, míg a nagyon magas és nagyon alacsony kiadások tekintetében a feltételes felső és alsó decilis modellezése indokolt. 65

75 A medián (LAD) regresszió A medián regresszió paraméter-becslésének kiinduló gondolata a medián abszolút eltérés minimum (Least Absolute Deviation, LAD) tulajdonsága. A medián abszolút eltérés minimum tulajdonsága azt jelenti, hogy amennyiben vesszük egy minta elemeinek az abszolút eltérését egy hipotetikus (Y C ) centrális értéktől, akkor ezen eltérések összege akkor lesz minimális, ha a centrális érték a medián: min 2 t Dv D,W kz{pá. A LAD becslés ennek megfelelően célfüggvényként az abszolút eltérések összegét minimálja, más szóval azt a paramétervektort szolgáltatja eredményként, amely mellett a reziduumok abszolút értékének összege minimális. Emlékeztetőül az OLS becslés valamennyi megfigyelésre a centrális értéktől vett négyzetes távolságokat összegzi és minimálja, ami üres modell esetén akkor minimális, ha a centrális érték a számtani átlag: min 2 t D Dv,xWQ Számtani Átlag Az OLS és a LAD tehát egyaránt centrális tendenciát (feltételes centrális értéket) becsül, csak míg az OLS a feltételes várható értéket, addig a LAD a feltételes mediánt modellezi lineáris modell keretében. A linearitásból kifolyólag, a LAD regresszióban a regressziós koefficiensek továbbra is (konstans) marginális hatás tartalommal bírnak, azonban az X j marginális hatás most a mediánra gyakorolt marginális hatásként értelmezendő. A LAD alkalmazása akkor indokolt, ha továbbra is az eredményváltozó centrális értékét akarjuk modellezni, azonban a mintában extrém megfigyelések találhatóak, amelyek az OLS becslést nem statisztikai értelemben véve eltorzítják. A LAD robosztussága az outlier problémára abból a jól ismert tényből fakad, amely szerint a számtani átlag érzékeny az extrém értékekre, a medián azonban nem. Robusztus becslés igénye esetén tehát kézenfekvő a feltételes centrális értéket nem az átlagra, hanem a mediánra regresszálni, és az OLS helyett a LAD módszert alkalmazni. 66

76 A kvantilis regresszió A kvantilis regresszió a medián regresszió általánosítása. Célja, hogy az előre meghatározott tau rendű kvantilisre (Q τ ) becslést adjon X feltétele mellett. A tau=0.5 a medián regresszió esete. A kvantilis regresszió módszertana a medián regressziónál alkalmazott LAD becslésből indul ki. Ugyanúgy a reziduumok abszolút értéke van a fókuszpontban. A reziduum most a megfigyelt Y és a becsült c! kvantilis közötti eltérésként értelmezendő. Az OLS reziduumoktól (amelyek a várható értéktől vett eltérést becslik) való megkülönböztetés végett, a LAD reziduumokat diff i szimbólummal jelöljük a továbbiakban. Bár a kvantilis regresszió becslése során a reziduumok abszolút értékét vesszük alapul, azonban a minimálandó célfüggvény az egyszerű LAD becsléssel szemben most az abszolút eltérések súlyozott összege. A súlyozás célja a LAD egyenesnek a megfelelő kvantilishez húzása. Ennek érdekében a pozitív eltérések tau-val, a negatív eltérések pedig (1-tau)-val szorzódnak, utóbbiak értelemszerűen mínusz előjellel ellátva. Mindez azt eredményezi, hogy tau>0.5 esetén a LAD egyenes felfelé, míg tau<0.5 esetén lefelé tolódik. Az alapgondolat tehát az, hogy mivel távolságok összegét minimáljuk, ezért az adott kvantilishez képest az eloszlás extrém irányába eső megfigyeléseket nagyobb súllyal büntessük. Nézzük például az Y eloszlásának alsó és felső decilis becslését X függvényében. A felső decilis esetében a tau=0.9 rendű kvantilisre vagyunk kíváncsiak. Ennek megfelelően a pozitív hibát jobban büntetjük, mint a negatív hibát, mivel előbbi az, amely most az eloszlás széle felé eső megfigyeléseket jelenti. A keresett kvantilis rendjének megfelelően, a pozitív hiba 0.9-el, míg a negatív 0.1 súlyozódik a célfüggvényben. A negatív hibánál természetesen megjelenik a (-1) szorzótényező az előjelváltás érdekében. Az alsó decilis esetén a helyzet fordított. Itt a tau=0.1 rendű kvantilist keressük X feltétele mellett. Az eloszlás extrém irányába eső Y megfigyeléseket most a negatív hiba reprezentálja, amely (-1)(0.9)-el súlyozódik. (A (-1) ismét az előjelváltás miatt szükséges.) A pozitív hiba súlya jelen esetben 0.1. A kvantilis regresszió alkalmazásának praktikus célja, hogy megőrizzük az eloszlás extrém széleinek az információit. Erre általában akkor van szükség, ha a centrális tendencia nem adekvát az Y-X kapcsolat leírására a rezidumok volatilis szóródásából kifolyólag. Visszautalva az esettanulmányunkra, láttuk, hogy az élelmiszerkiadások a jövedelem függvényében egy egyre szélesedő pontfelhő mentén alakulnak. A várható értéket becslő OLS modell a jövedelem növekedésével így egyre kevésbé alkalmas önmagában az élelmiszerfogyasztás jellemzésére. Szükséges az Y-t szegmensenként (kvantilisenként) regresszálni a megbízhatóbb előrejelzés és hatáselemzés végett. Ugyanakkor, ha a modell homoszkedasztikus és az Y szóródása stabil, akkor a kvantilis regresszió redundánssá válhat, mivel a c! regressziós egyenes az OLS egyenes egyszerű eltolásaként manifesztálódik. 67

77 A kvantilis regresszió alkalmazása az élelmiszer-fogyasztás modellezésére A dia az illusztratív esettanulmányunkra mutatja be a kvantilis regresszió alkalmazását. A feladat továbbra is a háztartások élelmiszer-kiadásának a modellezése. A konzisztencia megőrzése végett a magyarázó változók köre változatlan: jövedelem, taglétszám és a háztartásfő kora. Az előbbiekben megállapítottuk, hogy a heteroszkedaszticitás miatt az élelmiszer-fogyasztás eloszlásának extrém széleihez kapcsolódó információ figyelembe vétele indokolt. A regressziós output tábla 5 különböző rendű kvantilis regresszió eredményét összegzi: alsó decilis (tau=0.1), alsó kvartilis (tau=0.25), medián (tau=0.5), felső kvartilis (tau=0.75) és felső decilis (tau=0.9) regresszió. A paraméterek mellett megjelenik a koefficiensek 90 százalékos konfidencia intervalluma. Vegyük észre, hogy a konfidencia intervallumok nem szimmetrikusak a koefficiensekre, számításuk ugyanis nem az OLS-nél megszokott coeff ± s.e.(coeff)*critical value módon történik. Ez a kvantilis regressziónál adottság. Megvizsgálva a különböző tau rendhez tartozó koefficienseket két megállapítást tehetünk. Egyrészt, a magasabb rendű kvantilisek nagyobb tengelymetszettel rendelkeznek, azaz magasabbról indulnak. Ez persze nem meglepő. Sokkal érdekesebb, hogy a meredekségi koefficiensek is növekednek a kvantilis rendjével párhuzamban. 1 (Az egyetlen kivétel a háztartásfő kora koefficiens.) Ez összhangban van a táguló Y pontfelhőre tett megfigyelésünkkel. A két centrális tendencia összehasonlítása végett, a dián felidéztük a korábbi OLS becslés eredményét. Látható, hogy a LAD (medián) regresszió eredménye jelentősen különbözik az OLS regresszió eredményétől a konstans és a HFkora koefficiens esetében. Ez az outlier problémára utal. Az OLS becslést valószínűleg extrém megfigyelések torzítják. A GRETL programcsomag egy igen hasznos funkciója, hogy a tau-kvantilisek adott sorozatának (pl. tau= 0.1, 0.25, 0.5, 0.75, 0.9 ) egyidejű becslésekkor kérésre a tau függvényében ábrázolja az egyes koefficienseket, a hozzá tartozó konfidencia intervallummal egyetemben. A diagramon megjelenik a vonatkozó OLS eredmény is. Ez szemléletes eszköze annak, hogy megállapítsuk, mennyire ad jó becslést az OLS. Amennyiben ugyanis a a különböző tau-hoz becsült béták az OLS béta konfidencia-sávjába esnek, akkor nincs különösebb oka, hogy ne bízzunk meg az OLS által prediktált centrális tendenciában. Látható, hogy esetünkben nem ez a helyzet. Az ábrázolt jövedelem koefficiensek a medián regresszió esetét leszámítva szignifikánsan különböznek az OLS értéktől. 68

78 Bevezetés Kategória kimenetű eredményváltozó előre definiált kategóriái közül a legvalószínűbb előrejelzése magyarázó változók értékeinek az ismeretében klasszifikálási feladatot jelent. A kategóriák száma kettőnél több is lehet, és a predictorok száma is több lehet egynél, tetszőlegesen. A módszer a kategóriák a priori szubjektív valószínűségeit vezeti át objektív a kategóriák környezetére vonatkozó pótlólagos információkra támaszkodva a posteriori valószínűségekbe, és a maximális posterior valószínűséggel bíró kategóriát adja meg mint előrejelzést. A priori modell alatt az X predictor változók ismerete nélkül előrejelző tehát konstans előrejelzésű null modellt, a posteriori modell alatt pedig a predictorok értékének és eloszlásának az ismeretében átskálázott posterior valószínűségek alapján előrejelző modellt értjük. Az a priori valószínűségből az a posteriori valószínűségbe való átmenet matematikai eszköze a Bayes-elv alkalmazása. A klasszifikáció regressziós statisztikai technikákkal is megoldható, jelen fejezet a rendelkezésre álló módszerek közül a probit regresszió alkalmazását ismerteti. 69

79 A klasszifikációs feladat Célunk adott vállalkozás működési állapotának előrejelzése mérleg és eredményadatai alapján. Az egyszerűség kedvéért előbb csak egy magyarázó változót kezelünk, a likviditás X színvonalát, amit később bővítünk a jövedelmezőség szintjével. A döntési feladat környezete, lépései a következők: Definiáljuk a lehetséges kategóriák körét: Példánkban a vállalkozás működése két kimenettel: Csőd, vagy Működés, három kimenettel: Csőd, Negatív saját tőke melletti, Pozitív saját tőke melletti működés. Általában a kategóriák futó indexe: g, a konkrét csoport azonosítója: G, számosságuk pedig: m. Két csoportot véve, feltevés szerint a likviditás szintje diszkriminálja a Csőd-Működés csoportokat. Ezért megfigyeljük a vállalkozás X likviditását. Kézenfekvő megoldás elhatárolni mindazon vállalkozásokat, akik adóssága éppen X=X, majd számolni e körben a Csőd-Működés gyakorisági megoszlásokat, és Posterior valószínűségekként kezelni azokat. Végül a klasszifikálandó vállalkozást a legmagasabb posterior valószínűségű csoporthoz rendeljük. 70

80 A Bayes döntési környezet Kétcsoportos esetet tárgyalva, mindkét esetben a normális eloszlás sűrűségfüggvényét használjuk a két L X likelihood kalkulálásához. A két csoport neve rendre: 1) Csődbe ment, 2) Működik. A sűrűségfüggvény matematikai formuláját az L(X) képlet, paramétereit pedig a legend box mutatja. Az alacsonyabb várható értékű (piros) eloszlás jelzi a Csőd-csoportot. Mű és Szigma a csoport-átlagok és szórások, melyek egyértelműen megadják a csoport-specifikus sűrűségfüggvények alakját. Hangsúlyos, hogy a két harang-görbe varianciája eltérő, így alakjuk is eltérő. 1. A priorok jelen esetben a relatív gyakoriságok, rendre: Csőd=20%, Működés=80%. 2. A likviditás szintje most az egyedüli predictor változó: X = forgóeszköz / rövid lejáratú kötelezettség. 3. Olyan cégeket minősítünk, ahol a Likviditás értéke egyöntetűen: X = L X az X = 0.5 pontban kalkulálja a Likelihood feltételes értékét. Működés esetén L(0.5) Működés=0.228, melynek jelentése: a Működésen belül a 0.5±0.005 likviditás relatív gyakorisága 0.01*0.228 (a kijelölt téglalap területe), melyből a százalékos relatív gyakoriság éppen a Likelihood értéke, azaz 0.228%. Ezt szorozva a 0.8 prior valószínűséggel kapjuk a 0.8*0.228=0.183 Prior*Likelihood értéket. Ennek statisztikai értelme, hogy 100 céget tekintve olyan van, mely működik és a likviditása éppen 0.5. Csődesetben L(0.5) Csőd=0.967, melynek jelentése: a Csőd csoporton belül a 0.5±0.005 likviditás relatív gyakorisága 0.01*0.967 (az analóg, de nem ábrázolt téglalap területe), melyből a százalékos értelmű relatív gyakoriság Likelihood értéke 0.967%. Ezt szorozva a 0.2 prior valószínűséggel kapjuk a 0.2*0.967=0.193 Prior*Likelihood értéket. Ennek statisztikai értelme, hogy 100 céget tekintve olyan van, mely csődbe ment és éppen 0.5 a likviditása. Csoportonként összegezve a Prior*Likelihood értékeket, kapjuk, hogy 100 vállalkozás között bír 0.5 Likviditási szinttel. Végül a 0.193/0.376=0.514 megoszlás adja a Csőd-esemény posterior valószínűségét. Mivel a Csőd-esemény posterior valószínűsége magasabb, mint a működésé, ezért az X=0.5 céget likviditása alapján ebbe a csoportba klasszifikáljuk. 71

81 A posterior valószínűségek meghatározása A valószínűségek számításának lépései a következők: 1. Rögzítjük a prior valószínűségeket, 2. Minden csoportban megadjuk a Likelihood típusát és paramétereit, 3. Megfigyeljük a klasszifikálandó X* értéket, 4. Kalkuláljuk X* Likelihoodját minden csoportban, 5. Képezzük minden csoportban a Prior*Likelihood értéket, 6. Képezzük a Prior* Likelihood értékek százalékos megoszlásait, 7. A megoszlásokat posterior valószínűségként kezeljük, 8. Az X* megfigyelést a legnagyobb posterior kategóriába klasszifikáljuk. 72

82 Kétcsoportos posterior számítás kvadratikus klasszifikációs függvények alapján Kétcsoportos esetet tárgyalva, mindkét esetben a normális eloszlás sűrűségfüggvényét használjuk a két L X likelihood kalkulálásához. A két csoport neve rendre: 1) Csődbe ment, 2) Működik. Mű és Szigma a csoport-átlagok és csoport-szórások, melyek egyértelműen megadják a csoportspecifikus sűrűségfüggvények alakját. Hangsúlyos, hogy a két harang-görbe varianciája eltérő, így alakjuk is eltérő. A priorok rendre: Csőd=20%, Működés=80%. A likviditás szintje az egyedüli predictor változó: X = forgóeszköz / rövid lejáratú kötelezettség. Olyan cégeket minősítünk, ahol a Likviditás értéke X* = 0.5. L X* az X* = 0.5 pontban kalkulálja a Likelihood feltételes értékét. Csőd esetben ez 0.967, amelynek a 0.2 prior valószínűséggel való szorzata adja a 0.2*0.967=0.193 Prior*Likelihood értéket. Analóg módon számoljuk a Működik csoport Prior*Likelihood értékekét. Csoportonként összegezve a Prior*Likelihood értékeket, kapjuk, hogy 100 vállalkozás között bír 0.5 Adósság szinttel, és így a 0.193/0.376=0.514 adja a Csőd posterior valószínűségét. Kvadratikus klasszifikációs függvények alkalmazása A posterior számítását könnyítendő, a klasszifikációs függvény C group értéke a log(prior*likelihood) érték számítására szolgál: C = Ln(Prior*Likelihood) = ln(prior) + ln(likelihood). Ebből következően a Posterior által igényelt Prior*Likelihood érték az Exp(C) módon adódik. Normális eloszlású X predictor esetén a Likelihood logaritmusa X tekintetében egy másodfokú függvény mentén alakul: C 0 +C 1 *X+C 2 *X 2. A C 0 értéke a Likviditástól nem függő konstans. C 1 a lienáris tag együtthatója, C 2 pedig a kvadratikus tag együtthatója. A függvény használata: megadva az X*=0.5 értéket, számítjuk a függvény értékét minden csoportban. A Csőd-csoportban a klasszifikációs függvény értéke. Ezt anti-logaritmálva Exp(-1.643)=0.193 a Prior*Likelihood érték. Innen a Posterior tartalmú megoszlások kalkulálása értelemszerű. Figyeljük meg, hogy az X tekintetében konstans tag két hatás összege: ln(prior)+c 0. 73

83 Kétcsoportos posterior számítás lineáris klasszifikációs függvények alapján Kétcsoportos esetet tárgyalva, mindkét esetben a normális eloszlás sűrűségfüggvényét használjuk a két L X likelihood közelítéséhez. A két csoport neve rendre: 1) Csődbe ment, 2) Működik. Mű és Szigma a csoport-átlagok és csoport-szórások, melyek egyértelműen megadják a csoport-specifikus sűrűségfüggvények alakját. Hangsúlyos, hogy a két harang-görbe varianciája most azonos, így alakjuk egybevágó. A priorok rendre: Csőd=20%, Működés=80%. A likviditás szintje az egyedüli predictor változó: X = forgóeszköz / rövid lejáratú kötelezettség. Olyan cégeket minősítünk, ahol a Likviditás értéke X*=0.5. L X* az X*=0.5 pontban kalkulálja a Likelihood feltételes értékét. Összhangban az előzőekkel a Csőd esetben a Likelihood feltételes értéke 0.656, amelynek a 0.2 prior valószínűséggel való szorzata adja a 0.2*0.656=0.131 Prior*Likelihood értéket. A Működik csoport Prior*Likelihood értéke analóg. Összegezve a Prior*Likelihood értékeket, kapjuk, hogy 100 vállalkozás között bír 0.5 Adósság szinttel, és így a 0.131/0.264=0.497 adja a Csőd posterior valószínűségét. Most az X=0.5 vállalkozást Működőként klasszifikáljuk! Lineáris klasszifikációs függvények alkalmazása A posterior számítása egyszerűsíthető, ha a csoportok varianciái egyenlők. Vegyük észre, hogy példánkban mindkét szórás egyaránt 0.6, tehát a kvadratikus koefficiens mindkét csoportban egyaránt C 2 = -1/(2*0.6 2 ) = , így a klasszifikációs értékhez való hozzájárulása is értelemszerűen egyenlő értéket eredményez, nevezetesen: -1.39*0.5^2. E kvadratikus tag elhagyásával kapjuk a lineáris (C 0 +C 1 *X) klasszifikációs függvényt, mely (kizárólag a szórások egyezősége esetén) ugyanazon Posterior valószínűségeket eredményezi, mint a kvadratikus függvény. Ezen lineáris klasszifikációs érték a Csőd csoportban , a Működő csoportban pedig Láthatóan a Posterior valószínűség a kvadratikus tag elhagyásával nem változott, mert a két szórás egyaránt Szigma=0.6, és így a posterior hányados formulája egyszerűsíthető a kvadratikus hatásokkal. 74

84 Háromcsoportos kétváltozós posterior számítás normalitási feltevés mellett A csoportok számát háromra bővítve, mindhárom csoportban a normális eloszlás sűrűségfüggvényét használjuk a klasszifikáláshoz, ahol a három csoport rendre: 1) Csődbe ment, 2) Negatív a saját tőkéje, 3) Pozitív a saját tőkéje. Kettőre bővítve, és megváltoztatva a predictorok körét, az adósságszint és a jövedelmezőség a predictor változók definíciója: X1: adósság = kötelezettség / eszköz, X2: jövedelmezőség = eredmény / eszköz. Olyan cégeket minősítünk, ahol ezek értéke rendre: X1 =1.5 és X2 =0.1. A priorok jelen esetben a relatív gyakoriságok: 5%, 10% és 85%, és a Mű és Szigma csoport-átlagok és csoport-szórások egyértelműen megadják a csoport-specifikus sűrűség függvény alakját. L X az X=1.5 és X=0.1 pontokban adja a Likelihood feltételes értékeit, a predictornak megfelelően: 1. Csőd_adósság esetben a Likelihood 0.084, amely szerint a Csőd populáción belül az 1.5±0.005 adósság relatív gyakorisága százalékban 0.084%. 2. Csőd_jövedelmezőség esetben a Likelihood 0.432, amely szerint a Csőd populáción belül az 0.1±0.005 jövedelmezőség relatív gyakorisága százalékban 0.432%. Csődesetben az együttes, független likelihood a két csoportlikelihood szorzata: 0.084*0.432=0.036, tehát a megfelelő csoportonkénti Likelihood értékek szorzata. Ezt súlyozva a 0.05 prior valószínűséggel kapjuk a 0.05*0.036= ún. Naive-Bayes Prior*Likelihood értéket. Ennek statisztikai értelme, hogy céget tekintve olyan cég van, mely csődbe ment és 1.5 az eladósodottsága, és egyidejűleg 0.1 a jövedelmezősége. Analóg módon számoljuk a többi csoport megfelelő jellemzőit. Összegezve a csoportonkénti Prior*Likelihood értékeket, kapjuk, hogy vállalkozás között bír az előrejelzendő kovariánssal. A /0.0112=0.161 megoszlás a Csőd posterior valószínűségét adja. Lévén a Pozitív Saját Tőke posterior valószínűsége a legmagasabb, az X=[1.5, 0.1] céget ebbe a kategóriába klasszifikáljuk. 75

85 76

86 77

87 Probit regresszió A probit regresszió célja szintén az Igen/Nem kategóriák egyikének az előrejelzése, feltételes valószínűség alapján, X predictor változók értékeinek az ismeretében. A modell rokon a logit modellével, a módszertan a feltételes valószínűség eloszlástípusában különbözik. A feltevés egy latens, másképpen index-változó létezése, melynek skáláján extrém alacsony érték inkább a 0 (Nem), és extrém magas érték inkább az 1 (Igen) esemény bekövetkezésére utal. Maradva a csődmodell példánál, a latens index-változó neve a Csődhelyzet, ami közvetlenül nem mérhető. Feltesszük, hogy van egy kritikus Cut_Csődhelyzet érték, amit meghaladva a kimenet Igen (1), egyébként a kimenet Nem (0). A Nyereség és Adósság szint predictorok alkalmazásával a csődhelyzet modellezett értéke: Csődhelyzet(X) = Alfa + Béta1*Nyereség + Béta2*Adósság + u. Feltételezhetően Béta1<0 és Béta2>0. Más szóval, alacsonyabb a csődhelyzet, ha magasabb a nyereség, és magasabb a csődhelyzet, ha magasabb az adósságszint. Eredményképp mi ebből annyit látunk, hogy a vállalkozás adott Nyereség és Adósság kombináció mellett Igen vagy Nem kimenetű. E feltevés mellett minden olyan Cut-értékre, mely kisebb mint a kalkulált Csődhelyzet(X), az előrejelzés: Igen(1). Ezért az Igen(1) esemény valószínűsége: Pr(1 X) = Pr( Cut < Csődhelyzet(X) ). A probit modell a Pr(1 X) valószínűséget a standard normális eloszlás Φ(.) eloszlásfüggvénye szerint kalkulálja a Csődhelyzet(X) pontban: Pr(1 X)_Probit = Pr( Cut < Csődhelyzet(X)) =Φ(Csődhelyzet(X) ). A paraméterbecslés a Pr(1 X) és Pr(0 X) valószínűségek mintaelemeknek megfelelő választásával a Maximum Likelihood módszerrel történik. A fenti gondolatmenet a logit modellre is alkalmazható. A logit regresszió a Pr( Cut < Csődhelyzet(X) ) valószínűséget a logisztikus eloszlás eloszlásfüggvénye szerint számítja: Pr(1 X)_Logit = Pr( Cut < Csődhelyzet(X) ) = 1 / [ 1+ exp(-csődhelyzet(x)) ]. 78

88 Probit számítások Az összehasonlítás végett a 100 elemű Csőd-kimenet adatállományát elemezzük, melyek között 14 a Csőd(1) kimenet. Az index-változó becsült lineáris predictora: Csődhelyzet = Nyereség Adósság. A [Nyereség = -4, Adósság = 2] vállalkozás becsült Csődhelyzete a standard normális z skálán: z = (-4) =0.855, Tehát a feltételes csődvalószínűség: Pr( Csőd Nyereség = -4, Adósság = 2 ) =Φ(0.855) = 0.804, ahol Φ(.) a standard normális eloszlás eloszlásfüggvénye. Lévén ez a valószínűség két vállalkozásra vonatkozik, a következő valószínűség pedig 4 vállalkozásra, stb., a minta likelihoodja: L=0.804^2 * 0.693^4 * * 0.000^2 a fenti 3 koefficiens mellett maximális. A Goodness-of-Fit illeszkedésvizsgálatot most a Pearson Chi2 teszt alkalmazásával végezzük el, mely az Igen(1) Respons kimenetek megfigyelt és várt gyakoriságainak a Chi2 távolságát teszteli: Chi2=Sum_(Observed Expected)^2 / Expected = , DF=(10-3) szabadsági fokkal, mely p=0.000 szignifikancia értéket eredményez. A távolság tehát a minta és a modell között jelentős, a jó illeszkedés hipotézisét elvetjük. A z-score értékét adó lineáris predictor koefficienseinek az abszolút értékéhez nem, csak az előjeléhez tudunk statisztikai tartalmat, jelentést fűzni. 79

89 80

90 Bináris regresszió Az Igen/Nem kimenetű Y={1,0} bináris módon kódolt eredményváltozó előrejelzése a statisztikai feladat. Az Y változó értéke csak az 1 (Igen) vagy 0 (Nem) értékek egyikét veheti fel. Az Y=1 eset valamely tulajdonság meglétét, az Y=0 eset pedig a hiányát jelzi. A példa szerint Y=1 ha a cég Csődbe ment, és Y=0 egyébként. Az adatállomány 100 vállalkozás Y sorsát vizsgálja az X1 jövedelmezőség és az X2 eladósodottság ismeretében, gyakorisági sorba rendezve. A Nyereség és az Eladósodottság a Csődesemény magyarázó változói (predictorai) melyek diszkretizált szintjeit a mintában az X1 és X2 oszlopok közlik. Azt, hogy az X1_X2 párok értsd kovariánsok hány cég esetén következtek be, az f gyakorisági oszlop mutatja. Az X1 szint a lehetséges [-10, +10] intervallumon közli a megfigyelt értékeket, míg X2 szintjei a [0, +10] skálára vonatkoznak. Az Y oszlop közli, hogy csődbe mentek-e az X kovariánshoz tartozó cégek vagy sem. Mintánkban adott X kovariánshoz tisztán csak Csőd vagy Működő cégek tartoznak, de módszertanilag ez közömbös. Feladat, hogy a rendelkezésre álló információk alapján előrejelezzük az Y=1, vagy Y=0 értékek egyikét. Az előrejelzés két lépésből áll: 1) előbb meghatározzuk az X predictor ismeretében az Y=1 kimenet Pr(1 X) feltételes valószínűségét, 2) rögzítve egy kritikus C (Cut-off-value) döntési szintet e feltételes valószínűség alapján jelezzük előre az Y=1 értéket, ha az meghaladja a kritikus C értéket, vagy az Y=0 értéket egyébként. A csőd feltételes Pr(1 X) valószínűsége röviden: P X. Ez az érték 80.4% az első cégcsoportnál, 68.67% a másodiknál, stb. Ha C=0.3, akkor azokra akik ezt meghaladják az előrejelzés Y=1, egyébként Y=0. Ezt közli a C=0.3 oszlop. Ha C=0.5, akkor megfelelően módosul az előrejelzés. Látható, hogy mely X1_X2 variánsoknál követtünk el és milyen irányú hibákat. Jelen esetben az 1_helyett_0 hiba pénzügyileg veszélyesebb, kerülendőbb, mert a meghitelezett, de csődbement Cég nem fizeti vissza a hitelt. 81

91 A klasszifikációs mátrix A klasszifikációs tábla egy gyakorisági típusú tábla, mely az alkalmazott klasszifikációs modell empirikus ellenőrzését segíti. A tábla oldalrovatában és fejrovatában azonos sorrendben a vizsgált kategóriák kódjai szerepelnek (most 1;0 és 1;0), a megfelelő cellákban pedig az előrejelzés helyességének [(1_1),(0_0)], vagy hibájának [(1_0),(0_1)] gyakoriságai (Number) szerepelnek. A főátló a korrekt klasszifikációk gyakoriságokat méri. gyakoriságait publikálja, míg a mellékátló az inkorrekt A klasszifikációs tábla ismerete több alapvető kérdés megválaszolásának az eszköze: 1. Más és más cut-value más és más klasszifikációs mátrixokat eredményez. 2. Klasszifikációs mátrixok sorozata ismeretében rögzíthetjük egy végső előrejelző modell kritikus cut-value döntési szabályát. 82

92 Logit regresszió A Csőd feltételes valószínűségét az ún. odds hányados függvényében fejezzük ki, az alábbi lépésekben: 1. Legyen (1 - P X ) = Q X a működés feltételes valószínűsége. 2. Felírjuk a P X valószínűséget változatlanul a P X = P X / ( P X + (1 - P X ) ) formában. 3. Egyszerűsítve a törtet osztva a számlálót és a nevezőt is a Q X működési valószínűséggel jelenik meg a számlálóban és a nevezőben is a P/Q tartalmú ún. odds érték (két valószínűség hányadosa). Ha ez pl. 4, akkor a csőd valószínűsége négyszerese a működés valószínűségének. 4. Ha az odds értéke ismert, akkor a csőd valószínűsége: odds / (1+odds), a működésé pedig 1/ (1+odds). Az odds a P=Q=0.5 esetre aszimmetrikus: 1. ha P < Q beszorul a (0,1) intervallumra, 2. ha P > Q akkor viszont az értéke végtelen is lehet. Ezért a modell feltevése szerint az odds a predictorok tekintetében exponenciálisan, logaritmusa pedig lineárisan, tehát log-lin modell szerint alakul. Az odds kalkulálása igényli az α és β paraméterek értékeit. A log(odds) mennyiség megnevezése logit, innen a módszer neve: logit regresszió. A csőd valószínűsége a regressziós koefficiensek és az X predictorok értékeinek az ismeretében előbb a logit majd az odds értékek kalkulálásán át számíthatóvá válik. 83

93 Elemzés A paraméterek értelmezése a következő. A negatív nyereség koefficiens azt jelenti, hogy a nyereség emelkedése csődesélyt csökkentő magyarázó változó. Az odds ratio (OR) odds arány mutató tartalma: ha a jövedelmezőség egy egységgel magasabb szintű c.p., akkor ennek eredményeképpen az odds Exp(-0.63)=0.53 arányban inflálódik, tehát 47 százalékkal csökken. Ez látszik a következő táblázat első két sorában is, mert ott csak a nyereség szint javul éppen egy egységnyit, miközben az adósság szintje változatlan, és ekkor 47%-kal csökken az odds a értékre. Analóg módon, az eladósodás egységnyi szintű emelkedése c.p. közel 10-szeres csőd-odds emelkedést okoz. A második képlet számítja az X predictor marginális (X+1) hatását magára a csőd valószínűségre c.p. Itt %ponttal csökken a csőd valószínűsége, ha a NY=3 és az A=3 együttes szintjéről a Nyereség egy osztályt javul. A logit modell definíció szerint magában foglalja a heteroszkedaszticitás jelenségét, mivel más és más X szintek mellett (alcsoportokban) a feltételes P X Q X variancia értelemszerűen különböző. 84

94 Paraméterbecslés A táblázatban újra megjelennek a korábban már bemutatott paraméterek számszerű értékei: a tengelymetszet, b 1 nyereség, b 2 pedig az adósság koefficiensek. Ezek alkalmazásával számítjuk a Csőd P X valószínűségeket az alábbi módon. Az első kovariáns esetén az ln(odds) érték, vagyis a Logit számítása: Logit = (-0.63)*(-4) *2 = ami egyben az odds logaritmusa. Ebből az Odds=Exp(1.413)= érték adódik. Az Odds tartalma, hogy ezen X1= -4, X2= 2 feltétel mellett a csőd valószínűsége 4.11-szerese a működés valószínűségének. A Csőd P X valószínűsége ezek birtokában: Odds/(1+Odds)=4.1082/5.1082=0.8042, a működés valószínűsége pedig 1/(1+Odds)= A Csődvalószínűségek a regressziós koefficiensek változtatásával változnak. A paraméterek becslése a Maximum Likelihood módszerrel történik. Az L X oszlop szelektálja a Csődvalószínűséget a csődbement cégek esetén és a Működés valószínűségét a működő cégek esetén, tehát mindenkire a saját mintabeli sorsának a valószínűségét. Így kapunk 10 db különböző kovariáns valószínűséget, mely 10 különböző osztályt valószínűsít, de 100 cégre vonatkozik, súlyozottan. Előbb osztályon belül összeszorozva az L X értékét annyiszor ahány cég van az osztályban, majd mind a 10 osztály L f értékét összeszorozva, az eredmény egy 100-tényezős szorzat, aminek a számított végeredménye L = 1.233E-12, vagyis a minta együttes bekövetkezésének a Likelihoodja (valószínűsége). Ha a koefficiensek változnak, akkor a minta likelihoodja is elmozdul. Optimális megoldás azon koefficienseket választani, melyek mellett a Likelihood maximális. A becslés iteratív módszert igénylő technika. Numerikus paraméterbecslési, majd modellszelekciós és illeszkedésvizsgálati alkalmazások érdekében érdemes a Likelihood maximálása helyett a -2ln(Likelihood) célfüggvény minimálása. Példánkban a modell konvergált -2ln(Likelihood) értéke:

95 Pszeudó R 2 : Heurisztikus illeszkedésvizsgálat A modell mintához való illeszkedésének a jóságát a célfüggvény konvergált értéke jellemzi, mely esetünkben -2*ln(L) = A -2*ln(L) metrika végletesen legfeljebb a perfekt előrejelzésű, szaturált modelléig csökkenhet, ami esetünkben 0, mert ekkor L X =1 minden kovariánsra, tehát a szorzatuk is 1, és így ln1=0. A Null modell esetén pedig, ami X tekintetében üres: -2lnL= -2(14*ln *ln0.86)=81.0. A két extrém modell közötti úton a becsült current modell így javulást eredményez. R2 = ( ) / 81 = 32.3% 86

96 A Wald teszt alkalmazása Paramétereikben egymásba ágyazott modellek szelektálásának egyféle hipotézis vizsgálati eszköze a Wald-teszt, mikor a paraméterbecslés a ML módszerrel történt. A Wald teszt a H0 null és a H1 alternatív hipotézisek közötti standardizált Chi2 távolságot számítja és teszteli. A W_Chi2 teszt szabadsági foka a megszorítások száma. Parciális H0:Béta j =0 hipotézis esetén a koefficiens eltérését a zéró hipotézistől osztja (standardizálja) a koefficiens standard hibájával, majd ezt négyzetre emeli. A Likelihood Ratio teszt alkalmazása Paramétereikben egymásba ágyazott modellek szelektálásának másik hipotézis vizsgálati eszköze a LRteszt, mikor a paraméterbecslés a ML módszerrel történt. A H0 hipotézisben tett megszorítások egy a paramétereiben korlátozott M0 modellt eredményez, mely szükségszerűen rosszabb L0 Likelihood értéket ad, mint a paramétereiben H1 hipotézis alatt nem korlátozott M1 modell L1 Likelihood értéke. H0 és H1 egyetértését vagy ellentmondását L0 és L1 viszonya minősíti. E távolság megítélésének relatív eszköze az LR = L0 / L1 likelihood-ratio statisztika, mely szükségszerűen 0 és 1 közötti érték. Nagymintás esetben a -2ln(LR) = (-2lnL0) (-2lnL1) statisztika Chi2 eloszlású H0 érvénye mellett, annyi DF szabadsági fokkal, amennyi korlátozást tettünk a H0 és H1 modellek megkülönböztetése érdekében. A Chi2 metrika a H0 és a H1 hipotézisek egymástól való távolságát méri. Speciális H0 hipotézisek: 1. A predictor X változók egy m számú (j+1, j+2,,j+m) köre nem releváns, paramétereik értéke egyöntetűen zéró: elhagyásuk nem ront jelentősen a jelen modellen. 2. Adott X(j) predictor nem releváns, paramétere zéró: elhagyása nem ront jelentősen a jelen modellen. 3. Modell függetlenség (Independence): valamennyi X predictor irreleváns, paramétereik értéke egyöntetűen zéró : jelen modell előrejelzése lényegesen nem jobb mint a Null modellé. 4. Modell illeszkedés (Goodness-of-Fit): a jelen modell előrejelzése lényegesen nem rosszabb mint a szaturált modellé, ami maga a minta. 87

97 Tesztek: Wald_H0: Béta2 = 0 Wald-Chi2: a ML becslés négyzetes, standardizált távolsága a H0 hipotézistől: [(2.31 0) /1.02 ]^2 = 5.17, p=2.3% szignifikancia értékkel, ami szerint az adósság 5 százalékos döntési szinten releváns, de 1 százalékos döntési szinten irreleváns. A standardizálás a koefficiens négyzetes standard hibájával történik, ami az információs mátrix inverzének megfelelő diagonális eleme: % Confidencia Intervallum_H0: Béta2 = 0 Lévén az OR mutatóra készített 95% CI= Exp(2.31±1.96*1.02)=[1.38; 74.2] nem tartalmazza az 1 értéket, ezért a koefficiensre vonatkozó CI nem tartalmazza a zérót, tehát a H0 hipotézist 5% döntési szinten elvetjük. Likelihood Ratio_H0: Béta2 = 0 A Jövedelmezőség után bevonva az Adósság b2 koefficiensét a modellbe, a -2lnL célfüggvény érték javulása: Improvement_Chi2=( )=6.2, DF=1 szabadsági fokkal, mely p=1.3% szignifikancia értéket eredményez, tehát 5% döntési szinten a H0 hipotézist elvetjük. A konklúzió tehát konform a Wald-tesztével. Likelihood Ratio_Independence: H0: Béta1=Béta2 = 0 Chi2=( )=26.2, DF=2 szabadsági fokkal, p=0.000 szignifikancia értékkel, tehát H0 elvetendő, X1 és X2 valamelyike, vagy mindkettő együtt releváns a Csőd klasszifikálás tekintetében. Likelihood Ratio_Goodness-of-Fit: H0: Becsült 3paraméteres Modell, H1: Szaturált Modell Chi2=(54.8-0)=58.4. Mivel a szaturált modell jelen esetben 10 paramétert igényel (10 különböző kovariáns klaszterezi a mintát) a szabadsági fok DF=10-3=7, ami p=0.000 szignifikancia értéket ad. A Modell Chi2 távolsága a mintától szignifikáns, tehát a modell nem illeszkedik kellően a mintához. Vegyük észre, hogy ha a minta nem lenne klaszterezett, hanem rendre egyedi adatokból állna, a szaturált modell paramétereinek száma 100 lenne, és a konklúzió megfordulna. 88

98 Multinomiális logit regresszió A két Igen/Nem kimenet egyikének a klasszifikálását kiterjeszthetjük kettőnél több kimenet előrejelzésére is. A logit modell alkalmazása kézenfekvő. Az eredményváltozó valamennyi kategóriájának az esélyét egy rögzített, az ún. referencia kategória viszonylatában adjuk meg, majd ezen odds-értékek megoszlási struktúrája adja a vizsgált kategóriák valószínűségeit. A referencia kategória megválasztása tetszőleges, de az eredményváltozó kategóriáinak az egyike. A logit modell alkalmazása a multinomiális klasszifikációs feladatot bináris logit modellekre vezeti vissza: eggyel kevesebb számú bináris logit modell megadására van szükség, mint amennyi az Y kategóriák száma. A referencia kategória odds-értéke értelemszerűen 1, ismerete nem igényel külön logit modellt: A Pr(RefCat X) / Pr(RefCat X) =1 ön-odds tartalmilag a bázis odds. Általában g=1,2,,m számú kategória alkotja az Y függő változó kategóriáit, és többnyire az első, vagy az utolsó sorszámú a referencia kategória. Ha az utolsó, m. kategória a referencia, akkor (m-1) számú Pr(g X)/Pr(m X) odds érték becsülendő, a g=1,2,,(m-1) viszonylatokban: odds(1), odds(2),,odds(m- 1), és odds(m)=1. Ekkor a G-kategória valószínűsége (G=1,2,,m) az odds értékek statisztikai megoszlásai. Például a G=2 kategória valószínűsége: Pr(2 X) = odds(2) / ( 1+ odds(1) + odds(2) + + odds(m-1) ), vagy az utolsó, G=m kategóriáé: 1 / ( 1+ odds(1) + odds(2) + + odds(m-1) ). Mindenkire a saját, mintabeli kategóriájának a valószínűségét kalkulálva képezzük és maximáljuk a Likelihood függvényt. A paraméterbecslés invariáns a referencia kategória megválasztására. 89

99 Multinomiális logit paraméterek Az adatállományt a Budapesti Értéktőzsde (BÉT) 76 tőzsdetag brókercége alkotja, melyek között adott időpontban csődbement 8, rendben működött 57, a többi 11 pedig kérdéses volt, hogy inkább Csődként, vagy rendben Működőként, vagy továbbra is Kérdésesként klasszifikálható? Az Y kategóriák kódolása az adatállományban: Y=0: Működik, Y=1: Kérdéses, Y=2: Csőd, és a referencia kategória: Ref_Cat=Csőd. A klasszifikálás két odds kalkulálását igényli: odds(működő/csőd) és odds(kérdéses/csőd), míg az odds(csőd/csőd)=1. A két számítandó odds két paramétervektor becslésén alapul, ahol a predictorok rendre: X1: Jövedelmezőség, X2: Forgóeszközarány, X3: Saját tőke aránya, X4: Adósság, X5: Eszközök forgási sebessége, X6: Likviditás. A változók skálája %pontban értendő, erre utal név végén a 100. A ML koefficienseket a tábla B oszlopa tartalmazza. Lévén a magyarázó változók száma 6, és Intercept van a modellben, ezért a becsült paraméterek száma: 2*(6+1)=14. Látható, hogy ha az Y kategóriák száma és az X predictorok száma magas, akkor a Multinomiális Logit modell nem bánik takarékosan a becsülendő paraméterek számával. A koefficiensek jelentése más a Működő és a Kérdéses csoportokban: A Forgóeszköz koefficienst tekintve rendre: Exp(0.111)=1.117 és Exp(0.181)= Jelentésüket illetően, ha a Fe 1%ponttal magasabb c.p., akkor a Csődhöz képest a Működés odds 11.7%-kal, a Kérdéses odds pedig szintén a Csődhöz képest 19.8%-kal emelkedik várhatóan. Míg az utóbbi 5%- os döntési szinten szignifikáns, az előbbi hatás nem. E konklúziót követi a 95%-os megbízhatóságú CI melynek határai az utóbbi esetben egyértelműek (>1), míg az előbbi esetben ellentmondóak (<>1). Áttekintéssel látható, hogy a predictorok hatása eltérő attól függően, hogy melyik csoportot vetjük össze a Csőd referencia kategóriával. Az Independence_LR_Chi2 teszt szabadsági foka most DF=2*6=12. 90

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! GAZDASÁGSTATISZTIKA KIDOLGOZOTT ELMÉLETI KÉRDÉSEK A 3. ZH-HOZ 2013 ŐSZ Elméleti kérdések összegzése 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! 2. Mutassa be az

Részletesebben

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Többváltozós lineáris regressziós modell feltételeinek tesztelése I. Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Kvantitatív statisztikai módszerek Petrovics Petra Többváltozós lineáris regressziós

Részletesebben

Többváltozós lineáris regressziós modell feltételeinek

Többváltozós lineáris regressziós modell feltételeinek Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Petrovics Petra Doktorandusz Többváltozós lineáris regressziós modell x 1, x 2,, x p

Részletesebben

Regressziós vizsgálatok

Regressziós vizsgálatok Regressziós vizsgálatok Regresszió (regression) Általános jelentése: visszaesés, hanyatlás, visszafelé mozgás, visszavezetés. Orvosi területen: visszafejlődés, involúció. A betegség tünetei, vagy maga

Részletesebben

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége [GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet A standard lineáris modell

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus

Részletesebben

Statisztika elméleti összefoglaló

Statisztika elméleti összefoglaló 1 Statisztika elméleti összefoglaló Tel.: 0/453-91-78 1. Tartalomjegyzék 1. Tartalomjegyzék.... Becsléselmélet... 3 3. Intervallumbecslések... 5 4. Hipotézisvizsgálat... 8 5. Regresszió-számítás... 11

Részletesebben

A többváltozós lineáris regresszió 1.

A többváltozós lineáris regresszió 1. 2018. szeptember 17. Lakásár adatbázis - részlet eredmény- és magyarázó jellegű változók Cél: egy eredményváltozó alakulásának jellemzése a magyarázó változók segítségével Legegyszerűbb eset - kétváltozós

Részletesebben

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision

Részletesebben

Többváltozós Regresszió-számítás

Többváltozós Regresszió-számítás Töváltozós Regresszió-számítás 3. előadás Döntéselőkészítés módszertana Dr. Szilágyi Roland Korreláció Célja a kacsolat szorosságának mérése. Regresszió Célja a kacsolatan megfigyelhető törvényszerűség

Részletesebben

Korreláció és lineáris regresszió

Korreláció és lineáris regresszió Korreláció és lineáris regresszió Két folytonos változó közötti összefüggés vizsgálata Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi Fizika és Statisztika I. előadás 2016.11.02.

Részletesebben

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre Statisztika I. 11. előadás Előadó: Dr. Ertsey Imre Összefüggés vizsgálatok A társadalmi gazdasági élet jelenségei kölcsönhatásban állnak, összefüggnek egymással. Statisztika alapvető feladata: - tényszerűségek

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria Bódis Emőke 2016. 04. 25. J J 9 Korrelációanalízis Regresszióanalízis: hogyan változik egy vizsgált változó értéke egy másik változó változásának függvényében. Korrelációs

Részletesebben

Lineáris regressziószámítás 1. - kétváltozós eset

Lineáris regressziószámítás 1. - kétváltozós eset Lineáris regressziószámítás 1. - kétváltozós eset Orlovits Zsanett 2019. február 6. Adatbázis - részlet eredmény- és magyarázó jellegű változók Cél: egy eredményváltozó alakulásának jellemzése a magyarázó

Részletesebben

Ökonometriai modellek paraméterei: számítás és értelmezés

Ökonometriai modellek paraméterei: számítás és értelmezés Ökonometriai modellek paraméterei: számítás és értelmezés Írta: Werger Adrienn, Renczes Nóra, Pereszta Júlia, Vörösházi Ágota, Őzse Adrienn Javította és szerkesztette: Ferenci Tamás (tamas.ferenci@medstat.hu)

Részletesebben

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis 1. feladat Regresszióanalízis. Legkisebb négyzetek elve 2. feladat Az iskola egy évfolyamába tartozó diákok átlagéletkora 15,8 év, standard deviációja 0,6 év. A 625 fős évfolyamból hány diák fiatalabb

Részletesebben

Bevezetés a Korreláció &

Bevezetés a Korreláció & Bevezetés a Korreláció & Regressziószámításba Petrovics Petra Doktorandusz Statisztikai kapcsolatok Asszociáció 2 minőségi/területi ismérv között Vegyes kapcsolat minőségi/területi és egy mennyiségi ismérv

Részletesebben

Korrelációs kapcsolatok elemzése

Korrelációs kapcsolatok elemzése Korrelációs kapcsolatok elemzése 1. előadás Kvantitatív statisztikai módszerek Két változó közötti kapcsolat Független: Az X ismérv szerinti hovatartozás ismerete nem ad semmilyen többletinformációt az

Részletesebben

Diagnosztika és előrejelzés

Diagnosztika és előrejelzés 2018. november 28. A diagnosztika feladata A modelldiagnosztika alapfeladatai: A modellillesztés jóságának vizsgálata (idősoros adatok esetén, a regressziónál már tanultuk), a reziduumok fehérzaj voltának

Részletesebben

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre Statisztika I. 1. előadás Előadó: Dr. Ertsey Imre Regresszió analízis A korrelációs együttható megmutatja a kapcsolat irányát és szorosságát. A kapcsolat vizsgálata során a gyakorlatban ennél messzebb

Részletesebben

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok STATISZTIKA 1. Előadás Hipotézisvizsgálatok Tematika 1. Hipotézis vizsgálatok 2. t-próbák 3. Variancia-analízis 4. A variancia-analízis validálása, erőfüggvény 5. Korreláció számítás 6. Kétváltozós lineáris

Részletesebben

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont) VIZSGADOLGOZAT (100 pont) A megoldások csak szöveges válaszokkal teljes értékűek! I. PÉLDÁK (60 pont) 1. példa (13 pont) Az egyik budapesti könyvtárban az olvasókból vett 400 elemű minta alapján a következőket

Részletesebben

5. előadás - Regressziószámítás

5. előadás - Regressziószámítás 5. előadás - Regressziószámítás 2016. október 3. 5. előadás 1 / 18 Kétváltozós eset A modell: Y i = α + βx i + u i, i = 1,..., T, ahol X i független u i -től minden i esetén, (u i ) pedig i.i.d. sorozat

Részletesebben

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre Statisztika I. 8. előadás Előadó: Dr. Ertsey Imre Minták alapján történő értékelések A statisztika foglalkozik. a tömegjelenségek vizsgálatával Bizonyos esetekben lehetetlen illetve célszerűtlen a teljes

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen

Részletesebben

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Matematikai statisztika c. tárgy oktatásának célja és tematikája Matematikai statisztika c. tárgy oktatásának célja és tematikája 2015 Tematika Matematikai statisztika 1. Időkeret: 12 héten keresztül heti 3x50 perc (előadás és szeminárium) 2. Szükséges előismeretek:

Részletesebben

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június GAZDASÁGSTATISZTIKA GAZDASÁGSTATISZTIKA Készült a TÁMOP-4.1.2-08/2/A/KMR-2009-0041pályázati projekt keretében Tartalomfejlesztés az ELTE TátK Közgazdaságtudományi Tanszékén az ELTE Közgazdaságtudományi

Részletesebben

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása HIPOTÉZIS VIZSGÁLAT A hipotézis feltételezés egy vagy több populációról. (pl. egy gyógyszer az esetek 90%-ában hatásos; egy kezelés jelentősen megnöveli a rákos betegek túlélését). A hipotézis vizsgálat

Részletesebben

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat Fogalom STATISZTIKA 8 Előadás Többszörös lineáris regresszió Egy jelenség vizsgálata során általában az adott jelenséget több tényező befolyásolja, vagyis többnyire nem elegendő a kétváltozós modell elemzése

Részletesebben

Regressziós vizsgálatok

Regressziós vizsgálatok Regressziós vizsgálatok Regresszió (regression) Általános jelentése: visszaesés, hanyatlás, visszafelé mozgás, visszavezetés. Orvosi területen: visszafejlődés, involúció. A betegség tünetei, vagy maga

Részletesebben

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió 1. A fizetés (Y, órabér dollárban) és iskolázottság (X, elvégzett iskolai év) közti kapcsolatot vizsgáljuk az Y t α + β X 2 t +

Részletesebben

Hipotézis vizsgálatok

Hipotézis vizsgálatok Hipotézis vizsgálatok Hipotézisvizsgálat Hipotézis: az alapsokaság paramétereire vagy az alapsokaság eloszlására vonatkozó feltevés. Hipotézis ellenőrzés: az a statisztikai módszer, amelynek segítségével

Részletesebben

Diszkriminancia-analízis

Diszkriminancia-analízis Diszkriminancia-analízis az SPSS-ben Petrovics Petra Doktorandusz Diszkriminancia-analízis folyamata Feladat Megnyitás: Employee_data.sav Milyen tényezőktől függ a dolgozók beosztása? Nem metrikus Független

Részletesebben

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető! BGF KKK Módszertani Intézeti Tanszéki Osztály Budapest, 2012.. Név:... Neptun kód:... Érdemjegy:..... STATISZTIKA II. VIZSGADOLGOZAT Feladatok 1. 2. 3. 4. 5. 6. Összesen Szerezhető pontszám 21 20 7 22

Részletesebben

y ij = µ + α i + e ij

y ij = µ + α i + e ij Elmélet STATISZTIKA 3. Előadás Variancia-analízis Lineáris modellek A magyarázat a függő változó teljes heterogenitásának két részre bontását jelenti. A teljes heterogenitás egyik része az, amelynek okai

Részletesebben

Matematikai geodéziai számítások 6.

Matematikai geodéziai számítások 6. Matematikai geodéziai számítások 6. Lineáris regresszió számítás elektronikus távmérőkre Dr. Bácsatyai, László Matematikai geodéziai számítások 6.: Lineáris regresszió számítás elektronikus távmérőkre

Részletesebben

Bevezetés az ökonometriába

Bevezetés az ökonometriába Bevezetés az ökonometriába Többváltozós regresszió: nemlineáris modellek Ferenci Tamás MSc 1 tamas.ferenci@medstat.hu 1 Statisztika Tanszék Budapesti Corvinus Egyetem Hetedik előadás, 2010. november 10.

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria 2016.02.29. A statisztika típusai Leíró jellegű statisztika: összegzi egy adathalmaz jellemzőit. A középértéket jelemzi (medián, módus, átlag) Az adatok változékonyságát

Részletesebben

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1 Statisztika - bevezetés 00.04.05. Méréselmélet PE MIK MI_BSc VI_BSc Bevezetés Véletlen jelenség fogalma jelenséget okok bizonyos rendszere hozza létre ha mindegyik figyelembe vehető egyértelmű leírás általában

Részletesebben

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése 4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól

Részletesebben

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P Fogalom STATISZTIKA 8 Előadás Többszörös lineáris regresszió Egy jelenség vizsgálata során általában az adott jelenséget több tényező befolyásolja, vagyis többnyire nem elegendő a kétváltozós modell elemzése

Részletesebben

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás STATISZTIKA, BIOMETRIA. Előadás Mintavétel, mintavételi technikák, adatbázis Mintavétel fogalmai A mintavételt meg kell tervezni A sokaság elemei: X, X X N, lehet véges és végtelen Mintaelemek: x, x x

Részletesebben

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás STATISZTIKA Hipotézis, sejtés 11. Előadás Hipotézisvizsgálatok, nem paraméteres próbák Tudományos hipotézis Nullhipotézis felállítása (H 0 ): Kétmintás hipotézisek Munkahipotézis (H a ) Nullhipotézis (H

Részletesebben

Matematikai geodéziai számítások 6.

Matematikai geodéziai számítások 6. Nyugat-magyarországi Egyetem Geoinformatikai Kara Dr. Bácsatyai László Matematikai geodéziai számítások 6. MGS6 modul Lineáris regresszió számítás elektronikus távmérőkre SZÉKESFEHÉRVÁR 2010 Jelen szellemi

Részletesebben

Regresszió számítás az SPSSben

Regresszió számítás az SPSSben Regresszió számítás az SPSSben Kvantitatív statisztikai módszerek Petrovics Petra Lineáris regressziós modell X és Y közötti kapcsolatot ábrázoló egyenes. Az Y függ: x 1, x 2,, x p p db magyarázó változótól

Részletesebben

Matematikai statisztikai elemzések 6.

Matematikai statisztikai elemzések 6. Nyugat-magyarországi Egyetem Geoinformatikai Kara Prof. Dr. Závoti József Matematikai statisztikai elemzések 6. MSTE6 modul Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió, többváltozós

Részletesebben

Mérési hibák 2006.10.04. 1

Mérési hibák 2006.10.04. 1 Mérési hibák 2006.10.04. 1 Mérés jel- és rendszerelméleti modellje Mérési hibák_labor/2 Mérési hibák mérési hiba: a meghatározandó értékre a mérés során kapott eredmény és ideális értéke közötti különbség

Részletesebben

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

III. Kvantitatív változók kapcsolata (korreláció, regresszió) III. Kvantitatív változók kapcsolata (korreláció, regresszió) Tartalom Változók kapcsolata Kétdimenziós minta (pontdiagram) Regressziós előrejelzés (predikció) Korreláció Tanuló Kétdimenziós minta Tanulással

Részletesebben

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Korrelációszámítás

Részletesebben

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba Egymintás u-próba STATISZTIKA 2. Előadás Középérték-összehasonlító tesztek Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum

Részletesebben

Több valószínűségi változó együttes eloszlása, korreláció

Több valószínűségi változó együttes eloszlása, korreláció Tartalomjegzék Előszó... 6 I. Valószínűségelméleti és matematikai statisztikai alapok... 8 1. A szükséges valószínűségelméleti és matematikai statisztikai alapismeretek összefoglalása... 8 1.1. Alapfogalmak...

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,

Részletesebben

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása Matematikai alapok és valószínőségszámítás Statisztikai becslés Statisztikák eloszlása Mintavétel A statisztikában a cél, hogy az érdeklõdés tárgyát képezõ populáció bizonyos paramétereit a populációból

Részletesebben

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011. BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011. 1 Mérési hibák súlya és szerepe a mérési eredményben A mérési hibák csoportosítása A hiba rendűsége Mérési bizonytalanság Standard és kiterjesztett

Részletesebben

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév A pirossal írt anyagrészeket nem fogom közvetlenül számon kérni a vizsgán, azok háttérismeretként,

Részletesebben

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai Változékonyság (szóródás) STATISZTIKA I. 5. Előadás Szóródási mutatók A középértékek a sokaság elemeinek értéknagyságbeli különbségeit eltakarhatják. A változékonyság az azonos tulajdonságú, de eltérő

Részletesebben

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz

Részletesebben

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus. Valószín ségelméleti és matematikai statisztikai alapfogalmak összefoglalása (Kemény Sándor - Deák András: Mérések tervezése és eredményeik értékelése, kivonat) Véletlen jelenség: okok rendszere hozza

Részletesebben

Segítség az outputok értelmezéséhez

Segítség az outputok értelmezéséhez Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,

Részletesebben

A leíró statisztikák

A leíró statisztikák A leíró statisztikák A leíró statisztikák fogalma, haszna Gyakori igény az, hogy egy adathalmazt elemei egyenkénti felsorolása helyett néhány jellemző tulajdonságának megadásával jellemezzünk. Ezeket az

Részletesebben

Adatok statisztikai értékelésének főbb lehetőségei

Adatok statisztikai értékelésének főbb lehetőségei Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció

Részletesebben

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 9. Előadás Binomiális eloszlás Egyenletes eloszlás Háromszög eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell 2/62 Matematikai statisztika

Részletesebben

Bevezetés az ökonometriába

Bevezetés az ökonometriába Bevezetés az ökonometriába Többváltozós lineáris regresszió: modellspecifikáció, interakció Ferenci Tamás MSc 1 tamas.ferenci@medstat.hu 1 Statisztika Tanszék Budapesti Corvinus Egyetem Ötödik előadás,

Részletesebben

Kutatásmódszertan és prezentációkészítés

Kutatásmódszertan és prezentációkészítés Kutatásmódszertan és prezentációkészítés 10. rész: Az adatelemzés alapjai Szerző: Kmetty Zoltán Lektor: Fokasz Nikosz Tizedik rész Az adatelemzés alapjai Tartalomjegyzék Bevezetés Leíró statisztikák I

Részletesebben

Populációbecslések és monitoring

Populációbecslések és monitoring Populációbecslések és monitoring A becslés szerepe az ökológiában és a vadgazdálkodásban. A becslési módszerek csoportosítása. Teljes számlálás. Statisztikai alapfogalmak. Fontos lehet tudnunk, hogy hány

Részletesebben

1. A vállalat. 1.1 Termelés

1. A vállalat. 1.1 Termelés II. RÉSZ 69 1. A vállalat Korábbi fejezetekben már szóba került az, hogy különböző gazdasági szereplők tevékenykednek. Ezek közül az előző részben azt vizsgáltuk meg, hogy egy fogyasztó hogyan hozza meg

Részletesebben

(Independence, dependence, random variables)

(Independence, dependence, random variables) Két valószínűségi változó együttes vizsgálata Feltételes eloszlások Két diszkrét változó együttes eloszlása a lehetséges értékpárok és a hozzájuk tartozó valószínűségek (táblázat) Példa: Egy urna 3 fehér,

Részletesebben

Kettőnél több csoport vizsgálata. Makara B. Gábor

Kettőnél több csoport vizsgálata. Makara B. Gábor Kettőnél több csoport vizsgálata Makara B. Gábor Három gyógytápszer elemzéséből az alábbi energia tartalom adatok származtak (kilokalória/adag egységben) Három gyógytápszer elemzésébô A B C 30 5 00 10

Részletesebben

Populációbecslések és monitoring

Populációbecslések és monitoring Populációbecslések és monitoring A becslés szerepe az ökológiában és a vadgazdálkodásban. A becslési módszerek csoportosítása. Teljes számlálás. Statisztikai alapfogalmak. Fontos lehet tudnunk, hogy hány

Részletesebben

GVMST22GNC Statisztika II.

GVMST22GNC Statisztika II. GVMST22GNC Statisztika II. 4. előadás: 9. Kétváltozós korreláció- és regressziószámítás Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet Korrelációszámítás

Részletesebben

A maximum likelihood becslésről

A maximum likelihood becslésről A maximum likelihood becslésről Definíció Parametrikus becsléssel foglalkozunk. Adott egy modell, mellyel elképzeléseink szerint jól leírható a meghatározni kívánt rendszer. (A modell típusának és rendszámának

Részletesebben

Bevezetés a hipotézisvizsgálatokba

Bevezetés a hipotézisvizsgálatokba Bevezetés a hipotézisvizsgálatokba Nullhipotézis: pl. az átlag egy adott µ becslése : M ( x -µ ) = 0 Alternatív hipotézis: : M ( x -µ ) 0 Szignifikancia: - teljes bizonyosság csak teljes enumerációra -

Részletesebben

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

Többváltozós lineáris regressziós modell feltételeinek tesztelése II. Többváltozós lineáris regressziós modell feltételeinek tesztelése II. - A magyarázó változóra vonatkozó feltételek tesztelése - Optimális regressziós modell kialakítása - Kvantitatív statisztikai módszerek

Részletesebben

Kétértékű függő változók: alkalmazások Mikroökonometria, 8. hét Bíró Anikó Probit, logit modellek együtthatók értelmezése

Kétértékű függő változók: alkalmazások Mikroökonometria, 8. hét Bíró Anikó Probit, logit modellek együtthatók értelmezése Kétértékű függő változók: alkalmazások Mikroökonometria, 8. hét Bíró Anikó Probit, logit modellek együtthatók értelmezése Pˆr( y = 1 x) ( g( ˆ β + x ˆ β ) ˆ 0 β j ) x j Marginális hatás egy megválasztott

Részletesebben

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23 TARTALOMJEGYZÉK 1. téma Átlagbecslés (Barna Katalin).... 7 2. téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23 3. téma Összefüggések vizsgálata, korrelációanalízis (Dr. Molnár Tamás)... 73 4. téma Összefüggések

Részletesebben

Varianciaanalízis 4/24/12

Varianciaanalízis 4/24/12 1. Feladat Egy póker kártya keverő gép a kártyákat random módon választja ki. A vizsgálatban 1600 választott kártya színei az alábbi gyakorisággal fordultak elő. Vizsgáljuk meg, hogy a kártyák kiválasztása

Részletesebben

A standard modellfeltevések, modelldiagnosztika

A standard modellfeltevések, modelldiagnosztika A standard modellfeltevések, modelldiagnosztika Ferenci Tamás tamas.ferenci@medstat.hu 2018. február 7. Tartalom Tartalomjegyzék 1. Erős exogenitás 1 2. Heteroszkedaszticitás 3 2.1. A heteroszkedaszticitás

Részletesebben

Biostatisztika VIII. Mátyus László. 19 October

Biostatisztika VIII. Mátyus László. 19 October Biostatisztika VIII Mátyus László 19 October 2010 1 Ha σ nem ismert A gyakorlatban ritkán ismerjük σ-t. Ha kiszámítjuk s-t a minta alapján, akkor becsülhetjük σ-t. Ez további bizonytalanságot okoz a becslésben.

Részletesebben

Likelihood, deviancia, Akaike-féle információs kritérium

Likelihood, deviancia, Akaike-féle információs kritérium Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 1 Likelihood, deviancia, Akaike-féle információs kritérium Likelihood függvény Az adatokhoz paraméteres modellt illesztünk. A likelihood függvény a megfigyelt

Részletesebben

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell Példa STATISZTIKA Egy gazdálkodó k kukorica hibrid termesztése között választhat. Jelöljük a fajtákat A, B, C, D-vel. Döntsük el, hogy a hibridek termesztése esetén azonos terméseredményre számíthatunk-e.

Részletesebben

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2 Esettanulmány A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre Tartalomjegyzék 1. Bevezetés... 2 2. A lineáris modell alkalmazhatóságának feltételei... 2 3. A feltételek teljesülésének

Részletesebben

Normális eloszlás tesztje

Normális eloszlás tesztje Valószínűség, pontbecslés, konfidenciaintervallum Normális eloszlás tesztje Kolmogorov-Szmirnov vagy Wilk-Shapiro próba. R-funkció: shapiro.test(vektor) balra ferde eloszlás jobbra ferde eloszlás balra

Részletesebben

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Statisztika II előadáslapok. 2003/4. tanév, II. félév Statisztika II előadáslapok 3/4 tanév, II félév BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT Egyik konzervgyár vágott zöldbabot exportál A szabvány szerint az üvegek nettó töltősúlyának az átlaga 3 g, a szórása 5 g Az

Részletesebben

A mérések általános és alapvető metrológiai fogalmai és definíciói. Mérések, mérési eredmények, mérési bizonytalanság. mérés. mérési elv

A mérések általános és alapvető metrológiai fogalmai és definíciói. Mérések, mérési eredmények, mérési bizonytalanság. mérés. mérési elv Mérések, mérési eredmények, mérési bizonytalanság A mérések általános és alapvető metrológiai fogalmai és definíciói mérés Műveletek összessége, amelyek célja egy mennyiség értékének meghatározása. mérési

Részletesebben

Lineáris regresszió vizsgálata resampling eljárással

Lineáris regresszió vizsgálata resampling eljárással Lineáris regresszió vizsgálata resampling eljárással Dolgozatomban az European Social Survey (ESS) harmadik hullámának adatait fogom felhasználni, melyben a teljes nemzetközi lekérdezés feldolgozásra került,

Részletesebben

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk? Feladatok: pontdiagram és dobozdiagram Hogyan csináltuk? Alakmutatók: ferdeség, csúcsosság Alakmutatók a ferdeség és csúcsosság mérésére Ez eloszlás centrumát (középérték) és az adatok centrum körüli terpeszkedését

Részletesebben

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat 7. lecke Paraméter becslés Konfidencia intervallum Hipotézis vizsgálat feladata Paraméter becslés és konfidencia

Részletesebben

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet Operációkutatás I. 2017/2018-2. Szegedi Tudományegyetem Informatikai Intézet Számítógépes Optimalizálás Tanszék 11. Előadás Portfólió probléma Portfólió probléma Portfólió probléma Adott részvények (kötvények,tevékenységek,

Részletesebben

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt Galbács Gábor KIUGRÓ ADATOK KISZŰRÉSE STATISZTIKAI TESZTEKKEL Dixon Q-tesztje Gyakori feladat az analitikai kémiában, hogy kiugrónak

Részletesebben

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék Ferenci Tamás 1 tamas.ferenci@medstat.hu 1 Statisztika Tanszék Budapesti Corvinus Egyetem Nyolcadik fejezet Tartalom V. esettanulmány 1 V. esettanulmány Csődelőrejelzés 2 Általános gondolatok 3 becslése

Részletesebben

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

[Biomatematika 2] Orvosi biometria. Visegrády Balázs [Biomatematika 2] Orvosi biometria Visegrády Balázs 2016. 03. 27. Probléma: Klinikai vizsgálatban három különböző antiaritmiás gyógyszert (ß-blokkoló) alkalmaznak, hogy kipróbálják hatásukat a szívműködés

Részletesebben

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis. i Matematikai statisztika Gazdaságinformatikus MSc 6. előadás 2018. október 8. 1/52 - Hol tartottunk? Modell. Y i = β 0 + β 1 X 1,i + β 2 X 2,i +... + β k X k,i + u i i minden t = 1,..., n esetén. 2/52

Részletesebben

Matematikai geodéziai számítások 10.

Matematikai geodéziai számítások 10. Matematikai geodéziai számítások 10. Hibaellipszis, talpponti görbe és közepes ponthiba Dr. Bácsatyai, László Matematikai geodéziai számítások 10.: Hibaellipszis, talpponti görbe és Dr. Bácsatyai, László

Részletesebben

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a Kabos: Statisztika II. t-próba 9.1 Egymintás z-próba Ha ismert a doboz szórása de nem ismerjük a doboz várhatóértékét, akkor a H 0 : a doboz várhatóértéke = egy rögzített érték hipotézisről úgy döntünk,

Részletesebben

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos: A. Matematikai Statisztika 2.MINTA ZH. 2003 december Név (olvasható) :... A feladatmegoldásnak az alkalmazott matematikai modell valószínűségszámítási ill. statisztikai szóhasználat szerinti megfogalmazását,

Részletesebben

Korreláció és Regresszió

Korreláció és Regresszió Korreláció és Regresszió 9. elıadás (17-18. lecke) Korrelációs együtthatók 17. lecke Áttekintés (korreláció és regresszió) A Pearson-féle korrelációs együttható Korreláció és Regresszió (témakörök) Kapcsolat

Részletesebben

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet GVMST22GNC Statisztika II. 3. előadás: 8. Hipotézisvizsgálat Kóczy Á. László Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet Hipotézisvizsgálat v becslés Becslés Ismeretlen paraméter Közeĺıtő

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 3 III. VÉLETLEN VEKTOROK 1. A KÉTDIMENZIÓs VÉLETLEN VEKTOR Definíció: Az leképezést (kétdimenziós) véletlen vektornak nevezzük, ha Definíció:

Részletesebben