TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS



Hasonló dokumentumok
Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztika elméleti összefoglaló

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Többváltozós lineáris regressziós modell feltételeinek

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Korrelációs kapcsolatok elemzése

Többváltozós Regresszió-számítás

Regressziós vizsgálatok

GVMST22GNC Statisztika II.

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

y ij = µ + α i + e ij

Lineáris regressziószámítás 1. - kétváltozós eset

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Korreláció és lineáris regresszió

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Matematikai statisztikai elemzések 6.

[Biomatematika 2] Orvosi biometria

5. előadás - Regressziószámítás

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Diagnosztika és előrejelzés

Varianciaanalízis 4/24/12

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Kettőnél több csoport vizsgálata. Makara B. Gábor

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Diszkriminancia-analízis

A mérési eredmény megadása

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Hipotézis vizsgálatok

[Biomatematika 2] Orvosi biometria

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Matematikai geodéziai számítások 6.

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Korreláció és Regresszió

Matematikai geodéziai számítások 6.

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

Adatok statisztikai értékelésének főbb lehetőségei

KÖVETKEZTETŐ STATISZTIKA

Regressziós vizsgálatok

Bevezetés a Korreláció &

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A leíró statisztikák

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Biomatematika 13. Varianciaanaĺızis (ANOVA)

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Függetlenségvizsgálat, Illeszkedésvizsgálat

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Ökonometriai modellek paraméterei: számítás és értelmezés

Variancia-analízis (folytatás)

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Mérési adatok illesztése, korreláció, regresszió

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Bevezetés a hipotézisvizsgálatokba

Több valószínűségi változó együttes eloszlása, korreláció

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Az idősorok összetevői Trendszámítás Szezonalitás Prognosztika ZH

Biostatisztika VIII. Mátyus László. 19 October

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

Normális eloszlás tesztje

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

KÖZPONTI STATISZTIKAI HIVATAL. Szóbeli vizsgatevékenység

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Segítség az outputok értelmezéséhez

Statisztika Elıadások letölthetık a címrıl

Kvantitatív statisztikai módszerek

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

1. A vállalat. 1.1 Termelés

KOVÁCS BÉLA, MATEMATIKA I.

Hipotézis vizsgálatok

Statisztikai módszerek 7. gyakorlat

Matematikai geodéziai számítások 5.

A maximum likelihood becslésről

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Átírás:

Miskolci Egyetem GAZDASÁGTUDOMÁNYI KAR Üzleti Információgazdálkodási és Módszertani Intézet TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS Oktatási segédlet Készítette: Domán Csaba egyetemi tanársegéd 005.

A REGRESSZIÓS MODELLEK NÉHÁNY KÉRDÉSE A regressziós modellek az idősoros módszerekhez képest más gondolkodásmódot követelnek az alkalmazóktól. Az idősoros modellek az idősor mozgását önmagában vizsgálták, s még a legfejlettebb, legbonyolultabb modell is csak arra képes, hogy az idősor adatainak változásait a lehető legjobban kövesse. Ezzel szemben a regressziós modellek esetében olyan változót, vagy változókat használunk (tényezőváltozó), amelyek az általunk modellezni kívánt változó (eredményváltozó ) mozgását jól követik, lévén, hogy arra törekszünk, hogy a környezetben olyan tényezőváltozókat keressünk, amelyek az eredményváltozó alakulására közvetlenül, vagy közvetve hatnak. Ha regressziós modellt egy adott időpontra, vagy időszakra vonatkozó megfigyelések adatbázisára épül, akkor e modellt keresztmetszeti (cross-sectional regression) modellnek nevezzük. Meghatározható tehát, hogy az eredményváltozó alakulásában mely független változó(k), illetve ezen változó(k) milyen mértékben játszanak szerepet. A regressziós modellt megszerkeszthetjük a változók idősora alapján, ekkor idősoros regressziós modellt (timeseries regression) kapunk. A vállalati gyakorlatban elterjedtebb, hogy rendelkezésre áll mind az eredményváltozó, mind a vele sztochasztikus kapcsolatban levő tényezőváltozó, vagy változók idősora. Korábbi tanulmányaink során a korrelációs összefüggést két mennyiségi ismérv között értelmeztük. A társadalmi-gazdasági élet jelenségei azonban sokkal összetettebbek, bonyolultabbak annál, mint amit két tényező összefüggése kifejez. Egy-egy jelenség változása általában több tényező változásával van összefüggésben. A gyakorlatban általában nem lehetséges egyetlen magyarázóváltozó segítségével leírni a vizsgált jelenség alakulását. A kétváltozós kapcsolat vizsgálatánál az Y-ra ható tényezők közül csak egyet, X-et választottunk ki feltételezve, hogy ennek hatása jelentős. Például egy dolgozó havi bruttó átlagbérét jelentősen befolyásolja az iskolai végzettségük foka. Azonban a gazdasági társaságok gazdálkodásának mutatóit vizsgálva arra a következtetésre jutunk, hogy az eredmény alakulását több tényező befolyásolja (pl: nettó árbevétel, hatékonyságot kifejező vagyonarány mutató stb.). Az eredményváltozóra ható tényezők körének kibővítésével többszörös vagy többváltozós sztochasztikus kapcsolathoz jutunk. 3

. Modellszerkesztés A többváltozós regresszió-analízis segítségével több ismérv eredményváltozóra gyakorolt hatását vizsgáljuk. A kapcsolat az ismérvek száma szerint három-, négy-, öt- stb. változós, a függvény típusa szerint pedig lineáris és nemlineáris kapcsolat lehet. A többváltozós függvények értelmezése nehezebb, mint a kétváltozós kapcsolatoké, ezek függvényképe már csak térben írható le. Grafikus ábrázolásuk is problémásabb, ugyanis három változónál többet három dimenziós térben csak nagyon erős megszorítások mellett vetíthetünk ki. Ezért a legmegfelelőbb függvénytípus kiválasztása a tényezők hatásának számszerűsítése többirányú megfontolást, körültekintőbb szakmai mérlegelést tesz szükségessé. A regressziós modellek szerkesztésekor legelső feladatunk, hogy megkeressük azokat a változókat, amelyek feltevésünk szerint az eredményváltozóval lényeges (szignifikáns) kapcsolatban vannak. Az így meghatározott magyarázó- és eredményváltozók kapcsolata persze csak hipotetikus, azt első lépésben ellenőrizni kell, hogy feltevésünk a konkrét megfigyelések függvényében mennyire állja meg a helyét. A többváltozós lineáris regressziós modellt az alábbi matematikai egyenlettel írhatjuk fel: Yβ 0 +β x +β x + +β p x p +ε ahol, β,β β m a ható tényezők β 0 a függvény konstans tagja ε a regressziós egyenes hibatagja. Fő feladatunk az ε hibatag minimalizálása, amit akkor érünk el, ha a becslőfüggvény értékei minimálisan térnek el az eredeti tapasztalati értékektől. Vagy az eltérések négyzetösszegén értelmezve: n i e [ Y ( β + β x + β x +... + β x )] min 0 Az egyenletrendszer megoldásához szükséges paraméterek a fenti egyenlet β 0, β, β m szerinti parciális deriváltjainak meghatározásával állíthatóak elő. A többváltozós függvények illesztésének pontosságát a regressziós függvény hibájának nagysága alapján ítélhetjük meg. Az illesztés hibája (s e ): ˆ e ( yi Yi ) se n n Az illesztés relatív hibája (vagy pontossága): se V 00 Yˆ A relatív hiba azt fejezi ki, hogy a számított y i értékek, azaz a regressziós becslések átlagosan hány %-kal térnek el az eredményváltozó mért y i értékeitől. Minél kisebb a relatív reziduális szórás, annál jobban illeszkedik a regressziós függvény a pontdiagram pontjaira. A gyakorlatban, általában 0% alatti relatív hiba esetén fogadjuk el jónak a regressziós becslést, a regressziós függvény illeszkedését. A többváltozós lineáris regressziós modell paramétereit mátrixalgebrai jelölésekkel is kiszámíthatjuk. A számításhoz az alábbi mátrixokat kell felhasználni. s e p p 4

(Az alábbi mátrixok háromváltozós regresszió-függvényre vonatkoznak. Természetesen mindegyik bővíthető a változók számának növelésével.) Együtthatómátrix: X T X n x x i i x x x i i i x i x x i x i i xi X T y vektor: X T y yi xi yi x i yi Számítástechnikai szempontból az inverz mátrix létezése lehet kétséges. A gyakorlati regresszió-számítási feladatoknál azonban általában teljesül az a feltétel, hogy a normálegyenletek független egyenletrendszert alkotnak. Ezért az együtthatómátrix nem szinguláris, és így invertálható. A regresszió-függvény paramétereit az alábbi szorzat adja meg: b0 T T X X X y b b b A regresszió-függvény paramétereinek értelmezése: ŷb 0 +b x +b x + +b p x p A regressziós együtthatók egy-egy tényezőváltozó részleges hatását mutatják, ezért ezeket parciális regressziós együtthatóknak nevezzük. Szokásos a mutató parciális jellegét a jelölésben is érzékeltetni. Például b így is írható: b y., ami arra utal, hogy az eredményváltozóban csak x hatása mutatkozik meg, x változatlan. A b 0 a konstans, az x x 0 helyen vett függvényérték, ha ott értelmezve van. Értelmezése logikailag nem indokolt a legtöbb esetben. A b, b, b p parciális regressziós együtthatókat a következőképpen értelmezzük: Ha x i értéket egy egységgel növeljük miközben a többi x i értéket változatlanul hagyjuk-, akkor az eredményváltozó (Y) becsült értéke (ŷ) éppen b i egységgel változik. (A változás növekedés vagy csökkenés lehet b i előjelétől függően.) A regressziós együttható tehát kifejezi, hogy egy adott tényezőváltozó egységnyi növekedése mekkora növekedést (vagy csökkenést) okoz az eredményváltozó becsült értékében, miközben a többi tényezőváltozó értéke változatlan. 5

. Mesterséges változók alkalmazása Gyakran fordul elő, hogy az eredményváltozó alakulását minőségi jellemzők is befolyásolják, így ha a vizsgálatoknál azok hatásait nem szerepeltetjük, akkor lényeges hatótényezőktől tekintünk el, s így könnyen adódhat, hogy a felépített modell hibatényezője lényeges hatótényező hiányát mutatja. Eddig csak olyan eseteket tárgyaltunk, amelyben a regressziós modell változói legalább sorrendi (ordinális) skálán mérhetőek. Vizsgáljuk meg, hogy a regressziós modell változói között hogyan szerepeltethetők minőségi ismérvek. Ha a minőségi ismérvnek két változata lehetséges, illetve megoldható annak alternatívvá alakítása, akkor numerikussá tehető úgy, hogy az egyik előfordulást 0 értékkel, a másik előfordulást értékkel tesszük egyenlővé. O z, ha nem teljesül a feltétel., ha teljesül a feltétel Az így definiált változót Bernoulli vagy dummy változónak nevezzük. Általánosan az fogalmazható meg, hogy ezen változók felhasználásával ismert, feltárt és kimutatott, de egzaktan mégsem számszerűsíthető hatásokat lehet szerepeltetni az adott regressziós modellben. Ha a dummy változó értékeit definiáltuk, akkor szokásos módon határozzuk meg a regressziós modellt. Ilyen dummy változó lehet: nem (férfi - nő), földrajzi elhelyezkedés ( főváros - vidék, de lehet szerepeltetni a régiókat, vagy a megyéket is a modellben, bár itt csak több alternatív ismérv kombinációjával ), szakképzettség (szakképzett-szakképzetlen), iskolai végzettség (több alternatív ismérv kombinációjával például: egyetem - főiskola - középiskola - általános iskola), szezonális idősornak az éven belüli szezonok kimutatása (több alternatív ismérv kombinációjával például a negyedévek) vagy a kiugró értékek (outlier) szerepeltetése (szokásostól eltérő állapot - szokásos állapot). Tegyük fel, hogy a testsúly és a testmagasság összefüggését vizsgáljuk egy n elemű minta alapján. Az adatfelvétel során a nemet is rögzítették. Az n elemű minta alapján a regresszió-függvény a következőképpen adható meg (általános formában): Y$ $ β + $ β X + $ β Z 0 ahol: Y : testsúly (kg), X : magasság (cm), Z : a nemet jelző dummy változó ( Z, ha az illető férfi, Z 0, ha az illető nő). Ha egy mesterséges változó kettőnél több értéket vehet fel, azt proxy változónak hívjuk. E változó alkalmazásának körülményei hasonlóak az előbbieknél, a közvetlenül nem mérhető jelenségeket a vele összefüggésben levő, mérhető változóval közelítjük. Elterjedten alkalmazott proxy változó az időváltozó. Mivel a LNM a tényezőváltozókat nem tekinti valószínűségi változónak, így azok eloszlásának eltérése a mennyiségi ismérvek eloszlásától, illetve az eloszlás kérdése nem merül fel, mint alkalmazási probléma. 6

. Többváltozós korrelációszámítás A többváltozós lineáris regressziós modellben arra a kérdésre is választ keresünk, hogy az egyes tényezőváltozók tisztán, önmagukban milyen szoros kapcsolatban vannak az eredményváltozóval. A regresszió-számítással szemben a korreláció szorosságának vizsgálatakor minden változót valószínűségi változónak tekintünk. Vagyis kizárjuk az olyan kontrollált kísérletek eredményeként kapott magyarázóváltozókat, amelyekkel a többi befolyásoló tényező értékét rögzíteni tudjuk, és így hatásukat a vizsgálat során ellenőrzésünk alatt tartjuk. Az eredményváltozót ennek ellenére megkülönböztetjük a tényezőváltozóktól. Ezt azonban csak amiatt tesszük, hogy jelölésrendszerünk összhangban legyen a regressziószámításnál tanultakkal. A kapcsolat szorosságának vizsgálata önmagában a megkülönböztetést nem tenné szükségessé. Kettőnél több változó esetén a korreláció szorosságáról háromféle értelemben beszélhetünk. A kapcsolat szorossága vizsgálható páronként, továbbá páronként, de a többi változó hatásának kiszűrésével. Végül pedig az eredményváltozó és az összes tényezőváltozó közötti szorosság is mérhető... Páronkénti korrelációs együttható Korábbi tanulmányaink során már megismerkedtünk a kétváltozós lineáris korrelációs és determinációs együttható számításával, így ezekkel e témakörben részletesen nem foglalkozunk.. Parciális korrelációs együttható A parciális korrelációs együttható annyiban különbözik a páronkénti együtthatótól, hogy számításánál a többi változótól nem tekintünk el, de hatásukat kiküszöböljük. Az így kapott parciális korrelációs együttható az mutatja meg, hogy milyen szoros a kapcsolat valamelyik kiválasztott tényezőváltozó és a függő változó között, ha a többi tényezőváltozó hatását mind a vizsgált tényezőváltozóból, mind az eredményváltozóból kiszűrjük. Kiindulásként írjuk fel az (m+) változós modell korrelációs mátrixát (R): ry ry... ryp r y r... r p R r... y r r p M M M M M rpy rp rp... Az R korrelációs mátrix a modellben számítható összes kétváltozós korrelációs együtthatót tartalmazza. A mátrix első sora és első oszlopa az eredményváltozó és az egyes tényezőváltozók közötti kapcsolat szorosságát mérő lineáris korrelációs együtthatókat tartalmazza, a mátrix többi eleme pedig a tényezőváltozók egymás közötti korrelációját méri. A korrelációs mátrix szimmetrikus mátrix, a fődiagonálisában lévő elemek értéke, ami a kétváltozós lineáris korrelációs együttható képzési módjából közvetlenül adódik. Az R mátrix 7

számos információt tartalmaz a kapcsolat természetére vonatkozóan. Megállapítható, hogy melyek azok a magyarázó változók, amelyek a legszorosabb összefüggésben vannak a függő változóval és mely magyarázó változók között van számottevőbb korrelációs összefüggés. Ez utóbbi a multikollinearitás veszélyére hívja fel a figyelmet. Háromváltozós modellben az Y és X változó közötti parciális korrelációs együtthatót a következő módon számíthatjuk ki: ry ry r ry. ( r ) * ( r ) y Hasonlóan felírható az r y. és az r.y korrelációs együttható is. A parciális korrelációs együttható pozitív korrelációnál pozitív, negatív korrelációnál negatív előjelű lesz, abszolút értéke 0 és között helyezkedik el. A sokváltozós modellben általánosan a korrelációs mátrix inverze alapján határozhatjuk meg a parciális korrelációs együtthatókat. A korrelációs mátrix inverze: q q M R q M q yy y jy py q q q q y M j M p L L M L M L q q q q yj j M M jj pj L L M L M L q yp q p M q jp M q pp A parciális korrelációs együtthatókat az inverz mátrixból a következő összefüggés szerint számolhatjuk ki: r yj.,...,( j ),( j+ ),..., p q q yy yj q jj A parciális korrelációs együttható az Y és az X j változók kapcsolatának szorosságát méri, miután a többi (m-) magyarázó változó hatását mindkét változóból kiszűrtük. A parciális korrelációs együttható négyzetét parciális determinációs együtthatónak nevezzük. A parciális determinációs együttható arra ad választ, hogy az X j magyarázó változó mekkora hányadot képes megmagyarázni az Y függő változó varianciájának azon részéből, amelyet az X, X, X j-, X j+,,x p változók nem képesek megmagyarázni. Gyakran előfordul, hogy a korrelációs mátrix mellett a változók páronkénti kovarianciamérőszámait tartalmazó, variancia-kovariancia mátrixra is szükségünk van. A mátrix általános formája a következő: C yy C y L C yp Cy C L C p C, M M M M C py C p L C pp ahol C yj az eredményváltozó és a j-edik magyarázóváltozó; C ij pedig az i-edik és a j-edik magyarázóváltozó kovarianciája. A mátrix diagonális elemei pedig a regressziós modellben szereplő változók szórásnégyzetei. 8

.3. Többszörös korrelációs együttható A többváltozós lineáris regressziós modellnél az eredményváltozó (Y) és a magyarázó változók (X, X,,X p ) együttes összefüggését is vizsgáljuk. A tényezőváltozók és az eredményváltozó közötti korreláció szorosságát a többszörös korrelációs együttható méri. A többszörös korrelációs együttható olyan speciális kétváltozós korrelációs együttható, amely az Y és az X, X,,X p tényezőváltozók alapján becsült Yˆ kapcsolatának szorosságát méri. A háromváltozós modellben a többszörös korrelációs együtthatót a kétváltozós korrelációs együtthatók felhasználásával is kiszámíthatjuk: R y., r y + r y r r y r r y A többváltozós modellben általánosan a korrelációs mátrix inverze alapján határozzuk meg a többszörös korrelációs együtthatót. Ry.,,..., p q yy A többszörös korrelációs együttható előjelét mindig pozitívnak tekintjük..4. Többszörös determinációs együttható A többszörös korrelációs együttható négyzetét többszörös determinációs együtthatónak nevezzük. A mutatószámmal azt mérjük, hogy a független változók együttesen milyen erősséggel határozzák meg az Y változó ingadozását. Másképpen fogalmazva az együttható arra ad választ, hogy a függő változó teljes szórásnégyzetéből mekkora a regressziónak tulajdonítható, tehát a tényezőváltozókkal megmagyarázható hányad. Az R jellemzői: értéke 0 és között lehetséges, a maximális értéket akkor veszi fel, ha az X változók determinisztikusan meghatározzák Y-t, 0 az értéke, ha az Y szóródását teljes egészében a véletlen magyarázza, %-os formában értelmezzük. A többszörös determinációs együttható: Ry.,,..., p q yy A többszörös determinációs együttható kifejezhető a többváltozós modellben alkalmazott eltérés-négyzetösszegek hányadosaként is: SSR R SST 9

.5. Parciális rugalmassági együttható A kétváltozós regressziós modellhez hasonlóan a többváltozós regressziós modellben is gyakran használjuk a regressziós együtthatók mellett az elaszticitási mutatószámokat, amelyek ekkor szintén parciális értelmezésűek. Az eredményváltozó rugalmasságát azonban egyszerre csak az egyik magyarázóváltozó szerint vizsgálhatjuk, miközben a többi magyarázóváltozó értékét rögzítjük. Az eredményváltozónak a j-edik magyarázó változó szerinti parciális rugalmassága (elaszticitása) azt mutatja meg, hogy a megfelelő magyarázó változó valahonnan kiinduló %-os növekedésével (csökkenésével) hány %-os növekedés (csökkenés) mutatkozik az eredményváltozóban, feltéve, hogy az összes többi tényező nem változik (ceteris paribus). Általános képlete: Eˆ j j ( yˆ, x j x x*, x x*,... xk xk * ) b + b x +... + 0 bk xk Ami már egy százalékosan értelmezhető mutatószámot eredményez. A parciális rugalmassági együttható nagysága attól függ, hogy azt a magyarázóváltozók milyen színvonala mellett számítjuk. b x,.6. Korrelációs index Nemlineáris esetekben ajánlott kapcsolat-szorossági mérőszám a korrelációs index, amely az eredeti változók közötti kapcsolat szorosságát mutatja: ( yi yˆ ) ( yi y) I Az I mutató szerkezete és tartalma világos, hiszen analóg a lineáris esetben a determinációs együtthatóból vont négyzetgyökkel. Az index értéke 0 és között helyezkedik el. Látható, hogy amennyiben az illeszkedés jó, a mutató értéke -hez közelít, míg alacsony I esetén a maradék-négyzetösszeg viszonylag nagy, ami rossz illeszkedésre utal. Az index esetén fontos megjegyezni, hogy a mutató irányt nem jelez. Kellemetlen tulajdonsága, hogy nem mindig van valós érték, hiszen nemlineáris regresszió esetén előfordulhat, hogy a gyök alatt álló kifejezés negatív lesz. Ennek oka, hogy nemlineáris esetben a négyzetösszeg-felbontás nem úgy teljesül, mint lineáris esetben..7. Korreláció idősoros adatok esetén Ha változóként idősorokat kívánunk felhasználni, akkor az eredményváltozó alakulását legjobban meghatározó változók kiválasztásakor a kapcsolat-szorossági mérőszámok akár csődöt is mondhatnak. Az annak tudható be, hogy az idősor tagjai nem függetlenek egymástól. A vállalati gyakorlatban döntő többségében olyan idősorokat találunk, amelyekben létezik alapirányzat (trend), azaz az idősor egyes tagjai valóban nem függetlenek egymástól. Idősorok esetében tehát a mutató akkor jelez szoros kapcsolatot valamely magyarázó változó és az eredményváltozó között, ha az adott magyarázó változó alapirányzata közel esik az eredményváltozó alapirányzatához. 0

Ezért az esetek legtöbbjében az idősorból el kell tüntetni az alapirányzatot, azaz meg kell határozni a változók trendértékeit, majd ezeket kivonva az idősor tényleges értékeiből: az eredményváltozónál: k y y yˆ az i-edik tényezőváltozónál: k x i xi xˆ i Majd az így képzett változókra határozzuk meg a lineáris korrelációs együtthatót: d k * d y k xi r n * sk * x y k xi Ez a mérőszám már valóban alkalmas arra, hogy választ adjon arra a kérdésre, hogy az i-edik magyarázóváltozó és az eredményváltozó kapcsolata tekinthető-e jelentősnek önmagában, az idő hatásának kiszűrésével. 3. Statisztikai következtetések a lineáris regressziós modellben 3.. Intervallumbecslés a többváltozós regressziós modellben Konfidencia intervallumokat nemcsak a regressziós együtthatókra, hanem a regressziós modell becsült értékeire is számíthatunk. A regressziós becslést úgy is értelmezhetjük, mint a regressziós együtthatók adott lineáris kombinációját. A konfidenciaintervallum-számítás során a fontosabb feladat azonban nem a becsült paraméterek intervallumának, hanem a függvényérték intervallumának a becslése. Erre vonatkozó eredményeink szintén hasonlók mindahhoz, amit a kétváltozós esetben származtattunk, a különbség mindössze annyi, hogy a függvényértékek kiszámításakor a mátrixalakokat használjuk, a t-eloszlású változó pedig n-p- szabadságfokú. Ha tehát egy xx 0 pontban keressük a becsült függvényértéket, akkor az ˆ ' Y 0 x 0 βˆ becsült függvényérték torzítatlan becslést ad egyrészt a megfelelő pontban a regressziós függvényértékek várható értékére (átlagbecslés), másrészt ugyancsak ebben a pontban a sokasági elemekre. A varianciák azonban a két esetben különbözők. Az átlag varianciáját a ' ' ' var Yˆ x var ˆ β x σ x X X x ( ) 0 ( ) 0 e 0 ( ) 0 formában határozhatjuk meg, ha pedig mintából becsüljük, akkor a σ -et s e -tel becsülve a varianciára torzítatlan becslést kapunk: ' ' ( yˆ ) se x0 ( X X ) x0 var, Aminek négyzetgyöke a standard hiba: s ' yˆ s e x 0 ' ( X X ) x0 A konfidencia intervallumot -α megbízhatósági szinten a regressziós becslés és a variancia alapján az alábbi formulával számíthatjuk ki (konkrét minta esetén): ' yˆ ± t * α s ' ye ˆ A számítási módból is következik, hogy a függő változó várható értékére számított konfidencia intervallum nagysága a magyarázó változók adott értékeitől, valamint a paraméterek varianciájának és kovarianciáinak nagyságától függ.

Amennyiben csak egyetlen független változónk van, az eredeti adatok függvényében még aránylag egyszerűen felírható a becslőfüggvényünk: Az egyedi értékek esetén az Yˆ yˆ + ε összefüggés alapján azt kapjuk, hogy Var A becsült hiba pedig [ 0 x0 ] ' ' ( Yˆ ) σ + x ( X X ) ' ( X X ) 0 '' s yˆ se + x0 x Az intervallumbecslés ekkor '' yˆ ± t * s α yˆ Ez olyan intervallumot jelent, amelyik -α megbízhatósággal adja meg azokat a határokat, amelyek tartalmazzák az x 0 -hoz tartozó ismeretlen sokasági Yˆ értéket. 3.. Hipotézisvizsgálat Többváltozós statisztikai modell esetében, akárcsak a kétváltozós esetben, a hipotézisvizsgálat három kérdésre keresi a választ:. A kapott (becsült) paraméterek jók-e, azaz a nekik megfelelő változók jó magyarázó változók-e a regressziós modellben?. A változók együttesen kielégítő módon magyarázzák-e az eredményváltozót? 3. A modellfeltételek a becslések tükrében helytállóak voltak-e, avagy empirikus eredményeink arra utalnak, hogy ezek valamelyike nem teljesült? Az első esetben a paraméterek teszteléséről beszélünk, és nullhipotézisünk az, hogy a j-edik sokasági paraméter értéke 0, ellenhipotézisünk pedig az, hogy nem, azaz H : β 0 0 j H : β j 0 Látható, hogy a nullhipotézis azt jelenti, hogy a j-edik magyarázó változó regressziós együtthatója 0, azaz a j-edik változó tetszőleges elmozdulása nem befolyásolja az eredményváltozót. Ezért ha a próba során a nullhipotézis mellett döntünk, egyben azt is állítjuk, hogy a j-edik magyarázó változó nem magyarázza az eredményváltozót, tehát szerepeltetése a regresszióban felesleges. Ellenkező esetben, ha az ellenhipotézis fogadható el, a j-edik magyarázó változó sokasági értéke szignifikáns mértékben különbözik 0-tól, tehát a j- edik magyarázó változó valóban magyaráz, jó, releváns változó a regresszióban. A hipotézis tesztelésére a t-próbát alkalmazzuk. A próbát külön-külön valamennyi paraméterre el kel végezni, és ennek eredményeképp képet kapunk arról, hogy az egyes változók lényeges mértékben hozzájárulnak-e az eredményváltozó magyarázatához. A próba elvben a konstans együtthatójára is alkalmazható, és értelmezése ott is ugyanaz, mint bármely más paraméter esetén. Ennek ellenére a konstans esetében többnyire nem végezzük el a próbát, azaz a t-értéktől függetlenül a konstanst mint az illeszkedést segítő paramétert megtartjuk a modellben. A második esetben a vizsgálat arra irányul, hogy a modell elégséges-e abban az értelemben, hogy a magyarázó változók összességükben kielégítően magyarázzák-e az eredményváltozót. Ennek tesztelése a varianciaanalízis segítségével történik. A nullhipotézisünk ezúttal az, hogy a magyarázó változók sokasági együtthatói mind 0-k, azaz

H 0 : β β K β k 0, ellenhipotézisünk pedig az, hogy létezik legalább egy olyan együttható, amely sokasági szinten nem nulla, azaz H : β j 0. Látható, hogy a nullhipotézis azt jelenti, hogy a modellünk egészében rossz, míg az ellenhipotézis azt monda ki, hogy van legalább egy változó a modellben, amit érdemes megtartani, tehát a modellt nem lehet eleve elutasítani. Ebben az értelemben valójában a varianciaanalízis próbája logikailag megelőzi a t-próbát, hiszen ha a varianciaanalízissel megállapítjuk, hogy a modell rossz, akkor nincs mit elemezni a továbbiakban ha pedig van benne valami, akkor érdemes a t-próba alkalmazásával megkeresni azokat a relációkat, ahol érdemleges kapcsolatok találhatóak. A varianciaanalízis próbáját a próbafüggvényről F-próbának, vagy az egész modellre történő alkalmazására utalva, globális F-próbának szokták nevezni. A próba alapötlete: a nullhipotézis fennállása esetén a regresszió által magyarázott négyzetösszeg és a maradék-négyzetösszeg alkalmasan normált hányadosa F-eloszlást követ, és ha a nullhipotázis ne igaz, akkor ugyanez a hányados növekszik, ezért a mullhipotézis elutasítási tartománya a jobb oldalon jelenik meg. Mindez formálisan úgy néz ki, hogy az eredményváltozó varianciáját a regressziós modell és a hibatényező hozzájárulására bontjuk fel. A többváltozós regressziós modell feltételei segítségével bizonyítható, hogy többváltozós esetben is felírható az eltérés-négyzetösszegek között a következő összefüggés: n i n ( y y) ( yˆ y) + ( y yˆ ) i i i SSTSSR+SSE n i A függő változó átlagtól vett eltérésnégyzet-összegének (SST) két komponense tehát: a regressziós becslések átlagtól vett eltérésnégyzet-összege (SSR) és a reziduális négyzetösszeg (SSE). A mintákból meghatározott négyzetösszegek segítségével vizsgálhatjuk a nullhipotézis fennállását: SSR p F, SSE n p ahol a számláló szabadságfoka: szf m, a nevező szabadságfoka pedig: szf n-p-. Az F-próba végrehajtása után az alábbi megállapításokat tehetjük: Ha a számított érték kisebb, mint a kritikus érték, akkor a nullhipotézis elfogadjuk, és megállapítjuk, hogy a vizsgált szignifikancia-szinten a modell nem jó, a magyarázó változók nem tudtak érdemben több magyarázatot adni az eredményváltozó alakulására, mint az eredményváltozó egyszerű mintaátlaga. Ha a számított érték nagyobb vagy egyenlő a táblázatból kikeresett kritikus értéknél, akkor az adott szignifikancia-szinten a modell nem utasítható el egyértelműen, legalább egy lényeges relációt megragad, ezért érdemes tovább vizsgálni. A varianciaanalízis számításait és eredményeinek bemutatását a nemzetközileg is szabványosnak tekinthető ANOVA (ANalysis Of VAriance) táblázatok segítségével szoktuk rendezni. Az ANOVA tábla általános sémája a következő: i i 3

A variancia forrása Eltérésnégyzetösszeg (SS) Szabadságfok (DF) Átlagos négyzetösszeg (MS) F-érték Regresszió (R) SSR p MSRSSR/p Hibatényező (E) SSE n-p- MSESSE/(n-p-) MSR F MSE Teljes (T) SST n- - Ennél a próbánál egyre gyakoribb az, hogy a számítások során nem csupán a próbafüggvény empirikus értékét adjuk meg, de kiszámítjuk, illetőleg megadjuk az empirikus szignifikanciaszintet (a p-értéket) is. A 0-hoz közeli p-értékek a nullhipotézis elutasítását, az közelében lévő p-értékek a nullhipotézis elfogadását javasolják. Kissé pontosabban azt mondhatjuk, hogy a nullhipotézist minden, p-nél nem nagyobb szignifikancia-szinten elutasítjuk, minden, p-nél nagyobb szignifikancia-szinten pedig elfogadjuk. A globális F-próbával kapcsolatban megjegyezzük még, hogy kapcsolata a többszörös determinációs együtthatóval meglehetősen egyszerű, ezért az illeszkedés tesztjének is felfogható. Ha ugyanis az F-értéket a többszörörs determinációs együttható segítségével akarjuk felírni, akkor n F p p * SSR SSE n p p SSR / SST n * ( SSR / SST ) p p R * R kapható, amiről viszont látszik, hogy a nagy R, azaz jó illeszkedés esetén utasítja el a nullhipotézist míg ha a determinációs együttható kicsi, a nullhipotézist- azaz azt, hogy rossz a modell nem tudjuk elvetni. Ebben az értelemben tehát a globális F-próba az illeszkedés jóságának próbája is. 4. Optimális regresszió-függvény meghatározásának lehetséges módjai Az egyszerű, kizárólag az adott tényező- és az eredményváltozó közötti kapcsolat szorosságán alapuló mérlegelésnek van előnye és hátránya. A korrelációs együttható könnyen meghatározható, de nem biztos, hogy olyan eredményre vezet, amelyet célul tűztünk ki: azaz, hogy az eredményváltozóval szoros kapcsolatban álló tényezőváltozók szerepeltetésével a modell jó becslést ad az eredményváltozó alakulására. A magyarázat pedig a multikollinearitás lehet. Multikollinearitás alatt a magyarázó változók közti lineáris kapcsolatot értjük, ami sok esetben - a modellben - megfigyelhető, s léte a becslési eljárás eredményét befolyásolja. Célszerű lehet a modellszerkesztés során az eddig tárgyalt változók kiválasztása helyett más megoldáshoz nyúlni, amely a két változó közti kapcsolaton túl a többi magyarázó változóval való összefüggéseire is figyelemmel van. Valószínűleg olyan regresszió-függvény segítségével tehetjük ezt meg, amely csak a szignifikáns paraméterekkel rendelkező változókat tartalmazza, ezekből is csak annyit ( a lehető legkevesebbet ), amelyek 4

lehetővé teszik, hogy a modell által becsült értékek a ténylegesen megfigyelt értékekhez jól illeszkedjenek. Ezzel olyan modell építhető fel, amely a magyarázó változó várható értékére jó közelítést ad, s egyben gazdaságos modell is. A változók ilyen céloknak megfelelő kiválasztásának eljárását az optimális regresszió-függvény meghatározásával érhető el. Az optimális regresszió-függvény meghatározásának több módja ismert, mi azonban csak a két legelterjedtebben használt eljárást: a Backward eliminációs módszert és a Stepwise módszert tárgyaljuk. A módszerek bemutatása előtt szükséges kiemelni, hogy első lépésként a modellt kell felépíteni, tehát a magyarázó változóval logikailag összefüggő változókat kell megkeresni, majd ellenőrizni kell, hogy a változókra vonatkozó megfigyelések (mintaadatok, illetve idősorok) rendelkezésre állnak-e, majd ezt követően lehet csak az optimalizálással foglalkozni. Külön rá kell mutatni arra, hogy a statisztikai programcsomagokban az optimális regressziós függvény meghatározására használt módszerek megtalálhatók, s így a számítások gyorsan és egyszerűen elvégezhetők (így például a Minitab, SPSS, SAS programcsomagokkal). A bemutatásra kerülő eljárások lépésről lépésre ítélik meg azt, hogy az adott változó önmagában milyen jelentős hatást gyakorol a modellre, illetve a modellben még/már szereplő többi változó magyarázó erejére. A bemutatásra kerülő módszerek logikailag egymás ellentettei, míg a Backward eliminációs módszer lebontással, addig a Stepwise módszer lépésről lépésre építkezéssel jut el az optimális modellhez. 4.. Backward eliminációs módszer A módszer lépései:.. 3. A magyarázó változóval szerintünk logikailag összefüggő valamennyi változót beépítjük a modellbe. Legyen az összes magyarázó változók száma p. Ekkor egy p+ változós modellt állítunk össze és meghatározzuk a modell paramétereit, meghatározzuk a paraméterek standard hibáját. Kiszámítjuk a magyarázó változók paramétereire a parciális t -próba értékét ( vagy a parciális F -próba értékét ): $ β ˆ i β t σ( $ (7) vagy F i βi ) σ ( ˆ) β (8) a H O o: β i hipotézis tesztelésére. H : β O i Megvizsgáljuk azt, hogy az abszolút értéken legalacsonyabb t (vagy F ) értékkel bíró változó szignifikáns változó-e: 5

- - ha a próbafüggvény értéke magasabb az adott szignifikancia-szinthez tartozó függvényértéknél, ( t n p α /, vagy F pn, p α / ): a változót megtartjuk a modellben és optimális regresszió-függvénynek az általunk választott valamennyi változót tartalmazó modellt tekinthető, tehát már első iterációban optimális regresszió-függvényhez jutottunk: a gyakorlat igazolta a feltevést a kapcsolat valódiságáról, ha a próba értéke alacsonyabb az adott szignifikancia-szinthez tartozó értéknél, akkor e változót kizárjuk - elimináljuk - a regressziós modellből: e változó - a többi változóhoz képest - nem gyakorol lényeges hatást a magyarázó változóra, nincs indokunk a modellben való szerepeltetésére. 4. A maradék magyarázó változók felhasználásával egy újabb modellt szerkesztünk, majd a. pontnál folytatjuk a vizsgálatot. A vizsgálatot mindaddig folytatjuk, amíg a modellben szignifikáns változók szerepelnek csak! 4.. Stepwise módszer A Stepwise módszer megoldásában éppen ellenkezője a Backward módszernek, lévén a teljes modell lebontása helyett a modell alulról való felépítését tűzi ki célul. A módszer lépései:. A modellbe elsőként azt a változót építjük be, amelynek a legszorosabb a kapcsolata az eredményváltozóval ( a legnagyobb a determinációs együtthatója: r yi ).. Megvizsgáljuk, hogy az első lépésben bevont változó szignifikáns kapcsolatban van-e az eredményváltozóval. ( ry.,,..., p ry.,,..., p ) F. (9) ry.,,..., p n p A (9) próbafüggvény számlálójában a determinációs együtthatók különbségének meghatározásával arra kapunk választ, hogy a p-edik változó beépítése mennyivel növeli a modell magyarázó erejét. Lévén a próbafüggvény értékének meghatározása munkaigényes, a gyakorlatban elterjedtebb a próbafüggvény meghatározása a szokásos formában, a változó négyzete és a változó varianciája hányadosaként, azaz: $ βi F. Var ( β ) i 6

3. Az első lépésben bevonásra nem került magyarázó változókra (,,... i, i+,... p ) meghatározzuk a parciális korrelációs együtthatókat. Másodikként azt a változót vonjuk be a modellbe, amelynél az itt meghatározott parciális korrelációs együtthatók négyzete ( parciális determinációs együttható ) értéke a legmagasabb. Mielőtt beépítenénk a modellbe az újabb változót (legyen az a j-edik) vizsgálnunk kell azt is, hogy az újabb változó bevonása a modellbe szignifikánsan növeli-e a determinációs együttható értékét ( (9)-es pontbeli F próbával ). 4. Az új változó bevonásával meghatározott új regressziós modell paramétereit, s az így meghatározott paraméterek szignifikanciáját t próbával vizsgáljuk. Ha a parciális regressziós paraméter értéke nem különbözik nullától, akkor az új ( j -edik ) változót elhagyjuk a modellből, s visszatérünk a 3. lépésnél meghatározott feladatokra. Ha a parciális regressziós paraméterek értéke különbözik szignifikánsan nullától, akkor a munkát tovább folytatjuk. 5. Az eddig bevonásra nem került magyarázóváltozókra (,,... i, i+,... j, j +,... p ) meghatározzuk a parciális korrelációs együtthatókat. A legnagyobb determinációs együtthatóval bíró változóra vonatkozóan szignifikancia vizsgálatot végzünk. 6. Ha a próbafüggvény értéke szignifikáns kapcsolatra utal, akkor az 5. lépésnél folytatjuk a számításokat. Ha a próbafüggvény értéke nem utal szignifikáns kapcsolatra, akkor az előzőekben meghatározott regresszió-függvényt tekintjük optimális regresszió-függvénynek. Az optimális regressziófüggvény meghatározásakor a számításokat célszerű különböző szignifikancia-szinten elvégezni. Ezzel lehet megbizonyosodni arról, hogy valóban helyes modell került-e meghatározásra. Ezt követően a statisztikailag optimális modellt szakmai szempontból is górcső alá kell vetni, s alaposan megvizsgálni, hogy a feltárt összefüggés a valóságban is megállja-e a helyét. 4.3. A korrigált determinációs együttható A modellkészítés során az illeszkedés leggyakrabban használt mutatója az R determinációs együttható. Ennek azonban van egy nagy hibája: ha a meglévő változókörhöz egy újabb változót csatlakoztatunk, R soha nem csökken, a gyakorlatban pedig mindig nő. Ekkor, ha csak az R kritériumot tekintjük, a legjobb modell az, amelyik a lehető legtöbb (a megfigyelések számával megegyező számú) változót tartalmazza. Ez viszont más szempontból nem jó döntés. Ekkor ugyanis a változók számának növelésével egyrészt megnő a multikollinearitás veszélye, aminek következtében jellemző módon nőnek a paraméterbecslések hibái, és a regresszió értéktelenné válhat. Másrészt a túl sok magyarázó változó csökkenti a szabadságfokot (a megfigyelések és a becsülni kívánt paraméterek számának különbségét), s ezáltal nem engedi meg a becslés statisztikai tulajdonságainak érvényesülését. Ezért az R helyett olyan mutatók alkalmazása célszerű, amelyek figyelembe veszik a becslés során a változók számát is, és ezáltal a kevés számú paramétert tartalmazó modelleket versenyképessé teszik a több változót, illetve paramétert tartalmazó modellekkel. A legegyszerűbb ilyen mutató a Theil-féle, szabadságfokkal korrigált determinációs együttható, amelynek alakja a következő: 7

( ) n R R n p A mutató értéke a paraméterek számának növekedésével csökkenhet és csökken is akkor, ha a rendszerbe utolsónak bevont változó csak kis befolyással bír az eredményváltozóra. A korrigált R mutató egyébként nagyrészt hasonlóan viselkedik, mint az eredeti, nem korrigált változata, ám rossz tulajdonságai között meg kell említeni azt, hogy bizonyos esetekben negatív értéket is felvehet! A mutató a különböző modellek összehasonlításában kiemelkedő fontosságú, így nem véletlen, hogy a különböző regressziós szoftverek kiterjedten alkalmazzák. Az R mutató mellett számos más, hasonló célt szolgáló, más elméleti alapokon álló mutató létezik, melyek közül csak kettőt említenénk meg.. Akaike a mintában meglévő információ felhasználásának maximalizálását tűzte ki célul, és mutatója amely az AIC rövidítéssel vált ismertté- olyan konstrukciójú, hogy ennek minimálása a maximális információ-felhasználású modellhez vezet. A regressziószámításban alkalmazott leggyakoribb formája SSE AIC exp( k / n) min n Alakú. Ez a mutató is előnyben részesíti a jó illeszkedésű, ugyanakkor bünteti a nagy számú változót tartalmazó modelleket. Mivel a mutató az SSE-re épít, természetesen kis értékei jelzik a jó modellt.. Az SBC mutató is hasonló mutató, bár egész más elméleti megalapozottságú (bayes statisztikából származtatott). Ennek formája: SSE k / n SBC n min. n Ezek a mutató, bár árnyaltabbak mint a determinációs együttható, csupán durva indikációval szolgálhatnak, mintegy döntőbíróként szerepelhetnek a modellek összehasonlítása során, ám a lehető legjobb modell kialakításában szerepük meglehetősen passzív. 4.4. A regressziós modell feltételeinek ellenőrzése A standard lineáris regressziós modell feltételei:. A variancia állandó: Var( Y / X X i) Var( Y / X X j) σ.. Linearitás: EY ( i) β0 + βx + βx... + βpx p E( ε ) 0. 3. Függetlenség: az Y, Y,... valószínűségi változók függetlenek egymástól. 4. Normális eloszlás: az Y, Y,... valószínűségi változók normális eloszlást követnek: N( β + β X +... + β X, σ ). 0 p p A regressziós modell meghatározása után, az egyedi Y értékek és a várható érték eltérése meghatározható. Jelöljük ezt az eltérést ε -nal. Így felírhatjuk, hogy Y β + β X + + β X + ε 0... p p Akaike Information Criterion - AIC Schwarz Bayesian Criterion -SBC 8

ahol: ε, ε,... normális eloszlású, egymástól független változó: E( ε) 0 Var( ε) σ. Hogyan vizsgálhatjuk e feltételek teljesülését? Legegyszerűbben ezt úgy lehet megtenni, hogy a reziduumokat a becsült értékekkel szemben ábrázoljuk. (Tehát újra a jól bevált grafikus ábrázolás módszeréhez folyamodunk). Célszerű persze a reziduumok standardizált értékeit szerepeltetni az ábrán. A reziduumok standardizált értékeit a következő képlettel számíthatjuk ki: y y e $ ahol: s s e e e i n p. A modellspecifikáció helyességének eldöntésére célszerű még a standard reziduumokat az egyes tényezőváltozókkal szemben is ábrázolni. A gyakorlott szemnek az ábra sokat felfed arról, hogy a megszerkesztett modell a feltételeknek többé-kevésbé megfelel-e. A továbbiakban részletesen meg kell vizsgálni, hogy az ábra mellett milyen viszonylag egyszerű statisztikai próbák segíthetik a feltételek ellenőrzését. 4.4.. Homoszkedaszticitás tesztelése A homoszkedaszticitási feltétel azt követeli meg, hogy a maradékváltozó különböző X- értékekhez tartozó eloszlásai azonos szóródásúak legyenek. Ez egyfajta állandóságot jelent és egyebek közt azért lesz fontos, mert ez a feltétele annak, hogy a közös varianciát (és szórást) mintából becsülni tudjuk. Más szóval azt is mondhatjuk, hogy a véletlen maradékváltozótól elvárjuk, hogy állandó mértékben ingadozzék a regressziós egyenes körül. A variancia állandóságának ellenőrzése kiemelten fontos, mert keresztmetszeti modelleknél a tényezőváltozó(k) eltérő szintjein a hozzárendelt eredményváltozó értékek jelentősen eltérhetnek, szóródhatnak, idősoros modelleknél a tendenciát követő eredményváltozó szórása általában növekszik vagy csökken. A feltétel teljesüléséről grafikus ábrázolással győződhetünk meg legegyszerűbben: az empirikusan meghatározott reziduumokat egy-egy magyarázó változóval ábrázoljuk. Ha valamely ábrán a hibatényező tölcsér alakban nyílik vagy fordítva zárul, akkor a következtetésünk: heteroszkedasztikus a hibatényező. Ha a heteroszkedaszticitás közvetlenül valamelyik tényezőváltozóhoz kapcsolódik, akkor a feltétel teljesülése például Goldfeld-Quandt féle teszttel is ellenőrizhető, amelynél: H 0: σ j σ. H : σ σ X vagy σ σ j ji j A próba végrehajtásához célszerű a keresztmetszeti adatokat Y szerint rangsorba rendezni, majd a megfigyeléseket három részre osztani úgy, hogy az eloszlás elején és 9

végén ugyanolyan számosságú csoportokat képezzünk. Jelöljük a középső csoportba kerülő elemek számát r-rel (maradék). Az első és a harmadik csoportba tartozó adatokra kiszámítjuk a regressziós függvényeket és meghatározzuk a reziduális szórásnégyzeteket is. A nullhipotézis igaza esetén a varianciák χ n r eloszlást követnek és a részminták függetlenségéből adódóan ezek egymástól függetlenek. Így az alsó és felső részminta nagyságának azonossága miatt: e s F e s eloszlású próbafüggvényt használhatjuk a hipotézis vizsgálatához, amelynek szabadságfokai: ν n r, ν n r. A próbafüggvény elfogadási tartománya kétoldali alternatív hipotézis esetén : ν, ν F, F ν, ν α / α /. 4.4.. A hibatényező várható értéke nulla Ez a feltétel valójában azt fogalmazza meg, hogy a különböző X értékekhez tartozó maradékváltozók valóban semleges, maradék jellegűek legyenek, ne húzzanak tendenciaszerűen semerre. Ez egyébként nyilvánvaló követelmény, hiszen ha a 0 várható érték nem teljesülne, akkor ez olyan tendenciát jelezne, ami beépíthető lenne a modell determinisztikus részébe. A feltétel teljesülésének ellenőrzése a gyakorlatban nehéz, mivel a legkisebb négyzetek módszerének alkalmazásával eleve biztosított lesz az, hogy a maradéktag átlaga nulla. 4.4.3. Függetlenség A függetlenségi feltétel szerint az egyes megfigyelésekhez tartozó reziduumok egymással korrelálatlanok. Ha a modellt keresztmetszeti adatokra építettük, akkor a megfigyelések általában az egyszerű véletlen kiválasztás követelményeinek megfelelnek, s így feleslegessé válik e hipotézis ellenőrzése. A függetlenségi feltétel tartalmilag azt jelenti, hogy a különböző X értékek mellett megjelenő maradékváltozók ne korreláljanak egymással, azaz az egyik változóérték melletti kis vagy nagy értékeik ne jelentsenek semmiféle információt egy másik X érték esetére. Ettől eltérő a helyzet, ha a modellt idősoros adatokra építettük. Mielőtt az idősoros adatokra készített modellt felhasználnánk becslésre, meg kell határoznunk hogy milyen erős kapcsolat érvényesül a tényadatok és a modell által becsült adatok eltéréseként adódó reziduumok elemei között, azaz milyen erős a reziduális autokorreláció. Az elsőrendű autokorrelációs együtthatót a regressziós reziduumokból a következőképen lehet becsülni: A Durbin-Watson-teszt nullhipotézise és ellenhipotézise a következő: H 0 : ρ 0 H : ρ 0 0

A próbafüggvénnyel nem közvetlenül a ρ -t, hanem annak egy transzformáltját teszteljük a következő módon: n ei ei ˆρ i n. e i i Minthogy a modell az elméleti regressziós modellnek csak egy lehetséges közelítése, így szükséges a tapasztalati reziduális autokorreláció szignifikanciájának ellenőrzése. Az ellenőrzés általánosan elterjedt módszere a Durbin-Watson próba alkalmazása. A próbafüggvény: d n t ( e e ) t n i e t t ahol: et Yt Y $ t, azaz a t. időszakra az idősor tényadata és a modell által becsült adat különbsége: az empirikus reziduum. A fenti próbafüggvény értékét össze kell vetnünk a Durbin és Watson által megszerkesztett, a d eloszlását mutató táblázatban szereplő értékekkel. Ezzel azt a hipotézist ellenőrizzük, hogy a minta adatok mennyire támasztják alá azt a feltevésünket, hogy az elméleti reziduális autokorreláció értéke nulla. A d eloszlását mutató táblázatban az adott szignifikanciaszinthez két kritikus érték tartozik: d L és d U, a mintanagyság és a változók száma szerint. A döntéshozatal előtt nézzük meg, hogy milyen összefüggés mutatható ki az autokorrelációs együttható ( ρ ) és a d mutató között: d ( ρ ). A próba döntési szabálya egy kicsit bonyolultabb a korábban megszokottaknál. Ha a próbafüggvény (d) empirikus értéke a 0-d L tartományba esik, a döntés az, hogy a maradékváltozó szignifikáns mértékű pozitív autokerrelációt tartalmaz. Ha a próbafüggvény empirikus értéke a d L -d U tartományba esik, e próba alapján nem tudunk dönteni, ezt a tartományt semleges zónának nevezzük. Ha próbafüggvényünk empirikus értéke a d U -(4-d U ) tartományba esik, a nullhipotézist, azaz a maradékváltozó elsőrendű autokorrelációtól való mentességét nem tudjuk elutasítani. Ennek a tartománynak a közepe. Ha próbafüggvényünk empirikus értéke a (4-d U )-(4-d L ) tartományba esik, ismét semleges zónában vagyunk, és nem tudunk dönteni. Ha próbafüggvényünk empirikus értéke a (4-d L )-4 tartományba esik, döntésünk szignifikáns negatív autokorreláció. A próba alkalmazásával kapcsolatban két dologra hívjuk fel a figyelmet. Az egyik az, hogy ez a teszt a pozitív, illetve negatív autokorrelációt mindig az ellenkező oldalon mutatja. A másik

fontos dolog a semleges zónákra vonatkozik. Ha próbafüggvényünk értéke ezek valamelyikébe esik, nem tudunk dönteni. Ekkor vagy a szignifikancia-szintet változtatjuk úgy meg, hogy döntési helyzetbe kerüljünk, vagy más próbafüggvényhez kell fordulnunk. Végezetül ki kell emelni, hogy reziduális autokorrelációt okozhatnak a következő esetek: ha a modellben nem szerepeltettünk minden lényeges magyarázóváltozót (a reziduum nagysága nemcsak a véletlentől, hanem a mulasztástól is függ), ha helytelen a modellspecifikáció, a változók között például nem lineáris a kapcsolat, azonban mégis lineáris regressziós modellt illesztettünk ( a helytelenül illesztett modell reziduumai tendenciát követnek! ), nem véletlen jellegű mérési hibák. 4.4.4. Normális eloszlás Ez a feltétel részben kényelmi okokból indokolható, de kétségtelen, hogy az esetek jó részében a maradékváltozók sok, egymástól független, a modellben figyelembe nem vett hatás eredőjéből tevődnek össze, ami indokolhatja a normalitás feltételezését. Az empirikus eloszlást vizsgálhatjuk a hipotézisvizsgálat során megismert illeszkedésvizsgálati teszttel ( χ próba ). A nullhipotézisben szereplő valószínűség a normális eloszlás megfelelő valószínűségi értéke: H 0: Pr( ε j) Pj. H: j: Pr( ε ) P j j A próbafüggvény: ( f n P) n P k χ i i i, ahol: k a képzett osztályközök száma. A null-hipotézis elfogadási tartománya: 0 χ χ α,k b. A normális eloszlás a standardizált hibaváltozó értékei és a standardizált hiba normális eloszlását feltételező várható értékek ábrázolásával, s ezen értékeken alapuló próbafüggvénnyel is vizsgálhatók, s így a normalitás ellenőrzése egyszerűbbé válik. A hipotézis változatlan: H 0: Pr( ε j) Pj. H: j: Pr( ε ) P A hipotézis ellenőrzésére használt próbafüggvény: C * ee r n σ σ. e j * e A H 0 elfogadási tartománya: r r c, míg H 0 visszautasítási tartománya: r j r c.

4.5. A multikollinearitás A többváltozós lineáris regressziós modell széles körben használt, hatékony elemzési eszköznek bizonyul olyan esetekben, amikor valamelyik jelenségnek több más jelenségtől való egyidejű függőségét vizsgáljuk. A többváltozós regressziós elemzésnél is, mint minden statisztikai módszer alkalmazásánál, a módszer hatékonysága nagyban függ attól, hogy az alkalmazás feltételei mennyiben állnak fenn. Fontos kérdés továbbá, hogy milyen következményekkel kell számolnunk, és mit kell tennünk olyan esetekben, amikor e feltételek nem, vagy nem teljesen állnak fenn. A standard lineáris regressziós modell feltétele megköveteli, hogy az [n(p + )]-ed rendű X mátrix rangja p + legyen, azaz ne legyen lineáris függőség a magyarázó változók között. Ennek az alapvető feltételnek az a magyarázata, hogy a legkisebb négyzetek elve alapján becsült regressziós együtthatók ( b i ; i,,, p ) meghatározásához szükség van az X X mátrix inverzére. Mint ismeretes az X X mátrix csak akkor invertálható, ha az X mátrix és az X X mátrix rangja p +, azaz megegyezik a változók számával. Amennyiben az X X szinguláris, vagyis az X mátrix rangja kisebb, mint p +, a modell együtthatói nem becsülhetők. Ez az eset akkor áll fenn, ha a magyarázó változók egyike kifejezhető a többi magyarázó változó lineáris kombinációjaként. Szokás ezt az esetet teljes, vagy extrém multikollinearitásnak is nevezni. A teljes multikollinearitás fennállására egyértelműen fény derül, ezért nem okoz különösebb problémát az elhárítása. A lineáris függőségben lévő változók egyikét elhagyjuk, hogy létrehozzuk a magyarázó változók lineárisan független rendszerét. Így a modellben kevesebb, azonban kölcsönösen lineárisan független magyarázó változó szerepel. Sok esetben nem könnyű annak eldöntése, hogy a lineáris függvénykapcsolatban lévő magyarázó változók melyikét kell elhagyni, és melyiket kell a regressziós modellben figyelembe venni. Ez a döntés mindenekelőtt alapos közgazdasági megfontolást igényel. A gyakorlatban a teljes multikollinearitás viszonylag ritkán fordul elő. Jóval gyakrabban találkozunk viszont a multikollinearitás olyan esetével, amikor a magyarázó változók között lineáris összefüggés van, azonban ez nem egzakt lineáris függvénykapcsolatban, hanem sztochasztikus kapcsolatban fejeződik ki. Itt szó lehet arról is, hogy a magyarázó változók között fennálló egzakt lineáris összefüggés azért jelenik meg sztochasztikus összefüggésként, mert az adatokban mérési, megfigyelési hiba is jelen van. A multikollinearitás jelenléte zavarja a modell specifikálását, és általában csökkenti a modellből nyerhető információ minőségét. Káros hatása egyrészt abban nyilvánul meg, hogy növeli a paraméterek varianciáját. A gyakorlati elemzéseknél ez olyan következményekkel is járhat, hogy indokolatlanul kihagyunk egyébként releváns változókat. Kollineáris magyarázó változók esetén nem lehetséges az egyes tényezőváltozók hatásának elkülönítése, szeparált vizsgálata sem. A multikollinearitás megnyilvánulhat abban is, hogy a paraméterek mintánként nagy különbözőséget mutatnak, illetve a minta néhány pótlólagos megfigyeléssel történő kiegészítése lényeges változást idézhet elő a paraméterek értékeinél. 4.5.. A multikollinearitás mutatószáma Új változó bekapcsolása a modellbe növeli (a kapcsolat teljes hiánya esetén nem változtatja meg) a determinációs együtthatót. A változó hatása két tényezőtől függ: egyrészt attól, hogy a modellben már szereplő változók a függő változó varianciájából mennyit hagynak magyarázatlanul, másrészt attól, hogy az újonnan bekapcsolt változónak mennyi a modellben lévő változókra számított parciális determinációs együtthatója. 3