TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS

Átírás

1 Miskolci Egyetem GAZDASÁGTUDOMÁNYI KAR Üzleti Információgazdálkodási és Módszertani Intézet TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS Oktatási segédlet Készítette: Domán Csaba egyetemi tanársegéd 005.

2

3 A REGRESSZIÓS MODELLEK NÉHÁNY KÉRDÉSE A regressziós modellek az idősoros módszerekhez képest más gondolkodásmódot követelnek az alkalmazóktól. Az idősoros modellek az idősor mozgását önmagában vizsgálták, s még a legfejlettebb, legbonyolultabb modell is csak arra képes, hogy az idősor adatainak változásait a lehető legjobban kövesse. Ezzel szemben a regressziós modellek esetében olyan változót, vagy változókat használunk (tényezőváltozó), amelyek az általunk modellezni kívánt változó (eredményváltozó ) mozgását jól követik, lévén, hogy arra törekszünk, hogy a környezetben olyan tényezőváltozókat keressünk, amelyek az eredményváltozó alakulására közvetlenül, vagy közvetve hatnak. Ha regressziós modellt egy adott időpontra, vagy időszakra vonatkozó megfigyelések adatbázisára épül, akkor e modellt keresztmetszeti (cross-sectional regression) modellnek nevezzük. Meghatározható tehát, hogy az eredményváltozó alakulásában mely független változó(k), illetve ezen változó(k) milyen mértékben játszanak szerepet. A regressziós modellt megszerkeszthetjük a változók idősora alapján, ekkor idősoros regressziós modellt (timeseries regression) kapunk. A vállalati gyakorlatban elterjedtebb, hogy rendelkezésre áll mind az eredményváltozó, mind a vele sztochasztikus kapcsolatban levő tényezőváltozó, vagy változók idősora. Korábbi tanulmányaink során a korrelációs összefüggést két mennyiségi ismérv között értelmeztük. A társadalmi-gazdasági élet jelenségei azonban sokkal összetettebbek, bonyolultabbak annál, mint amit két tényező összefüggése kifejez. Egy-egy jelenség változása általában több tényező változásával van összefüggésben. A gyakorlatban általában nem lehetséges egyetlen magyarázóváltozó segítségével leírni a vizsgált jelenség alakulását. A kétváltozós kapcsolat vizsgálatánál az Y-ra ható tényezők közül csak egyet, X-et választottunk ki feltételezve, hogy ennek hatása jelentős. Például egy dolgozó havi bruttó átlagbérét jelentősen befolyásolja az iskolai végzettségük foka. Azonban a gazdasági társaságok gazdálkodásának mutatóit vizsgálva arra a következtetésre jutunk, hogy az eredmény alakulását több tényező befolyásolja (pl: nettó árbevétel, hatékonyságot kifejező vagyonarány mutató stb.). Az eredményváltozóra ható tényezők körének kibővítésével többszörös vagy többváltozós sztochasztikus kapcsolathoz jutunk. 3

4 . Modellszerkesztés A többváltozós regresszió-analízis segítségével több ismérv eredményváltozóra gyakorolt hatását vizsgáljuk. A kapcsolat az ismérvek száma szerint három-, négy-, öt- stb. változós, a függvény típusa szerint pedig lineáris és nemlineáris kapcsolat lehet. A többváltozós függvények értelmezése nehezebb, mint a kétváltozós kapcsolatoké, ezek függvényképe már csak térben írható le. Grafikus ábrázolásuk is problémásabb, ugyanis három változónál többet három dimenziós térben csak nagyon erős megszorítások mellett vetíthetünk ki. Ezért a legmegfelelőbb függvénytípus kiválasztása a tényezők hatásának számszerűsítése többirányú megfontolást, körültekintőbb szakmai mérlegelést tesz szükségessé. A regressziós modellek szerkesztésekor legelső feladatunk, hogy megkeressük azokat a változókat, amelyek feltevésünk szerint az eredményváltozóval lényeges (szignifikáns) kapcsolatban vannak. Az így meghatározott magyarázó- és eredményváltozók kapcsolata persze csak hipotetikus, azt első lépésben ellenőrizni kell, hogy feltevésünk a konkrét megfigyelések függvényében mennyire állja meg a helyét. A többváltozós lineáris regressziós modellt az alábbi matematikai egyenlettel írhatjuk fel: Yβ 0 +β x +β x + +β p x p +ε ahol, β,β β m a ható tényezők β 0 a függvény konstans tagja ε a regressziós egyenes hibatagja. Fő feladatunk az ε hibatag minimalizálása, amit akkor érünk el, ha a becslőfüggvény értékei minimálisan térnek el az eredeti tapasztalati értékektől. Vagy az eltérések négyzetösszegén értelmezve: n i e [ Y ( β + β x + β x β x )] min 0 Az egyenletrendszer megoldásához szükséges paraméterek a fenti egyenlet β 0, β, β m szerinti parciális deriváltjainak meghatározásával állíthatóak elő. A többváltozós függvények illesztésének pontosságát a regressziós függvény hibájának nagysága alapján ítélhetjük meg. Az illesztés hibája (s e ): ˆ e ( yi Yi ) se n n Az illesztés relatív hibája (vagy pontossága): se V 00 Yˆ A relatív hiba azt fejezi ki, hogy a számított y i értékek, azaz a regressziós becslések átlagosan hány %-kal térnek el az eredményváltozó mért y i értékeitől. Minél kisebb a relatív reziduális szórás, annál jobban illeszkedik a regressziós függvény a pontdiagram pontjaira. A gyakorlatban, általában 0% alatti relatív hiba esetén fogadjuk el jónak a regressziós becslést, a regressziós függvény illeszkedését. A többváltozós lineáris regressziós modell paramétereit mátrixalgebrai jelölésekkel is kiszámíthatjuk. A számításhoz az alábbi mátrixokat kell felhasználni. s e p p 4

5 (Az alábbi mátrixok háromváltozós regresszió-függvényre vonatkoznak. Természetesen mindegyik bővíthető a változók számának növelésével.) Együtthatómátrix: X T X n x x i i x x x i i i x i x x i x i i xi X T y vektor: X T y yi xi yi x i yi Számítástechnikai szempontból az inverz mátrix létezése lehet kétséges. A gyakorlati regresszió-számítási feladatoknál azonban általában teljesül az a feltétel, hogy a normálegyenletek független egyenletrendszert alkotnak. Ezért az együtthatómátrix nem szinguláris, és így invertálható. A regresszió-függvény paramétereit az alábbi szorzat adja meg: b0 T T X X X y b b b A regresszió-függvény paramétereinek értelmezése: ŷb 0 +b x +b x + +b p x p A regressziós együtthatók egy-egy tényezőváltozó részleges hatását mutatják, ezért ezeket parciális regressziós együtthatóknak nevezzük. Szokásos a mutató parciális jellegét a jelölésben is érzékeltetni. Például b így is írható: b y., ami arra utal, hogy az eredményváltozóban csak x hatása mutatkozik meg, x változatlan. A b 0 a konstans, az x x 0 helyen vett függvényérték, ha ott értelmezve van. Értelmezése logikailag nem indokolt a legtöbb esetben. A b, b, b p parciális regressziós együtthatókat a következőképpen értelmezzük: Ha x i értéket egy egységgel növeljük miközben a többi x i értéket változatlanul hagyjuk-, akkor az eredményváltozó (Y) becsült értéke (ŷ) éppen b i egységgel változik. (A változás növekedés vagy csökkenés lehet b i előjelétől függően.) A regressziós együttható tehát kifejezi, hogy egy adott tényezőváltozó egységnyi növekedése mekkora növekedést (vagy csökkenést) okoz az eredményváltozó becsült értékében, miközben a többi tényezőváltozó értéke változatlan. 5

6 . Mesterséges változók alkalmazása Gyakran fordul elő, hogy az eredményváltozó alakulását minőségi jellemzők is befolyásolják, így ha a vizsgálatoknál azok hatásait nem szerepeltetjük, akkor lényeges hatótényezőktől tekintünk el, s így könnyen adódhat, hogy a felépített modell hibatényezője lényeges hatótényező hiányát mutatja. Eddig csak olyan eseteket tárgyaltunk, amelyben a regressziós modell változói legalább sorrendi (ordinális) skálán mérhetőek. Vizsgáljuk meg, hogy a regressziós modell változói között hogyan szerepeltethetők minőségi ismérvek. Ha a minőségi ismérvnek két változata lehetséges, illetve megoldható annak alternatívvá alakítása, akkor numerikussá tehető úgy, hogy az egyik előfordulást 0 értékkel, a másik előfordulást értékkel tesszük egyenlővé. O z, ha nem teljesül a feltétel., ha teljesül a feltétel Az így definiált változót Bernoulli vagy dummy változónak nevezzük. Általánosan az fogalmazható meg, hogy ezen változók felhasználásával ismert, feltárt és kimutatott, de egzaktan mégsem számszerűsíthető hatásokat lehet szerepeltetni az adott regressziós modellben. Ha a dummy változó értékeit definiáltuk, akkor szokásos módon határozzuk meg a regressziós modellt. Ilyen dummy változó lehet: nem (férfi - nő), földrajzi elhelyezkedés ( főváros - vidék, de lehet szerepeltetni a régiókat, vagy a megyéket is a modellben, bár itt csak több alternatív ismérv kombinációjával ), szakképzettség (szakképzett-szakképzetlen), iskolai végzettség (több alternatív ismérv kombinációjával például: egyetem - főiskola - középiskola - általános iskola), szezonális idősornak az éven belüli szezonok kimutatása (több alternatív ismérv kombinációjával például a negyedévek) vagy a kiugró értékek (outlier) szerepeltetése (szokásostól eltérő állapot - szokásos állapot). Tegyük fel, hogy a testsúly és a testmagasság összefüggését vizsgáljuk egy n elemű minta alapján. Az adatfelvétel során a nemet is rögzítették. Az n elemű minta alapján a regresszió-függvény a következőképpen adható meg (általános formában): Y$ $ β + $ β X + $ β Z 0 ahol: Y : testsúly (kg), X : magasság (cm), Z : a nemet jelző dummy változó ( Z, ha az illető férfi, Z 0, ha az illető nő). Ha egy mesterséges változó kettőnél több értéket vehet fel, azt proxy változónak hívjuk. E változó alkalmazásának körülményei hasonlóak az előbbieknél, a közvetlenül nem mérhető jelenségeket a vele összefüggésben levő, mérhető változóval közelítjük. Elterjedten alkalmazott proxy változó az időváltozó. Mivel a LNM a tényezőváltozókat nem tekinti valószínűségi változónak, így azok eloszlásának eltérése a mennyiségi ismérvek eloszlásától, illetve az eloszlás kérdése nem merül fel, mint alkalmazási probléma. 6

7 . Többváltozós korrelációszámítás A többváltozós lineáris regressziós modellben arra a kérdésre is választ keresünk, hogy az egyes tényezőváltozók tisztán, önmagukban milyen szoros kapcsolatban vannak az eredményváltozóval. A regresszió-számítással szemben a korreláció szorosságának vizsgálatakor minden változót valószínűségi változónak tekintünk. Vagyis kizárjuk az olyan kontrollált kísérletek eredményeként kapott magyarázóváltozókat, amelyekkel a többi befolyásoló tényező értékét rögzíteni tudjuk, és így hatásukat a vizsgálat során ellenőrzésünk alatt tartjuk. Az eredményváltozót ennek ellenére megkülönböztetjük a tényezőváltozóktól. Ezt azonban csak amiatt tesszük, hogy jelölésrendszerünk összhangban legyen a regressziószámításnál tanultakkal. A kapcsolat szorosságának vizsgálata önmagában a megkülönböztetést nem tenné szükségessé. Kettőnél több változó esetén a korreláció szorosságáról háromféle értelemben beszélhetünk. A kapcsolat szorossága vizsgálható páronként, továbbá páronként, de a többi változó hatásának kiszűrésével. Végül pedig az eredményváltozó és az összes tényezőváltozó közötti szorosság is mérhető... Páronkénti korrelációs együttható Korábbi tanulmányaink során már megismerkedtünk a kétváltozós lineáris korrelációs és determinációs együttható számításával, így ezekkel e témakörben részletesen nem foglalkozunk.. Parciális korrelációs együttható A parciális korrelációs együttható annyiban különbözik a páronkénti együtthatótól, hogy számításánál a többi változótól nem tekintünk el, de hatásukat kiküszöböljük. Az így kapott parciális korrelációs együttható az mutatja meg, hogy milyen szoros a kapcsolat valamelyik kiválasztott tényezőváltozó és a függő változó között, ha a többi tényezőváltozó hatását mind a vizsgált tényezőváltozóból, mind az eredményváltozóból kiszűrjük. Kiindulásként írjuk fel az (m+) változós modell korrelációs mátrixát (R): ry ry... ryp r y r... r p R r... y r r p M M M M M rpy rp rp... Az R korrelációs mátrix a modellben számítható összes kétváltozós korrelációs együtthatót tartalmazza. A mátrix első sora és első oszlopa az eredményváltozó és az egyes tényezőváltozók közötti kapcsolat szorosságát mérő lineáris korrelációs együtthatókat tartalmazza, a mátrix többi eleme pedig a tényezőváltozók egymás közötti korrelációját méri. A korrelációs mátrix szimmetrikus mátrix, a fődiagonálisában lévő elemek értéke, ami a kétváltozós lineáris korrelációs együttható képzési módjából közvetlenül adódik. Az R mátrix 7

8 számos információt tartalmaz a kapcsolat természetére vonatkozóan. Megállapítható, hogy melyek azok a magyarázó változók, amelyek a legszorosabb összefüggésben vannak a függő változóval és mely magyarázó változók között van számottevőbb korrelációs összefüggés. Ez utóbbi a multikollinearitás veszélyére hívja fel a figyelmet. Háromváltozós modellben az Y és X változó közötti parciális korrelációs együtthatót a következő módon számíthatjuk ki: ry ry r ry. ( r ) * ( r ) y Hasonlóan felírható az r y. és az r.y korrelációs együttható is. A parciális korrelációs együttható pozitív korrelációnál pozitív, negatív korrelációnál negatív előjelű lesz, abszolút értéke 0 és között helyezkedik el. A sokváltozós modellben általánosan a korrelációs mátrix inverze alapján határozhatjuk meg a parciális korrelációs együtthatókat. A korrelációs mátrix inverze: q q M R q M q yy y jy py q q q q y M j M p L L M L M L q q q q yj j M M jj pj L L M L M L q yp q p M q jp M q pp A parciális korrelációs együtthatókat az inverz mátrixból a következő összefüggés szerint számolhatjuk ki: r yj.,...,( j ),( j+ ),..., p q q yy yj q jj A parciális korrelációs együttható az Y és az X j változók kapcsolatának szorosságát méri, miután a többi (m-) magyarázó változó hatását mindkét változóból kiszűrtük. A parciális korrelációs együttható négyzetét parciális determinációs együtthatónak nevezzük. A parciális determinációs együttható arra ad választ, hogy az X j magyarázó változó mekkora hányadot képes megmagyarázni az Y függő változó varianciájának azon részéből, amelyet az X, X, X j-, X j+,,x p változók nem képesek megmagyarázni. Gyakran előfordul, hogy a korrelációs mátrix mellett a változók páronkénti kovarianciamérőszámait tartalmazó, variancia-kovariancia mátrixra is szükségünk van. A mátrix általános formája a következő: C yy C y L C yp Cy C L C p C, M M M M C py C p L C pp ahol C yj az eredményváltozó és a j-edik magyarázóváltozó; C ij pedig az i-edik és a j-edik magyarázóváltozó kovarianciája. A mátrix diagonális elemei pedig a regressziós modellben szereplő változók szórásnégyzetei. 8

9 .3. Többszörös korrelációs együttható A többváltozós lineáris regressziós modellnél az eredményváltozó (Y) és a magyarázó változók (X, X,,X p ) együttes összefüggését is vizsgáljuk. A tényezőváltozók és az eredményváltozó közötti korreláció szorosságát a többszörös korrelációs együttható méri. A többszörös korrelációs együttható olyan speciális kétváltozós korrelációs együttható, amely az Y és az X, X,,X p tényezőváltozók alapján becsült Yˆ kapcsolatának szorosságát méri. A háromváltozós modellben a többszörös korrelációs együtthatót a kétváltozós korrelációs együtthatók felhasználásával is kiszámíthatjuk: R y., r y + r y r r y r r y A többváltozós modellben általánosan a korrelációs mátrix inverze alapján határozzuk meg a többszörös korrelációs együtthatót. Ry.,,..., p q yy A többszörös korrelációs együttható előjelét mindig pozitívnak tekintjük..4. Többszörös determinációs együttható A többszörös korrelációs együttható négyzetét többszörös determinációs együtthatónak nevezzük. A mutatószámmal azt mérjük, hogy a független változók együttesen milyen erősséggel határozzák meg az Y változó ingadozását. Másképpen fogalmazva az együttható arra ad választ, hogy a függő változó teljes szórásnégyzetéből mekkora a regressziónak tulajdonítható, tehát a tényezőváltozókkal megmagyarázható hányad. Az R jellemzői: értéke 0 és között lehetséges, a maximális értéket akkor veszi fel, ha az X változók determinisztikusan meghatározzák Y-t, 0 az értéke, ha az Y szóródását teljes egészében a véletlen magyarázza, %-os formában értelmezzük. A többszörös determinációs együttható: Ry.,,..., p q yy A többszörös determinációs együttható kifejezhető a többváltozós modellben alkalmazott eltérés-négyzetösszegek hányadosaként is: SSR R SST 9

10 .5. Parciális rugalmassági együttható A kétváltozós regressziós modellhez hasonlóan a többváltozós regressziós modellben is gyakran használjuk a regressziós együtthatók mellett az elaszticitási mutatószámokat, amelyek ekkor szintén parciális értelmezésűek. Az eredményváltozó rugalmasságát azonban egyszerre csak az egyik magyarázóváltozó szerint vizsgálhatjuk, miközben a többi magyarázóváltozó értékét rögzítjük. Az eredményváltozónak a j-edik magyarázó változó szerinti parciális rugalmassága (elaszticitása) azt mutatja meg, hogy a megfelelő magyarázó változó valahonnan kiinduló %-os növekedésével (csökkenésével) hány %-os növekedés (csökkenés) mutatkozik az eredményváltozóban, feltéve, hogy az összes többi tényező nem változik (ceteris paribus). Általános képlete: Eˆ j j ( yˆ, x j x x*, x x*,... xk xk * ) b + b x bk xk Ami már egy százalékosan értelmezhető mutatószámot eredményez. A parciális rugalmassági együttható nagysága attól függ, hogy azt a magyarázóváltozók milyen színvonala mellett számítjuk. b x,.6. Korrelációs index Nemlineáris esetekben ajánlott kapcsolat-szorossági mérőszám a korrelációs index, amely az eredeti változók közötti kapcsolat szorosságát mutatja: ( yi yˆ ) ( yi y) I Az I mutató szerkezete és tartalma világos, hiszen analóg a lineáris esetben a determinációs együtthatóból vont négyzetgyökkel. Az index értéke 0 és között helyezkedik el. Látható, hogy amennyiben az illeszkedés jó, a mutató értéke -hez közelít, míg alacsony I esetén a maradék-négyzetösszeg viszonylag nagy, ami rossz illeszkedésre utal. Az index esetén fontos megjegyezni, hogy a mutató irányt nem jelez. Kellemetlen tulajdonsága, hogy nem mindig van valós érték, hiszen nemlineáris regresszió esetén előfordulhat, hogy a gyök alatt álló kifejezés negatív lesz. Ennek oka, hogy nemlineáris esetben a négyzetösszeg-felbontás nem úgy teljesül, mint lineáris esetben..7. Korreláció idősoros adatok esetén Ha változóként idősorokat kívánunk felhasználni, akkor az eredményváltozó alakulását legjobban meghatározó változók kiválasztásakor a kapcsolat-szorossági mérőszámok akár csődöt is mondhatnak. Az annak tudható be, hogy az idősor tagjai nem függetlenek egymástól. A vállalati gyakorlatban döntő többségében olyan idősorokat találunk, amelyekben létezik alapirányzat (trend), azaz az idősor egyes tagjai valóban nem függetlenek egymástól. Idősorok esetében tehát a mutató akkor jelez szoros kapcsolatot valamely magyarázó változó és az eredményváltozó között, ha az adott magyarázó változó alapirányzata közel esik az eredményváltozó alapirányzatához. 0

11 Ezért az esetek legtöbbjében az idősorból el kell tüntetni az alapirányzatot, azaz meg kell határozni a változók trendértékeit, majd ezeket kivonva az idősor tényleges értékeiből: az eredményváltozónál: k y y yˆ az i-edik tényezőváltozónál: k x i xi xˆ i Majd az így képzett változókra határozzuk meg a lineáris korrelációs együtthatót: d k * d y k xi r n * sk * x y k xi Ez a mérőszám már valóban alkalmas arra, hogy választ adjon arra a kérdésre, hogy az i-edik magyarázóváltozó és az eredményváltozó kapcsolata tekinthető-e jelentősnek önmagában, az idő hatásának kiszűrésével. 3. Statisztikai következtetések a lineáris regressziós modellben 3.. Intervallumbecslés a többváltozós regressziós modellben Konfidencia intervallumokat nemcsak a regressziós együtthatókra, hanem a regressziós modell becsült értékeire is számíthatunk. A regressziós becslést úgy is értelmezhetjük, mint a regressziós együtthatók adott lineáris kombinációját. A konfidenciaintervallum-számítás során a fontosabb feladat azonban nem a becsült paraméterek intervallumának, hanem a függvényérték intervallumának a becslése. Erre vonatkozó eredményeink szintén hasonlók mindahhoz, amit a kétváltozós esetben származtattunk, a különbség mindössze annyi, hogy a függvényértékek kiszámításakor a mátrixalakokat használjuk, a t-eloszlású változó pedig n-p- szabadságfokú. Ha tehát egy xx 0 pontban keressük a becsült függvényértéket, akkor az ˆ ' Y 0 x 0 βˆ becsült függvényérték torzítatlan becslést ad egyrészt a megfelelő pontban a regressziós függvényértékek várható értékére (átlagbecslés), másrészt ugyancsak ebben a pontban a sokasági elemekre. A varianciák azonban a két esetben különbözők. Az átlag varianciáját a ' ' ' var Yˆ x var ˆ β x σ x X X x ( ) 0 ( ) 0 e 0 ( ) 0 formában határozhatjuk meg, ha pedig mintából becsüljük, akkor a σ -et s e -tel becsülve a varianciára torzítatlan becslést kapunk: ' ' ( yˆ ) se x0 ( X X ) x0 var, Aminek négyzetgyöke a standard hiba: s ' yˆ s e x 0 ' ( X X ) x0 A konfidencia intervallumot -α megbízhatósági szinten a regressziós becslés és a variancia alapján az alábbi formulával számíthatjuk ki (konkrét minta esetén): ' yˆ ± t * α s ' ye ˆ A számítási módból is következik, hogy a függő változó várható értékére számított konfidencia intervallum nagysága a magyarázó változók adott értékeitől, valamint a paraméterek varianciájának és kovarianciáinak nagyságától függ.

12 Amennyiben csak egyetlen független változónk van, az eredeti adatok függvényében még aránylag egyszerűen felírható a becslőfüggvényünk: Az egyedi értékek esetén az Yˆ yˆ + ε összefüggés alapján azt kapjuk, hogy Var A becsült hiba pedig [ 0 x0 ] ' ' ( Yˆ ) σ + x ( X X ) ' ( X X ) 0 '' s yˆ se + x0 x Az intervallumbecslés ekkor '' yˆ ± t * s α yˆ Ez olyan intervallumot jelent, amelyik -α megbízhatósággal adja meg azokat a határokat, amelyek tartalmazzák az x 0 -hoz tartozó ismeretlen sokasági Yˆ értéket. 3.. Hipotézisvizsgálat Többváltozós statisztikai modell esetében, akárcsak a kétváltozós esetben, a hipotézisvizsgálat három kérdésre keresi a választ:. A kapott (becsült) paraméterek jók-e, azaz a nekik megfelelő változók jó magyarázó változók-e a regressziós modellben?. A változók együttesen kielégítő módon magyarázzák-e az eredményváltozót? 3. A modellfeltételek a becslések tükrében helytállóak voltak-e, avagy empirikus eredményeink arra utalnak, hogy ezek valamelyike nem teljesült? Az első esetben a paraméterek teszteléséről beszélünk, és nullhipotézisünk az, hogy a j-edik sokasági paraméter értéke 0, ellenhipotézisünk pedig az, hogy nem, azaz H : β 0 0 j H : β j 0 Látható, hogy a nullhipotézis azt jelenti, hogy a j-edik magyarázó változó regressziós együtthatója 0, azaz a j-edik változó tetszőleges elmozdulása nem befolyásolja az eredményváltozót. Ezért ha a próba során a nullhipotézis mellett döntünk, egyben azt is állítjuk, hogy a j-edik magyarázó változó nem magyarázza az eredményváltozót, tehát szerepeltetése a regresszióban felesleges. Ellenkező esetben, ha az ellenhipotézis fogadható el, a j-edik magyarázó változó sokasági értéke szignifikáns mértékben különbözik 0-tól, tehát a j- edik magyarázó változó valóban magyaráz, jó, releváns változó a regresszióban. A hipotézis tesztelésére a t-próbát alkalmazzuk. A próbát külön-külön valamennyi paraméterre el kel végezni, és ennek eredményeképp képet kapunk arról, hogy az egyes változók lényeges mértékben hozzájárulnak-e az eredményváltozó magyarázatához. A próba elvben a konstans együtthatójára is alkalmazható, és értelmezése ott is ugyanaz, mint bármely más paraméter esetén. Ennek ellenére a konstans esetében többnyire nem végezzük el a próbát, azaz a t-értéktől függetlenül a konstanst mint az illeszkedést segítő paramétert megtartjuk a modellben. A második esetben a vizsgálat arra irányul, hogy a modell elégséges-e abban az értelemben, hogy a magyarázó változók összességükben kielégítően magyarázzák-e az eredményváltozót. Ennek tesztelése a varianciaanalízis segítségével történik. A nullhipotézisünk ezúttal az, hogy a magyarázó változók sokasági együtthatói mind 0-k, azaz

13 H 0 : β β K β k 0, ellenhipotézisünk pedig az, hogy létezik legalább egy olyan együttható, amely sokasági szinten nem nulla, azaz H : β j 0. Látható, hogy a nullhipotézis azt jelenti, hogy a modellünk egészében rossz, míg az ellenhipotézis azt monda ki, hogy van legalább egy változó a modellben, amit érdemes megtartani, tehát a modellt nem lehet eleve elutasítani. Ebben az értelemben valójában a varianciaanalízis próbája logikailag megelőzi a t-próbát, hiszen ha a varianciaanalízissel megállapítjuk, hogy a modell rossz, akkor nincs mit elemezni a továbbiakban ha pedig van benne valami, akkor érdemes a t-próba alkalmazásával megkeresni azokat a relációkat, ahol érdemleges kapcsolatok találhatóak. A varianciaanalízis próbáját a próbafüggvényről F-próbának, vagy az egész modellre történő alkalmazására utalva, globális F-próbának szokták nevezni. A próba alapötlete: a nullhipotézis fennállása esetén a regresszió által magyarázott négyzetösszeg és a maradék-négyzetösszeg alkalmasan normált hányadosa F-eloszlást követ, és ha a nullhipotázis ne igaz, akkor ugyanez a hányados növekszik, ezért a mullhipotézis elutasítási tartománya a jobb oldalon jelenik meg. Mindez formálisan úgy néz ki, hogy az eredményváltozó varianciáját a regressziós modell és a hibatényező hozzájárulására bontjuk fel. A többváltozós regressziós modell feltételei segítségével bizonyítható, hogy többváltozós esetben is felírható az eltérés-négyzetösszegek között a következő összefüggés: n i n ( y y) ( yˆ y) + ( y yˆ ) i i i SSTSSR+SSE n i A függő változó átlagtól vett eltérésnégyzet-összegének (SST) két komponense tehát: a regressziós becslések átlagtól vett eltérésnégyzet-összege (SSR) és a reziduális négyzetösszeg (SSE). A mintákból meghatározott négyzetösszegek segítségével vizsgálhatjuk a nullhipotézis fennállását: SSR p F, SSE n p ahol a számláló szabadságfoka: szf m, a nevező szabadságfoka pedig: szf n-p-. Az F-próba végrehajtása után az alábbi megállapításokat tehetjük: Ha a számított érték kisebb, mint a kritikus érték, akkor a nullhipotézis elfogadjuk, és megállapítjuk, hogy a vizsgált szignifikancia-szinten a modell nem jó, a magyarázó változók nem tudtak érdemben több magyarázatot adni az eredményváltozó alakulására, mint az eredményváltozó egyszerű mintaátlaga. Ha a számított érték nagyobb vagy egyenlő a táblázatból kikeresett kritikus értéknél, akkor az adott szignifikancia-szinten a modell nem utasítható el egyértelműen, legalább egy lényeges relációt megragad, ezért érdemes tovább vizsgálni. A varianciaanalízis számításait és eredményeinek bemutatását a nemzetközileg is szabványosnak tekinthető ANOVA (ANalysis Of VAriance) táblázatok segítségével szoktuk rendezni. Az ANOVA tábla általános sémája a következő: i i 3

14 A variancia forrása Eltérésnégyzetösszeg (SS) Szabadságfok (DF) Átlagos négyzetösszeg (MS) F-érték Regresszió (R) SSR p MSRSSR/p Hibatényező (E) SSE n-p- MSESSE/(n-p-) MSR F MSE Teljes (T) SST n- - Ennél a próbánál egyre gyakoribb az, hogy a számítások során nem csupán a próbafüggvény empirikus értékét adjuk meg, de kiszámítjuk, illetőleg megadjuk az empirikus szignifikanciaszintet (a p-értéket) is. A 0-hoz közeli p-értékek a nullhipotézis elutasítását, az közelében lévő p-értékek a nullhipotézis elfogadását javasolják. Kissé pontosabban azt mondhatjuk, hogy a nullhipotézist minden, p-nél nem nagyobb szignifikancia-szinten elutasítjuk, minden, p-nél nagyobb szignifikancia-szinten pedig elfogadjuk. A globális F-próbával kapcsolatban megjegyezzük még, hogy kapcsolata a többszörös determinációs együtthatóval meglehetősen egyszerű, ezért az illeszkedés tesztjének is felfogható. Ha ugyanis az F-értéket a többszörörs determinációs együttható segítségével akarjuk felírni, akkor n F p p * SSR SSE n p p SSR / SST n * ( SSR / SST ) p p R * R kapható, amiről viszont látszik, hogy a nagy R, azaz jó illeszkedés esetén utasítja el a nullhipotézist míg ha a determinációs együttható kicsi, a nullhipotézist- azaz azt, hogy rossz a modell nem tudjuk elvetni. Ebben az értelemben tehát a globális F-próba az illeszkedés jóságának próbája is. 4. Optimális regresszió-függvény meghatározásának lehetséges módjai Az egyszerű, kizárólag az adott tényező- és az eredményváltozó közötti kapcsolat szorosságán alapuló mérlegelésnek van előnye és hátránya. A korrelációs együttható könnyen meghatározható, de nem biztos, hogy olyan eredményre vezet, amelyet célul tűztünk ki: azaz, hogy az eredményváltozóval szoros kapcsolatban álló tényezőváltozók szerepeltetésével a modell jó becslést ad az eredményváltozó alakulására. A magyarázat pedig a multikollinearitás lehet. Multikollinearitás alatt a magyarázó változók közti lineáris kapcsolatot értjük, ami sok esetben - a modellben - megfigyelhető, s léte a becslési eljárás eredményét befolyásolja. Célszerű lehet a modellszerkesztés során az eddig tárgyalt változók kiválasztása helyett más megoldáshoz nyúlni, amely a két változó közti kapcsolaton túl a többi magyarázó változóval való összefüggéseire is figyelemmel van. Valószínűleg olyan regresszió-függvény segítségével tehetjük ezt meg, amely csak a szignifikáns paraméterekkel rendelkező változókat tartalmazza, ezekből is csak annyit ( a lehető legkevesebbet ), amelyek 4

15 lehetővé teszik, hogy a modell által becsült értékek a ténylegesen megfigyelt értékekhez jól illeszkedjenek. Ezzel olyan modell építhető fel, amely a magyarázó változó várható értékére jó közelítést ad, s egyben gazdaságos modell is. A változók ilyen céloknak megfelelő kiválasztásának eljárását az optimális regresszió-függvény meghatározásával érhető el. Az optimális regresszió-függvény meghatározásának több módja ismert, mi azonban csak a két legelterjedtebben használt eljárást: a Backward eliminációs módszert és a Stepwise módszert tárgyaljuk. A módszerek bemutatása előtt szükséges kiemelni, hogy első lépésként a modellt kell felépíteni, tehát a magyarázó változóval logikailag összefüggő változókat kell megkeresni, majd ellenőrizni kell, hogy a változókra vonatkozó megfigyelések (mintaadatok, illetve idősorok) rendelkezésre állnak-e, majd ezt követően lehet csak az optimalizálással foglalkozni. Külön rá kell mutatni arra, hogy a statisztikai programcsomagokban az optimális regressziós függvény meghatározására használt módszerek megtalálhatók, s így a számítások gyorsan és egyszerűen elvégezhetők (így például a Minitab, SPSS, SAS programcsomagokkal). A bemutatásra kerülő eljárások lépésről lépésre ítélik meg azt, hogy az adott változó önmagában milyen jelentős hatást gyakorol a modellre, illetve a modellben még/már szereplő többi változó magyarázó erejére. A bemutatásra kerülő módszerek logikailag egymás ellentettei, míg a Backward eliminációs módszer lebontással, addig a Stepwise módszer lépésről lépésre építkezéssel jut el az optimális modellhez. 4.. Backward eliminációs módszer A módszer lépései:.. 3. A magyarázó változóval szerintünk logikailag összefüggő valamennyi változót beépítjük a modellbe. Legyen az összes magyarázó változók száma p. Ekkor egy p+ változós modellt állítunk össze és meghatározzuk a modell paramétereit, meghatározzuk a paraméterek standard hibáját. Kiszámítjuk a magyarázó változók paramétereire a parciális t -próba értékét ( vagy a parciális F -próba értékét ): $ β ˆ i β t σ( $ (7) vagy F i βi ) σ ( ˆ) β (8) a H O o: β i hipotézis tesztelésére. H : β O i Megvizsgáljuk azt, hogy az abszolút értéken legalacsonyabb t (vagy F ) értékkel bíró változó szignifikáns változó-e: 5

16 - - ha a próbafüggvény értéke magasabb az adott szignifikancia-szinthez tartozó függvényértéknél, ( t n p α /, vagy F pn, p α / ): a változót megtartjuk a modellben és optimális regresszió-függvénynek az általunk választott valamennyi változót tartalmazó modellt tekinthető, tehát már első iterációban optimális regresszió-függvényhez jutottunk: a gyakorlat igazolta a feltevést a kapcsolat valódiságáról, ha a próba értéke alacsonyabb az adott szignifikancia-szinthez tartozó értéknél, akkor e változót kizárjuk - elimináljuk - a regressziós modellből: e változó - a többi változóhoz képest - nem gyakorol lényeges hatást a magyarázó változóra, nincs indokunk a modellben való szerepeltetésére. 4. A maradék magyarázó változók felhasználásával egy újabb modellt szerkesztünk, majd a. pontnál folytatjuk a vizsgálatot. A vizsgálatot mindaddig folytatjuk, amíg a modellben szignifikáns változók szerepelnek csak! 4.. Stepwise módszer A Stepwise módszer megoldásában éppen ellenkezője a Backward módszernek, lévén a teljes modell lebontása helyett a modell alulról való felépítését tűzi ki célul. A módszer lépései:. A modellbe elsőként azt a változót építjük be, amelynek a legszorosabb a kapcsolata az eredményváltozóval ( a legnagyobb a determinációs együtthatója: r yi ).. Megvizsgáljuk, hogy az első lépésben bevont változó szignifikáns kapcsolatban van-e az eredményváltozóval. ( ry.,,..., p ry.,,..., p ) F. (9) ry.,,..., p n p A (9) próbafüggvény számlálójában a determinációs együtthatók különbségének meghatározásával arra kapunk választ, hogy a p-edik változó beépítése mennyivel növeli a modell magyarázó erejét. Lévén a próbafüggvény értékének meghatározása munkaigényes, a gyakorlatban elterjedtebb a próbafüggvény meghatározása a szokásos formában, a változó négyzete és a változó varianciája hányadosaként, azaz: $ βi F. Var ( β ) i 6

17 3. Az első lépésben bevonásra nem került magyarázó változókra (,,... i, i+,... p ) meghatározzuk a parciális korrelációs együtthatókat. Másodikként azt a változót vonjuk be a modellbe, amelynél az itt meghatározott parciális korrelációs együtthatók négyzete ( parciális determinációs együttható ) értéke a legmagasabb. Mielőtt beépítenénk a modellbe az újabb változót (legyen az a j-edik) vizsgálnunk kell azt is, hogy az újabb változó bevonása a modellbe szignifikánsan növeli-e a determinációs együttható értékét ( (9)-es pontbeli F próbával ). 4. Az új változó bevonásával meghatározott új regressziós modell paramétereit, s az így meghatározott paraméterek szignifikanciáját t próbával vizsgáljuk. Ha a parciális regressziós paraméter értéke nem különbözik nullától, akkor az új ( j -edik ) változót elhagyjuk a modellből, s visszatérünk a 3. lépésnél meghatározott feladatokra. Ha a parciális regressziós paraméterek értéke különbözik szignifikánsan nullától, akkor a munkát tovább folytatjuk. 5. Az eddig bevonásra nem került magyarázóváltozókra (,,... i, i+,... j, j +,... p ) meghatározzuk a parciális korrelációs együtthatókat. A legnagyobb determinációs együtthatóval bíró változóra vonatkozóan szignifikancia vizsgálatot végzünk. 6. Ha a próbafüggvény értéke szignifikáns kapcsolatra utal, akkor az 5. lépésnél folytatjuk a számításokat. Ha a próbafüggvény értéke nem utal szignifikáns kapcsolatra, akkor az előzőekben meghatározott regresszió-függvényt tekintjük optimális regresszió-függvénynek. Az optimális regressziófüggvény meghatározásakor a számításokat célszerű különböző szignifikancia-szinten elvégezni. Ezzel lehet megbizonyosodni arról, hogy valóban helyes modell került-e meghatározásra. Ezt követően a statisztikailag optimális modellt szakmai szempontból is górcső alá kell vetni, s alaposan megvizsgálni, hogy a feltárt összefüggés a valóságban is megállja-e a helyét A korrigált determinációs együttható A modellkészítés során az illeszkedés leggyakrabban használt mutatója az R determinációs együttható. Ennek azonban van egy nagy hibája: ha a meglévő változókörhöz egy újabb változót csatlakoztatunk, R soha nem csökken, a gyakorlatban pedig mindig nő. Ekkor, ha csak az R kritériumot tekintjük, a legjobb modell az, amelyik a lehető legtöbb (a megfigyelések számával megegyező számú) változót tartalmazza. Ez viszont más szempontból nem jó döntés. Ekkor ugyanis a változók számának növelésével egyrészt megnő a multikollinearitás veszélye, aminek következtében jellemző módon nőnek a paraméterbecslések hibái, és a regresszió értéktelenné válhat. Másrészt a túl sok magyarázó változó csökkenti a szabadságfokot (a megfigyelések és a becsülni kívánt paraméterek számának különbségét), s ezáltal nem engedi meg a becslés statisztikai tulajdonságainak érvényesülését. Ezért az R helyett olyan mutatók alkalmazása célszerű, amelyek figyelembe veszik a becslés során a változók számát is, és ezáltal a kevés számú paramétert tartalmazó modelleket versenyképessé teszik a több változót, illetve paramétert tartalmazó modellekkel. A legegyszerűbb ilyen mutató a Theil-féle, szabadságfokkal korrigált determinációs együttható, amelynek alakja a következő: 7

18 ( ) n R R n p A mutató értéke a paraméterek számának növekedésével csökkenhet és csökken is akkor, ha a rendszerbe utolsónak bevont változó csak kis befolyással bír az eredményváltozóra. A korrigált R mutató egyébként nagyrészt hasonlóan viselkedik, mint az eredeti, nem korrigált változata, ám rossz tulajdonságai között meg kell említeni azt, hogy bizonyos esetekben negatív értéket is felvehet! A mutató a különböző modellek összehasonlításában kiemelkedő fontosságú, így nem véletlen, hogy a különböző regressziós szoftverek kiterjedten alkalmazzák. Az R mutató mellett számos más, hasonló célt szolgáló, más elméleti alapokon álló mutató létezik, melyek közül csak kettőt említenénk meg.. Akaike a mintában meglévő információ felhasználásának maximalizálását tűzte ki célul, és mutatója amely az AIC rövidítéssel vált ismertté- olyan konstrukciójú, hogy ennek minimálása a maximális információ-felhasználású modellhez vezet. A regressziószámításban alkalmazott leggyakoribb formája SSE AIC exp( k / n) min n Alakú. Ez a mutató is előnyben részesíti a jó illeszkedésű, ugyanakkor bünteti a nagy számú változót tartalmazó modelleket. Mivel a mutató az SSE-re épít, természetesen kis értékei jelzik a jó modellt.. Az SBC mutató is hasonló mutató, bár egész más elméleti megalapozottságú (bayes statisztikából származtatott). Ennek formája: SSE k / n SBC n min. n Ezek a mutató, bár árnyaltabbak mint a determinációs együttható, csupán durva indikációval szolgálhatnak, mintegy döntőbíróként szerepelhetnek a modellek összehasonlítása során, ám a lehető legjobb modell kialakításában szerepük meglehetősen passzív A regressziós modell feltételeinek ellenőrzése A standard lineáris regressziós modell feltételei:. A variancia állandó: Var( Y / X X i) Var( Y / X X j) σ.. Linearitás: EY ( i) β0 + βx + βx... + βpx p E( ε ) Függetlenség: az Y, Y,... valószínűségi változók függetlenek egymástól. 4. Normális eloszlás: az Y, Y,... valószínűségi változók normális eloszlást követnek: N( β + β X β X, σ ). 0 p p A regressziós modell meghatározása után, az egyedi Y értékek és a várható érték eltérése meghatározható. Jelöljük ezt az eltérést ε -nal. Így felírhatjuk, hogy Y β + β X + + β X + ε 0... p p Akaike Information Criterion - AIC Schwarz Bayesian Criterion -SBC 8

19 ahol: ε, ε,... normális eloszlású, egymástól független változó: E( ε) 0 Var( ε) σ. Hogyan vizsgálhatjuk e feltételek teljesülését? Legegyszerűbben ezt úgy lehet megtenni, hogy a reziduumokat a becsült értékekkel szemben ábrázoljuk. (Tehát újra a jól bevált grafikus ábrázolás módszeréhez folyamodunk). Célszerű persze a reziduumok standardizált értékeit szerepeltetni az ábrán. A reziduumok standardizált értékeit a következő képlettel számíthatjuk ki: y y e $ ahol: s s e e e i n p. A modellspecifikáció helyességének eldöntésére célszerű még a standard reziduumokat az egyes tényezőváltozókkal szemben is ábrázolni. A gyakorlott szemnek az ábra sokat felfed arról, hogy a megszerkesztett modell a feltételeknek többé-kevésbé megfelel-e. A továbbiakban részletesen meg kell vizsgálni, hogy az ábra mellett milyen viszonylag egyszerű statisztikai próbák segíthetik a feltételek ellenőrzését Homoszkedaszticitás tesztelése A homoszkedaszticitási feltétel azt követeli meg, hogy a maradékváltozó különböző X- értékekhez tartozó eloszlásai azonos szóródásúak legyenek. Ez egyfajta állandóságot jelent és egyebek közt azért lesz fontos, mert ez a feltétele annak, hogy a közös varianciát (és szórást) mintából becsülni tudjuk. Más szóval azt is mondhatjuk, hogy a véletlen maradékváltozótól elvárjuk, hogy állandó mértékben ingadozzék a regressziós egyenes körül. A variancia állandóságának ellenőrzése kiemelten fontos, mert keresztmetszeti modelleknél a tényezőváltozó(k) eltérő szintjein a hozzárendelt eredményváltozó értékek jelentősen eltérhetnek, szóródhatnak, idősoros modelleknél a tendenciát követő eredményváltozó szórása általában növekszik vagy csökken. A feltétel teljesüléséről grafikus ábrázolással győződhetünk meg legegyszerűbben: az empirikusan meghatározott reziduumokat egy-egy magyarázó változóval ábrázoljuk. Ha valamely ábrán a hibatényező tölcsér alakban nyílik vagy fordítva zárul, akkor a következtetésünk: heteroszkedasztikus a hibatényező. Ha a heteroszkedaszticitás közvetlenül valamelyik tényezőváltozóhoz kapcsolódik, akkor a feltétel teljesülése például Goldfeld-Quandt féle teszttel is ellenőrizhető, amelynél: H 0: σ j σ. H : σ σ X vagy σ σ j ji j A próba végrehajtásához célszerű a keresztmetszeti adatokat Y szerint rangsorba rendezni, majd a megfigyeléseket három részre osztani úgy, hogy az eloszlás elején és 9

20 végén ugyanolyan számosságú csoportokat képezzünk. Jelöljük a középső csoportba kerülő elemek számát r-rel (maradék). Az első és a harmadik csoportba tartozó adatokra kiszámítjuk a regressziós függvényeket és meghatározzuk a reziduális szórásnégyzeteket is. A nullhipotézis igaza esetén a varianciák χ n r eloszlást követnek és a részminták függetlenségéből adódóan ezek egymástól függetlenek. Így az alsó és felső részminta nagyságának azonossága miatt: e s F e s eloszlású próbafüggvényt használhatjuk a hipotézis vizsgálatához, amelynek szabadságfokai: ν n r, ν n r. A próbafüggvény elfogadási tartománya kétoldali alternatív hipotézis esetén : ν, ν F, F ν, ν α / α / A hibatényező várható értéke nulla Ez a feltétel valójában azt fogalmazza meg, hogy a különböző X értékekhez tartozó maradékváltozók valóban semleges, maradék jellegűek legyenek, ne húzzanak tendenciaszerűen semerre. Ez egyébként nyilvánvaló követelmény, hiszen ha a 0 várható érték nem teljesülne, akkor ez olyan tendenciát jelezne, ami beépíthető lenne a modell determinisztikus részébe. A feltétel teljesülésének ellenőrzése a gyakorlatban nehéz, mivel a legkisebb négyzetek módszerének alkalmazásával eleve biztosított lesz az, hogy a maradéktag átlaga nulla Függetlenség A függetlenségi feltétel szerint az egyes megfigyelésekhez tartozó reziduumok egymással korrelálatlanok. Ha a modellt keresztmetszeti adatokra építettük, akkor a megfigyelések általában az egyszerű véletlen kiválasztás követelményeinek megfelelnek, s így feleslegessé válik e hipotézis ellenőrzése. A függetlenségi feltétel tartalmilag azt jelenti, hogy a különböző X értékek mellett megjelenő maradékváltozók ne korreláljanak egymással, azaz az egyik változóérték melletti kis vagy nagy értékeik ne jelentsenek semmiféle információt egy másik X érték esetére. Ettől eltérő a helyzet, ha a modellt idősoros adatokra építettük. Mielőtt az idősoros adatokra készített modellt felhasználnánk becslésre, meg kell határoznunk hogy milyen erős kapcsolat érvényesül a tényadatok és a modell által becsült adatok eltéréseként adódó reziduumok elemei között, azaz milyen erős a reziduális autokorreláció. Az elsőrendű autokorrelációs együtthatót a regressziós reziduumokból a következőképen lehet becsülni: A Durbin-Watson-teszt nullhipotézise és ellenhipotézise a következő: H 0 : ρ 0 H : ρ 0 0

21 A próbafüggvénnyel nem közvetlenül a ρ -t, hanem annak egy transzformáltját teszteljük a következő módon: n ei ei ˆρ i n. e i i Minthogy a modell az elméleti regressziós modellnek csak egy lehetséges közelítése, így szükséges a tapasztalati reziduális autokorreláció szignifikanciájának ellenőrzése. Az ellenőrzés általánosan elterjedt módszere a Durbin-Watson próba alkalmazása. A próbafüggvény: d n t ( e e ) t n i e t t ahol: et Yt Y $ t, azaz a t. időszakra az idősor tényadata és a modell által becsült adat különbsége: az empirikus reziduum. A fenti próbafüggvény értékét össze kell vetnünk a Durbin és Watson által megszerkesztett, a d eloszlását mutató táblázatban szereplő értékekkel. Ezzel azt a hipotézist ellenőrizzük, hogy a minta adatok mennyire támasztják alá azt a feltevésünket, hogy az elméleti reziduális autokorreláció értéke nulla. A d eloszlását mutató táblázatban az adott szignifikanciaszinthez két kritikus érték tartozik: d L és d U, a mintanagyság és a változók száma szerint. A döntéshozatal előtt nézzük meg, hogy milyen összefüggés mutatható ki az autokorrelációs együttható ( ρ ) és a d mutató között: d ( ρ ). A próba döntési szabálya egy kicsit bonyolultabb a korábban megszokottaknál. Ha a próbafüggvény (d) empirikus értéke a 0-d L tartományba esik, a döntés az, hogy a maradékváltozó szignifikáns mértékű pozitív autokerrelációt tartalmaz. Ha a próbafüggvény empirikus értéke a d L -d U tartományba esik, e próba alapján nem tudunk dönteni, ezt a tartományt semleges zónának nevezzük. Ha próbafüggvényünk empirikus értéke a d U -(4-d U ) tartományba esik, a nullhipotézist, azaz a maradékváltozó elsőrendű autokorrelációtól való mentességét nem tudjuk elutasítani. Ennek a tartománynak a közepe. Ha próbafüggvényünk empirikus értéke a (4-d U )-(4-d L ) tartományba esik, ismét semleges zónában vagyunk, és nem tudunk dönteni. Ha próbafüggvényünk empirikus értéke a (4-d L )-4 tartományba esik, döntésünk szignifikáns negatív autokorreláció. A próba alkalmazásával kapcsolatban két dologra hívjuk fel a figyelmet. Az egyik az, hogy ez a teszt a pozitív, illetve negatív autokorrelációt mindig az ellenkező oldalon mutatja. A másik

22 fontos dolog a semleges zónákra vonatkozik. Ha próbafüggvényünk értéke ezek valamelyikébe esik, nem tudunk dönteni. Ekkor vagy a szignifikancia-szintet változtatjuk úgy meg, hogy döntési helyzetbe kerüljünk, vagy más próbafüggvényhez kell fordulnunk. Végezetül ki kell emelni, hogy reziduális autokorrelációt okozhatnak a következő esetek: ha a modellben nem szerepeltettünk minden lényeges magyarázóváltozót (a reziduum nagysága nemcsak a véletlentől, hanem a mulasztástól is függ), ha helytelen a modellspecifikáció, a változók között például nem lineáris a kapcsolat, azonban mégis lineáris regressziós modellt illesztettünk ( a helytelenül illesztett modell reziduumai tendenciát követnek! ), nem véletlen jellegű mérési hibák Normális eloszlás Ez a feltétel részben kényelmi okokból indokolható, de kétségtelen, hogy az esetek jó részében a maradékváltozók sok, egymástól független, a modellben figyelembe nem vett hatás eredőjéből tevődnek össze, ami indokolhatja a normalitás feltételezését. Az empirikus eloszlást vizsgálhatjuk a hipotézisvizsgálat során megismert illeszkedésvizsgálati teszttel ( χ próba ). A nullhipotézisben szereplő valószínűség a normális eloszlás megfelelő valószínűségi értéke: H 0: Pr( ε j) Pj. H: j: Pr( ε ) P j j A próbafüggvény: ( f n P) n P k χ i i i, ahol: k a képzett osztályközök száma. A null-hipotézis elfogadási tartománya: 0 χ χ α,k b. A normális eloszlás a standardizált hibaváltozó értékei és a standardizált hiba normális eloszlását feltételező várható értékek ábrázolásával, s ezen értékeken alapuló próbafüggvénnyel is vizsgálhatók, s így a normalitás ellenőrzése egyszerűbbé válik. A hipotézis változatlan: H 0: Pr( ε j) Pj. H: j: Pr( ε ) P A hipotézis ellenőrzésére használt próbafüggvény: C * ee r n σ σ. e j * e A H 0 elfogadási tartománya: r r c, míg H 0 visszautasítási tartománya: r j r c.

23 4.5. A multikollinearitás A többváltozós lineáris regressziós modell széles körben használt, hatékony elemzési eszköznek bizonyul olyan esetekben, amikor valamelyik jelenségnek több más jelenségtől való egyidejű függőségét vizsgáljuk. A többváltozós regressziós elemzésnél is, mint minden statisztikai módszer alkalmazásánál, a módszer hatékonysága nagyban függ attól, hogy az alkalmazás feltételei mennyiben állnak fenn. Fontos kérdés továbbá, hogy milyen következményekkel kell számolnunk, és mit kell tennünk olyan esetekben, amikor e feltételek nem, vagy nem teljesen állnak fenn. A standard lineáris regressziós modell feltétele megköveteli, hogy az [n(p + )]-ed rendű X mátrix rangja p + legyen, azaz ne legyen lineáris függőség a magyarázó változók között. Ennek az alapvető feltételnek az a magyarázata, hogy a legkisebb négyzetek elve alapján becsült regressziós együtthatók ( b i ; i,,, p ) meghatározásához szükség van az X X mátrix inverzére. Mint ismeretes az X X mátrix csak akkor invertálható, ha az X mátrix és az X X mátrix rangja p +, azaz megegyezik a változók számával. Amennyiben az X X szinguláris, vagyis az X mátrix rangja kisebb, mint p +, a modell együtthatói nem becsülhetők. Ez az eset akkor áll fenn, ha a magyarázó változók egyike kifejezhető a többi magyarázó változó lineáris kombinációjaként. Szokás ezt az esetet teljes, vagy extrém multikollinearitásnak is nevezni. A teljes multikollinearitás fennállására egyértelműen fény derül, ezért nem okoz különösebb problémát az elhárítása. A lineáris függőségben lévő változók egyikét elhagyjuk, hogy létrehozzuk a magyarázó változók lineárisan független rendszerét. Így a modellben kevesebb, azonban kölcsönösen lineárisan független magyarázó változó szerepel. Sok esetben nem könnyű annak eldöntése, hogy a lineáris függvénykapcsolatban lévő magyarázó változók melyikét kell elhagyni, és melyiket kell a regressziós modellben figyelembe venni. Ez a döntés mindenekelőtt alapos közgazdasági megfontolást igényel. A gyakorlatban a teljes multikollinearitás viszonylag ritkán fordul elő. Jóval gyakrabban találkozunk viszont a multikollinearitás olyan esetével, amikor a magyarázó változók között lineáris összefüggés van, azonban ez nem egzakt lineáris függvénykapcsolatban, hanem sztochasztikus kapcsolatban fejeződik ki. Itt szó lehet arról is, hogy a magyarázó változók között fennálló egzakt lineáris összefüggés azért jelenik meg sztochasztikus összefüggésként, mert az adatokban mérési, megfigyelési hiba is jelen van. A multikollinearitás jelenléte zavarja a modell specifikálását, és általában csökkenti a modellből nyerhető információ minőségét. Káros hatása egyrészt abban nyilvánul meg, hogy növeli a paraméterek varianciáját. A gyakorlati elemzéseknél ez olyan következményekkel is járhat, hogy indokolatlanul kihagyunk egyébként releváns változókat. Kollineáris magyarázó változók esetén nem lehetséges az egyes tényezőváltozók hatásának elkülönítése, szeparált vizsgálata sem. A multikollinearitás megnyilvánulhat abban is, hogy a paraméterek mintánként nagy különbözőséget mutatnak, illetve a minta néhány pótlólagos megfigyeléssel történő kiegészítése lényeges változást idézhet elő a paraméterek értékeinél A multikollinearitás mutatószáma Új változó bekapcsolása a modellbe növeli (a kapcsolat teljes hiánya esetén nem változtatja meg) a determinációs együtthatót. A változó hatása két tényezőtől függ: egyrészt attól, hogy a modellben már szereplő változók a függő változó varianciájából mennyit hagynak magyarázatlanul, másrészt attól, hogy az újonnan bekapcsolt változónak mennyi a modellben lévő változókra számított parciális determinációs együtthatója. 3

24 Minden modellben szereplő változóra kiszámítjuk, hogy mennyivel növeli a többszörös determinációs együtthatót, ha a változót utolsóként kapcsoljuk be a modellbe. Ha ezeket a változónkénti hatásokat összeadjuk, és megkapjuk a többszörös determinációs együtthatót, úgy a multikollinearitást nullának tekinthetjük, mivel a többszörös determinációs együtthatót fel tudtuk bontani a változónkénti hatások összegére. Az esetek többségében azonban nem ez a helyzet. Van az R y,,,p-nek egy olyan része, amit a változók együttesen magyaráznak meg. Kézenfekvő, hogy a multikollinearitást ezzel az együttesen magyarázott hányaddal mérjük:,,..., p ahol: j,,,p a magyarázó változókat jelöli. Az M mérőszám értéke azt mutatja meg, hogy a tényező változók nem elkülöníthető hatása milyen nagyságrendű. Ily módon a többszörös determinációs együttható felbontható az egyes tényezőváltozók parciális és a tényezőváltozók együttesen jelentkező hatására. Minél nagyobb az M értéke, annál inkább számolni kell a multikollinearitásból adódó veszélyekkel. Példa a multikollinearitás vizsgálatára 30 véletlenszerűen kiválasztott vállalat 999. évi adatai alapján megvizsgáltuk az alábbi változók kapcsolatát: Y: a vállalat nyeresége (m Ft), X : piaci részesedés (%), X : alkalmazottak átlagkeresete (Ft/fő). A számítások során a következő részeredmények adódtak: r y 0,89, r y 0,83, r 0,6. p M R y ( R ), j y,,...,( j ),( j+ ),..., p A parciális korrelációs együtthatók a következők: 0,89 0,83 0,6 ry ( 0,83 )( 0,6 ) r r y y 0,83 0,89 0,6 ( 0,89 0,6 0,89 0,83 ( 0,89 )( 0,6 )( 0,83 ) ) 0,3837 0,4497 0,87, 0,87 0,79, 0,363 0,87 0,5. 0,543 A többszörös determinációs együttható: R 0,89 A multikollinearitás mérőszáma: M (0,934 0,89 + 0,83 0,89 0,83 0,6,48 0,90 0,934. 0,6 0,679 [ ) + (0,934 0,83 )] 0,934 (0,33 + 0,345) 0,934 0,3658 0,

25 Ennél a feladatnál a multikollinearitás nem számottevő. Ezt vélelmezhetjük a páronkénti és a parciális korrelációs együtthatók közötti viszonylag kis mértékű eltérésből is, de a multikollinearitás mérőszáma is erről tanúskodik. Megjegyezzük, hogy a gyakorlati tapasztalatok alapján a multikollinearitást akkor szokásos káros mértékűnek tekintetni, ha létezik a korrelációs mátrixnak a tényezőváltozókra vonatkozó részében a többszörös korrelációs együtthatónál nagyobb abszolút értékű elem. Természetesen léteznek ennél jóval egzaktabb módszerek is a multikollinearitás mérésére, a probléma kezelésére. A statisztikai módszertan számos eljárást ismer multikollinearitást tartalmazó regressziós modellek paramétereinek becslésére, ilyen például a faktoranalízis A multikollinearitás tesztelése A VIF mutató segítségével történhet. VIF j R Azt mutatja, hogy a j-edik változó becsült együtthatójának tényleges j varianciája hányszorosa annak, ami a multikollinearitás teljes kizárásával lenne. A mutató értékelésekor azt mondhatjuk, hogy ha valamely változó VIF mutatója és közöt van, akkor gyenge, ha és 5 között van akkor erős, zavaró, ha pedig 5 felett van, akkor nagyon erős, káros a multikollinearitás. 5

26 Példa az eredmények értelmezésére. MINTAFELADAT A többváltozós korreláció és regresszió számítás eredményeit az SPSS4.0 szoftver Cars.sav adatfájljában található adathalmaz vizsgálata alapján mutatjuk be! A vizsgált változók: A változó neve Tartalom (angolul) Tartalom (magyarul) Jelölése a regresszió egyenletben mpg Miles per Gallon Üzemanyag hatékonyság Y (mérföld/gallon) engine Engine Displacement Motor térfogat X (cu. inches) horse Horsepower Lóerő X weight Vehicle Weight (lbs.) Súly X 3 accel Time to Accelerate from Gyorsulás X 4 0 to 60 mph (sec) year Model Year (modulo Évjárat X 5 00) origin Country of Origin Származási hely X 6 cylinder Number of Cylinders Hengerek száma X 7 filter_$ cylrec cylrec (FILTER) Filter X 8 A Cars.sav fájl a fenti változók adatait 406 autóra vonatkozóan tartalmazza! A változók korrelációs elemzése során kapott korrelációs mátrix, mely tartalmazza páronként a lineáris korrelációs együtthatókat: Az R korrelációs mátrix a modellben számítható összes kétváltozós korrelációs együtthatót tartalmazza. A mátrix első sora és első oszlopa az eredményváltozó és az egyes tényezőváltozók közötti kapcsolat szorosságát mérő lineáris korrelációs együtthatókat tartalmazza, a mátrix többi eleme pedig a tényezőváltozók egymás közötti korrelációját méri. A korrelációs mátrix szimmetrikus mátrix, a fődiagonálisában lévő elemek értéke, ami a kétváltozós lineáris korrelációs együttható képzési módjából közvetlenül adódik. Az R mátrix számos információt tartalmaz a kapcsolat természetére vonatkozóan. Megállapítható, hogy melyek azok a magyarázó változók, amelyek a legszorosabb összefüggésben vannak a függő változóval és mely magyarázó változók között van számottevőbb korrelációs összefüggés. Ez utóbbi a multikollinearitás veszélyére hívja fel a figyelmet. 6

27 Miles per Gallon Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Model Year (modulo 00) Country of Origin Number of Cylinders cylrec cylrec (FILTER) Pearson Correlation Sig. (-tailed) N Pearson Correlation Sig. (-tailed) N Pearson Correlation Sig. (-tailed) N Pearson Correlation Sig. (-tailed) N Pearson Correlation Sig. (-tailed) N Pearson Correlation Sig. (-tailed) N Pearson Correlation Sig. (-tailed) N Pearson Correlation Sig. (-tailed) N Pearson Correlation Sig. (-tailed) N Miles per **. Correlation is significant at the 0.0 level (-tailed). Engine Displacement Correlations Vehicle Time to Accelerate from 0 to 60 Model Year Country of Number of cylrec cylrec Gallon (cu. inches) Horsepower Weight (lbs.) mph (sec) (modulo 00) Origin Cylinders (FILTER) -,789** -,77** -,807**,434**,576**,563** -,774**,650**,000,000,000,000,000,000,000, ,789**,897**,933** -,545** -,379** -,6**,95** -,864**,000,000,000,000,000,000,000, ,77**,897**,859** -,70** -,49** -,459**,844** -,838**,000,000,000,000,000,000,000, ,807**,933**,859** -,45** -,30** -,584**,895** -,80**,000,000,000,000,000,000,000, ,434** -,545** -,70** -,45**,308**,** -,58**,59**,000,000,000,000,000,000,000, ,576** -,379** -,49** -,30**,308**,86** -,357**,350**,000,000,000,000,000,000,000, ,563** -,6** -,459** -,584**,**,86** -,567**,44**,000,000,000,000,000,000,000, ,774**,95**,844**,895** -,58** -,357** -,567** -,89**,000,000,000,000,000,000,000, ,650** -,864** -,838** -,80**,59**,350**,44** -,89**,000,000,000,000,000,000,000,

28 A többváltozós regresszió számítás során azt vizsgáltuk, hogyan alakult a járművek üzemanyag hatékonysága a többi változó függvényében! Az optimális regresszió függvény meghatározásához a Backward eliminációs módszert alkalmaztuk A program eredményei: Model Model Summary Adjusted Std. Error of R R Square R Square the Estimate,9 a,849,845 3,07,9 b,849,846 3,068 a. Predictors: (Constant), cylrec cylrec (FILTER), Model Year (modulo 00), Country of Origin, Time to Accelerate from 0 to 60 mph (sec), Vehicle Weight (lbs. ), Number of Cylinders, Horsepower, Engine Displacement (cu. inches) b. Predictors: (Constant), cylrec cylrec (FILTER), Model Year (modulo 00), Country of Origin, Vehicle Weight (lbs.), Number of Cylinders, Horsepower, Engine Displacement (cu. inches) A program két lépésben jutott az optimális modellhez! A kialakított többváltozós lineáris regressziós összefüggés magyarázóereje 84,9%, másképpen, az optimális modellben szereplő magyarázó változók együttesen 84,9%-ban határozzák meg az eredményváltozó (mpg) szóródását! Variancia analízis tábla: ANOVA c Model Sum of Squares df Mean Square F Sig. Regression 9836, ,65 6,85,000 a Residual 3538, ,435 Total 3374, Regression 9836, ,836 30,54,000 b Residual 3538, ,40 Total 3374, a. Predictors: (Constant), cylrec cylrec (FILTER), Model Year (modulo 00), Country of Origin, Time to Accelerate from 0 to 60 mph (sec), Vehicle Weight (lbs.), Number of Cylinders, Horsepower, Engine Displacement (cu. inches) b. Predictors: (Constant), cylrec cylrec (FILTER), Model Year (modulo 00), Country of Origin, Vehicle Weight (lbs.), Number of Cylinders, Horsepower, Engine Displacement (cu. inches) c. Dependent Variable: Miles per Gallon 8

29 A táblából leolvasható az F statisztika értéke, mely az. lépésben kialakított modell esetében 6,85, a második lépésben kialakított (optimális) modell esetében 30,54. Mindkét esetben a szignifikancia szint értéke (utolsó oszlop adatai) 0,00. Ami azt jelenti, hogy a kialakított lineáris regressziós összefüggés megbízhatónak tekinthető. A regresszió egyenlet paraméterei: Model (Constant) Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) Model Year (modulo 00) Country of Origin Number of Cylinders cylrec cylrec (FILTER) (Constant) Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Model Year (modulo 00) Country of Origin Number of Cylinders cylrec cylrec (FILTER) a. Dependent Variable: Miles per Gallon Coefficients a Unstandardized Coefficients Standardized Coefficients B Std. Error Beta t Sig. -3,7 4,75 -,69,489,08,007,4,56,0 -,035,03 -,7 -,58,00 -,006,00 -,69-9,3,000,008,094,003,085,933,76,047,34 5,95,000,304,6,33 4,976,000 -,70,345 -,374-4,98,000-5,38,840 -,9-6,3,000-3, 4,34 -,79,47,08,007,40,530,0 -,035,0 -,75-3,85,00 -,006,00 -,66-0,5,000,75,047,34 5,350,000,305,6,33 4,988,000 -,7,344 -,375-5,003,000-5,37,839 -,9-6,,000 A többváltozós lineáris egyenletet a következő általános formával közelítjük: ŷ b + b x + b x b 0 px p Az egyenlet b paramétereit a fenti táblázat B oszlopa tartalmazza. A -es számú (optimális) modellt tekintve tehát a regresszió egyenlete a következő: Ŷ-3,+0,08*x -0,035*x -0,006*x 3 +0,75*x 4 +,305*x 6 -,7*x 7-5,37*x 8 Értelmezés: b 0,08: Minden egyéb változatlansága mellett, ha a motor térfogata inch 3 -el nő akkor az üzemanyag hatékonyság átlagosan 0,08 mérföld/gallonnal nő. 9

30 b -0,035: Minden egyéb változatlansága mellett, ha az autó teljesítménye egy lóerővel nő, akkor az üzemanyag hatékonyság átlagosan 0,035 mérföld/gallonnal csökken. Stb. 30

31 Az utolsó előtti oszlop t a változók szignifikanciájának tesztelésére szolgáló T-statisztika eredményét közli. Az eredmények a szignifikancia szinttel együtt (utolsó oszlop) világosabban értelmezhetők. Amennyiben a szignifikancia szint közel van a nullához, akkor a változó szignifikáns hatást gyakorol az eredményváltozóra. Az általunk vizsgált változók mindegyikére igaz ez, kivéve a gyorsulás változót. Az -es modellnél láthatjuk, hogy a gyorsulás változó t-statisztikájának szignifikancia szintje 0,933, ami rendkívül magas. Ezért nem tekinthető szignifikáns magyarázó változónak. Ennek eredményeként a -es modellben már nem is jelenik meg. A többi változó szignifikancia szintje közelíti a nullát. Egyedül a motor térfogat haladja meg a társadalomtudományi kutatásokban általánosan alkalmazott 0,05-ös szignifikancia szintet, de még így id jelentős hatást gyakorol az eredményváltozóra.

32 FELHASZNÁLT IRODALOM Köves Pál - Párniczky Gábor: Általános statisztika Tankönyvkiadó, Budapest, 989 Hajdu - Pintér - Rappay - Rédey: Statisztika Pécs, 994 Korpás Attiláné dr.: Általános statisztika Nemzeti Tankönyvkiadó, 996 Szarvas Beatrix - Sugár András: Példatár a Statisztika című tankönyvhöz Aula Kiadó, 997 B. Kröpfl. W. Peschek-E. Schneider-A. Schönlieb: Alkalmazott statisztika Műszaki Könyvkiadó, Budapest, 000 Hunyadi László-Vita László: Statisztika közgazdászoknak Budapest, 00 Szűcs István: Alkalmazott statisztika Budapest, 00 3

33 . feladat GYAKORLÓ FELADATOK 30 véletlenszerűen kiválasztott termelőszövetkezetben 997-ben a kukorica termésátlaga (t/ha), a felhasznált műtrágya mennyisége (hatóanyag q/ha) és az öntözéshez felhasznált víz mennyisége (m 3 /ha) következőképpen alakult: Sorszám Termésátlag (Y) Műtrágya (X ) Öntözés (X ). 5,4 4, ,8, ,, ,0 3, , 3, ,0 3,.00 Összesen Feladat:. Becsülje meg és értelmezze a lineáris regresszió paramétereit, tesztelje le, szignifikánsak-e a magyarázó változók!. Számítsa ki és értelmezze a különböző korrelációs és determinációs együtthatókat! 3. Elemezze a regressziós modell megbízhatóságát! Számítási részeredmények: X * X 30 84, ,4 57, ,7 X * y 775, 34969,9 b0 b b ( X * X ) X * y s0,6 s y,054 b ( X * X ) 0,534 0, , , ,000 0,

34 . feladat 0 kísérleti parcellán azonos minőségű földterületen elemezték a búzatermelés alakulását. A következő számszerű értékek adódtak: Y: termésátlag (t/ha) X : felhasznált növényvédőszer mennyisége (kg/ha) X : átlagos munkaidő-ráfordítás (óra/ha),900 0,09 0,056 b ( X * X ) 3,6400 0,0366 0,537 0,0036 0,00 0,004 s e 0,865 Feladat: a) Értelmezze a regressziós együtthatókat! b) Vizsgálja meg a paraméterek szignifikanciáját (α 5%)! c) Határozza meg és értelmezze a 80 órás munkaidő-ráfordításhoz tartozó parciális rugalmassági együtthatót (X 50)! 3. feladat Egy szálloda vezetése arra kíváncsi, mitől függ a vendégek szállodában töltött napjainak száma. Ezért 40 véletlenszerűen kiválasztott vendéget megkérdeznek a következőkről: Y: a szállodában töltött napok száma X : évente átlagosan mennyit költ nyaralásra ($ /fő) X : hányadszor van Magyarországon X 3 : OECD országból érkezett 0 egyéb országból érkezett A lineáris regresszió-számítás néhány részeredménye: 0,6453 ( ) 0, , X * X 0, , ,0053 0, , , , ,78 0,0 3,07,08 b [ ]( X ) 0, X * e 4, 3566 Feladat: a) Értelmezze a becsült paramétereket! b) Határozza meg a paraméterek becslésének p-értékeit! c) Becsülje meg 95%-os megbízhatósággal egy olyan turista tartózkodási idejét, aki Ausztriából érkezett, évente kb. 400 $-t költ nyaralásra és először jött Magyarországra nyaralni! 34

35 4. feladat 40 véletlenszerűen kiválasztott 994-es külföldi utazás jellemzői: Y: Utazás ára (Ft) X 3 X 3 0 ; X autóbusz X : Utazás hossza (km) Utazás módja: X 3 ; X repülő X : Időtartam (nap) X 4 X 3 0 ; X 4 - autóbusz és repülő Néhány számítási eredmény: s Y ,8 X X X X 4 t-értékek: (6,58) (,99) (,9) (,36) p-értékek: (0,0000) (0,005) (0,08) (0,04) Feladat: a) Értelmezze a becsült paramétereket! b) Értelmezze a paraméterek szignifikanciájának p-értékeit! c) Becsülje meg 95%-os megbízhatósággal,hogy a.000 km-es, 5 napos, repülővel történő x X X x 0, 0 * 0 utazások mennyibe kerülnek átlagosan, ha ismert, hogy ( ) feladat Egy szabadidő park 40 napon keresztül figyeli az alábbi változók értékét: Y: Látogatók száma, fő X : Hőmérséklet C o X : 0, ha hétköznap,, ha hétvége volt X 3 0, X 4 0 ha sütött a nap X 3 0, X 4 ha borult volt, de nem esett X 3, X 4 0 ha esett A becslések néhány eredménye: Yˆ X + 40X 74X 3 36X 4 ( X * X ) 0,0005 0,0039 0, ,0096 0,003 0,3895 0,0093 0, , ,6939 0,0967 0,0069 0,0973 0,045 0,08 SSR SSE d,89 35

36 Feladat: a) Értelmezze a regressziós paramétereket! b) Tesztelje külön-külön 5%-os szignifikancia-szinten a tényezőváltozó szignifikáns különbözőségét a 0-tól! c) Számítsa ki és értelmezze a többszörös korrelációs együtthatót! d) Tesztelje le 5%-os szignifikancia-szinten, elfogadható-e az a nullhipotézis, hogy a rezidumok autokorrelálatlanok a reziduális autokorrelációval szemben! 6. feladat Egy vállalatnál azt vizsgálták, hogy milyen tényezők befolyásolják a kereset alakulását. Ennek érdekében megvizsgálták 45 dolgozó esetén az órabér és az azt befolyásoló legfontosabb tényezők alakulását. A felmérés eredménye az alábbi táblában látható: Órabér (Ft/ó) Munkahelyen eltöltött idő (év) Kor (év) Nem Szakképz. ( van, 0 nincs) Órabér (Ft/ó) Munkahelyen eltöltött idő (év) Kor (év) Nem Szakképz. ( van, 0 nincs)

37 The regression equation is ORABER MUELIDO KOR +.. NEM +.. SZAKKEPZ Predictor Coef Stdev t-ratio p Constant MUELIDO KOR NEM SZAKKEPZ s. R-sq 78.3% R-sq(adj).. Analysis of Variance SOURCE DF SS MS F p Regression Error Total 445. MTB > Stepwise 'ORABER' 'MUELIDO'-'SZAKKEPZ'; SUBC> FEnter 4.0; SUBC> FRemove 4.0. Stepwise regression of ORABER on 4 predictors, with N 45 STEP CONSTANT MUELIDO T-RATIO SZAKKEPZ 4.3 T-RATIO 5.5 S R-SQ MTB > Stepwise 'ORABER' 'MUELIDO'-'SZAKKEPZ'; SUBC> Enter 'MUELIDO'-'SZAKKEPZ'; SUBC> FEnter 4.0; SUBC> FRemove

38 Stepwise regression of ORABER on 4 predictors, with N 45 STEP 3 CONSTANT MUELIDO T-RATIO KOR 0. T-RATIO 0.63 NEM T-RATIO SZAKKEPZ T-RATIO S R-SQ Feladat:. Egészítse ki a hiányzó adatokat!. Értelmezze a regresszió-függvény paramétereit! 3. Becsülje meg annak a dolgozónak a várható keresetét, akinek a munkában eltöltött ideje 5 év, 38 éves, férfi és szakképzetlen! ( x 0 ( X * X ) x0 0, 59) 4. Milyen módszerrel történt a regresszió-függvény meghatározása? 5. Értelmezze az egyes lépéseket! 7. feladat Egy ingatlanközvetítő iroda adatai alapján 996. októberében 0 véletlenszerűen kiválasztott budapesti öröklakás eladási ára (millió Ft), életkora (év) és területe (m ) az alábbi volt: Sorszám Eladási ár (mft)-y Terület (m )-x Életkor (év)-x., , , , ,

39 Feladat: a) Egészítse ki az alábbi számítógépes programrészletet a hiányzó adatokkal! eladar ,0373 terület - életkor Predictor Coef Stdev t-ratio p Constant.,083 0,69 0,499 Terület 0,0373.,55. Életkor.. -, 0,049 s e R-sq 64,0 % R-sq (adj). % Analysis of Variance SOURCE DF SS MS F p Regression. 9, ,000 Error... Total. 9, ,0448-0,04 * - (X X) - 0, ,0005-0,04 0,0005 0,0005 b) Becsülje meg 95 %-os megbízhatósággal azoknak a lakásoknak a várható eladási árát, amelyek 5 évvel ezelőtt épületek és alapterületük 70 m! (x 0 (X * X) - x 0 0,03) c) Becsülje meg 95%-os megbízhatósággal egy olyan lakás várható eladási árát, amely 5 évvel ezelőtt épült és alapterülete 85 m! (x 0 (X * X) - x 0 0,08) d) Határozza meg az elaszticitást a 5 éves életkorú lakásnál (x 7)! e) Határozza meg és értelmezze az r y és az r y korrelációs együtthatókat! MTB > Correlation eladar eletkor. eladar terulet terulet 0,738 eletkor -0,709-0,639 f) Határozza meg a multikollinearitás mérőszámát! 8. feladat Egy kereskedelmi vállalat üzletkötői 995-ös prémiumának alakulását vizsgálták és a következő befolyásoló tényezőket találták: x : éves bér x : üzletkötések száma x 3 : nem (nő 0, férfi ) A vizsgálathoz 36 fő üzletkötő adatait használták, s a következő részeredményeket kapták: 39

40 0,69 R 0,87-0,79 0,7-0,44-0,5 R -, ,9375-7,4385 5,878,934-0, ,566 6,579 -, ,0776 7,80+ 0,9 x 349 x 3 5x s( ˆ + 3 β ) 9 y 3 Feladat: a) Értelmezze a minőségi ismérvhez tartozó parciális regressziós együtthatót, valamint a minőségi ismérv és a prémium közti korrelációs együtthatót! b) Számítsa ki és értelmezze az r y3 parciális korrelációs együtthatót! c) Vizsgálja meg a minőségi ismérvhez tartozó paraméter szignifikanciáját (szignifikancia szint 5%) és határozza meg a p értékét! 9. feladat 50, gazdasági tevékenységet folytató KKV-ra vonatkozó adatok felhasználásával vizsgálták az egy főre jutó árbevétel (Y), az egy főre jutó gépek, berendezések értéke (X ) és az egy főre jutó havi átlagkeresetek (X ) közti kapcsolatot. A korrelációs mátrix: R 0,85 0,63 0,8 Feladat: a) Határozzuk meg és értelmezzük a többszörös determinációs együtthatót és a parciális korrelációs együtthatókat! b) Mutassuk be a többszörös determinációs együttható szerkezetét, jellemezzük a multikollinearitást az M mutatóval! 0. feladat Egy ingatlan ügynökségben megvizsgálták 5 véletlenszerűen kiválasztott ingatlan esetén, hogy milyen tényezők befolyásolják az eladási árat. 40

41 Az alábbi változókat vették figyelembe: eladar: eladási ár (USD) lakassza: lakások száma (db) epeletko: az építmény életkora (év) telekmag: teleknagyság (négyzetláb) parkolo: belső parkolóhelyek száma (db) brterule: az épület összes területe (négyzetláb) Feladat: a) Mutassa be részletesen az optimális regresszió-függvény meghatározásának módját az alábbi példa alapján! Írja fel a módszerben felhasznált hipotéziseket és próbafüggvényeket is! STEP 3 CONSTANT brterule 0,4 4,5 5,0 T-RATIO 8,58 7,8 0,38 lakassza T_RATIO 3,64 4,3 epeletko T-RATIO - 3,95 S R-SQ 93,75 96,0 97,76 b) Töltse ki az alábbi programrészlet hiányzó adatait! The regression equaiton is Eladar lakassza.. epeletko +,04 teleknag + 69 parkolo +.. brterule Predictor Coef Stdev t-ratio p Constant ,3 0,004 lakassza,76 epeletko - 85,4 teleknag,866 0,36 0,7 parkolo 69,7 brterule,457 0,68 s e R-sq 98, % R-sq (adj)..% Analysis of Variance SOURCE DF SS MS F p Regression,0595 x 0 0,000 Error Total 4,07379*0 4

42 Számítási részeredmények: (X * X) , , ,0005-0, , , , ,0734-0, , , , , , , , , , , , , , ,0734-0, , , , , , , , , c) Becsülje mg egy olyan ingatlan eladási árát, amelyben 5 lakás található, a bruttó területe 500 négyzetméter, az ingatlan 0 éve épült és minden lakáshoz parkolóhely tartozik, a hozzá tartozó telek viszont csak 50 m! (x 0 (X * X) - x 0 0,08 d) Mennyi az elaszticitás az előző paraméterek mellett 0 lakásos ingatlan esetén?. feladat Egy elemzés során azt vizsgálták, hogy mely tényezők befolyásolják az építőipari beruházások idejének alakulását. Az elemzés során figyelembe vett változók az alábbiak voltak: beruhert a beruházás értéke (m USD) rosszido a munkavégzésre nem megfelelő munkanapok száma esemeny volt-e az építkezést gátló esemény (-volt, 0-nem volt) panelalany az épület anyaga (-panel, 0-nem panel) munkassz az építkezésen dolgozó munkások száma Mutassa be részletesen az optimális regresszió-függvény meghatározásának módját az alábbi példa alapján! Írja fel és értelmezze a módszerben felhasznált hipotéziseket és próbafüggvényeket valamint az optimális regresszió-függvényt! STEP 3 CONSTANT 5,7 4,97, beruhert 0,36 0,36 0,360 T-RATIO 6,8 6,97 7,00 rosszido,79,79,76 T-RATIO,85,94,93 esemeny 4, 4,0 3,8 T-RATIO 3,3 3, 3,0 munkassza -0,3-0,30 T-RATIO -0,7-0,73 panelany -0, T-RATIO -0,0 S 3,6 3,3 3, R-SQ 88,4 88,0 87,89 4

43 . feladat Egy játékgyár kíváncsi arra, hogy hány napig játszanak a gyerekek a legújabb pingvinjátékkal, ezért 5 véletlenszerűen kiválasztott gyermek szüleit megkérik, írják meg a gyárnak, mikor dobják el a pingvint. A napok számán túl az is érdekli a vállalatot, milyen tényezők befolyásolják a játék használati idejét. A megfigyelt szempontok: y: a játék használati ideje (nap) x : a gyermek életkora (év) x : a gyermek neme: fiú, 0 -lány Néhány számítási eredmény: (X * X) -, , ,40-0, , , ,40 0, ,6 (X * X) * X y Σ e Σd y Feladat: a) Írja fel a regressziós egyenes egyenletét, értelmezze a paramétereket! b) Ellenőrizze 95%-os biztonsággal a H 0 :β β 0 nullhipotézist! c) Ellenőrizze le a β paraméter szignifikanciáját, értelmezze a kapott eredményeket! d) Becsülje meg azon játékok átlagos használati idejét, melyet 5 éves fiúknak ajánlottak! (x 0 X * X - x 0 0,) 3. feladat 0 európai ország adatai alapján elemezték a várható átlagos élettartamra ható tényezőket. A vizsgált összefüggés néhány részeredménye: y várható átlagos élettartam (év) x halálozási arányszám ( 0 / 00 ) x egy főre jutó GDP ($) x 3 egy főre jutó napi átlagos kalória-fogyasztás Feladat: a) Határozza meg és értelmezze az r y3 parciális korrelációs együtthatót! 4,70,87,340 R - -,8300-0,9490 3,349-0,0500-0,400 0,8399,546 43

44 b) Tesztelje le az alábbi regressziós modell megbízhatóságát (α 5%)! y 78-0,67 x + 0,000 x + 0,0008 x 3 c) Értelmezze az alábbi programrészletet, írja fel a szükséges hipotéziseket és próbafüggvényeket is, valamint az optimális regresszió-függvényt! STEP 3 CONSTANT X -0,67-0,675-0,87 T-RATIO -8,58-0,38 -,5,78 X 0,000 0,0004 T-RATIO 4,,4 X 3 0,0008 T-RATIO,64 S 5,3996 4,369 4,7 R-SQ 73,75 75, 75, 4. feladat Egy kísérleti oktatásban részesülő tankör esetén megvizsgálták a Statisztika III. zárthelyi dolgozat eredményeit és azt tapasztalták, hogy az oktatási módszer megválasztása mellett egyéb tényezők is befolyásolják a dolgozat eredményét. Az alábbi tényezőket vették figyelembe: zhpont a dolgozat pontszáma (pont) nem a hallgató neme ( nő; 0 férfi) oktatas az oktatás módszere ( számítógépes; 0 hagyományos) stat a Statisztika II. tantárgy eredménye gyak.ido az egyéni gyakorlásra fordított idő (óra) Feladat: a) Egészítse ki az alábbi számítógépes programrészletet a hiányzó adatokkal! zhpont 9,7 +.. nem + oktatas +,70 stat +.. gyak.ido Predictor Coef Stdev t-ratio p Constant 9,47 5,385 3,67 0,00 nem, ,54 0,59 oktatas 4,05 3, stat.... 0,98 0,335 gyak.ido....,7 0,030 s e 8,8 R-sq.. % R-sq (adj) 37,% 44

45 Analysis of Variance SOURCE DF SS MS F p Regression ,000 Error Total ,9 (X * X) - 0,4834 0, , , ,09 0, ,7035-0, , ,0007 0, , , , , , , , , ,0046-0,09-0,0007-0, ,0046 0,00353 b) Becsülje meg 95%-os megbízhatósággal annak a férfi hallgatónak a várható pontszámát, aki 5 órát készült a ZH-ra, hagyományos oktatásban részesült és Statisztika II-ből négyese volt! (x 0 (X * X) - x 0 0,043) c) Határozza meg a zárthelyi pontszáma és a gyakorlási idő közötti korrelációs együtthatót! MTB > Covariance zhpont - gyak.ido zhpont nem oktatas stat gyak.ido zhpont nem oktatas stat gyak.ido

Több megjelenítése