A ultikollinearitás vizsgálata lineáris regressziós odellekben Kovács Péter, a Szegedi Tudoányegyete egyetei adjunktusa E-ail: pepe@eco.u-szeged.hu Epirikus elezéseknél gyakori eset, hogy a vizsgálat szepontjából ne inden adat hordoz hasznos tartalat, azaz az adatálloány redundáns. Ez az eset a többváltozós lineáris regressziószáításnál a ultikollinearitással agyarázható. A ultikollinearitás feliserésének, érésének és e jelenség káros következényeinek csökkentésének száos ódja isert. Azonban, kérdéses, hogy it jeleznek a ultikollinearitás érőszáai, illetve az, hogy a ultikollinearitás jelenlétének káros következényei hogyan, illetve ilyen lehetséges ellékhatásokkal csökkenthetők. A tanulányban összefoglalo, illetve véleényeze a ultikollinearitás detektálásának, illetve érésének közel húsz ódját, valaint a ultikollinearitás negatív hatásainak csökkentésére kidolgozott nyolc ódszert. TÁRGYSZÓ: Főkoponenselezés. Algoritusok, prograok, száítási ódszerek.
Kovács: A ultikollinearitás vizsgálata lineáris regressziós odellekben 39 Mai globalizálódó világunkban egyre inkább növekszik a döntéshozók inforációigénye. Az adatok ennyiségének nagyértékű növekedése ne jár együtt autoatikusan a egfelelő értékű inforációnövekedéssel. Igazából a döntéshozóknak a ár ne az adatok hiányával, hane azok bőségével kell szebenézniük. Éppen ezért, epirikus elezéseknél lényeges kérdés a etrikus adatok inforációtartala, ivel a nagyon nagy ennyiségű adat gyakran kevés inforációt hordoz, azaz nagyértékű a redundancia. Ez utóbbi alatt a vizsgálat szepontjából újabb inforációt, érdeleges közlést ár ne tartalazó, felesleges adatokat értjük (Petres Tóth [006]). Különösen igaz ez a lineáris regressziós odellek alkalazásakor. Többváltozós epirikus elezéseknél a statisztikai ódszerek közül leggyakrabban a regressziós odellt alkalazzák, elynek legisertebb típusa a standard lineáris regressziós odell. Ez átrixalgebrai jelöléssel az y = Xβ+ ε // forában írható fel. A odellben szereplő iseretlen paraéterek n egfigyelésből álló inta alapján történő becslőfüggvénye a legkisebb négyzetek ódszere szerint a következő. ( ) βˆ = XX Xy. // A ˆβ funkcionális operátor olyan hipersíkot eredényez, aely a legjobban illeszkedik a egfigyelések n-dienziós pontfelhőjéhez. A regressziószáítás gyakorlati alkalazásakor ügyelnünk kell arra, hogy a standard lineáris regressziós odellt ne használjuk, ha valaelyik feltétele ne teljesül. Közgazdasági elezéseknél ennek leggyakrabban háro oka lehet:. autokorreláció: a hibatagok együttozgása szignifikáns;. heteroszkedaszticitás: a hibatag szórásnégyzete ne állandó; 3. ultikollinearitás: a agyarázóváltozók együttozgása statisztikailag jelentős, azaz szignifikáns. Lineáris regressziós odellek esetén ez a jelenség a redundancia egy fajtájaként értelezhető. A standard lineáris regressziós odellben a becsült paraéterek varianciáit a ( ˆ ) σ = ( ) Var β XX /3/
40 Kovács Péter alapján tudjuk kiszáítani. Mivel az előző két összefüggésnél a hibatagok σ varianciája száunkra iseretlen, ezért ennek a becsült paraéterek varianciáit a képlettel becsülhetjük. ( ˆ ) = ( ) Var β s e XX /4/. A ultikollinearitás fogala A ultikollinearitás fogala a szakirodaloban látszólag egységes. Az egyes eghatározások általában egy-egy szóban térnek el egyástól, de int látni fogjuk ez jelentős tartali változást jelent. A ultikollinearitás fogalát Ragnar Frisch vezette be. Olyan esetek leírására használta, aikor egy változó több összefüggésben szerepel. Ezekben a vizsgálataiban ne különböztette eg az eredényváltozót a agyarázóváltozóktól. Feltételezése szerint, inden változó érése hibás, ez alapján kell becsülni a változók tényleges értékei közötti korrelációt (Maddala [004]). Nagyon felületes eghatározás az, hogy a ultikollinearitás a tényezőváltozók függetlenségének a hiánya. Ezzel a eghatározással az a probléa, hogy ne derül ki egyértelűen az, hogy it értünk a agyarázóváltozók függetlensége alatt. Netán ezek lineárisan függetlenségét, vagy statisztikai érteleben vett függetlenségét. Továbbá, nagyon erős korrelációs kapcsolatok esetén se feltétlen lehet lineárisan öszszefüggő változókról beszélni. Viszont, az biztos, hogy bárhogyan is értik a függetlenséget, ennek hiánya esetén ne lesz inden korrelációs együttható nulla, azaz valailyen értékű együttozgás létezik a tényezőváltozók között. A standard lineáris regressziós odell egyik alapfeltétele, hogy a agyarázóváltozók egyástól lineárisan függetlenek legyenek. Ezért, egyes forrásokban ultikollinearitáson a tényezőváltozók lineáris függetlenségének hiányát értik. Ez gyakorlatilag azt jelenti, hogy valaelyik tényezőváltozó kifejezhető a többi tényezőváltozó ne triviális lineáris kobinációjaként. Ennek következtében az XX átrix ne invertálható, így a regressziós együtthatók // képlet szerinti becslése ne lehetséges. A továbbiakban ezt a egközelítést a ultikollinearitás egy speciális esetének tekinte, elyet extré ultikollinearitásnak nevezünk. Ez az eset a gyakorlatban ne okoz különösebb probléát, ivel könnyen kezelhető. Az epirikus elezések során nagyon gyakran találkozhatunk az extré ultikollinearitáshoz közeli esetekkel, aikor is az XX átrix ugyan invertálható,
A ultikollinearitás vizsgálata lineáris regressziós odellekben 4 de egyes becsült paraéterek varianciái nagyértékben növekednek a hibatagok szórásnégyzetéhez képest. A ultikollinearitással foglalkozó szakirodalak döntő többsége ezzel az esettel foglalkozik. Azonban, elöljáróban egjegyze, hogy ultikollinearitáson sokkal általánosabb jelenséget is lehetne érteni, égpedig a tényezőváltozók együttozgását. Terészetesen ennek a eghatározásnak a speciális esetei indenki száára visszaadnák azt a fogalat, ait a ultikollinearitáson ért. A ultikollinearitás szignifikáns volta egy adottság és ne az alkalazott odell hibája. Epirikus vizsgálatoknál gyakran kooly probléát jelent a ultikollinearitás feliserése és okának egtalálása, hiszen egyrészt a ultikollinearitás negatív következényei ne indig lépnek fel, ásrészt a ultikollinearitást necsak egy változó, hane egy változócsoport is okozhatja. Így sejthető, hogy a ultikollinearitás érőszáai ne inden esetben jellezik egfelelően ezt a jelenséget. A ultikollinearitás érőszáainak értelezése sokszor eglehetősen szubjektív. Ugyanis a érőszáok többsége arra ad választ, hogy a vizsgált adatálloány ennyire ne ideális, azaz ilyen értékben térünk el az ideális esettől, aikor is inden tényezőváltozó lineárisan független egyástól. Néhány érőszá esetén nincs egyértelű határ az eltérés káros értékű jelzésére. A ultikollinearitás negatív hatásainak csökkentésére, illetve kiküszöbölésére gyakrabban használt ódszerek sikeressége nagyértékben függhet a ultikollinearitás pontos feliserésétől. Ezen ódszerek többségének alkalazása ugyan csökkenti, pontosabban int látni fogjuk csökkentheti a ultikollinearitás negatív következényeinek értékét, de ez ás negatív következényekkel (például jelentős inforációveszteséggel, az eredények ne egfelelő értelezhetőségével) járhat.. A ultikollinearitás következényei A ultikolinearitással foglalkozó tanulányok, tankönyvfejezetek szinte kivétel nélkül egelítik a ultikollinearitás negatív következényeit. Mint a későbbiekben rávilágítok, a sokszor elegetett negatív következények ne indig, csak bizonyos esetekben (near ulticollinearity) jelentkeznek. A ultikollinearitás gyakran elegetett következényei a következők. A becslés és az előrejelzés torzítatlan arad. A regressziós együtthatók /3/ képlettel adott standard hibái nőnek. Az egyes agyarázóváltozók szeparált hatásának vizsgálata érteletlenné válik. Ugyanis, a becsült paraéterek szórásnégyzete /4/ szerint nagy értékben növekszik, elynek következtében a parciális
4 Kovács Péter F-próbák (vagy t-próbák) értelüket vesztik, hiszen ezen próbafüggvényeknek az értékei nagyon alacsonyak lesznek. A regressziós paraéterek // képlettel adott becslése bizonytalanná, instabillá válik. Ezt szelélteti az. és a. ábra.. ábra. A agyarázóváltozók ne szignifikáns együttozgása Forrás: Tričković [976].. ábra. Szignifikáns ultikollinearitás Forrás: Tričković [976].
A ultikollinearitás vizsgálata lineáris regressziós odellekben 43 Az eddigiek szerint, ha a használt odellel kizárólag előrejelzést szeretnénk készíteni, akkor ne jelent túlságosan nagy probléát a ultikollinearitás jelenléte. Azonban a tényezőváltozók parciális hatásainak vizsgálata érteletlenné válik. A. ábra azt utatja, hogy a agyarázóváltozók statisztikailag jelentéktelen együttozgása esetén a becsült paraéterek varianciái, a jelentős együttozgás esetén kiszáított szórásnégyzetekhez viszonyítva jóval kisebbek. Ez azért van, ert az első esetben az adatálloány pontfelhője inden dienzióban szóródik, és így a ráillesztett sík stabil. Míg a. ábra pontfelhője ne indegyik dienzióban szóródik, így a ráillesztett sík könnyen kibillen, azaz instabillá válik az illesztés. A következények között találjuk azt, hogy a becsült regressziós paraéterek varianciái növekednek, illetve értékük agas lesz. Ezzel az állítással kapcsolatosan két probléát lehet egfogalazni. Egyrészt ne indegyik variancia fog nőni, ásrészt pedig, it értünk az alatt, hogy ezeknek agas értékük lesz. Erre utatott rá Maddala [004]. Olyan ellenpéldát ad, aelyben a agyarázóváltozók nagyon erős kapcsolatai ellenére a becsült paraéterek varianciái a korábbi vizsgálati eredényekhez képest alacsony értékűnek tűnnek. A látszólagos ellentondás abban rejlik, hogy száos irodalo elfelejti feltűntetni, hogy a varianciák növekedését ceteris paribus értjük. Ugyanis, ha egvizsgáljuk a /3/ és a /4/ összefüggést, akkor láthatjuk, hogy a becsült paraéterek varianciái két tényezőtől függnek. Egyrészt, a hibatagok varianciájától, ásrészt a képletben szereplő ( X X) átrix diagonális eleeitől. A Maddala [004] által adott ellenpéldában azért ne lesznek nagyok a becsült paraéterek varianciái, ert alacsony a hibatagok varianciáinak becsült értéke, azaz a reziduális szórásnégyzet. Ezért, gyakorlatilag a becsült paraéterek varianciáinak ne az abszolút nagyságát kell ceteris paribus nézni, hane azt, hogy ekkora ezeknek Var ( βˆ i ) inflálódása a hibatagok varianciájához képest. σ = ( ) XX /5/ ii 3. A ultikollinearitás feliserése, érése, illetve érőszáainak bírálata A ultikollinearitás detektálásának és érésének száos ódja isert, azonban ezek közül kevés a széles körben elfogadott ivel, egyrészt a ultikollinearitás de-
44 Kovács Péter tektálása sokszor nagyon nehéz feladat, ásrészt a utatók többségének értelezése eglehetősen szubjektív. Egy utatóval szeben táasztott iniális elvárások a következők.. A utató norált legyen, azaz értéke 0 és közé essen.. A utató szintetikus (átfogó) legyen. 3. A utató értelezése objektív legyen. A továbbiakban e szepontok szerint is eleze a ultikollinearitás néhány utatóját. A ultikollinearitás feliserésének egy egyszerű ódszere az, hogy a tényezőváltozók korrelációs átrixát vizsgálva, nagyobbnak tekintjük a ultikollinearitás értékét, ha a főátlón kívüli eleek abszolút értékei esszebb esnek nullától. A ódszerrel több probléa van. Az. táblázat korrelációs átrixában a korrelációs együtthatók nullától való különbözőségeiről ne tudjuk egállapítani, hogy azok jelentősek-e, vagy se. A ódszer ne határozza eg egyértelűen azt, hogy hány korrelációs együttható szignifikáns eltérése jelez ultikollinearitást. A Klein-féle hüvelykujjszabály szerint akkor kell szignifikáns ultikollinearitással száolni, ha a agyarázóváltozók korrelációs átrixában létezik olyan korrelációs együttható, aelynek értéke közel van a többszörös korrelációs együttható értékéhez (Heran et al. [994]). Ez a ódszer eglehetősen szubjektíven értelezi a közelség fogalát, abból a szepontból, hogy a közelség indenkinek ást és ást jelent, azaz nincs olyan egyértelű küszöbszá, aely alapján azt ondhatjuk, hogy egy korrelációs együttható közelinek tekinthető a többszörös korrelációs együttható értékéhez. Mason és Perreault [99] azt javasolta, hogy a vizsgálatba vont eredényváltozó és darab tényezőváltozó felhasználásával, a változók egkülönböztetése nélkül készítsük el az összes lehetséges (+)-dienziós regressziós odellt úgy, hogy indegyik odellben az eredényváltozó eredetileg egy-egy agyarázóváltozó volt. Aennyiben ezen odelleknek a többszörös deterinációs együtthatói kisebbek az eredeti szereposztású odell többszörös deterinációs együtthatójánál, akkor a ultikollinearitás ne jelent probléát a vizsgálat szepontjából (Mason Perreault [99]). Az M szintetikus utató a agyarázóváltozók és az eredényváltozó közötti korrelációs átrixot használja. Ha a agyarázóváltozók egyástól függetlenek, akkor a többszörös deterinációs együttható értéke egegyezik az eredényváltozó és a agyarázóváltozók közötti páronkénti korrelációs együtthatók négyzetösszegével. Ennek az összegnek az r yx., x,..., x többszörös deterinációs együttható tényleges értékétől való eltérése a ultikollinearitás jelenlétére utal. Ez az elvárás általánosságban ne követelény, csak hasznos tulajdonság. yx., x,..., x Az r alsó indexében a pont után a tényezőváltozók felsorolása ezek lineáris kobinációja utal.
A ultikollinearitás vizsgálata lineáris regressziós odellekben 45 M r yx ry. x, x,, x i= = i. A fő kérdés az, hogy ekkora eltérés jelez erős ultikollinearitást (Heran et al. [994]). Egy ásik szintetikus utató az ( + ) y. x, x,..., x j= y. x, x,..., x y. x, x,..., xj, xj,..., x M = r r r, /6/ ainek a többszörös deterinációs együtthatóhoz közeli értéke jelentős ultikollinearitást jelez (Förster Egerayer [966]). A közelség értelezése szubjektív, ráadásul az M értéke negatív is lehet. A /6/ képlet agyarázatának két főbb egközelítése isert. Az egyik szerint, a /6/ képletet átrendezve láthatjuk, hogy az összefüggés a többszörös deterinációs együtthatót bontja fel a tényezőváltozók közvetlen hatásaira, illetve az M által ért közvetett hatásra, tehát az eredényváltozó szórásnégyzetének a agyarázóváltozók által együttesen egagyarázott hányadát bontjuk fel a tényezőváltozók által külön-külön és egy közösen eghatározott részre. (Lásd a 3. ábrát.) 3. ábra. Az M-utató illusztrációja Forrás: Saját szerkesztés.
46 Kovács Péter Két agyarázóváltozó esetén a tárgyalt összefüggés szerkezete gyakorlatilag a szitaforula analógiája, az együttesen egagyarázott részre, int halazra alkalazva. Márpedig a szitaforula végeredénye ne lehet negatív előjelű. Tehát a /6/ képletnek az e fajta interpretációja ne tökéletes, ugyanis a agyarázóváltozók közvetlen hatásainak értéke ne egyezik eg a képletben szereplő értékkel. A /6/ képletben közvetlen hatásként azt érjük, hogy ha egy adott agyarázóváltozót utoljára kapcsolunk be a odellbe, akkor az ennyivel növeli eg a többszörös deterinációs együttható értékét. Theil (97) ezeket a tényezőket, azaz a /6/ képlet összeadandó részeit az adott változónak a többszörös deterinációs együtthatóhoz tartozó növekényi hozzájárulásának nevezte. Pontosan ezek a növekények jelentik a /6/ képlet ásik agyarázatát. Ha az összes tényezőváltozó páronként független, akkor a többszörös deterinációs együttható értéke pontosan egegyezik a növekények összegével, tehát ekkor a utató értéke nulla. Egy újabb lehetséges vizsgálati ódszer a agyarázóváltozók ortogonalitásának vizsgálata. Ha a agyarázóváltozók lineárisan függetlenek egyástól, akkor a odellben szereplő tényezőváltozók ortogonálisnak tekinthetők, ekkor a tényezőváltozók korrelációs átrixának deterinánsa egy. Minél jobban távolodunk ettől az esettől, a korrelációs átrix deterinánsának abszolút értéke egyre inkább nullához közelít. A korrelációs átrix deterinánsa egegyezik a átrix sajátértékeinek szorzatával. Ez a ódszer csak alacsony dienziószá esetén használható egfelelően (Fellan [98]). A kérdés egint csak az, hogy it jelent a nullához való közelség? A Farrar Glauber (Farrar et al. [970]) -féle vizsgálat szerint a korrelációs átrix deterinánsa egközelítőleg χ -(khi-négyzet) eloszlásúvá transzforálásával a következő próbafüggvényt kapjuk. ( 5 ) χ = n + detr. 6 A hipotézisvizsgálat nullhipotézise a agyarázóváltozók lineárisan függetlensége, vagyis az, hogy a deterináns abszolút értéke egy. Ennek a statisztikai próbának a ( ) szabadságfoka (Hulyák [969]). Meg kell jegyezne, hogy a nullhipotézis elfogadása ne jelenti autoatikusan azt, hogy ne lép fel a ultikollinearitás a odellben. A agyarázóváltozók korrelációs átrixának inverzét vizsgálva egállapítható, hogy a átrix diagonális eleei egynél ne lehetnek kisebbek. Minél nagyobb az együttozgás egy változó és a többi változó között, annál jobban eltérnek egytől a egfelelő diagonális eleek. Ez alapján egy parciális próbát lehet alkalazni a
A ultikollinearitás vizsgálata lineáris regressziós odellekben 47 ultikollinearitás tesztelésére. Wilks kiutatta (Hulyák [969]), hogy a diagonális eleek egközelítőleg n és szabadságfokú F-eloszlásúvá transzforálhatók, ai a következő próbafüggvényt eredényezi. ( ii ) n ω i = R. A próba nullhipotézisének elvetése azt jelenti, hogy a vizsgált agyarázóváltozó és a többi tényezőváltozó között adott szignifikanciaszint ellett a ultikollinearitás szignifikánsnak tekinthető (Hulyák [969]). A ultikollinearitás jelenlétére gondolhatunk akkor is, aikor a két tényezőváltozó közötti parciális korrelációs együttható értéke jelentősen eltér a két változó közötti korrelációs együttható értékétől. A parciális korrelációs együtthatók szignifikanciájának t-próba segítségével történő tesztelését is alkalazhatjuk, terészetesen norális eloszlás feltételezése ellett. Frisch sugárkévetérképek ódszere (bunch aps) a norált regressziós együtthatók ábrái alapján következtet a ultikollinearitás jelenlétére. Az eljárás egfelelő rutin nélkül nagyon nehézkesen alkalazható. A ódszer ne különbözteti eg a agyarázóváltozókat az eredényváltozótól, tehát beenetként adott + darab változó. Ezután indegyik változónak az átlagától való eltéréseire először ( + ) - dienziós lineáris regressziós odellt illesztünk úgy, hogy inden változó szerepeljen eredényváltozóként is. Így kapunk + darab + változós lineáris regresszióegyenletet. Ezek indegyikéből kifejezzük külön-külön az összes változót. Gyakorlatilag így indegyik változót + darab egyenlettel írjuk fel a többi változó segítségével. Ezek után iteráljuk az eljárást, vesszük az összes lehetséges - dienziós odellt stb. Az iterációs eljárást két dienzióig isételjük. A kapott parciális regressziós együtthatókat az összehasonlíthatóság kedvéért norálnunk kell. A sugárkévetérképekben ezeket a noralizált együtthatókat ábrázoljuk. A noralizált parciális regressziós együtthatók kifejezhetők a egfelelő korrelációs együtthatók adjungált átrixának egy-egy egfelelő eleének hányadosaként. Ezen hányadosok szálálói, illetve nevezői lesznek a sugárkévetérképeken ábrázolandó koordináták. Egy sugárkéve ne ás, int egy-egy változópár közötti, összes kapott adott dienziójú együtthatók ábrája. A kévék zártságából, eredekségéből és a sugarak hosszából kiutatható a ultikollinearitás, illetve egállapítható, ely agyarázóváltozók lesznek hasznosak, károsak, illetve feleslegesek az eredényváltozó agyarázatának szepontjából. A kéve zártsága azt utatja, hogy a két változó között ilyen szoros kapcsolat van. Minél rövidebb egy sugár, annál szorosabb a kapcsolat a többi változó között, ezért azok lesznek a legfontosabb változók, aelyekhez a leghosszabb sugarak tartoznak (Corradi [967]).
48 Kovács Péter A VIF j (Variance Inflation Factor Varianciainflációs tényező) ne szintetikus utató hiszen inden agyarázóváltozóra külön-külön kiszáítjuk, azaz ez a utató valaelyik változóhoz próbálja kötni a ultikollinearitást. Ez azért ne túl szerencsés, ert sok esetben a ultikollinearitást ne egy változó okozza. VIFj =. /7/ r x j. x, x,..., xj, xj+,..., x Ha a j-edik tényezőváltozó lineárisan független a többi agyarázóváltozótól, akkor e utató értéke eggyel egyenlő. Extré ultikollinearitás esetén a utató értéke végtelen. Az x ij xij x j = nσ j /8/ szerint standardizált agyarázóváltozók esetén ( ) VIFj jj XX =. 3 A VIFj -utató j egutatja a β ˆ j becsült regressziós együttható varianciája inflálódásának értékét a hibatagok varianciájához viszonyítva. Ennek értelezése eglehetősen szubjektív abból a szepontból, hogy nincs egyértelű küszöbszá a ultikollinearitás káros voltának jelzésére. Egyes szerzők szerint a utató öt és e feletti értéke jelez erős ultikollinearitást. A VIFj -utató reciprokát toleranciautatónak nevezzük. Ennek értéke nulla és egy közé esik. Minél nagyobb a ultikollinearitás értéke annál közelebb van a utató értéke a nullához (Kovács Petres Tóth [004]). A VIF -utató öthöz képest nagyon agas értéke iatt érdekes Boweran példája. Az aerikai hadiflotta kórházainak 979-es vizsgálatakor 7 kórház adatai alapján a havi unkaórák száára illesztett regressziós odell eredénye Az. táblázatban látható (Feng-Jenq [006]). Az. táblázat adataiból egállapítható, hogy a VIFj -utató értéke az ápolás átlagos időtartaát leszáítva inden változó esetén nagyobb ötnél, azonban az értékek nagyságrendje között jelentős különbség utatkozik. A ultikollinearitásért elsősorban valószínűleg vagy az ellátandó páciensek napi átlagos száa, vagy az ápo- 3 Ugyanis, a agyarázóváltozók korrelációs átrixa alapján felírható a VIF j = R jj összefüggés. Ekkor a kizárólag az xij x j xij = szerint standardizált változókra érvényes XX = R egyenlet figyelebevételével az nσ ( ) jj = VIF j XX összefüggést kapjuk. j
A ultikollinearitás vizsgálata lineáris regressziós odellekben 49 lási napok száa egy hónapban, vagy indkét változó felelős. Ennek eldöntésére további vizsgálatokra lenne szükség. Most csak annyit állíthatunk, hogy ne tűnik célszerűnek ezt a két tényezőváltozót egyszerre ugyanabban a odellben szerepeltetni. Egyébként e két változó esetében a t-statisztika értéke is igen alacsony, azonban ezt a ultikollinearitás jelenléte iatt ne értelezhetjük egfelelően.. táblázat A havi unkaórák becslése lineáris regressziós odellel Változók Becsült regressziós paraéterek t-statisztika VIF j Tengelyetszet 96,48,83 Az ellátandó páciensek napi átlagos száa 5,85 0,6 9597,57 A havonta elvégzett röntgenvizsgálatok száa 0,056,63 7,94 Az ápolási napok száa egy hónapban,590 0,54 8933,09 A körzethez tartozók száa (ezer fő) 4,9 0,588 3,9 Az ápolás átlagos időtartaa (nap) 394,34,88 4,8 Forrás: Feng-Jenq [006]. A ultikollinearitás érőszáának egy családját alkotják a tényezőváltozók korrelációs átrixának sajátértékeire épülő utatók. A sajátértékek reciprokait használó indikátorok nagy hátránya, hogy értelezésük szubjektív, azaz nincs egy olyan egyértelű küszöbszá, ai ár erős ultikollinearitást jelez. Továbbá ezen utatók értékei főleg csak a legkisebb sajátértéktől függnek. Míg a VIF j értékének eghatározása általában standardizált változókkal történik, addig a agyarázóváltozók egészére vonatkozó λ γ= λ ax in gaa-utató 4 értékének kiszáítása a agyarázóváltozók norált értékeivel történik. Ha a tényezőváltozók lineárisan függetlenek, akkor a utató értéke eggyel egyenlő. Azonban a szignifikáns ultikollinearitásnak nincs egyértelű küszöbérté- 4 Ezt a utatót, illetve a négyzetét a különböző szakirodalak ás és ás szerzők nevéhez kötik. Például Wichern és Churchill, Casella, Belsley. A utató négyzete a kondiciószá, elynek értékei azt jelzik, hogy a átrix eleeinek kicsiny (például tizednyi, századnyi) egváltozására hogyan változnak eg az inverz átrix eleei. Ha ez a változás nagyságrendekkel nagyobb a átrix eleeinek kicsiny egváltozásához képest, akkor a átrix rosszul kondicionált.
50 Kovács Péter ke, így értelezése ne objektív. Egyes szerzők szerint e utató 30 feletti értéke jelez erős ultikollinearitást (Kovács Petres Tóth [004]). Fellan L-utatójának λ L = i= λ nullához közeli értékei jelentéktelen ultikollinearitást jeleznek. Minél nagyobb a utató értéke, annál erősebb a ultikollinearitás értéke (Fellan [98]). Mahayan és Lawles a ultikollinearitás érésére egy ásik M -utatót használt (Fellan [98]). M i= i i =. λ Ennek a utatónak az előnye a gaa-utatóhoz képest az, hogy az összes sajátértéket figyelebe veszi. Thisted egyszerre két utatót is javasolt. Az egyik az ci ultikollinearitásindex, a ásik pedig a pci tervező ultikollinearitás-index (Fellan [98]). in i λ λin ci =, pci =. i= λ i= λ Thisted az ci-indexet becslések, íg a pci-indexet előrejelzések készítésekor ajánlotta használni. A két indexről könnyen igazolható, hogy < ci pci. A két index értéke pontosan akkor egyezik eg, ha inden sajátérték egegyezik, azaz indegyik értéke, ekkor indkét index értéke. Minél jobban közelít a nullához a legkisebb sajátérték, a utatók értékei annál jobban közelítenek egyhez. Thisted állítása szerint az indexek egyhez közeli értékei szignifikáns ultikollinearitást jeleznek. Azonban, ez az állítás cáfolható. Fellan [98] ráutatott arra, hogy ha egy olyan speciális korrelációs átrixot tekintünk, aiben a tényezőváltozók korrelációs átrixának inden főátlón kívüli elee α, akkor a két indexre szigorúbb alsó határt adhatunk. 5 Ekkor < ci pci. i i 5 Ekkor a korrelációs átrix sajátértékei: λ =λ = =λ = a ; λ = + ( ) a.
A ultikollinearitás vizsgálata lineáris regressziós odellekben 5 Például, háro agyarázóváltozó esetén indkét index értéke kettőnél nagyobb lesz. Márpedig, például ha α= 0,9 ; akkor az erős ultikollinearitás ellenére, a két index értéke eg se közelíti az egyet. Thisted érőszáai csak akkor adnak egfelelő képet a ultikollinearitás értékéről, ha legfeljebb egy darab nullához közeli sajátérték van. A Vinod, Wichern és Churchill által adott ISRM- (Index of Stability of Relative Magnitudes Relatív terjedele stabilitásának indexe) index értéke 0 és ( ) közé esik (Fellan [98]). ISRM =. i= λ j j= λi Az index kifejezhető az eddigi utatók segítségével is. ISRM ci = =. i= λim pci Minél jobban távolodik a utató értéke a nullától, annál erősebb a ultikollinearitás értéke. Azonban, az ci-indexnél beutatott példával ezt az állítást is cáfolhatjuk. Minél közelebb van az a paraéter értéke egyhez, annál nagyobb a ultikollinearitás értéke, viszont az ISRM-index értéke -hez tart (Fellan [98]). Mivel fogyasztáselezések során a ultikollinearitás szinte kivétel nélkül indig jelen van, ezért például az főre jutó évi arhahúsfogyasztást (y, kg/fő), int eredényváltozót vizsgálva 990 és 004 között a következő tényezőváltozók 6 függvényében: x egy főre jutó reáljövedele indexe (004=00,00%); x sertéshús, cob, csont és csülök nélkül (Ft/kg); x 3 arhahús, rostélyos, csontos (Ft/kg); x 4 tojás (Ft/darab); x 5 pasztőrözött tej (Ft/liter); 6 Mivel az árak a különböző években ás és ás árszínvonalon vannak egadva, ezért ezek összehasonlíthatósága végett, az elezés egkezdése előtt az adatokat deflálni kellett. Az elezésben inden árat 004-es árszínvonalon adunk eg.
5 Kovács Péter x 6 sertészsír (Ft/kg); x 7 napraforgó-étolaj (Ft/liter); x 8 kenyér, fehér (Ft/kg); x 9 norál kristálycukor (Ft/kg); x 0 narancs (Ft/kg); x sör, hazai világos (Ft/0,5 liter); x cigaretta, Sophianae, ultifilteres, rövid, 0 db (Ft/csoag); x 3 főre évi jutó sertéshúsfogyasztás (kg/fő). A sajátértékekre épülő utatók értékeit a. táblázat tartalazza.. táblázat A sajátértékekre épülő utatók értékei Mutató Érték χ 47,756 L 494,584 M 807,49 ci,675 pci,6 ISRM 44,68 Forrás: Saját száítások. Látható, hogy ind a γ egyhez képest, ind az L, az M, az ISRMérőszáok értékei a aguk ódján a nullához képest távolinak ondhatók, így ezek erős ultikollinearitást jeleznek. Azonban, az egyes utatók értékei ás és ás nagyságrendűek, így indegyiknél ást és ást jelent a távoli kifejezés. Ebből kifolyólag ezeknek a utatóknak az értékei egyással közvetlenül ne összehasonlíthatók. Az ci és a pci értékei viszont nincsenek annyira közel az egyhez, int aennyire várnánk. Ugyanis, az összes eddigi érőszá nagyon erős ultikollinearitást jelzett, ekkor nyilvánvalóan azt várnánk, hogy ennek a két indexnek az értéke egyhez közeli. Ezzel szeben, pci =,6; tehát ezen indexek szerint ugyan létezhet ultikollinearitás a odellben (az értékek eltávolodtak -től), de ennek értéke ne ítélhető eg objektíven. Egy jogos kérdés az, hogyha ennyire szubjektív a sajátértékek reciprokaira épülő utatók értelezése, akkor iért próbálkoznak sokan ilyen típusú utató egadásával?
A ultikollinearitás vizsgálata lineáris regressziós odellekben 53 Ugyanis, ha a /8/ szerint standardizált változókat vizsgálunk, akkor XX = R. A standardizált változókhoz tartozó becsült paraéterek variancia-kovariancia átrixa felírható az E ( ˆ )( ˆ β β β β) Var( ˆ β ) ( ) = =σ XX =σ R =σ UΛ U forában is a korrelációs átrix spektrálfelbontása alapján, ahol Λ a korrelációs átrix sajátértékeinek diagonális átrixa, U pedig a sajátértékekhez tartozó sajátvektorok átrixa. Ez utóbbi, illetve a loading változókat tartalazó A főkoponenssúly-átrix tulajdonságainak 7 figyelebevételével a j-edik standardizált agyarázóváltozóhoz tartozó paraéter becslésének szórásnégyzete a következő. Var ( ˆ j ) u jl a jl l= λl l= λl β =σ =σ. Ebből a varianciák összegére a következő összefüggést 8 kapjuk: ( β ˆ j ) =σ Var. /9/ λ j= l= Ezek szerint a varianciák értékét, azaz a varianciáknak a hibatagok szórásnégyzetéhez viszonyított inflálódásának értékét végső soron ceteris paribus a sajátértékek befolyásolják: ha legalább egy túl közel van nullához, akkor nagy értékben növekszik a becsült paraéterek szórásnégyzeteinek átlaga. Az, hogy legalább egy λ közel esik-e nullához, egyértelűen az adatálloány adatainak együttozgásától, azaz a ultikollinearitás értékétől függ (Kovács Petres Tóth [004]). A ultikollinearitás egyik legújabb érőszáa a Curto és Pinto által 007-ben publikált DEF- (Direct Effect Factor Közvetlen hatás faktor) utató (Curto Pinto [007]). 7 Az akl = ukl λ l főkoponenssúlyok egadják a agyarázóváltozók és a főkoponensek közötti lineáris korrelációs együtthatót: akl = rxc = rx k l kc. A főkoponenssúlyok oszloponkénti négyzetösszege λ l j, a soronkénti négyzetösszege egy. Oszloppáronkénti szorzatösszegük nulla, sorpáronkénti szorzatösszegük a egfelelő két agyarázóváltozó lineáris korrelációs együtthatója. 8 Az összefüggés egyszerűbben is egkapható a következő ódon. ˆ Var( β ) ( ) ( ) ( ) j = σ XX jj =σ tr XX =σ tr R =σ λ j= j= l= l
54 Kovács Péter Aennyiben az y =β ˆ +β ˆ x +β ˆ x +... +β ˆ x + e i 0 i, i, i, i regressziós odellt standardizált változókra írjuk fel, akkor ez az egyenlet Y =β ˆ X +β ˆ X +... +β ˆ X +β ˆ E = Yˆ +β ˆ E i i, i, i, e i i e i alakban írható fel, ahol a β ˆ i a standardizált regressziós együtthatókat 9 jelenti. Ekkor 0 Var( Y) Var( Yˆ ˆ E) Var( Yˆ) ˆ Var( E ) r. = +β e = +β e + YE ˆ A standardizált változók és a standardizált hibatag függetlenségének feltételezése ellett ˆ ˆ i Var Yi e Var( Y ) = ( ) +β. Ekkor az eredényváltozó eggyel egyenlő varianciáját két részre bonthatjuk fel:. a tényezőváltozók által együttesen egagyarázott Var( Y ˆ i ) hányad, ait a többszörös deterinációs együtthatóval érünk;. a tényezőváltozók által együttesen eg ne agyarázott hányad, ai gyakorlatilag Var( Y ) r = r i Y. X, X,, X Y. X, X,, X. Mivel a standardizált eredényváltozó a standardizált változók egy lineáris kobinációja, ezért ˆ ˆ ˆ i irxx i j j i= i= j= j i Var( Y ˆ ) = β + β β. 9 Ez a terinológia azért félrevezető, ert a szakirodalo kivétel nélkül ne a regressziós együtthatók standardizált voltára utal, hane arra, hogy standardizált változók szerepelnek a odellben. 0 Az összefüggés alapja az, hogy standardizált változók lineáris kobinációjának varianciája: Var( y) = Var( β j x j) = β j + βirx ix β j j j= j= i= j= j i.
A ultikollinearitás vizsgálata lineáris regressziós odellekben 55 Ezek szerint, a tényezőváltozók által együttesen egagyarázott Var( Y ˆ i ) varianciahányad, és így speciálisan a többszörös deterinációs együttható is két részből tevődik össze:. a tényezőváltozók direkt hatásainak összege: i ij i= j= j i ˆ βi i=. a tényezőváltozók együttes hatása: βˆ r βˆ. ; j Ezért, a DEF = βˆ r βˆ i ij j i= j= j i ˆ β ˆ ˆ i + βirijβj i= i= j= j i utató a szerzők szerint egutatja, hogy a többszörös deterinációs együttható hány százalékát teszi ki a tényezőváltozók együttes hatása. A utató egyhez közeli értéke erős ultikollinearitást jelez. Vizsgálatai szerint, a utatóval kapcsolatban több hiányosság is felsorolható. A képlet szálálója negatív is lehet, így aellett, hogy százalékban se fejezhető ki, gondot jelent az értelezése is. Ennek szeléltetésére tekintsük a 3. táblázatban szereplő példát. Példa a DEF-utató bírálatára 3. táblázat y i x i x i 5 6 5 6 6 7 8 55 8 9 70 9 3 55 0 34 0 3 6 45 30 Forrás: Saját száítások.
56 Kovács Péter A standardizált adatok korrelációs átrixa a következő. Standardizált (y) Standardizált (x ) Standardizált (x ) Standardizált (y),000 0,60 0,03 Standardizált (x ) 0,60,000 0,3 Standardizált (x ) 0,03 0,3,000 Az illesztett odell főbb jellezői a következők. Modell R R A becslés standard Korrigált R hibája 0,6 0,374 0,66 0,854467 Az illesztett odell együtthatói a következők. Ne standardizált együtthatók Standardizált (x ) Standardizált együtthatók Standardizált (x ) 0,68 0,33 0,68 Standardizált (x ) 0,4 0,33 0,4 Ekkor a DEF-utatóban szereplő felbontás a következő lesz. ˆ β i = 0,68 + 0,4 = 0, 407 i=, βˆ r β ˆ = 0,68 ( 0, 3) 0,4 = 0, 033, i ij i= j= j i j β ˆ ˆ ˆ i + βirijβ j = 0,374 i= i= j= j i, 0,033 DEF = = 0,088. 0,374
A ultikollinearitás vizsgálata lineáris regressziós odellekben 57 Tehát, a kapott eredény egyáltalán nincs összhangban a szerzők állításával. A redundancia egy új, lehetséges érőszáa a Petres-féle Red-utató (Petres Tóth [004]). A Red-utató definiálásakor a tényezőváltozók R korrelációs átrixának λ j ( j =,,..., ) sajátértékeit alkalazzuk. A Red-utató a következő gondolateneten alapszik. Ha a agyarázóváltozók forrásául szolgáló adatálloány a ˆβ becslőfüggvény szepontjából redundáns, azaz nagyértékű az adatok együttozgása, akkor ne indegyik adat hordoz hasznos tartalat. Minél kisebb a hasznos tartalat hordozó adatok aránya, annál nagyobb a redundancia értéke. Minél nagyobb értékben szóródnak a sajátértékek, annál nagyobb értékű az adatálloányban szereplő agyarázóváltozók együttozgása. Két szélsőséges eset létezik: inden sajátérték egyenlő egyással (azaz értékük egy), illetve egy sajátérték kivételével indegyik sajátérték nullával egyenlő. A diszperzió értékét szászerűsíthetjük a sajátértékek relatív szórásával vagy (ebben az esetben az ezzel egyenlő) szórásával. v λ ( λ λ) ( λ λ) j j j= j= j= λ j j= ( λ j ) σλ = = = = =σλ. /0/ λ Különböző adatálloányok redundanciájának összevethetősége végett a utatót norálni kell. Mivel a sajátértékek nenegatívak, ezért a relatív szórásra vonatkozó 0 vλ összefüggés iatt, a norálás értékével történik. Az így kapott utatót a redundancia értékének szászerűsítésére használhatjuk, és segítségével a Red-utatót a következők szerint határozzuk eg. vλ Red =. // A redundancia hiánya esetén a utató értéke nulla, illetve nulla százalék, íg axiális redundancia esetén egy, illetve száz százalék. A Red-utató a vizsgált, adott éretű adatálloány redundanciáját éri. Két vagy több különböző éretű adatálloány redundanciájának összevetésekor a Red- A relatív szórás két szélső korlátjára (ha xi 0 ) felírhatjuk a 0 v N összefüggést. Az alsó korlát v= 0 inden esetben fennáll, ha x i x i = 0 ( i =,,,N ) és x N = N x. = x ( i =,,,N ). A felső korlát v= N csak akkor áll fenn, ha
58 Kovács Péter utatók alapján csak annyi állítható, hogy az egyes adatálloányok ennyire redundánsak, de arra vonatkozó közvetlen kijelentés ne tehető, hogy ezek közül elyiknek van több hasznosítható adata. A Red-utató kiszáítható a korrelációs átrix főátlón kívüli eleeinek négyzetes átlagaként is Red = r ij i= j= j i ( ). // Az összefüggés abból a szepontból érdekes, hogy a Red-utató egy olyan négyzetes átlag, aely a definíciójából következően százalékban is kifejezhető. A // képlet szerint a Red-utatóval érni lehet a tényezőváltozók átlagos együttozgásának értékét. A utató definíciójából és a // képletből következik, hogy a utató előnye a többi sajátértékekre épülő utatóval szeben az, hogy úgy veszi figyelebe az összes sajátértéket, hogy értékét inden sajátérték azonos súlylyal befolyásolja, továbbá figyelebe veszi a tényezőváltozók összes páronkénti együttozgását is, így a Red-utató indenképpen pozitív elozdulást jelent a ultikollinearitás eddigi kutatásához képest. A utató segítségével egkülönböztethetők az extré ultikollinearitás különböző esetei is, hiszen a utató akkor is használható, ha valaelyik sajátérték nulla. 4. A ultikollinearitás negatív következényeinek csökkentése Abban az esetben, ha a ultikollinearitás jelenléte ne jelent probléát a vizsgálatok szepontjából például előrejelzések esetén akkor seit se kell tennünk. Ha a ultikollinearitás probléát jelent, akkor egoldás lehet néhány tényezőváltozó elhagyása. Mivel a változók elhagyása után a regressziós paraétereket újra kell becsülni, ezért a paraéterek becsült értéke attól is függ, hogy ely változót, illetve változókat hagytuk el a odellből. A agyarázóváltozók elhagyásával kapcsolatosan több probléa fogalazható eg.. Egyrészt, a változók elhagyása indig inforációvesztéssel jár. Előfordulhat, hogy bizonyos változók elhagyásával nagyértékű lesz ez a veszteség.. Másrészt, a vizsgálat szepontjából releváns változók elhagyása ugyan csökkentheti a ultikollinearitás negatív következényeit, de
A ultikollinearitás vizsgálata lineáris regressziós odellekben 59 specifikációs torzítás lép fel az alkalazott odellben. Ekkor a regreszsziós együtthatók becsült értékeinek értelezése ne lesz valósághű. 3. Haradrészt, honnan tudjuk, hogy elyik agyarázóváltozót kell elhagyni? Ugyan bizonyos utatók a ultikollinearitást agyarázóváltozókhoz próbálják kötni, de ahogyan ár korábban hangsúlyozta, ezért a jelenségért ne indig egy változó okolható. Általában az abszolút értékben legkisebb t-értékkel rendelkező paraéterhez tartozó tényezőváltozót hagyjuk el, de létezik olyan eljárás is, aelyben indig a legnagyobb VIFj -értékkel rendelkező változót vesszük ki a odellből. A változók elhagyásának végrehajtásánál figyelni kell arra, hogy a változókat kizárólag egyesével szelektáljuk. A statisztikai szoftverek többsége tartalaz olyan odellépítési ódszereket, ún. stepwise eljárásokat, aelyek a változók szelektálásánál figyelebe veszik a t-értékeket, valaint általában a toleranciautató változónkénti értékét is (Hunyadi Mundruczó Vita [997]). A kéndioxid koncentrációjának becslése lineáris regressziós odellel 4. táblázat Változók Becsült regressziós paraéterek t-statisztika VIF j Tengelyetszet,59,338 A népesség száa 979-ben (ezer fő) 0,039,564 4,34 A legalább 0 főt foglalkoztató gyárak száa 0,064 4,008 4,883 Évi átlaghőérséklet (F),8,03 3,783 Évi átlagos szélsebesség 3,,747,6 Évi átlagos csapadékennyiség (hüvelyk) 0,497,340 3,465 Az esős napok évi átlagos száa 0,048 0,9 3,463 Porkoncentráció (pp) 0,33 0,39,79 A becslés stepwise algoritus alkalazásával Tengelyetszet 6,35 6,855 A legalább 0 főt foglalkoztató gyárak száa 0,08 5,609,434 A népesség száa 979-ben (ezer fő) 0,057 3,959,434 Forrás: Feng-Jenq [006]. Ezzel kapcsolatosan egy Sokal és Rohlf által adott érdekes példát szeretnék egelíteni (Feng-Jenq [006]). Kliatológusok a 970-es évek végén a levegő inőségének előrejelzésére egy elezés során 4 aerikai nagyváros adatait vizsgálták. Az egyik részvizsgálat során a kéndioxid koncentrációját, int eredényvál-
60 Kovács Péter tozót, hét agyarázóváltozó függvényében eleezték. Ekkor a 4. táblázatban szereplő lineáris regressziós odellt kapták. A 4. táblázat adatai alapján egállapítható, hogy a népesség száát és a gyárak száát egyidejűleg ne célszerű a regressziós odellben szerepeltetni, ugyanis öthöz képest túlságosan nagy a VIF j -utatók értéke e két változó esetében. Ugyanakkor látható, hogy ennek ellenére indkét változónál a t-statisztika értéke ne kisebb a kritikus értékhez képest. Mi történik akkor, ha a regressziós odellt stepwise algoritussal építjük fel? Ekkor a 4.táblázat ásodik felének adatait kapjuk. Az 4. táblázat adatai alapján látható, hogy a stepwise algoritus ind a népesség száát, ind a gyárak száát szerepelteti agyarázóváltozóként, azaz a ultikollinearitás jelensége ne szűnt eg. Ebből következően a stepwise algoritus csak akkor tudja figyelebe venni a VIF j -utató értékét, ha ez valaelyik paraéter szórásnégyzetének olyan agas értékét jelzi, hogy a t-statisztika értéke alacsonyabb a kritikus értéknél. Egy újabb egoldást jelenthet a egfigyelések száának, a inta eleszáának növelése. Ennél a ódszernél a fő probléát az jelenti, hogy a inta eleszáának növelésével a változók közötti korreláció akárhogyan változhat, így az is előfordulhat, hogy egyáltalán ne tudjuk csökkenteni a ultikollinearitás negatív következényeit. Idősorok vizsgálata esetén egy ásik probléa is jelentkezik: nincs lehetőség a egfigyelések száának növelésére (Maddala [004]). Egy hasonló jellegű egoldás a külső inforációk felhasználása. Ez a ódszer különösen fogyasztáselezéseknél használatos, ahol is egyszerre keresztetszeti és idősoros adatokat is felhasználnak. Például, Tobin kutatásaiban a jövedeli elaszticitások becslését keresztetszeti, íg az árrugalassági együtthatókat idősoros adatok alapján száította ki (Petres Tóth [006]). Habár általában a ultikollinearitás negatív következényeit ne csökkenti, de technikailag főleg akkor, aikor a korrelációs átrix invertálása nehézségekbe ütközik egoldást jelenthet az általánosított inverz átrix, ás néven a Moore + Penrose inverz alkalazása. Az X nx( + ) átrix az X ( + ) xn átrix általánosított inverze, ha teljesülnek a következő feltételek. + XX X = X + + + XXX = X XX X = XX ( ) ( ) + + + XX = XX +. A Moore Penrose inverz segítségével egoldható az // egyenlet.
A ultikollinearitás vizsgálata lineáris regressziós odellekben 6 Ekkor ˆ + + + β = Xy= XXβ +X ε. A ódszer használata egy hagyoányos LNM-becslést jelent (Heinczinger [983]). Gyakran alkalazott eljárás a standardizált tényezőváltozók esterséges, ortogonális, azaz egyástól lineárisan független változókba, úgynevezett főkoponensekbe történő transzforálása. Ez az eljárás gyakorlatilag egegyezik az általánosított inverz ódszer alkalazásával. A főkoponensek a standardizált tényezőváltozók lineáris kobinációi, tehát a főkoponensek Z -átrixa felírható a Z=XU alakban, ahol U a korrelációs átrix sajátértékeihez tartozó sajátvektorok átrixa. Mivel U = U, így X=ZU. Ezért az // egyenlet felírható ilyen forában is. y = Xβ+ ε= ZU β+ ε= Zγ+ ε. A Hoerl nevéhez fűződő ridge-regresszió (Hoerl et al. [970]) gyakorlatilag egy torzító paraéter (k>0) alkalazását jelenti: az XX átrixhoz hozzáadjuk az egységátrix k-szorosát. Ekkor a regressziós paraéterek a // egyenlet helyett a következő forában becsülhetők. ( ) β ˆ = XX + k I Xy. A ódszer legkényesebb kérdése a torzító paraéter egválasztása. Aennyiben a torzító paraéter értékét inden határon túl növeljük, a becsült paraéterek értékei nullához tartanak. A regressziós paraétereknek a pozitív torzító paraéter használatával kapott becslése torzított ugyan, de bizonyítható, hogy indig létezik olyan (0<k<) érték, aelyre a becslés hatásosabb lesz, int a legkisebb négyzetek ódszerén alapuló becslés. Hoerl azt javasolta, hogy k értékét oly ódon válasszuk eg, hogy az a lehető legkisebb érték legyen úgy, hogy az együtthatók becslései stabilak legyenek, azaz k változására a regressziós paraéterek becslései csak nagyon kis értékben változzanak eg, vagyis stagnáljanak. A k-érték egválasztásával az a probléa, hogy a stabilitás fogalát nagyon szubjektíven értelezték. A k- paraéter becslésére száos javaslat született. A. lábjegyzetben közölteknek egfelelően csak két, Hoerl által is alkalazott technikát elítek eg. A becsült regressziós együtthatókat a torzító paraéter függvényében ábrázolva egkapjuk a ridge-görbét. 3 A görbe alapján egállapítható k egfelelő értéke. Ez Ennek a probléának igen gazdag szakirodala van. Ennek részletes beutatásától eltekintek. 3 A k torzító paraéter értékét a hatásosságra vonatkozó állítás iatt a (0;) tartoányon kell ábrázolni.
6 Kovács Péter az eljárás bár nagyon szeléletes, ne egzakt. Hoerl javaslata szerint k egfelelő értékét a következő képlettel kaphatjuk eg. k = se ˆ βi i= 0 Adott k-érték ellett a ultikollinearitás szignifikáns voltára következtethetünk abból, ha a torzító paraéter kicsiny változására a becsült regressziós paraéterek nagyon egváltoznak, azaz instabil a becslés (Heinczinger [983]). A ridge-regresszió alkalazásával kapcsolatban, a stabilitás szubjektív eghatározásán kívül, ás probléa is felerül.. Egyrészt, a ódszer ne független a változók értékegységeitől, illetve a lineáris transzforációjuktól. A érési egységekből adódó probléa kiküszöbölhető úgy, hogy inden változót standardizálunk az eljárás előtt.. Másrészt, a torzító paraéter alkalazása iatt kérdéses a regressziós paraéterek helyes értelezhetősége. A felerülő probléák iatt Maddala [004] ne is javasolja általános esetben a ultikollinearitás probléájának egoldására a ridge-regressziót. Maddala [004] szerint olyan helyzetekben érdees a ridge-regressziót alkalazni, aikor a regreszsziós együtthatókról van valailyen például az előjeleikre, összegükre, négyzetösszegükre előzetes inforációnk. Az általánosított legkisebb négyzetek ódszerére épülő nested estiate, azaz az egyásba ágyazott becslések eljárás során a regressziós együtthatókat lépésenként, egyesével becsüljük eg. Az eljárás végén adódó odellt nested regression, azaz egyásba ágyazott regressziós odellnek nevezzük. Az eljárás során először kiválasztjuk azokat a tényezőváltozókat, aelyek szignifikáns kapcsolatban állnak az eredényváltozóval. A többi tényezőváltozót eleve kizárjuk a odellből. Ezután csak a egaradt tényezőváltozókat használhatjuk. Az első iteráció során válasszuk ki azt a tényezőváltozót, aelyiknek a legerősebb a kapcsolata az eredényváltozóval, azaz azt a tényezőváltozót szerepeltetjük, aelyikkel az eredényváltozó lineáris korrelációs együtthatója abszolút értékben a legnagyobb. Legyen ez a változó x. E két változó alapján alkalazhatjuk az y = β ˆ +β ˆ x +ε ˆi 0,, i, i, lineáris regressziós odellt, ahol a regressziós paraéterek ásodik alsó indexe jelöli azt, hogy az adott paraéter hányadik iterációs lépésben adódik..
A ultikollinearitás vizsgálata lineáris regressziós odellekben 63 A ásodik iterációban a egaradt tényezőváltozók közül válasszuk ki azt, aelyik az ε i, = yi yˆ i hibataggal a legerősebben korrelál. Legyen ez a változó x. Ekkor felírhatjuk az ε =β ˆ +β ˆ x +ε ˆi, 0,, i, i, lineáris regressziós odellt. Ekkor t-próbával tesztelnünk kell a kapott ˆβ, regreszsziós együtthatót ( H0 : β, = 0). Ha a hipotézisvizsgálat során a nullhipotézist elfogadjuk, akkor az eljárás végeredénye az első iteráció során kapott regressziós odell lesz. Ellenkező esetben a. iterációban kapott egyenletet behelyettesítjük az. iteráció végén kapott regressziós egyenletbe: y =β ˆ +β ˆ x +β ˆ +β ˆ x +ε =β ˆ +β ˆ +β ˆ x +β ˆ x +ε, ˆi 0,, i, 0,, i, i, 0, 0,, i,, i, i, ajd következik a 3. iteráció. Általánosan a k-adik iteráció során az előző iterációban egaradt tényezőváltozók közül válasszuk ki azt, aelyik az ε ik, = yi yˆ i hibataggal a legerősebben korrelál. Legyen ez a változó x k. Ekkor felírhatjuk az ε =β ˆ +β ˆ x +ε ˆi, k 0, k, k ik, ik, lineáris regressziós odellt. Ekkor t-próbával tesztelnünk kell a kapott β ˆ, k regreszsziós együtthatót ( H0 : β, k = 0). Ha a hipotézisvizsgálat során a nullhipotézist elfogadjuk, akkor az eljárás végeredénye a (k )-edik iterációban kapott regressziós odell lesz. Ellenkező esetben a k-adik iteráció során kapott egyenletet behelyettesítjük az előző iteráció végén kapott regressziós egyenletbe: k k yˆ = β ˆ + β ˆ x +ε, i 0, j, j i, j i, k j= j= ajd, aennyiben aradt ég tényezőváltozó, következik a (k+)-edik iteráció, ellenkező esetben az eljárás végeredénye a k-adik iterációban kapott regressziós odell lesz (Feng-Jenq [006]). Látható, hogy az eljárás lefuttatásával párhuzaosan lehetőség van a odell dienziószáának csökkentésére. Ha az eljárás során inden iterációs lépésben a k-adik hibatag független a k-adik tényezőváltozótól, akkor a ultikollinearitás ne jelentkezik az eljárás végén kapott regressziós odellben.
64 Kovács Péter 5. A ultikollinearitás vizsgálatának általánosítása A ultikollinearitás vizsgálatakor ne csak változópárok együttozgása, hane változócsoportok együttozgása is probléát jelenthet, ennek azonban ég nincs részletesen kidolgozott szakirodala. Ezek a vizsgálatok későbbi kutatásai feladatai lesznek. Erre egoldást jelenthet a kanonikus korrelációelezés használata, ahol valailyen korrelációs együtthatók négyzetes átlaga szerepel az RI redundanciaindexben is, de alkalazási körét és tartalát tekintve ez teljesen ás, int a Red-utató. A redundanciaindexet a kanonikus korrelációelezés során alkalazzuk. A kanonikus korrelációelezés a lineáris korrelációvizsgálat általánosításának tekinthető. A kanonikus korrelációelezés során adott az x, x,..., x p és y, y,..., y q (q p) két standardizált változócsoport. A feladat az, hogy indkét változócsoportot helyettesítsük a változók különböző u t, z t (t =,,,q) lineáris kobinációival úgy, hogy az u t, z t kanonikus változópáros közötti r t korrelációs együttható axiális legyen. 4 Ezeket a korrelációkat kanonikus korrelációknak nevezzük. A kanonikus változók közötti korrelációs átrix szerkezete a következő. R = u q 0 0 r 0 0 0 0 0 0 u z q 0 0 0 0 0 0 0 0 0 0 0 0 z q u u z z r 0 0 r 0 0 q r q q Ekkor az y változók szórásnégyzetét a z t kanonikus változó átlagosan q ryz i t i= yz = t r q 4 A kanonikus korrelációelezés efféle egközelítése gyakorlatilag kettős faktoranalízisnek tekinthető, ivel két változóhalaz azon faktorait keressük, aelyek axiálisan korrelálnak egyással. A kanonikus korrelációelezés ásfajta egközelítése az, hogy változók egy csoportjával próbáljuk a függőváltozók egy csoportját egagyarázni, azonban ez ne a egfigyelt változókon keresztül történik, hane a agyarázóváltozók azon lineáris kobinációja segítségével, aely axiálisan egagyarázza a függőváltozókat, azok lineáris kobinációján keresztül (Füstös et al. [004]).
A ultikollinearitás vizsgálata lineáris regressziós odellekben 65 értékben, íg az u t kanonikus változó yz = t yzt ztut RI r r értékben agyarázza (Hajdu [003]). Tehát, a kanonikus korrelációelezések során az eredeti változók és az ezeket helyettesítő valaelyik kanonikus változó közötti korrelációs együtthatók négyzetes átlagának négyzete használatos. Ezzel szeben a Red-utató képletében a tényezőváltozók közötti korrelációs együtthatók négyzetes átlaga szerepel. A kanonikus korrelációelezéseknél használatos négyzetes átlag inkább a VIF j -utatókkal hozható kapcsolatba. A kanonikus korrelációelezés speciális esete az, aikor az eredényváltozók csoportja egy változóból áll. Ekkor az egyetlen kanonikus korreláció ne ás, int a többszörös korrelációs együttható. Ekkor, a j-edik tényezőváltozót különvéve, a többitől a kanonikus korreláció négyzete pontosan r x j. x, x,, x j, x j+,, x lesz. Ezt inden lehetséges kobinációra elkészítve felhasználva a VIF j /7/ képletét kiszáíthatjuk azt, hogy az egyes tényezőváltozók varianciái átlagosan VIFj = = = VIF r xj. x, x,, xj, xj+,, x j j= VIF = j j= j H /3/ értékben agyarázhatók a többi tényezőváltozóval együttesen, ahol VIF jh a VIF j - utatók haronikus átlaga. A /3/ képlet négyzetgyöke egadja az egyes tényezőváltozóknak a többi tényezőváltozó csoportjával való együttozgás átlagos értékét, ellyel a ultikollinearitás okainak isételten csak egy speciális csoportja vizsgálható. A vizsgálatot a későbbiekben általánosítani kell a tényezőváltozók inden lehetséges ódón előállított két tetszőleges csoportja átlagos együttozgásának érésére. Ennek egyik speciális esete az egy-egy eleű csoportok vizsgálata, ely a Red-utatóval lehetséges, illetve a ásik az egy ( )eleű csoportok vizsgálata, aely a /3/ képlettel lehetséges. * A tanulányban a ultikollinearitás 7 érőszáa, négy ne etrikus detektálási ódja, továbbá negatív következényeinek csökkentésére használt 8 eljárás került beutatásra. Összességében egállapítható, hogy a jelenleg használt utatók általánosan ne, csak bizonyos esetekben jellezik egfelelően a ultikollinearitás értékét. Az isertetett eljárások pedig ne inden esetben csökkentik a ultikollinearitás ká-