Korreláció és Regresszió (folytatás) 11. elıadás (21-22. lecke) Lineáris-e a tendencia? Linearizálható nem-lineáris regressziós függvények 21. lecke Linearitás ellenırzésének egyéb lehetıségei Konfidencia sáv Lineárissá transzformálható görbék (1) Hiperbolikus és logaritmikus függvény
2.) A modell módosítása Illesszünk egyenest az adatokra, az illeszkedési együtthatót jelölje R 2 L Illesszünk valamely görbülı függvényt az adatokra, ennek illeszkedése legyen R 2 M Ha R 2 M szignifikánsan nagyobb, mint R 2 L, akkor a lineáris tendencia feltevését elvethetjük Ajánlás: próbálkozzunk elıször másodfokú regressziós függvény (parabola) illesztésével, ha ennek illeszkedési együtthatója (R 2 Q) szignifikánsan felülmúlja az egyenes illeszkedését, akkor máris elvethetjük a lineáris kapcsolat feltételezését. Erre késıbb még kitérünk.
3.) Ismétléseink is vannak az egyes x i értékekhez Ha az X ható-változó változataihoz több y mért érték is tartozik (ez esetben X értékei általában nem véletlen, hanem beállított értékek (pl. dózis, évek /idısoroknál/), akkor az e i maradékokból leválasztható az ismétlések közötti szóródás ez utóbbi képezi a tiszta hibát, amelyhez tesztelhetjük az eltérésekbıl megmaradó variancia-hányadot, ami a nemlinearitás mértékét jelzi Az eljárást számpéldán mutatjuk be
Ismétlések is vannak (számpélda) Adatok x 1,5 2,1 2,8 3,5 y 2,9 4,5 5,9 5,7 3,7 4,4 6,6 6,3 3,3 3,8 6,4 6,1 4,9 6,7 6,2 Továbbá kell még f 3 4 3 5 n= f=15 SS 0,32 0,62 0,26 0,52 SShiba= SS=1,72 df= (f-1)=11 8 7 6 5 4 3 2 1 0 0 1 2 3 4 y Lineáris (y)
Ismétlések is vannak (a számpélda folytatása) A fenti adatokra egyenest illesztünk (Excel,Regresszió) df SS MS F P-érték Lin.Regresszió 1 19,28 19,28 56,4 0,000 Eltérés (maradék) 13 4,44 0,342 --- --- Összesen 14 23,72 --- --- --- A maradékot ketté bontjuk (nem.lin + hiba) és a HibaMS-hez viszonyítunk df SS MS F P-érték Lin.komponens 1 19,28 19,28 123,6 0,000 Nemlin.komponens 2 2,72 1,36 8,7 0,005 Hiba (ism.között) 11 1,72 0,156 --- --- Összesen 14 23,72 --- --- --- Megállapítás: A kapcsolat lineáris volta nem igazolt (P=0,005)
Konfidencia sáv Adott x értékhez a mintából számított ŷ becsült érték még hibával terhelt (itt ŷ = a + bx) Az α + ßx érték 95%-os konfidencia intervalluma ŷ ±t {HibaMS*[1/n + (x- x)/ss x ]}, itt t 5% szab.foka n-2 A felírt függvényt, mint x függvényét ábrázolva kapjuk a regressziós egyenes konfidencia sávját Hasonlóan nyerjük adott x-hez jósolható egyedi y érték konfidencia intervallumát és az ezekhez tartozó konfidencia sávot ŷ ±t {HibaMS*[1 + 1/n + (x- x )/SS x ]}
Konfidencia sáv képe 80 60 y 40 20 0 0 10 20 30 40 x Legszőkebb az x-átlag fölött
További megjegyzések a Lineáris Regresszióról A regressziós egyenes egyenlete felírható az alábbi alakokban is: a) y = y + b(x - x) b) ~ y= r ~ x ahol ~ ~ ~ és y a standardizált értékek: x i = ( x x) / sx x x és y szerepének felcserélésével az illesztett egyenes is megváltozik. Minél nagyobb r, annál közelebb van a két egyenes egymáshoz. Pontosabban: b yx b xy = r 2, ahol b yx az x y irányú regressziós együttható, b xy pedig az y x irányúé Ha y feltétezhetıen tendenciában arányos x-szel (azaz a=0), akkor az origón átmenı y = bx egyenest illesztjük (Excelben kipipáljuk a zéró legyen a konstans -t)
Nemlineáris Regressziók (görbe-illesztés) I. Lineárissá transzformálható kapcsolatok Jónéhány regressziós görbe-típus a változók alkalmas transzformációjával kiegyenesíthetı. Gyakran e transzformációk az eredetileg inhomogén hibaszórásokat is homogenizálják. Áttekintjük a gyakoribb típusokat - hiperbolikus- - logaritmus- - exponenciális- - és hatvány-függvénnyel leírható regressziós kapcsolatok
1) Két hiperbolikus regresszió a) y = a + b/x b) y = 1/(a + bx) Az a) esetben az x* =1/x reciprok transzformáció után y = a +bx* (lineáris), itt tehát az y i és az 1/x i adatokkal számolunk lineáris regressziós elemzést A b) esetben az y* = 1/y reciprok transzformáció után y* = a + bx (lineáris), itt tehát az 1/y i és az x i adatokkal számolunk lineáris regressziós elemzést Rajzoljuk fel a két görbét pozitív és negatív b-vel, telítıdési ill. kimerülési tendenciákat látunk
2) Logaritmikus regresszió y = a + b log(x), a log. alapja tetszıleges A kapcsolat lényege: y megváltozása ( y) arányos x relatív megváltozásával ( x/x-szel) Például, ha x-et megduplázzuk, y ugyanannyival nı, bármi volt is x (vagy y) Az x* = log(x) transzformáció után y = a +bx* (lineáris), itt az y i és a log(x i ) adatokkal számolunk lineáris regressziót E kapcsolatra példa: a hatás általában a dózis logaritmusával arányos dózis-hatás vizsgálatoknál.
KÖSZÖNÖM TÜRELMÜKET
22. lecke Az exponenciális és a hatvány tendencia linearizálása Parabola illesztés Mitscherich-féle tendencia
3) Exponenciális tendencia y = A*B x avagy b=lnb jelöléssel y = A*e bx A kapcsolat lényege:y relatív megváltozása ( y/y) arányos x megváltozásával ( x-szel). Speciálisan, ha x egy egységgel nı, közben y a B-szeresére változik (nı,ha B>1,csökken,ha B<1) A görbe x=0-nál a A szintrıl indul és exponenciálisan emelkedik (B>1) vagy 0-hoz közeledve csökken (B<1) Linearizálása: mindkét oldal logaritmusát véve lny = lna + (lnb)x = a + bx, tehát az y i *=lny i és az x i adatok között számolhatunk lineáris regressziót A gazdaságban és a biológiában a kezdeti fellendülı szakasz (B>1) ill. a leépülı szakasz (B<1) exponenciális
4) Hatványfüggvény kapcsolat (Cobb-Douglas függv.) y = A*x b, logaritmizálva logy = loga + blogx = a +bx* A linearizálás tehát: y* =logy, x* =logx A kapcsolat lényege:y relatív megváltozása ( y/y) arányos x relatív megváltozásával ( x/x-szel). Speciálisan, ha x egy %-kal emelkedik, eközben y b %-kal változik. b neve: elaszticitás x=1-nél y=a, innen a görbe fokozódó ütemben emelkedik, ha b>1,csökkenı ütemben nı, ha b 0 és 1 közé esik, és hiperbolaszerően csökken, ha b negatív A közgazdasági kapcsolatok jórésze hatványfüggvény alakú
Melyik regresszió-típust válasszuk A leginkább hiteles választási mód az elméleti megfontolás: felállítjuk a kapcsolat differenciál alakját, ebbıl már következik a megfelelı regresszió típusa, mint fentebb láttuk. Ez persze ritkán megy, ezért Ajánlható az adatpárok ábrázolása: különbözı transzformációk után mikor kapunk leginkább lineáris tendenciát. Az alkalmazott transzformáció egyértelmően jelzi a megfelelı görbe típusát, mint fentebb láttuk
Nemlineáris Regressziók (görbe-illesztés) II. Lineárissá nem transzformálható kapcsolatok Néhány olyan regresszió-típusról szólunk, ahol a kiegyenesítés nem lehetséges, vagy körülményes, vagy nem célszerő, mert megzavarja az alkalmazás feltételeit (normalitás, a varianciák homogenitása) - parabolikus regresszió - Mitscherlich-féle telítıdési görbe - logisztikus függvény
1) Parabolikus (másodfokú) regresszió A sokasági modell: Y i = α + ßx i + γx i2 + ε i A mintára átírt modell: y i = a + bx i + cx i2 + e i A paraméterek jelentése: - a= ŷ (fiktív) értéke x=0-nál, - b= a görbe meredeksége (változás sebessége) x=0-nál, - c= a görbülés mértéke (c=0-val egyenest kapunk) Az ε i hibatagokról feltesszük, hogy független N(0;σ) eloszlásúak Az a,b,c becslések (regressziós együtthatók) meghatározása az e i eltérések négyzetösszegének minimálásával történik
Parabola illesztés (fiktív numerikus példa) Adatok (az Excelben a számításokhoz csatolni kell az x 2 oszlopot) y x x 2 5,5 1 1 6,1 2 4 7,3 3 9 7,7 4 16 8,1 5 25 7,9 6 36 y 9 8 7 6 5 4 3 2 1 0 0 2 4 6 8 Var.Anal. df SS MS F P-érték R 2 Regresszió(parabola) 2 5,454 2,727 55,9 0,004 97,4% Eltérés (maradék) 3 0,146 0,049 --- --- Összesen 5 5,60 --- --- --- x
Parabola illesztés (példa folytatása) A Var. táblázatból leolvasható a parabolikus regresszió szignifikanciája (P=0,004<5%) Az Excel közli az a,b,c együtthatók értékeit, ezek szignifikanciáját és konfidencia határait is becslés P-érték 95%-os konfidencia-határok a= 4,06 0,002 2,80-5,32 b= 1,43 0,012 0,60-2,25 c= -0,129 0,038-0,244 - -0,014 A táblázat szerint mindhárom paraméter szignifikánsan eltér 0-tól A regressziós parabola becsült egyenlete: y = 4,06 + 1,43x 0,129x 2
Parabola illesztés: kiegészítések 1) Kell-e parabola (nem elég-e az egyenes?) Erre a kérdésre már a c paraméter szignifikancia-foka is válaszol, mégis nézzük meg, mi áll a háttérben - Illesszünk egyenest a pontokra (a var.táblázatot itt nem közöljük, beépítjük az alábbi bontott táblázatba Var.Anal. df SS MS F P-érték R 2 Regresszió(parabola) 2 5,454 2,727 55,9 0,004 97,4% = R Q 2 Ebbıl Lineáris hatás 1 4,837 4,837 98,7 0,002 86,4% = R L 2 Négyzetes hat. 1 0,617 0,617 12,7 0,038 11,0% Eltérés (maradék) 3 0,146 0,049 --- --- Összesen 5 5,60 --- --- ---
Parabola kiegészítések folytatása A példában a négyzetes hatás szignifikáns (P=0,038<5%), tehát a parabola jobb itt mint az egyenes 2) Az illeszkedés javulása az R 2 -ek alapján is megítélhetı: F = df hibaq (R Q2 R L2 )/(1 R Q2 )= 3(0,974-0,864)/(1-0,974) = 12,7 (mint fent) (itt Q a négyzetes /Quadratikus/ szóra utal) 3) Ha az egyes x értékekhez több y értét is tartozik, akkor a parabola illesztésének indokolt volta is tesztelhetı hasonló módon, ahogy azt a Valóban lineáris-e szakaszban tárgyaltuk
2) Mitscherlich-féle függvény y = A - Be -cx, (c>0 a hatás-koefficiens ) A görbe a A telítıdési szinthez emelkedıen közeledik, ha B pozitív. Ha B negatív, csökkenve közeledik a A kimerülési szinthez A kapcsolat differencia-alakja: y = c(a-y) x, azaz y változási üteme arányos A és y eltérésével Ha A ismert, a kapcsolat linearizálható, különben a paraméterek becslése csak valamely fokozatos közelítı módszer alkalmazásával megy
KÖSZÖNÖM TÜRELMÜKET