Korreláció és Regresszió (folytatás) 12. elıadás (23-24. lecke) Logisztikus telítıdési függvény Több független változós regressziós függvények 23. lecke A logisztikus telítıdési függvény Több független változós regressziós felületek Lineáris eset, illesztés, többszörös korreláció és determináció Értelmezési kérdések
3) Logisztikus (autokatalitikus) függvény y = A/(1 + Be -cx ), (A,B,c pozitívak) x=0-nál y=a/(1+b), majd a görbe S-alakban emelkedve közeledik az A telítıdési szinthez Az A/2 szintig fokozódó ütemben nı, innen kezdve csökkenı ütemben nı (a váltás-pont neve: inflexiós pont) A kapcsolat differencia-alakja: y/y = ca(a-y) x, azaz y relatív növekedési üteme arányos A és y különbségével (innen c szakmailag értelmezhetı) Ilyenek a szaporodási dinamikák a környezet korlátozott eltartó-képessége mellett (Verhulst-modell), ilyenek az organikus növekedések is
Több (független) változós Regresszió Egyetlen Y változó kialakításában több X változó is részt vehet. Mint említettük, megeshet, hogy eme X változók mindegyike csak gyengén korrelál az Y változóval, de együttesen jelentıs a hatásuk Bıvebben foglalkozunk a lineáris esettel és kitérünk a nemlineáris esetre is
Több- (független) változós LINEÁRIS regresszió A modell a sokaságban: Y = a +b 1 x 1 + b 2 x 2 + +b p x p + e mintavétel után: y i = a +b 1 x 1i + b 2 x 2i + +b p x pi + e i tömören: y i = ŷ i + e i A b k (b k ) paraméterek a parciális regressziós együtthatók, az e (e i ) tag az eltérés (hiba), a regressziós felület p=2 esetén 3- dimenzióban ábrázolható sík, p>2 esetén hipersík A paraméterek becslése az eltérés-tagok négyzetösszegének minimálásával történik
Többszörös lineáris regresszió (folytatás) A becslések után SS: SS össz {=SS y } = SS regr {=SS ŷ } + SS elt {= e i2 } df: n-1 = p + n-p-1 Majd F = MS regr / MS elt., a szabadságfokok p és n-p-1 A (korrigálatlan) determinációs együttható (regr.illeszkedés): R 2 = SS regr / SS össz = 1 SS elt. / SS össz statisztikai próbája megegyezik az F statisztika szignifikancia vizsgálatával A további taglalás elıtt egy számpéldát nézzünk
Többszörös lineáris regresszió Extrém fiktív számpélda (n=7, p=2) y x1 x2 Elıször nézzük x1 és x2 hatását külön-külön 31 3 13 r(y,x1) = 0,3072 r(y,x2) = -0,1532 32 4 12 egyik sem szignifikáns! De ne adjuk fel!: 35 10 7 Nézzük az együttes hatást 33 11 5 (excel, adatelemzés,leíró statisztika, regresszió) 30 6 9 df SS MS F P-érték 31 14 2 Regresszió 2 20,10 10,05 11,11 0,023 29 7 8 Maradék 4 3,62 0,904 --- ---- s 1,99 3,98 3,83 Összesen 6 23,72 ---- --- ---- b 2,64 2,62 R 2 = 20,10/23,72 = 0,847 = 85% (R = 0,92) A regressziós sík egyenlete: ŷ = -10,1 + 2,64x 1 + 2,62x 2
Többszörös lineáris regresszió A számpélda megbeszélése(1) A két X változó együttes hatása jelentıs (R 2 =84,7%, P=2,3%) következésképpen mindkét ható változónak van szerepe, amint az alábbi séma mutatja: A veszteség X1 Y r 2 = 0,3072 2 = 9,4% X1-et elhagyva 84,7%-2,3% = 82,4% X2 Y r 2 = 0,1532 2 = 2,3% X2-ıt elhagyva 84,7%-9,4% = 75,3% {X1,X2} Y R 2 = 84,7% mindkét veszteség jelentıs!
Többszörös lineáris regresszió A számpélda megbeszélése(2) A parciális korrelációs együtthatók ugyanúgy jelzik X1 és X2 hatását, mint az elıbbi eszmefuttatás. Számításukhoz szükséges X1 és X2 korrelációja is (r(x1,x2)= -09851) A korrelációk mátrixa {r ij } /Excel, Adatelemzés, korreláció analízis/: Y X1 X2 Y 1 0,3072-0,1532 X1 0,3072 1-0,9851 X2-0,1532-0,9851 1 A parciális korrelációs együtthatók r yx1.x2 = [ 0,307- (-0,153 (-0,985)]/ {(1-0,153 2 )(1-0,985 2 )} = 0,95 r yx2.x1 = [-0,153- (-0,307 (-0,985)]/ {(1-0,307 2 )(1-0,985 2 )} = 0,95 (Statisztikai próbáikat ld. fentebb, mindkettı szignifikáns)
Többszörös lineáris regresszió: Kiegészítések Természetes a kérdés: az egyes X változók milyen mértékben járulnak hozzá az R 2 determinációhoz, illetve melyek elhanyagolhatók? 1) Ha az X változók korrelálatlanok,azaz r(x j,x k )=0 ha j k, akkor R 2 felbontható az egyes X k változók hatására: R 2 = r 2 y,x1 + r 2 y,x2 + + r 2 y,xp (p az X változók száma), ez az eset azonban gyakorlatilag csak akkor fordul elı, ha az X k változók nem véletlenek, értékeiket a kutató célszerően beállíthatja
Többszörös lineáris regresszió: Kiegészítések (folytatás) 2) Az X ható-változók általában összefonódottak (egymással korrelálnak), ezért együttes hatásuk szétbontása az egyes változókra nemigen lehetséges: az egyedi r 2 determinációk összege lehet kisebb is, nagyobb is R 2 -nél Az egyes X változók hozzájárulásáról némi tájékoztatást kaphatunk a standardizált regressziós együtthatók (b k ) révén, illetve R 2 alábbi algebrai felbontása alapján R 2 = b 1 r y,x1 + b 2 r y,x2 + + b p r y,xp ahol b k = b k s xk /s y a standardizált regressziós együttható (k=1 p) Nézzük mindezt a számpéldánkban:
Többszörös lineáris regresszió: Kiegészítések (folytatás) Visszatérve extrém számpéldánkra, illusztráljuk az elıbb mondottakat Y X1 X2 szórás (s) 1,988 3,976 3,830 regr.együttható (b) 2,636 2,617 r y,x (r) 0,307-0,153 (négyzetük összeg 11,8%<84,7%=R 2 ) ================================ stand.regr.eh. (b ) 5,273 5,041 b *r 1,620-0,772 (Összegük 0,85 =R 2 ) A standardizált regressziós együtthatókat így számoltuk: b 1 = b 1 *s x1,y /s y = 2,636*3,976/1,988 = 5,273 b 2 = b 2 *s x2,y /s y = 2,617*3,830/1,988 = 5,041
KÖSZÖNÖM TÜRELMÜKET
24. lecke Az R 2 felbontásának értelmezése A lényeges változók kiválogatása Nem lineáris több X-változós regressziós függvények
Többszörös lineáris regresszió: Kiegészítések (2.folytatása) Értelmezzük az extrém számpélda utóbbi mutatóit A standardizált regressziós együtthatók (b ) az X változók közvetlen hatásait jelzik arányukban Esetünkben b 1 és b 2 közel azonos, a két X változó közvetlen hatása Y-ra azonos mértékő (amint azt a korábban felírt parciális korrelációs együtthatók is jelezték) A b r szorzat-mutatók a közvetlen hatásokon kívül beszélnek a közvetett hatásokról is, ami az X változók közötti kapcsolatok áttételes eredménye Esetünkben e két mutató: X1-re 1,620 X2-re -0,772 ami úgy értelmezhetı, hogy X1 (közvetlen+közvetett) hatása Y-ra kétszer akkora és ellentétes irányú, mint X2 hatása
Többszörös lineáris regresszió: Kiegészítések (folytatás) 3) Az X ható-változók szelekciója Ha sok X változónk van, a regresszió szempontjából ezek között lehetnek jelentéktelenek és olyan jelentısek, amelyek az összefonódottság miatt másokkal helyettesíthetık Az X változók közötti válogatásra több eljárás ismert, ezek elméleti hátterére itt nem térünk ki, az SPSS programcsomag ajánlható Az ajánlott eljárások listája (lényegüket tanulmányozzuk a szakirodalomban): - minden lehetséges regresszió - backward módszer - forward módszer - stepwise módszer - stagewise módszer
Több X-változós NEMLINEÁRIS regresszió (I) Két gyakori Linearizálható kapcsolat 1) Többváltozós hatvány- (Cobb-Douglas-)függvény ŷ = A*x 1 b1 x 2 b2...x p bp, logaritmizálva log ŷ = log A + b 1 log x 1 + b 2 log x 2 + + b p log x p amely a változók logaritmusai között már lineáris 2) Többváltozós exponenciális függvény ŷ = A*B 1 x1 B 2 x2...b p xp, logaritmizálva log ŷ = log A + (logb 1 )x 1 + (logb 2 )x 2 + + (logb p )x p amely log y és az x-ek között már lineáris
(II) A kvadratikus felület (Nem linearizálható) Gyakran a sík (hipersík) nem kielégítı, a modell bıvítésre szorul, például négyzetes és szorzatos tagokat csatolhatunk hozzá Például a kétváltozós ŷ = a+b 1 x 1 +b 2 x 2 modell bıvítése: ŷ = a+b 1 x 1 +b 2 x 2 + b 11 x 12 +b 22 x 22 +b 12 x 1 x 2 Ebben a másodrendő felületben a b 11 és a b 22 paraméterek a felület görbüléseit mérik, a b 12 együttható pedig X1 és X2 kölcsönhatásának eredménye, a felület győrıdése A modell a változóiban nem lineáris de a paramétereiben igen, ezért illesztése megoldható az Excel Regressziójával
Másodrendő regressziós felület (illusztráció) z = 1 5 - x ^ 2 + 2 x - 2 y ^ 2 + 4 y
A kvadratikus felületnek maximuma vagy minimuma van ha a D = 4b 11 b 22 - b 12 2 érték pozitív, éspedig maximumot találunk, ha b 11 és b 22 negatív, minimumot, ha ezek pozitívak A felület max/min pontját az x 10 = (b 2 b 12 2b 1 b 22 )/D, x 20 = (b 1 b 12 2b 2 b 11 )/D értékpárnál találjuk Ha D negatív, a másodrendő felület nyereg alakú
Számpélda kétváltozós kvadratikus hatásfelületre Adatok (y mért, x1 és x2 mért vagy beállított, a többi számított) y x1 x2 I x1 2 x2 2 x1 x2 Etessük be e táblázatot 10,8 0,5 0,5 I 0,25 0,25 0,25 az excelbe (Adatelemzés, 10,7 0,5 1 I 0,25 1 0,5 Regresszió) 9,5 0,5 2 I 0,25 4 1 Mindent megkapunk, 11,3 1 0,5 I 1 0,25 0,5 ami kell (ld. a következı 11,5 1 1 I 1 1 1 dia) 11,5 1 2 I 1 4 2 8,5 2 0,5 I 4 0,25 1 9,7 2 1 I 4 1 2 10,1 2 2 I 4 4 4
Kvadratikus felület (a példa folytatása) Varianciaanalízis SS df MS F P-érték Regresszió 8,267 5 1,653 23,3 0,013 szign. Maradék 0,213 3 0,711 --- --- Összesen 8,48 8 --- --- --- Determinációs együttható: R 2 =8,267/8,48=97,5% Együtthatók becslése P-érték 95%-os konfidencia határok a 8,46 0,002 5,95 10,96 szign. b 1 5,0 0,017 1,71 8,29 szign. b 2 0,6 0,60-2,69 3,89 nem szign. b 11-2,8 0,005-4,02-1,58 szign. b 22-0,76 0,14-1,98 0,47 nem szign. b 12 1,2 0,013 0,47 1,93 szign.
Kvadratikus felület (a példa megbeszélése) Az illesztett felület y variabilitásának szignifikáns hányadát magyarázza (P=0,013; R 2 =97,5%) Ez azonban nem jelenti azt, hogy nincs még jobban illeszkedı regressziós felület. A becsült regressziós felület egyenlete: y = 8,46 + 5,0x 1 2,8x 12 + 0,6x 2-0,76x 22 +1,2 x 1 x 2 ábrája hasonló a néhány diával korábbi felülethez A felület maximum pontjának becslése: D = (4-2,8-0,76)-1,2 2 = 7,07, pozitív, tehát van szélsıérték x 10 = (b 2 b 12 2b 1 b 22 )/D =(0,6*1,2-2*5,0*(-0,76))/7,07 =1,17 x 20 = (b 1 b 12 2b 2 b 11 )/D =(5,0*1,2-2*0,6*(-2,8) )/7,07 =1,32 ŷ max =11,8
a példa megbeszélésének folytatása A b 2 = 0,6 és a b 22 = -0,76 regressziós együtthatók nem szignifikánsak (ez utóbbi azt jelenti, hogy az x 2 változónak nincs depresszív hatása), a lényeg azonban az, hogy ez a két tag talán kihagyható a regressziós felület formulájából: Azaz megpróbálkozhatunk az y = a + b 1 x 1 + b 11 x 12 + b 12 x 1 x 2 felület illesztésével Gyakorlásként végezzük el az illesztést és ellenırízzük az illeszkedés csökkenésének szignifikanciáját a fentebb ismertetett módon. Ha ez nem szignifikáns, maradhatunk a felírt redukált egyenletnél, különben tegyük vissza a b 22 x 2 2 tagot (mert ennek P-értéke 0,14,kisebb b 2 P-értékénél)
KÖSZÖNÖM TÜRELMÜKET