Korreláció és Regresszió 9. elıadás (17-18. lecke) Korrelációs együtthatók 17. lecke Áttekintés (korreláció és regresszió) A Pearson-féle korrelációs együttható
Korreláció és Regresszió (témakörök) Kapcsolat szorosságát mérı mutatók A regresszió-analízis elvi alapjai Egy független változós regresszió lineáris nem lineáris Több független változós regresszió többszörös lineáris regresszió nem lineáris regressziós felületek
# A korreláció- és regresszió analízis lényege Ellentétben a Variancia Analízissel, most két (vagy több) kvantitatív ismérv sztohasztikus (statisztikai) kapcsolatát keressük A korreláció az ismérvek kapcsolatának szorosságáról szól a kapcsolat tendenciájának kiemelése nélkül A regressziós elemzésnél megkülönböztetünk ható (nevezik független változónak is) és eredmény - változó(ka)t és a kapcsolat tendenciáját is leírjuk regressziós függvény formájában
A Pearson-féle korrelációs együttható X és Y jelentse a sokaság egyedeinek két kvantitatív ismérvét, e két ismérv kapcsolatszorosságának mérıszámát keressük Visszagondolva arra, hogy X és Y független volta esetén E(XY)=E(X)E(Y), függetlenség esetén a két oldal eltérése 0. Ezt az eltérést kovarianciának nevezzük: Cov(X,Y) = E(XY) - E(X)E(Y) = µ XY -µ X µ Y
A kovariancia még mértékegység-függı, kimutatható, hogy abszolút értéke 0 és σ X σ Y közé esik Megjegyzések: 1. A kovariancia így is írható: Cov(X,Y) = E{(X-µ X )(Y-µ Y )} 2. Cov(X,X) = Var(X), egy változó kovarianciája önmagával, a varianciát adja)
A sokasági korrelációs együttható (r rhó ) Osszuk el a kovarianciát abszolút értékének lehetséges maximumával, így kapjuk a (Pearson-féle) korrelációs együtthatót (a továbbiakban korrelációs együttható): r = r(x,y) = r(y,x) = Cov(X,Y)/(σ X σ Y ) A korrelációs együttható független a mértékegységektıl valamint a skálák kezdıpontjától: r(a+bx,c+dy) = r(x,y) r értéke -1 és +1 közé esik, -1 vagy +1 csak akkor, ha X és Y között pontos lineáris kapcsolat van: Y = α + ßX (értéke pozitív, ha X növekedésével tendenciában Y is nı, negatív fordított esetben)
A sokasági korrelációs együttható (ρ) (folytatás) Ha X és Y függetlenek, akkor ρ = 0, de fordítva nem igaz: lehet ρ = 0 akkor is, ha X és Y nem függetlenek, köztük lehet nemlineáris kapcsolat Lényeges, hogy a korrelációs együttható csak a lineáris kapcsolat szorosságát méri! Ha ρ = 0, azt mondjuk, hogy a két ismérv korrelálatlan (nem biztos, hogy függetlenek)
A mintabeli korrelációs együttható ( r ): ρ becslése mintából Vegyünk a sokaságból n egyedet (megfigyelési egységet), ezek mindegyikén mérjük az X és az Y ismérvet: (x 1,y 1 ), (x 2,y 2 ), (x 3,y 3 ),, (x n,y n ) ρ fenti formuláját átültetve a mintára, kapjuk ρ becslését: r = SP xy / (SS x SS y ), ahol SP xy (Summa Produktum) = x i y i (1/n) x i y i Megjegyzés: Cov(X,Y) becslése SP/(n-1) r ugyanúgy mint ρ, -1 és +1 közé esik és a két ismérv lineáris kapcsolatának szorosságát becsli, segítségével tesztelhetjük, hogy az alapsokaságban korrelál-e a két ismérv
Pontdiagram illusztrációk r értékére
A korrelációs együttható szignifikancia-vizsgálata A null-hipotézis: H 0 : ρ = 0, azaz nincs (lineáris) korreláció X és Y között Az r mutatóρkörül ingadozó statisztika, ha n kicsi, akkor r jócskán eltérhet ρ-tól Kimutatható, hogy ρ =0 esetén a t = r (n-2) / (1-r 2 ) statisztika df=n-2 szabadságfokú t-eloszlást követ, ennek kiszámításával a lineáris korreláció szignifikanciája minısíthetı
Példa r szignifikanciájának vizsgálatára n=10 mintaelembıl számolt korrelációs együttható r = 0,55 t = 0,55 (10-2)/ (1-0,55 2 ) = 0,55 2,828/0,835 = 1,863 t szabadságfoka df = 8 Az Excel-bıl (fx, t-eloszlás alatt) (itt kétoldali próba indokolt, H1: ρ 0), P = 0,099 nem szign.
KÖSZÖNÖM TÜRELMÜKET
18. lecke Megjegyzések a korrelációs együttható szignifikanciájáról Parciális és többszörös korrelációs együttható
Megjegyzések a korrelációs együttható minısítésérıl 1. FONTOS: Itt-ott elterjedt az a gyakorlat, hogy a (lineáris) kapcsolat szorosságát pusztán r értéke alapján besorolják (laza közepes - szoros stb.) Ennek helytelen volta kitőnik az elızı példából is, ahol r = 0,55 (a besorolás szerint közepes, holott mint láttuk, nem is szignifikáns A besorolás valójában csak a sokasági ρ -ra tekinthetı érvényesnek, illetve közelítıleg r-re akkor, ha a mintaszám (n) elég nagy (legalább 50) Javaslat: r értékét önmagában ne minısítsük, vegyük figyelembe a mintaszámot (n) is és teszteljük!
Megjegyzések (folytatás) 2. r és n ismeretében közvetlenül (t kiszámítása nélkül) tesztelhetı r szignifikanciája a korrelációs együttható kritikus értékei táblázatból (megtalálható pl. a BIOMETRIAI ÉRTELMEZİ SZÓTÁRban) Például, n=10 (df=8)-nál a táblázatbeli kritikus érték α=5% hibaszinten 0,6319. Az r=0,55 mintabeli érték ennél kisebb, tehát P<5%, nem szignifikáns 3. Sem t számítására, sem táblázat használatára nincs szükség, ha az (x i,y i ) adatpárok beírásával az Excel Regresszió menüpontjára lépünk (ld. késıbb), az eredményekben látjuk P értékét
A korrelációs együttható kritikus értékei (részlet a táblázatból) Szabadságfok (df= n-2) Szignifikancia szint ( ) ------------------------------------------------------------------------------------------------------ 10% 5% 1% 0,1% ------------------------------------------------------------------------------ 1 0,98769 0,99692 0,999877 0,9999988 2 0,90000 0,95000 0,990000 0,99900 3 0,8054 0,8783 0,95873 0,99116 4 0,7293 0,8114 0,91720 0,97406 5 0,6694 0,7545 0,8745 0,95074 6 0,6215 0,7067 0,8343 0,92493 7 0,5822 0,6664 0,7977 0,8982 8 0,5494 0,6319 0,7646 0,8721 9 0,5214 0,6021 0,7348 0,8471 10 0,4973 0,5760 0,7079 0,8233 50 0,2306 0,2732 0,3541 0,4433 100 0,1638 0,1946 0,2540 0,3211
A H 0 : ρ = ρ 0 hipotézis ellenırzése Ha az alapsokaságban ρ eltér 0-tól, akkor az r statisztikai ingadozása távolabb kerül a normális eloszlástól, mint ρ =0 esetén, ezért a fenti t formula r helyett r-ρ 0 -lal sem segít, nem kapunk t-eloszlást. Az alkalmazható teszt az alábbi: Képezzük a z = 0,5 ln{(1+r)/(1-r)} statisztikát, ez közel normális eloszlású, sokasági átlaga és varianciája: z 0 = 0,5 ln{(1+ ρ 0 )/(1-ρ 0 )}, illetve Var(z) = 1/(n-3) Innen Z 0 -nak a 95%-os konfidencia intervalluma: {z 1,96/ (n-3) ; z +1,96/ (n-3)} Ha z 0 -ezen intervallumon kívül esik, α=5% hibaszinten elutasítjuk a H 0 hipotézist (számpélda alább)
Számpélda a H 0 : ρ = ρ 0 hipotézis ellenırzésére Legyen H 0 : ρ = ρ 0 = 0,4 a nullhipotézis, a mintanagyság n=28 (n-3 = 25), a számított r = 0,6 A transzformált Z értékek z = 0,5 ln{(1+0,6)/(1-0,6)} = 0,5 ln(4,00) = 0,69 z 0 = 0,5 ln{(1+0,4)/(1-0,4)} = 0,5 ln(2,33) = 0,42 z 0 konfidencia intervalluma: (0,69 1,96/ 25 ; 0,69 + 1,96/ 25) = (0,30 ; 1,0) A z 0 = 0,42 beleesik a kapott intervallumba, H 0 -t elfogadjuk
A parciális korrelációs együttható Y és X tényleges (lineáris) statisztikai kapcsolatát megzavarhatja (erısítheti vagy elmoshatja) egy harmadik Z változó (ismérv) vagy akár több is E zavaró hatás kiszőrését célozza a parciális korrelációs együttható: ρ XY.Z, becslése r xy.z Jelölje r xy ρ(x,y) becslését, hasonló értelmő r xz és r yz, ezekkel rxy rxzryz r xy.z = (1 r 2 xz )(1 r 2 yz )
A parciális korrelációs együttható tesztelése A H 0 : ρ XY.Z = 0 hipotézis t-próbával ellenırízhetı: t = r xy.z (n-3) / (1-r 2 xy.z), df = n-3 Például, n=10-nél r = r xy = 0,55 nem szignifikáns, de megeshet, hogy valamely Z ismérv zavaró hatásának kiszőrése után r xy.z = 0,72, amihez t=2,74, ez df=7 szabadságfoknál már szignifikáns, az X és Y közötti lineáris statisztikai kapcsolat mégis szignifikáns Megjegyzés: több zavaró változó egyidejő kiszőrése hasonló módon végezhetı, szükség esetén konzultáljunk a szakirodalommal
y A többszörös korrelációs együttható (R) y Vizsgálhatjuk egy Y változó lineáris kapcsolatának szorosságát több X változó együttesével egyidejőleg, a mérıszám a többszörös korrelációs együttható, R = R(Y,X), ahol X az {X1,X2,..,X p } változók együttese Mire jó R? Elıfordul, hogy Y egyik X változóval sem korrelál, mégsem szabad félre dobni az anyagot, mert lehet, hogy R megszívlelendı kapcsolatot jelez R kiszámítható a parciális korrelációs együtthatókból, mi azonban más utat követünk (ld. késıbb: többszörös regresszió, lineáris determinációs együttható)
További korreláció-mérı mutatók Nemlineáris kapcsolat szorosságának mérésérıl a regresszió tárgyalásakor szólunk (korrelációs hányados, determinációs együttható) Meg kell említenünk még az általánosított (lineáris) korrelációt, melynek képlete: r* = ( a ij b ij )/ {( a ij2 )( b ij2 )} ahol a ij x i és x j bizonyos távolságát jelenti, b ij ugyanilyen módon definiált távolság y i és y j között. Ha a ij = x i -x j és b ij = y i -y j, akkor r* = r, a Pearson-féle korrelációs együttható Más távolságokat választva kapjuk a Spearman- ill. a Kendall-féle korrelációs együtthatókat, melyekrıl késıbb szólunk
KÖSZÖNÖM TÜRELMÜKET