Korreláció és Regresszió



Hasonló dokumentumok
Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Eloszlás-független módszerek 13. elıadás ( lecke)

Variancia-analízis (folytatás)

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

[Biomatematika 2] Orvosi biometria

Variancia-analízis (VA)

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Bevezetés a hipotézisvizsgálatokba

(Independence, dependence, random variables)

Variancia-analízis (folytatás)

Matematikai geodéziai számítások 6.

Korrelációs kapcsolatok elemzése

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Matematikai geodéziai számítások 6.

Statisztika elméleti összefoglaló

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Korreláció és Regresszió (folytatás) Logisztikus telítıdési függvény Több független változós regressziós függvények

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

y ij = µ + α i + e ij

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Többváltozós lineáris regressziós modell feltételeinek

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Hipotézis vizsgálatok

Adatok statisztikai értékelésének főbb lehetőségei

Korreláció és lineáris regresszió

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Többváltozós Regresszió-számítás

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

11. elıadás ( lecke) 21. lecke. Korreláció és Regresszió (folytatás) Lineáris-e a tendencia? Linearizálható nem-lineáris regressziós függvények

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Regressziós vizsgálatok

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

KÖVETKEZTETŐ STATISZTIKA

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Varianciaanalízis 4/24/12

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Kvantitatív statisztikai módszerek

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Matematikai statisztikai elemzések 6.

Hipotézis vizsgálatok

Korreláció számítás az SPSSben

Több valószínűségi változó együttes eloszlása, korreláció

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Segítség az outputok értelmezéséhez

Biomatematika 13. Varianciaanaĺızis (ANOVA)

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika Elıadások letölthetık a címrıl

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

V. Gyakorisági táblázatok elemzése

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

BIOMATEMATIKA ELŐADÁS

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

A többváltozós lineáris regresszió 1.

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Lineáris regressziószámítás 1. - kétváltozós eset

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Biostatisztika Összefoglalás

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Bevezetés a Korreláció &

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

[Biomatematika 2] Orvosi biometria

Nemparaméteres próbák

Kettőnél több csoport vizsgálata. Makara B. Gábor

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Regressziós vizsgálatok

Van-e kapcsolat a változók között? (példák: fizetés-távolság; felvételi pontszám - görgetett átlag)

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

5. előadás - Regressziószámítás

Diszkriminancia-analízis

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Eloszlás-független módszerek (folytatás) 15. elıadás ( lecke)

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

GVMST22GNC Statisztika II.

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Biometria gyakorló feladatok BsC hallgatók számára

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Átírás:

Korreláció és Regresszió 9. elıadás (17-18. lecke) Korrelációs együtthatók 17. lecke Áttekintés (korreláció és regresszió) A Pearson-féle korrelációs együttható

Korreláció és Regresszió (témakörök) Kapcsolat szorosságát mérı mutatók A regresszió-analízis elvi alapjai Egy független változós regresszió lineáris nem lineáris Több független változós regresszió többszörös lineáris regresszió nem lineáris regressziós felületek

# A korreláció- és regresszió analízis lényege Ellentétben a Variancia Analízissel, most két (vagy több) kvantitatív ismérv sztohasztikus (statisztikai) kapcsolatát keressük A korreláció az ismérvek kapcsolatának szorosságáról szól a kapcsolat tendenciájának kiemelése nélkül A regressziós elemzésnél megkülönböztetünk ható (nevezik független változónak is) és eredmény - változó(ka)t és a kapcsolat tendenciáját is leírjuk regressziós függvény formájában

A Pearson-féle korrelációs együttható X és Y jelentse a sokaság egyedeinek két kvantitatív ismérvét, e két ismérv kapcsolatszorosságának mérıszámát keressük Visszagondolva arra, hogy X és Y független volta esetén E(XY)=E(X)E(Y), függetlenség esetén a két oldal eltérése 0. Ezt az eltérést kovarianciának nevezzük: Cov(X,Y) = E(XY) - E(X)E(Y) = µ XY -µ X µ Y

A kovariancia még mértékegység-függı, kimutatható, hogy abszolút értéke 0 és σ X σ Y közé esik Megjegyzések: 1. A kovariancia így is írható: Cov(X,Y) = E{(X-µ X )(Y-µ Y )} 2. Cov(X,X) = Var(X), egy változó kovarianciája önmagával, a varianciát adja)

A sokasági korrelációs együttható (r rhó ) Osszuk el a kovarianciát abszolút értékének lehetséges maximumával, így kapjuk a (Pearson-féle) korrelációs együtthatót (a továbbiakban korrelációs együttható): r = r(x,y) = r(y,x) = Cov(X,Y)/(σ X σ Y ) A korrelációs együttható független a mértékegységektıl valamint a skálák kezdıpontjától: r(a+bx,c+dy) = r(x,y) r értéke -1 és +1 közé esik, -1 vagy +1 csak akkor, ha X és Y között pontos lineáris kapcsolat van: Y = α + ßX (értéke pozitív, ha X növekedésével tendenciában Y is nı, negatív fordított esetben)

A sokasági korrelációs együttható (ρ) (folytatás) Ha X és Y függetlenek, akkor ρ = 0, de fordítva nem igaz: lehet ρ = 0 akkor is, ha X és Y nem függetlenek, köztük lehet nemlineáris kapcsolat Lényeges, hogy a korrelációs együttható csak a lineáris kapcsolat szorosságát méri! Ha ρ = 0, azt mondjuk, hogy a két ismérv korrelálatlan (nem biztos, hogy függetlenek)

A mintabeli korrelációs együttható ( r ): ρ becslése mintából Vegyünk a sokaságból n egyedet (megfigyelési egységet), ezek mindegyikén mérjük az X és az Y ismérvet: (x 1,y 1 ), (x 2,y 2 ), (x 3,y 3 ),, (x n,y n ) ρ fenti formuláját átültetve a mintára, kapjuk ρ becslését: r = SP xy / (SS x SS y ), ahol SP xy (Summa Produktum) = x i y i (1/n) x i y i Megjegyzés: Cov(X,Y) becslése SP/(n-1) r ugyanúgy mint ρ, -1 és +1 közé esik és a két ismérv lineáris kapcsolatának szorosságát becsli, segítségével tesztelhetjük, hogy az alapsokaságban korrelál-e a két ismérv

Pontdiagram illusztrációk r értékére

A korrelációs együttható szignifikancia-vizsgálata A null-hipotézis: H 0 : ρ = 0, azaz nincs (lineáris) korreláció X és Y között Az r mutatóρkörül ingadozó statisztika, ha n kicsi, akkor r jócskán eltérhet ρ-tól Kimutatható, hogy ρ =0 esetén a t = r (n-2) / (1-r 2 ) statisztika df=n-2 szabadságfokú t-eloszlást követ, ennek kiszámításával a lineáris korreláció szignifikanciája minısíthetı

Példa r szignifikanciájának vizsgálatára n=10 mintaelembıl számolt korrelációs együttható r = 0,55 t = 0,55 (10-2)/ (1-0,55 2 ) = 0,55 2,828/0,835 = 1,863 t szabadságfoka df = 8 Az Excel-bıl (fx, t-eloszlás alatt) (itt kétoldali próba indokolt, H1: ρ 0), P = 0,099 nem szign.

KÖSZÖNÖM TÜRELMÜKET

18. lecke Megjegyzések a korrelációs együttható szignifikanciájáról Parciális és többszörös korrelációs együttható

Megjegyzések a korrelációs együttható minısítésérıl 1. FONTOS: Itt-ott elterjedt az a gyakorlat, hogy a (lineáris) kapcsolat szorosságát pusztán r értéke alapján besorolják (laza közepes - szoros stb.) Ennek helytelen volta kitőnik az elızı példából is, ahol r = 0,55 (a besorolás szerint közepes, holott mint láttuk, nem is szignifikáns A besorolás valójában csak a sokasági ρ -ra tekinthetı érvényesnek, illetve közelítıleg r-re akkor, ha a mintaszám (n) elég nagy (legalább 50) Javaslat: r értékét önmagában ne minısítsük, vegyük figyelembe a mintaszámot (n) is és teszteljük!

Megjegyzések (folytatás) 2. r és n ismeretében közvetlenül (t kiszámítása nélkül) tesztelhetı r szignifikanciája a korrelációs együttható kritikus értékei táblázatból (megtalálható pl. a BIOMETRIAI ÉRTELMEZİ SZÓTÁRban) Például, n=10 (df=8)-nál a táblázatbeli kritikus érték α=5% hibaszinten 0,6319. Az r=0,55 mintabeli érték ennél kisebb, tehát P<5%, nem szignifikáns 3. Sem t számítására, sem táblázat használatára nincs szükség, ha az (x i,y i ) adatpárok beírásával az Excel Regresszió menüpontjára lépünk (ld. késıbb), az eredményekben látjuk P értékét

A korrelációs együttható kritikus értékei (részlet a táblázatból) Szabadságfok (df= n-2) Szignifikancia szint ( ) ------------------------------------------------------------------------------------------------------ 10% 5% 1% 0,1% ------------------------------------------------------------------------------ 1 0,98769 0,99692 0,999877 0,9999988 2 0,90000 0,95000 0,990000 0,99900 3 0,8054 0,8783 0,95873 0,99116 4 0,7293 0,8114 0,91720 0,97406 5 0,6694 0,7545 0,8745 0,95074 6 0,6215 0,7067 0,8343 0,92493 7 0,5822 0,6664 0,7977 0,8982 8 0,5494 0,6319 0,7646 0,8721 9 0,5214 0,6021 0,7348 0,8471 10 0,4973 0,5760 0,7079 0,8233 50 0,2306 0,2732 0,3541 0,4433 100 0,1638 0,1946 0,2540 0,3211

A H 0 : ρ = ρ 0 hipotézis ellenırzése Ha az alapsokaságban ρ eltér 0-tól, akkor az r statisztikai ingadozása távolabb kerül a normális eloszlástól, mint ρ =0 esetén, ezért a fenti t formula r helyett r-ρ 0 -lal sem segít, nem kapunk t-eloszlást. Az alkalmazható teszt az alábbi: Képezzük a z = 0,5 ln{(1+r)/(1-r)} statisztikát, ez közel normális eloszlású, sokasági átlaga és varianciája: z 0 = 0,5 ln{(1+ ρ 0 )/(1-ρ 0 )}, illetve Var(z) = 1/(n-3) Innen Z 0 -nak a 95%-os konfidencia intervalluma: {z 1,96/ (n-3) ; z +1,96/ (n-3)} Ha z 0 -ezen intervallumon kívül esik, α=5% hibaszinten elutasítjuk a H 0 hipotézist (számpélda alább)

Számpélda a H 0 : ρ = ρ 0 hipotézis ellenırzésére Legyen H 0 : ρ = ρ 0 = 0,4 a nullhipotézis, a mintanagyság n=28 (n-3 = 25), a számított r = 0,6 A transzformált Z értékek z = 0,5 ln{(1+0,6)/(1-0,6)} = 0,5 ln(4,00) = 0,69 z 0 = 0,5 ln{(1+0,4)/(1-0,4)} = 0,5 ln(2,33) = 0,42 z 0 konfidencia intervalluma: (0,69 1,96/ 25 ; 0,69 + 1,96/ 25) = (0,30 ; 1,0) A z 0 = 0,42 beleesik a kapott intervallumba, H 0 -t elfogadjuk

A parciális korrelációs együttható Y és X tényleges (lineáris) statisztikai kapcsolatát megzavarhatja (erısítheti vagy elmoshatja) egy harmadik Z változó (ismérv) vagy akár több is E zavaró hatás kiszőrését célozza a parciális korrelációs együttható: ρ XY.Z, becslése r xy.z Jelölje r xy ρ(x,y) becslését, hasonló értelmő r xz és r yz, ezekkel rxy rxzryz r xy.z = (1 r 2 xz )(1 r 2 yz )

A parciális korrelációs együttható tesztelése A H 0 : ρ XY.Z = 0 hipotézis t-próbával ellenırízhetı: t = r xy.z (n-3) / (1-r 2 xy.z), df = n-3 Például, n=10-nél r = r xy = 0,55 nem szignifikáns, de megeshet, hogy valamely Z ismérv zavaró hatásának kiszőrése után r xy.z = 0,72, amihez t=2,74, ez df=7 szabadságfoknál már szignifikáns, az X és Y közötti lineáris statisztikai kapcsolat mégis szignifikáns Megjegyzés: több zavaró változó egyidejő kiszőrése hasonló módon végezhetı, szükség esetén konzultáljunk a szakirodalommal

y A többszörös korrelációs együttható (R) y Vizsgálhatjuk egy Y változó lineáris kapcsolatának szorosságát több X változó együttesével egyidejőleg, a mérıszám a többszörös korrelációs együttható, R = R(Y,X), ahol X az {X1,X2,..,X p } változók együttese Mire jó R? Elıfordul, hogy Y egyik X változóval sem korrelál, mégsem szabad félre dobni az anyagot, mert lehet, hogy R megszívlelendı kapcsolatot jelez R kiszámítható a parciális korrelációs együtthatókból, mi azonban más utat követünk (ld. késıbb: többszörös regresszió, lineáris determinációs együttható)

További korreláció-mérı mutatók Nemlineáris kapcsolat szorosságának mérésérıl a regresszió tárgyalásakor szólunk (korrelációs hányados, determinációs együttható) Meg kell említenünk még az általánosított (lineáris) korrelációt, melynek képlete: r* = ( a ij b ij )/ {( a ij2 )( b ij2 )} ahol a ij x i és x j bizonyos távolságát jelenti, b ij ugyanilyen módon definiált távolság y i és y j között. Ha a ij = x i -x j és b ij = y i -y j, akkor r* = r, a Pearson-féle korrelációs együttható Más távolságokat választva kapjuk a Spearman- ill. a Kendall-féle korrelációs együtthatókat, melyekrıl késıbb szólunk

KÖSZÖNÖM TÜRELMÜKET