Korreláció és lineáris regresszió Két folytonos változó közötti összefüggés vizsgálata Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi Fizika és Statisztika I. előadás 2016.11.02. Orvosi Fizika és Statisztika I. előadás 2016.11.02. 1
Bevezetés Élettudományokkal foglalkozó kutatások során gyakran mérnek több változót ugyanazokon a mintavételi egységeken. (pl.: testtömeg, vérnyomás, vércukorszint, testmagasság) Felmerülő kérdések: Van-e kapcsolat a két változó között? Ha van kapcsolat a változók között, akkor le lehet-e írni valamilyen formulával? Meg lehet-e "jósolni" az egyik változó ismeretében a másik valószínű értékét. A folytonos változók közötti összefüggést pont-diagramon ábrázoljuk. Orvosi Fizika és Statisztika I. előadás 2016.11.02. 2
Lehetséges kapcsolatok 0.5 1.0 1.5 2.0 2.5 3.0 0.05 0.15 0.25 0.35 Pozitív kapcsolat Ido Baktériumok mennyisége 0.2 0.4 0.6 0.8 1.0 1.2 1.4 0.2 0.6 1.0 Pozitív, lineáris kapcsolat ps positive microvesicles Glycophorin A positive microvasicle 2 3 4 5 6 7 0 20 40 60 80 Negatív lineáris kapcsolat Times (hours) Blood alcohol concentration (mg%) 0.5 1.0 1.5 2.0 2.5 3.0 0.2 0.4 0.6 0.8 Negatív kapcsolat Time Unresolved sugar 0.5 1.0 1.5 2.0 2.5 3.0 0.5 0.5 1.5 2.5 Nem monoton kapcsolat Time 20 40 60 80 100 120 140 2 3 4 5 6 7 8 9 Nincs kapcsolat Actual weight (kg) Number of countries visited Orvosi Fizika és Statisztika I. előadás 2016.11.02. 3
Főbb pontok 1 Korrelációszámítás Pearson féle korrelációs együttható Hipotézisvizsgálat a korrelációs együtthatóra Kiugró értékek hatása 2 Regressziószámítás Lineáris regresszió 3 Nem lineáris kapcsolatok 4 Összefoglaló kérdések Orvosi Fizika és Statisztika I. előadás 2016.11.02. 4
Pearson féle korrelációs együttható Pearson féle korrelációs együttható Definíció A Pearson féle korrelációs együttható a lineáris kapcsolat erősségét méri. ρ: a korrelációs együttható a populációban (nem ismert) r: a korrelációs együttható a mintában (ezzel becsüljük ρ-t) Formula r = ahol x i, y i : a változók értékei x, y: a mintaátlagok n: mintaelemszám n i=1 (x i x) (y i y) n i=1 (x i x) 2 n i=1 (y i y) 2 Orvosi Fizika és Statisztika I. előadás 2016.11.02. 5
Pearson féle korrelációs együttható r tulajdonságai mértékegység nélküli 1 r 1 ha a két változó független, akkor r = 0 r = 0 a lineáris kapcsolat hiányát és NEM az összefüggés hiányát jelenti r 1 erős pozitív, lineáris kapcsolat r 1 erős negatív, lineáris kapcsolat r 0 gyenge lineáris kapcsolat r és ρ csak a lineáris kapcsolat erősségét méri, nem alkalmas ok-okozati kapcsolat kimutatására. Orvosi Fizika és Statisztika I. előadás 2016.11.02. 6
Hipotézisvizsgálat a korrelációs együtthatóra Hipotézisvizsgálat a korrelációs együtthatóra Célja: megmutatni, hogy a két változó közötti lineáris összefüggés valódi, vagy csak a véletlen műve, azaz a populációra vonatkozó korrelációs együttható (ρ) eltér-e 0-tól. Hipotézisek: H 0 : ρ = 0, nincs lineáris kapcsolat a két változó között, a változók lineárisan függetlenek H 1 : ρ 0, van lineáris kapcsolat a két változó között, a változók összefüggenek Feltétel: a minta kétdimenziós normális eloszlásból származik (populáció követ kétdimenziós normális eloszlást) Orvosi Fizika és Statisztika I. előadás 2016.11.02. 7
Hipotézisvizsgálat a korrelációs együtthatóra Kétdimenziós normális eloszlás µ 1 0.5 0 2 0 2 2 0 2 Orvosi Fizika és Statisztika I. előadás 2016.11.02. 8
Hipotézisvizsgálat a korrelációs együtthatóra Hipotézisvizsgálat a korrelációs együtthatóra Próbastatisztika: Ha a null-hipotézis igaz, t n 2 szabadságfokú t-eloszlást követ n 2 t = r 1 r 2 Kritikus érték: t α,n 2 táblázatból Orvosi Fizika és Statisztika I. előadás 2016.11.02. 9
Hipotézisvizsgálat a korrelációs együtthatóra Hipotézisvizsgálat a korrelációs együtthatóra Döntés és értelmezés: próbastatisztika alapján Ha t < t α,n 2, t ( t α,n 2, t α,n 2 ) : elfogadjuk H 0 -t, a különbség nem szignifikáns α szinten, a populáció korrelációs együtthatója nem tér el 0-tól, azaz a két változó lineárisan független. Ha t > t α,n 2, t / ( t α,n 2, t α,n 2 ) : H 0 -t elvetjük, a különbség szignifikáns α szinten, a populáció korrelációs együtthatója eltér 0-tól, azaz a két változó között lineáris kapcsolat van. p érték alapján Ha p > α : H 0 -t elfogadjuk Ha p < α : H 0 -t elvetjük Orvosi Fizika és Statisztika I. előadás 2016.11.02. 10
Egy tanulmányban a hemoglobin (HGB) és a hermatokrit (HTC) értékek közötti kapcsolatot vizsgálták. Betegek HGB (g/dl) HTC ( %) 1 11.1 35 2 12.7 45 3 12.4 47 4 14.0 50 5 12.1 31 6 10.5 30 7 9.6 25 8 11.4 33 9 11.5 35 10 11.9 40 Orvosi Fizika és Statisztika I. előadás 2016.11.02. 11
Hemoglobin szint (g/dl) 10 11 12 13 14 25 30 35 40 45 50 Hematokrit szint (%) Orvosi Fizika és Statisztika I. előadás 2016.11.02. 12
Korrelációs együttható: r = 0.8930 Hipotézisek: H 0 : ρ = 0 Nincs lineáris kapcsolat a hematokrit és a hemoglobin értékek között. H 1 : ρ 0 A hematokrit és a hemoglobin értékek között van lineáris kapcsolat. Számolás: mintaelemszám: n = 10 szabadsági fok: df = 10 2 = 8 Próbastatisztika: 10 2 t = 0.8930 1 0.8930 2 = 5.6120 Kritikus érték: t α,n 2 = 2.306 Orvosi Fizika és Statisztika I. előadás 2016.11.02. 13
Döntés: t > t α,n 2 5.6120 > 2.306 H 0 -t elvetjük. A különbség szignifikáns, a hemoglobin és a hematokrit értékek között valóban van lineáris kapcsolat, azaz nem függetlenek. Hemoglobin szint (g/dl) 10 11 12 13 14 25 30 35 40 45 50 Hematokrit szint (%) Orvosi Fizika és Statisztika I. előadás 2016.11.02. 14
Megoldás R-rel > HGB=c ( 1 1. 1, 1 2. 7, 1 2. 4, 1 4. 0, 1 2. 1, 1 0. 5, 9. 6, 1 1. 4, 1 1. 5, 1 1. 9 ) > HTC=c ( 3 5, 4 5, 4 7, 5 0, 3 1, 3 0, 2 5, 3 3, 3 5, 4 0 ) > p l o t (HTC,HGB, pch =19) > c o r (HGB,HTC ) [ 1 ] 0.8929949 > c o r. t e s t (HDB,HTC) Pearson s product moment c o r r e l a t i o n data : HGB and HTC t = 5. 6 1 2, d f = 8, p v a l u e = 0.0005032 a l t e r n a t i v e h y p o t h e s i s : t r u e c o r r e l a t i o n i s not e q u a l to 0 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 0.6016458 0.9746316 sample e s t i m a t e s : c o r 0.8929949 Orvosi Fizika és Statisztika I. előadás 2016.11.02. 15
Kiugró értékek hatása Kiugró értékek hatása Egyetlen kiugró érték jelentősen meg tudja változtatni a korrelációs együttható értékét. r=0.9961 r=0.6245 4 6 8 12 4 6 8 12 2 3 4 5 6 r= 0.3544 2 3 4 5 6 r=0.8794 3.0 4.0 5.0 4 6 8 10 1.0 1.2 1.4 1.6 1.8 2.0 1 2 3 4 5 Orvosi Fizika és Statisztika I. előadás 2016.11.02. 16
Főbb pontok 1 Korrelációszámítás Pearson féle korrelációs együttható Hipotézisvizsgálat a korrelációs együtthatóra Kiugró értékek hatása 2 Regressziószámítás Lineáris regresszió 3 Nem lineáris kapcsolatok 4 Összefoglaló kérdések Orvosi Fizika és Statisztika I. előadás 2016.11.02. 17
Regressziószámítás Ha van összefüggés a két változó között szükségessé válik a függvényszerű kapcsolat felírása. Csak lineáris kapcsolatot vizsgálunk. Orvosi Fizika és Statisztika I. előadás 2016.11.02. 18
Lineáris regresszió Lineáris regresszió Ha a feltételezett kapcsolat lineáris, szükséges a legjobban illeszkedő egyenes felírása (regressziós egyenes) Egyenlet: y = a x + b a: az illesztett egyenes meredeksége, regressziós együttható b: a regressziós egyenes y-tengelymetszete Az egyenes illesztése a legkisebb négyzetek módszerével történik. Orvosi Fizika és Statisztika I. előadás 2016.11.02. 19
Lineáris regresszió A legkisebb négyzetek módszere Meghatározzuk a minimumát a mintapontok és az egyenes függőleges távolságainak (reziduumok) négyzetösszegeinek. n (y i (a x i + b)) 2 min i=1 Orvosi Fizika és Statisztika I. előadás 2016.11.02. 20
Lineáris regresszió A legkisebb négyzetek módszere A minimum meghatározása parciális deriválással történik. a = n i=1 (x i x) (y i y) n i=1 (x i x) 2 a regressziós együttható b = y a x Kapcsolat a korrelációs és a regressziós együttható között. r = a sd x sd y Orvosi Fizika és Statisztika I. előadás 2016.11.02. 21
Lineáris regresszió Hipotézisvizsgálat a regressziós együtthatóra t próbával Célja: Van-e kapcsolat a függő (y) és független (x) változó között? Hipotézisek: H 0 : a pop = 0 a regressziós egyenes együtthatója 0, nincs kapcsolat a két változó között. H 1 : a pop 0 a regressziós egyenes együtthatója nem 0, van kapcsolat a két változó között. Számolás: próbastatisztika: t = a SE(a) Ha a nullhipotézis igaz t Student féle t-eloszlást követ n 2 szabadságfokkal. kritikus érték: t α,n 2 táblázatból Döntés: Orvosi afizika t-próbáknál és Statisztikahasználatos I. előadás 2016.11.02. módszerekkel 22
Lineáris regresszió Hipotézisvizsgálat a regressziós együtthatóra F-próbával Célja: Van-e kapcsolat a függő (y) és független (x) változó között? Hipotézisek: H 0 : a population = 0 a regressziós egyenes együtthatója 0, nincs kapcsolat a két változó között. H 1 : a population 0 a regressziós egyenes együtthatója nem 0, van kapcsolat a két változó között. Számolás: próbastatisztika: F = a 2 (1 a 2 ) 1 n 2 Ha a nullhipotézis teljesül, a próbastatisztika F eloszlást követ 1 és n 2 szabadsági fokokkal. kritikus érték: F α,1,n 2 táblázatból Orvosi Fizika és Statisztika I. előadás 2016.11.02. 23
Lineáris regresszió Hipotézisvizsgálat a regressziós együtthatóra F-próbával Döntés: Ha F < F α,1,n 2 H 0 -t elfogadjuk. Ha F > F α,1,n 2 H 0 -t elvetjük. A teljes szórás felbontása: ahol, SST = SSR + SSE SST = n i=1 (y i y) 2 Az y teljes szórása SSR = n i=1 (ŷ i y) 2 Az x-től való függésből eredő szórás SSE = n i=1 (y i ŷ i ) 2 egyéb hatásokból adódó szórás (véletlen hiba) Orvosi Fizika és Statisztika I. előadás 2016.11.02. 24 y i y^ i y x i
Lineáris regresszió Determinációs együttható Definíció A korrelációs együttható négyzete * 100% Jelentése Megmutatja, hogy a függő változó y teljes varianciájának hány százaléka magyarázható az x-től való függéssel. Orvosi Fizika és Statisztika I. előadás 2016.11.02. 25
Egy tanulmányban a hemoglobin (HB) és a hermatokrit (HTC) értékek közötti kapcsolatot vizsgálták. Betegek HGB (g/dl) HTC ( %) 1 11.1 35 2 12.7 45 3 12.4 47 4 14.0 50 5 12.1 31 6 10.5 30 7 9.6 25 8 11.4 33 9 11.5 35 10 11.9 40 Orvosi Fizika és Statisztika I. előadás 2016.11.02. 26
Hipotézisek: H 0 : R = 0 Nincs kapcsolat a hematokrit és a hemoglobin értékek között. H 1 : R 0 A hematokrit és a hemoglobin értékek között van kapcsolat. Számolás R-rel > p l o t (HTC, HGB) > a b l i n e ( lm (HGB~HTC), c o l=" r e d ", lwd =2) >lm (HGB~HTC) C a l l : lm ( f o r m u l a = HB ~ PCV) C o e f f i c i e n t s : ( I n t e r c e p t ) PCV 6.7634 0.1336 Orvosi Fizika és Statisztika I. előadás 2016.11.02. 27
Megoldás R-rel > summary ( lm (HGB~HTC) ) C a l l : lm ( f o r m u l a = HGB ~ HTC) R e s i d u a l s : Min 1Q Median 3Q Max 0.6427 0.3224 0.1414 0.1860 1.1950 C o e f f i c i e n t s : E s t i m a t e Std. E r r o r t v a l u e Pr ( > t ) ( I n t e r c e p t ) 6.76336 0.90211 7.497 6. 9 5 e 05 PCV 0.13360 0.02381 5.612 0.000503 R e s i d u a l s t a n d a r d e r r o r : 0.5807 on 8 d e g r e e s o f freedom M u l t i p l e R s q u a r e d : 0. 7 9 7 4, A d j u s t e d R s q u a r e d : 0.7721 F s t a t i s t i c : 31.49 on 1 and 8 DF, p v a l u e : 0.0005032 Orvosi Fizika és Statisztika I. előadás 2016.11.02. 28
Eredmények A regressziós egyenes egyenlete: próbastatisztika: t = 5.612 p-érték: p < 0.001 HB = 0.13360 PCV + 6.76336 Döntés: H 0 -t elvetjük. A regressziós egyenes egyenlete szignifikánsan eltér 0-tól. A determinációs együttható: R 2 = 0.7974 A hemoglobin értékek teljes varinaciájának 80%- a a hematokrit szinttel való függéssel magyarázható. Orvosi Fizika és Statisztika I. előadás 2016.11.02. 29
Főbb pontok 1 Korrelációszámítás Pearson féle korrelációs együttható Hipotézisvizsgálat a korrelációs együtthatóra Kiugró értékek hatása 2 Regressziószámítás Lineáris regresszió 3 Nem lineáris kapcsolatok 4 Összefoglaló kérdések Orvosi Fizika és Statisztika I. előadás 2016.11.02. 30
Nem lineáris kapcsolatok Ha nem lineáris (exponenciális, logaritmikus, hatvány) kapcsolatot feltételezünk, a változók transzformálásával a probláma visszavezethető lineáris regresszióra. Kapcsolat független változó függő változó lineáris x y exponenciális x log y logaritmikus log x y hatvány log x log y Orvosi Fizika és Statisztika I. előadás 2016.11.02. 31
Exponenciális kapcsolat x y log y 1 2.72 0.434 2 7.39 0.869 3 20.09 1.303 4 54.60 1.737 5 148.41 2.171 y 0 50 100 150 log y 0.5 1.0 1.5 2.0 1 2 3 4 5 x 1 2 3 4 5 x Orvosi Fizika és Statisztika I. előadás 2016.11.02. 32
Logaritmikus kapcsolat x y log x 2 1.30 0.69 4 1.60 1.39 8 1.90 2.08 16 2.20 2.77 32 2.50 3.47 y 1.4 1.8 2.2 y 1.4 1.8 2.2 5 10 15 20 25 30 x 1.0 1.5 2.0 2.5 3.0 3.5 log x Orvosi Fizika és Statisztika I. előadás 2016.11.02. 33
Hatvány kapcsolat x y log x log y 2 4 0.69 1.39 4 16 1.39 2.77 6 36 1.79 3.58 8 64 2.08 4.16 10 100 2.30 4.61 y 20 40 60 80 100 log y 1.5 2.5 3.5 4.5 2 4 6 8 10 x 1.0 1.5 2.0 log x Orvosi Fizika és Statisztika I. előadás 2016.11.02. 34
Főbb pontok 1 Korrelációszámítás Pearson féle korrelációs együttható Hipotézisvizsgálat a korrelációs együtthatóra Kiugró értékek hatása 2 Regressziószámítás Lineáris regresszió 3 Nem lineáris kapcsolatok 4 Összefoglaló kérdések Orvosi Fizika és Statisztika I. előadás 2016.11.02. 35
Összefoglaló kérdések Két folytonos változó közötti kapcsolat grafikus reprezentálása A korrelációs együttható jelentése és tulajdonságai A korrelációs együttható szignifikanciája: nullhipotézis, t-érték, szabadságfok, döntés A determinációs együttható A regressziós egyenes együtthatóinak jelentése A regressziós egyenes együtthatóinak meghatározásának elve Regresszió transzformációkkal Orvosi Fizika és Statisztika I. előadás 2016.11.02. 36
Köszönöm a figyelmet! Orvosi Fizika és Statisztika I. előadás 2016.11.02. 37