Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Hasonló dokumentumok
Korreláció és lineáris regresszió

Bevezetés a Korreláció &

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Regresszió számítás az SPSSben

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

[Biomatematika 2] Orvosi biometria

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Esetelemzések az SPSS használatával

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Regressziós vizsgálatok

Varianciaanalízis 4/24/12

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Hipotézis vizsgálatok

Lineáris regresszió vizsgálata resampling eljárással

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Korreláció és Regresszió

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

[Biomatematika 2] Orvosi biometria

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Többváltozós lineáris regressziós modell feltételeinek

Adatok statisztikai értékelésének főbb lehetőségei

Biostatisztika Összefoglalás

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Bevezetés a hipotézisvizsgálatokba

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Mérési adatok illesztése, korreláció, regresszió

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

1. (Sugár Szarvas fgy., 186. o. S13. feladat) Egy antikvárium könyvaukcióján árverésre került. = x = 6, y = 12. s y y = 1.8s x.

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Statisztika elméleti összefoglaló

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Biostatisztika Összefoglalás

11. elıadás ( lecke) 21. lecke. Korreláció és Regresszió (folytatás) Lineáris-e a tendencia? Linearizálható nem-lineáris regressziós függvények

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Hipotézis vizsgálatok

Statisztika II. feladatok

Korreláció számítás az SPSSben

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Matematikai geodéziai számítások 6.

[Biomatematika 2] Orvosi biometria

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

Matematikai geodéziai számítások 6.

Kettőnél több csoport vizsgálata. Makara B. Gábor

Lineáris regressziószámítás 1. - kétváltozós eset

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Matematikai statisztikai elemzések 6.

Magyarországon személysérüléses közúti közlekedési balesetek okozóik és abból alkoholos állapotban lévők szerinti elemzése. Rezsabek Tamás GSZDI

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

GVMST22GNC Statisztika II.

Biostatisztika VIII. Mátyus László. 19 October

Ökonometria. Dummy változók használata. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Hetedik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Több valószínűségi változó együttes eloszlása, korreláció

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Sztochasztikus kapcsolatok

Többváltozós Regresszió-számítás

Korrelációs kapcsolatok elemzése

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Számítógépes döntéstámogatás. Statisztikai elemzés

Matematika gyógyszerészhallgatók számára. A kollokvium főtételei tanév

Ökonometriai modellek paraméterei: számítás és értelmezés

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Bevezetés az ökonometriába

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Correlation & Linear Regression in SPSS

Diszkriminancia-analízis

Q1 = 1575 eft Me = 2027,7778 eft Q3 = 2526,3158 eft

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

y ij = µ + α i + e ij

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

GyőrBike a győri közösségi bérkerékpár rendszer első éve

Korreláció és Regresszió (folytatás) Logisztikus telítıdési függvény Több független változós regressziós függvények

IV. Változók és csoportok összehasonlítása

Az állat becsült kor. teljes súly. teljes hossz orrtól. törzs hossza. pocak körkörös méret. hátsó láb hossza kör

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Regressziós vizsgálatok

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Normális eloszlás tesztje

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Átírás:

Korreláció, regresszió Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Két folytonos változó közötti kapcsolat Tegyük fel, hogy 6 hallgató a következő válaszokat adta egy felmérés során: Tanuló Matematika Nyelvek Színház Kiskereskedelem Péter 525 550 30 51 Sanyi 515 535 60 55 Ibolya 510 535 90 58 Anikó 495 520 50 63 Gabi 430 455 30 85 Bence 400 420 90 95 Ugyanazon személyeken mért változók között gyakran van valamilyen kapcsolat. Krisztina Boda 2

A kapcsolat vizsgálatához először készítsünk ábrát (pont ábra vagy szóródás-ábra). A két változó mért értékeivel mint (x i, y i ) koordinátákkal berajzoljuk a megfelelő pontokat. Egy ilyen ábrán a kapcsolat irányát és szorosságát vizsgáljuk, valamint az általános alakzatot. Tanuló Matematika Nyelvek Péter x 1 =525 y 1 =550 Sanyi x 2 =515 y 2 =535 Ibolya x 3 =510 y 3 =535 Anikó x 4 =495 y 4 =520 Gabi x 5 =430 y 5 =455 Bence x 6 =400 y 6 =420 Krisztina Boda 3

theater language retailing Lehetséges kapcsolatok 560 100 540 520 80 500 480 460 60 40 440 420 20 400 400 450 500 550 600 0 400 450 500 550 600 math score math score Pozitív korreláció Negatív korreláció 100 90 80 70 60 50 40 30 20 10 0 400 450 500 550 600 math score Nincs korreláció Krisztina Boda 4

Mérőszám a lineáris kapcsolat szorosságának mérésére: a korrelációs együttható (r) (Pearson-féle korrelációs együttható) Ha a két változó mért értékei rendre x 1,x 2, x n és y 1,y 2, y n, akkor a korrelációs együttható képlete r n n x y x y i i i i1 i1 i1 n n n n 2 2 n xi xi n yi yi 2 ( ) ( ) i1 i1 i1 i1 n n i 2 n i1 n i1 ( x x)( y y) i 2 ( x x) ( y y) i n i1 i i 2 Krisztina Boda 5

Karl Pearson (27 March 1857 27 April 1936) established the discipline of mathematical statistics. http://en.wikipedia.org /wiki/karl_pearson Karl Pearson Krisztina Boda 6

theater retailing language Az r tulajdonságai A korrelációs együttható értéke mindig -1 és +1 között van; -1 és 1 jelzi a tökéletes lineáris kapcsolatot. -1r 1. a) Ha r közel van +1-hez vagy -1-hez, azt mondjuk, hogy szoros (magas) korreláció van a két változó között. 560 540 520 500 480 460 440 420 400 400 450 500 550 600 math score 100 80 60 40 20 0 400 450 500 550 600 math score b) Ha r=1, tökéletes pozitív korreláció Ha r= -1, tökéletes negatív korreláció. 12 10 8 6 4 2 0 0 2 4 6 12 10 c) Ha r=0, nincs korreláció, vagyis nincs lineáris kapcsolat. Ha r közel van 0-hoz, akkor alacsony korrelációról beszélünk. 8 6 4 2 0 0 2 4 6 100 90 80 70 60 50 40 30 20 10 0 400 450 500 550 600 math score Krisztina Boda 7

theater language retailing Az r értékei az előbbi példák adataira 560 100 540 520 80 500 480 460 60 40 440 420 20 400 400 450 500 550 600 0 400 450 500 550 600 math score math score r=0.9989 r=-0.9993 100 90 80 70 60 50 40 30 20 10 0 400 450 500 550 600 r=-0.2157 math score Krisztina Boda 8

Hallgatók adatain kapott összefüggések r=0.018 r=0.873 Krisztina Boda 9

Korreláció és okság A korreláció nem jelent oksági kapcsolatot Két változó között korreláció nem jelenti azt, hogy az egyik változását a másik okozza. Krisztina Boda. 10

Correlation by eye http://onlinestatbook.com/stat_sim/reg_by_eye/index.html Ezen az oldalon gyakorolhatjuk azt, hogy adott ponthalmaz esetén mekkora lehet a korreláció. Krisztina Boda 11

language language theater theater Kiugró értékek hatása Egyetlen kiugró érték nagyon meg tudja változtatni a korrelációt. 100 90 80 70 60 50 40 30 20 10 0 560 540 520 500 480 460 440 420 400 450 500 550 600 r=-0.21 math score 400 400 450 500 550 600 math score r=0.998 180 160 140 120 100 80 60 40 20 0 400 500 600 700 800 900 560 540 520 500 480 460 440 420 400 r=0.74 math score 400 500 600 700 800 900 math score r=-0.26 Krisztina Boda 12

A korreláció csak a lineáris kapcsolat szorosságát méri Szoros, de nem lineáris kapcsolat esetén a korrelációs együttható kicsi y 10 8 6 4 2 0-4 -3-2 -1 0 1 2 3 4 r=2.8 E-15 y 1.2 1 0.8 0.6 0.4 0.2 0 0 0.5 1 1.5 2 2.5 3 3.5 r=0.157 Krisztina Boda 13

Korreláció és linearitás A fenti négy adathalmaz mindegyikére igaz, hogy r=0.816 http://en.wikipedia.org/wiki/correlation_and_dependence Krisztina Boda 14

Mikor mondjuk, hogy jó a korreláció? Nincs olyan egyértelmű határ, amitől kezdve jónak vagy magasnak minősítjük a korrelációt. De végrehajtható egy statisztikai próba, mellyel tesztelhetjük, hogy a kapott korrelációs együttható elég messze van-e 0-tól. Részletek: 8. előadás Krisztina Boda 15

A korrelációs együttható szignifikanciája Azt teszteljük, hogy a kapott korrelációs együttható tekinthető-e a 0 közelítésének, vagy pedig elég messze van 0-tól. H 0 : ρ=0 (görög rho=0, a populációs korrelációs együttható = 0) H a : ρ 0 (a populációs korrelációs együttható 0) Feltétel: a két minta két független minta kétdimenziós normális eloszlásból. Ha igaz a nullhipotézis, az alábbi t statisztika n-2 szabadságfokú t-eloszlást követ t r n 2 1 r r n 2 1 r 2 2 Döntés t-táblázat alapján: Ha t >t α,n-2, a különbség szignifikáns α szinten, elvetjük a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól. Ha t <t α,n-2, a különbség nem szignifikáns α szinten, nem vetjük el a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható nem tér el 0-tól. Döntés p-érték alapján: Ha p < α a különbség szignifikáns α szinten, elvetjük a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól. Krisztina Boda 16

Kétváltozós normális eloszlások ρ=0 ρ=0.4 Function Plot Function = 1/(2*pi)*exp(-0.5*(x^2))*exp(-0.5*(y^2)) Function Plot Function = 1/(2*pi*Sqrt(0.84))*exp(-(1/1.68)*(x^2+y^2-0.8*x*x)) Function Plot Function = 1/(2*pi)*exp(-0.5*(x^2))*exp(-0.5*(y^2)) > 0.14 < 0.13 < 0.11 < 0.09 < 0.07 < 0.05 < 0.03 < 0.01 Function Plot Function = 1/(2*pi*Sqrt(0.84))*exp(-(1/1.68)*(x^2+y^2-0.8*x*x)) > 0.16 < 0.15 < 0.13 < 0.11 < 0.09 < 0.07 < 0.05 < 0.03 < 0.01 Krisztina Boda > 0.14 < 0.13 < 0.11 < 0.09 < 0.07 < 0.05 < 0.03 < 0.01 > 0.16 < 0.15 < 0.13 < 0.11 < 0.09 < 0.07 < 0.05 < 0.03 < 0.01 17

1. példa A matematika és a nyelvtudás közötti korrelációs együttható r=0.9989. Szignifikánsan eltér-e 0-tól? H 0 : A populációs korrelációs együttható = 0, ρ =0. H a : A populációs korrelációs együttható nem 0. A t statisztika: 0.9989 62 t 0.9989 2 10.9989 4 10.9989 42.6 szabadságfok: df=6-2=4 A táblabeli kritikus érték t 0.05,4 = 2.776. Mivel 42.6 > 2.776, elvetjük a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól. 2 Krisztina Boda 18

560 Scatterplot (corr 5v*6c) LANGUAGE = 15.5102+1.0163*x 540 520 500 480 LANGUAGE 460 440 420 400 380 400 420 440 460 480 500 520 540 MATH:LANGUAGE: r = 0.9989; p = 0.000002 MATH p<0.05, populációs korrelációs együttható szignifikánsan eltér 0-tól. Krisztina Boda 19

2. példa A matematika és az adásvétel közötti korreláció r= -0.9993. Szignifikánsan eltér-e 0-tól? H 0 : A populációs korrelációs együttható = 0, ρ =0. H a : A populációs korrelációs együttható nem 0. A t statisztika: 0.9993 62 t 0.9993 2 10.9993 4 53.42 10.9986 Szabadságfok: df=6-2=4 A táblabeli kritikus érték t 0.05,4 = 2.776. Mivel -53.42 =53.42 > 2.776, elvetjük a nullhipotézis és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól. Krisztina Boda 20

100 Scatterplot (corr 5v*6c) RETAIL = 234.135-0.3471*x 90 80 70 RETAIL 60 50 40 380 400 420 440 460 480 500 520 540 MATH:RETAIL: r = -0.9993; p = 0.0000008 MATH Krisztina Boda 21

3. példa. A matematika és a színház szeretete közötti korreláció r= -0.2157. Szignifikánsan eltér-e 0-tól? H 0 : A populációs korrelációs együttható = 0, ρ =0. H a : A populációs korrelációs együttható nem 0. A t statisztika: : t 0.2157 62 0.2157 2 10.2157 4 0.4418 10.04653 Szabadságfok: df=6-2=4 A táblabeli kritikus érték t 0.05,4 = 2.776. Mivel -0.4418 =0.4418 < 2.776, nem vetjük el a nullhipotézist és azt mondjuk, hogy a korreláció nem szignifikáns 5%-os szinten. Nem tudjuk kimutatni a 0-tól való eltérés 5% hiba feltételezése mellett. Krisztina Boda 22

100 Scatterplot (corr 5v*6c) THEATER = 112.7943-0.1137*x 90 80 70 60 THEATER 50 40 30 20 380 400 420 440 460 480 500 520 540 MATH:THEATER: r = -0.2157; p = 0.6814 MATH Krisztina Boda 23

Hallgatók adatain kapott összefüggések, a korreláció szignifikanciája r=0.018, p=0.833 r=0.873, p<0.0001 Krisztina Boda 24

A lineáris kapcsolat becslése: lineáris regresszió Ha a kapcsolat lineáris, szükséges lehet a legjobban illeszkedő egyenes egyenletének meghatározása. A regressziós egyenes általános egyenlete y=bx + a a és b jelentése. b: regressziós együttható, az egyenes meredeksége; a: az egyenes tengelymetszete. Az együtthatók becslése a legkisebb négyzetek elvén alapul. Ha adott x 1,x 2, x n and y 1,y 2, y n, keressük meg azt az a és b értéket, amelyre Σ( y i -(a+bx i ) ) 2 min Krisztina Boda 25

A legkisebb négyzetek elve n 2 ( yi ( a b xi )) S( a, b) ->min b S a n i1 i1 S 0, 0 b x y n i i1 i x 2 i n x i i1 i1 n n n ( xi ) i1 n a y b x 2 y i n i1 ( x x)( y y) n i i1 ( x x) i i 2 A korrelációs együttható kiszámítása a regressziós együttható segítségével r b s sx y színház 80.00 60.00 40.00 400.00 440.00 480.00 520.00 matematika színház = 112.79 + -0.11 * matematika R-Square = 0.05 Linear Regres Krisztina Boda 26

100 Reziduálok Scatterplot (corr 5v*6c) THEATER = 112.7943-0.1137*x (x 1,y 1 ) 90 80 y 1 -(b*x 1 +a) b*x 1 +a 70 60 THEATER 50 40 y 2 -(b*x 2 +a) y 6 -(b*x 6 +a) 30 20 380 400 420 440 460 480 500 520 540 MATH:THEATER: r = -0.2157; p = 0.6814 MATH Krisztina Boda 27

A regressziós egyenes egyenlete az 1.példa adataira. y=1.016 x+15.5 a meredekség 1.016 Mennyi pont várható a nyelvtudásra, ha a matematika pontértéke 400? y jósolt =1.016 400+15.5=421.9 560 540 520 500 480 LANGUAGE 460 440 420 Scatterplot (corr 5v*6c) LANGUAGE = 15.5102+1.0163*x 400 380 400 420 440 460 480 500 520 540 MATH:LANGUAGE: r = 0.9989; p = 0.000002 MATH Krisztina Boda. 28

Hipotézisvizsgálatok a regressziós egyenlet paramétereire Valóban függ-e y az x-től (nem csak a mintában, hanem a populációban is)? Feltétel: a két minta két független minta kétdimenziós normális eloszlásból Egyik lehetséges módszer: t-próba a regressziós együtthatóra H 0 : b elm =0 az egyenes meredeksége nulla (vízszintes egyenes) Ha: b elm 0 Ha igaz a nullhipotézis, akkor a t= b/se(b) statisztika n-2 szabadságfokú t-eloszlást követ Krisztina Boda 29

Hipotézisvizsgálatok a regressziós egyenlet paramétereire Valóban függ-e y az x-től (nem csak a mintában, hanem a populációban is)? Másik lehetséges módszer (az előzővel ekvivalens) F-próba a regresszióra a regresszió varianciaanalízise Jelölje a becsült értéket Érvényes az alábbi felbontás: y a y teljes szórása= x-től való függésből eredő szórás+ véletlen hiba i SStot SSx SSh bx i n i1 n n 2 2 ( yi y) ( yi y) ( yi yi i1 i1 ) 2 Krisztina Boda 30

A regresszió varianciaanalízise A szóródás oka Négyzet -összeg szabadságfok Variancia F Regresszió SSr 1 SSr Véletlen hiba SSh n-2 SSh/n-2 Összes SStot n-1 F SSr SSh /( n 2) Krisztina Boda F szabadságfokai: 1 és n-2. Ez egy egyoldali próba: a regresszió akkor szignifikáns, ha a regresszió varianciája nagyobb, mint a hibavariancia, ami annak felel meg, hogy a regressziós függvény nem állandó, vagyis b elm 0. Ekvivalens a regressziós együtthatóra vonatkozó (kétoldali) t-próbával (ugyanazt a p-értéket adja). Ekvivalens a korrelációs együtthatóra vonatkozó szignifikanciavizsgálattal is. 31

Hipotézisvizsgálatok a regressziós egyenlet paramétereire t-próba a tengelymetszetre, nullhipotézise: H 0 : a elm =0 szab. fok: 1 t-próba a regressziós együtthatóra; nullhipotézise: H 0 : b elm =0 szab. fok: n-2 F-próba a regresszió szignifikanciájára: H 0 : szab. fokok: 1 és n-2 Krisztina Boda 32

SPSS futási eredmények a hallgatók adataira Model Summary R R Square Adjusted R Square Std. Error of the Estimate.018.000 -.007 13.297 The independent variable is Age Age in years. A korrelációs együttható, r=0.018 Regression Residual Total Age Age in years (Constant) ANOVA Sum of Squares df Mean Square F Sig. 7.866 1 7.866.044.833 23515.068 133 176.805 23522.934 134 The independent variable is Age in years. Coefficients Unstandardized Standardized Coeff icients Coeff icients B Std. Error Beta t Sig..078.372.018.211.833 66.040 7.834 8.430.000 A regresszió szignifikanciája, p=0.833 (=a korreláció szignifikanciája, p=0.833 A regressziós együttható szignifikanciája =a korreláció szignifikanciája, p=0.833 A regressziós egyenes egyenlete: y=0.078x+66.040 A tengelymetszet szignifikanciája, p<0.0001 Krisztina Boda 33

A determinációs együttható, r 2 A korrelációs együttható négyzete a determinációs együttható. 100-zal szorzott értéke megadja, hogy az y (függő) változó össz-varianciájának hány %-a magyarázható az x- től való lineáris függésével Példa. A matematika és a nyelvtudás között korreláció r =0.9989. A determinációs együttható, r 2 = 0.9978. Tehát a nyelvtudás összszóródásának 99.8%-a magyarázható a matematikától való lineáris függésével. Regression Residual Total Model Summary R R Square Adjusted R Square Std. Error of the Estimate.9989.9978.997 2.729 The independent v ariable is Matematika. ANOVA Sum of Squares df Mean Square F Sig. 13707.704 1 13707.704 1840.212.000 29.796 4 7.449 13737.500 5 The independent v ariable is Matematika. r2 az ANOVA táblázatból: r2 = Regression SS/Total SS= =13707.704/13737.5= 0.917. Krisztina Boda 34

Regresszió transzformációk alkalmazásával Néha a pont-ábra nemlineáris, ugyanakkor valamilyen görbevonalú, függvénnyel megadható kapcsolatot mutat. Krisztina Boda 35

Példa A felső ábra exponenciális kapcsolatot sejtet az x (idő) és az y között. Az y logaritmusát véve a kapcsolat lineárissá válik (alsó ábra) y 450 400 350 300 250 200 150 100 50 0 0 5 10 15 time 6 5 4 ln(y) 3 2 1 0 0 5 10 15 time Krisztina Boda Biostat 9. 36

Az x-re és az y e-alapó logaritmusára (ln y) lefuttatva a lineáris regressziót, a következő egyenletet kapjuk: ln y = 2.327 + 0.2569 x Ezt visszatranszformálva kapjuk az exponenciális görbe egyenletét y = e 2.327 + 0.2569 x =e 2.327 e 0.2569x = 1.293e 0.2569x y 450 400 350 300 250 200 150 100 50 0 0 5 10 15 time y = 1.293e 0.2569x 6 5 4 ln(y) 3 2 1 0 0 5 10 15 time ln y = 2.327 + 0.2569 x Krisztina Boda Biostat 9. 37

Lehetséges transzformációk Krisztina Boda Biostat 9. 38

log y y Exponenciális kapcsolat -> vegyük y logaritmusát x y lg y 0 1.1 0.041393 1 1.9 0.278754 2 4 0.60206 3 8.1 0.908485 4 16 1.20412 Modell: y=a*10 bx Mindkét oldalt logaritmálva: lg y =lga+bx Tehát lg y és x között lineáris a kapcsolat 18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 x 1.4 1.2 1 0.8 0.6 0.4 0.2 0 0 1 2 3 4 5 x Krisztina Boda 39

y y Logaritmikus kapcsolat ->vegyük x logaritmusát x y log x 1 0.1 0 4 2 0.60206 8 3.01 0.90309 16 3.9 1.20412 Modell: y=a+lgx 5 4 3 2 1 0 0 5 10 15 20 x 5 4 Tehát y és lg x között lineáris a kapcsolat 3 2 1 0 0 0.2 0.4 0.6 0.8 1 1.2 1.4 log10 x Krisztina Boda 40

log y y Hatványfüggvény kapcsolat ->vegyük x és y logaritmusát 110 x y log x log y 100 90 80 1 2 0 0.30103 70 60 2 16 0.30103 1.20412 50 40 30 3 54 0.477121 1.732394 20 10 4 128 0.60206 2.10721 0 130 120 0 1 2 3 4 5 x Modell: y=ax b Mindkét oldalt logaritmálva : lg y =lga+b lgx Tehát lgy és lg x között lineáris a kapcsolat 2.5 2 1.5 1 0.5 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 log x Krisztina Boda 41

y y Reciprokos kapcsolat -> vegyük x reciprokát x y 1/x 1 1.1 1 2 0.45 0.5 3 0.333 0.333333 4 0.23 0.25 5 0.1999 0.2 Modell: y=a +b/x y=a +b*1/x tehát y és 1/x között lineáris a kapcsolat 2 1.5 1 0.5 0 0 1 2 3 4 5 6 x 2 1.5 1 0.5 0 0 0.2 0.4 0.6 0.8 1 1.2 1/x Krisztina Boda 42

Egy példa az orvosi irodalomból Krisztina Boda 43

Krisztina Boda 44

EL HADJ OTHMANE TAHA és mtsai: Osteoprotegerin: a regulátor, a protektor és a marker. Összefoglalás irodalmi adatok és saját eredményeink alapján. Orvosi Hetilap 2008 149. évfolyam, 42. szám 1971 1980. Krisztina Boda 45

10-es alapú logaritmus skála log10 x 101 9 8 7 6 5 4 0.5 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 Krisztina Boda Biostat 3. 46

Logaritmikus papírok Szemilogaritmus papír log-log papír Krisztina Boda 47

Hasznos WEB oldalak http://davidmlane.com/hyperstat/desc_biv.html http://onlinestatbook.com/stat_sim/reg_by_eye/index.ht ml http://www.youtube.com/watch?v=csytzwfnvpg&feat ure=related http://www.statsoft.com/textbook/basicstatistics/#correlationsb http://people.revoledu.com/kardi/tutorial/regression/no nlinear/logarithmiccurve.htm http://www.physics.uoguelph.ca/tutorials/glp/ http://paskorn.blogspot.com/2008/10/bivariate-normaldistribution-graph.html Krisztina Boda. 48

Kérdések Két folytonos változó között kapcsolat grafikus vizsgálata A korrelációs együttható jelentése, tulajdonságai Korrelációs együttható és linearitás kapcsolata A korrelációs együttható szignifikanciája: nullhipotézis, t-érték, szabadságfok, döntés A determinációs együttható jelentése A regressziós egyenes együtthatóinak jelentése A regressziós egyenes együtthatói meghatározásának elve. Hipotézisvizsgálat a regressziós együtthatóra, kapcsolata a korreláció szignifikanciájával. Hipotézisvizsgálat a regressziós egyenes tengelymetszetére. Regresszió transzformációkkal: nem lineáris speciális kapcsolatok jellemzése Krisztina Boda 49

Feladatok n=5 megfigyelés (adatpár) alapján a korrelációs együttható értéke r=0.7. Szignifikáns-e a korreláció 5% -os szinten? Nullhipotézis és alternatív hipotézis:. A korreláció t-értéke:... szabadságfok:... Döntés a szignifikanciáról (A táblázatbeli t-érték t3,0.05=3.182).. A fizika gyakorlatokon háromszor megismételték a derékkörfogat méréseit. Az első és a második mérések összefüggését lineáris regresszióval vizsgálhatjuk. Értelmezze a kapott eredményeket (korreláció együttható, determinációs együttható, a korreláció szignifikanciája nullhipotézis, szabadságfok, t-érték, p- érték -, a regressziós egyenes egyenlete) Model Summary R R Square Adjusted R Square Std. Error of the Estimate.980.960.960 2.267 The independent variable is DERÉKKÖRFOGAT Első. Regression Residual Total ANOVA Sum of Squares df Mean Square F Sig. 44733.495 1 44733.495 8707.197.000 1849.511 360 5.138 46583.007 361 The independent v ariable is Waist circumference 1. Krisztina Boda

A regresszió szó eredete. Galton: Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute 1886 Vol.15, 246-63 Krisztina Boda 51

Krisztina Boda 52