SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu
Korrelációszámítás SZDT-08 p. 2/31
SZDT-08 p. 3/31 Alapok többváltozó mérése ugyanazokon a mintavételi egységeken felmerülő kérdések: van-e valamilyen összefüggés, kapcsolat a változók között? ha van, akkor hogyan lehet leírni azt a kapcsolatot? meg lehet-e jósolni egyik változó ismeretében egy másik valószínű értékét? hogyan lehet kiválogatni azokat a változókat, amelyek segítségével az adathalmazban rejlő információ nagy része leírható? stb.
SZDT-08 p. 4/31 Alapok Korrelációszámítás: két vagy több változó szimmetrikus kapcsolatával foglalkozik. A változók közötti kapcsolat erősségét vizsgálja A számítások mindig mennyiségi (vérnyomás, vércukor stb.) és nem minőségi adatokra vonatkoznak Szóródási diagramok (scatterplot):
SZDT-08 p. 5/31 Lineáris korrelációs vagy Pearson-féle együttható r = r tulajdonságai: N i=1 (x i x) (y i y) N i=1 (x i x) 2 N i=1 (y i y) 2 értéke a 1,1 intervallumban helyezkedik el 1 esetén negatív, +1 esetén pozitív korrelációról beszélünk ha az r = 0, akkor a vizsgált 2 változó kapcsolatát korrelálatlannak nevezzük
SZDT-08 p. 6/31 Feladat Egy véletlen mintát tekintünk egy populációból. Számítsuk ki a korrelációs együttható értékét a csoport résztvevőinek testtömege és születéskori testtömege között! Készítsünk szóródásdiagramot az összefüggések tanulmányozására! Kiindulási adatok (korrelacio1.sta):
SZDT-08 p. 7/31 Feladat Felnőttkori testömeg-születéskori testtömeg szórásdiagram. Egy pont egy megfigyelési egység (egy személy).
SZDT-08 p. 8/31 Feladat Korrelációs együttható számítása:
SZDT-08 p. 9/31 Korrelációs együttható szignifikanciája A korrelációs együttható számításánál is vegyük figyelembe, hogy a számítást egy minta alapján végezzük, de az eredményt az egész populációra akarjuk érvényesíteni. Ha vesszük az X és Y változók összes populációbeli N számú mintáját (kétváltozós sokaság), feltételezzük róla a kétváltozós normális eloszlást. A normális eloszlás korrelációját az elméleti korrelációs együttható méri (p [ 1,1]). A mintából mehatározott r ennek a p-nek a becslése. Az r eloszlása nem szimmetrikus eloszlás, a p-t a 1,0,1 értékek kivételével csak jól közelíti.
SZDT-08 p. 10/31 Korrelációs együttható szignifikanciája Az r szignifikanciaszintjének ellenőrzéséhez t-statisztikát használunk: t = r N 2 1 r 2 Szignifikáns eltérés esetén a H 0 : p = 0 hipotézist elvetjük, és az r értékét valós kapcsolatnak tekintjük. A p 0 hipotézis tesztelésénél az r eloszlása asszimmetrikus, használhatjuk a Fischer-féle z transzformációt, amivel normális eloszlást kapunk: z = 1 2 ln(1+r 1 r )
SZDT-08 p. 11/31 Korrelációs együttható konfidenciaintervalluma A z értékét a korrelációs együttható konfidenciaintervallumának a meghatározására is felhasználhatjuk, amely 5%-os szignifikanciaszinten: z A = z 1,96 N 3 z F = z + 1,96 N 3 Az adatokat visszatranszformálva kapjuk az r A és r B értékeket: r A = e2 Z A 1 e 2 Z A+1 r F = e2 Z F 1 e 2 Z F +1 Feladat: A 40-70 év közötti lakosság szűrővizsgálata során a systolés vérnyomást is mérték, amelynek adati rendelkezésre állanak (lásd systoles1.sta fájl). Vizsgáljuk meg a kor és a systolés érték kapcsolatát, határozzuk meg a változók között az r értékét (a mintából meghatározott korrelációs együtthatót)!
SZDT-08 p. 12/31 Feladathoz 1 Az Excel tábla kezelhető a Statistics programon belül. Egészítsük ki a táblázatot és végezzük el a szükséges számításokat!
SZDT-08 p. 13/31 Feladathoz 2 Határozzuk meg a korrelációs együtthatót és a t eloszlás értékét!
Feladathoz 3 Az 5%-os szinten a hozzá tartozó kritikus érték 2, 2281. Mivel a t érték nagyobb a kritikus értéknél, ezért a korreláció szignifikáns, értékét elfogadjuk. SZDT-08 p. 14/31
SZDT-08 p. 15/31 Feladathoz 4 A korrelációs együttható 95%-os konfidenciaintervalluma: 1. Először meghatározzuk a z értéket. 2. Meghatározzuk az intervallumhatárokat. 3. Visszatranszformálva az alsó és felső értéket kapjuk az r konfidenciaintervallumot.
SZDT-08 p. 16/31 Feladathoz 5 Tehát az r konfidenciaintervalluma (0,305;0,925).
SZDT-08 p. 17/31 Feladathoz 6 Használjuk a Statistics program Statistics P robabilitycalculator Correlations menüpontját
SZDT-08 p. 18/31 Két korrelációs együttható vizsgálata Tegyük fel, hogy a vizsgálatot N 1 = 22 személlyel is elvégeztük, és r 1 = 0,85 korrelációs értéket kaptunk. Vizsgáljuk meg, hogy a két korrelációs együttható között 5%-os szignifikanciaérték mellett van-e szignifikáns eltérés! Mindkét értékre kiszámoljuk a Fischer-féle z értéket: z 1 z 2
SZDT-08 p. 19/31 Két korrelációs együttható vizsgálata 2 A szórások eltérése: σ z1 z 2 = 1 N 1 3 + 1 N 2 3 = 1 22 3 + 1 12 3 = 0,405 Megvizsgáljuk, hogy a két minta átlagai nem térnek el szignifikánsan egymástól: z = z 1 z 2 σ z1 = 1,256 1,03 z 2 0,405 = 0,56 Mivel a z-re igaz a 1,96 z 1,96 reláció, ezért a H 0 hipotézist megtartjuk: az r 1 = 0,85 és r 2 = 0,744 korrelációs együtthatók szignifikánsan nem térnek el.
Regressziószámítás SZDT-08 p. 20/31
SZDT-08 p. 21/31 Alapok, Lineáris regresszió a változók közötti sztochasztikus kapcsolatban lévő törvényszerűségeket, tendenciát igyekszik kifejezni függvények formájában cél: a kapcsolatot leíró függvény megadása pl. a szívinfarktus hogyan magyarázható a testsúly, magas vérnyomás, dohányzás stb. rizikófaktorok mellett felmerülő kérdések: Van-e bizonyos változók között kapcsolat? Milyen függvénnyel (lineáris, exponenciális, hatvány stb.) írható le az összefüggés? Mi a függő változó várható értéke a független változó egy bizonyos értékéhez?
SZDT-08 p. 22/31 Egyváltozós lineáris regresszió A mérési adatokra az y = a x + b elméleti regressziós függvényt (egyenest) illesztjük a legkisebb négyzetek módszerével. y a függő változó, x a független változó A pontokra legjobban illeszkedő egyenes megkeresésekor azt az egyenest kell választani, amelynek esetében a megfigyelési adatoknak a regressziós egyenestől mért átlagos eltérése a legkisebb (y D, a rezidum) Mérési pontok eltérése a regressziós egyenestől:
SZDT-08 p. 23/31 Egyváltozós lineáris regresszió A független változó (x) értéke pontosan beállítható A függő változó (y) értéke a méréskor elkövetett hiba (ε) miatt különbözik a valódi értéktől
Egyváltozós lineáris regresszió SZDT-08 p. 24/31
Egyváltozós lineáris regresszió SZDT-08 p. 25/31
Egyváltozós lineáris regresszió SZDT-08 p. 26/31
Egyváltozós lineáris regresszió SZDT-08 p. 27/31
Egyváltozós lineáris regresszió SZDT-08 p. 28/31
Egyváltozós lineáris regresszió SZDT-08 p. 29/31
SZDT-08 p. 30/31 Együtthatók konfidenciaintervalluma A regressziós együtthatók mintáról mintára változnak. A populáció paraméterei legyenek A és B, ekkor a regressziós együtthatók változó értékeire igaz, hogy M(a) = A M(b) = B Az együtthatók standard hibája: s a = R e és s b = ahol R e = N R e N i=1 x2 i N N i=1 (x i x) 2 i=1 (x i x) 2 N i=1 (y i ŷ i ) 2 N 2 A regressziós együtthatók normális eloszlásúak.
SZDT-08 p. 31/31 Együtthatók konfidenciaintervalluma Az együtthatók konfidenciaintervallumai: b ± t N 2,α s b és a ± t N 2,α s a A regressziós együttható b értékének szignifikanciájára vonatkozó statisztika: t = b s b amely N 2 szabadságfokú t-eloszlást követ. A t statisztikával azt teszteljük, hogy H 0 : b = 0 (H 1 : b 0).