Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Hasonló dokumentumok
Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Korreláció és lineáris regresszió

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

[Biomatematika 2] Orvosi biometria

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Többváltozós lineáris regressziós modell feltételeinek

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

[Biomatematika 2] Orvosi biometria

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Számítógépes döntéstámogatás. Statisztikai elemzés

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Bevezetés a Korreláció &

Normális eloszlás tesztje

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Adatok statisztikai értékelésének főbb lehetőségei

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Biometria gyakorló feladatok BsC hallgatók számára

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Segítség az outputok értelmezéséhez

Bevezetés a hipotézisvizsgálatokba

GVMST22GNC Statisztika II.

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Statisztika elméleti összefoglaló

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Mérési adatok illesztése, korreláció, regresszió

Kísérlettervezés alapfogalmak

Regressziós vizsgálatok

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Többváltozós Regresszió-számítás

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Matematikai geodéziai számítások 6.

A Statisztika alapjai

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Matematikai geodéziai számítások 6.

Regresszió számítás az SPSSben

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Hipotézis vizsgálatok

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Biostatisztika VIII. Mátyus László. 19 October

Számítógépes döntéstámogatás OPTIMALIZÁLÁSI FELADATOK A SOLVER HASZNÁLATA

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

y ij = µ + α i + e ij

LINEÁRIS REGRESSZIÓ (I. MODELL) ÉS KORRELÁCIÓ FELADATOK

Korrelációs kapcsolatok elemzése

Biomatematika 13. Varianciaanaĺızis (ANOVA)

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A mérési eredmény megadása

Lineáris regressziószámítás 1. - kétváltozós eset

Kísérlettervezés alapfogalmak

Mérési hibák

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

A leíró statisztikák

Matematikai statisztikai elemzések 6.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Biomatematika 2 Orvosi biometria

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Statisztikai módszerek 7. gyakorlat

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Korreláció számítás az SPSSben

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Statisztika Elıadások letölthetık a címrıl

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

[Biomatematika 2] Orvosi biometria

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Kettőnél több csoport vizsgálata. Makara B. Gábor

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Kutatásmódszertan és prezentációkészítés

6. Előadás. Vereb György, DE OEC BSI, október 12.

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Autoregresszív és mozgóátlag folyamatok

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Számítógépes döntéstámogatás OPTIMALIZÁLÁSI FELADATOK A SOLVER HASZNÁLATA

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Van-e kapcsolat a változók között? (példák: fizetés-távolság; felvételi pontszám - görgetett átlag)

Átírás:

SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu

Korrelációszámítás SZDT-08 p. 2/31

SZDT-08 p. 3/31 Alapok többváltozó mérése ugyanazokon a mintavételi egységeken felmerülő kérdések: van-e valamilyen összefüggés, kapcsolat a változók között? ha van, akkor hogyan lehet leírni azt a kapcsolatot? meg lehet-e jósolni egyik változó ismeretében egy másik valószínű értékét? hogyan lehet kiválogatni azokat a változókat, amelyek segítségével az adathalmazban rejlő információ nagy része leírható? stb.

SZDT-08 p. 4/31 Alapok Korrelációszámítás: két vagy több változó szimmetrikus kapcsolatával foglalkozik. A változók közötti kapcsolat erősségét vizsgálja A számítások mindig mennyiségi (vérnyomás, vércukor stb.) és nem minőségi adatokra vonatkoznak Szóródási diagramok (scatterplot):

SZDT-08 p. 5/31 Lineáris korrelációs vagy Pearson-féle együttható r = r tulajdonságai: N i=1 (x i x) (y i y) N i=1 (x i x) 2 N i=1 (y i y) 2 értéke a 1,1 intervallumban helyezkedik el 1 esetén negatív, +1 esetén pozitív korrelációról beszélünk ha az r = 0, akkor a vizsgált 2 változó kapcsolatát korrelálatlannak nevezzük

SZDT-08 p. 6/31 Feladat Egy véletlen mintát tekintünk egy populációból. Számítsuk ki a korrelációs együttható értékét a csoport résztvevőinek testtömege és születéskori testtömege között! Készítsünk szóródásdiagramot az összefüggések tanulmányozására! Kiindulási adatok (korrelacio1.sta):

SZDT-08 p. 7/31 Feladat Felnőttkori testömeg-születéskori testtömeg szórásdiagram. Egy pont egy megfigyelési egység (egy személy).

SZDT-08 p. 8/31 Feladat Korrelációs együttható számítása:

SZDT-08 p. 9/31 Korrelációs együttható szignifikanciája A korrelációs együttható számításánál is vegyük figyelembe, hogy a számítást egy minta alapján végezzük, de az eredményt az egész populációra akarjuk érvényesíteni. Ha vesszük az X és Y változók összes populációbeli N számú mintáját (kétváltozós sokaság), feltételezzük róla a kétváltozós normális eloszlást. A normális eloszlás korrelációját az elméleti korrelációs együttható méri (p [ 1,1]). A mintából mehatározott r ennek a p-nek a becslése. Az r eloszlása nem szimmetrikus eloszlás, a p-t a 1,0,1 értékek kivételével csak jól közelíti.

SZDT-08 p. 10/31 Korrelációs együttható szignifikanciája Az r szignifikanciaszintjének ellenőrzéséhez t-statisztikát használunk: t = r N 2 1 r 2 Szignifikáns eltérés esetén a H 0 : p = 0 hipotézist elvetjük, és az r értékét valós kapcsolatnak tekintjük. A p 0 hipotézis tesztelésénél az r eloszlása asszimmetrikus, használhatjuk a Fischer-féle z transzformációt, amivel normális eloszlást kapunk: z = 1 2 ln(1+r 1 r )

SZDT-08 p. 11/31 Korrelációs együttható konfidenciaintervalluma A z értékét a korrelációs együttható konfidenciaintervallumának a meghatározására is felhasználhatjuk, amely 5%-os szignifikanciaszinten: z A = z 1,96 N 3 z F = z + 1,96 N 3 Az adatokat visszatranszformálva kapjuk az r A és r B értékeket: r A = e2 Z A 1 e 2 Z A+1 r F = e2 Z F 1 e 2 Z F +1 Feladat: A 40-70 év közötti lakosság szűrővizsgálata során a systolés vérnyomást is mérték, amelynek adati rendelkezésre állanak (lásd systoles1.sta fájl). Vizsgáljuk meg a kor és a systolés érték kapcsolatát, határozzuk meg a változók között az r értékét (a mintából meghatározott korrelációs együtthatót)!

SZDT-08 p. 12/31 Feladathoz 1 Az Excel tábla kezelhető a Statistics programon belül. Egészítsük ki a táblázatot és végezzük el a szükséges számításokat!

SZDT-08 p. 13/31 Feladathoz 2 Határozzuk meg a korrelációs együtthatót és a t eloszlás értékét!

Feladathoz 3 Az 5%-os szinten a hozzá tartozó kritikus érték 2, 2281. Mivel a t érték nagyobb a kritikus értéknél, ezért a korreláció szignifikáns, értékét elfogadjuk. SZDT-08 p. 14/31

SZDT-08 p. 15/31 Feladathoz 4 A korrelációs együttható 95%-os konfidenciaintervalluma: 1. Először meghatározzuk a z értéket. 2. Meghatározzuk az intervallumhatárokat. 3. Visszatranszformálva az alsó és felső értéket kapjuk az r konfidenciaintervallumot.

SZDT-08 p. 16/31 Feladathoz 5 Tehát az r konfidenciaintervalluma (0,305;0,925).

SZDT-08 p. 17/31 Feladathoz 6 Használjuk a Statistics program Statistics P robabilitycalculator Correlations menüpontját

SZDT-08 p. 18/31 Két korrelációs együttható vizsgálata Tegyük fel, hogy a vizsgálatot N 1 = 22 személlyel is elvégeztük, és r 1 = 0,85 korrelációs értéket kaptunk. Vizsgáljuk meg, hogy a két korrelációs együttható között 5%-os szignifikanciaérték mellett van-e szignifikáns eltérés! Mindkét értékre kiszámoljuk a Fischer-féle z értéket: z 1 z 2

SZDT-08 p. 19/31 Két korrelációs együttható vizsgálata 2 A szórások eltérése: σ z1 z 2 = 1 N 1 3 + 1 N 2 3 = 1 22 3 + 1 12 3 = 0,405 Megvizsgáljuk, hogy a két minta átlagai nem térnek el szignifikánsan egymástól: z = z 1 z 2 σ z1 = 1,256 1,03 z 2 0,405 = 0,56 Mivel a z-re igaz a 1,96 z 1,96 reláció, ezért a H 0 hipotézist megtartjuk: az r 1 = 0,85 és r 2 = 0,744 korrelációs együtthatók szignifikánsan nem térnek el.

Regressziószámítás SZDT-08 p. 20/31

SZDT-08 p. 21/31 Alapok, Lineáris regresszió a változók közötti sztochasztikus kapcsolatban lévő törvényszerűségeket, tendenciát igyekszik kifejezni függvények formájában cél: a kapcsolatot leíró függvény megadása pl. a szívinfarktus hogyan magyarázható a testsúly, magas vérnyomás, dohányzás stb. rizikófaktorok mellett felmerülő kérdések: Van-e bizonyos változók között kapcsolat? Milyen függvénnyel (lineáris, exponenciális, hatvány stb.) írható le az összefüggés? Mi a függő változó várható értéke a független változó egy bizonyos értékéhez?

SZDT-08 p. 22/31 Egyváltozós lineáris regresszió A mérési adatokra az y = a x + b elméleti regressziós függvényt (egyenest) illesztjük a legkisebb négyzetek módszerével. y a függő változó, x a független változó A pontokra legjobban illeszkedő egyenes megkeresésekor azt az egyenest kell választani, amelynek esetében a megfigyelési adatoknak a regressziós egyenestől mért átlagos eltérése a legkisebb (y D, a rezidum) Mérési pontok eltérése a regressziós egyenestől:

SZDT-08 p. 23/31 Egyváltozós lineáris regresszió A független változó (x) értéke pontosan beállítható A függő változó (y) értéke a méréskor elkövetett hiba (ε) miatt különbözik a valódi értéktől

Egyváltozós lineáris regresszió SZDT-08 p. 24/31

Egyváltozós lineáris regresszió SZDT-08 p. 25/31

Egyváltozós lineáris regresszió SZDT-08 p. 26/31

Egyváltozós lineáris regresszió SZDT-08 p. 27/31

Egyváltozós lineáris regresszió SZDT-08 p. 28/31

Egyváltozós lineáris regresszió SZDT-08 p. 29/31

SZDT-08 p. 30/31 Együtthatók konfidenciaintervalluma A regressziós együtthatók mintáról mintára változnak. A populáció paraméterei legyenek A és B, ekkor a regressziós együtthatók változó értékeire igaz, hogy M(a) = A M(b) = B Az együtthatók standard hibája: s a = R e és s b = ahol R e = N R e N i=1 x2 i N N i=1 (x i x) 2 i=1 (x i x) 2 N i=1 (y i ŷ i ) 2 N 2 A regressziós együtthatók normális eloszlásúak.

SZDT-08 p. 31/31 Együtthatók konfidenciaintervalluma Az együtthatók konfidenciaintervallumai: b ± t N 2,α s b és a ± t N 2,α s a A regressziós együttható b értékének szignifikanciájára vonatkozó statisztika: t = b s b amely N 2 szabadságfokú t-eloszlást követ. A t statisztikával azt teszteljük, hogy H 0 : b = 0 (H 1 : b 0).