Megjegyzés: regressziós vizsgálatoknál fontos szempont a reziduálisok (az y -



Hasonló dokumentumok
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉPSZINT Függvények

A fiatalok pénzügyi kultúrája Számít-e a gazdasági oktatás?

MELLÉKLET. A parancsikonok használata: Fıkomponens- és faktorelemzés. I : A fıkomponens- és a faktorelemzés indítása.

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Trigonometria

FIT-jelentés :: Intézményi jelentés. Összefoglalás

Mágneses szuszceptibilitás vizsgálata

Puskás Tivadar Távközlési Technikum

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A döntő feladatai. valós számok!

Fazekas Mihály Fővárosi Gyakorló Általános Iskola és Gimnázium

FIT-jelentés :: Bánki Donát Közlekedésgépészeti Szakközépiskola és Szakiskola 1138 Budapest, Váci út OM azonosító:

Kockázatkezelés és biztosítás

Conjoint-analízis példa (egyszerűsített)

B1: a tej pufferkapacitását B2: a tej fehérjéinek enzimatikus lebontását B3: a tej kalciumtartalmának meghatározását. B.Q1.A a víz ph-ja = [0,25 pont]

FIT-jelentés :: 2014 Intézményi jelentés Összefoglalás Ady Endre-Bay Zoltán Középiskola és Kollégium

Bevezetés a lágy számítás módszereibe

FIT-jelentés :: Zoltánfy István Általános Iskola 6772 Deszk, Móra F. u. 2. OM azonosító: Telephely kódja: 005. Telephelyi jelentés

[GVMGS11MNC] Gazdaságstatisztika

[MECHANIKA- HAJLÍTÁS]

Kooperáció és intelligencia

Radon, Toron és Aeroszol koncentráció viszonyok a Tapolcai Tavas-barlangban

Elemi statisztika fizikusoknak

Épületvillamosság laboratórium. Villámvédelemi felfogó-rendszer hatásosságának vizsgálata

Párhuzamos programozás

A mérések eredményeit az 1. számú táblázatban tüntettük fel.

Sz ekelyhidi L aszl o Val osz ın us egsz am ıt as es matematikai statisztika *************** Budapest, 1998

Egységes jelátalakítók

A Hozzárendelési feladat megoldása Magyar-módszerrel

2011. március 9. Dr. Vincze Szilvia

Kiskunmajsa Város Önkormányzatának partnertérképe

Lineáris algebra gyakorlat

FIT-jelentés :: Intézményi jelentés. 8. évfolyam

ORSZÁGOS KÖRNYEZETEGÉSZSÉGÜGYI INTÉZET

Az abortusz a magyar közvéleményben

Kispesti Deák Ferenc Gimnázium

Kispesti Deák Ferenc Gimnázium

Jelek tanulmányozása

Azonosító jel: Matematika emelt szint

Esetelemzések az SPSS használatával

tartalmazó becsült értékek októbertől a lakáscélú és szabad felhasználású jelzáloghitelek új szerződéses összege tartalmazza a

KOVÁCS BÉLA, MATEMATIKA I.

Vállalkozásfinanszírozás

Intézményi jelentés. Összefoglalás. Medgyessy Ferenc Gimnázium és Művészeti Szakközépiskola 4031 Debrecen, Holló László sétány 6 OM azonosító:

Illeszkedésvizsgálat

2014. évi kukoricakísérlet

Korszerű geodéziai adatfeldolgozás Kulcsár Attila

4. előadás. Statisztikai alkalmazások, Trendvonalak, regresszió. Dr. Szörényi Miklós, Dr. Kallós Gábor

Gazdasági matematika II.

ingyenes tanulmány GOOGLE INSIGHTS FOR SEARCH

FENNTARTHATÓ FEJLŐDÉS

Feladatlap. I. forduló

Programozás I gyakorlat

BIOMATEMATIKA ELŐADÁS

Mehet!...És működik! Non-szpot televíziós hirdetési megjelenések hatékonysági vizsgálata. Az r-time és a TNS Hoffmann által végzett kutatás

Munkaerőpiaci szervező, elemző Munkaerőpiaci szervező, elemző Személyügyi gazdálkodó és fejlesztő

ÚTMUTATÓ A KONTROLL ADATSZOLGÁLTATÁS ELKÉSZÍTÉSÉHEZ (2012-TŐL)

Demográfiai helyzetkép Magyarország 2014 Spéder Zsolt

Beszámoló: a kompetenciamérés eredményének javítását célzó intézkedési tervben foglaltak megvalósításáról. Őcsény, november 20.

Infó Rádió. Hírek

KOVÁCS BÉLA, MATEMATIKA I.

tetszőleges időpillanatban értelmezhető végtelen sok időpont értéke egy véges tartományban bármilyen értéket felvehet végtelen sok érték

Bár a digitális technológia nagyon sokat fejlődött, van még olyan dolog, amit a digitális fényképezőgépek nem tudnak: minden körülmények között

MEZŐGAZDASÁGI ALAPISMERETEK ÉRETTSÉGI VIZSGA II. A VIZSGA LEÍRÁSA

xdsl Optika Kábelnet Mért érték (2012. II. félév): SL24: 79,12% SL72: 98,78%

Shared IMAP beállítása magyar nyelvű webmailes felületen

Jelentéskészítő TEK-IK () Válaszadók száma = 610

Országos kompetenciamérés 2006

HENYIR felhasználói dokumentáció

Az aktiválódásoknak azonban itt még nincs vége, ugyanis az aktiválódások 30 évenként ismétlődnek!

Agrárgazdasági Kutató Intézet Piac-árinformációs Szolgálat. Borpiaci információk. III. évfolyam / 7. szám április

Statisztika március 11. A csoport Neptun kód

FIT-jelentés :: Széchenyivárosi Óvoda és Általános Iskola 6000 Kecskemét, Lunkányi János u. 10. OM azonosító: Intézményi jelentés

A hasznos élettartamot befolyásoló egyes tényezők elemzése a Tedej Zrt. holstein-fríz állományánál

VASÚTI PÁLYA DINAMIKÁJA

Vektoros elemzés végrehajtása QGIS GRASS moduljával 1.7 dr. Siki Zoltán

WALTER-LIETH LIETH DIAGRAM

1. Eset-kontroll vizsgálatok nem megfelelően kivitelezett kontroll szelektálása

Egyszerű áramkörök vizsgálata

Az első lépések. A Start menüből válasszuk ki a Minden program parancsot. A megjelenő listában kattintsunk rá az indítandó program nevére.

1. Nyomásmérővel mérjük egy gőzvezeték nyomását. A hőmérő méréstartománya 0,00 250,00 kpa,

Továbbra is terjed az influenza

ELLENÁLLÁSOK PÁRHUZAMOS KAPCSOLÁSA, KIRCHHOFF I. TÖRVÉNYE, A CSOMÓPONTI TÖRVÉNY ELLENÁLLÁSOK PÁRHUZAMOS KAPCSOLÁSA. 1. ábra

Munkaerő piaci helyzetkép. Csongrád megye

Árverés kezelés ECP WEBSHOP BEÉPÜLŐ MODUL ÁRVERÉS KEZELŐ KIEGÉSZÍTÉS. v ECP WEBSHOP V1.8 WEBÁRUHÁZ MODULHOZ

Áramlástechnikai gépek soros és párhuzamos üzeme, grafikus és numerikus megoldási módszerek (13. fejezet)

DLookup függvény 1. (5)

ELEKTRONIKAI ALAPISMERETEK

Házi dolgozat. Minta a házi dolgozat formai és tartalmi követelményeihez. Készítette: (név+osztály) Iskola: (az iskola teljes neve)

Dr. Erbszt András Szt. János Kh. Idegsebészeti Osztály NEVES BETEGBIZTONSÁGI FÓRUM

Jelentés a kiértékelésről az előadóknak

MAGISTER GIMNÁZIUM TANMENET OSZTÁLY

FIT-jelentés :: Szász Ferenc Kereskedelmi Szakközépiskola és Szakiskola 1087 Budapest, Szörény u OM azonosító: Intézményi jelentés

Analízis elo adások. Vajda István október 3. Neumann János Informatika Kar Óbudai Egyetem. Vajda István (Óbudai Egyetem)

KISTERV2_ANOVA_

Reiz Beáta április

Csoportosított adatok megjelenítése sorhalmaz függvények használatával

Elemi statisztika fizikusoknak

GAZDASÁGMATEMATIKA KÖZÉPHALADÓ SZINTEN

Kombinatorika. 9. előadás. Farkas István. DE ATC Gazdaságelemzési és Statisztikai Tanszék. Kombinatorika p. 1/

Átírás:

5. Regressziós eljárások, korrelációszámítás 5.1. Lineáris regresszió A feladat, hogy keressük az x (független változó) és y (függő változó) folytonos változók között azt a modellt (becslő egyenletet), amely alkalmas az érték meghatározására x függvényében. A modellkeresés során a két változó között a kapcsolat lineáris (az x változó csak az első hatványon szerepel!) és erősen korrelált, továbbá az y normális eloszlású. A keresett modell lehet egy és többváltozós, a modellben lévő x változók számától függően. Az orvosi problémák megoldására leggyakrabban alkotott modell, amely az összegződő hatásokat fejezi ki. 5.1.1. Egyváltozós lineáris regresszió A keresett egyenlet általános alakja: ^ y ahol y^ a b x a: az y-tengelymetszetének értéke b: az egyenes meredeksége. Az alábbi hipotéziseket vizsgáljuk: H0: nincs kapcsolat az x és y változók között vagy H0: b = 0. H1: van kapcsolat az x és y változók között vagy H1: b 0 Megjegyzés: regressziós vizsgálatoknál fontos szempont a reziduálisok (az y - eltérések) vizsgálata. Minél kisebbek az eltérések a tényleges y érték és a becsült között, annál jobban illeszkedik a model adatainkra. ^ y közötti ^ y érték Feladat: egy vizsgálatban az IHR (intrinsic heart rate, belső szívritmus, beat/min) érték (y) életkortól (x) való függését vizsgálták egészséges egyének esetén szimultán szimpatikus és paraszimpatikus blokád mellett. Határozzuk meg a két változó közötti lineáris kapcsolatot leíró egyenlet alakját. *Forrás: Orvosibiometria, Budapest 1982, Medicina Kiadó Dr. Paksy András engedélyével. Lépések: a) Importáljuk be a REGRESSZIÓ/lin_IHR_adat.xls állományt. b) Normalitás ellenőrzés: y normális eloszlású (Shapiro-Wilk s teszt = 0.1018) c) Lépjünk be az Analyze/Regression/Linear Regression menüpontba. Data: adjuk meg az ábra szerint a változókat: 1

5.1. ábra Regressziós változók Model: válasszuk ki a használni kívánt modellt: 2

5.2. ábra Modell választási lehetőségek Statistics: adjuk meg a becslés részleteit: 3

5.3. ábra Megjelenítendő statisztikák Plot: válasszuk ki a megjelenítendő rajzot: 4

5.4. ábra Grafikonok lehetőségei Predictions/: válasszuk az Original sample lehetőséget. Futás után kapott eredmények: 5

A regressziós modell szignifikáns (p <0.0001), tehát valós a kapcsolat az x és y változók között. Az adjusted (korrigált) determinációs együttható (illeszkedés jósága) értéke = 0.4755, ami közepes lineáris illeszkedést mutat. A t statisztikák jelentése: a tengelymetszet (intercept, t = 32.29 és p < 0.0001)) és az életkor (b, t = -6.03 és p < 0.0001) értékek valós értékek (H1: nem 0 az érték), mivel a p értékek szignifikánsak. A keresett becslő függvény: ^ y 120.45727 (0.56206 életkor) Az egyenletben a b= -0.56206 érték negativ korrelációra utal (x értéke nő és y értéke csökken), továbbá az x egységnyi változásához az y változás mértékét is jelenti. A regressziós egyenlet segítségével a vizsgált életkor tartományon belül (17 és 69 év között) az egyenlettel megbízható becslést tudunk végezni, az 17 év alatti vagy 69 év feletti életkor érték esetén a becsléssel óvatosabban kell bánni. Legyen pl. x = 60 év, a hozzátartozó IHR érték az egyenlet segítségével könnyen meghatározható: ^ y 120.45727 0.56206 x 120.37948 0.56206 60 86.73 ütés / perc 6

5.5. ábra Regressziós egyenes A grafikon az életkor és IHR közötti negativ korrelációt mutatja (növekvő x értékhez csökkenő IHR érték tartozik) az egyenes. 5.1.2. Többváltozós lineáris regresszió A keresett egyenlet általános alakja: ^ y Az alábbi hipotéziseket vizsgáljuk: b 0 b 1 x 1 b 2 x 2... H0: nincs kapcsolat az xi és y változók között vagy H0: bi = 0. H1: van kapcsolat az xi és y változók között vagy H1: b i 0 Az eljárás arra is választ ad, hogy az xi változók közül melyek az y szempontjából fontos változók, melyek azok, amelyek tényleges befolyásolják az értékét. Ki lehet szűrni a fontos xi változókat. A módszer használatának feltétele: a) az xi változók és y között a kapcsolat lineáris b) xi változók legyenek függetlenek (kollinearitás vizsgálat) b n x n 7

Feladat: Exszikkált (kiszáradt) gyermekeket különböző volumenű elektrolit infúziókkal kezelték, a 90 perces kezelés után a javulás mértékét %-os formában adták meg (haematocrit %-ról van szó? Nem találtam meg az interneten a példát). Az adatfelvétel során rögzítették a gyermekek életkorát (év) és testsúlyát (lbs) is. Kérdés: milyen kapcsolat van a javulás mértéke (y), a dózis (x1), életkor (x2), testsúly (x3) között? *Forrás: *SAS Institute engedélyével: Common Statistical Methods for Clinical Research with SAS Examples: 185. oldal, Example 10.2. adatai Lépések: a) Importáljuk be a REGRESSZIÓ/lin_kiszáradás.xls állományt. b) Normalitás ellenőrzés: y normális eloszlású (Shapiro-Wilk s teszt = 0.8943) c) Lépjünk be az Analyze/Regression/Linear Regression menüpontba. Data: adjuk meg az ábra szerint a változókat: 5.5. ábra Változók megadása Model: válasszuk ki a Full model fitted opciót. Statistics: adjuk meg az ábra szerint: 8

5.6. ábra Statisztikák megadása Plot: válasszuk ki az Observed by Predicted values plot opciót: Predictions/: válasszuk az Original sample lehetőséget. Futás után kapott eredmények: 9

Az eredmények alapján a következtetéseink: a) Az illeszett modell szignifikáns (ANOVA tábla, p= 0.0002), ezért ezért a H1 hipotézist fogadjuk el: az y legalább egy független változóval kapcsolatban van. b) Az R 2 = 0.4077 értéke nem magas, ami azt jelenti, hogy az y varianciájának kb. 41%-át magyarázzák az xi változók. c) A kapott lineáris egyenlet: y^ 85.48 (6.17 Dózis) (0.28 Életkor) (0.54 Testsúly) Életkor és Testsúly esetén a két változó értéke nem szignifikáns (p = 0.9043 illetve p = 0.1032), ami azt jelzi, hogy az illesztett modellel gond van. d) Független változók közötti összefüggés vizsgálata (kollinearitás vizsgálat). A VIF érték (Variance Inflation Factor) értéke Életkor és Testsúly esetén relatív magas értékek (8.16330 és 8.16745), ami a két változó közötti magas korrelációra utal. A Collinearity Diagnostics tábla legutolsó sorában a Sajátérték (Eigenvalue) oszlopban az érték igen alacsony (0.00558) és a Condition Index igen magas (25.85867) továbbá ugyanebben a sorban az Életkor és Testsúly Proportion of Variation értékei 0.96800 illetve 0.96697, ami 10

szintén azt mutatja, hogy a két változó korrelált, azaz nem függetlenek egymástól. Következésképpen: az Életkor és Testsúly változókat egyszerre a modellben nem szabad szerepeltetni! A fentiek alapján válasszunk új modellt. a) A modellben csak a Dózis van: 5.7. ábra Residuális ábrája 11

Önmagában a Dózis gyenge illesztést ad: Adj R-Sq (illeszkedés jósága) = 0.1037, tehát mellé kell venni valamelyik magyarázó (explanatory variable) változót még. b) Dózis, Életkor szerepel a modellben: 12

Az illeszkedés jósága javult: Adj R-Sq (illeszkedés jósága) = 0.3751. A két változó becsült paraméterei szignifikánsak (0.0023 illetve 0.0004). b) Dózis, Testsúly szerepel a modellben: Az illeszkedés jósága ennél a modellnél a legmagasabbt: Adj R-Sq (illeszkedés jósága) = 0.4254. A két változó becsült paraméterei szignifikánsak (0.0013 illetve <0.0001). A feladat megoldására ezt a modellt használjuk a gyakorlatban: y^ 85.594 (6.175 Dózis) (0.506 Testsúly) Feladat: diabateses betegeket vizsgáltak. A vizsgálat célja, hogy megállapítsák összefügg-e az HDL (védő) koleszterin szint a testsúllyal vagy a testmagassággal, akkor, ha illesztünk a betegek nemére, a cukoranyagcsere állapotára (HbA1C) és egy gyulladásos markerre, a CRPre (C-reaktív protein). *Forrás: dr. Füst György engedélyével, Semmelweis Egyetem, 2012 Megjegyzés: megemlítendő, hogy a független változók (xi) bizonyos esetekben ordináris vagy nominális változók is lehetnek (dummy változó, például a nem mint a jelen példában). Lépések: a) Importáljuk be a REGRESSZIÓ/lin_regr_crp.xls állományt. b) Lépjünk be az Analyze/Regression/Linear Regression menüpontba. Data: adjuk meg az ábra szerint a változókat: 13

5.8. ábra Változók megadása Model: válasszuk ki a Full model fitted opciót. Statistics: adjuk meg az ábra szerint: 14

5.9. ábra Statisztikák megadása Predictions/: válasszuk az Original sample lehetőséget. Futás után kapott eredmények: 15

A Parameter Estimates táblából látható, hogy a Se_chol, a Hb1AC, CRP változók nem szignifikánsak, vagyis nem szükségesek a modellben. A Variance Inflation oszlop alapján a Nem, a Tmagasság változók nem szerepelhetnek egy modellben, mert nem függetlenek egymástól. A Collinearity Diagnostics tábla ugyanezt tükrözi. Feladat a fentiek alapján, tovább kell keresni a legjobban illeszkedő modellt (a testsúly, testmagasság mellé tegyük be az egyes változókat). Végül a keresett modellünk: 16

Eredmény: a HDL a testsúllyal szignifikáns negatív korrelációt mutat (p < 0.0001), a nemmel pedig pozitív (p < 0.0001), a nők védő koleszterin szintje magasabb, mint a férfiak szintje. A becslő függvény: 5.2. Nemlineáris regresszió ^ y 1.62 (0.00624 Tsúly) (0.1372 Nem) Olyan esetekben, amikor a függő és független változók között a kapcsolat nem lineáris, az y becslésére a nemlineáris regressziós eljárást alkalmazzuk. Hangsúlyozni kell, hogy a probléma megoldása bonyolultabb a lineáris problémánál, és nagy segítség, ha a kapcsolat jellegéról van előzetes információnk pl. polinommal írható le a kapcsolat, ismerjük a polinom fokszámát stb. Mivel a becslő függvény bonyolult lehet, ezért arra kell törekedni: a) minél kevesebb paramétert tartalmazzon, b) jól illeszkedjen a modell c) a residuálisok kicsik legyenek. H0: nincs kapcsolat az x és y változók között. H1: van kapcsolat az x és y változók között. 17

A feladat megoldását különböző statisztikák segítik, de előzetesen mindig ajánlatos a scatterplot ábra tanulmányozása az analízis kezdetekor. A feladat megoldása során keressük a lehető legjobb modellt, de gyakran ennek megtalálásához több lépésben jutunk el: több modell illesztést kell elvégezni és értékelni. Feladat: insulin radioimmunassay vizsgálatot végeztek és keresték a kapcsolatot az insulin standard és a radioimmunassay mérési eredmény között (adatbázis érték * 10-3 ). Mivel a kapcsolat nem lineáris, ezért a megoldást a nemlineáris regresszió alkalmazásával szükséges megoldani. Itt tulajdonképpen kalibrációs feladatról van szó. Ha ismerjük a növekvő koncentrációjú standard insulin kalibrációs görbéjének regressziós egyenletét, akkor az ismeretlen minták mérési eredménye (counts) alapján számítani tudjuk annak insulin koncentrációját. *Forrás: Brown, M.B., M. Doron and A. Laron (1974): Approximate confidence limits for the concentration of insulin in radioimmunoassays. Diabetologia 10, 23-25. Lépések: a) Importáljuk be a REGRESSZIÓ/non_lin_insulin.xls állományt. b) Lépjünk be az Analyze/Regression/Nonlinear Regression menüpontba. Data: adjuk meg az ábra szerint a változókat: 5.8. ábra Változók megadása 18

Model: a modellt irodalmi adatok alapján ilyen formában keressük: 5.9. ábra Modell választás Computation: válasszuk az egyenlet együtthatóinak meghatározására a következő számítási eljárást: 19

5.10. ábra Módszer választás Plots: válasszuk ki a kívánt grafikont: 20

5.11. ábra Grafikonválasztás Futás után kapott eredmények: 21

A hipotézisek tesztelését illetően az elemzésnél két fontos szempont van: a) A NOTE box-ban az üzenetet értelmezni kell: csak akkor mehetünk tovább, ha a fenti üzenet jelenik meg. Ellenkező esetben új modellt vagy számítási eljárást kell választani. b) Az ANOVA táblában a p legyen szignifikáns, mint a mostani helyzetben (p = 0.0440), hogy a H1 hipotézist fogadhassuk el. Ha ez nem szignifikáns, akkor új modellt kell választani. Az illesztett modell alakja: Count= 1/(1 + a Insulin_standard) = 1/(1-0.00286 Insulin_standard) 22

5.12. ábra Mért és becsült értékek A becsült és mért értékek eltérései igen jó modell illeszkedésre utalnak. Feladat: az enzim reakciósebesség és a szubsztrátum koncentráció közötti kapcsolatot tanulmányozták. *Forrás: SAS Institute engedélyével, SAS/STAT, NLIN Procedure, Estimating the Parameters in the Nonlinear Model Lépések: a) Importáljuk be a REGRESSZIÓ/non_lin_enzim.xls állományt. b) Lépjünk be az Analyze/Regression/Nonlinear Regression menüpontba. Data: adjuk meg az ábra szerint a változókat 23

5.13. ábra Változók megadása Model: tanulmányaink alapján válasszuk az alkalmazott modellt: 24

5.14. ábra Modell kiválasztása Computation: Gauss-Newton eljárás. Plots: válasszuk ki kívánt grafikont. Futás után kapott eredmények: 25

A keresett egyenlet: Sebesség = Koncentráció/(a + b Koncentráció) = 1.0 / (1.0-0.7943 Koncentráció) 26

5.15. ábra Mért és becsült sebesség kapcsolata 5.3. Logisztikus regresszió Az eddigi regressziós vizsgálatok során a függő változó (y) mindig folytonos változó volt függetlenül attól, hogy normális eloszlású volt vagy sem. Gyakoriak az olyan vizsgálatok is, amikor az y diszkrét értéket vesz fel: két értékű (binomiális) vagy többértékű (polychotomus) lehet az y kimenetele. A lényeges különbség az eddigi technikákhoz képest, hogy itt logit transzformált skálát használunk és az odds ratio (OR) használatán alapszik. A predictor változók (rizikófaktorok) eloszlása tetszőleges lehet, számukat a kívánalmaknak megfelelően bővíthetjük. A kapott modell révén a rizikófaktor értékek ismeretében, egyénre vonatkozóan megtudjuk határozni a vizsgált esemény bekövetkezési valószínűségét. Az alábbi hipotéziseket vizsgáljuk: H0: nincs kapcsolat az x és y változók között. H1: van kapcsolat az x és y változók között. A keresett egyenlet alakja: 27

P 1 e ( b 0 1 b x 1 1 b2x... 2 bnx n ) Feladat: prosztata műtét után férfiak erekciós panaszait vizsgálták két kezelési csoportban: kontroll és egy új készítmény esetén. Rögzítették a beteg életkorát, a sikerek számát és az összes próbálkozás számát. Ahol az összes próbálkozás száma 0 volt, az a beteg törölve lett az adatbázisból, mivel az elemzéshez a ( sikerek száma / összes próbálkozások száma) arány szükséges. Kérdés: van-e eltérés a két kezelési csoportban a sikerek arányait illetően? *Forrás: *SAS Institute engedélyével: Common Statistical Methods for Clinical Research with SAS Examples: 337. oldal, Example 20.3. adatai Futtassuk le a SAS_programok könyvtárból a prosztata.sas programot. Futás után kapott eredmények: 28

A Williams módszer miatt ugyan nem szignifikáns az illeszkedés, ami jelen esetben nem befolyásolja az eredményt. A Testing Global Null Hypothesis tábla azt teszteli, hogy van-e regresszió (a bi együtthatók egyenlők-e 0-val). Mivel az érték pl. a likelihood érték szignifikáns, ezért létezik becslő regressziós egyenlet. Az Analysis of Maximum Likelihood Estimates táblázatban a változók szignifikánsak, ezért mindegyiket megtartjuk a modellben. Új készítmény(1) esetén a valószínűség értéke, ha Kezelés = 1: P 1 e ( 1 b 0 b1x 1 b2x 2 1 e 1 (1.8913 0.0271 Életkor ) Kontroll csoport (0) esetén a valószínűség értéke, ha Kezelés = 0: 29

P 1 e ( 1 b 0 b1x 1 b2x 2 1 e 1 (1.3384 0.0271 Életkor ) Odds Ratio Estimates táblában a Kezelés szignifikáns Point Estimate értéke 1.738, ugyanakkor a Likelihood táblában szignifikáns (p = 0.0291), ez azt jelenti, hogy az Életkorra korrigált siker esélye az új készítménnyel kezelt csoportban mintegy 73.8%-al növekszik a kontroll csoporthoz képest. Az Életkor szintén szignifikáns (p = 0.0124), az OR (odds ratio) értéke 0.973, ami azt jelenti, hogy a siker esélye mintegy 2.7%-al csökken évenként a kor előrehaladásával. Feladat: a klinikai vizsgálat során a kérdés az volt, hogy a C4B gén kópiaszáma herediter angiooedemás (HAE) betegekben kapcsolatban van-e a rohamszámmal (a HAE örökletes betegség, amely egy gén hiányzó működése következtében egy C1 inhibitor nevű fehérje csökkent aktivitásához vezet). A betegeség különféle (bőr alatt, hasban, felső légutakon) rohamokban jelentkező ödémás rohamok képében jelentkezik. A betegekben megmérték az ún. C4B gén (a C4 komplement fehérjét kódoló egyik gén) kópiaszámát (ez az ún. kópiaszám polimorfizmus). A C4B gén kópiaszám alapján a betegekeket két csoportba osztották (C4B_kópia változó): 0 = 0-2, 1= 3-4), továbbá a rohamszám szerint is két csoportba sorolták a betegeket (Tothil3 változó): 0 = évi 0-2, 1 = évi 3 vagy ennél több. *Forrás: dr. Füst György engedélyével, Semmelweis Egyetem, 2012 Lépések: a) Importáljuk be a REGRESSZIÓ/log_reg_kópia.xls állományt. b) Lépjünk be az Analyze/Regression/ Logistic Regression menüpontba. Data: adjuk meg az ábra szerint a változókat 30

5.16. ábra Változók megadása Model/Response: hagyjuk meg az alapbeállításokat: 31

5.17. ábra Alapbeállítások Effects: adjuk meg a főhatásokat: 32

5.18. ábra Főhatások megadása Selection: hagyjuk meg az alapbeállításokat: 33

5.19. ábra Alapbeállítások Options: válasszuk a következőket: 34

5.20. ábra Beállítások megadása Plots: adjuk meg a kívánt grafikont. Predictions: válasszuk pl. az alábbiakat: 35

5.21. ábra Opciók megadása 36

Eredmény: a magas C4B kópiaszámú betegeknek szignifikánsan (p=0.0214) kevesebb rohama van (OR: 0,075 (0.008-0.682). Tehát a magas C4B kópiaszámú betegek kezelésekor enyhébb kórlefolyásra lehet számítani. Mivel csak a C4B_kópia szignifikáns, ezért csak ez a tag marad az egyenletben. Tothil3 (1) esetén a valószínűség értéke, ha C4B_kópia = 1: 1 1 = 0.9299 1 1 P ( b C 4B _ kópia ) 2. 5862 1 e e 37

Tothil3 (0) esetén a valószínűség értéke, ha C4B_kópia = 0: P ( b C 4B _ kópia ) 0 1 e 1 1 1 1 e = 0.5 5.4. Poisson regresszió Olyan esetekben, mikor a független változó (y) diszkrét adatokat vesz fel pl. megfigyelések számát vagy arányokat tartalmaz, és az adatok eloszlása Poisson eloszlást követ, akkor alkalmazzuk ezt a sajátságos regressziót az y becslésére. Az alábbi hipotéziseket vizsgáljuk: H0: nincs kapcsolat az x és y változók között. H1: van kapcsolat az x és y változók között. A keresett egyenlet alakja: Megfigyelési adatokra a modell: ahol E(Y) = μ. g(μ) = β0 + β1x1 + β2x2 +... + βkxk. Feladat megfigyelési adatokra *Forrásadatok: a vizsgálatban szereplő minden egyes, nőstény patkórákhoz tartozott egy him rák a fészkében. A vizsgálatban azokat a faktorokat tanulmányozták amelyek azt befolyásolják, hogy a fészekben lévő hímen kívül, hány más hím is van a nőstény közelében (ezek az ún. szatellit állatok). A magyarázó változók, amelyek a vizsgálat szerint ilyen hatást gyakorolnak a hímekre: a nőstény rák színe (C), a gerincoszlopának állapota (S), páncéljának szélessége (W, cm), a testsúly (Wt, kg) és a Szatellit rákok száma (Sa). A kimeneti válasz mindenegyes nőstény rákra számítva a szatellit hímek száma volt. *Forrás: Alan Agresti (2002): Categorical Data Analysis, Second Edition, John Wiley & Sons, 127. oldal Vizsgált változók: C (colour) : 1 = világos, 2 = közepes, 3 = közepesen sötét, 4 = sötét S (spine): 1 = rendben, 2 = elnyűtt vagy törött, 3 = elnyűtt és törött Készítsük el a scatter-plot diagrammot (Analyze/Multivariate/Correlations menüpontban) 38

5.22. ábra Scatter-plot diagramm A diagramm alapján megállapítható, hogy a páncélméret (W) növekedésével a szatellit (Sa) hímrákok száma is nő. A modellbe először a W változót tegyük (a többi változót önmagában hasonlóan vizsgálhatjuk). Futtassuk le a SAS_programok könyvtárból a patkórák.sas programot. Futás után kapott eredmények: 39

A becsült szatellit rákok száma: log( ˆ) -3.3048+0.164 W a modellben a β = 0.1640 (slope) pozitív, szignifikáns, az ASE (Asymptotical Standard Error) = 0.0200, amely kicsi, a modell jól illeszkedik. Azt jelenti, hogy a szélesebb nőstényrák várhatóan nagyobb számú hím rák kolóniát vonz magához, és exp(0.1640)=1.18 (multiplikatív hatás a ˆ -re). Egy cm-es szélesség növekedés a W-ben a becsült Sa számát 18%-al növeli (a szorzófaktor 1.18). Legyen pl. W = 26.3 cm: ˆ exp 3.3048 0.164 (26.3) 2. 74 Növeljük meg 1 cm-rel az előbbi W = 26.3 értéket, ami 27.3 lesz. Ennek megfelelően a becsült modell: ˆ exp Ami pontosan egyenlő a következő szorzattal: 3.3048 0.164 (27.3) 3. 23 1.18 2.74 = 3.23. 40

Változtassuk meg a modellt és tegyük be a C= color mint minőségi prediktort: Proc Genmod; class c; Model Sa=w c / dist=pois link=log scale=deviance; proc print; run; Futás után kapott eredmény: Becsült modell: log ( ˆ ) = -3.0974 + 0.1493W + 0.4474(C="1") + 0.2477(C="2") + 0.0110(C="3") A C szintjei közül a C = 1, 2 értékek a jelentősebb tényezők. 41

Megjegyzés: a különböző modell illeszkedéseknél próbáljunk korrigálni (adjusting) az overdispersion jelenségre. 5.5. Általánosított lineáris model A lineáris modell általánosításának (GLM) tekinthetjük (Generalized Linear Model, GLZ), amelyben közvetlenül nem magát a függő változót (dependent), hanem annak transzformált értékét becsüljük a magyarázó változók (predictors) lineáris / nemlineáris függvényével. A függő változó lehet diszkrét vagy folytonos eloszlású, a predictor változók pedig egyaránt lehetnek kategórikus vagy folytonos változók illetve ezek kombinációja. A GLZ a maximum likelihood (ML) módszert használja a model becslésére. Végezzük el az 5.4. feladatot GLZ segítségével is. Lépések: a) Importáljuk be a REGRESSZIÓ/glz_crabs.xls állományt. b) Lépjünk be az Analyze/Regression/Generalized Linerr Models menüpontba. Data: adjuk meg az ábra szerint a változókat 5.23. ábra Változók megadása 42

Model: adjuk meg az alábbiak szerint 5.24. ábra Modell választás Model Options: adjuk meg a függő változó eloszlását az alábbiak szerint 43

5.25. ábra Eloszlás választás Predictions: válasszuk az Original sample opciót 44

Futás után kapott eredmények: Teljesen azonos az 5.4-ben kapott eredménnyel. Ha a modellbe az összes predictor változót betesszük (a többi beállítás változatlan hatása mellett), akkor a következő eredményt kapjuk: 45

Az Sa becslésre a C (colour, p = 0.0054) és a Wt (weight, p = 0.0041) van hatással. Az egyenlet alakja (a W és Wt között erős a korreláció, a Wt a domináns tag): log ( ˆ ) = -05238-0.1850C + 0.4732 Wt 5.6. Korrelációszámítás Minden olyan esetben, amikor feladatunk két vagy többváltozó között a kapcsolat erősségének a megállapítása, korreláció-analízist kell végeznünk. Ez két fajta lehet a változók eloszlásától függően: a) lineáris korreláció: a változók normális eloszlásúak, b) nemlineáris korreláció: a változók nem normális eloszlásúak. 46

A korrelációs együttható értéke [-1, +1] tartományban van, és -1 a maximális negatív, +1 a maximális pozitív korrelációs kapcsolatot, a 0 közeli érték a korrelálatlanságot (de nem függetlenséget) jelenti a változók között. A lineáris korrelációs együtthatók közül a Pearsonféle r együtthatót, a nemlineáris korrelációs együtthatók közül a Spearman-féle együtthatót használjuk leggyakrabban a kapcsolatok mérésére. A korreláció-számítás szoros kapcsolatban van a regressziós eljárással, gyakran együtt is használjuk őket. Általánosan az alábbi hipotéziseket vizsgáljuk: H0: nincs korrelációs kapcsolat az x és y változók között vagy H0: r = 0. H1: van kapcsolat az x és y változók között vagy H1: r 0 Feladat: határozzuk meg az 5.1.2. feladatban az életkor az IHR változók között lineáris kapcsolat szorosságát kifejező lineáris korrelációs (r) együttható nagyságát. Lépések: a) Importáljuk be a REGRESSZIÓ/lin_IHR_adat.xls állományt. b) Normalitás ellenőrzés: mindkét változó elfogadható normális eloszlásúnak (Shapiro- Wilk s teszt = 0.1018 illetve KS = 0.1500) c) Lépjünk be az Analyze/Multivariate/Correlations menüpontba. Data: adjuk meg az ábra szerint a változókat: 47

5.26. ábra Változók megadása Options: adjuk meg a korrelációs együttható típusát: 48

5.27. ábra Korreláció típus kiválasztása Results: adjuk meg a szükséges opciókat. A Hoeffding együttható egy nemparaméteres asszociációs együttható, amely a változók közötti függőséget méri. Minél közelebb van értéke az 1 értékhez, annál inkább szoros a függősség a két változó között. 49

Futás után kapott eredmények: 5.28. ábra Megjelenítendő eremények kiválasztása A táblázatok a leíróstatisztikai adatokat és a korrelációs adatokat tartalmazza. A szimmetrikus korrelációs mátrixból kiolvasható, hogy a két változó között az r = -0.6993, ami negatív, erős 50

korrelációs kapcsolatra utal, összhangban a lineáris regressziónál tapasztalt eredményekkel. A korrelációs vizsgálatoknál nagyon fontos szempont, hogy az együtthatóra vonatkozó p < 0.05 vagyis szignifikáns legyen, mint jelen esetben (p<0.0001), mert csak ekkor fogadhatjuk el az r értékét valós kapcsolatot mutató értéknek. 5.29. ábra Scatter-plot ábra Az ábra alapján az összetartozó mérési pontok burkológörbéje egy ellipszis, ami szintén a lineáris kapcsolatra utal. Ez egy fontos szempont a lineáris korreláció használhatóságához. Megjegyzés: az outlier értékek maximálisan befolyásolhatják az r értékét. 51