PARS KÖNYVEK HU ISSN 1788-4349. 1. Pecsenye Katalin: Populációgenetika. 2006. Pars Kft., Nagykovácsi, 401 oldal, ISBN 963 06 0325 X



Hasonló dokumentumok
Korreláció és lineáris regresszió

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Segítség az outputok értelmezéséhez

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

y ij = µ + α i + e ij

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Adatok statisztikai értékelésének főbb lehetőségei

Hipotézis vizsgálatok

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Statisztika elméleti összefoglaló

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Normális eloszlás tesztje

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Több valószínűségi változó együttes eloszlása, korreláció

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

[Biomatematika 2] Orvosi biometria

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Varianciaanalízis 4/24/12

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Biomatematika 2 Orvosi biometria

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

Matematikai geodéziai számítások 6.

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Biostatisztika Összefoglalás

[Biomatematika 2] Orvosi biometria

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Regressziós vizsgálatok

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Normális eloszlás paramétereire vonatkozó próbák

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biostatisztika Összefoglalás

2012. április 18. Varianciaanaĺızis

[Biomatematika 2] Orvosi biometria

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

KÖVETKEZTETŐ STATISZTIKA

Gazdasági matematika II. Tantárgyi útmutató

Matematikai geodéziai számítások 6.

A leíró statisztikák

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Hipotézis vizsgálatok

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Biostatisztika VIII. Mátyus László. 19 October

Kísérlettervezés alapfogalmak

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Kettőnél több csoport vizsgálata. Makara B. Gábor

Bevezetés a hipotézisvizsgálatokba

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Biomatematikai Tanszék

Statisztikai alapfogalmak a klinikai kutatásban. Molnár Zsolt PTE, AITI

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Valószínűségszámítás összefoglaló

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Nemparametrikus tesztek december 3.

Többváltozós lineáris regressziós modell feltételeinek

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

18. modul: STATISZTIKA


Biometria gyakorló feladatok BsC hallgatók számára

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Hipotézisvizsgálat R-ben

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Statisztika Elıadások letölthetık a címrıl

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Logisztikus regresszió

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Mérési hibák

Biomatematika 2 Orvosi biometria

Valószínűségi változók. Várható érték és szórás

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

A Statisztika alapjai

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Kutatásmódszertan és prezentációkészítés

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A konfidencia intervallum képlete: x± t( α /2, df )

Átírás:

PARS KÖNYVEK HU ISSN 1788-4349 1. Pecsenye Katalin: Populációgenetika. 2006. Pars Kft., Nagykovácsi, 401 oldal, ISBN 963 06 0325 X 2. Reiczigel Jenő Harnos Andrea Solymosi Norbert: Biostatisztika nem statisztikusoknak. 2007. Pars Kft., Nagykovácsi, i-x + 455 oldal, ISBN 978 963 06 3736 7 Megrendelhető Pars Kft. 1245 Budapest, Pf. 1058 parskft@gmail.com 06-20-5752198

Reiczigel Jenő Harnos Andrea Solymosi Norbert BIOSTATISZTIKA nem statisztikusoknak Pars Kft., Nagykovácsi 2007

A könyv az Oktatási és Kulturális Minisztérium támogatásával, a Felsőoktatási Tankönyv- és Szakkönyv-támogatási Pályázat keretében jelent meg. Lektorok Lang Zsolt Kis János Borító: Németh János HU ISBN 978-963-06-3736-7 HU ISSN 1788-4349 Reiczigel Jenő Harnos Andrea Solymosi Norbert, 2007 Pars Kft., Nagykovácsi, 2007 Minden jog fenntartva, beleértve a mű bővített, illetve rövidített változatainak kiadási jogát is. A kiadó írásos engedélye nélkül sem elektronikus, sem hagyományos úton nem sokszorosítható, tárolható, illetve terjeszthető. Nyomdai munkálatok: Mondat Kft., Budapest

Tartalomjegyzék Előszó 1 Köszönetnyilvánítás........................... 4 Hogyan olvassuk ezt a könyvet?.................... 5 Szükséges előismeretek......................... 6 Jelölések, írásmód............................ 7 Ismerkedés az R-rel........................... 8 Hogyan olvassuk az R-kódokat?................... 9 1. Bevezetés 13 1.1. Miért tanuljunk statisztikát?.................. 13 1.2. Megjegyzések a példákhoz.................... 16 1.3. Hétköznapi valószínűségszámítás és statisztika........ 20 2. A statisztika alapfogalmai 23 2.1. Populáció és minta........................ 23 2.2. Leíró és induktív statisztika................... 27 2.3. Mintavételi módszerek...................... 29 2.4. Az adatok............................. 33 2.4.1. Adatmátrix......................... 33 2.4.2. Adattípusok, mérési skálák................. 35 2.4.3. Transzformációk, származtatott változók......... 39 2.4.4. Hiányzó értékek....................... 45 2.4.5. Kiugró értékek........................ 48 3. Egy kis valószínűségszámítás 51 3.1. Események, valószínűség..................... 51 3.2. Oddsz és logit.......................... 56 3.3. Relatív kockázat és esélyhányados............... 58 3.4. Valószínűségi változók...................... 60 3.4.1. Valószínűségi változók függetlensége............ 68

3.5. A statisztikában leggyakrabban használt eloszlások...... 68 3.5.1. A hipergeometrikus és a binomiális eloszlás....... 69 3.5.2. A Poisson-eloszlás...................... 74 3.5.3. A normális eloszlás..................... 77 3.5.4. További folytonos eloszlások................ 80 3.6. A valószínűségszámítás és a statisztika kapcsolata...... 82 4. Leíró statisztika 87 4.1. Táblázatok és ábrák....................... 87 4.1.1. Egy változó ábrázolása................... 88 4.1.2. Két változó együttesének ábrázolása........... 97 4.2. Mérőszámok, statisztikák.................... 103 4.2.1. Egy változó jellemzése................... 104 4.2.2. Két változó közötti összefüggés jellemzése........ 115 4.2.3. Asszociációs mértékek................... 118 4.2.4. Adattranszformációk hatása a statisztikai mérőszámokra 121 5. Becslés 123 5.1. Alapfogalmak........................... 124 5.1.1. Pontbecslés......................... 124 5.1.2. Intervallumbecslés...................... 126 5.1.3. Matematikai formalizmus................. 129 5.1.4. A mintaátlag néhány fontos tulajdonsága......... 131 5.1.5. Becslés pontossága..................... 132 5.2. Pontbecslések jósága....................... 135 5.2.1. Torzítatlanság........................ 135 5.2.2. Konzisztencia........................ 139 5.3. Eljárások pontbecslések készítésére............... 139 5.3.1. Behelyettesítéses becslés.................. 139 5.3.2. Maximum likelihood (ML) becslés............ 140 5.4. Eljárások konfidencia-intervallumok szerkesztésére...... 142 5.5. Több paraméter szimultán becslése............... 145 5.6. A szükséges mintaelemszám meghatározása becsléshez.... 147 6. Hipotézisvizsgálat 151 6.1. A statisztikai hipotézisvizsgálat alapgondolata........ 153 6.1.1. Az indirekt bizonyítás................... 154 6.1.2. A tudomány fejlődése.................... 155 6.1.3. Nullhipotézis és alternatíva................ 156 6.1.4. Döntés a nullhipotézisről.................. 159

6.2. A hipotézisvizsgálat technikai kérdései............. 163 6.2.1. Próbastatisztika....................... 164 6.2.2. A p-érték meghatározása.................. 166 6.2.3. Döntés a H 0 -ról p-érték nélkül............... 170 6.2.4. Egyszerű és összetett hipotézisek............. 174 6.2.5. Próba ereje......................... 177 6.3. További témák.......................... 182 6.3.1. Többszörös összehasonlítások............... 182 6.3.2. Tesztek és konfidencia-intervallumok........... 184 6.3.3. A szükséges mintaelemszám meghatározása....... 185 6.3.4. Paraméteres és nemparaméteres eljárások........ 187 7. Gyakran használt statisztikai próbák 193 7.1. Várható értékekre (populációátlagokra) vonatkozó próbák.. 194 7.1.1. Egy várható érték...................... 194 7.1.2. Két várható érték, független minták............ 196 7.1.3. Két várható érték, párosított minták........... 200 7.1.4. Kettőnél több várható érték................ 202 7.2. Varianciákra vonatkozó próbák................. 202 7.2.1. Egy variancia........................ 203 7.2.2. Két variancia, független minták.............. 203 7.2.3. Kettőnél több variancia, független minták........ 205 7.3. Eloszlásokra vonatkozó próbák................. 206 7.3.1. Egy eloszlás: illeszkedésvizsgálat.............. 206 7.3.2. Két változó együttes eloszlása: függetlenségvizsgálat... 212 7.3.3. Két vagy több eloszlás: homogenitásvizsgálat...... 218 7.4. Valószínűségekre (populációbeli arányokra) vonatkozó próbák 220 7.4.1. Egy valószínűség...................... 220 7.4.2. Két valószínűség, független minták............ 222 7.4.3. Két valószínűség, párosított minták............ 225 7.4.4. Kettőnél több valószínűség, független minták...... 226 7.5. Mediánokra vonatkozó próbák................. 227 7.5.1. Egy medián......................... 227 7.5.2. Két vagy több medián................... 229 7.6. Rangpróbák............................ 230 7.6.1. Wilcoxon-féle előjeles rangpróba.............. 231 7.6.2. Mann Whitney-féle U-próba................ 235 7.6.3. Kruskal Wallis-féle H-próba................ 238 8. Korrelációszámítás 241

8.1. A Pearson-féle korrelációs együttható............. 242 8.1.1. Hipotézisvizsgálat a Pearson-féle korrelációs együtthatóra vonatkozóan................. 244 8.2. Együtthatók monoton, de nem lineáris kapcsolatokra.... 245 9. Regressziószámítás 249 9.1. A regressziószámítás szokásos kérdésfeltevései......... 250 9.2. Véletlenség a magyarázó és a függő változóban........ 251 9.3. Mikor használjunk korreláció-, illetve regressziószámítást?.. 252 9.4. Egyszerű lineáris regresszió: I-es modell............ 253 9.4.1. Hipotézisvizsgálatok.................... 255 9.4.2. A determinációs együttható................ 257 9.4.3. Predikció a modellben................... 258 9.5. Origón átmenő regresszió.................... 261 9.6. Egyszerű lineáris regresszió: II-es modell............ 263 9.6.1. MA-regresszió........................ 263 9.6.2. SMA-regresszió....................... 263 9.7. Többszörös lineáris regresszió.................. 266 9.7.1. Hipotézisvizsgálatok.................... 269 9.8. További korrelációs mérőszámok................ 270 9.8.1. A többszörös korreláció és a determinációs együttható. 271 9.8.2. A parciális korreláció.................... 272 9.9. Multikollinearitás........................ 273 9.10. Regressziós diagnosztika..................... 276 9.10.1. Az illesztett modell jóságának vizsgálata......... 277 9.10.2. Alkalmazhatósági feltételek vizsgálata.......... 278 9.10.3. Kiugró értékek és torzító pontok.............. 281 9.10.4. Diagnosztikus ábrák.................... 289 9.11. Nemlineáris kapcsolatok..................... 290 9.11.1. Lineárisra visszavezethető regressziók........... 292 9.11.2. Példák változók transzformálásával végzett regressziókra 294 9.11.3. Lineárisra nem visszavezethető regressziók........ 301 10. Varianciaelemzés (ANOVA) 309 10.1. A számítások........................... 311 10.1.1. Varianciatábla (szórásfelbontás).............. 315 10.2. Csoportok páronkénti összehasonlítása............. 317 10.3. Többtényezős varianciaelemzés................. 320 10.4. Kísérleti elrendezések...................... 324 10.4.1. Véletlen blokkos elrendezés................. 324

10.4.2. Latinnégyzet-elrendezés.................. 326 10.5. Az ANOVA diagnosztikája................... 328 10.6. Kontrasztok............................ 328 11. Az általános lineáris modell 331 11.1. A fejezet példája......................... 331 11.1.1. A kísérlet rövid leírása................... 331 11.1.2. Exploratív elemzések.................... 333 11.2. Statisztikai modellek....................... 337 11.3. A modell felírása......................... 339 11.3.1. Példák különböző modellekre............... 340 11.3.2. Faktorok a lineáris modellben............... 341 11.4. A lineáris modell paramétereinek becslése.......... 352 11.4.1. A becsült értékek és a vetítő mátrix............ 353 11.5. Hipotézisvizsgálat........................ 354 11.5.1. A null- és a telített modell................. 354 11.5.2. Modell és részmodell összehasonlítása........... 355 11.5.3. Az összes magyarázó változó együttes tesztelése..... 356 11.5.4. Több változó szimultán tesztelése............. 358 11.5.5. Megjegyzések a modellek tesztelésével kapcsolatban... 358 11.6. A lineáris modellek alkalmazhatóságának feltételei...... 360 11.6.1. Linearitás.......................... 360 11.6.2. Kiugró és torzító pontok.................. 362 11.7. Modellválasztás.......................... 363 11.7.1. Mit értsünk a legjobb modellen?............ 364 11.7.2. A legszűkebb modell, amely nem különbözik szignifikánsan a teljes modelltől.............. 365 11.7.3. Információs kritériumok.................. 365 11.8. Modellszelekciós eljárások................... 367 11.8.1. Egyenkénti beléptetés.................... 367 11.8.2. Egyenkénti kihagyás.................... 368 11.8.3. Váltakozó beléptetés-kihagyás............... 368 11.9. Mikor használjuk az aov(), és mikor az lm() függvényt?................... 369 11.9.1. Négyzetösszegtípusok.................... 370 11.10. Többszörös összehasonlítások.................. 371 11.11. Kontrasztok az általános lineáris modellben.......... 374 11.11.1. Kontrasztok (általános lineáris hipotézisek) becslése és tesztelése.................... 375

12. Az R-nyelv és -környezet 385 12.1. Telepítés............................. 385 12.2. RGui............................... 387 12.3. A ConTEXT kódszerkesztő................... 388 12.3.1. Telepítés........................... 388 12.4. Első lépések az R-rel....................... 389 12.4.1. Függvények......................... 391 12.4.2. Csomagok.......................... 392 12.4.3. Súgó............................. 393 12.5. R-munkafolyamat........................ 397 12.6. Adatok olvasása és írása..................... 398 12.6.1. Munkakönyvtár....................... 398 12.6.2. Adatok olvasása....................... 398 12.6.3. Adatok írása......................... 400 12.7. Adattároló objektumok..................... 401 12.7.1. Vektor............................ 401 12.7.2. Mátrix............................ 402 12.7.3. Data frame-ek........................ 404 12.7.4. Lista............................. 405 12.7.5. Hivatkozás az objektumok elemeire............ 406 Függelék 415 A. Konfidencia-intervallumok képletei 415 A.1. Normális eloszlású változó átlaga................ 415 A.2. Két normális eloszlású változó átlaga közötti különbség... 416 A.3. Normális eloszlású változó varianciája, illetve szórása..... 419 A.4. Valószínűség (populációbeli arány)............... 420 A.4.1. Wald-féle intervallum.................... 420 A.5. Két valószínűség különbsége................... 422 A.6. Relatív kockázat......................... 423 A.7. Esélyhányados.......................... 424 B. Statisztikai táblázatok 427 Irodalomjegyzék 437 Példák listája 439 Tárgymutató 443

Előszó Könyvünk megírásához mind a motivációt, mind a tematikát a Szent István Egyetem Állatorvos-tudományi Karán tartott, közösen kidolgozott kurzusaink adták. Az anyag zöme a zoológia szakos hallgatóknak tartott Biomatematika II és Számítógépes statisztika kurzusainkon alapul, de felhasználtuk benne Kísérlettervezés, Regressziószámítás és Bevezetés az R-be PhD tanfolyamaink anyagát is. A könyvet elsősorban a bevezető statisztika kurzusok hallgatóinak szánjuk, hogy segítse őket az alapfogalmak és a legszükségesebb módszerek elsajátításában, valamint a statisztikai szemléletmód kialakításában. Mivel magunk is az élettudományok területén dolgozunk és oktatunk, példáinkat is főleg ilyen területekről vettük, ezért könyvünket valószínűleg a biológus, orvos, állatorvos és agrár szakos hallgatók forgathatják legtöbb haszonnal. A statisztika vizsgára készülő hallgatókon kívül jó szívvel ajánljuk a könyvet azoknak is, akiknek munkájukhoz szükségük van a statisztika alkalmazására, de bizonytalannak érzik magukat ezen a területen, vagy a statisztika logikáját a hétköznapi gondolkodástól idegennek érzik. Reméljük, hogy sikerül bebizonyítanunk, hogy a statisztikai gondolkodásmódban igenis van logika, s a hétköznapi életben a Kedves Olvasó is gyakran így gondolkodik, csak esetleg nem veszi észre. Arról is szeretnénk meggyőzni az olvasót, hogy a statisztika nem csupán szükséges rossz, hanem hasznos segítség annak megítélésében, hogy mennyire bízhatunk (vagy mennyire kell kételkednünk) egy kapott eredményben. Végül azt is szeretnénk bebizonyítani, hogy a statisztika nem varázslás, hanem bárki számára igaz, némi erőfeszítés árán elsajátítható. Könyvünk hasznos lehet azoknak a statisztikát jól ismerő és munkájukban rendszeresen használó kutatóknak is, akik szeretnének közelebbről megismerkedni az R programcsomaggal. Az R egy ingyenes, de ennek ellenére tökéletesen professzionális statisztikai programcsomag, amelyet mi magunk is egyre növekvő lelkesedéssel használunk mindennapi munkánkban. Az R nemcsak ingyenes volta miatt vonzó, hanem azért is, mert a statisztikai 1

2 Reiczigel Harnos Solymosi: Biostatisztika módszerek szinte végtelen választékát kínálja, és nagyon friss, tehát komoly esély van arra, hogy egy-egy vadonatúj statisztikai eljárás leghamarabb R- ben válik elérhetővé. A könyv írása során igyekeztünk megtalálni az egyensúlyt két véglet között: az egyik a receptkönyv, amely elmondja, hogy mit hogyan kell csinálni, de arról hallgat, hogy miért; a másik az elméleti matematikai statisztika tankönyv, amely gyakorlati problémák megoldásával egyáltalán nem foglalkozik. Egyensúlyt találni sohasem könnyű feladat, bizonyára helyenként nekünk sem sikerült, amiért előre elnézést kérünk az olvasótól. Egy olyan alkalmazott statisztika tankönyvet szándékoztunk írni, amely igyekszik a miérteket is megválaszolni, de ahol csak lehet szemléletesen, a matematikai részletek tárgyalása nélkül, lehetőleg minél kevesebb elvont definícióval és képlettel terhelve az olvasót. Inkább azt próbáljuk elmondani, hogy mi az a szemléletes tartalom, ami a definíciók és képletek mögött van, ami miatt ezek ilyen néha barátságtalan formát kell, hogy öltsenek. Az elméleti részeket pedig igyekeztünk minél több példával érthetővé tenni. Törekedtünk arra is, hogy a könyv megértéséhez elegendő legyen a középiskolai matematika anyag ismerete. Egyedül a mátrixokkal és vektorokkal kapcsolatos alapismereteket kell az olvasónak máshonnan elsajátítani: ezekre a könyv utolsó fejezeteinek megértéséhez lesz szükség. Ajánljuk például Freud Róbert: Lineáris algebra című könyvét (Eötvös Kiadó, 2005). Könyvünk honlapjáról (www.biostatkonyv.hu) is letölthető egy rövid összefoglaló a szükséges ismeretekről. Azoknak, akik a középiskolában nem tanultak valószínűségszámítást, vagy nehézségeik voltak vele, hasznos lehet egy bevezető valószínűségszámítási könyv előzetes tanulmányozása is (például Solt György: Valószínűségszámítás, Bolyai Könyvek sorozat, Műszaki Könyvkiadó, 2005). Van néhány dolog, amit bár nem lett volna ellenünkre mégsem tudtunk felvállalni. Tehát mit ne várjon a Kedves Olvasó a könyvünktől: Terjedelmi okokból lemondtunk a valószínűségszámítás részletes tárgyalásáról, csak egy néhány oldalas összefoglalóban ismertetjük a legszükségesebb fogalmakat. Mentségünkre szolgál, hogy a magyar szakkönyvpiacon valószínűségszámításból nagyobb a választék mint statisztikából, R-es bevezető statisztika könyv pedig egyáltalán nincsen; mi elsősorban ezt a hiányt szerettük volna pótolni. A matematikai precizitásból a legtöbb helyen engedtünk, amiért a matematikusoktól elnézést kérünk. Több definíción a könnyebb érthetőség kedvéért egyszerűsítettünk, vagy csak szemléletes definíciót adtunk. Ilyenkor megjegyzésben vagy apró betűs részben utalunk arra, hogy eltértünk a matematikai statisztikában szokásos definíciótól.

Előszó 3 Egy-egy mondatnyi megjegyzéstől eltekintve egyáltalán nem foglalkozunk a bayesi statisztikával. Egyrészt terjedelmi okokból, másrészt azért, mert a statisztikával most először ismerkedők helyzetét nem akartuk azzal nehezíteni, hogy egyszerre két különböző szemléletmódot tárunk eléjük. Mentségünkre szolgál, hogy bayesi statisztika a bevezető kurzusok legtöbbjében egyáltalán nem, vagy legfeljebb csak az említés szintjén szerepel. Az R szinte végtelenül gazdag lehetőségeinek bemutatása is meghaladja e könyv lehetőségeit. Ha a Kedves Olvasó az R-et már valamennyire tudja használni, akkor speciális problémáira a túléléselemzéstől kezdve a genomikáig az interneten nagyon sok kész R csomagot (értsd: kész programokat) találhat, amelyekhez készítőik részletes leírást is mellékeltek. Teljességre törekedni már csak azért is lehetetlen volna, mert az R-es közösség tagjainak munkája révén nap mint nap új R-csomagok készülnek. (A kézirat lezárásakor az elérhető csomagok száma meghaladja a 900-at!) Lehet, hogy az R lelkes felhasználójává válván, egyszer majd a Kedves Olvasó is közzétesz egy saját fejlesztésű csomagot. Könyvünk a kézi számoláshoz szükséges képletek közül csak a legalapvetőbbeket tartalmazza, lényegében csak azokat, amelyek a bevezető kurzusokon a feladatok megoldásához kellenek. Ma már a számítógépes programok alkalmazása mentesít a képletekkel való számolástól. A mai felhasználónak inkább azzal kell tisztában lennie, hogy mikor melyik módszert alkalmazhatja, mik a módszer alkalmazhatósági feltételei, és hogy hogyan értelmezze az eredményeket, mintsem a számítások részleteivel. Mégis, elsősorban a bevezető kurzusok hallgatóira gondolva, a legfontosabb képletek alkalmazására bemutatunk néhány kézi számolásos példát is. Hasonló a helyzet egyes klasszikus módszerekkel: a gyakorlatban már sohasem használjuk őket, mert ma már vannak sokkal hatékonyabb módszerek is, de a könyvből nem akartuk kihagyni, mert a bevezető kurzusokon elsősorban didaktikai okokból mégis ezeket tanítjuk. Az eljárásokat ismertető eredeti közleményekre nem hivatkozunk, csak azt az R-függvényt adjuk meg, amellyel az eljárást végrehajthatjuk. Ha valakit az eljárások elméleti háttere érdekel, akkor azt ajánljuk, hogy az R-függvény leírásában (súgó) szereplő hivatkozásból induljon ki. Ezenkívül az irodalomjegyzékben megadunk néhány alapművet, amelyekben sok módszer részletes leírása megtalálható. A könyv kézirata a TEX szövegszerkesztő rendszer MiKTeX 2.5 implementációjában készült (http://www.miktex.org). Felhasználtuk Fritz Leisch

4 Reiczigel Harnos Solymosi: Biostatisztika Sweave rendszerét (http://www.ci.tuwien.ac.at/ leisch/sweave), amellyel a TEX és R-kódokat együtt tudtuk kezelni. Könyvünk honlapjának címe: www.biostatkonyv.hu, ahol a Kedves Olvasó a könyvben szereplő példák R-kódjait, további segédanyagokat és programokat találhat. Olvasóink visszajelzéseit is szívesen fogadjuk a honlapon megadott e-mail címen. Kérjük, hogy ha hibát találnak, mielőbb írják meg, mert a honlapon egy on-line hibajegyzék is elérhető! Köszönetnyilvánítás Ezen könyv megszületése bár csak három szerző jegyzi nagyon sokak munkájának, biztatásának, lelkesedésének köszönhető. Hálánk jeléül felsoroljuk azokat, akik tevőlegesen hozzájárultak a könyv létrejöttéhez, tudva azt, hogy rajtuk kívül még sokakat felsorolhatnánk. A könyv lektorálásában részt vettek: Lang Zsolt, Kis János, Kiss Alexa, Abonyi-Tóth Zsolt, Lőkös László, Valcz Gábor, Maróti-Agóts Ákos, Szőke Dominika, Speiser Ferenc, Lakos András. Akiknek az adatait felhasználhattuk a példákhoz: Takács Erzsébet, Székely Tamás, Kis János, Peregovits László, Kőrösi Ádám, Mándoki Míra, Nagy Péter, Kabai Péter. Sokan támogatták erőfeszítéseinket azzal, hogy olyan körülményeket teremtettek nekünk, amelyek lehetővé tették a könyv megírását: Fodor János, Fodor László, Harnos Zsolt, Kövér Szilvia, Demeter Márton, Szabó Gabriella. Akik biztattak minket: Kis János, Varga Zoltán, Izsák János, Papp Péter László, Rózsa Lajos, Barta Zoltán, Pénzes Zsolt, Miklósi Ádám, Boda Krisztina és még sokan mások. És természetesen hálával tartozunk családtagjainknak Szekeres Zsuzsának, Dala Sárának, Vattay Gábornak, Enikőnek, Gergőnek és Daninak azért, hogy elviselték a könyvírás nehéz időszakát. Könyvünk az Oktatási és Kulturális Minisztérium támogatásával, a Felsőoktatási Tankönyv- és Szakkönyvtámogatási Pályázat keretében jelent meg, és a T049157 számú OTKA pályázat támogatásával készült. SZIE ÁOTK Biomatematika Tanszék és BCE-MTA Alkalmazkodás a klímaváltozáshoz kutatócsoport, Budapest, 2007. június 20. Reiczigel Jenő Harnos Andrea Solymosi Norbert

Hogyan olvassuk ezt a könyvet? Hogyan olvassuk ezt a könyvet? 5 Könyvünk minden fejezetének hasonló a szerkezete. Valamennyi témát egy általános bevezetővel kezdünk, majd az elmélet ismertetésével és példákkal való illusztrálásával folytatjuk. Az elméleti magyarázatok néha apró betűs részeket is tartalmaznak. Ezek olyan megjegyzések vagy kiegészítések, amelyek a téma megértéséhez nem elengedhetetlenek, valamiért mégis fontosnak tartottuk megemlíteni őket. Az apró betűs részeket az olvasó akár át is ugorhatja, ez a megértést nem gátolja. A példáknak három fajtája van: Csupán az elmélet illusztrálását szolgáló példák, ezekkel az olvasónak nincs más teendője, csak az, hogy igyekezzék megérteni őket. E példák célja, hogy segítségükkel az elméleti definíciókat szemléletes tartalommal töltsük meg. Érdemes ezeken úgy végigmenni, hogy pontról pontra megnézzük, hogy az előzőekben definiált fogalmak minek felelnek meg a példában. Kézi számolással megoldható példák, amelyeket hasznos lenne, ha az olvasó maga is végigszámolna. Sokszor csak így derül ki ugyanis, hogy a módszer egyes részleteit is jól érti-e. A bevezető kurzusok hallgatóinak a példák végigszámolása a statisztika dolgozatra való felkészülés részeként mindenképpen ajánlatos. R-es példák, amelyeket ha a Kedves Olvasó járatos az R-ben, vagy meg szeretné tanulni a használatát mindenképpen hasznos lenne, ha kipróbálna. Az R telepítéséhez szükséges tudnivalókat lásd Az R- nyelv és -környezet (12.) fejezetben. A példák kipróbálásához segítség a könyv honlapja, ahonnan a könyvben szereplő R-kódok (= utasítások, programok) letölthetők. Azt ajánljuk azonban, hogy a Kedves Olvasó sajátkezűleg is írjon R-kódokat, mert ha csak a könyv honlapján találtakat másolja le és futtatja, akkor egyes fontos részletek (zárójelek, határoló jelek, matematikai műveleti jelek, kis- és nagybetűk használata stb.) könnyen elkerülhetik a figyelmét. A könnyebb visszakereshetőség kedvéért a példáknak nevet adtunk, és ha ugyanaz a példa különböző összefüggésekben többször is előkerül, a név eleje megegyezik (például Elléstől az ovulációig eltelt idő előjelpróba és Elléstől az ovulációig eltelt idő Mood-féle mediánpróba ). A példák listáját megadjuk a könyv végén (439. oldal). A példákban szereplő R-függvényeknek mindig csak azokat a paramétereit ismertetjük, amelyeknek a szóban forgó példában szerepük van. A függvényeknek általában sokkal több paramétere van, amelyeknek az R súgójában lehet utánanézni. Ha egy példában valaminek a jelentése vagy hasz-

6 Reiczigel Harnos Solymosi: Biostatisztika nálatának módja nem derül ki egyértelműen, akkor is az R súgóját ajánljuk, ahol általában további bemutató példákat találhatunk. Az ábrákhoz tartozó R-kódokat nyomdatechnikai és tördelési követelmények miatt esetenként meg kellett változtatnunk. Az ilyenkor alkalmazott különleges beállítások kezdők számára érdektelenek, és valószínűleg értelmezhetetlenné tennék a kódokat, ezért ezek ismertetésétől eltekintünk. Természetesen csak formai különbségekről van szó, az ábrák tartalma megegyezik a közölt R-kódokból előállítható ábrákéval. A hagyományos számoláshoz a Függelékben eloszlástáblázatokat (standard normális, Student-féle t, khi-négyzet és F ) és egy véletlenszám-táblázatot is közlünk. Szükséges előismeretek A teljes középiskolai matematika anyag ismeretét feltételezzük, de néhány fejezetet külön is kiemelünk, mert ezek ismeretét különösen fontosnak tartjuk. Egyik ilyen fejezet a logika. Érteni kell, hogy mit jelent az, hogy egy állításból logikailag következik egy másik állítás. Tisztában kell lenni azzal, hogy mit jelentenek és mikor igazak az és -sel, illetve vagy -gyal képzett összetett állítások és a ha-akkor típusú kijelentések. Azt is tudni kell, hogy hogyan képezhetjük az ilyen összetett állítások tagadását. Ismerni kell a halmazműveleteket: a metszetet, egyesítést és a komplementer halmaz képzését. Ismerni kell a kombinatorika alapfogalmait, de legalább a faktoriális jelölést: 5! = 1 2 3 4 5, k! = 1 2 k és a binomiális együtthatókat: ( ) 8, 3 ( ) n = k n! k! (n k)!. Tudni kell hatványokkal és logaritmussal számolni, ismerni kell a természetes alapú ( e alapú: ln) logaritmust is. Reméljük, hogy valószínűségszámításból a középiskolás anyag kiegészítve a könyv valószínűségszámítás fejezetével elegendő a további részek megértéséhez. Az utolsó fejezetekhez szükség lesz a mátrixokkal kapcsolatos alapismeretekre is, ezek azonban nem haladják meg a biológus, állatorvos stb. szakosok bevezető matematika előadásaiban foglaltakat.

2.2. Leíró és induktív statisztika 2.2. Leíró és induktív statisztika 27 A leíró statisztika (descriptive statistics) a statisztikának az az ága, amelyik az adatokban rejlő információ emészthető formában való tálalásával foglalkozik. Ez jelentheti az adatok rendezését, csoportosítását (táblázatok), megjelenítését (grafikonok, diagramok, piktogramok), illetve statisztikai mérőszámokkal való jellemzését (minimum, maximum, átlag, szórás stb). A leíró statisztika azért fontos, mert nagy adatmennyiségek több ezer adat esetén hiába tennénk közzé az összes számot, közönséges halandó úgysem tudna mit kezdeni vele. A leíró statisztika eszközei a különféle táblázatok (table), diagramok (chart, plot, diagram) és statisztikai mérőszámok (statistic). Az első kettőre példa a 2.1. táblázat és a 2.1. ábra, a statisztikai mérőszámokat pedig egyszerűen a szövegben szokás közölni, például így: A mintában a testmagasság és a testtömeg között szoros összefüggést találtunk (Pearsonféle korrelációs együttható: r = 0.53). Az ábrák információgazdagságának szép példája a népességtudományban használatos korfa, amely nem és kor szerinti bontásban szemlélteti a populáció összetételét (2.2. ábra). Tipikus a leíró statisztika használata akkor, amikor teljeskörű adatfelvétel történik, például népszámlálási vagy választási adatok, bejelentési kötelezettséggel járó fertőző betegségek esetén, vagy ha egy vizsgált állattartó telepen valamennyi állat adatai rendelkezésre állnak stb. Már említettük azonban, hogy legtöbbször nincs módunk a teljes populációt megvizsgálni, ezért kénytelenek vagyunk csupán egy minta vizsgálatából levonni a populációra érvényes következtetéseket. Ekkor lép színre az induktív statisztika (statistical inference) az induktív szónak az általánosító értelmében (mint az egyediből az általánosra való következtetés). Természetes, hogy egy ilyen következtetéstől nem várjuk el, hogy 100% biztonsággal helyes legyen, csak azt, hogy nagy valószínűséggel, ami általában szakterülettől függően 90, 95 vagy 99%-os megbízhatóságot, azaz 10, 5 vagy 1% tévedési valószínűséget jelent. A megbízhatóság, illetve a tévedési valószínűség pontos jelentését nem könnyű megérteni. A legegyszerűbb, ha úgy gondolunk rá, hogy ha sokszor alkalmazzuk a szóban forgó módszert, akkor várhatóan az esetek hány százalékában kapunk helyes, illetve téves eredményt. Az induktív statisztika két legjellemzőbb feladata a becslés (estimation) és a hipotézisvizsgálat (hypothesis testing). A becslés a Mennyi? Mekkora? Hány százalék? stb. kérdésekre vár választ, mégpedig egy (vagy néhány) számot. A hipotézisvizsgálatban ezzel szemben Igen/Nem választ

28 Reiczigel Harnos Solymosi: Biostatisztika 2.1. táblázat. Testmagasság és testtömeg összefüggésének ábrázolása táblázattal Testtömeg Testmagasság < 80 kg 80 kg < 175 cm 243 75 175 cm 267 415 160 170 180 190 50 60 70 80 90 100 110 Magasság (cm) Testtömeg (kg) 2.1. ábra. Testmagasság és testtömeg összefüggésének ábrázolása szórásdiagrammal várunk az Igaz-e? Fennáll-e? Van-e összefüggés...? Van-e hatása...? Van-e különbség...? stb. kérdésekre. A leíró és induktív statisztika nem mindig választható szét élesen. Amikor több ezres mintákkal dolgozunk, akkor már a minta jellemzéséhez is szükség van a leíró statisztika módszereire, bár a fő cél ilyenkor is a populációra érvényes következtetések levonása, amelyhez az induktív statisztika szükséges. Másfelől kis minták esetén is előnyös a leíró statisztika módszereinek különösen a grafikus megjelenítésnek az alkalmazása azért, hogy az információkat szemléletesebben, illetve hatásosabban tudjuk közölni. Az induktív statisztikai vizsgálatokban azért is fontosak a leíró statisztika módszerei, mert segítségükkel jobban átláthatjuk adatainkat, észrevehetjük olyan tulajdonságaikat, amelyek döntően befolyásolják az elemzésükhöz legmegfelelőbb módszerek kiválasztását.

2.4. Az adatok 2.4. Az adatok 33 Egy kutatási kérdés felvetődésétől általában több lépésen és nagyon sok fáradságon keresztül vezet el az út addig, amíg a vizsgálat adatai összeállnak. Ilyen lépések a kutatási kérdés pontosítása, operacionalizálása (= mérhető formában való megfogalmazása), a megválaszolásához szükséges mérési módszerek megválasztása vagy kidolgozása, a vizsgálat részleteinek megtervezése, a megfigyelési egységek kiválasztása, esetleges előkísérletek stb. Ezekkel a kérdésekkel most nem kívánunk foglalkozni, csak annyit jegyzünk meg, hogy ezek mind a kísérlettervezés (experimental design, study design) vagy a kutatásmódszertan, illetve kutatástervezés (research methodology, research planning) témakörébe tartoznak. A vizsgálat elvégzése után az összegyűlt adatokat hagyományosan papíron tárolták, manapság pedig a számítógépen, általában valamilyen táblázatkezelő program segítségével (Lotus, Excel, Calc stb.). Mivel a táblázatkezelő programok a kockás papírt utánozzák, az emberek a számítógépes tárolásra is ugyanolyan formát szoktak választani, mint ha papírra írnának, azaz amely a legkevesebb írásmunkával jár, és a szemnek is a legáttekinthetőbb. Általában több kisebb, jól áttekinthető táblázatba csoportosítják az adatokat, kerülik az ismétlést, ismétlődő adatokat inkább fejlécbe tesznek, fontos adatokat színekkel, kiemelésekkel, magyarázó szövegekkel jeleznek. Sajnos a statisztikai programok másképp sokkal egyszerűbben, mondhatni egészen bután gondolkodnak, számukra az egyetlen érthető forma a legegyszerűbb, csoportosítás és kiemelések nélküli elrendezés, egyetlen fejléccel, egyes adatokat akár ezerszer is megismételve: ez az úgynevezett adatmátrix (2.2. táblázat). 2.4.1. Adatmátrix Az adatmátrix (data matrix) az R-ben data frame a neve egy olyan táblázat, amelynek minden sora egy megfigyelési egységnek (személy, állat, vérminta stb.), oszlopai pedig az egyes mért vagy megfigyelt adatoknak (kor, nem, testtömeg stb.) felelnek meg. A sorokat eseteknek (case), az oszlopokat változóknak (variable) nevezzük. Ezt a szokásos elrendezést és elnevezéseket azért kell ismernünk, mert a statisztikai programok legtöbbje így az R is az elemzendő adatokat ilyen formában várja, az eredmények kiírásakor pedig rendszerint a case és variable elnevezéseket használja. A továbbiakban a megfigyelési egység helyett mi is legtöbbször a rövidebb eset elnevezést fogjuk használni, a megfigyelési egységeken mért adat helyett pedig változó -t mondunk. Célszerű az

34 Reiczigel Harnos Solymosi: Biostatisztika 2.2. táblázat. Táblázat ugyanazokról a kísérleti adatokról, ahogy a táblázatkezelőben saját magunk számára elrendeznénk (a), és ahogy a statisztikai programok várják (b). Az ID az állat egyedi azonosítója (identifier) (a) (b) adatmátrixot úgy elkészíteni, hogy első sora a változók nevét tartalmazza, mert az R ezeket a neveket át tudja venni, és később a változókra az R-ben is ezekkel a nevekkel hivatkozhatunk. Arra is van mód, hogy az adatmátrix valamelyik oszlopa az esetek nevét vagy azonosítóját tartalmazza. Adatok adatmátrix formában való elrendezésére példát mutat a 2.2. (b) ábra. Az adatok lehetnek akár számértékek, akár szöveges adatok, akár kódok. A kódok olyan értékek, amelyek csak azonosításra szolgálnak: legyenek bár számok, akkor sem számolhatunk velük: ilyen például a 2.2. (b) ábrán az ID nevű változó. Ha az adatbevitelt táblázatkezelő programmal végeztük, és az adatokat már a fenti az adatmátrixnak megfelelő formában rendeztük el, akkor csak az a kérdés, hogy hogyan tudjuk ezt az R-nek átadni. Erre egy egyszerű

6.1. A statisztikai hipotézisvizsgálat alapgondolata 161 A p-értéket szignifikanciaszintnek (significance level) is nevezik, sokszor a számítógépes programok is ezen a néven közlik. Akkor mondjuk, hogy egy mintában megfigyelt tulajdonság (különbség, összefüggés stb.) statisztikailag szignifikáns, ha túlmegy azon a mértéken, amit még nyugodt lélekkel a véletlen számlájára írhatnánk. Egy szignifikáns eredmény arra enged következtetni, hogy a mintában megfigyelt különbség, összefüggés stb. nemcsak a mintában, hanem a populációban is fennáll. A p-érték definíciójából következik, hogy azok az eredmények szignifikánsak, amelyekhez kis p-érték tartozik. Hagyományosan a határ 5%, azaz ha p 0.05, akkor szokás azt mondani, hogy az eredmény szignifikáns. Ha ezt a szabályt követjük, vagyis a H 0 -t akkor vetjük el, ha p 0.05, akkor a döntésünk elsőfajú hibájának valószínűsége 5% lesz: az igaz nullhipotézisek 5%-át fogjuk tévesen elvetni. De el is szabad térni az 5%-tól: egyes területeken az 1%-os határ a szokásos. Hogy semmiképp ne legyen félreérthető, fogalmazhatunk úgy is, hogy az eredmény 5%-os szinten szignifikáns. 6.6. példa. Sertések hizlalása hipotézisvizsgálatok Egy kísérletben sertések hizlalásához új táplálék-kiegészítőt próbáltak ki. Húsz állat kapta a táplálék-kiegészítőt, átlagos testtömeg-növekedésüket húsz kontroll állatéval hasonlították össze. A kérdés az volt, hogy nagyobb-e a testtömeg növekedése a kísérleti csoportban. A hipotéziseket az átlagos testtömeg-növekedéssel fogalmazták meg. H 0: a testtömeg-növekedés átlaga a két csoportban azonos, H 1: a testtömeg-növekedés átlaga a táplálékkiegészítővel kezelt csoportban nagyobb. Az átlagok összehasonlítását R-rel, a t-próba Welch-féle változatával végezték, amely nem követeli meg a két csoportban a varianciák egyenlőségét. A próba részleteiről lásd a 7.1.2. fejezetet; most csak annyit szeretnénk bemutatni, hogyan döntünk a H 0-ról a p-érték alapján egy R-es elemzésben. A két csoportban mért testtömeg-növekedés értékeket a tt.kiserleti és a tt.hagyomanyos változók tartalmazzák. A megfelelő R-kód és output: > t.test(tt.kiserleti, tt.hagyomanyos, alternative = "greater") Welch Two Sample t-test data: tt.kiserleti and tt.hagyomanyos t = 2.3834, df = 37.223, p-value = 0.01118 alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval: 3.025102 Inf sample estimates: mean of x mean of y 84.6067 74.2559

232 Reiczigel Harnos Solymosi: Biostatisztika Nulleloszlás: Saját neve nincsen, de kis mintaelemszámokra kiszámolták, és a kritikus értékeket táblázatba foglalták. Figyelem, az ilyen táblázatok csak akkor használhatók, ha nincsenek kapcsolt rangok! Ebben a könyvben nem közöljük a táblázatokat, inkább az egzakt tesztet végző R- függvényeket ajánljuk, mert akkor a kapcsolt rangoktól függetlenül mindig pontos eredményt kapunk. n(n+1)(2n+1) 24 paramé- A nulleloszlást hagyományosan a µ = n(n+1) 4, σ = terű normális eloszlással szokták közelíteni nagyobb mintákra, a kritikus értékeket ebből számolják. 7.16. példa. Vásárlások egy boltban Wilcoxon-féle előjeles rangpróba Egy boltban egy óra alatt 10 vevő vásárolt, mégpedig az alábbi értékben (az értékek ezer forintban). Vizsgáljuk meg a Wilcoxon-féle előjeles rangpróbával, vajon az adatok ellentmondanak-e annak a hipotézisnek, hogy az összegek eloszlásának középértéke eléri a 9 ezer forintot! H 0 : med = 9 H 1 : med < 9 Összegek 1.4 3.3 5.0 5.0 6.2 7.5 10.1 10.5 13.0 18.1 Eltérések -7.6-5.7-4.0-4.0-2.8-1.5 1.1 1.5 4.0 9.1 Rangok 9 8 6 * 6 * 4 2.5 1 2.5 6 * 10 * Egyenlőség esetén mindegyik érték az összesen rájuk jutó rangok átlagát kapja (kapcsolt rangok). A pozitív eltérésekhez tartozó rangok összege 19.5. (Vegyük észre, hogy a pozitív és negatív eltérésekhez tartozó rangösszegek együtt éppen 1 + 2 +... + n = n(n + 1)/2-t kell hogy kiadjanak, ahol n a mintaelemszám: jelen esetben 19.5 + 35.5 = 55!) Ha papíron számolunk, akkor a kapcsolt rangok miatt a normális közelítést kell alkalmaznunk, vagyis a 19.5-öt a µ = 10 11/4 = 27.5 várható értékű és σ = 10 11 21/24 = 9.81 szórású normális eloszláshoz kell hasonlítanunk. Egyoldali ellenhipotézisünk van, és a statisztika az ellenhipotézis irányába mutat, tehát a döntéshez a statisztikát a nulleloszláshoz kell viszonyítanunk. A p-érték meghatározásához a standard normális eloszlás táblázatából a 19.5 27.5 /9.8 = 8/9.81 = 0.82 értékhez tartozó valószínűségre van szükségünk: innen p = 0.2061. Szokás úgynevezett folytonossági korrekciót is alkalmazni, ami azt jelenti, hogy a statisztika számlálóját 0.5-tel csökkentjük. Ennek hátterében az áll, hogy nem akarjuk, hogy az elvártnál nagyobb valószínűséggel vessük el a nullhipotézist csupán azért, mert a statisztika diszkrét, mégis egy folytonos eloszláshoz viszonyítjuk. A korrekcióval tehát mindig konzervatívabbá tesszük a próbát, mint amilyen anélkül volna (vö. a Yates-féle korrekcióval a khi-négyzet-próbáknál, 216. oldal) A példában folytonossági korrekció alkalmazása esetén a standard normális táblázatból a 7.5/9.81 = 0.76 értékhez tartozó valószínűséggel számolunk, ahonnan p = 0.2236. Az R-es megoldás:

9.6. Egyszerű lineáris regresszió: II-es modell 265 Jobb szárnyhossz (mm) 115 110 105 100 OLS MA SMA 27 28 29 30 31 Jobb csüdhossz (mm) 9.6. ábra. Széki lilék jobb szárny- és csüdhossz adataira különböző módszerekkel illesztett egyenesek > (MAreg <- line.cis(jszarny, jcsud, data = lile, method = "MA")) coef(ma) lower limit upper limit elevation -189.38816-368.363733-10.41260 slope 10.30333 6.409992 25.79555 > (SMAreg <- line.cis(jszarny, jcsud, data = lile, method = "SMA")) coef(sma) lower limit upper limit elevation 18.483593 3.819370 33.14782 slope 3.099800 2.633388 3.64882 Jól látható, hogy mekkora az eltérés az együtthatók becslései között. Még látványosabb a különbség, ha ábrázoljuk az illesztett egyeneseket (11.13 ábra). Az abline() függvény argumentumába be kell írni a regressziók eredmény objektumainak (amelyek listák) megfelelő elemeit (y tengelymetszet és meredekség). A legend() függvénnyel adott pozícióba (első két argumentum) cimkéket helyeztünk el az ábrán. > with(lile, plot(jcsud, jszarny, main = "", + xlab = "Jobb csüdhossz (mm)", + ylab = "Jobb szárnyhossz (mm)")) > abline(olsreg[[1]][1], OLSreg[[1]][2], lty = 1) > abline(mareg[[1]][1], MAreg[[1]][2], lty = 2) > abline(smareg[[1]][1], SMAreg[[1]][2], lty = 3) > legend(30, 102, lty = 1:3, legend = c("ols", "MA", "SMA"), bty = "n") Ha feltehetjük, hogy a csüd- és szárnyhossz relatív szórása (szórás/átlag) azonos, akkor az SMA-módszert válasszuk!

362 Reiczigel Harnos Solymosi: Biostatisztika Nézzük meg a reziduum-becsült érték szórásdiagramot (11.12. (a) ábra)! > plot(ozmod, 1, pch = 20) Az ábra alapján lehetnek kétségeink a linearitást illetően. Készítsünk a TESTH kovariánsból egy nominális változót (faktort) a cut() függvény segítségével! Argumentumként meg kell adni a folytonos változót, azt, hogy hol legyenek a kategóriák határai (breaks), majd azt, hogy a kategóriákat hogyan címkézzük (opcionális). Most összesen három kategóriát képezünk (a kicsi, közepes és nagy őzeknek megfelelően). > oz$testhfaktor <- cut(oz$testh, breaks = c(50, 80, 110, 130), + labels = c("kicsi", "közepes", "nagy")) > ozmodkat <- lm(tomeg ~ SEX + TESTH + TESTHfaktor, data = oz) > anova(ozmodkat) Analysis of Variance Table Response: TOMEG Df Sum Sq Mean Sq F value Pr(>F) SEX 1 162 162 32.76 9.8e-08 *** TESTH 1 5120 5120 1036.71 < 2e-16 *** TESTHfaktor 2 74 37 7.49 9e-04 *** Residuals 106 524 5 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Az új faktor hatása szignifikáns, ami igazolta azt a gyanúnkat, hogy linearitási problémáról van szó. Nézzük meg a reziduum-becsült érték szórásdiagramot (11.12. (b) ábra): > plot(ozmodkat, 1, pch = 20) Láthatóan megszűnt a linearitási probléma. 11.6.2. Kiugró és torzító pontok Általánosságban elmondhatjuk, hogy ugyanazok érvényesek itt is, mint a regressziószámításban (9.10. fejezet). A hatóerő számítása a vetítő mátrixból (H) történik. Bebizonyítható, hogy az i-edik megfigyelés hatóereje éppen egyenlő a vetítő mátrix főátlójában álló i-edik értékkel. A hatóerőt (hat value) h i a hatvalues() függvénnyel számíthatjuk ki R-ben. Tulajdonságai: Az átlagos hatóerő: h = p/n, ahol p a paraméterek, n a megfigyelések száma. A hatóerők 1/n és 1 közé esnek.

11.7. Modellválasztás 363 (a) (b) Residuals 8 6 4 2 0 2 4 6 70 83 55 Residuals 8 6 4 2 0 2 4 70 583 0 5 10 15 20 25 0 5 10 15 20 25 30 Fitted values Fitted values 11.12. ábra. A reziduumok a becsült értékek függvényében a testhossz-kategóriák nélkül (a), és a testhossz-kategóriákkal (b) illesztett modellek esetén Egyszerű lineáris regresszió esetén a hatóerő az X értékek átlagától mért távolságot méri (ld. 283. oldal): h i = 1 n + (x i x) 2 n j=1 (x j x) 2. Többszörös regresszió esetén az X-ek átlagvektorától való távolságot méri. Arra nézve, hogy mikor tekinthetünk egy hatóerőt jelentősnek, nincs egzakt szabály. Általában azt mondhatjuk, hogy akkor kell odafigyelni, ha értéke meghaladja az átlagos hatóerő kétszeresét, azaz h i > 2 p/n. Sajnos nagy minták esetén ez a szabály nem igazán működik. Torzító pont esetén vele és nélküle is tanácsos illeszteni a modellt publikáció esetén ez általában elvárás. Így egyszerűen követhető a torzító pont hatása. 11.7. Modellválasztás Előfordulhat exploratív, előkészítő elemzés (vagy rosszul tervezett vizsgálat!) esetén, hogy bizonytalanok vagyunk abban, hogy mely változókat vonjuk be a modellbe. A következőkben felsorolt eljárások és kritériumok ilyen esetekben segíthetnek. Mindig van egy legbővebb (keret- vagy referencia-) modell, amelyik az összes reménybeli magyarázó változót tartalmazza (beleértve a szóba jöhető hatványaikat és interakcióikat is). Így minden potenciális modell úgy tekinthető, mint ennek a legbővebb modellnek a leszűkítése.

Példák listája 2.1. Véletlen számok mintavételhez................... 30 2.2. Matek osztályzatok gyakorisági táblázat............ 36 2.3. Testtömeg-index kiszámítása R-rel................ 40 2.4. Studentizált értékek kiszámítása R-rel.............. 44 2.5. Rangok kiszámítása R-rel..................... 45 2.6. Elsőéves hallgatók testmagassága kiugró értékek....... 49 3.1. Relatív kockázat és esélyhányados kapcsolata.......... 59 3.2. Kockadobás............................. 61 3.3. Hányadik dobásra jön ki először fej................ 62 3.4. Balkezesek száma hipergeometrikus eloszlás.......... 69 3.5. Balkezesek száma hipergeometrikus eloszlás, dhyper() függvény......................... 70 3.6. Balkezesek száma binomiális eloszlás.............. 71 3.7. Balkezesek száma binomiális eloszlás, dbinom() függvény.. 73 3.8. Hipergeometrikus eloszlás közelítése binomiálissal........ 73 3.9. Percenkénti hívásszámok a mentőknél Poisson-eloszlás.... 76 3.10. Számolás eloszlásfüggvényekkel.................. 81 4.1. Kocák alomszáma gyakoriságtáblázat és oszlopdiagram.... 88 4.2. Inszeminálások száma gyakoriságtáblázatok és diagramok.. 89 4.3. Kontingencia tábla......................... 98 4.4. Regressziós kurzus hallgatóinak adatai szórásdiagramok... 100 4.5. Regressziós kurzus hallgatóinak adatai boxplot és átlag ± szórás.......................... 102 4.6. Átlagszámítás............................ 105 4.7. Súlyozott átlag kiszámítása.................... 106 4.8. Trimmelt átlag kiszámítása.................... 108 4.9. Variancia kiszámítása........................ 110 4.10. Medián abszolút eltérés (MAD) kiszámítása........... 112 4.11. Szarvasmarhák testtömege szórás és relatív szórás....... 113 4.12. Elsőéves hallgatók testmagassága kvartilisek.......... 114 439

Irodalomjegyzék 441 7.7. Kutyák daganatai függetlenség esetén várt gyakoriságok... 215 7.8. Kutyák daganatai khi-négyzet-próba R-rel........... 215 7.9. Kutyák daganatai khi-négyzet-próba papíron számolva.... 216 7.10. Kutyák daganatai Fisher-féle egzakt próba R-rel....... 217 7.11. Szabályos-e az érme próbák R-rel................ 221 7.12. Valószínűségek összehasonlítása.................. 223 7.13. Elnökjelöltek televíziós vitája McNemar-próba......... 226 7.14. Elléstől az ovulációig eltelt idő előjelpróba........... 228 7.15. Elléstől az ovulációig eltelt idő Mood-féle mediánpróba.... 229 7.16. Vásárlások egy boltban Wilcoxon-féle előjeles rangpróba... 232 7.17. Reakcióidő megnövekedése Wilcoxon-próba.......... 234 7.18. Vérszegénység kezelése Mann Whitney-próba......... 236 7.19. Pipacsok számlálása Kruskal Wallis-próba........... 239 8.1. Regressziós kurzus szórásdiagram és korrelációs együttható...................... 243 8.2. Regressziós kurzus a korrelációs együtthatóra vontakozó próba........................... 245 8.3. Elsőéves hallgatók monoton, nemlineáris korreláció...... 246 8.4. Regressziós kurzus monoton, nemlineáris korreláció tesztelése......................... 247 9.1. Mérési módszerek összehasonlítása................ 252 9.2. Regressziós kurzus egyszerű lineáris regresszió......... 255 9.3. Regressziós kurzus summary().................. 258 9.4. Regressziós kurzus konfidencia- és predikciós sáv....... 260 9.5. Regressziós kurzus origón átmenő regresszió.......... 262 9.6. Széki lilék II-es modell regreszió................. 264 9.7. Regressziós kurzus szórásdiagram-mátrix............ 266 9.8. Regressziós kurzus többszörös lineáris regresszió 1....... 268 9.9. Regressziós kurzus többszörös lineáris regresszió 2....... 271 9.10. Őzek parciális korreláció..................... 273 9.11. Őzek multikollinearitás...................... 275 9.12. Súlyozott regresszió......................... 279 9.13. Standardizált jackknife-reziduumok................ 286 9.14. Torzító pontok detektálása..................... 288 9.15. Logaritmikus összefüggés...................... 294 9.16. Csibék exponenciális összefüggés................ 295 9.17. Csibék korrelált exponenciális illesztés............. 297 9.18. Őzek hatványfüggvény-összefüggés............... 298 9.19. Őzek telítődési görbe illesztés.................. 303 9.20. Csibék logisztikus görbe..................... 306

Tárgymutató I-es modell 251 I. típusú négyzetösszeg 370 II-es modell 251, 252, 263 II. típusú négyzetösszeg 370 A, Á abline() 255, 264 abszolút (arány) skála 90 abszolút (arány-) skála 35, 38 abszolút eltérés 110 adatmátrix 33, 116 adatpótlás (imputálás) 47 adatstruktúra csoportos 281 ismételt méréses 281 aggregált eloszlás 50 AIC 365, 366, 369 Akaike-kritérium 365 állandó hiba variancia 360 alsó határ 178 alsó kvartilis 109, 114 általános lineáris hipotézis 375 általános lineáris modell 339 általánosíthatóság 338 alternatív hipotézis 151, 156 ANCOVA 323, 339, 347 ANOVA 202, 339, 355, 374 Anova() 370 anova() 257, 355, 356, 365, 368 ANOVA-modell 370 ANOVA-tábla 315, 316 aov() 314, 316, 323, 369 apropos() 394 arány- (abszolút) skála 35, 37 array() 403 as.factor() 38, 341 as.matrix() 400 assign() 390 asszociáció 117 asszociációs együttható 117 aszimptotikus (tulajdonság) 137 aszimptotikus normalitás 131, 140, 144, 145 aszimptotikus pivot 143 aszimptotikus próba 170 aszimptotikus torzítatlanság 137, 139, 140, 144 átlag 17, 19, 49, 67, 77, 97, 105, 113, 123, 145, 157 geometriai 108 súlyozott 105 trimmelt 107, 135 átlagbecslés 346 átlagmodell 342, 345 átlagok közötti különbség 310 átlagos abszolút eltérés (MAD) 111, 133 átlagos négyzetes eltérés 133, 135 átlagra való hatás 310 B Bartlett-próba 206, 315 443