Biostatisztika és alkalmazásai

Hasonló dokumentumok

Biostatisztika és alkalmazásai

Pár történeti megjegyzés

Pár történeti megjegyzés

Matematikai statisztika c. tárgy oktatásának célja és tematikája

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

KÖVETKEZTETŐ STATISZTIKA

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

[Biomatematika 2] Orvosi biometria

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Kutatásmódszertan és prezentációkészítés

Adatok statisztikai értékelésének főbb lehetőségei

Segítség az outputok értelmezéséhez

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A Statisztika alapjai

A leíró statisztikák

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Hipotézis vizsgálatok

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Biostatisztika VIII. Mátyus László. 19 October

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

A confounding megoldásai: megfigyelés és kísérlet

Biomatematika 2 Orvosi biometria

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

A mintavétel szakszerűtlenségeinek hatása a monitoring-statisztikákra

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Kettőnél több csoport vizsgálata. Makara B. Gábor

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Elemi statisztika fizikusoknak

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Statisztikai alapfogalmak a klinikai kutatásban. Molnár Zsolt PTE, AITI

Bevezetés a hipotézisvizsgálatokba

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Statisztikai becslés

Korrelációs kapcsolatok elemzése

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Matematikai statisztika

Függetlenségvizsgálat, Illeszkedésvizsgálat

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

[Biomatematika 2] Orvosi biometria

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Többváltozós lineáris regressziós modell feltételeinek

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Biostatisztika Összefoglalás

y ij = µ + α i + e ij

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

[Biomatematika 2] Orvosi biometria

Az empirikus orvosi kutatások alapgondolata és a kauzalitás

Hipotézis vizsgálatok

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

A konfidencia intervallum képlete: x± t( α /2, df )

Normális eloszlás tesztje

A valószínűségszámítás elemei

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Biomatematika 2 Orvosi biometria

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

[Biomatematika 2] Orvosi biometria

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Statisztika elméleti összefoglaló

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

egyetemi jegyzet Meskó Balázs

Kísérlettervezés alapfogalmak

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

1. tétel. Valószínűségszámítás vizsga Frissült: január 19. Valószínűségi mező, véletlen tömegjelenség.

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Korreláció és lineáris regresszió

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

3/29/12. Biomatematika 2. előadás. Biostatisztika = Biometria = Orvosi statisztika. Néhány egyszerű definíció:

A maximum likelihood becslésről

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Készítette: Fegyverneki Sándor

Több valószínűségi változó együttes eloszlása, korreláció

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Vizuális adatelemzés

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Átírás:

2013. szeptember 25.

Tartalom 1 Mi a statisztika? 2 A statisztika alapfogalmai 3 Deskriptív statisztika A deskriptív statisztikáról általában Egyváltozós elemzés, minőségi változó Egyváltozós elemzés, mennyiségi változó Két minőségi változó kapcsolata: asszociáció Két mennyiségi változó kapcsolata: korreláció 4 Induktív statisztika A mintavételi helyzet konzekvenciái Becsléselmélet Hipotézisvizsgálat 5 Klinikai vizsgálatok

Mi a statisztika? Hivatalosan: A statisztika a valóság számszerűsíthető tényeinek szisztematikus összegyűjtésével és elemzésével foglalkozó tudományos módszer és gyakorlat Nemhivatalosan: A hazugságok három kategóriába sorolhatóak: kis hazugságok, gyalázatos hazugságok, és statisztikák (Benjamin Disraeli-nek tulajdonítva) A statisztika a matematika azon ága, melynek feladata, hogy eszközt adjon a politikusok kezébe, mellyel tetszőleges állítás és annak ellentéte is tudományos alapon igazolható (Általános iskolai matematika tanárom)

Miért statisztika? Akkor miért foglalkozzunk statisztikával? Ennek ellenére? Nem! Éppen ezért!

Miért jó, ha értünk a statisztikához? (Személyes vélemény jön) 3 fő szempont: 1 Hogy ne tudjanak átverni minket 2 Hogy új ismereteket szerezzünk 3 Hogy feltevéseinket precízen vizsgáljuk

Feltevések precíz vizsgálata Elsősorban az agrometriából indult a XX. század elején Nagyon hamar kapcsolódott az orvoslás is Ok: az orvostudomány empirikussá válása Később ez a gondolat az evidence-based medicine-ben teljesedett ki Például a gyógyszerkísérletek kapcsán hatalmas gyakorlati jelentősége van nüanszoknak is

Új ismeretek szerzése Adatok strukturálása, alkalmas megjelenítése, információtömörítés, lényegkiemelés Hatalmas motivációt jelent a számítástechnikai (és orvosi) lehetőségek fejlődése miatt létrejövő egyre nagyobb és nagyobb adatbázisok léte

Hogy ne tudjanak átverni minket A KSH szerint 2011-ben a magyar bruttó átlagkereset 213 ezer forint volt. Mégis, a másik táblázatból az derül ki, hogy az emberek 68%-a ennél kevesebbet keresett! Hogy a fenében lehetne akkor ez az átlag?! A KSH hazudik! A HRT-kezelésben részesülő nők körében 1,8-szer kevesebb a szív-érrendszeri megbetegedés, mint az ilyet nem kapók között. A HRT-kezelés tehát jó hatással van a kardiovaszkuláris rendszerre. A minap a suliból (munkahelyem) hazafelé tartva, a buszra vártam. Néhány diák a közelben beszélgetett. Az volt a téma, hogy milyen sokan hiányoznak az osztályból, mert betegek. Egyikük megjegyezte, hogy ő is azóta beteg, mióta megkapták az oltást.

Korreláció nem implikál kauzalitást Tűzoltók példája: a tűzesetben esett kár és a kiküldött tűzoltók száma HRT-s példa: HRT-kezelés megléte és a kardiovaszkuláris rizikó Két dolog együttjárásából nem következik, hogy az egyik okozza a másikat! T1DM és császármetszés: milyen confounder-ek jönnek szóba...?

A biostatisztika elhatárolása Valószínűségszámítás Statisztika Alkalmazott statisztikai ágak Biostatisztika, Pszichometria, Agrometria, Ökonometria stb. vs. bioinformatika: inkább számítástechnikai kérdések, nagy adatbázisokon hatékony algoritmus megoldások vs. biomatematika: inkább nem-statisztikai, elsősorban analízisbeli modellezési eszközök (pl. differenciál-egyenletek) használata

Milyen alapokra van szükség, hogy biostatisztikával foglalkozzak? Valószínűségszámítás, lineáris algebra Matematikai statisztika Orvosi ismeretek

Statisztikai programcsomagok Mai biostatisztika elképzelhetetlen számítógépes támogatás nélkül Pár közismert, biostatisztikára (is) használható program: SAS Gyógyszeripar kedveli, jól standardizált, rettenetesen drága SPSS Általános célú statisztikai programcsomag (eredetileg szociológusoknak), az alap dolgokat könnyű megcsinálni, a komplexebbeket cserében nagyon nehéz R Klasszikus akadémiai programcsomag, az alap dolgokat sem könnyű megcsinálni, a komplexebbeket cserében viszont lehet; ingyenes és nyílt forráskódú (!), http://www.r-project.org/

Ez az előadás... Áttekintés a biostatisztika szempontjából legfontosabb statisztikai alapokról Részletek nélkül, csak bevezető jelleggel (képlet, levezetés általában kevés) Összbenyomás a területről Szemléletformálás Klinikai vizsgálatok, mint a biostatisztika fontos adatforrása, alkalmazási területe

Pár demonstratív kérdés, amit szeretnénk megválaszolni Egy új vérnyomáscsökkentő gyógyszer-jelölt valóban csökkenti a vérnyomást? Egy új vérnyomáscsökkentő gyógyszer-jelölt nem okoz megnövekedett epilepszia-kockázatot? Magasfeszültségű vezeték közelében tartózkodás növeli a rák-kockázatot? Milyen tényezők hatnak adott rákban a túlélési időre? Mennyi jelen kurzus hallgatóinak átlagos testtömege? Mennyi az I. éves fiú egyetemisták átlagos testtömege? Igaz-e, hogy az I. éves fiú egyetemisták átlagos testtömege 70 kg? Van-e összefüggés tehenek takarmányozása és a tejhozamuk között?

Pár definíció Amire (akikre) a kérdésünk irányul: (cél)populáció, sokaság Elemei: megfigyelési egységek Amely jellemzőire kíváncsiak vagyunk: változó (vagy ismérv) A változó értékének meghatározása egy adott sokasági elemre: megfigyelés Nagyon ritkán tudjuk a sokaság valamennyi elemét megfigyelni (ez lenne a teljeskörű megfigyelés), technikai gondok, és...

Kicsit elidőzve a sokaság fogalmánál Mennyi jelen kurzus hallgatóinak átlagos testtömege? véges sokaság (N = 23) De: Egy új vérnyomáscsökkentő gyógyszer-jelölt valóban csökkenti a vérnyomást? Mi itt a sokaság? Ez végtelen sokaság! (Szokás fiktívnek is nevezni.)

Mintavétel Tehát: általában nem tudjuk az egész sokaságot megfigyelni mintavételes helyzet Amit meg tudunk figyelni: minta (Illetve tervezett minta, nem biztos, hogy pont ezt figyeljük meg ténylegesen) Sokaság Tényleges minta Tervezett minta Induktív statisztikánál foglalkozunk vele tovább

Mérés, mérési skálák A vizsgált tulajdonságot mérhetővé kell tenni Operacionalizálás Proxy változók Mérési skálák (Stevens, 1946) 1 Nominális skála 2 Ordinális skála 3 Intervallum skála 4 Arányskála Az első két típusba tartozót szokás minőségi (kvalitatív) változónak is nevezni...... az utóbbi kettőt pedig mennyiségi (kvantitatív) változónak

Adatok jellemzői Kimenetek száma szerint Diszkrét (véges, vagy legfeljebb megszámlálhatóan sok, pl. szemszín) Folytonos (kontinuum sok, pl. testhőmérséklet) Általában megfeleltetjük a minőségi-mennyiségi csoportoknak (noha ez elvileg nem helyes), de vigyázat: a darabszám nevezetes kivétel Időbeli jelleg szerint: Keresztmetszeti (egy eszmei időpontra vonatkozó megfigyelések) Longitudinális (időbeli követés)

Példa adatbázis Baystate Medical Center (Springfield, Massachusetts, USA) Low Infant Birth Weight adatbázisa (1986) R-ben: MASS könyvtár birthwt adatbázis Kis kivonat: low age lwt race smoke ptl ht ui ftv bwt 0 19 182 2 0 0 0 1 0 2523 0 33 155 3 0 0 0 0 3 2551 0 20 105 1 1 0 0 0 1 2557 0 45 123 1 0 0 0 0 1 4990 1 28 120 3 1 1 0 1 0 709 1 29 130 1 0 0 0 1 2 1021

A példa adatbázis jellemzése Keresztmetszeti n = 189 elemű minta egy fiktív, végtelen sokaságból Változók: Rövidítés Tartalom Mérési skála low Születési tömeg < 2,5 kg? [0:nem, 1:igen] Nominális age Anya életkora [év] Arányskála lwt Anya testtömege (UM) [font] Arányskála race Rassz [1: kaukázusi, 2: afroamerikai, 3: egyéb] Nominális smoke Anya dohányzik? [0:nem, 1:igen] Nominális ptl Korábbi koraszülések száma [darab] Arányskála ht Anyai hipertónia? [0:nem, 1:igen] Nominális ui Irritábilis méh? [0:nem, 1:igen] Nominális ftv Vizitek száma (1. trimeszter) [darab] Arányskála bwt Születési tömeg [g] Arányskála

A deskriptív statisztikáról általában Mi a deskriptív statisztika? Röviden: nem törődünk a mintavételes helyzettel! A minta az univerzum, úgy vesszük mintha csak a minta lenne Tipikus feladat itt: információtömörítés, a mintában lévő információ legjobban emészthetővé tétele Trade-off a tömörítésnél: Áttekinthetőség Hűség

A deskriptív statisztikáról általában Az információtömörítés trade-off-ja Nyers adat: 2523, 2551, 2557, 2594, 2600, 2622,..., 2495, 2495, 2495 Tömörítések 2944,6 2944,6 ± 729,2 2944,6 (2977) ± 729,2 (1073) 2944,6 (2977) [709 4990] ± 729,2 (1073) Mi a cél? az eredeti információ átláthatatlan (ki mond meg bármit is 189 számból?) Az információtömörítés ugyan adatvesztés, de épp ez teszi lehetővé, hogy a fontosat észrevegyük! Egyensúlyozni kell a kettő között

A deskriptív statisztikáról általában Exploratív adatelemzés Grafikus technikák előnyei Az emberi agy különösen jó az ilyen (vizuális) információk feldolgozásában Ügyes vizualizáció sokat érhet! There is no excuse for failing to plot and look! (JW Tukey)

A deskriptív statisztikáról általában A deskriptív statisztika dimenziói Eszköze szerint Analitikus (mutatószám) Grafikus (ábra) Változók száma szerint Egyváltozós Többváltozós (Sokváltozós) A változók mérési skálája szerint Minőségi Mennyiségi (Vegyes)

Egyváltozós elemzés, minőségi változó Példa race (rassz): low age lwt race smoke ptl ht ui ftv bwt 0 19 182 2 0 0 0 1 0 2523 0 33 155 3 0 0 0 0 3 2551 0 20 105 1 1 0 0 0 1 2557 0 45 123 1 0 0 0 0 1 4990 1 28 120 3 1 1 0 1 0 709 1 29 130 1 0 0 0 1 2 1021

Egyváltozós elemzés, minőségi változó Analitikus eszközök Gyakorisági sor: Kategória f i g i Kaukázusi 96 0,508 Afroamerikai 26 0,138 Egyéb 67 0,354 Összesen 189 1,000 (Istenigazából semmilyen adatvesztést nem jelent most)

Egyváltozós elemzés, minőségi változó Analitikus eszközök Módusz: leggyakoribb kimenet (Mo = arg max i f i ); ez már kompromisszum! Ordinálisnál: van értelme az ún. kumulálásnak is (elvileg mediánról is lehetne beszélni, inkább máshol vezetjük be) Ezen kívül más mutatónak nincs sok értelme

Egyváltozós elemzés, minőségi változó Grafikus eszközök: oszlopdiagram Oszlopdiagram Gyakoriság [fő] 0 20 40 60 80 100 Kaukázusi Afroamerikai Egyéb Rassz

Egyváltozós elemzés, minőségi változó Grafikus eszközök: tortadiagram Kördiagram Kaukázusi 50.8 % Afroamerikai 13.8 % Egyéb 35.4 % Rassz

Egyváltozós elemzés, minőségi változó Grafikus eszközök Melyik jobb? Miért? (Van rá tudományos válasz!) Az emberi szem sokkal jobban érzékeli a lineáris méreteket, mint a relatív területeket

Egyváltozós elemzés, mennyiségi változó Példa bwt (születési tömeg): low age lwt race smoke ptl ht ui ftv bwt 0 19 182 2 0 0 0 1 0 2523 0 33 155 3 0 0 0 0 3 2551 0 20 105 1 1 0 0 0 1 2557 0 45 123 1 0 0 0 0 1 4990 1 28 120 3 1 1 0 1 0 709 1 29 130 1 0 0 0 1 2 1021

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: osztályközös gyakorisági sor I. Szokásos gyakorisági sor már nem készíthető (könnyen lehet, hogy minden számból csak 1 lesz!) Megoldás az osztályközös gyakorisági sor, például: C i0 C i1 f i g i f i g i 500 1000 1 0,005 1 0,005 1000 1500 4 0,021 5 0,026 1500 2000 14 0,074 19 0,101 2000 2500 40 0,212 59 0,312 2500 3000 38 0,201 97 0,513 3000 3500 45 0,238 142 0,751 3500 4000 38 0,201 180 0,952 4000 4500 7 0,037 187 0,989 4500 5000 2 0,011 189 1,000 Összesen 189 1,000

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: osztályközös gyakorisági sor II. De vigyázat, itt már van információvesztés! kérdés, hogy hogyan vesszük fel az osztályközöket

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: a centrális tendencia mutatói I. Átlag, jele x: az a szám, mellyel valamennyi megfigyelési egységnél helyettesítve a változó tényleges értékét, az értékösszeg változatlan maradna, azaz x = S n = n i=1 x i n Akkor van értelme, ha a változónál az összeg bír tárgyi értelemmel! (Ha a szorzat, akkor a mértani átlag adódik.) Előnye, hogy közismert tartalmú, jól értelmezhető, hátránya, hogy nem robusztus (outlier-ekre érzékeny trimmelt átlag)

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: a centrális tendencia mutatói II. Medián, jele Me: az a szám, melyre teljesül, hogy a megfigyelési egységek fele nála kisebb, fele nála nagyobb, tehát a középső elem (páratlan elemszámnál egyértelmű, párosnál legyen mondjuk a két középső átlaga) Előnye, hogy robusztus, hátránya, hogy kevésbé közismert p-kvantilis: a medián általánosítása, a minta p-ed része alatta, (1 p)-ed része felette van Nevezetes kvantilisek: kvartilisek (negyedelőpontok: Q 1, Q 2 Me, Q 3 ), decilisek (tizedelőpontok: D 1, D 2,..., D 9 ), percentilisek (századolópontok: P 1, P 2,..., P 100 )

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: a szóródás mutatói Minimum, maximum: a minta legnagyobb és legkisebb eleme Terjedelem, jele R: a maximum és a minimum különbsége Szórás, jele σ x : az átlagtól vett átlagos eltérés, négyzetes átlagot használva n i=1 σ x = (x i x) 2 n Előnye, hogy közismert tartalmú, hátránya, hogy nem robusztus (duplán nem) Interkvartilis terjedelem, jele IQR: a felső és alsó kvartilis különbsége (IQR = Q 3 Q 1 ); előnye, hogy robusztus ( xi MAD: MAD = Me Me (x) )

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: alakmutatók Még finomabb leírása az eloszlásnak Szimmetria/ferdeség Csúcsosság

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: hisztogram A születési tömegek hisztogramja Sűrűség 0e+00 1e-04 2e-04 3e-04 4e-04 5e-04 0 1000 2000 3000 4000 5000 Születési tömeg [g]

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: hisztogram A számegyenest diszjunkt intervallumokra osztjuk, és megszámoljuk, hogy az egyes intervallumokba hány megfigyelési egység esik f i n h i (Mintha az osztályközös gyakorisági sorból gyártanánk oszlopdiagramot csak rések nélkül) A hisztogram hatalmas előnye, hogy hihetetlenül szemléletes: az eloszlás rengeteg fontos jellemzője ránézésre leolvasható (A hisztogram a háttéreloszlás sűrűségfüggvényét fogja becsülni)

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: hisztogram Hátránya, hogy érzékeny az intervallumok határainak megválasztására: A születési tömegek hisztogramja A születési tömegek hisztogramja A születési tömegek hisztogramja Sűrűség 0e+00 1e-04 2e-04 3e-04 4e-04 5e-04 6e-04 Sűrűség 0e+00 1e-04 2e-04 3e-04 4e-04 5e-04 6e-04 Sűrűség 0e+00 1e-04 2e-04 3e-04 4e-04 5e-04 6e-04 0 1000 2000 3000 4000 5000 6000 Születési tömeg [g] 0 1000 2000 3000 4000 5000 6000 Születési tömeg [g] 0 1000 2000 3000 4000 5000 6000 Születési tömeg [g]

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: magfüggvényes becslő A születési tömegek magfüggvényes sűrűségbecslése Sűrűség 0e+00 1e-04 2e-04 3e-04 4e-04 5e-04 0 1000 2000 3000 4000 5000 Születési tömeg [g]

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: magfüggvényes becslő A mintapontokat koncentrált helyett valódi eloszlással helyettesíti Kevésbé paraméterérzékeny (de azért ezen is kell paraméterezni)

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: boxplot A születési tömegek boxplot-ja 1000 2000 3000 4000 5000 Születési tömeg [g]

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: boxplot Doboz Q 1 -től Q 3 -ig, benne megjelölve Me Antennák vagy a minimumig és a maximumig nyúlnak ki, vagy a legtávolabbi elemig, ami nincs messzebb a Me-től mint az IQR α-szorosa (tipikusan α = 1,5) Ez utóbbi egyszerű outlier-keresést is lehetővé tesz Nagy előnye, hogy rendkívül kompakt (gondoljunk arra, ha pl. rasszok szerint akarjuk ábrázolni a születési tömeg eloszlását), és robusztus is

Két minőségi változó kapcsolata: asszociáció Példa Két minőségi változó kapcsolatát asszociációnak nevezzük race (rassz) és ui (irritábilis méh): low age lwt race smoke ptl ht ui ftv bwt 0 19 182 2 0 0 0 1 0 2523 0 33 155 3 0 0 0 0 3 2551 0 20 105 1 1 0 0 0 1 2557 0 45 123 1 0 0 0 0 1 4990 1 28 120 3 1 1 0 1 0 709 1 29 130 1 0 0 0 1 2 1021

Két minőségi változó kapcsolata: asszociáció Analitikus eszközök: kontingenciatábla Ez is hordoz minden információt: Irritábilis méh Rassz Nem Igen Összesen Kaukázusi 83 13 96 Afroamerikai 23 3 26 Egyéb 55 12 67 Összesen 161 28 189 Kapcsolat értelmezése: viszonyítás a függetlenséghez (mennyi információt jelent a sor szempontjából, ha tudjuk, hogy az alany melyik oszlopba tartozik? és viszont) Mutatók: χ 2, Cramer-V stb. stb.; nagyon számítanak a feltevések

Két minőségi változó kapcsolata: asszociáció Grafikus eszközök Esetleg mozaikábra vagy asszociációs ábra nem túl gyakori Vetületi megoszlások vagy feltételes megoszlások ábrázolhatóak oszlop-, illetve kördiagramon

Két mennyiségi változó kapcsolata: korreláció Példa Két mennyiségi változó kapcsolatát korreláció nevezzük lwt (anyai testtömeg) és bwt (születési tömeg): low age lwt race smoke ptl ht ui ftv bwt 0 19 182 2 0 0 0 1 0 2523 0 33 155 3 0 0 0 0 3 2551 0 20 105 1 1 0 0 0 1 2557 0 45 123 1 0 0 0 0 1 4990 1 28 120 3 1 1 0 1 0 709 1 29 130 1 0 0 0 1 2 1021

Két mennyiségi változó kapcsolata: korreláció Grafikus eszközök: szóródási diagram Ez minden információt hordoz: Az anya és az újszülött testtömegének szóródási diagramja Születési tömeg [g] 1000 2000 3000 4000 5000 100 150 200 250 Anya testtömege (UM) [font]

Két mennyiségi változó kapcsolata: korreláció Analitikus eszközök: korrelációs együttható Korrelációs együttható, jele r: a két változó közti sztochasztikus kapcsolat mérőszáma 1 n [ n i=1 (xi x) (y i y) ] r x,y = σ x σ y A kapcsolat irányát és szorosságát mutatja

Két mennyiségi változó kapcsolata: korreláció Analitikus eszközök: korrelációs együttható A kapcsolat iránya és szorossága szemléletesen: corr = -1 corr = -0.99 corr = -0.7 corr = -0.2 corr = 0 corr = 0.2 corr = 0.7 corr = 0.99 corr = 1 y y y y y y y y y x x x x x x x x x

Két mennyiségi változó kapcsolata: korreláció Analitikus eszközök: korrelációs együttható De vigyázzunk (Anscombe-kvartett): y1 4 6 8 10 12 y2 4 6 8 10 12 5 10 15 x1 5 10 15 x2 y3 4 6 8 10 12 y4 4 6 8 10 12 5 10 15 x3 5 10 15 x4

A mintavételi helyzet konzekvenciái Emlékeztetőül Nagyon sok esetben technikai okokból, vagy elvileg is lehetetlen a teljes sokaság megfigyelése Csak egy részét, a mintát ismerjük És itt jön a kulcsprobléma: mi mégis a sokaságról akarunk nyilatkozni! Lehet egyáltalán? Hogyan? Biztosat már nem tudunk mondani... de valószínűségi állítást igen!

A mintavételi helyzet konzekvenciái Mintavételi ingadozás Ha csak a sokaság egy részét (a mintát) ismerjük, akkor minden belőle számolt jellemző két dologtól fog függeni 1 a jellemző sokaságbeli értékétől 2 attól, hogy konkrétan hogyan választottuk ki a mintát Mi értelemszerűen az elsőre vagyunk kíváncsiak... csakhogy a kikerülhetetlen második ( pont milyen mintát vettünk ) azt fogja okozni, hogy minden eredményünk mintáról-mintára változni fog A szerencse: ez az ún. mintavételi ingadozás követ valószínűségszámítási törvényeket, így valószínűségi állításokat meg tudunk fogalmazni! Hibázhatunk, de ennek természetéről tudunk nyilatkozni

A mintavételi helyzet konzekvenciái Mintavételi hiba Figyelem, ennél a hibázásnál nem arról van szó, hogy rosszul veszünk mintát: például a legtökéletesebben véletlenszerű mintavételnél is előfordulhat, hogy egy 1000 fős sokaságból úgy becsüljük az átlagos testtömeget, hogy pont a 30 legkönnyebbet választjuk ki De: ennek a valószínűsége extrém kicsi! (Egész pontosan 1/ ( 30 1000) 4 10 56 %) Így értendő, hogy ez a hiba valószínűségszámítási úton, sztochasztikusan limitálható Ezt nevezzük mintavételi hibának

A mintavételi helyzet konzekvenciái Nem-mintavételi hiba Ez természetesen arra vonatkoznak, hogy mi a mintavételi ingadozásból adódó hiba De nem csak ilyen van: alullefedés, túllefedés, kódolási hiba stb. és a legnagyobb baj: a minta megválasztása Mi van, ha a minta nem véletlen részhalmaza a sokaságnak? ( reprezentativitás kérdése) Literary Digest esete Különösen óvatosan a kényelmi mintával Survey statisztika (külön szak!)

Becsléselmélet Pontbecslés Feladat: valamely sokasági jellemző meghatározása minta alapján Például sokaság átlaga/várhatóértéke minta alapján Naiv tipp: mondjuk a minta átlagát becslésként! Az ilyen szabály a becslőfüggvény: a mintaelemekből megmondja a legjobb tippünket a sokasági jellemzőre Mi az, hogy jó becslő? A két legfontosabb tulajdonság: 1 Elfogadjuk, hogy a becslőfüggvény által szolgáltatott becslés mintáról-mintára ingadozik, de legalább az teljesüljön, hogy az ingadozás centrumában a valódi (sokasági) jellemző legyen (torzítatlanság) 2 Ennek az ingadozásnak a mértéke lehetőleg minél kisebb legyen (hatásosság) A becslőfüggvény eloszlása (ugye annak eloszlása lesz, és nem értéke, hiszen mintáról-mintára változik; és adott tartományokban különböző valószínűséggel esik!) az ún. mintavételi eloszlás

Becsléselmélet Mintavételi eloszlás: egy állítás Ha a sokaság X N ( µ, σ 2 0) eloszlást követ (tehát figyelem: ez egy ún. eloszlásával (és nem elemeivel!) adott sokaság; fiktív, végtelen sokaságnál tipikus), akkor a belőle vett n elemű minták átlaga, azaz a µ sokasági várhatóérték (mint sokasági jellemző) fenti becslőfüggvénye x N ( µ, σ 2 0 /n) eloszlást fog követni (Tehát feltételeztük, hogy azt a priori tudjuk, hogy normális eloszlású a sokaság, sőt, σ-t is ismertnek vesszük csak a µ a kérdés) Figyelem, a sokasági jellemző, amit becsülni szeretnénk, itt a µ maga; az tehát nem követ semmilyen eloszlást, egy konstans szám! (Csak mi nem ismerjük.) Ez csak fae (független, azonos eloszlású) mintavételre igaz Ez matematikai úton (valószínűségszámítási módszerekkel) belátható; hogy legyen pár képlet is, bármennyire is bevezetésről van szó, ezt megmutatjuk

Becsléselmélet Bizonyítás I. Legyen az n elemű mintánk X 1, X 2,..., X n N ( µ, σ 2) fae (mivel fae, mindegyik ugyanolyan eloszlást követ) Nagy betűket írtunk: ezek nem konkrét (realizálódott) értékek, hanem maguk is val. változók (eggyel nagyobb dimenzió a statisztikai analízishez) n i=1 X i n Ezzel a becslőfüggvényünk: X = Valószínűségszámításból tudjuk, hogy 1 Normális eloszlású v.v.-k összege normális (szépen: a normális eloszláscsalád zárt a konvolúcióra) 2 A várhatóérték-képzés lineáris, így az összeg várhatóértéke a várhatóértékek összege 3 Ha ráadásul függetlenek, akkor a szórásnégyzetek (nem a szórások!) is összeadódnak

Becsléselmélet Bizonyítás II. A fenti háromból már következik, hogy n i=1 X i N ( nµ, nσ 2) Szintén valószínűségszámításból tudjuk, hogy 1 E (ax ) = a EX 2 D 2 (ax ) = a 2 D 2 X Amiből pedig már következik, hogy n i=1 X = X i N n ahogy állítottuk is ( ) µ, σ 2 /n, Íme egy nagyon egyszerű példa a matematikai statisztikára! Tehát: torzítatlan becslő (többet is be lehetne látni)

Becsléselmélet Intervallumbecslés A fentiekkel egyetlen számot, a legjobb becslést adjuk vissza eredményként Nem adunk számot arról, hogy ebben mekkora a bizonytalanság...... pedig erről is tudunk nyilatkozni! ( Kalkulálható bizonytalanság ) Tipikus szemléltetés: konfidenciaintervallum (CI): mi az a tartomány, amire igaz, hogy ha sokszor megismételnék a mintavételt, és mindegyik mintából megszerkesztenénk a CI-t, akkor ezen CI-k várhatóan 95%-a tartalmazná az igazi (sokasági) értéket (95% megbízhatóság melletti CI) Nagyobb megbízhatóság semmitmondóbb intervallum

Becsléselmélet Példa I. Például: tudjuk, hogy X N ( µ, σ 2 /n ) Ebből következik, hogy X µ σ/ N (0, 1) n Azaz P ( z < X µ σ/ n < z Emiatt, ha ) = Φ (z) Φ ( z) = Φ (z) [ 1 Φ (z) ] = = 2Φ (z) 1 2Φ (z) 1 = 1 α Φ (z) = 1 α 2 z = Φ 1 ( 1 α 2 ) =: z 1 α 2, [ ] akkor rögtön látható, hogy a µ z 1 α σ 2 n, µ + z 1 α σ 2 n tartományba 1 α valószínűséggel esik X ( deduktív statisztika )

Becsléselmélet Példa II. Átrendezve kapjuk az induktív statisztikát: ( ) P z 1 α < X µ 2 σ/ n < z 1 α = 1 α 2 ( ) σ σ P X z 1 α < µ < X + z 2 1 α = 1 α n 2 n Tipikusan: α = 0,05, ekkor a 95%-os[ konfidenciaintervallum immár ] egy konkrét mintára a fenti alapján: x z 1 α σ 2 n, x + z 1 α σ 2 n Vigyázat, csak mintavétel előtt vannak val. változók, utána ( kis betűk ) már nem, ezért használtuk a megbízhatóság szót a valószínűség helyett az állítás csak (képzeletbeli) ismételt mintavételi értelemben igaz

Hipotézisvizsgálat A hipotézisvizsgálat alapfogalmai Feladat: sokaságra vonatkozó állítás eldöntése minta alapján Lényegében az intervallumbecslés ikertestvére, de hatalmas gyakorlati jelentősége miatt külön eszköztára van Alapeszköze a statisztikai próba (vagy teszt), mely a mintaelemek alapján kiszámol egy ún. tesztstatisztikát (próbafüggényt) Vizsgált állításaink: nullhipotézis ellenhipotézis Egy tipikus példa: H 0 : µ = µ 0 H 1 : µ µ 0 Itt µ 0 általunk megadott, ismert szám (pl. µ 0 = 70 kg a példánkban)

Hipotézisvizsgálat Próbafüggvény megszerkesztése Itt jön a kulcs: a próbafüggvényt úgy kell megszerkeszteni, hogy H 0 fennállása esetén ismert eloszlást kövessen (nulleloszlás) Például (sokasági normalitás, ismert szórás): ( ) X : nem jó, mert X N µ 0, σ 2 /n (most ugye H 0-t igaznak vesszük!) és ez függ µ 0-tól (σ-tól és n-től is, de az nem baj, mert azokat tudjuk most) Próbálkozzunk ( máshogy, ) X µ 0: technikailag jó, mert X µ 0 N 0, σ 2 /n, de nem túl praktikus, mert minden σ-hoz és n-hez külön táblázat kéne Ennek fényében X µ 0 σ/ : teljesen jó, minden paramétertől függetlenül n N (0, 1) eloszlást követ, ez lesz a jó próbafüggvény

Hipotézisvizsgálat Próbafüggvény megszerkesztése Ez ún. pivot, eloszlása már nem függ ismeretlen paramétertől: Z := X µ 0 σ/ n H 0 N (0, 1), azaz a próbafüggvény H 0 fennállása esetén N (0, 1) eloszlást követ

f Hipotézisvizsgálat Döntés a hipotézisvizsgálatban I. Hihető-e, hogy az empirikus (adott, konkrét mintából kapott) érték ebből az eloszlásból származik? Biztos döntés nincs! De: mennyire hihetőek ezek? 0.0 0.1 0.2 0.3 0.4 0.5 0.0 0.1 0.2 0.3 0.4 0.5 f -4-2 0 2 4 z -4-2 0 2 4 z

Hipotézisvizsgálat Döntés a hipotézisvizsgálatban II. Valahol határt kell húznunk szó szerint is! Azt mondjuk, hogy a nagyon kis valószínűségű területekre esést már nem hisszük el Pedig az nem lehetetlen, sőt: az is tudható, hogy az oda esés (azaz a fenti logikával történő hibázás) valószínűsége épp ez a nagyon kis valószínűség Tipikus, hogy a felső és alsó szélén is 2,5-2,5 % valószínűségű területet jelülünk ki (α = 5%, ez a szignifikanciaszint), határai: a c a alsó és a c f felső kritikus értékek (példában: ±1,96)

Hipotézisvizsgálat p-érték Vagy: Mennyi lenne az a szignifikanciaszint, ami mellett a mintából kapott (empirikus) tesztstatisztika-érték épp az elfogadás és az elutasítás határára kerülne? (Ez nem más, mint az empirikus értéktől extrémebb helyeken vett integrálja a mintavételi eloszlásnak) A neve: p-érték Manapság (hogy a számításigény már nem probléma), ezt szokták megadni, mert nem binarizálja az eredményt Az olvasó is tud dönteni : ha a választott szignifikanciaszint nagyobb, mint a p-érték, akkor elutasítunk, különben elfogadunk Frekvencionista szemlélet!

Hipotézisvizsgálat Példa I. (Csak szemléltetésként, részletek nélkül) Van-e különbség a dohányzó és a nem-dohányzó nők gyermekeinek születési tömege között? A mintában 2772 g a dohányzóknál az átlag, 3056 g a nem-dohányzóknál; csakhogy a kérdés nem ez... Ez egy sokaságra vonatkozó kérdés próbát kell végeznünk! Adott a dohányzó nők sokaságában az újszülöttek tömegének eloszlása, és ugyanez a nem-dohányzó nők sokaságában operacionalizáljuk úgy a kérdést, hogy a várhatóértékük eltér-e egymástól Erről kell minta alapján dönteni

Hipotézisvizsgálat Példa II. Elég nagy minta, ún. kétmintás Welch-próba alkalmazható: p = 0,007 Szokásos szignifikanciaszinteken elvethető a feltevés, hogy a dohányzó és a nem-dohányzó nők csoportjában azonos a születési súly: a születi súly kapcsolatban van azzal, hogy dohányzik-e a várandós anya A dohányzás csökkenti a születési súlyt! na ilyet viszont nem mondhatunk! (Korreláció nem implikál kauzalitást!) Confounderek? (Bár itt jó eséllyel tényleg kauzális kapcsolat van, de ezt csak más kísérleti elrendezéssel lehet szabatosan kimutatni)

Hipotézisvizsgálat Próba hibái I. Elvetjük H 0 -t, pedig fennáll (elsőfajú hiba, α): pontosan szabályozható valószínűségű Elfogadjuk H 0 -t, pedig el lehetne vetni (másodfajú hiba, β): általánosságban nem ismert, függ a valóságtól 1 β: próba ereje ( mennyire ismeri fel az eltérést, ha tényleg van ) Mi két dologgal tudjuk befolyásolni a próba erejét, mindkettőhöz egy-egy tételmondat: 1 Választott próba: mindig annyi előfeltevésre építő próbát használjunk, amennyit tudunk, se többet se kevesebbet (több előfeltevésre építő próbák erősebbek ugyan, de ha szükséges előfeltevés nem teljesül, a próba nem lesz valid) 2 Mintanagyság: kis hatáshoz nagy minta kell, nagy hatáshoz elég a kisebb minta is

Hipotézisvizsgálat Próba hibái II. Bár néhol bevett szokás, de elvileg nem korrekt egy próba előfeltevését ugyanazon mintán egy másik próbával eldönteni ( testing hypothesis suggested by data )

Hipotézisvizsgálat Szignifikanciavadászat I. Mivel minden tesztnek α elsőfajú hibája van, ezért (sajnos!) aki keres az talál!

Hipotézisvizsgálat Szignifikanciavadászat II. Védekezés ellene: az orvosok nem viszik túlzásba... A p-érték korrekciója: Bonferroni-, Holm-, Hochberg-, Hommel-eljárások Ezek az ún. familywise α (az összes tesztben együtt mennyi az elsőfajú hiba; értsd: legalább egy tesztben hibásan elutasítunk) erős kontrollját jelentik Alternatíva: például az FDR-eljárások A microarray és hasonló adatok kiértékelése kapcsán nagyon megnőtt a jelentőségük

Empirikus adatgyűjtés nehézségei Szolgáltatott információk: Keresztmetszeti adatokból nem lehet időbeli viszonyokon alapuló következtetést levonni Korreláció nem implikál kauzalitást stb. Nehézségek: Technikai (szervezési, pénzügyi, stb.) Időbeli Bioetikai stb. Evidenciák hierarchiája (tipikusan trade-off a két fenti szempont között: az informatívabb, megbízhatóbb vizsgálat nehezebb)

Klinikai vizsgálatok kategorizálása Klinikai vizsgálat (clinical study) lehet 1 Experimentális (beavatkozásos), más szóval klinikai kísérlet 2 Obszervációs (megfigyeléses)

Klinikai kísérletek fajtái A fő kérdések: Randomizálás Kontrollálás Vakosítás A kettős vak RCT a gold standard egy kérdés megválaszolására ugyanis nem érzékeny a korreláció nem implikál kauzalitást problémára! Cserében a legösszetettebb, legdrágább stb. feladat a megvalósítása Gyógyszerbevezetésnél különösen fontos a szerepe (elsősorban fázis-iii)

Megfigyeléses vizsgálatok Főbb típusok: 1 Kohorsz 2 Eset-kontroll 3 Keresztmetszeti 4 Ecological 5 (Esetismertetés, case series) Ez a megbízhatóság sorrendje is Közös gond: ki vannak téve a confounding-nak (különféle bias-ek) Például: ABC-hipotézis (tudományos szempontok mellett a politika (és a média) megjelenése tette tanulságossá)

A világ első dokumentált klinikai kísérlete Leírás: 10 És mondá az udvarmesterek fejedelme Dánielnek: Félek én az én uramtól, a királytól, aki megrendelte a ti ételeteket és italotokat; minek lássa, hogy a ti orcátok hitványabb amaz ifjakénál, akik egykorúak veletek? és így bűnbe kevernétek az én fejemet a királynál. 11 És mondá Dániel a felügyelőnek, akire az udvarmesterek fejedelme bízta vala Dánielt, Ananiást, Misáelt és Azariást: 12 Tégy próbát, kérlek, a te szolgáiddal tíz napig, és adjanak nékünk zöldségféléket, hogy azt együnk, és vizet, hogy azt igyunk. 13 Azután mutassák meg néked a mi ábrázatunkat és amaz ifjak ábrázatát, akik a király ételével élnek, és aszerint cselekedjél majd a te szolgáiddal. 14 És engede nékik ebben a dologban, és próbát tőn velük tíz napig. 15 És tíz nap mulva szebbnek látszék az ő ábrázatuk, és testben kövérebbek valának mindazoknál az ifjaknál, akik a király ételével élnek vala. Dokumentálás helye: Biblia, Dániel könyve, 1. fejezet (Károli Gáspár fordítása)

Mik ezzel a bajok? Nagyon jó, de felmerül azért pár kérdés is: Dániel beszerezte a Regionális Bioetikai Bizottság engedélyét a kutatáshoz? A résztvevők teljes írásos tájékozott beleegyezéssel vettek részt a kísérletben? Regisztrálta Dániel a kutatást nemzetközi adatbázisban (pl. ClinicalTrials.gov-on)? Nem világos a végpont meghatározása: a szebbnek látszék az ő ábrázatuk pontosan milyen módon került operacionalizálásra? Hiányzik a használt kvantitatív mérési eljárás kellő pontosságú megadása. Nem derül ki, hogy a kísérleti alanyok randomizálásra kerültek-e, illetve milyen módszerrel. Nem világos, hogy a vizsgálók, illetve az alanyok vakosítva voltak-e az ételek tekintetében. Az eredményközlés elégtelen: hiányzik a végpontokon mért numerikus kimenet, és szignifikanciára vonatkozó statisztikai próba dokumentálása.

DE! DE! A fenti mégis fantasztikus: felmerült a gondolat (kb. i.e. 600-ban vagyunk!), hogy a kérdést empirikus alapon kell megválaszolni! Tények alapján (nem szent iratok, sámánok, vakszerencse vagy tapasztalati sejtés alapján)!

Pár hasznos link A tárgy anyagai elérhetőek a Moodle-ön A tárgy lapja a saját honlapomon (véleményezés!): http://www.medstat.hu/targyak/biostatea2013osz.html Szakmai blogom (részben ide is kapcsolódó témákban): http: //vedooltas.blog.hu/2012/09/04/tartalomjegyzek_gyanant

Útravaló jótanácsok 1 És végül a legfontosabb: Csak olyan statisztikának higyj, amit sajátkezűleg hamisítottál! (Churchill-nek tulajdonítva) 2 A korreláció nem implikál kauzalitást! 3 Az anekdota többes száma nem az adat! (Roger Brinner) 4 Döntést csak adatra alapozhatunk! 5 Mindig ellenőrizzük és gondoljuk végig az adatok származását!

Köszönöm szépen a figyelmet! tamas.ferenci@medstat.hu