Biostatisztika Bevezetés. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Hasonló dokumentumok
Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Biostatisztika Bevezetés. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

A leíró statisztikák

Biomatematika 2 Orvosi biometria

Elemi statisztika fizikusoknak

Biostatisztika Összefoglalás

[Biomatematika 2] Orvosi biometria

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biostatisztika Összefoglalás

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Kutatásmódszertan és prezentációkészítés

Segítség az outputok értelmezéséhez

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Biomatematikai Tanszék

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Vizuális adatelemzés

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Változók eloszlása, középértékek, szóródás

Korreláció és lineáris regresszió

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

GRADUÁLIS BIOSTATISZTIKAI KURZUS február hó 22. Dr. Dinya Elek egyetemi docens

Vizuális adatelemzés

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Biomatematika 2 Orvosi biometria

[Biomatematika 2] Orvosi biometria

Statisztikai alapfogalmak a klinikai kutatásban. Molnár Zsolt PTE, AITI

18. modul: STATISZTIKA

Vizsgáljuk elôször, hogy egy embernek mekkora esélye van, hogy a saját

Vargha András Károli Gáspár Református Egyetem Budapest

Adatok statisztikai értékelésének főbb lehetőségei

[Biomatematika 2] Orvosi biometria

Biostatisztika VIII. Mátyus László. 19 October

A Statisztika alapjai

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

A valószínűségszámítás elemei

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Számítógéppel segített modellezés és szimuláció a természettudományokban

Matematikai statisztika

Követelmény a 7. évfolyamon félévkor matematikából

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

matematikai statisztika

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

Statisztikai szoftverek esszé

TANTÁRGYI ÚTMUTATÓ. Statisztika 1.

BIOSTATISZTIKA. Mátyus László Biofizikai és Sejtbiológiai Intézet szeptember 10.

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

3/29/12. Biomatematika 2. előadás. Biostatisztika = Biometria = Orvosi statisztika. Néhány egyszerű definíció:

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

6. Előadás. Vereb György, DE OEC BSI, október 12.

Statisztika a hétköznapokban

Normális eloszlás tesztje

Matematikai statisztika

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

STATISZTIKA I. Tantárgykódok. Oktatók. Időbeosztás. Tematika Előadás Bevezetés, a statisztika szerepe

Hipotézis vizsgálatok

TANTÁRGYI PROGRAM Matematikai alapok 2. útmutató

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Közlemény. Biostatisztika és informatika alapjai. Alapsokaság és minta

[Biomatematika 2] Orvosi biometria

Statisztika 10. évfolyam. Adatsokaságok ábrázolása és diagramok értelmezése

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

Matematika III. 8. A szórás és a szóródás egyéb mérőszámai Prof. Dr. Závoti, József

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

KÖVETKEZTETŐ STATISZTIKA

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Bevezetés a statisztikába

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

A konfidencia intervallum képlete: x± t( α /2, df )

y ij = µ + α i + e ij

Iskolai jelentés. 10. évfolyam szövegértés

Bevezetés a hipotézisvizsgálatokba

Számítógépes döntéstámogatás OPTIMALIZÁLÁSI FELADATOK A SOLVER HASZNÁLATA

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

TANTÁRGYI PROGRAM Matematikai alapok II. útmutató

Átírás:

Biostatisztika Bevezetés Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Az orvosi, biológiai kutatások egyik jellemzője, hogy a vizsgálatok eredményeként rendszerint számszerű adatokhoz jutunk. Ezek összesítése, belőlük következtetések levonása a biostatisztika eszközeivel történhet. A biostatisztika a matematikai statisztika alkalmazása biológiai vizsgálati adatok értékelésére. Alapja a valószínűség-számítás és a matematikai statisztika. Krisztina Boda Biostatisztika 1. 2

Orvosi fizika és statisztika I. (AOK-K051, AOK-K052) ÁOK, I. évfolyam 1. félév Biostatisztika, heti 1 óra előadás A Biostatisztika előadás oktatásának célja, hogy a klinikai és kutató orvosi területen alkalmazható, emeltszintű, gyakorlatban alkalmazható statisztikai ismereteket nyújtson a hallgatóknak. Bevezetjük az adat, adatgyűjtés fogalmát, bemutatjuk az adatfeldolgozás, -ábrázolás, -értelmezés lehetőségeit. Megismertetjük a hallgatókat a trend analízis, hipotézis vizsgálat módszereivel, a leggyakrabban alkalmazott statisztikai próbákkal és azok alkalmazásával. Kollokvium. A számonkérés alapja az előadásokon elhangzottak és a gyakorlati segédanyagok. Elméleti kérdések és gyakorlati feladatok (számítások). Letölthető anyagok: http://www2.szote.u-szeged.hu/dmi/ Gyakorlat: a heti 1 óra Biostatisztika előadás mellé a kötelezően választható heti 2 óra Biostatisztikai számítások gyakorlat felvételét javasoljuk. Krisztina Boda Biostatisztika 1. 3

Oktatás/Letölthető segédletek menüben Felhasználónév: stud, jelszó: az előadáson elmondom Krisztina Boda Biostatisztika 1. 4

Biostatisztikai számítások Kötelezően választható óra Kreditérték: 2 kreditpont Gyakorlat: heti 2 óra Vizsgaforma: gyakorlati jegy Évfolyam/félév: I. évfolyam. 1. félév A kurzus célja, hogy a biostatisztikában alkalmazott alapvető módszerek alkalmazásában a hallgatók készségi szintű ismereteket szerezzenek. A kurzus elvégzése nagymértékben megkönnyíti az orvosi fizika és statisztika tantárgy vizsgájának letételét, mivel az főleg gyakorlati problémák megoldásából áll majd. A számonkérés módja A kurzus során két dolgozatot kell írni, amelyben feladatokat kell megoldani. A dolgozathoz minden papír alapú segédeszköz használata megengedett. A két dolgozat alapján a kurzus értékelése ötfokozatú gyakorlati jeggyel történik. Krisztina Boda Biostatisztika 1. 5

Reiczigel Jenő, Harnos Andrea, Solymosi Norbert: Biostatisztika nem statisztikusoknak. Pars Kft. Nagykovácsi, 2007. Ajánlott irodalom Krisztina Boda Biostatisztika 1. 6

Ajánlott irodalom Hajtman Béla: Bevezetés a biostatisztikába nem csak orvosoknak. Edge 2000 Kiadó, 2012. Krisztina Boda Biostatisztika 1. 7

Ajánlott irodalom Dinya Elek: Biometria az orvosi gyakorlatban. Medicina Kiadó Krisztina Boda Biostatisztika 1. 8

Ajánlott irodalom Ketskeméty László - Izsó Lajos - Könyves Tóth Előd: Bevezetés az IBM SPSS Statistics programrendszerbe Módszertani útmutató és feladatgyűjtemény statisztikai elemzésekhez Artéria Studió 2011 Krisztina Boda Biostatisztika 1. 9

Ajánlott irodalom Hajtman Béla: A biometria alapjai Semmelweis Orvostudományi Egyetem, Budapest. Krisztina Boda Biostatisztika 1. 10

Miért tanuljunk statisztikát? Azért, hogy el tudjuk dönteni, elhiggyünke valamit, amit olvasunk, vagy hogy észrevegyük, hol van benne a hiba, vagyis hogy ne dőljünk be olyan könnyen a statisztikai bűvészkedéseknek, műtermékeknek és tévedéseknek (Reiczigel J.) Krisztina Boda Biostatisztika 1. 11

Véletlen vagy törvényszerű? H-P. Beck-Bornholdt és H-H Dubben: A tojást rakó kutya. Magyar könyvklub, 2001. Egy közúti ellenőrzés során a rendőrség egy német nagyvárosban 600 autót állít meg. Közülük 9-et véralkohol-vizsgálatra küldenek. Összesen tehát az autóvezetők 9/600=0.015, azaz 1.5 %-a nézett túl mélyen a pohár fenekére. Két hónappal később, egy felvilágosító kampányt követő ellenőrzés során ugyanebben a városrészben 400 autós közül csak 2 esetben állapítottak meg alkoholos befolyásoltságot. 2/400=0.005, azaz 0.5 %. A háromszoros csökkenést óriási sikerként könyvelik el. Összes vizsgált Ittas Nem ittas Ittas% I. 600 9 1.5% II. 400 2 0.5% Statisztikusok: ez az eredmény 14 %-os valószínűséggel pusztán a véletlen műve. Krisztina Boda Biostatisztika 1. 12

Példa becsapós ábrázolásra http://www.stats.ox.ac.uk/~konis/talks/htlws.pdf Krisztina Boda Biostatisztika 1. 13

http://www.stats.ox.ac.uk/~konis/talks/htlws.pdf Krisztina Boda Biostatisztika 1. 14

Hgmm Hgmm Átlagos systolés vérnyomás változás kétféle skálán. Mean of systolic blood pressure Mean and SD of systolic blood pressure 150.00 180.00 148.00 146.89 160.00 146.00 140.00 144.00 142.00 140.00 138.00 136.00 134.00 139.74 138.89 140.26 140.61 142.05 Saline Lactate 120.00 100.00 80.00 60.00 40.00 Saline Lactate 132.00 20.00 130.00 N 19 19 19 19 18 0 10 20 Time (min) 0.00 N 19 19 19 19 0 10 20 Time (min) A baloldali ábrán a növekedés jobban látszik, mert a beosztás nem a nulláról indul (félrevezető lehet). Krisztina Boda Biostatisztika 1. 15

Miért tanuljunk statisztikát? Azért, hogy jobban meg tudjuk ítélni, szerencsénk volt-e vagy pechünk vagy éppen egyik sem Azért, hogy jobban meg tudjuk ítélni, mi mennyit ér, miért mennyit érdemes kockáztatni. Azért, hogy pontosan értsük a szakirodalmat (Reiczigel J). Krisztina Boda Biostatisztika 1. 16

A biostatisztika alkalmazásai Kutatás Klinikai kísérletek tervezése és elemzése Gyógyszerkutatás, egészségügy, epidemiológia, stb. Krisztina Boda Biostatisztika 1. 17

Krisztina Boda Biostatisztika 1. 18

Krisztina Boda Biostatisztika 1. 19

Krisztina Boda Biostatisztika 1. 20

Eredmények. A cikk első táblázata Az eredmények reprodukálása Excellel Group I Group II N 125 125 Mean 47.5 49.4 SD 11.5 11 Results Mean difference -1.9 SE of mean difference 1.423376 Df 248 t-value -1.33485 two-sided p 0.183148 Krisztina Boda Biostatisztika 1. 21

TAHA EL HADJ OTHMANE és mtsai: A különböző érfali tágulékonysági paraméterek jelentősége a cardiovascularis mortalitás előrejelzésében hemodializált betegek között: prospektív kohorszvizsgálat. Orvosi Hetilap 2010. 151. évfolyam, 18. szám 741 748. Krisztina Boda Biostatisztika 1. 22

Csoma Zsanett és mtsai: A festéksejtes anyajegyek előfordulása tinédzsereken.orvosi Hetilap 2008 149. évfolyam, 46. szám 2173 2182. Krisztina Boda Biostatisztika 1. 23

EL HADJ OTHMANE TAHA és mtsai: Osteoprotegerin: a regulátor, a protektor és a marker. Összefoglalás irodalmi adatok és saját eredményeink alapján. Orvosi Hetilap 2008 149. évfolyam, 42. szám 1971 1980. Krisztina Boda Biostatisztika 1. 24

Biostatisztika az orvosi egyetemi tantárgyakban Közvetve a legtöbb tantárgy használja a biostatisztikai módszerek által adott eredményeket Tudományos diákköri előadásokban egyre gyakrabban alkalmazzák Krisztina Boda Biostatisztika 1. 25

Miért tanuljunk statisztikát? Azért, hogy saját vizsgálataink tervezését illetve kiértékelését ügyesebben el tudjuk végezni Mekkora mintával dolgozzak? Elhagyhatok-e egy gyanús, hibásnak látszó adatot? Érdekes, váratlan eredményt kaptam? Most felfedeztem valamit, vagy csak a véletlen játéka, amit látok? Azért, hogy eredményeinket érthetőbben és hatásosabban, a lényeget kiemelve tudjuk közölni. (Reiczigel J.) Krisztina Boda Biostatisztika 1. 26

START! Krisztina Boda Biostatisztika 1. 27

Biostatisztikai módszerek Leíró statisztika Hipotézisvizsgálatok (statisztikai próbák) Függnek: Az adatok típusától A probléma természetétől A statisztikai modelltől Krisztina Boda Biostatisztika 1. 28

Populáció (sokaság), minta Populáció: azoknak az egyedeknek, objektumoknak az összessége, amelyről egy vizsgálat során információt kívánunk nyerni. Minta: a sokaság azon részhalmaza, amelyet éppen vizsgálunk A minta kiválasztásakor arra törekszünk, hogy lehetőleg reprezentálja az egész populációt, vagy legalábbis következtetni lehessen a populációra. Követelmény a mintaelemek függetlensége is. Krisztina Boda Biostatisztika 1. 29

Az adattábla szerkezete 1.egyed 2.egyed... i.egyed... n. egyed nem kor... X j... X p x ij Egyed: az adathalmazban szereplő objektumok, melyeket vizsgálunk (emberek, állatok, oldatok, stb.) Változó: az egyed egy jellemzője, amely különböző egyedek esetén különböző értékeket vehet fel. A statisztikai szoftverek (SPSS, Statistica, SigmaStat, SAS) általában ilyen elrendezésben várják az adatokat Krisztina Boda Biostatisztika 1. 30

A változók típusai Aszerint, hogy hány értéket vehet fel diszkrét (kategorikus): véges sok Nem, vércsoport, lakhely, iskolai végzettség folytonos: adott intervallumban végtelen sok Életkor, koncentráció Krisztina Boda Biostatisztika 1. 31

Példák Vérnyomás: folytonos ha három kategóriát definiálunk (pl. alacsony, normális, magas), akkor kategorikus (ordinális) Színek: kategorikus (nominális-nem rangsorolható) ha a színeket a hozzájuk tartozó hullámhosszal jellemezzük, akkor folytonos ha két kategóriát definiálunk (pl. sötét, világos), akkor bináris Az alacsonyabb kategóriába sorolás - információvesztés Krisztina Boda Biostatisztika 1. 32

Frequency Diszkrét változók jellemzése Egy diszkrét változó eloszlása megadja, hogy milyen értékeket vesz fel a változó és milyen gyakorisággal. Az eloszlás jellemzése Táblázattal grafikonokkal: oszlopdiagram, kördiagram felsőfokú végzettség 25.0% középiskola 45.0% 10 8 Iskolai végzettség Iskolai végzettség < 8 általános 20.0% 8 általános 10.0% Iskolai végzettség 6 Valid Cumulativ e Frequency Percent Valid Percent Percent < 8 általános 4 20.0 20.0 20.0 8 általános 2 10.0 10.0 30.0 középiskola 9 45.0 45.0 75.0 f elsőf okú v égzettség 5 25.0 25.0 100.0 Total 20 100.0 100.0 4 2 0 < 8 általános 8 általános középiskola felsőfokú végzettség Iskolai végzettség Krisztina Boda Biostatisztika 1. 33

Frequency Folytonos változók jellemzése Egy folytonos változó eloszlása megadja, hogy melyek a lehetséges értékek, és ezek milyen gyakran esnek bizonyos intervallumokba. Jellemzése: Hisztogram Statisztikai jellemzők 10 8 6 4 2 0 SULY 10-30 30-50 50-70 70-90 90-110 10-29 30-49 50-69 70-89 90-109 A Súly változó hisztogramja. A testtömegek eloszlása Krisztina Boda Biostatisztika 1. 34

Frequency Folytonos változó eloszlása, példa Érték Intervallum Gyakoriság 20.00 0-10 4 17.00 11-20 5 22.00 21-30 7 28.00 31-40 1 9.00 41-50 1 5.00 51-60 2 26.00 60.00 35.00 51.00 17.00 50.00 9.00 10.00 19.00 22.00 25.00 29.00 27.00 19.00 8 7 6 5 4 3 2 1 0 0-10 11-20 21-30 31-40 41-50 51-60 Age Krisztina Boda Biostatisztika 1. 35

count count Az intervallumok hosszától függően más lehet a hisztogram alakja 8 10 7 6 5 9 8 7 6 4 5 3 2 1 4 3 2 1 0 0-10 11-20 21-30 31-40 41-50 51-60 0 0-20 21-40 41-60 age age Krisztina Boda Biostatisztika 1. 36

Egy eloszlás alakjának jellemzése A középpontja, a szóródása és az alakja jellemezhet egy eloszlást. Némely eloszlás alakja szimmetrikus vagy ferde. Akkor mondunk egy eloszlást pl. jobbra ferdének, ha a jobb oldali része sokkal jobban kinyúlik, mint a bal oldali. Krisztina Boda Biostatisztika 1. 37

300 Testtömeg eloszlása (kg) Hisztogram Jelenlegi testsúlyok 200 100 0 32.5 37.5 42.5 47.5 52.5 57.5 62.5 67.5 72.5 77.5 82.5 87.5 Std. Dev = 8.74 Mean = 57.0 N = 1090.00 Jelenlegi testsúlya /kg/ Krisztina Boda Biostatisztika 1. 38

Kigró értékek (outlier) A kiugró értékek egy adatsor szélsőségesen nagy vagy feltűnően kicsi értéke, mely felkelti annak gyanúját, hogy nem illik a többi adat közé, kilóg a 10 sorból. 8 6 4 2 Std. Dev = 13.79 Mean = 62.1 0 N = 43.00 40.0 50.0 60.0 70.0 80.0 90.0 100.0 110.0 45.0 55.0 65.0 75.0 85.0 95.0 105.0 Jelenlegi testsúlya Krisztina Boda Biostatisztika 1. 39

Eloszlások jellemzése számokkal, statisztikai jellemzők A közép jellemzése: átlag, medián, módusz A szóródás jellemzői : terjedelem, interkvartilis terjedelem, variancia, standard deviáció Egyéb jellemzők: variációs együttható egy egyed helyzetének jellemzése(rang, z- érték) Krisztina Boda Biostatisztika 1. 40

Az eloszlás közepének jellemzése Átlag: x x x... x Módusz: a leggyakrabban előforduló érték(ek) Medián: az a szám, amelynél az adatok fele kisebb, vagy egyenlő (amely tehát megfelezi az adatsort). A medián számítása: először sorba állítjuk az adatokat nagyság szerint. Páratlan elemszám esetén a medián a középső elem, páros elemszám esetén a medián a két középső elem átlaga n x i n 1 2 n 1 n i Példaadatok: 1 2 4 1 átlag=(1+2+4+1)/4=8/4=2 Módusz=1 Medián Először sorba állítjuk az adatokat nagyság szerint: 1 1 2 4 Páros az elemszám, a két középső elem 1 és 2, átlaguk 1.5. A medián értéke 1.5 Krisztina Boda Biostatisztika 1. 41

Példa 11 diák írásbeli teszteredményei a következők: 100 100 100 63 62 60 12 12 6 2 0. Az egyik hallgató szerint szigorú volt a tanár, mert a 47-es átlagot alacsonynak találta. A tanár szerint több 100 pontos teszt volt, mint bármely más teszt. Végül a tanszékvezető megfelelőnek találta az eredményeket, mivel a közepes érték, 60 nem mondható rendkívülinek. Az átlag 517/11=47, a módusz 100, a medián 60. Krisztina Boda Biostatisztika 1. 42

x Az átlag ( ), a medián (M) és a módusz (Mo)helyzete az eloszlástól függően Szimmetrikus eloszlás Jobbra ferde eloszlás x =M=Mo x Mo M x Balra ferde eloszlás M Mo Krisztina Boda Biostatisztika 1. 43 x

Percentilisek, kvartilisek Percentilisek: P s : s%-os percentilis: az a szám, aminél az adatok s%-a kisebb. P 25 : 25%-os percentilis (első kvartilis, Q 1 ): az a szám, aminél az adatok 25%-a kisebb. Kvartilisek Első kvartilis, Q 1 : 25%-os percentilis Második kvartilis, Q 2 : 50%-os percentilis (medián) Harmadik kvartilis, Q 3 : 75%-os percentilis A kvartilisek négy részre osztják az adatokat. Interkvartilis terjedelem A harmadik és az első kvartilisek különbsége (Q 3 -Q 1 ), vagy másképpen P 75 -P 25, a 75%-os és a 25%-os percentilis különbsége. Ez az intervallum tartalmazza az adatok középső 50%-át. Krisztina Boda Biostatisztika 1. 44

Kvartilisek Négy részre osztják az eloszlást, minden részbe az adatok egynegyede esik. Minimum=150 P 25 =165 P 50 =Median=170 P 75 =173 Maximum=184 min P 25 Med P 75 max Krisztina Boda Biostat 1. 45

Kvartilisek Minimum=40 P 25 =52.5 P 50 =Median=59 P 75 =67 Maximum=89 min P 25 Med P 75 max Krisztina Boda Biostat 1. 46

A szóródás mérőszámai A terjedelem a maximum és a minimum közötti különbség Interkvartilis terjedelem A harmadik és az első kvartilisek különbsége (Q 3 -Q 1 ), vagy másképpen P 75 -P 25, a 75%-os és a 25%-os percentilis különbsége. Ez az intervallum tartalmazza az adatok középső 50%-át. Variancia Variancia n i1 ( x x) n 1 Standard deviáció (szórás): az adatok szóródása az átlag körül i 2 SD n i1 ( x i x) n 1 2 Variancia Krisztina Boda Biostatisztika 1. 47

Példa. A szóródás jellemzői Adatok: 1 2 4 1, rendezve: 1 1 2 4 Terjedelem: max-min=4-1=3 Kvartilisek: Standard deviáció: Weighted Av erage(definition 1) Tukey's Hinges Percentiles Percentiles 25 50 75 1. 0000 1. 5000 3. 5000 1. 0000 1. 5000 3. 0000 x i x i x 2 ( x i x) 1 1-2=-1 1 1 1-2=-1 1 2 2-2=0 0 4 4-2=2 4 Összeg 0 6 SD n i1 ( x i x) n 1 2 6 3 2 1.414 Krisztina Boda Biostatisztika 1. 48

A standard deviáció jelentése Az adatok szóródása az átlag körül. Normális eloszlás esetén (ld, később), az adatok középső kb. 95%-a az átlag ±2 SD intervallumban van Átlag-2SD=154.184 Átlag=169.5 Átlag+2SD=184.876 Krisztina Boda Az adatok 95%-a Biostat 1. 49

A j% os percentilis számítása Pj (j=1,2,..,99) Először rendezzük az adatokat növekvő sorrendbe x 1,..., x n x [1],..., x [n], Számítsuk ki: h = j n / 100 Ha h nem egész szám, akkor kerekítsük felfelé a következő egész számra, ekkor a percentilis a nagyság szerint rendezett sorban a megfelelő érték Pj =x[h] Ha h egész, akkor számítsuk ki a h-adik és a h+1-edik sorba rendezett elem átlagát: Pj =(x[h] + x[h+1] )/2 Megjegyzés: ez a módszer Tukey-től származik. Vannak más számítási módszerek is, melyek eredménye ettől valamelyest eltérhet. Krisztina Boda Biostat 1. 50

Példa 25%oss percentilis számításra P 25 (=első kvartilis). j=25 Először rendezzük az adatokat növekvő sorrendbe x 1,..., x n x [1],..., x [n], Számítsuk ki: h = j n / 100 Ha h nem egész szám, akkor kerekítsük felfelé a következő egész számra, ekkor a percentilis a nagyság szerint rendezett sorban a megfelelő érték Pj =x[h] Ha h egész, akkor számítsuk ki a h-adik és a h+1-edik sorba rendezett elem átlagát: Pj =(x[h] + x[h+1] )/2 Adatok: 1,2,4,1 (n=4) 1, 2, 4, 1 1, 1, 2, 4 x 1,x 2,x 3,x 4, x [1],x [2],x [3],x [4] Ekkor h = 25 4 / 100 =1 h egész x [1] =1, x [2] =1, P 25 =(1 + 1 )/2=1 Krisztina Boda Biostat 1. 51

Példa 75%os percentilis számítására P 75 (=harmadik kvartilis) j=75 Először rendezzük az adatokat növekvő sorrendbe x 1,..., x n x [1],..., x [n], Számítsuk ki: h = j n / 100 Ha h nem egész szám, akkor kerekítsük felfelé a következő egész számra, ekkor a percentilis a nagyság szerint rendezett sorban a megfelelő érték Pj =x[h] Ha h egész, akkor számítsuk ki a h-adik és a h+1-edik sorba rendezett elem átlagát: Pj =(x[h] + x[h+1] )/2 Adatok: 1,2,4,1 (n=4) 1, 2, 4, 1 1, 1, 2, 4 x 1,x 2,x 3,x 4, x [1],x [2],x [3],x [4] Ekkor h = 75 4 / 100 =3 h egész, x [3] =2, x [4] =4, P 75 =(2 + 4 )/2=3 Krisztina Boda Biostat 1. 52

Példa 25%-os percentilis számítására P 25 (=első kvartilis) j=25 Először rendezzük az adatokat növekvő sorrendbe x 1,..., x n x [1],..., x [n], Számítsuk ki: h = j n / 100 Ha h nem egész szám, akkor kerekítsük felfelé a következő egész számra, ekkor a percentilis a nagyság szerint rendezett sorban a megfelelő érték Pj =x[h] Ha h egész, akkor számítsuk ki a h-adik és a h+1-edik sorba rendezett elem átlagát: Pj =(x[h] + x[h+1] )/2 Adatok: 4,3,5,1,4 (n=5) 4, 3, 5, 1, 5 1, 3, 4, 5, 5 x 1,x 2,x 3,x 4, x 4 x [1],x [2],x [3],x [4],x [5] Ekkor h = 25 5 / 100 =1.25 h nem egész, a legközelebbi egész szám felfelé kerekítve 2 x [2] =3, P 25 =3 Krisztina Boda Biostat 1. 53

Példa 75%-os percentilis számítására P 75 (=harmadik kvartilis) j=75 Először rendezzük az adatokat növekvő sorrendbe x 1,..., x n x [1],..., x [n], Számítsuk ki: h = j n / 100 Ha h nem egész szám, akkor kerekítsük felfelé a következő egész számra, ekkor a percentilis a nagyság szerint rendezett sorban a megfelelő érték Pj =x[h] Ha h egész, akkor számítsuk ki a h-adik és a h+1-edik sorba rendezett elem átlagát: Pj =(x[h] + x[h+1] )/2 Adatok: 4,3,5,1,4 (n=5) 4, 3, 5, 1, 5 1, 3, 4, 5, 5 x 1,x 2,x 3,x 4, x 4 x [1],x [2],x [3],x [4],x [5] Ekkor h = 75 5 / 100 =3.75 h nem egész, a legközelebbi egész szám felfelé kerekítve 4 x [4] =5, P 75 =5 Krisztina Boda Biostat 1. 54

A közép és a szóródás jellemzőinek párosítása Közép Szóródás Közlés cikkekben Átlag Medián Standard deviáció, Standard error Min, max 5%-os, 95%-os percentilis 25 %, 75% (Kvartilisek) Átlag (SD) Átlag SD Átlag SE Átlag SEM Med (min, max) Med(25%, 75%) Krisztina Boda Biostatisztika 1. 55

Az adatok transzformálása Összeadás, kivonás Az adatokhoz ugyanazt a számot hozzáadva (kivonva) a közép mérőszámai jobbra (balra) eltolódnak a hozzáadott számnak megfelelően. Az adatokhoz ugyanazt a számot hozzáadva (kivonva) a szóródás mérőszámai nem változnak. Krisztina Boda Biostatisztika 1. 56

Az adatok transzformálása Szorzás, osztás Az adatokat ugyanazzal a számmal szorozva (osztva) a közép mérőszámai is megszorzódnak (osztódnak) ugyanazzal a számmal. Az adatokat ugyanazzal a számmal szorozva (osztva) a szóródás mérőszámai is megszorzódnak (osztódnak) ugyanazon szám abszolút értékével. Krisztina Boda Biostatisztika 1. 57

Krisztina Boda Biostatisztika 1. 58 Bizonyítás Lineáris transzformációk hatása az átlagra és a standard deviációra Legyen a transzformáció x ->ax+b Átlag: Standard deviáció: b ax n nb x x x a n b ax b ax b ax n b ax n n n i i )... (... 2 1 2 1 1 a SD n x x a n x x a n ax ax n b ax b ax n b ax b ax n i i n i i n i i n i i n i i 1 ) ( 1 ) ( 1 ) ( 1 )) (( 1 )) ( ) (( 1 2 1 2 2 1 2 1 2 1 2

Példa: lineáris transzformációk hatása a mintabeli jellemzőkre Mintaadatok (x i ) Összeadás (x i +10) Kivonás (x i -10) Szorzás (x i *10) Osztás (x i /10) 1 11-9 10 0.1 2 12-8 20 0.2 4 14-6 40 0.4 1 11-9 10 0.1 Átlag=2 12-8 20 0.2 Medián=1.5 11.5-8.5 15 0.15 Terjedelem=3 3 3 30 0.3 St.dev. 1.414 1.414 1.414 14.14 0.1414 Krisztina Boda Biostatisztika 1. 59

Jelenlegi testsúlya /kg/ Percent Kategorikus változók oszlopdiagram kördiagram Ábratípusok Oszlopdiagram 40 nincs válasz 30 felsőfokú végzettség 20 gimnáziumi érettségi 10 0 szakközépiskolai ére 8 ált.-nal kevesebb szakmunkásképző gimnáziumi érettségi nincs válasz 8 ált. szakközépiskolai ére felsőfokú végzettség Apja legmagasabb iskolai végzettsége Kördiagram Apja iskolai végzettsége 8 ált.-nal kevesebb 8 ált. szakmunkásképző Folytonos változók 12 Histogram (kerd97.sta 20v*43c) hisztogram Doboz ábra (box-whisker plot Átlag-szórás ábra Pontábra (scatter plot) N 10 8 6 Box Plot (kerd97 20v*43c) 100 4 2 0 35 40 45 50 55 60 65 70 75 80 85 90 95 NEM: fiú SULY 90 80 70 35 40 45 60 50 55 60 65 70 75 80 85 90 95 SULY 50 40 30 NEM: lány 85 fiú lány NEM 80 75 Mean Plot (kerd97 20v*43c) Median 25%-75% Min-Max Extremes 70 65 SULY 60 55 50 120 Szóródási diagram 45 fiú NEM lány 100 Mean Mean±SD 80 60 40 20 0 40 60 80 100 Kivánatosnak tartott testsúlya /kg/ Krisztina Boda Biostatisztika 1. 60

Ábratípusok a számolt jellemzők alapján 85 Mean Plot (kerd97 20v*43c) 80 Átlag-szórás ábra 75 70 Átlag + SD Átlag + SE SULY 65 60 55 50 Átlag + 95% CI 45 fiú lány NEM Átlag SE Mean Mean±SE 85 Mean Plot (kerd97 20v*43c) 85 Mean Plot (kerd97 20v*43c) 80 80 75 75 70 70 SULY 65 60 SULY 65 60 55 55 50 50 45 fiú NEM lány Mean Mean±0.95 Conf. Interval 45 fiú NEM lány Mean Mean±SD Átlag 95% CI Átlag SD Krisztina Boda Biostatisztika 1. 61

A testsúlyok eloszlása a lányoknál nem szimmetrikus 12 Histogram (kerd97.sta 20v*43c) 10 8 6 N 4 2 0 35 40 45 50 55 60 65 70 75 80 85 90 95 35 40 45 50 55 60 65 70 75 80 85 90 95 NEM: fiú SULY NEM: lány 1. Leíró statisztika Krisztina Boda Biostatisztika 1. 62

Ábratípusok a számolt jellemzők alapján Doboz-ábra (box diagram). A kvartiliseken alapul (Minimum, első kvartilis, medián, második kvartilis, maximum). 100 Box Plot (kerd97 20v*43c) 100 Box Plot (kerd97 20v*43c) 90 90 80 80 70 70 SULY 60 SULY 60 50 50 40 30 fiú NEM lány Median 25%-75% Non-Outlier Range Extremes 40 30 fiú NEM lány Median 25%-75% Min-Max Extremes Krisztina Boda Biostatisztika 1. 63

Box diagram A kiugró értékeket (a doboz hosszának másfélszeresénél messzebb esőket) gyakran speciális karakterrel jelzik (*, ) 100 Box Plot (kerd97 20v*43c) 100 Box Plot (kerd97 20v*43c) 90 90 80 80 70 70 SULY 60 50 SULY 60 50 40 30 fiú NEM lány Median 25%-75% Non-Outlier Range Extremes Krisztina Boda Biostatisztika 1. 64 40 30 fiú NEM lány Median 25%-75% Min-Max Extremes

Kvartilisek és box plot Minimum=150 P 25 =165 P 50 =Medián=170 P 75 =173 Maximum=184 min P 25 Med P 75 max Box plot Krisztina Boda Biostat 1. 65

Kvartilisek és box plot Minimum=40 P 25 =52.5 P 50 =Medián=59 P 75 =67 Maximum=89 min P 25 Med P 75 max Box plot Krisztina Boda Biostat 1. 66

Szóródási ábra (Scatterplot) Két folytonos változó közötti kapcsolat Hallgató Hány órát tanult Grade Jane 8 70 Joe 10 80 Sue 12 75 Pat 19 90 Bob 20 85 Tom 25 95 Krisztina Boda Biostatisztika 1. 67

Szóródási ábra (Scatterplot) Két folytonos változó közötti kapcsolat Hallgató Hány órát tanult Grade Jane 8 70 Joe 10 80 Sue 12 75 Pat 19 90 Bob 20 85 Tom 25 95 Krisztina Boda Biostatisztika 1. 68

Más példák a változók összefüggésére Krisztina Boda Biostatisztika 1. 69

Speciális transzformáció: standardizálás Az ún. z-érték azt méri, hogy egy adott elem az átlagtól hányszoros szórásnyi távolságra esik. Tehát minden egyes elemhez tartozó standardizált z-értéket úgy kapjuk meg, hogy kivonjuk belőle az átlagot és elosztjuk a szórással z x i x i SD, i=1,2,...,n. Az így kapott változó Átlaga=0 Standard deviációja =1 Nincs egysége Krisztina Boda Biostatisztika 1. 70

Példa: standardizálás Mintaadatok(x i ) Standardizált adatok (z i ) 1 2 4 x1 x 1 2 z SD 1.414 1 z z x2 x 2 2 SD 1.414 2 x3 x 4 2 SD 1.414 3 0.707 0 1.414 1 x4 x 1 2 z SD 1.414 4 Átlag 2 0 Szórás 1.414 1 0.707 Krisztina Boda Biostatisztika 1. 71

Egyéb statisztikai jellemzők Variációs együttható (coefficient of variation, CV, más néven relatív szórás, RSD) a szórás és az átlag hányadosa (Két mintát összehasonlíthatóvá tesz) Krisztina Boda Biostatisztika 1. 72

Hasznos WEB oldalak Klinikai Biostatisztikai Társaság http://www.biostat.hu Rice Virtual Lab in Statistics http://onlinestatbook.com/rvls.html Statistics on the Web http://www.claviusweb.net/statistics.shtml Hisztogram alakjának változása Old Faithful http://www.stat.sc.edu/~west/javahtml/histogram.html Statisztikai bemutatók (Java) http://www-stat.stanford.edu/~naras/jsm http://www.math.csusb.edu/faculty/stanton/m262/index. html Krisztina Boda Biostatisztika 1. 73

Emlékeztető kérdések és feladatok Mit nevezünk populációnak vagy alapsokaságnak? Mi a statisztikai minta? Statisztikai mintavételre vonatkozó két fő követelmény Mit nevezünk kategorikus adattípusnak? Mit nevezünk folytonos adattípusnak? Adjon 2 példát folytonos adatra Adjon 2 példát kategorikus adatra Adjon 2 példát bináris (dichotóm) adatra Hogy ábrázoljuk grafikusan a folytonos adatokra vett minta gyakorisági eloszlását? Hogy ábrázoljuk grafikusan a kategorikus adatokra vett minta gyakorisági eloszlását? Mi a különbség az abszolút és relatív gyakorisági eloszlás ábrázolása között? Mikor beszélünk jobbra ferde eloszlásról? Mit nevezünk kiugró adatnak? Krisztina Boda Biostatisztika 1. 74

Mik az eloszlás közepét jellemző statisztikai mérőszámok? (felsorolás) Mik a szóródás mérőszámai? (felsorolás) Hogy számoljuk a minta átlagát? Medián definíciója Medián számítási módszere páros és páratlan mintaméret esetén Hogyan következtethetünk az eloszlás szimmetriájára ill. ferdeségére az átlag és a medián nagysága alapján? Mi az összefüggés a szórás (SD) és a variancia között? Mi a standard deviáció jelentése? Hogy számoljuk a minta terjedelmét? Mi az interkvartilis terjedelem? Hány percentilis van? Mi a j-edik percentilis definíciója? Hány kvartilis van? Mi a harmadik kvartilis definíciója? Fealadat: Az X: 4 ; 1 ; 5 ; 4 ; 3 kismintára végezzük el a következőket: a) Relatív gyakorisági diagram ábrázolása b) Átlag és szórás kiszámítása, átlag-szórás-diagram készítése c) Medián, módusz, terjedelem és interkvartilis terjedelem kiszámítása, box-diagram készítése Krisztina Boda Biostatisztika 1. 75

Mi történik a középre vonatkozó mérőszámokkal, ha minden mintaelemhez hozzáadjuk ugyanazt a konstanst? Mi történik a szóródási mérőszámokkal, ha minden mintaelemhez hozzáadjuk ugyanazt a konstanst? Mi történik a középre vonatkozó mérőszámokkal, ha minden mintaelemet ugyanazzal a pozitív konstanssal megszorzunk? Mi történik a szóródási mérőszámokkal, ha minden mintaelemet ugyanazzal a pozitív konstanssal megszorzunk? Mit ad meg a variációs együttható? Mit fejez ki a z-érték? Milyen mérőszámokon alapszik a box-diagram? Milyen mérőszámokon alapszik az átlag szórás-diagram, és mikor alkalmazzuk? A box-diagram és az átlag szórás-diagram közül melyikből következtethetünk a mintaeloszlás szimmetriájára? Krisztina Boda Biostatisztika 1. 76