Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet



Hasonló dokumentumok
Biostatisztika Bevezetés. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Biostatisztika Bevezetés. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

STATISZTIKA I. Tantárgykódok. Oktatók. Időbeosztás. Tematika Előadás Bevezetés, a statisztika szerepe

Matematika III. 8. A szórás és a szóródás egyéb mérőszámai Prof. Dr. Závoti, József

Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása fejezet. A variabilitás mér számai 3.

Adatok statisztikai feldolgozása

GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 6. MA3-6 modul. A statisztika alapfogalmai

KVANTITATÍV MÓDSZEREK

INTELLIGENS ADATELEMZÉS

Matematikai statisztikai elemzések 1.

Bevezető Mi a statisztika? Mérés Feldolgozás Adatok rendezése Adatok jellemzése Időbeli elemzés Feladatok. Statisztika I.

Matematikai statisztikai elemzések 2.

1/8. Iskolai jelentés. 10.évfolyam matematika

Statisztika, próbák Mérési hiba

A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI MA. T.P.Lenke

MINİSÉGSZABÁLYOZÁS. Dr. Drégelyi-Kiss Ágota

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

A évi Baross Gábor Program pályázati kiírásaira a Dél-alföldi Régióban benyújtott pályaművek statisztikai elemzése

GAZDASÁGI STATISZTIKA

Statisztikai szoftverek esszé

Országos kompetenciamérés. Országos jelentés

A statisztika részei. Példa:

Komputer statisztika gyakorlatok

Biostatisztika Összefoglalás

Statisztikai módszerek

Variancia-analízis (folytatás)

Számítógéppel segített modellezés és szimuláció a természettudományokban

10. JAVÍTÓKULCS ORSZÁGOS KOMPETENCIAMÉRÉS MATEMATIKA. példaválaszokkal. s u l i N o v a K h t. É R T É K E L É S I K Ö Z P O N T É V F O L Y A M

A leíró statisztikák

Tantárgyi útmutató. 1. A tantárgy helye a szaki hálóban. 2. A tantárgyi program általános célja. Statisztika 1.

Csicsman József-Sipos Szabó Eszter Matematikai alapok az adatbányászati szoftverek első megismeréséhez

MATEMATIKA PRÓBAÉRETTSÉGI MEGOLDÓKULCS EMELT SZINT

ÚTMUTATÓ A MÓDSZERTANI SZIGORLAT LETÉTELÉHEZ

II. A következtetési statisztika alapfogalmai

Vizuális adatelemzés

MATEMATIKA Kiss Árpád Országos Közoktatási Szolgáltató Intézmény Vizsgafejlesztő Központ

Elméleti összefoglalók dr. Kovács Péter

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 7. MA3-7 modul. Helyzetmutatók, átlagok, kvantilisek

6. AZ EREDMÉNYEK ÉRTELMEZÉSE

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Biomatematika 2 Orvosi biometria

Vargha András PSZICHOLÓGIAI STATISZTIKA DIÓHÉJBAN 1. X.1. táblázat: Egy iskolai bizonyítvány. Magyar irodalom. Biológia Földrajz

A DUNA VÍZJÁTÉKÁNAK ÉS A KÖRNYEZŐ TERÜLET TALAJVÍZSZINTJEINEK KAPCSOLATA. Mecsi József egyetemi tanár, Pannon Egyetem, Veszprém

Matematikai statisztikai elemzések 6.

Elemi statisztika fizikusoknak

Az adatmátrix, az adatok átalakítása

I. Gondolkodási módszerek: (6 óra) 1. Gondolkodási módszerek, a halmazelmélet elemei, a logika elemei. 1. Számfogalom, műveletek (4 óra)

Útmutató. a szakdolgozat elkészítéséhez. Szegedi Tudományegyetem Egészségtudományi és Szociális Képzési Kar. (ápoló szakirány számára)

A nyugdíjban, nyugdíjszerű ellátásban részesülők halandósága főbb ellátástípusok szerint

Populációbecslések és monitoring 2. előadás tananyaga

A Hat Szigma bevezetésének tapasztalatai a Siemens Erőműtechnika Kft-nél

Statisztika gyakorlat

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Adatok gyűjtésének és értékelésének módszerei Domokos, Endre Csom, Veronika

Statisztikai programcsomagok

11. Matematikai statisztika

Németh Imre Általános Iskola

statisztikai menürendszere Dr. Vargha András 2007

több időt ad a tanulónak: pl. egy hét. A tanár ezeket is minden esetben ellenőrzi.

JOGSZABÁLY. LI. ÉVFOLYAM, 15. SZÁM Ára: 693 Ft JÚNIUS 5. TARTALOM. 1. (1) A rendelet hatálya fenntartótól függetlenül

Boglári Általános Iskola Alapfokú Művészetoktatási Intézmény és Óvoda

Ittfoglalomösszea legfontosabbtudnivalókat, részleteka honlapon, illetvea gyakorlatvezetőtől is kaptok információkat.

Helyi tanterv. Batthyány Kázmér Gimnázium Matematika emelt ( óra/hét) 9-12 évfolyam Készült: 2013 február

Dr. Szőke Szilvia Dr. Balogh Péter: Nemparaméteres eljárások

A sárospataki Nagykönyvtár olvasóinak elégedettségi mérése. Készítette: Éger Gábor

Értelmezési szempontok


Kutatói tájékoztató Útmutató a KSH kutatószobai környezetében folyó kutatómunkához

Herczeg Bálint. Az iskola méretének hatása az iskola hozzáadott értékére November 9.

Az irányelv-alapú elemzés, valamint az ön- és társértékelés módszereinek alkalmazása az informatikus képzésben

[Biomatematika 2] Orvosi biometria

1. A skót bakák mellkas körmérete N(88, 10). A skót bakák mekkora hányada fér bele egy 84-es zubbonyba?

A mintavétel bizonytalansága


Helyi tanterv Német nyelvű matematika érettségi előkészítő. 11. évfolyam

Biostatisztika Összefoglalás

A FÖDRAJZI HELYHEZ KAPCSOLÓDÓ ÉS A HAGYOMÁNYOS MAGYAR TERMÉKEK LEHETSÉGES SZEREPE AZ ÉLELMISZERFOGYASZTÓI MAGATARTÁSBAN

Útmutató szakdolgozatok készítéséhez Ez az útmutató a Szent István Egyetem Alkalmazott Bölcsészeti és Pedagógiai Karán készülő szakdolgozatokkal

Fiumei Úti Általános Iskola

Európa 2000 Közgazdasági, Idegenforgalmi és Informatikai Középiskola


MATEMATIKA I. RÉSZLETES ÉRETTSÉGI VIZSGAKÖVETELMÉNY A) KOMPETENCIÁK

MATEMATIKA C 8. évfolyam 10. modul ÁTLAGOS?

TERMELÉSMENEDZSMENT. Gyakorlati segédlet a műszaki menedzser szak hallgatói számára. Összeállította: Dr. Vermes Pál főiskolai tanár 2006.

Esetelemzés az SPSS használatával

Kutatásmódszertan és prezentációkészítés

2009 szeptemberében megvizsgálták a magyarországi jogi személyiségű építőipari kft-ket. Töltse ki a táblázat hiányzó részeit!

hogy a megismert fogalmakat és tételeket változatos területeken használhatjuk Az adatok, táblázatok, grafikonok értelmezésének megismerése nagyban


On-line értékelési módszerek II. Lengyelné Molnár Tünde

A TÁRKI ADATFELVÉTELEINEK DOKUMENTUMAI. Népszavazás. Omnibusz 2008/02. A kutatás dokumentációja


ZÁRÓTANULMÁNYOK TECHNOLÓGIA ÉS VERSENYKÉPESSÉG. - Technológia alprojekt zárótanulmánya -

Útmutató. a szakdolgozat elkészítéséhez. Szegedi Tudományegyetem Egészségtudományi és Szociális Képzési Kar

Az áprilisi vizsga anyaga a fekete betűkkel írott szöveg! A zölddel írott rész az érettségi vizsgáig még megtanulandó anyag!

ELEMI VALÓSZÍNŰSÉGSZÁMÍTÁS és STATISZTIKAI MÓDSZEREK A FIZIKÁBAN

1. A kutatás célja, a munkatervben vállalt kutatási program ismertetése

Átírás:

Biostatisztika Bevezetés Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Az orvosi, biológiai kutatások egyik jellemzője, hogy a vizsgálatok eredményeként rendszerint számszerű adatokhoz jutunk. Ezek összesítése, belőlük következtetések levonása a biostatisztika eszközeivel történhet. A biostatisztika a matematikai statisztika alkalmazása biológiai vizsgálati adatok értékelésére. Alapja a valószínűség-számítás és a matematikai statisztika. Krisztina Boda Biostatisztika 1. 2

Orvosi fizika és statisztika I. AOK-K051, AOK-K052) ÁOK, I. évfolyam 1. félév Biostatisztika, heti 1 óra előadás A Biostatisztika előadás oktatásának célja, hogy a klinikai és kutatóorvosi területen alkalmazható, emeltszintű, gyakorlatban alkalmazható statisztikai ismereteket nyújtson a hallgatóknak. Bevezetjük az adat, adatgyűjtés fogalmát, bemutatjuk az adatfeldolgozás, -ábrázolás, -értelmezés lehetőségeit. Megismertetjük a hallgatókat a trend analízis, hipotézis vizsgálat módszereivel, a leggyakrabban alkalmazott statisztikai próbákkal és azok alkalmazásával. Kollokvium. A számonkérés alapja az előadásokon elhangzottak és a gyakorlati segédanyagok. Elméleti kérdések és gyakorlati feladatok (számítások). Letölthető anyagok: http://www3.szote.u-szeged.hu/dmi/ Gyakorlat: a heti 1 óra Biostatisztika előadás mellé a kötelezően választható heti 2 óra Biostatisztikai számítások gyakorlat felvételét javasoljuk. Krisztina Boda Biostatisztika 1. 3

Biostatisztikai számítások Kötelezően választható óra Kreditérték: 2 kreditpont Gyakorlat: heti 2 óra Vizsgaforma: gyakorlati jegy Évfolyam/félév: I. évfolyam. 1. félév A kurzus célja, hogy a biostatisztikában alkalmazott alapvető módszerek alkalmazásában a hallgatók készségi szintű ismereteket szerezzenek. A kurzus elvégzése nagymértékben megkönnyíti az orvosi fizika és statisztika tantárgy vizsgájának letételét, mivel az főleg gyakorlati problémák megoldásából áll majd. A számonkérés módja A kurzus során két dolgozatot kell írni, amelyben feladatokat kell megoldani. A dolgozathoz minden papír alapú segédeszköz használata megengedett. A két dolgozat alapján a kurzus értékelése ötfokozatú gyakorlati jeggyel történik. Krisztina Boda Biostatisztika 1. 4

Reiczigel Jenő, Harnos Andrea, Solymosi Norbert: Biostatisztika nem statisztikusoknak. Pars Kft. Nagykovácsi, 2007. Ajánlott irodalom Krisztina Boda Biostatisztika 1. 5

Ajánlott irodalom Hajtman Béla: Bevezetés a biostatisztikába nem csak orvosoknak. Edge 2000 Kiadó, 2012. Krisztina Boda Biostatisztika 1. 6

Ajánlott irodalom Dinya Elek: Biometria az orvosi gyakorlatban. Medicina Kiadó Krisztina Boda Biostatisztika 1. 7

Ajánlott irodalom Ketskeméty László - Izsó Lajos - Könyves Tóth Előd: Bevezetés az IBM SPSS Statistics programrendszerbe Módszertani útmutató és feladatgyűjtemény statisztikai elemzésekhez Artéria Studió 2011 Krisztina Boda Biostatisztika 1. 8

Ajánlott irodalom Hajtman Béla: A biometria alapjai Semmelweis Orvostudományi Egyetem, Budapest. Krisztina Boda Biostatisztika 1. 9

Miért tanuljunk statisztikát? Azért, hogy el tudjuk dönteni, elhiggyünke valamit, amit olvasunk, vagy hogy észrevegyük, hol van benne a hiba, vagyis hogy ne dőljünk be olyan könnyen a statisztikai bűvészkedéseknek, műtermékeknek és tévedéseknek (Reiczigel J.) Krisztina Boda Biostatisztika 1. 10

Véletlen vagy törvényszerű? H-P. Beck-Bornholdt és H-H Dubben: A tojást rakó kutya. Magyar könyvklub, 2001. Egy közúti ellenőrzés során a rendőrség egy német nagyvárosban 600 autót állít meg. Közülük 9-et véralkohol-vizsgálatra küldenek. Összesen tehát az autóvezetők 9/600=0.015, azaz 1.5 %-a nézett túl mélyen a pohár fenekére. Két hónappal később, egy felvilágosító kampányt követő ellenőrzés során ugyanebben a városrészben 400 autós közül csak 2 esetben állapítottak meg alkoholos befolyásoltságot. 2/400=0.005, azaz 0.5 %. A háromszoros csökkenést óriási sikerként könyvelik el. Összes vizsgált Ittas Nem ittas Ittas% I. 600 9 1.5% II. 400 2 0.5% Statisztikusok: ez az eredmény 14 %-os valószínűséggel pusztán a véletlen műve. Krisztina Boda Biostatisztika 1. 11

Példa becsapós ábrázolásra http://www.stats.ox.ac.uk/~konis/talks/htlws.pdf Krisztina Boda Biostatisztika 1. 12

http://www.stats.ox.ac.uk/~konis/talks/htlws.pdf Krisztina Boda Biostatisztika 1. 13

Hgmm Hgmm Átlagos systolés vérnyomás változás kétféle skálán. A baloldali ábrán a növekedés jobban látszik. Mean of systolic blood pressure Mean and SD of systolic blood pressure 150.00 180.00 148.00 146.89 160.00 146.00 140.00 144.00 142.00 140.00 138.00 136.00 134.00 139.74 138.89 140.26 140.61 142.05 Saline Lactate 120.00 100.00 80.00 60.00 40.00 Saline Lactate 132.00 20.00 130.00 N 19 19 19 19 18 19 0 10 20 Time (min) 0.00 N 19 19 19 19 0 10 20 Time (min) Krisztina Boda Biostatisztika 1. 14

Miért tanuljunk statisztikát? Azért, hogy jobban meg tudjuk ítélni, szerencsénk volt-e vagy pechünk vagy éppen egyik sem Azért, hogy jobban meg tudjuk ítélni, mi mennyit ér, miért mennyit érdemes kockáztatni. Azért, hogy pontosan értsük a szakirodalmat (Reiczigel J). Krisztina Boda Biostatisztika 1. 15

A biostatisztika alkalmazásai Kutatás Klinikai kísérletek tervezése és elemzése Gyógyszerkutatás, egészségügy, epidemiológia, stb. Krisztina Boda Biostatisztika 1. 16

Krisztina Boda Biostatisztika 1. 17

Krisztina Boda Biostatisztika 1. 18

Krisztina Boda Biostatisztika 1. 19

Eredmények. A cikk első táblázata Az eredmények reprodukálása Excellel Group I Group II N 125 125 Mean 47.5 49.4 SD 11.5 11 Results Mean difference -1.9 SE of mean difference 1.423376 Df 248 t-value -1.33485 two-sided p 0.183148 Krisztina Boda Biostatisztika 1. 20

TAHA EL HADJ OTHMANE és mtsai: A különböző érfali tágulékonysági paraméterek jelentősége a cardiovascularis mortalitás előrejelzésében hemodializált betegek között: prospektív kohorszvizsgálat. Orvosi Hetilap 2010. 151. évfolyam, 18. szám 741 748. Krisztina Boda Biostatisztika 1. 21

Csoma Zsanett és mtsai: A festéksejtes anyajegyek előfordulása tinédzsereken.orvosi Hetilap 2008 149. évfolyam, 46. szám 2173 2182. Krisztina Boda Biostatisztika 1. 22

EL HADJ OTHMANE TAHA és mtsai: Osteoprotegerin: a regulátor, a protektor és a marker. Összefoglalás irodalmi adatok és saját eredményeink alapján. Orvosi Hetilap 2008 149. évfolyam, 42. szám 1971 1980. Krisztina Boda Biostatisztika 1. 23

Biostatisztika az orvosi egyetemi tantárgyakban Közvetve a legtöbb tantárgy használja a biostatisztikai módszerek által adott eredményeket Tudományos diákköri előadásokban egyre gyakrabban alkalmazzák Krisztina Boda Biostatisztika 1. 24

Miért tanuljunk statisztikát? Azért, hogy saját vizsgálataink tervezését illetve kiértékelését ügyesebben el tudjuk végezni Mekkora mintával dolgozzak? Elhagyhatok-e egy gyanús, hibásnak látszó adatot? Érdekes, váratlan eredményt kaptam? Most felfedeztem valamit, vagy csak a véletlen játéka, amit látok? Azért, hogy eredményeinket érthetőbben és hatásosabban, a lényeget kiemelve tudjuk közölni. (Reiczigel J.) Krisztina Boda Biostatisztika 1. 25

Biostatisztikai módszerek Leíró statisztika Hipotézisvizsgálatok (statisztikai próbák) Függnek: Az adatok típusától A probléma természetétől A statisztikai modelltől Krisztina Boda Biostatisztika 1. 26

Populáció (sokaság), minta Populáció: azoknak az egyedeknek, objektumoknak az összessége, amelyről egy vizsgálat során információt kívánunk nyerni. Minta: a sokaság azon részhalmaza, amelyet éppen vizsgálunk A minta kiválasztásakor arra törekszünk, hogy lehetőleg reprezentálja az egész populációt, vagy legalábbis következtetni lehessen a populációra. Követelmény a mintaelemek függetlensége is. Krisztina Boda Biostatisztika 1. 27

Az adattábla szerkezete 1.egyed 2.egyed... i.egyed... n. egyed nem kor... X j... X p x ij Egyed: az adathalmazban szereplő objektumok, melyeket vizsgálunk (emberek, állatok, oldatok, stb.) Változó: az egyed egy jellemzője, amely különböző egyedek esetén különböző értékeket vehet fel. A statisztikai szoftverek (SPSS, Statistica, SigmaStat, SAS) általában ilyen elrendezésben várják az adatokat Krisztina Boda Biostatisztika 1. 28

A változók típusai Aszerint, hogy hány értéket vehet fel diszkrét (kategorikus): véges sok Nem, vércsoport, lakhely, iskolai végzettség folytonos: adott intervallumban végtelen sok Életkor, koncentráció Krisztina Boda Biostatisztika 1. 29

Példák Vérnyomás: folytonos ha három kategóriát definiálunk (pl. alacsony, normális, magas), akkor kategorikus (ordinális) Színek: kategorikus (nominális-nem rangsorolható) ha a színeket a hozzájuk tartozó hullámhosszal jellemezzük, akkor folytonos ha két kategóriát definiálunk (pl. sötét, világos), akkor bináris Az alacsonyabb kategóriába sorolás - információvesztés Krisztina Boda Biostatisztika 1. 30

Frequency Diszkrét változók jellemzése Egy diszkrét változó eloszlása megadja, hogy milyen értékeket vesz fel a változó és milyen gyakorisággal. Az eloszlás jellemzése Táblázattal grafikonokkal: oszlopdiagram, kördiagram felsőfokú végzettség 25.0% középiskola 45.0% 10 8 Iskolai végzettség Iskolai végzettség < 8 általános 20.0% 8 általános 10.0% Iskolai végzettség 6 Valid Cumulativ e Frequency Percent Valid Percent Percent < 8 általános 4 20.0 20.0 20.0 8 általános 2 10.0 10.0 30.0 középiskola 9 45.0 45.0 75.0 f elsőf okú v égzettség 5 25.0 25.0 100.0 Total 20 100.0 100.0 4 2 0 < 8 általános 8 általános középiskola felsőfokú végzettség Iskolai végzettség Krisztina Boda Biostatisztika 1. 31

Frequency Folytonos változók jellemzése Egy folytonos változó eloszlása megadja, hogy melyek a lehetséges értékek, és ezek milyen gyakran esnek bizonyos intervallumokba. Jellemzése: Hisztogram Statisztikai jellemzők 10 8 6 4 2 0 SULY 10-30 30-50 50-70 70-90 90-110 10-29 30-49 50-69 70-89 90-109 A Súly változó hisztogramja. A testtömegek eloszlása Krisztina Boda Biostatisztika 1. 32

Frequency Folytonos változó eloszlása, példa Érték Intervallum Gyakoriság 20.00 0-10 4 17.00 11-20 5 22.00 21-30 7 28.00 31-40 1 9.00 41-50 1 5.00 51-60 2 26.00 60.00 35.00 51.00 17.00 50.00 9.00 10.00 19.00 22.00 25.00 29.00 27.00 19.00 8 7 6 5 4 3 2 1 0 0-10 11-20 21-30 31-40 41-50 51-60 Age Krisztina Boda Biostatisztika 1. 33

count count Az intervallumok hosszától függően más lehet a hisztogram alakja 8 10 7 6 5 9 8 7 6 4 5 3 2 1 4 3 2 1 0 0-10 11-20 21-30 31-40 41-50 51-60 0 0-20 21-40 41-60 age age Krisztina Boda Biostatisztika 1. 34

Egy eloszlás alakjának jellemzése A középpontja, a szóródása és az alakja jellemezhet egy eloszlást. Némely eloszlás alakja szimmetrikus vagy ferde. Akkor mondunk egy eloszlást pl. jobbra ferdének, ha a jobb oldali része sokkal jobban kinyúlik, mint a bal oldali. Krisztina Boda Biostatisztika 1. 35

300 Testtömeg eloszlása (kg) Hisztogram Jelenlegi testsúlyok 200 100 0 32.5 37.5 42.5 47.5 52.5 57.5 62.5 67.5 72.5 77.5 82.5 87.5 Std. Dev = 8.74 Mean = 57.0 N = 1090.00 Jelenlegi testsúlya /kg/ Krisztina Boda Biostatisztika 1. 36

Kigró értékek (outlier) A kiugró értékek egy adatsor szélsőségesen nagy vagy feltűnően kicsi értéke, mely felkelti annak gyanúját, hogy nem illik a többi adat közé, kilóg a 10 sorból. 8 6 4 2 Std. Dev = 13.79 Mean = 62.1 0 N = 43.00 40.0 50.0 60.0 70.0 80.0 90.0 100.0 110.0 45.0 55.0 65.0 75.0 85.0 95.0 105.0 Jelenlegi testsúlya Krisztina Boda Biostatisztika 1. 37

Eloszlások jellemzése számokkal, statisztikai jellemzők A közép jellemzése: átlag, medián, módusz A szóródás jellemzői : terjedelem, interkvartilis terjedelem, variancia, standard deviáció Egyéb jellemzők: variációs együttható egy egyed helyzetének jellemzése(rang, z- érték) Krisztina Boda Biostatisztika 1. 38

Az eloszlás közepének jellemzése Átlag: x x x... x Módusz: a leggyakrabban előforduló érték(ek) Medián: az a szám, amelynél az adatok fele kisebb, vagy egyenlő (amely tehát megfelezi az adatsort). A medián számítása: először sorba állítjuk az adatokat nagyság szerint. Páratlan elemszám esetén a medián a középső elem, páros elemszám esetén a medián a két középső elem átlaga n x i n 1 2 n 1 n i Példaadatok: 1 2 4 1 átlag=(1+2+4+1)/4=8/4=2 Módusz=1 Medián Először sorba állítjuk az adatokat nagyság szerint: 1 1 2 4 Páros az elemszám, a két középső elem 1 és 2, átlaguk 1.5. A medián értéke 1.5 Krisztina Boda Biostatisztika 1. 39

Példa 11 diák írásbeli teszteredményei a következők: 100 100 100 63 62 60 12 12 6 2 0. Az egyik hallgató szerint szigorú volt a tanár, mert a 47-es átlagot alacsonynak találta. A tanár szerint több 100 pontos teszt volt, mint bármely más teszt. Végül a tanszékvezető megfelelőnek találta az eredményeket, mivel a közepes érték, 60 nem mondható rendkívülinek. Az átlag 517/11=47, a módusz 100, a medián 60. Krisztina Boda Biostatisztika 1. 40

x Az átlag ( ), a medián (M) és a módusz (Mo)helyzete az eloszlástól függően Szimmetrikus eloszlás Jobbra ferde eloszlás x =M=Mo x Mo M x Balra ferde eloszlás M Mo Krisztina Boda Biostatisztika 1. 41 x

Percentilisek, kvartilisek A terjedelem a maximum és a minimum közötti különbség Percentilisek: P s : s%-os percentilis: az a szám, aminél az adatok s%-a kisebb. P 25 : 25%-os percentilis (első kvartilis, Q 1 ): az a szám, aminél az adatok 25%-a kisebb. Kvartilisek Első kvartilis, Q 1 : 25%-os percentilis Második kvartilis, Q 2 : 50%-os percentilis (medián) Harmadik kvartilis, Q 3 : 75%-os percentilis A kvartilisek négy részre osztják az adatokat. Interkvartilis terjedelem A harmadik és az első kvartilisek különbsége (Q 3 -Q 1 ), vagy másképpen P 75 -P 25, a 75%-os és a 25%-os percentilis különbsége. Ez az intervallum tartalmazza az adatok középső 50%-át. Krisztina Boda Biostatisztika 1. 42

A szóródás mérőszámai A terjedelem a maximum és a minimum közötti különbség Interkvartilis terjedelem A harmadik és az első kvartilisek különbsége (Q 3 -Q 1 ), vagy másképpen P 75 -P 25, a 75%-os és a 25%-os percentilis különbsége. Ez az intervallum tartalmazza az adatok középső 50%-át. Variancia Variancia n i1 ( x x) n 1 Standard deviáció (szórás): az adatok szóródása az átlag körül i 2 SD n i1 ( x i x) n 1 2 Variancia Krisztina Boda Biostatisztika 1. 43

Példa. A szóródás jellemzői Adatok: 1 2 4 1, rendezve: 1 1 2 4 Terjedelem: max-min=4-1=3 Kvartilisek: Standard deviáció: Weighted Av erage(definition 1) Tukey's Hinges Percentiles Percentiles 25 50 75 1. 0000 1. 5000 3. 5000 1. 0000 1. 5000 3. 0000 x i x i x 2 ( x i x) 1 1-2=-1 1 1 1-2=-1 1 2 2-2=0 0 4 4-2=2 4 Összeg 0 6 SD n i1 ( x i x) n 1 2 6 3 2 1.414 Krisztina Boda Biostatisztika 1. 44

A standard deviáció jelentése Az adatok szóródása az átlag körül. Normális eloszlás esetén (ld, később), az adatok középső kb. 95%-a az átlag ±2 SD intervallumban van Átlag-2SD=154.184 Átlag=169.5 Átlag+2SD=184.876 Krisztina Boda Az adatok 95%-a Biostat 1. 45

Kvartilisek Négy részre osztják az eloszlást, minden részbe az adatok egynegyede esik. Minimum=150 P 25 =165 P 50 =Median=170 P 75 =173 Maximum=184 min P 25 Med P 75 max Krisztina Boda Biostat 1. 46

Kvartilisek Minimum=40 P 25 =52.5 P 50 =Median=59 P 75 =67 Maximum=89 min P 25 Med P 75 max Krisztina Boda Biostat 1. 47

A j% os percentilis számítása Pj (j=1,2,..,99) Először rendezzük az adatokat növekvő sorrendbe x 1,..., x n x [1],..., x [n], Számítsuk ki: h = j n / 100 Ha h nem egész szám, akkor kerekítsük felfelé a következő egész számra, ekkor a percentilis a nagyság szerint rendezett sorban a megfelelő érték Pj =x[h] Ha h egész, akkor számítsuk ki a h-adik és a h+1-edik sorba rendezett elem átlagát: Pj =(x[h] + x[h+1] )/2 Megjegyzés: ez a módszer Tukey-től származik. Vannak más számítási módszerek is, melyek eredménye ettől valamelyest eltérhet. Krisztina Boda Biostat 1. 48

Példa 25%oss percentilis számításra P 25 (=első kvartilis). j=25 Először rendezzük az adatokat növekvő sorrendbe x 1,..., x n x [1],..., x [n], Számítsuk ki: h = j n / 100 Ha h nem egész szám, akkor kerekítsük felfelé a következő egész számra, ekkor a percentilis a nagyság szerint rendezett sorban a megfelelő érték Pj =x[h] Ha h egész, akkor számítsuk ki a h-adik és a h+1-edik sorba rendezett elem átlagát: Pj =(x[h] + x[h+1] )/2 Adatok: 1,2,4,1 (n=4) 1, 2, 4, 1 1, 1, 2, 4 x 1,x 2,x 3,x 4, x [1],x [2],x [3],x [4] Ekkor h = 25 4 / 100 =1 h egész x [1] =1, x [2] =1, P 25 =(1 + 1 )/2=1 Krisztina Boda Biostat 1. 49

Példa 75%os percentilis számítására P 75 (=harmadik kvartilis) j=75 Először rendezzük az adatokat növekvő sorrendbe x 1,..., x n x [1],..., x [n], Számítsuk ki: h = j n / 100 Ha h nem egész szám, akkor kerekítsük felfelé a következő egész számra, ekkor a percentilis a nagyság szerint rendezett sorban a megfelelő érték Pj =x[h] Ha h egész, akkor számítsuk ki a h-adik és a h+1-edik sorba rendezett elem átlagát: Pj =(x[h] + x[h+1] )/2 Adatok: 1,2,4,1 (n=4) 1, 2, 4, 1 1, 1, 2, 4 x 1,x 2,x 3,x 4, x [1],x [2],x [3],x [4] Ekkor h = 75 4 / 100 =3 h egész, x [3] =2, x [4] =4, P 75 =(2 + 4 )/2=3 Krisztina Boda Biostat 1. 50

Példa 25%-os percentilis számítására P 25 (=első kvartilis) j=25 Először rendezzük az adatokat növekvő sorrendbe x 1,..., x n x [1],..., x [n], Számítsuk ki: h = j n / 100 Ha h nem egész szám, akkor kerekítsük felfelé a következő egész számra, ekkor a percentilis a nagyság szerint rendezett sorban a megfelelő érték Pj =x[h] Ha h egész, akkor számítsuk ki a h-adik és a h+1-edik sorba rendezett elem átlagát: Pj =(x[h] + x[h+1] )/2 Adatok: 4,3,5,1,4 (n=5) 4, 3, 5, 1, 5 1, 3, 4, 5, 5 x 1,x 2,x 3,x 4, x 4 x [1],x [2],x [3],x [4],x [5] Ekkor h = 25 5 / 100 =1.25 h nem egész, a legközelebbi egész szám felfelé kerekítve 2 x [2] =3, P 25 =3 Krisztina Boda Biostat 1. 51

Példa 75%-os percentilis számítására P 75 (=harmadik kvartilis) j=75 Először rendezzük az adatokat növekvő sorrendbe x 1,..., x n x [1],..., x [n], Számítsuk ki: h = j n / 100 Ha h nem egész szám, akkor kerekítsük felfelé a következő egész számra, ekkor a percentilis a nagyság szerint rendezett sorban a megfelelő érték Pj =x[h] Ha h egész, akkor számítsuk ki a h-adik és a h+1-edik sorba rendezett elem átlagát: Pj =(x[h] + x[h+1] )/2 Adatok: 4,3,5,1,4 (n=5) 4, 3, 5, 1, 5 1, 3, 4, 5, 5 x 1,x 2,x 3,x 4, x 4 x [1],x [2],x [3],x [4],x [5] Ekkor h = 75 5 / 100 =3.75 h nem egész, a legközelebbi egész szám felfelé kerekítve 4 x [4] =5, P 75 =5 Krisztina Boda Biostat 1. 52

A közép és a szóródás jellemzőinek párosítása Közép Szóródás Közlés cikkekben Átlag Medián Standard deviáció, Standard error Min, max 5%-os, 95%-os percentilis 25 %, 75% (Kvartilisek) Átlag (SD) Átlag SD Átlag SE Átlag SEM Med (min, max) Med(25%, 75%) Krisztina Boda Biostatisztika 1. 53

Az adatok transzformálása Összeadás, kivonás Az adatokhoz ugyanazt a számot hozzáadva (kivonva) a közép mérőszámai jobbra (balra) eltolódnak a hozzáadott számnak megfelelően. Az adatokhoz ugyanazt a számot hozzáadva (kivonva) a szóródás mérőszámai nem változnak. Krisztina Boda Biostatisztika 1. 54

Az adatok transzformálása Szorzás, osztás Az adatokat ugyanazzal a számmal szorozva (osztva) a közép mérőszámai is megszorzódnak (osztódnak) ugyanazzal a számmal. Az adatokat ugyanazzal a számmal szorozva (osztva) a szóródás mérőszámai is megszorzódnak (osztódnak) ugyanazon szám abszolút értékével. Krisztina Boda Biostatisztika 1. 55

Krisztina Boda Biostatisztika 1. 56 Bizonyítás Lineáris transzformációk hatása az átlagra és a standard deviációra Legyen a transzformáció x ->ax+b Átlag: Standard deviáció: b ax n nb x x x a n b ax b ax b ax n b ax n n n i i )... (... 2 1 2 1 1 a SD n x x a n x x a n ax ax n b ax b ax n b ax b ax n i i n i i n i i n i i n i i 1 ) ( 1 ) ( 1 ) ( 1 )) (( 1 )) ( ) (( 1 2 1 2 2 1 2 1 2 1 2

Példa: lineáris transzformációk hatása a mintabeli jellemzőkre Mintaadatok (x i ) Összeadás (x i +10) Kivonás (x i -10) Szorzás (x i *10) Osztás (x i /10) 1 11-9 10 0.1 2 12-8 20 0.2 4 14-6 40 0.4 1 11-9 10 0.1 Átlag=2 12-8 20 0.2 Medián=1.5 11.5-8.5 15 0.15 Terjedelem=3 3 3 30 0.3 St.dev. 1.414 1.414 1.414 14.14 0.1414 Krisztina Boda Biostatisztika 1. 57

Jelenlegi testsúlya /kg/ Percent Kategorikus változók oszlopdiagram kördiagram Ábratípusok Oszlopdiagram 40 nincs válasz 30 felsőfokú végzettség 20 gimnáziumi érettségi 10 0 szakközépiskolai ére 8 ált.-nal kevesebb szakmunkásképző gimnáziumi érettségi nincs válasz 8 ált. szakközépiskolai ére felsőfokú végzettség Apja legmagasabb iskolai végzettsége Kördiagram Apja iskolai végzettsége 8 ált.-nal kevesebb 8 ált. szakmunkásképző Folytonos változók 12 Histogram (kerd97.sta 20v*43c) hisztogram Doboz ábra (box-whisker plot Átlag-szórás ábra Pontábra (scatter plot) No of obs 10 8 6 Box Plot (kerd97 20v*43c) 100 4 2 0 35 40 45 50 55 60 65 70 75 80 85 90 95 NEM: fiú SULY 90 80 70 35 40 45 60 50 55 60 65 70 75 80 85 90 95 SULY 50 40 30 NEM: lány 85 fiú lány NEM 80 75 Mean Plot (kerd97 20v*43c) Median 25%-75% Min-Max Extremes 70 65 SULY 60 55 50 120 Szóródási diagram 45 fiú NEM lány 100 Mean Mean±SD 80 60 40 20 0 40 60 80 100 Kivánatosnak tartott testsúlya /kg/ Krisztina Boda Biostatisztika 1. 58

Ábratípusok a számolt jellemzők alapján 85 Mean Plot (kerd97 20v*43c) 80 Átlag-szórás ábra 75 70 Átlag + SD Átlag + SE SULY 65 60 55 50 Átlag + 95% CI 45 fiú lány NEM Átlag SE Mean Mean±SE 85 Mean Plot (kerd97 20v*43c) 85 Mean Plot (kerd97 20v*43c) 80 80 75 75 70 70 SULY 65 60 SULY 65 60 55 55 50 50 45 fiú NEM lány Mean Mean±0.95 Conf. Interval 45 fiú NEM lány Mean Mean±SD Átlag 95% CI Átlag SD Krisztina Boda Biostatisztika 1. 59

A testsúlyok eloszlása a lányoknál nem szimmetrikus 12 Histogram (kerd97.sta 20v*43c) 10 8 6 No of obs 4 2 0 35 40 45 50 55 60 65 70 75 80 85 90 95 35 40 45 50 55 60 65 70 75 80 85 90 95 NEM: fiú SULY NEM: lány 1. Leíró statisztika Krisztina Boda Biostatisztika 1. 60

Ábratípusok a számolt jellemzők alapján Doboz-ábra (box diagram). A kvartiliseken alapul (Minimum, első kvartilis, medián, második kvartilis, maximum). 100 Box Plot (kerd97 20v*43c) 100 Box Plot (kerd97 20v*43c) 90 90 80 80 70 70 SULY 60 SULY 60 50 50 40 30 fiú NEM lány Median 25%-75% Non-Outlier Range Extremes 40 30 fiú NEM lány Median 25%-75% Min-Max Extremes Krisztina Boda Biostatisztika 1. 61

Box diagram A kiugró értékeket (a doboz hosszának másfélszeresénél messzebb esőket) gyakran speciális karakterrel jelzik (*, ) 100 Box Plot (kerd97 20v*43c) 100 Box Plot (kerd97 20v*43c) 90 90 80 80 70 70 SULY 60 50 SULY 60 50 40 30 fiú NEM lány Median 25%-75% Non-Outlier Range Extremes Krisztina Boda Biostatisztika 1. 62 40 30 fiú NEM lány Median 25%-75% Min-Max Extremes

Kvartilisek és box plot Minimum=150 P 25 =165 P 50 =Medián=170 P 75 =173 Maximum=184 min P 25 Med P 75 max Box plot Krisztina Boda Biostat 1. 63

Kvartilisek és box plot Minimum=40 P 25 =52.5 P 50 =Medián=59 P 75 =67 Maximum=89 min P 25 Med P 75 max Box plot Krisztina Boda Biostat 1. 64

Szóródási ábra (Scatterplot) Két folytonos változó közötti kapcsolat Hallgató Hány órát tanult Grade Jane 8 70 Joe 10 80 Sue 12 75 Pat 19 90 Bob 20 85 Tom 25 95 Krisztina Boda Biostatisztika 1. 65

Szóródási ábra (Scatterplot) Két folytonos változó közötti kapcsolat Hallgató Hány órát tanult Grade Jane 8 70 Joe 10 80 Sue 12 75 Pat 19 90 Bob 20 85 Tom 25 95 Krisztina Boda Biostatisztika 1. 66

Más példák a változók összefüggésére Krisztina Boda Biostatisztika 1. 67

Speciális transzformáció: standardizálás Az ún. z-érték azt méri, hogy egy adott elem az átlagtól hányszoros szórásnyi távolságra esik. Tehát minden egyes elemhez tartozó standardizált z-értéket úgy kapjuk meg, hogy kivonjuk belőle az átlagot és elosztjuk a szórással z x i x i SD, i=1,2,...,n. Az így kapott változó Átlaga=0 Standard deviációja =1 Nincs egysége Krisztina Boda Biostatisztika 1. 68

Példa: standardizálás Mintaadatok(x i ) Standardizált adatok (z i ) 1-1 2 0 4 2 1 1 Átlag 2 0 Szórás 1.414 1 Krisztina Boda Biostatisztika 1. 69

Egyéb statisztikai jellemzők Variációs együttható (coefficient of variation, CV, más néven relatív szórás, RSD) a szórás és az átlag hányadosa (Két mintát összehasonlíthatóvá tesz) Krisztina Boda Biostatisztika 1. 70

Hasznos WEB oldalak Klinikai Biostatisztikai Társaság http://www.biostat.hu Rice Virtual Lab in Statistics http://onlinestatbook.com/rvls.html Statistics on the Web http://www.claviusweb.net/statistics.shtml Hisztogram alakjának változása Old Faithful http://www.stat.sc.edu/~west/javahtml/histogram.html Statisztikai bemutatók (Java) http://www-stat.stanford.edu/~naras/jsm http://www.math.csusb.edu/faculty/stanton/m262/index. html Krisztina Boda Biostatisztika 1. 71

Emlékeztető kérdések és feladatok Mit nevezünk populációnak vagy alapsokaságnak? Mi a statisztikai minta? Statisztikai mintavételre vonatkozó két fő követelmény Mit nevezünk kategorikus adattípusnak? Mit nevezünk folytonos adattípusnak? Adjon 2 példát folytonos adatra Adjon 2 példát kategorikus adatra Adjon 2 példát bináris (dichotóm) adatra Hogy ábrázoljuk grafikusan a folytonos adatokra vett minta gyakorisági eloszlását? Hogy ábrázoljuk grafikusan a kategorikus adatokra vett minta gyakorisági eloszlását? Mi a különbség az abszolút és relatív gyakorisági eloszlás ábrázolása között? Mikor beszélünk jobbra ferde eloszlásról? Mit nevezünk kiugró adatnak? Krisztina Boda Biostatisztika 1. 72

Mik az eloszlás közepét jellemző statisztikai mérőszámok? (felsorolás) Mik a szóródás mérőszámai? (felsorolás) Hogy számoljuk a minta átlagát? Medián definíciója Medián számítási módszere páros és páratlan mintaméret esetén Hogyan következtethetünk az eloszlás szimmetriájára ill. ferdeségére az átlag és a medián nagysága alapján? Mi az összefüggés a szórás (SD) és a variancia között? Mi a standard deviáció jelentése? Hogy számoljuk a minta terjedelmét? Mi az interkvartilis terjedelem? Hány percentilis van? Mi a j-edik percentilis definíciója? Hány kvartilis van? Mi a harmadik kvartilis definíciója? Fealadat: Az X: 4 ; 1 ; 5 ; 4 ; 3 kismintára végezzük el a következőket: a) Relatív gyakorisági diagram ábrázolása b) Átlag és szórás kiszámítása, átlag-szórás-diagram készítése c) Medián, módusz, terjedelem és interkvartilis terjedelem kiszámítása, box-diagram készítése Krisztina Boda Biostatisztika 1. 73

Mi történik a középre vonatkozó mérőszámokkal, ha minden mintaelemhez hozzáadjuk ugyanazt a konstanst? Mi történik a szóródási mérőszámokkal, ha minden mintaelemhez hozzáadjuk ugyanazt a konstanst? Mi történik a középre vonatkozó mérőszámokkal, ha minden mintaelemet ugyanazzal a pozitív konstanssal megszorzunk? Mi történik a szóródási mérőszámokkal, ha minden mintaelemet ugyanazzal a pozitív konstanssal megszorzunk? Mit ad meg a variációs együttható? Mit fejez ki a z-érték? Milyen mérőszámokon alapszik a box-diagram? Milyen mérőszámokon alapszik az átlag szórás-diagram, és mikor alkalmazzuk? A box-diagram és az átlag szórás-diagram közül melyikből következtethetünk a mintaeloszlás szimmetriájára? Krisztina Boda Biostatisztika 1. 74