BIOMATEMATIKA ELŐADÁS



Hasonló dokumentumok
Khi-négyzet próbák. Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Sz ekelyhidi L aszl o Val osz ın us egsz am ıt as es matematikai statisztika *************** Budapest, 1998

Illeszkedésvizsgálat

Párhuzamos programozás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A mérési eredmény hibája

A fiatalok pénzügyi kultúrája Számít-e a gazdasági oktatás?

Elemi statisztika fizikusoknak

Mágneses szuszceptibilitás vizsgálata

Az aktiválódásoknak azonban itt még nincs vége, ugyanis az aktiválódások 30 évenként ismétlődnek!

Kockázatkezelés és biztosítás

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉPSZINT Függvények

11. Matematikai statisztika

A Hozzárendelési feladat megoldása Magyar-módszerrel

Gazdasági matematika II.

Analízis elo adások. Vajda István október 3. Neumann János Informatika Kar Óbudai Egyetem. Vajda István (Óbudai Egyetem)

Statisztika március 11. A csoport Neptun kód

Jelek tanulmányozása

Országos kompetenciamérés 2006

[GVMGS11MNC] Gazdaságstatisztika

Kombinatorika. 9. előadás. Farkas István. DE ATC Gazdaságelemzési és Statisztikai Tanszék. Kombinatorika p. 1/

- mit, hogyan, miért?

Elemi statisztika fizikusoknak

Programozás I gyakorlat

Lineáris algebra gyakorlat

tetszőleges időpillanatban értelmezhető végtelen sok időpont értéke egy véges tartományban bármilyen értéket felvehet végtelen sok érték

Kooperáció és intelligencia

ingyenes tanulmány GOOGLE INSIGHTS FOR SEARCH

Dr. Erbszt András Szt. János Kh. Idegsebészeti Osztály NEVES BETEGBIZTONSÁGI FÓRUM

Radon, Toron és Aeroszol koncentráció viszonyok a Tapolcai Tavas-barlangban

A TANTÁRGY ADATLAPJA

Statisztikai módszerek alkalmazása az orvostudományban. Szentesi Péter

KOVÁCS BÉLA, MATEMATIKA I.

MBLK12: Relációk és műveletek (levelező) (előadásvázlat) Maróti Miklós, Kátai-Urbán Kamilla

TANTÁRGYI ÚTMUTATÓ. Gazdasági matematika II. tanulmányokhoz

A táblázatkezelő felépítése

Conjoint-analízis példa (egyszerűsített)

Mérési hibák

BETONACÉLOK HAJLÍTÁSÁHOZ SZÜKSÉGES l\4"yomaték MEGHATÁROZÁSÁNAK EGYSZERŰ MÓDSZERE

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Trigonometria

Shared IMAP beállítása magyar nyelvű webmailes felületen

Bevezetés az ökonometriába

4. előadás. Statisztikai alkalmazások, Trendvonalak, regresszió. Dr. Szörényi Miklós, Dr. Kallós Gábor

Korszerű geodéziai adatfeldolgozás Kulcsár Attila

[MECHANIKA- HAJLÍTÁS]

Egy El Classico tanulságai

Épületvillamosság laboratórium. Villámvédelemi felfogó-rendszer hatásosságának vizsgálata

Dr. Schuster György február 21. Real-time operációs rendszerek RTOS

Házi dolgozat. Minta a házi dolgozat formai és tartalmi követelményeihez. Készítette: (név+osztály) Iskola: (az iskola teljes neve)

2011. március 9. Dr. Vincze Szilvia

Jelentés a kiértékelésről az előadóknak

Ipari és vasúti szénkefék

Dr. BALOGH ALBERT: AZ ÚJ STATISZTIKAI TERMINOLÓGIA

Egyszerű áramkörök vizsgálata

Azonosító jel: Matematika emelt szint

Környezettechnológiai laboratóriumi gyakorlatok M É R É S I J E G Y Z Ő K Ö N Y V. Enzimtechnológia. című gyakorlathoz

A döntő feladatai. valós számok!

Elméleti összefoglalók dr. Kovács Péter

ÉVKÖZI MINTA AZ EGÉSZSÉGÜGYI BÉR- ÉS LÉTSZÁMSTATISZTIKÁBÓL. (2004. IV. negyedév) Budapest, április

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ. Orvosi laboratóriumi technikai asszisztens szakképesítés Mikrobiológiai vizsgálatok modul. 1.

ÉVKÖZI MINTA AZ EGÉSZSÉGÜGYI BÉR- ÉS LÉTSZÁMSTATISZTIKÁBÓL. (2004. III. negyedév) Budapest, december

Fordítóprogramok Készítette: Nagy Krisztián

Fa- és Acélszerkezetek I. 5. Előadás Stabilitás I. Dr. Szalai József Főiskolai adjunktus

Amit a Hőátbocsátási tényezőről tudni kell

A hasznos élettartamot befolyásoló egyes tényezők elemzése a Tedej Zrt. holstein-fríz állományánál

1. Metrótörténet. A feladat folytatása a következő oldalon található. Informatika emelt szint. m2_blaha.jpg, m3_nagyvaradter.jpg és m4_furopajzs.jpg.

Alapfogalmak áttekintése. Pszichológiai statisztika, 1. alkalom

Bevezetés a lágy számítás módszereibe

Egységes jelátalakítók

1. Nyomásmérővel mérjük egy gőzvezeték nyomását. A hőmérő méréstartománya 0,00 250,00 kpa,

Analízis elo adások. Vajda István szeptember 24. Neumann János Informatika Kar Óbudai Egyetem. Vajda István (Óbudai Egyetem)

Hipotézisvizsgálat. A sokaság valamely paraméteréről állítunk valamit,

Dr. Balogh Albert: A statisztikai adatfeldolgozás néhány érdekessége

Hipotézis-ellenırzés (Statisztikai próbák)

M A G Y A R K O N G R E S S Z U S I I R O D A

ÚTMUTATÓ A KONTROLL ADATSZOLGÁLTATÁS ELKÉSZÍTÉSÉHEZ (2012-TŐL)

1. A skót bakák mellkas körmérete N(88, 10). A skót bakák mekkora hányada fér bele egy 84-es zubbonyba?

Fazekas Mihály Fővárosi Gyakorló Általános Iskola és Gimnázium

Digitális technika (VIMIAA01) Laboratórium 1

Puskás Tivadar Távközlési Technikum

Hőszivattyúk Makk Árpád Viessmann Akadémia. Viessmann Werke Hőszivattyúk. Chart 1

A környezettan tantárgy intelligencia fejlesztő lehetőségei

SZAKÁLL SÁNDOR, ÁsVÁNY- És kőzettan ALAPJAI

3. Egy szabályos dobókockát kétszer feldobva mennyi annak a valószínűsége, hogy a dobott számok különbségének abszolutértéke nagyobb mint 4?

Jelentéskészítő TEK-IK () Válaszadók száma = 610

Az informatika oktatás téveszméi

GAZDASÁGI MATEMATIKA Gyakorlat

#instagramads Az első tapasztalatok. Contact: Eva Drienyovszki Senior Search Specialist

8. Feladat Egy bútorgyár asztalosműhelyében évek óta gyártják a Badacsony elnevezésű konyhaasztalt. Az asztal gyártási anyagjegyzéke a következő:

Diszkrét matematika I. gyakorlat

Vegyes tételek könyvelése felhasználói dokumentum Lezárva:

Fábián Zoltán Hálózatok elmélet

Sokféle matematikai és ezen kívül többféle kifejezetten statisztikai programcsomag

HENYIR felhasználói dokumentáció

Bár a digitális technológia nagyon sokat fejlődött, van még olyan dolog, amit a digitális fényképezőgépek nem tudnak: minden körülmények között

Intézményi jelentés. Összefoglalás. Medgyessy Ferenc Gimnázium és Művészeti Szakközépiskola 4031 Debrecen, Holló László sétány 6 OM azonosító:

1. forduló. MEGOLDÁSOK Pontszerző Matematikaverseny 2015/2016-os tanév

FIT-jelentés :: Intézményi jelentés. Összefoglalás

KOVÁCS BÉLA, MATEMATIKA I.

Átírás:

BIOMATEMATIKA ELŐADÁS 11. Hipotézisvizsgálat, statisztikai tesztek Debreceni Egyetem, 2015 Dr. Bérczes Attila, Bertók Csanád

A diasor tartalma 1 Bevezetés Hipotézis, hibák 2 Statisztikai tesztek u-próba F-próba t-próba χ 2 -próba Normalitásvizsgálat Példa

Bevezetés MIRE JÓK A STATISZTIKAI TESZTEK? A korábbiakban tanultak bár a valószínűségszámítás és a statisztika igen fontos eszközei, közvetlenül mégsem alkalmazhatóak arra, hogy két adatsort összehasonlítsunk egymással, vagy egy adatsort vessünk össze egy előre megadott értékkel. Természetesen alapszintű következtetéseket le tudunk vonni (az egyik populáció átlagos tömege lényegesen eltér a másikétól, a szórásuk azonos, stb.), ám ezen eredmények a tudományos életben nem állják meg a helyüket. Ahhoz, hogy igazán pontos összehasonlítást kapjunk a vizsgált tulajdonságunkra vonatkozólag elengedhetetlen az ún. statisztikai tesztek használata, melyek segítségével megmondható, hogy "a két adatsor pl. 99%-os pontossággal azonosnak/különbözőnek tekinthető".

Bevezetés Megjegyzés Mivel ezen alapszintű kurzus alatt sajnos az idő nem engedi, így a tanult teszteket pontosabb matematikai háttér nélkül, felsorolásszerűen ismertetjük, majd a későbbiekben egy igen elterjedt számítógépes program segítségével, konkrét példákon keresztül mutatjuk be. Hipotézisek A statisztikai vizsgálatok során első lépésben mindig ún. hipotéziseket állítunk fel, melyeket a vizsgálataink során vagy elvetünk, vagy megtartunk. A kiindulási hipotézisünket nullhipotézisnek nevezzük és H 0 -val jelöljük. Ezt követően adott α értékhez meghatározunk egy olyan számhalmazt (kritikus tartományt), melybe a vizsgált statisztikai függvény értéke α valószínűséggel esik, feltéve, hogy a hipotézis igaz.

Bevezetés Ha α elég kicsi, úgy ezen esemény bekövetkezési esélye igen alacsony, így ilyenkor azt mondjuk, hogy a nullhipotézist elvetjük. Ellenkező esetben, azaz ha nem a kritikus tartományba esik a megfigyelt érték, megtartjuk a hipotézist. Hibák Statisztikai vizsgálatok során két fő hibát követhetünk el: 1 Elsőfajú hiba alatt azt értjük, hogy elvetjük a hipotézisünket, holott az mégis igaz. 2 Másodfajú hiba alatt pedig épp ennek fordítottját értjük, azaz azt, hogy elfogadjuk a hipotézist annak ellenére, hogy az nem igaz. Bár mindkét hiba elkövetése igen szerencsétlen a vizsgálat szempontjából, azonban vannak olyan esetek, amikor az egyik elkövetése kisebb problémával jár, mint a másiké (pl. gyógyszer mellékhatásainak vizsgálatánál, ha az a nullhipotézisünk, hogy mellékhatásként rendkívül gyakran lép fel rosszullét).

Statisztikai tesztek Az alábbiakban fontos statisztikai tesztek kerülnek ismertetésre. A korábban említettek alapján a tárgyalásuk során igyekszünk az alábbi pontokra támaszkodni: Paraméteres, vagy nemparaméteres-e a teszt? Mi a nullhipotézis (H 0 ) és ellenhipotézis (H 1 )? Milyen adatsor esetén alkalmazható? Van-e az alkalmazásnak bármilyen előfeltétele? Példa, hogy mire alkalmazzák (számolás nélkül). Szignifikancia szint Legyen α 0 és 1 közé eső szám. Ekkor az alkalmazott statisztikai tesztünk esetén a 100(1 α)% számot szignifikancia szintnek nevezzük. Ez lényegében azt jelenti, hogy (100 α)%-nyi kockázatot vállalunk arra, hogy elsőfajú hibát követünk el. Tehát ha pl. α = 0,01, úgy a tesztünkbe "belekalkuláltuk" azt, hogy 1% eséllyel elvetjük a nullhipotézisünket, holott az mégis igaz.

Statisztikai tesztek - u-próba Egymintás u-próba (z-próba) Paraméteres próba. H 0 : E(ξ ) = m, azaz ha a valószínűségi változónk ξ, úgy a nullhipotézisünk az, hogy ξ várható értéke megegyezik egy előre megadott m értékkel. Az ellenhipotézis Kétoldali próba esetén: H 1 : E(ξ ) m. Egyoldali próba esetén: H 1 : E(ξ ) < m (baloldali ellenhipotézis), vagy H 1 : E(ξ ) > m (jobboldali ellenhipotézis). A használatához szükségesek: ξ eloszlása normális legyen (ezt vagy teszttel, vagy szakirodalom segítségével igazolhatjuk). A valószínűségi változó várható értéke ismeretlen legyen, szórása viszont ismert. ξ egy adott intervallumon minden értéket felvehessen.

Statisztikai tesztek - u-próba Kétmintás u-próba (z-próba) Paraméteres próba. H 0 : E(ξ ) = E(η), azaz ha most két valószínűségi változónk van, akkor a nullhipotézisünk az, hogy ξ és η várható értékei megegyeznek. Az ellenhipotézis: H 1 : E(ξ ) E(η). A használatához szükségesek: A két valószínűségi változó független legyen, eloszlásuk pedig normális (ezeket ellenőrizni kell). A várható értékek ismeretlenek legyenek, a szórások viszont ismertek (azaz ne becsüljük őket). ξ és η értékei egy adott intervallumon tetszőlegesek lehessenek. Példa - egymintás esetben Normális eloszlást feltételezve, az alábbi X mért érték ismeretében igaz-e, hogy a magyarországi felnőtt férfiak testmagasságának átlaga σ = 5 cm-es szórás mellett 178 cm?

Statisztikai tesztek - F-próba F-próba Paraméteres próba. H 0 : D 2 (ξ ) = D 2 (η), azaz ha két valószínűségi változónk van, úgy a nullhipotézis az, hogy a varianciájuk (szórásnégyzetük) megegyezik-e. Az ellenhipotézis: H 1 : D 2 (ξ ) D 2 (η). A használatához szükségesek: A két valószínűségi változó független legyen, eloszlásuk pedig normális (ezeket ellenőrizni kell). A valószínűségi változók várható értéke és szórása ismeretlen legyen. ξ és η értékei egy adott intervallumon tetszőlegesek lehessenek. Felhasználás Leggyakrabban más statisztikai tesztek (pl. t-próba) "előfutáraként" használják, azaz az adott teszt alkalmazhatóságának feltételét ellenőrzik vele.

Statisztikai tesztek - t-próba Egymintás t-próba Paraméteres próba. H 0 : E(ξ ) = m, azaz ugyanaz a nullhipotézis, mint az egymintás u-próba esetén. H 1 : ld. u-próba, mind egyoldali, mind kétoldali esetben. A használatához szükségesek: ξ eloszlása normális legyen. A valószínűségi változó várható értéke és szórása is ismeretlen legyen. ξ értékei egy adott intervallumon tetszőlegesek lehessenek. Példa Igaz-e, hogy normális eloszlás feltételezése mellett, az alábbi X mért érték ismeretében a magyarországi felnőtt férfiak testmagasságának átlaga 178 cm? Itt sem a tényleges átlag, sem a szórás nem ismert, de a minta alapján becsülhető.

Statisztikai tesztek - t-próba Kétmintás t-próba Példa Paraméteres próba. H 0 : E(ξ ) = E(η), azaz a nullhipotézis ugyanaz, mint a kétmintás u-próba esetén. H 1 : szintén a kétmintás u-próba ellenhipotézise a mérvadó. A használatához szükségesek: A két valószínűségi változó független legyen, eloszlásuk pedig normális (ezeket ellenőrizni kell). A valószínűségi változók várható értéke és szórása ismeretlen legyen. A valószínűségi változók szórása azonos legyen (F-próba). ξ és η értékei egy adott intervallumon tetszőlegesek lehessenek. Normális eloszlást feltételezve igaz-e, hogy az alábbi mért X és Y értékek ismeretében a magyarországi és angliai felnőtt férfiak testmagassága megegyezik? A szórásokat nem ismerjük, így először F-próbát alkalmazunk.

Statisztikai tesztek - χ 2 -próba χ 2 -próba Nagyon sok vizsgálatra alkalmazható: Tiszta illeszkedésvizsgálat: H 0 : F ξ = F 0, azaz ebben az esetben az a nullhipotézisünk, hogy az adott valószínűségi változó eloszlásfüggvénye megegyezik-e egy előre megadott eloszlásfüggvénnyel. Tiszta illeszkedésvizsgálat esetén az eloszlás összes paramétere ismert. Becsléses illeszkedésvizsgálat: Szintén azt vizsgálja, hogy ξ eloszlása egy előre megadott típusú-e, ám a paramétereket nem ismerjük, azokat csak becsülni tudjuk a mintából. Homogenitásvizsgálat: H 0 : ξ és η azonos eloszlású. Ezzel két adatsor eloszlásának egyezését tudjuk vizsgálni. Tiszta függetlenségvizsgálat: Ha ismert ξ és η eloszlása, úgy azt vizsgálja, hogy a két valószínűségi változó független-e egymástól. Becsléses függetlenségvizsgálat: Szintén ξ és η függetlenségét vizsgálja, ám ebben az esetben nem ismerjük a két valószínűségi változó eloszlását.

Statisztikai tesztek - χ 2 -próba Megjegyzés A χ 2 -próba diszkrét eloszlások, adatsorok esetén alkalmazható, így normális eloszlást nem tudunk tesztelni vele. Így az u-, t-, F-próbák esetén más tesztet kell alkalmazni a normális eloszlás vizsgálatára. Példa A biológiában leggyakrabban függetlenségvizsgálatra szokták alkalmazni a próbát. Például igaz-e, hogy egy adott populációban a haj- és a szemszín összefügg egymással? Ekkor nyilván diszkrét adatsorról beszélünk, és pl. egy ilyen táblázat készíthető el: Szem Haj Kék Zöld Barna Fekete Szőke 30 fő 23 fő 11 fő 8 fő Vörös 27 fő 39 fő 12 fő 4 fő Barna 43 fő 11 fő 31 fő 8 fő Fekete 20 fő 15 fő 26 fő 37 fő

Statisztikai tesztek - normalitásvizsgálat Normalitásvizsgálat Ahhoz, hogy alkalmazni tudjuk az előadás elején tanult teszteket, elengedhetetlen, hogy a mintánk normális eloszlású legyen. Ezt vagy a szakirodalom alapján döntjük el (pl. testtömeg, testmagasság eloszlása rendszerint normális eloszlást követ), vagy ún. normalitásvizsgálatot alkalmazunk. Ennek több módszere van: Az egyik legszemléletesebb a grafikai eljárás. Ekkor a kapott adatsorunkból hisztogramot készítünk, majd ezt vetjük össze a normális eloszlás görbéjével. Ha az eloszlás normális, akkor a két diagram alakja hasonló.

Statisztikai tesztek - normalitásvizsgálat A másik módszer a ferdeségi/csúcsossági együttható vizsgálata. Normális eloszlás esetén mindkét érték 0. Természetesen a vizsgálatok során sosem fogunk 0 értéket kapni, így ha "elég közel" kerül a 0 értékhez, akkor már elfogadjuk normális eloszlásként. Ferdeségi eh.: 1 n n i=1 (x i x) 3 σ 3, Csúcsossági eh.: 1 n n i=1 (x i x) 4 σ 4 3. Egy elterjedt teszt az ún. Jarque-Bera próba, mely során az alábbi értéket kell kiszámolni: ) n (S 2 + K2, 6 4 ahol S jelenti a ferdeséget, K pedig a csúcsosságot. Ezt követően a χ 2 táblázatból kikeressük a 2 szabadsági fokhoz tartozó χ 2 α értéket és a kiszámolt számot összevetjük ezzel. Ha a kapott számunk nagyobb, mint a táblázatban szereplő érték, akkor az adatsor nem normális eloszlású.

Statisztikai tesztek - normalitásvizsgálat, példa 200, 1995-ben született csecsemő testtömegéről az alábbi hisztogramot készíthetjük: Döntsük el, hogy normális eloszlást követ-e az adatsorunk α = 0,1 választás mellett!

Statisztikai tesztek - normalitásvizsgálat, példa Bár látszólag elég jól kiadja a hisztogram a kívánt haranggörbét, azonban az elején lévő néhány apró érték torzítja az adatsorunkat. Számoljuk ki a ferdeséget és csúcsosságot! x = 3250,155, σ = 25,27. A fentiek alapján számítógép segítségével számolva: Ferdeség = 1, 212, Csúcsosság = 3, 867. Kiszámolva a próbastatisztikát: n 6 ) (S 2 + K2 = 200 4 6 ) (( 1,212) 2 + 3,8672 = 173,579. 4 A táblázatból kikeresve: χ0,1 2 = 4,605, így az eloszlás nem normális.

Statisztikai tesztek - normalitásvizsgálat, példa Megjegyzések A statisztikai programok (pl. az R) a "hagyományos" szórás helyett a korrigált empirikus szórást használja a képletben. Így a kapott értékek minimálisan eltérhetnek (minél nagyobb a mintaelemszám, annál kevésbé). A fenti teszt csak 2000, vagy annál nagyobb mintaszám esetén követi a χ 2 eloszlást. Így kisebb mintaszámnál szimulálni kell a szükséges kritikus értékeket. A kritikus értékek kiszámításához ún. Monte-Carlo szimulációt szokás használni. A szakirodalomban a próbastatisztika gyakran így szerepel: n (S 2 + 6 ) (K 3)2. 4 Ennek oka, hogy a csúcsosságnál nem mindig vonják ki előre a 3-at a számolás során.

Példák Egymintás t-próba Egy felmérés során 10 felnőtt férfi testmagasságát mérték meg cm-ben. Az alábbi értékeket kapták: h 168 172 187 191 179 155 164 170 173 175 Igaz-e, hogy a férfiak átlagos magassága 175 cm? Legyen a szignifikancia-szint 95%!

Példák

Példák Kétmintás t-próba - párosított Egy diéta előtt és után megmérték 10 ember testtömegét és az alábbi értékeket kapták: B 73.2 78.4 71.6 79.7 83.5 69.8 72.1 65.2 71.7 77.4 A 71.3 76.2 72.6 80 81.4 69.2 70 66.1 70.9 72.3 Megjegyzés Vegyük észre, hogy a mintáink nem függetlenek, hiszen ugyanazokat az embereket néztük, csak kezelés előtt és után. Így ún. párosított t-próbát kell alkalmaznunk.

Példák

Példák Kétmintás t-próba Két gyógyszer hatását vizsgáltuk egy 12 és egy 8 emberből álló mintahalmazon. Az alábbi táblázat tartalmazza a hatóidőket percben: A : 13,4, 12,5, 17,8, 20,4, 19,3, 18,9, 16,4, 15,8, 14,3, 14,7, 13,8, 12,7 B : 20,1, 22,3, 25,6, 21,9, 20,3, 21,2, 22,7, 21,9 Igaz-e, hogy az A gyógyszer gyorsabban hat, mint a B? Megjegyzés Mivel a mintáink most függetlenek (a két embercsoport és a gyógyszerek között feltehetően nincs semmi kapcsolat), így ún. kétmintás t-próbát használunk. Mivel arra vagyunk kíváncsiak, hogy az A gyógyszer hatóideje kisebb, mint a másiké, így egyoldali próba kell.

Példák

Példák Mi történik, ha a szórások nem egyeznek meg? Nézzük ugyanazt a kísérletet, de most ezzel az adatsorral: A : 13,4, 12,5, 17,8, 20,4, 19,3, 18,9, 16,4, 15,8, 14,3, 14,7, 13,8, 12,7 B : 10,1, 20,2, 20,3, 25,6, 28,7, 25,2, 26,4, 30,9 Megjegyzés Ahogy látni fogjuk, a szórások nem egyeznek meg, így nem lehet a "hagyományos" t-próbát alkalmazni. Ilyenkor az ún. Welch-próbát kell használni.

Példák