A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Hasonló dokumentumok
A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Hipotézis vizsgálatok

Biostatisztika Összefoglalás

Biostatisztika Összefoglalás

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Bevezetés a hipotézisvizsgálatokba

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Biostatisztika Hipotézisvizsgálatok, egy- és kétoldalas próbák, statisztikai hibák, ANOVA

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Hipotézis vizsgálatok

Biostatisztika VIII. Mátyus László. 19 October

Korreláció és lineáris regresszió

Normális eloszlás paramétereire vonatkozó próbák

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

[Biomatematika 2] Orvosi biometria

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Normális eloszlás tesztje

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Elemszám becslés. Kaszaki József Ph.D. SZTE ÁOK Sebészeti Műtéttani Intézet

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

y ij = µ + α i + e ij

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Statisztika Elıadások letölthetık a címrıl

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.

Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

A konfidencia intervallum képlete: x± t( α /2, df )

Adatok statisztikai értékelésének főbb lehetőségei

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

6. Előadás. Vereb György, DE OEC BSI, október 12.

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

egyetemi jegyzet Meskó Balázs

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

[Biomatematika 2] Orvosi biometria

Normál eloszlás. Gyakori statisztikák

Biometria gyakorló feladatok BsC hallgatók számára

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Kettőnél több csoport vizsgálata. Makara B. Gábor

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Feltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

KÖVETKEZTETŐ STATISZTIKA

Kísérlettervezés alapfogalmak

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Matematika III. 9. Statisztikai hipotézisek Prof. Dr. Závoti, József

Hipotézisvizsgálat R-ben

X PMS 2007 adatgyűjtés eredményeinek bemutatása X PMS ADATGYŰJTÉS

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Eloszlás-független módszerek 13. elıadás ( lecke)

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

IV. Változók és csoportok összehasonlítása

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Az első számjegyek Benford törvénye

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Nem-paraméteres és paraméteres módszerek. Kontingencia tábla, rangtranszformálás, párosított minták, két független minta

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Kísérlettervezés alapfogalmak

Statisztikai alapfogalmak a klinikai kutatásban. Molnár Zsolt PTE, AITI

Többváltozós lineáris regressziós modell feltételeinek

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Statisztika elméleti összefoglaló

Statisztikai módszerek 7. gyakorlat

y ij e ij BIOMETRIA let A variancia-anal telei Alapfogalmak 2. Alapfogalmak 1. ahol: 7. Előad Variancia-anal Lineáris modell ltozó bontását t jelenti.

Matematikai statisztika c. tárgy oktatásának célja és tematikája

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

BIOMETRIA (H 0 ) 5. Előad. zisvizsgálatok. Hipotézisvizsg. Nullhipotézis

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

Matematikai statisztikai elemzések 4.

Matematikai statisztikai elemzések 4.

Varianciaanalízis 4/24/12

Nemparaméteres próbák

Több valószínűségi változó együttes eloszlása, korreláció

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Átírás:

A biostatisztika alapfogalmai, hipotézisvizsgálatok Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Hipotézis Állítás a populációról (vagy annak paraméteréről) Példák H1: p=0.5 (a pénzérme szabályos a dobások fele fej, másik fele írás; p=pl. a fejdobás valószínűsége) H2: p 0.5 ( a pénzérme nem szabályos) H3: =20 (a populáció átlag 20) H4: 20 (a populáció átlag nem 20) Kétféle hipotézis: nullhipotézis általában a szabályosság, egyenlőség feltételezése Ellentéte, az alternatív hipotézis, különbség, eltérés feltételezése. Gyakran ez az, amit bizonyítani szeretnénk. Krisztina Boda 2

Hipotézisek tesztelése Mekkora esélyt adjunk a véletlennek, azaz, mekkora legyen a megbízhatósági szint: akármennyi lehet, (tőlünk függ), általában 95% vagy ami ugyanaz, mekkora legyen a szignifikancia szint: általában 5% ( =0.05) Krisztina Boda 3

A hipotézisvizsgálat menete Hipotézisek felállítása Nullhipotézis (H 0 ): semmi nem történt Alternatív hipotézis (H a ): valami változás van A döntés megbízhatósága (vagy a hiba) rögzítése: =0.05 Döntési szabály felállítása (függ: a kísérleti elrendezéstől, -tól, az elemszámtól) Mintaelemszám (n) meghatározása A minta előállítása (mérés, adatgyűjtés,stb) A döntési szabály kiszámítása Döntés A nullhipotézist elfogadjuk (nincs szignifikáns különbség 100%-os szinten, nincs elegendő információ a különbség (hatás) kimutatására) A nullhipotézist elvetjük, a különbség szignifikáns 100%-os szinten. A tapasztalt különbség nem csupán a véletlen műve, valami más hatás (kezelés??) is közbejátszott. Krisztina Boda 4

Egymintás t-próba Hipotézis-vizsgálat a normális eloszlású populáció μ átlagára Példa. Egy cég 16 ml-es üvegekben árul bizonyos szert. Az üvegeket egy automata tölti. Ha nem tölt pontosan, tehát többet vagy kevesebbet tölt az üvegekbe, akkor a töltést le kell állítani és újra be kell állítani az automatát. A cég csak akkor állítja le a folyamatot, ha nagyon biztos abban, hogy az átlagos töltés a 16 ml alatt vagy felett van. Az automata adott beállítása esetén az összes lehetséges legyártott vagy legyártható üvegek (végtelen) populációjáról van szó, amely populáció átlaga, =16. A gyártás ellenőrzésére időnként véletlenszerűen kiválasztanak néhány üveget (minta), ennek alapján próbálnak következtetni a populációra. Tegyük fel, hogy a következő, hatelemű mintát kapták az egyik ellenőrzés során: 15.68, 16.00, 15.61, 15.93, 15.86, 15.72. Mintaátlag=15.8, SD=0.153 Leállítsuk az automatát vagy nem? H O : A populáció átlag 16, =16 H a : A populáció átlag nem 16, 16 (kétoldalas) Krisztina Boda 5

Egymintás t-próba nullhipotézise, feltétele Adott x 1, x 2,, x n statisztikai minta, amely N(, 2 ) normális eloszlású populációból származik. H0: =c (c adott konstans) Ha: c Krisztina Boda 6

Döntési szabály a konfidencia intervallum alapján Általában Ha c benne van az intervallumban: megtartjuk a nullhipotézist, a különbség nem szignifikáns adott szinten Ha c nincs benne az intervallumban : elvetjük a nullhipotézist, a különbség szignifikáns adott szinten Esetünkben Adjuk meg a populáció-átlagra vonatkozó 95%-os konfidencia intervallumot! =0.05, df=5, t 5,0.05 =2.57, mintaátlag=15.8, SD=0.153 SE=SD/ n=0.153/ 6. A konfidencia intervallum: (mintaátlag t 5,0.05 *SE, mintaátlag + t 5,0.05 * SE )= (15.8-2.57* 0.153/ 6, 15.8-2.57* 0.153/ 6) =(15.64, 15.96) Döntés: Mondhatjuk-e a konfidencia intervallum, hogy a minta-adatok 16 átlagú populációból származnak? A konfidencia-intervallum az a tartomány, amely a populáció-átlagot nagy valószínűséggel lefedi. Esetünkben 16 nincs benne a konfidencia intervallumban, tehát a különbség szignifikáns 5%-os szinten. Krisztina Boda 7

Döntési szabály a t-érték alapján Általában Számítsuk ki a következő ún. próbastatisztikát: x c SE Ha igaz a nullhipotézis és teljesül a feltétel, a t próbastatisztika n-1 szabadságfokú t-eloszlást követ. Ekkor megadható az a tartomány, ahova a t nagy valószínűséggel beleesik - elfogadási tartomány. Ennek határait a t-eloszlás táblázatából keressük ki a megfelelő szabadságfok és alapján. Az elfogadási tartomány a változó azon értékeinek halmaza, amelyekre elfogadjuk a nullhipotézist : (- t tábla, t tábla ) A kritikus tartomány ennek ellentettje. A kritikus tartomány értékeire a nullhipotézist nem fogadjuk el. Döntési szabály: ha t >t tábla, a különbség szignifikáns adott szinten ha t <t tábla, a különbség nem szignifikáns adott szinten Esetünkben: (15.8 16) t 6 3.2 0.153 Szabadságfok: n-1=6-1=5 t 5,0.05 =2.57 (táblázatbeli érték): Döntés: -3.2 >2.57, a különbség szignifikáns 5%-os szinten t t=-3.2 Elfogadási tartomány Krisztina Boda 8

Döntési szabály a p-érték alapján Általában p-érték: a mi általunk számított t-érték által az eloszlásból az eloszlás két széléről levágott terület nagysága* Annak valószínűsége, hogy ha igaz a nullhipotézis (=nincs hatás), a tapasztalt eltérést vagy annál még nagyobb eltérést kapjunk Döntés: ha a p<, akkor a különbség szignifikáns adott szinten Ha p>, akkor a különbség nem szignifikáns adott szinten Esetünkben: p=0.024<0.05, a különbség szignifikáns 5%-os szinten t=-3.2 Elfogadási tartomány *H a : c esetén kétoldalas próba lásd később Krisztina Boda 9

t =3.2 df=5 p=0.024 valószínűségek df 0.2 0.1 0.05 0.02 0.01 0.001 1 3.077684 6.313752 12.7062 31.82052 63.65674 636.6192 2 1.885618 2.919986 4.302653 6.964557 9.924843 31.59905 3 1.637744 2.353363 3.182446 4.540703 5.840909 12.92398 4 1.533206 2.131847 2.776445 3.746947 4.604095 8.610302 5 1.475884 2.015048 2.570582 3.36493 4.032143 6.868827 6 1.439756 1.94318 2.446912 3.142668 3.707428 5.958816 7 1.414924 1.894579 2.364624 2.997952 3.499483 5.407883 8 1.396815 1.859548 2.306004 2.896459 3.355387 5.041305 9 1.383029 1.833113 2.262157 2.821438 3.249836 4.780913 10 1.372184 1.812461 2.228139 2.763769 3.169273 4.586894 11 1.36343 1.795885 2.200985 2.718079 3.105807 4.436979 12 1.356217 1.782288 2.178813 2.680998 3.05454 4.317791 13 1.350171 1.770933 2.160369 2.650309 3.012276 4.220832 14 1.34503 1.76131 2.144787 2.624494 2.976843 4.140454 15 1.340606 1.75305 2.13145 2.60248 2.946713 4.072765 Krisztina Boda 10

Az egymintás t-próba során alkalmazható egyenértékű döntési szabályok. Feltétel: normalitás 1. H0: =c, (c adott konstans). 2. Ha: c. 3. rögzítsük a hibavalószínűséget. 4. Állapítsuk meg a mintaelemszámot n 5. Mérjük le (gyűjtsük be) az adatokat, ( x 1, x 2,..., x n.), számítsuk ki a minta-átlagot és szórást 6. A döntési szabály: Konfidencia intervallum Döntési szabályok s s (x t, x t ) n n Kritius pontok (t-érték) x c x c t SD SE n t = a kétoldalas t-táblázatból nyert, n-1 szabadságfokhoz és -hoz tartozó kritikus érték p-érték A p-értéket számítógépes programmal lehet kiszámolni 7. Döntés a) H a : elvetjük H0-t, a különbség szignifikáns 100%-os szinten. a) H0 : nem vetjük el H0-t, a különbség nem szignifikáns 100%-os szinten. Döntés Konfidencia intervallum c nincs benne a konfidenicaintervallumban c benne van a konfidenicaintervallumban Kritius pontok (t-érték) p-érték t t p < t t p > Krisztina Boda 11

R program > data=c(15.68, 16.00, 15.61, 15.93, 15.86, 15.72) > mean(data);sd(data) [1] 15.8 [1] 0.1532319 > t.test(data, mu=16) One Sample t-test data: data t = -3.1971, df = 5, p-value = 0.02407 alternative hypothesis: true mean is not equal to 16 95 percent confidence interval: 15.63919 15.96081 sample estimates: mean of x 15.8 Értelmezés. Null-és alternatív hipotézis leolvasható a harmadik sorból (bár csak az alternatív van kiírva). Tehát H0: =16, Ha: 16 Próbastatisztika, szabadságfok: t=-3.1971, szabadságfok=5. Ez alapján táblázatból kereshetjük ki a döntést ehhez kell egy t-táblázat. p-érték p=0.00247. p<0.05, a különbség szignifikáns 5%-os szinten. 95%-os konfidenciaintervallum: (15.63-15.96). A populációátlag eltér 16-tól, a különbség szignifikáns 5%-os szinten, mivel a konfidenciaintervallum nem tartalmazza a 16-ot. Krisztina Boda 12

Egymintás t-próba, mintapélda II. Hipotézisvizsgálat a normális eloszlású populáció μ átlagára Egy kezelés során szükségessé vált annak ellenőrzése, hogy az milyen hatással van a vérnyomásra. A vizsgált paciensek korcsoportjában a systolés vérnyomás normálértéke 120. Lehetsége-e, hogy a minta-adatok 120 átlagú populációból származnak? Döntsünk 5%-os szinten! H O : A populáció átlag 120, =120 H a : A populáció átlag nem 120, 120 (kétoldalas próba, részletesen később) =0 Mintavétel, adatok: n=9 személyen a következő értékeket kapták: 182 152 178 157 194 163 144 114 174 Leíró statisztikák: n=9, átlag=162, SD=23.92. Döntés 95%-os konfidencia-intervallum alapján: t 8,0.05 =2.306 A standard error, SE=SD/ n=7.97. 95% CI (átlag - t 8,0.05 *SE, átlag + t 8,0.05 *SE )=(143.61,180.386) Döntés: 120 nincs benne a konfidencia intervallumban, a különbség szignifikáns 5%-os szinten Döntés t-érték alapján: (162 120) t 5.27 7.97 t =5.27 > 2.306, a különbség szignifikáns 5%-os szinten Döntés p-érték alapján: p=0.0007 <0.05. Mivel p<0.05, a különbség szignifikáns 5%-os szinten Krisztina Boda 13

Eredmények az SPSS programmal A t-érték és szabadságfok alapján történő döntéshez szükségünk van a t-táblázatra p-érték, Ha p<, a különbség szignifikáns, Ha p>, a különbség nem szignifikáns Krisztina Boda 14

Eredmények az R programmal > bp <- c(182, 152, 178, 157, 194, 163, 144, 114, 174) > t.test(bp, mu=120 One Sample t-test data: bp t = 5.2672, df = 8, p-value = 0.0007579 alternative hypothesis: true mean is not equal to 120 95 percent confidence interval: 143.6121 180.3879 sample estimates: mean of x 162 Krisztina Boda valószínűségek df 0.2 0.1 0.05 0.02 0.01 0.001 1 3.077684 6.313752 12.7062 31.82052 63.65674 636.6192 2 1.885618 2.919986 4.302653 6.964557 9.924843 31.59905 3 1.637744 2.353363 3.182446 4.540703 5.840909 12.92398 4 1.533206 2.131847 2.776445 3.746947 4.604095 8.610302 5 1.475884 2.015048 2.570582 3.36493 4.032143 6.868827 6 1.439756 1.94318 2.446912 3.142668 3.707428 5.958816 7 1.414924 1.894579 2.364624 2.997952 3.499483 5.407883 8 1.396815 1.859548 2.306004 2.896459 3.355387 5.041305 9 1.383029 1.833113 2.262157 2.821438 3.249836 4.780913 10 1.372184 1.812461 2.228139 2.763769 3.169273 4.586894 11 1.36343 1.795885 2.200985 2.718079 3.105807 4.436979 12 1.356217 1.782288 2.178813 2.680998 3.05454 4.317791 13 1.350171 1.770933 2.160369 2.650309 3.012276 4.220832 14 1.34503 1.76131 2.144787 2.624494 2.976843 4.140454 15 1.340606 1.75305 2.13145 2.60248 2.946713 4.072765 15

Másik mintafeladat Két oktató beszélget: vajon mennyi lehet az elsőéves idegen nyelven tanuló hallgatók átlagéletkora? Az egyik oktató szerint ez 20 év, a másik oktató ezzel nem ért egyet. Oktató#1: A populáció-átlag 20. H0: μ=20 Oktató#2: A populáció-átlag nem 20. Ha: μ 20 Krisztina Boda 16

Egymintás t-próba Döntési szabály: konfidencia intervallum H 0 : =20, H a : 20 α =0.05 Adatgyűjtés. n=137 Minta átlag=20.87 Minta SD=3.071 95%-os konfidenica intervallum számítás a populáció átlagra: Szabadságfok=136, t 136,0.05 =1.977 t SD n 3.071 1.977 1.977 0.262 0.518 137 Alsó határ: 20.87-0.518=20.352 Felső határ: 20.87+0.518=21.388 Az intervallum: (20.35-21.39). Az igazi átlag (a populációátlag) ebben az intervallumban van, 95%-os valószínűséggel. Döntési szabály: ellenőrizzük, hogy a hipotézisben szereplő feltételezett átlag (20) benne van-e az intervallumban Döntés 20 nincs benne a 95%-os konfidencia-intervallumban, ezért a nullhipotézist elvetjük és azt mondjuk, hogy a különbség szignifikáns 5%-os szinten. Krisztina Boda 17

Egymintás t-próba Döntési szabály: kritikus érték H 0 : =20, H a : 20 α =0.05 Adatgyűjtés. n=137 Minta átlag=20.87 Minta SD=3.071 Próbastatisztika (t-érték) számítása: x c t SE 20.87 20 3.321 0.262 Ha H0 igaz, akkor a próbastatisztika n-1=136 szabadságfokú t-eloszlást követ. A t-eloszlás táblázatából meghatározható a kritikus érték, ennek segítségével az elfogadási tartomány: (- 1.977, 1.977) És ennek ellentéte, az elutasítási tartomány Döntési szabály: ellenőrizzük, hogy az általunk számolt próbastatisztika értéke benne van-e az elfogadási intervallumban Döntés t=3.321 nincs az elfogadási intervallumban, 3.321>1.977, t >t table, ezért a nullhipotézist elvetjük és azt mondjuk, hogy a különbség szignifikáns 5%-os szinten. 0.5 0.4 0.3 0.2 0.1 0.0 y=student(x;136) -3-2 -1 0 1 2 3 Elfogadási intervallum t=3.321 1.0 0.8 0.6 0.4 0.2 0.0-3 Krisztina Boda 18

H 0 : =20, H a : 20 α =0.05 Adatgyűjtés. n=137 Minta átlag=20.87 Minta SD=3.071 Egymintás t-próba Döntési szabály: p-érték 20.87 20 3.321 0.262 Próbastatisztika (t-érték) számítása: A p-érték a t-eloszlásból a próbastatisztika által levágott szélső területek nagysága Annak valószínűsége, hogy ha igaz a nullhipotézis, a kapott, vagy annál nagyobb eltérést kapunk Döntés: p=0.001152<0.05, ezért a nullhipotézist elvetjük és azt mondjuk, hogy a különbség sziginifkáns 5%-os szinten. t x c SE Elfogadási intervallum t=3.321 p=.001152 Krisztina Boda 19

Eredmények az SPSS programmal One-Sample Statistics Age Age in years Std. Error N Mean Std. Dev iation Mean 137 20.87 3.071.262 One-Sample Test Age Age in years Test Value = 20 95% Confidence Interv al of the Mean Diff erence t df Sig. (2-tailed) Dif f erence Lower Upper 3.324 136.001.872.35 1.39 A t-érték és szabadságfok alapján történő döntéshez szükségünk van a t-táblázatra p-érték, Ha p<, a különbség szignifikáns, Ha p>, a különbség nem szignifikáns Krisztina Boda 20

> t.test(age,mu=20) Eredmények R-rel One Sample t-test data: Age t = 3.324, df = 136, p-value = 0.00114 alternative hypothesis: true mean is not equal to 20 95 percent confidence interval: 20.35332 21.39120 sample estimates: mean of x 20.87226 t-érték (próbastatisztika) és szabadságfok. A döntéshez szükségünk van egy t- táblázatra p-value Ha p<, a különbség szignifikáns szinten, Konfidenciaintervallum a populációátlagra. Azt nézzük, hogy a nullhipotézisben szereplő konstans (=true mean) benne van-e az intervallumban Krisztina Boda 21

Páros t-próba Adott két összetartozó minta, azaz ugyanazokon az egyedeken ugyanazt a változót kétszer megmérték önkontrollos kísérlet (kezelés előtti és utána adatok), vagy más módon összetartozó adatok pl. jobb oldal-bal oldal Vagy illesztett párok- matched pairs (különböző személyek, de a kísérlet szempontjából párba állíthatók) Nullhipotézis: a két minta-átlag ugyanannak a populáció-átlagnak a közelítése, (nincs kezelés-hatás, a tapasztalt különbség véletlen) H 0 : előtt = után vagy különbség = 0 (c=0)!! Alternatív hipotézis: van hatás. H a : előtt után vagy különbség 0 Feltétel: a különbség-minta normális eloszlású populációból származik Döntési szabály: Konfidencia intervallum a különbségre t-érték számítás és összehasonítás a táblázattal p-érték (szoftver) Krisztina Boda 22

Páros t-próba, döntési szabályok Rögzítjük -t ( =0.05) Konfidenciaintervallum a különbségre Ha 0 benne van a 95%-os konfidenciaintervallumban, elfogadjuk H0-t, és azt mondjuk, hogy a különbség nem szignifikáns 5%-os szinten Ha 0 nincs benne a 95%-os konfidenciaintervallumban, elvetjük H0-t, és azt mondjuk, hogy a különbség szignifikáns 5%-os szinten t-érték alapján. Kiszámítjuk t-t, xkül t kikeressük a táblabeli kritikus SEkül értéket t tábla =t n-1, Ha t <t tábla, elfogadjuk H0-t, és azt mondjuk, hogy a különbség nem szignifikáns 5%-os szinten Ha t >t tábla, elvetjük H0-t, és azt mondjuk, hogy a különbség szignifikáns 5%-os szinten p-érték alapján Ha p>, elfogadjuk H0-t, és azt mondjuk, hogy a különbség nem szignifikáns 5%-os szinten Ha p<, elvetjük H0-t, és azt mondjuk, hogy a különbség szignifikáns 5%-os szinten Krisztina Boda 23

Páros t-próba, példa Egy vizsgálat során egy speciális diéta hatását tesztelték. Szeretnénk ellenőrizni, vajon a diéta hatásos volt-e. A különbség-átlag=4 kg. Ez nagy vagy kis különbség? Véletlenül kaptunk-e ekkora eltérést (azaz, akár nulla is lehetne), vagy ekkora eltérést már nem minősíthetünk véletlen hatásnak? Before After Difference 85 86-1 95 90 5 75 72 3 110 100 10 81 75 6 92 88 4 83 83 0 94 93 1 88 82 6 105 99 6 Mean 90.8 86.8 4. SD 10.79 9.25 3.333 Krisztina Boda 24

Páros t-próba, példa (folytatás) Gondolatmenet: ha a kezelés nem hatásos, az átlagos különbség kicsi (közel 0). Ha a diéta hatásos, az átlagos különbség nagy. A populációra nézve ez a következő hipotéziseket jelenti: H 0 : előtt = után vagy különbség = 0 (c=0)!! H 0 : előtt után vagy különbség 0 Legyen =0.05. A szabadságfok=10-1=9, t táblázat =t 0.05,9 =2.262 átlag=4, SD=3.333 SE=3.333/ 10=1.054 Krisztina Boda 25

Páros t-próba, példa (folytatás) Döntés a konfidencia-intervallum alapján: 95%CI: (4-2.262*1.054, 4+2.262*1.054)=(1.615, 6.384) Ha H0 igaz, akkor a 0 benne van a konfidenciaintervallumban Most 0 nincs benne a 95%-os konfidencia-intervallumabn, ezért döntésünk az, hogy a különbség szignifikáns 5%-os szinten, a kezelés hatásos volt Az átlagos súlyveszteség a mintában 4 kg. 95% bizonyosak vagyunk abban, hogy a populációban az átalgso súlyveszteség akár 6.36 is lehetne, de minimum 1.615. Krisztina Boda 26

Páros t-próba, példa (folytatás) Döntés a próbastatisztika alapján (t-érték: x c t SE x 0 SE 4 1.054 3.795 Azt hasonlítjuk a táblabeli kritikus értékhez. t =3.795>2.262(=t 0.05,9 ), a különbség szignifikáns 5%- os szinten Döntés p-érték alapján: p=0.004, p<0.05, a különbség szignifikáns 5%- os szinten Elfogadási tartomány t számított, próbastatisztika t tábla, kritikus érték Krisztina Boda 27

Példa. Tegyük fel, hogy 8 önként vállalkozó beteg kezelése során a következő systolés vérnyomásértékeket kaptuk (fiktív adatok) =0.05, és 7 -es szabadságfokhoz tartozó kritikus érték a t-eloszlás táblázatából t 0.025,7 =2.365. Kezelés előtt Kezelés után Különbség 170 150 20 160 120 40 150 150 0 150 160-10 180 150 30 170 150 20 160 120 40 160 130 30 d =21.25 s d =18.077 t =3.324 Döntés: t =3.324>2.365, tehát elvetjük H 0 -t és azt mondjuk, hogy a populáció átlagok közötti különbség szignifikáns 5 %-os szinten. A döntés hibája első fajta hiba, valószínűsége 0.05. 95%-os konfidencia-intervallum a különbségre: (6.137, 36.36) p-érték: p=0.013 Krisztina Boda 28

Eredmény R-rel > e=c(170,160,150,150,180,170,160,160) ########előtt > u=c(150,120,150,160,150,150,120,130) > t.test(e,u,paired=true) ########után # a páros t-próba Paired t-test data: e and u t = 3.3249, df = 7, p-value = 0.01268 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 6.13707 36.36293 sample estimates: mean of the differences 21.25 Krisztina Boda 29

Példa az orvosi irodalomból Krisztina Boda 30

Példa az orvosi irodalomból Krisztina Boda 31

A cikk részletei Krisztina Boda 32

Krisztina Boda 33

Student féle t-próbák Általános cél. A Student t-próbák normális eloszlású populációk átlagait vizsgálják. A hipotézisek teszteléséhez egy t próbastatisztikát használnak, amely a nullhipotézis fennállása esetén adott szabadságfokú t-eloszlást követ. Egymintás t-próba. Adott egyetlen minta, amelyről feltesszük, hogy normális eloszlásból származik. A próbával azt teszteljük, hogy a populációátlag lehet-e egy adott konstans H0: =c Páros t-próba (= egymintás t-próba a különbségekre). Két összetartozó mintát vizsgál. Feltételezzük, hogy a különbség-minta normális eloszlásból származik. A próbával azt teszteljük, hogy a különbség-átlag a populációban lehet-e nulla H0: különbség =0 Kétmintás t-próba ( independent samples t-test). Két független mintánk van, mindegyikről feltétezzük, hogy normális eloszlású populációból származik. A próbával azt teszteljük, hogy a két populáció-átlag azonos-e H0: 1 = 2 Krisztina Boda 34

Ellenőrző kérdések és feladatok A hipotézis fogalma Null- és alternatív hipotézis A hipotézisvizsgálat lépései Az egymintás t-próba null- és alternatív hipotézise Az egymintás t-próba döntési szabályai Az egymintás t-próba nullhipotézisének tesztelése konfidenciaintervallum alapján Az egymintás t-próba nullhipotézisének tesztelése t-érték alapján Az egymintás t-próba nullhipotézisének tesztelése p-érték alapján A p-érték jelentése A statisztikai szignifikancia jelentése és értelmezése Krisztina Boda 35

Feladatok Egy vizsgálatban, 10 egészséges nő systolés vérnyomását vizsgálva, az átlag 119, a standard error 0.664. Feltéve, hogy a minta normális eloszlású populációból származik, ellenőrizzük, hogy a populáció-átlag 125-e? ( =0.05, t tábla =2.26). Egy új gyógyszer kipróbálásakor 5 betegen megmérték a systolés vérnyomást a gyógyszer beadása előtt és utána. Az átlagos különbség = 6, a különbségek standard errorja SE=4.65. Végezze el a megfelelő statisztikai próbát annak ellenőrzésére, hogy a két átlag között kimutatható-e szignifikáns különbség. ( =0.05, t tábla =2.57) Krisztina Boda 36

Hasznos WEB oldalak Klinikai Biostatisztikai Társaság http://www.biostat.hu Rice Virtual Lab in Statistics http://onlinestatbook.com/rvls.html Statistics on the Web http://www.claviusweb.net/statistics.shtml http://onlinestatbook.com/stat_sim/robustness/i ndex.html Krisztina Boda 37