Biostatisztika Hipotézisvizsgálatok, egy- és kétoldalas próbák, statisztikai hibák, ANOVA

Hasonló dokumentumok
Elemszám becslés. Kaszaki József Ph.D. SZTE ÁOK Sebészeti Műtéttani Intézet

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Hipotézis vizsgálatok

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Hipotézis vizsgálatok

Biostatisztika Összefoglalás

Biostatisztika Összefoglalás

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Bevezetés a hipotézisvizsgálatokba

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

y ij = µ + α i + e ij

Biomatematika 13. Varianciaanaĺızis (ANOVA)

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

[Biomatematika 2] Orvosi biometria

Varianciaanalízis 4/24/12

Kettőnél több csoport vizsgálata. Makara B. Gábor

Korreláció és lineáris regresszió

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Biostatisztika VIII. Mátyus László. 19 October

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Normál eloszlás. Gyakori statisztikák

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

Normális eloszlás tesztje

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Normális eloszlás paramétereire vonatkozó próbák

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

Adatok statisztikai értékelésének főbb lehetőségei

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Statisztikai szoftverek esszé

1., Egy területen véletlenszerűen kihelyezet kvadrátokban megszámlálták az Eringium maritimum (tengerparti ördögszekér) egyedeit.

2012. április 18. Varianciaanaĺızis

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018

X PMS 2007 adatgyűjtés eredményeinek bemutatása X PMS ADATGYŰJTÉS

[Biomatematika 2] Orvosi biometria

Feltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

6. Előadás. Vereb György, DE OEC BSI, október 12.

Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.

IV. Változók és csoportok összehasonlítása

BIOMETRIA (H 0 ) 5. Előad. zisvizsgálatok. Hipotézisvizsg. Nullhipotézis

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Többváltozós lineáris regressziós modell feltételeinek

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Esetelemzés az SPSS használatával

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

y ij e ij BIOMETRIA let A variancia-anal telei Alapfogalmak 2. Alapfogalmak 1. ahol: 7. Előad Variancia-anal Lineáris modell ltozó bontását t jelenti.

KISTERV2_ANOVA_

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Statisztika elméleti összefoglaló

A konfidencia intervallum képlete: x± t( α /2, df )

BIOMETRIA_ANOVA_2 1 1

Több laboratórium összehasonlítása, körmérés

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

KÖVETKEZTETŐ STATISZTIKA

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Statisztika Elıadások letölthetık a címrıl

Variancia-analízis (folytatás)

Klinikai és Bírósági Alkalmazások Valószínűségszámítási Modellek BREUER-LÁBADY PÉTER

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Biostatisztika 2. Dr. Dinya Elek Dr. Solymosi Róbert: Biometria a klinikumban Dr. Dinya Elek: Biostatisztika c. művei alapján

Sztochasztikus kapcsolatok

Statisztikai alapfogalmak a klinikai kutatásban. Molnár Zsolt PTE, AITI

Biomatematika 2 Orvosi biometria

Kísérlettervezés alapfogalmak

Nem-paraméteres és paraméteres módszerek. Kontingencia tábla, rangtranszformálás, párosított minták, két független minta

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

Statisztikai becslés

SPSS ÉS STATISZTIKAI ALAPOK II.

Több valószínűségi változó együttes eloszlása, korreláció

Statisztikai csalások és paradoxonok. Matematikai statisztika Gazdaságinformatikus MSc november 26. 1/31

Az első számjegyek Benford törvénye

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

Kísérlettervezés alapfogalmak

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

Átírás:

Biostatisztika Hipotézisvizsgálatok, egy- és kétoldalas próbák, statisztikai hibák, ANOVA Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Hipotézisvizsgálatok A hipotézisvizsgálat során a rendelkezésre álló adatok (statisztikai minta) alapján az egész jelenség (populáció) tulajdonságaira következtetünk. Azt vizsgáljuk, hogy a tapasztalt eredmény (különbség) nagyobb-e, mint amit a véletlen önmagában okoz. Krisztina Boda 2

Mintavétel, szimuláció Legyen a populáció 120 átlagú, 10 szórású normális eloszlás, ebből veszünk 50 elemű mintákat Krisztina Boda 3

25 Histogram: s2 K-S d=.08901, p>.20; Lilliefors p>.20 Expected Normal 20 15 No. of obs. 10 5 0 80 90 100 110 120 130 140 150 160 X <= Category Boundary Krisztina Boda 4

20 Histogram: s3 K-S d=.06554, p>.20; Lilliefors p>.20 Expected Normal 18 16 14 12 10 No. of obs. 8 6 4 2 0 80 90 100 110 120 130 140 150 160 X <= Category Boundary Krisztina Boda 5

25 Histogram: s4 K-S d=.05667, p>.20; Lilliefors p>.20 Expected Normal 20 15 No. of obs. 10 5 0 80 90 100 110 120 130 140 150 160 X <= Category Boundary Krisztina Boda 6

20 Histogram: s5 K-S d=.06256, p>.20; Lilliefors p>.20 Expected Normal 18 16 14 12 10 No. of obs. 8 6 4 2 0 80 90 100 110 120 130 140 150 160 X <= Category Boundary Krisztina Boda 7

22 Histogram: s6 K-S d=.11902, p>.20; Lilliefors p<.10 Expected Normal 20 18 16 14 12 10 No. of obs. 8 6 4 2 0 80 90 100 110 120 130 140 150 160 X <= Category Boundary Krisztina Boda 8

25 Histogram: s7 K-S d=.07360, p>.20; Lilliefors p>.20 Expected Normal 20 15 No. of obs. 10 5 0 80 90 100 110 120 130 140 150 160 X <= Category Boundary Krisztina Boda 9

átlag + SD 120 átlagú, 10 szórású populációból származó 50 elemű minták átlagai és szórásai 140 120 100 80 60 40 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ismétlés Krisztina Boda 10

Mekkora lehet a véletlen ingadozás? A minták átlagai 120 körül ingadoznak, ha nem történik semmi, csak sima ismétlés Két mérés különbségének átlaga a 0 körül ingadozik Mekkora az a különbség, amit már nem a véletlen okoz? Krisztina Boda 11

Nullhipotézis: véletlen ingadozást mértem, semmi nem történt. A különbség 0 körül ingadozik 0.5 0.4 0.3 y=student(x;49) Hipotézisek 1.0 0.8 0.6 Alternatív hipotézis: a véletlen ingadozásnál nagyobbat mértem, valami történt A különbség 0-tól eltérő szám körül ingadozik p=2*(1-istudent(abs(x);49))??? 0.2 0.4 0.1 0.2 0.0 0.0-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 0 Krisztina Boda 12

Hipotézisek tesztelése Mekkora esélyt adjunk a véletlennek? (Megbízhatósági szint). Akármennyi lehet, (tőlünk függ), általában 95% Mekkora esélyt adjunk annak, hogy esetleg hibásan döntünk (szignifikancia szint) Általában 5% ( =0.05) Krisztina Boda 13

A hipotézisvizsgálat menete Hipotézisek felállítása Nullhipotézis: semmi nem történt Alternatív hipotézis: valami változás van A döntés megbízhatósága (vagy a hiba) rögzítése: =0.05 Döntési szabály felállítása (függ: a kísérleti elrendezéstől, -tól, az elemszámtól) Minta-elemszám meghatározása A minta előállítása (mérés, adatgyűjtés,stb) A döntési szabály kiszámítása Döntés A nullhipotézist elfogadjuk (nincs szignifikáns különbség szinten, nincs elegendő információ a különbség (hatás) kimutatására) A nullhipotézist elvetjük, a különbség szignifikáns %-os szinten. A tapasztalt különbség nem csupán a véletlen műve, valami más hatás (kezelés??) is közbejátszott. Krisztina Boda 14

Student féle t-próbák Általános cél. A Student t-próbák normális eloszlású populációk átlagait vizsgálják. A hipotézisek teszteléséhez egy t próbastatisztikát használnak, amely a nullhipotézis fennállása esetén adott szabadságfokú t-eloszlást követ. Egymintás t-próba. Adott egyetlen minta, amelyről feltesszük, hogy normális eloszlásból származik. A próbával azt teszteljük, hogy a populációátlag lehet-e egy adott konstans H0: =c Páros t-próba (= egymintás t-próba a különbségekre). Két összetartozó mintát vizsgál. Feltételezzük, hogy a különbség-minta normális eloszlásból származik. A próbával azt teszteljük, hogy a különbség-átlag a populációban lehet-e nulla H0: különbség =0 Kétmintás t-próba ( independent samples t-test). Két független mintánk van, mindegyikről feltétezzük, hogy normális eloszlású populációból származik. A próbával azt teszteljük, hogy a két populáció-átlag azonos-e H0: 1 = 2 Krisztina Boda 15

Normális eloszlást feltételezve, az átlagok összehasonlítására használható próbák Egy minta esete: egymintás t-próba Két minta esete: Összetartozó minták: (előtt-után, baloldal-jobboldal): páros t-próba= egymintás t-próba a különbségekre Független minták (placebo-kezelés, férfi-nő, betegegészséges): kétmintás t-próba Azonos szórások esetén klasszikus Különböző szórások esetén módosított (Welch, D) Szórások egyezésének tesztelése: F-próba, Levene-próba Több (>2) minta esete: varianciaanalízis Krisztina 3. Egyváltozós Boda statisztikák 16

Krisztina Boda t-próbák végrehajtásának általános menete Null- és alternatív hipotézis felállítása Rögzítjük -t Ellenőrizzük a feltételeket legalább grafikusan Normalitásvizsgálat, kétmintás t-próba esetén a varianciák azonossága a hisztogramok illetve boksz diagramok alapján A próbastatisztika kiszámítása általában egy formula Döntés táblabeli t-érték (t táblázat ) alapján döntés( kézi számolás) t >t táblázat - elvetjük H0-t (elfogadjuk Ha-t) és azt mondjuk, hogy a különbség szignifikáns szinten t <t táblázat nem vetjük el H0-t (elfogadjuk) és azt mondjuk, hogy a különbség nem szignifikáns szinten Döntés p-érték alapján (számítógép) p< - elvetjük H0-t (elfogadjuk Ha-t) és azt mondjuk, hogy a különbség szignifikáns szinten p> - nem vetjük el H0-t (elfogadjuk) és azt mondjuk, hogy a különbség nem szignifikáns szinten 17

Statisztikai próbákról általában

Egy- és kétoldalas próbák Kétoldalas próba H 0 : nincs változás 1 = 2 H a : van változás (bármilyen irányú) 1 2 Egyoldalas próba H 0 : az átlag nem csökkent, 1 2 H a : az átlag csökkent, 1 > 2 9 szabadságfokú t-eloszlás 0.025 0.05 Más lesz a táblabeli kritikus érték. p egyoldalas =p kétoldalas /2 Krisztina Boda 19

valószínűség df 0.2 0.1 0.05 0.02 0.01 0.001 1 3.078 6.314 12.706 31.821 63.657 636.619 2 1.886 2.920 4.303 6.965 9.925 31.599 3 1.638 2.353 3.182 4.541 5.841 12.924 4 1.533 2.132 2.776 3.747 4.604 8.610 5 1.476 2.015 2.571 3.365 4.032 6.869 6 1.440 1.943 2.447 3.143 3.707 5.959 7 1.415 1.895 2.365 2.998 3.499 5.408 8 1.397 1.860 2.306 2.896 3.355 5.041 9 1.383 1.833 2.262 2.821 3.250 4.781 valószínűség egyoldalas 0.1 0.05 0.025 0.01 0.005 0.0005 kétoldalas df 0.2 0.1 0.05 0.02 0.01 0.001 1 3.078 6.314 12.706 31.821 63.657 636.619 2 1.886 2.920 4.303 6.965 9.925 31.599 3 1.638 2.353 3.182 4.541 5.841 12.924 4 1.533 2.132 2.776 3.747 4.604 8.610 5 1.476 2.015 2.571 3.365 4.032 6.869 6 1.440 1.943 2.447 3.143 3.707 5.959 7 1.415 1.895 2.365 2.998 3.499 5.408 Krisztina Boda 20

Szignifikancia Szignifikáns a különbség ha azt mondjuk, hogy van hatás, az esetleges hiba nagysága kicsi (maximum - ez az ún. első fajta hiba). Nem szignifikáns különbség ilyenkor csak annyit tudunk mondani, hogy nincs elegendő információ a különbség kimutatására. Lehet, hogy Valóban nincs is különbség Van különbség, csak kevés volt az elemszám Nagy volt a szórás Rossz volt a vizsgálati módszer A statisztikai szignifikanciát mindig át kell gondolni, vajon biológiai szempontból jelentős-e Krisztina Boda 21

Statisztikai hibák Hipotézisvizsgálat során a minták alapján az összehasonlítandó populációkról döntést hozunk: vagy azt állítjuk róluk, hogy különbözők, vagy azt, hogy azonosak. Bárhogyan döntünk is, nem tudhatjuk, hogy helyesen döntöttünk-e, mivel a valóságot nem ismerjük (a hipotézisvizsgálatot éppen ezért végezzük). Helyesen döntöttünk, ha különbséget állapítottunk meg és a populációk valóban eltérők, vagy ha nem állapítottunk meg különbséget, és a populációk valóban azonosak. Döntés H A igaz Igazság H 0 igaz Elvetjük H 0 -t helyes döntés első fajta hiba, Type I. error (szign.) (álpozitív eredmény) valószínűsége: Nem vetjük el második fajta hiba, helyes döntés H 0 -t Type II.error (álnegatív (nem szign.) eredmény) valószínűsége: Krisztina Boda 22

Kereszt-osztályozás emlékeztető A referencia teszt Az általunk vizsgált (új) teszt eredménye Pozitív (beteg) Negatív (nem beteg) Pozitív VP Valódi pozitív ÁP Álpozitív Össz pozitív (a + b) (a) (b) Negatív ÁN Álnegatív VN Valódi negatív Össz negatív (c + d) (c) (d) Összes beteg (a + c) Összes nem beteg (b + d) Összes eset (n=a+b+c+d) Szenzitivitás= a/(a+c) 100% P(T + B) = P(T + B)/P(B) Specificikusság= d/(b+d) 100% P(T - E ) = P(T - E )/P(E ) Pozitív prediktív érték= a/(a+b) 100% Negatív prediktív érték = d/(c+d) 100% Validitás = (a+d)/(a+b+c+d) 100% Álnegativitási arány= c/(a+c) 100% ; Álpozitivitási arány= b(b+d) 100% ; Krisztina Boda

Első fajta hiba, Type I. error Előfordulhat, hogy szignifikáns különbséget állapítunk meg, pedig valójában nincs különbség. Ebben az esetben a döntés hibás, az elkövetett hibát első fajta hibának nevezik, nagyságát elkövetésének valószínűségével szokás megadni. Az első fajta hiba valószínűsége annak esélye, hogy a tapasztalt különbséget a véletlen okozta, ez éppen a szignifikanciaszinttel egyenlő ( ). Ha több összehasonlítást végzünk, pl. több csoportot páronként hasonlítunk össze, ez a hiba halmozódhat. Krisztina Boda 24

Második fajta hiba, Type II.error Hipotézisvizsgálat során nem állapítunk meg szignifikáns különbséget, pedig valójában azaz a populációk között mégis van különbség. Ebben az esetben a döntés hibás, az így elkövetett hibát második fajta hibának nevezik. A második fajta hiba valószínűségét ( ) általában nem ismerjük, mivel függ a szignifikanciaszinttől ( ), az elemszámtól, a populáció(k) szórásától tényleges különbség (hatás) nagyságától egyéb tényezők (milyen próba, a feltételek teljesülése, a kísérleti elrendezés,..) A második fajta hiba valószínűségének kiszámítását az nehezíti, hogy nem ismerjük a populációk közötti tényleges különbséget, így gyakran ehelyett a megfelelőnek tekintett különbséget (pl. a legkisebb klinikailag jelentős különbség), vagy a minták átlagai alapján becsült különbséget alkalmazzák. A populáció szórását pedig a minta(ák)ból számolt szórással közelítik. Krisztina Boda 25

A próba ereje A második fajta hiba valószínűsége helyett inkább (1 )-t, a próba erejét szokták megadni A próba ereje azt méri, hogy a próba milyen jó abban az esetben, ha elvetjük a hamis nullhipotézist. Minél erősebb a próba, (minél közelebb van értéke 1-hez), annál nagyobb valószínűséggel veti el a hamis nullhipotézist. Másképpen: a próba ereje annak valószínűsége, hogy egy különbséget adott mintanagyság és szignifikancia-szint mellett egy statisztikai próba kimutat. A vizsgálatok tervezésének gyakorlatában az erő nagyságának előre megszabott értékéből kiindulva határozzák meg a szükséges mintaelemszámot. A statisztika elméletének fontos része olyan döntési szabályok keresése, amely a próbát a lehető legerősebbé teszi adott esetén. Krisztina Boda 26

Második fajta hiba, Type II.error Ha a ködben semmit sem látsz, ez távolról sem jelenti azt, hogy nincs ott semmi. (Piepenbrink kapitány Hans-Peter Beck-Bernholdt, Hans-Hermann Dubben: A tojást rakó kutya. Magyar könyvklub, 1999.) Krisztina Boda 27

Második fajta hiba, Type II.error Krisztina Boda 28

A próba ereje adott elemszám és esetén, különböző alternatív hipotézisek mellett Krisztina Boda 29

A próba ereje adott elemszám és esetén, különböző alternatív hipotézisek mellett Krisztina Boda 30

Két átlag (változás) összehasonlításához szükséges elemszám ismert esetén z x 0 n Legyen a H0-ban és a H1-ben megfogalmazott átlag µ 0 ill. µ 1. Adott α,β, µ 0 ill. µ 1 esetén, konstans és ismert szórást tekintve a kritikus értékek a következők: z x 0 n z x 1 n z α µ 0 z β µ 1 ( z ) z n 1 0 Kétoldalas α=0.05 esetén z α =1.96, Egyoldalas β=0.1 esetén z β =1.28. Az egyenletekből az átlagot kifejezve és a két oldalt egyenlővé téve az n: 2 Krisztina Boda 31

Kérdések Ha két mintaátlagát vizsgálom, milyen esetben (milyen kísérlet esetén) lehet páros t-próbát és milyen esetben lehet kétmintás t- próbát alkalmazni? A kétmintás t-próba feltételei A kétmintás t-próba nullhipotézise A kétmintás t-próba végrehajtása azonos és különböző varianciák esetén A varianciák összehasonlítása: F-próba A statisztikai szignifikancia jelentése és értelmezése Statisztikai hibák Az első fajta hiba jelentése és valószínűsége A második fajta hiba jelentése és valószínűsége. Mitől függ? A próba ereje Elemszámbecslés két átlag összehasonlításához (mitől függ?) Krisztina Boda

Feladat A kalcium hatását vizsgálták a vérnyomásra két csoportban. A kezelés előtt és a kezelés után mért különbségeket hasonlították össze kétmintás t-próbával. Értelmezze az alábbi eredményeket! Kimutatható-e 5%-os hibát feltételezve, hogy a kalcium kezelés csökkenti a vérnyomást? Vérnyomás-esés alapstatisztikák Group Statistics decr treat Calcium Placebo Std. Error N Mean Std. Dev iation Mean 10 5.0000 8.74325 2.76486 11 -.2727 5.90069 1.77913 t-próba eredménye: különböző varianciákat feltételezve, t=1.604, szabadságfok=15.591, p=0.129-et kaptunk. (Útmutatás: elegendő a p-érték alapján dönteni, p>0.05, a különbség nem szignifikáns 5%-os szinten) Independent Samples Test decr Equal v ariances assumed Equal v ariances not assumed Levene's Test f or Equality of Variances t-test for Equality of Means 95% Confidence Interv al of the Mean Std. Error Dif f erence F Sig. t df Sig. (2-tailed) Dif f erence Dif f erence Lower Upper 4.351.051 1.634 19.119 5.27273 3.22667-1.48077 12.02622 1.604 15.591.129 5.27273 3.28782-1.71204 12.25749 Krisztina Boda

Feladatok 1. Vajon azonos-e a diabeteses és nem diabeteses populáció átlag- cholesterin szintje? Egy vizsgálatban az 1941-50 között születettek korcsoportjában a következő eredményeket kapták: Kontroll csoport n=63, átlag=5.27, SD=1.16 Diabetes csoport n=52, átlag=4.63, SD=1.31. A kérdés eldöntésére milyen statisztikai próbát használ? Mik a próba feltételei? A próbastatisztika értéke t=2.327. Szignifikáns-e a különbség? Döntsön 5%-os szinten (α =0.05) A p-érték 0.022. Szignifikáns-e a különbség 5%-os szinten? 2. Vajon azonos-e a hallgatók populációjában a fiúk és lányok átlagéletkora? Az idegen nyelvű képzésben szereplő hallgatók adatait elemezve, az átlagok összehasonlítására a következő eredményeket kapták: Fiú: n=4, átlag=21.18, SD=3.025 Lány: n=53, átlag=20.38, SD=3.108 A kérdés eldöntésére milyen statisztikai próbát használ? Mik a próba feltételei? A próbastatisztika értéke t=1.505. Szignifikáns-e a különbség? Döntsön 5%-os szinten (α =0.05) A p-érték 0.807. Szignifikáns-e a különbség 5%-os szinten? Krisztina Boda 34

Krisztina Boda Problémák több próba végrehajtásakor

átlag + SD Ugyanazon populációból származó minták páronkénti összehasonlítása t-próbával T-test for Dependent Samples: p-levels (veletlen) Marked differences are significant at p <.05000 Variable s10 s11 s12 s13 s14 s15 s16 s17 s18 s19 s20 s1 s2 s3 s4 s5 s6 s7 s8 s9 0.304079 0.074848 0.781733 0.158725 0.222719 0.151234 0.211068 0.028262 0.656754 0.048789 0.223011 0.943854 0.326930 0.445107 0.450032 0.799243 0.468494 0.732896 0.351088 0.589838 0.312418 0.842927 0.364699 0.100137 0.834580 0.151618 0.300773 0.152977 0.201040 0.136636 0.712107 0.092788 0.348997 0.335090 0.912599 0.069544 0.811846 0.490904 0.646731 0.521377 0.994535 0.172866 0.977253 0.338436 140 0.492617 0.139655 0.998307 0.236234 0.420637 0.186481 0.362948 0.143886 0.865791 0.147245 0.399857 0.904803 0.285200 0.592160 0.429882 0.774524 0.494163 0.674732 0.392792 0.707867 0.330132 0.796021 120 0.157564 0.877797 0.053752 0.631788 0.361012 0.525993 0.352391 0.796860 0.092615 0.818709 0.263511 0.462223 0.858911 0.156711 0.878890 0.624123 0.789486 0.569877 0.932053 0.136004 0.923581 0.564532 100 0.419912 0.040189 0.875361 0.167441 0.357668 0.173977 0.258794 0.099488 0.757767 0.068799 0.371769 80 60 40 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ismétlés Krisztina Boda 36

Miért nem t-próbákat végzünk páronként? Mert a véletlen is okozhat szignifikáns eredményt átlagosan minden 20-adik esetben. CSOP R1 R2 R3 R4 R5 R6 R7 R8 1. 0 0 -. 8 4 1. 7 3 2. 3 6 -. 3 0 -. 3 1 -. 3 1 -. 5 6 1. 5 8 1. 0 0. 5 9. 4 4. 6 0 -. 7 5 -. 2 8-1. 5 1 -. 8 1 -. 1 2 1. 0 0. 1 9 -. 7 3-1. 0 4 1. 2 7. 6 9 -. 2 1 -. 5 2-1. 3 4 1. 0 0-1. 0 5. 8 8 1. 2 7 1. 0 5 -. 8 7. 6 8 -. 1 7 -. 1 5 1. 0 0. 1 2 -. 7 5 -. 0 5-1. 1 3 2. 2 1. 7 4 -. 9 0 -. 4 5 1. 0 0 1. 1 0 -. 2 0 -. 7 8 1. 0 2. 6 7. 1 8 -. 5 2 -. 3 4 1. 0 0 -. 1 9 -. 5 7 -. 4 1 2. 2 5-1. 2 6 -. 2 7. 4 4-2. 5 2 1. 0 0. 4 5 1. 2 0 2. 7 7 -. 1 7 -. 6 8. 6 0. 5 4 -. 3 7 1. 0 0 -. 5 8 -. 0 1. 6 0 1. 6 6 2. 1 4 2. 3 1 -. 9 0-1. 7 5 1. 0 0 -. 3 9. 9 3 -. 5 1. 3 1 -. 6 0 -. 2 1. 5 5. 5 7 1. 0 0 -. 2 3-1. 2 1-1. 0 8. 0 2. 3 1-1. 2 8 1. 2 0 1. 6 2 1. 0 0. 8 7. 9 7-1. 0 4. 6 0 -. 2 9. 8 6 1. 0 9 -. 6 8 2. 0 0. 4 2-1. 1 8 -. 6 4 -. 0 8 1. 1 0. 3 9 -. 6 6 2. 1 2 2. 0 0 1. 2 6-2. 1 3-1. 7 8 -. 6 0-1. 2 5-1. 1 0. 1 9-1. 5 4 2. 0 0 -. 6 0 -. 8 3 -. 9 4 1. 6 1. 9 5 1. 3 7. 1 0 -. 9 7 2. 0 0-1. 7 5. 6 3. 1 6. 2 4 -. 2 5 1. 4 9. 4 2-2. 0 1 2. 0 0. 0 7 -. 3 3 -. 5 6. 3 6. 1 2 -. 4 8. 7 8-1. 2 9 2. 0 0. 1 5. 8 5. 1 0-2. 0 7. 1 8 2. 1 4 1. 7 1. 6 2 2. 0 0. 9 8-1. 2 0 -. 4 6 -. 9 2. 0 8-1. 3 7. 8 0 -. 6 7 2. 0 0 -. 4 2 1. 0 5 -. 2 9. 7 3. 1 0 1. 4 2. 7 9 1. 6 7 2. 0 0 2. 0 0. 0 6 2. 2 4 -. 3 1 -. 1 3 -. 0 1. 0 4 -. 4 5 2. 0 0-1. 8 5-1. 8 3 3. 3 5 1. 8 3 -. 1 2 -. 3 0-1. 6 8. 5 7 2. 0 0 1. 0 6 -. 5 5 -. 3 6 -. 8 0-1. 4 1-1. 4 9. 8 9. 8 2 2. 0 0 -. 5 7-2. 1 5 2. 1 5 -. 9 9-1. 6 3. 0 0 -. 4 1 1. 4 2 t - p r. 0. 8 8 2 8 4 6 0. 0 5 3 9 2 6 0. 9 6 8 9 4 0. 2 0 5 3 3 9 0. 4 1 8 2 1 2 0. 9 2 8 9 1 2 0. 3 9 1 0 0 1 0. 5 0 8 9 6 3 s z i g n. 4 e l s ő f a j t a h i b a v s z - e Krisztina Boda 37

Az első fajta hiba növekedése, összehasonlításonkénti és kísérletenkénti szignifikancia Ha egy adott adathalmaz esetén adott változóra vagy változókra vonatkozóan több statisztikai próbát is elvégzünk, mindegyiket adott mellett, az egész kísérletre vonatkozó az első fajta hibavalószínűség -nál sokkal nagyobb is lehet. Ez a meglepőnek látszó tényt a kétmintás t- próbával mutatjuk be: Az =0.05 szint azt jelenti, hogy amennyiben a nullhipotézis igaz, (pl. az összehasonlítandó populációk között nincs különbség), az első fajta hiba elkövetésének valószínűsége 0.05, azaz minden száz ilyen esetből 5 alkalommal, nagyjából minden húszadik esetben követhetjük el ezt a hibát. Ennyiszer okoz ugyanis a véletlen a különben egyforma, azonos populációkból vett minták közt túlságosan nagy, általunk szignifikánsnak minősített különbséget. Ha több, azonos populációból vett mintát páronként hasonlítunk össze, 20 közül átlagosan 1 összehasonlítás szignifikáns eredményre vezet! Általában, n számú független összehasonlítás esetén annak valószínűsége, hogy legalább egy összehasonlítás hibás (legalább egyszer elkövetjük az első fajta hibát), maximum:1-(1- ) n Krisztina Boda 38

A kísérletenkénti első fajta hiba valószínűségének növekedése Emiatt hibás több csoport esetén az átlagok összehasonlítására páronkénti kétmintás t-próbákat végezni, vagy két csoport esetén több összefüggő változót szintén kétmintás t-próbákkal összehasonlítani. Nem tudhatjuk ugyanis, hogy a szignifikáns eredmények közül melyek tulajdoníthatók a véletlennek, és melyek tükröznek valódi különbséget. Krisztina Boda 39

Sok kis darabból összecsomózott hegymászókötél: az egyes csomók 95%-os valószínűséggel jól tartanak Két csomó hibátlan voltának valószínűsége=0.95*0.95 =0.9025~90% 20 csomó hibátlan voltának valószínűsége=0.95 20 = =0.358~36% Lezuhanás valószínűsége 20 csomó esetén ~64% Krisztina Boda 40

Megoldás: sok t-próba helyett egyetlen varianciaanalízis Az egyedi p-értékek korrekciója Bonferroni Holm FDR (False Discovery Rate) Krisztina Boda 41

ANOVA Analysis of Variance Több (>2), normális eloszlású populáció átlagának összehasonlítására szolgáló módszer Fajtái: Egyszempontos (one-way): kontroll, kezelés I, kezelés II. Többszempontos (Kezelés, nem: a kettő együtt hogy hat) Bármelyik szempont lehet független ( between-subjects ) pl. nem, kezelési csoportok ismételt méréses ( within-subjects ) pl. időben mért ismétlések Krisztina Boda 42

Példa Egy kísérletben (Farkas és mtsai, 2003.) lokális iszkémiának alávetett, izolált patkányszívben a szívfrekvencia és a QT szakasz hosszának változását vizsgálták három antiaritmiás gyógyszer hatására. 5 Mm K+ kálium ion koncentráció esetén, 25 perccel a lokális iszkémia után a QT szakasz hosszára a 4.8. táblázatban látható értékeket kapták. Vizsgáljuk meg, hogy a 4 csoportban van-e különbség a QT szakasz átlagos hosszában! 100 90 80 70 60 50 Kontroll Quinidine Lidocaine Flecainide 61 76 65 69 53 84 56 65 68 89 76 73 66 78 72 71 54 81 66 61 89 69 69 átlag 60.4 82.8 67.3 68.0 SD 6.80 5.49 6.86 4.34 40 Kontroll Quinidine Lidocaine Flecainide Krisztina Boda 43

Egyszempontos ANOVA Feltételek, nullhipotézis Feltételek: Az egyedek véletlenszerűen kerülnek egyik vagy másik csoportba, a minták független minták (egy egyed csak egy csoportba kerülhet). Az összehasonlítandó értékeket tartalmazó változó folytonos. A minták normális eloszlású populációból származnak. Azok a populációk, amelyekből a minták származnak, azonos varianciájúak. Nullhipotézis: A független minták azonos eloszlású populációból származnak, azaz a populáció-átlagok megegyeznek H0: 1 = 2 = = t t a csoportok száma (t kezelés - treatment) HA: i j i j, i,j=1,2, t (van a csoport-átlagok között különböző) Krisztina Boda 44

Módszer Az ANOVA a teljes adathalmaz összvarianciáját kétféle forrásból származtatja: Csoportok közötti Csoportokon belüli Ha igaz az a nullhipotézis, hogy a populáció-átlagok megegyeznek, (H0: 1 = 2 = = t ), akkor a populációban a csoportok közötti és a csoportokon belüli variancia is megegyezik. A kettő hasonlításával lehet következtetni az átlagok azonosságára. új nullhipotézis: A populációban a csoportok közötti és a csoportokon belüli variancia megegyezik. 2 között= 2 belül Tesztelése: F-próba (egyoldalas). Egy p-értéket ad: ha p>0.05, akkor elfogadjuk az átlagok azonosságát (H0) ha p<0.05, akkor van az átlagok között különböző Krisztina Boda 45

7 7 6 6 5 5 4 4 3 3 2 2 1 1. 0 0 1 2 3 4 0 0 1 2 3 4 a) b Azonos (a) és különböző (b) átlagú, egységnyi szórású normális eloszlású populációkból vett 6 elemű véletlen minták. Krisztina Boda 46

A varianciaanalízis táblázata A variancia analízis számításait általában táblázatba szokták foglalni A szóródás oka Négyzetösszeg Szabadságfok Variancia F t Csoportok 2 Qk ni ( xi x) között t-1 2 Qk s i 1 t 1 t ni Csoportokon 2 Qb ( xij xi ) 2 Qb belül i 1 j 1 N-t sb N t Teljes Q t ni 2 ( xij x) i 1 j 1 N-1 k F s s 2 k 2 b Krisztina Boda 47

A varianciaanalízis táblázata példafeladat adataira 100 90 80 70 60 50 40 Kontroll Quinidine Lidocaine Flecainide A szóródás oka Négyzetösszeg Szabadságfok Variancia F p Csoportok között 1515.590 3 505.197 14.426 0.000 Csoportokon belül 665.367 19 35.019 Teljes 2180.957 22 F(3,19)=14.426, p<0.001, a különbség szignifikáns, csoport-átlagok között van legalább egy, a többitől eltérő Krisztina Boda 48

További teendők, ha a varianciaanalízis eredménye szignifikáns Ha megállapítottuk, hogy az átlagok nem mind azonosak, felmerül a kérdés, hol van a különbség? Ismételt t-próbákkal nem dolgozhatunk (1. fajta hibanövekedés) Speciális páronkénti összehasonlítások (posthoc tesztek) Előre tervezett összehasonlítások Krisztina Boda

Páronkénti hasonlítások Módosított t-próbák (LSD) Bonferroni Scheffé Tukey Dunnett- egy kontrollhoz hasonlítja a többi csoportot Az átlagok különbsége Dunnett - p Kontroll Quinidine 22.4333.000 Kontroll Lidocaine 6.9333.158 Kontroll Flecainide 7.6000.113 Krisztina Boda

Páronkénti hasonlítások Multiple Comparisons Multiple Comparisons Dependent Variable: QT LSD (I) CSoport Kontroll Quinidine Lidocaine Flecainide (J) CSoport Quinidine Lidocaine Flecainide Kontroll Lidocaine Flecainide Kontroll Quinidine Flecainide Kontroll Quinidine Lidocaine Mean Diff erence 95% Confidence Interv al (I-J) Std. Error Sig. Lower Bound Upper Bound -22.43333* 3.58335.000-29.9334-14.9333-6.93333 3.58335.068-14.4334.5667-7.60000* 3.58335.047-15.1000 -.1000 22.43333* 3.58335.000 14.9333 29.9334 15.50000* 3.41659.000 8.3490 22.6510 14.83333* 3.41659.000 7.6823 21.9843 6.93333 3.58335.068 -.5667 14.4334-15.50000* 3.41659.000-22.6510-8.3490 -.66667 3.41659.847-7.8177 6.4843 7.60000* 3.58335.047.1000 15.1000-14.83333* 3.41659.000-21.9843-7.6823.66667 3.41659.847-6.4843 7.8177 *. The mean diff erence is signif icant at the.05 lev el. Dependent Variable: QT Bonf erroni (I) CSoport Kontroll Quinidine Lidocaine Flecainide (J) CSoport Quinidine Lidocaine Flecainide Kontroll Lidocaine Flecainide Kontroll Quinidine Flecainide Kontroll Quinidine Lidocaine Mean Diff erence 95% Confidence Interv al (I-J) Std. Error Sig. Lower Bound Upper Bound -22.43333* 3.58335.000-32.9823-11.8843-6.93333 3.58335.408-17.4823 3.6157-7.60000 3.58335.284-18.1490 2.9490 22.43333* 3.58335.000 11.8843 32.9823 15.50000* 3.41659.001 5.4419 25.5581 14.83333* 3.41659.002 4.7752 24.8914 6.93333 3.58335.408-3.6157 17.4823-15.50000* 3.41659.001-25.5581-5.4419 -.66667 3.41659 1.000-10.7248 9.3914 7.60000 3.58335.284-2.9490 18.1490-14.83333* 3.41659.002-24.8914-4.7752.66667 3.41659 1.000-9.3914 10.7248 *. The mean diff erence is signif icant at the.05 lev el. p Bonferroni =p LSD *összehasonlítások száma=p LSD *6 Krisztina Boda 51

> csoport<-factor(c(1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,3,3,4,4,4,4,4,4)) > mit<c(61,53,68,66,54,76,84,89,78,81,89,65,56,76,72,66,69,69,65,73,71,61,69) > mean(mit[csoport==1]);sd(mit[csoport==1]) [1] 60.4 [1] 6.80441 > mean(mit[csoport==2]);sd(mit[csoport==2]) [1] 82.83333 [1] 5.492419 > mean(mit[csoport==3]);sd(mit[csoport==3]) [1] 67.33333 [1] 6.860515 > mean(mit[csoport==4]);sd(mit[csoport==4]) [1] 68 [1] 4.335897 > boxplot(mit~csoport) > fit<-aov(mit~csoport) #1-es tipusu, unbalanced eseten > fit Call: aov(formula = mit ~ csoport) R futtatás Terms: csoport Residuals Sum of Squares 1515.5899 665.3667 Deg. of Freedom 3 19 Residual standard error: 5.917711 Estimated effects may be unbalanced > summary(fit) #szokasos ANOVA tablat adja Df Sum Sq Mean Sq F value Pr(>F) csoport 3 1515.6 505.2 14.43 3.89e-05 *** Residuals 19 665.4 35.0 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 > pairwise.t.test(mit,csoport,p.adj="none") #LSD Pairwise comparisons using t tests with pooled SD data: mit and csoport 1 2 3 2 5.2e-06 - - 3 0.06804 0.00023-4 0.04731 0.00035 0.84737 P value adjustment method: none > pairwise.t.test(mit,csoport,p.adj="bon") #Bonferroni Pairwise comparisons using t tests with pooled SD data: mit and csoport 1 2 3 2 3.1e-05 - - 3 0.4082 0.0014-4 0.2839 0.0021 1.0000 P value adjustment method: bonferroni Krisztina Boda

Kérdések és feladatok Krisztina Boda Miért nem helyes több csoport átlagának összehasonlítására páronként t-próbákat alkalmazni? A Bonferroni korrekció Az egyszempontos varianciaanalízis céja, null- és alternatív hipotézise A varianciaanalízis elve (milyen varianciákat hasonlít?), táblázata Páronkénti hasonlítások

Hasznos WEB oldalak Klinikai Biostatisztikai Társaság http://www.biostat.hu Rice Virtual Lab in Statistics http://davidmlane.com/hyperstat/intro_anova. html Statistics on the Web http://www.claviusweb.net/statistics.shtml Krisztina Boda 54