Nem-paraméteres és paraméteres módszerek. Kontingencia tábla, rangtranszformálás, párosított minták, két független minta

Hasonló dokumentumok
[Biomatematika 2] Orvosi biometria

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis vizsgálatok

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Kettőnél több csoport vizsgálata. Makara B. Gábor

Bevezetés a hipotézisvizsgálatokba

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Biostatisztika VIII. Mátyus László. 19 October

Nem-paraméteres (eloszlásmentes) statisztikai módszerek Makara Gábor

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Biostatisztika Összefoglalás

Adatok statisztikai értékelésének főbb lehetőségei

Biostatisztika Összefoglalás

Hipotézis vizsgálatok

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Az első számjegyek Benford törvénye

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Eloszlás-független módszerek 13. elıadás ( lecke)

Nemparaméteres próbák

y ij = µ + α i + e ij

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.

Nemparametrikus tesztek december 3.

BIOMETRIA (H 0 ) 5. Előad. zisvizsgálatok. Hipotézisvizsg. Nullhipotézis

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Varianciaanalízis 4/24/12

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A konfidencia intervallum képlete: x± t( α /2, df )

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Biomatematika 13. Varianciaanaĺızis (ANOVA)

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztikai alapfogalmak a klinikai kutatásban. Molnár Zsolt PTE, AITI

Statisztika Elıadások letölthetık a címrıl

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

KÖVETKEZTETŐ STATISZTIKA

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Többváltozós lineáris regressziós modell feltételeinek

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biostatisztika 2. Dr. Dinya Elek Dr. Solymosi Róbert: Biometria a klinikumban Dr. Dinya Elek: Biostatisztika c. művei alapján

Hipotézisvizsgálat R-ben

Statisztikai módszerek 7. gyakorlat

V. Gyakorisági táblázatok elemzése

Normális eloszlás tesztje

Korreláció és lineáris regresszió

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

6. Előadás. Vereb György, DE OEC BSI, október 12.

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

Kutatásmódszertan és prezentációkészítés

13. Túlélési analízis. SURVIVAL ANALYSIS Nyári Tibor Ph.D., Boda Krisztina Ph.D.

Statisztika elméleti összefoglaló

A leíró statisztikák

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

[Biomatematika 2] Orvosi biometria

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Normális eloszlás paramétereire vonatkozó próbák

Függetlenségvizsgálat, Illeszkedésvizsgálat

egyetemi jegyzet Meskó Balázs

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Biomatematika 2 Orvosi biometria

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

Statisztikai próbák. Ugyanazon problémára sokszor megvan mindkét eljárás.

[Biomatematika 2] Orvosi biometria

IV. Változók és csoportok összehasonlítása

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Feltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2

Segítség az outputok értelmezéséhez

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Kísérlettervezés alapfogalmak

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Több valószínűségi változó együttes eloszlása, korreláció

Átírás:

Nem-paraméteres és paraméteres módszerek Kontingencia tábla, rangtranszformálás, párosított minták, két független minta

Az előadások célja bemutatni a hipotézis vizsgálat elveinek alkalmazását a gyakorlatban Bemutatni a statisztikai vizsgálatok fajtáit, csoportok összehasonlításait az egyszerűtől az összetett felé a sokféleséget, a sok lehetőséget

Nem-paraméteres és paraméteres próbák Nem-paraméteresnek nevezzük a statisztikai eljárást, ha nem tételezünk fel ismert eloszlást Másik (pontatlanabb) nevük eloszlás-mentes eljárások Ilyenek például: kontingencia tábla, előjelpróba, rangtranszformációs eljárások Paraméteresnek nevezünk egy statisztikai eljárást, ha a mintáról feltételezzük, hogy eloszlása egy jól ismert statisztikai eloszlásnak megfelelő Az eloszlás paramétereit, a várható értéket, szórást használjuk Feltételekkel alkalmazhatók, ezek teljesülését ellenőrizzük Felhasználjuk az ismert eloszlás tulajdonságait a próba-statisztika kiszámolásához Ilyen a t próba, variancia elemzés

A nominális skálán mérhető változó esete A legegyszerűbb eset: Két nominális változó két szinten, ezek kapcsolata Kontingencia táblázat Kontingencia: előre nem látott esemény, esetlegesség, véletlenség Az előfordulás gyakoriságát mérjük és táblázatba foglaljuk Az összetettebb esetekről később egy egész előadást kapnak

Egy klinikai példa D.E. Matthews and V.T: Farewell: Using and understanding medical statistics. Karger 1996 Thomas, PRM, Tefft M, D'Angio GJ, Norkool OP, Farewell VT: Relapse patterns in irradiated Second National Wilms' Tumor Study (NWTS-2) patients. Proc Am Soc Clin Oncol 24: 69 (1983) Operative site Field size too small Field size OK Total Relapse 2 2 4 No relapse 21 234 255 Total 23 236 259 Mi a populáció? Mi a populációban a relapszus előfordulása? Relapszus ráta: 4/259=0,015 1,5% de a jól sugarazottakban: 2/236=0,009 0,9% nem jól sugarazottakban: 2/23 =0,087 8,7%

A lehetséges táblák, ha a pirossal írott széli összegek rögzítettek 2. tábla 2 2 4 21 234 255 23 236 259 0. tábla 0 4 4 23 232 255 23 236 259 3. tábla 3 1 4 20 235 255 23 236 259 1. tábla 1 3 4 22 233 255 23 236 259 4. tábla 4 0 4 19 236 255 23 236 259

Az egyes táblák előfordulásának valószínűsége, ha a relapszusokra igaz, hogy r 1 =r 2 =r p Tábla # 0 1 2 3 4 Összes P 0,6875 0,2715 0,0386 0,0023 0,0001 1,000 H 0 : r 1 = r 2, elfogadjuk, ha a megfigyelt különbségek csak a véletlennek tulajdoníthatók H 1 : r 1 <>r 2, elfogadjuk, ha a megfigyelt különbségek nagy valószínűséggel a valós populációs relapszus arányokat mutatják A 2. számú tábla a megfigyelt adatok táblája: Mi annak a valószínűsége, hogy 2, 3, vagy 4 relapszus forduljon elő a túl kicsi területen besugárzott 23 beteg között? Összeadjuk a 2, 3, és 4. táblák valószínűségét: 0,0386+0,0023+0,0001 0,04

Fisher tesztben az egyes táblák valószínűsége Feltételek: A null hipotézis teljesül bármelyik kimenetel egyformán valószínű Eljárás a binomiális együttható felhasználásával levezetés nélkül, ahol R 1, C 1, t, N a tábla adatai az 1. sor (row, R 1 ) és az 1. cella (C 1 ) jelöléssel, t a cellába éppen belekerült szám, N az összes adat. p t valószínűség, hogy az első cellába éppen t kerül. p t R t 1 N C 1 R t 1 N / C 1

Nyirok nem-eszterifikált zsírsav koncentrációja NEFA koncentráció mikroaequ/l NE előtt NEFA koncentráció mikroaequ/l NE után Különbség 780 1182 + 784 680-1077 1488 + 780 1195 + 945 1340 + 1114 1448 +

Az előjel próba (kapcsolt megfigyelések példája) egy minta egyedei két lehetőség közül melyiket preferálják egyénenként két megfigyelés beavatkozás előtt-után eltérő helyeken, például jobb vagy bal oldalon eltekintünk az esetleges mérhető tulajdonságtól (transzformálunk!) az egyik esemény előjelét pozitívnak, a másik előjelét negatívnak nevezzük, és nem engedünk meg eldöntetlen esetet az előjel próbával értékelhető adatok esete lényegében véve azonos a pénzfeldobási kísérlet kimenetelének vizsgálata esetével, amelyet a binomiális eloszlás írt le.

A binomiális eloszlás értékei n n n n n n n n n n K 1 2 3 4 5 6 7 8 9 10 0 0.5 0.25 0.125 0.063 0.031 0.016 0.008 0.004 0.002 0.001 1 0.5 0.50 0.375 0.250 0.156 0.094 0.055 0.031 0.018 0.010 2 0.25 0.375 0.375 0.313 0.234 0.164 0.109 0.070 0.044 3 0.125 0.250 0.313 0.313 0.273 0.219 0.164 0.117 4 0.063 0.156 0.234 0.273 0.273 0.246 0.205 5 0.031 0.094 0.164 0.219 0.246 0.246 6 0.016 0.055 0.109 0.164 0.205 7 0.008 0.031 0.070 0.117 8 0.004 0.018 0.044 9 0.002 0.010 10 0.001 n a megfigyelések száma k a pozitív (vagy a negatív) előjelek száma p a táblázatban feltüntetett számok A piros számok a szignifikáns p (valószínűség) értékeket jelzik (kétoldalas próba!)

Rangtranszformálás Az összes adatot (a csoporthoz való tartozástól függetlenül) nagysága szerint sorba állítjuk Az adatok helyébe azok rangszámát helyettesítjük. Ha két, vagy több azonos adatot találunk, akkor azok helyébe az átlagos rangszámokat írjuk. Az így kapott rangszámokat az eredeti csoportokra szétbontjuk. Ez a transzformáció az eredeti megfigyeléseket az ordinális (rang) skálán fejezi ki.

Nyirok nem-eszterifikált zsírsav koncentrációja kapcsolt megfigyelések példája NEFA koncentráció mikroaequ/l NE előtt NEFA koncentráció mikroaequ/l NE után Különbség Rang szám Előjeles rang szám 780 1182 402 4 4 784 680-104 1-1 1077 1488 411 5 5 780 1195 415 6 6 945 1340 395 3 3 1114 1448 334 2 2

Wilcoxon-féle előjeles rang próba kapcsolt megfigyelések számára Rangtranszformációt végzünk A ragszámok megkapják a különbség előjelét Az előjeles rangszámok összege 19 (n=6), a null hipotézis teljesülésének valószínűsége: p= 0,046 (ami kisebb, mint az előre kijelölt 0,05 szignifikancia szint), ezért a null hipotézist elvetjük és arra következtetünk, hogy a noradrenalin hatására emelkedik a májnyirok NEFA szintje.

Mann-Whitney-Wilcoxon próba két független minta esete (Ho:) szerint a két medián egyenlő, azaz nem az átlagok egyenlőségét vizsgálja, mint a két mintás t teszt. Az alternatív hipotézis (HA:) szerint a két minta medián nem egyenlő. Feltételek: független minták, folytonos és diszkrét valószínűségi változók esetében is használható. Ez az eljárás hatékonyabb, mint a t próba, ha a t próba feltételei nem teljesülnek. Ha sok az azonos rangsorú érték, ezeket a teszt nem veszi figyelembe, és ezért ilyenkor kissé alulértékeli a szignifikancia szintet, hatékonysága romlik.

Agresszivitás vizsgálat Fehér patkányokon vizsgálták egy hormon (tesztoszteron) hatását az agresszív magatartásra. Két független csoport: kontroll és tesztoszteron kezelt A hormon adása után 8-9 nappal történt a vizsgálat. Az agresszív cselekedetek (harapások) előfordulását vizsgálták 15 perc alatt (videofelvételeken).

Patkányokban harapások száma, tesztoszteron kezelés után # Kontroll # Teszto szteron # Kontroll # Teszto szteron # Kontroll # Teszto szteron # Kontroll # Teszto szteron 1 0 1 2 6 0 6 0 11 1 1 27 16 0 16 6 2 4 2 0 7 1 7 4 12 3 12 9 17 1 17 5 3 1 3 3 8 0 8 2 13 9 13 0 18 1 18 8 4 0 4 2 9 3 9 0 14 0 14 7 19 1 19 5 0 5 0 10 1 10 0 15 0 15 26

Agresszivitás vizsgálat eredménye A példa esetében a számolást (STATISTICA program, Nonparametric Statistics modul) elvégezve: Rank Sum: a "Kontroll" csoportra 301, Rank Sum: a "Tesztoszteron" csoportra 402, az "U" statisztika értéke 111, a két csoport mediánja azonosságának (H0 érvényességének) valószínűsége p=0.059810.

Tanulságok Az előjel próba példája: a döntésképtelen statisztika próba esete Ha az n kicsi Az előjeles rangpróba jobb hatásfokú, már n=5 esetre is tud döntést adni A két mintás próba esete a szignifikanciaszinthez közelálló, de nem-szignifikáns kísérletet mutat be. Mindegyik esetben van tanulság a kutatási tennivalók területén

Egyszerű paraméteres eljárások Egy mintás és két mintás paraméteres próbák: a z és t próbák

A z próba gondolatmenete (egy mintás, két mintás) Feltételek A minták (1 vagy 2 darab) normális eloszlásból származnak Független minták Véletlen minták (randomizálás) A populáció szórása ismert ( ) A populáció várható értékét ( ) vagy ismerjük, vagy nem Nullhipotézis Null hipotézis: a minták közös populációból származnak (v 1 =v 2 ) Null hipotézis következménye: (s 12 =s 22 = ) A mintákból becslést készítünk a a mintaátlagok különbségére. Eljárás A mintaátlagok különbségét osztva a mintaátlagok szórásával (az ismert populációs szórásból számítva, azaz osztva n-el) a z eloszlást követő statisztikát kapunk. A z statisztikát kiszámoljuk, és megvizsgáljuk, mi a valószínűsége, hogy a nullhipotézis érvényessége mellett a számolt z értéket kapjuk. Előre tervezett (a priori) módon egyoldali, vagy kétoldalú összehasonlítást végzünk

Z score, standard score, critical ratio, z transformation z X Az adatoknak az átlagtól való eltérését fejezi ki, standard deviáció (szórás) egységében z X / n Ez a képlet a minta átlagot transzformálja a 0 várható értékű és 1 szórású standard normális eloszlásra

Standard normális eloszlás 0.60 Probability Density Function y=normal(x;0;1) 0.45 0.30 0.15 34.1% 34.1% 2.2% 13.6% 13.6% 2.2% 0.00-3 -2-1 0 1 2 3

Egyoldalú, vagy kétoldalú hipotézis Ha a vizsgálat előtt (a priori) van okunk feltételezni, hogy ha van változás, akkor az csak az egyik irányban lehetséges, akkor egyoldalú hipotézist vizsgálunk. Ekkor H 0 : m 1 =m 2, H 1 : m 1 >m 2 A kétoldalú hipotézis esetében H 0 : m 1 =m 2, H 1 : m 1 <>m 2

Ha a populáció tulajdonságait a mintából becsüljük: t próbák Feltételezzük, hogy a minták normális eloszlású populációból származnak A feltételezés teljesülésének valószínűségét ellenőrizzük Az eloszlás paramétereit várható érték, szórás a mintából becsüljük A z scorehoz hasonló statisztikák számolunk A normál eloszláshoz hasonló t eloszláson vizsgáljuk a valószínűségeket

Feltételek A t próba gondolatmenete A minták (1 vagy 2 darab) normális eloszlásból származnak Független minták Véletlen minták (randomizálás) Nullhipotézis (Student féle t próba, egy mintás, két mintás) Null hipotézis: a minták közös populációból származnak ( 1 = 2 ) Null hipotézisből következő feltételezés a szórásra: 1 = 2 Eljárás A két variancia ( 2 ) becslés hányadosa az F 1,2 eloszlást követi (F 1,2 = s 12 /s 22 ). Az F próbával vizsgáljuk, az s 12 és az s 2 2 megfigyelt értékei mennyire valószínűek a nullhipotézis mellett Ha a minták egy sokaságból valók (a nullhipotézis érvényes), akkor teljesül, hogy F 1,2 eloszlásának várható értéke F 1,2 = 1 Ha p<0,05 arra, hogy F 1,2 = 1, akkor elvetjük a nullhipotézist

A t próba gondolatmenete (folytatás) A mintákból becslést készítünk a mintaátlagok különbségére, és a különbség szórására ( ), felhasználva mind a két minta szórását. A mintaátlagok különbségének és a közös varianciabecslésnek hányadosa a t eloszlását követi, sz.f.=(n 1 +n 2-2) szabadságfokkal. A t statisztikát kiszámoljuk, és megvizsgáljuk, mi a valószínűsége, hogy a nullhipotézis érvényessége, és sz.f. szabadságfok mellett a számolt t értéket kapjuk. A t statisztika eloszlása a Student féle T eloszlás, Előre tervezett (a priori) módon egyoldali, vagy kétoldalú összehasonlítást végzünk

A t eloszlás (család, sz.f.=10) 0.500 Probability Density Function y=student(x;10) p=0.90 0.375 0.250 p=0.95 0.125 p=0.99 0.000-4 -3-2 -1 0 1 2 3 4

t eloszlás, sz.f.=10, x tengely (-15, 15) 0.500 Probability Density Function y=student(x;10) p=0.10 0.375 0.250 p=0.05 0.125 p=0.01 0.000-15 -12-9 -6-3 0 3 6 9 12 15

t eloszlás, n=2, sz.f.=1, x tengely (-15,15) 0.500 Probability Density Function y=student(x;1) p=0.10 0.375 0.250 p=0.05 0.125 0.000-15 -12-9 -6-3 0 3 6 9 12 15

Egyszerű feladatok áttekintése Egy átlag becslése, standardhoz hasonlítása Egy átlag, nem illeszkedik a normális eloszláshoz: Önkontrollos csoportok, matched pairs, csatolt megfigyelések: az átlagos különbség és annak konfidencia intervalluma Wilcoxon féle előjeles rangpróba Mann-Whitney U, vagy Wilcoxon rangösszeg próba Egy mintás t próba Kétmintás t próba

Tanulságok Változatos eljárások állnak rendelkezésünkre A kutatási terv szűkíti a választási lehetőségeket Adataink transzformálásával tágíthatjuk lehetőségeinket A lehetőség szerint leghatékonyabb (legjobb) módszert válasszuk Nem az a leghatékonyabb módszer, ami a legtöbb szignifikáns eredményt adja! Replikálhatóság esélyét rontja, ha a könnyebb (statisztikai) utat választjuk A hatékonyság függ attól, hogy a mintán a próba feltételezései teljesülnek-e? A próbák mindig valamilyen valószínűség eloszlást használnak az adott minta esetében a null hipotézis teljesülése valószínűségének megállapítására

Gyakran használt eloszlások Binomiális Standard normális Student féle t eloszlás F eloszlás Khi négyzet eloszlás Rangszámok eloszlása