Nem-paraméteres és paraméteres módszerek Kontingencia tábla, rangtranszformálás, párosított minták, két független minta
Az előadások célja bemutatni a hipotézis vizsgálat elveinek alkalmazását a gyakorlatban Bemutatni a statisztikai vizsgálatok fajtáit, csoportok összehasonlításait az egyszerűtől az összetett felé a sokféleséget, a sok lehetőséget
Nem-paraméteres és paraméteres próbák Nem-paraméteresnek nevezzük a statisztikai eljárást, ha nem tételezünk fel ismert eloszlást Másik (pontatlanabb) nevük eloszlás-mentes eljárások Ilyenek például: kontingencia tábla, előjelpróba, rangtranszformációs eljárások Paraméteresnek nevezünk egy statisztikai eljárást, ha a mintáról feltételezzük, hogy eloszlása egy jól ismert statisztikai eloszlásnak megfelelő Az eloszlás paramétereit, a várható értéket, szórást használjuk Feltételekkel alkalmazhatók, ezek teljesülését ellenőrizzük Felhasználjuk az ismert eloszlás tulajdonságait a próba-statisztika kiszámolásához Ilyen a t próba, variancia elemzés
A nominális skálán mérhető változó esete A legegyszerűbb eset: Két nominális változó két szinten, ezek kapcsolata Kontingencia táblázat Kontingencia: előre nem látott esemény, esetlegesség, véletlenség Az előfordulás gyakoriságát mérjük és táblázatba foglaljuk Az összetettebb esetekről később egy egész előadást kapnak
Egy klinikai példa D.E. Matthews and V.T: Farewell: Using and understanding medical statistics. Karger 1996 Thomas, PRM, Tefft M, D'Angio GJ, Norkool OP, Farewell VT: Relapse patterns in irradiated Second National Wilms' Tumor Study (NWTS-2) patients. Proc Am Soc Clin Oncol 24: 69 (1983) Operative site Field size too small Field size OK Total Relapse 2 2 4 No relapse 21 234 255 Total 23 236 259 Mi a populáció? Mi a populációban a relapszus előfordulása? Relapszus ráta: 4/259=0,015 1,5% de a jól sugarazottakban: 2/236=0,009 0,9% nem jól sugarazottakban: 2/23 =0,087 8,7%
A lehetséges táblák, ha a pirossal írott széli összegek rögzítettek 2. tábla 2 2 4 21 234 255 23 236 259 0. tábla 0 4 4 23 232 255 23 236 259 3. tábla 3 1 4 20 235 255 23 236 259 1. tábla 1 3 4 22 233 255 23 236 259 4. tábla 4 0 4 19 236 255 23 236 259
Az egyes táblák előfordulásának valószínűsége, ha a relapszusokra igaz, hogy r 1 =r 2 =r p Tábla # 0 1 2 3 4 Összes P 0,6875 0,2715 0,0386 0,0023 0,0001 1,000 H 0 : r 1 = r 2, elfogadjuk, ha a megfigyelt különbségek csak a véletlennek tulajdoníthatók H 1 : r 1 <>r 2, elfogadjuk, ha a megfigyelt különbségek nagy valószínűséggel a valós populációs relapszus arányokat mutatják A 2. számú tábla a megfigyelt adatok táblája: Mi annak a valószínűsége, hogy 2, 3, vagy 4 relapszus forduljon elő a túl kicsi területen besugárzott 23 beteg között? Összeadjuk a 2, 3, és 4. táblák valószínűségét: 0,0386+0,0023+0,0001 0,04
Fisher tesztben az egyes táblák valószínűsége Feltételek: A null hipotézis teljesül bármelyik kimenetel egyformán valószínű Eljárás a binomiális együttható felhasználásával levezetés nélkül, ahol R 1, C 1, t, N a tábla adatai az 1. sor (row, R 1 ) és az 1. cella (C 1 ) jelöléssel, t a cellába éppen belekerült szám, N az összes adat. p t valószínűség, hogy az első cellába éppen t kerül. p t R t 1 N C 1 R t 1 N / C 1
Nyirok nem-eszterifikált zsírsav koncentrációja NEFA koncentráció mikroaequ/l NE előtt NEFA koncentráció mikroaequ/l NE után Különbség 780 1182 + 784 680-1077 1488 + 780 1195 + 945 1340 + 1114 1448 +
Az előjel próba (kapcsolt megfigyelések példája) egy minta egyedei két lehetőség közül melyiket preferálják egyénenként két megfigyelés beavatkozás előtt-után eltérő helyeken, például jobb vagy bal oldalon eltekintünk az esetleges mérhető tulajdonságtól (transzformálunk!) az egyik esemény előjelét pozitívnak, a másik előjelét negatívnak nevezzük, és nem engedünk meg eldöntetlen esetet az előjel próbával értékelhető adatok esete lényegében véve azonos a pénzfeldobási kísérlet kimenetelének vizsgálata esetével, amelyet a binomiális eloszlás írt le.
A binomiális eloszlás értékei n n n n n n n n n n K 1 2 3 4 5 6 7 8 9 10 0 0.5 0.25 0.125 0.063 0.031 0.016 0.008 0.004 0.002 0.001 1 0.5 0.50 0.375 0.250 0.156 0.094 0.055 0.031 0.018 0.010 2 0.25 0.375 0.375 0.313 0.234 0.164 0.109 0.070 0.044 3 0.125 0.250 0.313 0.313 0.273 0.219 0.164 0.117 4 0.063 0.156 0.234 0.273 0.273 0.246 0.205 5 0.031 0.094 0.164 0.219 0.246 0.246 6 0.016 0.055 0.109 0.164 0.205 7 0.008 0.031 0.070 0.117 8 0.004 0.018 0.044 9 0.002 0.010 10 0.001 n a megfigyelések száma k a pozitív (vagy a negatív) előjelek száma p a táblázatban feltüntetett számok A piros számok a szignifikáns p (valószínűség) értékeket jelzik (kétoldalas próba!)
Rangtranszformálás Az összes adatot (a csoporthoz való tartozástól függetlenül) nagysága szerint sorba állítjuk Az adatok helyébe azok rangszámát helyettesítjük. Ha két, vagy több azonos adatot találunk, akkor azok helyébe az átlagos rangszámokat írjuk. Az így kapott rangszámokat az eredeti csoportokra szétbontjuk. Ez a transzformáció az eredeti megfigyeléseket az ordinális (rang) skálán fejezi ki.
Nyirok nem-eszterifikált zsírsav koncentrációja kapcsolt megfigyelések példája NEFA koncentráció mikroaequ/l NE előtt NEFA koncentráció mikroaequ/l NE után Különbség Rang szám Előjeles rang szám 780 1182 402 4 4 784 680-104 1-1 1077 1488 411 5 5 780 1195 415 6 6 945 1340 395 3 3 1114 1448 334 2 2
Wilcoxon-féle előjeles rang próba kapcsolt megfigyelések számára Rangtranszformációt végzünk A ragszámok megkapják a különbség előjelét Az előjeles rangszámok összege 19 (n=6), a null hipotézis teljesülésének valószínűsége: p= 0,046 (ami kisebb, mint az előre kijelölt 0,05 szignifikancia szint), ezért a null hipotézist elvetjük és arra következtetünk, hogy a noradrenalin hatására emelkedik a májnyirok NEFA szintje.
Mann-Whitney-Wilcoxon próba két független minta esete (Ho:) szerint a két medián egyenlő, azaz nem az átlagok egyenlőségét vizsgálja, mint a két mintás t teszt. Az alternatív hipotézis (HA:) szerint a két minta medián nem egyenlő. Feltételek: független minták, folytonos és diszkrét valószínűségi változók esetében is használható. Ez az eljárás hatékonyabb, mint a t próba, ha a t próba feltételei nem teljesülnek. Ha sok az azonos rangsorú érték, ezeket a teszt nem veszi figyelembe, és ezért ilyenkor kissé alulértékeli a szignifikancia szintet, hatékonysága romlik.
Agresszivitás vizsgálat Fehér patkányokon vizsgálták egy hormon (tesztoszteron) hatását az agresszív magatartásra. Két független csoport: kontroll és tesztoszteron kezelt A hormon adása után 8-9 nappal történt a vizsgálat. Az agresszív cselekedetek (harapások) előfordulását vizsgálták 15 perc alatt (videofelvételeken).
Patkányokban harapások száma, tesztoszteron kezelés után # Kontroll # Teszto szteron # Kontroll # Teszto szteron # Kontroll # Teszto szteron # Kontroll # Teszto szteron 1 0 1 2 6 0 6 0 11 1 1 27 16 0 16 6 2 4 2 0 7 1 7 4 12 3 12 9 17 1 17 5 3 1 3 3 8 0 8 2 13 9 13 0 18 1 18 8 4 0 4 2 9 3 9 0 14 0 14 7 19 1 19 5 0 5 0 10 1 10 0 15 0 15 26
Agresszivitás vizsgálat eredménye A példa esetében a számolást (STATISTICA program, Nonparametric Statistics modul) elvégezve: Rank Sum: a "Kontroll" csoportra 301, Rank Sum: a "Tesztoszteron" csoportra 402, az "U" statisztika értéke 111, a két csoport mediánja azonosságának (H0 érvényességének) valószínűsége p=0.059810.
Tanulságok Az előjel próba példája: a döntésképtelen statisztika próba esete Ha az n kicsi Az előjeles rangpróba jobb hatásfokú, már n=5 esetre is tud döntést adni A két mintás próba esete a szignifikanciaszinthez közelálló, de nem-szignifikáns kísérletet mutat be. Mindegyik esetben van tanulság a kutatási tennivalók területén
Egyszerű paraméteres eljárások Egy mintás és két mintás paraméteres próbák: a z és t próbák
A z próba gondolatmenete (egy mintás, két mintás) Feltételek A minták (1 vagy 2 darab) normális eloszlásból származnak Független minták Véletlen minták (randomizálás) A populáció szórása ismert ( ) A populáció várható értékét ( ) vagy ismerjük, vagy nem Nullhipotézis Null hipotézis: a minták közös populációból származnak (v 1 =v 2 ) Null hipotézis következménye: (s 12 =s 22 = ) A mintákból becslést készítünk a a mintaátlagok különbségére. Eljárás A mintaátlagok különbségét osztva a mintaátlagok szórásával (az ismert populációs szórásból számítva, azaz osztva n-el) a z eloszlást követő statisztikát kapunk. A z statisztikát kiszámoljuk, és megvizsgáljuk, mi a valószínűsége, hogy a nullhipotézis érvényessége mellett a számolt z értéket kapjuk. Előre tervezett (a priori) módon egyoldali, vagy kétoldalú összehasonlítást végzünk
Z score, standard score, critical ratio, z transformation z X Az adatoknak az átlagtól való eltérését fejezi ki, standard deviáció (szórás) egységében z X / n Ez a képlet a minta átlagot transzformálja a 0 várható értékű és 1 szórású standard normális eloszlásra
Standard normális eloszlás 0.60 Probability Density Function y=normal(x;0;1) 0.45 0.30 0.15 34.1% 34.1% 2.2% 13.6% 13.6% 2.2% 0.00-3 -2-1 0 1 2 3
Egyoldalú, vagy kétoldalú hipotézis Ha a vizsgálat előtt (a priori) van okunk feltételezni, hogy ha van változás, akkor az csak az egyik irányban lehetséges, akkor egyoldalú hipotézist vizsgálunk. Ekkor H 0 : m 1 =m 2, H 1 : m 1 >m 2 A kétoldalú hipotézis esetében H 0 : m 1 =m 2, H 1 : m 1 <>m 2
Ha a populáció tulajdonságait a mintából becsüljük: t próbák Feltételezzük, hogy a minták normális eloszlású populációból származnak A feltételezés teljesülésének valószínűségét ellenőrizzük Az eloszlás paramétereit várható érték, szórás a mintából becsüljük A z scorehoz hasonló statisztikák számolunk A normál eloszláshoz hasonló t eloszláson vizsgáljuk a valószínűségeket
Feltételek A t próba gondolatmenete A minták (1 vagy 2 darab) normális eloszlásból származnak Független minták Véletlen minták (randomizálás) Nullhipotézis (Student féle t próba, egy mintás, két mintás) Null hipotézis: a minták közös populációból származnak ( 1 = 2 ) Null hipotézisből következő feltételezés a szórásra: 1 = 2 Eljárás A két variancia ( 2 ) becslés hányadosa az F 1,2 eloszlást követi (F 1,2 = s 12 /s 22 ). Az F próbával vizsgáljuk, az s 12 és az s 2 2 megfigyelt értékei mennyire valószínűek a nullhipotézis mellett Ha a minták egy sokaságból valók (a nullhipotézis érvényes), akkor teljesül, hogy F 1,2 eloszlásának várható értéke F 1,2 = 1 Ha p<0,05 arra, hogy F 1,2 = 1, akkor elvetjük a nullhipotézist
A t próba gondolatmenete (folytatás) A mintákból becslést készítünk a mintaátlagok különbségére, és a különbség szórására ( ), felhasználva mind a két minta szórását. A mintaátlagok különbségének és a közös varianciabecslésnek hányadosa a t eloszlását követi, sz.f.=(n 1 +n 2-2) szabadságfokkal. A t statisztikát kiszámoljuk, és megvizsgáljuk, mi a valószínűsége, hogy a nullhipotézis érvényessége, és sz.f. szabadságfok mellett a számolt t értéket kapjuk. A t statisztika eloszlása a Student féle T eloszlás, Előre tervezett (a priori) módon egyoldali, vagy kétoldalú összehasonlítást végzünk
A t eloszlás (család, sz.f.=10) 0.500 Probability Density Function y=student(x;10) p=0.90 0.375 0.250 p=0.95 0.125 p=0.99 0.000-4 -3-2 -1 0 1 2 3 4
t eloszlás, sz.f.=10, x tengely (-15, 15) 0.500 Probability Density Function y=student(x;10) p=0.10 0.375 0.250 p=0.05 0.125 p=0.01 0.000-15 -12-9 -6-3 0 3 6 9 12 15
t eloszlás, n=2, sz.f.=1, x tengely (-15,15) 0.500 Probability Density Function y=student(x;1) p=0.10 0.375 0.250 p=0.05 0.125 0.000-15 -12-9 -6-3 0 3 6 9 12 15
Egyszerű feladatok áttekintése Egy átlag becslése, standardhoz hasonlítása Egy átlag, nem illeszkedik a normális eloszláshoz: Önkontrollos csoportok, matched pairs, csatolt megfigyelések: az átlagos különbség és annak konfidencia intervalluma Wilcoxon féle előjeles rangpróba Mann-Whitney U, vagy Wilcoxon rangösszeg próba Egy mintás t próba Kétmintás t próba
Tanulságok Változatos eljárások állnak rendelkezésünkre A kutatási terv szűkíti a választási lehetőségeket Adataink transzformálásával tágíthatjuk lehetőségeinket A lehetőség szerint leghatékonyabb (legjobb) módszert válasszuk Nem az a leghatékonyabb módszer, ami a legtöbb szignifikáns eredményt adja! Replikálhatóság esélyét rontja, ha a könnyebb (statisztikai) utat választjuk A hatékonyság függ attól, hogy a mintán a próba feltételezései teljesülnek-e? A próbák mindig valamilyen valószínűség eloszlást használnak az adott minta esetében a null hipotézis teljesülése valószínűségének megállapítására
Gyakran használt eloszlások Binomiális Standard normális Student féle t eloszlás F eloszlás Khi négyzet eloszlás Rangszámok eloszlása