Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 15. Nemparaméteres próbák Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision Date: November 4, 2006 Version 1.25
Table of Contents 1 Nemparaméteres próbák: Bevezetés 3 1.1 Nemparaméteres próbák előnyei... 4 1.2 Nemparaméteres próbák hátrányai.. 5 2 Az előjel próba 6 3 A Wilcoxon-féle próbák 14 4 A Wilcoxon-féle rang-összeg próba (Mann- Whitney teszt) 16
Table of Contents (cont.) 3 5 A Wilcoxon-féle előjeles rangpróba 21 6 A Kruskal-Wallis teszt 30 7 Összehasonĺıtás 37
Section 1: Nemparaméteres próbák: Bevezetés 4 1. Nemparaméteres próbák: Bevezetés Az eddigi statisztikai próbákat (pl. z, t, F ) paraméteres próbáknak hívják. Ezek a vizsgált populáció ismeretlen paramétereire vonatkoznak. A populáció eloszlásáról is feltételezéssel éltünk (normalitás). Mi van akkor, ha a populáció eloszlása nem normális? Ilyen esetek kezelésére szolgálnak a nemparaméteres próbák (nonparametric statistics, vagy distribution-free statistics). Olyan hipotéziseket is vizsgálhatunk segítségükkel, amelyekben nem szerepel a populáció egyik paramétere sem.
Section 1: Nemparaméteres próbák: Bevezetés 5 1.1. Nemparaméteres próbák előnyei 1. Olyankor is alkalmazhatók egy populáció paramétereire, amikor a populáció eloszlása nem normális. 2. Akkor is használhatók, amikor az adatok kategorikusak vagy ordinálisak. 3. Populáció paramétereket nem tartalmazó hipotézisek vizsgálatára is alkalmasak. 4. A legtöbb esetben a számítások egyszerűbbek, mint a paraméteres próbák esetén. 5. Könnyebben megérthetők.
Section 1: Nemparaméteres próbák: Bevezetés 6 1.2. Nemparaméteres próbák hátrányai 1. Kevésbé érzékenyek, mint a parametrikus módszerek, ha ez utóbbiak alkalmazási feltételei fennállnak. Nagyobb különbség kell a null hipotézis elutasításához. 2. Kevesebb információt használnak, mint a paraméteres tesztek. 3. Kevésbé hatékonyak, mint paraméteres megfelelőjük, ha ez utóbbiak alkalmazási feltételei fennállnak. Azaz, nagyobb mintára van szükség az információvesztés miatt.
Section 2: Az előjel próba 7 Ezek alapján érdemes a paraméteres teszteket alkalmazni, ha a feltételei fennállnak. Ha nem, használjuk a megfelelő nemparaméteres tesztet. 2. Az előjel próba Egy populáció mediánjára vonatkozik. A null hipotézisünk: a medián = m 0. Tekintsük sorra a megfigyeléseinket. Ha egy adat nagyobb, mint m 0, rendeljük hozzá a + előjelet; ha kisebb, a előjelet; ha egyenlő m 0 -lal, akkor 0-t.
Section 2: Az előjel próba 8 Ezután összehasonĺıtjuk a + és előjelek számát. Ha igaz a null hipotézis, akkor a + és előjelek száma nagyjából egyenlő. Ha nem igaz a null hipotézis, valamelyik előjelből aránytalanul sok van. A próbastatisztika (megfigyelések száma 25): a + és előjelek száma közül a kisebb Kritikus értékek külön táblázatban. Példa. Egy állateledelt árusító üzlet tulajdonosa úgy gondolja, hogy naponta 40 doboz konzervet ad el. Egy 20 nap eladási adataira vonatkozó véletlen minta a következő:
Section 2: Az előjel próba 9 Teszteljük a tulajdonos sejtését α = 0.05 szinten. Megoldás. 1. lépés: a hipotézis és az alternatív hipotézis H 0 : medián = 40; H 1 : medián 40. 2. lépés: A kritikus érték meghatározása.
Section 2: Az előjel próba 10 Az összes + és előjel száma: n = 18; α = 0.05; kétoldali ellenhipotézis. Kritikus érték: 4 (lásd a következő táblázatot). 3. lépés: A próbastatisztika értékének meghatározása. 3 db +, 15 db, így az érték a kisebbik: 3. 4. lépés: A döntés. Mivel 3 < 4, így elvetjük a null hipotézist.
Section 2: Az előjel próba 11
Section 2: Az előjel próba 12 A próbastatisztika (megfigyelések száma > 25): z = (X + 0.5) n/2 n/2, ahol X: a + és előjelek száma közül a kisebb, n: a mintanagyság. A kritikus értéket a standard normális eloszlás táblázatából határozzuk meg. Példa. Egy mosógépgyártó azt álĺıtja, hogy gépeinek élettartama legalább 8 év. Egy 50 elemű véletlen mintában 21 olyan gép volt, amely 8 évnél többet
Section 2: Az előjel próba 13 bírt ki. α = 0.05 szinten ez elegendő-e a gyártó álĺıtásának elutasításához? Megoldás. 1. hipotézis H 0 : MD 8; H 1 : MD < 8 lépés: a hipotézis és az alternatív 2. lépés: A kritikus érték meghatározása. n = 50, α = 0.05, egyoldali ellenhipotézis, így a kritikus érték 1.65 3. lépés: A próbastatisztika értékének meghatározása.
Section 2: Az előjel próba 14 z = (X + 0.5) n/2 n/2 = 4. lépés: A döntés. (21 + 0.5) 50/2 50/2 = 0.99. Mivel 0.99 > 1.65, ezért nem utasítjuk el a null hipotézist.
Section 3: A Wilcoxon-féle próbák 15 3. A Wilcoxon-féle próbák Az előjelpróba nem veszi figyelembe az adatok nagyságát. 1 vagy 100 ponttal a medián alatt ugyanúgy egy előjelet rendel hozzá egy megfigyeléshez. A Wilcoxon-féle próbák a mediántól való eltérés nagyságát a rang segítségével veszik figyelembe. A Wilcoxon-féle rang-összeg próba független mintákra, a Wilcoxon-féle előjeles rang próba pedig nem független mintákra vonatkozik. Mindkét próba eloszlások összehasonĺıtására szolgál. A paraméteres megfelelőik a z-próba és t-próba független mintákra,
Section 3: A Wilcoxon-féle próbák 16 illetve a nem-független mintákra vonatkozó t-próba. Mindkét próbában vesszük a két minta egyesítését, majd rangsoroljuk az adatokat. Ha a null hipotézis (a két populáció azonos eloszlású) igaz, akkor az egyes minták adatait nagyjából azonos módon rangsoroljuk. Vagyis, amikor a rangokat a két mintára külön-külön összeadjuk, akkor e két összeg nagyjából megegyezik. Ha nagy az eltérés a két rangösszeg között, akkor a null hipotézist elvetjük. A rang kiszámítása: az n db adatot növekvő sorrendbe rakjuk. A lekisebbhez az 1, a következőhöz
Section 4: A Wilcoxon-féle rang-összeg próba (Mann-Whitney teszt) 17 a 2, stb, a legnagyobbhoz az n számot rendeljük hozzá. Holtverseny esetén a sorszámok átlagát. Példa. Ha az adatok a 3, 6, 6, 8, 10 számok, akkor a 2. és 3. helyen holtverseny van. Tehát mindkét 6-oshoz a (2 + 3)/2 = 2.5 számot rendeljük hozzá. 4. A Wilcoxon-féle rang-összeg próba (Mann- Whitney teszt) Feltevések: a két minta egymástól független; mindkét mintában legalább 10 adat van.
Section 4: A Wilcoxon-féle rang-összeg próba (Mann-Whitney teszt) 18 A próbához szükséges formulák: ahol z = R µ R σ R, µ R = n 1(n 1 + n 2 + 1), 2 n1 n 2 (n 1 + n 2 + 1) σ R =, 12 R = a két rang-összeg közül a kisebbik,
Section 4: A Wilcoxon-féle rang-összeg próba (Mann-Whitney teszt) 19 n 1 = a kisebbik mintanagyság, n 2 = a nagyobbik mintanagyság, Példa. Két csoport hallgatói biomatematika zárthelyit írtak. Az egyes csoportokhoz tartozó egyes hallgatóknak a következő időre volt szükségük az első feladat megoldásához: A 15 18 16 17 13 24 22 17 19 21 26 28 Átlag: 19.67 B 14 9 16 19 10 12 11 8 15 18 25 Átlag: 14.27 α = 0.05 szinten van-e különbség a két csoport
Section 4: A Wilcoxon-féle rang-összeg próba (Mann-Whitney teszt) 20 sebessége között? Megoldás: H 0 : van különbség; H 1 : nincs különbség. Kritikus érték: kétoldali ellenhipotézis; a standard normális eloszlás táblázatából a kritikus értékek: 1.96 és +1.96. (a) Csináljunk egy csoportot az adatokból, és rangsoroljuk ezt a 23 adatot. Idő 8 9 10 11 12 13 14 15 15 16 16 17 Csoport B B B B B A B A B A B A Rang 1 2 3 4 5 6 7 8.5 8.5 10.5 10.5 12.5
Section 4: A Wilcoxon-féle rang-összeg próba (Mann-Whitney teszt) 21 Idő 17 18 18 19 19 21 22 24 25 26 28 Csoport A B A A B A A A B A A Rang 12.5 14.5 14.5 16.5 16.5 18 19 20 21 22 23 (b) Adjuk össze a kisebb létszámú csoport (B) tagjainak rangjait. Ez 93. (c) Helyettesítsünk be a fenti képletekbe: µ R = n 1(n 1 + n 2 + 1) 11 (11 + 12 + 1) = = 132. 2 2 n1 n 2 (n 1 + n 2 + 1) σ R = = 264 = 16.2. 12 z = R µ R 93 132 = = 2.41. σ R 16.2
Section 5: A Wilcoxon-féle előjeles rangpróba 22 Döntés: mivel 2.41 < 1.96, így a null hipotézist elutasítjuk. Tehát van különbség a megoldási idők között a két csoportban. 5. A Wilcoxon-féle előjeles rangpróba Amikor két nem-független mintát vizsgálunk (például ugyanazon egyedeket egy kezelés előtt és után), a páros t-próba helyett alkalmazható az előjeles rangpróba (normalitást nem kell feltennünk). Az eljárást az alábbi példán keresztül mutatjuk be.
Section 5: A Wilcoxon-féle előjeles rangpróba 23 Példa. Egy nagy áruház igazgatója szeretné elejét venni az elszaporodott lopásoknak, ezért megnövelte a biztonsági személyzet létszámát. Az ezt megelőző, valamint az ezt követő 7 nap lopási adatait látjuk a következő táblázatban.
Section 5: A Wilcoxon-féle előjeles rangpróba 24 Lopások száma Nap Előtte Utána Hétfő 7 5 Kedd 2 3 Szerda 3 4 Csütörtök 6 3 Péntek 5 1 Szombat 8 6 Vasárnap 12 4 Alátámasztják-e a fenti adatok azt, hogy szignifikáns különbség van a szigorítás előtti és utáni lopások
Section 5: A Wilcoxon-féle előjeles rangpróba 25 száma között (α = 0.05)? Megoldás. H 0 : Nincs különbség. H 1 : Van különbség. Keressük meg a kritikus értéket a következő speciális táblázatból. Mivel n = 7, α = 0.05, kétoldali ellenhipotézis, a kritikus érték 2.
Section 5: A Wilcoxon-féle előjeles rangpróba 26
Section 5: A Wilcoxon-féle előjeles rangpróba 27 (a) Készítsük el az alábbi táblázatot: Előtte Utána Előjeles Nap X B X A D = X B X A D Rang rang Hétfő 7 5 2 2 3.5 3.5 Kedd 2 3 1 1 1.5 1.5 Szerda 3 4 1 1 1.5 1.5 Csütörtök 6 3 3 3 5 5 Péntek 5 1 4 4 6 6 Szombat 8 6 2 2 3.5 3.5 Vasárnap 12 4 8 8 7 7 (b) Számítsuk ki a különbségeket (előtte utána). (c) Vegyük a különbségek abszolútértékét.
Section 5: A Wilcoxon-féle előjeles rangpróba 28 (d) Rakjuk növekvő sorrendbe az abszolútértékeket, és számítsuk ki a rangokat. (e) A rangoknak adjunk előjelet a különbségek előjeleinek megfelelően. (f) Számítsuk ki a pozitív, illetve a negatív rangok összegét: pozitív rangok összege: +25 negatív rangok összege: 3 (g) A próbastatisztika értéke e két összeg abszolútértéke közül a kisebbik, azaz w s = 3 Elutasítjuk a nullhipotézist, ha a próbastatisztika
Section 5: A Wilcoxon-féle előjeles rangpróba 29 értéke kisebb vagy egyenlő a kritikus értéknél; most 3 > 2, ezért elfogadjuk a nullhipotézist. Vagyis, a biztonsági emberek számának növelése nem csökkentette a lopások számát. Amiért e próba működik: Ha tényleg van csökkenés, akkor a különbségek legtöbbje pozitív; a néhány negatív különbség abszolútértéke viszont valószínűleg kicsi, kisebb a kritikus értéknél. Ha nincs csökkenés, akkor néhány napon pozitív, néhány napon negatív a különbség; a pozitív ran-
Section 5: A Wilcoxon-féle előjeles rangpróba 30 gok összege, valamint a negatív rangok összegének abszolútértéke nagyjából egyenlő. A kettő közül a kisebbik várhatóan még mindig nagyobb lesz a kritikus értéknél. Ha n 30, akkor a normális eloszlással közeĺıtjük a Wilcoxon statisztika eloszlását: z = w s n(n+1) 4 n(n+1)(2n+1) 24 ahol n azon párok száma, ahol a különbség nem,
Section 6: A Kruskal-Wallis teszt 31 nulla, w s az előjeles rang-összegek abszolútértékei közül a kisebbik. 6. A Kruskal-Wallis teszt Három vagy több átlag összehasonĺıtására szolgál. Persze, az F próba is; de ennek alkalmazásának feltétele, hogy a populációk normális eloszlásúak, és a szórások egyenlők. Ha e feltételek nem teljesülnek, akkor érdemes a Kruskal-Wallis próbát alkalmazni. Minden egyes minta elemszáma legalább 5 kell legyen. Ekkor az eloszlást közeĺıthetjük egy χ 2 eloszlással
Section 6: A Kruskal-Wallis teszt 32 (d.f. = k 1, ahol k a csoportok száma). Ez a teszt is rangokat használ. Az összes adatot egyben tekintjük, majd rangsoroljuk ezeket. Ezután a rangokat szétválogatjuk, és az alábbi H formula értékét kiszámítjuk. Ez a rangok szórását közeĺıti. Ha a minták különböző populációkból származnak, akkor a rang-összeg is különböző lesz, és a H érték nagy lesz. Ezért a null hipotézist (az átlagok egyenlők) elutasítjuk, ha a H értéke elég nagy. Ha a minták azonos populációból származnak, a
Section 6: A Kruskal-Wallis teszt 33 rang-összegek nagyjából egyenlőek lesznek, és a H érték kicsi lesz. Ekkor a null hipotézist elfogadjuk. Ez mindig jobboldali teszt. A kritikus értékeket a χ 2 eloszlás táblázatából vesszük (d.f. = k 1). A próbastatisztika: H = ( ) 12 R 2 1 + R2 2 +... + R2 k 3(N + 1), N(N + 1) n 1 n 2 n k ahol R i az i-edik minta rang-összege, n i az i-edik minta nagysága, N = n 1 + n 2 +... + n k, k = a csoportok száma.
Section 6: A Kruskal-Wallis teszt 34 Példa. Háromféle reggeli ital literenkénti káliumtartalmát tesztelték. Az adatok: Van-e elegendő indokunk annak elutasítására, hogy mindegyik fajta ugyanannyi káliumot tartalmaz?
Section 6: A Kruskal-Wallis teszt 35 Megoldás. H 0 : nincs eltérés a káliumtartalmak között; H 1 : van eltérés. A kritikus érték: 5.991 (χ 2 táblázat, d.f. = k 1 = 2). A próbastatisztika értékének kiszámítása: (a) Az összes adatot rendezzük növekvő sorrendbe és határozzuk meg a rangokat:
Section 6: A Kruskal-Wallis teszt 36
Section 6: A Kruskal-Wallis teszt 37 (b) Mindegyik mintára számítsuk ki a rang-összegeket. A: 15, B: 53, C: 52. (c) Helyettesítsünk be a formulába: H = 9.38 (d) A döntés: mivel a tesztstatisztika értéke nagyobb a kritikus értéknél (9.38 > 5.991), ezért elutasítjuk a null hipotézist. Tehát az egyes italok nem ugyanannyi káliumot tartalmaznak.
Section 7: Összehasonĺıtás 38 7. Összehasonĺıtás Nemparaméteres Paraméteres Feltételek Előjel z vagy t Egy minta Wilcoxon rang-összeg z vagy t Két független minta Wilcoxon előjeles rang t Két összefüggő minta Kruskal-Wallis ANOVA Legalább 3 független minta