Eloszlás-független módszerek (folytatás) 15. elıadás (29-30. lecke) Kétirányú osztályozás (függetlenség és homogenitás) Speciális eset: 2 2-es táblázatok Három-irányú osztályozás 29. lecke Függetlenség- és homogenitás vizsgálat Kontingencia együttható Tömörített számítás 2 2-es táblázatra
A fiktív példa folytatása (2) Az F ij várt értékek táblázata {F ij }: A/B B 1 B 2 B 3 összesen A 1 35,43 58,55 30,02 124 A 2 21,43 35,41 18,16 75 A 3 61,14 101,04 51,82 214 összesen 118 195 100 413 = n Figyeljük meg, hogy a táblázat peremösszegei megegyeznek a megfigyelési {f ij } táblázat peremösszegeivel, tehát átrendezésrıl van szó.
A fiktív példa elemzése folytatása (3) Az {f} és az {F} táblázat távolsága K= 2 2 ( 34 35,43) ( 62 58,55) ( 52 51,82 ) 35,43 + 58,55 +... + 51,82 2 = 4,02 34 62 52 G = 2 34ln + 62ln +... + 52ln = 35,43 58,55 51,82 4,03 Függetlenség esetén K és G df = (3-1)(3-1)= 4 szabadságfokú x 2 -eloszlást követ, a kritikus érték α=5 % hibaszinten 9,49 : a kezesség és a szemesség között nincs szignifikáns kapcsolat a fiktív példában.
A kontingencia együttható Kvalitatív változók korrelációjának (asszociációjának) mérésére a legelfogadottabb index a Cramer-féle kontingencia együttható (C) Képlete C = K n k ahol k a-1 és b-1 közül a kisebbik C értéke 0 és 1 közé esik, szignifikancia vizsgálata azonos K szignifikancia vizsgálatával A fenti példánkban C 2 = 4,2/(413 x 2)= 0,005
Homogenitás vizsgálat Függetlenség vizsgálatnál a mintaegyedeket utólag soroljuk be valamelyik (AB) cellába. Homogenitás vizsgálatnál a mintaegyedek hovatartozása egyik szempontból eleve adott, csak a másik szempont szerint kell besorolni. Példa: n = 100 állatból n 1 =54 az A 1 tartási körülményekben él, n 2 = 46 állat az A 2 -ben. Vizsgáljuk bizonyos megbetegedés fokát (c = 3 kategória) C 1 = nem, C 2 = enyhe, C 3 = súlyos.
Homogenitás vizsgálat (számpélda) [fi j ] Megbetegedési fok Tartás Nem (C 1 ) Enyhe (C 2 ) Súlyos (C 2 ) Összes A 1 50 (92,6%) 4 (7,4%) 0 (0%) 54 (100%) A 2 20 (43,5%) 12 (26,1%) 14 (30,4%) 46 (100%) Összes 70 (70%) 16 (16%) 14 (14%) 100(100%) A kérdés az, hogy a két sor %-os megoszlása hibahatáron belül azonos-e. A két sor megoszlása láthatóan eltér, de statisztikai megerısítés szükséges.
A számpélda statisztikai tesztelése Az F ij = f i.f. j /n képzéssel kapjuk a H 0 mellett várható gyakoriságokat [F ij ] C 1 C 2 C 3 Összesen A 1 37,80 8,64 7,56 54 A 2 32,20 7,36 6,44 46 Összesen 70 16 14 100 Figyeljük meg, hogy a megoszlás minden sorban 70 %:16%:14%
A számpélda statisztikai tesztelése folytatás A K-statisztika ({f} és {F} távolsága) K = 2 ( 50 37,8) ( 14 6,44 ) 37,8 +... + 6,44 30,4 a szabadságfok df = (2-1)x(3-1)=2, krit.érték= 5,99 A G-statisztika (Megj.: f=0-nál a tagot kihagyjuk) G= 2[50 ln(50/37,8)+ +14 ln (14/6,44)] = 36,2 Mindkét statisztika erıs szignifikanciát jelez: a tartási körülmény befolyásolja a megbetegedési esélyt. 2 =
Kiegészítés a homogenitás vizsgálathoz Homogenitás vizsgálat esetén is számítható a Cramerféle kontingencia együttható Ebben az esetben inkább C 2 értelmezése indokolt, mint determinációs együttható A példánkban C 2 = 30,4 /(100 x 1) = 30,4%, a tartási körülmény 30 %-ban hat a megbetegedési fokra(ez alacsonynak tőnik, de a K khí-négyzet próbája szerint erısen szignifikáns).
Speciális eset: 2x2-es (négymezıs)táblázat Igen gyakori eset, hogy mindkét ismérv dichoton (igennem, van-nincs stb.), ilyenkor K (és G) formulája tömöríthetı. A gyakoriságokat a,b,c,d-vel jelölve, 2 x 2-es esetben a kontingencia táblázat így néz ki x/y összesen a b n 1 =a+b c d n 2 =c+d Összesen m 1 =a+c m 2 =b+d n=a+b+c+d
Négymezıs táblázat (folytatás) A K-statisztika általános képlete algebrai átalakítással így írható (lényeges számítási egyszerősítés): 2 n ( ad bc ), szabadságfoka 1 K = n 1 n 2 m 1 m 2 A Cramer-féle asszociációs együttható négyzete C 2 =K/n Kis mintáknál ad-bc helyett ad-bc - n/2-vel számolunk (Yates-féle korrekció) A G-statisztikánál nincs lényeges egyszerősödés a formulában.
KÖSZÖNÖM TÜRELMÜKET
30. lecke 2 2-es táblázat alkalmazásai: asszociáció, két relatív gyakoriság összehasonlítása Fisher-féle egzakt próba kis mintákra Példa három-irányú osztályozásra
2x2-es táblázat alkalmazása (1): Két ismérv asszociációja Példa: Datura hibrideknél észlelték az alábbi megoszlást (A=virágszín, B=termés): A/B tövises sima összes Lila 47 12 59 Fehér 21 3 24 Összes 68 15 83 Kimutatható-e kapcsolat a virág színe és a termés típusa között?
A példa folytatása A K statisztika K = 83(47 x 3 12 x 21) 2 /(59 x 24 x 68 x 15)=0,71 Ez a khí-négyzet érték igen távol áll a szignifikanciától (a kritikus érték 5 %-nál 3,84) Az asszociáció mérıszáma (Cramer index) C = 0,71/83 = 0,0085, igen kicsi Semmi nem változik, ha Yates-korrekciót alkalmazunk, ekkor K csak csökken.
2x2-es táblázat alkalmazása (2): két relatív gyakoriság összehasonlítása Példa: Egy kis településen 10 nı és 15 férfi indul a 10 tagú önkormányzati képviselı választáson. A 10 nıbıl 2 (20 %), a 15 férfiból 8 (53 %) kerül be a testületbe. Van-e szignifikáns eltérés a 20 % és az 53 % között? Az esetszám-táblázat bejut nem össz nı 2 8 10 ffi 8 7 15 össz 10 15 25 ( ) 25 2x7 8x8 K = = 2,77 10 15 10 15 nem szignifikáns 2
A Fisher-féle egzakt próba 2x2-es táblázatra kis esetszámoknál a khí-négyzet próba nem elég pontos. A Fisher-próba közvetlenül megadja a P-értéket, a számítást bemutatjuk Általánosan az alábbi táblázatból képezzük a a b n 1 c d n 2 m 1 m 2 n valószínőséget, majd Ugyanezt az eredeti táblázatnál szélsıséges esetekre. P=a számított P x -ek összege. n1! n 2! m1! m 2! P x = n! a! b! c! d!
Fisher-féle egzakt próba (példa) Tekintsük az elıbbi önkormányzati példát. A kapott táblázatnál szélsıségesebb esetek, ha a bejutott nık számát tovább csökkentjük, közben a peremösszegeket fixen hagyjuk. 2 8 10 8 7 15 10 15 25 1 9 10 9 6 15 10 15 25 0 10 10 10 5 15 10 15 25 P x 10!15!10!15! 10!15!10!15! = 25!2!8!8!7! 25!1!9!9!6! = 0,08859 0,01529 0,00918 P= ΣPx = 0,11 > 0,05, nem szignifikáns (egyoldali próba) 10!15!10!15! 25!0!10!10!5!
Három-irányú osztályozás Példa: egészítsük ki a fentebbi tartási körülmények megbetegedési fok példát még egy táblázattal. Az elızı táblázatban az állatokat nem kezelték, a második táblázatban bizonyos szérummal kezelt állatok szerepelnek. Kérdés, hogy a kezelés csökkenti-e a megbetegedés esélyét, ha igen, a változás azonos-e az egyes tartási körülményeknél?
Három-irányú osztályozás (példa) Kezeletlen csoport (B 1 ) Kezelt csoport (B2) Megbetegedési fok Tartás nem(c 1 ) enyhe (C 2 ) súlyos (C 3 ) összes A 1 50(92,6%) 4 (7,4 %) 0 (0%) 54 (100%) A 2 20 (43,5%) 12 (26,1%) 14 (30,4%) 46 (100%) Össz. 70 16 14 100(100%) Megbetegedési fok Tartás nem(c 1 ) enyhe (C 2 ) súlyos (C 3 ) összes A 1 26(86,7%) 4(13,3%) 0 (0%) 30(100%) A 2 20(100%) 0(0%) 0 (0%) 20(100%) Össz. 46(92%) 4(8%) 0 (0%) 50(100%)
Három-irányú osztályozás (példa folytatása) Az elemzéshez szükségünk lesz a két táblázat összevonására Kezeletlen + kezelt csoport (B 1 + B 2 ) Megbetegedési fok Tartás nem (C 1 ) enyhe (C 2 ) súlyos (C 3 ) Összes A 1 76 8 0 84 A 2 40 12 14 66 összes 116 20 14 150
A példa elemzése Mindhárom táblázatra kiszámítjuk a G statisztikát (ez most elınyösebb K-nál) Az F becslések számítása elkerülhetı G képletének alábbi alakjával: G Az eredmények 2 f ijln fij fi. ln fi. f. j ln f. j + n ln = n G(B 1 -ben) = 36,2 df = 2 szign. G(B 2 -ben) = 4,3 df = 2 nem szign. G(B 1 +B 2 -ben) = 29,4 df = 2 szign.
A példa elemzése (folytatás) A felírt két táblázat közötti távolságot méri a G AxB = G(B 1 )+G(B 2 )-G(B 1 +B 2 ) = 36,2 +4,3 29,4 = 11,1 érték, 2 + 2 2 = 2 szabadságfokú khí-négyzet eloszlású, esetünkben szignifikáns. Mi az eltérés oka? Vizsgáljuk B 1 és B 2 eltérését különkülön az A 1 ill. A 2 tartási körülmények között.
A példa elemzése (folytatás) Az A 1 sorokat kiemelve Megbetegedési fok nem(c 1 ) enyhe(c 2 ) súlyos(c 3 ) összes B 1 50 4 0 54 B 2 26 4 0 20 összes 76 8 0 84 G A1 = 0,76 df = 2, nem szign. Hasonlóan, az A 2 sorokat kiemelve kapjuk G A2 = 16,9 df = 2, szignifikáns Következtetés: az A 1 tartási körülménynél nincs szükség szérumra, A 2 -nél jelentıs a szérum hatása.
Kiegészítés: G-értékek táblázatba foglalása G(jel) szab.fok pld.: G df A hatás B1-ben G(AlB 1 ) (a-1)(c-1) 36,2 1 2=2 A hatás B2-ben G(AlB 2 ) (a-1)(c-1) 4,3 1 2=2 Összes A hatás G(AlB) b(a-1)(c-1) 40,5 2 1 2=4 A hatás B1+B2-ben G(A) (a-1)(c-1) 29,4 1 2=2 Kölcsönhatás G(A B) (a-1)(b-1)(c-1) 11,1 1 1 2=2 Figyeljük meg, hogy az összes A hatás kétféleképpen bomlik fel komponensekre Ugyanilyen felbontás érvényes A és B (valamint a és b) felcserélésével Érdemes figyelni még egy további kapcsolatra: az AB kombinációk teljes hatása G(AB) = G(A)+G(B)+G(A B), szabadságfoka (ab-1)(c-1). A példánkban G(AB) = 29,4+17,7+11,1 = 58,2 df=(2 2-1)(3-1)=6 /=2+2+2/ (megjegyzés: G(B) a fentebb számolt GA1 és GA2 összege, 0,76+16,9)
KÖSZÖNÖM 30 leckényi TÜRELMÜKET