Eloszlás-független módszerek 13. elıadás (25-26. lecke) Rangszámokon alapuló korrelációs együttható A t-próbák és a VA eloszlásmentes megfelelıi 25. lecke A Spearman-féle rangkorrelációs együttható A Kendall-féle tau (τ ) t-próbák eloszlás-mentes megfelelıi (bevezetés)
Eloszlás-független eljárások témakörei Rangszámokon alapuló korrelációs együtthatók t-próbák és Varianciaanalízisek eloszlás-mentes megfelelıi Gyakorisági sorok és táblázatok elemzése illeszkedés-vizsgálat függetlenség- és homogenitás vizsgálat
Rangszámokon alapuló korrelációs együtthatók A Pearson-féle korrelációs együttható (r) számítása akkor indokolt, ha az (X,Y) változó-pár együttes eloszlása közel normális Ha a normalitás nagyon nem teljesül (pl. kiugró adatok vannak a mintában, a sztohasztikus kapcsolat nem lineáris), akkor a mért adatok helyett ezek rangtranszformáltjaiból indulhatunk ki, tehát ordinális skálát alkalmazunk Kitérünk a Spearman-féle r S -re, a Kendall-féle tau-ra és több változó esetén a rangkonkordancia együtthatóra
A Spearman-féle rangkorrelációs együttható Fiktív számpélda (illusztráció) mért adatok I rangok minta(i) x(i) y(i) I x*(i) y*(i) 1 11 10 I 1 3,5 - az x és az y oszlopban is van 2 15 7 I 3 2 kiugró adat (53, 70) 3 18 10 I 4 3,5 - a rangok nagyság szerinti sorrendet 4 28 21 I 7,5 8 jelentenek, ha az oszlopban több azonos 5 28 16 I 7,5 6 érték szerepel, mindegyik a sorszámuk 6 21 16 I 5 6 átlagát kapja rangként: például 7 12 5 I 2 1 az y oszlopban két 10-es szerepel 8 53 24 I 10 9 a 3-ik és a 4-ik sorrendi helyen, 9 25 16 I 6 6 mindkettı rangja (3+4)/2=3,5 10 35 70 I 9 10
A Spearman-féle rangkorrelációs együttható (a számpélda folytatása) Az (x,y) adatpárokból számolt korrelációs együttható r =0,54nem szign. Az (x*,y*) adatpárokból számolt korrelációs együttható r S =0,91 szign. r S =szignifikanciájának ellenırzése ugyanúgy megy, mint a Pearson-féle korrelációs együtthatóé, ha elég sok (legalább 10) mintaelemünk van, kis mintaszámra táblázat áll rendelkezésre Megjegyzés: kimutatható, hogy r S az alábbi módon is képezhetı: r S = ( a ij b ij )/ {( a ij2 )( b ij2 )} ahol a ij = x*(i)-x*(j) és b ij = y*(i)-y*(j), (i,j = 1,2,..,n) E formula alkalmas a kapcsolat-mérı számok további bıvítésére
A Kendall-féle tau (τ) Ha az elıbbi formulában az a ill. b távolságok helyére azok elıjelét tesszük, kapjuk a Kendall-féle tau mutatót: τ = ( a ij b ij )/ {( a ij2 )( b ij2 )} ahol a ij = sgn(x*(i)-x*(j)) és b ij = sgn(y*(i)-y*(j)), (i,j=1,..,n) tau értéke is -1 és +1 közé esik Ha nincsenek rangszám egyezések, tau a τ = 1-4Q/(n 2 - n) képlettel is számítható, ahol Q a két rangszám oszlopban az ellenkezı irányú eltérés-párok számát jelenti (pl. x i *>x j * de y i *<y j *)
További megjegyzések r s -rıl és τ -ról A két asszociáció mérı szám nem ad azonos értéket, eloszlásuk így szignifikanciájuk tesztelése is - eltérı Lényeges különbözıségük alkalmazási feltételeikben van: a Kendall-féle tau kevesebbet kíván az adatok ismeretérıl mint a Spearman-féle r s Kis mintára eloszlásuk(ho-ra) táblázatolva van, nagyobb mintára mindkettı közelítıleg 0 átlagú normális eloszlású, szórásnégyzetük: Var(r s )=1/(n-3), Var(τ )=(4n+10)/{9(n 2 -n)}
A Kendall-féle rangkonkordancia együttható (W) r s és τ két rangsor egyezésének mértékét számszerősítik, több rangsor egyezését méri a konkordancia mutató Fiktív számpélda (n=5 objektum m=3 szempont szerinti rangsorolása) I R a n g o k I Számítások: (a sorrendezés oszloponként) (i) I x*(i) y*(i) z*(i) I össz.(ri) az Ri rangösszegeket hasonlítjuk össze, 1 I 1 1 2 I 4 ha ezek azonosak, a sorrendek egyeznek, W=1 2 I 3 2 1 I 6 W 0 és 1 közé esik, képlete: 3 I 4 3 5 I 12 W = 12 (R i R átl ) 2 /{m 2 (n 3 -n)} 4 I 5 5 4 I 14 a példában n=5 I 2 4 3 I 9 W = 12*68/(9*120) = 0,76 = 76% átlag(r) I 9,0 A W=0 hipotézis tesztelése elég nagy minta esetén khí-négyzet próbával történhet : m(n-1)w n-1 szabadságfokú khí-négyzet eloszlású
t-próbák és VA-ek eloszlás-mentes megfelelıi Ha nem teljesülnek a Variancia Analízis alkalmazásának feltételei (normalitás és/vagy szórásegyenlıség) akkor fordulhatunk eloszlás-mentes eljárásokhoz Szólunk az egymintás t-próba, a kétmintás t-próba, és az egytényezıs variancia analízis eloszlás-mentes megfelelıirıl, utóbbinál arról az esetrıl is, ha az ismétlések blokkokba foglaltak
Egymintás t-próba eloszlás-mentes verziója: A Wilcoxon-féle elıjeles rangpróba Egyetlen mintasornál a mintaelmek és a feltételezett a o sokasági átlag eltéréseivel dolgozunk (d i = y i a o ) Párosított adatok esetén d i az összetartozó mintaelemek elıjeles különbsége (d i = y2 i y1 i ), ha a null-hipotézis Ho: µ(y2-y1)=0 Párosított adatokra demonstráljuk az eljárást az alábbi számpéldán
KÖSZÖNÖM TÜRELMÜKET
26. lecke A Wilcoxon-féle elıjeles rangpróba Mann-Whitney (kétmintás rangösszeg) próbája Kruskal-Wallis (többmintás rangösszeg) próbája, Friedman próba blokk-elrendezésnél
A Wilcoxon-féle elıjeles rangpróba (számpélda) Y1 Y2 d=y2-y1 rang A rangsorolásnál d elıjelére nem figyelünk 5,4 4,0-1,4 5 A negatív d-értékek száma n - = 4 6,1 6,3 0,2 2,5 a rangok összege R - = 16 4,7 4,6-0,1 1 A pozitív d-értékek száma n + = 2 4,9 4,9 0 (kihagyjuk) a rangok összege R + = 5 8,2 6,4-2,2 6 8,7 8,4-0,3 4 4,9 5,1 0,2 2,5
A Wilcoxon-féle elıjeles rangpróba (folytatás) H 0 ellenırzésére az R statisztikák bármelyikét használhatjuk. Kis mintaszámra táblázatból nézhetık ki R konfidencia-határai Nagy mintákra mindkét R közel normális eloszlású, µ = n(n+1)/4, σ 2 = n(n+1)(2n+1)/24, itt n = n + + n - H 0 fennállása esetén tehát a z = (R -µ)/σ statisztika standard normális eloszlású, kétoldali próbánál H 0 -t 5%- os hibaszinten elutasítjuk, ha z abszolút érték 1,96-nál nagyobb. Egyoldali próbánál a küszöbérték 1,64
Megjegyzések, kiegészítések Ha a párosított t-próbánál a H 0 az, hogy az Y2 Y1 eltérés várható értéke nem 0, hanem valamely a 0, akkor a fenti számításokban d i = y2 i y1 i a 0 Megemlítjük az elıjel próbát számítása egyszerő, a Binomiális eloszláson alapul Példa: a fenti példánál n=6 esetbıl n + =2 pozitív, n - =4 negatív. A Ho hipotézis az hogy az elıjelek fele +, a másik fele. Kiszámítjuk a kapott vagy annál szélsıségesebb esetek valószínőségét az n=6 és p=1/2 paraméterő Binomiális képlettel, a példánkban egyoldali próbára P=P(X=0 vagy 1 vagy 2) =22/64 = 34% (nem szignifikáns) Kétoldali próbánál a kapott P érték dupláját kell venni
Kétmintás t-próba eloszlás-mentes verziója: Mann-Whitney (kétmintás rangösszeg) próbája Péda Adatok Rangok Elıször rangsoroljuk együttesen a két A1 A2 A1 A2 mintasort, azaz nem külön-külön 3,2 6,2 1 7 Ezután mintánként összegezzük a 4,0 3,5 4 2 rangszámokat (R1=11 és R2=17) 5,4 4,0 6 4 4,0 4 A két minta eltérését kis mintaszám n1 n2 R1 R2 esetén táblázat segítségével ítéljük 3 4 11 17 meg n1,n2 és R1(vagyR2)ismeretében
Továbbiak a kétmintás rangösszeg próbáról A Ho hipotézis itt az, hogy az egyik minta bármelyik eleme ugyanolyan eséllyel kisebb a másik minta bármelyik eleménél, mint nagyobb Elég nagy mintánál R1 (és R2 is) közel normális eloszlású µ R1 = n1(n+1)/2, σ 2 = n1n2(n+1)/12 itt N = n1+n2 a z = (R1 -µ R1 )/σ statisztika Ho esetén standard normális eloszlású Megjegyzések: R1+R2 mindig N(N+1)/2, a példában N=7, 11+17 = 7*8/2 R1 várható értéke logikusan (R1+R2)*n1/N,itt 28*3/7=12
Egytényezıs VA eloszlás-mentes verziója (blokk-mentes eset): Kruskal-Wallis (többmintás rangösszeg) próbája Az elıbb tárgyalt kétmintás rangösszeg-próba általánosítása Péda (k=3 mintasor /pl. kezelés/) Adatok Rangok Elıször rangsoroljuk együttesen a A1 A2 A3 I A1 A2 A3 mintaelemeket 3,2 6,2 7,1 I 1 8 11 Ezután mintánként összegezzük a 4,0 3,5 6,5 I 3 2 9 rangszámokat (R1=11, R2=20 és R3=47) 5,4 4,2 6,6 I 7 4 10 -- 4,5 4,3 I 6 5 A hipotézis-vizsgálat khí-négyzet próbával -- -- 10,5 I 12 történik n1 n2 n3 I R1 R2 R3 3 4 5 I 11 20 47 N=3+4+5=12 I R1+R2+R3=78
Kruskal-Wallis többmintás rangösszeg próbája (folytatás) Ha az alapsokaságok között nincs eltérés, akkor az alábbi H statisztika (elég nagy mintaszámra) közelítıleg khínégyzet eloszlású k-1 szabadságfokkal H = {12/(N(N+1))} R j2 /n j - 3(N+1) Ha elég nagy mintának tekintenénk a számpéldát, ott H={12/(12*13)}{11 2 /3 +20 2 /4 +47 2 /5} 3(12-1) = 11,8 ; df = k-1 = 2 a kritikus érték 5% hibahatárra 5,99, 11,8 ennél nagyobb, tehát szignifikanciát állapítanánk meg. A pontos táblázat szerint is ez az eredmény
További megjegyzések a többmintás rangösszeg próbához - A felírt H képlet adat-egyzésnél (kapcsolt rangok) korrekcióra szorul, a korrekció azonban oly jelentéktelen, hogy elhanyagolható - Az Rj rangösszegek összege mindig N(N+1)/2 a páldánkban 11+20+47=78 = 12*13/2 - Ha valamelyik oszlopban a rangszámok kiemelkedıen magasak, eleve szignifikanciát várhatunk (ld. a példánkban az A3 oszlopot)
Egytényezıs VA eloszlás-mentes verziója ha az ismétlések blokkokat képeznek: Friedman próba A párosított t-próba általánosításáról lesz szó Számpélda (n=5 blokk (ismétlés), k=3 kezelés(szempont) I R a n g o k I Számítások: (a sorrendezés soronként történik) blokk(i) I A1 A2 A3 I az Rj rangösszegeket hasonlítjuk össze, 1 I 3 1 2 I ha ezek igen eltérıek, az eredmény szignifikáns 2 I 3 2 1 I 3 I 2 3 1 I A statisztika: 4 I 3 2 1 I n=5 I 2 3 1 I χ r2 = {12/(nk(k+1))} R j2-3n(k+1) Összeg(Rj) 13 11 6
Friedman- próba (folytatás) Kis mintaszámokraχ r2 kritikus értékei táblázatból kiolvashatók Nagy mintákra χ r2 közelítıleg khí-négyzet eloszlású k-1 szabadságfokkal A példánkban χ r2 = {12/(5*3*4)}(13 2 + 11 2 + 6 2 ) - 3 *5*4 = 5,2 nem szign
KÖSZÖNÖM TÜRELMÜKET