ANOVA,MANOVA Márkus László 2013. március 30. Márkus László ANOVA,MANOVA 2013. március 30. 1 / 26
ANOVA / MANOVA One-Way ANOVA (Egyszeres ) Analysis of Variance (ANOVA) = szóráselemzés A szórásokat elemezzük, hogy információt nyerjünk a várható értékek egyenlőségéről!!! Az eltérő várható értékek további ingadozás forrásai, ami fölös varianciaként (excess variance) jelentkezik az adatokban, ennek tesztelése nyújt lehetőséget a döntésre. Márkus László ANOVA,MANOVA 2013. március 30. 2 / 26
A minta ANOVA / MANOVA 1. osztály 2. osztály... k. osztály N(µ 1,σ 2 ) N(µ 2,σ 2 )... N(µ k,σ 2 ) X 1,1 X 1,2... X 1,k X 2,1 X 2,2... X 2,k..... X n,1 X n,2... X n,k Szóhasználat: i. osztály = i. változó = i. minta - alkalmazásfüggő. Sokszor 1 oszlop adott és mellette egy csoportosító vátozó pl. férfi-nő, autótípusok (biztosításban), kezelt-kezeletlen (orvosi alkalmazásban) etc. innen az. Az osztályokat/változókat/mintákat függetlennek, közös szórásúnak, és normális eloszlásúnak feltételezzük, csak a várható érték lehet különböző. (Ez mind kell ahhoz, hogy végül az F-próba érvényes legyen.) Márkus László ANOVA,MANOVA 2013. március 30. 3 / 26
A hipotézisek ANOVA / MANOVA H 0 : µ 1 = µ 2 =... = µ k H 1 : : µ i µ j (Van legalább 2 olyan µ amely nem egyenlő.) Jelölések: X,j = n i=1 X,j = X j = 1 n X i,j, n X i,j i=1 Márkus László ANOVA,MANOVA 2013. március 30. 4 / 26
A döntési eljárás elve ANOVA / MANOVA Becsüljük meg a szórást kétféleképpen: A teljes n k-as mintából (Az osztályokkénti szórásbecslést átlagolva) Az egyes osztályok átlagainak szórásából Amennyiben a várható értékek között nincs (lényeges) eltérés, úgy a kétféle szórásbecslésnek statisztikailag ugyanazt kell adnia, vagyis eltérésük nem lehet szignifikáns. Ezt független normális eloszlású mintákra F-próbával ellenőrizhetjük. Márkus László ANOVA,MANOVA 2013. március 30. 5 / 26
ANOVA / MANOVA A szórásbecslések függetlensége A függetlenséget a Fisher-Cohran tétel biztosítja, ugyanis: Normális eloszlású minta esetén a szórás becslése, a tapasztalati szórásnégyzet, független a várható érték becslésétől, azaz az átlagtól. = A teljes mintából történő szórás becslése (ami az egyes osztályok szórásnégyzet becslésének átlaga) független az átlagoktól, ezért az átlagból számolt szórás becslésétől is. = Két független normális mintából becsült szórásnégyzetünk van, összehasonlításukra az F-próba érvényes. Márkus László ANOVA,MANOVA 2013. március 30. 6 / 26
ANOVA / MANOVA Csoporton belüli szórásnégyzet A tényleges számítás: (Csoport=osztály) w jelentése: within group = csoporton belüli MS w = S 2 w = 1 k k j=1 S 2 j k j=1 n i=1 (X i,j X j ) 2 k(n 1) = 1 k k n i=1 (X i,j X j ) 2 = j=1 n 1 = SS w k(n 1) = SS w kn k = σ 2 Márkus László ANOVA,MANOVA 2013. március 30. 7 / 26
ANOVA / MANOVA Csoportok közötti szórásnégyzet b jelentése: between group = csoportok közötti (Feltesszük: minden csoport ugyanannyi, n, megfigyelést tartalmaz.) Sb 2 = k j=1 (X j X) 2 = k 1 1 n SS b k 1 de ez az átlagok szórásnégyzetét becsüli, azaz σ 2 n -et. Tehát az n-szerese kell: MS b = n S 2 b = SS b k 1 = σ 2 Márkus László ANOVA,MANOVA 2013. március 30. 8 / 26
ANOVA / MANOVA Szabadsági fokok - F próba A szórások egyezését F-próbával ellenőrizzük: A szabadsági fokok: F = MS b MS w = (kn k) SS b (k 1) SS w F db,d w d b = k 1, d w = kn k, az egyes becslésekben pont annyi lineáris kapcsolat van, amennyit az összeadandók számából levontunk. F > F α -ra elutasítunk, ahol F α a kritikus érték, a fenti F-eloszlás 1 α kvantilise. Márkus László ANOVA,MANOVA 2013. március 30. 9 / 26
ANOVA / MANOVA Különböző elemszámú minták Amennyiben az egyes osztályok nem ugyanannyi elemből állnak (n j -ből a j-ik), akkor N = k j=1 n j mellett: MS w = SS w N k, SS b = k j=1 MS b = SS b k 1 n j (X j X) 2, és a többi ugyanaz, d b = k 1, d w = N k -val működik az F-próba. Márkus László ANOVA,MANOVA 2013. március 30. 10 / 26
One-way MANOVA ANOVA / MANOVA Most minden egyes megfigyelést adatok egy vektora jellemez. Pl.Vízminőség: különböző kémiai komponensek(=vektor), kutakban(=osztályok), évente(=esetek) mérve, vagy: különböző meteorológiai jellemzők, eltérő helyeken, évente mérve) Az elemzés durván: minden ugyanaz, csak aláhúzással. 1. osztály 2. osztály... k. osztály N(µ 1,Σ 2 ) N(µ 2,Σ 2 )... N(µ k,σ 2 ) X 1,1 X 1,2... X 1,k X 2,1 X 2,2... X 2,k..... X µ,1 X µ,2... X µ,k A szórásmátrix ismeretlen, de megegyezik minden osztályban. Márkus László ANOVA,MANOVA 2013. március 30. 11 / 26
A hipotézisek ANOVA / MANOVA H 0 : {µ 1 = µ 2 =... = µ k } (Ahol a fentiek szerint X i,j, µ j várható értékű d-dimenziójú vektor) H 1 : { H 0 nem áll fenn }, azaz k : µ k,i µ k,j (Van legalább két olyan vektor, amely nem egyenlő, azaz valamely komponensük nem egyenlő.) Márkus László ANOVA,MANOVA 2013. március 30. 12 / 26
Döntési Elv ANOVA / MANOVA Ahogy az 1 dimenzióbana szórást úgy most a variancia-kovariancia mátrixot (szórásmátrixot, Σ-t) becsüljük kétféleképpen. A hibamátrix: SS w,1,1, SP w,1,2,, SP w,1,d SP w,2,1, SS w,2,2,, SP w,2,d E =.... SP w,d,1, SP w,d,2,, SS w,d,d A hipotézismátrix: SS b,1,1, SP b,1,2,, SP b,1,d SP b,2,1, SS b,2,2,, SP b,2,d H =.... SP b,d,1, SP b,d,2,, SS b,d,d Márkus László ANOVA,MANOVA 2013. március 30. 13 / 26
ANOVA / MANOVA Ezekben SP b,l,m = n k j=1 [(X j ) l (X) l ][(X j ) m (X) m ] ahol pl.: (X) m az X vektor m-ik komponense, X pedig az összes mintaelemvektor átlaga, d-dimenziójú vektorokkal. SP w,l,m = k n j=1 i=1 Az SS persze az SP azonos index mellett. [(X i,j ) l (X j ) l ][(X i,j ) m (X j ) m ] Márkus László ANOVA,MANOVA 2013. március 30. 14 / 26
A Wilks próba ANOVA / MANOVA Hogyan teszteljük a két szórásmátrix egyenlőségét? A likelihood-hányados teszt Wilks próbájához vezet, amely a Λ = det(e) det(e + H) = 1 det(i + E 1 H) próbastatisztika eloszlásának meghatározásán alapul, ez a Wilks-féle Λ eloszlás. Megj.: Ha λ i -k az E 1 H sajátékrtékei, akkor Λ = r i=1 1 1 + λ i ahol r a H rangja. A szabadsági fokok ugyanazok, mint az 1-dimenziós esetben: d H = k 1,d E = k n k Márkus László ANOVA,MANOVA 2013. március 30. 15 / 26
A Wilks féle Λ eloszlás ANOVA / MANOVA Az 1 dimenziós az F próbának felel meg. Mátrixok (nem definiált) hányadosa helyett az egyik inverze szer a másik eltérését nézzük az egységmátrixtól. Az eloszlás Λ = Λ(d,m,n) két független Wishart eloszlású mátrix 1 A W d (Σ,m),B W d (Σ,n) esetén az eloszlása, és előáll det(i+a 1 B) mint nem azonos, de független β eloszlású valváltozók szorzatának eloszlása. Nagy m-re χ 2 közelítése ismert. H 0 -at viszont Λ kis értékei esetén utasítjuk el, tehát Λ < Λ krit. -ra! Márkus László ANOVA,MANOVA 2013. március 30. 16 / 26
Roy tesztje ANOVA / MANOVA ϑ = λ 1 1 + λ 1 ahol λ 1 az E 1 H legnagyobb sajátértéke. ϑ > ϑ krit. -ra utasítjuk el, kritikus értékei ismertek (természetesen Roy határozta meg), a ϑ nagy értékeire utasítunk el. Márkus László ANOVA,MANOVA 2013. március 30. 17 / 26
Pillai-Bartlett teszt ANOVA / MANOVA A Pillai-statisztika: A kritikus tartomány X krit : V (s) = s i=1 λ i 1 + λ i X krit = {V (s) V (s) α } s itt a H rangja, V α (s) a kritikus érték, a Pillai eloszlás 1 α kvantilise. Ez nyilván a Roy-teszt kiterjesztése. Sok esetben hasznos a további s 1 sajátértékben lévő információ a nullhipotézis elutasításához. Márkus László ANOVA,MANOVA 2013. március 30. 18 / 26
Lawley-Hotelling teszt ANOVA / MANOVA Lawley-Hotelling statisztika: Hotelling általános T 2 statiszitikája. U (s) = s λ i i=1 X krit = {U (s) > U (s) α } Két változóra visszaadja a Hotelling T 2 próbáját! Ahogy a Pillai-statisztikában is, s itt is a H rangja,. Márkus László ANOVA,MANOVA 2013. március 30. 19 / 26
A próbák ereje ANOVA / MANOVA Mindegyik próba egzakt próba, tehát az elsőfajú hiba valószínűsége α mindegyikre. A kérdés a próbák ereje. Egyébként egy adott mintára az egyik próba elutasíthat, míg a másik elfogadhat, H 0 igaz volta mellett is. Történetileg Wilks tesztje domináns, mivel rég ismert, és jó χ 2 illetve F közelítései vannak. Nézzük a próbák erejét. Kell az elutasítás valószínűsége, ha nem igaz a H 0, vagyis, hogyha nem egyenlőek a várható értékek. 1-dimenzióban a várható értékek lineárisan összefüggők, de p-dimenzióban a várható érték vektorok a térben szétszórtan, esetleg egy altérben, vagy egy egyenesen fekhetnek. 1-dimenzióban az F-próba egyenletesen legerősebb. d-dimenzióban a fenti próbák egyike sem egyenletesen legerősebb, az alternatív hipotézis igaz volta mellett a várható érték vektorok (melyek ekkor különbözőek) konfigurációjától függően lesz az egyik, vagy másik teszt erősebb, illetve gyengébb. Márkus László ANOVA,MANOVA 2013. március 30. 20 / 26
ANOVA / MANOVA A próbák ereje a konfiguráció függvényéban A diffúz esetben, illetve ha köztes, de nem kollineáris a várható értékek elrendeződése, a sorrend 1 V (s) Λ U (s) ϑ ám a kollineáris esetben ez éppen megfordul, 2 ϑ U (s) Λ V (s) Az 1.) sorrend áll szintén az elsőfajú hibára akkor, ha a variancia-kovariancia mátrixok egyenlősége nem teljesül, azaz Σ 1,Σ 2...Σ k -k nem mind egyenlőek. Általában, ha a csoportok méretei(az osztályok elemszámai) megegyeznek, a tesztek elég robosztusak a variancia-kovariancia mátrixok heterogenitására. Ha a nagyobb varianciák és kovarianciák a nagyobb mintaelemszámú mintákhoz társulnak, az igazi α szint redukálódik, a próba konzervatív. Fordított helyzetben α inflálódik és a teszt liberálissá válik, túlzottan elfogad. Márkus László ANOVA,MANOVA 2013. március 30. 21 / 26
Mikor mit használjunk? ANOVA / MANOVA Roy tesztje nem javasolt a kollineáristól eltérő esetben. Ha az adatok nem normálisak, ferde vagy pozitív csúcsosságú eloszlásból származnak, a másik 3 teszt egyaránt elfogadhatóan jó. Λ nem marad el sokkal V (s) mögött, kivéve, ha nagyon erős heterogenitást mutatnak a variancia-kovariancia mátrixok. Ha a különböző tesztek ellentétes döntést adnak (ez ritka, a tipikus eset az azonos), akkor a sajátértékeket, kovariancia mátrixokat, stb. kell tovább vizsgálni. Márkus László ANOVA,MANOVA 2013. március 30. 22 / 26
ANOVA / MANOVA Unbalanced One-Way MANOVA Akkor áll fenn, ha a mintaelemszémok nem egyezőek. Ekkor a két mátrix: H = E = k k j=1 n j j=1 i=1 n j (X j X)(X j X) T (X i,j X j )(X i,j X j ) T És ezekkel járunk el ugyanúgy, mint azonos mátrixok esetén. Márkus László ANOVA,MANOVA 2013. március 30. 23 / 26
ANOVA / MANOVA Fisher-féle korreláció hányados A modell jóságának mérésére szolgálhat a Fisher-féle korreláció hányados: Egyváltozós eset: η 2 = SS b SS b = SS total SS w + SS b A teljes variáció azon hányadát adja, amely a várható értékek különbözőségéből származik. (Variáció helyett inkább négyzetes eltérés kellene.) Szerepe a regresszió R 2 statisztikájával azonos. Ha 0-közeli (SS b kicsi a totális változékonysághoz képest), akkor a várható értékek egyenlőek, nagy, de egynél mindenképp kisebb értéke pedig a különbözőség mérőszáma. Márkus László ANOVA,MANOVA 2013. március 30. 24 / 26
ANOVA / MANOVA A korreláció hányados Wilks féle általánosításai a MANOVA esetre η 2 1 = 1 Λ Ha a várható értékek erősen szórtak, akkor 1 Λ kicsi. det(e)-t és det(h)-t, illetve det(e + H)-t a SS-ek általánosításaként felfogva a Fisher-félének(η 2 -nek) az általánosítása. Márkus László ANOVA,MANOVA 2013. március 30. 25 / 26
ANOVA / MANOVA Az E 1 H legnagyobb sajátértékéhez, λ 1 -hez tartozó sajátvektor legyen a. Ez maximalizálja a Z i = a T Y i várható értékeinek szórását. Z i skalár, míg a és Y i vektorok! A µ z,i = EZ i szórását a Z-re vonatkozó SS b (Z)-nek relatív nagyságával mérjük SS w (Z)-hez képest. Ennek maximális értéke épp a legnagyobb sajátérték: Innen: λ 1 = SS b(z) SS w (Z) ϑ = λ 1 SS b (Z) = 1 + λ 1 SS w (Z) + SS b (Z) = η2 (Z), tehát ϑ = ηϑ 2 ugyancsak értelmezhető, mint a többváltozós asszociáció mérőszáma. Más interpretációja is van: η ϑ = ηϑ 2 egy kanonikus korreláció. Márkus László ANOVA,MANOVA 2013. március 30. 26 / 26