ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

Hasonló dokumentumok
Bevezetés a hipotézisvizsgálatokba

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

y ij = µ + α i + e ij

Varianciaanalízis 4/24/12

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Hipotézis vizsgálatok

Adatok statisztikai értékelésének főbb lehetőségei

Hipotézis vizsgálatok

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Statisztika elméleti összefoglaló

Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Többváltozós lineáris regressziós modell feltételeinek

Hátrányok: A MANOVA elvégzésének lépései:

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Kettőnél több csoport vizsgálata. Makara B. Gábor

Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Principal Component Analysis

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

[Biomatematika 2] Orvosi biometria

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Biostatisztika VIII. Mátyus László. 19 October

Diszkriminancia-analízis

BIOMETRIA (H 0 ) 5. Előad. zisvizsgálatok. Hipotézisvizsg. Nullhipotézis

egyetemi jegyzet Meskó Balázs

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

Többváltozós lineáris regresszió 3.

Az első számjegyek Benford törvénye

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Kísérlettervezés alapfogalmak

Normális eloszlás paramétereire vonatkozó próbák

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

LINEÁRIS MODELLBEN május. 1. Lineáris modell, legkisebb négyzetek elve

[Biomatematika 2] Orvosi biometria

Vektorok, mátrixok, lineáris egyenletrendszerek

A valószínűségszámítás elemei

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

2012. április 18. Varianciaanaĺızis

Statisztika Elıadások letölthetık a címrıl

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Biostatisztika 2. Dr. Dinya Elek Dr. Solymosi Róbert: Biometria a klinikumban Dr. Dinya Elek: Biostatisztika c. művei alapján

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

A maximum likelihood becslésről

A többváltozós lineáris regresszió III. Főkomponens-analízis

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Matematikai geodéziai számítások 6.

Likelihood, deviancia, Akaike-féle információs kritérium

Eloszlás-független módszerek 13. elıadás ( lecke)

A konfidencia intervallum képlete: x± t( α /2, df )

Biostatisztika Összefoglalás

Nemparaméteres próbák

5. elıadás március 22. Portfólió-optimalizálás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Matematikai geodéziai számítások 6.

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

BIOMATEMATIKA ELŐADÁS

Variancia-analízis (folytatás)

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Line aris f uggv enyilleszt es m arcius 19.

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Matematikai statisztika szorgalmi feladatok

Regresszió és ANOVA. Freedman: fejezet. Freedman: fejezet. Freedman: fejezet

Kísérlettervezés alapfogalmak

Normális eloszlás tesztje

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Determinánsok. A determináns fogalma olyan algebrai segédeszköz, amellyel. szolgáltat az előbbi kérdésekre, bár ez nem mindig hatékony.

Biostatisztika Összefoglalás

Statisztikai módszerek 7. gyakorlat

VARIANCIAANALÍZIS (szóráselemzés, ANOVA)

Mátrixok 2017 Mátrixok

Függetlenségvizsgálat, Illeszkedésvizsgálat

17. előadás: Vektorok a térben

Átírás:

ANOVA,MANOVA Márkus László 2013. március 30. Márkus László ANOVA,MANOVA 2013. március 30. 1 / 26

ANOVA / MANOVA One-Way ANOVA (Egyszeres ) Analysis of Variance (ANOVA) = szóráselemzés A szórásokat elemezzük, hogy információt nyerjünk a várható értékek egyenlőségéről!!! Az eltérő várható értékek további ingadozás forrásai, ami fölös varianciaként (excess variance) jelentkezik az adatokban, ennek tesztelése nyújt lehetőséget a döntésre. Márkus László ANOVA,MANOVA 2013. március 30. 2 / 26

A minta ANOVA / MANOVA 1. osztály 2. osztály... k. osztály N(µ 1,σ 2 ) N(µ 2,σ 2 )... N(µ k,σ 2 ) X 1,1 X 1,2... X 1,k X 2,1 X 2,2... X 2,k..... X n,1 X n,2... X n,k Szóhasználat: i. osztály = i. változó = i. minta - alkalmazásfüggő. Sokszor 1 oszlop adott és mellette egy csoportosító vátozó pl. férfi-nő, autótípusok (biztosításban), kezelt-kezeletlen (orvosi alkalmazásban) etc. innen az. Az osztályokat/változókat/mintákat függetlennek, közös szórásúnak, és normális eloszlásúnak feltételezzük, csak a várható érték lehet különböző. (Ez mind kell ahhoz, hogy végül az F-próba érvényes legyen.) Márkus László ANOVA,MANOVA 2013. március 30. 3 / 26

A hipotézisek ANOVA / MANOVA H 0 : µ 1 = µ 2 =... = µ k H 1 : : µ i µ j (Van legalább 2 olyan µ amely nem egyenlő.) Jelölések: X,j = n i=1 X,j = X j = 1 n X i,j, n X i,j i=1 Márkus László ANOVA,MANOVA 2013. március 30. 4 / 26

A döntési eljárás elve ANOVA / MANOVA Becsüljük meg a szórást kétféleképpen: A teljes n k-as mintából (Az osztályokkénti szórásbecslést átlagolva) Az egyes osztályok átlagainak szórásából Amennyiben a várható értékek között nincs (lényeges) eltérés, úgy a kétféle szórásbecslésnek statisztikailag ugyanazt kell adnia, vagyis eltérésük nem lehet szignifikáns. Ezt független normális eloszlású mintákra F-próbával ellenőrizhetjük. Márkus László ANOVA,MANOVA 2013. március 30. 5 / 26

ANOVA / MANOVA A szórásbecslések függetlensége A függetlenséget a Fisher-Cohran tétel biztosítja, ugyanis: Normális eloszlású minta esetén a szórás becslése, a tapasztalati szórásnégyzet, független a várható érték becslésétől, azaz az átlagtól. = A teljes mintából történő szórás becslése (ami az egyes osztályok szórásnégyzet becslésének átlaga) független az átlagoktól, ezért az átlagból számolt szórás becslésétől is. = Két független normális mintából becsült szórásnégyzetünk van, összehasonlításukra az F-próba érvényes. Márkus László ANOVA,MANOVA 2013. március 30. 6 / 26

ANOVA / MANOVA Csoporton belüli szórásnégyzet A tényleges számítás: (Csoport=osztály) w jelentése: within group = csoporton belüli MS w = S 2 w = 1 k k j=1 S 2 j k j=1 n i=1 (X i,j X j ) 2 k(n 1) = 1 k k n i=1 (X i,j X j ) 2 = j=1 n 1 = SS w k(n 1) = SS w kn k = σ 2 Márkus László ANOVA,MANOVA 2013. március 30. 7 / 26

ANOVA / MANOVA Csoportok közötti szórásnégyzet b jelentése: between group = csoportok közötti (Feltesszük: minden csoport ugyanannyi, n, megfigyelést tartalmaz.) Sb 2 = k j=1 (X j X) 2 = k 1 1 n SS b k 1 de ez az átlagok szórásnégyzetét becsüli, azaz σ 2 n -et. Tehát az n-szerese kell: MS b = n S 2 b = SS b k 1 = σ 2 Márkus László ANOVA,MANOVA 2013. március 30. 8 / 26

ANOVA / MANOVA Szabadsági fokok - F próba A szórások egyezését F-próbával ellenőrizzük: A szabadsági fokok: F = MS b MS w = (kn k) SS b (k 1) SS w F db,d w d b = k 1, d w = kn k, az egyes becslésekben pont annyi lineáris kapcsolat van, amennyit az összeadandók számából levontunk. F > F α -ra elutasítunk, ahol F α a kritikus érték, a fenti F-eloszlás 1 α kvantilise. Márkus László ANOVA,MANOVA 2013. március 30. 9 / 26

ANOVA / MANOVA Különböző elemszámú minták Amennyiben az egyes osztályok nem ugyanannyi elemből állnak (n j -ből a j-ik), akkor N = k j=1 n j mellett: MS w = SS w N k, SS b = k j=1 MS b = SS b k 1 n j (X j X) 2, és a többi ugyanaz, d b = k 1, d w = N k -val működik az F-próba. Márkus László ANOVA,MANOVA 2013. március 30. 10 / 26

One-way MANOVA ANOVA / MANOVA Most minden egyes megfigyelést adatok egy vektora jellemez. Pl.Vízminőség: különböző kémiai komponensek(=vektor), kutakban(=osztályok), évente(=esetek) mérve, vagy: különböző meteorológiai jellemzők, eltérő helyeken, évente mérve) Az elemzés durván: minden ugyanaz, csak aláhúzással. 1. osztály 2. osztály... k. osztály N(µ 1,Σ 2 ) N(µ 2,Σ 2 )... N(µ k,σ 2 ) X 1,1 X 1,2... X 1,k X 2,1 X 2,2... X 2,k..... X µ,1 X µ,2... X µ,k A szórásmátrix ismeretlen, de megegyezik minden osztályban. Márkus László ANOVA,MANOVA 2013. március 30. 11 / 26

A hipotézisek ANOVA / MANOVA H 0 : {µ 1 = µ 2 =... = µ k } (Ahol a fentiek szerint X i,j, µ j várható értékű d-dimenziójú vektor) H 1 : { H 0 nem áll fenn }, azaz k : µ k,i µ k,j (Van legalább két olyan vektor, amely nem egyenlő, azaz valamely komponensük nem egyenlő.) Márkus László ANOVA,MANOVA 2013. március 30. 12 / 26

Döntési Elv ANOVA / MANOVA Ahogy az 1 dimenzióbana szórást úgy most a variancia-kovariancia mátrixot (szórásmátrixot, Σ-t) becsüljük kétféleképpen. A hibamátrix: SS w,1,1, SP w,1,2,, SP w,1,d SP w,2,1, SS w,2,2,, SP w,2,d E =.... SP w,d,1, SP w,d,2,, SS w,d,d A hipotézismátrix: SS b,1,1, SP b,1,2,, SP b,1,d SP b,2,1, SS b,2,2,, SP b,2,d H =.... SP b,d,1, SP b,d,2,, SS b,d,d Márkus László ANOVA,MANOVA 2013. március 30. 13 / 26

ANOVA / MANOVA Ezekben SP b,l,m = n k j=1 [(X j ) l (X) l ][(X j ) m (X) m ] ahol pl.: (X) m az X vektor m-ik komponense, X pedig az összes mintaelemvektor átlaga, d-dimenziójú vektorokkal. SP w,l,m = k n j=1 i=1 Az SS persze az SP azonos index mellett. [(X i,j ) l (X j ) l ][(X i,j ) m (X j ) m ] Márkus László ANOVA,MANOVA 2013. március 30. 14 / 26

A Wilks próba ANOVA / MANOVA Hogyan teszteljük a két szórásmátrix egyenlőségét? A likelihood-hányados teszt Wilks próbájához vezet, amely a Λ = det(e) det(e + H) = 1 det(i + E 1 H) próbastatisztika eloszlásának meghatározásán alapul, ez a Wilks-féle Λ eloszlás. Megj.: Ha λ i -k az E 1 H sajátékrtékei, akkor Λ = r i=1 1 1 + λ i ahol r a H rangja. A szabadsági fokok ugyanazok, mint az 1-dimenziós esetben: d H = k 1,d E = k n k Márkus László ANOVA,MANOVA 2013. március 30. 15 / 26

A Wilks féle Λ eloszlás ANOVA / MANOVA Az 1 dimenziós az F próbának felel meg. Mátrixok (nem definiált) hányadosa helyett az egyik inverze szer a másik eltérését nézzük az egységmátrixtól. Az eloszlás Λ = Λ(d,m,n) két független Wishart eloszlású mátrix 1 A W d (Σ,m),B W d (Σ,n) esetén az eloszlása, és előáll det(i+a 1 B) mint nem azonos, de független β eloszlású valváltozók szorzatának eloszlása. Nagy m-re χ 2 közelítése ismert. H 0 -at viszont Λ kis értékei esetén utasítjuk el, tehát Λ < Λ krit. -ra! Márkus László ANOVA,MANOVA 2013. március 30. 16 / 26

Roy tesztje ANOVA / MANOVA ϑ = λ 1 1 + λ 1 ahol λ 1 az E 1 H legnagyobb sajátértéke. ϑ > ϑ krit. -ra utasítjuk el, kritikus értékei ismertek (természetesen Roy határozta meg), a ϑ nagy értékeire utasítunk el. Márkus László ANOVA,MANOVA 2013. március 30. 17 / 26

Pillai-Bartlett teszt ANOVA / MANOVA A Pillai-statisztika: A kritikus tartomány X krit : V (s) = s i=1 λ i 1 + λ i X krit = {V (s) V (s) α } s itt a H rangja, V α (s) a kritikus érték, a Pillai eloszlás 1 α kvantilise. Ez nyilván a Roy-teszt kiterjesztése. Sok esetben hasznos a további s 1 sajátértékben lévő információ a nullhipotézis elutasításához. Márkus László ANOVA,MANOVA 2013. március 30. 18 / 26

Lawley-Hotelling teszt ANOVA / MANOVA Lawley-Hotelling statisztika: Hotelling általános T 2 statiszitikája. U (s) = s λ i i=1 X krit = {U (s) > U (s) α } Két változóra visszaadja a Hotelling T 2 próbáját! Ahogy a Pillai-statisztikában is, s itt is a H rangja,. Márkus László ANOVA,MANOVA 2013. március 30. 19 / 26

A próbák ereje ANOVA / MANOVA Mindegyik próba egzakt próba, tehát az elsőfajú hiba valószínűsége α mindegyikre. A kérdés a próbák ereje. Egyébként egy adott mintára az egyik próba elutasíthat, míg a másik elfogadhat, H 0 igaz volta mellett is. Történetileg Wilks tesztje domináns, mivel rég ismert, és jó χ 2 illetve F közelítései vannak. Nézzük a próbák erejét. Kell az elutasítás valószínűsége, ha nem igaz a H 0, vagyis, hogyha nem egyenlőek a várható értékek. 1-dimenzióban a várható értékek lineárisan összefüggők, de p-dimenzióban a várható érték vektorok a térben szétszórtan, esetleg egy altérben, vagy egy egyenesen fekhetnek. 1-dimenzióban az F-próba egyenletesen legerősebb. d-dimenzióban a fenti próbák egyike sem egyenletesen legerősebb, az alternatív hipotézis igaz volta mellett a várható érték vektorok (melyek ekkor különbözőek) konfigurációjától függően lesz az egyik, vagy másik teszt erősebb, illetve gyengébb. Márkus László ANOVA,MANOVA 2013. március 30. 20 / 26

ANOVA / MANOVA A próbák ereje a konfiguráció függvényéban A diffúz esetben, illetve ha köztes, de nem kollineáris a várható értékek elrendeződése, a sorrend 1 V (s) Λ U (s) ϑ ám a kollineáris esetben ez éppen megfordul, 2 ϑ U (s) Λ V (s) Az 1.) sorrend áll szintén az elsőfajú hibára akkor, ha a variancia-kovariancia mátrixok egyenlősége nem teljesül, azaz Σ 1,Σ 2...Σ k -k nem mind egyenlőek. Általában, ha a csoportok méretei(az osztályok elemszámai) megegyeznek, a tesztek elég robosztusak a variancia-kovariancia mátrixok heterogenitására. Ha a nagyobb varianciák és kovarianciák a nagyobb mintaelemszámú mintákhoz társulnak, az igazi α szint redukálódik, a próba konzervatív. Fordított helyzetben α inflálódik és a teszt liberálissá válik, túlzottan elfogad. Márkus László ANOVA,MANOVA 2013. március 30. 21 / 26

Mikor mit használjunk? ANOVA / MANOVA Roy tesztje nem javasolt a kollineáristól eltérő esetben. Ha az adatok nem normálisak, ferde vagy pozitív csúcsosságú eloszlásból származnak, a másik 3 teszt egyaránt elfogadhatóan jó. Λ nem marad el sokkal V (s) mögött, kivéve, ha nagyon erős heterogenitást mutatnak a variancia-kovariancia mátrixok. Ha a különböző tesztek ellentétes döntést adnak (ez ritka, a tipikus eset az azonos), akkor a sajátértékeket, kovariancia mátrixokat, stb. kell tovább vizsgálni. Márkus László ANOVA,MANOVA 2013. március 30. 22 / 26

ANOVA / MANOVA Unbalanced One-Way MANOVA Akkor áll fenn, ha a mintaelemszémok nem egyezőek. Ekkor a két mátrix: H = E = k k j=1 n j j=1 i=1 n j (X j X)(X j X) T (X i,j X j )(X i,j X j ) T És ezekkel járunk el ugyanúgy, mint azonos mátrixok esetén. Márkus László ANOVA,MANOVA 2013. március 30. 23 / 26

ANOVA / MANOVA Fisher-féle korreláció hányados A modell jóságának mérésére szolgálhat a Fisher-féle korreláció hányados: Egyváltozós eset: η 2 = SS b SS b = SS total SS w + SS b A teljes variáció azon hányadát adja, amely a várható értékek különbözőségéből származik. (Variáció helyett inkább négyzetes eltérés kellene.) Szerepe a regresszió R 2 statisztikájával azonos. Ha 0-közeli (SS b kicsi a totális változékonysághoz képest), akkor a várható értékek egyenlőek, nagy, de egynél mindenképp kisebb értéke pedig a különbözőség mérőszáma. Márkus László ANOVA,MANOVA 2013. március 30. 24 / 26

ANOVA / MANOVA A korreláció hányados Wilks féle általánosításai a MANOVA esetre η 2 1 = 1 Λ Ha a várható értékek erősen szórtak, akkor 1 Λ kicsi. det(e)-t és det(h)-t, illetve det(e + H)-t a SS-ek általánosításaként felfogva a Fisher-félének(η 2 -nek) az általánosítása. Márkus László ANOVA,MANOVA 2013. március 30. 25 / 26

ANOVA / MANOVA Az E 1 H legnagyobb sajátértékéhez, λ 1 -hez tartozó sajátvektor legyen a. Ez maximalizálja a Z i = a T Y i várható értékeinek szórását. Z i skalár, míg a és Y i vektorok! A µ z,i = EZ i szórását a Z-re vonatkozó SS b (Z)-nek relatív nagyságával mérjük SS w (Z)-hez képest. Ennek maximális értéke épp a legnagyobb sajátérték: Innen: λ 1 = SS b(z) SS w (Z) ϑ = λ 1 SS b (Z) = 1 + λ 1 SS w (Z) + SS b (Z) = η2 (Z), tehát ϑ = ηϑ 2 ugyancsak értelmezhető, mint a többváltozós asszociáció mérőszáma. Más interpretációja is van: η ϑ = ηϑ 2 egy kanonikus korreláció. Márkus László ANOVA,MANOVA 2013. március 30. 26 / 26