Hátrányok: A MANOVA elvégzésének lépései:

Hasonló dokumentumok
ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

Diszkriminancia-analízis

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

y ij = µ + α i + e ij

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Varianciaanalízis 4/24/12

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Bevezetés a hipotézisvizsgálatokba

Adatok statisztikai értékelésének főbb lehetőségei

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Bevezetés a Korreláció &

Lineáris algebra Gyakorló feladatok

Többváltozós lineáris regressziós modell feltételeinek

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Kettőnél több csoport vizsgálata. Makara B. Gábor

Többváltozós Regresszió-számítás

Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok).

Biostatisztika 2. Dr. Dinya Elek Dr. Solymosi Róbert: Biometria a klinikumban Dr. Dinya Elek: Biostatisztika c. művei alapján

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok).

Korreláció számítás az SPSSben

Logisztikus regresszió

Hipotézis vizsgálatok

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Regresszió számítás az SPSSben

[Biomatematika 2] Orvosi biometria

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek

2012. április 18. Varianciaanaĺızis

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Likelihood, deviancia, Akaike-féle információs kritérium

Többváltozós lineáris regresszió 3.

1., Egy területen véletlenszerűen kihelyezet kvadrátokban megszámlálták az Eringium maritimum (tengerparti ördögszekér) egyedeit.

Korreláció és lineáris regresszió

Principal Component Analysis

A leíró statisztikák

Regressziós vizsgálatok

Az első számjegyek Benford törvénye

Nagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

Biostatisztika VIII. Mátyus László. 19 October

Logisztikus regresszió

1. zárthelyi,

Problémás regressziók

Vektorterek. =a gyakorlatokon megoldásra ajánlott

Feladatok a Gazdasági matematika II. tárgy gyakorlataihoz

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Az fmri alapjai Statisztikai analízis II. Dr. Kincses Tamás Szegedi Tudományegyetem Neurológiai Klinika

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai geodéziai számítások 6.

Segítség az outputok értelmezéséhez

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

11. Előadás. 11. előadás Bevezetés a lineáris programozásba

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Standardizálás, transzformációk

Korreláció és Regresszió

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

9. Előadás. (9. előadás) Lineáris egyr.(3.), Sajátérték április / 35

Faktoranalízis az SPSS-ben

Faktoranalízis az SPSS-ben

y ij e ij BIOMETRIA let A variancia-anal telei Alapfogalmak 2. Alapfogalmak 1. ahol: 7. Előad Variancia-anal Lineáris modell ltozó bontását t jelenti.

Szinguláris értékek. Wettl Ferenc április 12. Wettl Ferenc Szinguláris értékek április / 35

Szinguláris értékek. Wettl Ferenc április 3. Wettl Ferenc Szinguláris értékek április 3. 1 / 28

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Mérnökgeodéziai hálózatok feldolgozása

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

BIOMETRIA_ANOVA_2 1 1

6. Előadás. Vereb György, DE OEC BSI, október 12.

Matematikai geodéziai számítások 6.

KISTERV2_ANOVA_

Esetelemzés az SPSS használatával

Ismételt méréses multifaktoriális varianciaanaĺızis (repeated measures MANOVA) szeptember 19.

Regressziós vizsgálatok

Least Squares becslés

Módszertani hozzájárulás a Szegénység

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Sajátértékek és sajátvektorok. mf1n1a06- mf1n2a06 Csabai István

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

Vektorok, mátrixok, lineáris egyenletrendszerek

VIK A2 Matematika - BOSCH, Hatvan, 3. Gyakorlati anyag. Mátrix rangja

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Biostatisztika Összefoglalás

Sztochasztikus kapcsolatok

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Átírás:

MANOVA Tulajdonságok: Hasonló az ANOVÁ-hoz Több függő változó A függő változók korreláltak és a lineáris kombinációnak értelme van. Azt teszteli, hogy k populációban a függő változók egy lineáris kombinációjának átlagai különböznek-e. Alapötlet: találjunk egy olyan lineáris kombinációt, amely optimálisan szeparálja a csoportokat, azaz olyat amely maximalizálja a hatás (between group) variancia/kovariancia mátrix és a hiba (within group) variancia/kovariancia mátrix hányadosát. (Ez ugyanaz, mint amit a diszkriminancia elemzésnél használunk.) Ennek a kombinációnak a standardizált együtthatói megmondják, hogy melyik változó milyen súllyal szerepel a szeparálásban. Előnyök: Annak az esélye, hogy különbségeket találunk a csoportok között nagyobb ahhoz képest, mintha minden változóra egyenként ANOVÁ-t csinálnánk. Nem inflálódik az elsőfajú hiba. Több ANOVA elvégzése nem veszi figyelembe azt, hogy a függő változók korreláltak. 23

Hátrányok: Bonyolultabb, Az ANOVA gyakran nagyobb hatóerejű. Sokkal komplikáltabb kísérleti elrendezést igényel. Kétségek merülhetnek fel, hogy valójában mely független változók mely függő változók értékét befolyásolják. Minden plusz függő változó 1 szabadsági fokkal kevesebbet jelent. Feltételek: Független minták, Többváltozós normális eloszlású hiba. A kovariancia mátrix homogenitása. Lineáris kapcsolat a független változók és a függő változók között. A MANOVA elvégzésének lépései: Ha a MANOVA nem szignifikáns, stop Ha a MANOVA szignifikáns, egyváltozós ANOVÁk Ha az egyváltozós ANOVA szignifikáns, Post Hoc tesztek. Ha igaz a homoscedasticity, Wilks Lambda, ha nem Pillai s Trace. Általában mind a 4 statisztikának hasonlónak kell lennie. A MANOVA algoritmusa: 1. Az ANOVA négyzetösszegei helyett sums-of-squares-andcross-products (SSCP) mátrixok. Egy a hatásnak (between 24

2. Kiszámítjuk a HE -1 szorzatot (egyváltozós esetben ez az F érték). 3. Kiszámítjuk a HE -1 spektrál felbontását: sajátértékek, sajátvektorok. A s.é.-kek azt mutatják meg, hogy betweengroup varianciából a sajátvektorok vagy lineáris kombinációk mennyit magyaráznak. A s.v.-ok tartalmazzák a lineáris kombinációk együtthatóit. 4. Az a lineáris kombináció, amelyikhez a legnagyobb s.é. tartozik maximalizálja a between-group/within-group variancia hányadost. H 0 : a csoport centroidok megegyeznek. Ez tesztelhető valamelyik variancia mérték segítségével (nyom, determináns: általánosított variancia). Wilk s lambda: E / T. A teljes variancia hányad része a reziduális. Minél kisebb, annál nagyobb a csoportok köztötti különbségek. Hotelling-Lawley trace: H / E. Ez ugyanaz, mint a HE -1 mátrix nyoma (sajátértékek összege). Nagyobb értékek nagyobb különbségeket indikálnak a csoport centroidok között. Pillai trace: A HT -1 nyoma, vagyis a between groups variancia. Roy s largest root: a HE -1 legnagyobb s.é.-e, vagyis ahhoz a lineáris kombinációhoz tartozó s.é. amely a between groups variancia-kovarianca legnagyobb részét magyarázza. 25

Ezeknek a statisztikáknak az eloszlása nem teljesen ismert, közelítő F értékekké konvertálják ezeket. Két csoport esetén a Wilk s lambda, a Hotteling és Pillai féle érték megegyezik és megegyezik a Hotteling féle T 2 statisztikával, ami a t-próba többváltozós kiterjesztése. Általában hasonló eredményeket produkálnak több csoport esetén is. A Pillai trace a legrobosztusabb teszt. > attach(skulls) > skulls.manova<-manova(cbind(mb,bh,bl,nh)~epoch) > summary(skulls.manova,test="pillai") Df Pillai approx F num Df den Df Pr(>F) EPOCH 4 0.3533 3.5120 16 580 4.675e-06 *** Residuals 145 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 > summary(skulls.manova,test="wilks") Df Wilks approx F num Df den Df Pr(>F) EPOCH 4.00 0.6636 3.9009 16.00 434.45 7.01e-07 *** Residuals 145.00 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 > summary(skulls.manova,test="hotelling") Df Hotelling-Lawley approx F num Df den Df EPOCH 4 0.4818 4.2310 16 562 Residuals 145 Pr(>F) EPOCH 8.278e-08 *** Residuals --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 > summary(skulls.manova,test="roy") Df Roy approx F num Df den Df Pr(>F) EPOCH 4 0.4251 15.4097 4 145 1.588e-10 *** 26

Diszkriminancia analízis Cél: egy olyan függvény létrehozása, amely alapján az egyedek két vagy több csoportba sorolhatók (a függvény értéke lényegesen változik csoportról csoportra). Később a függvényt új egyedek besorolására lehessen használni. pl. verebek. A testméretek alapján besorolhatók-e a verebek a túlélők ill. nem túlélők közé (Mire emlékeztet ez a kérdés?!!): Lineáris diszkriminancia függvény: Z = a1x 1 + a2x 2 +... + a p X p Ha Z értéke jelentősen változik csoportról csoportra, akkor a csoportok jól szeparálhatók. Több függvény is konstruálható. A függvény úgy vetíti le a csoportokat egy alacsonyabb dimenziós térbe, hogy azok eloszlásai a legkisebb mértékben fedjék át egymást. A MANOVA inverze. A MANOVA ugyanezt a függvényt használja. Kétféle cél: 1. Prediktív diszkriminancia analízis (generáljunk egy szabályt, amely alapján csoportokba sorolhatunk). 2. Leíró analízis: a függő változó és a független változók kapcsolatát vizsgáljuk. Hogyan működik? 1. Feltételezzük, hogy a célpopuláció egymást kizáró rész populációkból áll. 27

2. Feltételezzük, hogy a független változóink többváltozós normális elsozlást követnek 3. Megkeressük azt a lineáris kombinációt, amely a legjobban szeparálja a csoportokat. 4. Ha k csoportunk van, akkor k-1 diszkriminancia függvényt készítünk. 5. Minden függvényre kiszámítjuk a diszkriminancia szkórokat. 6. Ezeket a szkórokat használjuk a klasszifikáláshoz. > skulls.lda<-lda(epoch~.,skulls) > skulls.lda Call: lda(epoch ~., data = skulls) Prior probabilities of groups: c1850bc c200bc c3300bc c4000bc cad150 0.2 0.2 0.2 0.2 0.2 Group means: MB BH BL NH c1850bc 134.4667 133.8000 96.03333 50.56667 c200bc 135.5000 132.3000 94.53333 51.96667 c3300bc 132.3667 132.7000 99.06667 50.23333 c4000bc 131.3667 133.6000 99.16667 50.53333 cad150 136.1667 130.3333 93.50000 51.36667 Coefficients of linear discriminants: LD1 LD2 LD3 LD4 MB 0.12667629-0.03873784-0.09276835-0.1488398644 BH -0.03703209-0.21009773 0.02456846 0.0004200843 BL -0.14512512 0.06811443-0.01474860-0.1325007670 NH 0.08285128 0.07729281 0.29458931-0.0668588797 28

Proportion of trace: LD1 LD2 LD3 LD4 0.8823 0.0809 0.0326 0.0042 Logisztikus ill. multinomiális regresszió vagy diszkriminancia analízis? Ha a magyarázó változók normális eloszlásúak, akkor a DA jobb. Ha kategóriás változóink is vannak, akkor a DA akkor rosszabb, ha a kategóriák száma nagyon kicsi (2, 3). Ezekben az esetekben a LR eredménye hasonló a DA-éhoz, legfeljebb egy kicsit rosszabb (ha a mintaelemszám aránylag kicsi). Ha a DA feltételei nem teljesülnek, mindenképpen a LR-t kell használni. Az LR nem eloszlás függő. 29

Kanonikus korreláció elemzés Többszörös regresszió elemzés általánosítása. Sokszor két természetes csoportot alkotnak a változók és a két csoport közötti kapcsolatot szereténk vizsgálni. Példa: 16 Euphydryas editha lepke kolónia Kaliforniából és Oregonból. Minden kolónia esetén ismert 4 környezeti változó és 6 génfrekvencia érték. Kérdés: milyen kapcsolatban vannak egymással a környezeti és genetikus tényezők? Változók: Alt Tengerszint feletti magasság (láb) prec- éves csapadék mennyiség max Éves max. hőmérséklet ( F) min Éves min. hőmérséklet ( F) F0.40-F1.30 Pgi mobility gene frequencies (%) Colony Alt prec max min F0.40 F0.60 F0.80 F1.00 F1.16 F1.30 SS 500 43 98 17 0 3 22 57 17 1 SB 800 20 92 32 0 16 20 38 13 13 WSB 570 28 98 26 0 6 28 46 17 3 JRC 550 28 98 26 0 4 19 47 27 3 JRH 550 28 98 26 0 1 8 50 35 6 SJ 380 15 99 28 0 2 19 44 32 3 CR 930 21 99 28 0 0 15 50 27 8 UO 650 10 101 27 10 21 40 25 4 0 LO 600 10 101 27 14 26 32 28 0 0 DP 1500 19 99 23 0 1 6 80 12 1 PZ 1750 22 101 27 1 4 34 33 22 6 MC 2000 58 100 18 0 7 14 66 13 0 IF 2500 34 102 16 0 9 15 47 21 8 AF 2000 21 105 20 3 7 17 32 27 14 GH 7850 42 84 5 0 5 7 84 4 0 GL 10500 50 81-12 0 3 1 92 4 0 30

Ötlet: Készítsünk olyan lineáris kombinációkat a két csoportban lévő változókból, hogy azok maximálisan korreláltak legyenek. A gyakorlatban több változó készíthető. Ha van p ( X 1, X 2,..., X p) és q ( Y 1, Y2,..., Y q ) standardizált változónk a két csoportban, akkor min(p,q) ilyen lineáris kombináció készíthető. Azaz i i1 X1 + ai2 X 2 + aip X p i = 1,2,..., r U = a... + V = a Y + a Y +... + a i i1 1 i2 2 ip Y p ahol r = min(p,q) Úgy választjuk meg az együtthatókat, hogy az U 1 és V 1 korrelációja maximális legyen, U 2 és V 2 korrelációja maximális legyen olyan módon, hogy nem korreláltak U 1 gyel és V 1 -gyel, stb... Ilyen módon minden (U i és V i ) a kapcsolat különböző dimenzióit méri. Az első pár korrelációja a legnagyobb. A számítás menete Elkészítünk egy (p+q) (p+q) dimenziós korrelációs mátrixot a változóinkból: X X Y Y 1 1 q p X 1 X A L C 2 T X p M L M Y 1 Y 2 C L B Y q 31

Kiszámítható egy B -1 C T A -1 C mátrix kiszámíthatóak ennek a sajátértékei. Bebizonyítható, hogy a λ 1> λ 2 >...> λ r, a kanonikus változók korrelációinak (kanonikus korrelációk) négyzetei. A hozzájuk tartozó b 1,b 2,...,b r sajátvektorok pedig az Y i -k együtthatói. Az X i -k együtthatóit az a i = A -1 Cb i vektor komponensei adják. A sajátértékek azt mutatják meg, hogy a független változók mennyit magyaráznak a függőkből az adott dimenzióban. Szignifikancia tesztek Ha r sajátértékünk van, akkor r kanonikus változó párunk van. Ezek közül sok olyan kicsi, hogy már nem szignifikáns. A Wilk s féle tesztet használjuk annak eldöntésére, hogy hány szignifikáns változó párunk van. A szabadsági foka p*q. Feltételek Általában ugyanazok mint a MANOVA esetén: linearitás intervallum vagy legalábbis közel intervallum skálán mért változók többváltozós normalitás 32

Példa Az utolsó frekvencia változó nem kell, mert a 6 együtt 100%- ot ad ki. Az output: Korrelációs mátrixok (A, B és C) Kanonikus korrelációk (sajátértékek négyzetgyöke): > cancor(gen[,2:5],gen[,6:10]) $Summary R RSquared LR ApproxF NumDF DenDF pvalue 1 0.8793 0.7731 0.0795 1.3839 20 24.1662 0.2215 2 0.7463 0.5570 0.3506 0.8693 12 21.4575 0.5871 3 0.4116 0.1694 0.7914 0.3724 6 18.0000 0.8870 4 0.2173 0.0472 0.9528 NaN 2 NaN NaN Egyik kanonikus változó sem szignifikáns. Nincs bizonyítva a kapcsolat. Valószínűleg túl kicsi a minta. 33

Együtthatók: > cancor(gen[,2:5],gen[,6:10]) $cor [1] 0.8792722 0.7463372 0.4116297 0.2172688 $xcoef [,1] [,2] [,3] [,4] Alt -1.022297e-05 0.000069722-0.0003276579 0.0001429662 prec 1.143022e-02-0.018091855-0.0110937145 0.0158605207 max -2.803969e-02 0.022719841-0.0228538529 0.0646749640 min 1.130454e-03-0.021851544-0.0853475756 0.0174720672 $ycoef [,1] [,2] [,3] [,4] F0.40-0.042105074 0.06781105 0.09541866 0.01773603 F0.60 0.031320794-0.10452659 0.07057918-0.08030188 F0.80 0.009003412-0.05309862 0.05345934-0.02076878 F1.00 0.018552591-0.04425248 0.06325999-0.02454376 F1.16 0.006436999-0.07014658 0.08650252-0.02715328 [,5] F0.40 0.002927490 F0.60 0.052022800 F0.80-0.026731767 F1.00 0.003572987 F1.16 0.028507059 Az 1. kanonikus változó magas max. és min. hőmérséklettel, és alacsony magassággal és csapadék mennyiséggel korrelál. $XUCorrelations U1 U2 U3 U4 Alt -0.7663-0.6245 0.1365-0.0646 prec -0.8527 0.1545-0.1484-0.4764 max 0.8608 0.2796-0.1423-0.4008 min 0.7802 0.5606 0.1852 0.2067 $YVCorrelations V1 V2 V3 V4 F0.40 0.5680 0.4330-0.2205 0.6566 F0.60 0.3870 0.1644 0.1205 0.8993 F0.80 0.7030-0.2087 0.0690 0.4111 F1.00-0.9222 0.2426-0.1906-0.2312 F1.16 0.3609-0.4780-0.0350-0.7276 34

A kanonikus változó és az eredeti változók közötti korreláció. (Faktor struktúra). Négyzete méri az adott változó magyarázó hatását a kanonikus változóra nézve. 3 célra használjuk: Interpretáció. Azon változókat, amelyeknek a korrelációja 0.3 felett van, tekintjük úgy hogy hozzájárulnak lényegesen a változóhoz. A 2. csoport esetén az F1.00-val negatív a korreláció, a többivel pozitív. Így úgy tűnik, hogy a magas max. és min. hőmérséklet és alacsony magasság és csapadék mennyiség az F1.00 hiányával korrelál. 35