2012. április 18. Varianciaanaĺızis

Hasonló dokumentumok
Varianciaanaĺızis november 19.

y ij = µ + α i + e ij

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Varianciaanalízis 4/24/12

Ismételt méréses multifaktoriális varianciaanaĺızis (repeated measures MANOVA) szeptember 19.

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Kettőnél több csoport vizsgálata. Makara B. Gábor

Hipotézis vizsgálatok

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Nemparametrikus tesztek december 3.

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Bevezetés a hipotézisvizsgálatokba

Biostatisztika Összefoglalás

Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018

Biostatisztika Összefoglalás

Biostatisztika 2. Dr. Dinya Elek Dr. Solymosi Róbert: Biometria a klinikumban Dr. Dinya Elek: Biostatisztika c. művei alapján

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

y ij e ij BIOMETRIA let A variancia-anal telei Alapfogalmak 2. Alapfogalmak 1. ahol: 7. Előad Variancia-anal Lineáris modell ltozó bontását t jelenti.

IV. Változók és csoportok összehasonlítása

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Statisztika elméleti összefoglaló

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

Az első számjegyek Benford törvénye

Variancia-analízis (ANOVA) Mekkora a tévedés esélye? A tévedés esélye Miért nem csinálunk kétmintás t-próbákat?

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Segítség az outputok értelmezéséhez

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Biostatisztika VIII. Mátyus László. 19 October

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Hipotézis vizsgálatok

Variancia-analízis (folytatás)

Több valószínűségi változó együttes eloszlása, korreláció

Kísérlettervezés alapfogalmak

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biostatisztika Hipotézisvizsgálatok, egy- és kétoldalas próbák, statisztikai hibák, ANOVA

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

Reiczigel Jenő,

[Biomatematika 2] Orvosi biometria

Többváltozós Regresszió-számítás

KISTERV2_ANOVA_

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Adatok statisztikai értékelésének főbb lehetőségei

Centura Szövegértés Teszt

SPSS ÉS STATISZTIKAI ALAPOK II.

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

Nemparametrikus tesztek április 25.

BIOMETRIA_ANOVA_2 1 1

Összetett vizsgálati tervek és kiértékelésük. Kettő és több szempontos variancia analizis modellek

Normális eloszlás tesztje

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Esetelemzés az SPSS használatával

Statisztikai szoftverek esszé

Adatelemzés az R-ben április 25.

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Q1 = 1575 eft Me = 2027,7778 eft Q3 = 2526,3158 eft

Többváltozós lineáris regressziós modell feltételeinek

A szórások vizsgálata. Az F-próba. A döntés. Az F-próba szabadsági fokai

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

6. Előadás. Vereb György, DE OEC BSI, október 12.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Korreláció és lineáris regresszió

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Statisztikai módszerek 7. gyakorlat

A nyelvészeti kísérletekben egy személytől szinte mindig többféle. Ismert módszer az ismételt méréses ANOVA, ahol a független

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Eloszlás-független módszerek 13. elıadás ( lecke)

Diszkriminancia-analízis

Biomatematika 2 Orvosi biometria

Normális eloszlás paramétereire vonatkozó próbák

KÖVETKEZTETŐ STATISZTIKA

Kísérlettervezés alapfogalmak

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Statisztikai módszerek alkalmazása az orvostudományban. Szentesi Péter

A konfidencia intervallum képlete: x± t( α /2, df )

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Átírás:

2012. április 18. Varianciaanaĺızis

Varianciaanaĺızis (analysis of variance, ANOVA) Ismételt méréses ANOVA Kérdések: (1) van-e különbség a csoportok között (t-próba általánosítása), (2) van-e hatása a vizsgált tényezőnek (regressziószámítás: magyarázó változók hatása a függő változóra). egytényezős (egyszempontos): ha a független változónak kettőnél több szintje van (pl. fiatalok, középkorúak és idősek összehasonĺıtása), többtényezős (többszempontos): több független változó szintjeinek kombinációja, független mintás: ha az adatok különböző elemeken végzett mérésekből származnak (pl. magyar, cseh és angol beszélők), ismételt méréses: ha egy adatközlőtől többféle adat származik.

Alkalmazási területek Egy adott kezelés különböző változatainak hatása a kontrollcsoporthoz képest (pl. magasabb dózis, alacsonyabb dózis, placebó). Többféle módszer hatékonysága egymáshoz és a kontrollcsoporthoz képest. Nominális független változók által kiváltott hatás (pl. különböző szemantikai típusok hatása reakcióidőre).

Feltételek Egyes csoportokon belül normális eloszlás és azonos szórás (varianciák homogenitása), megfigyelések egymástól való függetlensége (szfericitás). Normális eloszlás feltételének megsértését nem szokás sarkalatos problémának tekinteni, mert (1) 30 fölötti elemszám már természetszerűleg normlis eloszlású, (2) 10 20 elemnél nem nagy az eltérés, (3) 10-nél kisebb elem esetén nincs igazán értelme eloszlásról beszélni. Varianciák homogenitása és a megfigyelések egymástól való függetlensége (szfericitás) viszont alapvető, különben az eredmények nem megbízhatóak.

Egytényezős varianciaanaĺızis Eljárás: az összes variancia felosztása a faktorok kombinációjából adódó csoportok közötti és a csoportokon belüli varianciára (innen az elnevezés). 1. csoporton belüli variabilitás kiszámítása a csoportátlagtól való eltérés-négyzetösszeggel ( variancia), 2. csoportok varianciájának átlaga véletlen hiba varianciabecslése = regressziószámítás reziduális varianciája, 3. döntés: ha a csoportok közötti variabilitás nagyobb, mint a csoportokon belüli variabilitás, akkor a tényezőnek (független változónak) van hatása.

Varianciatábla Variancia Szabadsági Eltérés- Átlagos eltéréseredete fok négyzetösszeg négyzetösszeg F p source df Sum Sq Mean Sq Kezelések közötti k 1 between SS K MS K = SS K k 1 Kezelésen belüli k(n 1) SS H MS H = SS H k(n 1) within Teljes nk 1 SS T MS T = SS T nk 1 total SS H = reziduális hiba a regressziószámítás alapján F = MS K MS H p

Példa Reiczigel, Harnos & Solymosi, 316. o.: Tápoldat hatékonyságának tesztelése növények növekedésére. Eljárás: növények öntözése tömény, ill. híg tápoldattal, kontroll: víz. Kérdés: serkenthető-e a növények növekedése a tápoldat segítségével? R-kód: magassag = c(56,48,66,54,57,50,47,58,54,46,60,48) tapoldat = rep(c("tomeny","hig","viz"),each=4) novtap = data.frame(magassag,tapoldat) rep(): tápoldat típusának ismétlése: opciók: times=4 (teljes sor ismétlése négyszer), each=4 (minden egyes elem ismétlése négyszer). Fontos: az adatmátrixot a data.frame() paranccsal hozzuk létre, ami a tapoldat karakterváltozókat faktorrá alakítja. Független változóként kizárólag factor típusú változók adhatóak meg!

Varianciaelemzés az R-ben Normális eloszlás tesztelése: tapply(novtap$magassag,novtap$tapoldat,shapiro.test) tapply(): függő változó kiszámítása független változó összes faktorszintjére a megadott függvény szerint, azaz tapply(függöváltozó,függetlenváltozó(k),függvény). Mindhárom cella normális eloszlású. Varianciák homogenitásának ellenőrzése: bartlett.test(novtap$magassag,novtap$tapoldat): varianciák azonosak. NB: Bartlett-próba kettőnél több próba összehasonĺıtására is alkalmazható, de csak normális eloszlás esetén var.test() (F-próba) csak két mintát tud összehasonĺıtani. Ha több, nem normális eloszlású próba: levene.test() a car könyvtárból.

Varianciaanaĺızis két függvény alapján: aov() lm() Különbség: aov() csak azonos elemszámú cellák (kiegyensúlyozott elrendezés) esetén alkalmazható. Eltérő cellanagyság esetén lm() (indoklás ld. Reiczigel et al., 375ff.). h = aov(novtap$magassag novtap$tapoldat), vagy h = aov(magassag tapoldat,data=novtap)

Varianciaanaĺızis két függvény alapján: aov() lm() Különbség: aov() csak azonos elemszámú cellák (kiegyensúlyozott elrendezés) esetén alkalmazható. Eltérő cellanagyság esetén lm() (indoklás ld. Reiczigel et al., 375ff.). h = aov(novtap$magassag novtap$tapoldat), vagy h = aov(magassag tapoldat,data=novtap) summary(h). Táblázat elrendezése megegyezik a 6. diával. Kapott F-érték az adott szabadságfokokra nem mutat szignifikáns eltérést a kezelések közötti és kezeléseken belüli átlagos eltérés-négyzetösszegek között. tápoldat alkalmazása nincs hatással a növekedésre. Igaz ez a víz és a tömény oldat összehasonĺıtására is?

Post hoc-tesztek Probléma: az összehasonĺıtások nagy számával nő az α-hiba lehetősége, azaz annak a valószínűsége, hogy hibás szignifikáns p-értéket kapunk. Módszerek: Páronkénti összehasonĺıtás t-próbákkal, majd a Bonferroni-korrektúra alkalmazása: szignifikancia-határ α/ k(k 1) 2, azaz konfidenciaintervallum / összes lehetséges párosítás. Hátrány: nagy számú kombináció esetén szinte lehetetlen szignifikáns különbséget kimutatni. Tukey-féle /tu:ki/ post-hoc teszt: csak a független mintás varianciaanaĺızisre alkalmazható, az ismételt mérésesre nem. Dunnett-próba: általánosabb alkalmazhatóság.

Post hoc-tesztek 1. Tukey-féle post hoc-teszt bemenete az aov() kimeneteként kapott objektum: h = aov(novtap$magassag novtap$tapoldat) TukeyHSD(h)

Post hoc-tesztek 1. Tukey-féle post hoc-teszt bemenete az aov() kimeneteként kapott objektum: h = aov(novtap$magassag novtap$tapoldat) TukeyHSD(h) Egyik párosítás sem különbözik szignifikánsan. 2. t-próba Bonferroni-korrektúrával Pl. víz és tömény oldat összehasonĺıtása. Lehetséges kombinációk száma 3, tehát a konfidencia-intervallum határa Bonferroni-korrektúra után 0,0167. hig = novtap$tapoldat == "hig" t.test(novtap$magassag[!hig] novtap$tapoldat[!hig]

Post hoc-tesztek 1. Tukey-féle post hoc-teszt bemenete az aov() kimeneteként kapott objektum: h = aov(novtap$magassag novtap$tapoldat) TukeyHSD(h) Egyik párosítás sem különbözik szignifikánsan. 2. t-próba Bonferroni-korrektúrával Pl. víz és tömény oldat összehasonĺıtása. Lehetséges kombinációk száma 3, tehát a konfidencia-intervallum határa Bonferroni-korrektúra után 0,0167. hig = novtap$tapoldat == "hig" t.test(novtap$magassag[!hig] novtap$tapoldat[!hig] p = 0.4462, azaz a különbség messze nem szigifikáns.

Többtényezős varianciaanaĺızis Két vagy több független változó hatása a függő változóra. Nullhipotézisek: (1) Első tényező (független változó) nincs hatással a függő változóra. (2) Második tényező nincs hatással a függő változóra. (3) Két tényező nincs egymásra hatással, nincs közöttük interakció. Eljárás: először a két független változó közötti interakciót teszteljük, majd ezek hatását külön-külön.

R-kód Újabb növényeket öntözünk meg tápoldattal és vízzel, de most növényenként két eltérő fajtát tesztelünk. Kód letölthető innen: http://biostatkonyv.hu/ R-kódok a 2010-es kiadáshoz, biostat.r, fejezet10.r, 10.3-as példa. Adatmátrix neve novtap2 legyen (adat túl általános). h = aov(magassag tapoldat*fajta,data=novtap2) summary(h)

R-kód Újabb növényeket öntözünk meg tápoldattal és vízzel, de most növényenként két eltérő fajtát tesztelünk. Kód letölthető innen: http://biostatkonyv.hu/ R-kódok a 2010-es kiadáshoz, biostat.r, fejezet10.r, 10.3-as példa. Adatmátrix neve novtap2 legyen (adat túl általános). h = aov(magassag tapoldat*fajta,data=novtap2) summary(h) Tápoldat típusa és fajta nincs hatással egymásra, tehát nincs interakció a két független változó között. h = aov(magassag tapoldat+fajta,data=novtap2) summary(h) Egyes p-értékek így még kisebbek.

Értékelés Döntés H 1 javára: az alkalmazott tápoldat mindkét növényfajta esetében szignifikánsan nagyobb növekedést okoz. Kérdés: elég-e a két fajta esetében híg tápoldatot alkalmazni a szignifikáns növekedés kiváltásához?

Értékelés Döntés H 1 javára: az alkalmazott tápoldat mindkét növényfajta esetében szignifikánsan nagyobb növekedést okoz. Kérdés: elég-e a két fajta esetében híg tápoldatot alkalmazni a szignifikáns növekedés kiváltásához? Eljárás: 1-es és 2-es fajtára a víz és híg oldat p-értékének összehasonĺıtása Tukey-féle post hoc-teszttel (összes kombinációt interakciót feltételező modellel kapjuk csak meg). h = aov(magassag tapoldat*fajta,data=novtap2) TukeyHSD(h)

Értékelés Döntés H 1 javára: az alkalmazott tápoldat mindkét növényfajta esetében szignifikánsan nagyobb növekedést okoz. Kérdés: elég-e a két fajta esetében híg tápoldatot alkalmazni a szignifikáns növekedés kiváltásához? Eljárás: 1-es és 2-es fajtára a víz és híg oldat p-értékének összehasonĺıtása Tukey-féle post hoc-teszttel (összes kombinációt interakciót feltételező modellel kapjuk csak meg). h = aov(magassag tapoldat*fajta,data=novtap2) TukeyHSD(h) p adj viz:1-hig:1 0.0181639 viz:2-hig:2 0.0005648 A híg oldat szignifikánsan nagyobb növekedést eredményez mindkét fajta esetében, a tömény és a híg oldat között viszont nem szignifikáns a különbség.

További feladat ml vow.rdata alapján (letölthető: clarin.nytud.hu/ mady, 8. óra anyaga). Igaz-e az, hogy a felső nyelvállású magánhangzók rövidebbek, mint a középső és alsó nyelvállásúak? (Szükséges oszlopok: dur, hgt.) Hatással van-e a tartamra a környező mássalhangzó zöngéssége (voi), a magánhangzó-hosszúság (quan), és a magánhangzó minősége (qual)? Melyik tulajdonságok vannak interakcióban egymással? Az adatok elemzése előtt érdemes a viszonyokat boxplotokon is megszemlélni.