Nemparametrikus tesztek április 25.

Hasonló dokumentumok
Nemparametrikus tesztek december 3.

Varianciaanaĺızis november 19.

Ismételt méréses multifaktoriális varianciaanaĺızis (repeated measures MANOVA) szeptember 19.

2012. április 18. Varianciaanaĺızis

Varianciaanalízis 4/24/12

Biostatisztika Összefoglalás

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

y ij = µ + α i + e ij

A nyelvészeti kísérletekben egy személytől szinte mindig többféle. Ismert módszer az ismételt méréses ANOVA, ahol a független

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Adatelemzés az R-ben április 25.

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Hipotézis vizsgálatok

Adatok statisztikai értékelésének főbb lehetőségei

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Biostatisztika Összefoglalás

Biomatematika 13. Varianciaanaĺızis (ANOVA)

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Normális eloszlás tesztje

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Kettőnél több csoport vizsgálata. Makara B. Gábor

Bevezetés a hipotézisvizsgálatokba

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

IV. Változók és csoportok összehasonlítása

Logisztikus regresszió

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

[Biomatematika 2] Orvosi biometria

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

A konfidencia intervallum képlete: x± t( α /2, df )

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Segítség az outputok értelmezéséhez

Több valószínűségi változó együttes eloszlása, korreláció

V. Gyakorisági táblázatok elemzése

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Hipotézis vizsgálatok

Nemparaméteres próbák

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Az első számjegyek Benford törvénye

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Normális eloszlás paramétereire vonatkozó próbák

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Hipotézisvizsgálat R-ben

Centura Szövegértés Teszt

Biostatisztika 2. Dr. Dinya Elek Dr. Solymosi Róbert: Biometria a klinikumban Dr. Dinya Elek: Biostatisztika c. művei alapján

BIOMETRIA (H 0 ) 5. Előad. zisvizsgálatok. Hipotézisvizsg. Nullhipotézis

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika elméleti összefoglaló

Reiczigel Jenő,

Többváltozós lineáris regressziós modell feltételeinek

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Nem-paraméteres és paraméteres módszerek. Kontingencia tábla, rangtranszformálás, párosított minták, két független minta

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Bevezetés az SPSS program használatába

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Kísérlettervezés alapfogalmak

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

1 Hipot ezisek, sk alat ıpusok Objektumok az R-ben

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Kutatásmódszertan és prezentációkészítés

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

A statisztika alapjai - Bevezetés az SPSS-be -

SPSS ÉS STATISZTIKAI ALAPOK II.

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

kritikus érték(ek) (critical value).

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Biostatisztika VIII. Mátyus László. 19 October

Eloszlás-független módszerek 13. elıadás ( lecke)

Statisztika Elıadások letölthetık a címrıl

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

Biometria gyakorló feladatok BsC hallgatók számára

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Statisztikai módszerek alkalmazása az orvostudományban. Szentesi Péter

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

4. okt. 3.: statisztika: binomiális regresszió, saját kísérletek

Átírás:

Nemparametrikus tesztek Ismételt méréses ANOVA 2012. április 25.

Május 2-án, azaz jövő héten nem lesz óra, ennek a pótlása volt az április 10-i óra. Május 9-én az ismételt méréses MANOVÁ-t vesszük, ezután gyakorló feladatok megoldása, nyitott kérdések megválaszolása stb. Május 16-án ZH azoknak, akik jegyet akarnak szerezni. Laptopra nem lesz szükség, feladatlap lesz. A helyszín a 206-os szoba.

Nemparametrikus módszerek Alkalmazásuk: nominális adatok (gyakoriságok) esetén, ordinális adatok esetén, metrikus adatok esetén (intervallum és arányskála), ha nem normális eloszlásúak, vagy ha varianciahomogenitás feltétele nem teljesül. Az ún. Likert-skála (pl. természetességi ítéletek 1 5-ig terjedő skálán) megítélése nem egyöntetű: egyesek szerint ordinális, mások szerint metrikusnak is tekinthető.

χ 2 -próba Egy vagy két nominális skálájú minta eloszlásának illeszkedését teszteli. Várt érték cellánként legalább 5. Egy minta: khi-négyzet-próba eloszlásvizsgálatra. Megfigyelések gyakoriságát összehasonĺıtjuk a várt gyakorisággal, azaz n/k-val. Például: ugyanannyi gyerek születik-e minden hónapban? 100 fős minta esetén megfigyelt gyakoriságok és várt gyakoriságok száma: jan feb már ápr máj jún júl aug szept okt nov dec megf. 8 9 10 4 14 7 9 10 6 9 8 6 várt 8,3 8,3 8,3 8,3 8,3 8,3 8,3 8,3 8,3 8,3 8,3 8,3

Példa Illeszkednek-e a megfigyelt gyakoriságok a várt gyakorisághoz? szuletes = c(8,9,10,4,14,7,9,10,6,9,8,6) chisq.test(szuletes) eredmény: p = 0.6698 Mivel p > 0.05, az illeszkedés hipotézisét nem vetjük el. Akkor sem, ha májusban legalább néggyel több gyerek született, mint bármely más hónapban! Ha p < 0.05, a megfigyelt gyakoriságok nem illeszkednek a várt gyakoriságokhoz, azaz legalább egy érték kilóg (pl. májusban 20 gyerek született).

χ 2 -próba két mintára Khi-négyzet-próba függetlenségvizsgálatra: függetlenek-e a gyakoriságok a nominális skála szintjeitől? Itt a megfigyelt gyakoriságokat nem a várt gyakorisággal, hanem a másik mintával hasonĺıtjuk össze. Gyakoribb-e a hangsúlytalanodás fókuszos mondatokban posztverbális helyzetben, mint mondatfókusz esetén? mondatfókusz szűk fókusz kontrasztív fókusz hangsúlytalan 11 17 14 hangsúlyos 31 25 28 H 0 : az eloszlások függetlenek a nominális változó szintjeitől, azaz egyformán gyakori a hangsúlytalanodás mindegyik osztályban.

Példa deacc = cbind(c(11,31),c(17,25),c(14,28)) chisq.test(deacc) p = 0.38: az eloszlás nominális változótól való függetlenségének hipotézisét nincs okunk elvetni. A gyakoriságok tehát függetlenek a fókusztípustól. A teszt szerint a fókuszos mondatokban nem szignifikánsan gyakoribb az irtóhangsúly, mint a mondatfókuszosokban (vagy fókusz nélküliekben).

Rangpróbák (nemparaméteres próbák) Alapgondolat: a próbastatisztikát nem a megfigyelt értékekből, hanem azok rangszámából számoljuk ki (ld. Spearman-féle ρ). Felhasználásuk: ordinális függő változó esetén, nem normális eloszlású metrikus függő változó esetén. Feltétel: minták összehasonĺıthatósága, azaz a sűrűségfüggvények azonos alakja, ezáltal a szórások azonossága.

Próbák típusai Próbák: Mann-Whitney-próba, U-próba: a független mintás t-próba megfelelője: két ordinális vagy nem normális eloszlású független minta. Wilcoxon-próba: a páros t-próba megfelelője: két ordinális vagy nem normális eloszlású páros minta. Kruskal-Wallis-próba, H-próba: a független mintás egytényezős varianciaanaĺızis megfelelője: kettőnél több ordinális vagy nem normális eloszlású független minta. R-függvények: Mann-Whitney és Wilcoxon-próba: wilcox.test(paired=f vagy paired=t). Kruskal-Wallis-próba: kruskal.test().

Példa: Mann-Whitney-próba 7.18 példa a Reiczigel et al. könyvből: Hatékony-e egy tesztelt vaskészítmény a vérszegénység ellen? Az adatok a kezelés (szer és placebó) utáni hemoglobinszintet mutatják. kezelt = c(9.1, 10.3, 11.0, 11.5, 11.9, 9.5, 10.6, 9.3, 11.0, 9.8) kontroll = c(8.1, 8.4, 9.2, 9.4, 8.8, 9.8, 8.2, 10.3, 9.5) wilcox.test(kezelt,kontroll) p = 0.011, azaz a nullhipotézist elvetjük, a kezelt csoport hemoglobinszintje szignifikánsan magasabb.

Példa: Wilcoxon-próba Mennyire elfogadható a hotelba, ill. hotelbe alak? Egy 1-től 5-ig terjedő skálán kell értékelni, 1: egyáltalán nem elfogadható, 5: teljesen elfogadható. Tíz megkérdezett: hatsom = c(5,5,5,5,4,5,5,5,4,5) elsom = c(1,3,5,4,2,3,2,4,5,2). Itt a tíz megkérdezett mindkét alakot értékelte, ezért a páros Wilcoxon-próbát alkalmazzuk: wilcox.test(hatsom,elsom,paired=t) p = 0.017, a nullhipotézist, a minták rangsorának azonosságát elvetjük, és az ítéleteket különbözőnek tekintjük.

Példa: Kruskal-Wallis-próba longvow.rdata a clara.nytud.hu/ mady oldalról, 7. óra mellől. Ellenőrizzük, hogy a tartamok a három magánhangzócsoportban normális eloszlást mutatnak-e.

Példa: Kruskal-Wallis-próba longvow.rdata a clara.nytud.hu/ mady oldalról, 7. óra mellől. Ellenőrizzük, hogy a tartamok a három magánhangzócsoportban normális eloszlást mutatnak-e. tapply(longvow$dur,longvow$vowel,shapiro.test) p /u:/-ra és /a:/-ra szignifikáns, tehát nem teljesül a normális eloszlás feltétele. Ezért: kruskal.test(longvow$dur longvow$vowel) Hibajelzés. Miért?

Példa: Kruskal-Wallis-próba longvow.rdata a clara.nytud.hu/ mady oldalról, 7. óra mellől. Ellenőrizzük, hogy a tartamok a három magánhangzócsoportban normális eloszlást mutatnak-e. tapply(longvow$dur,longvow$vowel,shapiro.test) p /u:/-ra és /a:/-ra szignifikáns, tehát nem teljesül a normális eloszlás feltétele. Ezért: kruskal.test(longvow$dur longvow$vowel) Hibajelzés. Miért? longvow$vowel nem faktor, ezért: kruskal.test(longvow$dur as.factor(longvow$vowel)) p értéke jóval 0, 000001 alatt van, különbség szignifikáns.

Ismételt méréses módszerek Humán tudományok örök problémája: egy személytől általában nem egy, hanem többféle adatot gyűjtünk. Ennek elemzésére az egyszerű varianciaanaĺızis NEM alkalmas, mert ott alapfeltétel a minták függetlensége (ld. független mintás t-próba). A varianciaanaĺızis függő mintás megfelelője az ismételt méréses varianciaanaĺızis, angolul repeated measures ANOVA. Fontos: az ismételt mérés nem arra vonatkozik, hogy egyazon beszélőtől többször vesszük fel ugyanazt az adatot (pl. mondatokat öt ismétléssel olvasnak fel), hanem hogy egyazon személlyel ismételt méréseket végzünk. Például orvostudományban: egy bizonyos gyógyszer hatása kezelés előtt, a kezelés megkezdése után két héttel, egy hónappal stb.

Eljárás Egy függő és egy vagy több független változó tesztelése, ahol az ismétlés belső tényezői (személyek, növények, akiken/amiken az ismételt méréseket végeztük) közötti különbséget véletlen hatásnak tekintjük (within subjects factor). Az alanyok lehetnek két különböző csoport tagjai, amiket összehasonĺıtunk (pl. különböző nyelvek beszélői, egy növényfaj különböző fajtái stb.), ez a köztes tényező (between subjects factor). Alapfeltételek: legalább öt alany (személy, növény, tárgy, bármi, amin több mérést végzünk), faktorkombinációnként egyetlen adat - azaz ha egyazon faktort többször mértünk (pl. felolvasáskor több ismétlés), ezeket átlagolni kell minden egyes alanyra és cellára, kiegyensúlyozott dizájn, azaz ha az egyik faktor két szintjéhez két további faktor tartozik, akkor a másik faktornál is vizsgálni kell ugyanezt a két szintet.

Hátulütők R-ben nincs több faktor kombinációjára átlagoló beépített függvény, mivel átlagokkal számolunk, az egyes cellákon belüli varianciát nem tudjuk figyelembe venni (erre a mixed models kínál kiutat), nem tudunk több within subject tényezőt kombinálni ( mixed models), csak a szfericitási feltétel teljesülése esetén alkalmazható ( ismételt méréses többváltozós varianciaanaĺızis, lásd jövő órán) nincs post-hoc tesztje, csak t-próbák Bonferroni-korrektúrával (konfidenciaszint/összes lehetséges kombináció száma). A mixed models ld. Baayen (2008): Analizing linguistic data c. könyvéből, pdf elérhető itt: http://www.ualberta.ca/ baayen/publications.html, 2008-as publikációk.

Cellánkénti átlagok számítása anova.mean.r nevű R-függvény letöltése innen: clara.nytud.hu/ mady Szkript és függvény közötti különbség: függvényben létrehozott változók (R-objektumok) nem jelennek meg a munkamemóriában. Szkript és függvény egyaránt betölthető a source("eleresiutvonal") paranccsal, szkriptet közvetlenül be is lehet másolni egy szövegszerkesztőből az R-be (copy-paste). Ha a függvényben szintaktikai hiba van, betöltés helyett hibajelzést kapunk. Függvény első sora: fuggvenynev = function(kotelezoargumentum1, kotelezoargumentum2,...), ahol három pont további opcionális számú opcionális argumentumot jelöl.

Példa Mondatvégi kétszótagú, /s/-re és /z/-re végződő szavakban megmértük a frikatíván belüli zöngés tartomány hosszát. Zöngésebbek-e a mondatvégi /z/-k, mint az /s/-ek? zfin.rdata, letöltés innen: clara.nytud.hu/ mady zmean = anova.mean(zfin$cvoice,zfin$subj,zfin$voiced) Kapott adatmátrix oszlopainak elnevezése: names(zmean) = c("cvoice","subj","voiced")

Ismételt méréses varianciaanaĺızis függvénye Függő változó: mássalhangzó zöngésségének tartama (cvoice). Független változó: zöngésség (voiced). Within subject factor: beszélő (subj). Between subject factor: nincs. summary(aov(cvoice voiced + Error(subj/voiced), data=zmean)) Releváns p-érték: Error: subj:voiced sor alatt (ez jelzi az alanyok szerinti interakciót). Ábrázolás: interaction.plot(x-tengely, ismételt mérés alanya, paraméter) interaction.plot(zmean$voiced,zmean$subj,zmean$cvoice)

Több tényező Többtényezős varianciaanaĺızis képlete, ha nincs between subject factor, pl. ha megelőző mássalhangzóra is kíváncsiak vagyunk: summary(aov(cvoice voiced*c1 + Error(subj/(voiced*c1)), data=zmean)) Ehhez a cellánkénti átlagokat újra kell számolni: zmean = anova.mean(zfin$cvoice, zfin$subj, zfin$voiced, zfin$c1)

Eredmények Értelmezés: Error: subj:voiced zöngésségi tartamok beszélőnként, zöngésség függvényében (a p-érték változott, mert az átlagokat újraszámoltuk). Error: subj:c1 zöngésségi tartamok beszélőnként, a megelőző mássalhangzó függvényében. Error: subj:voiced:c1 zöngésségi tartamok beszélőnként, zöngésség és megelőző mássalhangzó interakciója, azaz befolyásolja-e a megelőző mássalhangzó a zöngésség hatását?

Több csoport Férfi és női beszélők magánhangzónak 1. és 2. formánsa alapján kiszámoltuk az egyes magánhangzók artikulációs középponttól való távolságát (euklideszi távolság). Erősebben redukálnak-e a férfiak, mint a nők, azaz közelebb vannak-e a magánhangzóik a középponthoz? Adatok: euk.rdata, letöltés: clara.nytud.hu/ mady. summary(aov(et V.num * nem + Error(beszelo/V.num), data=euk)) beszélők csoportjára nem kapunk p-értéket. Miért?

Több csoport Férfi és női beszélők magánhangzónak 1. és 2. formánsa alapján kiszámoltuk az egyes magánhangzók artikulációs középponttól való távolságát (euklideszi távolság). Erősebben redukálnak-e a férfiak, mint a nők, azaz közelebb vannak-e a magánhangzóik a középponthoz? Adatok: euk.rdata, letöltés: clara.nytud.hu/ mady. summary(aov(et V.num * nem + Error(beszelo/V.num), data=euk)) beszélők csoportjára nem kapunk p-értéket. Miért? Mivel a kódolás számokkal történik, R az adatokat egész számokként (azaz numerikus változóként) értelmezi. Független változó csak faktor lehet! Változót át kell kódolni faktorrá: euk$nem = as.factor(euk$nem) euk$v.num = as.factor(euk$v.num)

Gyakorlás Hogyan hat a tág, szűk és kontrasztív fókusz a fókuszban levő szó hangsúlyos szótagjának tartamára, és a megelőző topik hangsúlyos szótagjának tartamára? Letöltés: accdur.rdata Feladat: ismételt méréses varianciaanaĺızis számolása, egyéni trendek megjelenítése az interaction.plot() függvénnyel. Tételezzük fel, hogy a beszélők egy része szelektíven gyűjti a hulladékot, míg mások az összes szemetet egy helyen gyűjtik (eco változó). Van-e különbség a csoportok között?