A nyelvészeti kísérletekben egy személytől szinte mindig többféle. Ismert módszer az ismételt méréses ANOVA, ahol a független

Hasonló dokumentumok
Ismételt méréses multifaktoriális varianciaanaĺızis (repeated measures MANOVA) szeptember 19.

2012. április 18. Varianciaanaĺızis

Logisztikus regresszió

y ij = µ + α i + e ij

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Varianciaanalízis 4/24/12

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Több valószínűségi változó együttes eloszlása, korreláció

Nemparametrikus tesztek április 25.

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Kettőnél több csoport vizsgálata. Makara B. Gábor

Adatok statisztikai értékelésének főbb lehetőségei

Normális eloszlás tesztje

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Likelihood, deviancia, Akaike-féle információs kritérium

Logisztikus regresszió október 27.

ÚJDONSÁGOK A MINITAB STATISZTIKAI SZOFTVER ÚJ KIADÁSÁNÁL (MINITAB 18)

Többváltozós lineáris regressziós modell feltételeinek

Varianciaanaĺızis november 19.

Segítség az outputok értelmezéséhez

Hipotézis vizsgálatok

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

[Biomatematika 2] Orvosi biometria

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Statisztika elméleti összefoglaló

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Logisztikus regresszió

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Nemparametrikus tesztek december 3.

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

6. Előadás. Vereb György, DE OEC BSI, október 12.

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Az első számjegyek Benford törvénye

Bevezetés a hipotézisvizsgálatokba

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

[Biomatematika 2] Orvosi biometria

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

Least Squares becslés

Diszkriminancia-analízis

Biostatisztika 2. Dr. Dinya Elek Dr. Solymosi Róbert: Biometria a klinikumban Dr. Dinya Elek: Biostatisztika c. művei alapján

Kísérlettervezés alapfogalmak

BIOMETRIA_ANOVA_2 1 1

KISTERV2_ANOVA_

Faktoranalízis az SPSS-ben

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Reiczigel Jenő,

Biostatisztika VIII. Mátyus László. 19 October

Variancia-analízis (ANOVA) Mekkora a tévedés esélye? A tévedés esélye Miért nem csinálunk kétmintás t-próbákat?

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

IV. Változók és csoportok összehasonlítása

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Regresszió. Fő cél: jóslás Történhet:

Hipotézis vizsgálatok. Egy példa. Hipotézisek. A megfigyelt változó eloszlása Kérdés: Hatásos a lázcsillapító gyógyszer?

Gyakorló feladatok. Az alábbi feladatokon kívül a félév szemináriumi anyagát is nézzék át. Jó munkát! Gaál László

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Sztochasztikus kapcsolatok

y ij e ij BIOMETRIA let A variancia-anal telei Alapfogalmak 2. Alapfogalmak 1. ahol: 7. Előad Variancia-anal Lineáris modell ltozó bontását t jelenti.

LINEÁRIS REGRESSZIÓ (I. MODELL) ÉS KORRELÁCIÓ FELADATOK

Kapcsolatháló-elemzés az iskolai közösségek vizsgálatában II.

Faktoranalízis az SPSS-ben

Logisztikus regresszió

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

(Independence, dependence, random variables)

Biostatisztika Összefoglalás

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Kísérlettervezés alapfogalmak

Adatelemzés az R-ben április 25.

Matematikai geodéziai számítások 6.

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Centura Szövegértés Teszt

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Túlélés elemzés október 27.

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Több laboratórium összehasonlítása, körmérés

Többváltozós Regresszió-számítás

A leíró statisztikák

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

FIZIKAI KÉMIA II. házi dolgozat. Reakciókinetikai adatsor kiértékelése (numerikus mechanizmusvizsgálat)

Gazdasági matematika II. vizsgadolgozat megoldása A csoport

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Átírás:

Kevert modellek

Ismételt méréses varianciaanaĺızis A nyelvészeti kísérletekben egy személytől szinte mindig többféle információt szokás begyűjteni ismételt méréses módszerek. Ismert módszer az ismételt méréses ANOVA, ahol a független változók közötti összefüggést egy within-subjects faktoron, azaz belső tényezőn belül vizsgáljuk: futóteljesítmény reggel, délben és este egyazon személynél mérve. Előfeltétel: szfericitás, azaz a feltételek függetlensége. Bármely két feltétel közötti összefüggésnek azonosnak kell lennie bármely másik két feltétel közötti összefüggéssel, pl. reggel és délben mért teljesítmény különbségeinek varianciája azonos a délben és este, valamint a reggel és este mért teljesítmények különbségeinek varianciájával. Sok kutatási kérdésnél eleve nem várjuk a különbségek varianciájának azonosságát, például a kontrollfeltételként használt tényezőknél.

Szfericitást nem elváró alternatívák: ismételt méréses MANOVA (többváltozós ANOVA), kevert modellek. A kevert modellek előnyei: egynél több belső tényező (pl. kísérleti személy és stimulus), ordinális adatok (pl. Likert-skála pontszámai), nem normális eloszlású adatok, üres cellák (pl. nincs minden faktorkombinációra adat, néhány kísérleti személy nem töltötte ki az utolsó oldalt a tesztlapon, stb.), nem kell cellaátlagokat számolni, mint az ismételt méréses (M)ANOVÁ-nál.

A kevert modellek hátrányai: Új, folyamatos fejlesztés alatt álló módszer. Kisszámú adatra nem megbízható (legalább 200 adatnak illik lennie). A modell nem tartalmaz szabadsági fokokat, ezért az eredmények nem feleltethetőek meg egyértelműen p-értékeknek. A modell nem minden esetben konvergál, azaz bizonyos függvényekre nem ad semmilyen eredményt. Módszertani káosz a felhasználói oldalon. Előny és hátrány: nem konzervatív eljárás, azaz nagyobb eséllyel talál szignifikáns különbséget, mint a klasszikus módszerek, pl. ANOVA.

Leírások: Baayen, Harald (2008): Analyzing linguistic data. Cambridge: UP. http://www.sfs.unituebingen.de/ hbaayen/publications/baayencupstats.pdf Field, Miles & Field (2012): Discovering statistics with R. London et al.: SAGE. Winter, Bodo (2013): Linear models and linear mixed effect models in R with linguistic applications. http://bodowinter.com/tutorial/bw LME tutorial2.pdf

Bodo Winter példája: alapfrekvencia az udvariasság függvényében, férfiaknál és nőknél. Letölthető innen: http://bodowinter.com/tutorials.html dataset for tutorial 2 Betöltés legegyszerűbb read.csv függvénnyel, mert ott a vessző az alapértelmezett cellaelválasztó jel.

Metszéspont jelentősége a lineáris modellekben: lineáris regresszió 3 4 5 6 7 8 9 10 2 3 4 5 6 7 8 ratings$length ratings$frequency F M 100 150 200 250 pol.mean

Lineáris regresszió: metszéspont azonos a faktoronkénti átlaggal, estimate a másik csoport(ok) átlagával. h = lm(frequency gender,pol) summary(h) Estimate (Intercept) 246.986 genderm -108.110 Az Intercept értéke a default (nulladik) faktorszint átlaga, a genderm a M(ale) szint ehhez képest mért különbségét jelenti ez egyben az egyenes meredeksége.

A kevert modellek minden egyes alanyra (= random hatásként definiált egységre) külön metszéspontot számolnak. A lineáris regresszióval szemben, ahol az ɛ nem játszott szerepet a modellben, itt a fix és random hatások keverékéből áll össze a modell. Lineáris regresszió: frequency gender + ɛ Kevert modell: frequency gender + (1 subject) + ɛ Itt a hiba az egyes személyeken belüli varianciára vonatkozik. 1: intercept számítása. Ha (0 subject): csak meredekség. Több független változó és random hatás esetén: frequency gender + attitude + (1 subject) + (1 scenario) + ɛ Modell előnyei: (1) a cellánkénti varianciát is figyelembe veszi (szemben a cellaátlagot elváró (M)ANOVÁ-val, (2) több random hatás is integrálható egy modellbe (RM ANOVÁ-ban csak egy).

Eljárás Fix hatások (fixed effects): független változók, megismételhető adatok (ha akarunk, többet is gyűjthetünk belőlük). Random vagy véletlen hatások (random effects): belső tényezők (within-subjects factors), véletlenszerűen kiválasztott személyek/itemek, nem megismételhetőek, mert más személy esetén más random hatás érvényesülhet, és újabb faktorszintek jelennek meg. Eljárás: fix hatások szembeálĺıtása, feltételezés: véletlen hatások varianciája ismeretlen. képlet: függőváltozó függetlenváltozó + randomhatás + ɛ ahol ɛ az error, hiba terminus a nem ellenőrizhető varianciára.

lme4 csomag letöltése: install.packages("lme4") betöltés: library(lme4). modell = lmer(fuggovaltozo fuggetlenvaltozo + (1 randomhatas), data=adatmatrix) Random hatás nélkül nem működik a modell, hiszen a mixed-effects elnevezés a fix és random hatások keverékére vonatkozik.

pol.mod = lmer(frequency attitude+(1 subject)+(1 scenario),pol) Random effects: hatásokon belüli variancia és szórás. Residual: egyik random hatás által sem magyarázott variabilitás. A random hatások és a reziduálisok átlaga 0 (normalizált, azaz centrált adatok). Fixed effects: estimate of intercept: informal (ABC-ben első) kategória f0-átlaga. Polite kategóriáé ennél 19,695 Hertz-cel alacsonyabb meredekség (slope). t-érték: átlag/standard hiba pol.mod = lmer(frequency attitude+gender+(1 subject)+(1 scenario),pol) Estimate of intercept: a nők f0-ja informális stílusban (az ábécében elöl álló kategóriák).

Döntés a hipotézisről Ha szignifikanciahatár p = 0.05, és a hipotézis kétoldalú (nem tudjuk, hogy a különbség pozitív vagy negatív lesz), a p = 0.025 valószínűségi szinthez tartozó t értékre van szükségünk. De: honnan tudjuk a szabadsági fokot? Sehonnan Különböző megoldásokat használnak: (1) Adott szabadsági fokhoz tartozó t-érték magasabb szabadsági fok esetén már alig változik. Megoldás: szabadsági fokot 60-nak (más szerint 100-nak) vesszük, itt t = 2. Tehát 2-nél nagyobb t-érték fölött szignifikánsnak tekintjük a különbséget. (2) Szabadsági fok meghatározása a megfigyelések száma alapján. Kétoldali teszt esetén: 2 (1 pt(abs(t), n 2)) ahol a pt() függvénnyel kiszámoljuk az adott fix hatásra kapott t-értékhez tartozó p-értéket az elemszám fix hatás paraméterszámát.

(3) Modellek összevetése restricted/relativised/residual maximum likelihood (REML) alapján. Fix és random hatásokra egyaránt alkalmazható. Összehasonĺıtás alapja: egyszerűbb modell. Ha a bonyolultabb modell más becsléshez vezet, mint az egyszerűbb, akkor a plusz faktornak van hatása. Példa Winter nyomán: felfutok egy hegyre adott idő alatt. Van nálam két liter víz és egy elemlámpa. Felfutok egy hegyre ezek nélkül, és látom, hogy így gyorsabb vagyok. Tesztelni akarom, hogy a vizesüveg vagy az elemlámpa miatt voltam lassabb. Felálĺıtjuk a modellt úgy, hogy csak a nem szerepel fix hatásként, és összevetjük a nem + stílusra felálĺıtott modellel. Vagyis: lemérem a vízzel és elemlámpával futott időmet, majd eldobom az elemlámpát, és így is felfutok. Ha így lassabb vagyok, a lámpa volt a ludas. (Tegyük fel, hogy nem fáradok.)

pol.null = lmer(frequency gender+(1 subject)+(1 scenario),pol, REML=F) pol.mod = lmer(frequency attitude+gender+(1 subject)+(1 scenario),pol,reml=f) A két modell összehasonĺıtása: anova(pol.null, pol.mod) χ 2 -érték és hozzá tartozó p-érték. Másik irányadó érték: AIC (Akaike s Information Criterion). Ha a két AIC-érték között kettőnél nagyobb a különbség, akkor a modellek szignifikánsan különböznek, vagyis a komplexebb modell jobb becslést ad. Interakció tesztelése: interakció nélküli és interakciós modell összehasonĺıtása: attitude+gender és attitude*gender.

REML-ről alkotott vélemény sajnos nem egységes. Van, akiknél random hatásokhoz REML=T javasolt, fix hatásokhoz REML=F. Van, aki szerint fordítva. Tartsunk kéznél referenciákat. Ebben a példában Winter a fix hatás tesztelésére REML=F beálĺıtást használ. (4) Valószínűségek szimulálása Anova függvénnyel a car csomagból. Anova(pol.null) Kimenet: varianciaanaĺızishez hasonló táblázat (summary(aov)).

Modell együtthatóinak elemzése pol.mod = lmer(frequency attitude+gender+(1 subject)+ (1 scenario),pol,reml=f) coef(pol.mod) vagy ranef(pol.mod)$subject (RANdom EFfects) Metszéspont minden személyre és minden szcenárióra (itemre) különböző, de a meredekségek egyformák, vagyis azt feltételezzük, hogy a stílus hatása minden személyre és minden itemre azonos random intercept model. Pedig feltehetően nem. Helyette: random slope model pol.mod = lmer(frequency attitude+gender+(1+attitude subject) +(1+attitude scenario),pol,reml=f) Azaz: a modell különböző default-értékekből (intercept) és a stílus függvényében különböző válaszadási tendenciákból indul ki mindkét random hatás esetén.

attitudepol értékei mindig negatívak, vagyis udvarias stílusban minden személynél és minden item esetén alacsonyabb az f0. Stílus hatásának szignifikanciája ellenőrizhető a modellek összehasonĺıtásával. Ellenőrizhető az interaction.plot() függvénnyel. Alapvető módszertani probléma: a random intercept modellek antikonzervatívok, vagyis sok esetben mutatnak szignifikáns különbséget ott is, ahol nincsenek!

Adattisztogatás Egyes vélemények szerint a nyilvánvalóan hibás adatpontokat ki lehet zárni az elemzésből, pl. véletlenül rossz gombnyomás, irreálisan hosszú vagy rövid (< 200 ms) reakcióidő (ld. Baayen 2008: 243ff.). Egyénenkénti adatpontok megszemlélése: qqmath( frequency subject,pol Nagyjából lineáris tendencia: normális eloszlás. Szélső értékek: kilógó pontok. Egyes ajánlások szerint az alany vagy az item átlagától legalább 2 vagy 3 szigma távolságra eső pontokat is ki lehet hagyni az elemzésből. Baayen szerint szükségtelen.

Ismétlések hatása Rátanulás vagy fáradás megjelenítése: xyplot(frequency scenario subject,pol) Változik-e az f0 a kísérlet során egyazon kondíción belül? z = pol$attitude=="pol" xyplot(frequency scenario subject,pol[z,])

Gyakorló feladat Alapfrekvencia maximum értéke fókuszban levő szó hangsúlyos szótagán, két mondatban, hét beszélő felolvasásában. f0 maximum on accented syllable f0 (Hz) 150 200 250 300 broad narrow cont

Gyakorló feladat Alapfrekvencia maximum értéke fókuszban levő szó hangsúlyos szótagán, két mondatban, hét beszélő felolvasásában. f0 maximum on accented syllable f0 maximum on accented syllable sentence 1 sentence 2 f0 (Hz) 150 200 250 300 f0 (Hz) 150 200 250 300 broad narrow cont broad narrow cont broad narrow cont Az első mondatban jól látszik a tendencia, a másodikban nem mondat is random hatás, azaz belső tényező.

Fenti példa: focusacc.rdata acc.lmer = lmer(f0max focus + (1 subj) + (1 sent), data=adatmatrix) Függő változó: f0 maximum, fixed effect: fókusztípus, random effect: beszélő és mondat.

Eredmények Fixed effects: t value focuscontrastive -2.422 focusnarrow -1.825 Faktorszintek automatikus sorrendezése alfanumerikusan, tehát sorrend: broad < contrastive < narrow. A kapott t értékek a broad vs. contrastive, broad vs. narrow összehasonĺıtásra vonatkoznak.

Ha contrastive vs. narrow összehasonĺıtásra vagyunk kíváncsiak: focusacc$focus = relevel(focusacc$focus, "contrastive") Ekkor contrastive kerül az első helyre, összehasonĺıtás ehhez képest. focus = factor(focus,levels=c( broad, narrow, contr )) vagy focus = factor(focus, levels = levels(focus)[c(2, 1, 3)])

További feladat az accdur.rdata fájl újraelemzése: találjuk meg a maximálisan szükséges komplexitású kevert modellt a random intercept és a random slope modell alkalmazása esetén. Milyen különbségeket találunk?