1. Feladat Egy póker kártya keverő gép a kártyákat random módon választja ki. A vizsgálatban 1600 választott kártya színei az alábbi gyakorisággal fordultak elő. Vizsgáljuk meg, hogy a kártyák kiválasztása véletlenszerűnek tekinthető-e? 1. Feladat Egy póker kártya keverő gép a kártyákat random módon választja ki. A vizsgálatban 1600 választott kártya színei az alábbi gyakorisággal fordultak elő. Vizsgáljuk meg, hogy a kártyák kiválasztása véletlenszerűnek tekinthető-e? 2. Feladat Treff 404 Kőr 420 Káró 400 Pikk 376 Treff 404 Kőr 420 Káró 400 Pikk 376 2. Feladat Egy Bürker kamrában az egy négyzetbe eső sejtek száma átlagosan 4.68. Milyen valószínűséggel talánk olyan cellát, amelben egy sejt sincs? Egy Bürker kamrában az egy négyzetbe eső sejtek száma átlagosan 4.68. Milyen valószínűséggel talánk olyan cellát, amelben egy sejt sincs? 0.00928 Varianciaanalízis ANOVA: ANalysis Of VAriance Neve félrevezető: nem varianciák, hanem átlagok összevetésére dolgozták ki Lényegében a kétmintás t-próba kiterjesztése kettőnél több alapsokaság ismeretlen várható értékének az összehasonlítására. Mit vizsgálunk az ANOVA-val: egy folytonos változónak vajon eltérőek-e a várható értékei egy nominális változó különböző kategóriáiban, avagy több nominális változó kategóriáiból képezhető kategória-kombinációkban. B faktor B csop 1 B csop 2 B csop 3 A csop 1 A faktor A1B1 A1B2 A1B3 A csop 2 A2B1 A2B2 A2B3 Folytonos változó: függő változó Nominális változó(k): magyarázó változók Faktor (tényező), a kategóriák csoportok. 1
A faktorok számától függően beszélhetünk egyfaktoros (egytényezős, egy szempontos, egy utas, one-way ANOVA) többfaktoros (többtényezős, több szempontos, több utas, multi-way ANOVA) varianciaelemzésről. A csoportokban levő mintavételi objektumok száma ha azonos minden csoportban kiegyensúlyozott (balanced) elrendezésű ANOVA eltérő a csoportokban kiegyensúlyozatlan (unbalanced) elrendezésű ANOVA A varianciaanalízis munkamenete: megvizsgáljuk, hogy van-e hatása a faktoroknak (F-próba) ellenőrizzük, hogy az adatainkra illesztett ANOVA modell teljesíti-e az alkalmazhatósági feltételeket ha a modellünk megfelel a feltételeknek, akkor ún. post-hoc teszteket alkalmazva megvizsgáljuk azt, hogy mely csoportok átlagai különböznek egymástól. Egyfaktoros ANOVA kiegyensúlyozott elrendezéssel A módszer alapgondolata: A függő változó teljes varianciája additív módon felbontható két részre: csoportok közötti varianciára (between group variance) - a csoportátlagoknak az összevont Y adatok átlaga (ún. főátlag) körüli variációja; a magyarázó változó hatását foglalja magába csoporton belüli varianciára (within group variance) - az egyedi yi megfigyeléseknek az adott csoportjuk átlaga körüli ingadozásából eredő variáció; a véletlen eseti hibát foglalja magába. ycl Ha a faktornak van hatása Y-ra: a csoportok közötti variancia rész nagyobb, mint a csoporton belüli variancia. Ha nincs hatása Y-ra: a csoportok közötti variancia megegyezik a csoporton belüli varianciával ez azt jelenti, hogy Y értékét nem befolyásolja az, hogy egy megfigyelés a faktor melyik csoportjába tartozik, az Y értékei között tapasztalt különbségek a véletlen ingadozásnak tudhatók be. Az egyes varianciafrakciók számszerűsítése eltérés-négyzetösszegekkel történik A teljes eltérés-négyzetösszeg (SS total ) a csoportok közötti (SS between ) és csoporton belüli (SS within ) eltérés-négyzetöszeg összege: 2
A függő változó teljes varianciája: A csoportok közötti variancia: A csoporton belüli variancia: A faktor hatásának szignifikanciatesztje Tesztstatisztika: A csoportok közötti és a csoporton belüli eltérésnégyzetösszeget osztva a szabadsági fokaikkal: közepes eltérés-négyzetösszegeket (Mean of Sum of squares). A csoportok közötti és a csoporton belüli közepes eltérés-négyzetösszeg hányadosa az F próbastatisztika (ld. a köv. dián!) H0: a csoportok alapsokaságbeli átlagai azonosak: µ 1 = µ 2 = = µ k H1: van legalább két olyan csoport, melyeknek különbözik az alapsokaságbeli átlaga. (egyoldali hipotézis!) A variancia-felbontás és az F-próba eredménye - ANOVA-táblázat Variancia forrása Csoportok közötti (between groups) Szabadsági fok (df) Eltérésnégyzeösszeg SS (Sum of Squares) közepes eltérésnégyzetösszeg MS (Mean Sum of Squares) k-1 SS between MS between = SS between /k-1 Csoporton k(m-1) SS within MS within = belüli SS within /k(m-1) (within groups) Teljes (total) k m-1 SS total MS total =SS total /k m-1 Próbastatisztika (F-value) F= MS betwen /MS within p-érték p Alkalmazhatósági feltételek: függetlenség: a mintavételi objektumok függetlenek egymástól normalitás: a csoportokon belül a függő változó normál eloszlású homogenitás: a csoportokban a függő változó szórása azonos, vagyis nincs összefüggés Y csoportbeli szórása és a csoport várható értéke között Egyszempontos A varianciaanalízis típusai 2 átlag egyenlőségének vizsgálata összetartozó minták segítségével (egymintás t-próba) - ez még nem VA 2 átlag és variancia egyenlőségének vizsgálata független minták segítségével (kétmintás t-próba /F-próba, t-próba, d- próba/) A. több független minta átlagának és varianciájának összehasonlítása (egyszempontos VA) B. több összetartozó minta átlagának összehasonlítása ( egyszempontos összetartozó mintás VA) 1.. 2.. 3.. Csoport (1 2) 1 1. Csoport (1 2 3) 1 3. DÉLBEN 1... 2... 3... Egyszempontos VA Többszempontos C. 2 szempont szerint független 2-2 minta átlagának összehasonlítása (kétszempontos független mintás VA) D. 2 szempont szerint (1 szempont szerint független, a másik szempont szerint összetartozó) 2-2 minta átlagának összehasonlítása ( vegyes kétszempontos VA) 1. Csoport (1 2) 2. Csoport (1 2) 1 1 1. 2 1 2. 3 Csoport (1 2) 1 1.... 3
A. Egyszempontos VA Csoport (1 2 3) 1 3. Függ-e a kvantitatív változó nagysága a csoportosító változótól? (H 0 : nem függ, az átlagok egyenlők) hatásvariancia (Var k ): a minták közötti variancia (ez a csoportosító változó hatása) hibavariancia (Var b ): a mintákon belüli variancia Q x =Q k +Q b Vizsgálat F-próbával: A függés szorossága: nemlineáris determinációs együttható (e 2, η 2 ), ill. nemlineáris korrelációs együttható (korrelációs hányados: e, η) Figyelem: η XG η GX! (ha a kapcsolat nem szimmetrikus, lineáris) Szóráshomogenitás mérése: Levine-, O Brien-próba B. Egyszempontos összetartozó mintás DÉLBEN VA 1... 2... 3... Függ-e a kvantitatív változó nagysága a mérés időpontjától, a kezeléstől? (H 0 : nem függ, az átlagok egyenlők) hatásvariancia vagy kezelési hatás (Var k ): minták közötti variancia (ez az ismételt méréses szempont hatása) személyvariancia (Var p ): személyek közötti variancia (ez az ismételt méréses szempont hatása) hibavariancia (Var e ): az általunk nem kontrollált tényezők okozta variancia Q x =Q k +Q p +Q e, vizsgálat F-próbával: (a személyvarianciát (Var p ) csak ki akarjuk szűrni) Szfericitás vagy cirkularitási feltétel (a különbségváltozók szóráshomogenitása) mérése: Levine-, O Brien-próba A szívfrekvencia (Hz) változása háromféle antiaritmiás szer hatására Nullhipotézis (nullhipotézis egyenlő átlagokra): nincs különbség a három drog hatása között, az átlagokban tapasztalt eltérés véletlen hatások következménye; a három minta azonos populációból származik Alternatív hipotézis (nem minden átlag egyforma): a drogok között van legalább egy olyan (pl. a harmadik), amely hatásában különbözik a többitől, hatására a szívfrekvencia szignifikánsan csökken: 4
Variancia táblázat F-teszt (Snedecor-féle F-eloszlás ) Tegyük fel, hogy két populációt vizsgálunk, amelyeknek nem ismerjük az átlagát és szórását, viszont tudjuk, hogy a változók követik a normális eloszlást. [ ] = s 2 1 (n) s 2 2 (m) F n,m n és m jelenti a két minta szabadsági fokát F-eloszlás két eltérő szabadsági foknál. - Az F-eloszlás aszimmetrikus eloszlás, ferdesége a szabadsági fokok számától függ. - Ha a minták elemszáma nagy, az eloszlás közelíti a normális eloszlást. - Az F-eloszlás értékei különböző szabadsági fokokra megtalálhatók egy táblázatban. A varianciák egyenlőségére vonatkozó nullhipotézist elutasítjuk, ha a következő egyenlőtlenség teljesül: F [ m,n] P =0,05 P (elméleti adat) F =0,05 m,n (kísérleti adat) [ ] Ellenkező esetben a nullhipotézist fenntartjuk, a szórások (varianciák) egyenlőségére vonatkozó feltétel ebben az esetben teljesül, tehát pl. a t-próba alkalmazható. 5