Variancia-analízis (folytatás) 7. elıadás (13-14. lecke) Egytényezıs VA blokk-képzés nélkül és blokk-képzéssel 13. lecke Egytényezıs variancia-analízis blokkképzés nélkül Az átlagok páronkénti összehasonlítása(1)
Egytényezıs VA blokk-képzés nélkül (Excelben keresd: Adatelemzés: Egytényezıs variancia analízis k sokaságot (csoportot, kezelést stb.) kívánunk összehasonlítani Az egyes sokasági (ismeretlen) átlagok és szórások: változat A 1 A 2 A 3 A k várh.érték µ 1 µ 2 µ 3 µ k szórás σ 1 σ 2 σ 3 σ k A null-hipotézis: a sokasági átlagok azonosak, azaz H 0 : µ 1 = µ 2 = µ 3 = = µ k
Egytényezıs VA blokk-képzés nélkül (folyt.) A null-hipotézis ellenırzéséhez minden csoportból mintákat veszünk, A 1 -bıl r 1 -et, A 2 - bıl r 2 -ıt, és í.t. (a mintanagyságok lehetnek különbözık is) Az A i csoport j.-edik mintáját (ismétlését) jelölje y ij, e csoport mintaátlaga y i., mintabeli szórása s i (séma a következı dián) Elsı lépésben Bartlett-próbával ellenırízzük aσ szórások egyezését (az s szórások hibahatáron belüli egyezését)
Egytényezıs VA adat-sémája blokk-képzés nélkül változat (A i ) A 1 A 2 A 3 A k adatok y 11 y 21 y 31 y k1 y 12 y 22 y 32 y k2 y 13 y 23 y 33 y k3. :: :: :: ::: ::.. y.. 2(r2)..... y 1(r1).......... y 3(r3) y k(rk) ------------------------------------------------------ y átlag 1. 2. 3. k. szórás s1 s2 s3 sk y y y
Fiktív számpélda (k=3, r 1 = r 2 = 4, r 3 =3) csoport A 1 A 2 A 3 adatok 94 86 97 114 81 132 90 88 125 70 55 ------------------------------------------------------ átlag 92,0 77,5 118,0 szórás 18,0 15,3 18,5 A Bartlett-próba szerint a szórások nem különböznek, a közelítıleg normális eloszlás is teljesül, a VA elvégezhetı
A fiktív példa elemzése az Excellel Etessük meg a fenti adatokat az Excel Egytényezıs variancia analízis programjával, az alapszámításokon kívül megkapjuk az alábbi VA táblázatot VARIANCIAANALÍZIS Tényezık SS df MS F P-érték F krit. Csoportok között 2832,6 2 1416,3 4,79 0,043 4,46 Csoportokon belül 2363,0 8 295,4 --- --- --- Összesen 5195,6 10 --- --- --- --- Mit jelentenek a táblázat adatai, arra azonnal kitérünk Elızetesen megjegyezzük, hogy a legfontosabb információ a P-érték, amely itt 0,043 = 4,3% < 5%, a három csoport közt szignifikáns eltérés van (H 0 -t elutasítjuk)
Egytényezıs VA blokk-képzés nélkül: elméleti háttér A mintaelemekre feltételezett additív modell a mintavétel elıtt: Y ij = µ i + ε ij, a mintavétel után: y ij = m i + e ij Itt az ε ij komponensek 0-átlagú független normális eloszlású véletlen változók, m i pedig µ i becslése. Az e ij eltérések négyzetösszegének minimális értékét keresve (ez a legkisebb négyzetek módszere) m i -re az y i. átlagot kapjuk becslésként, az e ij eltérés (hiba) pedig y ij y i. Eszerint a mintaelemek felbontása y ij = y i. + (y ij yi. ) Ugyanígy bomlik komponensekre az adatok négyzetes eltérése (SS összes ) valamint ennek szabadságfoka (df összes )
Egytényezıs VA blokk-képzés nélkül: elméleti háttér (folyt.) Legyen n = r i, az összes adatszám. A felbontások valamint az MS értékek (mean square) és az F érték: adatok y ij = y i. + (y ij y i. ) SS SS összes = SS csop.között + SS csop.belül df n 1 = k 1 + n k MS(variancia) MS cs.k =SS cs.k /(k-1) MS cs.b =SS cs.b /(n-k) F-statisztika F = MS cs.k /MS cs.b
Egytényezıs VA blokk-képzés nélkül: elméleti háttér (folyt.) Feltéve, hogy az s szórások elfogadhatóan azonosak (Bartlett-próba) és a normalitással sincs komoly gond, a H 0 hipotézis igaz volta estén az F statisztika (a mintavétel elıtt) F-eloszlású v.változó, szabadságfokai k-1 és n-k A számított F értékhez táblázatból vagy az Excellel kikereshetjük a szignifikancia fokát (P), az egytényezıs VA Excel program ezt automatikusan adja (ld. a korábbi fiktív példát)
A felbontások és számítások szemléltetése A korábbi fiktív számpéldában az adatokat bontsuk fel komponenseikre y ij = y i. + (y ij i. ) y 94 86 97 114 81 132 90 88 125 70 55 Nincs adat 92 77,5 118 = 92 77,5 118 + 92 77,5 118 92 77,5 Nincs adat 2,0 8,5-21 22,0 3,5 14-2,0 10,5 7-22,0-22,5 Nincs adat SS 5195,6 = 2832,6 + 2363 df 10 = 2 + 8 MS 1416,3 295,4 F 4,79 P 0,043=4,3%
Az átlagok páronkénti összehasonlítása Ha az F-próba nem jelez szignifikáns eltéréseket a csoport-átlagok között, akkor további összehasonlításokra nincs szükség Ha viszont F szignifikanciát jelez, akkor érdekelhet bennünket, mely csoportok között van eltérés, ezt így vizsgálhatjuk: - ha a mintaszámok nem azonosak, páronként t-próbát alkalmazunk, de a nevezıbe az összevont szórást tesszük, például, ha az A1 csoportot kívánjuk összehasonlítani az A2 csoporttal, akkor a t- próba y 2 y1 t = ( y 2 y 1 ) / {s (1/r 1 + 1/r 2 )}, azaz 1 1 ahol s 2 = MS cs.b a csoportokon belüli ingadozás (hiba) varianciája, a t-statisztika szabadságfoka n-k s r1 + r2
KÖSZÖNÖM TÜRELMÜKET
14. lecke Az átlagok páronkénti összehasonlítása(2) SzD érték, többszörös összehasonlítás Blokkokba foglalt ismétlések esete (1)
Az átlagok páronkénti összehasonlítása (folyt.: az SzD éték) ha az ismétlésszámok azonosak (mondjuk mindegyik r), akkor a sok páronkénti összehasonlítás egyszerősíthetı a Szignifikáns Differencia (SzD) felhasználásával (angol szakirodalomban LSD, Least Significant Difference). Számítása: SzD 5% = t krit (2s 2 /r) ahol s 2 = MS cs.b, t krit pedig az n-k szabadságfokhoz tartozó 5%-os hibaszintő kétoldali t érték (kiolvasható táblázatból vagy az Excel-bıl az inverz t funkció alatt). Megjegyzés: e képlet a fenti t képletbıl adódik, ha abban r 1 és r 2 helyére r-et írunk és rendezzük a két átlag különbségére Alkalmazása: bármely két sokasági átlagot 5%-os hibaszinten szignifikánsan eltérınek tekintünk, ha a mintaátlagaik eltérése meghaladja az SzD 5% értéket
Az átlagok páronkénti összehasonlítása (folyt.: többszörös összehasonlítások ) Elıfordulhat, hogy az SzD-vel végzett összehasonlítás különösen a két szélsı átlag eltérésére szignifikanciát jelez, holott a VA F-próbája nem jelez szignifikáns eltérést az átlagok között. Ebben az SzD-koncepció hibáztatható E hiba kiküszöbölésére többféle eljárást dolgoztak ki, összefoglaló néven ezek a többszörös összehasonlítások Lényegük: az átlagokat nagyságrendi sorrendbe rakjuk és a páronkénti összehasonlításoknál más-más SzD értékkel számolunk aszerint, hogy a két összehasonlítandó átlag a sorrendezésben közvetlen szomszédok, második szomszédok és így tovább Az eljárást nem részletezzük, szoftverekben kereshetjük pl. a Duncanpróbát, a Tukey-próbát vagy egyéb többszörörös összehasonlító próbát (az Excelben egyelıre nincs ilyen)
Fiktív illusztráció az SzD és a Duncan-próba összehasonlítására k=4 csoportot hasonlítunk össze csoportonként r=5 az ismétlésszám, n=20, a hiba MS=35,96, szabadságfoka 20-4=16, itt t krit =2,12, végül SzD 5% =8,04 A csoport-átlagok növekvı sorrendben: Duncan-teszt A1 12,5 a Az SzD 5% érték szerint A1 és A3 eltérése A2 18,5 a szignifikáns (20,8 12,5 = 8,3>8,04), viszont A3 20,8 a b a Duncan teszt szerint nem szignifikáns (ezt A4 27,5 b jelzi a mindkét csoportnál szereplı a bető) SzD 5% 8,04 (A Duncan-próbánál két átlag eltérése akkor szignifikáns, ha mellettük nincs azonos betőjel)
Megjegyzések Ha a szórások egyenlısége nem igazolt, akkor két eset lehetséges 1. Semmiféle kapcsolat nem észlelhetı az átlagok és a szórások között ilyenkor a Kruskal-Wallis rangpróbát alkalmazhatjuk (ld. késıbb) 2. Az átlagok és szórások között határozott s( y ) kapcsolattendenciát látunk, ekkor az adatok fentebb ismertetett transzformációja után alkalmazzuk a V.Analízist Kétmintás t-próba (egyenlı szórások esetén) számítható az Egytényezıs VA programmal is, az F érték a t érték négyzete lesz, de a P szignifikancia érték nem változik
Egytényezıs VA blokk-képzéssel (Excelben megoldható: Adatelemzés: Kéttényezıs variancia analízis ismétlések nélkül c. menüpont) A csoportok mindegyikében ugyanannyi a mintaszám (ismétlés), mondjuk r Az azonos sorszámú ismétlések valamilyen szempontból összetartoznak, egy blokkot alkotnak (pl. azonos helyhez vagy évhez vagy korosztályhoz stb. tartoznak) A cél most is az A i csoportok közötti eltérések tesztelése, de most bezavarhatnak a blokk-hatások, ezeket ki kell szőrnünk
Egytényezıs VA adat-sémája blokk-képzéssel változat (A i ) A 1 A 2 A 3 A k átlag 1.blokk y 11 y 21 y 31 y k1 y. 1 2.blokk y 12 y 22 y 32 y k2 y. 2 ----------------... r.-edik blokk y 1r y 2r y 3r y kr y. r y y átlag 1. 2. 3. r... y y y
Egytényezıs VA blokk-képzéssel (fiktív számpélda, k=3, r=4) csoport A 1 A 2 A 3 átlag 1.blokk 93 86 97 92,0 2.blokk 110 102 112 108,0 3.blokk 81 75 87 81,0 4.blokk 70 55 64 63,0 ----------------------------------------------------------------------- Átlag 88,5 79,5 90,0 86,0 Elemezzük a felírt adat-táblázatot a blokk-képzés figyelembe vétele nélkül és úgy is, hogy a blokkhatást kiszőrjük
A fiktív példa Variancia Analízise (vegyük észre, hogy az 1. VA nem mutatja ki a szignifikanciát a csoportok között, míg a 2. VA igen) 1. a blokk-képzés figyelmen kívül hagyásával Tényezık SS df MS F P-érték F krit. Csoportok között 258 2 129 0,355 0,71 4,26 Csoportokon belül 3268 9 363 --- --- --- Összesen 3526 11 --- --- --- --- 2. a blokk-hatások figyelembe vételével Tényezık SS df MS F P-érték F krit. Csoportok között 258 2 129 16, 83 0,0035 4,76 Blokkok(ism)között 3222 3 --- --- --- --- Hiba (maradék) 46 6 7,67 --- --- --- Összesen 3526 11 --- --- --- ---
Egytényezıs VA blokk-képzéssel: elméleti háttér A mintaelemekre feltételezett additív modell y ij = m i + R j + e ij, itt m i a csoport-átlag, R j az erre rakódó blokkhatás, e ij pedig az eltérés- (hiba) tag: m i = y i., R j = y. j y.. és így e ij = y ij y i. y.j + y.. Eszerint a mintaelemek algebrai felbontása y ij = y i. + ( y. j y..) + (y ij y i. y.j + y..) Ugyanígy bomlik komponensekre az adatok négyzetes eltérése (SS összes ) valamint ennek szabadságfoka (df összes = n 1)
A felbontások és számítások szemléltetése Az elıbbi fiktív számpéldában az adatokat bontsuk fel komponenseikre y ij = m i + R j + e ij, 93 86 97 110 102 112 88,5 79,5 90 6 6 6 = + + 88,5 79,5 90 22 22 22-1,5 0,5 1-0,5 0,5 0 81 75 87 88,5 79,5 90-5 -5-5 -2,5 0,5 2 70 55 64 88,5 79,5 90-23 -23-23 4,5-1,5-3 SS 3526 = 258 + 3222 + 46 df 11 = 2 + 3 + 6 MS 129 F 16,8 P 0,0035
KÖSZÖNÖM TÜRELMÜKET