Variancia-analízis (VA) 5. elıadás (9-10. lecke) VA lényege, alkalmazásának feltételei, adat-transzformációk 9. lecke Variancia-analízis lényege Szórások egyezésének ellenırzése
A Variancia-Analízis (VA) lényege A VA durván szólva sokasági átlagok összehasonlítására szolgáló módszer minták alapján. Olyan összefüggés-vizsgálatról van szó, ahol a ható ismérv(ek) kvalitatívak, az eredmény-változó(k) kvantitatívak Például: különbözı kezelések (eljárások) hatását vizsgáljuk, vagy csoportok (osztályok) eltérését kutatjuk valamely kvantitatív jelzı mentén
A VA alkalmazásának feltételei Az összehasonlítandó csoportok (sokaságok) normális (vagy közel normális) eloszlásúak legyenek Az összehasonlítandó csoportok (sokaságok) azonos szórásúak legyenek A normalitás és a szórás-egyenlıség ellenırzésére statisztikai módszerek állnak rendelkezésre
Megjegyzés Az itt ismertetett módszerek többségének alkalmazása rutinszerően kivitelezhetı már az EXCEL programmal is anélkül, hogy az elméleti hátteret ismerné az alkalmazó A háttér ismerete nélkül azonban a program mint borjú az anyjának -szerő alkalmazásával súlyos hibákat követhetünk el Tanács: hosszas megfontolás, kevés számítás!
A VA alkalmazásának feltételei (folyt.) Normalitás vizsgálat A csoportok normális eloszlása nem túl lényeges a VA alkalmazásánál, a módszer eléggé érzéketlen, ellenállóképes (robusztus) az eloszlásra Mégis, alkalmazása elıtt kívánatos ellenırízni (pl. az adatokra ránézéssel vagy hisztogrammal) azt, hogy az eloszlás nem túlságosan aszimmetrikus (ferde)-e. Kiugró adatok zavarják a VA megbízhatóságát A normalitás grafikus gyakorlati megítélésére szolgál az u.n. Gausspapír, számításos tesztelésére alkalmas a Kolmogorov-Szmirnovpróba, a Geary-próba, és még néhány más próba, ezek szoftvereken elérhetık
A VA alkalmazásának feltételei (folyt.) Szórás-egyenlıség (homoszcedaszticitás) vizsgálata Az összehasonlítandó csoportok sokasági szórásainak egyezése már nem elnagyolható követelmény a VA alkalmazásánál. Két (független) minta-átlag összehasonlításakor ( t-próba, ld. késıbb) elızetesen a két minta szórásának hibahatáron belüli megegyezését kell tesztelni Több (független) minta-átlag összehasonlításakor elızetesen a minták szórásainak hibahatáron belüli megegyezését kell tesztelni A statisztikai eljárásokat alább vázoljuk
Szórás-egyenlıség vizsgálata (folyt) Két (független) szórás összehasonlítása (Excelben keresd: Adatelemzés: Kétmintás F-próba a szórásnégyzetre ) Legyen σ 1 ill.σ 2 két alapsokaság (nem ismert) szórása és az ezekbıl vett n 1 ill. n 2 elemő minta szórása s 1 ill. s 2 Kérdés: σ 1 = σ 2? (ez a H o hipotézis) avagy σ 1 σ 2? (ez a H 1 ellenhipotézis)
Két (független) szórás összehasonlítása (folytatás) A statisztikai próba: képezzük a nagyobbik mintabeli szórásnégyzet arányát a kisebbikhez, legyen pl. s 1 a nagyobb Az F = s 12 /s 22 hányados F-eloszlású df 1 =n 1-1 ill. df 2 =n 2-1 szabadságfokokkal Megkeressük a számított F értékhez tartozó P = P(F) valószínőséget (ld. Excel, F-eloszlás fx alatt), ezt megduplázzuk (hiszen P még csak a σ 1 > σ 2 egyoldali ellenhipotézis szignifikanciájára utal), elfogadjuk a két szórás egyezését, ha 2P>5%
Szórás-egyenlıség vizsgálata (folyt) Példa-vázlat két független szórás összehasonlítására Legyen az egyik minta elemszáma n 1 = 170, szórása s 1 = 4,3 a másik minta elemszáma n 2 = 72, szórása s 2 = 3,4 s 1 a nagyobb, így F = 4,3 2 /3,4 2 = 1,60 Az EXCEL F-eloszlás függvénye (fx) alatt megkeressük az F=1,60-hoz tartozó P értéket a 169 és 71 szabadságfok párnál, az eredmény: P =0,0126 2P = 0,0252 = 2,52% < 5%, a két szórást 5%-os hibaszinten eltérınek minısítjük Megjegyzés: P értéke EXCEL nélkül az F-táblázatból is behatárolható
Szórás-egyenlıség vizsgálata (folyt) Több (független) szórás összehasonlítása Bartlett-próbával Legyen k az alapsokaságok száma, (nem ismert) szórásaik σ 1,σ 2,,σ k, és az ezekbıl vett n 1,, n 2,, n k, elemő minták szórásai s 1,s 2,, s k Kérdés: σ 1 = σ 2 =.= σ k? (ez a H o hipotézis) avagy vannak a szórások között eltérıek is? (ez a H 1 ellenhipotézis) A statisztikai próba: jelölje a minta-variancák szabadságfokait df 1, df 2,,df k (df i = n i 1), továbbá legyen f a szabadságfokok összege és s 2 = (1/f) df i s i2, az átlagos variancia és c = 1 + { 1/df i - 1/f} / {3(k-1)}, korrekciós osztó
Szórás-egyenlıség vizsgálata (folyt) Több (független) szórás összehasonlítása Bartlett-próbával Az elıbb értelmezett mennyiségekkel elsı lépésben képezzük az alábbi khí-négyzet statisztikát (itt ln természetes alapú logaritmust jelent): χ 2 = (1/c) {f *ln(s 2 ) - df i *ln(s i2 )} amely a mintavétel elıtt közelítıleg k-1 szabadságfokú khí-négyzet eloszlású v.változó A mintákból számolt χ 2 értéket összehasonlítjuk a táblázatbeli kritikus értékkel vagy az EXCEL segítségével megkeressük a P értéket (ha ez 5%-nál nagyobb, elfogadjuk a szórások egyenlıségének hipotézisét)
KÖSZÖNÖM TÜRELMÜKET
10. lecke A Bartlett-próba (számpélda) Szórás-kiegyenlítı adat-transzformációk
Szórás-egyenlıség vizsgálata (folyt) Példa-vázlat a Bartlett-próba alkalmazására k = 7 csoport mintaméretei (n) és szórásnégyzetei (s 2 ) az alábbiak: (n i ): 14 16 19 12 17 21 12 (s i2 ): 8,11 9,65 20,51 9,46 2,72 6,13 15,00 innen (df i ): 13 15 18 11 16 20 11 összegük f = 104 A számítások a megadott formulák alapján az EXCEL-lel könnyen elvégezhetık, itt csak néhány részeredményt és a végsı x 2 értéket adjuk meg:
Példa-vázlat a Bartlett-próba alkalmazására (folyt.) s 2 = (13*8,11+15*9,65 + +11*15,0)/104 = 10,15; f ln(s 2 ) = 104 ln(10,15) = = 241,02 df i ln(s i2 ) = 13*ln(8,11) + + 11*ln(15,00) = 222,37 1/df i = 1/13 + 1/15 + + 1/11 = 0,4935 ; 1/f = 1/104 = 0,0096 c = 1 + (0,4935 0,0096)/(3*(7-1)) = 1,0269 Végül χ 2 = (241,02 222,37)/1,0296 = 18,1, szabadságfoka k-1=6 A kapott χ 2 hez tartozó P = 0,0060 = 0,6% (pl. EXCEL pr., fx alatt); mivel P értéke 1% alá esik, a 7 szórás még 1%-os hibaszinten sem tekinthetı azonosnak (H 0 -t elutasítjuk)
Szórás-kiegyenlítı transzformációk Bizonyos esetekben mód van arra, hogy az adatok alkalmas transzformációjával kiegyenlítsük az eredeti adatokban eltérı szórásokat Ehhez elsı lépésben ábrázoljuk a csoportok (átlag; szórás) pontjait Ha a pontdiagram semmiféle tendenciát nem mutat (mint az ábrán), akkor a szórás-kiegyenlítést ne erıltessük, ilyenkor az ide illı VA eloszlásmentes megfelelıjét alkalmazhatjuk (ld. késıbb)
y Az átlag ( y) és a szórás (s) között nincs határozott tendencia szórás (s) 1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0 0 5 10 15 20 25 csoport-átlag
Szórás-kiegyenlítı transzformációk(folyt.) Amennyiben az (átlag; szórás) pontdiagram határozott vonulatot (tendenciát) mutat, mint a következı dián, akkor a tendencia függvényszerő behatárolásával a megfelelı szórás-kiegyenlítı transzformáció megtalálható Jelölje s( y) a tendenciát, a szórás-kiegyenlítı transzformációt s(y) reciprokának integrálja adja: y* = dy/s(y), röviden: 1/s(y) Alább kiemeljük a leggyakoribb eseteket
Az átlag és a szórás között határozott s( y) tendencia látszik, ilyenkor a szórás-stabilizáló transzformáció: y*= 1/s(y) y s= s( ) határozott tendencia 3 2,5 szórás (s) 2 1,5 1 0,5 0 0 5 10 15 20 25 30 átlag ( y )
Szórás-kiegyenlítı transzformációk (folyt.) Speciális esetek (1) Ha a mintabeli szórások tendenciában arányosak a mintabeli átlagokkal vagyis a csoportonkénti variációs koefficiensek hibahatáron belül azonosak (ld. ábrák a következı dián), akkor a megfelelı szórás-kiegyenlítı transzformáció a logaritmus transzformáció, azaz az adatok logaritmusaival kell dolgoznunk (a logaritmus alapja tetszıleges alapú lehet) Indoklás: ha s c yazaz CV% 100s/ y állandó, akkor y* = 1/cy = (1/c)log y, az 1/c konstans szorzó elhagyható y Megjegyzés: az Exponenciális eloszlásra emlékezve, ott σ=µ, tehát s
A szórás tendenciában arányos az átlaggal, azaz a relatív szórás (CV) nagyjából stabil. Ilyenkor log-transzformációval érjük el a varianciák kiegyenlítését szórás (s) 6 5 4 3 2 1 0 A szórás arányos az átlaggal 0 5 10 15 20 25 30 y átlag ( ) 25 20 15 10 5 0 C V % A CV = s/ y relatív szórás elfogadhatóan stabil 0 5 10 15 20 25 30 átlag ( y) y
Szórás-kiegyenlítı transzformációk (folyt.) Speciális esetek (2) Ha a mintabeli varianciák tendenciában arányosak a mintabeli átlagokkal (ld. a következı diát), akkor a megfelelı szóráskiegyenlítı transzformáció a négyzetgyök transzformáció, azaz az adatok négyzetgyökeivel kell dolgoznunk Indoklás: ha s 2 c y azaz s (c y) akkor y* = 1/ (cy) = (2/ c) y, a 2/ c konstans szorzó elhagyható Megjegyzés: a Poisson eloszlásra emlékezve, ott σ 2 µ,azaz s 1 y
A szórásnégyzet tendenciában arányos az átlaggal: ekkor a négyzetgyök transzformáció stabilizálja a szórásokat A szórásnégyzet arányos az átlaggal varian cia 6 5 4 3 2 1 0 0 5 10 15 20 25 30 átlag ( y )
KÖSZÖNÖM TÜRELMÜKET