Variancia-analízis (folytatás) 6. elıadás (11-12. lecke) Szórás-stabilizáló transzformációk (folyt.), t-próbák 11. lecke További variancia-stabilizáló transzformációk Egy-mintás t-próba
Szórás-kiegyenlítı transzformációk (folyt.) Speciális esetek (3) Ha a mintabeli szórások tendenciában arányosak a mintabeli átlagok négyzetével (s c y 2 azaz s/ y c y, a relatív szórás (CV) arányos az átlaggal (ld. a következı diát), akkor a megfelelı szórás-kiegyenlítı transzformáció a reciprok transzformáció, vagyis az adatok reciprokaival célszerő dolgozni Indoklás: ha s c y 2, akkor y* = 1/(cy 2 ) = (-1/c)1/y, a -1/c konstans szorzó elhagyható
Ha a relatív szórás (CV) tendenciában arányos az átlaggal,akkor a reciprok-transzformáció (y* = 1/y) stabilizálja a szórást A CV% tendenciában arányos az átlaggal CV % 60 50 40 30 20 10 0 0 5 10 15 20 25 30 y átlag ( )
Szórás-kiegyenlítı transzformációk (folyt.) Speciális esetek (4) Ha az y adatok relatív gyakoriságokat jelentenek (y=f i /n, mindegyiknél azonos n-nel), akkor a megfelelı szóráskiegyenlítı transzformáció az u.n. arkusz-szinusz transzformáció: y* = arcsin y Indoklás: a relatív gyakoriság szórása arányos {y(1-y)}- nal, és 1/ {y(1-y)} = 2arcsin y, a 2-es szorzó elhagyható
t-próbák (Student-próbák) - A t-próbák speciális variancia-analízisnek tekinthetık - Foglalkozunk egymintás t-próbával, amikoris egyetlen adatsor átlagát hasonlítjuk össze a feltételezett sokasági átlaggal - Foglalkozunk kétmintás t-próbával, ekkor két sokasági átlagot hasonlítunk össze minták alapján itt kitérünk párosított adatok eltérésének elemzésére valamint nem párosított adatok elemzésére, utóbbinál az egyenlı szórások és az eltérı szórások esetére is (az EXCELben mindhárom megtalálható) - A t-próbákban a t-statisztika mindig egy hányados, melynek számlálója a tesztelni kívánt mintabeli eltérés, nevezıje pedig ezen eltérés hibája (szórása)
Részletek az Excel menüsorokból Eszközök/Adatelemzés fx
Egymintás t-próba (A próba elvégezhetı az Excelben a kétmintás párosított t-próba alatt ügyeskedéssel (ld.késıbb)) Vizsgáljuk egy alapsokaság valamely mérhetı Y ismérvét, amelyrıl feltételezzük (elvárjuk), hogy sokasági átlaga adott a 0 érték, tehát a null-hipotézis, H 0 : µ = a 0 n-elemő mintát veszünk, képezzük a minta átlagát ( ) és szórását (s) Képezzük az alábbi t-statisztikát: t = ( y-a 0 )/s azaz t = (n)*( y y -a 0 )/s, az elıjelét nem vesszük figyelembe (vegyük észre, hogy t képletében az osztó (s y) a számlálónak, ( y-a 0 )-nak a szórása) y
Egymintás t-próba (folyt.) Feltéve, hogy az alapsokaság (közel) normális eloszlású, a t statisztika a mintavétel elıtt n-1 szabadságfokú t-eloszlást követ, ha H 0 igaz Táblázatból leolvashatjuk t kritikus értékét vagy az EXCELlel közvetlenül P értékét, a szignifikanciát megítélhetjük Megjegyzés: ha a sokasági szórás (σ) ismert, akkor t számításánál s helyére σ kerül, a szabadságfok, ilyenkor u próbáról (újabban z próbáról) beszélünk, t átmegy standard normális eloszlásba
Példa-vázlat egymintás t-próbára Egy sokaságban a hatóságilag megkövetelt átlag µ = a 0 = 20, tehát a null-hipotézis, H 0 : µ = 20 n=6 elemő mintából (amelyek nem mondanak ellent a normális eloszlásnak) a számolt átlag és szórás: y = 19,50 és s = 0,532 A számított t-érték: t = 6 *(19,50-20)/0,532 = -2,30 az elıjelet elhagyva, t=2,30
A példa-vázlat folytatása (egymintás t-próba) Kétoldali alternatív hiptézisnél, azaz H1: µ 20, a t- táblázatból leolvasható kritikus érték df = 5 szabadságfoknál és α = 5% szignifikancia szintnél 2,57, a számított t-érték (2,30) ennél kisebb, a null-hipotézist (µ = 20) elfogadjuk EXCEL pr.-mal a t=2,30-hoz tartozó P érték df=5-nél 2szélő próbánál P = 0,070 = 7% >5%, a null-hipotézist elfogadjuk
A példa-vázlat folytatása (egymintás t-próba) Egyoldali alternatív hipotézisnél, azaz itt H1: µ < 20, a t- táblázatból leolvasható kritikus érték df = 5 szabadságfoknál és α = 5% szignifikancia szintnél 2,01 a számított t-érték ennél nagyobb, a null-hipotézis helyett az alternatív hipotézist fogadjuk el (µ < 20) EXCEL-bıl leolvasva, a t=2,30-hoz tartozó P érték df=5- nél 1szélő próbánál P = 0,035 = 3,5% < 5%, az alternatív hipotézist fogadjuk el
KÖSZÖNÖM TÜRELMÜKET
12. lecke A minta szükséges elemszámáról Kétmintás t-próbák Egytényezıs VA feladata
A minta elemszámáról A mintanagyság (n) növelésével az átlag pontosabbá válik (hibája csökken), ennek következtében µ és a 0 kisebb eltérése is kimutatható Ha pl. µ és a 0 közötti legalább eltérést kívánunk kimutatni, akkor n-et legalább akkorára kell választani, hogy a t = (n)* /s érték meghaladja a kétoldali kritikus t értéket. Innen n > (t krit s/ ) 2 ahol s r-elemő elızetes tájékozódó felmérésbıl kapott szórás, t szabadságfoka r-1 Példa: =5,0; elızetes r=10 elemő felmérésbıl s=8,9; α= 5%-ra t krit =2,26. Így n> (2,26 8,9/5,0) 2 =16,1 (17 mintaelem elég) Megjegyzés: itt a µ-re megkívánt konfidencia intervallum fele
Kétmintás t-próba párosított adatokra (Excelben keresd: Adatelemzés: Kétmintás párosított t-próba Gyakran az egyedeken (megfigyelési egységeken) észlelt változások érdekelnek bennünket. Ilyenkor minden mintaegyedhez két összetartozó adat tartozik Az összetartozó adatok elıjeles eltérését, vagy arányát (%) képezve egyetlen adatsort kapunk, amelyre egymintás t-próbát alkalmazhatunk értelemszerően fogalmazott hipotézis ellenırzésére
Péda párosított t-próbára (az eltérésekkel) Értékpárok (Y1 és Y2) eltérését teszteljük n=6 mintapárral A d=y2-y1 eltérések sokasági átlaga legyen µ, a null-hipotézis H 0 : µ=a 0 (alapesetben a 0 =0, azaz nincs eltérés) Y1 Y2 d=y2-y1 Legyen a 0 = 0 5,4 5,6 0,2 5,9 6,3 0,4 t = (0,150 0)/0,072 = 2,087, df = 6-1 = 5 4,7 4,6-0,1 4,9 4,9 0,0 ehhez az Excelbıl 6,2 6,4 0,2 4,9 5,1 0,2, P(kétszélő) = 0,091>0,05 nem szign. átlag 0,150 P(egyszélő)= 0,046<0,05 szign. növekm. szórás 0,176 átlag szórása 0,072 Megj.: ha pl a 0 = 0,03 akkor az utóbbi sem szignifikáns
Az elıbbi példa megoldása Excelben Az Excel Adatelemzés, kétmintás párosított t-próba menüpontját alkalmazva bevisszük az Y1 és Y2 oszlopokat (az átlag és a szórás sorok nélkül). Az eredménytáblázat fontosabb sorai: Kétmintás párosított t-próba a várható értékre Megfigyelések 6 Feltételezett átlag (a 0 ) 0 df 5 t-érték 2,087 P(T<t) egyszélő 0,046 <5% P(T<t) kétszélő 0,091 >5% Megjegyzés: Ez a menüpont nem igazán felhasználó barát, inkább javasolható a Kéttényezıs VA ismétlések nélkül menüpont
Megjegyzések a párosított t-próbáról 1. Ha a q =Y2/Y1hányados tesztelése indokoltabb (mert pl. nagyobb Y1- hez nagyobb d eltérés tartozik), akkor alapesetben a 0 =1 (nincs változás) 2. Ha a mintabeli q értékek eloszlása nagyon nem szimmetrikus, akkor próbáljuk meg az elemzést a log(q) értékekkel - mivel log(q) = log(y2) - log(y1), az elemzést elvégezhetjük a kétmintás párosított t-próba menüponton az Excelben, az Y alapadatok helyett azok logaritmusát kell bevinnünk 3. Ha az egymintás t-próba nem szerepel az Excel menüsorában, az elemzés elvégezhetı a kétmintás párosított t-próba programmal is oly módon, hogy valamelyik oszlopot a feltételezett a 0 -lal töltjük fel
Kétmintás t-próba nem párosított adatokra Két alapsokaságot (Y1 és Y2) hasonlítunk össze, ismeretlen sokasági átlagaik µ 1 ill. µ 2, szórásaik б 1 ill. б 2. A két sokaságból n 1 ill. n 2 elemő mintát veszünk (nem párosíthatók), a minta-átlagok és szórások y 1, s 1 ill. y 2, s 2 A null-hipotézis (alapesetben) H 0 : µ 1 = µ 2,(de lehet µ 2 -µ 1 = a 0 is, ha azt várjuk, hogy µ 2 a 0 -lal nagyobb mint µ 1 ) A t-próba (alapesetben) itt is abból áll, hogy a két mintaátlag eltérését elosztjuk ezen eltérés szórásával, a hányados t-eloszlású vagy legalábbis közelítıleg az, a szabadságfok n 1 + n 2 2
Kétmintás t-próbák nem párosított adatokra: kiegészítések Elıször mindenképpen ellenırízni kell a két szórás hibahatáron belüli egyezését (Excel: kétmintás F-próba a szórásnégyzetekre ) Ha a szórások egyezése elfogadható, akkor a kétmintás t- próba egyenlı szórásokkal menüpontot választjuk az Excelben Ha a szórások szignifikánsan eltérnek, akkor a kétmintás t- próba nem egyenlı szórásokkal menüpontot választjuk vagy a Wilcoxon-Mann-Whitney féle rangpróbát alkalmazzuk (ld. késıbb)
Megjegyzés: elıfordul, hogy az alkalmazó nempárosított t-próbát használ párosított adatok elemzésekor, ez baj Ha párosított adatokra a nem-párosított kétmintás t-próbát alkalmazzuk, az egyedek közötti nagyságrendi eltérések figyelmen kívül maradnak, ezek beépülnek a hibaszórásba, azt növelik, a t-érték csökken, végülis az esetleges szignifikancia ködbe vész
Egytényezıs variancia-analízis A kétmintás t-próbával két sokasági átlag eltérését vizsgálhatjuk minták alapján Három, vagy több minta átlagának statisztikai összehasonlítását már Variancia Analízisnek nevezik, a kétmintás t-próba ennek speciális esete Az X kvalitatív befolyásoló, ható ismérv neve tényezı, ezt a továbbiakban célszerően A -val jelöljük (Y pedig a kvantitatív eredményváltozó) Az A tényezı változatai (szintjei) A 1, A 2, A 3,, A k, ezek lehetnek települések, évek, csoportok, kezelések stb.
KÖSZÖNÖM TÜRELMÜKET