Elmélet STATISZTIKA 3. Előadás Variancia-analízis Lineáris modellek A magyarázat a függő változó teljes heterogenitásának két részre bontását jelenti. A teljes heterogenitás egyik része az, amelynek okai a független változók, a másik heterogenitás-rész pedig az, amelynek okait az egyéb, általunk nem vizsgált tényezők tartalmazzák. Ez utóbbit sokszor a véletlen hatásaként, hibaként is emlegetik. ahol: y ij Lineáris modell y ij = µ + α i + e ij a függő változó értéke µ a kísérlet főátlaga, fix hatás α i fix hatás, oka a független változó hiba, vagy eltérés e ij A variancia-analízis alkalmazásának feltételei a maradék független a kezelés és blokk hatástól valamint a függő változótól (véletlen mintavételezés, kísérleti elrendezés) a maradékok (hibák) normális eloszlású, nulla várható értékű sokaság a maradékok szórásai a kezeléskombinációk celláin belül egyformák Alapfogalmak 1. Faktor: a vizsgálatba bevont független változókat, pl. különböző kezeléseket, tényezőket. Faktor szint: A kezelések szintjei, pl. műtrágyaadagok. Kvalitatív és kvantitatív faktorok: Ha a faktorszintek nem numerikusak vagy intervallum skálájúak, akkor kvalitatív, ellenkező esetben kvantitatív faktorokról beszélünk. Alapfogalmak 2. Kezelések (cellák): Egyfaktoros esetekben a kezelések megfelelnek a faktorok szintjeinek, többfaktoros esetben a figyelembe vett faktorok szintjeiből előálló kombinációk a kezelések. Pl. amikor a 2 faktor műtrágyaadagok és öntözési módok, akkor a kezelések a (műtrágyaadagok, öntözési módok) összes lehetséges kombinációjából áll. Interakció: Két változó kapcsolatában akkor áll fenn interakció (kölcsönhatás), ha változó hatása függ az változó szintjétől és fordítva. 1
Alapfogalmak 3. Egy szempontos variancia-analízis: Varianciaanalízis, ahol csak egy faktor van. Több szempontos variancia-analízis: Varianciaanalízis, ahol kettő vagy több faktor van. Egyváltozós variancia-analízis: ANOVA technika, amely egy függő változót használ. n: az adatok száma k: csoportok száma r: ismétlések száma Csoport átlag: Jelölések Többváltozós variancia-analízis: ANOVA technika, amely kettő vagy több függő változót használ. Egytényezős variancia-analízis H 0 Segítségével egy tényező hatását lehet vizsgálni a függő változó mennyiségi alakulására. A tényező, faktor valamilyen csoportképző ismérvvel rendelkezik, a függő változó pedig legtöbbször skála típusú adat. A nullhipotézis, hogy az átlagok egyenlők, nincs közöttük különbség. Ez a technika a kétmintás t-teszt általánosítása, kiterjesztése több mintára. Variancia-analízis lépései 1. A variancia-analízis modell felállítása. 2. Szignifikancia-szint megválasztása 3. A variancia-analízis kiszámítása, az F- próba. 4. A modell érvényességének ellenőrzése. 5. Amennyiben az F-próba szignifikáns, középértékek többszörös összehasonlítása. 1. A modell felállítása A modellben a mérési, megfigyelési értékeket összegként képzeljük el. Kísérleti elrendezésnek megfelelő modellalkotás 2
Lineáris modell y ij = µ + α i + e ij Példa Egy termesztő k kukorica hibrid termesztése között választhat. Jelöljük a fajtákat A, B, C, D-vel. Döntsük el, hogy a 4 fajta termesztése esetén azonos terméseredményre számíthatunk-e. ahol: y ij a függő változó értéke µ a kísérlet főátlaga, fix hatás α i fix hatás, oka a független változó, faktor hiba, vagy eltérés e ij 2. Szignifikancia-szint megválasztása 3. A variancia-analízis kiszámítása Leggyakrabban 0,05 azaz 5% Lehet: 0,1; 1; 5 és 10% Elméletileg bármilyen értéket választhatunk, ha szakmailag meg tudjuk indokolni. Eredménytáblázat (Excel) Eltérés négyzetösszegek (SS) Csoportok között: csoportátlagok eltérés négyzetösszege * r Csoporton belül: csoportok eltérés négyzetösszegeinek összege Összes: alapadatok eltérés négyzetösszege 3
Szabadságfokok (df) Varianciák Csoportok között: k-1 Csoporton belül: n-k Összes: n-1 Az eltérés négyzetösszegek osztva a szabadságfokokkal. SS csk /3 SS csb /8 SS össz /11 F-próba 4
Mi annak a valószínűsége? Véletlenül 16,38 F-értéknél nagyobbat kapunk egy 3, 8 szabadságfokú F- eloszlás esetén. P=0,00089 Mikor szignifikáns az F-próba? Ha létezik legalább egy szignifikáns kontraszt a csoportok között. Post hoc analízisek Középérték összehasonlító tesztek 5. Az F-próba szignifikáns Post hoc analízisek Amennyiben az analízis az átlagok közötti egyenlőséget nem igazolja, szükséges az átlagok közötti különbségek kimutatása. A variancia-analízist kiegészítő középérték összehasonlító teszteknek kétféle típusa létezik: előzetes, un. a priori kontrasztok és az analízis után elvégezhető, un. post hoc analízisek A csoportok szórása megegyezik LSD Bonferroni Student-Newman-Keuls Tukey Duncan Dunett Scheffe A csoportok szórása különbözik Tamhane 5
Szimultán döntés Ha kettőnél több összehasonlítandó minta van. Olyan állításokat fogalmaznak meg, amelyek egyidejűleg érvényesek. Ezek lehetnek: Egyidejűleg érvényes konfidencia intervallumok vagy Szimultán végzett statisztikai próbák. LSD-teszt (legkisebb szignifikáns differencia) Alkalmazhatóság feltételei: 1. A csoportok szórása egyenlő 2. α: páronkénti összehasonlításra vonatkozik 3. Véletlenszerűen kiválasztott két csoport összehasonlítására jó William Saely Gosset angol statisztikus (1876-1937) Sir Ronald Aylmer Fisher angol statisztikus (1890-1962) A pontosság fokozása a kísérlet pontosabb kivitelezésével az ismétlésszám növelésével a parcellák csoportosításával, blokkképzéssel Randomizáció Torzítás az adott kísérleti elrendezésnek és elméleti modellnek megfelelő statisztikai értékelés (Sváb, 1981) 6
Hipotézisek Példa H 0 : A különböző kefirek átlagos fogyasztói ára megegyezik. Szignifikancia szint megválasztása Adatok 5% H 1 : A különböző kefirek átlagos fogyasztói ára nem egyezik meg. Modell felállítása Egytényezős teljesen véletlen elrendezés Számítás 1. Adatbázis rendezése, szűrése Egytényezős variancia-analízis 7
Egytényezős variancia-analízis Eredménytáblázat 1. Eredménytáblázat 2. 8
LSD-teszt (legkisebb szignifikáns differencia) Páronkénti összehasonlítás *** 0,1% ** 1% * 5%. vagy + 10% Jelölések 9