Elmélet let STATISZTIKA 12. Előad adás Vaiancia-anal analízis Lineáis modellek A magyaázat a függf ggő változó teljes heteogenitásának nak két k t észe bontását t jelenti. A teljes heteogenitás s egyik észe az, amelynek okai a független f változv ltozók, a másik m heteogenitás-ész sz pedig az, amelynek okait az egyéb, általunk nem vizsgált tényezt nyezők k tatalmazzák. Ez utóbbit sokszo a véletlen v hatásak saként, hibaként is emlegetik. ahol: y ij Lineáis modell y ij = µ + α i + e ij a függf ggő változó étéke µ a kísélet k főátlaga, f fi hatás α i fi hatás, oka a független f változv ltozó hiba, vagy eltéés e ij A vaiancia-anal analízis alkalmazásának feltételei telei a maadék k független f a kezelés és s blokk hatást stól valamint a függf ggő változótól l (véletlen mintavételez telezés, kíséleti k elendezés) a maadékok (hibák) nomális eloszlású,, nulla váható étékű sokaság a maadékok szóásai sai a kezeléskombin skombinációk celláin belül l egyfomák Alapfogalmak 1. Fakto: a vizsgálatba bevont független f változv ltozókat, pl. különbk nböző kezeléseket, tényezt nyezőket. Fakto szint: A kezelések szintjei, pl. műtágyaadagok. Kvalitatív és s kvantitatív v faktook: Ha a faktoszintek nem numeikusak vagy intevallum skálájúak, akko kvalitatív, v, ellenkező esetben kvantitatív faktookól l beszélünk. Alapfogalmak 2. Kezelések (cellák) k): : Egyfaktoos esetekben a kezelések megfelelnek a faktook szintjeinek, többfaktoos esetben a figyelembe vett faktook szintjeiből l előáll lló kombináci ciók k a kezelések. Pl. amiko a 2 fakto műtm tágyaadagok és öntözési módok, akko a kezelések a (műt tágyaadagok, öntözési módok) m összes lehetséges kombináci ciójából áll. Inteakció: : Két K t változv ltozó kapcsolatában akko áll fenn inteakció (kölcs lcsönhatás), ha változv ltozó hatása függ f az változv ltozó szintjétől és s fodítva. 1
Alapfogalmak 3. Egy szempontos vaiancia-anal analízis: Vaiancia- analízis zis,, ahol csak egy fakto van. Több szempontos vaiancia-anal analízis: Vaiancia- analízis zis,, ahol kettő vagy több t fakto van. Egyváltoz ltozós s vaiancia-anal analízis: : ANOVA technika, amely egy függf ggő változót t használ. Többváltozós s vaiancia-anal analízis: : ANOVA technika, amely kettő vagy több t függf ggő változót t használ. n: az adatok száma k: csopotok száma : ismétl tlések száma Csopot átlag: Jelölések k Egytényez nyezős s vaiancia-anal analízis H 0 Segíts tségével egy tényezt nyező hatását t lehet vizsgálni a függf ggő változó mennyiségi alakulásáa. A tényezt nyező,, fakto valamilyen csopotképz pző ismévvel endelkezik, a függő változó pedig legtöbbsz bbszö skála típusú adat. A nullhipotézis zis,, hogy az átlagok egyenlők, nincs közöttük k különbsk nbség. Ez a technika a kétmintk tmintás t-teszt teszt általánosítása, sa, kitejesztése se több t mintáa. = K = 1 2 k Vaiancia-anal analízis lépéseil 1. A vaiancia-anal analízis modell feláll llítása. 2. Szignifikancia-szint megválaszt lasztásasa 3. A vaiancia-anal analízis kiszámítása, sa, az F-F póba. 4. A modell évényességének nek ellenőz zése. 5. Amennyiben az F-pF póba szignifikáns, ns, középétékek többszt bbszöös összehasonlítása. sa. 1. A modell feláll llítása A modellben a méési, m megfigyelési étékeket összegként képzeljk pzeljük k el. Kíséleti elendezésnek megfelelő modellalkotás 2
ahol: y ij Lineáis modell µ a k α i e ij y ij = µ + α i + e ij a függf ggő változó étéke a kísélet főátlaga, f fi hatás fi hatás, oka a független f változv ltozó,, fakto hiba, vagy eltéés Példa Egy temesztő k kukoica hibid temesztése se között k választhat. Jelölj ljük k a fajtákat A, B, C, D-vel. D Döntsük k el, hogy a 4 fajta temesztése se esetén azonos teméseedm seedménye számíthatunk thatunk-e. Fajta Temés (t/ha) A 9,3 7,2 8,2 B 5,4 7,1 5,9 C 4,5 2,9 5,0 D 3,5 0,9 2,5 2. Szignifikancia-szint megválaszt lasztásasa 3. A vaiancia-anal analízis kiszámítása sa Leggyakabban 0,05 azaz 5% Lehet: 0,1; 1; 5 és s 10% ÖSSZESÍTÉS Csopotok Daabszám Összeg Átlag Vaiancia A 3 24,7 8,233333 1,103333333 B 3 18,4 6,133333 0,763333333 C 3 12,4 4,133333 1,203333333 D 3 6,9 2,3 1,72 Elméletileg letileg bámilyen b étéket választhatunk, v ha szakmailag meg tudjuk indokolni. Eedményt nytáblázat (Ecel) Eltéés s négyzetn gyzetösszegek (SS) Tényezők SS df MS F Csopotok között 58,86 3 19,62 16,38 Csopoton belül 9,58 8 1,1975 Összesen 68,44 11 Csopotok között: k csopotátlagok tlagok eltéés négyzetösszege * Csopoton belül: l: csopotok eltéés négyzetösszegeinek összege Összes: alapadatok eltéés s négyzetn gyzetösszege 3
Szabadságfokok (df( df) Vaianciák Csopotok között: k k-1k Az eltéés s négyzetn gyzetösszegek osztva a szabadságfokokkal. Csopoton belül: l: n-k SS csk /3 Összes: n-1n SS csb /8 SS össz ssz/11 F = F-póba MS MS csk eo df(, df1 = DF1, df2 = DF2, ncp = 0) 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 F-eloszlás eloszlásfüggvénye 4.07 0 2 4 6 8 pf(, df1 = DF1, df2 = DF2, ncp = 0, lowe.tail = TRUE) 0.0 0.2 0.4 0.6 0.8 1.0 F-eloszlás eloszlásfüggvénye 4.07 0 2 4 6 8 df(, df1 = DF1, df2 = DF2, ncp = 0) 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 F-eloszlás eloszlásfüggvénye 4.07 0 5 10 15 16.38 4
pf(, df1 = DF1, df2 = DF2, ncp = 0, lowe.tail = TRUE) 0.0 0.2 0.4 0.6 0.8 1.0 F-eloszlás eloszlásfüggvénye Mi 4.07 16.38 annak a valósz színűsége? 0 5 10 15 Véletlenül l 16,38 F-étF téknél l nagyobbat kapunk egy 3, 8 szabadságfok gfokú F- eloszlás s esetén. P=0,00089 Miko szignifikáns ns az F-pF póba? 4. A modell évényességének nek ellenőz zése Ha létezik l legalább egy szignifikáns ns kontaszt a csopotok között. k 1. Függetlenség 2. Nomális eloszlás 3. Azonos vaianciák A maadék k független f a kezelés és s blokk hatást stól valamint a függf ggő változótól l (véletlen mintavételez telezés, kíséleti k elendezés) Vizsgálat: Maadékok leíó statisztikája kezelések szeint a maadékok ábázolása a megfigyelt és becsült étékek függvf ggvényében Maadékok leíó statisztikája Residual fo temes Case Summaies hibid N Mean Vaiance A 3,0000 1,103 B 3,0000,763 C 3,0000 1,203 D 3,0000 1,720 Total 12,0000,871 5
Maadékok és s a megfigyelt étékek közötti függetlensf ggetlenség Maadékok és s a becsült étéket közötti függetlensf ggetlenség R e s i d u a l f o t e m e s 1,5 0 1,0 0 0,50 0,00-0,50 R e s i d u a l f o t e m e s 1,5 0 1,0 0 0,50 0,00-0,5 0-1,00-1,0 0-1,50-1,5 0 0,0 0 2,0 0 4,00 tem es 6,00 8,00 10,0 0 2,00 3,00 4,0 0 5,0 0 6,00 7,0 0 Pedicted Value fo temes 8,00 9,00 Maadék k nomális eloszlású,, nulla váható étékű Hisztogam 3,0 Gafikus nomalitás s vizsgálat Hisztogam Q-Q plot Numeikus nomalitás s vizsgálat Kolmogoov-Sminov Shapio-Wilk F e q u e n c y 2,5 2,0 1,5 1,0 0,5 0,0 Mean = 1,3878E -17 Std. Dev. = 0,93323 N = 12-1,50-1,00-0,50 0,00 0,50 1,00 1,50 Residual fo temes Q-Q ába Kolmogoov-Sminov teszt E p e c t e d N o m a l V a lu e Nomal Q -Q Plot of Residual fo temes 2 1 0-1 -2-2 -1 0 1 2 Obseved Value One-Sample Kolmogoov-Sminov Test Residual fo temes N 12 Nomal Mean,0000 Paametes(a,b) Std. Deviation,93323 Most Eteme Absolute,157 Diffeences Positive,117 Negative -,157 Kolmogoov-Sminov Z,543 Asymp. Sig. (2-tailed),929 a Test distibution is Nomal. b Calculated fom data. 6
Mintán n belüli li szóás s azonosság tesztelése se Levene-teszt H 0 a szóások sok megegyeznek Test of Homogeneity of Vaiances temés t/ha Levene Statistic df1 df2 Sig. 5.107 2 141.007 Amennyiben a Levene-teszt szignifikáns ns Robusztus tesztek alkalmazása Welch-tesz Bown-Fosythe Robusztus tesztek Robust Tests of Equality of Means temes Statistic(a ) df1 df2 Sig. Welch 11,342 3 4,404,016 Bown-Fosythe 16,384 3 7,394,001 a Asymptotically F distibuted. Post hoc analízisek Középéték összehasonlító tesztek 5. Az F-pF póba szignifikáns ns Post hoc analízisek Amennyiben az analízis az átlagok közötti k egyenlőséget get nem igazolja, szüks kséges az átlagok közötti k különbsk nbségek kimutatása. A vaiancia-anal analízist kiegész szítő középéték összehasonlító teszteknek kétfk tféle típusa t létezik: előzetes, un. a pioi kontasztok és az analízis után n elvégezhet gezhető,, un. post hoc analízisek A csopotok szóása sa megegyezik LSD Bonfeoni Student-Newman Newman-Keuls Tukey Duncan Dunett Scheffe A csopotok szóása sa különbk nbözik Tamhane 7
Szimultán n döntd ntés Ha kettőnél l több t összehasonlítandó minta van. Olyan állításokat fogalmaznak meg, amelyek egyidejűleg évényesek. Ezek lehetnek: Egyidejűleg évényes konfidencia intevallumok vagy Szimultán n végzett v statisztikai póbák. LSD-teszt (legkisebb szignifikáns ns diffeencia) Alkalmazhatóság g feltételei: telei: 1. A csopotok szóása sa egyenlő 2. α: : páonkp onkénti nti összehasonlítása sa vonatkozik 3. Véletlenszeűen en kiválasztott két k t csopot összehasonlításáa jój LSD p% = t p% 2MQ hiba William Saely Gosset angol statisztikus (1876-1937) 1937) Si Ronald Aylme Fishe angol statisztikus (1890-1962) 1962) Az elsőfaj fajú hiba csökkent kkentése holm hochbeg bonfeoni BH BY fd Bonfeoni-teszt Páonkénti nti átlagok különbsk nbségének nek vizsgálat latáa használhat lható,, a két k t csopot elemszáma ma lehet különbk nböző is. α: α/m (m=független összehasonlítások sok száma) L = t( táblázatbeli) 2 1 1 S p + ni n j 8
Calo Emilio Bonfeoni olasz matematikus (1892-1960 1960) Student-Newman Newman-Keuls póba Studentizált tejedelmen alapuló teszt α: összehasonlításonként nt ögz gzített, ezét a teljes vizsgálat elsőfaj fajú hibája n-nel nel együtt nő. n A póba teszteli, hogy mely kezelés s kombináci ciók tatoznak egy homogén n csopotba. w = q α, k, ν MSE Studentizált tejedelem ma : min : q = ma s legnagyobb csopot átlag legkisebb csopot átlag min S: csopoton belüli szóás, a maadékok szóása Student-Newman Newman-Keuls teszt k-1 1 kitikus tatomány meghatáoz ozása Egyes vélemv lemények szeint a SNK-teszt a Tukey teszttel áll okonságban, de annál sokkal kevésb sbé konzevatív v (több eltéést mutat ki). Tukey-eloszlás John Wilde Tukey ameikai matematikus (1915-2000) Tukey-teszt Studentizált tejedelmen alapuló teszt, a p-elemű észcsopotokat ugyanazzal a kitikus étékkel hasonlítja össze. α: a teljes vizsgálata ögz gzített, ezét a páonkp onkénti nti összehasonlítások sok elsőfaj fajú hibája n növekedésével vel csökken, s így a másodfajm sodfajú hiba nő. n ( ) ± q i j α, k, ν MSE 9
Duncan többszöös s ang teszt Duncan-teszt David B. Duncan, 1955, 1965 Studentizált tejedelmen alapul α: nem a kísélet egészée ögzített, így a póba nem annyia konzevatív, mint a hasonló tesztek. k-1 kitikus éték Epeimentwise eo ate w ahol k: csopotok száma = q Ee, k, ν = 1 (1 α) MSE ( k 1) Dunnett-teszt teszt A Dunnett-teszt teszt (1955) egy kijelölt lt csopotot (kontoll) hasonlít össze a többivel. t Eedetileg egyenlő elemszámoka moka volt évényes, de később k elkész szült az általánosítása sa különbk nböző elemszámoka moka is. LényegL nyegét tekintve páonkp onkénti nti összehasonlítást st végez v szimultán, de meg kell adni egy kezdő,, kontoll csopotot, és s ehhez hasonlítja a többi t csopot átlagát. t. Statisztikája: Heny Scheffé ameikai statisztikus (1907-1977) 1977) ( i 0) ± q α, k, ν MSE o =kontoll csopot Scheffé-teszt A hagyományos tesztek közék tatozik. Ez má m valóban a H g hipotéziseket vizsgálja. Az egyszeű F-póba akko utasítja tja el a H 0 -hipotézist, ha létezik l egy a<>0 vekto, amelynél l a konfidencia-intevallum intevallum nem tatalmazza a 0-t. 0 Ha k daab összehasonlítandó csopot van, akko k(k-1)/2 összehasonlítást st kell végezni. A statisztikája: Tamhane-teszt Alkalmazhatóság g feltételei: telei: 1. A csopotok szóása sa különbk nbözhet 2. Véletlenszeűen en kiválasztott két k t csopot összehasonlításáa jój L 1 1 ( k 1 ) F + α, k 1, N kmse i j = 10
Az LSD és Tukey-teszt eedménye Homogén n csopotok képzk pzése Tukey módszeel Multiple Compaisons Dependent Vaiable: temés t/ha Mean (I) Talajművelés (J) Talajművelés Diffeence (I-J) Std. Eo Sig. 90% Confidence Inteval Lowe Bound Uppe Bound Tukey HSD őszi szántás tavaszi szántás 1,19685*,437141,019,29235 2,10136 tácsás 1,94640*,437141,000 1,04189 2,85090 tavaszi szántás őszi szántás -1,19685*,437141,019-2,10136 -,29235 tácsás,74954,437141,203 -,15497 1,65405 tácsás őszi szántás -1,94640*,437141,000-2,85090-1,04189 tavaszi szántás -,74954,437141,203-1,65405,15497 LSD őszi szántás tavaszi szántás 1,19685*,437141,007,47307 1,92064 tácsás 1,94640*,437141,000 1,22261 2,67018 tavaszi szántás őszi szántás -1,19685*,437141,007-1,92064 -,47307 tácsás,74954*,437141,089,02575 1,47333 tácsás őszi szántás -1,94640*,437141,000-2,67018-1,22261 tavaszi szántás -,74954*,437141,089-1,47333 -,02575 *. The mean diffeence is significant at the.10 level. temés t/ha Subset fo alpha =.10 Talajművelés N 1 2 Tukey HSD a tácsás 48 9,56033 tavaszi szántás 48 10,30988 őszi szántás 48 11,50673 Sig.,203 1,000 Means fo goups in homogeneous subsets ae displayed. a. Uses Hamonic Mean Sample Size = 48,000. A Dunnett-teszt teszt eedménye Dependent Vaiable: TERMÉS Dunnett t (2-sided) a (I) HIBRIDEK Debeceni 351 Debeceni 377 Ella (Sze 361) Mv 370 Huno Noma Occitán DKC 3511 DKC 4626 Goldacod LG 3362 Szegedi 352 PR38A24 (J) HIBRIDEK *. The mean diffeence is significant at the.05 level. Multiple Compaisons Mean Diffeence 95% Confidence Inteval (I-J) Std. Eo Sig. Lowe Bound Uppe Bound -3.0217*.87697.013-5.5696 -.4739-2.5845*.87697.045-5.1323 -.0367 -.5730.87697.998-3.1208 1.9748-1.6240.87697.406-4.1718.9238-1.7915.87697.297-4.3393.7563 -.7653.87697.977-3.3131 1.7826.0128.87697 1.000-2.5351 2.5606 -.1147.87697 1.000-2.6626 2.4331 -.6185.87697.996-3.1663 1.9293.2450.87697 1.000-2.3028 2.7928 -.8767.87697.945-3.4246 1.6711-1.2873.87697.675-3.8351 1.2606 a. Dunnett t-tests teat one goup as a contol, and compae all othe goups against it. Kontasztok A kontasztok az egyes csopotok váhatv ható étékeinek lineáis kombináci ciói λ g = c g1 1. + c g2 g2 2. és s ha teljesül l a c g1 g1 + c g2 +... c gp = 0 2. +... + c gp gp p. t q F Összefoglalás, s, eloszlások sok Student-féle t-eloszlás Studentizált tejedelem eloszlása sa Fishe-féle F-eloszlás Az elsőfaj fajú hiba elkövet vetésének valósz színűsége egyetlen pá p összehasonlításáa (pl. LSD) az összes lehetséges páonkp onkénti nti összehasonlításasa összes kontaszta 11
Hány páonkp onkénti nti összehasonlítást st akaunk végezni? v egy maimum k-1,, amelyet az összehasonlítások sok dimenziójának nak nevezzük, és m-mel mel jelölj ljük az összes pát, p k(k-1)/2 Összefoglalás Teszt Év Szező Eloszlás alfa SzD5% LSD 1935 R.A Fishe t egy pá 1,206 LSD- 1939 Bonfeoni t összes 1,63 Bonfeoni páonkénti SNK 1939 Newman q m összehasonlítása 1,206 (2) 1,443 (3) 1,582 (4) Tukey 1953 Tukey; q egész vizsgálata 1,582 Kame Duncan 1955; 1965 Duncan q páoka 1,206 (2) 1,27 (3) 1,312 (4) Scheffé 1959 H.Scheffé F összes kontaszta 1,72 A pontosság g fokozása a kísélet k pontosabb kivitelezésével vel az ismétl tlésszám m növeln velésével a pacellák k csopotosításával, blokkképzéssel Randomizáci ció Tozítás az adott kíséleti k elendezésnek és elméleti leti modellnek megfelelő statisztikai étékelés s (Sváb, 1981) Hipotézisek Példa H 0 : A különbk nböző kefiek átlagos fogyasztói áa megegyezik. = = = Milli Danone Jogobella Mülle 12
Szignifikancia szint megválaszt lasztásasa 5% H 1 : A különbk nböző kefiek átlagos fogyasztói áa nem egyezik meg. Milli Danone Jogobella Mülle Adatok maka bolt a Milli Tesco 79 Milli Tesco 82 Milli Tesco 80 Milli Tesco 77 Milli Tesco 73 Milli Tesco 73 Milli Tesco 72 Milli Tesco 76 Milli Tesco 75 Milli Tesco 85 Milli Tesco 82 Milli Tesco 79 Mulle CBA 76 Mulle CBA 74 Mulle CBA 80 Mulle CBA 74 Modell feláll llítása Számítás Egytényez nyezős s teljesen véletlen v elendezés Egytényez nyezős s vaiancia-anal analízis 1. Adatbázis endezése, szűése se Milli Danone Jogobelle Mülle 79 70 75 78 82 82 82 89 80 70 92 74 77 75 84 79 73 70 80 76 73 84 74 81 72 84 72 84 76 70 90 84 75 73 85 78 85 78 81 86 82 83 79 80 79 83 81 82 67 81 76 80 75 78 82 75 Egytényez nyezős s vaiancia-anal analízis Eedményt nytáblázat 1. ÖSSZESÍTÉS Csopotok Daabszám Összeg Átlag Vaiancia Milli 120 9298 77,48333 23,22661 Danone 120 9412 78,43333 22,48291 Jogobelle 120 9603 80,025 21,30189 Mülle 120 9447 78,725 23,41113 13
Eedményt nytáblázat 2. F-eloszlás sűűségfüggvénye VARIANCIAANALÍZIS Tényezők SS df MS F p-éték F kit. Csopotok között 396,38 3 132,13 5,844904 0,000632 2,623637 Csopoton belül 10760,28 476 22,61 Összesen 11156,67 479 0.0 0.2 0.4 0.6 2.62 0 2 4 6 8 F-eloszlás eloszlásfüggvénye F-eloszlás eloszlásfüggvénye 0.0 0.2 0.4 0.6 0.8 1.0 2.62 0.0 0.2 0.4 0.6 2.62 5.84 0 5 10 15 0 2 4 6 8 LSD-teszt (legkisebb szignifikáns ns diffeencia) LSD = t p% t 5 = 1,965 % 2MQ hiba 2*22,61 LSD = 1,965 = 1,2 120 Páonkénti nti összehasonlítás Csopotok Milli Danone Jogobella Mülle Milli 0,95 2,541667 1,241667 Danone 1,591667 0,291667 Jogobella -1,3 Mülle 2*22,61 LSD = 1,965 = 1,2 120 14
*** 0,1% ** 1% * 5%. vagy + 10% Jelölések 15