Biomatematika 13. Varianciaanaĺızis (ANOVA)

Hasonló dokumentumok
Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

y ij = µ + α i + e ij

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Hipotézis vizsgálatok

Bevezetés a hipotézisvizsgálatokba

Adatok statisztikai értékelésének főbb lehetőségei

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Kettőnél több csoport vizsgálata. Makara B. Gábor

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Varianciaanalízis 4/24/12

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Hipotézis vizsgálatok

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018

Biostatisztika Összefoglalás

Biostatisztika VIII. Mátyus László. 19 October

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

2012. április 18. Varianciaanaĺızis

Biostatisztika Összefoglalás

[Biomatematika 2] Orvosi biometria

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

[Biomatematika 2] Orvosi biometria

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Korreláció és lineáris regresszió

A konfidencia intervallum képlete: x± t( α /2, df )

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Az első számjegyek Benford törvénye

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

Normális eloszlás paramétereire vonatkozó próbák

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

6. Előadás. Vereb György, DE OEC BSI, október 12.

Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Számítógépes döntéstámogatás OPTIMALIZÁLÁSI FELADATOK A SOLVER HASZNÁLATA

Variancia-analízis (folytatás)

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

IV. Változók és csoportok összehasonlítása

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

Többváltozós lineáris regressziós modell feltételeinek

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika Elıadások letölthetık a címrıl

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

Kísérlettervezés alapfogalmak

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

BIOMETRIA (H 0 ) 5. Előad. zisvizsgálatok. Hipotézisvizsg. Nullhipotézis

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Statisztika elméleti összefoglaló

BIOMATEMATIKA ELŐADÁS

ANOVA összefoglaló. Min múlik?

Nemparametrikus tesztek december 3.

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Normális eloszlás tesztje

KÖVETKEZTETŐ STATISZTIKA

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Biomatematika 2 Orvosi biometria

Variancia-analízis (ANOVA) Mekkora a tévedés esélye? A tévedés esélye Miért nem csinálunk kétmintás t-próbákat?

Hipotézis vizsgálatok. Egy példa. Hipotézisek. A megfigyelt változó eloszlása Kérdés: Hatásos a lázcsillapító gyógyszer?

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

biometria III. foglalkozás előadó: Prof. Dr. Rajkó Róbert Hipotézisvizsgálat

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Elemszám becslés. Kaszaki József Ph.D. SZTE ÁOK Sebészeti Műtéttani Intézet

4. A méréses ellenırzı kártyák szerkesztése

Hipotézisvizsgálat R-ben

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Statisztikai alapfogalmak a klinikai kutatásban. Molnár Zsolt PTE, AITI

[Biomatematika 2] Orvosi biometria

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztikai módszerek 7. gyakorlat

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Elemi statisztika fizikusoknak

V. Gyakorisági táblázatok elemzése

Átírás:

Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 13. Varianciaanaĺızis (ANOVA) Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision Date: November 4, 2006 Version 1.25

Table of Contents 1 Bevezetés 3 2 ANOVA 5 2.1 A hipotézis.............. 9 2.2 A szabadsági fokok.......... 9 2.3 Példa: vérnyomáscsökkentés..... 10 2.4 Példa: oldat töménysége....... 21

Section 1: Bevezetés 3 1. Bevezetés Nagyon sok esetben felmerülnek olyan kérdések, hogy: hat-e a műtét típusa a túlélési időre? hat-e a kezelés típusa a túlélési arányra egy bizonyos betegség esetén? hat-e a művelési mód a terméseredményekre? hat-e a táp típusa a testsúlyra? Ilyen típusú kérdések esetén mindig felmerül az a gyanú, hogy a mért vagy megfigyelt különbséget

Section 1: Bevezetés 4 nem az általunk vizsgált effektus okozta. Lehet, hogy a beteg gyorsabb felépülése nem a gyógyszer, kezelés, operáció típusától függ, hanem egyszerűen a jobb kondíciótól. Lehet, hogy azon a parcellán, amelyen a jobb eredményt érték el, a talaj minősége lényegesen jobb volt, mint a többin, így ez okozta a jobb terméseredményt. Az ilyen típusú kérdések megválaszolására a varianciaanaĺızis módszere szolgál, amely tulajdonképpen a t-próba kiterjesztése több mintára. Azt kell eldöntenünk, hogy kettőnél több populáció átlagai

Section 2: ANOVA 5 azonosak-e vagy sem. 2. ANOVA Az F próbát két variancia összehasonĺıtására használtuk, de ez a próba három vagy annál több csoport átlagának összehasonĺıtására is alkalmas. Ezt a technikát varianciaanaĺızisnek hívják (Analysis of Variance, ANOVA). Például három csoport esetén csak azt tudja kimutatni, hogy a három átlag nem egyenlő; azt már nem, hogy hol a különbség. Erre a célra más alkal-

Section 2: ANOVA 6 mas próbát kell használnunk. Felmerülhet a kérdés: miért nem alkalmazzuk a t- próbát páronként (két-két átlagot összehasonĺıtva egyszerre)? Azért, mert sok t-próbát kellene lefuttatni (minden lehetséges párra egyet). Ekkor az igaz null hipotézis elvetésének esélye nő, hiszen az összes lehetséges páronkénti összehasonĺıtás nagy száma miatt véletlenül is kaphatunk szignifikáns eltéréseket. Például, ha 3 átlagot hasonĺıtunk össze, 3 t-próbára van szükség; 5 átlagra 10 t-próba, míg 10 átlagra 45 t-próba kell. Az F -próba viszont szimultán teszteli az átlagok egyenlőségét.

Section 2: ANOVA 7 Az F próba három vagy annál több átlag összehasonĺıtására történő alkalmazásának feltételei: 1. A populációk eloszlása (megközeĺıtőleg) normális. 2. A minták egymástól függetlenek. 3. A populációk varianciái egyenlők. Még ha átlagokat is hasonĺıtunk össze, a próbában varianciákat használunk. A populáció varianciájának kétféle becslését készítjük el. Az elsőt csoportok közötti varianciának nevezik, és ez az átlagok szórásnégyzetét jelenti. A második

Section 2: ANOVA 8 a csoportokon belüli variancia, és ezt az összes adat alapján határozzuk meg. Ha nincs különbség az átlagok között, akkor a csoportok közötti és csoportokon belüli varianciák nagyjából egyenlők, és az F próbastatisztika értéke nagyjából 1. Amikor az átlagok lényegesen eltérőek, a csoportok közötti variancia lényegesen nagyobb, mint a csoportokon belüli, és az F próbastatisztika értéke jóval nagyobb mint 1. Mivel a varianciákat hasonĺıtjuk össze, ezért hívják az eljárást varianciaanaĺızisnek.

Section 2: ANOVA 9 2.1. A hipotézis H 0 : H 1 : µ 1 = µ 2 =... = µ k Legalább egy átlag különbözik a többitől. 2.2. A szabadsági fokok A számláló szabadsági foka (d.f.n.): k 1. A nevező szabadsági foka (d.f.d.): N k. Itt k a csoportok száma, N pedig az összes megfigyelés száma (N = n 1 +n 2 +...+n k ). Az egyes csoportokra vonatkozó minták nem feltétlenül azonos

Section 2: ANOVA 10 elemszámúak. Az F -próba mindig jobboldali. 2.3. Példa: vérnyomáscsökkentés Példa. Egy kutató három különböző technikát szeretne összehasonĺıtani magas vérnyomású személyek vérnyomásának csökkentésére. Az egyes személyeket véletlenszerűen osztja be három csoportba: az első csoport tagjai gyógyszert szednek; a második csoportba tartozók speciális tornát végeznek; a harmadiké speciális diétát követnek. Négy hét után feljegyzik az egyes személyek vérnyomásának csök-

Section 2: ANOVA 11 kenését. α = 0.05 szinten teszteljük azt a hipotézist, hogy nincs különbség a három módszerrel elért átlagos vérnyomáscsökkenések között. Az adatok:

Section 2: ANOVA 12 Gyógyszer Torna Diéta 10 6 5 12 8 9 9 3 12 15 0 8 13 2 4 X 1 = 11.8 X2 = 3.8 X3 = 7.6 s 2 1 = 5.7 s 2 2 = 10.2 s 2 1 = 10.3

Section 2: ANOVA 13 Megoldás. 1. lépés: A null és az alternatív hipotézis felálĺıtása. H 0 : µ 1 = µ 2 = µ 3. H 1 : Legalább egy átlag eltér a többitől. 2. lépés: A kritikus érték meghatározása. d.f.n. = k 1 = 3 1 = 2 d.f.d. = N k = 15 3 = 12 A kritikus érték 3.89.

Section 2: ANOVA 14 3. lépés: A próbastatisztika értékének kiszámítása. (a) Mindegyik csoport átlagának és varianciájának kiszámítása (lásd a fenti táblázatban) (b) A nagy átlag ( X GM, az összes adat átlagának) kiszámítása: XGM = 7.73.

Section 2: ANOVA 15 (c) A csoportok közötti variancia (s 2 K ) kiszámítása. s 2 K = ni ( X i X GM ) 2 k 1 = 5 (11.8 7.73)2 + 5 (3.8 7.73) 2 + 5 (7.6 7.73) 2 3 1 = 160.13 = 80.07. 2

Section 2: ANOVA 16 (d) A csoportokon belüli variancia (s 2 B ) kiszámítása. s 2 B = (ni 1)s 2 i (ni 1) = (5 1)5.7 + (5 1)10.2 + (5 1)10.3 (5 1) + (5 1) + (5 1) = 104.8 12 = 8.73. (e) Az F próbastatisztika kiszámítása. F = s2 K s 2 B = 80.07 8.73 = 9.17

Section 2: ANOVA 17 4. lépés: A döntés. Mivel 9.17 > 3.89, a null hipotézist elutasítjuk. A 3. lépésben (c) esetében kapott tört számlálóját a csoportok közötti négyzetösszegnek is nevezik és SQ K -vel jelölik, míg a (d) esetben kapott tört számlálóját a csoportokon belüli négyzetösszegnek hívják, és SQ B -vel jelölik. Aztán SQ K -t kell elosztanunk a számláló szabadsági fokával ahhoz, hogy megkapjuk a csoportok közötti varianciát. SQ B - t pedig N k-val, hogy a csoportok közti varianciát. E két varianciát néha átlagos négyzeteknek

Section 2: ANOVA 18 is nevezik, és az MQ K illetve az MQ B szimbólumokkal jelölik. A következő táblázatban foglaljuk össze a varianciaanaĺızis lényegét. Forrás Négyzetek d.f. Átlagos F összege négyzetek Közötti SQ K k 1 MQ K = SQ K k 1 MQ K MQ B Belüli SQ B N k MQ B = SQ B N k Teljes SQ K + SQ B N 1

Section 2: ANOVA 19 Az előző példára vonatkozó ANOVA tábla a következő: Forrás Négyzetek d.f. Átlagos F összege négyzetek Közötti 160.13 2 80.07 9.17 Belüli 104.80 12 8.73 Teljes 264.93 14 A fentebb vizsgált próbát egyszempontú ANOVAnak nevezik, mert csak egy független változó szerepel benne.

Section 2: ANOVA 20 Léteznek többszempontú változatok is, de ezekkel nem foglalkozunk, csak megemĺıtünk egy példát: Szeretnénk tesztelni két talajtípus és két műtrágya hatását egy bizonyos növény növekedési sebességére. Ekkor a két független változó: a talajtípus és a műtrágya fajtája. A függő: a növény mérete. A többi faktor (hőmérséklet, napfényes órák száma, öntözés, stb) ugyanaz.

Section 2: ANOVA 21 2.4. Példa: oldat töménysége Példa. Tegyük fel, hogy van 12 növényünk különböző helyeken. Háromféle tápszeres oldattal öntözzük ezeket. Kíváncsiak vagyunk arra, hogy a töménységnek van-e valami hatása a növekedésre. Sorsoljuk ki, hogy melyik kapjon tiszta vizet, és melyikeket öntözzük tömény illetve híg oldattal. Úgy végezzük el a sorsolást, hogy a harmada tiszta, a harmada tömény, a harmada híg öntözővizet kapjon. Beleteszünk egy kalapba 12 cédulát, amelyek közül négyen t (tömény oldat), négyen v (víz), négyen

Section 2: ANOVA 22 pedig h (híg oldat) betű van, és minden növénynél húzunk egyet. Ily módon azt próbáljuk elérni, hogy az egyéb faktorok (termelési különbségek, növények kondíciója) kiegyensúlyozzák egymást. Nézzük meg a statisztikai anaĺızist, ha a kísérletben a növények magassága (cm-ben mérve) az alábbiak szerint alakult:

Section 2: ANOVA 23 Látható, hogy az oldatokkal öntözött növények átlagos magassága nagyobb, mint a tiszta vízzel öntözötteké.

Section 2: ANOVA 24 Az is rögtön szembetűnik, hogy az egyes növények között elég nagy különbségek vannak a mintákon belül is. Ki kell számolnunk, hogy mekkora a valószínűsége annak, hogy a mért különbségek csupán a véletlen mintavétel következményei. Azaz: el kell döntenünk, hogy a mintákat ugyanabból a populációból vettüke (nullhipotézis), vagy pedig különbözőkből (alternatív hipotézis). A két lehetőséget szemlélteti a következő ábra.

Section 2: ANOVA 25 Ugyanabból a populációból származnak a minták

Section 2: ANOVA 26 Különböző populációból származnak a minták

Section 2: ANOVA 27 Az ANOVA táblázat: Ahogy azt már láttuk, a szabadsági fok (2, 9). Az 5%-os szignifikanciaszinthez és ehhez a szabadsági fokhoz tartozó táblázatbeli F érték: 4.26. Mivel 0.148 < 4.26, így elfogadjuk a nullhipotézist.