HIPOTÉZIS VIZSGÁLAT A hipotézis feltételezés egy vagy több populációról. (pl. egy gyógyszer az esetek 90%-ában hatásos; egy kezelés jelentősen megnöveli a rákos betegek túlélését). A hipotézis vizsgálat célja annak eldöntése, hogy a hipotézis igaz vagy nem igaz. 1. Adatok kiértékelése. A feltételek megvizsgálása 3. A hipotézis megfogalmazása. Normális eloszlású-e a populáció, függetlenek-e a minták, a minták szórása egyenlő-e. 3. Megfogalmazzuk a megvizsgálandó feltevést (nullhipotézis, valamilyen különbség nulla voltára utal, H o ). Ha a nullhipotézist elvetjük, akkor az adatok az alternatív hipotézist támasztják alá (H A ). H o : μ50, H A : μ 50 H o : μ 50, H A : μ <50 H o és H A egymással ellentétes (komplementer) állítások. Azt a feltételezést, amit megerősíteni szeretnénk, az alternatív hipotézisben fogalmazzuk meg. 4. Próba statisztika megválasztása 4. A próba során használt statisztikát használjuk a döntéshez. A próbastatisztika alakja a populációtól és a nullhipotézistől függ. (pl. átlagokra, különbségekre, átlagok ill. szórások különbségére vonatkozik). próba statisztika a releváns statisztika értéke - a paraméter feltételezett értéke a releváns statisztika szórása 19
5. Meghatározni a használt próbastatisztika eloszlását 6. Megfogalmazni a döntés kritériumát 0.45 0.4 0.35 A próba statisztika eloszlása, ha a nullhipotézis igaz 6. A statisztika lehetséges értékeit két csoportba osztjuk: az elfogadási és az elutasítási tartományokra. Az elutasítási tartomány értékei kisebb valószínűséggel következnek be, ha a nullhipotézis igaz. A döntési szabály azt mondja ki, hogy a nullhipotézist el kell vetnünk, ha a statisztika értéke az elutasítási tartományba esik, és el kell fogadni, ha az elfogadási tartományba esik. Kétoldali próba sűrűségfüggvény 0.3 0.5 0. 0.15 0.1 kis valószínűséggel előforduló értékek, ha a nullhipotézis igaz 0.05 0 elutasítási tart. a próba statisztika értékei elfogadási tartomány elutasítási tart. Kétoldali próbák: az elutasítási tartomány az eloszlás két széle közt van szétosztva. A statisztikának mind a túl nagy, mind a túl kis értékei esetén elvetjük a nullhipozézist. H o : μ0, H A : μ 0 0
0.45 0.4 0.35 A próbastatisztika eloszlása, ha a nullhipotézis teljesül Egyoldali One-sided próba test sűrűségfüggvény 0.3 0.5 0. 0.15 0.1 0.05 0 a próbastatisztika értékei elfogadási tartomány elutasítási tart. Egyoldali próba: az egész elutasítási tartomány az eloszlás valamelyik széléhez tartozik. H o : μ 0, H A : μ >0 Szignifikancia szint (α): megadja az eloszlás sűrűségfüggvényének görbe alatti területét az elutasítási tartományban. Mivel az igaz nullhipotézis elutasításának valószínűsége éppen α, α értékét kicsinek választjuk, hogy ez a valószínűség csekély legyen. Az igaz nullhipotézis elutasítása az ún. elsőfajú hiba (valószínűsége α). A hamis nullhipotézis megtartása az ún. másodfajú hiba. 1
7. A próbastatisztika kiszámítása 8. Statisztikai döntés 8. Ha a statisztika kiszámított értéke az elutasítási tartományban van, a nullhipotézist elutasítjuk. A statisztika táblázata megadja az elfogadási és az elutasítási tartomány határán lévő számértéket (kritikus érték). 9. Ha H o -t elutasítjuk, akkor az alternatív hipotézis igaz. Nem utasítjuk el H o -t Elutasítjuk H o -t Következtetés: H A igaz Következtetés: H 0 lehet, hogy igaz A hipotézis vizsgálat nem jelenti a nullhipotézis igaz vagy hamis voltának egyértelmű bizonyítását. Csupán azt jelzi, hogy a rendelkezésre álló adatok alátámasztják-e a hipotézist.
Hipotézis vizsgálat: egyetlen populáció átlaga 1. Ismert szórás esetén Példa: A kutatók egy enzim szintjének átlagos értékére kíváncsiak. Levonhatják-e azt következtetést egy 10 elemű minta alapján, melynek átlagértéke, hogy a populáció várható értéke eltér 5- től, ha a populáció ismert szórásnégyzete 45? A vizsgálat szignifikacia szintje legyen 0.05. Feltételezés: a minta normális eloszlású populációból származik. Hipotézis: H o : μ5, H A : μ 5 Próba statisztika: u x μ σ / n A próba statisztika eloszlása: standard normális (μ0, σ1). Döntési szabály: kétoldali próba (u-nak mind elegendően nagy, mind elegendően kicsiny értékei esetén elvetjük a nullhipotézist). Meg kell keresnünk a standard normális eloszlás legfelső és legalsó 5/.5 %-ának megfelelő kritikus értéket. sűrűségfüggvény 0.45 0.4 0.35 0.3 0.5 0. 0.15 0.1 0.05 0 a próba statisztika eloszlása a nullhipotézis teljesülése esetén (standard normális eloszlás) 7.9 % 7.9 %.5 %.5 % -1.96-1.41 0 1.96 a próba statisztika értékei kétoldali próba 3
A próba statisztika értékének kiszámítása az adott minta esetén: u 5 45 / 10 1.41 Statisztikai döntés: mivel -1.41 az elfogadási tartományban van, nem vetjük el a nullhipotézist. Következtetés: lehetséges, hogy μ értéke egyenlő 5-tel. A próba p értéke annak valószínűsége, hogy H o teljesülése esetén a próba statisztika értéke legalább olyan szélsőséges (legalább annyira eltér a várható értéktől a megfelelő irányban), mint a megfigyelt érték. A fenti próba p értéke 0.079+0.0790.158. Példa : A kutatók egy enzim szintjének átlagos értékére kíváncsiak egy sokaságban. Levonhatják-e azt a következtetést egy 10 elemű minta alapján, melynek átlagértéke, szórásnégyzete pedig 45, hogy a populáció várható értéke kisebb mint 5 (0.05 szignifikancia szint mellett)? 0.45 0.4 0.35 a próba statisztika eloszlása a nullhipotézis teljesülése esetén (standard normális eloszlás) Egyoldali próba sűrűségfüggvény 0.3 0.5 0. 0.15 0.1 0.05 7.9 % 5 % 0-1.96-1.41 0 1.96-1.645 a próba statisztika értékei 4
H o : μ 5, H A :μ<5 A próba statisztika az előbbivel azonos, de a kritikus érték -1,645. Mivel -1,41>-1,65, nem vetjük el a nullhipotézist. A próba p értéke 0.079.. A sokaság szórása ismeretlen (ez a gyakoribb eset) Ilyenkor a populáció szórását a minta korrigált empírikus szórásával közelítjük. A próba statisztika: t n 1 S x μ x μ / n n ( xi x) n( n 1) Eloszlása ún. Student-féle t eloszlás n-1 szabadsági fokkal. Két sokaság átlagának eltérése A mintát normál eloszlású, független, ismeretlen, de egyenlő szórású sokaságokból vesszük Próba statisztika t n+ m ( n 1) S x x y + ( m 1) S n + m y 1 n + 1 m Mely n+m- szabadsági fokú t eloszlást követ. (n és m a minták elemszáma, S x és S y a minták korrigált empirikus szórása. Ezen próba elvégzése előtt a sokaságok szórásának egyenlőségét ellenőrizni kell (F-próbával). 5
Önkontrollos (egymintás) t-próba Az önkontrollos kísérlet célja az, hogy minél több olyan külső tényezőtől megszabaduljunk, ami a mintaelemek értékét befolyásolhatja. Ezért olyan összetartozó értékpárokat hasonlítunk össze, melyek közt különbséget legfőként az alkalmazott kezelés okozhat. Ugyanazon egyedeken végzünk mérést egy bizonyos kezelés előtt és után. Majd nem a két mintát, hanem az összetartozó értékpárok különbségét (d) vetjük alá a vizsgálatnak. A próba statisztika: d μd t S / n n ahol S n a különbségek alkotta minta szórása és elméleti várható értéke. PÉLDA: 1 egyén koleszterin szintjét vizsgálták meg egy különleges étrenddel együtt alkalmazott edzés előtt és után. Kellően alátámasztják-e az adatok a kezelés hatásosságát? SZÉRUM KOLESZTERIN kezelés előtt kezelés után különbség 1 01 00-1 31 36 5 3 1 16-5 4 60 33-7 5 8 4-4 6 37 16-1 7 36 96-30 8 35 195-40 9 40 07-33 10 67 47-0 11 84 10-74 1 01 09 8 6
H o : μ d 0, H A : μ d <0 d d n i 4 1 0.17 S n di d) di nd n 1 ( n 1) ( 10766 1 ( 0.1) 11 3.13 t 0.17 0 3.13/ 1 3.0 A t kritikus értéke -1.7959 0.05 szignifikancia szint mellett. Mivel -3.0<-1.7959 (t az elutasítási tartományba esik), elvetjük a nullhipotézist. (Azaz az adatok alátámasztják a feltevést, hogy a koleszterin szint szignifikánsan csökkent.) A próba statisztika Két populáció szórásnégyzetének aránya S F S ún. F eloszlású n x -1 szabadsági fokkal a számlálóban és n y -1 szabadsági fokkal a nevezőben. Kétoldali próba elvégzésekor (pl. ha a kétmintás t-próba előtt a szórások egyenlőségét szeretnénk megvizsgálni), a nagyobbik szórásnégyzetet tesszük a nevezőbe. A VI. és VII. táblázat a jegyzet végén csak az 1-nél nagyobb értékeket tartalmazza, és p,5% és 1%-ra van megadva. Ezek segítségével így voltaképpen 5, ill. % szignifikancia szint melletti kétoldali próbák végezhetők. Egyoldali a próba esetén a megfelelő próba statisztika az S x / S y ha a nullhipotézis σ x σ y. x y 7