TARTALOMJEGYZÉK 1. téma Átlagbecslés (Barna Katalin).... 7 2. téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23 3. téma Összefüggések vizsgálata, korrelációanalízis (Dr. Molnár Tamás)... 73 4. téma Összefüggések vizsgálata, regresszióanalízis (Barna Katalin)...99 5. téma Idõsorok összetevõinek elemzése (Nagy Mónika Zita)... 167 Mellékletek...209 5
2. téma HIPOTÉZISVIZSGÁLATOK ISMÉTLÕ KÉRDÉSEK 1. Mi a hipotézisvizsgálat logikai menete (lépései)? 2. Mit jelent az elsõ- és másodfajú hiba? 3. Milyen fõbb statisztikai próbákat ismer az átlagokra és a szórásokra vonatkozóan? 4. Mi a varianciaanalízis 3 fõ lépése? 5. Mi alapján és hogyan döntünk a hipotézisvizsgálatok során? A feladatok megoldásához szükséges kritikusérték-táblázatok a Mellékletek c. fejezetben megtalálhatók. 23
Egyszerûen statisztika 2. MINTAPÉLDA I. Egymintás átlagokra vonatkozó próba, t-próba 1. példa: Egy termelõ burgonyatermõ területének elõirányzott termésmennyisége 25,50 tonna/hektár. Reprezentatív mintavétellel 13 mintaterületrõl mintát vettünk. Ezek eredményei a következõk (tonna/hektár): 25,90; 25,40; 23,60; 24,50; 26,30; 23,20; 24,60; 25,40; 23,90; 25,50; 25,20; 26,10; 25,30 a) A mérési eredmények alapján állapítsa meg 5%-os szignifikanciaszinten, hogy a tervezett terméseredmény elérhetõ-e! b) Értelmezze a kapott eredményt! A mintapélda megoldása: a) A mérési eredmények alapján állapítsa meg 5%-os szignifikanciaszinten, hogy a tervezett terméseredmény elérhetõ-e! A hipotézisvizsgálatok során a sokaság átlagát, szórását mindig minta alapján becsüljük, és vizsgálataink során ezt a becsült értéket egy elméleti értékkel hasonlítjuk össze. A két érték közötti azonosság vagy különbözõség megállapítása lehetõvé teszi annak eldöntését, hogy a minta származhat-e egy adott paraméterrel jellemzett sokaságból, illetve, hogy a minta vizsgált paramétere azonos-e egy elvárt, szabvány szerinti értékkel. A tesztelés különbözõ próbák alkalmazásával valósítható meg, azonban a hipotézisvizsgálatok esetén egy jól meghatározott metodikát kell követnünk: 1. A szakmai kérdés megfogalmazása. Arra vagyunk tehát kíváncsiak, hogy 5%-os szignifikanciaszinten a tervezett terméseredmény elérhetõ-e, vagyis a mintából számolt termésátlag és az elvárt hozam közötti tapasztalt különbség csak a mintavételi hibából fakad. 24
2. téma Hipotézisvizsgálatok 2. A nullhipotézis (alaphipotézis, H 0 ) és az alternatív vagy ellenhipotézis (H 1 ) megfogalmazása. Itt rögzítjük a szignifikanciaszintet ( ) is. H 0 : x m H 0 : 25,50 = 24,99 =5% H 1 : x m H 1 : 25,50 24,99 A 25,50 tonna/hektár a termelõ által elõirányzott termésmennyiség, a 24,99 tonna/hektár termésátlagot pedig egyszerû számtani átlaggal számítottuk ki, a minta alapján. 3. Eldöntjük a próbafüggvény típusát, kiszámítjuk a minta (vagy minták) alapján a próbafüggvény aktuális értékét. Az aktuális próbafüggvény kiválasztása most nagyon egyszerû, hiszen tudjuk, hogy egy mintából számított átlagot hasonlítunk egy elvárt átlaghoz, tehát egymintás t-próbát alkalmazunk. Az aktuális próbafüggvény értékének számítása a következõ formulával történik: x t 24, 99 25, 50 t 189,, s 027, d s d ahol s 097, 027,. n 13 4. A mellékletben található megfelelõ kritikusérték-táblázatból (t-táblázat) kikeressük a megfelelõ szabadságfokhoz SZF=n 1=13 1=12, és (0,05) szignifikanciaszinthez tartozó kritikus (táblabeli) értéket, amely = 2,16. 25
Egyszerûen statisztika 2. Fontos megjegyezni, hogy kétoldalú vagy kétszélû próba esetén is 5%-on rögzítjük a szignifikanciaszintet, de mivel a próba kétszélû (H 1 : x m ), ezért a hiba is 2 egyenlõ részre oszlik el, ezért valójában 2,5%-os szignifikanciaszintnél keressük ki a táblázatbeli kritikus értéket. 5. Döntünk arra vonatkozóan, hogy a nullhipotézist vagy az alternatív hipotézist fogadjuk-e el. Az eredmények alapján a H 0 igaz, mert a számított érték (t) a kritikus érték (t ) alatt marad: 1,89 (t) < 2,16 (t ) b) Értelmezze a kapott eredményt! 6. Szakmai következtetések levonása. Az alaphipotézis elfogadása alapján azt mondhatjuk, hogy az elvárt terméshozam és a mintából számolt termésátlag között tapasztalt különbség (0,51 tonna/hektár) csak a véletlen, illetve a mintavételi hiba mûve, vagyis az elõírt terméseredmény elérhetõ. Kétmintás átlagokra vonatkozó próba, t-próba 2. példa: Egy édességgyártó üzem két csokoládékészítõ részlegét hasonlítottuk össze a csokoládék energiatartalma alapján. Mindkét fajtából 8-8 elemû mintát veszünk a feltevés ellenõrzésére, ezek jellemzõi: A fajta átlaga: 2010 kj/száz g A fajta szórása: 2,2 kj/száz g B fajta átlaga: 1995 kj/száz g B fajta szórása: 1,9 kj/száz g a) Mivel fogyókúrázunk, arra vagyunk kíváncsiak, hogy a két csokoládéfajta energiatartalma között van-e igazolt különbség tehát melyik csoki ener- 26
2. téma Hipotézisvizsgálatok giatartalma kevesebb, vagy a megfigyelt különbség csak a mintavétel hibájából fakad. b) Ha tapasztal igazolt különbséget, számítsa ki annak nagyságát! c) Értelmezze az eredményeket! A mintapélda megoldása: a) Mivel fogyókúrázunk, arra vagyunk kíváncsiak, hogy a két csokoládéfajta energiatartalma között van-e igazolt különbség tehát melyik csoki energiatartalma kevesebb, vagy a megfigyelt különbség csak a mintavétel hibájából fakad. 1. A szakmai kérdés megfogalmazása. A feladatunk tehát annak megfogalmazása, hogy a két csokoládéfajta energiatartalma között van-e tényleges minõségbeli különbség. 2. A nullhipotézis (alaphipotézis, H 0 ) és az alternatív vagy ellenhipotézis (H 1 ) megfogalmazása. Itt rögzítjük a szignifikanciaszintet ( ) is. H : x x H 0 1 2 0 : 2010 = 1995 =5% : H 1 : 2010 1995 H x x 1 1 2 3. Eldöntjük a próbafüggvény típusát, kiszámítjuk a minta (vagy minták) alapján a próbafüggvény aktuális értékét. Az aktuális próbafüggvény most a kétmintás t-próba, hiszen két különbözõ csokoládéfajta energiatartalmát hasonlítjuk össze, ennek megfelelõen a t-próbafüggvény értékének számítása a következõ formulával történik: x x t sd S p x x 1 2 1 2 1 1 n n 1 2 27
Egyszerûen statisztika 2. egyenlõ szórások A esetén, ahol S p 2 2 ( n 1) s ( n 1) s 1 1 2 2 7 190, 7 2, 20 n n 2 8 8 2 1 2 2010 1995 t 14, 56. 1 1 206, 8 8 2 2 206,, 4. A megfelelõ kritikusérték-táblázatból (t-táblázat) kikeressük a megfelelõ szabadságfokhoz és szignifikanciaszinthez tartozó kritikus (táblabeli) értéket, amely (0,05) szignifikanciaszinten B és n 1 +n 2 2=14szabadságfok esetén: t = 2,15 5. Döntünk arra vonatkozóan, hogy a nullhipotézist vagy az alternatív hipotézist fogadjuk-e el. Ennek alapján a H 1 ellenhipotézist fogadjuk el, mert a tapasztalati (számított) érték nagyobb, mint a táblázatbeli (kritikus) érték: 6. Szakmai következtetések levonása. 14,56 (t) 2,15 (t /2 ) Vizsgálataink alapján megállapíthatjuk, hogy az A fajta energiatartalma igazoltan (statisztikailag) különbözik a B fajta energiatartalmától, tehát a két csoki között minõségbeli különbség mutatkozik. A A szórások különbözõsége, illetve egyezõsége azért fontos, mert a kétmintás t-próba esetén két különbözõ képletet alkalmazhatunk. Ahhoz, hogy eldöntsük, melyik képlet alapján számítsuk ki az aktuális t-értéket, elõbb a szórásokat kell letesztelnünk, F-próbával. A szórásokra vonatkozó próbákkal a jelen fejezetben még megismerkedhet az olvasó. B Természetesen itt is kétoldalú próbáról van szó az alternatív hipotézis megfogalmazása alapján, így ebben az esetben is 2,5%-nál keressük ki a kritikus értéket. 28
2. téma Hipotézisvizsgálatok b) Ha tapasztal igazolt különbséget, számítsa ki annak nagyságát! A kétmintás t-próba esetén, amennyiben H 1 hipotézist fogadjuk el, lehetõségünk van arra, hogy kiszámítsuk a két mintaátlag közötti statisztikailag igazolt különbséget. Ennek érdekében ki kell számítanunk az SZD P% értékét, amely azt az adott szignifikanciaszinten felmerülõ maximális hibát jelenti, amely még mintavételi hibának tulajdonítható. Mindezek alapján a két mintaátlag között matematikailag is tapasztalható különbséget az alábbi módon bonthatjuk fel. A tapasztalt különbség felosztása 2.1. ábra Mintavételi hiba SZD P% Igazolt különbség 1995 2010 Tapasztalt különbség: 15 Forrás: A szerzõk saját szerkesztése Az ábrából kiolvasható, hogy a két csoki átlagos energiatartalma között tapasztalt matematikai különbség nem teljes mértékben a minõségi különbség oka, hanem részben a mintavétel hibájából fakad. A tényleges különbség a hiba feletti rész nagyságával egyenlõ. Az igazolt különbség számítása a következõképpen történik: SZD 5% =t 5% s d, ahol SZD 5% = az 5%-os szignifikanciaszinthez tartozó maximális hiba, t 5% = az 5%-os szignifikanciaszinthez tartozó kritikus t-érték (SZF = n 1 +n 2 2), amelyet már megnéztünk: 2,15, s d = különbségek hibaszórása, amely egyenlõ a t-próba értékének nevezõjével: 1,03. 29
Egyszerûen statisztika 2. Példánkban az SZD 5% értéke: 215, 013, 2, 21 Ez tehát a maximális hiba értéke, az igazolt különbség pedig a kezelésátlagok különbségének az SZD 5% -kal csökkentett értéke: c) Értelmezze az eredményeket! 2010 1995 2,21 = 12,79 Tehát az A fajta energiatartalma és a B fajta energiatartalma között 12,79 kj statisztikailag igazolható különbség van, 5%-os tévedési valószínûség mellett. Hétköznapi nyelven a 15 kj-os megfigyelt különbségbõl 2,79 kj a mintavételi hibának tulajdonítható, és csak az e feletti rész (12,79 kj) tekinthetõ statisztikailag igazoltnak, tehát az A csoki energiatartalma igazoltan ennyivel nagyobb a B csoki energiatartalmánál. 3. példa: Két búzafajta N-tartalmát hasonlítjuk össze, és azt vizsgáljuk, hogy a két búzafajta N-tartalma között van-e igazolt különbség. Mindkét fajtából 7-7 elemû mintát veszünk a feltevés ellenõrzésére, ezek jellemzõi: A fajta átlaga: 2,15 g/száz g A fajta szórása: 0,311 g/száz g B fajta átlaga: 1,95 g/száz g B fajta szórása: 0,108 g/száz g a) Állapítsa meg, hogy a két búzafajta N-tartalma között van-e igazolt különbség! b) Ha tapasztal igazolt különbséget, számítsa ki annak nagyságát! c) Értelmezze az eredményeket! 30
2. téma Hipotézisvizsgálatok A mintapélda megoldása: a) Állapítsa meg, hogy a két búzafajta N-tartalma között van-e igazolt különbség! 1. A szakmai kérdés megfogalmazása. Arra vagyunk tehát kíváncsiak, hogy a két búzafajta N-tartalma között van-e tényleges különbség! 2. A nullhipotézis (alaphipotézis, H 0 ) és az alternatív vagy ellenhipotézis (H 1 ) megfogalmazása. Itt rögzítjük a szignifikanciaszintet ( ) is. H : x x H 0 1 2 0 : 2,15 = 1,95 H : x x H 1 1 2 1 : 2,15 1,95 =5% 3. Eldöntjük a próbafüggvény típusát, kiszámítjuk a minta (vagy minták) alapján a próbafüggvény aktuális értékét. A mintapéldában 2 mintaátlag összehasonlítására kerül sor, ezért kétmintás t-próbát kell alkalmazni. Az aktuális próbafüggvény értékének számítása a következõ formulával történik: t x x 1 2 s d s d nem egyenlõ szórások C esetén, ahol 2 2 2 2 s s 1 2 031, 011, 0120,, n n 7 7 1 2 C A szórások különbözõsége, illetve egyezõsége azért fontos, mert a kétmintás t-próba esetén két különbözõ képletet alkalmazhatunk. Ahhoz, hogy eldöntsük, melyik képlet alapján számítsuk ki az aktuális t-értéket, elõbb a szórásokat kell letesztelnünk, F-próbával. A szórásokra vonatkozó próbákkal a jelen fejezetben még megismerkedhet az olvasó. 31
Egyszerûen statisztika 2. 215, 195, t 1,54. 013, 4. A megfelelõ kritikusérték-táblázatból (t-táblázat) kikeressük a megfelelõ szabadságfokhoz és szignifikanciaszinthez tartozó kritikus (táblabeli) értéket, amely (0,05) szignifikanciaszinten és n 1 +n 2 2=12szabadságfok esetén: 2,18 5. Döntünk arra vonatkozóan, hogy a nullhipotézist vagy az alternatív hipotézist fogadjuk-e el. A fentiek alapján a H 0 alaphipotézist fogadjuk el, mert a tapasztalati (számított) érték kisebb, mint a táblázatbeli (kritikus) érték: 1,54 (t) < 2,18 (t ) b) Ha tapasztal igazolt különbséget, számítsa ki annak nagyságát! Mivel az alaphipotézist fogadtuk el, azaz szignifikáns különbséget a két búzafajta N-tartamát illetõen nem tapasztalunk, ez a feladat okafogyottá vált. c) Értelmezze az eredményeket! 6. Szakmai következtetések levonása. Vizsgálataink alapján megállapíthatjuk, hogy az A fajta N-tartalma nem különbözik a B fajta N-tartalmától. 32