Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Hasonló dokumentumok
Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

KÖVETKEZTETŐ STATISZTIKA

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Statisztika elméleti összefoglaló

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Mintavételi eljárások

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

GVMST22GNC Statisztika II.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

A Statisztika alapjai

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

KUTATÁSMÓDSZERTAN 4. ELŐADÁS. A minta és mintavétel

[Biomatematika 2] Orvosi biometria

Az idősorok összetevői Trendszámítás Szezonalitás Prognosztika ZH

[Biomatematika 2] Orvosi biometria

y ij = µ + α i + e ij

Biomatematika 2 Orvosi biometria

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

STATISZTIKA. Mit nevezünk idősornak? Az idősorok elemzésének módszertana. Az idősorelemzés célja. Determinisztikus idősorelemzés

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

STATISZTIKA I. Mintavétel fogalmai. Mintavételi hiba. Statisztikai adatgyűjtés Nem véletlenen alapuló kiválasztás

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Többváltozós lineáris regressziós modell feltételeinek

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Hipotézis vizsgálatok

6. Előadás. Vereb György, DE OEC BSI, október 12.

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Normális eloszlás tesztje

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Több valószínűségi változó együttes eloszlása, korreláció

Statisztikai becslés

Mi az adat? Az adat elemi ismeret. Az adatokból információkat


Adatok statisztikai értékelésének főbb lehetőségei

Valószínűségi változók. Várható érték és szórás

Mintavétel. Kovács István BME Menedzsment és Vállalatgazdaságtan. Tanszék

Kettőnél több csoport vizsgálata. Makara B. Gábor

Statisztika Elıadások letölthetık a címrıl

Matematikai statisztikai elemzések 6.

Hipotézis vizsgálatok

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

A leíró statisztikák

Korreláció és lineáris regresszió

Bevezető Mi a statisztika? Mérés Csoportosítás

KÖZPONTI STATISZTIKAI HIVATAL. Szóbeli vizsgatevékenység

Készítette: Fegyverneki Sándor

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

A statisztika oktatásáról konkrétan

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika II előadáslapok. 2003/4. tanév, II. félév

A mintavétel szakszerűtlenségeinek hatása a monitoring-statisztikákra

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Lineáris regressziószámítás 1. - kétváltozós eset

Bevezetés a hipotézisvizsgálatokba

Regressziós vizsgálatok

A TÁRKI ADATFELVÉTELEINEK DOKUMENTUMAI. Omnibusz 2003/08. A kutatás dokumentációja. Teljes kötet

Valószínűségszámítás összefoglaló

[GVMGS11MNC] Gazdaságstatisztika

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

A mérési eredmény megadása

Korrelációs kapcsolatok elemzése

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

egyetemi jegyzet Meskó Balázs

Gyakorló feladatok. Az alábbi feladatokon kívül a félév szemináriumi anyagát is nézzék át. Jó munkát! Gaál László

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Biometria gyakorló feladatok BsC hallgatók számára

Biomatematika 13. Varianciaanaĺızis (ANOVA)

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Vizsgafeladatok. 1. feladat (3+8+6=17 pont) (2014. január 7.)

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

(Independence, dependence, random variables)

Statisztika II. tantárgyi kalauz

Mérési hibák

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Átírás:

Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László Publication date 1997 Szerzői jog 1997 dr. Korpás Attiláné, Sándorné dr. Kriszt Éva, Varga Edit, Veitzné Kenyeres Erika, Nemzeti Tankönyvkiadó Rt. Dr. Korpás Attiláné- főiskolai docens Sándorné Dr. Kriszt Éva - főiskolai docens (9. és 10. fejezet) Varga Edit - főiskolai adjunktus (11. fejezet) Veitzné Kenyeres Erika - főiskolai tanársegéd (6., 7. és 8. fejezet) A gyakorlófeladatokat: Dr. Korpás Attiláné állította össze. Szakmai lektor: Dr. Csernyák László - egyetemi tanár, tanszékvezető, a matematikatudomány kandidátusa A mű más kiadványban való részleges vagy teljes felhasználása, illetve utánközlése a kiadó engedélye nélkül tilos!

Tartalom 6. Mintavétel... 1 1. 6.1. Alapfogalmak, jelölések... 1 2. 6.2. Véletlen mintavételi eljárások... 3 2.1. 6.2.1. Független, azonos eloszlású minta kiválasztása... 4 2.2. 6.2.2. Egyszerű véletlen mintavétel... 4 2.3. 6.2.3. Szisztematikus mintavétel... 4 2.4. 6.2.4. Rétegzett mintavétel... 5 2.5. 6.2.5. Csoportos mintavétel... 6 2.6. 6.2.6. Többlépcsős mintavétel... 7 2.7. 6.2.7. Kombinált eljárások... 7 3. 6.3. Nem véletlen mintavételi eljárások... 8 4. 6.4. A mintajellemzők fontosabb tulajdonságai... 9 5. 6.5. Gyakorlófeladatok... 14 7. Statisztikai becslések... 17 1. 7.1. Alapfogalmak... 17 2. 7.2. A becslőfüggvényekkel szemben támasztott követelmények... 18 2.1. 7.2.1. Torzítatlanság... 18 2.2. 7.2.2. Konzisztencia... 19 2.3. 7.2.3. Hatásosság... 20 2.4. 7.2.4. Elégségesség... 20 3. 7.3. Intervallumbecslés... 20 3.1. 7.3.1. A sokaság várható értékének becslése... 20 3.2. 7.3.2. A sokasági értékösszeg becslése... 29 3.3. 7.3.3. A sokasági arány becslése... 30 3.4. 7.3.4. A sokasági szórásnégyzet becslése... 32 4. 7.4. A konfidenciaintervallum meghatározása rétegzett mintavétel esetén... 34 5. 7.5. A minta elemszámának meghatározása... 41 6. 7.6. Gyakorlófeladatok... 42 8. Hipotézisvizsgálat... 47 1. 8.1. A hipotézisvizsgálat alapfogalmai... 47 2. 8.2. A hipotézisvizsgálat során elkövethető hibák... 52 3. 8.3. A statisztikai hipotézisvizsgálat menete... 58 4. 8.4. Egymintás statisztikai próbák... 59 4.1. 8.4.1. A várható értékkel kapcsolatos próbák... 59 4.2. 8.4.2. A sokasági szórásra vonatkozó próba... 62 4.3. 8.4.3. A sokasági arányszámmal (valószínűséggel) kapcsolatos próba... 64 5. 8.5. Kétmintás statisztikai próbák... 65 5.1. 8.5.1. Két sokasági várható érték különbségének vizsgálata... 65 5.2. 8.5.2. Két sokasági arányra (valószínűségre) vonatkozó próba... 68 5.3. 8.5.3. Két sokasági szórás egyezőségére vonatkozó statisztikai próba... 70 6. 8.6. Egyéb hipotézisvizsgálatok... 72 6.1. 8.6.1. Illeszkedésvizsgálat... 72 6.2. 8.6.2. Függetlenségvizsgálat... 75 6.3. 8.6.3. Varianciaanalízis... 78 7. 8.7. Gyakorlófeladatok... 82 9. Kétváltozós korreláció- és regressziószámítás... 88 1. 9.1. Kétváltozós korrelációszámítás... 88 1.1. 9.1.1. A kovariancia... 89 1.2. 9.1.2. A lineáris korrelációs együttható... 93 1.3. 9.1.3. A rangkorrelációs együttható... 99 2. 9.2. Kétváltozós regressziószámítás... 104 2.1. 9.2.1. Az elméleti regresszió... 104 2.2. 9.2.2. A tapasztalati regresszió... 105 2.3. 9.2.3. A regressziófüggvény paramétereinek meghatározása... 110 2.4. 9.2.4. A változók felcserélhetősége... 123 2.5. 9.2.5. A rugalmassági együttható... 125 iii

Általános statisztika II 3. 9.3. Statisztikai következtetések a kétváltozós lineáris regresszió alapján... 126 3.1. 9.3.1. A regressziós modell feltételrendszere... 127 3.2. 9.3.2. A regressziós becslés pontosságának mérése... 127 3.3. 9.3.3. A regressziófüggvény paramétereinek intervallumbecslése... 131 3.4. 9.3.4. Regressziós becslések és prognózisok... 132 3.5. 9.3.5. A regressziófüggvény eredményeinek hipotézis-ellenőrzése... 134 3.6. 9.3.6. A reziduális változó vizsgálata... 138 3.7. 9.3.7. A paraméterek robusztus becslése... 140 4. 9.4. Nemlineáris regresszió... 142 5. 9.5. Gyakorlófeladatok... 148 10. Többváltozós korreláció- és regressziószámítás... 154 1. 10.1. A lineáris regressziófüggvény meghatározása... 154 1.1. 10.1.1. A háromváltozós lineáris regressziófüggvény... 154 1.2. 10.1.2. A legkisebb négyzetek módszere és tulajdonságai... 163 1.3. 10.1.3. A regressziófüggvény paramétereinek intervallumbecslése... 166 1.4. 10.1.4. A regressziófüggvény eredményeinek ellenőrzése... 167 1.5. 10.1.5. A varianciaanalízis alkalmazása a többváltozós regressziószámításban... 169 2. 10.2. Többváltozós korrelációszámítás... 171 2.1. 10.2.1. Páronkénti korrelációs együttható... 171 2.2. 10.2.2. Parciális korrelációs együttható... 174 2.3. 10.2.3. Többszörös korrelációs és determinációs együttható... 176 2.4. 10.2.4. A multikollinearitás és mérése... 177 3. 10.3. Néhány kiegészítés a regressziószámításhoz... 179 3.1. 10.3.1. Minőségi ismérvek kezelése a regressziós modellben... 180 3.2. 10.3.2. A tényezőváltozók kiválasztása... 181 4. 10.4. Gyakorlófeladatok... 182 11. Az idősorok összetevőinek vizsgálata... 186 1. 11.1. Az idősorok összetevői... 186 1.1. 11.1.1. Additív és multiplikatív komponensek... 187 2. 11.2. Trendszámítás... 189 2.1. 11.2.1. Trendszámítás mozgóátlagolással... 189 2.2. 11.2.2. Analitikus trendszámítás... 193 3. 11.3. A szezonalitás vizsgálata... 211 3.1. 11.3.1. Szezonális eltérések számítása... 211 3.2. 11.3.2. Szezonindexek számítása... 213 4. 11.4. Előrejelzés az eredmények alapján... 215 5. 11.5. Gyakorlófeladatok... 217 A. Függelék... 223 B. Tárgymutató... 241 iv

Az ábrák listája 6,1. A képviselők életkor szerinti megoszlásának hisztogramja... 11 6,2. A mintaátlagok megoszlásának hisztogramja 100 db 30 elemű minta alapján... 12 6,3. A mintaátlagok megoszlásának hisztogramja 100 db 100 elemű minta alapján... 13 7,1. A és becslőfüggvény eloszlás... 20 7,2. A konfidenciaintervallum ábrázolása... 22 7,3. A konfidenciaintervallum elhelyezkedése a mintavétel többszöri végrehajtása esetén... 23 7,4. A standard normális és a Student-féle t-eloszlás... 25 7,5. A sűrűségfüggvénye különböző szabadságfokok esetén... 32 8,1. Az elfogadási és a kritikus tartomány lehetséges elhelyezkedés... 49 8,2. ábra a. Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél... 50 8,2. ábra b. Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél... 50 8,2. ábra c. Az elfogadási és a kritikus tartomány elhelyezkedés a z próbafüggvénynél... 51 8,3. Az elfogadási és a kritikus tartomány elhelyezkedés... 53 8,4. Az α és a β grafikus meghatározása különböző alternatívhipotézisek esetén... 55 8,5. Az α és a β grafikus meghatározása különböző kritikus értékek esetén... 56 8,6. Az F-eloszlás sűrűségfüggvénye különböző szabadságfokok esetén... 70 9,1. Pontdiagramok különböző korrelációs együtthatókkal... 95 9,2. Rangszámpárok ábrázolása... 99 9,3. A munkában töltött évek számának és a bruttó kereseteknek megfelelő pontok... 108 9,4. A bruttó átlagkereset a munkában töltött évek számának függvényében a középfokú végzettségű nőknél... 108 9,5. Korrrelálatlanság... 109 9,6. Függvényszerű kapcsolat... 110 9,7. A függvénytípus kiválasztását segítő grafikus ábrák... 111 9,8. A legkisebb négyzetek módszere... 111 9,9. A megfigyelt adatok és a különböző módon számolt regressziófüggvények... 115 9,10. A szállítási távolság és a szállítás időtartamának pontdiagramja... 116 9,11. A koordináta-rendszer transzformációja... 118 9,12. A változók felcserélése... 124 9,13. A hibatényező eloszlásának vizsgálata... 139 9,14. A mérési hiba hatása a regressziófüggvényre... 142 10,1. A regressziós együtthatók közötti összefüggések... 162 10,2. Útdiagram... 162 11,1. Az idősorok komponensei... 187 11,2. A háztartások gázfelhasználásának alakulása Nógrád megyében 1990 és 1994 között... 192 11,3. A népesség természetes fogyásának alakulása Nógrád megyében... 199 11,4. Az ellátatlan munkanélküliek létszámának alakulása... 201 11,5. A kiemelt üdülőövezet vendéglétszámának idősora és exponenciális trendje... 206 11,6. Az urántermelés parabolikus trendje... 209 v

A táblázatok listája 6.1. A sokaság típusa, a mintavétel módja és a mintaelemek kapcsolata... 3 6.2. 30 elemű minták mintaátlagainak megoszlása... 11 6.3. A 100 elemű minták átlagai... 12 6.4. 100 elemű minták mintaátlagainak megoszlása... 12 7.1. A mintába került üvegek nettó töltési tömeg szerinti megoszlása... 28 7.2. A mintába került kávécsomagok megoszlása... 33 7.3. A rétegzett mintából történő becslés jelölésrendszere... 35 7.4. A számításhoz szükséges adatok... 38 7.5. A sokaság és a minta elemszámának megoszlása... 38 7.6. 1000 elemű minta adatai... 39 8.1. A hipotézisvizsgálat során hozott döntések és bekövetkezésük valószínűsége... 52 8.2. A másodfajú hiba elkövetésének valószínűsége különböző ellenhipotézisek esetén... 55 8.3. Az z-próba elfogadási tartományának határai szignifikanciaszint mellett... 59 8.4. A t-próba elfogadási tartományának határai α szignifikanciaszint mellett... 61 8.5. A elfogadási tartományának határai α szignifikanciaszint mellett... 63 8.6. Két mintát igénylő próbák esetén alkalmazott jelölések... 65 8.7. A 10 elemű minta mérési eredményei... 67 8.8. Az F-próba elfogadási tartományai α szignifikanciaszint mellett... 71 8.9. A minta valamilyen ismérv szerinti megoszlása... 72 8.10. A kiválasztott vendégek kiszolgálási idő szerinti megoszlása... 74 8.11. A próbafüggvény számított értékének meghatározására szolgáló munkatábla... 75 8.12. A megkérdezett személyek nemhez való tartozás és beosztás szerinti megoszlása... 77 8.13. Munkatábla a próbafüggvény aktuális értékének meghatározásához... 77 8.14. Varianciaanalízis-tábla sémája... 80 8.15. Az egyes dolgozók teljesítményadatai... 81 9.1. Az olvasók megoszlása kölcsönzési idő és a kölcsönzött kötetek szerint... 90 9.2. Az olvasók megoszlása kölcsönzési idő és a kölcsönzött kötetek szerint... 91 9.4. Munkatábla a lineáris korrelációs együttható kiszámításához... 98 9.5. A versenyen elért helyezések... 99 9.6. Munkatábla a rangkorrelációs együttható kiszámításához... 102 9.7. Munkatábla a rangkorrelációs együttható kiszámításához... 103 9.8. A hallgatók létszámmegoszlása... 106 9.9. A hallgatók matematika- és statisztika-vizsgaeredményei közötti kapcsolat tapasztalati regressziófüggvénye... 106 9.11. A munkában töltött évek száma és a havi átlagkereset tapasztalati regressziófüggvénye a középfokú végzettségű nőknél... 108 9.12. Munkatábla az analitikus regressziófüggvény meghatározásához... 114 9.13. Munkatábla a normálegyenletekkel történő megoldáshoz... 117 9.14. Munkatábla a transzformált normálegyenletekkel történő megoldáshoz... 120 9.15. A maradék-négyzetösszeg kiszámításának táblázata... 129 9.16. Varianciaanalízis-tábla... 137 9.17. Varianciaanalízis-tábla... 138 9.18. Eredménytábla a szállítási távolság és a szállítási idő közötti összefüggés vizsgálatához... 139 9.19. A feljegyzett adatok táblázata... 141 9.20. Munkatábla a reziduumok számítására... 141 9.21. A megmaradó adatok táblázata a... 142 9.22. Munkatábla a hatványkitevős regressziófüggvény meghatározásához... 145 9.23. A tokaji aszú életkora és eladási ára közötti összefüggés... 146 9.24. Munkatábla az exponenciális regressziófüggvény meghatározásához... 147 10.1. A szállítási idő vizsgálatára vonatkozó adatok... 157 10.2. Számítások a transzformált változók alapján... 158 10.3. A maradéktag négyzetösszegének kiszámítása... 165 10.4. Az eddigi részeredmények... 167 10.5. A regressziófüggvény paramétereinek ellenőrzéséhez szükséges részeredmények... 168 10.6. A varianciaanalízis-tábla többváltozós regressziószámítás esetén... 169 vi

Általános statisztika II 10.7. A varianciaanalízis-tábla... 170 10.8. A 20 elemű minta adatai... 173 10.9. Az felbontása... 178 10.10. Az felbontása... 178 11.1. Háromtagú mozgóátlagok számítása ( )... 189 11.2. Négytagú mozgóátlagok számítása ( )... 190 11.3. A háztartások számára értékesített gázmennyiség Nógrád megyében 1990 és 1994 között negyedéves bontásban... 191 11.4. A mozgóátlagolású trendszámítás munkatáblája ( )... 191 11.5. A népesség természetes fogyásának alakulása Nógrád megyében... 195 11.6. Munkatábla a paraméterek meghatározásához... 196 11.7. Munkatábla a paraméterek meghatározásához... 197 11.8. A legkisebb négyzetek módszerének megfelelő négyzetösszeg kiszámítása... 197 11.9. Az ellátatlan munkanélküliek létszámának alakulása Nógrád megyében 1991 és 1994 között (ezer fő)... 199 11.10. Munkatábla az ellátatlan munkanélküliek létszámának alakulását kifejező lineáris trendfüggvény kiszámításához... 200 11.11. A legkisebb négyzetek módszerének megfelelő négyzetösszeg kiszámításának munkatáblája 202 11.12. Egy kiemelt üdülőövezet vendégeinek létszáma 1982 és 1992 között... 204 11.13. A legkisebb négyzetek módszerének megfelelő négyzetösszeg számítása... 206 11.14. A trendtől való eltérések összehasonlítása... 207 11.15. Az urántermelés alakulása Magyarországon... 208 11.16. Az egyedi szezonális eltérések számítási táblázata... 211 11.17. Egy márkakereskedő személygépkocsi-értékesítésének adatai... 214 11.18. Munkatábla az egyedi szezonindexek kiszámításához... 214 11.19. A személygépkocsi-értékesítés szezonalitását jellemző szezonindexek... 216 11.20. A trend és a szezonhatás előrejezése... 216 1. A standard normális eloszlású valószínűségi változó eloszlásfüggvényének táblázata... 223 1. A standard normális eloszlású valószínűségi változó eloszlásfüggvényének táblázata (folytatás) 225 2. A -eloszlás táblázata... 226 2. A -eloszlás táblázata (folytatás)... 228 3. AzF-eloszlás táblázata... 229 3. Az F-eloszlás táblázata (folytatás)... 231 3. Az F-eloszlás táblázata (folytatás)... 232 3. Az F-eloszlás táblázata (folytatás)... 234 3. Az F-eloszlás táblázata (folytatás)... 235 3. Az F-eloszlás táblázata (folytatás)... 237 4. A Student-féle t-eloszlás táblázata... 238 vii

6. fejezet - Mintavétel 1. 6.1. Alapfogalmak, jelölések Tankönyvünk első kötetében a megfigyelt statisztikai sokaság elemzésére szolgáló különböző eszközökkel, mutatószámokkal ismerkedtünk meg. A sokaságot ismertnek feltételezve, figyelmünket csak arra fordítottuk, hogyan lehet annak összetételét, változását, törvényszerűségeit megvizsgálni. Nem tértünk ki részletesen arra, hogy az alapadatokhoz teljes körű vagy részleges felvétellel jutottunk. Utólag azt mondhatjuk, hogy az eddigiek során megfigyelésünk a sokaság minden elemére kiterjedt, tehát elemzéseink a sokaság teljes körű megfigyelésén alapultak. Ebben a kötetben olyan módszerekkel ismerkedünk meg, amelyekhez nem szükséges a sokaság minden egyes elemének megfigyelése, mivel erre gyakran nincs is lehetőségünk. A társadalmi-gazdasági statisztikában azonban az adatokhoz való hozzájutás gyakori formája a részleges adatgyűjtés, melynek egyik módja a reprezentatív megfigyelés. Reprezentatív megfigyelésre vagy más néven mintavételes megfigyelésre van szükség pl. a lakosság életkörülményeivel kapcsolatos kérdések (jövedelem, fogyasztási szokások stb.) megválaszolásához, a tömegtermelés minőség-ellenőrzési eljárásaihoz vagy a közvélemény-kutatásokhoz. Ily módon becsüljük pl. a várható termés mennyiségét a mezőgazdaságban vagy a kisvállalkozások tevékenységének eredményeit is. (Ilyen jellegű kérdésekkel már a Valószínűségszámítás c. tárgyban is foglalkoztunk.) A reprezentatív megfigyelés, röviden szólva a mintavétel célja, hogy valamely sokaság egy részének megfigyelése révén következtetéseket tudjunk levonni a sokaság egészére, annak jellemzőire, összetételére vonatkozóan. Azt a sokaságot, amelyre a mintavétel segítségével következtetni szeretnénk, alap sokaságnak, az alapsokaság azon részét, amely alapján a következtetéseket levonjuk, mintasokaságnak nevezzük. A továbbiakban az alapsokaságot röviden sokaságnak, a mintasokaságot pedig mintának fogjuk nevezni. Tekintsük át először a sokaság megadásának módjait és a legfontosabb sokasági jellemzőket. A sokaság elemszáma lehet véges vagy végtelen. Legyen X a sokaság egy ismérve. Ha a sokaságból véletlenszerűen kiemelünk egy egyedet, ennek ismérvértéke a véletlentől függ, ezért valószínűségi változó, ezt a véletlentől függő ismérvértéket jelölje eloszlásfüggvénye Ekkor Véges sokaság esetén az egyedeket, illetve azok ismérvértékeit nagyság szerint sorba rendezhetjük. Az ismérvértékek legyenek (N az egyedek száma). Ekkor A várható értéke, vagy másképpen a sokaság ismérvértékének várható értéke véges sokaság esetén mint ismeretes az átlaggal egyenlő: szórásnégyzete 1

Mintavétel Végtelen elemszámú sokaság esetén két esetet különböztetünk meg. Ha diszkrét valószínűségi változó, ami azt jelenti, hogy az ismérvértékek véges vagy megszámlálhatóan végtelen halmazt alkotnak, akkor az F eloszlásfüggvény szintén egy lépcsősfüggvény (az intervallumban állandó), várható értéke Ha folytonos és létezik a sűrűségfüggvénye, akkor a várható értéke (ha ez az improprius integrál is létezik). A szórásnégyzetet a szokásos módon kapjuk: (A jobb oldalon szereplő várható értékeknek is létezniük kell.) A gyakorlatban a mintavétel általában véges sokaságból történik. Ugyanakkor a nagy elemszámú sokaságokat tekinthetjük végtelennek, így a végtelen elemszámú sokaságra kidolgozott eszközök jól használhatók ezen sokaságok esetén is. Ezek után tekintsük át a mintával kapcsolatos alapfogalmakat. A minta elemszáma, tekintet nélkül arra, hogy véges vagy végtelen sokaságból származik, mindig véges. Elemszámát n-nel jelöljük. Az egyes mintaelemek valószínűségi változók, értékük mintáról mintára változhat. Ezeket célszerű -nel jelölni. A minta elemei csak addig tekinthetők változóknak, míg a mintavétel nem történt meg, a minta elemeinek kiválasztása után konkrét számértékek lesznek: A mintából különböző mintajellemzők (átlag, szórás, értékösszeg, arány stb.) számíthatók. Miután a minta elemei valószínűségi változók, az ezekből számított mintajellemzők is valószínűségi változók lesznek, értékük mintáról mintára változhat attól függően, hogy mely sokasági elemek kerültek a mintába. Ez a mintajellemzőknek nagyon fontos tulajdonsága. A véges elemszámú sokaságból történő mintavételnél alapvető fontosságú, hogy rendelkezésre álljon egy ún. mintavételi keret, amely egyenként tartalmazza a vizsgálni kívánt sokaság elemeit, mégpedig mindegyiket, és mindegyiket csak egyszer. Egy ilyen teljes keret biztosítása sokszor nem könnyű feladat, mert vannak olyan sokaságok, amelyeknél az elemek száma és összetétele napról napra változik, s bármilyen jó is a megszűnő és az újonnan létrejövő egységek nyilvántartása, ez szükségszerűen különbözik a mintavételi keret összeállításakor létező sokaságtól. (Ilyen nehézség léphet fel a mintavételi keret összeállításánál, ha a sokaságot pl. Magyarország népessége vagy a Magyarországon működő kisvállalkozások stb. képezik.) A mintavétel tervezése, a mintavételi eljárás megválasztása során két egymásnak ellentmondó követelményt kell figyelembe vennünk. Az egyik követelmény a pontosság, a másik az olcsóság. Mivel az egyik követelmény előtérbe helyezése a másik háttérbe szorulását jelenti, lényeges a mintavétel tervezése során az elvárt célok és a lehetséges eszközök pontos megfogalmazása, számbavétele. Az, hogy ezen követelményeket mennyire vesszük figyelembe a mintavétel tervezése során, lényegesen befolyásolja a mintaelemek kiválasztási eljárását. A következőkben a mintaelemek kiválasztási módjait tekintjük át. A mintaelemek kiválasztása visszatevéssel vagy visszatevés nélkül történhet. Végtelen (vagy végtelennek tekintett) elemszámú sokaságból akár visszatevéssel, akár visszatevés nélkül választjuk ki a minta elemeit, azok mint valószínűségi változók minden esetben függetlenek lesznek egymástól. Véges sokaság esetén csak a visszatevéses mintavétel eredményez független mintaelemeket. A mintaelemek ezen tulajdonságára a későbbiek során még visszatérünk. Az elmondottakat a 6.1. táblázatban foglaltuk össze. 2

Mintavétel 6.1. táblázat - A sokaság típusa, a mintavétel módja és a mintaelemek kapcsolata A sokaság elemszáma A mintavétel módja A mintaelemek végtelen visszatevéses visszatevés nélküli függetlenek véges visszatevéses visszatevés nélküli nem függetlenek Az elmondottak alapján különbséget teszünk független mintavételi eljárások és nem független mintavételi eljárások között. Véges sokaság esetén a minta fontos jellemzője a kiválasztási arány, amely azt mutatja meg, hogy a sokaság elemeinek mekkora hányada kerül a mintába. Adott N mellett annál nagyobb valószínűséggel lehet a mintából a sokaságra következtetni, minél nagyobb a kiválasztási arány. Az n-nek, a minta elemszámának azonban nagyobb jelentősége van a kiválasztási aránynál, mert ez határozza meg a mintából való következtetésnél használható módszereket. A mintavétel során és a mintából történő következtetésnél meg kell különböztetnünk a kis és a nagy minta fogalmát. Ennek jelentőségét az adja, hogy a mintából számított jellemzők nagy részének (pl. mintaátlag, mintabeli arány) eloszlása nagy minta esetén közelítőleg normális eloszlásúvá válik, ennélfogva kezelésük egyszerűsödik. (Ezen megállapításra a későbbiek során még visszatérünk.) Felvetődik a kérdés, hogy mi tekinthető kis, illetve nagy mintának. Azt mondhatjuk, hogy már nagy mintának tekinthető, azaz egyes mintajellemzők eloszlásfüggvényei ezen mintaelemszám fölött már közelítőleg normális eloszlásúvá válnak. A mintanagysághoz szorosan kapcsolódik a mintavételi hiba fogalma. A mintavételi hiba abból adódik, hogy a sokaság egy részéből következtetünk az egészre. Meghatározásának módszerei matematikailag kidolgozottak. Nagysága, illetve annak valószínűsége a sokaság jellege, az alkalmazott mintavételi eljárás és a mutató fajtája mellett alapvetően a mintanagyságtól függ, hiszen a mintanagyság növelésével a sokaság egyre nagyobb részét vizsgáljuk meg, s így egyre kisebbé válik a mintavételből eredő nagy hiba valószínűsége. A mintaelemek kiválasztása során elkövethetünk ún. nem mintavételi hibát is, amely több forrásból adódhat: többek között a sokaságot nem tökéletesen fedi le a mintavételi keret (pl. ilyen fordulhat elő, ha a megfigyelt sokaság a Magyarországon működő kisvállalkozások), nem sikerül a megfigyeléseket a terv szerint végrehajtani, válaszmegtagadás vagy egyéb okok miatt hiányoznak adatok. Hiba adódhat abból is, hogy a kérdésekre kapott válaszok nem egészen pontosak (tudatosan vagy önhibáján kívül téves adatot szolgáltat a válaszadó), vagy hibákat követhetnek el a kódolás, táblázás stb. során. Az ilyen típusú hibák nagyságát nehéz meghatározni. Vizsgálatuknak, feltárásuknak elsődlegesen az a célja, hogy a mintavétel tervezésének és végrehajtásának különböző fázisaiban hatásukat csökkenteni lehessen. Egy mintából csak akkor lehet számítható megbízhatóságú következtetéseket levonni a sokaságra vonatkozóan, ha a minta elemeit nem önkényesen, hanem véletlenszerűen választjuk ki. A véletlenszerűség nem feltétlenül jelenti azt, hogy a sokaság minden egyes elemének egyenlő esélye van a mintába történő kerülésre, hanem csak azt jelenti, hogy minden elemhez egy előre meghatározott ismert valószínűség tartozik, és biztosítjuk, hogy ezzel a valószínűséggel kerüljön be a mintába az adott elem, továbbá azt, hogy a mintaelemek kiválasztási eljárásának előre meghatározottnak és egyértelműnek kell lennie. Ha a minta elemeit véletlenszerűen választjuk ki a sokaságból, véletlen (vagy valószínűségi) mintát kapunk. Attól függően, hogy a mintavétel során biztosítjuk-e a véletlenszerűséget vagy sem, különböző mintavételi eljárásokról beszélhetünk. 2. 6.2. Véletlen mintavételi eljárások 3

Mintavétel 2.1. 6.2.1. Független, azonos eloszlású minta kiválasztása Független, azonos eloszlású mintát akkor kapunk, ha homogén és végtelen (vagy nagyon nagy) sokaságból veszünk véletlen (visszatevéses vagy visszatevés nélküli) mintát, illetve amikor véges sokaságból visszatevéssel választjuk ki a minta elemeit. Tehát független mintát veszünk. Ilyenkor a minta elemei (vagy függetlennek tekinthető), azonos eloszlású valószínűségi változók lesznek. független Ugyanis az i-edik mintaelem ismérvértékére nyilvánvalóan igaz, hogy tehát az egyes mintaelemek mint valószínűségi változók eloszlása a ismérvérték sokaságbeli eloszlásával azonos. Alkalmazása elsősorban a tömegtermelés minőség-ellenőrzésénél célszerű. Például azonos eloszlású, független mintához jutunk, ha az 1 kg-os liszt töltési tömegének ellenőrzéséhez mintát veszünk. Ekkor a sokaság végtelennek tekinthető, így a minta elemei minden esetben függetlenek lesznek. A gyakorlatban azonban nem túl gyakran jutunk független, azonos eloszlású mintához, mivel a valóságban ritkán áll rendelkezésünkre végtelen vagy végtelennek tekinthető sokaság, vagy véges sokaság esetén nem minden esetben van lehetőség a mintaelemek megvizsgálása után a sokaságba történő visszatevésre (pl. egy adott cégtől vásárolt gumiabroncsok elhasználódásának minőségi vizsgálatakor). Ennek ellenére ez a mintavételi eljárás későbbi vizsgálataink során kiemelt szerepet kap, mert matematikailag rendkívül könnyen kezelhető, és ezen a mintatípuson keresztül lehet a legkönnyebben megmutatni a sokasági és a mintajellemzők kapcsolatát. 2.2. 6.2.2. Egyszerű véletlen mintavétel Egyszerű véletlen mintavételt hajtunk végre homogén, véges elemszámú sokaság esetén, amikor a mintát visszatevés nélkül választjuk ki, elemenként egyenlő valószínűséggel. (Ezt az esetet a valószínűségszámításban is vizsgáltuk.) A végrehajtásához egy, a mintavételi keret minden elemét, de mindegyiket csak egyszer tartalmazó komplex lista szükséges. Ezen listából a mintaelemek kiválasztása történhet sorsolással, ún. véletlenszám-táblázattal, illetve számítógépes véletlenszám-generálással. A visszatevés nélküliség követelményét a sorsolásnál oly módon biztosíthatjuk, hogy a kihúzott cédulákat nem tesszük vissza az urnába, míg a véletlenszám-táblázatnál, illetve a számítógépes véletlenszám-generálásnál az ismételten előforduló sorszámot átugorjuk, és haladunk tovább a táblázatban, illetve a számítógép által előállított listában. Az egyszerű véletlen mintavétel során különböző összetételű mintát kaphatunk. Minden n elemű minta előfordulásának a valószínűsége ugyanakkora. Természetesen a mintavétel végrehajtása után csak egyetlenegy mintánk lesz, s ebből következtetünk a sokaság jellemzőire. A gyakorlatban a sokaságok ritkán homogének, ezért az egyszerű véletlen mintavétel tiszta alkalmazása sem fordul elő gyakran, de ugyanakkor kiindulópontként szolgál a bonyolultabb eljárásokhoz. 2.3. 6.2.3. Szisztematikus mintavétel A gyakorlatban a véletlen kiválasztást a szisztematikus mintavétellel lehet legegyszerűbben megvalósítani. Az eljárás lényege a következő: egy n elemű mintát kívánunk venni egy N elemű sokaságból. Ehhez először a sokaságot valamely szempont szerint sorba rendezzük általában eleve adott egy sorrend, majd meghatározzuk a számértéket, ahol a szám egész részét jelenti. Az első k elem közül egyenlő valószínűséggel kiválasztjuk a kiindulópontot, s ezután szisztematikusan az erre következő minden k-adik elem kerül be a mintába. A szisztematikus mintavétel végrehajtása rendkívül egyszerű, nem igényel szakismeretet, ellenőrzése is könnyű. Ezen mintavételi eljárás azonban csak akkor eredményez véletlen mintát, ha a listaképző ismérv és a megfigyelt 4

Mintavétel ismérv között nincs sztochasztikus kapcsolat. Súlyos torzítást okozhat az is, ha a lista rejtett trendet vagy periodicitást tartalmaz. Tekintsük a következő példát. Valamely főiskola hallgatóinak akikről rendelkezésre áll egy ábécé szerinti lista a tandíjfizetéssel kapcsolatos véleményére vagyunk kíváncsiak. Ekkor a szisztematikus mintavétel nagy valószínűséggel véletlen mintát fog eredményezni, hiszen nagyon valószínű, hogy a hallgató nevének kezdőbetűje és a tandíj fizetéséről alkotott véleménye között nincs sztochasztikus kapcsolat. Ebben az esetben a szisztematikus kiválasztás egyszerűsíti a munkát. 2.4. 6.2.4. Rétegzett mintavétel Minden mintavételnél felmerül az a kérdés, hogyan lehet a mintaelemek kiválasztását úgy végrehajtani, hogy az meghatározott mintanagyság mellett minél jobban reprezentálja a vizsgálni kívánt sokaságot. Célszerű továbbá olyan becslési eljárásokat alkalmazni, amelyek minél kisebb hibával becsülik az ismeretlen sokasági jellemzőt. A leggyakrabban alkalmazott ilyen eljárás az ún. rétegzett mintavétel. A rétegzett mintavétel során a vizsgált ismérv szempontjából heterogén sokaságot több homogén (minél kisebb szórású) részsokaságra (rétegekre) bontjuk úgy, hogy a csoportok kiadják a teljes sokaságot, továbbá egyetlen sokasági elem se tartozzon két vagy több csoportba. Az egyes rétegeken belül a minta elemeinek a kiválasztása egyszerű véletlen mintavétellel történik. A rétegzett mintavétel eredményeként egyrészt jobb keresztmetszetet kapunk a vizsgált sokaság összetételéről, másrészt az egyes rétegek nagyobb homogenitása miatt ezeken belüli kisebb mintákból is megfelelő pontosságú következtetést vonhatunk le. Ilyen módon az eredetileg heterogén sokaságra ugyanakkora minta esetén pontosabb következtetést tudunk levonni rétegzett mintából, mint ha egyszerű véletlen mintavételt alkalmaztunk volna. A rétegzés nem csupán pontosságnövelő hatása miatt elterjedt mintavételi eljárás. A rétegzett kiválasztást arra is felhasználhatjuk, hogy az egyes rétegek sokasági jellemzőire megbízható becslést adjunk. Pl. az egyik kisvárosunkban a háztartások jövedelemviszonyait szeretnénk megvizsgálni. Ehhez a város háztartásait a gyermekszám alapján rétegekbe soroljuk. A mintavétel végrehajtása után lehetőség van egyrészt a kisvárosban lévő háztartások egy főre jutó jövedelmének, másrészt az egyes rétegek tehát a gyermektelen, az 1 gyermekes, a 2 gyermekes stb. háztartások esetén az egy főre jutó jövedelemnek a becslésére. Rétegzett mintavételt alkalmaz többek között a Központi Statisztikai Hivatal negyedéves rendszerességgel az 50 vagy kevesebb főt foglalkoztató iparba és a kivitelező építőiparba sorolt kisszervezetek reprezentatív megfigyelésére. (Az 50 főt meghaladó létszámú szervezetek megfigyelése teljes körű és folyamatos.) A rétegzés során több szempontot is figyelembe vettek: jogi személyiségű-e a gazdasági társaság; a jogi személyiségű társaságokon belül 21 és 50 fő közötti vagy 21 fő alatti létszámkategóriába tartozik-e; budapesti vagy vidéki székhelyű-e, illetve azt, hogy mikor alakult meg a gazdasági társaság. Ezen szempontok alapján a feldolgozóiparban 16, a kivitelező építőiparban 12 réteget alakítottak ki 1 a vizsgálat végrehajtásához. A továbbiak megértéséhez néhány újabb jelölés bevezetésére van szükség. A sokaság rétegeinek számát M-mel jelöljük, az egyes rétegeken belül a sokaság elemszáma pedig: ekkor: Rétegenként elemű mintákat veszünk, és a mintákra igaz, hogy 1 A módszer részletes leírása Dr. Telegdi László: Az ipari és építőipari kisszervezetek reprezentatív megfigyelése (Statisztikai Szemle 1993. március) c. tanulmányában olvasható. 5

Mintavétel Felvetődik a kérdés, hogy hogyan osszuk el a minta elemeit az egyes rétegek között. A mintaelemek szétosztása történhet arányos elosztással, illetve nem arányos elosztással. a) Az arányos elosztás lényege, hogy a mintában a sokasági rétegarányoknak megfelelően választjuk meg a minta elemszámát, tehát adott réteg aránya a mintában és a sokaságban megegyezik, azaz Ezt a kedvező tulajdonságot a későbbi számításoknál fogjuk felhasználni. A j-edik réteg mintaelemszámát ekkor a következő összefüggéssel állapíthatjuk meg: b) A nem arányos elosztás során a mintában a rétegarányok nem egyeznek meg a sokaságbeli arányokkal. Tehát A következőkben a nem arányos elosztáshoz tartozó néhány, a statisztikai gyakorlatban legtöbbször előforduló eljárást mutatunk be. Egyenletes elosztás során minden egyes rétegbe azonos számú mintaelem kerül. Így a j-edik réteg mintaelemszáma lesz. Előnyös tulajdonsága, hogy egyszerű, semmilyen tervezési előkészítést nem igényel, végrehajtása kényelmes. Hátránya pedig, hogy az egyes rétegek nagyságát, szórását stb. nem veszi figyelembe a szükséges mintaelemszám meghatározásához. Így nagyfokú torzítást okozhat. A Neyman-féle optimális elosztás végrehajtásához szükséges, hogy előre ismerjük (vagy legalább hozzávetőlegesen becsülni tudjuk) a sokaság rétegenkénti szórásait. Ekkor rögzített mintaelemszám mellett kedvezőbb tulajdonságú mintát kapunk, ha nagyobb szórású rétegből aránylag nagyobb, kisebb szórásúból pedig kisebb mintát veszünk. Ezt az eljárást a rendszeres időközönként megismétlődő megfigyeléseknél alkalmazzák. Így a megelőző időszak eredményei felhasználhatók az egyes rétegek mintaelemszámának meghatározásához. A j-edik réteg mintaelemszáma az alábbi összefüggés alapján határozható meg: ahol a j-edik réteg elemszáma a sokaságban, a j-edik réteg szórása a sokaságban, n: a minta elemszáma. 2.5. 6.2.5. Csoportos mintavétel Az egyszerű véletlen, a szisztematikus és a rétegzett mintavétel során feltételeztük, hogy rendelkezésünkre áll egy olyan lista a mintavételi keret, amely a sokaság összes elemét tartalmazza, s ebből választjuk ki a mintát. A gyakorlati feladatok egy részénél azonban ilyen lista nem áll rendelkezésre, bár elkészíthető volna, de előállítása költséges és munkaigényes lenne. Más esetekben rendelkezésre áll ugyan a lista, de ha abból választanánk ki közvetlenül a mintaelemeket, a felvétel végrehajtása rendkívül költséges lenne. Ezen 6

Mintavétel feladatoknál célszerű a sokaság elemeit nem közvetlenül kiválasztani, hanem ezek természetes vagy mesterséges csoportjait megfigyelni. A csoportos mintavétel során a homogén sokaság elemeinek (természetes vagy mesterséges) csoportjai közül egyszerű véletlen mintát veszünk, majd a kiválasztott csoportokon belül minden egyes egyedet megfigyelünk. A csoportos mintavétel esetén a költségtakarékosságot tartjuk elsődleges szempontnak, míg a megfigyelés megbízhatósága némileg háttérbe szorul. Bizonyos esetekben a csoportos mintavétel segítségével, ugyanazon költségkeret mellett lényegesen nagyobb mintához juthatunk, mint egyszerű véletlen mintavétellel. Nézzünk néhány példát a csoportos mintavétel alkalmazására. Egy adott évben vizsgálni kívánjuk a szakközépiskolában végzettek továbbtanulását, illetve munkába állását az érettségi után 3 hónappal. Ha egyszerű véletlen mintavételt hajtanánk végre, akkor az országban található valamennyi szakközépiskola végzős évfolyamának tanulóiról teljes körű listát kellene összeállítani. A mintát ebből a listából kellene kiválasztani. Egy ilyen lista összeállítása rendkívül nehézkes és költséges lenne. További jelentős költséget jelentene, hogy az így kiválasztott diákok területileg is rendkívül szétszórtan helyezkednek el, így az információk begyűjtése is hosszadalmas lenne. Ha azonban csoportos mintavételt végzünk, akkor a középiskolák rendelkezésre álló országos listájából egyszerű véletlen mintavétellel kiválaszthatunk néhány középiskolát. Ilyenkor a kiválasztott iskola végzős évfolyamának valamennyi hallgatója belekerül a mintába, s a felvétel során mindannyiukat meg kell kérdezni. Ebben az esetben a csoportok területi koncentráltsága miatt a csoportos mintavétel olcsóbb, mint az egyszerű véletlen mintavétel. Az egyik nagy országos politikai párt valamely döntés meghozatala előtt kíváncsi a tagság véleményére. Ekkor egyszerűbb és olcsóbb a helyi pártszervezetek közül néhányat egyszerű véletlen mintavétellel kiválasztani, s ezeknél minden párttagot megkérdezni, mint egy részletes címlistát összeállítani a párt tagságáról. Csak akkor célszerű a csoportos mintavétel alkalmazása, ha a helyi szervezeteken belül a párt tagjainak véleménye nem azonos a vizsgált kérdésről. Ellenkező esetben a csoportos mintavétel torz eredményre vezethet. A fenti példákból is kitűnik, hogy a csoportos mintavétel során kétféle egység különül el: elsődleges mintavételi egység, amelyre a felvétel közvetlenül irányul (iskolák, helyi szervezetek), végső mintavételi egység, amelyre vonatkozóan következtetéseket akarunk levonni a kapott mintából (tanulók, párttagok). 2.6. 6.2.6. Többlépcsős mintavétel A többlépcsős mintavételt hasonló esetekben alkalmazzuk, mint a csoportos mintavételt amelyet egylépcsősnek is szoktak nevezni, azzal a különbséggel, hogy többször ismételjük meg egymás után az egyszerű véletlen mintavételt, tehát a mintaelemek kiválasztása több fokozatban, több lépcsőben történik. A mintavétel végrehajtása során először kiválasztjuk az elsődleges mintavételi egységeket. Attól függően, hogy hányszor ismételjük meg egymás után az egyszerű véletlen kiválasztást, két-, három- vagy többlépcsős mintavételről beszélhetünk. Ha az elsődleges mintavételi egységeken belül rögtön a megfigyelni kívánt elemeket választjuk ki (egyszerű véletlen mintavétellel), akkor kétlépcsős a mintavétel. Ha az elsődleges mintavételi egységeken belül először újabb nagyobb csoportokat választunk ki, majd az így képzett csoportokból választjuk ki a mintaelemeket, akkor a mintavétel három- (vagy több-) lépcsős lesz. A többlépcsős mintavétel előnye a csoportos kiválasztással szemben, hogy homogén elsődleges mintavételi egységek homogenitása esetén a teljes körű megfigyelés helyett mintára támaszkodik, s ezáltal csökken a fölösleges adatfelvételek száma, s így ugyanakkora elemszámú minta esetén kisebb a mintavételi hiba valószínűsége, mint a csoportos mintavételnél. Előző példánkat folytatva, ha a helyi szervezetekben nem kérdeznek meg minden párttagot, hanem egyszerű véletlen mintavétellel kiválasztanak néhányat, s csak ezeknek teszik fel a megfelelő kérdéseket, akkor kétlépcsős mintavételi eljárást hajtanak végre. Ebben az esetben az első lépcső a helyi szervezetek (elsődleges mintavételi egységek) kiválasztása, a második lépcső pedig a megkérdezésre kerülő tagok (végső mintavételi egységek) kiválasztása. 2.7. 6.2.7. Kombinált eljárások 7

Mintavétel A kombinált eljárások gyakorta egy lépésben alkalmaznak több, eddig megismert mintavételi módszert. Ily módon ötvözhető például a rétegzés pontosságnövelő előnye a csoportos vagy többlépcsős mintavétel költségmegtakarításával. A KSH pl. az egységes lakossági adatfelvételi rendszerben (ELAR) egyszerre alkalmaz rétegzést és lépcsőzést. A kombinált eljárások külön csoportját képezik a ismétlődő felvételek, illetve panelfelvételek. Ezen felvételek alkalmazására akkor van szükség, ha a vizsgált sokaság szerkezetét vagy az egyes egyedek jellemzőinek időbeni változását akarjuk vizsgálni. Az ismétlődő felvételek esetén nem szükséges, hogy a mintában szereplő egyedek azonosak legyenek. E módszer legfőbb erénye, hogy egy-egy időpontban a vizsgált sokaság keresztmetszetéről megbízható képet ad. Az ismétlődő felvételek általában úgy történnek (például a legtöbb országban a munkaerő-felvételek), hogy a minta elemei néhány egymás után következő megkérdezéskor azonosak, majd előírt rend szerint cserélődnek. A panelfelvételeknél a minta elemeinek a lehetőségek keretei között azonosaknak kell lenniük, s ezáltal alkalmasak az egyes egyedek jellemzőinek időbeni vizsgálatára. A panelfelvétel előnye, hogy számos társadalmi jelenségre vonatkozóan pontosabb információkat ad, mint a szerkezeti változásokból levonható következtetések. Ezeket az előnyöket már az 1940-es években felismerték, és törekedtek a panelfelvételek alkalmazására. Az eljárás hátránya, hogy a mintába került egyedek nyomon követése nehéz, és a válasz megtagadása miatti torzítás gyorsan növekszik. Ilyen panelfelvételnek tekinthető például a KSH háztartás-statisztikája, amelyben ELAR mintára támaszkodva nyernek kétévenként összehasonlító adatokat a lakosság jövedelmére és fogyasztási szokásaira vonatkozóan. A gyakorlatban sokszor előfordul a teljes körű felvétel és a mintavétel összekapcsolása. Pl. Magyarországon jelenleg 3-4 évente tartanak teljes körű állatszámlálást, amikor a kisgazdaságok teljes állatállományát összeírják. Ezen információ kiegészítéseként negyedévente reprezentatív felvételt végeznek egyes fontosabb állatfajták állományának becslése érdekében. A teljes körű felvételek közötti időszakban a reprezentatív felvételből és a megelőző teljes körű felvételből következtetnek a sokaság állapotára, a teljes állatállományra. Ez úgy történik, hogy kiválasztják a sokaságnak a reprezentatív felvétel során a mintába került egyedeit, majd ezeknél a teljes körű és a reprezentatív megfigyelés során nyert eredményeket összehasonlítják. A tapasztalt változásokat a sokaságra matematikai módszerek segítségével általánosítják. 3. 6.3. Nem véletlen mintavételi eljárások Az eddigiek során áttekintettük a véletlenen alapuló mintavételi eljárásokat. Vannak azonban olyan mintavételi eljárások, amelyekre a véletlen kiválasztás nem jellemző, így ezen eljárásokkal létrejövő minták nem tekinthetők véletlen avagy valószínűségi mintáknak. Az eddig ismertetett mintavételi eljárásoknak számtalan hátrányos tulajdonsága van. Ezek közül a leglényegesebb, hogy nincs biztosítva, a minta a sokaságra valóban jellemző legyen, így félrevezető következtetések forrása lehet. Továbbá a nem véletlen minták esetén nem lehetséges a mintából számított jellemzők hibájának a meghatározása, tehát nem tudjuk a bizonytalanság, a tévedés várható hibáját becsülni. Ennek ellenére a nem véletlen mintavételi eljárásokat széles körben alkalmazzák, mivel végrehajtásuk egyszerűbb és esetenként lényegesen olcsóbb, mint a korrektül megtervezett és végrehajtott véletlen mintavétel. Főleg igénytelen felvételeknél (gyors elővizsgálatoknál) használják, korlátozott következtetési lehetőségekkel. A szisztematikus kiválasztásról a véletlen mintavételi eljárások között már esett szó. Láttuk, ha a listaképző ismérv és a megfigyelt ismérv között nincs sztochasztikus kapcsolat, akkor ez az eljárás véletlen mintát eredményez. Ellenkező esetben a kapott mintaelemek nem lesznek függetlenek egymástól, így a következtetések levonása során figyelembe kell venni a mintaelemek függőségéből adódó torzítást is. Időbeni megfigyeléseknél a periodicitás veszélye miatt alkalmazása nem célszerű. Eléggé elterjedt mintavételi eljárás a kvóta szerinti kiválasztás. Ennek lényege, hogy a felvételt végző személyek (kérdezőbiztosok) előre megkapják, hogy milyen összetételű mintához kell jutniuk, de az előre adott kereteken belül rájuk van bízva a véletlenszerű kitöltés. A kvóta szerinti kiválasztás legnagyobb hátránya, hogy a kapott minta a kérdezőbiztosok szimpátiája, illetve ítélőképessége szerint áll össze. Ez a statisztikailag nem számszerűsíthető szubjektivitás jelentős mértékben befolyásolja a kapott eredményeket. Az önkormányzati választások várható eredményét mintavételes eljárással kívánják meghatározni. Kvóta szerinti kiválasztás esetén a kérdezőbiztos úgy kapja meg a feladatát, hogy kérdezzen meg az adott választókörzetben öt 18 és 30 év, tíz 31 és 40 év közötti férfit, három 18 és 30 közötti nőt stb. Ezeken a határokon belül saját maga választja ki a megkérdezett személyeket, elvben véletlenszerűen, gyakorlatban 8

Mintavétel azonban szubjektíven, ötletszerűen. Annak ellenére, hogy a kérdezőbiztos korrektül jár el, előfordulhat, ha kora délutáni órában végzi a felmérést, hogy a felvett mintában nagyobb lesz pl. a munkanélküliek aránya, mint a sokaságban. Továbbá gyakori, hogy a kérdezőbiztos saját ismeretségi köréből igyekszik véletlen mintát biztosítani, ez viszont bizonyos szempontból homogén csoportok megfigyelését jelenti. Az önkényes kiválasztás során a felvételt végző személy szakmai ismereteire támaszkodva a véletlent figyelmen kívül hagyva választja ki a sokaságra jellemző (vagy legalábbis általa jellemzőnek tartott) mintát. Sokéves tapasztalatok mutatják, hogy az ilyen kiválasztáson alapuló megfigyelés sokszor erősen torzított eredményt ad. Meg kell említenünk, hogy az önkényes kiválasztás a mintavétel történelmileg elsőként alkalmazott módszere volt, mára azonban eléggé visszaszorult. Az utóbbi időben elterjedt az ún. exit pool eljárás, amelyet elsősorban a választási eredmények előrejelzésére alkalmaznak. A módszer lényege, hogy a szavazóhelyiségből kijövő választót megkérdezik arról, hogy kire adta a voksát, s az így kapott minta alapján következtetnek a választási eredményekre. 4. 6.4. A mintajellemzők fontosabb tulajdonságai Ha a minta elemeit véletlen mintavételi eljárással választjuk ki, akkor a mintaelemek ismérvértékei és a mintajellemzők valószínűségi változók lesznek. A következőkben a mintajellemzők közül a minta átlagával foglalkozunk részletesen. Kiszámítása a összefüggéssel történik, ahol az i-edik mintaelem ismérvértéke. Egy konkrét mintavételnél, ha adódik, akkor a mintaátlag A mintaátlag tulajdonságait független, azonos eloszlású minta esetén mutatjuk be, mivel ezen mintavételi mód kezelése matematikailag egyszerűbb. Néhány esetben gyakorlati jelentősége miatt kitérünk az egyszerű véletlen mintavétel esetére is. Tekintsük először a mintaelemek eloszlását. A független, azonos eloszlású minta esetén a minta elemeinek eloszlása megegyezik a sokaság eloszlásával. A mintaelemek várható értéke és szórása pedig a sokaság várható értékével és szórásával fog megegyezni. Hiszen és Feladatunk azonban a mintaátlag vizsgálata. A mintaátlagot mint valószínűségi változót várható értékével, szórásával és eloszlásával jellemezhetjük. Vizsgáljuk meg először a mintaátlag mint valószínűségi változó várható értékét. Valószínűségszámításból ismeretes, hogy Így a minta átlagának várható értéke: vagyis megegyezik a sokaságra vonatkozó várható értékkel. 9

Mintavétel A mintaátlag szórásnégyzete a mintaelemek függetlensége miatt Így a mintaátlag szórásnégyzete azaz a mintaátlag szórása A mintaátlag szórását, a -ot a mintaátlag standard hibájának nevezzük. A standard hiba megmutatja, hogy mekkora a mintaátlagok sokasági várható értéktől való átlagos (négyzetes) eltérésének várható értéke. Nagysága a sokasági szórástól és a mintanagyságtól (n) függ. Egyszerűbben fogalmazva a standard hiba arra ad választ, hogy egyetlen mintavétel esetén mekkora hibát követünk el átlagosan. Mivel a hiba elkövetésének oka maga a reprezentatív mintavétel, szokásos ezt a hibát a reprezentatív megfigyelés hibájának is nevezni. Ha a mintaelemek kiválasztása egyszerű véletlen mintavétellel történt, akkor a mintaátlag standard hibájának meghatározása (bizonyítás nélkül) a következő összefüggéssel történik: ahol a -t korrekciós tényezőnek vagy véges szorzónak nevezzük. A fenti összefüggésben a korrekciós tényező alkalmazása egyszerű véletlen mintavételnél abból következik, hogy ezen eljárás esetén a mintaelemek nem függetlenek, és ezért a standard hiba levezetésekor a mintaelemek közötti kapcsolatszorosságról tájékoztató kovarianciát is figyelembe kell venni. Az összefüggésből jól látható, hogy egyszerű véletlen mintavétel esetén a mintaátlag szórása jelentős mértékben függhet a kiválasztási aránytól. A korrekciós tényező értéke 0 és 1 között lehet. Alacsony (pl. 1% alatti) kiválasztási arány esetén értéke közel esik 1-hez, ezért elhagyása lényegesen nem befolyásolja a kapott eredményt. Ha viszonylag magas a kiválasztási arány (5 és 10% közötti vagy ennél nagyobb), akkor a korrekciós tényező alkalmazására feltétlenül szükség van. Konkrét mintavételnél a standard hibát -gal fogjuk jelölni, és a összefüggéssel határozzuk meg. Végül vizsgáljuk meg a mintaátlag eloszlását. Független, azonos eloszlású minta esetén a mintaátlag ( ) eloszlásáról a következők mondhatók (a bizonyításokat nem részletezzük, de felhívjuk a figyelmet arra, hogy a a valószínűségi változók összegének konstansszorosa): 1. Normális eloszlású sokaság esetén a mintaátlag is normális eloszlású, függetlenül a minta nagyságától. (Normális eloszlású valószínűségi változók összege is normális eloszlású.) 10

Mintavétel 2. Ha a sokaság eloszlása nem ismert, de nagy mintát veszünk, akkor a mintaátlag közelítőleg normális eloszlású lesz, a centrális határeloszlás-tétel 2 következményeként. 3. Ha a sokaság eloszlása nem ismert és kis mintát veszünk, akkor a mintaátlag eloszlása függ a sokaság eloszlásától, ezért általánosan semmit sem tudunk mondani. A mintaátlag egy-egy mintavételnél megvalósuló konkrét értékeinek eloszlását is szemléltethetjük. Erre vonatkozóan nézzük a következő példát. Az 1994-ben megválasztott 371 országgyűlési képviselő életkor szerinti megoszlása a következő hisztogrammal szemléltethető 3 (6.1. ábra): 6,1. ábra - A képviselők életkor szerinti megoszlásának hisztogramja A mintaátlag eloszlásának vizsgálatához a 371 elemű sokaságból először 30, majd 100 elemű mintákat vettünk számítógépes véletlenszám-generálás segítségével, visszatevéssel, így független, azonos eloszlású mintához jutottunk. A mintavételt mindkét esetben 100-szor ismételtük meg, majd minden egyes mintára vonatkozóan kiszámítottuk a mintaátlagot. A 30 elemű minták mintaátlagainak megoszlása a következő volt (6.2. táblázat): 6.2. táblázat - 30 elemű minták mintaátlagainak megoszlása A mintaátlag értéke (év) 43,90 43,91 45,00 45,01 46,10 46,11 47,20 47,21 48,30 48,31 49,40 49,41 50,50 50,51 51,60 A mintaátlagok megoszlása (%) 1 5 13 15 22 25 15 2 2 Matematika üzemgazdászoknak. Valószínűségszámítás. (Szerk: dr. Csernyák László.) Nemzeti Tankönyvkiadó, Budapest, 1990. 187. oldal. (A további hivatkozásoknál: Valószínűségszámítás.) 3 Az alapadatokat nem közöljük. 11

Mintavétel 51,61 52,70 52,71 53,80 1 1 Összesen 100 Ezt követően a 100 elemű mintákat választottuk ki a 30 elemű mintákhoz hasonló módon. A kiszámított mintaátlagokat a 6.3. táblázat tartalmazza: 6.3. táblázat - A 100 elemű minták átlagai 47,08 48,64 48,38 46,54 48,68 47,74 46,29 47,52 48,46 48,02 49,51 47,78 46,94 49,34 46,25 47,48 48,21 47,71 46,78 46,03 51,25 47,71 47,55 47,57 47,21 47,78 47,82 46,13 48,58 48,32 48,99 46,74 46,62 47,83 46,70 48,04 47,33 45,68 48,13 47,39 49,45 48,71 46,08 47,16 47,14 48,52 49,47 47,06 48,33 47,65 49,34 47,05 48,13 47,14 50,17 47,54 48,07 48,45 47,98 48,37 46,09 47,87 46,07 47,69 47,79 50,11 47,89 48,68 46,99 47,80 47,97 46,88 47,92 47,48 46,77 47,91 47,35 47,32 46,70 46,73 48,27 49,10 46,17 47,77 48,14 47,16 49,45 46,86 48,96 48,49 48,49 48,44 46,66 50,24 48,05 48,64 47,22 48,17 46,08 46,94 A kapott mintaátlagokat osztályközös relatív gyakorisági sorba rendeztük (6.4. táblázat). 6.4. táblázat - 100 elemű minták mintaátlagainak megoszlása A mintaátlag értéke (év) 46,10 46,11 47,20 47,21 48,30 48,31 49,40 49,41 50,50 50,51 51,60 A mintaátlagok megoszlása (%) 6 25 40 21 7 1 Összesen 100 A mintaátlagok megoszlásait hisztogrammal szemléltethetjük (6.2. és 6.3. ábra). 6,2. ábra - A mintaátlagok megoszlásának hisztogramja 100 db 30 elemű minta alapján 12