A mintavétel szakszerűtlenségeinek hatása a monitoring-statisztikákra Vörös Zsuzsanna NÉBIH RFI tervezési referens 2013. április 17.
Egy kis felmérés nem kor Következtetések: 1. a jelenlevők nemi megoszlása: 2. a jelenlevők átlagos életkora:
Milyen a statisztika? Churchill: Én csak abban a statisztikában hiszek, amit magam hamisítottam. Öreg igazság: Van kis hazugság, van nagy hazugság, és van statisztika.
Milyen a statisztika? George Horace Gallup 1901-1984. 1936: az esedékes elnökválasztáson a Literary Digest című hetilap a republikánus Alfred Landon, míg Gallup a végül győztes demokrata Franklin Delano Roosevelt sikerét jelezte előre. A Literary Digest a szokásos módszerrel tízmillió "szavazólapot" küldött szét, amelyekből kétmillió érkezett vissza. Gallup ezzel szemben egy keresztmetszetet adó lakossági mintával dolgozott: 3 ezer embert, de férfiakat és nőket arányosan "szondáztak" meg, interjúkat készítettek, valamint figyelembe vették az iskolázottságot és az anyagi körülményeket is.
Y Matematikai összefoglaló Emlékezzünk! Mi a mintavétel? Az alapsokaság nem mindegyik tagját vizsgáljuk, hanem véletlenszerűen kiemelünk belőle néhányat (n elemű minta), ezeket vizsgálva következtetünk az alapsokaság jellemző paramétereire (valószínűségi változó dimenziói). A reprezentatív módszer elmélete a valószínűség-számítás törvényein, más szóval a véletlen tömegjelenségek törvényein nyugszik. Ezért követelmény, hogy az alapsokaság, a szó szoros értelmében sokaság legyen, tehát nagyszámú egységet foglaljon magában. X
Emlékezzünk! Mekkora legyen a minta? 300 ezer élelmiszeripari vállalkozás, kb. 220 milliárd tétel évente mindez az élelmiszerláncban A minta nagysága a mintából nyerhető adatok pontosságára és megbízhatóságára van hatással, ezért a minta nagyságát mindig az szabja meg, hogy a populáció vizsgált jellemzőjét milyen pontossággal és megbízhatósággal (megbízhatósági intervallummal és szignifikancia-szinttel) akarjuk megkapni. A minta nagysága független az alapsokaság terjedelmétől táblázatokban n értéke. A minta nagysága az adatfelvétel pontosságával és megbízhatóságával van összefüggésben.
Az ismérvelosztás várható értékei A hiba nagysága (%) 10% vagy 90% 20% vagy 80% 30% vagy 70% 40% vagy 60% 50% 0,1 360 000 640 000 840 000 960 000 1 000 000 0,5 14 400 25 600 33 600 38 400 40 000 1 3 600 6 400 8 400 9 600 10 000 1,5 1 600 2 844 3 733 4 267 4 444 2 900 1 600 2 100 2 400 2 500 2,5 576 1 024 1 344 1 536 1 600 3 400 711 933 1 067 1 111 4 225 400 525 600 625 5 144 256 336 384 460 6 100 178 233 267 278 8 56 100 131 150 156 Vissza 10 36 64 84 96 100
Emlékezzünk! Szignifikancia-szint: A próbafüggvény kritikus tartományba esésének valószínűsége. Megbízhatósági intervallum (konfidencia-intervallum): Valószínűségi intervallum, adott szignifikancia-szinten a becsült változó alsó és felső korlátja. A konfidencia-intervallum intervallum értékű becslést ad egy paraméterre, amely valószínűleg ezek közé a korlátok közé esik. Az α paraméter egy előzetesen megadott értékére a becsült paraméter 1-α valószínűséggel esik az intervallumba. Ezt az 1-α szintet sokszor százalékban adják meg; például 95% tipikus.
Y Emlékezzünk! Konfidencia-intervallum 95 %-os szignifikancia-szint mellett 99 %-os szignifikancia-szint mellett Számítása: ismeretlen szórású normál eloszlásra Student t eloszlásfüggvénnyel X
Konf. int. (%) Különböző mintanagyságokhoz tartozó konfidencia intervallumok ( + %) 20 20 15 10 5 14.2 11.5 10 8.2 7.16.3 5.8 5 4.5 4.1 3.5 3.2 2.9 2.6 0 0 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 Mintanagy ság fõben
Emlékezzünk! Milyen legyen a minta? Reprezentatív a minta, ha a minta és az alapsokaság, amiből vettük, ugyanazt az eloszlást követi. A minta reprezentativitása nem a minta-elemszám, hanem a minta kiválasztás módszerének függvénye. Milyen statisztikai következtetéseket tudunk levonni a minta alapján? - leírást, - analízissel az alapsokaság jellemzőit írjuk le, - jóslással következtetünk további jellemzőkre.
Emlékezzünk! Mitől lesz jó egy következtetés? - reprezentatív a minta; - jól illeszkedő hozzárendelt empirikus eloszlásfüggvény, - az illeszkedés hibájának megadása.
A mintavételezés hibái általában Alapvető hibák: nem reprezentatív a minta, (túl kicsi a minta, nem random a mintavételezés), a következtetésekhez nincsenek becslések a bizonytalansági tényezőkre, hibákra; nem definiáltak előre a lehetséges mintavételi hiba nagysága, a megbízhatósági szintje és a konfidencia intervallumok. Csak random mintavétel esetében következtethetünk a populációra!
A mintavétel hibáinak típusai az elsőfajú hibák és bekövetkezésük valószínűsége a másodfajú hibák és bekövetkezésük valószínűsége a nullhipotézis igaz a nullhipotézis hamis a nullhipotézist elfogadjuk Helyes döntés másodfajú hiba a nullhipotézist elvetjük elsőfajú hiba Helyes döntés
A mintavételezés hibáinak statisztikai következményei megnő az adott szignifikancia-szinten a konfidencia-intervallum nagysága adott megbízhatósági intervallum mellett lecsökken a szignifikancia-szint nagysága megnő az első- és másodfajú hibák előfordulásának valószínűsége. A bevezető mintavétel hibája: - A teremben x átlagéletkorú férfiak ülnek: igaz, ha a megállapításhoz megadjuk, hogy - 5 elemű mintát vettünk az alapsokaságból, - és hogy az ehhez tartozó hiba - a Δ 2 = 1/n képlettel becsülve: 45%. Kapcsoló
A monitoring mintavétel céljai Cél: a populációt minél jobban leíró statisztikákat (statisztikai válto- zókat) meghatározni, azaz statisztikai változókkal leírni az adott populációt, illetve megadni azt, hogy az állításaink milyen biztonsággal igazak. Ezek az adatok szolgálnak később a kockázatbecslések alapjaként. A vizsgált populációból kiválasztunk bizonyos számú vizsgálati egységet, amiket ténylegesen is megvizsgálunk, ezek alkotják a mintát. Rétegezett mintavétel (egylépcsős mintavétel): - a sokaság adott ismérvek szerint csoportokba van rendezve, - majd egyszerű véletlen mintát veszünk a csoportokból. A fentiek csak a monitoring célú mintavételek kis részére igaz. Bár nincs rögzített arány, de később kb. 25% lesz az ilyen, véletlenszerű, és 75% a kockázatalapú mintavétel - önkényes kiválasztással, azaz a felvételt végző személy szakmai ismereteire támaszkodva választják ki a mintát.
A Hivatalok mintavételezési hibáinak okai A mintaszámok és a véletlenszerű kiválasztás - gazdasági, - logisztikai, - munkaszervezési okokból felülíródnak.
A hibák statisztikai következményei Mi történik, ha a tervezettnél kevesebb mintát veszünk? Mi történik, ha nem az előírt hónapban vesszük a mintát? Mi történik, ha nem az előírt élelmiszerlánc-pozícióban vesszük a mintát? Mi történik, ha előre tudja a megmintázandó, hogy mintát vesznek tőle? élelmiszer-áruházláncok problematikája
A hibák statisztikai következményei Mi történik, ha a tervezettnél kevesebb mintát veszünk? 14 14 12 12 10 10 8 8 6 6 4 4 2 2 0 0 pozitivitás 14 12 10 8 pozitivitás 6 4 2 0 pozitivitás pozitivitás > a hiba megnő, a megbízhatósági intervallum szélesedik
A hibák statisztikai következményei Mi történik, ha nem az előírt hónapban vesszük a mintát? 14 14 12 12 10 10 8 8 6 6 4 4 2 2 0 0 pozitivitás 14 12 10 8 pozitivitás 6 4 2 0 pozitivitás pozitivitás > a hiba megnő, a megbízhatósági intervallum szélesedik
A hibák statisztikai következményei Mi történik, ha nem az előírt élelmiszerlánc-pozícióban vesszük a mintát? pozitivitás 14 12 10 8 6 4 2 0 tejgazdaság kiskereskedő nagykereskedő nem lesz reprezentatív a mintánk
A hibák statisztikai következményei Mi történik, ha előre tudja a megmintázandó, hogy mintát vesznek tőle? élelmiszer-áruházláncok problematikája nem lesz reprezentatív a mintánk
A monitoring mintavétel céljainak veszélyeztetése a hibák által hibás következtetések a magyar mezőgazdaság állapotáról; hibás kockázatbecslések monitoring-tervek; rosszabb pozíciók a nemzetközi piacokon; rossz stratégiai irányok kijelölése; gazdasági, politikai, társadalmi feszültségek keltése.
Összefoglalás Egy monitoring mintavétel akkor teljesíti az elvárásokat, ha - reprezentatív jól jellemzi az alapsokaságot, - kiszámítható (megbecsülhető) az állítások igazságtartalma azaz a hibák valószínűsége; Ezért nem szabad: - a terveket szabadon felülbírálni, - a nehézségeket a szakszerűség rovására megoldani.
Felhasznált irodalom Dr. Dukáti Ferenc: Termékek megfelelőségének matematikai statisztikai ellenőrzése (BME Továbbképző Intézete) Kehl Dániel dr. Rappai Gábor: Mintaelemszám tervezése Likertskálát alkalmazó lekérdezésekben (Statisztikai Szemle, 84. évfolyam 9. szám) Lehota József : Marketingkutatás az agrárgazdaságban (Mezőgazda Kiadó) Szelezsán János: Valószínűségszámítás és matematikai statisztika (LSI Oktatóközpont)
Köszönöm a figyelmüket!