Statisztika I. 8. előadás Előadó: Dr. Ertsey Imre
Minták alapján történő értékelések
A statisztika foglalkozik. a tömegjelenségek vizsgálatával Bizonyos esetekben lehetetlen illetve célszerűtlen a teljes statisztikai sokaság megfigyelése. A minták alapján történő értékelés során nem kell megfigyelnünk a statisztikai sokaság minden egyedét, hanem csak tervszerűen előre meghatározandó részét (minta).
A minta jellemzőiből kellő biztonsággal következtethetünk a statisztikai sokaság egészének jellemző értékeire. A mintából számított különböző jellemzők az alapsokaság hasonló jellemzői becslésének tekinthetők.
A becslést akkor alkalmazzuk, ha: tömegesen előforduló jelenségeket figyelünk meg (közgazdasági jellegű becslések esetén), a teljes körű megfigyelés lehetetlen (pl. termésbecslés), a teljes körű megfigyelés költsége nagyobb, mint az információ gazdasági értéke, illetve olcsóban jutunk kielégítő pontosságú információhoz, a megfigyelés a termék megsemmisítésével jár (különböző minőségvizsgálatok), kísérletek kiértékelése során (kis elemszámú minták értékelési módszerei).
1. Alapfogalmak: alapsokaság (a vizsgált statisztikai sokaság amelynek a jellemzőit becsülni kívánjuk), mintasokaság (a mintába bekerülő elemek összessége), visszatevéses mintavétel (ismétléses), visszatevés nélküli mintavétel (ismétlés nélküli), A mintavétel során a valószínűségi változókból álló statisztikai alapsokaságból mintát veszünk. A mintavétel során az alapsokaság minden elemének egyforma esélyt kell biztosítani a mintába kerüléshez. Ez esetben a minta reprezentatív.
A minta nagysága n ( a mintában lévő elemek száma). n = 1-N-ig N az alapsokaság elem száma, N Egymástól független minták száma n nagy elemszámú minta > 30 40 kis elemszámú minta < 30 40 kiválasztási arány f = n N
Statisztikai becslés: az alapsokaságból vett minta alapján az alapsokaságot alkotó valószínűségi változók eloszlásának, jellemzőinek, paramétereinek becslése. A torzítatlan becslés: a minta jellemző értékei megegyeznek az alapsokaság jellemzőivel (az alapsokaság minden elemének egyforma esélyt biztosítunk a mintába kerüléshez, így az alapsokaság és a minta jellemzői között csak véletlenszerű eltérések mutatkoznak. A torzított becslésnél nem csak véletlen, hanem szisztematikus eltérések is vannak.
. Mintaelemek kiválasztásának módszerei.1. Véletlen kiválasztáson alapuló módszerek: a visszatevés nélküli kiválasztást alkalmazzuk, mert viszonylagosan kicsi a kiválasztási arány.
.1.1. Egyszerű véletlen kiválasztás: (az alapsokaság elemeit sorszámozzuk) Sorsolással történő kiválasztás, Véletlen számok táblázatának alkalmazásával, Mechanikus kiválasztás - egymástól egyenlő távolságra lévő egyedeket választunk ki, lehet időbeli és térbeli (pl. azonos időközönként mérünk, térképre helyezett hálózat). Véletlen koordináták módszere (egyenletes térbeli elhelyezkedésű növények termésbecslése). sokaságnál, pl. legelő,
.1.. Rétegzett mintavétel: a heterogén alapsokaságot rétegekre bontjuk, és ezekből külön külön történik a mintavétel (vállalkozói, alkalmazotti jövedelem viszonyok vizsgálatakor)
.1.3. Lépcsőzetes kiválasztás: csak akkor alkalmazzuk, ha nem ismerjük az alapsokaság minden egységét (pl. árbecslés, homogén sokaság esetén),
.. Nem véletlen kiválasztáson alapuló módszerek..1. Kvóta szerinti kiválasztás: közvélemény kutatás, háztartási statisztikai felmérések, az alapsokaságot körzetekre bontják és ezen belül arányokat, kvótákat határoznak meg.... Koncentrált kiválasztás: árstatisztikai megfigyeléseknél, a legjellemzőbb típusok kerülnek a mintába.
..3. Önkényes kiválasztás Szubjektív alapon a tipikusnak vélt elemeket vonják be a mintába.
3. Becslések egyszerű véletlen kiválasztással nyert minta alapján becsülhető: az átlag, az értékösszeg, két átlag illetve értékösszeg hányadosa, arány illetve megoszlás.
3.1. Számtani átlag becslése: a statisztikai becslés elméleti alapját a véletlen tömegjelenségek legáltalánosabb törvényei képezik, amelyet a valószínűségszámítás tár fel.
Nagy számok törvénye (Bernoulli XVII.sz.): a megfigyelésben résztvevő egyedek számát fokozatosan növelve a bizonyosság felé közeledik annak a valószínűsége, hogy a relatív gyakoriság és a valószínűség csak egy általunk tetszőleges és előre meghatározható mértékben tér el egymástól.
Relatív gyakoriság: a kedvező eseteknek az összes lehetséges esethez való viszonya. Valószínűség: az a számérték, amely körül valamely véletlen jelenség relatív gyakoriságai ingadoznak. Átlagtörvény: (Csebisev tétele) A megfigyelésben résztvevő egyedek számának növelésével a bizonyossághoz közeledik annak a valószínűsége, hogy a megfigyelésben résztvevő, kiválasztott egyedek vizsgált tulajdonságának átlaga és az egész statisztikai sokaságban érvényesülő átlag közötti különbség tetszőlegesen kicsi legyen.
Ha a valószínűségi változók normális vagy megközelítőleg normális eloszlást mutatnak, akkor a szórás ismeretében meghatározható, hogy az átlagtól felfelé és lefelé tetszés szerint választott határok között az ismérv értékeinek hány százaléka helyezkedi el.
A központi határeloszlás tétele (Ljapunov): Ha a statisztikai sokaság egyedeire sok befolyásoló tényező hat, és egy egy tényező hatása a többitől független, továbbá önmagában csak kismértékben járul hozzá az összhatáshoz, akkor a valószínűségi eloszlás normális eloszlást követ. 1 σ σ 3 σ 68,3% 95,5% 99,7%
Számtani átlag becslése
300 ha rostkenderkóró termésátlagának becslése 1 m terület rostkenderkóró hozama, dkg Minták száma, db Eltérés Eltérés és a gyakoriságok szorzata Eltérések négyzete Súlyozott eltérés négyzet x f d f * d d f * d 401-450 8 0 0 0 0 451-500 15 1 15 1 15 501-550 6 5 4 104 551-600 49 3 147 9 441 601-650 37 4 148 16 59 651-700 1 5 60 5 300 701-750 3 6 18 36 108 Összesen: 150 440 1560
A minta átlaga: f * d 440 x m = A + * i = 45+ *50 = 45+ 146,66 = 571, 66dkg f 150 A minta szórása: σ m = i * fd f fd f = 50* 1560 150 440 150 = σ = 50 * 10,4 8,6 = 50* 1,8 = 67, 08dkg m
Az alapsokaság szórása: n 150 S =σ * = 67,08* = 67,3dkg / m m n 1 149 A standard hiba: s 67,3 67,3 S = = = = x n 150 1,5 A hibahatár: 5,49 68 % = t S = 1*5,49 = 5,49dkg / x dkg * m 95,5% = t S = *5,49 = 10,98dkg / x * m / m
A megbízhatósági, vagy konfidencia intervallum: x m t * S x x + t x m * S x 68%-os valószínűségi szinten: 566,17dkg / m x 577,15dkg / m 95,5%-os valószínűségi szinten: 560,68dkg / m x 58,64dkg / m
A szükséges minta elemszám meghatározása azonos hibahatár mellett: 68%-os valószínűségi szinten: n = t * s = Kiválasztási arány: 1*67,08 5,49 150m n f = N = 150 3000000 = 0,00005 = 0,005%
A szükséges minta elemszám meghatározása azonos hibahatár mellett: 95,5%-os valószínűségi szinten: t * s *67,08 n = = = 5,49 596m Kiválasztási arány: n f = N = 596 3000000 = 0,000198 = 0,019%