6. Előadás Visszatekintés: a normális eloszlás Becslés, mintavételezés Reprezentatív minta A statisztika, mint változó Paraméter és Statisztika Torzítatlan becslés A mintaközép eloszlása - centrális határeloszlás tétel A mintaközép szórása (standard hiba, SEM) Vereb György, DE OEC BSI, 2012. október 12.
A normális eloszlás 12 October 2012 2
A normális eloszlás: egy példa Egy normális eloszlást követő valószínűségi változó átlaga 10 és standard deviációja 2,5. Mennyi annak a valószínűsége, egy véletlenszerűen kiválasztott egyed 15-nél nagyobb értéket vesz fel? 0.18 0.16 0.14 0.12 f(x) 0.1 0.08 0.06 10, 2.5 0.04 0.02 0 10 15 x 12 October 2012 3
A normális eloszlás: egy példa 0.45 0.4 0.35 0.3 f(x) 0.25 0.2 0, 1 0.15 0.1 0.05 0 0 2 x x 15 10 P( X 15) 1( P X15) 1(15) F1 1 2,5 1(2) 1 0,9772 0, 0228 A gyakorlatban ritkán akarjuk tudni, hogy egy véletlenül kiválasztott 12 October elem 2012milyen valószínűséggel esik egy adott intervallumba4
Statisztikai tervezés és analízis A vizsgálat tárgya leggyakrabban egy adott tulajdonsággal rendelkező populáció A paraméter az adott populáció egy számszerűen jellemezhető sajátossága. Mintát veszünk a populációból, hogy az adott paraméterre nézve információhoz jussunk. Két módon juthatunk következtetésre: Megbecsüljük a paraméter értékét Két alpopuláció paramétereit összehasonlítjuk statisztikai teszt segítségével. 12 October 2012 5
Becslés, mintavételezés Mintát veszünk a populációból, hogy az adott paraméterre nézve információhoz jussunk, és abból a paraméter értékét megbecsülhessük populáció minta 12 October 2012 6
A becslés célja, lépései A becslés célja, hogy megjósoljuk egy paraméter értékét és egy hibát rendeljünk hozzá megmondjuk mennyire pontos a becslésünk. Pl. Megkérdezünk 100 embert, hogy tetszett-e a Bosszúállók című film. Tegyük fel, hogy az emberek 74%-ának tetszett. Megbecsüljük, vagy kiszámoljuk a mérés hibáját is, pl. legyen 3%-os. Ez esetben a paraméter igazi értéke valahol 71 és 77% között lehet. 12 October 2012 7
Megfelelő minta reprezentatív mintavétel Fontos, hogy a minta jól reprezentálja a vizsgálandó populációt. Random mintavétel. A populáció minden eleme azonos eséllyel kerülhet a mintába. Ez a reprezentatív minta Általában igaz, hogy a nagyobb minta pontosabb becslést szolgáltat a populáció paramétereire. 12 October 2012 8
A Statisztika mint változó A statisztika segít nekünk, hogy következtetéseket vonjunk le a populáció paramétereire nézve. Miután mintát vettünk, a statisztika értékét meghatározzuk (pl. a minta átlag). Ha egy másik mintát vennénk, a statisztika értéke nagy valószínűséggel különbözne. A statisztika (Pl. átlag, arány) is egy valószínűségi változó, amely mintárólmintára különböző értékeket vesz fel. 12 October 2012 10
A becslés fajtái Pont becslés egy számérték, amely a tozó populáció valamely paraméterét becsli. A mintavételi változó sűrűségfüggvényéből annak szórására is lehet következtetni Ennek alapján konfidencia intervallum is meghatározható 12 October 2012 11
Paraméter - statisztika Jelölés Mennyiség Populáció Minta (paraméter) (Statisztika) Átlag (mű) (x-vonás) Variancia 2 S 2 (SD 2 ) x Standard deviáció (szigma) S (SD) Arány p k/n 12 October 2012 12
A populáció átlag torzítatlan becslése x, a mintaközép, torzítatlan becslést szolgáltat a re. Ez azt jelenti, hogy a minta nagyságának növelésével az x mintaközepek egyre jobban közelítik a populáció átlagot (és a középértékek szórása is tart nullához) s X N i 1 N 0, X i N, N 12 October 2012 13
A populáció σ x szórásának torzítatlan becslése SD(n) paraméter, SD(n-1) viszont statisztika SD SD x () n ( n1) () x i n () x i X n 1 X 2 2 A mintán belüli variabilitást méri Egy paraméter, mely a mintát jellemzi Valószínűleg eltér minden egyes, azonos populációból vett minta esetén Általában nem is érdekel minket A minta adataiból becsli a populáció variabilitását, a σ x populáció szórás torzítatlan becslése Ez egy statisztika Valószínűleg eltér minden egyes, azonos populációból vett minta esetén, tehát értéke a σ x körül ingadozik 2 () x i Szükségünk van rá, de nem akarjuk a N paramétert kiszámítani populáció összes elemét megmérni, és a σ x
A mintaközép eloszlása Tegyük fel, hogy egy adott populációban a szérum koleszterin koncentráció várható értéke μ és standard deviációja σ. Véletlenszerűen kiválasztunk egy n elemű mintát a populációból, és kiszámítjuk a minta átlagot x 1 Ezután egy másik n elemű mintát veszünk és ismét kiszámítjuk a minta átlagot x 2 Végtelen sokszor megismételjük az eljárást minden lehetséges n elemű mintát kiválasztunk, és kiszámítjuk a minta átlagot. Az x-ot egy valószínűségi változónak tekinthetjük, melynek elemei: x1, x2, x3, x4 stb 12 October 2012 15
A centrális határeloszlás tétel A centrális határeloszlás tétel: Vegyünk egy véletlenszerű n elemű mintát egy populációból, melynek átlaga és standard deviációja. Ha n elég nagy akkor az x mintavételi változó eloszlása a várható érték körül (ami ), szórást mutat. n 12 October 2012 16
A centrális határeloszlás tétel populáció mintaközép kis elemszám nagy elemszám f(x) 12 October 2012 17 x
A centrális határeloszlás tétel: egy példa Egymástól független 64 elemű mintákat vettek Kaliforniában a pillangókból. A szárny hosszúság átlaga (μ) 4 cm, a varianciája (σ 2 ) 25 cm 2. Mennyi annak a valószínűsége, hogy egy véletlenszerűen kiválasztott 64 elemű minta átlaga 3,5 cm és 4,5 cm között lesz? 12 October 2012 18
A centrális határeloszlás tétel: egy példa Az eredményekből látjuk, hogy az átlagértékek egy olyan normális eloszlást követnek, melynek átlaga 4 cm és standard deviációja (5/8). P(3,5 X 4,5)( P 4,5)( X 3,5) P X X 4,5 4 X 3,5 4 P P 5 5 n 64 n 64 P(Z 0,8)-P(Z -0,8) 0,788-0,212 0,576 Ez azt jelenti, hogy a 57,6% annak a valószínűsége, hogy az átlagos szárnyhosszúság 3,5 és 4,5 cm között lesz. 12 October 2012 19
A centrális határeloszlás tétel: egy példa P(3.5 XEz a 4.5) terület: 0.576 12 October 2012 20
Standard Deviáció (SD) vs. a Középérték Közepes Hibája (SEM) A standard deviáció nem a statisztika standard hibája! A standard deviáció (SD) a populáció, vagy a minta egyes értékeinek az átlag körüli ingadozását méri. Középérték Közepes Hibája, Standard Error of the Mean (SEM) a statisztika pontosságát méri. SD () x i n 1 X 2 X X X n SD n SEM becslés becslés