Az előadás céljai Biosta'sz'ka és iforma'ka 5. előadás: Becslés és megbízhatóság 2018. október 11. Agócs Gergely Források: Heréyi L (2016): Sta4sz4ka és Iforma4ka: 14. fejezet Reiczigel J, Haros A, Solymosi N (2014): Biosta'sz'ka em sta'sz'kusokak: 5. fejezet WolframMathWorld: Probability ad Sta's'cs: hup://mathworld.wolfram.com/topics/probabilityadsta's'cs.html - A becslés célja, Zpusai és folyamata - mita és alapsokaság más éve populáció - potbecslés és itervallumbecslés - mita, becslés, becsült és becslő érték - Mik a jó becslés tulajdoságai? - torzítatla, hatásos, kozisztes, elégséges - Stadard hiba (SE) megértése - Kofideciaitervallum (CI) megértése - kofideciaitervallumok helyes értelmezése - kofideciaitervallumok helyes feltütetése - Megtauli egyes paraméterek becslését: - valószíűség (röv.: valség) más éve alapsokaságbeli aráy - várható érték más éve alapsokaságbeli átlag - elméle' variacia (más éve szóráségyzet) és elméle' szórás - AdoU SE-hoz szükséges mitaelemszám számítása - Excel-függvéyek haszálata becsléshez 1 A becslés célja Alapsokaság: az összes lehetséges megfigyelés (általába végteleek tekiteu) halmaza. Mide vizsgálatuk erre a halmazra iráyul. A becslés célja De hogya határozhatjuk meg ezeket? Eloszlásfüggvéyek (CDF, PDF, PMF) Példa: érmefeldobás Modellalkotás (pusztá elméle4 megfotolások) Végezzük megfigyeléseket Paraméterek (, σ2, σ...) P(fej) = 1/2 & P(írás) = 1/2 Pl.: - testmagasság cm-be - szemszí - terhességek száma - sugárkárosodás foka -... - két elemi eseméy, melyek - azoos valségűek (= feltesszük, hogy az érme szabályos) és - egyetemesek Egyes Valószíűségek De hogya határozhatjuk meg ezeket? 2 Ezt a módszert csak agyo korlátozova tudjuk haszáli Ez azt jele', hogy az érmét téylegese feldobjuk, de persze em végezhetjük el az összes lehetséges megfigyelést, mert: - eleve lehetetle (végtele számú ismétlés) - em célszerű (pl. törésteszt) - sokba kerül (időbe, pézbe...) 3
A becslés folyamata Alapsokaság: - eloszlás - paraméterek Mita: Becslések Zpusai - eloszlás - paraméterek Az emberek háy százaléka tartozik az Rh+ vércsoportba? Nem vizsgálhatuk meg mide embert. Vegyük az emberek egy részhalmazát (mita) és vizsgáljuk meg ezek elemeit. VÉLETLEN! EmiaU az alapsokaságak csak egy viszoylag kis részhalmazát vizsgáljuk. Ezt evezzük mitáak. Az alapsokaság mérete (végteleek vesszük) em tesi lehetővé, hogy mide elemét megfigyeljük: a közvetle megfigyelés em lehetséges Potbecslés: Itervallumbecslés: kb. 85% 83% 87% közöu MATEK BIZONYTALANSÁG! A mita jellemzőit felhaszálhatjuk az alapsokaságra voatkozó következtetések levoására Megvizsgáljuk a mitaelemeket, majd az így keletkező adathalmazt (melyet szité mitáak evezük) fogjuk függvéyekkel és számokkal jellemezi. KÖVETKEZTETÉS 4 csak egyetle érték, melyet becslő értékek evezük tartomáy A bizalom szitje, melyet ebbe a (becslő érték és hiba) tartomáyba vethetük, kifejezve egy + valószíűség 5 valószíűséggel Potbecslés Elméle4 (alapsokaság) értékek: CÉL 95%-os megbízhatósággal Meyire bízhatuk meg ebbe a számba? Fogalmuk sics! Potbecslés BehelyeVesítéses ( plug-i ) becslő é.: LÖVÉS Elméle4 (alapsokaság) értékek: BehelyeVesítéses ( plug-i ) becslő é.: LÖVÉS (diszkrét valségi változóra) CÉL - valség vagy aráy (pi) - várható érték ( alapsokaság átlaga ) (E(ξ) vagy ) E (ξ ) = = pi xi - elméle' variacia (Var(ξ) vagy σ2) 2 2 Var (ξ ) = σ 2 = E (ξ E (ξ )) = pi ( xi ) - elméle' szórás (SD(ξ) vagy σ) SD (ξ ) = σ = Var (ξ ) = p ( x ) i 2 i 6 7
Potbecslés Elméle4 (alapsokaság) értékek: BehelyeVesítéses ( plug-i ) becslő é.: (diszkrét valségi változóra) LÖVÉS CÉL - relazv gyakoriság p - valség vagy aráy (p i ) î = ( /) Excel: =DARABHATÖBB(adat)/DARAB2(adat) - várható érték ( alapsokaság átlaga ) (E(ξ) vagy ) - mita átlaga Excel: =ÁTLAG(adat) E ( ξ) = = p i k x = i = 1 - elméle' variacia (Var(ξ) vagy σ 2 ) Var( ξ) = σ 2 = E ξ E ( ξ ( )) 2 = p ( x i i )2 s **2 = - elméle' szórás (SD(ξ) vagy σ) - plug-i variacia (s** 2 ) ( )2 = 1 - plug-i szórás (s**, SD) ( x i ) 2... torzítatla A valószíűség (p i ) potbecslése relacv gyakorisággal (p i) Tekitsük az imét tault plug i becslő képletét: p î = ( /) E becslés végtele számú megismétlésével kapou becslő értékek átlaga maga a becsült érték (valség). A várható érték () potbecslése a mitaátlaggal (x ) x = Excel: =DARABHATÖBB(adat)/DARAB2(adat) = 1 Excel: =ÁTLAG(adat) SD( ξ) = σ = Var( ξ) = p i ( x i ) 2 s ** = 1 ( x i ) 2 8 Egy becslés torzítatla, ha a végteleszer megismételt becslésekkel kapov becslő értékek várható értéke megegyezik a becsült értékkel. 9 Az elméle4 variacia (σ 2 ) potbecslése s **2 = 1 ( x i ) 2... torzítatla Tekitsük az imét tault plug-i becslő (s** 2 ) képletét: s *2 = 1 x egy elméle' érték, melyet em ismerük. HelyeUe a mitaátlagot kell haszáluk. HelyeUesítsük be a várható érték helyére a mitaátlagot: Ez a képlet a mitaátlagra miimális, em a várható értékre. Ez torzítást okoz, a képlet alábecsli az elméle' szórást. Az /( 1) korrekciós szorzóval (Bessel s korrekcióak hívják) megszütethető a torzítás: (bizoyítás a jegyzetbe, em kell tudi) s 2 = 1 1 x = 1 x 1 Excel: =VAR.M(adat) Friedrich Bessel 1784 1846 10 Az elméle4 szórás (σ) potbecslése A variacia becslő értékéhez hasolóa a szórás plug i -képlete is torzít: s * = 1 x IU a Bessel-korrekciós faktor /( 1) haszálata csak csökke4 de teljese em szüte4 meg a torzítást: (csak aszimpto'kusa, vagyis végtele agy mita eseté; oka: a gyökfüggvéy aszimmetrikussága) 1 s = x 1 Excel: =SZÓR.M(adat)... kevéssé torzít Ezt a kevéssé torzító (de em teljese torzítatla) becslést haszáljuk. 11
Potbecslés Elméle4 (alapsokaság) értékek: BehelyeVesítéses ( plug-i ) becslő é.: (diszkrét valségi változóra) LÖVÉS CÉL - relazv gyakoriság p î = ( /) - valség vagy aráy (p i ) Excel: =DARABHATÖBB(adat)/DARAB2(adat) - várható érték ( alapsokaság átlaga ) - mita átlaga Excel: =ÁTLAG(adat) (E(ξ) vagy ) E ( ξ) = = p i k x = i = 1 - elméle' variacia (Var(ξ) vagy σ 2 ) Var( ξ) = σ 2 = E ξ E ( ξ ( )) 2 = p x i i - elméle' szórás (SD(ξ) vagy σ) SD( ξ) = σ = Var( ξ) = p i ( x i ) 2 ( )2 - tapasztala' variacia (s 2 ) Excel: =VAR.M(adat) - tapasztala' szórás (s, SD) Excel: =SZÓR.M(adat) s 2 = 1 x 1 1 s = x 1 12 Egy 15-elemű mitát veuük (lásd a táblázatot). Haszáljuk az Excel-t az elméle' paramterek potbecslélsre! p(kék szem) p =4/15 = 0.2667 = 26,67% (testmagasság) x =ÁTLAG(adat) = 170 cm Potbecslés 1. feladat: Meg szereték becsüli a kékszeműek aráyát, valamit a testmagasság várható értékét, elméle' variaciáját és elméle' szórását a SOTÉ-s gólyák (elsőéves hallgatók) körébe. σ 2 (testmagasság) s 2 =VAR.M(adat) = 107,5 cm 2 σ(testmagasság) s =SZÓR.M(adat) = 10,4 cm Megfigyelés Szemszí Magasság sorszáma kék? (cm) 1 HAMIS 163 2 HAMIS 153 3 HAMIS 152 4 HAMIS 158 5 HAMIS 167 6 IGAZ 184 7 IGAZ 165 8 HAMIS 184 9 IGAZ 175 10 HAMIS 167 11 HAMIS 178 12 HAMIS 168 13 HAMIS 173 14 IGAZ 178 15 HAMIS 180 13... hatásos Egy becslés hatásos, ha szórása (az ú. stadard hiba, SE) miimális. - A megismételt becslések egy sor becslő értéket eredméyezek, amelyek külöbözek egymástól a mitavétel véletleszerűsége miau (véletle hiba) - Tehát a becslő érték maga is egy véletle változó, melyek va elméle' eloszlása, várható értéke, elméle' szórása stb. - A becslő érték elméle' szórását stadard hibáak (stadard error, SE) evezzük Aráyok elméle' eloszlása: Biomiális eloszlás A következő diáko megtauljuk hogya kell kiszámoli az alábbi két becslő érték stadard hibáját. Átlagok elméle' eloszlása: Studet-féle t-eloszlás (df = 1) Aráy stadard hibája 1. példa: Meg szereték becsüli a kékszemű hallgatók aráyát a gólyák mit alapsokaság közöu. Egy = 15 elemű mitát veszük, melybe a kékszemek száma k = 4-ek adódik.mármegtaultuk, hogy az alapsokaságo belüli aráy (azaz valség, p) becslő értéke a relazv gyakoriság (p = k/), mely esetükbe 4/15 = 0,2667. Mekkora a becslés hibája? Tegyük fel, hogy a becsült érték megegyezik a becslő értékkel: p = 4/15. Számítógépes szimulációt haszálva vegyük 800 ilye mitát és készítsük relazv gyakorisági hisztogramot a kékszeműek mitáké' k számából (kék oszlopok). Ez elég jól közelí' a megfelelő elméle' eloszlást: a biomiális eloszlást (fekete voalrajz). 14 15
Aráy stadard hibája Aráy stadard hibája A korábbi előadásokba már megtault képletekkel számoljuk ki eze biomiális eloszlás paramétereit (, σ 2 és σ). Mivel aráyokat becslük, ezért a k változót k/ aráyá kell alakítauk, vagyis a vízszites tegelyt át kell skálázuk -el való osztással. Ugyaezt kell teük a biomiális eloszlás és σ paramétereivel is. Várható érték: = p = 4 Elméle' variacia: σ 2 = p(1 p) = 44/15 = 2,933 SD SD Várható érték = p = 4/15 SE SE Elméle' szórás: SD = p( 1 p) =1, 713 16 Elméle' szórás = az aráy stadard hibája p( 1 p) = p( 1 p) SE = = 0,1142 SE aráy = p( 1 p) 1 k 17 Aráy stadard hibája Aráy stadard hibája Theore'cal Distribu'o of Propor'os: Biomial Distribu4o (ormalized to sample size) max( SE aráy ) = 1 4 Mekkora az -elemű mitából számolható aráyok lehető legmagasabb stadard hibája? A p(1 p) szorzat akkor maximális, ha p = 1 p = 0,5. Ez esetbe p(1 p) = 0,25 így a SE : max( SE aráy ) = 0, 5 ( 1 0, 5 ) = 0, 25 = 1 4 Ha egy taulmáy ugyaazo mitából (vagy azoos elemszámú mitákból) becsült több valséget is tartalmaz, akkor gyakra csak a maximális stadard hibát adják meg a fe' képlet segítségével. Pl. egy = 100-elemű mitából számolt aráy eseté a SE legfeljebb 0,05 lehet. 18 2. feladat: Mi a sarlósejtes aémia (SC) géhordozóiak prevaleciája (épessége belüli aráya) és a becslés stadard hibája Nigériába, ha 172 vizsgált emberből 43 hordozta a betegség géjét? Hordozók mitabeli aráya: p (SC) = k(sc)/ = 43/172 = 0,25. A hiba az imét tault képleuel számolható: SE aráy = p( 1 p) ˆp ( 1 ˆp ) 0, 25 = ( 1 0, 25 ) = 0, 033 = 3,3% 172 3. feladat: Szereték egy vizsgálatba megbecsüli egyes króikus betegségek budapes' prevaleciáját. Milye mitaméretet javasolál, ha em akarjuk, hogy a becslés hibája az 1%-ot meghaladja? Mivel kokrét valséget vagy aráyt em ismerük, a legrosszab esetek tekithető 0,5-ös valséggel kell számoluk, melyek adou mitaméret SE aráy 1 eseté a legagyobb a stadard hibája. 4 1 A képletet átredezve kapjuk -t: 4( SE aráy ) = 1 2 4 0, 01 = 2500 2 Vagyis egy 2500-as mitaelemszám garatálja, hogy egy esetleges 0,5-ös prevalecia becslési hibája sem haladja meg az 1%-ot. (A jel azt jele', hgoy 0,5 alaü vagy feleü prevaleciák eseté kisebb mitás elégségesek leéek az SE 1% alau tartására.) 19
Átlag stadard hibája 2. példa: Meg szereték becsüli a gólyák testmagasságát. VeUük egy = 15 hallgatóból álló mitát, melyből az átlag x = 170 cm-ek, korrigált szórás s = 10 cm-ek adódou. Számítógépes szimulációval állítsuk elő az adateloszlást és a mitaátlagok eloszlását = 15- elemű mitákra. Kétszáz mitavétel (összese 3000 elem) szimulálása 'sztá mutatja, hogy az átlagok eloszlása léyegese keskeyebb, mit az adatoké. De meyivel? Átlag stadard hibája Ha az adatok szórását osztjuk a mitaelemszám () gyökével, megkapjuk az átlagok szórását. Ez utóbbit evezzük az átlag stadard hibájáak (SE átlag ). Az átlagok eloszlása (legalábbis közelítőleg) ormális a cetrális határeloszlás tétele miau. SE SE SD SD SE átlag = s x = σ adatok eloszlása: x = 170,01 cm SD = 9,947 cm átlagok eloszlása: x = 170,01 cm szórás = 2,507 cm 20 adatok eloszlása: x = 170,01 cm SD = 9,947 cm SD/ 0,5 = 9,947 cm/3,872 = 2,568 átlagok eloszlása: x = 170,01 cm SE átlag = 2,507 cm 21 Átlag stadard hibája Átlag stadard hibája Azoba az átlag hibáját (SE átlag ) többyire a mita szórásából számoljuk, így eloszlása 1 szabadsági fokú (degrees of freedom, df) Studet t- eloszlás lesz. Ez az eloszlás agy df eseté hasolít a ormális eloszláshoz, kis df eseté azoba jeletőse ehezebbek a szélei (leptokurto'kus). SE SE SE átlag = s x = σ s Elméle' modell: t-eloszlás x = 170,01 cm σ SE = 2,507 cm df = 1 = 14 William S. Gosset 1876 1937 Studet 22 4. feladat: Meg szereték becsüli a baá átlagos tömegét (várható értékét). Lemértük öt baát, az eredméyek: 134 g, 152 g, 158 g, 141 g, 170 g. Add meg a becslés hibáját. = 5 x = 151 g SD = 14,14 g SE átlag = 6,32 g 5. feladat: egy tudomáyos cikkbe a következő modat szerepelt:... a kísérletbe haszált patkáyok átlagtömege 420 g (SE = 20 g), míg átlagos életkora 5 hóap volt... A patkáyok számáról azoba em teszek említést. Mit godolsz, háy patkáyt haszálhauak, ha máshoa tudjuk, hogy az ilye korú patkáyok tömegéek szórása kb. 40 g? Az átlag szórása egyelő a változó szórása osztva a mitaelemszám gyökével. Redezzük át ezt a képletet -re: = (SD/SE) 2 = (40 g/20 g) 2 = 2 2 = 4 Megjegyzés: Ez egy eléggé alacsoy elemszám egy vizsgálathoz, mely megmagyarázhatja, hogy a szerzők miért em említeuék meg. Ez viszot az egész cikk hitelét megkérdőjelezi... 23
Valószíűség becsléséek stadard hibája: SE aráy = p( 1 p) 1 k... hatásos A becslés hatásos, ha szórása (értsd stadard hibája) miimális. Mitaaráyok Mitaátlagok elméle' eloszlása: elméle' eloszlása: biomiális eloszlás Studet-féle SE SE (mitaméretre t-eloszlás ormalizálva) (df = 1) SE SE Várható érték becsléséek stadard hibája: SE átlag = s x = σ s Általába kimodhatjuk, hogy a stadard hiba égyzete egyees aráyba áll a sta'sz'kai változó variaciájával, és fordítou aráyba a mita elemszámával. Vagyis a hatásosság megduplázásához égyszeres mitaméretre va szükség! 24 NÖVEKVŐ TORZÍTATLANSÁG... torzítatla és hatásos becsült érték egy becslő érték torzítás NÖVEKVŐ HATÁSOSSÁG vö. az Orvosi Biofizika Gyakorlatok jegyzet 17. MÉRÉSTECHNIKA fejezetéek 3. ábrájával: Mérési potosság és precizitás 25... kozisztes Képzeljük el egyre agyobb méretű () mitáko elvégzev becslések sorozatát. Egy becslés kozisztes, ha a becslő érték a mitaméret övelésével egyre kevésbé tér el a becsült értéktől. Más szóval agyobb elemszám eseté kisebb lesz a torzítás és a stadard hiba is.... kozisztes = 2 = 5 = 2 mitátlagok relazv gyakoriságsűrűségi eloszlása ugyaeze mitaátlagok számegyeese ábrázolva = 25 = 100 A testmagasság várható értékéek becslésére 200 mitából számolt mitaátlagok eloszlása egyre övekvő mitaméretek eseté: = 2, 5, 25, ad 100 26 27
... kozisztes A koziszteciát szigorú matema'kai módszerekkel kell vizsgáli (mi em fogjuk). EhelyeU csak szemléltessük a képleteike, hogy a valószíűség és a várható érték becslésére tault módszereik kozisztesek. Valószíűség becslése p î = ( /) A potbecslések torzítatlaok x = Várható érték becslése = 1... elégséges Egy becslés akkor elégséges, ha a becslő érték mide, a mitából kiyerhető iformációt tartalmaz, amely a becsült érték szempotjából relevás. Példa: Ha egy sta'sz'kai változót legalább itervallumskálá mérük, az átlag elégséges becslése a várható értékek, mivel a mita mide megfigyelt eleméek értékét felhaszálja. Azaz a teljes mita ismerete em ad több iformációt a várható értékre voatkozóa aál, mitha csak az átlagot ismerjük. Ellepélda: Ugyaebbe az esetbe a mediá em elégséges, mivel csak a mitaelemek ragját haszálja. SE aráy = p( 1 p) 1 k SE átlag = s x = σ s Elle-ellepélda: Ha azoba a sta'sz'kai változót csak ordiális szite mérjük, a mediá már elégséges becslő értéke a középértékek (mivel az átlag em haszálható). A hiba ullához tart, ha öveljük az elemszámot ( a evezőbe szerepel) 28 29... torzítatla Végtelesok mitavételből számolt becslő értékek átlaga egyelő a becsült értékkel.... hatásos A becslés stadard hibája (vagyis a becslő értékek szórása) kicsi.... kozisztes A mitaméret övelésével egyre kevéssé tér el a becsült értéktől a becslő érték.... elégséges Ugyaayi iformációt tartalmaz, mitha a teljes mitát adák meg. 30 Itervallumbecslés Az itervallum becslés sorá a becsült értékhez tartomáyt redelük (a becslő érték mit valségi változó skálájá egy alsó és egy felső határt), melyek eve kofideciaitervallum (agolul cofidece iterval, jele: CI) és ehhez egy valséget, melyek eve kofideciaszit (jele: 1 α), mely a becslési eljárás megbízhatóságát fejezi ki (kofidecia = megbízhatóság). A CI létrehozásáak 4pikus lépései: - mitavétel - potbecslés kiszámítása a mitaadatokból - potbecslés valószíűségi eloszlásáak meghatározása - az eloszlás alapjá stadard hiba számítása (opcioális) - midezesmeretébe egy tartomáy megadása, ahol a becsült érték lehet valségbecslések elméle' eloszlása várhatóértékbecslések elméle' és szimulált eloszlása 31
Itervallumbecslés...... valségre Mi a valsége, hogy egy véletleül kiválasztou gólyáak kék szeme va? A CI létrehozásáak lépései: - mitavétel: elemű mitába k kék szemű - potbecslés: p k k/ =... - a becslő érték elméle' eloszlása: biomiális eloszlás - SE: 1 k SE aráy =... - a megfigyelt k értékek biomiális eloszlást követek, melyet át kell skálázuk k/-re. Lehet ezzel az is számoli (ú. egzakt eljárás) de macerás... - köyebb ehelyeu a ormális eloszlással való közelítést haszáli: Wald-itervallum (egyszerű és elterjedt, de eléggé megbízhatatla módszer) valségbecslések eloszlása és aak közelítése ormális eloszlással 32... valségre 1. módszer: egzakt eljárás - számold ki mide egyes kimeetel (k) valségét a becsült p felhaszálásával, és redezd őket csökkeő valség szerit - kezdd el ezeket összeadogati kezdve a legagyobb valségűvel, majd a második legvalószíűbbel s.í.t. - ha az összeg meghalad egy előre kiválasztou limitet, állj meg - a kimeetelek tartomáya, mely bekerült a végső összegbe, lesz az egzakt CI, maga a végső összeg pedig a téyleges kofideciaszit (1 α) 3. példa: - haszáljuk az 1. példa adatait - lásd a kiszámolt táblázatot és a grafikot, mely a 95% -os (valójába 96,5%-os) CI-t mutatja: 7% 47% Itervallumbecslés... k/ p k # SZUMHA 0% 0.0095 9 0.9933 7% 0.0520 6 0.9134 13% 0.1324 4 0.7510 20% 0.2087 2 0.4364 27% 0.2277 1 0.2277 33% 0.1821 3 0.6185 40% 0.1104 5 0.8614 47% 0.0516 7 0.9650 53% 0.0188 8 0.9838 60% 0.0053 10 0.9986 67% 0.0012 11 0.9998 73% 0.0002 12 1.0000 80% 0.0000 13 1.0000 87% 0.0000 14 1.0000 93% 0.0000 15 1.0000 100% 0.0000 16 1.0000 33 A közelítés > 30 elemszám eseté működik jól. Itervallumbecslés...... valségre 2. módszer: közelítés ormális eloszlással (Wald Á.) 68% CI 95% CI Wald Ábrahám 1902 1950 A ± σ közöü tartomáyhoz kb. 68% valség tartozik. Az így defiiált becslési tartomáy eve 68%-os kofidecia- itervallum (CI), a valségé pedig kofideciaszit (1 α). A 3. példába: 68% CI = 15% 38%. (lásd a jobb oldali ábrát is) 68% CI k ± 1 k A ± 2σ közöü tartomáyhoz kb. 95% valség tartozik. Ez a 95%-os kofideciaitervallumak felel meg, és ige gyakra haszálják az éleuudomáyokba. Kis mitákál ez a CI akár ki is 95% CI k lóghat a [0,1] tartomáyból! > széleit le kell yesi. ± 2 1 k A 3. példába: 95% CI = 4% 50%. (lásd a jobb oldali ábrát és vö. az egzakt itervallummal.) 34 Itervallumbecslés...... valségre 6. feladat: Meg szereték becsüli a Rhesus faktor prevaleciáját (alapsokaságo belüli aráyát) a budapes' lakosság körébe. Véletleszerűe kiválasztouuk 42 embert, s meghatároztuk a vércsoportjukat: 35 volt Rh+. a) Adj potbecslést a Rhesus faktor prevaleciájára. p(rh+) p (Rh+) = k(rh+)/ = 35/42 = 0,833 b) Add meg a 95%-os CI-t a Wald-itervallum eljárással. Számoljuk ki a SE-t: 1 k 35 35 1 42 42 SE = = 0, 00331 42 A 95%-os CI kb. p (Rh+) ± 2SE közöu va, azaz 0,833 ± 0,006 vagy 0,826 0,839. 7. feladat: add meg a 95%-os kofideciaitervallumot a kék szemszí prevaleciájára a gólyák közt, ha egy 10 hallgatóból álló mitába keuőek volt kék a szeme. Az ismert képleuel számolva: p (Rh+) = 0,200 és SE = 0,126. Ebből a következő 95%-os CI adóda: 0,052 0,452. Azoba mivel valséget becslük, a CI em lóghat ki a [0,1] itervallumból; szélek yesése utá a CI: 0 0,452. IU a kofideciaszit már biztos em 95%-os. Ez csak egy példa, hogy meyire megbízhatatla a Wald-itervallum de eek elleére szoktuk haszáli em túl kis miták eseté, ha gyors becslésre va szükség. 35
Itervallumbecslés...... várható értékre Studet-féle t-eloszlást haszálva (W. S. Gosset) Az aráyokhoz hasoló itervallumokat lehet defiiáli, ez esetbe azoba az 1 szabadsági fokú (df) Studet-féle t- eloszlást fogjuk haszáli. Így em haszálhatjuk a korábbi közelítő itervallumokat sem ( ± σ és ± 2σ ). HelyeUe függvéytáblába vagy Excel paraccsal határozzuk meg a kétszélű p-t: =T.INVERZ.2SZ(valószíűség,szabadságfok) ez iu α, vagyis 4. példa: 1 kofidecia- - haszáljuk a 2. feladat adatait szit - add meg a 95%-os CI t-értékét: - Excel-be: a =T.INVERZ.2SZ(5%, 15-1) függvéyel: 2,1445 - (a KépleUárba lévő Ábra: A t-érték meghatározása a függvéytáblából, ha α = 5% és df = 14. függvéytáblából: 2.14) 36 A sta'sz'ka gyakrolato Excel-t haszáluk a t kiszámolására. Azoba t eloszlása stadard ( = 0 és σ = 1), így az x = x + t SE képletet kell haszáluk a megfelelő x- értékek kiszámolására. (x a sta'sz'kai változók, jele esetbe a magasság). t-ből tudjuk a CI alsó határát (x A ) számoli, míg +t-ből a felsőt (x F ): x A = x t SE = 170 cm 2,1445 * 2,5 cm = 164,6 cm x F = x + t SE = 170 cm + 2,1445 * 2,5 cm = 175,4 cm A 95%-os CI tehát 164,6 cm 175,4 cm. Itervallumbecslés...... várható értékre Studet-féle t-eloszlást haszálva (W. S. Gosset) 95% CI Ábra: Az átlagok elméle' eloszlásáak grafikoja (egy df = 1 szabadsági fokú em-stadard t-eloszlás, melyek paraméterei: = x és σ = SE) és az imét számolt 95%-os CI. 37 8. feladat: Becslést szereték adi a vérkoleszteriszit várható értékére és meg szereték adi a becslés 95%-os CI-t. Nyolcelemű mitát veuük, a megfigyelt értékek a táblázatba vaak. koleszterimegfigyelés Excel-be fogjuk elvégezi a számításokat. szit sorszáma (mg/dl) A várható érték potbecslése a mitaátlag: 1 174 x =ÁTLAG(adat) = 152,9 mg/dl 2 161 Számoljuk ki a SE-t a már tault módo: =DARAB(adat) = 8 SD =SZÓR.M(adat) = 18,47 mg/dl SE =SD/GYÖK() = 6,53 mg/dl Itervallumbecslés...... várható értékre A mitaátlagok t-eloszlást követek, so we have to fid a 95%-os CI határai: df = 1 = 7 t =T.INVERZ.2SZ(5%,df) = 2,365 x A =x -t*se = 137,4 mg/dl x A x F =x +t*se = 168,3 mg/dl 3 139 4 168 5 143 6 149 7 120 8 169 x F Itervallumbecslés...... várható értékre 9. feladat: Meg szereték határozi a gólyák átlagmagasságát 95%-os CI-mal, de azt szereték, hogy a CI e legye 1 cm-él szélesebb. Mekkora legye a mita mérete? Az irodalomból tudjuk, hogy az emberi testmagasság szórása általába 5 cm, és ezt a gólyákra is érvéyesek tekitjük. IU most visszafelé kell godolkoduk: Va egy CI-uk (most még) ismeretle x A és x F közöu. A CI szélessége a határoló értékek külöbsége: szélesség = x A x F HelyeUesítsük be a képleteiket: szélesség= (x +t*se) (x t*se) = 2*t*SE Most va egy kis problémák: a t-érték maga is függ a mitaméreuől (potosabba a szabadsági fokok számától)! Egy feltevéssel kell éljük: vegyük úgy, hogy a mita elég agy, és egyszerűe haszáljuk a t = 2 értéket; ekkor a képlet: szélesség = 4SE. Tudjuk, hogy SE = SD/ 0,5, helyeuesítsük be a fe' képletbe: szélesség= 4SD/ 0,5. Redezzük át a képletet a mitaméretre: = (4SD/szélesség) 2 HelyeUesítsük be az adataikat: = (4*(5 cm)/(1 cm)) 2 = 400 Ábra: 95%-os kofideciaitervallum (zölddel). 38 39
Itervallumbecslés Kofideciaszit (1 α): aak a valószíűsége, hogy egy adov módszerrel meghatározov CI-ok tartalmazzák-e a becsült értéket. Ebből em tudjuk meg, hogy egy kokrét CI téylegese tartalmazza-e a becsült értéket. Magát a becslési eljárást jellemzi általába, em aak egy korét eredméyét. Azt em tudjuk megmodai, hogy a becsült érték bee va-e az éppe kiszámolt CI-ba, csak akkor, ha valahoa ismerjük a becsült értéket mely esetbe az egész becslésre ics szükség. Itervallumbecslés 20 CI kiszámolva ugyaazo 20 mitára 68% és 95% kofideciaszite. Szigifikaciaszit (α): a komplemeter valség, pl. ha a kofideciaszit 95%, akkor a szigifikaciaszit 5%. Hogy melyiket haszáljuk, az a kotextustól függ. Ábra: A testmagasság várható értékre () ugyaazo módszerel végzeu 20 becslés szimulációja: 8-elemű = 8 (df = 7), = 170 cm, σ = 10 cm = 8 (df = 7), = 170 cm, σ = 10 cm mita vételezése (piros +), átlag és stadard hibájáak számítása, majd a CI megadása: átlag ± 2,36 SE 1 α = 68% 1 α = 95% (kék sáv). A becsült értékek: = 170 cm, σ = 10 cm. Magasabb kofideciaszit = 40 41 kisebb valószíűséggel esik a CI-o kívül a becsült érték, de kevesebb az iformációtartalma. Itervallumbecslés 20 20 db 95%-os CI kiszámolva 20 db 34 elemű és 20 db 8-elemű mitára. = 32 (df = 31), = 170 cm, σ = 10 cm = 8 (df = 7), = 170 cm, σ = 10 cm 1 α = 95% 1 α = 95% Nagyobb mitaelemszám ugyaazo kofideciaszite = szűkebb CI. 42 (4-szeres elemszám átlagosa fele szélességű CI-kat eredméyez.) Függelék: Normáltartomáy Normáltartomáy, refereciatartomáy vagy refereciaitervallum: a sta'sz'kai változóra voatkozó tartomáy, mely a változó egy elemét 95%-os valószíűséggel tartalmazza. A ormáltartomáy is egyfajta itervallumbecslés, de iu a sta'sz'kai változó eloszlását, em pedig eloszlásáak egy paraméterét jellemezzük. Más szóval: a ormáltartomáy a magukra az adatokra voatkozó 95%-os CI. Ezt a tartomáyt szokták feltüteti az orvosi laborleleteke is. Normális eloszlású változó eseté a ormáltartomáy kb.: x ± 2SD. (potosabba: x ± 1,96SD) 10. feladat: Számold ki a szérum glükózszit, σ és σ 2 paramétereit a laborlelet adataiak segítségével. x L = -2σ = 65 mg/dl x U = +2σ = 99 mg/dl x U + x L = (+2σ) + (-2σ) = 2 = (x U + x L )/2 = 82 mg/dl x U x L = (+2σ) (-2σ) = 4σ σ = (x U x L )/4 = 8,5 mg/dl σ 2 = 72,25 (mg/dl) 2 43
Mi a populáció? Mi a mita? Hogya szerezhetüformációt egy sta'sz'kai változóról? Milye becslészpusokat ismersz? Mik a becslés lépései? Mi a plug-i becslés? Mi a potbecslés? Mi a potbecslés hátráya? Mi a becslő értéke a valségek, várható értékek, elméle' variaciáak és elméle' szórásak? Mik a jó becslés tulajdoságai? Mi a torzítatlaság? Szemléltesd példával. Mi a hatásosság? Hogya lehet matema'kailag kifejezi? Elleőrző kérdések Milye eloszlást követek az aráyok? Milye eloszlást követ a várható érték becslő értéke? Mi a stadard hiba? Hogya számolható egy aráy stadard hibája? Hogya számolható egy átlag stadard hibája? Hogya függ a stadard hiba a változó szórásától? Hogya függ a stadard hiba a mita méretétől (elemszámától)? Meg szereték háromszorozi egy becslés hatásosságát. Hogya változtassuk a mita méreté? Mekkora egy 25 elemű mitából számolt aráy legagyobb lehetséges hibája? Mik egy kozisztes becslés ismérvei? Mit jelet, hogy egy becslés elégséges? Mi a Bessel-korrekció? Hol haszáljuk és mi a célja? Mi a CI jeletése? Mi a kofideciaszit jele és jeletése? Hogya adhatuk meg egzakt CI-ot egy aráyhoz? Mi a Wald-itervallum alapja, mi az előye és a hátráya? Hogya változik a CI, ha emelem a kofideciaszitet? Hogya változik a CI, ha övelem a mitaméretet? Hogya változik a CI, ha a vizsgált változó szórása kisebb? Elleőrző kérdések Hogya aduk meg CI-t várható érték becslése eseté? Mi a refereciatartomáy? Hogya adható meg egy ormális eloszlású valségi változó refereciatartomáya? Egy laborleletükbe külöféle laborértékek melleu refereciatartomáyokat látuk. Hogya lehet ezekből a kórház által haszált várható értékeket és szórásokat kiszámoli? Mi a kapcsolat a kofideciaszit és a szigifikaciaszit közöu? Miért em lehetséges megmodai, hogy egy adou CI téylegese tartalmazza-e a becsült értéket? 44 45