BIOMATEMATIKA ELŐADÁS 10. A statisztika alapjai Debrecei Egyetem, 2015 Dr. Bérczes Attila, Bertók Csaád
A diasor tartalma 1 Bevezetés 2 Statisztikai függvéyek Defiíció, empirikus várható érték Empirikus szóráségyzet Példa 3 Statisztikai becslések MLE Itervallumbecslések Példa
Bevezetés MIRE HASZNÁLJUK A BIOSTATISZTIKÁT? Nagy adatsorok kiértékelése, összehasolítása. Populációk közötti külöbségek, hasolóságok megállapítása. Gétérképezés, szekveciaaalízis. Epidemiológiai vizsgálatok. Stb. Alapprobléma Egy adott (Ω,F,P) valószíűségi mező értelmezett ξ valószíűségi változó értékeire voatkozó megfigyeléseik alapjá a ξ teljese, vagy részbe ismeretle eloszlására vagyuk kívácsiak. Ha a valószíűségi változó eloszlásáak típusa ismert, csupá aak egyes paraméterei ismeretleek (pl. expoeciális eloszlás eseté a λ paraméter), úgy paraméteres próbáról, egyébkét pedig emparaméteres próbáról beszélük.
Bevezetés MI A MINTA? A statisztika alkalmazása sorá a vizsgált valószíűségi változók értékeiek megfigyelése, azaz a mitavétel útjá szerzük iformációt. A mitavétel célja a biológiába kettős: egyrészt em tuduk "midet méri", másrészt a vizsgált objektumot em szabad úgy megváltoztati, hogy az ismételt vizsgálatok számára alkalmatlaá váljo. Egy (Ω,F,P) valószíűségi mező értelmezett, a statisztikai vizsgálat tárgyát képező ξ valószíűségi változó értékeire tett megfigyeléseik eredméyét a véletle befolyásolja. Mi az adott ω elemi eseméyhez redelt ξ (ω) értéket mérjük. A mért értékeket (mitaelemeket) mostatól x 1,x 2,...-vel jelöljük.
Statisztikai függvéyek Defiíció Tetszőleges s : R R függvéy eseté a ξ () = (x 1,x 2,...,x ) elemű mitával képzett S := s ξ () összetett függvéyt a ξ valószíűségi változóra voatkozó statisztikai függvéyek (rövide statisztikáak) evezzük, feltéve, hogy ez létezik és a megfelelő -téyezős szorzatmező valószíűségi változó. Az empirikus várható érték A ξ valószíűségi változó elemű mitából yert empirikus várható értéké az E (ξ ) := 1 x i kifejezést értjük, melyet szokás egyszerűe átlagak is evezi.
Statisztikai függvéyek Az empirikus szóráségyzet A ξ valószíűségi változó elemű mitából yert empirikus szóráségyzeté (vagy empirikus variaciájá) a D 2 (ξ ) = 1 (x i E (ξ )) 2 számot értjük. A D 2 (ξ ) értéket empirikus szórásak evezzük. Megjegyzés Igazolható, hogy ha létezik a D 2 (ξ ) variacia, akkor mivel a mitaelemek függetleek, így E(D 2 (ξ )) = 1 D2 (ξ ).
Statisztikai függvéyek Így a D 2 (ξ ) := 1 D2 (ξ ) defiícióval értelmezett korrigált empirikus variacia várható értéke azoos a D 2 (ξ ) elméleti variaciával. A fetiek alapjá szokás az alábbi jelölések haszálata: x := 1 s 2 := 1 s 2 := 1 1 x i, (x i x) 2, (x i x) 2.
Statisztikai függvéyek - példa Egy üvegszáryú lepke populációba a 12 vizsgált fiatal egyedél a száryfesztávolság mm-be mérve az alábbiak szerit alakul: x i 15 21 13 14 17 15 20 22 16 17 18 12 Számoljuk ki x,s 2 és s 2 értékét! Mivel a mitaelemszám 12, így = 12-vel számolhatuk. A tault képlet alapjá: 1 x = (15 + 21 + 13 +... + 18 + 12) 16,667 12 s 2 12 = 1 12 [(15 16,667)2 +... + (12 16,667) 2 ] 3,009 s 2 12 = 1 11 [(15 16,667)2 +... + (12 16,667) 2 ] 3,143
Statisztikai függvéyek - példa
Statisztikai becslések Paraméterbecslés Tegyük fel, hogy a ξ valószíűségi változó eloszlásáak (ami ismert) valamely ismeretle paraméterét szereték a ξ -ből vett mita segítségével közelítőleg meghatározi. Az erre a célra haszált S statisztikai függvéyt a p paraméter becsléséek evezzük. Defiíció Egy S statisztikát a p paraméter torzítatla becsléséek evezzük, ha létezik az S várható értéke és E(S) = p. Megjegyzés A korábba látott empirikus várható érték, illetve korrigált empirikus variacia torzítatla becslése az elméleti várható értékek és variaciáak.
Statisztikai becslések - MLE Maximum-likelihood elv Tegyük fel, hogy a ξ i valószíűségi változók eloszlása ismert és azok egy p paraméterét szereték becsüli. Erre több lehetőség is va, így melyik becslést célszerű elfogadi? A legagyobb valószíűség elve azt jeleti, hogy azt a becslést fogadjuk el, amely mellett a kapott mitaértékek a legvalószíűbbek. A likelihood függvéy Értelmezzük az ú. likelihood függvéyt az alábbiak szerit: L(x 1,x 2,...,x ;p) = f ξi (x i ;p), ahol f ξi (x i ;p) a ξ i valószíűségi változó sűrűségfüggvéye, mely a p paramétertől függ. Természetese ez az abszolút folytoos valószíűségi változókra voatkozik, ám köye átgodolható a függvéy alakja diszkrét esetbe is.
Statisztikai becslések - MLE Megjegyzés A feti függvéyt szereték maximalizáli. Mivel sok esetbe a szorzatok miatt ez eheze megoldható, így gyakra eek logaritmusával, az ú. loglikelihood függvéyel dolgozuk: l(x 1,x 2,...,x ;p) = l(f ξi (x i ;p)). Példa Az egyszerűség kedvéért tekitsük egy diszkrét eloszlást. Legyeek ξ i függetle Beroulli-eloszlású valószíűségi változók p paraméterrel. Ekkor f ξi (x i ;p) = p x i (1 p) 1 x i, i = 1,2,...,.
Statisztikai becslések - MLE Így a likelihood függvéy: L(x 1,...,x ;p) = p x i (1 p) 1 x i = p x i (1 p) x i. Eek a függvéyek keressük a maximumát. Haszáljuk a korábbiakba már említett loglikelihood függvéyt! ( ) ( i x l(x 1,x 2,...,x ;p) = l(p) + x i )l(1 p). A maximumhely megkereséséhez deriváljuk (p szerit) a függvéyt! ) ( ) 1 x i p 1 x i 1 p. l p (x 1,x 2,...,x ;p) = (
Statisztikai becslések - MLE Egyelővé téve a kifejezést 0-val, majd keresztbeszorzás és a zárójelek felbotása utá: x i p x i p + p x i p = 0 p = x i = x. x i = 0 Így azt sejtjük, hogy a p paramétert az átlaggal becsülhetjük (azaz itt va a likelihood függvéy maximuma). Újra deriválva a függvéyt p szerit (vagy táblázatos módszerrel megézve) valóba az adódik, hogy itt maximumhely va, így Beroulli eloszlás eseté a p paramétert a fetiek alapjá lehet becsüli.
Itervallumbecslések A becslések sorá sajos midig fellép a paraméter elméleti értékétől való véletle eltérés. Így ameyibe ezt em vesszük figyelembe, úgy hibás eredméyeket kaphatuk (hiába becsüljük pl. az előző példába a várható értékkel a p paraméterüket, ha a populáció eseté ez 5 10%-al is eltérhet akár az elméleti várható értéktől). Ezt kiküszöböledő bizoyos esetekbe meg tudjuk határozi, hogy ez az eltérés (egy megadott valószíűséggel) legfeljebb mekkora lehet. Ha így a paraméterre egyszerre alsó- és felső becslést aduk, akkor itervallumbecslésről beszélük.
Itervallumbecslések Kofideciaitervallum Legye ξ az (Ω,F,P) valószíűségi mező értelmezett (ismert eloszlású) valószíűségi változó, p becsüledő paraméterrel. Legye továbbá α (0,1) egy tetszőleges valós szám. Ekkor egy [a,b] itervallumot a p paraméter kofideciaitervallumáak evezük, ha aak a valószíűsége, hogy a becsült paraméter az [a,b] itervallumba esik 1 α. Megjegyzés A feti leírás em a kofideciaitervallum potos defiíciója, ám érthetőség szempotjából talá ez a legszemléletesebb. A léyege az, hogy ha például egy vizsgált tulajdoság várható értéke X, akkor azt tudjuk modai, hogy "a várható érték 90,95,99%-os potossággal az [a,b] itervallumba esik".
Itervallumbecslések - példa Megjegyzés A biológiai vizsgálatok sorá a leggyakoribb értékek az α = 0,1, α = 0,05 és α = 0,01, melyek redre a 90,95 és 99%-os potosságak felelek meg. Az orvos- és gyógyszerésztudomáyok sorá gyakori a 99,9%-os, azaz az α = 0,001-es korlát is. Példa Legye egy felőtt épességbe a cm-be mért testmagasságot megadó valószíűségi változó ξ. Feltesszük, hogy ξ ormális eloszlású. A 10 mért érték: 167 171 188 161 166 164 179 170 171 172 Tegyük fel, hogy σ = 7 (cm). Határozzuk meg ξ várható értékére 95%-os kofideciaitervallumot!
Itervallumbecslések - példa Első lépésbe számoljuk ki a megadott miták alapjá az empirikus várható értékét: x = 1 10 10 x i = 170,9. Mivel az eloszlásuk ormális eloszlás, m és σ 2 / paraméterekkel (m ismeretle, σ ismert), így ezt először stadardizáli kell, azaz kivojuk az átlagot és leosztuk a szórással. Így az η = x m σ / valószíűségi változó immár stadard ormális eloszlású. Azt szereték eléri, hogy ( P zα / 2 x m ) σ / z 1 α / 2 = 1 α.
Itervallumbecslések - példa Itt zα / 2 az F ξ (x) = α / 2 egyelet megoldása (ú. α / 2 -kvatilis). Mivel stadard ormális eloszlás eseté táblázattal dolgozuk, így abból kiézve (és felhaszálva, hogy α = 0,05): z 0,025 = 1,96, és z 0,975 = 1,96. Így a feti képletet átalakítva, behelyettesítve: ( 0,95 = P 1,96 7 + 170,9 m 1,96 7 ) + 170,9 10 10 0,95 = P(166,5614 m 175,2386). A fetiek alapjá így azt modhatjuk, hogy 95%-os valószíűséggel 166,5614 m 175,2386.
Itervallumbecslések - példa Meyibe módosul a számolás abba az esetbe, ha csak alsó-, vagy felső becslést szereték adi? Sok esetbe ez agyo haszos, hisze ha pl. diétázó emberek egy csoportját vizsgáljuk, úgy az em feltétleül léyeges számukra - és marketig szempotjából sem - ha azt modjuk, hogy "a résztvevők testtömege a diéta végé 95%-os potossággal legalább x kg lesz". Ilyekor elegedő, ha csak felső becslést csiáluk, mely azt modja meg, hogy a megadott potosság mellett mekkora eséllyel lesz a becsült paraméterük legfeljebb a kapott szám. A korábbi példákat felhaszálva adjuk 95%-os (azaz α = 0,05) potosságú felső becslést a felőtt épesség testmagasságára! Emlékeztetőül: x = 170,9, és σ = 7.
Itervallumbecslések - példa Mivel miket most az itervallum alsó értéke em érdekel, így a korábbi képlet az alábbiak szerit módosul: ( P z α x m σ / ) = 1 α. Figyeljük meg, hogy em elég egyszerűe elhagyi az alsó korlátot, szükséges a zα / 2 helyett z α -t íri, hisze eddig úgy volt, hogy a 95% eléréséhez "alulról és felülről is levágtuk" 2,5 2,5%-ot, most viszot csak felülről váguk le 5-öt. Azért hagyjuk meg látszólag az alsó korlátot, hisze ha átszorzuk σ / -el, majd 1-el, hogy m-ből +m-et kapjuk, akkor az egyelőtleség iráya megfordul. Így, felhaszálva, hogy z 0,05 1,645 (táblázat): ( 0,95 = P m 1,645 7 ) + 170,9 10 0,95 = P(m 174,5414).
Itervallumbecslések Szemléltetés