Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem Előadások-gyakorlatok 2018-ban (13 alkalom) IX.12, 19, 26, X. 3, 10, 17, 24, XI. 7, 14, 21, 28, XI. 5, 12. Előadók: Podani János Pásztor Erzsébet Kun Ádám NRÖEB Tsz Genetika Tsz NRÖEB Tsz
Tematika Az alapok összefoglalása (eloszlások, a hipotézis vizsgálatok alapelve, paraméteres módszerek) Nemparaméteres próbák - megfigyelt változók elemzése és rangpróbák Általános lineáris modellek: regresszió, variancia-analízis, többváltozós esetek Adatok ábrázolása Randomizációs módszerek, tesztek Mintavételezés Bevezetés a többváltozós módszerekbe Maximum likelihood becslés, logit regressziós modellek
Ajánlott irodalom: Internet: egyéni tanuláshoz https://www.mateking.hu/ https://www.mateking.hu/tantargyak ELTE statisztika 1 és 2 Biometria előadás anyaga http://ramet.elte.hu/~podani/lectures.htm Többváltozós módszerek: SYN-TAX 2000 for WINDOWS ramet.elte.hu/~podani/syn2000.html - laptop?? -kalkulátor, mobiltelefon - órai feladatlap, utolsó órai zh.
Fontos definíciók: Változó: Eseménytér elemeihez rendelt érték x : H Diszkrét vagy folytonos Paraméter: Elméleti érték, pl. testmagasság átlaga. Csak teljes enumerációval kapható meg. Ez ritkán lehetséges. > mintavétel Minta: A lehetséges adatok részhalmaza vö. populáció (univerzumhalmaz) Becslőfüggvény: Olyan formula, ami a mintából becsli a paramétert. Statisztika. x i /n Becslés: A paraméter becsült értéke. x
Diszkrét eloszlású v. v. Eloszlások értékkészlete megszámlálható halmaz. Legyen p k az a valószínűség, hogy éppen az x k értéket veszi fel. Ekkor az eloszlás a { p k, x k } számpárok halmaza. Pl. kockadobásnál: { 1/6, x k } Grafikon: Az oszlopok magasságainak összege 1.0 I. Egyenletes eloszlás p 1/6 1 2 3 4 5 6 k
A v.v. eloszlásfüggvénye Megadja, hogy egy v.v. milyen valószínűséggel vesz fel egy adott x-nél kisebb értéket: F(x) = p ( < x) Diszkrét v.v. ("lépcsős fv.") a kockadobás (egyenletes eloszlás) példájára: p 1 0 1 2 3 4 5 6
II. Binomiális eloszlás - urnamodell, visszatevéssel. Általában: n esetből k darab "kedvező" esemény bekövetkezésének (x=k) a valószínűsége, ha p az esemény egyedi valószínűsége (q = 1 p). P(x=k) = n k p k q n-k, k = 1,2,,n Példa: n=3, k=1, p=0.33. v. v. P P(X=1) = 3 * 0.33 * 0.66 * 0.66 = 0.44 k
Biológiai példák: mintavétel igen (~végtelen) nagy populációból - nemek - magvak csírázása III. Hipergeometrikus eloszlás - urnamodell, visszatevés nélkül. Általában: n esetből k darab "kedvező" esemény bekövetkezésének (x=k) a valószínűsége, ha a kedvező esetet N egyedből m képviseli a populációban Biológiai példák: mintavétel kis populációból
Poisson eloszlás adódik, ha ritka események a tér- vagy időbeli folytonosságban egymástól függetlenül, véletlenszerűen következnek be. 1 km
IV. Poisson eloszlás k darab tér-, időegységre eső bekövetkezés valószínűsége, az átlag azaz a várható érték p k p( k) e k k!
Egy nevezetes példa (Ladislaus Bortkiewicz 1898) Porosz hadsereg, n = 200 (húsz hadtest, tíz éven át) Halálesetek száma/év/hadtest Megf. Poisson 0 109 108,67 (+) 1 65 66,29 (-) 2 22 20,22 (+) 3 3 4,11 (-) 4 1 0,63 (+) >4 0 0,1 (-) k ahol a várható értéket, -t, a mintából becsültük: halálesetek átlagos száma/év/hadtest = = Össz. haláleset/össz 1 évig megfigyelt hadtest = = (109*0+65*1+22*2+3*3+1*4) / (109+65+22+3+1) = 122/200 = 0,61
Folytonos eloszlású v. v. Értékkészlete nem megszámlálható halmaz. Az eloszlás ábrázolása a sűrűségfüggvénnyel történik. I. Egyenletes eloszlás pl. a telefonhívástól a kapcsolásig eltelt idő (mp) a központban. Ez 1. és 41. mp között biztosan, bármelyik időpillanatban azonos valószínűséggel bekövetkezik. Ekkor egy egyenletes eloszlású, folytonos v. v. az alábbi sűrűségfüggvénnyel ábrázolható: p 1/40 1 31 41 A görbe alatti terület : 1.0. Mi a valószínűsége annak, hogy a kapcsolás a 31-41 mp között történik meg?
Folytonos v.v. eloszlásfüggvénye a telefonhívás példájára: F(b) F(a) p 1 0 1 31 41 a b Az eloszlásfüggvény alapján megtudhatjuk, hogy milyen valószínűséggel vesz fel egy [a,b] intervallumba tartozó értéket: p ( a b) = F(b) - F(a)
A sűrűségfv. közelítése: a) az értékkészlet egységnyi intervallumokra osztása b) sok megfigyelés (n) pˆ 1/40 p ˆ k fk n 1 2 3 4 5 6 39 40 41 (sűrűséghisztogram). A téglalapok magasságainak összege 1.
II. Normális eloszlás Két paraméter: várható érték, 2 variancia (négyzetgyöke a szórás) Sűrűségfüggvény:
Sűrűség-hisztogram Sűrűségfüggvény standard alak:
154. 8 162.2 169.6 177 184.4 191.8 199.2 Példa: férfiak testmagassága az USA-ban, átlag: 177 cm, szórás 7,4 cm. Pl. mi a valószínűsége, hogy egy véletlenszerűen kiválasztott férfi magasabb - 191.8 cm-nél?? - 199.2 cm-nél - max. egy szórásra az átlagtól??
Bevezetés a hipotézisvizsgálatba Nemcsak a mért, megfigyelt, vizsgált valószínűségi változóknak van eloszlása!!
A mintavételi univerzumból (populációból) sokszor vehetünk mintát Mindegyikre kapunk adott paraméterre egy becslést A becsült értékek eloszlása nézzük az átlagot, nagyon sokszor feldobva n kockát 1/6 f(x) n = 3 f(x) n = 6 1 2 3 4 5 6 1 2 3 4 5 6 x 1 2 3 4 5 6 x átlag eloszlása - sampling distribution
Tegyük fel, hogy csak egy mintát vehetünk, amit most úgy imitálunk, hogy egy kockát hatszor feldobunk Nullhipotézis: a kocka szabályos f(x) n = 6 1 2 3 4 5 6 x elfogadási régió
Alternatív hipotézis: nem szabályos f(x) n = 6 1 2 3 4 5 6 x elutasítási régió elutasítási régió
Vagyis: ha a statisztika olyan eredményt ad, ami valószínű, akkor elfogadjuk, hogy a statisztika az adott eloszlásból származik. Ha a statisztika olyan eredményt ad, ami nagyon valószínűtlen, akkor azt mondjuk, hogy NEM, a statisztika mégse ebből az eloszlásból származik!! Bartlett-paradoxon! Tévedés lehetősége: mégis abból származik, ez rendszerint 0.05% (szignifkancia-szint, jele ) Általános munkamenet: a. A minta alapján kiszámítunk egy statisztikát, megválasztjuk az -t b. Megnézzük egy táblázatban, vagy kiszámítjuk, hogy a statisztika adott értéke mennyire valószínű a. Eldöntjük, hogy az eredmény szignifikáns-e avagy sem.
Hibalehetőségek: 1) "Elsőfajú" hiba (Type I error): H o -t elvetjük, holott igaz. Mértéke (hiszen éppen H o igaz volta esetén ilyen a statisztika eloszlása: csak valószínűséggel esik a kritikus tartományba). /2 /2
2) "Másodfajú" hiba (Type II error): Elfogadjuk H o -t, holott nem igaz! Ennek meghatározása csak az alternatív eloszlás ismeretében lehetséges. Valószínűségét jelöljük -val. Stat. eloszlása Alternatív eloszlás /2 /2 Ha az alternatív hipotézisben megjelölt várható érték közel van a H o -ban megjelölt várható értékhez, akkor nagy az átfedés, nagy a. Ha az alternatív hipotézisben megjelölt várható érték távolabb esik a H o -ban megjelölt várható értéktől, akkor kicsi az átfedés, kicsi a. A mintaelemszám növelése csökkenti a -t
Összesítve: elfogadjuk H o -t elvetjük igaz helyes I. hiba H o hamis II. hiba helyes és összefüggése: minél kisebb, annál nagyobb.
0. Szabályos-e a pénzérme??? Nullhipotézis: szabályos, az írás és a fej egyformán valószínű H o : p = q Alternatív hipotézis: nem szabályos, nem egyforma a két valószínűség H 1 : p q - Vizsgálat: 20 dobás. - Készítünk egy statisztikát, ami most: az írás becsült valószínűsége, p^ - Ennek megvizsgálása egy referencia-eloszlásban, amely arra az esetre szól, ha H o IGAZ!!!
Pénzfeldobásos kísérlet... összesített eredmény: fejek száma 20-ból 12 10 8 6 Adatsor1 4 2 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
p=q, n=20 k p(x=k) 0 0.00000095 1 0.00001907 2 0.0001812 3 0.00108719 4 0.00462055 5 0.01478577 6 0.03696442 7 0.07392883 8 0.12013435 9 0.16017914 10 0.17619705 11 0.16017914 12 0.12013435 13 0.07392883 14 0.03696442 15 0.01478577 16 0.00462055 17 0.00108719 18 0.0001812 19 0.00001907 20 0.00000095 0.20 0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 p(x=k) = n k p k q n-k 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0.021 0.958 0.021 Szélsőséges A statisztika innen származik! Szélsőséges
ennek becslése 2) Variancia, 2 (szórás ) Statisztikák 1) Várható érték, µ x 1 1 ) ( 2 1 1 2 1 2 2 n n x x n x x s n i i n i i n i i Megj.: Teljes enumerációnál (ha az alapsokaság minden elemét ismerjük nem csupán egy kisebb mintát) nem becslünk, tehát n az osztó. ennek becslése 3) Variációs koefficiens becslése CV = s / * 100 % 4) Variancia-hányados, korreláció, regressziós koefficiensek, stb. x
Kapcsolat a v.v. átlaga és az átlagok átlaga között Az átlagok átlaga a v.v. várható értékét becsli, ugyanúgy, mint maga az átlag - de hogyan? Kapcsolat a v.v. varianciája (szórása) és az átlag varianciája (szórása) között x
5. Az átlag szórása (varianciája) Példa: N=5, k=2, := { 6, 8, 10, 12, 14 }, egyenletes e.o., µ=10, V()=8. Viszatevéses mintavétellel a lehetséges kételemű minták száma N k = 5 2. Az átlag eloszlása x f ( x) p( x) 6 1 1/25 7 2 2/25 8 3 3/25 9 4 4/25 10 5 5/25 11 4 4/25 12 3 3/25 13 2 2/25 14 1 1/25 6 5 4 3 2 1 0 6 7 8 9 10 11 12 13 14 M( x i ) Az átlag varianciája (szórás négyzete) 2 x i (x i N k x ) 2 = 100/25 = 4 vagyis 8/2 = eredeti var./mintanagyság.