GRADUÁLIS BIOSTATISZTIKAI KURZUS 2012. február hó 22. Dr. Dinya Elek egyetemi docens
Biometria fogalma The active pursuit of biological knowledge by quantitative methods Sir R. A. Fisher, 1948
BIOMETRIA NÉLKÜL?
Statisztikai alapok 1. Mi a biostatisztika? 2. Valószínűségi alapok áttekintése 3. Adat-skálák 4. Fontosabb eloszlások áttekintése 5. Adatredukció
Miért fontos a Biostatisztika a Kutatásban Kísérlet-tervezés Analízis tervezés Adat értelmezés Medicínában Klinikai Medicína Irodalom olvasás Evidence-based Medicine/Practice
Mi a Biostatisztika? Matematika Biostatisztika Medicina Statisztika Együttműködő tudományok
1. Valószínűség: Alapfogalmak Eseményeken értelmezett számértékű függvény (mérték). Jelölésben P(A)=p Kolmogorov axiómák: 0 P(A) 1 P(0)=0 és P(I)=1 Ha AB = 0 P(A+B) = P(A) + P(B) 2. Valószínűség-számítás és a statisztika kapcsolata (klasszikus minőségi modell) k kedvező esetek száma p = = --------------------------- n összes eset száma
Feltételes valószínűség P(AB) P(AB) = P(B) Teljes valószínűség tétele Ha a B 1, B 2, B 3,., B n események teljes eseményrendszert alkotnak és P(B I )0, akkor tetszőleges A esemény valószínűségére igaz N P(A)= P(AB i ) P(B i ) i=1 Bayes-tétel Ha a B 1, B 2, B 3,., B n események teljes eseményrendszert alkotnak és P(Bi)0, és egy tetszőleges A esemény valószínűségére igaz P(A)0, akkor B i eseményekre igaz P(AB i )P(B i ) P(B i A) = N P(AB k ) P(B k ) k=1
FELADAT Véletlenszerűen kiválasztunk két különbözőt az 1, 2, 3, 4 és 5 számok közül. Mekkor annak valószínűsége, hogy köztük pontosan egy páros lesz. Lehetséges válaszok: a) 2/3 b) 2/5 c) 3/5 d) 5/6 e) 7/10
Az összes választási lehetőségek száma: Jó választások száma: 1 páros + 1 páratlan: A keresett valószínűség: p 5 2 2 1 6 10 54 1 3 1 2 2 3 10 6 0, 60 60 %
FELADAT Egy populációs mintában az MN vércsoport-rendszerre nézve a következő megoszlást találták: MM: 30 MN: 50 NN: 20 Véletlenszerű párválasztást feltételezve számítsuk ki a következő nemzedék várható vércsoport-megoszlását.
MEGOLDÁS Az egyes vércsoportok előfordulási gyakorisága: MM 30 fő D=0,3 MN 50 fő H=0,5 NN 20 fő R=0,2 Az egyes allélek gyakorisága: P(M) = p = D + H/2 = 0,3 + 0,5/2 = 0,55 P(N) = q = R + H/2 = 0,2 + 0,5/2 = 0,45 A következő generáció várható gyakorisága: P(MM) = p 2 = 0,55 2 = 0,3025 P(NN) = q 2 = 0,45 2 = 0,2025 P(MN) = 2pq = 2 x 0,55 x 0,45 = 0,495
A vizsgált adatok jellege - nominális - ordinális - intervallum - arányskála
Valószínüségi változók Diszkrét Folytonos p k = P(A k ) = P( < x) Eloszlás függvény F(x) = P( < x) F(x) = f(x)
Diszkrét eloszlások Binomiális p k = P( = k) = ( )p k q n-k M() = n p D() = n p q Poisson k p k = P( = k) = e - M() = D() = n k k!
Feladat Egy fodrász délelőtt 10 munkát tud elvégezni. Mégis 12 embert jegyzett elő, mivel tapasztalatból tudja, hogy az esetek 15%-ában valamiért lemondják a fodrászt. Mekkora eséllyel fog a 12 előjegyzettből legfeljebb 10 eljönni?
Megoldás: A szituációt úgy modellezzük, hogy azt feltételezzük minden előjegyzett egymástól függetlenül 0,85 eséllyel jön el. Ezért annak az esélye, hogy éppen k személy jön, a binomiális eloszlással számolható, tehát: 12 0,85 k k 12 k 0,15 Esetünkben a legfeljebb 10, az 11 tag összegét jelentené, ezért egyszerűbb a komplementer vizsgálata.
Annak az esélye, hogy több, mint 10 vendég jön, az csak kimenetelből áll: 11 vagy 12 vendég. Ezek esélyei: 12 0,85 11 0,15 12 11 illetve 0,85 Ezek összege: 0,3012 + 0,1422 = 0,4334. Tehát a komplementer esemény esélye, vagyis hogy el tudja végezni a munkát csak 0,5666, tehát nincs egészen 57%.
FELADAT Egy kórházba bizonyos betegséggel évenként beszállított egyének száma Poisson eloszlást követ. Hetenként átlagosan egy személyt hoznak be. Mi a valószínűsége, hogy egy adott héten két személyt szállítanak be?
MEGOLDÁS Az eloszlás várható értéke = 1 A formula alapján k = 2 P 2 = (1 2 / 2!) e -1 = 0.18 = 18%
A normális eloszlás mint modell Ez a modell jól leírja a mérési értékeknek a középérték (várható érték) körüli szóródását. Jelölése N(μ, σ). (μ = elméleti középérték, σ = elméleti szórás). Standard normális eloszlás: N(0, 1)
f(x) Inflexiós pont 1 2 34,1 % 34,1 % 13,6 % 13,6 % 0,1 % 2,2 % 2,2 % 0,1 % -3-2 - + +2 +3 Normális eloszlás tulajdonságai
Sűrűségfüggvény f x 1 ( x) e 2 2 2 2
Normáleloszlás eloszlásfüggvénye 1.000 0.900 0.800 0.700 0.600 0.500 0.400 0.300 0.200 0.100 0.000 1.96; 0.975 0; 0.500-1.96; 0.025-4 -2 0 2 4
Eloszlásfüggvény F x 1 ( x) e 2 2 x 2 2 dx
(x) 1 ~ 0,4 2 inflexiós pont inflexiós pont 34,1 % 34,1 % 13,6 % 13,6 % 2,2 % 2,2 % 0,1 % 0,1 % -3-2 -1 0 1 2 3 z Standard normális eloszlás x i - z i =
Standardizálás z i x i
Standard normáleloszlás sűrűségfüggvénye 0.400 0.350 1 μ, medián, módusz 2 0.300 0.250 0.200 0.150 0.100 0.050 0.000-4 -2 0 2 4
Standard normális eloszlás sűrűségfüggvénye ( x) 1 e x 2 2 2
Standard normáleloszlás eloszlásfüggvénye 1.000 0.900 0.800 0.700 0.600 0.500 0.400 0.300 0.200 0.100 0.000 1.96; 0.975 0; 0.500-1.96; 0.025-4 -2 0 2 4
Standard normális eloszlás eloszlásfüggvénye x 1 ( x) e 2 2 x 2 dx
A normál eloszlás nevezetes értékei α% μ ± σ 5 1,96 1 2,58 0,1 3,29
Standard normáleloszlás 95%-os valószínűségei 0.400 0.350 0.300 0.250 0.200 0.150 95% 0.100 0.050 0.000-4 -2 0 2 4
A középérték 95%-os megbízhatósági tartománya (CI) 0,95 1,96 1,96 n x n x P 0,95 0,05 0,05 n s t x n s t x P Ismert σ: Ismeretlen σ:
Csúcsos és lapos eloszlás 0,80 0,60 0,40 0,20 0,00-3,00-2,00-1,00 0,00 1,00 2,00 3,00
Egyéb normalitás vizsgálat Kolmogorov-Smirnov és Shapiro-Wilk próba Tests of Normal ity Kolmogorov-Smirnov a Shapiro-Wilk Talajmûv elés Statistic df Sig. Statistic df Sig. termés t/ha õszi szántás.127 48.050.916 48.002 tav aszi szántás.227 48.000.845 48.000 tárcsás.263 48.000.817 48.000 a. Lillief ors Signif icance Correction
Expected Normal Grafikus normalitás vizsgálat 1. Normal Q-Q Plot of termés t/ha 3 For TALAJMUV= őszi szántás 2 1 0-1 -2-3 6 8 10 12 14 16 Observed Value
Dev from Normal Grafikus normalitás vizsgálat 2. Detrended Normal Q-Q Plot of termés t/ha.4 For TALAJMUV= őszi szántás.2 0.0 -.2 -.4 -.6 -.8 7 8 9 10 11 12 13 14 15 Observed Value
Az eloszlás alakjának jellemzése Ferdeség (skewness, normális eloszlás=0 körüli érték) Csúcsosság (kurtosis, normális eloszlás=0 körüli érték)
POSITIVELY SKEWED
NEGATIVELY SKEWED
BI-MODAL
Az aszimmetria mérőszámai Az eloszlások következő típusaival foglalkozunk: -egymóduszú eloszlás szimmetrikus, aszimmetrikus (vagy ferde); -többmóduszú eloszlás.
Az aszimmetria mérőszámai Többmóduszú gyakorisági sorok általában heterogén sokaságokból származtathatók. A fősokaságot a heterogenitást előidéző ismérv szerint csoportosítva egy egymóduszú gyakorisági sorokhoz jutunk, ezért ezeket összetett gyakorisági soroknak is nevezzük. Az egymóduszú gyakorisági sorok poligonjának egy helyi maximuma (csúcsa) van. A helyzetmutatók elhelyezkedésétől függően az eloszlás szimmetrikus és aszimmetrikus lehet.
Asszimetria mérőszámai Az aszimmetria leggyakrabban használt mérőszámai a Pearson-féle mutatószám és az F mutató. A két mutatószám eltérő jellemzőkből kiindulva méri az aszimmetria mértékét és irányát.
Pearson-féle mutatószáma Az aszimmetria Pearson-féle mutatószáma (jele: A) a számtani átlag és a módusz egyes eloszlástípusok esetén jellemző nagyságrendi viszonyán alapul. A mérőszám (önmagában a számláló) előjele az aszimmetria irányát mutatja. Bal oldali, jobbra elnyúló aszimmetria esetén A 0, jobb oldali, balra elnyúló aszimmetria esetén A 0. Szimmetrikus eloszlás esetén A = 0. A mérőszám abszolút értékének nincs határozott felső korlátja, azonban már 1-nél nagyobb abszolút érték a gyakorlatban ritkán fordul elő és meglehetősen erős aszimmetriára utal. A x Mo
F mutató Az aszimmetria másik mérőszáma, az F mutató (jele: F) az alsó és felső kvartilis mediántól való eltérésének egymáshoz viszonyított nagyságán alapul. Bal oldali, jobbra elnyúló aszimmetria esetén a medián az alsó (Q 1 ), míg jobb oldali aszimmetria esetén a felső (Q 3 ) kvartilishez esik közelebb. E mutatószám ugyanolyan feltételek mellett ad nulla, pozitív és negatív eredményt, mint az A mutató. Az F mutató lényegesen kisebb értékkel jelzi a már nagyfokúnak tekinthető aszimmetriát, mint az A. ( Q3 Me) ( Me Q1) F ( Q Me) ( Me Q ) 3 1
További folytonos eloszlások t-eloszlás Exponenciális eloszlás Egyenletes eloszlás F-eloszlás Gamma
t-eloszlás
Exponenciális eloszlás A valószínűségi változót paraméterű exponenciális eloszlásúnak nevezzük, ha eloszlásfüggvénye: ahol rögzített Az exponenciális eloszlásfüggvény
Exponenciális eloszlás Az exponenciális eloszlás sűrűségfüggvénye:
A Egyenletes eloszlás valószínűségi változót az intervallumon egyenletes eloszlásúnak nevezzük, ha eloszlásfüggvénye Az egyenletes eloszlás sűrűségfüggvénye egyébként.
Az egyenletes eloszlás eloszlásfüggvénye Az egyenletes eloszlás sűrűségfüggvénye
F eloszlás f1 = (n1-1) f2 = (n2-1)
KÖSZÖNÖM A FIGYELMET