BIOMATEMATIKA ELŐADÁS 9. Együttes eloszlás, kovarianca, nevezetes eloszlások Debreceni Egyetem, 2015 Dr. Bérczes Attila, Bertók Csanád
A diasor tartalma 1 Bevezetés, definíciók Együttes eloszlás Függetlenség Kovariancia Példa Korreláció 2 Nevezetes abszolút folytonos eloszlások Folytonos eloszlás Exponenciális eloszlás Normális eloszlás Lognormális eloszlás 3 Biológiai példák
Bevezetés, definíciók A természettudományokban gyakori, hogy a tulajdonságok hatnak egymásra (a testtömeg gyakran hatással van a falkabeli rangsorra, testmagasságra, stb.), így elengedhetetlen beszélnünk a valószínűségi változók együttes eloszlásáról, függetlenségéről, egymástól való függéséről. Definíció Legyenek ξ és η diszkrét valószínűségi változók, melyek értékkészlete rendre x 1,x 2,... és y 1,y 2,... Ekkor ξ és η együttes eloszlásán a számokat értjük. p ij = P(ξ = x i,η = y j ), i,j = 1,2,...
Definíciók Megjegyzés A fenti definíció vonatkozásában a ξ és η külön-külön tekintett eloszlása ún. marginális (más szóval perem-) eloszlásként jelenik meg, ahol p i = P(ξ = x i ) = j=1 p ij és q j = P(η = y j ) = i=1 p ij. Tétel A ξ és η együttes eloszlása meghatározza a peremeloszlásokat, de a peremeloszlások nem határozzák meg egyértelműen az együttes eloszlást. Megjegyzés A peremeloszlások lényegében úgy adhatóak meg, hogy az egyik valószínűségi változó értékét rögzítjük és megnézzük az ahhoz tartozó valószínűségeket. Pl. ha ξ értéke 2, 1,0 lehet, η értéke pedig 5,6,7, akkor pl. a ξ = 2-höz tartozó eloszlás: P(ξ = 2,η = 5) + P(ξ = 2,η = 6) + P(ξ = 2,η = 7).
Definíciók Definíció Azt mondjuk, hogy a ξ és η valószínűségi változók függetlenek, ha P(ξ = x i,η = y j ) = P(ξ = x i )P(η = y j ), i,j = 1,2,... A ξ 1,ξ 2,... valószínűségi változókat páronként függetlennek nevezzük, ha közülük bármely 2 független. A ξ 1,ξ 2,... valószínűségi változókat teljesen függetlennek nevezzük, ha P(ξ 1 = x i1,ξ 2 = x i2,...,ξ n = x in ) = P(ξ 1 = x i1 )P(ξ 2 = x i2 )...P(ξ n = x in ). Tétel Ha ξ és η független valószínűségi változók, melyeknek létezik a véges E(ξ ) és E(η) várható értéke, úgy E(ξ η) is létezik és véges és E(ξ η) = E(ξ )E(η).
Kovariancia Az előző alkalommal szó volt a szórásnégyzetről (vagy más szóval varianciáról), mely megmutatta, hogy egy adott valószínűségi változó mennyire térhet el a várható értékétől. Két valószínűségi változó esetében beszélhetünk az ún. kovarianciáról (a képlet hasonló a varianciához, hisz ott E(ξ 2 ) E(ξ ) 2 -tel számoltunk). Definíció Két diszkrét valószínűségi változó kovarianciája alatt a értéket értjük. Cov(ξ,η) = E(ξ η) E(ξ )E(η) Megjegyzés A definícióból látszik, hogy ha a két valószínűségi változó független, akkor a kovariancia értéke 0. Ugyanez visszafelé viszont nem igaz.
Példa Példaként tekintsük az alábbi, ún. kontingenciatáblázatot: Feladat: Adjuk meg p értékét! η ξ 1 0 2 1 p 3p p 0 2p 3p p 2 2p p p Adjuk meg ξ és η peremeloszlását! Független-e ξ és η? Adjuk meg ξ és η várható értékét és varianciáját (szórásnégyzetét)! Számoljuk ki Cov(ξ,η) értékét!
Példa Mivel tudjuk, hogy a valószínűségek összegének 1-et kell kiadnia, így 1 = p + 3p + p + 2p + 3p + p + 2p + p + p = 15p, így p = 1 15. A peremeloszlások: P(ξ = 1) = p + 3p + p = 5 15, P(ξ = 0) = 2p + 3p + p = 6 4 15, P(ξ = 2) = 2p + p + p = 15. Hasonlóan adódik, hogy P(η = 1) = 5 15, P(η = 0) = 7 15, P(η = 2) = 3 15. A függetlenséghez meg kell nézni, hogy a két peremeloszlás szorzata megegyezik-e az adott cellában lévő értékkel (pl. P(ξ = 0)P(η = 2) egyenlő-e a "0-s sor, 2-es oszlop" elemével). Ha akár csak egyetlen esetben is ellentmondást kapunk, akkor nem függetlenek, ha mindenhol egyenlőség adódik, akkor függetlenek. A példánk esetén: P(ξ = 0)P(η = 2) = 6 15 3 15 = 2 25 1 15, így nem függetlenek.
Példa Csak ξ esetén számoljuk ki az összes szükséges értéket, η esetében csupán a várható értéket adjuk meg. E(ξ ) = 1 5 15 + 0 6 15 + 2 4 = 3 15 15 E(ξ 2 ) = ( 1) 2 5 15 + (0)2 6 15 + (2)2 4 15 = 21 15 D 2 (ξ ) = E(ξ 2 ) E(ξ ) 2 = 21 15 9 225 E(η) = 1 5 15 + 0 7 15 + 2 3 15 = 34 25 = 1 15 A kovariancához szükségünk van az E(ξ η) várható értékre: E(ξ η) = 2 3 15 + 0 10 15 + 1 1 15 + 4 1 15 = 1 15, így Cov(ξ,η) = 1 15 3 15 1 15 = 2 25.
Korreláció Könnyen átgondolható, hogy két vizsgált mennyiség között fennálhat valamiféle kapcsolat (pl. a fekete hajú emberek szeme általában barna. Sokkal több kék szemű egyén van a szőke hajúak között, stb.) Ezt a kapcsolatot sokféleképp lehet vizsgálni és leírni. Az egyik elterjedt mérőszám az ún. korrelációs együttható, mely a tulajdonságok (valószínűségi változók) közötti (lineáris) kapcsolat "szorosságát" mutatja meg. Definíció A ξ és η valószínűségi változók korrelációs együtthatója alatt az számot értjük. R(ξ,η) = Cov(ξ,η) D(ξ )D(η)
Nevezetes abszolút folytonos eloszlások Folytonos egyenletes eloszlás Adott a,b R, a < b paraméterek mellett a ξ valószínűségi változót az [a,b] intervallumon egyenletes eloszlásúnak nevezzük, ha sűrűségfüggvénye Az eloszlásfüggvénye: f ξ (x) = { 1 b a, ha x [a,b] 0, egyébként. 0, ha x < a F ξ (x) = x a b a, ha x [a,b[ 1, ha x b. A várható értéke és varianciája: E(ξ ) = a + b 2, D2 (ξ ) = (b a)2. 12
Nevezetes abszolút folytonos eloszlások Megjegyzés A biológiában ez a típusú eloszlás viszonylag ritka, például akkor beszélhetnénk ilyen típusú eloszlásról ha egy egyed a rendelkezésre álló élőhely bármelyik szegmensét egyenlő eséllyel választaná saját vadászterületének. De mivel ilyen a természetben általában nem fordul elő (állatkertekben, ahol ellenőrzött körülmények vannak megjelenik), így a diszkrét egyenletes eloszlás sokkal elterjedtebb, mint folytonos társa.
Nevezetes abszolút folytonos eloszlások Exponenciális eloszlás Az mondjuk, hogy a ξ valószínűségi változó λ paraméterű (λ > 0) exponenciális eloszlású, ha sűrűségfüggvénye { λe λx, ha x ]0, [ f ξ (x) = 0, egyébként. Az eloszlásfüggvénye: F ξ (x) = A várható értéke és varianciája: { 1 e λx, ha x ]0, [ 0, egyébként. E(ξ ) = 1 λ, D2 (ξ ) = 1 λ 2.
Nevezetes abszolút folytonos eloszlások Megjegyzés Exponenciális eloszlást rendszerint élettartamhoz köthető vizsgálatok során használunk. Például a radioaktív bomlás tipikusan exponenciális eloszlással írható le, de populációk egyedszámának időbeli változásához is gyakran exponenciális eloszlást használunk. Ha az eloszlást átparaméterezzük, akkor túlélési valószínűséget is számolhatunk az eloszlás segítségével (megkaphatjuk, hogy egy adott populáció mekkora valószínűséggel fog x időn keresztül fennmaradni).
Nevezetes abszolút folytonos eloszlások Normális eloszlás Azt mondjuk, hogy a ξ valószínűségi változó m,σ 2 R paraméterű (σ > 0) normális eloszlású, ha sűrűségfüggvénye f ξ (x) = 1 2πσ e (x m)2 2σ 2, x R. A várható értéke és varianciája rendre m és σ 2. Az eloszlásfüggvénye nem adható meg klasszikus eszközökkel, így a vizsgálatok során táblázattal dolgozunk. Megjegyzés Jelölés: N (m,σ 2 ). A gyakorlatban az ún. standard normális eloszlással foglalkozunk, hiszen az ahhoz készült táblázatok segítségével tudjuk számolni a kívánt értékeket. Ez nem más, mint N (0,1).
Nevezetes abszolút folytonos eloszlások Standardizálás Ahhoz, hogy egy tetszőleges normális eloszlásból standard normálisat kapjunk, a várható értéket "el kell tolni", a szórással pedig "le kell osztani". Nevezetesen: F ξ (x) = P(ξ < x) = P(ξ m < x m) = ( ξ m = P < x m ) ( ) x m = Φ. σ σ σ Például, ha ξ egy m = 5,σ 2 = 4 (azaz σ = 2) paraméterű normális eloszlású valószínűségi változó és arra vagyunk kíváncsiak, hogy mekkora valószínűséggel lesz a kapott értékünk 8-nál kisebb, úgy F ξ (8) = P(ξ < 8) = P(ξ 5 < 3) = ( ξ 5 = P < 3 ) ( ) 3 = Φ 0,93319 93,3%. 2 2 2
Nevezetes abszolút folytonos eloszlások Megjegyzés Ez az egyik leggyakoribb eloszlásfajta a biológiai vizsgálatok során. Kellően nagy populációkban a testmagasság, testtömeg és úgy általában mindenfajta hosszméret is normális eloszlást követ (sőt, rendszerint a jegyek eloszlása a vizsgadolgozatok során is ezt az eloszlást követi, de persze ezt sok dolog befolyásolhatja).
Nevezetes abszolút folytonos eloszlások Lognormális eloszlás Azt mondjuk, hogy a ξ valószínűségi változó m,σ 2 R paraméterű (σ > 0) lognormális eloszlású, ha sűrűségfüggvénye f ξ (x) = 1 2πσx e (lnx m)2 2σ 2, x R. Az eloszlásfüggvénye a normális eloszláshoz hasonlóan nem adható meg klasszikus módszerekkel. A várható értéke és varianciája: σ2 m+ E(ξ ) = e 2, D 2 (ξ ) = e 2m+σ 2 (e σ 2 1).
Nevezetes abszolút folytonos eloszlások Megjegyzés Lognormális eloszlást gyakorlatban sejtosztódási, sejtaprítási folyamatok során használunk. Gyakran lognormális eloszlást követ valamely sejttípus esetén a sejtmag átmérője. Szintén ilyen eloszlással írható le a mitózishoz szükséges idő bizonyos sejtek esetén.
Biológiai példák 20 24 év közötti japán nők testsúlya normális eloszlást követ m = 50,01,σ 2 = 8 (azaz σ 2,83) paraméterekkel. Számoljuk ki, hogy mekkora annak az esélye, hogy egy véletlenszerűen választott 20 24 év közötti japán nő testsúlya 48 és 51 kg közé esik! A következő valószínűséget kell kiszámolni: P(48 < ξ < 51), ahol ξ jelöli a testsúlyt. Alkalmazva a tanult képletet ez nem más, mint F ξ (51) F ξ (48) = P(ξ < 51) P(ξ < 48). Standardizálva: P(ξ < 51) P(ξ < 48) = ( ξ 50,01 = P < 0,99 ) ( ξ 50,01 P 2,83 2,83 2,83 < 2,01 ) = 2,83 = Φ(0,3498) Φ( 0.7102) 0,63683 0,23885 39,8%. Megjegyzés Sok esetben a táblázatban nem szerepel negatív érték. Ekkor a Φ( x) = 1 Φ(x) képlettel számolhatjuk a keresett valószínűséget.
Biológiai példák Egy kórházba bizonyos betegséggel évenként beszállított egyének száma Poisson-eloszlású valószínűségi változó. Kéthetenként átlagosan egy személyt szállítanak be. Mennyi a valószínűsége annak, hogy egy adott héten két személyt szállítanak be? Mivel kéthetente átlagosan egy embert szállítanak be, így egy hét alatt átlagosan 0,5 személy kerül kórházba az adott betegséggel. Így λ = 0,5. Alkalmazva a képletet k = 2 választással: P(ξ = 2) = λ k k! e λ = 0,52 2! e 0,5 0,0758 7,6%.
Biológiai példák Egy populáció egyedei ragadozók áldozatául eshetnek. Az egyedek élettartamai egy adott időpillanattól kezdve (másodpercekben mérve) független exponenciális eloszlást követnek λ = 0,002 paraméterrel. Mekkora valószínűséggel ejtenek el egy egyedet a mérés kezdetét követően 5 7 perc között a ragadozók? Ha ξ -vel jelöljük az egyed várható élettartamát, úgy a keresett valószínűség: P(300 < ξ < 420) (átírtuk a perceket másodpercekre). Átírva: P(300 < ξ < 420) = F ξ (420) F ξ (300) = = (1 e 0,002 420 ) (1 e 0,002 300 ) 0,5683 0,4512 11,7%.