Felsőbb Matematika Informatikusoknak D házi feladatok a Sztochasztika részhez tavasz Minden héten összesen egy pontot érnek a kitűzött feladatok..hf: (Beadási határidő:..4.) HF. A Műegyetem hallgatóinak a 8%-a fiú, %-a lány. A fiúknak %-a hosszú hajú, a lányoknak pedig 7%-a. Véletlenszerűen kiválasztva egy hosszú hajú műegyetemistát, mennyi a valószínűsége, hogy ő lány? Jelöljük H-val azt az eseményt, hogy egy véletlenül választott hallgató hosszú hajú, L-lel azt, hogy lány, F-fel, hogy fiú. A Bayes tétel miatt P(L)P(H L) P(L H) = P(L)P(H L)+P(F)P(H F) = 7 7 + 8 = 7 5 46.67%. HF. Elgurítunk egy piros dobókockát, és a dobott számot X-szel jelöljük. Ezután elgurítunk X darab zöld dobókockát, és Y -nal jelöljük a zöld kockákkal dobott számok összegét. Mennyi Y várható értéke? Jelöljük m-mel egyetlen kockadobás eredményének várható értékét, vagyis m = 7. A teljes várható érték tétel szerint EY = = 6 P(X = k)e(y X = k) = k= [ 6 ] P(X = k) k k=.hf: (Beadási határidő:...) 6 P(X = k)[km] = k= m = m m = 7 7 = 49 4 =.5 HF. Egy szabályos dobókockával addig dobálunk, amíg ki nem jön egy hatos. Jelölje X az addig dobott számok összegét (az utolsónak dobott hatost nem beleértve). Számoljuk ki a.) X generátorfüggvényét, b.) X várható értékét, c.) X szórását. JelöljükN-nel a dobások számát, az utolsó6-ost nem beleértve, vagyisx Geom(p = ) (pesszimista). Így N generátorfüggvénye g 6 N(z) = p = (a szokásos q = p qz 6 5z jelöléssel). A keresett Y egy véletlen tagszámú összeg, éppen N taggal: X = N i= Y i, ahol Y,Y,... függetlenek és azonos eloszlásúak, mégpedig egyenletes eloszlásúak az {,,3,4,5} halmazon. (Figyelem: az Y i -k tényleg az {,,3,4,5} halmazon egyenletesek, és nem az{,,3,4,5,6}-on, mert azy i eloszlása egy kockadobás eredményének feltételes eloszlása azon feltétel mellett, hogy az eredmény nem 6-os.) Ezek szerint az Y i -k generátorfüggvénye így g Y (z) = z +z +z 3 +z 4 +z 5 5 = z z 6 5 z,
a.) a véletlen tagszámú összeg generátorfüggvénye g X = g n g Y, vagyis g X (z) = g N (g Y (z)) = 6 (z +z +z 3 +z 4 +z 5 ) =. 6 z z6 z b.) A várható értéket számolhatnánk a generátorfüggvény deriválásával is, de előadásról azt is tudjuk, hogy a véletlen tagszámú összegre EX = ENEY i. Esetünkben EN = = 5, EY p i = ++3+4+5 = 3, vagyis EX = 5 3 = 5. 5 c.) A szórást megintcsak számolhatnánk a generátorfüggvény deriváltjaiból, de előadásról azt is tudjuk, hogy D X = D N(EY i ) +END Y i. Esetünkben EN = 5, EY i = 3, továbbá az eloszlástáblázat szerint D N = q = 3 és D Y p i = 5 =. Így D X = 3 3 +5 = 8, DX = 8 6.73. HF. Mócika, népes családjában, pilótajátékot szervez. A játék résztvevői nem túl kitartóak: minden egyes résztvevő addig próbál újabb és újabb résztvevőket beszervezni, amíg először kudarc nem éri (vagyis vissza nem utasítják), az első kudarc után viszont leáll. A kudarc valószínűsége pedig minden egyes beszervezési kísérletnél p, az előzményektől függetlenül. A játék első résztvevője Móricka, ő alkotja egyedül a nulladik generációt. Az első generációt a Móricka által (közvetlenül) beszervezettek alkotják, a második generációt az első generáció tagjai által beszervezettek, stb. Jelölje Z k a k-adik generáció tagjainak a számát (k =,,,...), N pedig a teljes játék össz-résztvevőszámát (vagyis N = k= Z k). Válaszoljuk meg az alábbi kérdéseket I. p = 3 esetén, II. p = 3 esetén: a.) Mi Z generátorfüggvénye? b.) Mennyi Z várható értéke? c.) Mennyi a P(Z 3 = ) valószínűség? d.) Mennyi a valószínűsége annak, hogy a játék előbb-utóbb elakad (vagyis hogy valamelyik generáció már üres)? e.) Mennyi N várható értéke? f.) Mi N generátorfüggvénye? Z k elágazó folyamat, amiben az egylépéses utódszám (X) vagyis az egy résztvevő által beszervezettek száma pesszimista geometriai eloszlású p paraméterrel: P(X = k) = q k p (k =,,...), ahol q = p. Ennek generátorfüggvénye g(z) = p, qz várható értéke m := EX =. p I. p = esetén m =, g(z) =. 3 3 z a.) g Z (z) = g(g(z)) = 3 3 z b.) EZ = m = 4 c.) P(Z 3 = ) = g(g(g())). Esetünkben g() =, 3 g() = 6, 3 7 g(6) = 4, vagyis 7 5 P(Z 3 = ) = 4. 5 d.) Mivel m <, az elágazó folyamat szubkritikus, ezért P(kihalás) =. e.) EN = k= EZ k = k= mk. Jelen esetben m <, ezért a sor felősszegezhető, EN = k= mk = =. m f.) Előadásról tudjuk, hogy a G = g N (z) generátorfüggvény eleget tesz a G = zg(g) egyenletnek, ahol g(z) még mindig az egylépéses utódszám generátorfüggvénye, vagyis g(z) = p. Meg kell tehát oldani a G = z egyenletet 3 z qg
G-re. Ez átszorzás és átrendezés után másodfokúra vezet: = qg G+pz, aminek a két megoldása G = ± 4pqz. Hogy a kettő közül melyik az igazi q generátorfüggvény, azt eldönthetjük pl. a generátorfüggvéyn azon alaptulajdonsága alapján, hogy g N () = P(N = ). Esetünkben N, mivel a játéknak Móricka személyében legalább egy résztvevője biztosan van, így g N () = P(N = ) =, aminek a két gyök közül a - -os tesz eleget. Vagyis 4 z 3 3 g N (z) =. II. p = esetén m =, g(z) =. 3 3 z a.) g Z (z) = g(g(z)) = 3 3 z b.) EZ = m = 4 c.) P(Z 3 = ) = g(g(g())). Esetünkben g() =, 3 g() = 3, 3 7 g(3) = 7, vagyis 7 5 P(Z 3 = ) = 7. 5 d.) A kihalás valószínűsége a z = g(z) egyenlet legkisebbik (nemnegatív) gyöke. (Mivel m >, az elágazó folyamat szuperkritikus, ezért előre tudjuk, hogy ez -nél kisebb. Azt is tudjuk előre, hogy z = gyök lesz, mert g() = minden generátorfüggvényre, de mi most nem ezt a gököt keressük.) Meg kell tehát oldani a z = egyenletet. Ez átszorzás és átrendezés után másodfokúra 3 z vezet: = z 3z+, aminek a gyökei és. A kihalás valószínűsége tehát ezek közül a kisebbik: P(kihalás) =. e.) EN = k= EZ k = k= mk. Jelen esetben m >, ezért a sor divergens, EN = k= k =. Ezt persze onnan is lehetett tudni, hogy m > miatt a folyamat szuperkritikus, vagyis pozitív valószínűséggel sose hal ki, vagyis pozitív valószínűséggel N =. f.) Mivel m >, a folyamat szuperkritikus, és pozitív valószínűséggel N =. Vagyis az N most elfajult, és nem is igazi val-változó. Ilyeneknek a generátorfüggvényéről nem beszéltünk, és ne is erőltessük. 3.HF: (Beadási határidő:..8.) HF 3. Legyen X,X,...,X n független, azonos Bernoulli eloszlású valószínűségi változók sorozata p = paraméterrel (vagyis P(X i = ) = p = P(X i = ) = ). Legyen n = 6 és S n = X +X + +X n (vagyis S n Bin(n = 6 ;p = )). a.) Ha valamilyen K (; 6 )-ra a P(S n < K) valószínűséget a centrális határeloszlás tétellel közelítjük, legfeljebb mekkora lehet a közelítás hibája a Berry-Esséen tétel szerint? (Vigyázat: a tétel legegyszerűbb formájában nulla várható értékű val.változókról szól, és a Bernoulli eloszlás nem ilyen.) (A Berry-Esséen tételben szereplő C konstans egy -es eredmény szerint választható C =.4784-nek.) b.) A Hoeffding-egyenlőtlenség segítségével keressünk olyan K korlátot, amire biztosan igaz, hogy P(S n K) 8. Nevezzük ezt a K korlátot K H -nak. c.) Közelítsük a P(S n K H ) valószínűséget a Cramer-tétel segítségével! Segítség: A p paraméterű Bernoulli eloszlás momentum-generáló függvénye M(λ) = p + pe λ, ebből a Cramer féle rátafüggvény 3 I(x) = xln ( p)x p ln p( x) x. 3
a.) A Berry-Esséen tétel szerint a normális közelítés hibája legfeljebb Cρ σ 3, ahol n C =.4784, n = 6, σ = D X i = és ρ = E( X i m 3 ), ahol m = EX i =, vagyis ρ = 3 + 3 = + =. Összerakva: 8 8 8 hiba.4784 8 ( )3 =.4784 8 6 = 4.784 4. 8 b.) A Hoeffding egyenlőtlenség szerint ( ) t P(S n ES n +t) exp n k= (b. k a k ) Esetünkben n = 6, ES n = np = 5 5, és mindegyik a k =, b k =. Legyen tehát K H = ES n +t = 5 5 +t és ( ) ( ) 8 t t = exp n k= (b = exp. k a k ) 6 ( ) Ez utóbbiból 8ln = t 6, vagyis t = 4 6 ln = ln 334.85. Ezt visszaírva K H = 5+ ln 5334.85 c.) A Cramer tétel szerint P( S n n (a,b)) en inf a<x<bi(x). Célunk a P(S n > K H ) valószínűség becslése, tehát ezt először a fent alakúra kell írni: P(S n > K H ) = P( S n n > K H n ) = P(S n n (K H n, )), vagyis a Cramer tételt a = K H n.533485, b = -vel alkalmazzuk. Ekkor a > m =, ezért inf a<x<bi(x) = I(a). Esetünkben I(x) = xln x / ln, x x amiből I(a).8479 5, és P(S n > K H ) e 8.479.9999 8. Vigyázat: aki menet közben meggondolatlanul kerekít, teljesen rossz eredményt kaphat. Pl. aki az a.533485-öt dőre módon a.5-re cseréli, az.9999 8 helyett -et kap végeredményül, ami nagyon nem mindegy. (Hát persze: P( Sn (.5, )) = > m) P(Sn. Az egész történet arról szól, hogy az átlag kis n n valószínűséggel, de eltérhet a várható értéktől.) De még ha valaki a.533485 heylett a.53 -tel számol, akkor is.5 8 -t kap végeredménynek, ami még mindig 5%-os hiba. Hát persze: nagyon nem mindeg, hogy az S n -nek a várható értékétől való eltérése 3, vagy 334.85: A Cramer tétel pont azt mondja, hogy kicsit jobban eltérni is sokkal valószínűtlenebb. 4.HF: (Beadási határidő:.3.6.) HF 4. Az. ábrán látható gráf egy diszkrét idejű, időben homogén Markov lánc pozitív valószínűségű egylépéses átmeneteit mutatja. Osztályozzuk az állapotokat aszerint, hogy melyik melyikkel érintkezik! Minden osztályról állapítsuk megy, hogy 4
zárt-e vagy nyílt, lényeges-e vagy lényegtelen, visszatérő-e vagy átmeneti, mennyi a periódusa. 3 4 5. ábra. Markov lánc gráf-reprezentációja (valószínűségek nélkül) osztály zártság lényegesség visszatérés periódus {} nyílt lényegtelen átmeneti, vagy nincs {; 3} nyílt lényegtelen átmeneti {4;5} zárt lényeges visszatérő, aperiodikus Édemes hangsúlyozni, hogy az {} egy tisztességes egyelemű osztály: önmagával definíció szerint minden állapot kommunkiál, még akkor is, ha pozitív lépésszámban nem lehet oda önmagából (sem) visszajutni. Másképp mondva: az i j reláció ( i kommunikál j-vel ) egy rendes ekvivalencia, és a belőle adódó osztályozásnak az állapottér minden elemét le kell fedni. Az más kérdés, hogy az {} osztály periódusa problémás: az üreshalmaz legnagyobb közös osztója, ami ízlés szerint lehet, vagy nem definiált. HF 4. John megfigyelései szerint reggelente, amikor Londonban munkába autózik, háromféle lehet az időjárás: esik, zuhog vagy szakad. Tapasztalata szerint egy nap időjárásából következtetni lehet a következő nap időjárására, az alábbi valószínűségi értelemben: P(holnap esik ma esik) = /, P(holnap szakad ma esik) = 6/, P(holnap esik ma szakad) = /, P(holnap szakad ma szakad) = 4/, P(holnap szakad ma zuhog) = 5/, P(holnap zuhog ma zuhog) = 4/. Jelöljük az időjárás állapotait számokkal: := esik, := zuhog, := szakad. Modellezzük John reggeli megfigyeléseinek sorozatát időben homogén Markov lánccal! a.) Írjuk fel a P Markov átmenet-mátrixot. (Vigyázat: a fenti átmenet-valószínűségek összevissza vannak megadva.) b.) Feltéve, hogy elsején esik, mi a valószínűsége a megfigyelés-sorozatnak (elsejével kezdve)? c.) Feltéve, hogy elsején esik, mi a valószínűsége, hogy harmadikán zuhog? d.) Feltéve, hogy elsején esik, mi a közelítő valószínűsége, hogy huszonkilencedikén zuhog? 5
e.) Hoszzú távon a reggelek hány százalékán zuhog? f.) Ha esik, John percet autózik dugóban, ám ha zuhog, akkor 3-at, ha szakad, akkor pedig 7-et. Napi átlagban hány percet tölt reggeli dugóban autózással hosszú távon? a.) A,, állapotokat rendre a mátrix.,. ill, 3. sorához és oszlopához rendelve..3.6 P =..4.5..4.4 b.) P( X = ) = P P P P =...3.5 =.5 c.) (P ) = (..3.6 ).3.4 =.3+.+.4 =.39.4 d.) A 8 nap elteltével kialakuló valószínűségeket közelítsük a Markov lánc stacionárius eloszlásával! Ehhez a πp = π lineáris egyenletrendszert kell megoldani, ahol a π háromelemű sorvektor tartalmazza a stacionárius eloszlást. Átrendezés után (P T I)π T =, ahol I a 3 3-as egységmátrixot, pedig a három nullából álló oszlopvektort jelöli. A lineáris egyenletrendszerek szokásos mátrix-jelölésével.9...3.6.4..6.5.6 Ezt persze eliminációval oldjuk meg. Egy sor kiesik, ahogy kell, és a végén (pl.) az marad, hogy ( 6 5 4 ), vagyis az egyenletrendzser egyik megoldása a ( 6 4 5 ) T vektor. A stacionárius eloszlás ennek valószínűségi vektorrá normált változata (ahol az elemek összege ), vagyis π = ( 6 9 Végül a feladat kérdésére a válasz: 5 4 9 5 9). P(X 9 = X = ) π = 4 9.3853 e.) A Markov láncunk véges állapotterű, irreducibilis és aperiodikus, ezért az ergodtétel szerint hosszú távon az -es állapot bekövetkezési gyakorisága majdnem biztosan tart a stacionárius eloszlás szerinti valószínűséghez: lim n n #{k : i n és X k = } = π = 4 9.3853 f.) Jelölje S = {;;} az állapotteret és legyen f : S R a dugóban töltött percek száma az állapot függvényében:, ha i = f(i) = 3, ha i =, 7, ha i = 6
ami helyett elég egy oszlopvektort leírni: f = 3. 7 Az ergodtétel szerint f időátlaga majdnem biztosan tart a stacionárius eloszlás szerinti sokaságátlaghoz. Sokféle különböző jelöléssel leírva ugyanazt: n lim f(x k ) = fdπ = π i f(i) = πf = ( ) π π π 3 n n k= S i S 7 = π +3π +7π = 55 9 47.48 5.HF: (Beadási határidő:.3.3. Mivel cselesnek bizonyult, segítség után módosított határidő:.3..) HF 5. Egy lépcsőházban 3 villanykörte van folyamatosan felkapcsolva. Mindegyik kiég időnként, mégpedig exponenciális eloszlású véletlen idő elteltével, rátával. (Az időt években mérjük, vagyis a körték átlagosan egy évig bírják.) Szintén véletlen időközönként, szintén rátával arra jár a gondnok, és az összes kiégett körtét jóra cseréli. Jelölje X t a t-kor világító égők számát. X t folytonos idejű Markov lánc. a.) Írjuk fel X t infinitezimális generátorát! b.) Adjuk meg a folytonos idejű Markov lánc λ ráta-vektorát (vagyis az egyes állapotokból történő elugrás rátáit), és a beágyazott diszkrét idejű Markov lánc Q átmenetmátrixát! c.) Mi X t stacionárius eloszlása? d.) Hosszú távon az idő mekkora hányadában van a lépcsőházban töksötét (vagyis nem világít egy égő se)? e.) Egy működő villanykörte villanyszámlája időegységenként (évente) batka. Mennyi az összes égő egy évre eső átlagos villanyszámlája hosszú távon? f.) Feltéve, hogy t = -kor mindhárom égő működött, mi annak a valószínűsége, hogy t-kor is mind működik? Ezt elvileg mindenki ki tudja számolni, de megelégszem azzal, ha megadjátok ennek a függvénynek (P(X t = 3 X = 3)-nak) a határértékét és az ahhoz jövő fő hibatag nagyságrendjét. a.) Az állapottérs = {,,,3}, feleljen meg a,,,3 állapotoknak rendre a mátrix.,., 3., 4. sora és oszlopa. A generátor A = 3, 3 3 mert felfelé csak közvetlenül a 3 állapotba lehet ugrani, mindenhonnan rátával, lefelé viszont mindig csak egyszerre -et lehet ugrani, és a lefelé ugrás rátája arányos a működő égők számával: ha minden égő kiégésének rátája külön-külön, akkor két égő egyikének kiégési rátája. 7
b.) A generátor alapján λ = (33), Q = / / /3 /3. c.) A stacionárius eloszlás π = (π π π π 3 ) a πa = () egyenlet megoldása, vagyis A T π T =. A transzponálás nagyon fontos! Kiírva 3 3 3 Ennek megoldása az ( ) vektor. (Megjegyzés: ezt számolás helyett onnan is lehet látni, hogy az A T mátrixnak minden sorösszege nulla. Vagyis ebben az A mátrixban tökvéletlenül nem csak a sorösszegek, hanem az oszlopösszegek is nullák, ezért tökvéletlenül nem csak jobboldali sajátvektor a konstans vektor a sajátértékhez, hanem baloldali is.) Ezt lenormálva π = ( ). 4 4 4 4 d.) Az ergodtétel szerint az időátlag egyenlő a stacionárius eloszlás szerinti valószínűséggel, vagyis π =. 4 e.) Az f(i) = i függvény időátlagát kell számolni. Az ergodtétel szerint f időátlaga majdnem biztosan tart a stacionárius eloszlás szerinti sokaságátlaghoz. Sokféle különböző jelöléssel leírva ugyanazt: T lim f(x t )dt = n T S fdπ = π i f(i) = πf = ( ) π π π π 3 i S 3 = π +π +π +3π 3 =.5 f.) A határérték a stacionárius eloszlás szerinti valószínűség, vagyis π 3 =. Az 4 ehhez jövő korrekciós tagok conste ρit alakúak, ahol a ρ i -k a generátor nullától különböző (negatív) sajátérékei. ezek közül a főtag a legnagyobb sajátértékhez (vagyis: legkisebb abszolút értékű negatív sajátértékhez) tartozó. A konkrét esetben A sajátértékei,, 3 és 4, vagyis a legnagyobb negatívsajátérték a. Így P(X t = 3 x = 3) = P 33 (t) 4 +conste t. Megjegyzés: Ha a konkrét példát részletesen végigszámoljuk a P(t) = exp(ta) mátrix-exponenciális kiszámolásával, akkor kiderül, hogy a P 33 (t) elemben az e t fő korrekciós tag együtthatója véletlenül pont nulla, így a tényleges korrekció nagyságrendje a fenti egyszerű számolásból kijövőnél kisebb. A pontos t-idejű átmenetmátrix 6 6 P(t) = 4 +e t 4 6 6 4 8 4 + e 3t 4 8 4 4 +e 4t 4 8 6 8 3 3 3 3 3 3. 3 9 9 3 8
6.HF: ( bónusz feladatsor + pontért. Beadási határidő:.3..) HF 6. 9-elemű mintát vettünk az X valószínűségi változóból, ami (optimista) geometriai eloszlású, számunkra ismeretlen p paraméterrel. Ezt kaptuk:,8,7,,6,5,6,7,4,3. Adjunk maximum likelyhood becslést p-re! A feladatot az is számolja rendesen végig, aki tudja, hogy mi fog kijönni. A feladatba hiba csúszott, mert a felsorolt minta nem 9, hanem -elemű :(. Úgyhogy -elemű mintával számolok. Legyen a szokásos jelöléssel q = p, a megfigyelt adatsor pedig x,x,...x n, és n =. A likelyhood-függvény L(p) = P(X = x,x = x,...x n = x n ) = n i= qxi p. Ennek a logaritmusa, a log-likelyhood-függvény [ n n ] l(p) = [(x i )logq +logp] = log( p) x i n +nlogp. i= Ennek, mint p függvényének keressük a maximumát, amihez megnézzük, hol nulla a deriváltja: := l (p) = n x i + n p p, amit megoldva p = i= n n i= x, i ez lesz a maximum likelyhood becslés. A konkrét példában p = i= +8+7++6+5+6+7+4+3 = 58 =.7 Megjegyzés: Hát persze, p jelentése valószínűség, ennek a maximum likelyood becslése pedig a bekövetkezési gyakoriság, és esetünkben a siker -szer következett be 58 kísérletből. HF 6. Egy műszer hosszúságot mér µm-ben. A mérés hibájáról tudjuk, hogy normális eloszlású: hiba N(m,σ ), sőt a szórásnégyzet is ismert: σ =. A gyártó pedig azt állítja, hogy m =. Ennek ellenőrzésére 6 próbamérést végeztünk pontosan ismert hosszúságokon, és a következő hibákat kaptuk (µm-ben):.5;.7;.9;.4;.;.. Döntsünk 99%-os konfidenciaszinten (vagyis ε =.) arról a hipotézisről, hogy a gyártó igazat állít. Egymintás u-próbát végzünk kétoldali ellenhipotézissel. A nullhipotézis: H: m =. Az ellenhipotézis: H: m. A próbastatisztika A korlát, amivel ezt össze kellhasonlítani u = x µ.683 n = 6 =.9 σ K = Φ ( ε ) = Φ (.995) =.575 Döntés: u < K, ezért a nullhipotézist elfogadjuk. 9