Két valószínűségi változó együttes vizsgálata Feltételes eloszlások Két diszkrét változó együttes eloszlása a lehetséges értékpárok és a hozzájuk tartozó valószínűségek (táblázat) Példa: Egy urna 3 fehér, 2 kék és 1 piros golyót tartalmaz. Visszatevés nélkül húzunk 3-at. Jelölje X és Y a húzott fehér és piros golyók számát. Határozzuk meg X és Y együttes eloszlását! Y 1 Összesen X 3 2 1/2 1/2 2 1 3 2 = 1 6/2 3/2 9/2 6 2 2 6/2 3/2 9/2 3 1/2 1/2 3 Összesen 13/2 7/2 1 A sárgák a marginális eloszlások (X és Y eloszlása, ha a másikat nem nézzük) Értékek és feltételes valószínűségek! Y feltételes eloszlása, feltéve, hogy X = 1: Y feltételes eloszlása, feltéve, hogy X = : X feltételes eloszlása, feltéve, hogy Y = : Y 1 p 6/9 3/9 1 Y 1 p 1 1 X 1 2 3 p 6/13 6/13 1/13 1 Két folytonos változó együttes sűrűségfüggvénye Olyan f(x, kétváltozós függvény, amelynek integrálja az x,y sík bármely részhalmazán megadja annak a valószínűségét, hogy a két változó egy, a halmazba eső értékpárt vesz fel. Pl. egy téglalapra y2 x2 y1 x1 dxdy= P( x1 < X x2, y1 < Y y2 ) Együttes eloszlásfüggvény Az együttes sűrűségfüggvény integrálfüggvénye y F(x, = P(X < x, Y < = x f ( s, t) dsdt y 1 y 2 x 1 x 2
Marginális sűrűség-, és eloszlásfüggvények Ezek tulajdonképpen. X és Y sűrűség-, és eloszlásfüggvényei a másik változót nem tekintve. f(x,. ) = f(., = dy, dx Például Feltételes sűrűség-, és eloszlásfüggvények f ( x y= y ) = f ( x, y ) y ) dx A marginális eloszlásfüggvények ezek integrálfüggvényei. Példák Kétdimenziós egyenletes eloszlás egy négyzeten Egy 3 hosszúságú szakaszon egymástól függetlenül, találomra felveszünk két pontot X és Y legyen a két pontnak a szakasz egyik végpontjától való távolsága. Az együttes sűrűségfüggvény: f ( x, 1 = 9 ha < x< 3, egyébként < y< 3 Fázistér: Kétdimenziós normális eloszlás A sűrűségfüggvény (x,y,z) koordinátarendszerben: Bármely, az (x, síkra merőleges sík a felületből haranggörbét metsz ki. (Ezek azonban nem sűrűségfüggvények, mert görbe alatti területük nem 1.) Gyakorló feladat: mennyi F(.5,2)? A sűrűségfüggvény szintvonalas ábrázolása: A szintvonalak körök vagy ellipszisek.
Függetlenség és összefüggés két valószínűségi változó között (Independence, dependence, random variables) Két diszkrét valószínűségi változót (X és Y) függetlennek nevezünk, ha X megfigyelése semmiféle információt nem ad Y-ra nézve, az X-szel kapcsolatos bármely esemény független az Y-nal kapcsolatos bármely eseménytől Y feltételes eloszlása bármely X=x i feltétel mellett ugyanaz, és megegyezik Y feltétel nélküli eloszlásával is, bármely i, j-re a P(Y=y j X=x i )=P(Y=y j ), bármely i, j-re a P(Y=y j, X=x i )=P(Y=y j )P(X=x i ), az együttes eloszlás valószínűségeit a marginális valószínűségek összeszorzásával kapjuk. Két folytonos valószínűségi változót (X és Y) függetlennek nevezünk, ha X megfigyelése semmiféle információt nem ad Y-ra nézve,... a változók együttes sűrűségfüggvényét a marginális sűrűségfüggvények összeszorzásával kapjuk: h(x, = f(x) g(. Következmény: A függetlenség szimmetrikus reláció Ha két valószínűségi változó (X és Y) nem független, akkor X megfigyeléséből kaphatunk információt Y-ra nézve, illetve diszkrét változókra o Y feltételes eloszlása az X=x i feltételek nem mindegyike mellett ugyanaz, o van olyan i, j pár, amelyre P(Y=y j, X=x i ) P(Y=y j )P(X=x i ), o az együttes eloszlás valószínűségei nem mind egyeznek meg a megfelelő marginális valószínűségek szorzatával, folytonos változókra o a változók együttes sűrűségfüggvénye különbözik a marginális sűrűségfüggvények szorzatától: h(x, f(x) g(. Két valószínűségi változó közötti összefüggés erősségének mérése "asszociációs mértékek" (measures of association) Mennyi információt ad az X megfigyelése az Y-ra nézve? Tipikus számszerűsítés: - semmit (függetlenek), 1 - a lehető legtöbbet (?) Figyelem! Ha X és Y nem függetlenek, akkor viszonyuk igen sokféle lehet és nem is feltétlenül szimmetrikus! (Például ha X: életkor, Y: korcsoport)
Relatív hibacsökkenésen, illetve bizonytalanság-csökkenésen alapuló mértékek (PRE - proportional reduction of error, PRU - prop. red. of uncertaint Goodman és Kruskal-féle lambda mérték Y-ra tippelünk X ismerete nélkül legjobb tipp: Y=3, tévedési valószínűség:.5 Y-ra tippelünk X ismeretében a) ha X=1, akkor a legjobb tipp: Y=1, tévedési valószínűség:.2/.4 =.5 b) ha X=2, akkor a legjobb tipp: Y=3, tévedési valószínűség:.2/.6 =.333 Tévedési valószínűség összességében:.4.5 +.6.333 =.4 (teljes valószínűség tétele!) A relatív hibacsökkenés mértéke: λ Y X = (.5.4) /.5 =.2 Ha szimmetrikus mértékre van szükség: λ szimm = (λ Y X + λ X Y ) / 2 Több, ezen az elven működő mérték létezik, számolhatnak entrópiával, szórással 1.2.1.1.4 2.1.1.4.6.3.2.5 1 A függetlenségtől való eltérést számszerűsítő mértékek Mennyire tér el az X és Y együttes eloszlása a függetlentől? Cramer-féle V mérték 1.2.1.1.4 2.1.1.4.6.3.2.5 1 1.12.8.2.4 2.18.12.3.6.3.2.5 1 A jobb oldali táblázat mutatja, hogy ugyanilyen marginálisok mellett a független eloszlás mi volna: A két eloszlás eltérését az alábbi mértékkel mérjük: (.2.12) 2 /.12 + (.1.8) 2 /.8 + (.1.2) 2 /.2 +... osztva (a sorok és oszlopok száma közül a kisebbik 1) -gyel Független eloszlásokra V=, maximálisan erős eloszlásokra V=1 Speciális mértékek dichotom (bináris, két-értékű, -1) változókra X Y 1.1.3.4 1.2.4.6.3.7 1 Esélyhányados (odds ratio) OR = p 11 p 22 / p 12 p 21 =.1.4/.3.2 =.666 Figyelem! Értékkészlete nem a [,1], hanem a ],[, és függetlenség esetén értéke 1 (azaz a és 1 közötti OR értékek negatív összefüggést jeleznek)! Logit Az esélyhányados logaritmusa, és közötti értékkészletű, és függetlenség esetén értéke (itt már a negatív összefüggéshez negatív érték tartozik). Yule-féle Y mérték Y = (p 11 p 22 p 12 p 21 ) / (p 11 p 22 + p 12 p 21 ) = (OR 1) / (OR+1) Értékkészlete [ 1,1], függetlenség esetén értéke. Korreláció Verbális definíciója már volt: ( kisebbel kisebb, nagyobbal nagyobb stb.) Pearson-féle korrelációs együttható (correlation coefficient) Lineáris összefüggést mér az X és Y változók között, maximális erősségű összefüggés esetén értéke 1 vagy 1, függetlenség esetén értéke. Mi a maximális erősségű lineáris összefüggés? Y = a X + b (az összefüggés pozitív, ha a >, negatív, ha a < )
Figyelem! A korrelációs együttható definíciója: Nemlineáris összefüggésre, akármilyen erős is, nem lesz 1 vagy 1! A értékből nem következik a függetlenség (lehet nemlin. összefüggés is!) cov( X, Y ) R(X,Y) vagy corr(x,y) = S( X ) S( Y ) Matematikai definíciójához először a kovarianciát definiáljuk: cov(x,y) = E[{(X E(X)}{(Y E(Y)}] = E(XY) E(X)E(Y) Látszik a párhuzam a varianciával (nevét is ez indokolja): cov(x,x) = E(X 2 ) E(X) 2 = var(x) Továbbá (a várható érték tulajdonságaiból): cov(x, ax+b) = a var(x) cov(x,y) =, ha X és Y függetlenek