Megállapítható változók elemzése Függetlenségvizsgálat, illeszkedésvizsgálat, homogenitásvizsgálat

Megállapítható változók elemzése Függetleségvzsgálat, lleszkedésvzsgálat, homogetásvzsgálat Ordáls, omáls esetre s alkalmazhatóak a következő χ próbá alapuló vzsgálatok: 1) Függetleségvzsgálat: két valószíűség változó függetle-e vagy összefüggeek (a függetleségtől való eltérés szgfkás-e, vagy csak a mtavétel hba okozta)? a) Tszta függetleségvzsgálatál smerjük a változók elmélet eloszlásat. Függetleséget feltételezve azok szorzatából számítjuk k az együttes elmélet eloszlást. b) Becsléses függetleségvzsgálatál em smerjük a változók elmélet eloszlásat, csak az emprkus eloszlásokat, és ezeket összeszorozva kapjuk meg a függetleséget feltételező együttes emprkus eloszlást. ) Illeszkedésvzsgálat: a mtába tapasztalt (empírkus) eloszlás lleszkedk-e egy elmélet eloszláshoz (az elmélet és az empírkus eloszlás eltérése szgfkás-e, vagy csak a mtavétel hba okozta)? a) Becsléses lleszkedésvzsgálatál az elmélet eloszlás paraméteret a mtából becsüljük. b) Tszta lleszkedésvzsgálat: az elmélet eloszlás paraméteret smerjük. 3) Homogetásvzsgálat: két empírkus eloszlás megegyezk-e vagy külöbözk (a külöbség szgfkás-e, vagy csak a mtavétel hba okozta)? A χ eloszlás Származtatása: függetle, stadard ormáls eloszlású val. változók égyzetösszegéek az eloszlása. Df.: az eloszlások száma, tehát amey a szabadságfok, ay stad. orm. eloszlásó val. változót égyzetre emelük és összeadjuk. A égyzetre emelés matt χ értéke csaks poztív lehet, várható értéke ő df.-el. A χ próbák eseté df. em a mtaelemek számától, haem a kategórák számától, vagys a cellák számától függ! A hpotézsvzsgálatok közös jellemzője, hogy a égyzetes külöbségeket ormálva összegezzük, így kapjuk a mtából becsült ˆχ -ot. Ha ˆχ > χkrt, akkor az eltérés szgfkás, H0-t elvetjük. H 0 : a két változó közt cs összefüggés. H 1 : a két változó közt va összefüggés. (tapasztalt - várható) χ = χ krt (α, df.) χ táblázatból. várható Az alkalmazhatóság feltétele: 1) elég agy legye. Ks elemszámál Fsher-féle egzakt teszt. ) Az 5-él ksebb várható (elmélet) gyakorságú cellák száma legfeljebb a cellák számáak egyötöde lehet. 3) 1-él ksebb várható cellagyakorság em fordulhat elő. Vagys ha csak 4 cellák va, mdegykbe a várható gyakorság legye agyobb mt 5, ha 5 < cellák sz. < 9, akkor lehet egy cella, amelykbe a várható gyak. 1 és 5 közé esk. Előy: em függ az alapadatok eloszlásától. em feltétel a ormál eloszlású alapsokaság! Vagys ez egy em paraméteres statsztka próba. A χ próbák dszkrét valószíűség változókra közvetleül alkalmazhatóak, folytoos változók esetébe először dszkretzál kell. Ez azt jelet, hogy g tervallumra osztjuk fel az értékkészletet és azt tektjük az E 1,..E g eseméyekek, hogy a változó értéke az 1,..g-k tervallumba esk. Az tervallumokat úgy kell meghatároz, hogy mde kategórába kellő számú (legalább 5, kvéve a kategórák 1/5-ét) érték kerüljö várhatóa, a fet feltételekek (. és 3.) megfelelőe. A következőkbe a χ - próba alkalmazásat részletezzük. 1

1. Függetleségvzsgálat valószíűség változó függetleségét vzsgáljuk. Az egyk g-, a másk h-féle értéket vehet fel az mérés sorá (pl. ujjak száma kéze: 10 féle értéket vehet fel; asztalos/egyéb foglalk: féle érték.). Mde objektumo megmérjük md a két val. vált. értékét és kotgecatáblázatba foglaljuk. Leggyakorbb eset: g = h =, égymezős kotgecatáblázat, pl. oltást kapott/em kapott ll. betegség fellépet/em lépett fel; másk gyakor eset: kezelt/kotroll, ll. gyógyult/em gyógyult Oltás Betegség + 5 144 149-15 117 13 0 61 81 Ezek az empírkus gyakorságok. Hpotézsvzsgálat: H 0 : cs összefüggés a két változó között, függetleek H 1 : a két változó között va összefüggés Ha H 0 gaz, akkor a cellákba tk. a függetleség eseté várt gyakorságokat kell kapuk. Illetve a mtavétel hba matt ettől egy bzoyos mértékg eltérhetek a talált gyakorságok. Kérdés, hogy az eltérés szgfkás-e. Jelöljük ν j -vel az elmélet, j -vel az empírkus gyakorságokat: elmélet tapasztalat B B A + ν 11 ν 1 ν 1. - ν 1 ν ν. ν.1 ν. ν.. = A + 11 1 1. - 1..1... = A peremértékeket összeszorozva kapjuk a függetleséget feltételező együttes várhatóértékeket, majd - el szorozva a várható gyakorságokat. Ha a függetleség feáll, akkor az A eloszlása B mde értéke, mt feltétel mellett azoos. Feltétel élkül eloszlás (peremértékek): A B(+) feltétel mellett várható: ν 11 = A B(-) feltétel mellett várható: ν 1 =.. 1,. 1 1. 1., ν 1 =. 1., ν =... Feladat: aak eldötése, hogy a várható és a kísérletbe kapott gyakorságok között szgfkás-e az eltérés. Összegezzük a várt és talált gyakorságok külöbségégyzetét osztva a várttal. A várt tt a függetleséget jelet, hsze a függetleségtől való eltérést vzsgáljuk. ( = j ν j ˆ χ ν ) j j

Ez a statsztka a (g-1)(h-1) szabadságfokú χ eloszlást követ, ahol g a sorok, h az oszlopok száma. x kotgeca táblázatál df = 1. A fet példára ˆχ =,96 + 3,34 + 0, + 0,5 = 6,63 és χ krt ( 1, α = 0,05) = 3,84 Mvel ˆχ > χ krt a ull hpotézs elvethető, a két változó em függetle, szgfkás az összefüggés, az oltás hatásos. A égymezős tábla eseté alkalmazható egyszerűsítés: A B + a b a + b. - c d c + d a + c b + d ( ad bc) ˆ χ =, df=1 ( a + b)( c + d)( a + c)( b + d) ) Tapasztalat és elmélet eloszlás összevetése: lleszkedésvzsgálat: Egy empírkus eloszlás lleszledk-e egy adott elmélet eloszláshoz? (Pl. lórúgásba elhaltak száma Posso elo-e, dhbrd keresztezés F emzedéke 9:3:3:1 aráyba oszlk-e meg?) Hpotézsvzsgálat: H 0 : a mta egy olya populácóból származk amelyre jellemző az adott elmélet eloszlás H 1 : a mta egy más eloszlású populácóból származk : mtaelemek száma, g -féle mérés érték lehetséges vagy g -féle kategóra (pl. dhbrd keresztezés F emzedékébe domaca eseté g =4 feotípusos kategórát találuk) Szabadságfok: Tszta lleszkedésvzsgálatál az elmélet eloszlás paraméteret smerjük: df= g -1 (pl. tudjuk, hogy 9:3:3:1, vagy λ=3,5 átlagú Posso stb.). Vszot becsléses lleszkedésvzsgálatál az elmélet eloszlás paraméteret a mtából becsüljük, akkor df= g -1- s, ahol s a becsült paraméterek száma (pl. átlagot becsülük Posso elo-ál). E : az az eseméy, hogy a val. vált. az -k értéket vesz fel x, : az E eseméy empírkus gyakorsága = háyszor következett be a mérés sorá (egész számok), x = y : az E eseméy elmélet gyakorsága = háyszor kellett vola bekövetkeze összese esetből, az elmélet eloszlás szert (em feltétleül egész számok!), y = Általába: Eseméy E 1 E E g Összeg Mtaértékek ----- Empírkus gyak. x 1 x x r Elmélet gyak. y 1 = p 1 y = p y g = p g Az elmélet eloszlásra természetese p = 1, vagys az E eseméyek teljes eseméyredszert alkotak. x, és y darabszámok, em valószíűségek! 3

g ( x y ) ˆχ = Ha ˆ χ < χ krt = 1 y akkor elfogadjuk H 0 t. a tapasztalat eloszlás jól lleszkedk az elmélethez. a) Becsléses lleszkedésvzsgálat Pl. egy empírkus eloszlás lleszkedk-e a Possohoz? Általáosságba: Eseméy E 1 E E g-1 E g Összeg Mtaért. 0 1 g- g-1 ----- Emp. gyak. x 1 x x g-1 x g Elm. gyak. p 0 = e -λ p 1 = e -λ λ p g- = e -λ λ g- /(g- )! p g-1 =(1- p ) Kokréta: a lórúgásos balesetek száma Posso eloszlású-e? 00 hadtestbe végeztek megfgyelést a lórúgástól elhuytak hadtestekét számáról: Eseméy E 1 E E 3 E 4 Összeg Mtaértékek 0 1 3 4 5---- (halott/hadtest) Empírkus gyak. 109 65 3 1 0 00 Elmélet gyak. 108,7 66,3 0, 00-108,7-66,3-0,=4,8 00 Posso elo. becsült paramétere: λ=0,61 haláleset / hadtest, d.f. =, mert kategórák száma (4) - 1 - a becsült paraméterek száma (1) ˆ χ = 0,30 < χ krt (, 0,05) = 5,991 Elfogadjuk H o -t. b) Tszta lleszkedésvzsgálat pl. a kockadobás, elmélet elo.: egyeletes. H 0 = a kocka szabályos. Eseméy E 1 E E 3 E 4 E 5 E 6 Összeg Mtaért. 1 3 4 5 6 ----- Emp. gyak. 4 15 15 19 5 10 Elm. gyak. 0 0 0 0 0 0 10 Ekkor em kell becsülük a cellagyakorságokat, mert mde y = 0 df = 6-1 ˆ χ 4,8 < χ = 11,070 = krt(5, 0,05) Következtetés: a kocka szabályos, sőt éppe ekkora eltérések a legvalószíűbbek (ld. medá) χ krt,5, 0,50 = 4,35 a 3) Homogetásvzsgálat - két tapasztalat eloszlás összevetése Két empírkus elo. (elég jól) megegyezk-e? Itt em céluk elméletvel összehasolíta, azt vszgáljuk, hogy a két val. vált. azoos eloszlásúak tekthető-e? (A sokaság egyemű, homogé.) Hpotézsvzsgálat: H 0 : a két mta azoos (eloszlású) populácóból származk H 1 : a két mta külöböző eloszlású populácóból származk 4

g -féle mérés érték lehetséges (vagy g-féle kategóra). Eek meg kell egyeze a két mtába, ehhez esetleg összevouk kategórákat. Szabadságfok: g-1 és m: mtaelemszám az egyk és a másk mtába x, : és y : az E eseméy empírkus gyakorsága = háyszor következett be a két mtába. x y g m Ha ˆ χ = m < χ krt( α, df ), akkor elfogadjuk H 0 x + y = 1 - t, vagys a két elo. elég jól egyezk. 5

Kolmogorov-Szmrov egymtás próba (lleszkedésvzsgálatra) Ez a próba kmodotta jól haszálható ordáls, tervallum vagy aráy skálá mért változók eseté lleszkedésvzsgálatra. Továbbá előyösebb az alkalmazása a χ próbáál, ha a megfgyelések száma alacsoy és/vagy az elméletleg várható értékek alacsoyak. Kérdésük: egy empírkus eloszlásfüggvéy elég jól lleszkedk-e egy adott elmélet eloszláshoz. Pl. a mtaértékek ormál eloszlást követek-e? H 0 : F(x)=F 0 (x), H 1 : F(x) F 0 (x), legalább egy x -él. ahol F 0 (x) az elmélet eloszlásfüggvéy, F(x) a tapasztalat eloszlásfüggvéy, amt a mtából számítottuk. H 0 azt állítja, hogy az F(x) az F 0 (x) becslése, csak sztochasztkus gadozás matt külöbözk tőle. A próba léyege, hogy az elmélet és az empírkus eloszlásfüggvéy között maxmáls eltérést hasolítuk össze a táblázatbel krtkus értékkel. (Ez a mtaelemszámtól és a szgfkacaszttől függ.) 1) A próbához először meg kell ad az elmélet eloszlást, F 0 (x)-et, amhez a megfgyelt eloszlás lleszkedését vzsgáljuk. Eek paraméteret gyakra a mtából becsüljük. Pl. ha ormaltásvzsgálatot végzük, akkor a mtából becsült átlagot és szórást haszáljuk. ) Va megfgyelésük (adatuk): x 1...x. Ezekből elkészítjük az empírkus eloszlásfüggvéyt, F(x )-t. Ez egy lépcsős függvéy lesz, és mvel eloszlásfüggvéy, természetese mooto övekedő, = 0 és F( x) lm x F( x) lm x = 1. Ha mde megfgyelt érték külöböző, akkor F(x) úgy éz k, hogy mde x értékél 1/-el emelkedk, vagys mde lépcsőfok egyforma magas; végül az utolsó megfgyelt értékél, x él ér el az 1-et. Vszot a lépcsőfokok em egyeletes sűrűséggel helyezkedek el, pl. ha ormáleloszláshoz jól lleszkedő empírkus eloszlásuk va, a lépcsőfokok középe sűrűbbek. 3) Ha az elmélet eloszlás dszkrét, akkor mde lehetséges értékél összehasolítjuk az elmélet és az empírkus eloszlásfüggvéyt, a külöbség abszolút értékét evezzük D -ek. Ha az elmélet eloszlás folytoos akkor kcst boyolultabb a helyzet, hsze em tudjuk, hogy a lépcsős formájú empírkus eloszlásfüggvéy mögött lévő folytoos függvéy (amt csak agyo sok adatból tudák megszerkeszte) potosa hol emelkedk meg az x és x -1 értékek között. Ezért, hogy mdeképpe megkapjuk a lehető legagyobb eltérést az empírkus és az elmélet eloszlásfüggvéy + között a következő kétféle külöbséget számítjuk k: D F x ) F( x ) és D = F ( x ) F( x ). Az összes D érték maxmumát, Dkrt(α,) értékével: Dˆ = max { } D = 0 ( 1 0 hasolítjuk össze a Kolmogorov-Szmrov táblázat krtkus ha D ˆ < D krt akkor elfogadjuk H0-t, az elmélet és az empírkus eloszlás között eltérés em szgfkás. ha D ˆ > D krt akkor elvetjük H0-t, az elmélet és az empírkus eloszlás között eltérés szgfkás 6

d + d - 7