Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Eloszlás-független módszerek (folytatás) 14. elıadás (7-8. lecke) Illeszkedés-vizsgálat 7. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok elemzésére Illeszkedés-vizsgálat

Gyakorisági sorok és táblázatok elemzése Bevezetés Kvalítatív ismérvek elemzésérıl lesz szó, az ismérv(ek) változatai kategóriák, osztály-megjelölések f-fel jelöljük adott osztályba esı mintaelemek számát (esetszám, gyakoriság = frekvencia), ezeket cellagyakoriság -oknak is nevezik, mert cellákba írjuk F-fel jelöljük az f (megfigyelt) gyakoriság becslését (várt értékét) az aktuális Ho hipotézis mellett

Gyakorisági sorok és táblázatok elemzése (Bevezetés folytatása) A null-hipotézis ellenırzésére általában két (eltérı) statisztika használatos ( f F) (1) K = () G = fln(f/f) F / itt a ln természetes alapú logaritmus/ Mindkettı az {f} észlelt cella-gyakoriságok táblázatának bizonyos távolsága az {F} várt cella-gyakoriságok táblázatától Mindkettı (közel) χ eloszlású (ha Ho igaz), G használata több szempont szerinti osztályozásnál elınyös

Illeszkedés vizsgálat Az n-elemő minta egyedeit a vizsgált kvalitatív ismérv szerint osztályokba soroljuk, az osztályok száma c, az i- edik osztályba f i egyed esik (Σ f i =n) A feltételezett sokasági megoszlás (ez H 0 ): p 1, p,, p c, összegük 1=100 %. Kérdés: a minta alapján elfogadható-e a feltételezett sokasági megoszlás?

Illeszkedés vizsgálat (folytatás) H 0 -t igaznak feltételezve átrendezzük az esetszámok megoszlását, f i becslése F i =np i (i = 1,,, c), ezek összege szintén n. Ezután kiszámítjuk az {f}: megfigyelési gyakoriságok táblázatának, és az {F}: f 1 f. f c F 1 F. F c becsült gyakoriságok táblázatának a x -távolságát (K vagy G)

Illeszkedés vizsgálat (folytatás) A két táblázat x -távolsága a K-statisztikával: K = ( f F ) ( f np ) i F i i E távolság a G-statisztikával: G = Mindkét statisztika közel x eloszlású, a szabadságfok = c-1. i np i i [ f i ln f i f i ln( np ] f i = f i ln = i ) F i

Illeszkedés vizsgálat (számpélda) N = 00 kétgyermekes családot véletlenszerően kiválasztva egy településen, kaptuk, hogy 54 családban lány, 36 családban fiú van. Ha elfogadjuk, hogy egy sokaságban a fiú:lány arány 50%-50 %, akkor a kétgyermekes családok negyedében lány, felében 1 fiú + 1 lány, negyedében fiú várható (c = 3 kategória). A H 0 hipotézis tehát p 0 =0,5 ; p 1 =0,50 ; p =0,5 ahol az index a fiúk számát jelenti a családban.

Illeszkedés vizsgálat (számpélda folytatása) A minta gyakorisági megoszlása f: 54 110 36 összesen n=00 A H 0 (1::1 arány) mellett a várt gyakoriságok F: 50 100 50 összesen: n=00 A két gyakorisági sor x -eltérése (df=): ( 54 50) ( 110 100) ( 36 50) K = G = 50 + 100 + = 5,4 [ 54ln( 54 / 50) + 110ln( 110 /100) + 36ln( 36 / 50) ] 5, 63 = A kritikus érték 5,99 (tábl.), az 1::1 arányt elfogadjuk. 50

Dichotom eset Ha az ismérv dichotom, a formulák lényegesen egyszerőbbé alakíthatók Jelölje a két osztályt A és B, feltételezzük (ez H 0 ), hogy az alapsokaságban az A osztályba esik az egyedek 100p%-a, a B osztályba 100q%-a (p+q=1). Az n elemő mintából a esik A-ba, b B-be (a+b=n). A becslések tehát A=np, B=nq

Dichotom eset (folytatás) A K statisztika eredeti formulája K = ( a np) ( b nq) +, np nq Némi algebrai átalakítás után ( a np) K = eloszlása 1 szabadságfokú npq khi-négyzet eloszlás, 5 %-os kritikus értéke 3,84 Ezt a képletet használtuk korábban a p sokasági relatív gyakoriság konfidencia határainak számítására.

Dichotom eset (folytatás) Speciálisan, a p=q null-hipotézisnél (a fele-fele arány ellenırzésénél) K képlete tovább egyszerősödik: K = ( a b ) a + b Számpélda: egy munkahelyen a=13 férfi és b=7 nı dolgozik. Megfelel-e ez a fele-fele aránynak? K = ( 13 7 ) 13 + 7 = 1,8 3,84 (a kritikus érték) a válasz: igen, megfelel (kétoldali próba) Az Excellel 1,8-hoz P=0,18-at kapunk. <

KÖSZÖNÖM TÜRELMÜKET

8. lecke Illeszkedés-vizsgálat dichotom ismérvre (folyt.) Kétirányú osztályozás elemzése (1)

Dichotom eset, kis mintaszám Kis mintaszámnál K (és G) eloszlása távolabb áll a khínégyzet eloszlástól. Ilyenkor a K-statisztikánál a Yates-korrekciót alkalmazzuk, a számlálóban a-np helyett a-np -0,5-öt írunk, illetve a fele-fele arány ellenırzésénél a-b helyett a-b -1et. ( 13 7 1) A fenti példában tehát K = = 1,5 13 + 7

Dichotom eset, kisminták (folytatás) Még pontosabb a Binominális eloszlással számolni A példánkban a fele-fele arány ellenırzése egyoldali (H 1 :p<1/) próba esetén így fest: P(nık 7 a 0-ból) = 0 0 0 0 + +... + / 0 1 7 [Az eredményt azonnal kapjuk az Excelbıl az fx- Binomiális menüpontból, a beírások: sikerek 7, kísérletek 0, valószínőség 0,5, eloszlásfüggvény IGAZ] Kétoldali próbánál P = x 0,13 = 0,6 ns = 0,13 ns

Dichotom eset folytatás (4) A G-statisztika formulái dichotom osztályozásnál p : q arányra G = a ln a np Speciálisan p = q = ½ esetre G = a ln a + b ln b n ln n / A példánkban a = 7, b = 13, n = a+b = 0, G = 7 ln 7 + 13 ln13 0 ln10 = 1, szinte azonos K értékével. + b ln b nq [ ( )] [ ] 83

q A két szempont szerinti osztályozás A minta-elemeket két szempont szerint osztályozzuk (besoroljuk) Az A szempont osztályainak száma a (A 1, A,, A a ) ezek az A ismérv változatai a B szempont osztályainak száma b (B 1, B,, B b ) ezek a B ismérv változatai. Az n mintaelem így ab számú cellába oszlik el, jelölje f ij az [A i B j ] cellába esı egyedek számát.

Két szempont szerinti osztályozás folytatás (1) Az alapsokaságra vonatkozóan két feladat-típus merülhet fel. Mindkét esetben ugyanazt a khí-négyzet statisztikát alkalmazzuk, csak az eredmények interpretációjában van eltérés. (1) Függetlenség vizsgálat: A és B mint változók függetlenek-e. Például hajszín és szemszín kapcsolata, iskolai végzettség és pártállás kapcsolata. () Homogenitás vizsgálat: az A ismérv osztályain azonosak-e a B ismérv szerinti gyakorisági megoszlások. Például különbözı településeken azonose az iskolai végzettség szerinti megoszlás.

Két szempont szerinti osztályozás folytatás() A hipotézis ellenırzése A megfigyelések {f ij } táblázatát összehasonlítjuk a H 0 hipotézishez igazított várt értékek {F ij } táblázatával, mindkettı a sorból és b oszlopból áll. F ij számítását késıbb ismertetjük. A két táblázat távolsága (K vagy G) (a-1)x(b-1) szabadságfokú khí-négyzet eloszlású statisztika: ( f ij Fij ) K =, G = f ij ln ( f ij / Fij ) F ij

Az esetszám táblázat (kontingencia táblázat sémája Az f ij megfigyelt gyakoriságok peremösszegekkel kiegészített sémája az alábbi: {f ij } B 1 B. B j. B b összeg A 1 f 11 f 1. f 1j. f 1b f 1. A f 1 f. f j. f b f......... A i f i1 f i. f ij. f ib f i......... A a f a1 f a. f aj. f ab f a. összeg f. 1 f.. f. j. f. b f..=n

Hipotézis ellenırzés kétirányú osztályozásánál (folytatás) A H 0 hipotézisnél (függetlenség, homogenitás) a várt (becsült) gyakoriságok: F ij = f i. f n. j (i = 1,,..,a; j = 1,,..,b) (a becslés miértjének elvi hátterét a foglalkozáson hallják) Az {f ij } táblázat mérete szintén a x b-s, peremösszegei azonosak az {f ij } táblázat peremösszegeivel, tehát az esetszámok átrendezésérıl van szó.

Kétirányú osztályozás (fiktív példa) n = 413 azonos korú férfira a felmérés {f ij }: A/B balszemes kétszemes jobbszemes összesen balkezes 34 = f 11 6 = f 1 8 = f 13 14 = f 1. kétkezes 7 8 0 75 = f. jobbkezes 57 105 5 14 = f 3. összesen 118 = f. 1 195 = f. 100 = f. 3 413 = n Kérdés: van-e kapcsolat a kezesség és a szemesség között (H 0 : nincs) A példa függetlenség vizsgálatra példa.

A fiktív példa folytatása (1) Függetlenség esetén a cella-gyakoriságok becslése F 11 = (14 x 118)/413 = 35,43 (34 helyett) F 1 = (14 x 195)/413 = 58,55 (6 helyett) F 13 = (14 x 100)/413 = 30,0 (8 helyett) és így tovább. Az elsı sor gyakoriságait becsültük itt, a becslések összege 14, megegyezik a megfigyelt gyakoriságok f 1. összegével.

KÖSZÖNÖM TÜRELMÜKET