Illeszkedésvizsgálat χ -próbával Szalay Krisztina 1. feladat (tiszta illeszkedésvizsgálat) Négy pénzérmét 0-szor feldobunk. A kapott gyakoriságok: fejek száma 0 1 3 4 Összes gyakoriság 5 35 67 41 1 0 Elfogadható-e 95%-os szignikancia szinten, hogy az érmék szabályosak? Megoldás: Feltételezésünk az, hogy az érmék szabályosak (mindegyiken 1 valószín séggel dobunk fejet). A mintaelemek száma n = 0 (0 kísérletet hajtottunk végre), a mintaelemeket a dobott fejek száma szerint osztályoztuk, r = 5 csoportba soroltuk. A dobott fejek számát tekintjük az ξ valószín ségi változónak. Ha helyes a feltételezésünk, akkor ξ binomiális eloszlású valószín ségi változó n = 4, p = 1 paraméterekkel. A paraméterek elméleti értékek, ebben a feladatban nem a mintából becsüljük a várható értéket, így tiszta illeszkedésvizsgálatot hajtunk végre. A hipotézisvizsgálat során azt kell eldöntenünk, hogy a meggyelt valószín ségi változó (a dobott fejek száma), a minta alapján tekinthet -e adott paraméter binomiális eloszlásúnak. Ennek alapján a próba illeszkedésvizsgálat. El ször meg szeretnénk határozni azt, hogy ha az érmék szabályosak, akkor az egyes osztályokba hány mintaelemet várnánk. Számítsuk ki a dobott fejek számának lehetséges értékeihez tartozó valószín ségeket (azaz írjuk fek ξ eloszlását)! ( ) 4 1 p 0 = P (ξ = 0) = = 1 ( ) 1 ( ) 3 ( ) p 1 = P (ξ = 1) = 1 ( ) ( ) ( ) p = P (ξ = ) = ( ) 3 ( ) 1 ( ) p 3 = P (ξ = 3) = 3 ( ) 4 1 p 4 = P (ξ = 4) = = 1 = 4 = 6 = 4 A kiszámolt valószín ségek alapján meg tudjuk mondani, hogy mennyi az egyes osztályokba es mintaelemek elvárt gyakorisága, azaz a binomiális eloszlás fennállása esetén átlagosan hány mintaelem esik az egyes osztályokba. Ehhez nincs más dolgunk, mint a fenti valószín ségekkel szorozni a mintaelemek számát (np i ) (tehát pl. a 0 kísérletb l átlagosan p 0 = 1 0 = 10 esetben kapunk olyan dobáseredményt, ahol a négy dobás egyike sem fej). Az utolsó oszlopba a megfelel helyre a sorösszeg kerül. Az áttekinthet bb számoláshoz az alábbi táblázatot hozzuk létre: 1
dobott fejek száma 0 1 3 4 meggyelt gyakoriság: µ i 5 35 67 41 1 elvárt gyakoriság: np i 10 40 60 40 10 A hipotézisvizsgálat lépései ezután az alábbiak: (µ i np i ) 5 5 49 1 4 összeg (µ i np i ) )/(np i ),5 0,65 0,87 0,05 0,4 4,3667 A feltételezésünk most az, hogy az érmék szabályosak, a dobott fejek száma binomiális eloszlású, ( 4, 1 ) paraméterekkel. A próba illeszkedésvizsgálat, χ -próbával. A próbastatisztika mintából számított értéke a táblázatunk utolsó sorában szerepl értékek összege, azaz 4,3667. A próba egyoldali χ -próba. A kritikus értéket a χ -eloszlás táblázatából olvashatjuk ki, r 1 = 5 1 = 4 szabadsági fok (amely az osztályok száma mínusz 1) és 0, 95 valószín ség mellett. Ez a jegyzet χ -eloszlás táblázatában a negyedik sor, els oszlopban található χ t = 9, 49 érték. (A kritikus tartomány ábráján a korábban megszokott jelölésekkel látható, hogy a próbastatisztika értéke az elfogadási tartományba esik.) 4,3667 < 9,49, a próbastatisztika értéke az elfogadási tartományba esik, a nullhipotézist elfogadjuk 95%-os szignikanciaszinten. Ez azt jelenti, hogy az adott minta alapján elfogadható, hogy az érmék szabályosak.. feladat (becsléses illeszkedésvizsgálat) Egy focicsapat meccenként l tt góljainak számát az alábbi táblázat tartalmazza:: l tt gólok száma 0 1 3 4 5 6 7 meccsek száma 14 18 9 18 10 7 3 1 Modellezhet -e a meccsenként l tt gólok száma olyan Poisson-eloszlású valószín ségi változóval, melynek várható értéke a fenti értékekb l számolt meccsenkénti gólátlag? Megoldás: A feladat megoldása során több lépésre különösen oda kell gyelni, ezért érdemes alaposan áttanulmányozni a megoldást! Els ként vegyük észre a követez t: a véges mintánkat akarjuk modellezni egy olyan valószín ségi változóval, amelynek végtelen sok lehetséges értéke van (tudjuk, hogy egy Poisson-eloszlású valószín ségi változó tetsz leges nemnegatív egész értéket felvehet). Felmerül a kérdés, hogy ezt megtehetjük-e? A focicsapatunk hétnél több gólt egyetlen mérk zésen sem l tt. Ha Poisson-eloszlásúnak tekintjük a l tt gólok számát, akkor viszont az eloszlásból a hétnél több l tt gól valószín sége nem nulla lesz. Mit tehetünk ilyen esetben? Megnézzük, hogy a Poissoneloszlásból mekkora valószín ség-et kapunk a 7-nél több gólra. Ha ez a valószín ség kell en kicsi (majdnem 0), akkor elhanyagolhatónak tekintjük. Ekkor modellezhetünk a végtelen eloszlással. (Emlékezzünk a valószín - ségszámítás tanulmányainkból a binomiális eloszlás Poisson-eloszlással való közelítésére!) A mintaelemek száma n = 100 (összesen 100 mérk zés eredményét osztályoztuk a táblázatban), a mintaelemeket a l tt gólok száma szerint osztályoztuk, r = 8 csoportba soroltuk. A l tt gólok számát tekintjük az ξ valószín ségi változónak. Azt feltételezzük, hogy ξ Poisson-eloszlású valószín ségi változó, melynek λ paraméterét a mintából számolt átlaggal becsüljük, így becsléses illeszkedésvizsgálatot
hajtunk végre. A feladat szerint a ξ várható értéke az összesen l tt gólok számának és az összes meggyelt mérk zés számának hányadosa: M(ξ) = 0 14 + 1 18 + 9 +... + 6 3 + 1 14 + 18 + 9 +... + 3 + 1 = 30 100 =,3 A hipotézisvizsgálat során azt kell eldöntenünk, hogy a meggyelt valószín ségi változó (meccsenként l tt gólok száma) a minta alapján tekinthet -e λ =,3 paraméter Poisson-eloszlásúnak. Ennek alapján a próba becsléses illeszkedésvizsgálat. El ször nézzük meg, a Poisson-eloszlásból mekkora valószín ségeket kapunk a l tt gólok számának lehetséges értékeihez. p 0 = P (ξ = 0) =,30 0! p 1 = P (ξ = 1) =,31 1! p = P (ξ = ) =,3! p 3 = P (ξ = 3) =,33 3! p 4 = P (ξ = 4) =,34 4! p 5 = P (ξ = 5) =,35 5! p 6 = P (ξ = 6) =,36 6! e,3 = 0,1003 e,3 = 0,306 e,3 = 0,65 e,3 = 0,033 e,3 = 0,19 e,3 = 0,0538 e,3 = 0,006 p 7 = P (ξ = 7) =,37 e,3 = 0,0068 7! p 8 = P (ξ > 7) = 1 P (ξ 7) = = 1 (P (ξ = 0) + P (ξ = 1) +... + P (ξ = 7)) = 0,005 A kiszámolt valószín ségek alapján meg tudjuk mondani, hogy mennyi az egyes osztályokba es mintaelemek elvárt gyakorisága, azaz a Poisson-eloszlás fennállása esetén átlagosan hány mérk zés esik az egyes osztályokba. Ehhez nincs más dolgunk, mint a fenti valószín ségeket szorozni a mintaelemek számával (np i ) (tehát pl. 100 mérk zésb l átlagosan µ 0 = 0,1003 100 = 10,03 esetben lesz a l tt gólok száma 0). Azt látjuk azonban, hogy a 6 és 7 l tt gólhoz tartozó elvárt gyakoriságok értékei nem érik el az ötöt (µ 6 = 0,006 100 =,06, µ 7 = 0,0068 100 = 0,68). Illeszkedésvizsgálatnál ugyanakkor nem lehet az elvárt gyakoriságok celláiban 5-nél kisebb szám, mert az a próba képletében az összeadandó tagok széls ségesen nagy értékei miatt potenciálisan torz eredményre vezetne. Cellaösszevonással érhetjük el, hogy a cellaértékeink megfelel ek legyenek. Módosítsuk úgy az eredeti táblázatot, hogy az utolsó oszlopokat összevonjuk. Nem elegend csak az utolsó két oszlopot összevonni, mert a cellaérték az összevonás után is kisebb 5-nél (0,06 + 0,68 =,74), így az utolsó három oszlopot vonjuk össze (az összevonást már a meggyelt gyakoriságok kis értéke alapján is megtehettük volna, a 6 és 7 gólhoz tartozó mérk zések kis száma miatt). Ugyanakkor p 8 = 0,005 közel nulla (a legalább 8 gólhoz tartozó elvárt gyakoriság 0,5), így közelíthetünk végtelen eloszlással. Ezt a gyakoriságot is az utolsó (összevont) oszlophoz vonjuk. Az áttekinthet bb számoláshoz a kiindulási táblázatot egészítsük az alábbiak szerint: l tt gólok száma 0 1 3 4 legalább 5 meggyelt gyakoriság: µ i 14 18 9 18 10 11 elvárt gyakoriság: np i 10,03 3,06 6,5 0,33 11,69 8,37 (µ i np i ) 15,7609 5,6036 6,1504 5,489,8561 6,99 Összeg (µ i np i ) )/(np i ) 1,5713 1,1103 0,319 0,670 0,443 0,864 4,51 3
A hipotézisvizsgálat lépései ezután: A feltételezésünk most az, hogy a meccsenként l tt gólok száma λ =,3 paraméter Poisson-eloszlású valószín ségi változó. A próba illeszkedésvizsgálat, χ -próbával. A próbastatisztika mintából számított értéke a táblázatunk utolsó sorában szerepl értékek összege, azaz 4,51. A próba egyoldali χ -próba. Az eloszlás szabadsági fokára viszont gyelnünk kell! A feltételezett eloszlás paraméterét (várható érték) az adott mintából számolt értékkel (átlaggal) közelítettük. Ekkor a próba szabadsági foka még eggyel csökken, azaz nem osztályok száma (az összevont táblázatban!) mínusz egy, hanem osztályok száma mínusz lesz!!! A kritikus értéket a χ -eloszlás táblázatából olvashatjuk ki, 6 szabadsági fok és 0,95 valószín ség mellett. Ez a jegyzet tχ -eloszlás táblázatában a negyedik sor, els oszlopban található χ t = 9,49 érték. (A kritikus tartomány ábráját felrajzolva a korábban megszokott jelölésekkel látható, hogy a kritikus érték az elfogadási tartományba esik.) 4,51 < 9,49, a próbastatisztika értéke az elfogadási tartományba esik, a nullhipotézist elfogadjuk, 95%-os szignikanciaszinten. Ez azt jelenti, hogy az adott minta alapján modellezhet a meccsenként l tt gólok száma olyan Poisson-eloszlással, melynek paramétere a mintából számolt átlag. 3. feladat (becsléses illeszkedésvizsgálat) Egy gyártósornál rendszeresen 5 elem mintát vesznek a termékekb l. Egy hét alatt 500 mintát vettek. A mintákban talált selejtek gyakorisága az alábbi volt: selejtek száma 0 1 3 4 5 gyakoriság 170 180 10 0 8 Modellezhet -e a mintában lev selejtek száma olyan binomiális eloszlással, melynek várható értéke a fentiekb l számolt átlag? Megoldás: Az egyes mintákban lev selejtek számát tekintjük az ξ valószín ségi változónak. Azt feltételezzük, hogy ξ binomiális-eloszlású valószín ségi változó, melynek várható értékét a mintából(!) számított átlaggal becsüljük (becsléses illeszkedésvizsgálatot hajtunk végre) oly módon, hogy az összes kihúzott selejt számát osztjuk a kísérletek számával: M(ξ) = 0 14 + 1 180 + 10 + 3 0 + 4 8 + 5 170 + 180 + 10 + 0 + 8 + = 5 500 = 1,044 A mintaelemek száma n = 500 (500 kísérletet hajtottunk végre), a mintaelemeket a kihúzott selejtek száma szerint osztályoztuk, ezzel r = 6 csoportba soroltuk. Ha ξ-t binomiális eloszlással akarjuk modellezni, ismernünk kell a binomiális eloszlás két paraméterét, az n kísérletszámot, amely 5, illetve a meggyelt esemény (selejthúzás) p valószín ségét. Ez utóbbi nem ismert, de a binomiális eloszlás várható értékb l becsülhetjük: az 1,044 = M(ξ) = n p egyenletb l p = M(ξ) n = 1,044 5 = 0,088 Az illeszkedésvizsgálathoz el ször meghatározzuk, hogy ha ξ binomiális eloszlású az n = 5, p = 0,088 paraméterekkel, akkor az egyes osztályokba átlagosan hány mintaelemet várunk. Számítsuk ki a kihúzott selejtek számának lehetséges értékeihez tartozó valószín ségeket! (Kiszámoljuk, hogy mekkora annak a valószín sége, hogy az 5 elem mintában éppen k darab selejt van, ahol k = 0, 1,, 3, 4, 5. Célszer minél több tizedes pontossággal számolni!). 4
p 0 = P (ξ = 0) = 0,791 5 = 0,31005 p 1 = P (ξ = 1) = 0,088 1 0,791 4 = 0,4091 1 p = P (ξ = ) = 0,088 0,791 3 = 0,1593 p 3 = P (ξ = 3) = 0,088 3 0,791 = 0,05699 3 p 4 = P (ξ = 4) = 0,088 4 0,791 1 = 0,0075 4 p 5 = P (ξ = 5) = 0,088 5 = 0,000397 A fenti valószín ségekkel szorozzuk a mintaelemek számát, így megkapjuk az i-edik osztályhoz tartozó elvárt gyakoriságot (np i ), (így pl. az 500 kísérletb l átlagosan p 1 = 500 0,4091 = 04,56 esetben kapunk olyan eredményt, ahol az 5 kihúzott termékb l pontosan egy selejtes). Az elvárt gyakoriságokat beírjuk a táblázatba: selejtek száma 0 1 3 4 5 meggyelt gyakoriság 170 180 10 0 8 elvárt gyakoriság 155.03 04.56 107.97 8.49 3.75 0. A kapott elvárt gyakoriságok között azonban két 5-nél kisebb érték is szerepel, ami illeszkedésvizsgálatnál nem megengedett! Tehát cellákat kell összevonnunk. Mivel az utolsó két osztályban a várt gyakoriságok összege ( 3,75 + 0, = 3,95) kisebb 5-nél, ezért az utolsó három osztályt vonjuk össze. Ezzel az osztályok száma 4-re csökkent. Ezután a táblázatot az alábbiak szerint kitöltjük: selejtek száma 0 1 3 v. 4 v. 5 összes meggyelt gyakoriság: µ 170 180 10 30 elvárt gyakoriság: np i 155,03 04,56 107,97 3,44 (µ i np i ) 4,1009 603,1936 144,709 5,9536 (µ i np i ) )/(np i ) 1,4455,9487 1,3404 0,1835 5,9181 A hipotézisvizsgálat lépései ezután az alábbiak: A feltételezésünk most az, hogy ξ binomiális eloszlású az n = 5 és p = 0,088 paraméterekkel. A próba illeszkedésvizsgálat, χ -próbával. A próbastatisztika mintából számított értéke a táblázatunk utoló sorában szerepl értékek összege, azaz 5,9181. A próba egyoldali χ -próba. A kritikus értéket a χ -eloszlás táblázatból olvashatjuk ki. A szabadsági fok a várható érték mintából való becslése miatt osztályok száma-, azaz 4 =, a szignikancia szint nem volt megadva, ezért a valószín séget a szokásos 0,95-nek tekintjük. Ez a jegyzet χ -eloszlás táblázatában a második sor, els oszlopban található χ t = 5,99 érték. (A kritikus tartomány ábráját felrajzolva látható, hogy a kritikus érték az elfogadási tartományba esik.) 5,9181 < 5,99, a próbastatisztika értéke az elfogadási tartományba esik, a nullhipotézist elfogadjuk 95%- os szignikanciaszinten. Ez azt jelenti, hogy az adott minta alapján elfogadható, hogy dobott fejek száma binomiális eloszlású, n = 5, p = 0,088 paraméterekkel. Ugyanakkor vegyük észre, hogy a számított és a kritikus érték nagyon közel van egymáshoz! 5