Slide 1 Illeszkedésvizsgálat (kategória értékű változóra) Freedman: 28. fejezet 1-3. Egy képzeletbeli országban 10M ember lakik: 30% szőke, 10% barna, 60% fekete. Slide 2 N = 200 fős mintát vettünk, a mintabeli hajszín gyakoriságok: f szőke = 70, f barna = 25, f fekete = 105 a hajszín gyakoriságok várhatóértékei: e szőke = 60, e barna = 20, e fekete = 120 S = (f szőke e szőke ) 2 e szőke + (f barna e barna ) 2 e barna + (f fekete e fekete ) 2 e fekete Slide 3 ez a statisztika mutatja, hogy megfelelően illeszkedik-e a mintabeli gyakoriság eloszlás az alapsokasági eloszláshoz.
Slide 4 Ha a minta EVM, akkor az S eloszlása χ 2 2 (szavakban: 2 szab.fokú khi-négyzet) melynek a táblázat szerint a 0.95 kvantilise = 5.991 S = (70 60)2 60 + (25 20)2 20 + (105 120)2 120 = 100 60 + 25 20 + 225 120 = 4.792 = H 0 : a mintavétel EVM Slide 5 H 0 vizsgálatára a végzett khi-négyzet próbánál (0.05 szignifikancia szinten) az elfogadási tartomány felső határa = 5.991 A próbastatisztika S = 4.792 ezért a H 0 hipotézist elfogadjuk. Slide 6 Megjegyezzük, hogy ha csak a fekete/nem-fekete eloszlást nézzük, akkor az N = 200 elemű EVM p = 0.6 alapsokasági arány mellett a várható gyakoriság = 120, ennek SHja = 200 0.6 0.4 = 48
1.96 200 0.6 0.4 = 13.579 miatt a 95%-os megbízhatósági tartomány: 120 ± 13.579 Slide 7 A megfigyelt f fekete = 105 kívül esik e tartományon. Ha csak a fekete/nem-fekete komponenst vizsgáljuk (z-próbával), akkor 0.05 szignifikancia szinten a H 0 hipotézist elutasítjuk. Slide 8 Ugyanezt az eljárást egy másik példán megbeszéltük a z-próba kapcsán. Abban a példában (0.05 szignifikancia szinten) a komponensek egyenként vizsgálva a null-hipotézis elfogadására vezettek, miközben a khi-négyzet próba eredménye szignifikáns eltérést jelzett, a null-hipotézist el kellett utasítani. Azt látjuk, hogy a különböző statisztikai próbák a hipotézist más-más szempontból ellenőrzik. Slide 9 Figyelem: a statisztikusok hanyag szóhasználatában a khi-négyzet próba nevet az illeszkedésvizsgálat mellett (több más, különböző próbával együtt) a most következő khi-négyzet függetlenségvizsgálatra is használjuk.
Slide 10 Függetlenségvizsgálat kategória-értékű változókra Freedman: 28. fejezet 4. Egy képzeletbeli országban 10M ember lakik. Slide 11 Tudjuk, hogy 44% kékszemű, 56% zöldszemű, 30% szőkehajú, 10% barnahajú, 60% feketehajú. Ezek az adatok leírják a szem- és a hajszín marginális eloszlását, de nem határozzák meg azt, hogy mi a szem- és hajszín együttes eloszlása. Slide 12 Feltesszük, hogy a szem- és a hajszín függetlenek, miközben tiszteletben tartjuk a marginálisokról előbb mondottakat. A szem- és hajszín együttes eloszlása (ezer fő): szem \ haj szőke barna fekete összesen kékszemű 1320 440 2640 4400 zöldszemű 1680 560 3360 5600 összesen 3000 1000 6000 10000
Először a teljes lakosságra vetített arányszámokkal kitöltjük a marginális sort és oszlopot: Slide 13 szem \ haj szőke barna fekete összesen kékszemű 0.44 zöldszemű 0.56 összesen 0.3 0.1 0.6 1 Ezután kitöltjük az üresen maradt cellákat a megfelelő marginálisaik szorzatával: Slide 14 szem \ haj szőke barna fekete összesen kékszemű 0.132 0.044 0.264 0.44 zöldszemű 0.168 0.056 0.336 0.56 összesen 0.3 0.1 0.6 1 A Szignifikanciapróbák összefoglalóban egy általános jelölés szerepel: Slide 15 X \ Y Y = 1 Y = 2 Y = 3 marginális X = 1 p 1,1 p 1,2 p 1,3 p 1,+ X = 2 p 2,1 p 2,2 p 2,3 p 2,+ marginális p +,1 p +,2 p +,3 p +,+
Slide 16 A függetlenség azt jelenti, hogy P {X = i Y = j} = P {X = i} azaz p i,j = p i,+ teljesül minden (i, j) párra p +,j Például i = 2 és j = 3 esetén P {zöldszemű feketehajú} = P {zöldszemű} p 2,3 = 0.336 p +,3 0.6 = 0.56 = p 2,+ Slide 17 Ez azért megy ilyen szépen, mert az együttes eloszlás táblázatát a szorzási szabállyal készítettük, ezzel okoztuk a két változó függetlenségét. Ugyanezen marginális eloszlások tiszteletben tartása mellett tudunk nem-független együttes eloszlásokat is készíteni. Slide 18 Az alapsokasági relatív gyakoriságokat megszorozzuk az alapsokaság létszámával (itt 10M), és így kapjuk a bevezetőben mutatott gyakoriság eloszlási kereszt-táblát. Az alapsokasági relatív gyakoriságokat a statisztikus szleng totál-százalékos táblának is mondja, ezenkívül értelemszerűen használják a sorszázalékos és oszlopszázalékos tábla elnevezéseket is.
Slide 19 Két kategória-értékű változó függetlenségének vizsgálata khi-négyzet próbával Modell: az X változó alapsokaságbeli értékei X = 1, 2,.., I az Y változó alapsokaságbeli értékei Y = 1, 2,.., J Hipotézis: H 0 : X és Y függetlenek Minta: az (X, Y ) változópárra vett N elemű EVM. Az adatok a gyakoriság kereszt-táblázatban: X \ Y Y = 1... Y = J marginális Slide 20 X = 1 f 1,1... f 1,J f 1,+............... X = I f I,1... f I,J f I,+ marginális f +,1... f +,J N = f +,+ f i,j = az {X = i} és {Y = j} mintabeli együttes előfordulásainak gyakorisága. Slide 21 Ha X és Y függetlenek, akkor f i,j várhatóértéke = e i,j = f i+ f +j f ++ várhatóértéke Ez az állítás precízebben fogalmazva: ha X és Y függetlenek, akkor e i,j torzítatlan becslés N p i,j -re. Másrészt f i,j torzítatlan becslés N p i,j -re, akár teljesül X és Y függetlensége, akár nem.
Slide 22 A függetlenségvizsgálat próbastatisztikája: I J (f i,j e i,j ) 2 S = mely χ 2 (I 1) (J 1) i=1 j=1 e i,j (szavakban: (I 1) (J 1) szab.fokú khi-négyzet) eloszlású közelítőleg, ha H 0 igaz. Slide 23 Fisher próba (a képlet nem kötelező anyag!) Fisher egzakt próba. Van N darab X kártya és M darab Y kártya. Az összesen N + M kártyából véletlenszerűen kiválasztok K darabot. N 1 M 1 K N 2 M 2 L N M ( N N 1 )( M M 1 ) ( N+M ) a valószínűsége, hogy K éppen ezen táblabeli eloszlás jön ki. Alkalmazás a medián-próbára: K = M + N és a kiválasztás 2 azt jelenti, hogy az érték a közös mediánnál nagyobb. Slide 24 A Fisher-próba P értékét a fenti képlet segítségével tudjuk kiszámolni, és ezenközben kizárólag az ugyanilyen marginálisokat eredményező mintavételek valószínűségeit vesszük figyelembe. Ha a Fisher-próba helyett a függetlenségre vonatkozó khi-négyzet statisztika alapján számolnánk P értéket, ezzel negligálnánk a marginálisokra vonatkozó információt. A következő példák szimulációval szemléltetik a medián-próbánál a Fisher-próba és a khi-négyzet próba függetlenségvizsgálati eljárások működését.
A khi-négyzet és a Fisher egzakt próba összehasonlítása ROC analysis N= 50, M= 50, dev= 0.5 with Chi-squared 89% accepted at level ** with Fisher exact 79% accepted at level ** ROC analysis N= 50, M= 50, dev= 0.7 with Chi-squared 41% accepted at level ** with Fisher exact 24% accepted at level ** ROC analysis N= 80, M= 80, dev= 0.5 with Chi-squared 53% accepted at level ** with Fisher exact 26% accepted at level ** Az adathalmazok és a próba leírását lásd az előző előadásban. A medián-teszt 2x2-es kereszt-táblázatának értékelését egyrészt a khi-négyzet próbával, másrészt a Fisher egzakt próbával végezve azt látjuk, hogy a Fisher egzakt próba használata eredményezi a kisebb másodfajú hibavalószínűséget.