STATISZTIKA Hipotézis, sejtés 11. Előadás Hipotézisvizsgálatok, nem paraméteres próbák Tudományos hipotézis Nullhipotézis felállítása (H 0 ): Kétmintás hipotézisek Munkahipotézis (H a ) Nullhipotézis (H 0 ) > = 1
Statisztikai próba Az olyan eljárást, amelyik a minták alapján dönt, statisztikai próbának nevezik Modell választás vagy alkotás Próbafüggvény előállítása: valamilyen eloszlás Próbafüggvény A próbafüggvény kiszámított értékéhez megadható egy alfa, valószínűség. Ez megmutatja, hogy milyen valószínűséggel várható a próbafüggvénynek a kiszámítottal azonos vagy annál nagyobb értéke, ha a nullhipotézis igaz, azaz μ 1 = μ 2 A statisztikai próba menete 1. A statisztikai próba menete 2. A munka-hipotézisek (H a ) nem igazolhatók közvetlen úton Ellenhipotézis, nullhipotézis felállítása (H 0 ): μ 1 = μ 2, vagy μ 1 -μ 2 =0 A munka-hipotézist indirekt módon bizonyíthatjuk Elsőfajú hiba megválasztása, alfa A minta alapján a próbafüggvény értékének meghatározása, alátámasztja a nullhipotézist? Elsőfajú hiba Kétoldali, szimmetrikus, alfa=5% (H 0 ): μ 1 = μ 2, vagy μ 1 -μ 2 =0 igaz A minta alapján elvetjük a nullhipotézist, tévesen valódi különbséget állapítunk meg ELUTASÍTÁSI ELFOGADÁSI TARTOMÁNY ELUTASÍTÁSI Mi ennek a valószínűsége? α (alfa), melyet a statisztikai próba elvégzése előtt kell megválasztani, szignifikancia-szint Szokásos értékei: 10; 5; 1; ritkán 0,1% 2
Egyoldali, aszimmetrikus, alfa=5% Egyoldali vagy kétoldali? ELFOGADÁSI TARTOMÁNY ELUTASÍTÁSI KRITIKUS ÉRTÉK Alternatív hipotézisre vonatkozik Egyoldali, ha előzetes információnk van arról, hogy az egyik csak nagyobb lehet, mint a másik. Kétoldali, nincs információnk az összehasonlításról. A kétoldali a gyakoribb Az egy- és kétoldali próba A null-hipotézis (H 0 ) mindig egyenlőség A döntés és az elkövethető hibák 1. Az alternatív hipotézis (H 1 ) nem egyenlő kétoldali próba nagyobb jobboldali próba kisebb baloldali próba A döntés és az elkövethető hibák 2. A döntés és az elkövethető hibák 3. 3
A döntés és az elkövethető hibák 4. A döntés és az elkövethető hibák összefoglalása Másodfajú hiba μ 1 nem egyenlő μ 2, vagy μ 1 -μ 2 nem nulla, H a igaz A minta alapján megtartjuk a nullhipotézist, tévesen egyformaságot állapítunk meg Mi ennek a valószínűsége? β (béta), melynek értékét csak a statisztikai próba elvégzése után lehet meghatározni A statisztikai próba ereje A valódi különbség kimutatásának valószínűsége P=1-β Gyakorlatilag egy igaz munkahipotézis vagy alternatív hipotézis elfogadásának valószínűsége Minél kisebb az α, annál ritkább, hogy H 0 -t tévesen elutasítjuk, de annál gyakoribb, hogy H 0 -t tévesen elfogadjuk (másodfajú hiba) Az első- és másodfajú hiba csökkentése Minta elemszámának növelése Pontosabb mintavételezés (szórás csökken) Lehet-e az első- és másodfajú hibát nullára csökkenteni? NEM A véletlen hatásokat nem tudjuk kiiktatni Elsőfajú és másodfajú hiba közötti összefüggés Fordított De nem lineáris! 4
29,5% 6,2% 1,96 Alfa és béta hiba Statisztikai próbák 1. 95% Eloszlásra vonatkozó Normális eloszlás Binomiális Egyenletes Stb. -4-2 0 2 4 6 8 10 Kolmogorov-Smirnov teszt Statisztikai próbák 2. Az eloszlás valamelyik paraméterére Medián Átlag Szórás Nem paraméteres statisztikai próbák Khi-négyzet teszt, illeszkedés vizsgálat, függetlenség vizsgálat Binomiális teszt a relatív gyakoriságra Független kétmintás teszt, pl. Mann-Whitney-u próba Független többmintás teszt, pl. Kruskal-Walis H próba Páronként összetartozó minták tesztje, pl. Wilcoxon-teszt k számú összetartozó minta tesztje, pl. Friedman-teszt Nagymintás nem paraméteres próbák Közös jellemző: Nullhipotézisük a sokasági eloszlásra irányul Kizárólag nagy minták esetén alkalmazhatók Jobb oldali kritikus tartománnyal hajtandók végre Illeszkedésvizsgálat annak ellenőrzése, hogy egy valószínűségi változó adott eloszlású-e Függetlenségvizsgálat két ismérv (kategóriarendszer) egymástól való függetlenségének vizsgálata mintavételi eredmények alapján Homogenitásvizsgálat annak ellenőrzése, hogy két minta származhat-e azonos eloszlású sokaságból Illeszkedésvizsgálat khi-négyzet tesztel Származhat-e egy gyepmag-keverék egy 20, 17, 30, 20, 13%-os összetételű keverékből 10%-os szignifikancia-szint mellett? A mintavételezés során az alábbi eredményt kaptuk: 5
Illeszkedésvizsgálat Elméleti gyakoriság Faj Elméleti gyakoriság Tapasztalati gyakoriság Különbség Réti perje 1327*0,2=265,4 236-29,4 Angol perje 1327*0,17=225,59 241 15,41 Réti komócsin 1327*0,3=398,1 443 44,9 Réti csenkesz 1327*0,2=265,4 252-13,4 Fehér here 1327*0,13=172,51 155-17,51 Összesen 1327 1327 0 Pearson-féle maradékok Eredmény Pearson-maradékok: -1.8046661 1.0259890 2.2503509-0.8225349-1.3331500 Khi-négyzet: 11,827 Df: 4 Kritikus khi-érték: 7,78 INVERZ.KHI(0,1; 4) Khi-négyzet sűrűségfüggvény, df=4 Függetlenségvizsgálat A függetlenségvizsgálat annak vizsgálatára szolgál, hogy két ismérv, illetve két kategória-rendszer valamely adott sokaságon belül független-e egymástól. Nullhipotézise a két ismérv függetlenségét, alternatív hipotézise ennek ellenkezőjét mondja ki. 6
A nullhipotézis helyessége a Statisztikája Szülő Kontingenciatáblázat kórosan elhízott normális soványtúlsúlyosvégösszeg kórosan elhízott 1511 332 314 384 2541 próbafüggvény segítségével vizsgálható, ahol normális 130 24 34 32 220 sovány 28 9 4 2 43 túlsúlyos 111 11 31 36 189 Végösszeg 1780 376 383 454 2993 a két ismérv függetlenségét feltételező cellagyakoriság a mintára vonatkozóan Feltételes gyakoriságok Pearson-féle maradékok Elméleti gyakoriság (fi*) kórosan elhízott normális sovány túlsúlyos Végösszeg kórosan elhízott 1511,19 319,22 325,16 385,44 2541 normális 130,84 27,64 28,15 33,37 220 sovány 25,57 5,40 5,50 6,52 43 túlsúlyos 112,40 23,74 24,19 28,67 189 Végösszeg 1780 376 383 454 2993 kórosan elhízott normális sovány túlsúlyos kórosan elhízott -0,004787287 0,715476465-0,618877069-0,073212762 normális -0,073316044-0,691973545 1,102106576-0,237363932 sovány 0,479930387 1,54808167-0,640524748-1,770821691 túlsúlyos -0,13226493-2,615254105 1,385674918 1,369190962 Döntés Eredmény Ha a H 0 igaz és a legkisebb legalább 5, akkor is a próbafüggvény Szabadságfok (df): 9 Szignifikancia-szint: 0,05 Kritikus khi-érték: 17,61 INVERZ.KHI(0,05; 9) szabadságfokú eloszlású. 7
Khi-négyzet sűrűségfüggvény, df=9 Asszociációs együtthatók Csuprov-féle Cramer-féle Kontingencia együttható 0: függetlenség 1: függvényszerű kapcsolat Csuprov-féle asszociációs együttható Cramer-féle V együttható 0 <= T <= 1 Pontosabban k: a sorok és oszlopok közül a kisebb 0-1 Ez már elérheti az egyet. Kontingencia együttható Homogenitásvizsgálat A nullhipotézis az, hogy a két változó eloszlása azonos. Az alternatív hipotézis az, hogy a két eloszlás nem azonos. Az értéke 0 és 1 között, de sohasem éri el az 1-et. Nem kell azonos elemszám csak az osztályoknak kell megegyeznie. 8
Kereszttábla Elméleti gyakoriság Aktivitás Észak- Magyarország Nyugat-Dunántúl Végösszeg foglalkoztatott 342 606 948 inaktív 411 459 870 munkanélküli 47 35 82 Végösszeg 800 1100 1900 Elméleti gyakoriság (fi*) Észak- Magyarország Nyugat-DunántúlVégösszeg foglalkoztatott 399,1578947 548,8421053 948 inaktív 366,3157895 503,6842105 870 munkanélküli 34,52631579 47,47368421 82 Végösszeg 800 1100 1900 Pearson-féle maradékok Eredmények khi-négyzet: 31,34 Észak-Magyarország Nyugat-Dunántúl foglalkoztatott -2,860907805 2,439790374 inaktív 2,334674124-1,991016783 szabadságfok (df): 2 szignifikancia-szint 0,05 munkanélküli 2,122851553-1,810373887 Kritikus khi-érték: 5,99 Khi-négyzet sűrűségfüggvény, df=2 Binomiális teszt Igaz-e a nemeknél az 50:50%-s arány? 9
Mann-Whitney-u próba Ordinális típusú változók tesztjei Két független minta medián egyezésének igazolására való eljárás A H 0, hogy a két sokaság ugyanabba az eloszlásba tartozik Ordinális típusú adatoknál használható, vagy skála típusú adatoknál, ahol nem feltétel a normáleloszlás Csak az egyezésre ad elfogadható, megbízható eredményt. Ha ettől eltérő eredményt kapunk, nem tudhatjuk biztosan, hogy mi a valóság Kruskal-Walis H próba Rendezett mintán alapuló, több mintás hipotézis vizsgálat Nullhipotézis: minden minta azonos eloszlású sokaságból származik A próba segítségével h darab nh elemszámú mintát vizsgálhatunk Wilcoxon-teszt Két eloszlás egyezésének vizsgálatára alkalmas A két minta elemei páronként összefüggnek n 1 +n 2 elemű mintából egyetlen rangsort képeznek A nullhipotézis: a páronkénti különbségek a nulla körül szimmetrikusan helyezkednek el Friedman teszt Több eloszlás egyezésének vizsgálatára alkalmas A k számú minta elemei összefüggnek, ismételt mérési modellek n 1 +n 2 n K elemű mintából egyetlen rangsort képeznek A nullhipotézis: a különbségek a nulla körül szimmetrikusan helyezkednek el 10