Kidolgozott feladatok a emparaméteres statisztika témaköréből A tájékozódást mideféle szíkódok segítik. A feladatok eredeti szövege zöld, a megoldások fekete, a figyelmeztető, magyarázó elemek piros szíűek. 1. Nyuszika répatorta-gyára agyszerűe üzemel, viszot a piaco megjelet egy maufaktúra, amely kézműves répatortákat árusít, amelyek állításuk szerit sokkal fiomabbak Nyuszika tortáiál. Ezért Nyuszika közvéleméy-kutatást végez. Az utcá sétáló állatoktól megkérdezi, hogy ettek-e már az ő tortáiból, illetve, hogy ettek-e a kézműves tortákból, és kéri, hogy értékeljék ezeket -1-as skálá (1-as a legjobb). Nyuszika a kísérlet sorá em találkozott olyaal, aki midkét fajta tortából fogyasztott vola. A kapott potszámok alább olvashatók: Nyuszika tortája 78; 66; 75; 85; 73; 59 Kézműves torta 91; 83; 71 Nyuszika azt állítja, hogy ics külöbség a saját tortája és a kézműves torta fiomságába. a) Fogalmazzuk meg, hogy milye ullhipotézist kívá Nyuszika vizsgáli! A ullhipotézisek midig az eloszlás(ok) valamilye paraméterére kell voatkozia. Itt két eloszlásról beszélhetük, Nyuszika tortáira adott potszámok eloszlásáról, illetve a kézműves tortákra adott potszámok eloszlásáról. Mivel a ormális eloszlás korátsem egyértelmű (lásd f) kérdés), így ikább a mediáok egyelőségét érdemes ézi. e e H : 1 e e Ahol 1 Nyuszika tortáira adott potszámok mediája, pedig a kézműves tortákra adott potszámok mediája. Természetese a sokaságok mediájáról va szó. A gyakorlatba a javítás sorá maximális pottal fogadtam el, ha valaki magyarázat élkül csak a ullhipotézist írta le. Ezt legikább azért tettem, mert jellemzőe kevés potok születtek a ZHba. Szeritem egyébkét elvárható lee a magyarázó rész is. Ha valaki a mediá helyett várható értéket írt, 3 potot kapott a 4-ből. b) Végezzük el az elemzést kismitás módszerrel! Ragokat kell redeli a potszámokhoz, kapcsolt ragok icseek. A kézműves torták kapják a 9; 7; 3-as ragszámokat, Nyuszika tortái pedig a 8; 6; 5; 4; ; 1-es ragokat (a legagyobb potszámhoz redeltem a legagyobb ragot, természetese fordítva is lehet). Ha a ullhipotézis igaz, akkor a ragok teljese véletleszerűe oszlaak meg a két csoport között. Ez az előbbi modat em a ullhipotézis, tehát em jó válasz az a) kérdésre! 9 9! Ha ez igaz, akkor összese 84 külöböző, azoos valószíűségű kombiáció 3 6!3! lehetséges, így egy adott kombiáció valószíűsége 1, 119. 84
Ahhoz, hogy a ullhipotézist elutasíthassuk, az kell, hogy a ragszám-összegek a legszélsőségesebb 5%-ba esseek. Itt most a kézműves torták ragszámait ézem, mert így kevesebb számot kell ézi.,5 4,, azaz ha a legszélsőségesebb - kombiációál utasítom el a ullhipotézist,,119 akkor az α valamivel 5% alatt lesz, ha a legszélsőségesebb 3-3 kombiációál utasítom el, akkor viszot már felette. Nézzük meg, hogy melyek a legszélsőségesebb kombiációk! Legagyobb ragszám-összegek: 9; 8; 7-él 4, 9; 8; 6-ál 3, 9; 8; 5-él és 9; 7; 6-ál. Legkisebb ragszám-összegek: 1; ; 3-ál 6, 1; ; 4-él 7, 1; ; 5-él és 1; 3; 4-él 8. Így tehát vagy 6, 7, 3 és 4-es ragszám-összeg eseté utasítom el a ullhipotézist, ekkor 4 8,48, vagy 6, 7, 8,, 3 és 4-esél, ekkor, 95. 84 84 A példába viszot a ragszám-összeg 19, tehát a ullhipotézist mideképp el kell fogadi. Nyilvá em vártam el, hogy a ZHba a megoldást ilye részletességgel fejtsük ki. Azaz az adatok em modaak ellet aak, hogy a két tortafajta egyformá fiom. Itt em vettem a szakmai választ agyo szigorúa, megitcsak azért, mert kevés pot jött össze a többi feladatból. Ezzel a módszerrel em kapuk p-értéket, de ics is rá szükség. Ahhoz, hogy p-értéket kapjuk, az kell, hogy leszámoljuk az összes olya kombiációt, ahol a ragszám-összeg 19, vagy eél szélsőségesebb. Ez ige hosszadalmas feladat, így ezt sekiek sem javasolám. c) Végezzük el az elemzést agymitás módszerrel! A agymitás módszer eseté a ragszám-összeget ormális eloszlással közelítjük. A ragszám-összeg várható értéke, és variaciája szerepelt a képletgyűjteméybe. Itt is a kézműves tortákra írom fel a megoldást, de természetese lehete Nyuszika tortáira is. Várható érték: N 1 31 E W 1 15 Variacia: 1 N 1 316 Var W 15 1 1 19 15 z 1,33 15 Az, 5 -höz tartozó z-kritikus érték 1, 96, így a ullhipotézist elfogadjuk. A d) kérdéshez szükség lesz p-értékre is, így azt is leolvashatjuk. 1,33-hoz a táblázatból,848 olvasható le, ez a tőle balra eső terület, a szélsőségesebb értékekhez tartozó terület 1,848 =,15. Mivel kétoldali próbáról va szó, így a p-érték eek a duplája, p,34, 5, azaz a ullhipotézist ez alapjá is elfogadjuk. Ez alapjá em utasíthatjuk el azt, hogy a torták fiomsága azoos. Ugyaaz él, mit amit a b) kérdésél leírtam a szakmai válasszal kapcsolatba. d) Elleőrizzük, hogy megalapozott volt-e a agymitás módszer haszálata! 1 N Akkor megalapozott, ha a p-érték (amit a agymitás módszerből kapuk) és N 1 N 1 közé esik. Ezek itt,1 és,9. Mivel a p, 34 ezek közé esik, így megalapozott volt a agymitás módszer haszálata.
e) Meyibe lee iformatívabb, ha Nyuszika olya állatokat kérdezett vola meg, akik midkét fajta tortából fogyasztottak? Miért? Ebbe az esetbe páros próbát lehete végezi, ami eseté az egyéek közötti igadozás em befolyásolja a próbastatisztikát, így megbízhatóbb (erősebb) következtetésük lehet. A kulcsszó a páros próba. Természetese ezzel ekvivales, más megfogalmazást is elfogadtam. f) Haszálhaták-e itt paraméteres próbát? Miért? A paraméteres próbához az kell, hogy az adatok ormális eloszlásból származzaak. Ha egy adat potozással jö létre, akkor arra első sorba úgy tekitük, hogy az sorredi skálá értelmezett, ami eseté em is merül fel a ormális eloszlás, azaz em végezhetük paraméteres próbát. Alapvetőe ezt a megoldást fogadtam el, ezzel az idoklással. Azoba ilye sok kategória eseté (-1), már ige jól közelíthető ormális eloszlással a sorredi skálá mért valószíűségi változó, így akár végezhetük is paraméteres próbát. Ha valaki ezt téylegese így megidokolta, azaz em csak ayit említett meg, hogy az adatok ormális eloszlásból származak (ami ugye pot, hogy em jellemző a potozással keletkezett adatokra), az is megkapta a maximális potot.. A Kisegér és Nagyegér a híreket olvassa az újságba. Azt írják, hogy az Egérkirály vizsgáli kívája, hogy az alkohol fogyasztása hatással va-e arra, hogy az alattvalói meyire köye szagolják ki a sajtot. Ehhez kísérletet végezek. Egy darab sajtot rejteek el a kísérleti területe, majd egyes egerekkel alkoholt itatak, egyesekkel pedig em, és vizsgálják, hogy 1 perce belül megtalálják-e a sajtot vagy sem. Az eredméyeket a kísérlet elvégzése utá x-es táblázatba gyűjtik, ez látható alább: megtalálta a sajtot em találta meg a sajtot alkoholt ivott 5 em ivott alkoholt 33 13 a) Kisegér szerit itt a sorösszeg rögzített, Nagyegér szerit itt az oszlopösszeg rögzített. Melyikükek va igaza? Miért? Kisegérek va igaza, mert a sorösszeg rögzített. Ez a x-es táblázat cliical trial-típusú esete. A kísérlet sorá meghatározzák, hogy melyik egér fogyaszt alkoholt, és melyik em. b) Hogya kellett vola elvégezi a kísérletet, hogy a másik egérek legye igaza? Meyire reális ez az elképzelés? Ahhoz, hogy a másik egérek legye igaza, az kell, hogy az oszlopösszeg rögzített legye, a sorösszeg pedig em. Ez egy case-cotrol típusú vizsgálatot ada ilyekor. Ehhez az kell, hogy az adatokat utólagosa elemezzük. Egy lehetséges példa, hogy az egerekek hagyják, hogy ők dötsék el, hogy iszak-e alkoholt vagy sem, majd megkerestetik velük a sajtot. Az eredméyeket dokumetálják. Majd eze dokumetumok közül kiválasztaak valaháyat (fix számút), ahol az egér megtalálta a sajtot, és kiválasztaak megit csak fix számút, ahol em. Ezutá csak ezeket az adatokat elemzik. Ez yilvá em hatékoy, em reális elképzelés. Nem jó az a válasz, hogy mide egér maga döti el, hogy iszik-e alkoholt, majd vizsgálják az összes egérre, hogy megtalálta-e a sajtot vagy sem. Ugyais ilyekor csak a teljes összeg rögzített, az oszlopösszegek em. Mellesleg ez sokkal reálisabb elképzelés. Más, kreatív választ is elfogadtam, ha teljesült az, hogy az oszlopösszeg rögzített. Ezek még kevésbé reális elképzelések voltak.
c) Milye ullhipotézis írja le azt, amire az Egérkirály kívácsi? H : 1 Ahol 1 aak a valószíűsége, hogy az alkoholt fogyasztó egér megtalálja a sajtot, aak a valószíűsége, hogy az alkoholt em fogyasztó egér megtalálja a sajtot. Szeritem itt is elvárható lee, hogy a megoldásba bee legye a jelölések értelmezése, de em votam le most potot emiatt. d) Hogy dötük a ullhipotézisről? Mit modhatuk az Egérkirályak? Ezt többféle módo lehet megoldai. Haszálhatuk z-próbát, és χ -próbát is. Haszálhatuk folytoossági korrekciót. A z-próba eseté Wald, vagy score módszert kell haszáluk. Nyilvá akármelyik megoldás jó, és elég csak egyet elvégezi. 5 33 ˆ1,53, ˆ, 7 5 33 13 Wald módszerrel:,53,7 z 1,93,531,53,71,7 47 46 Ez beleesik az, 5 -hoz tartozó 1, 96 itervallumba, tehát a ullhipotézist elfogadjuk. score módszerrel: Ha a ullhipotézis igaz, akkor a valószíűség a margiálisokból számítható: 5 33 ˆ,6 5 33 13,53,7 z 1,88 1 1,61,6 47 46 Ez beleesik az, 5 -hoz tartozó 1, 96 itervallumba, tehát a ullhipotézist elfogadjuk. χ -próbával, observed/expected táblázattal Ha a ullhipotézis igaz, akkor midkét sorba ˆ, 6 a valószíűsége az 1. oszlopba kerülések. Így a várt (expected) értékek táblázata így éz ki: 47,6 9,14 47,38 17, 86 46,6 8,5 46,38 17, 48 Így a próbastatisztika: 5 9,14 17,86 33 8,5 13 17,48 9,14 17,86 8,5 17,48 17,14 17,14,7,7,588,96,74 1,148 3,4 9,14 17,86 8,5 17,48 Ez egy 1 szabadsági fokú χ -eloszlású valószíűségi változó. Aak elleére, hogy az eredeti ullhipotézis kétoldali próbát kívá, itt a égyzetre emelés miatt csak az eél agyobb értékek tekitedőek eél szélsőségesebbek (ugyaúgy, mit az ANOVA-ál), tehát felső kritikus értéket kell ézi. A táblázat alapjá a kritikus érték 3,841, a próbastatisztika eél kisebb, azaz a ullhipotézist elfogadjuk. Nem votam le potot akkor, ha valaki itt kétoldali kritikust ézett, azaz gyakorlatilag,5-ös szite dolgozott. A táblázatból em olvasható ki a p-érték, statisztikai szoftverrel megaphatjuk: p =,65
A ullhipotézist midegyik esetbe elfogadtuk, azaz az adatok em modaak ellet aak, hogy az alkohollal és alkohol élkül azoos valószíűséggel találják meg az egerek a sajtot. Itt a ullhipotézis em megfelelő megfogalmazása eseté levotam 1 potot. Például helytele megfogalmazás, hogy ez alapjá azoos valószíűséggel találják meg a sajtot az alkoholt ivó és em ivó egerek. (Vagy bármi más, amiből em látszik egyértelműe, hogy a ullhipotézis elfogadása em bizoyító erejű.) 3. A Bölcs Bagoly a Wald és score módszerekről mesél a tauli vágyó fiatal állatokak. A kicsik viszot em figyeltek oda, így em értették meg az összefüggéseket, így kérdéseik támadtak. Azoba a Bölcs Bagoly appal alszik, így ő em tud válaszoli a kérdésekre. Válaszoljuk mi a kérdésekre! a) Milye kismitás módszerek eseté va értelme Wald és score módszerről beszéli? A Wald és score módszerek úgy merülek fel, hogy amikor a biomiális eloszlást ormális eloszlással közelítjük, a evezőbe, a variacia kifejezésébe megjeleik az ismeretle valószíűség, és ezt kell valamivel helyettesítei. Eek következtébe SEMMILYEN kismitás módszerél ics értelme eze módszerekről beszéli, hisze ott ez a probléma em merül fel. b) Mit helyettesítük mivel, ha a Wald módszert alkalmazzuk? A valószíűség valódi értékét (π) a becsült értékkel (ˆ ) helyettesítjük. c) Mit helyettesítük mivel, ha a score módszert alkalmazzuk? A valószíűség valódi értékét (π) a ullhipotézis szeriti feltételezett értékkel ( ) helyettesítjük. Alapvetőe elvárható lett vola, hogy leírjuk azt is, hogy miért, meg hol kell ezt a helyettesítést meglépi, de ezek élkül is megadtam a maximális potot. A. feladat d) részébe részletese látható, hogy potosa hogya kell ezeket a módszereket alkalmazi. d) Haszálhatuk-e folytoossági korrekciót, ha a Wald, illetve a score módszert alkalmazzuk? A Wald és score módszerek haszálata em befolyásolja a folytoossági korrekció haszálhatóságát, illetve azo agymitás módszerek eseté, ahol felmerül a Wald és score módszerek alkalmazásáak szükségessége, ott lehetséges folytoossági korrekciót alkalmazi. Tehát, ige, haszálhatjuk midkét esetbe. 4. Az Országos Egyszarvú Taács kívácsi arra, hogy va-e összefüggés a között, hogy az egyszarvúk söréye szivárváyszíbe tüdököl-e, illetve hogy a patájuk arayszíbe csillámlik-e, miközbe vágtázak. Ezért kérdőíveket küldtek ki egyszarvúak, amelybe rákérdeztek ezekre. Összese 11 válasz érkezett, ezek eredméyei az alábbi x-es táblázatba szerepelek: csillámlik? szivárváyszíbe tüdököl? ige em ige 34 17 em 7 34 a) Milye típusú x-es táblázat ez? (sorösszeg / oszlopösszeg / teljes összeg rögzített, páros vagy kétmitás) Miért? A táblázat páros mitát tartalmaz, és a teljes összeg rögzített, mert csak ayit tudtuk, hogy háy egyszarvú küldte meg a válaszát, és ők összetartozó két kérdésre adták meg a választ.
Nem jó megoldás az, hogy sem az oszlop- sem a sorösszeg em rögzített, ugyais ilye típusúból kétféle táblázat va, ahol a teljes összeg rögzített (ez), illetve az, ahol a teljes összeg sem rögzített. Utóbbi táblázat-típust másképpe kell kiértékeli. b) Milye ullhipotézist fogalmazhat meg az OET? Az ilye típusú táblázatokál kétféle szakmai kérdést lehet feltei, és eze múlik a kiértékelés módja. Mideképpe meg kell jegyezi azt, hogy e kettő közül melyik a helyes, azt csak a szakmai kérdés határozza meg, em a kísérlet elvégzéséek módja (ugyais az ugyaaz midkét esetbe). A kétféle kérdés, amit itt megfogalmazhatuk a függetleség, illetve a szimmetria. A függetleség azt jeleti, hogy egy kombiáció valószíűsége megegyezik a margiális valószíűségek szorzatával. A szimmetria azt jeleti, hogy az 1. kérdésre adott egyik válasz valószíűsége megegyezik a másik kérdésre adott valamelyik válasz valószíűségével. (Ez NEM jeleti azt, hogy bármelyik kérdésre adott két válasz valószíűsége megegyezik, azaz 5%.) A feladat szövege alapjá az OET arra volt kívácsi, hogy va-e összefüggés a két tulajdoság között, azaz itt függetleségvizsgálatot kell végezi. Eek ullhipotézise: H : ij i j Ahol ij aak a valószíűsége, hogy egy egyszarvú 1. kérdésre az i. és a. kérdésre a j. választ adja. i aak a valószíűsége, hogy egy egyszarvú az 1. kérdésre az i. választ adja. aak a valószíűsége, hogy egy egyszarvú a. kérdésre a j. választ adja. j A magyarázat szükségességére voatkozó megjegyzés itt is érvéybe va. c) Milye statisztikai próbát kell végezi? (χ vagy McNemar?) A függetleségvizsgálatot χ -próbával kell végezi. A szimmetria vizsgálatát a kérdésből magától értetődő módo McNemar-próbával kellee végezi. d) Végezzük el a próbát! Milye következtetésre juthat az OET ez alapjá? Először a margiálisokból kiszámítjuk a következő valószíűségek becslését: 34 7 ˆ1,545, ˆ 1,545, 455 11 34 17 ˆ 1,455, ˆ 1,455, 545 11 Ezek alapjá elkészíthetjük a várt (expected) értékek táblázatát:,455,54511 7,78,455,45511 3,,545,54511 33,,455,54511 7, 78 Így a próbastatisztika: 34 7,78 17 3, 7 33, 34 7,78 7,78 3, 33, 7,78 38,69 38,69 38,69 38,69 1,393 1,666 1,165 1,393 5,617 7,78 3, 33, 7,78 Ugyaazo megfotolások miatt, mit a. feladatál, ez is 1 szabadsági fokú χ -eloszlású valószíűségi változó, és a kritikus érték 3,841. Eél a próbastatisztika agyobb, így a ullhipotézist elutasítjuk.
Ahogy a. feladatál, itt sem votam le potot akkor, ha valaki em vette észre, hogy csak felső kritikus va. A p-érték csak statisztikai szoftverrel számítható: p =,18. Ezek alapjá va összefüggés a két tulajdoság között. A ullhipotézis elutasítása bizoyító erejű. Tehát itt az helytele megfogalmazás, hogy az adatok alapjá em tudjuk bizoyítai a függetleséget. Ha valaki McNemar-próbát végzett itt, akkor az erre a feladatrészre járó 8 potból maximum 4-et szerezhetett meg. Azt em tekitettem külö hibáak, így em is votam le érte potot, hogy a McNemar alapjá a függetleségre következtetett. Mide statisztikai próbát α =,5-ös szite kell elvégezi. Képletgyűjteméy: 1 Wilcoxo-Ma-Whitey: N 1 E W H ; Var W H Var W H R Wilcoxo matched pairs: E W H ; k Biomiális eloszlás: k p k 1 k Ek ; Var k 1 N 1 1 1 (ha ics kapcsolt rag) O χ i Ei i -próba x táblázat eseté (O tapasztalt; E várt): Ei A χ -próbáak ez a formája olya szempotból jó, hogy a legáltaláosabb, és relatíve köye megjegyezhető. b c McNemar: z b c