STATISZTIKA PRÓBAZH 2005 1. FELADATSOR: számítógépes feladatok (még bővülni fog számítógép nélkül megoldandó feladatokkal is) Használjuk a Dislexia Excel fájlt (internet: http:// starts.ac.uk)! 1.) Hasonlítsuk össze a 4 éves gyerekek Pegboard set4, illetve Pegboard set5 teszten elért eredményeit! Állíthatjuk-e, hogy valamelyik teszten szignifikánsan nagyobb pontszámot értek el, mint a másikon? Mego: H 0 : a két teszten elért eredmény nem tér el szignifikánsan. Párosított t-próbát végzünk, mert a két mérést egy mintaelemen (gyereken) végezték. Az egyes minták kb. normáleloszlásúak (3.o), de ezt ellenőrizni kell a különbségekre is az eredmény-lapon (5.o.), ez is rendben, tehát választhatunk t-tesztet (ellenkező esetben nem-paraméteres teszt lenne megfelelő, a Wilcoxon matched-pairs signed-ranks test). Kétoldali próbát választunk, mert bármelyik teszten érhettek el jobb eredményt (Csak abban a nagyon ritka esetben választunk egyoldalú próbát, ha a biológiai előismeretek kizárják, hogy a kezelés csökkenti a mért változót, csakis növelheti, vagy éppen fordítva. Óvatosságból inkább a kétoldalit kell választani.) 3.o.: Az egyes mintákra külön-külön normalitás-teszt OK 4.o.: Perform paired test / Assume values are sampled from Gaussian distributions? Yes. Perform paired t-test / Two tail P-value 5.o.: P = 0,0018, Assumption test: Was the pairing effective? OK. (Ez általában teljesül, ha az adataink tényleg olyanok, hogy két mérés egy objektumon.) / Assumption test: Are the differences sampled from Gaussian distribution? OK. 6. o.: Megnézzük a box-plotot, alul SEM-re átállítva informatívabb (standard error of mean, előfordul, hogy ehhez kétszer is meg kell nyomni a gombokat oda-vissza, hogy tényleg átálljon SD-ről SEM-re), látszik, hogy a két átlag eléggé eltér, de itt ez még nem ad nekünk bizonyosságot, mert a párosított t-próbánál a különbségek átlagának 0-tól való eltérését vizsgáljuk, sajnos a különbségek átlagát és standard errorját nem mutatja a GraphPad. A párosított t-próba feltételei teljesülnek, a próba eredménye, hogy nagyon szignifikánsan (**) eltérnek a 4 éves gyerekek által a két teszten elért eredmények, vagyis a két teszten elért eredmények különbségeinek átlaga nagyon szignifikánsan eltér a 0-tól. A Pegboard set5 teszten lényegesen több pontot értek el. H 0 -t elvetjük. Annak a valószínűsége, hogy ekkora vagy nagyobb eltérést csak a mvh (mintavételi hiba) okozzon, csupán 0,0018, tehát nem valószínű, hogy a két Pegboard teszt eredményének ilyen nagy eltérése csak a véletlen ingadozásnak tudható be. 2.) Állapítsuk meg, hogy a fiúk(m) és a lányok(f) RAD pontszáma (7 éves korban mért olvasási képesség) lényegesen eltér-e?
Mego: H 0 : a fiúk és a lányok RAD pontszámainak mediánja nem tér el szignifikánsan. Párosítatlan kétmintás próbát végzünk, mert két független mintán végezték a mérést. Mivel a fiúk pontszámai eltérnek a normáleloszlástól (3.o), Man-Whitney tesztet választunk (kétoldali). (A Man-Whitney próba nem az átlagokat, hanem a mediánokat hasonlítja össze, pontosabban az összes adat rangszámainak helyzetét vizsgálja egy összesített rangsorban.) Excelben szűréssel szét kell választani a fiúkat és a lányokat: kijelöljük a sex oszlopot, majd Adatok/Szűrő/Autoszűrőt kipipáljuk, erre megjelenik egy kis legördülő lista az oszlop fejlécében ott kijelöljük a lányokat (f), ekkor csak a lányok sorai látszanak az összes oszlopban, átmásoljuk a csak lányokat tartalmazó RAD oszlopot a GraphPad 2. o.-ra egyik mintának, majd a szűrőt átállítva a fiúkra nyerjük a második mintát. (Ha már nincs szükségünk a szűrőre, sőt zavaró, akkor újra Adatok/Szűrő/Autoszűrő helyen kattintva eltüntetjük a kipipálást.) 3.o.: Az egyik mintára a normalitás-teszt nem OK 4.o.: Perform unpaired test / Assume values are sampled from Gaussian distributions? No. Perform nonparametric test / Two tail P-value 5.o.: P = 0,0114 6. o.: Megnézzük a box-plotot, de nem érdemes, a negatív értékek úgy tűnik megzavarták szegény GraphPad-ot, informatívabb a 3.o. adatait tanulmányozni: átlagok valamelyest eltérnek, szórások alig, konfidencia intervallumok kissé átfednek, de ez itt nem igazán informatív, mert a konf. intervallumot normáleloszlást feltételezve számította. Ránézésre van különbség, de nem túl nagy. A párosított t-próba feltételei nem teljesülnek, ezért Man-Whitney-t választottunk. A próba eredménye, hogy szignifikánsan (*) eltérnek a fiúk és a lányok RAD pontszámai, a fiúk rosszabb eredményt értek el. H 0 -t elvetjük. Annak a valószínűsége, hogy ekkora vagy nagyobb eltérést csak a mvh (mintavételi hiba) okozzon, csupán 0,0114, tehát nem valószínű, hogy a fiúk és lányok RAD teszt eredményeinek ilyen nagy eltérése csak a véletlen ingadozásnak tudható be. Ebben a véleményben nem lehetünk nagyon biztosak, mivel P relative nagy (>1%), nagyobb bizonyossághoz nagyobb minta szükséges. 3.) Állapítsuk meg, hogy a 7 éves korban normal, ill. poor olvasási képességűnek kategorizált gyerekek 4 éves kori átlagos Pegboard-teszt eredményei ( Pegboard Mean oszlop) szignifikánsan eltérnek-e? Mego: H 0 : a normal, ill. poor olvasási képességűek Pegboard Mean pontszámainak átlaga nem tér el szignifikánsan. Párosítatlan kétmintás t-próbát végzünk, mert két független mintán végezték a mérést. A t-próba feltételei teljesülnek, (normalitás 3.o. és varianciák azonossága 5.o.) tehát azt választjuk (kétoldali). Excelben szűréssel szét kell választani a normal, ill. poor olvasási képességűeket. 3.o.: Mindkét mintára a normalitás-teszt OK
4.o.: Perform unpaired test / Assume values are sampled from Gaussian distributions? Yes. Also assume the populations have equal SDs / Two tail P-value 5.o.: P = 0,7568. Assumption test-ek (normalitás, varianciák azonossága) rendben 6. o.: Megnézzük a box-plotot, alig van eltérés, ugyanerre utal, hogy konfidenciaintervallumok teljesen átfednek (3.o.). A párosított t-próba feltételei teljesülnek. A próba eredménye, hogy nincs szignifikánsan eltérés a normal, ill. poor olvasási képességűnek kategorizált gyerekek átlagos Pegboard-teszt eredményei között. H 0 -t megtartjuk. Annak a valószínűsége, hogy ekkora vagy nagyobb eltérést csak a mvh (mintavételi hiba) okozzon, 0,7568, ez egy nagyon nagy valószínűség, tehát igen valószínű, hogy a normal, ill. poor olvasási képességűnek kategorizált gyerekek átlagos Pegboard-teszt eredményeinek kis eltérését csak a véletlen ingadozás okozta. A Pegboard-teszt nem alkalmas az olvasási képességek vizsgálatára. 4.) Vizsgáljuk meg azt is, hogy a 7 éves korban normal, ill. poor olvasási képességűnek kategorizált gyerekek 4 éves kori BPVT std -teszt eredményei szignifikánsan eltérnek-e? Mego: H 0 : a normal, ill. poor olvasási képességűek BPVT std -pontszámainak átlaga nem tér el szignifikánsan. Párosítatlan kétmintás t-próbát végzünk, mert két független mintán végezték a mérést. A t-próba feltételei teljesülnek, (normalitás 3.o. és varianciák azonossága 5.o.) tehát azt választjuk (kétoldali). Excelben szűréssel szét kell választani a normal, ill. poor olvasási képességűeket. 3.o.: Mindkét mintára a normalitás-teszt OK 4.o.: Perform unpaired test / Assume values are sampled from Gaussian distributions? Yes. Also assume the populations have equal SDs / Two tail P-value 5.o.: P = 0,0133. Assumption test-ek (normalitás, varianciák azonossága) rendben. 6. o.: Megnézzük a box-plotot, van eltérés, az eltéréshez képest kicsi a standard error, ugyanerre utal, hogy konfidencia-intervallumok alig fednek át(3.o.). A párosított t-próba feltételei teljesülnek. A próba eredménye, hogy szignifikáns (*) az eltérés a normal, ill. poor olvasási képességűnek kategorizált gyerekek BPVT std teszt eredményei között. H 0 -t elvetjük. Annak a valószínűsége, hogy ekkora vagy nagyobb eltérést csak a mvh (mintavételi hiba) okozzon, 0,0133, ez aránylag kicsi valószínűség, tehát nem valószínű, hogy a normal, ill. poor olvasási képességűnek BPVT std eredményeinek eltérését csak a véletlen ingadozás okozta. Ebben a véleményben nem lehetünk nagyon biztosak, mivel P relative nagy (>1%), nagyobb bizonyossághoz nagyobb minta szükséges. A BPVT std eredmény talán alkalmas az olvasási képességek vizsgálatára.
5.) Vizsgáljuk meg, hogy a 4 éves kori BPVT std eredmény alkalmas-e a 7 éves kori RAD olvasási teszt eredmény jóslására. Vizsgáljuk a változók közötti lineáris kapcsolatot (mindkét változó normál elo és a RAD normál elo BPVT minden értéke mellett uo. szórással)! Milyen BPVT std értékhatár alatt jósolnánk, hogy a RAD eredmény 0 alatt lesz, vagyis olvasási képesség lemaradás várható? Mego: H 0 : a BPVT és a RAD pontszámok között nincs lineáris kapcsolat. Mivel célunk a predikció, lineáris regressziót végzünk, RAD regresszióját a BPVT-n. (A két változó nincs oksági kapcsolat és mindkettő normál elo, tehát ha nem a jóslás lenne a cél, kapcsolatuk vizsgálatára a korreláció lenne az alkalmasabb.) A feltételek teljesülnek, (mindkét változó normál elo és a RAD normál elo BPVT minden értéke mellett uo. szórással). 1.o.: Regression and correlation 2.o.: Az x oszlop a BPVT az y a RAD. Mivel jóslásra is van szükség a RAD oszlop alatti első üres helyre beírjuk a 0-t, hogy a Graphpad kiszámítsa, hogy a ehhez milyen BPVT értéket jósol az egyenlet. 3.o.: Linear regression (általában ne válasszuk a force through -t!) / Runs test / Interpolate unknowns 4.o.: slope = 0,5194, y intercept = 46.690, r squared = 0,2620. Is the slope significantly different from zero : P = 0,002. Runs test: there is not a significant departure from linearity. Standard curve calculations: x=89,887, y=0 5.o.: A szórás-diagrammon látszik, hogy van lineáris trend, de nem túl szoros a két változó kapcsolata, erre utal az aránylag alacsony r squared érték is. Az egyenes egyenlete: RAD = 0,52*BPVT 47. Az egyenes meredeksége szignifikánsan eltér a 0-tól, a véletlen csak 0,002 valószínűséggel okozna ilyen nagy eltérést a 0 meredekségtől. H 0 -t elvetjük. Tehát van lineáris kapcsolat a két változó között, runs test is erre utal. A BPVT alkalmas a RAD jóslására. A RAD varianciájának 26%-át magyarázza a BPVT. Predikció: kb BPVT = 90 alatt várható olvasási lemaradás, tehát 0-nál kisebb RAD eredmény.
6.) Négyféle fogkrém hatását vizsgálták a fogszuvasodás kialakulásának megakadályozására. Minden fogkrém esetében 10-10, az adott fogkrémet használó embernél vizsgálták, hogy hány szuvas foga keletkezett 3 év alatt. Elfogadhatjuk-e 5%-os szignifikanciaszinten, hogy a fogkrémek hatása nem különbözik? Mely fogkrémek között találunk szignifikáns különbséget? A fogkrém B fogkrém C fogkrém D fogkrém 0 2 3 0 1 1 2 0 0 1 0 0 0 2 0 2 2 0 0 1 0 4 1 0 4 0 0 2 1 0 5 0 0 1 0 0 0 0 0 1 Mego: H 0 : a minták azonos mediánú alapsokaságból származnak, nem különböznek szignifikánsan, nincs különbség a fogkrémek között. Párosítatlan próbát végzünk, mert négy független mintán végezték a mérést. Mivel a minták között van nem normál eloszlású ANOVA helyett (3.o), Kruskal-Wallis tesztet választunk. (A Kruskal-Wallis próba nem az átlagokat, hanem a mediánokat hasonlítja össze, pontosabban az összes adat rangszámainak helyzetét vizsgálja egy összesített rangsorban.) 3.o.: Több mintára a normalitás-teszt nem OK 4.o.: Select all columns / Perform ordinary ANOVA / Assume values are sampled from Gaussian distributions? No. Use nonparametric methods. 5.o.: P = 0,8164 6. o.: Megnézzük a box-plotot, elsőre az oszlopok eltérni látszanak, de a SEM-et is figyelembe véve látszik, hogy a nagy variancia miatt a konfidencia intervallumok átfednek, tehát nincs nagy különbség. A párosított t-próba feltételei nem teljesülnek, ezért Kruskal-Wallis-t választottunk. A próba eredménye, hogy nincs szignifikánsan eltérés a különböző fogkrémet használó csoportok között (a keletkezett szuvas fogak számainak mediánjaiban). H 0 -t megtartjuk. Annak a valószínűsége, hogy ekkora vagy nagyobb eltérést csak a mvh (mintavételi hiba) okozzon, 0,8164, ez egy nagyon nagy valószínűség, tehát igen valószínű, hogy a fogkrémek között talált kis eltérést csak a véletlen ingadozás okozta, igazából nincs különbség közöttük. 7.) Cserebogárlárvák koreloszlása különbözik-e a két talajmintában? A minta B minta 1 éves 89 349 2 éves 23 31 3 éves 6 4
Mego: H 0 : a minták azonos eloszlású alapsokaságból származnak, a korcsoportok arányai nem különböznek szignifikánsan, a koreloszlás független attól, hogy honnan vettük a mintát. χ 2 -próbát végzünk homogenitásvizsgálatra. 1.o.: Analyze a contingency table / Larger contingency table 3.o.: P < 0,0001 The row and column variables are significantly associated A két változó assziciáltsága azt jelenti, hogy a koreloszlás nem független a mintavétel helyétől, tehát a két mintában a koreloszlás szignifikánsan különbözik. H 0 -t elvetjük. Annak a valószínűsége, hogy az eloszlásokban ekkora vagy nagyobb eltérést csak a mvh (mintavételi hiba) okozzon, kisebb mint 0,0001 ez egy nagyon kis valószínűség, tehát igen valószínűtlen, hogy a koreloszlások között talált eltérést csak a véletlen ingadozás okozta. 8.) Elfogadhatjuk-e, hogy a következő tapasztalati eloszlás megfelel a 9:3:4-es mendeli dihibrid F2 arányoknak (recesszív episztázis)? A_B_ 103 A_bb 31 aa 39 Mego: H 0 : a minta eloszlása egyezik egy elméleti eloszlással. χ 2 -próbát végzünk tiszta illeszkedésvizsgálatra. Azért tiszta, mert az elméleti eloszlás teljesen ismert, nem kell paramétert becsülni. Először is elkészítjük az elméleti eloszlást: genotípus tapasztalati elméleti A_B_ 103 97,3125 A_bb 31 32,4375 aa 39 43,25 összesen 173 173 Statistica: Nyitunk egy Spreadsheet-et 2 változóval és 3 esettel Átmásoljuk a fenti táblázatból CSAK az eloszlást (tehát az összesen sort már nem!) Statistics / Nonparametrics / Observed vs expected χ 2, OK gomb Variables: Observed legyen a tapasztalati (nem lehetnek törtszámok!), Expected az elméleti, Summary gomb 3.o.: χ 2 = 0,81, P < 0,67 EZ A P ÉRTÉK MEGFELELŐ SZABADSÁGI FOKBÓL SZÁMÍTÓDOTT, MERT NEM CSÖKKENTETTE PARAMÉTERBECSLÉS A SZABADSÁGI FOKOK SZÁMÁT. Statistica értelmezése: Mivel P>>0,05 H 0 -t megtartjuk. Annak a valószínűsége, hogy az tapasztalati eloszlás ekkora mértékben vagy még jobban eltér az elméletitől 0,67. Ez egy nagyon nagy valószínűség, tehát igen valószínű, hogy az eloszlások között talált eltérést csak a véletlen ingadozás okozta. A tapasztalati eloszlás megfelel a 9:3:4-es mendeli arányoknak.
9.) Floridában kategorizálták az autós baleseteket súlyosságuk szerint és aszerint, hogy viseltek-e az érintettek biztonsági övet. A következő eredményeket kapták: Elfogadhatjuk-e 5%-os szignifikanciaszinten, hogy a baleset kimenetele független a biztonsági öv viselésétől? nem-halálos halálos bizt öv 412368 510 bizt öv nélkül 162527 1601 Mego: H 0 : a balesetek kimenetele független attól, hogy használtak-e biztonsági övet. χ 2 - próbát végzünk függetlenségvizsgálatra. 1.o.: Analyze a contingency table / Larger contingency table (mert a Two columns, two rows -ba nehezebb bemásolni az adatokat, a Larger contingency table mindig jó, a GraphPad észreveszi úgyis, hogy 2x2) 3.o.: P < 0,0001 The row and column variables are significantly associated A két változó assziciáltsága azt jelenti, hogy a balesetek kimenetele nem független a mintavétel helyétől. H 0 -t elvetjük. Annak a valószínűsége, hogy az eloszlásokban ekkora vagy nagyobb eltérést csak a mvh (mintavételi hiba) okozzon, kisebb mint 0,0001 ez egy nagyon kis valószínűség, tehát igen valószínűtlen, hogy a balesetek súlyossági arányai között talált eltérést csak a véletlen ingadozás okozta. 10.) Student 1907-ben élesztő-sejtek eloszlását vizsgálta egy hematocitométer segítségével. 400 cellában számolta meg az élesztő sejteket: i: sejtek sz. 0 1 2 3 4 5 6 7 8 9 10 azon cellák sz., amelyekben éppen i db élesztősejt volt 75 103 121 54 30 13 2 1 0 1 0 Elfogadhatjuk-e, hogy a cellánkénti sejtszám Poisson eloszlású? Döntsünk α=5% mellett! Mego: H 0 : a minta eloszlása egyezik egy elméleti Poisson eloszlással. χ 2 -próbát végzünk becsléses illeszkedésvizsgálatra. Azért becsléses, mert a elméleti Poisson eloszlás átlagát a mintából kell becsülni. λ=össz élesztősejt/össz cellaszám =(0*75+1*103+2*121+3*54+4*30+5*13+6*2+7*1+8*0+9*1)/400=720/400=1,8
Először is elkészítjük az elméleti eloszlást: i: sejtek sz. tap. elo elm. elo 0 75,0 66,1 1 103,0 119,0 2 121,0 107,1 3 54,0 64,3 4 30,0 28,9 5 13,0 10,4 6 2,0 3,1 7 1,0 0,8 8 0,0 0,2 9 1,0 0,0 >10 0,0 0,1 össz 400,0 400,0 Összevonjuk annyira, hogy legfeljebb 1 elméleti gyakoriság legyen 5 alatt: i: sejtek sz. tap. elo elm. elo 0 75,0 66,1 1 103,0 119,0 2 121,0 107,1 3 54,0 64,3 4 30,0 28,9 5 13,0 10,4 >6 4,0 4,2 össz 400,0 400,0 Statistica: Nyitunk egy Spreadsheet-et 2 változóval és 7 esettel Átmásoljuk a fenti táblázatból CSAK az eloszlást (tehát az összesen sort már nem!) Statistics / Nonparametrics / Observed vs expected χ 2, OK gomb Variables: Observed legyen a tapasztalati (nem lehetnek törtszámok!), Expected az elméleti, Summary gomb 3.o.: χ 2 = 7,5, (P < 0,28) EZ A P ÉRTÉK NEM MEGFELELŐ SZABADSÁGI FOKBÓL SZÁMÍTÓDOTT, MERT A PARAMÉTERBECSLÉS CSÖKKENTETTE A SZABADSÁGI FOKOK SZÁMÁT!!! Tehát 1 paramétert becsültünk, df=5, Táblázatot kell használni!!! Statistica értelmezése: Tehát 1 paramétert becsültünk, df=5, χ 2 kritikus, 5, 0,05=11,07 > χ 2 kalap =7,5, sőt χ 2 kritikus, 5, 0,1=9,236 > χ 2 kalap =7,5 tehát P>0,1. Mivel P>0,05 H 0 -t megtartjuk. Annak a valószínűsége, hogy az tapasztalati eloszlás ekkora mértékben vagy még jobban eltér az elméletitől 0,67. Ez egy nagyon nagy valószínűség, tehát igen valószínű, hogy az eloszlások között talált eltérést csak a véletlen ingadozás okozta. A tapasztalati eloszlás megfelel a Poisson-nak.