Biostatisztika feladatok

Hasonló dokumentumok
Alkalmazott statisztika feladatok

Biostatisztika feladatok

Biostatisztika. Sz cs Gábor. 2018/19 tavaszi félév. Szegedi Tudományegyetem, Bolyai Intézet

Biomatematika és biostatisztika feladatok

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

[Biomatematika 2] Orvosi biometria

A konfidencia intervallum képlete: x± t( α /2, df )

2. A ξ valószín ségi változó eloszlásfüggvénye a következ : x 4 81 F (x) = x 4 ha 3 < x 0 különben

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

Segítség az outputok értelmezéséhez

Matematikai statisztika szorgalmi feladatok

Hipotézis vizsgálatok

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Normális eloszlás paramétereire vonatkozó próbák

Normális eloszlás tesztje

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Biometria gyakorló feladatok BsC hallgatók számára

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Elemi statisztika fizikusoknak

Bevezetés a hipotézisvizsgálatokba

Matematikai statisztika

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Gyakorló feladatok. Az alábbi feladatokon kívül a félév szemináriumi anyagát is nézzék át. Jó munkát! Gaál László

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Kísérlettervezés alapfogalmak

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Feladatok 2. zh-ra. 1. Eseményalgebra április Feladat. Az A és B eseményekr l tudjuk, hogy P (A) = 0, 6, P (B) = 0, 7 és

Biostatisztika Összefoglalás

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Nemparaméteres próbák

Statisztika Elıadások letölthetık a címrıl

A Statisztika alapjai

egyetemi jegyzet Meskó Balázs

2. A ξ valószín ségi változó s r ségfüggvénye a következ : c f(x) =

Többváltozós lineáris regressziós modell feltételeinek

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Korreláció és lineáris regresszió

Biomatematika 2 Orvosi biometria

Statisztikai alapfogalmak a klinikai kutatásban. Molnár Zsolt PTE, AITI

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Közlemény. Biostatisztika és informatika alapjai. Alapsokaság és minta

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Valószín ségszámítás és statisztika Gyakorlat (Statisztika alapjai)

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

BIOMATEMATIKA ELŐADÁS

Biostatisztika Összefoglalás

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

KÖVETKEZTETŐ STATISZTIKA

Kettőnél több csoport vizsgálata. Makara B. Gábor

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Biostatisztika VIII. Mátyus László. 19 October

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Biomatematika 13. Varianciaanaĺızis (ANOVA)

NEVEZETES FOLYTONOS ELOSZLÁSOK

Adatok statisztikai értékelésének főbb lehetőségei

Való szí nű sé gi va ltózó, sű rű sé gfű ggvé ny, élószla sfű ggvé ny

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

6. Előadás. Vereb György, DE OEC BSI, október 12.

Kutatásmódszertan és prezentációkészítés

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

A valószínűségszámítás elemei

Kísérlettervezés alapfogalmak

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Abszolút folytonos valószín ségi változó (4. el adás)

Valószín ségszámítás és statisztika Gyakorlat (Kétmintás próbák)

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

0,9268. Valószín ségszámítás és matematikai statisztika NGB_MA001_3, NGB_MA002_3 zárthelyi dolgozat

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

[Biomatematika 2] Orvosi biometria

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

STATISZTIKA. ( x) 2. Eloszlásf. 9. gyakorlat. Konfidencia intervallumok. átlag. 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% (cm)

GRADUÁLIS BIOSTATISZTIKAI KURZUS február hó 22. Dr. Dinya Elek egyetemi docens

Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása fejezet. A variabilitás mér számai 3.

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

[Biomatematika 2] Orvosi biometria

A valószínűségszámítás elemei

Folyadékszcintillációs spektroszkópia jegyz könyv

1. Példa. A gamma függvény és a Fubini-tétel.

Képfeldolgozás. 1. el adás. A képfeldolgozás m veletei. Mechatronikai mérnök szak BME, 2008

y ij = µ + α i + e ij

Átírás:

Biostatisztika feladatok 1. Valószín ség, diszkrét valószín ségi változók 1.1. A biológia szakos hallgatók ebben a félévben két kötelez en választható kurzust vehettek fel. A Sárkányok élettana cím tárgyra a hallgatók 60, a Micimackó anatómiája cím kurzusra a hallgatók 40 százaléka jelentkezett. Mindkét kurzust az évfolyam 24 százaléka vette fel. Véletlenszer en kiválasztunk egy hallgatót. a. Mennyi a valószín sége annak, hogy választott hallgató a Sárkányok élettana cím tárgyat felvette, de a Micimackó anatómiája cím kurzust nem? Mennyi az esélye annak, hogy egyik kurzust sem vette fel? b. Mennyi a valószín sége annak, hogy a hallgató felvette a Sárkányok élettana cím tárgyat, ha tudjuk, hogy a másik kurzusra jelentkezett. Mennyi az esélye annak, hogy felvette a sárkányos tárgyat, ha azt tudjuk, hogy a Micimackós kurzust nem vette fel? A két kurzusra történ jelentkezés egymástól független, vagy tapasztalható közöttük valamilyen kapcsolat? 1.2. Egy ország lakosságát vizsgáljuk haj- és szemszín szempontjából. Az országban az emberek 30 százaléka fekete, 50 százaléka pedig barna hajú, a többiek sz kék. A sötét (barna, fekete) szem aránya 60 százalék, a többiek világos (kék, zöld) szem ek. Tudjuk még, hogy egyaránt 5 százalék a sz ke hajú és sötét szem, illetve a fekete hajú és világos szem emberek aránya. Véletlenszer en kiválasztunk egy embert az országból. a. Mennyi a valószín sége, hogy a kiválasztott ember sz ke hajú és világos szem? Mennyi az esélye annak, hogy barna hajjal és sötét szemmel rendelkezik? b. Mennyi az esélye annak, hogy a kiválasztott ember fekete hajú, ha tudom, hogy sötét a szeme? Mennyi ez a valószín ség akkor, ha a kiválasztott ember világos szem? Hogyan hat a szem színe a fekete haj megjelenésére? Végezzük el ugyanezt az elemzést a barna és a sz ke hajra is. Mely események függetlenek egymástól? Független egymástól a szem és a haj színe úgy általában? c. Milyen arányban fordulnának el a lehetséges hajszín-szemszín kombinációk, ha a két tényez független lenne egymástól? 1.3. Egy borsópopulációban a növények 70 százalékának piros, a maradéknak fehér a virága. Ugyanezen populáción belül 60 százaléknak sárga a maghéja, míg a többinek zöld. Genetikából ismert, hogy a borsó növénynél a virág és a maghéj színe egymástól függetlenül örökl dik. Emiatt feltehet, hogy a populáción belül a virág és a maghéj színe két egymástól független tényez. a. A piros virágú növények között milyen arányban jelenik meg a sárga illetve a zöld maghéj? A sárga maghéjjal rendelkez egyedek körében mennyi az aránya 1

a piros illetve a fehér virágú növényeknek? Értelmezzük ezeket az arányokat feltételes valószín ségként is. b. Írjuk fel, hogy a 4 lehetséges virág-maghéj színkombináció milyen arányban fordul el a populáción belül. 1.4. Egy szerencsejátékban a játékos 1000, 2000, 3000 vagy 5000 forintot nyerhet, ezen nyeremények esélye 50, 30, 15 illetve 5 százalék. Egyszer játszuk ezt a játékot, jelölje ξ a nyeremény összegét. Írjuk fel a ξ változó eloszlását, várható értékét és szórását. Mennyi a játék igazságos ára? 1.5. A biológiai kutatások egyik új és fontos területe a sárkányok vizsgálata. A tudósok eddig 1, 3, 7 és 12 fej sárkányokat gyeltek meg, ezek aránya a populáción belül 10, 40, 30 illetve 20 százalék. Véletlenszer en kiválasztunk egy egyedet a populációból, és jelölje ξ a fejek számát a választott egyednél. Adjuk meg a ξ változó eloszlását, várható értékét és szórását. 2. Folytonos valószín ségi változók 2.1. Jelölje ξ a napi középh mérséklet egy véletlenszer en kiválasztott januári napon. A ξ egy folytonos változó, melynek s r ségfüggvénye f(x) = 1/20, ha 15 x 5, és f(x) = 0 egyébként. Ábrázoljuk a s r ségfüggvényt, és mutassuk meg, hogy a görbe alatti terület 1. Határozzuk meg a ξ változó értékkészletét. Mennyi annak az esélye, hogy a ξ változó 10 és 2 közé esik? Határozzuk meg a napi középh mérséklet várható értékét és szórását. Írjuk fel a ξ változó eloszlásfüggvényét, majd adjuk meg a mediánt és a kvartiliseket. 2.2. A ξ folytonos valószín ségi változó s r ségfüggvénye f ξ (x) = 3 x/2, ha 0 x 1, és f ξ (x) = 0 minden más x valós számra. Mutassuk meg, hogy a görbe alatti terület 1, és írjuk fel ξ értékkészletét. Mennyi a P (0,5 ξ 1,5) valószín ség értéke? Adjuk meg a változó várható értékét és szórását. Írjuk fel az eloszlásfüggvényt, majd ez alapján határozzuk meg a 80%-os kvantilist. 2.3. Egy ξ folytonos valószín ségi változó s r ségfüggvénye f ξ (x) = x/2, ha 0 x 2, és f ξ (x) = 0 minden más x valós számra. Mutassuk meg, hogy a görbe alatti terület 1, és írjuk fel ξ értékkészletét. Mekkora valószín séggel vesz fel a változó 1,5-nél nagyobb értéket? Mennyi az esélye, hogy a ξ változó 1 és +1 közé esik? Adjuk meg a változó várható értékét és szórását. Írjuk fel az eloszlásfüggvényt, majd ez alapján határozzuk meg a 40%-os kvantilist. 3. A normális eloszlás 3.1. Az alábbi ábrán ϕ a standard normális eloszlás s r ségfüggvénye. Határozzuk meg, hogy az f 1, f 2, f 3, f 4 s r ségfüggvények közül melyik tartozik az alábbi µ várható 2

értékkel és σ szórással deniált normális eloszlásokhoz. Adjuk meg a kimaradt s r ségfüggvényhez tartozó várható értéket és szórást is. a. µ = 2, σ = 0,5 b. µ = 2, σ = 1 c. µ = 0, σ = 2 f 1 f 3 0,5 ϕ f 4 f 2 4 3 2 1 0 1 2 3 4 x 3.2. Az IQ teszteket úgy állítják össze, hogy az eredmény a feln tt populáción belül normális eloszlást kövessen 100 pont várható értékkel és 15 pont szórással. A feln tt népesség mekkora hányadának esik az IQ pontszáma 90 és 120 közé? A Mensa egy nemzetközi egyesület, ahol a belépés feltétele a legalább 131 pontos IQ. A népesség hány százaléka felel meg ennek a követelménynek? Adjunk meg egy olyan intervallumot, melyre teljesül, hogy az emberek 95 százalékának ebbe az intervallumba esik az IQ pontszáma. 3.3. Biológusok azt vizsgálták, hogy a szavannán él majmok reggelente milyen eloszlás szerint ébrednek fel, és másznak le a fáról. A meggyelések alapján az ébredési id egy normális eloszlású valószín ségi változó. A majmok átlagosan reggel 7 órakor kellnek fel, a szórás 0,75 óra. A majmok mekkora hányada kel fel 6 és 7 óra között? És 8 óra után? Adjunk meg egy olyan id intervallumot, melyre teljesül, hogy a majmok 90 százaléka ebben az id intervallumban mászik le a fáról. (Valós kutatás alapján.) 3.4. Legyen ξ egy véletlenszer en kiválasztott feln tt ember szisztolés vérnyomása higanymilliméterben (mmhg) kifejezve. A statisztikai adatok alapján ξ egy-egy földrajzi területen lognormális eloszlást követ, ami azt jelenti, hogy az ln ξ valószín ségi változó normális eloszlású. A paraméterek országonként változóak, például az Egyesült Államokban az ln ξ változó várható értéke µ = 4,78, szórása σ = 0,16. (Forrás: National Health and Nutrition Examination Survey, 2006.) Az orvosi szakirodalom a 140 mmhg feletti vérnyomást tekinti kórosan magasnak. Ez az amerikai feln tt népesség mekkora hányadát érinti? Az emberek mekkora hányadának esik a vérnyomása az egészségesnek tekintett tartományba, tehát 90 és 130 mmhg közé? Adjunk meg egy olyan intervallumot, melyre teljesül, hogy a feln tt népesség 95 százalékának a szisztolés vérnyomása ide esik. 4. Leíró statisztikák és grakonok 4.1. a. Olvassuk be a Davis adatsort a car vagy a cardata csomagból, és fussuk át az adatsor leírását! Kérdezzük le és értelmezzük a repwt és a weight változóra a következ leíró statisztikákat: mintaátlag, korrigált empirikus szórás, standard hiba, IQR, minimum, maximum, medián, alsó illetve fels kvartilis! Mekkora a minta mérete és hány meggyelés hiányzik az egyed változóknál? 3

b. Kérdezzük le a repwt változó boxplotját és hisztogrammját is! Vázlatosan rajzoljuk be a s r ségfüggvényt, és adjunk becslést a móduszra! A kapott s r ségfüggvény összhangban van a minta ferdeségével? 4.2. a. Olvassuk be a Mroz adatsort a car vagy a cardata csomagból, és fussuk át az adatsor leírását! Kérdezzük le és értelmezzük az age változóra a következ leíró statisztikákat: mintaátlag, korrigált empirikus szórás, standard hiba, ferdeség, IQR, minimum, maximum, medián, 40%-os kvantilis! Mekkora a minta mérete és hány meggyelés hiányzik az age változónál? b. Kérdezzük le az age változó boxplotját és hisztogrammját is! Vázlatosan rajzoljuk be a s r ségfüggvényt! A kapott s r ségfüggvény összhangban van a minta ferdeségével? Egy vagy több módusza van a s r ségfüggvénynek? 4.3. Az alábbi ábrán Histogram egy hisztogramm of xi és egy boxplot látható. Frequency 0 20 40 60 0.0 1.0 2.0 0 1 2 3 4 xi a. A hisztogramm alapján milyen el jel a ferdeség: pozitív, negatív vagy közel nulla? Vázlatosan ábrázoljuk a s r ségfüggvényt a hisztogramm grakonján, majd adjunk becslést a móduszra! b. A boxplot alapján adjunk becslést a következ mennyiségekre: medián, alsó és fels kvartilis, IQR, minimum és maximum. Hány outlier érték szerepel az ábrán? c. Vajon a hisztogramm és a boxplot ugyanazon statisztikai mintához tartozik? A választ indokoljuk is! 5. Grakus normalitásvizsgálat, kondencia intervallumok 5.1. a. Olvassuk be a Davis adatsort a car vagy a cardata csomagból! Ábrázoljuk a weight változó boxplotját, majd értelmezzük az outlier értékeket! Vegyük észre, hogy az egyik alany adatait elírták! Keressük meg a hibás sort, és javítsuk ki az adatokat! A további kérdésekre a javított adatok alapján válaszoljunk! b. Adjunk becslést a weight változó várható értékére, szórására és ferdeségére! Kérdezzük le és értelmezzük a standard hibát, illetve határozzuk meg a korrigálatlan empirikus szórást is! 4

c. Ábrázoljuk a változó hisztogrammját ás a boxplotját, és adjunk becslést a móduszra! Ezek alapján mit állíthatunk weight változóról: normális eloszlású; nem normális, de a s r ségfüggvény közel szimmetrikus; vagy a s r ségfüggvény ferde valamelyik irányba? d. Végezzük el a b. és c. feladatrészek elemzését a height változóra is! e. Adjunk meg egy 95% megbízhatósági szintú kondencia intervallumot a weight illetve a height változó elméleti várható értékére! Kivonat a Student-eloszlás táblázatából: x -1.97-1.65-1.29 1.29 1.65 1.97 Φ 199 (x) 0.025 0.05 0.1 0.9 0.95 0.975 5.2. a. Olvassuk be a Mroz adatsort a car vagy a cardata csomagból! Adjunk becslést az,age változó várható értékére, szórására és ferdeségére! Kérdezzük le és értelmezzük a standard hibát, illetve határozzuk meg a korrigálatlan empirikus szórást is! b. Vegyük fel a változó hisztogrammját és boxplotját! Ezek alapján az age változó normális eloszlásúnak t nik? Annyi feltehet, hogy a s r ségfüggvénye szimmetrikus? c. Adjunk meg egy 90% megbízhatóságú kondenciai intervallumot az age változó várható értékére. Kivonat a Student-eloszlás táblázatából: x -1.64-1.28-0.84 0.84 1.28 1.64 Φ 752 (x) 0.05 0.1 0.2 0.8 0.9 0.95 6. Statisztika feladatok a dolgozat el tt 6.1. Régészek radiokarbonos kormeghatározással szeretnék meghatározni egy lel hely korát. Ismert, hogy a radiokarbonos módszert az egyazon ásatáson talált különböz leleteken alkalmazva nem pontosan ugyanazt a kort fogjuk megkapni minden lelet esetében, hanem a kapott korok (közelít leg) normális eloszlást követnek, melynek elméleti várható értéke a lel hely igazi kora. A radiokarbonos módszert öt leleten alkalmazva a következ korokat kapjuk: 1180, 1220, 1230, 1250 és 1270 év. a. Számoljuk ki a mintaátlagot, a korrigálatlan illetve a korrigált empirikus szórást, a standard hibát illetve az empirikus mediánt. Mi ezen statisztikai mutatószámok jelentése ebben a feladatban? b. A t-próba alkalmazásával teszteljük le 5%-os szignikancia szinten azt a nullhipotézist, hogy a lel hely igazi kora 1220 év. Írjunk fel egy 99% megbízhatósági szint kondencia intervallumot is a lel hely korára! x 3.75 2.13 2.13 2.78 3.75 4.6 Φ 4 (x) 0.01 0.05 0.95 0.975 0.99 0.995 5

6.2. Bejelentés érkezik a fogyasztóvédelemhez, hogy az egyik tejgyár 1 literes kiszerelés dobozos teje a névleges tartalomnál kevesebbet tartalmaz. Tudni kell, hogy a tölt berendezések véletlen nagyságú hibával dolgoznak, így ténylegesen egyik dobozban sincs pontosan 1 liter tej. Feltehet, hogy a dobozokba töltött mennyiség egy ξ normális eloszlású valószín ségi változó, melynek 1 liter a várható értéke, ha a gép jól van beállítva. A fogyasztóvédelem emberei beszereznek hat doboz tejet, és azt találják, hogy ezek 975, 980, 985, 995, 1000, 1010 ml tejet tartalmaznak. a. Számoljuk ki a mintaátlagot, a korrigálatlan illetve a korrigált empirikus szórást, a standard hibát illetve az empirikus mediánt. Mi ezen statisztikai mutatószámok jelentése ebben a feladatban? b. A t-próba alkalmazásával teszteljük le 10%-os szignikancia szinten azt a nullhipotézist, hogy a gép jól van beállítva, tehát a gyárban a tejesdobozokba átlagosan 1000 ml tej kerül! Írjunk fel egy 90% megbízhatósági szint kondencia intervallumot is a ξ változó várható értékére! x 2.02 1.48 0.92 1.48 2.02 2.57 Φ 5 (x) 0.05 0.1 0.8 0.9 0.95 0.975 6.3. Az alábbi ábrán egy hisztogram és egy boxplot látható. A két grakon két különböz adatsor alapján készült. Mi mindent tudunk leolvasni a grakonokról? Frequency 0 2 4 6 8 10 5 6 7 8 9 10 11 0 1000 2000 3000 Mg 7. Egymintás és páros t-próba Az adatsorok az el adás Coospace oldaláról vagy az el adó oldaláról tölthet ek le. 7.1. Egy orvosi kísérlet keretei között két új kísérleti vérnyomáscsökkent gyógyszert vizsgáltak magas vérnyomásos betegeken. Véletlenszer en kiválasztottam 150 magas vérnyomású embert, majd három 50 f s csoportba sorolták ket. A három csoport három különböz gyógyszert szedett néhány héten át. A kísérlet eredménye a vernyomas.xls fájlban található. A változók: 6

CSOPNEV: betegcsoport neve CSOPKOD: betegcsoport kódja SYS1: kezelés el tti szisztolés vérnyomás SYS2: kezelés utáni szisztolés vérnyomás a. Adjunk becslést a SYS1 változó átlagos értékére és szórására a teljes populációban! Mennyire pontos a populációátlagra kapott becslés? Vegyük fel a SYS1 változó hisztogrammját is! Feltehet, hogy normális eloszlásból származik a minta? b. Teszteljük le azt a nullhipotézist, hogy a SYS1 változó teljes populációban vett átlagos értéke 160 Hgmm! Teszteljük le a 162 Hgmm-es értéket is! Adjunk meg egy 95% megbízhatóságú kondencia intervallumot is a populációátlagra! Mely értékeket fogadná el a t-próba, mint a teljes populációban vett átlagos érték? c. Tekintsük csak a kiserleti1 betegcsoport tagjait! Ábrázoljuk a SYS1 és a SYS2 változó hisztogramját! Feltehet, hogy mindkét minta normális eloszlásból származik? Teszteljük le 1%-os szignikancia szinten azt a nullhipotézist, hogy a SYS1 és a SYS2 változónak azonos a várható értéke! Adjunk meg egy 99%-os kondencia intervallumot is a várható értékek jülönbségére. Értelmezzük is a kapott eredményt! d. Ismételjük meg az el z pont elemzését a kiserleti2 betegcsoportra is! 7.2. Az írisz adatsor a matematikai statisztika egyik legismertebb adatsora, mellyel az elmúlt 80 évben számos statisztikai módszert illusztráltak. Az adatsor az iris.xls állományban érhet el, továbbá egy rövid ismertet található a Wikipedian. Az adatsor három kanadában honos írisz (n szirom) fajról tartalmaz adatokat, fajtánként 50 meggyelést. A változók: faj: faj megnevezése fajkod: lásd faj cseszehossz: szélelevél hossza (cm) cseszeszel: csészelevél szélessége (cm) sziromhossz: sziromlevél hossza (cm) sziromszel: sziromlevél szélessége (cm) a. Ábrázoljuk a sziromszel változó hisztogrammját! Vajon hány módusza van ennek az eloszlásnak? Mi ennek az oka? Mi a szokásos eljárás, ha statisztikában ilyen adatsorral találkozunk? Ábrázoljuk a hisztogrammot fajonkénti bontásban is! b. Adjunk becslést a virginica fajhoz tartozó növényeknél a sziromszel változó várható értékére és szórására. Teszteljük le 5% szignikancia szinten azt a nullhipotézist, hogy a várható érték 2 cm. Adjunk meg egy 95% megbízhatóságú kondencia intervallumot is erre a várható értékre. 7

c. Teszteljük le 10% szignikancia szinten azt a nullhipotézist, hogy a virginica fajnál a sziromlevél átlagos hossza azonos a csészelevél átlagos hosszával! Adjunk meg egy 99% megbízhatóságú kondenciai intervallumot a két várható érték eltérésére is! d. Végezzük el az el z két pont elemzését a másik két faj egyedeire is. 8. Az ANOVA és a Levene-teszt 8.1. Olvassuk be az vernyomas.xls fájlban található statisztika adatsort, a leírásért lásd a 7.1. feladatot! a. Adjunk becslést a SYS1 változó várható értékére és szórásásra betegcsoportonkénti bontásban! Látunk jelent s eltérést a becslések között? Ábrázoljuk a változó hisztogramját és boxplotját szintén betegcsoportonkénti bontásban! Mit olvashatunk le az ábrákról? b. Teszteljük le 5% szignikancia szinten azt a nullhipotézist, hogy a SYS1 változónak azonos a várható értéke a három betegcsoportban, tehát nincsen csoporthatás. Teszteljük le a szórások egyenl ségét is! c. Ismételjük meg az el z két pont elemzését a SYS2 változóra is! Ha van csoporthatás, akkor adjunk becslést és 95% megbízhatósági szint kondencia intervallumot az eltérésekre! 8.2. Olvassuk be az iris.xls fájl tartalmát, az adatsor leírása megtalálható a 7.2. feladatban! a. Adjunk becslést a sziromszel változó elméleti várható értékére és elméleti szórására fajonkénti bontásban. Hogyan értelmezhet az elméleti várható érték és az elméleti szórás ebben a feladatban. Ábrázoljuk a boxplotot és a hisztogramot is, szintén fajonkénti bontásban! b. Teszteljük le azt a nullhipotézist, hogy a sziromszel változó esetében a csoportonkénti szórások azonosak. A szignikancia szint 5%. c. Teszteljük le a csoportonkénti várható értékek egyenl nl ségét is. Ha szignikáns különbség van a várható értékek között, akkor adjunk becslést és 95% megbízhatósági szint kondencia interavallumot a különbségekre! d. Ismételjük meg azt az elemzést a cseszeszel változóra is! Megoldások 1.1. Legyen: A = a kiválasztott hallgató felvette a Sárkányok élettanát, P (A) = 60%, B = a kiválasztott hallgató felvette a Micimackó anatómiáját, P (B) = 40%, P (mindkét kurzus) = P (A és B) = 24% a. P (A igen, de B nem) = 36%, P (nem A és nem B) = 24% 8

B igen B nem össz. A igen 24% 36% 60% A nem 16% 24% 40% össz. 40% 60% 100% b. P (A B) = 0,6 = 60%, P (A nem B) = 0,6 = 60% A és B független események: P (A B) = P (A). 1.2. a. P (sz ke haj és világos szem) = 15%, P (barna haj és sötét szem) = 30% fekete haj barna haj sz ke haj összesen sötét szem 25% 30% 5% 60% világos szem 5% 20% 15% 40% összesen 30% 50% 20% 100% b. P (fekete haj sötét szem) = 41,7%, P (fekete haj világos szem) = 12,5% A sötét szem el segíti, a világos szem akadályozza a fekete haj megjelenését. P (barna haj sötét szem) = 50%, P (barna haj világos szem) = 50% A barna haj megjelenése független a szem színét l. P (sz ke haj sötét szem) = 8,3%, P (sz ke haj világos szem) = 37,5% A sötét szem akadályozza, a világos szem el segíti a sz ke haj megjelenését. A haj és a szem színe úgy általában nem független egymástól. c. Függetlenség esetén: 1.3. a. A függetlenség miatt: fekete haj barna haj sz ke haj összesen sötét szem 18% 30% 12% 60% világos szem 12% 20% 8% 40% összesen 30% 50% 20% 100% sárga maghéj aránya a piros virág között = P ( sárga maghéj piros virág )=60% zöld maghéj aránya a piros virág között = P ( zöld maghéj piros virág )=40% piros virág aránya a sárga maghéj között = P ( piros virág sárga maghéj )=70% fehér virág aránya a sárga maghéj között = P ( fehér virág sárga maghéj )=30% b. piros virág fehér virág össz. sárga maghéj 42% 18% 60% zöld maghéj 28% 12% 40% össz. 70% 30% 100% 9

1.4. R ξ = {1000, 2000, 3000, 5000} k 1000 2000 3000 5000 P (ξ = k) 0,5 0,3 0,15 0,05 E(ξ) = 1800, D(ξ) = 1030, igazságos ár: 1800. 1.5. R ξ = {1, 3, 7, 12} k 1 3 7 12 P (ξ = k) 0,1 0,4 0,3 0,2 E(ξ) = 5,8, D(ξ) = 3,7. 2.1. R ξ = [ 15, +5], P ( 10 ξ 2) = 0,4, E(ξ) = 5, D(ξ) = 5,77, 0, t < 15, F ξ (t) = (t + 15)/20, 15 t 5, 1, t > 5, q α = 20α 15, q 25% = 10, q 50% = 5, q 75% = 0. 2.2. R ξ = [0, 1], P (0,5 ξ 1,5) 0,65, E(ξ) = 3/5, D(ξ) 0,26, 0, t < 0, F ξ (t) = t 3/2, 0 t 1, 1, t > 1, q α = α 2/3, q 80% 0,86. 2.3. R ξ = [0, 2], P (ξ > 1,5) 0,44, P ( 1 ξ 1) = 0,25, E(ξ) = 4/3, D(ξ) 0,47, 0, t < 0, F ξ (t) = t 2 /4, 0 t 2, 1, t > 2, q α = 2 α, q 40% 1,265. 3.1. a. f 3 ; b. f 4 ; c. f 2. Az f 1 s r ségfüggvény paraméterei: µ = 3, σ = 0,5. 3.2. a. 66%; 2%; [70,6, 129,4]. 3.3. 41%; 9%; [5,77, 8,23]. 3.4. 15,6%; 66,8%; [87, 163]. 4.1. a. Statistics > Summaries > Numerical summaries b. Graphs > Histogram, Graphs > Boxplot Módusz 55. A s r ségfüggvény jobbra ferde, ez összhangban van a ferdeséggel. 10

4.2. a. Statistics > Summaries > Numerical summaries b. Graphs > Histogram, Graphs > Boxplot A s r ségfüggvény jobbra ferde, ez összhangban van a ferdeséggel. A függvénynek több módusza is van. 5.1. a. A boxplot alapján a 12. sor kilóg az adatsorból. Ennek az a magyarázata, hogy valaki felcserélte a weight és a height változó értékét. Ez javítható az Edit data set gomb segítségével. b. E(weight) weight = 65.3, D(weight) D n(weight) = 13.32, skewness 0.94 SE = 0.94 = a mintaátlag átlagosan ennyivel tér el a várható értékt l Var n(weight) = 15.1 2 = 177.42, Var n (weight) = 199 228.01 = 176.54, 200 D n (weight) = 176.54 = 13.29 c. A weight változó nem normális eloszlású, a s r ségfüggvény jobbra ferde. Kis jóindulattal tekinthetjük közel szimmetrikusnak, ugyanis a ferdeség értéke 1 alatt marad. A módusz körülbelül 55. Egyébként outlier értékb l nincsen sok, ez még nem tenné tönkre a normalitást. d. height = 170.56, D n(height) = 8.93, SE = 0.63, skewness 0.22, módusz 165 A s r ségfüggvény enyhén jobbra ferde. Nem normális eloszlásról van szó, de a ferdeség alapján közel szimmetrikus. d. Mivel nagy a mintaméret, és mindkét változó s r ségfüggvény közel szimmetrikus, használhatjuk a normális eloszlás várható értékére vonatkozó intervallumot. Most α = 0.05, amib l c = Φ 1 199(0.975) = 1.97. weight: [65.3 1.97 0.94, 65.3 + 1.97 0.94] = [63.45, 67.15] height: [170.56 1.97 0.63, 170.56 + 1.97 0.63] = [169.32, 171.8] 4.3. a. A ferdeség pozitív. A s r ségfüggvény követi a hisztoggramm tetejét. A módusz körülbelül 0.7-0.8. b. Egy outlier érték van. A többi leíró statisztika értéke az ábra alapján: min. ˆq 25% ˆq 50% ˆq 75% max. IQR -0.2 0.8 1.2 1.5 2.7 0.7 c. Nem azonos mintához tartoznak. Egyrészt a hisztogramm szerint a mintában van 3-nál nagyobb meggyelt érték, a boxploton ilyen érték nincs. Másrészt a boxplot közel szimmetrikus, a hisztogramm viszont ferde. 5.2. a. E(age) age = 42.54, D(age) D n(age) = 8.07, skewness 0.15 SE = 0.29 = a mintaátlag átlagosan ennyivel tér el a várható értékt l Var n(age) = 15.1 2 = 65.12, Var n (age) = 752 65.12 = 65.04, 753 D n (age) = 65.04 = 8.06. A nagy mintaméret miatt a korrigálás csak minimális mértékben változtatott az empirikus szórás értékén. 11

b. Az age változó nem normális eloszlású, a s r ségfüggvény jobbra ferde. Meglep módon a ferdeség egészen közel esik nullához, ez a hisztogramm alapján nem volt várható. A boxplot teljesen rendben van. c. A nagy mintaméret és a nullához közeli ferdeség miatt használhatjuk a normális eloszlás várható értékére vonatkozó intervallumot. Most α = 10% = 0.1, amib l c = Φ 1 752(0.95) = 1.64. [42.54 1.64 0.29, 42.54 + 1.64 0.29] = [42.06, 43.2] 6.1. a. ξ = 1230, jelentése: az elméleti várható érték becslése. D n (ξ) = 30.33, jelentése: az elméleti szórás (pontatlan) becslése. D n(ξ) = 33.91, jelentése: az elméleti szórás pontosabb becslése. SE = 15.17, jelentése: átlagosan ennyivel tér el a mintaátlag a várható értékt l, ennyi a becslés átlagos hibája. empirikus medián: 1230, jelentése: a minta középs eleme, becslés az elméleti mediánra. b. H 0 : µ = 1220, tehát a hipotetikus várható érték µ 0 = 1220. Próba statisztika: t = (ξ µ 0 )/SE = 0.659 Kritikus érték: c α = Φ 1 4 (0.975) = 2.78 Döntés: t c α, ezért a nullhipotézist elfogadjuk. Kondencia intervallum: [ξ c α SE, ξ + c α SE] = [1187.8, 1272.2]. 6.2. a. ξ = 990.83, jelentése: az elméleti várható érték becslése. D n (ξ) = 12.05, jelentése: az elméleti szórás (pontatlan) becslése. D n(ξ) = 13.2, jelentése: az elméleti szórás pontosabb becslése. SE = 5.39, jelentése: átlagosan ennyivel tér el a mintaátlag a várható értékt l, ennyi a becslés átlagos hibája. empirikus medián: 990, jelentése: a minta középs eleme, becslés az elméleti mediánra. b. H 0 : µ = 1000, tehát a hipotetikus várható érték µ 0 = 1000. Próba statisztika: t = (ξ µ 0 )/SE = 1.86 Kritikus érték: c α = Φ 1 4 (0.95) = 2.02 Döntés: t c α, ezért a nullhipotézist elfogadjuk. Kondencia intervallum: [ξ c α SE, ξ + c α SE] = [979.1, 1000.8]. 6.2. Hisztogram: A minimum 5 és 6 közé esik, a maximum 10 és 11 közé. A grakon alapján úgy t nik, hogy két módusz van, ezek 7.5 illetve 9.5 közelébe esnek. A s r ségfüggvény balra ferde, a skewness negatív. A s r ségfüggvény nem szimmetrikus, ami kizárja, hogy a minta normális eloszlásból származzon. Boxplot: min 0, ˆq 25% 300, ˆq 50% 500, ˆq 75% 1100, max 3700, IQR 800, terjedelem 3700. Két outlier érték van. A s r ségfüggvény nem szimmetrikus, 12

hanem jobbra ferde. Ezek alapján a skewness pozitív, és a minta nem normális eloszlásból származik. 7.1. a. E(SYS1) 159.9, D(SYS1) 5.8, SE = 0.48. A hisztogramm alapján úgy t nik, hogy a normális eloszlásból származik. b. H 0 : E(SYS1) = 160, egymintás t-próba: p-érték=0.63, elfogadjuk. H 0 : E(SYS1) = 162, egymintás t-próba: p-érték=0.00, a nullhipotézist elvetjük. Kondencia intervallum: [159.31, 161.14]. A teszt az intervallumba es értékeket fogadja el igazi várható értéknek. c. A kiserleti1 betegcsoportban a hisztogramok rendben vannak, elfogadható a normalitás. H 0 : E(SYS1) = E(SYS2), páros t-próba, p-érték=0.00, a nullhipotézist elvetjük, szignikáns különség van a kezelés el tti és utáni átlagos vérnyomás között. Kondencia intervallum a vérnyomáscsökkenés átlagos értékére: [6.53, 11.71]. f. A kiserleti2 betegcsoportban: E(SYS1) = E(SYS2), páros t-próba, p-érték=0.11, a nullhipotézist elfogajuk. Nincs szignikáns különség a kezelés el tti és utáni átlagos vérnyomás között, nincs statisztikai bizonyíték arra, hogy ez a készítmény hat. Kondencia intervallum a vérnyomáscsökkenés átlagos értékére: [ 3.98, 0.98]. 7.2. a. Legalább 2, de talán 3 módusz is van. Ennek az az oka, hogy az adatsor több különböz fajról tartalmaz adatokat. Érdemesebb az elemzéseket nem a teljes adatsoron, hanem inkább fajonként végezni. b. mintaátlag=2.02, sd=0.27. H 0 : E(sziromszel) = 2, egymintás t-próba: p-érték=0.51, elfogadjuk. A populációátlag nem különbözik szignikáns módon a 2 centimétert l. Kondencia intervalum: [1.95, 2.10]. c. H 0 : E(cseszehossz) = E(sziromhossz), páros t-próba, p-érték=0. A nullhipotézist elvetjük, szignikáns eltérés van a két várható érték között. Kondencia intervallum: [0.91, 1.16]. d. Azonos módszerekkel, mint az el z két pontban. 8.1. a. A becslések alapján nincs látványos különbség a csoortonkénti várható értékek és szórások között: mean sd kiserleti1 160.02 6.19 kiserleti2 159.36 5.11 kontroll 161.30 5.64 Ugyanez jelenik meg a csoportonkénti boxploton is. A hisztogramok alapján feltehet, hogy a SYS1 változó minden csoportoban normális eloszlást követ. b. H 0 : a csoportonkénti szórások azonosak 13

Levene-teszt: p-érték=0.28, a nullhipotézist elfogadjuk, nincs szignikáns különbség a szórások között. H 0 : a csoportonkénti várható értékek azonosak ANOVA: p-érték=0.22, a nullhipotézist elfogadjuk, nincs szignikáns különbség a csoporthatások között. c. A becslések alapján és a boxpotok alapján a várható értékek és a szórások között is van különbség. A hisztogram alapján legalább a csoportonkénti normalitás rendben van. Levene-teszt: p-érték=0, szignikáns különbség van a szórások között. Welch-féle ANOVA: p-érték=0, a várható értékek között szignikáns különbség van. Becslés és kondencia intervallum a csoporthatások különbségére: különbség becslés konf. int. kiserleti2 - kiserleti1 10.36 [8.03, 12.69] kontroll - kiserleti1 1.06 [ 3.39, 1.27] kontroll - kiserleti2 11.42 [ 13.75, 9.09] 8.2. a. Csoportonkénti várható érték: fajonkénti populációátlag; csoportonkénti elméleti szórás: fajonkénti szórás. mean sd setosa 0.246 0.105 versicolor 1.326 0.198 virginica 2.026 0.275 A mintaátlagok között látványos az eltérés, és valószín leg a szórások sem lesznek egyenl ek. Ugyanez jelenik meg a boxploton is. A hisztogram alapján a csoportonkénti normalitás bizonytalan. b. H 0 : a csoportonkénti szórások azonosak. Levene-teszt: p-érték=0, elvetjük a nullhipotézist. c. H 0 : a csoportonkénti várható értékek azonosak Welch-féle ANOVA: p-érték=0, elvetjük. Becslés és kondencia intervallum a várható értékek különbségére: különbség becslés konf. int. versicolor - setosa 1.08 [0.98, 1.18] virginica - setosa 1.78 [1.68, 1.88] virginica - versicolor 0.70 [0.60, 0.80] d. A cseszeszel változó esetében a Levene-teszt elfogadja a csoportonkénti szórások azonosságát. Emiatt alkalmazhatjuk a síma ANOVA tesztet, ami elveti a várható értékek egyenl ségét. 14