Alkalmazott statisztika feladatok

Hasonló dokumentumok
Biostatisztika feladatok

Biostatisztika feladatok

Biomatematika és biostatisztika feladatok

Segítség az outputok értelmezéséhez

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

2. A ξ valószín ségi változó eloszlásfüggvénye a következ : x 4 81 F (x) = x 4 ha 3 < x 0 különben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

[Biomatematika 2] Orvosi biometria

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

Hipotézis vizsgálatok

Biometria gyakorló feladatok BsC hallgatók számára

Korreláció és lineáris regresszió

Normális eloszlás paramétereire vonatkozó próbák

Gyakorló feladatok statisztikai programcsomagokhoz

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

A konfidencia intervallum képlete: x± t( α /2, df )

Matematikai statisztika

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Elemi statisztika fizikusoknak

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

[Biomatematika 2] Orvosi biometria

Kutatásmódszertan és prezentációkészítés

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása fejezet. A variabilitás mér számai 3.

Adatok statisztikai értékelésének főbb lehetőségei

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Biostatisztika. Sz cs Gábor. 2018/19 tavaszi félév. Szegedi Tudományegyetem, Bolyai Intézet

Többváltozós lineáris regressziós modell feltételeinek

Biostatisztika VIII. Mátyus László. 19 October

Bevezetés a hipotézisvizsgálatokba

1. Ábrázolja az f(x)= x-4 függvényt a [ 2;10 ] intervallumon! (2 pont) 2. Írja fel az alábbi lineáris függvény grafikonjának egyenletét!

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Kísérlettervezés alapfogalmak

Biomatematika 2 Orvosi biometria

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

KÖVETKEZTETŐ STATISZTIKA

A leíró statisztikák

Gyakorló feladatok. Az alábbi feladatokon kívül a félév szemináriumi anyagát is nézzék át. Jó munkát! Gaál László

Matematikai statisztika

2) Írja fel az alábbi lineáris függvény grafikonjának egyenletét! (3pont)

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Normális eloszlás tesztje

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Matematikai statisztika szorgalmi feladatok

Vargha András Károli Gáspár Református Egyetem Budapest

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

Képfeldolgozás. 1. el adás. A képfeldolgozás m veletei. Mechatronikai mérnök szak BME, 2008

Valószín ségszámítás és statisztika Gyakorlat (Statisztika alapjai)

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mérési adatok illesztése, korreláció, regresszió

Kísérlettervezés alapfogalmak

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

2. A ξ valószín ségi változó s r ségfüggvénye a következ : c f(x) =

Valószín ségszámítás és statisztika

A valószínűségszámítás elemei

Statisztikai alapfogalmak a klinikai kutatásban. Molnár Zsolt PTE, AITI

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Regressziós vizsgálatok

b) Ábrázolja ugyanabban a koordinátarendszerben a g függvényt! (2 pont) c) Oldja meg az ( x ) 2

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉP SZINT Függvények

13. előadás. Matlab 7. (Statisztika, regresszió, mérési adatok feldolgozása) Dr. Szörényi Miklós, Dr. Kallós Gábor. Széchenyi István Egyetem

Több valószínűségi változó együttes eloszlása, korreláció

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Függvények Megoldások

Kettőnél több csoport vizsgálata. Makara B. Gábor

Számítógépes döntéstámogatás. Statisztikai elemzés

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉPSZINT Függvények

[Biomatematika 2] Orvosi biometria

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉP SZINT Függvények

törtet, ha a 1. Az egyszerűsített alak: 2 pont

Q1 = 1575 eft Me = 2027,7778 eft Q3 = 2526,3158 eft

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Biostatisztika Összefoglalás

Modulzáró ellenőrző kérdések és feladatok (2)

Prímszámok statisztikai analízise

Biostatisztika Összefoglalás

Grafikonok az R-ben március 7.

1. Név:... Neptun Kód:... Feladat: Egy összeszerel½o üzemben 3 szalag van. Mindehárom szalagon ugyanazt

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Abszolút folytonos valószín ségi változó (4. el adás)

Átírás:

Alkalmazott statisztika feladatok 1. Leíró statisztikák és grakonok 1.1. a. Olvassuk be a Davis adatsort a car vagy a cardata csomagból! Ábrázoljuk a weight változó boxplotját, majd értelmezzük az outlier értékeket! Vegyük észre, hogy az egyik alany adatait elírták! Keressük meg a hibás sort, és javítsuk ki az adatokat! A további kérdésekre a javított adatok alapján válaszoljunk! b. Adjunk becslést a weight változó várható értékére, szórására és ferdeségére! Kérdezzük le és értelmezzük a standard hibát, illetve határozzuk meg a korrigálatlan empirikus szórást is! c. Ábrázoljuk a változó hisztogrammját és a boxplotját! Ezek alapján mit állíthatunk weight változóról: normális eloszlású; nem normális, de a s r ségfüggvény közel szimmetrikus; vagy a s r ségfüggvény ferde valamelyik irányba? d. Végezzük el a b. és c. pont elemzését a height változóra is! 1.2. a. Olvassuk be a Mroz adatsort a car vagy a cardata csomagból, és fussuk át az adatsor leírását! Kérdezzük le és értelmezzük az age változóra a következ leíró statisztikákat: mintaátlag, korrigált empirikus szórás, standard hiba, ferdeség, IQR, minimum, maximum, medián, 40%-os kvantilis! Mekkora a minta mérete és hány meggyelés hiányzik az age változónál? Adjuk meg a korrigálatlan empirikus szórást is'! b. Vegyük fel az age változó hisztogrammját és boxplotját! Ezek alapján az age változó normális eloszlásúnak t nik? Annyi feltehet, hogy a s r ségfüggvénye szimmetrikus? Vázlatosan rajzoljuk be a s r ségfüggvényt! 1.3. Az alábbi ábrán egy hisztogramm és egy boxplot látható. Histogram of xi Frequency 0 20 40 60 0.0 1.0 2.0 0 1 2 3 4 xi a. A hisztogramm alapján milyen el jel a ferdeség: pozitív, negatív vagy közel nulla? Vázlatosan ábrázoljuk a s r ségfüggvényt a hisztogramm grakonján, majd adjunk becslést a móduszra! 1

b. A boxplot alapján adjunk becslést a következ mennyiségekre: medián, alsó és fels kvartilis, IQR, minimum és maximum. Hány outlier érték szerepel az ábrán? c. Vajon a hisztogramm és a boxplot ugyanazon statisztikai mintához tartozik? A választ indokoljuk is! 1.4. Az alábbi ábrán egy hisztogram és egy boxplot látható. A két grakon két különböz adatsor alapján készült. Mi mindent tudunk leolvasni a grakonokról? Frequency 0 2 4 6 8 10 5 6 7 8 9 10 11 0 1000 2000 3000 Mg 2. Egymintás és páros t-próba 2.1. A car avagy cardata csomag Wong nev adatsora kómán átesett betegekr l tartalmaz információt. a. A viq oszlopban a felépülés utáni verbális IQ pontszám található. Tesztelje 1% szignikancia szinten azt a nullhipotézist, hogy a viq változó várható értéke 90! Most mekkora az els fajú hiba nagysága? Adjon meg egy 99% megbízhatósági szint kondencia intervallumot is a viq változó várható értékére! b. A piq oszlopban a felépülés utáni (logikai) IQ pontszám található. Tesztelje le 5% szignikancia szinten azt a nullhipotézist, hogy a piq változó átlagos értéke a teljes populációban 100! Most mekkora a másodfajú hiba nagysága? Adjon meg egy 95% megbízhatóságú kondencia intervallumot a várható értékre! c. Tesztelje le 5% szignikancia szinten azt a nullhipotézist, hogy a piq és a viq változónak azonos az elméleti várható értéke. Adjon meg egy 95% megbízhatóságú kondencia intervallumot a várható értékek különbségére! 2.2. A datasets csomag iris adatsora írisz (azaz n szirom) növényekr l tartalmaz információt. A változók: Species: faj megnevezése Sepal.Length: szészelevél hossza (cm) Sepal.Width: csészelevél szélessége (cm) Petal.Length: sziromlevél hossza (cm) Petal.Width: sziromlevél szélessége (cm) 2

a. Ábrázoljuk a Sepal.Length változó hisztogrammját! Vajon hány módusza van ennek az eloszlásnak? Mi ennek az oka? Mi a szokásos eljárás, ha statisztikában ilyen adatsorral találkozunk? Ábrázoljuk a hisztogrammot fajonkénti bontásban is! b. Adjunk becslést a virginica fajhoz tartozó növényeknél a sziromszel változó várható értékére és szórására. Teszteljük le 5% szignikancia szinten azt a nullhipotézist, hogy a várható érték 2 cm. Adjunk meg egy 95% megbízhatóságú kondencia intervallumot is erre a várható értékre. c. Teszteljük le 10% szignikancia szinten azt a nullhipotézist, hogy a virginica fajnál a sziromlevél átlagos hossza azonos a csészelevél átlagos hosszával! Adjunk meg egy 99% megbízhatóságú kondenciai intervallumot a két várható érték eltérésére is! d. Végezzük el az el z két pont elemzését a másik két faj egyedeire is. 3. Az ANOVA és a Levene-teszt Az adatsorok az el adás Coospace oldaláról vagy az el adó oldaláról tölthet ek le. 3.1. Egy orvosi kísérlet keretei között két új kísérleti vérnyomáscsökkent gyógyszert vizsgáltak magas vérnyomásos betegeken. Az eredmény a vernyom.txt fájlban található. A változók: CSOPKOD: betegcsoport kódja (0=hagyományos gyógyszer, 1=1. kísérleti gyógyszer, 2=2. kísérleti gyógyszer) CSOPNEV: betegcsoport neve, lásd CSOPKOD SYS1: kezelés el tti szisztolés vérnyomás SYS2: kezelés utáni szisztolés vérnyomás a. Adjunk becslést a SYS1 változó átlagos értékére és szórására a teljes populációban! Mennyire pontos a populációátlagra kapott becslés? Vegyük fel a SYS1 változó hisztogrammját is! Vajon normális eloszlásból származik a minta? b. Teszteljük le azt a nullhipotézist, hogy a SYS1 változó teljes populációban vett átlagos értéke 165 Hgmm! Adjunk meg egy 95% megbízhatóságú kondencia intervallumot is a populációátlagra! c. Ábrázoljuk a SYS1 változó boxplotját és hisztogrammját betegcsoportonkénti bontásban! Látható jelent s eltérés a vérnyomásértékek eloszlása között? d. Dobjuk ki az adatsorból a kontroll csoport tagjait! Teszteljük 10%-os szignikancia szinten azt a nullhipotézist, hogy a SYS1 változó várható értéke azonos a kiserleti1 és a kiserleti2 csoportban. Adjunk meg továbbá egy 90% megbízhatóságú kondencia intervallumot a várható értékek különbségére! Ha szükséges, akkor el tte teszteljük le a szórások egyenl ségét is. Értelmezzük a kapott eredményt. Mi ennek a jelent sége a jelenlegi kísérlet keretei között? 3

e. A kiserleti1 betegcsoport tagjain teszteljük azt a nullhipotézist, hogy a SYS1 és a SYS2 változónak azonos a várható értéke! Adjunk meg egy 95%-os kondencia intervallumot is a várható értékek jülönbségére. Értelmezzük a kapott eredményt! f. Ismételjük meg az el z pont elemzését a kiserleti2 betegcsoporton. g. Adjunk becslést a SYS1 változó várható értékére és szórásásra betegcsoportonkénti bontásban! Látunk jelent s eltérést a becslések között? Ábrázoljuk a változó hisztogramját és boxplotját szintén betegcsoportonkénti bontásban! Mit olvashatunk le az ábrákról? h. Teszteljük le 5% szignikancia szinten azt a nullhipotézist, hogy a SYS1 változónak azonos a várható értéke a három betegcsoportban, tehát nincsen csoporthatás. Teszteljük le a szórások egyenl ségét is! i. Ismételjük meg az el z két pont elemzését a SYS2 változóra is! Ha van csoporthatás, akkor adjunk becslést és 95% megbízhatósági szint kondencia intervallumot az eltérésekre! 3.2. Olvassuk be a datasets csomag iris adatsorát! Az adatsor leírása megtalálható a 2.2. feladatban! a. Adjunk becslést a Petal.Width változó elméleti várható értékére és elméleti szórására fajonkénti bontásban. Hogyan értelmezhet az elméleti várható érték és az elméleti szórás ebben a feladatban. Ábrázoljuk a boxplotot és a hisztogramot is, szintén fajonkénti bontásban! b. Teszteljük le azt a nullhipotézist, hogy a Petal.Width változó esetében a csoportonkénti szórások azonosak. A szignikancia szint 5%. c. Teszteljük le a csoportonkénti várható értékek egyenl nl ségét is. Ha szignikáns különbség van a várható értékek között, akkor adjunk becslést és 95% megbízhatósági szint kondencia interavallumot a különbségekre! d. Ismételjük meg azt az elemzést a Sepal.Width változóra is! 4. Korrelációs együttható és lineáris regresszió 4.1. A UScars.txt adatsorban az amerikai piacon forgalmazott autótípusok egyes m szaki paraméterei szerepelnek. A változók: MODEL: a modell neve COUNTRY: hol gyártották VOL: utastér térfogata (köbláb) HP: teljesítmény (lóer ) MPG: fogyasztás (mérföld/gallon) SP: végsebesség (mérföld/óra) WT: teljes tömeg (100 font) 4

a. Ábrázoljuk az SP változót a HP változó függvényeként! A grakon alapján milyen irányú és milyen er sség kapcsolat lehet a két változó között? Adjunk becslést a korrelációs együttható értékére! Teszteljük le azt a nullhipotézist, hogy a két változó független egymástól, továbbá adjunk meg egy 95% megbízhatóságú kondencia intervallumot az elméleti korrelációs együtthatóra! b. Végezzünk lineáris regressziót az SP és a HP változón és adjuk meg a regressziós egyenes egyenletét! Milyen jól illeszkedik a regressziós egyenes a meggyelt értékekhez? Ábrázoljuk a regressziós egyenest koordináta rendszerben! c. Milyen becslést adhatunk egy 150 lóer s autó végsebességére? d. Végezzük el az el z pontok elemzését a SP és a VOL változóra is! Az utolsó kérdésnél legyen VOL=100. 4.2. Olvassuk be a datasets csomag iris adatsorát! Az adatsor leírása megtalálható a 2.2. feladatban! a. Ábrázoljuk a Petal.Width változót a Petal.Length változó függvényeként! A grakon alapján milyen irányú és milyen er sség kapcsolat lehet a két változó között? Adjunk becslést a korrelációs együttható értékére! Teszteljük le azt a nullhipotézist, hogy a két változó független egymástól, továbbá adjunk meg egy 95% megbízhatóságú kondencia intervallumot az elméleti korrelációs együtthatóra! b. Végezzünk lineáris regressziót a Petal.Width és Petal.Length változókon és adjuk meg a regressziós egyenes egyenletét! Milyen jól illeszkedik a regressziós egyenes a meggyelt értékekhez? Ábrázoljuk a regressziós egyenest koordináta rendszerben! c. Milyen becslést adhatunk a Petal.Width változó értékére, ha a Petal.Length értéke 3? d. Végezzük el az a. pont elemzését a Sepal.Width változót a Sepal.Length változókra is! Érdemes lineáris regressziót végezni ezen két változó között? e. Viszgáljuk csak a setosa növényeket! Ezen növények esetében milyen irányú és er sség kapcsolat van a Sepal.Width és Sepal.Length változók között? Végezzünk lineáris regressziót a két vátozóra! 5. Nemlineáris regresszió 5.1. Olvassuk be az UScars.txt fájlban található statisztika adatsort, a leírásért lásd a 4.1. feladatot! a. Ábrázoljuk az MPG változót a HP változó függvényeként! A grakon alapján milyen irányú és milyen er sség kapcsolat van a két változó között? Lineáris a kapcsolat a változók között? Kérdezzük le az MPG és a HP változó korrelációs együtthatóját! A korrelációs együtthatóban megjelenik az el z pontban kapott sejtés a kapcsolat irányára és er sségére? 5

b. Végezzünk lineáris regressziót a két változóra, és írjuk fel a regressziós egyenes egyenletét! Mennyire jó az illeszkedés az egyeneshez? c. Adjunk becslést az autók fogyasztására MGP a/hp + b alakban! Határozzuk meg az a és b paraméterek értékét, továbbá adjuk meg, hogy az adatok mennyire jól illeszkednek a regressziós görbéhez! Ezek alapján milyen becslést adhatunk egy 100 lóer s autó fogyasztására? d. Oldjuk meg az el z pont feladatait azzal a módosítással, hogy a fogyasztást MGP exp(ahp + b) alapban fejezzük ki! 5.2. A car avagy cardata csomag states adatsora azt vizsgálja, hogy az Egyesült Államok egyes tagállamai mennyit költöttek a középsikolás oktatásra a `90-es évek elején, és ennek hatására milyenek lettek az egyetemi felvételi eredmények. Olvassuk be az adatsort illetve kérdezzük le az adatsor leírását. a. Mely változók között tapasztalható er s lineáris kapcsolat? Adjuk becslést ezen változók korrelációs együtthatójára! b. Végezzünk exponenciális illetve reciprokos regressziót az SATM és percent változókon az alábbi formában: percent a exp(satm) + b, percent 1/(a SATM + b). Mintkét esetben adjuk meg a regressziós görbe egyenletét és az R 2 értéket! 6