Alkalmazott statisztika feladatok 1. Leíró statisztikák és grakonok 1.1. a. Olvassuk be a Davis adatsort a car vagy a cardata csomagból! Ábrázoljuk a weight változó boxplotját, majd értelmezzük az outlier értékeket! Vegyük észre, hogy az egyik alany adatait elírták! Keressük meg a hibás sort, és javítsuk ki az adatokat! A további kérdésekre a javított adatok alapján válaszoljunk! b. Adjunk becslést a weight változó várható értékére, szórására és ferdeségére! Kérdezzük le és értelmezzük a standard hibát, illetve határozzuk meg a korrigálatlan empirikus szórást is! c. Ábrázoljuk a változó hisztogrammját és a boxplotját! Ezek alapján mit állíthatunk weight változóról: normális eloszlású; nem normális, de a s r ségfüggvény közel szimmetrikus; vagy a s r ségfüggvény ferde valamelyik irányba? d. Végezzük el a b. és c. pont elemzését a height változóra is! 1.2. a. Olvassuk be a Mroz adatsort a car vagy a cardata csomagból, és fussuk át az adatsor leírását! Kérdezzük le és értelmezzük az age változóra a következ leíró statisztikákat: mintaátlag, korrigált empirikus szórás, standard hiba, ferdeség, IQR, minimum, maximum, medián, 40%-os kvantilis! Mekkora a minta mérete és hány meggyelés hiányzik az age változónál? Adjuk meg a korrigálatlan empirikus szórást is'! b. Vegyük fel az age változó hisztogrammját és boxplotját! Ezek alapján az age változó normális eloszlásúnak t nik? Annyi feltehet, hogy a s r ségfüggvénye szimmetrikus? Vázlatosan rajzoljuk be a s r ségfüggvényt! 1.3. Az alábbi ábrán egy hisztogramm és egy boxplot látható. Histogram of xi Frequency 0 20 40 60 0.0 1.0 2.0 0 1 2 3 4 xi a. A hisztogramm alapján milyen el jel a ferdeség: pozitív, negatív vagy közel nulla? Vázlatosan ábrázoljuk a s r ségfüggvényt a hisztogramm grakonján, majd adjunk becslést a móduszra! 1
b. A boxplot alapján adjunk becslést a következ mennyiségekre: medián, alsó és fels kvartilis, IQR, minimum és maximum. Hány outlier érték szerepel az ábrán? c. Vajon a hisztogramm és a boxplot ugyanazon statisztikai mintához tartozik? A választ indokoljuk is! 1.4. Az alábbi ábrán egy hisztogram és egy boxplot látható. A két grakon két különböz adatsor alapján készült. Mi mindent tudunk leolvasni a grakonokról? Frequency 0 2 4 6 8 10 5 6 7 8 9 10 11 0 1000 2000 3000 Mg 2. Egymintás és páros t-próba 2.1. A car avagy cardata csomag Wong nev adatsora kómán átesett betegekr l tartalmaz információt. a. A viq oszlopban a felépülés utáni verbális IQ pontszám található. Tesztelje 1% szignikancia szinten azt a nullhipotézist, hogy a viq változó várható értéke 90! Most mekkora az els fajú hiba nagysága? Adjon meg egy 99% megbízhatósági szint kondencia intervallumot is a viq változó várható értékére! b. A piq oszlopban a felépülés utáni (logikai) IQ pontszám található. Tesztelje le 5% szignikancia szinten azt a nullhipotézist, hogy a piq változó átlagos értéke a teljes populációban 100! Most mekkora a másodfajú hiba nagysága? Adjon meg egy 95% megbízhatóságú kondencia intervallumot a várható értékre! c. Tesztelje le 5% szignikancia szinten azt a nullhipotézist, hogy a piq és a viq változónak azonos az elméleti várható értéke. Adjon meg egy 95% megbízhatóságú kondencia intervallumot a várható értékek különbségére! 2.2. A datasets csomag iris adatsora írisz (azaz n szirom) növényekr l tartalmaz információt. A változók: Species: faj megnevezése Sepal.Length: szészelevél hossza (cm) Sepal.Width: csészelevél szélessége (cm) Petal.Length: sziromlevél hossza (cm) Petal.Width: sziromlevél szélessége (cm) 2
a. Ábrázoljuk a Sepal.Length változó hisztogrammját! Vajon hány módusza van ennek az eloszlásnak? Mi ennek az oka? Mi a szokásos eljárás, ha statisztikában ilyen adatsorral találkozunk? Ábrázoljuk a hisztogrammot fajonkénti bontásban is! b. Adjunk becslést a virginica fajhoz tartozó növényeknél a sziromszel változó várható értékére és szórására. Teszteljük le 5% szignikancia szinten azt a nullhipotézist, hogy a várható érték 2 cm. Adjunk meg egy 95% megbízhatóságú kondencia intervallumot is erre a várható értékre. c. Teszteljük le 10% szignikancia szinten azt a nullhipotézist, hogy a virginica fajnál a sziromlevél átlagos hossza azonos a csészelevél átlagos hosszával! Adjunk meg egy 99% megbízhatóságú kondenciai intervallumot a két várható érték eltérésére is! d. Végezzük el az el z két pont elemzését a másik két faj egyedeire is. 3. Az ANOVA és a Levene-teszt Az adatsorok az el adás Coospace oldaláról vagy az el adó oldaláról tölthet ek le. 3.1. Egy orvosi kísérlet keretei között két új kísérleti vérnyomáscsökkent gyógyszert vizsgáltak magas vérnyomásos betegeken. Az eredmény a vernyom.txt fájlban található. A változók: CSOPKOD: betegcsoport kódja (0=hagyományos gyógyszer, 1=1. kísérleti gyógyszer, 2=2. kísérleti gyógyszer) CSOPNEV: betegcsoport neve, lásd CSOPKOD SYS1: kezelés el tti szisztolés vérnyomás SYS2: kezelés utáni szisztolés vérnyomás a. Adjunk becslést a SYS1 változó átlagos értékére és szórására a teljes populációban! Mennyire pontos a populációátlagra kapott becslés? Vegyük fel a SYS1 változó hisztogrammját is! Vajon normális eloszlásból származik a minta? b. Teszteljük le azt a nullhipotézist, hogy a SYS1 változó teljes populációban vett átlagos értéke 165 Hgmm! Adjunk meg egy 95% megbízhatóságú kondencia intervallumot is a populációátlagra! c. Ábrázoljuk a SYS1 változó boxplotját és hisztogrammját betegcsoportonkénti bontásban! Látható jelent s eltérés a vérnyomásértékek eloszlása között? d. Dobjuk ki az adatsorból a kontroll csoport tagjait! Teszteljük 10%-os szignikancia szinten azt a nullhipotézist, hogy a SYS1 változó várható értéke azonos a kiserleti1 és a kiserleti2 csoportban. Adjunk meg továbbá egy 90% megbízhatóságú kondencia intervallumot a várható értékek különbségére! Ha szükséges, akkor el tte teszteljük le a szórások egyenl ségét is. Értelmezzük a kapott eredményt. Mi ennek a jelent sége a jelenlegi kísérlet keretei között? 3
e. A kiserleti1 betegcsoport tagjain teszteljük azt a nullhipotézist, hogy a SYS1 és a SYS2 változónak azonos a várható értéke! Adjunk meg egy 95%-os kondencia intervallumot is a várható értékek jülönbségére. Értelmezzük a kapott eredményt! f. Ismételjük meg az el z pont elemzését a kiserleti2 betegcsoporton. g. Adjunk becslést a SYS1 változó várható értékére és szórásásra betegcsoportonkénti bontásban! Látunk jelent s eltérést a becslések között? Ábrázoljuk a változó hisztogramját és boxplotját szintén betegcsoportonkénti bontásban! Mit olvashatunk le az ábrákról? h. Teszteljük le 5% szignikancia szinten azt a nullhipotézist, hogy a SYS1 változónak azonos a várható értéke a három betegcsoportban, tehát nincsen csoporthatás. Teszteljük le a szórások egyenl ségét is! i. Ismételjük meg az el z két pont elemzését a SYS2 változóra is! Ha van csoporthatás, akkor adjunk becslést és 95% megbízhatósági szint kondencia intervallumot az eltérésekre! 3.2. Olvassuk be a datasets csomag iris adatsorát! Az adatsor leírása megtalálható a 2.2. feladatban! a. Adjunk becslést a Petal.Width változó elméleti várható értékére és elméleti szórására fajonkénti bontásban. Hogyan értelmezhet az elméleti várható érték és az elméleti szórás ebben a feladatban. Ábrázoljuk a boxplotot és a hisztogramot is, szintén fajonkénti bontásban! b. Teszteljük le azt a nullhipotézist, hogy a Petal.Width változó esetében a csoportonkénti szórások azonosak. A szignikancia szint 5%. c. Teszteljük le a csoportonkénti várható értékek egyenl nl ségét is. Ha szignikáns különbség van a várható értékek között, akkor adjunk becslést és 95% megbízhatósági szint kondencia interavallumot a különbségekre! d. Ismételjük meg azt az elemzést a Sepal.Width változóra is! 4. Korrelációs együttható és lineáris regresszió 4.1. A UScars.txt adatsorban az amerikai piacon forgalmazott autótípusok egyes m szaki paraméterei szerepelnek. A változók: MODEL: a modell neve COUNTRY: hol gyártották VOL: utastér térfogata (köbláb) HP: teljesítmény (lóer ) MPG: fogyasztás (mérföld/gallon) SP: végsebesség (mérföld/óra) WT: teljes tömeg (100 font) 4
a. Ábrázoljuk az SP változót a HP változó függvényeként! A grakon alapján milyen irányú és milyen er sség kapcsolat lehet a két változó között? Adjunk becslést a korrelációs együttható értékére! Teszteljük le azt a nullhipotézist, hogy a két változó független egymástól, továbbá adjunk meg egy 95% megbízhatóságú kondencia intervallumot az elméleti korrelációs együtthatóra! b. Végezzünk lineáris regressziót az SP és a HP változón és adjuk meg a regressziós egyenes egyenletét! Milyen jól illeszkedik a regressziós egyenes a meggyelt értékekhez? Ábrázoljuk a regressziós egyenest koordináta rendszerben! c. Milyen becslést adhatunk egy 150 lóer s autó végsebességére? d. Végezzük el az el z pontok elemzését a SP és a VOL változóra is! Az utolsó kérdésnél legyen VOL=100. 4.2. Olvassuk be a datasets csomag iris adatsorát! Az adatsor leírása megtalálható a 2.2. feladatban! a. Ábrázoljuk a Petal.Width változót a Petal.Length változó függvényeként! A grakon alapján milyen irányú és milyen er sség kapcsolat lehet a két változó között? Adjunk becslést a korrelációs együttható értékére! Teszteljük le azt a nullhipotézist, hogy a két változó független egymástól, továbbá adjunk meg egy 95% megbízhatóságú kondencia intervallumot az elméleti korrelációs együtthatóra! b. Végezzünk lineáris regressziót a Petal.Width és Petal.Length változókon és adjuk meg a regressziós egyenes egyenletét! Milyen jól illeszkedik a regressziós egyenes a meggyelt értékekhez? Ábrázoljuk a regressziós egyenest koordináta rendszerben! c. Milyen becslést adhatunk a Petal.Width változó értékére, ha a Petal.Length értéke 3? d. Végezzük el az a. pont elemzését a Sepal.Width változót a Sepal.Length változókra is! Érdemes lineáris regressziót végezni ezen két változó között? e. Viszgáljuk csak a setosa növényeket! Ezen növények esetében milyen irányú és er sség kapcsolat van a Sepal.Width és Sepal.Length változók között? Végezzünk lineáris regressziót a két vátozóra! 5. Nemlineáris regresszió 5.1. Olvassuk be az UScars.txt fájlban található statisztika adatsort, a leírásért lásd a 4.1. feladatot! a. Ábrázoljuk az MPG változót a HP változó függvényeként! A grakon alapján milyen irányú és milyen er sség kapcsolat van a két változó között? Lineáris a kapcsolat a változók között? Kérdezzük le az MPG és a HP változó korrelációs együtthatóját! A korrelációs együtthatóban megjelenik az el z pontban kapott sejtés a kapcsolat irányára és er sségére? 5
b. Végezzünk lineáris regressziót a két változóra, és írjuk fel a regressziós egyenes egyenletét! Mennyire jó az illeszkedés az egyeneshez? c. Adjunk becslést az autók fogyasztására MGP a/hp + b alakban! Határozzuk meg az a és b paraméterek értékét, továbbá adjuk meg, hogy az adatok mennyire jól illeszkednek a regressziós görbéhez! Ezek alapján milyen becslést adhatunk egy 100 lóer s autó fogyasztására? d. Oldjuk meg az el z pont feladatait azzal a módosítással, hogy a fogyasztást MGP exp(ahp + b) alapban fejezzük ki! 5.2. A car avagy cardata csomag states adatsora azt vizsgálja, hogy az Egyesült Államok egyes tagállamai mennyit költöttek a középsikolás oktatásra a `90-es évek elején, és ennek hatására milyenek lettek az egyetemi felvételi eredmények. Olvassuk be az adatsort illetve kérdezzük le az adatsor leírását. a. Mely változók között tapasztalható er s lineáris kapcsolat? Adjuk becslést ezen változók korrelációs együtthatójára! b. Végezzünk exponenciális illetve reciprokos regressziót az SATM és percent változókon az alábbi formában: percent a exp(satm) + b, percent 1/(a SATM + b). Mintkét esetben adjuk meg a regressziós görbe egyenletét és az R 2 értéket! 6