Normális eloszlás tesztje

Hasonló dokumentumok
konfidencia-intervallum Logikai vektorok az R-ben március 14.

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Biostatisztika VIII. Mátyus László. 19 October

[Biomatematika 2] Orvosi biometria

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Bevezetés a hipotézisvizsgálatokba

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

KÖVETKEZTETŐ STATISZTIKA

Hipotézis vizsgálatok

Kísérlettervezés alapfogalmak

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

6. Előadás. Vereb György, DE OEC BSI, október 12.

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Grafikonok az R-ben március 7.

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Adatok statisztikai értékelésének főbb lehetőségei

Segítség az outputok értelmezéséhez

Hipotézis vizsgálatok

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Statisztika Elıadások letölthetık a címrıl

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

STATISZTIKA. ( x) 2. Eloszlásf. 9. gyakorlat. Konfidencia intervallumok. átlag. 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% (cm)

Kísérlettervezés alapfogalmak

Többváltozós lineáris regressziós modell feltételeinek

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

[Biomatematika 2] Orvosi biometria

egyetemi jegyzet Meskó Balázs

[Biomatematika 2] Orvosi biometria

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

A valószínűségszámítás elemei

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

Biomatematika 2 Orvosi biometria

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Normális eloszlás paramétereire vonatkozó próbák

Gyakorló feladatok. Az alábbi feladatokon kívül a félév szemináriumi anyagát is nézzék át. Jó munkát! Gaál László

A Statisztika alapjai

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Való szí nű sé gi va ltózó, sű rű sé gfű ggvé ny, élószla sfű ggvé ny

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Valószínűség-eloszlás

Matematikai statisztikai elemzések 3.

Baran Ágnes. Gyakorlat MATLAB. Baran Ágnes Gyakorlat 1 / 70

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Elemi statisztika fizikusoknak

Statisztika elméleti összefoglaló

Biometria gyakorló feladatok BsC hallgatók számára

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biostatisztika Összefoglalás

Gyakorló feladatok a 2. dolgozathoz

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Kettőnél több csoport vizsgálata. Makara B. Gábor

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

A valószínűségszámítás elemei

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

A mérések általános és alapvető metrológiai fogalmai és definíciói. Mérések, mérési eredmények, mérési bizonytalanság. mérés. mérési elv

Elemszám becslés. Kaszaki József Ph.D. SZTE ÁOK Sebészeti Műtéttani Intézet

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

1. Két pályázat esetén a nyerési esélyeket vizsgálják. Mintát véve mindkét pályázat esetén az egyik. (b) Mit nevezünk másodfajú hibának?

A maximum likelihood becslésről

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Megoldások. ξ jelölje az első meghibásodásig eltelt időt. Akkor ξ N(6, 4; 2, 3) normális eloszlású P (ξ

Biostatisztika Összefoglalás

Valószínűségszámítás összefoglaló

3. Egy ξ valószínűségi változó eloszlásfüggvénye melyik képlettel van definiálva?

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Valószínűségi változók. Várható érték és szórás

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

3. Egy szabályos dobókockával háromszor dobunk egymás után. Legyen A az az esemény, hogy

Átírás:

Valószínűség, pontbecslés, konfidenciaintervallum

Normális eloszlás tesztje Kolmogorov-Szmirnov vagy Wilk-Shapiro próba. R-funkció: shapiro.test(vektor) balra ferde eloszlás jobbra ferde eloszlás balra ferde 1/x Density 0 100 200 300 400 Density 0 2 4 6 8 Density 0.00 0.01 0.02 0.03 0.04 0.008 0.010 0.012 0.014 0.016 0.018 1.8 1.9 2.0 2.1 60 80 100 120 140 Ha p > 0, 05, elfogadjuk, hogy a minta normális eloszlású (ld. később).

Transzformációk Unimodális, jobbra vagy balra ferde eloszlások gyakran átalakíthatóak normális eloszlásúvá. Szokásos eljárások: x = log(x) x = 1/x x = x...

Valószínűség a mindennapokban Köznyelvi jelentés: tapasztalat alapú becslés (n megfigyelt esetből hányszor történt meg egy adott esemény). Pl. valószínűleg mindjárt elered az eső (mert ha ilyen borús az ég, gyakran esik), valószínűleg idén sem lesz fizetésemelés (mert tíz éve nem volt). A valószínűség soha nem jelent biztos tudást! Néha mégsem esik, ha borús az ég, és néha mégis van fizetésemelés. Intuitív becslésnek kevés fokozata van: nem túl valószínű, elég valószínű, nagyon valószínű, több mint valószínű.

Valószínűség a szerencsejátékban Fej vagy írás egy érme feldobásakor? Megfigyelés: 10 dobás, 20, 30...

Valószínűség a szerencsejátékban Fej vagy írás egy érme feldobásakor? Megfigyelés: 10 dobás, 20, 30... Fejek száma egyre jobban közeĺıti a 0,5-ös értéket. Empirikus valószínűség P definíciója: P = fej/összes dobás ahol a dobások száma a végtelenhez közeĺıt. valószínűség értéke mindig 0 (egyáltalán nem valószínű) és 1 (biztos) között mozog.

Példák 1. Adott szám dobása kockával. 2. Ász húzása egy 32 lapos kártyapakliból. 3. Kétszer egymás után fej dobása. 4. Egy véletlenszerűen kiválasztott magyar állampolgár katolikus felekezetű, ha az összes megkérdezett közötti arány: katolikus 51%, református 16%, evangélikus 3%, nem vallásos 14,5% stb. 5. Egy véletlenszerűen megkérdezett személy diplomás nő, ha a diplomások aránya 22,4%, és a nők aránya 50%.

Példák 1. Adott szám dobása kockával: adott szám/összes szám = 1/6 = 1,667.

Példák 1. Adott szám dobása kockával: adott szám/összes szám = 1/6 = 1,667. 2. Ász húzása egy 32 lapos kártyapakliból: ászok száma/összes kártya = 4/32 = 0,125.

Példák 1. Adott szám dobása kockával: adott szám/összes szám = 1/6 = 1,667. 2. Ász húzása egy 32 lapos kártyapakliból: ászok száma/összes kártya = 4/32 = 0,125. 3. kétszer egymás után fej dobása: (fej+fej)+(fej+írás)+(írás+fej)+(írás+írás) = 1/4 = 0,25.

Példák 1. Adott szám dobása kockával: adott szám/összes szám = 1/6 = 1,667. 2. Ász húzása egy 32 lapos kártyapakliból: ászok száma/összes kártya = 4/32 = 0,125. 3. kétszer egymás után fej dobása: (fej+fej)+(fej+írás)+(írás+fej)+(írás+írás) = 1/4 = 0,25. 4. Egy véletlenszerűen kiválasztott magyar állampolgár katolikus felekezetű, ha az összes megkérdezett közötti arány katolikus 51%, református 16%, evangélikus 3%, nem vallásos 14,5% stb.: 51% = 0,51.

Példák 1. Adott szám dobása kockával: adott szám/összes szám = 1/6 = 1,667. 2. Ász húzása egy 32 lapos kártyapakliból: ászok száma/összes kártya = 4/32 = 0,125. 3. kétszer egymás után fej dobása: (fej+fej)+(fej+írás)+(írás+fej)+(írás+írás) = 1/4 = 0,25. 4. Egy véletlenszerűen kiválasztott magyar állampolgár katolikus felekezetű, ha az összes megkérdezett közötti arány katolikus 51%, református 16%, evangélikus 3%, nem vallásos 14,5% stb.: 51% = 0,51. 5. Egy véletlenszerűen megkérdezett személy diplomás nő, ha a diplomások aránya 22,4%, és a nők aránya 50%: 0,224*0,5 = 0,112.

Becslés Inferenciális statisztika: oksági vagy relációs alapú statisztika. A minta értékei alapján következtet a populációra. DE: a minta alapján a populációra csak becsléseket tehetünk. 1. probléma: különböző minták különböző átlagokat eredményeznek, még véletlenszerű kiválasztás esetén is. 2. probléma: véges az időnk, csak véges mintával tudunk dolgozni.

A normális eloszlás jelentősége Feltételezés: n minta X átlagai normális eloszlást mutatnak a populáció µ átlaga körül, ha a populáció szórása σ. A mintaátlagok µ körüli szórása egyenlő a standard hibával, azaz se = s n -vel. A szórás egyes adatpontok mintaátlagtól való távolságát fejezi ki. A standard hiba a mintaátlagok populációátlagtól való távolságát fejezi ki. Előny: egyetlen minta átlaga és szórása alapján következtethetünk a populáció ismeretlen értékeire.

A minta és a populáció szórása Két kockával dobunk 100-szor. Sűrűségfüggvények: bal: 100 dobás összege, jobb: 20, egyenként 100 dobásból álló minta átlaga. density.default(x = throws1 + throws2) density.default(x = smean) Density 0.00 0.05 0.10 0.15 Density 0.0 0.5 1.0 1.5 2.0 2 4 6 8 10 12 N = 100 Bandwidth = 0.8068 2 4 6 8 10 12 N = 20 Bandwidth = 0.06548 Minta átlaga = 7, átlagok átlaga = 6,98. Minta szórása = 2,25, átlagok szórása = 0,23. Standard hiba a mintából számolva: 2, 25/ 100 = 0, 225 a 20 mintából számolt szórás jó közeĺıtése 20 minta híján is.

Pontbecslés Véletlen minta átlaga függ a véletlentől, azaz egy becsült pont. Megmérjük egy véletlenszerűen kiválasztott, 300 fős, férfi egyetemistából álló csoport testmagasságát. s = 6,3 cm A minta részmintáiból számolt átlagok szórása függ az elemszámtól: a tíz fős minták szórása a minta átlaga körül se = 6, 3/ 10 = 1, 99, ötven fős mintáké se = 6, 3/ 50 = 0, 89, stb. minél nagyobb az elemszám, annál kisebb a szórás, azaz az egyes mintaátlagok annál jobban közeĺıtik a populáció átlagát.

Feladat Fájl letöltése: http://clara.nytud.hu/ mady/courses/statistics/materials/ testmagassag.txt 300 férfi egyetemi hallgató testmagassága. Testmagasság adatai testmagassag.txt nevű fájlban. átlag: mean() szórás: sd() gyök: sqrt() Hogyan számoljuk ki az első tíz fő testmagasságának átlagát?

Feladat Fájl letöltése: http://clara.nytud.hu/ mady/courses/statistics/materials/ testmagassag.txt 300 férfi egyetemi hallgató testmagassága. Testmagasság adatai testmagassag.txt nevű fájlban. átlag: mean() szórás: sd() gyök: sqrt() Hogyan számoljuk ki az első tíz fő testmagasságának átlagát? mean(testmagassag$height[1:10]) Teljes minta standard hibája?

Feladat Fájl letöltése: http://clara.nytud.hu/ mady/courses/statistics/materials/ testmagassag.txt 300 férfi egyetemi hallgató testmagassága. Testmagasság adatai testmagassag.txt nevű fájlban. átlag: mean() szórás: sd() gyök: sqrt() Hogyan számoljuk ki az első tíz fő testmagasságának átlagát? mean(testmagassag$height[1:10]) Teljes minta standard hibája? sd(testmagassag)/sqrt(300) 0,36

Konfidenciaintervallum Kérdés: igaz-e, hogy a véletlen minta átlaga beleesik az ismeretlen populációátlag körül szóródó mintaátlagokba? Nehézség: µ-t nem ismerjük, csak x-et. döntés nem lehetséges, csak egy adott valószínűségi határon, azaz konfidenciaintervallumon belüli valószínűség megállapítása. Kérdés: igaz-e, hogy x 95%-os valószínűséggel beleesik a µ körül standard hibával szóródó mintaátlagok tartományába? Konfidenciaszint ebben az esetben: p = 0, 95.

Kiindulás Véletlenszerű minták átlagai normális eloszlásúak. Átlagok 95%-a ± 1,96*szórás (s), itt s/ n, azaz 1,96*standard hiba (se). Keresett µ a populáció eloszlásának középpontja (szimmetria feltételezése miatt). tehát: p( 1, 96 se + µ < x < µ + 1, 96 se) = 0, 95 Cél: a 95%-os konfidenciaintervallumon belüli határértékek meghatározása negatív és pozitív irányban.

Konfidenciaintervallum x alapján p( 1, 96 se + µ < x < µ + 1, 96 se) = 0, 95 µ p( 1, 96 se < x µ < 1, 96 se) = 0, 95 1 p(1, 96 se > µ x > 1, 96 se) = 0, 95 + x p(1, 96 se + x > µ > x 1, 96 se) = 0, 95 p( 1, 96 se + x < µ < x + 1, 96 se) = 0, 95

Konfidenciaszint Konfidenciaintervallum: értéktartomány, amely a becsülendő paramétert előre rögzített valószínűséggel tartalmazza. Konfidenciaintervallumon kívüli tartomány: α = 1 p. Ha x nem esik a 95%-os konfidenciaintervallumba, akkor is tartozhat az adott populációhoz! Tévedés valószínűsége 5%, ez az ún. alfa-hiba.

Kiindulási hipotézis tesztelése Hipotézis álĺıtása falszifikáción keresztül, azaz az álĺıtásunk ellenhipotézisét teszteljük. Az empirikus vizsgálatokban általában abban vagyunk érdekeltek, hogy vizsgált érték 1 p, azaz α tartományba essen. szignifikanciaszintet α értékével szokás megadni, azaz 0,05 vagy 5%. Ha azt akarjuk bizonyítani, hogy egy adott minta nem tartozik az adott p konfidenciaintervallumba, akkor a mintának negatív és pozitív irányban az α/2 tartományba kell tartoznia. Tehát egy szimmetrikus, azaz kétoldalas tesztnél az azonosság elutasítása 2,5%-ra teljesül.

A mintaméret jelentősége a hipotézistesztelés szempontjából A p = 0, 95-es konfidenciahatár kritikus értékei: alsó kritikus érték: 1.96 se + x felső kritikus érték: +1.96 se + x A standard hiba kiszámítása: se = s n Ha n alacsony, a standard hiba nagyobb, mert a nevezőben n szerepel nagyobb standard hiba esetén a kritikus érték nagyobb lesz, ezért H 0 elutasításának lehetősége kisebb.

Kisebb és nagyobb standard hiba és hipotézistesztelés Két populáció, amelyek átlaga µ = 20. 1. populáció szórása se = 1, 2. populációé se = 2. 1. populáció alsó kritikus értéke : 20 1*1.96 = 18.04, 2. populációé: 20 2*1.96 = 16,08. Egy olyan minta, amely átlaga x = 17, ehhez a populációhoz tartozik? Density 0.00 0.02 0.04 0.06 0.08 0.10 x 0 10 20 30 40 1. populáció: 17 < 18.04 H 0 -t elutasíthatjuk. 2. populáció: 17 > 16.08 H 0 -t nem utasíthatjuk el.

Feladat Számoljuk ki a minta R-objektum első tíz testmagasságának átlagát. Beleesik a teljes minta 90, 95, ill. 99%-os konfidenciaintervallumába? Első tíz elem átlagának kiszámítása:

Feladat Számoljuk ki a minta R-objektum első tíz testmagasságának átlagát. Beleesik a teljes minta 90, 95, ill. 99%-os konfidenciaintervallumába? Első tíz elem átlagának kiszámítása: mean(minta$height[1:10]) 175.9037 95%-os konfidenciaintervallum határai?

Feladat Számoljuk ki a minta R-objektum első tíz testmagasságának átlagát. Beleesik a teljes minta 90, 95, ill. 99%-os konfidenciaintervallumába? Első tíz elem átlagának kiszámítása: mean(minta$height[1:10]) 175.9037 95%-os konfidenciaintervallum határai? A régi szép időkben megnéztük az adott α/2 tartományra megadott (standardizált!) z-értéket a függvénytáblázatban.

Feladat Számoljuk ki a minta R-objektum első tíz testmagasságának átlagát. Beleesik a teljes minta 90, 95, ill. 99%-os konfidenciaintervallumába? Első tíz elem átlagának kiszámítása: mean(minta$height[1:10]) 175.9037 95%-os konfidenciaintervallum határai? A régi szép időkben megnéztük az adott α/2 tartományra megadott (standardizált!) z-értéket a függvénytáblázatban. Manapság letöltjük a gmodels nevű R-csomagot, és lekérdezzük a határokat a ci függvénnyel. ci(minta$height,0.95) Estimate CI lower CI upper Std. Error 178.0349657 177.3166967 178.7532346 0.3649871