Valószínűség, pontbecslés, konfidencia-intervallum Logikai vektorok az R-ben 2012. március 14.
Normális eloszlás tesztje Kolmogorov-Szmirnov vagy Wilk-Shapiro próba. R-funkció: shapiro.test(vektor) balra ferde eloszlás jobbra ferde eloszlás balra ferde 1/x Density 0 100 200 300 400 Density 0 2 4 6 8 Density 0.00 0.01 0.02 0.03 0.04 0.008 0.010 0.012 0.014 0.016 0.018 1.8 1.9 2.0 2.1 60 80 100 120 140
Transzformációk Unimodális, jobbra vagy balra ferde eloszlások gyakran átalakíthatóak normális eloszlásúvá. Szokásos eljárások: x = log(x) x = 1/x x = x...
Valószínűség a mindennapokban Köznyelvi jelentés: tapasztalat alapú becslés (n megfigyelt esetből hányszor történt meg egy adott esemény). Pl. valószínűleg mindjárt elered az eső (mert ha ilyen borús az ég, gyakran esik), valószínűleg idén sem lesz fizetésemelés (mert tíz éve nem volt). A valószínűség soha nem jelent biztos tudást! Néha mégsem esik, ha borús az ég, és néha mégis van fizetésemelés. Intuitív becslésnek kevés fokozata van: nem túl valószínű, elég valószínű, nagyon valószínű, több mint valószínű.
Valószínűség a szerencsejátékban Fej vagy írás egy érme feldobásakor? Megfigyelés: 10 dobás, 20, 30... Fejek száma mindig jobban közeĺıti a 0,5-ös értéket. Empirikus valószínűség P definíciója: P = fej/összes dobás ahol a dobások száma a végtelenhez közeĺıt. valószínűség értéke mindig 0 (egyáltalán nem valószínű) és 1 (biztos) között mozog.
Példák adott szám dobása kockával (adott szám/összes szám = 1/6),
Példák adott szám dobása kockával (adott szám/összes szám = 1/6), ász húzása egy kártyapakliból (ászok száma/összes kártya = 4/32),
Példák adott szám dobása kockával (adott szám/összes szám = 1/6), ász húzása egy kártyapakliból (ászok száma/összes kártya = 4/32), egy véletlenszerűen kiválasztott magyar állampolgár felekezeti hovatartozása (ha összes megkérdezett közötti arány: katolikus 51 %, református 16 %, evangélikus 3%, nem vallásos 14,5% stb.),
Példák adott szám dobása kockával (adott szám/összes szám = 1/6), ász húzása egy kártyapakliból (ászok száma/összes kártya = 4/32), egy véletlenszerűen kiválasztott magyar állampolgár felekezeti hovatartozása (ha összes megkérdezett közötti arány: katolikus 51 %, református 16 %, evangélikus 3%, nem vallásos 14,5% stb.), kétszer egymás után fej dobása: fej+fej/(fej+fej)+(fej+írás)+(írás+fej)+(írás+írás) = 1/4),
Példák adott szám dobása kockával (adott szám/összes szám = 1/6), ász húzása egy kártyapakliból (ászok száma/összes kártya = 4/32), egy véletlenszerűen kiválasztott magyar állampolgár felekezeti hovatartozása (ha összes megkérdezett közötti arány: katolikus 51 %, református 16 %, evangélikus 3%, nem vallásos 14,5% stb.), kétszer egymás után fej dobása: fej+fej/(fej+fej)+(fej+írás)+(írás+fej)+(írás+írás) = 1/4), véletlenszerűen megkérdezett személy diplomás nő: diplomások aránya 22,4%, nők aránya 50%: 0,224*0,5.
Becslés Az empirikus kutatások során szinte mindig egy adott minta alapján következtetünk a populációra. DE: a minta alapján a populációra csak becsléseket tehetünk. Különböző minták különböző átlagokat eredményeznek, még véletlenszerű kiválasztás esetén is. Adott számú minta szórása a populáció µ átlaga körül: standard hiba, azaz se = s n.
Pontbecslés Véletlen minta átlaga függ a véletlentől, azaz egy becsült pont. Megmérjük egy véletlenszerűen kiválasztott, 300 fős, férfi egyetemistából álló csoport testmagasságát. s = 6,3 cm A minta részmintáiból számolt átlagok szórása függ az elemszámtól: a tíz fős minták szórása a minta átlaga körül se = 6, 3/ 10 = 1, 99, ötven fős mintáé se = 6, 3/ 50 = 0, 89, stb. minél nagyobb az elemszám, annál kisebb a szórás, azaz az egyes mintaátlagok annál jobban közeĺıtik a populáció átlagát.
Feladat Forrás: www.biostatkonyv.hu kiegészítő anyag > R kódok letöltése biostat-r.zip Testmagasság adatai minta.txt nevű fájlban. átlag: mean(minta) szórás: sd(minta) gyök: sqrt(x) Hogyan számoljuk ki az első tíz fő testmagasságának átlagát?
Feladat Forrás: www.biostatkonyv.hu kiegészítő anyag > R kódok letöltése biostat-r.zip Testmagasság adatai minta.txt nevű fájlban. átlag: mean(minta) szórás: sd(minta) gyök: sqrt(x) Hogyan számoljuk ki az első tíz fő testmagasságának átlagát? mean(minta$height[1:10]) Minta standard hibája?
Feladat Forrás: www.biostatkonyv.hu kiegészítő anyag > R kódok letöltése biostat-r.zip Testmagasság adatai minta.txt nevű fájlban. átlag: mean(minta) szórás: sd(minta) gyök: sqrt(x) Hogyan számoljuk ki az első tíz fő testmagasságának átlagát? mean(minta$height[1:10]) Minta standard hibája? sd(minta)/sqrt(300) 0,36
Konfidencia-intervallum Kérdés: igaz-e, hogy a véletlen minta átlaga beleesik az ismeretlen populáció-átlag körül szóródó mintaátlagokba? Nehézség: µ-t nem ismerjük, csak x-et. döntés nem lehetséges, csak egy adott valószínűségi határon, azaz konfidencia-intervallumon belüli valószínűség megállapítása. Kérdés: igaz-e, hogy x 95%-os valószínűséggel beleesik a µ körül standard hibával szóródó mintaátlagok tartományába? Konfidenciaszint ebben az esetben: p = 0, 95.
Kiindulás Véletlenszerű minták átlagai normális eloszlásúak. Átlagok 95%-a ± 1,96*szórás (s), itt s/ n, azaz 1,96*standard hiba (se). Keresett µ a populáció eloszlásának középpontja (szimmetria feltételezése miatt). tehát: p( 1, 96 se + µ < x < µ + 1, 96 se) = 0, 95 Cél: a 95%-os konfidencia-intervallumon belüli határértékek meghatározása negatív és pozitív irányban.
Konfidencia-intervallum x alapján p( 1, 96 se + µ < x < µ + 1, 96 se) = 0, 95 µ p( 1, 96 se < x µ < 1, 96 se) = 0, 95 + 1 p(1, 96 se > µ x > 1, 96 se) = 0, 95 + x p(1, 96 se + x > µ > x 1, 96 se) = 0, 95 p( 1, 96 se + x < µ < x + 1, 96 se) = 0, 95
Konfidenciaszint Konfidencia-intervallum: értéktartomány, amely a becsülendő paramétert előre rögzített valószínűséggel tartalmazza. Konfidencia-intervallumon kívüli tartomány: α = 1 p. Ha x esik a 95%-os konfidencia-intervallumba, akkor is tartozhat az adott populációhoz! Tévedés valószínűsége 5%, ez az ún. alfa-hiba.
Kiindulási hipotézis tesztelése Hipotézis álĺıtása falszifikáción keresztül, azaz az álĺıtásunk ellenhipotézisét teszteljük. Az empirikus vizsgálatokban általában abban vagyunk érdekeltek, hogy vizsgált érték 1 p, azaz α tartományba essen. szignifikanciaszintet α értékével szokás megadni, azaz 0,05 vagy 5%. Ha azt akarjuk bizonyítani, hogy egy adott minta nem tartozik az adott p konfidencia-intervallumba, akkor a mintának negatív és pozitív irányban az α/2 tartományba kell tartoznia. Tehát egy szimmetrikus, azaz kétoldalas tesztnél az azonosság elutasítása 2,5%-ra teljesül.
Feladat Számoljuk ki a minta R-objektum első tíz testmagasságának átlagát. Beleesik a teljes minta 90, 95, ill, 99%-os konfidencia-intervallumába? Első tíz elem átlagának kiszámítása:
Feladat Számoljuk ki a minta R-objektum első tíz testmagasságának átlagát. Beleesik a teljes minta 90, 95, ill, 99%-os konfidencia-intervallumába? Első tíz elem átlagának kiszámítása: mean(minta$height[1:10]) 175.9037 95%-os konfidencia-intervallum határai?
Feladat Számoljuk ki a minta R-objektum első tíz testmagasságának átlagát. Beleesik a teljes minta 90, 95, ill, 99%-os konfidencia-intervallumába? Első tíz elem átlagának kiszámítása: mean(minta$height[1:10]) 175.9037 95%-os konfidencia-intervallum határai? A régi szép időkben megnéztük az adott α/2 tartományra megadott z-értéket.
Feladat Számoljuk ki a minta R-objektum első tíz testmagasságának átlagát. Beleesik a teljes minta 90, 95, ill, 99%-os konfidencia-intervallumába? Első tíz elem átlagának kiszámítása: mean(minta$height[1:10]) 175.9037 95%-os konfidencia-intervallum határai? A régi szép időkben megnéztük az adott α/2 tartományra megadott z-értéket. Manapság letöltjük a gmodels nevű R-csomagot, és lekérdezzük a határokat a ci paranccsal. ci(minta$height) Estimate CI lower CI upper Std. Error 178.0349657 177.3166967 178.7532346 0.3649871
R
Házi feladat 1 ratings fájlban található adatok alapján tetszőleges pontdiagramm készítése és mentése. Például: plot(ratings$frequency,ratings$meanfamiliarity, main="frequency and familiarity",sub="r = 0.48") dev.print("r-images/ratings corr.pdf",device=pdf)
Házi feladat 2 ratings fájlban található adatok alapján tetszőleges boxplot készítése. boxplot(ratings$meanfamiliarity ratings$class, col=c(4,2),cex.axis=1.3)
Logikai vektorok Egy adatmátrixon egy adott változón belüli csoportok definiálása. operátorok: == azonos!= nem azonos %in% tartalmazza a vektor egy elemét <, > kisebb, nagyobb vagy & és
Logikai vektorok definíciója z = ratings$class == plant z = minta$height < 170 feltételt teljesítő sorok listázása: ratings[z,] összes elem feltételt teljesítő elemei vektorként: ratings$class[z] Melyik elemekre igaz: which(z) Összes előfordulás: sum(z)
Feladatok 1. A fenti pontdiagramm elkészítése az állatokra és a növényekre eltérő színnel. A tengelyhosszok legyenek azonosak (xlim=c(), ylim=c()), és az összes pont egy ábrában legyen, ezt az első ábra után külön paranccsal kell megadni: par(new=t). 2. Boxplot készítése adott csoportra (csak növények, csak egyszerű szavak stb.). 3. A minta adatbázisban hány személy magassága tér el az átlagtól 1 σ-nál nagyobb mértékben? És 2 σ-nál nagyobb mértékben?