Normális eloszlás Grafikonok az R-ben 2012. március 7.
Vendégelőadás módosított és végleges időpontja 2012. április 10., 3 óra. Új könyv a tankönyvtárban! Dalgaard, Peter (2008). Introductory statistics with R. Főleg az 1.2 (R language essentials) fejezetet érdemes megnézni, nagyon jó és szisztematikus leírás az R alapvető működéséről.
Korrelációs együtthatók: Kendall-féle τ (tau) Ordinális adatok mérőszáma, 1 és +1 közötti tartományra esik. Előny: kis elemszám esetén megbízhatóbb, mint ρ. Hátrány: négyzete nem fogható fel a determinációs együtthatóként (lásd ρ és r). Eljárás: elemek sorrendjének jósága, osztva a lehetséges párok számával. Proverzió (P): y vektor elemeinek száma, amelyek a várt sorrendbe illeszkednek. Inverzió (I): a várt sorrendtől való eltérés. Két halmaz: a = [1, 2, 3, 4], b = [2, 1, 3, 4] proverziók és inverziók száma: P b1 = 2, I b1 = 1, P b2 = 2, P b3 = 1 τ = P I n(n 1) 2 = 5 1 6 = 0, 66666666667
Normális eloszlás A statisztikai tesztek előfeltétele többnyire unimodális eloszlás (csak egy módusz). Parametrikus tesztek előfeltétele gyakran normális eloszlás. Folytonos változók, módusz kb. az eloszlás közepén található, megegyezik a mediánnal és az átlaggal, onnan mindkét irányban szimmetrikus csökkenés, megközeĺıtőleg harang formájú (Gauß-görbe). aszimptotikus (0-hoz közeĺıt).
Normális eloszlás (N) Függ n-től az elemszámtól, és k-tól az osztályok/kategóriák számától. Itt: n = 100, 1000, 10000. 0 5 10 15 20 25 rnorm(100,0,1) 0 50 100 150 200 rnorm(1000,0,1) 0 500 1000 1500 2000 rnorm(10000,0,1) 2 1 0 1 2 3 N = 100 Bandwidth = 0.2888 3 2 1 0 1 2 3 N = 1000 Bandwidth = 0.224 4 2 0 2 4 N = 10000 Bandwidth = 0.1428 a = rnorm(100,0,1): 100 random szám húzása normális eloszlásból, x = 0 átlaggal, s = 1 szórással. hist(a): hisztogramm. plot(density(a)): sűrűségfüggvény.
N paraméterei µ: populáció feltételezett átlaga. σ: populáció feltételezett szórása. x: minta átlaga. s: minta szórása. minta átlaga: x = x 1+x 2 +x 3 + +x n n = n x i i=1 n
N paraméterei µ: populáció feltételezett átlaga. σ: populáció feltételezett szórása. x: minta átlaga. s: minta szórása. minta átlaga: x = x 1+x 2 +x 3 + +x n n = minta varianciája: s 2 = n (x i x) 2 i=1 n 1 n x i i=1 n
N paraméterei µ: populáció feltételezett átlaga. σ: populáció feltételezett szórása. x: minta átlaga. s: minta szórása. minta átlaga: x = x 1+x 2 +x 3 + +x n n = minta varianciája: s 2 = n (x i x) 2 i=1 n 1 minta szórása: s = n (x i x) 2 i=1 n 1 n x i i=1 n
Normális eloszlás jelentősége Feltételezés: egy adott populációhoz tartozó, n számú minta átlagai X a populáció µ átlaga körül σ szórással normális eloszlást mutatnak. Ezek eloszlása N(µ, σ/ n), ahol a szórás megegyezik a standard hibával: se = s n
z-transzformáció Szórás függ az elemszámtól és az átlagtól eltérő átlagok eloszlása nem összehasonĺıtható. Megoldás: standardizálás z-értékre. Minden egyes elemre: z i = x i µ σ azaz minden egyes elem mérőszámát kivonjuk a populáció (itt: minta) átlagából, és elosztjuk a populáció szórásával (tehát a nevezőben itt n van, és nem n 1). Ez az eljárás a z-transzformáció.
Standard normális eloszlás Normális eloszlás jellemzői: N(µ, σ). átlag: x i = µ = x z-transzformáció: z i = µ µ σ = 0 szórás: σ = µ + σ z i = (µ+σ) µ σ = 1 standard normális eloszlás jellemzése: N(0, 1)
Standard normális eloszlás sűrűségfüggvény: x-tengely: egységnyi szórás, tartomány: σ = +. density.default(x = a) Density 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 egység: szórás
Függvény jellemzői az x-tengely és az eloszlásfüggvény által bezárt terület összege = 1. Az esetek 50%-a az átlagtól balra helyezkedik el. σ = 1 + 1 közötti tartomány az esetek 68,27%-át tartalmazza. σ = 2 + 2 közötti tartomány az esetek 95,45%-át tartalmazza. σ = 3 + 3 közötti tartomány az esetek 99,73%-át tartalmazza.
Standard normális eloszlás
Intervallum Mely határértékek közé esik a kapott átlagok adott aránya, pl. 90%a? avagy Milyen átlagok esnek legalább 90%-os valószínűséggel az adott populációba? Eljárás: standard normális eloszlás függvényének 90%-át lefedő szimmetrikus eloszlás határértékeinek megállapítása. Értékek hagyományosan megtalálhatóak a függvénytáblázatban.
R
R keresési útvonalai Ha egy csomagot egy adott könyvtárba akarunk telepíteni: install.packages("package-to-install","target.library") Beálĺıtott keresési útvonalak lekérdezése:.libpaths()
Házi feladat languager könyvtár ratings objektuma. names(ratings): változók (oszlopok) neve. Hipotézis: A rövidebb állat- és növénynevek gyakoribbak.
Házi feladat languager könyvtár ratings objektuma. names(ratings): változók (oszlopok) neve. Hipotézis: A rövidebb állat- és növénynevek gyakoribbak. Ábrázolás: plot(ratings$length,ratings$frequency) első érték: x-tengely, második érték: y-tengely.
Házi feladat languager könyvtár ratings objektuma. names(ratings): változók (oszlopok) neve. Hipotézis: A rövidebb állat- és növénynevek gyakoribbak. Ábrázolás: plot(ratings$length,ratings$frequency) első érték: x-tengely, második érték: y-tengely. Korrelációs együtthatók: cor.test(ratings$length,ratings$frequency,method="pearson" alternatív... method="spearman", method="kendall" r = 0.4281462 ρ = 0.4311981 τ = 0.316297
Grafikus paraméterek Rengeteg paraméteren lehet álĺıtani. Hogyan lehet ezekről tudni? grafikus parancs opcionális argumentumai. Lekérdezés:?boxplot,?plot,?barplot stb. parancsok súgója gyakran utal további hasznos parancsokra, pl. line(),title(),abline() stb. par(): rengeteg paraméter, pl. tengelyek feliratozása (felirat mérete, elhelyezése, egységek mérete), tengelyek aránya stb. Első lépés súgó. Felépítés: (1) kötelező és opcionális argumentumok listája, (2) argumentumok rövid magyarázata, (3) részletek: többnyire innen derül ki a releváns infó, ha még nem ismerjük a parancsot, gyakran hivatkozások is, (4) lásd még - hasznos, esetenként hasznosabb, további parancsok, (5) példák - ezek általában túl bonyolultak, ezért nem túl hasznosak.
Néhány hasznos paraméter Általában alkalmazhatók grafikus parancs argumentumaként: plot(x,y,xlim=c(0,length(x)),ylim=c(0,1),main="els}o ábrám 2012-ben",xlab="ez az x-tengely",ylab="ez az y-tengely",col=2,cex.main=1.7,cex.axis=1.3,cex.lab=1.3) xlab=, ylab=: x-tengely felirata, y-tengely felirata. main= Ábra címe. xlim, ylim: Ábrázolt értékek tól-ig. Főleg y-tengelynél fontos, ha összehasonĺıtható ábrákat akarunk. Pl százalékos ábrázolásnál ylim = c(0,100), azaz 0 100%-ig. Egyenlőségjel előtti szóköz opcionális. col: színek, vagy névvel, vagy számmal. Pl. col=2 és col="red" azonosak. cex: cex.main,cex.axis,cex.names,cex.lab stb. Default: cex=1, ehhez képest cím, mérőszámok, címkék betűmérete nagyobb (1.3, 1.7) vagy kisebb (0.7).
Ábra mentése Alapeset: mentés pdf-ként vagy postscript fájléként. pdf: LaTeX-felhasználóknak hasznos, ha pdflatex-et használnak. eps: Word-ben és LaTeX-ben egyaránt használható. dev.print("célfájl",device=pdf postscript) postscript fájlok alapértelmezése: fektetett, horizontal=t mentés: horizontal=f vagy dev.copy2eps(). Ha nem adunk meg elérési útvonalat: mentés aktuális könyvtárba (getwd() paranccsal megtudható).
Boxplotok Ábrázolás módja: y-tengely: függő változó interkvartilis eloszlása, x-tengely: csoportok, esetleg további tagolással. boxplot(függöváltozó függetlenváltozó) Ha további csoportosítás: boxplot(függöváltozó csoport*függetlenváltozó) Például: boxplot(ratings$frequency ratings$class*ratings$complex) Egyszerű és összetett állat- és növénynevek gyakorisága. hasznos paraméterek boxplot() argumentumaként: col=c("red","blue") names=c("állat","növény") ha ismétlődie kell: names=rep(c("állat","növény"),2) rep() ismétlés(mit,hányszor).
Feladatok 1. feladat: ratings fájlban található adatok alapján tetszőleges pontdiagramm készítése és mentése. ratings fájlban szereplő adatok alapján tetszőleges pontdiagramm készítése és mentése. 2. feladat: ratings fájlban található adatok alapján tetszőleges boxplot készítése. Célábra: cím, angol vagy magyar nyelvű tengelyfelirat.