Grafikonok az R-ben március 7.

Hasonló dokumentumok
Korrel aci os egy utthat ok febru ar 29.

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

Normális eloszlás tesztje

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Segítség az outputok értelmezéséhez

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Biostatisztika VIII. Mátyus László. 19 October

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Kutatásmódszertan és prezentációkészítés

[Biomatematika 2] Orvosi biometria

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

Csima Judit március 9. és 16.

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

[Biomatematika 2] Orvosi biometria

Elemi statisztika fizikusoknak

Bevezetés a hipotézisvizsgálatokba

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

A leíró statisztikák

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Többváltozós lineáris regressziós modell feltételeinek

Biomatematika 2 Orvosi biometria

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Matematikai statisztika c. tárgy oktatásának célja és tematikája

A valószínűségszámítás elemei

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

[Biomatematika 2] Orvosi biometria

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Bevezetés. 1. előadás, február 11. Módszerek. Tematika

6. Előadás. Vereb György, DE OEC BSI, október 12.

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Varianciaanalízis 4/24/12

Változók eloszlása, középértékek, szóródás

[Biomatematika 2] Orvosi biometria

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Valószínűségszámítás összefoglaló

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

[Biomatematika 2] Orvosi biometria

Matematikai geodéziai számítások 10.

Biomatematika 2 Orvosi biometria

Hipotézis vizsgálatok

(Independence, dependence, random variables)

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Matematikai geodéziai számítások 5.

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Alkalmazott statisztika feladatok

GRADUÁLIS BIOSTATISZTIKAI KURZUS február hó 22. Dr. Dinya Elek egyetemi docens

Statisztikai alapfogalmak a klinikai kutatásban. Molnár Zsolt PTE, AITI

Matematikai geodéziai számítások 6.

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Van-e kapcsolat a változók között? (példák: fizetés-távolság; felvételi pontszám - görgetett átlag)

Adatelemzés az R-ben április 25.

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Kettőnél több csoport vizsgálata. Makara B. Gábor

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Abszolút folytonos valószín ségi változó (4. el adás)

Kockázatkezelés és biztosítás 1. konzultáció 2. rész

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Készítette: Fegyverneki Sándor

Való szí nű sé gi va ltózó, sű rű sé gfű ggvé ny, élószla sfű ggvé ny

Korreláció és lineáris regresszió

A Statisztika alapjai

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

Matematika III. 5. Nevezetes valószínűség-eloszlások Prof. Dr. Závoti, József

BIOMATEMATIKA ELŐADÁS

Eloszlás-független módszerek 13. elıadás ( lecke)

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Matematikai geodéziai számítások 6.

Korrelációs kapcsolatok elemzése

Biostatisztika Összefoglalás

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

Adattípusok, ábrák és grafikonok az excelben

egyenletesen, és c olyan színű golyót teszünk az urnába, amilyen színűt húztunk. Bizonyítsuk

Adatok statisztikai értékelésének főbb lehetőségei

STATISZTIKA. ( x) 2. Eloszlásf. 9. gyakorlat. Konfidencia intervallumok. átlag. 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% (cm)

NEVEZETES FOLYTONOS ELOSZLÁSOK

Biostatisztika Összefoglalás

Kísérlettervezés alapfogalmak

Matematikai alapok és valószínőségszámítás. Normál eloszlás

Átírás:

Normális eloszlás Grafikonok az R-ben 2012. március 7.

Vendégelőadás módosított és végleges időpontja 2012. április 10., 3 óra. Új könyv a tankönyvtárban! Dalgaard, Peter (2008). Introductory statistics with R. Főleg az 1.2 (R language essentials) fejezetet érdemes megnézni, nagyon jó és szisztematikus leírás az R alapvető működéséről.

Korrelációs együtthatók: Kendall-féle τ (tau) Ordinális adatok mérőszáma, 1 és +1 közötti tartományra esik. Előny: kis elemszám esetén megbízhatóbb, mint ρ. Hátrány: négyzete nem fogható fel a determinációs együtthatóként (lásd ρ és r). Eljárás: elemek sorrendjének jósága, osztva a lehetséges párok számával. Proverzió (P): y vektor elemeinek száma, amelyek a várt sorrendbe illeszkednek. Inverzió (I): a várt sorrendtől való eltérés. Két halmaz: a = [1, 2, 3, 4], b = [2, 1, 3, 4] proverziók és inverziók száma: P b1 = 2, I b1 = 1, P b2 = 2, P b3 = 1 τ = P I n(n 1) 2 = 5 1 6 = 0, 66666666667

Normális eloszlás A statisztikai tesztek előfeltétele többnyire unimodális eloszlás (csak egy módusz). Parametrikus tesztek előfeltétele gyakran normális eloszlás. Folytonos változók, módusz kb. az eloszlás közepén található, megegyezik a mediánnal és az átlaggal, onnan mindkét irányban szimmetrikus csökkenés, megközeĺıtőleg harang formájú (Gauß-görbe). aszimptotikus (0-hoz közeĺıt).

Normális eloszlás (N) Függ n-től az elemszámtól, és k-tól az osztályok/kategóriák számától. Itt: n = 100, 1000, 10000. 0 5 10 15 20 25 rnorm(100,0,1) 0 50 100 150 200 rnorm(1000,0,1) 0 500 1000 1500 2000 rnorm(10000,0,1) 2 1 0 1 2 3 N = 100 Bandwidth = 0.2888 3 2 1 0 1 2 3 N = 1000 Bandwidth = 0.224 4 2 0 2 4 N = 10000 Bandwidth = 0.1428 a = rnorm(100,0,1): 100 random szám húzása normális eloszlásból, x = 0 átlaggal, s = 1 szórással. hist(a): hisztogramm. plot(density(a)): sűrűségfüggvény.

N paraméterei µ: populáció feltételezett átlaga. σ: populáció feltételezett szórása. x: minta átlaga. s: minta szórása. minta átlaga: x = x 1+x 2 +x 3 + +x n n = n x i i=1 n

N paraméterei µ: populáció feltételezett átlaga. σ: populáció feltételezett szórása. x: minta átlaga. s: minta szórása. minta átlaga: x = x 1+x 2 +x 3 + +x n n = minta varianciája: s 2 = n (x i x) 2 i=1 n 1 n x i i=1 n

N paraméterei µ: populáció feltételezett átlaga. σ: populáció feltételezett szórása. x: minta átlaga. s: minta szórása. minta átlaga: x = x 1+x 2 +x 3 + +x n n = minta varianciája: s 2 = n (x i x) 2 i=1 n 1 minta szórása: s = n (x i x) 2 i=1 n 1 n x i i=1 n

Normális eloszlás jelentősége Feltételezés: egy adott populációhoz tartozó, n számú minta átlagai X a populáció µ átlaga körül σ szórással normális eloszlást mutatnak. Ezek eloszlása N(µ, σ/ n), ahol a szórás megegyezik a standard hibával: se = s n

z-transzformáció Szórás függ az elemszámtól és az átlagtól eltérő átlagok eloszlása nem összehasonĺıtható. Megoldás: standardizálás z-értékre. Minden egyes elemre: z i = x i µ σ azaz minden egyes elem mérőszámát kivonjuk a populáció (itt: minta) átlagából, és elosztjuk a populáció szórásával (tehát a nevezőben itt n van, és nem n 1). Ez az eljárás a z-transzformáció.

Standard normális eloszlás Normális eloszlás jellemzői: N(µ, σ). átlag: x i = µ = x z-transzformáció: z i = µ µ σ = 0 szórás: σ = µ + σ z i = (µ+σ) µ σ = 1 standard normális eloszlás jellemzése: N(0, 1)

Standard normális eloszlás sűrűségfüggvény: x-tengely: egységnyi szórás, tartomány: σ = +. density.default(x = a) Density 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 egység: szórás

Függvény jellemzői az x-tengely és az eloszlásfüggvény által bezárt terület összege = 1. Az esetek 50%-a az átlagtól balra helyezkedik el. σ = 1 + 1 közötti tartomány az esetek 68,27%-át tartalmazza. σ = 2 + 2 közötti tartomány az esetek 95,45%-át tartalmazza. σ = 3 + 3 közötti tartomány az esetek 99,73%-át tartalmazza.

Standard normális eloszlás

Intervallum Mely határértékek közé esik a kapott átlagok adott aránya, pl. 90%a? avagy Milyen átlagok esnek legalább 90%-os valószínűséggel az adott populációba? Eljárás: standard normális eloszlás függvényének 90%-át lefedő szimmetrikus eloszlás határértékeinek megállapítása. Értékek hagyományosan megtalálhatóak a függvénytáblázatban.

R

R keresési útvonalai Ha egy csomagot egy adott könyvtárba akarunk telepíteni: install.packages("package-to-install","target.library") Beálĺıtott keresési útvonalak lekérdezése:.libpaths()

Házi feladat languager könyvtár ratings objektuma. names(ratings): változók (oszlopok) neve. Hipotézis: A rövidebb állat- és növénynevek gyakoribbak.

Házi feladat languager könyvtár ratings objektuma. names(ratings): változók (oszlopok) neve. Hipotézis: A rövidebb állat- és növénynevek gyakoribbak. Ábrázolás: plot(ratings$length,ratings$frequency) első érték: x-tengely, második érték: y-tengely.

Házi feladat languager könyvtár ratings objektuma. names(ratings): változók (oszlopok) neve. Hipotézis: A rövidebb állat- és növénynevek gyakoribbak. Ábrázolás: plot(ratings$length,ratings$frequency) első érték: x-tengely, második érték: y-tengely. Korrelációs együtthatók: cor.test(ratings$length,ratings$frequency,method="pearson" alternatív... method="spearman", method="kendall" r = 0.4281462 ρ = 0.4311981 τ = 0.316297

Grafikus paraméterek Rengeteg paraméteren lehet álĺıtani. Hogyan lehet ezekről tudni? grafikus parancs opcionális argumentumai. Lekérdezés:?boxplot,?plot,?barplot stb. parancsok súgója gyakran utal további hasznos parancsokra, pl. line(),title(),abline() stb. par(): rengeteg paraméter, pl. tengelyek feliratozása (felirat mérete, elhelyezése, egységek mérete), tengelyek aránya stb. Első lépés súgó. Felépítés: (1) kötelező és opcionális argumentumok listája, (2) argumentumok rövid magyarázata, (3) részletek: többnyire innen derül ki a releváns infó, ha még nem ismerjük a parancsot, gyakran hivatkozások is, (4) lásd még - hasznos, esetenként hasznosabb, további parancsok, (5) példák - ezek általában túl bonyolultak, ezért nem túl hasznosak.

Néhány hasznos paraméter Általában alkalmazhatók grafikus parancs argumentumaként: plot(x,y,xlim=c(0,length(x)),ylim=c(0,1),main="els}o ábrám 2012-ben",xlab="ez az x-tengely",ylab="ez az y-tengely",col=2,cex.main=1.7,cex.axis=1.3,cex.lab=1.3) xlab=, ylab=: x-tengely felirata, y-tengely felirata. main= Ábra címe. xlim, ylim: Ábrázolt értékek tól-ig. Főleg y-tengelynél fontos, ha összehasonĺıtható ábrákat akarunk. Pl százalékos ábrázolásnál ylim = c(0,100), azaz 0 100%-ig. Egyenlőségjel előtti szóköz opcionális. col: színek, vagy névvel, vagy számmal. Pl. col=2 és col="red" azonosak. cex: cex.main,cex.axis,cex.names,cex.lab stb. Default: cex=1, ehhez képest cím, mérőszámok, címkék betűmérete nagyobb (1.3, 1.7) vagy kisebb (0.7).

Ábra mentése Alapeset: mentés pdf-ként vagy postscript fájléként. pdf: LaTeX-felhasználóknak hasznos, ha pdflatex-et használnak. eps: Word-ben és LaTeX-ben egyaránt használható. dev.print("célfájl",device=pdf postscript) postscript fájlok alapértelmezése: fektetett, horizontal=t mentés: horizontal=f vagy dev.copy2eps(). Ha nem adunk meg elérési útvonalat: mentés aktuális könyvtárba (getwd() paranccsal megtudható).

Boxplotok Ábrázolás módja: y-tengely: függő változó interkvartilis eloszlása, x-tengely: csoportok, esetleg további tagolással. boxplot(függöváltozó függetlenváltozó) Ha további csoportosítás: boxplot(függöváltozó csoport*függetlenváltozó) Például: boxplot(ratings$frequency ratings$class*ratings$complex) Egyszerű és összetett állat- és növénynevek gyakorisága. hasznos paraméterek boxplot() argumentumaként: col=c("red","blue") names=c("állat","növény") ha ismétlődie kell: names=rep(c("állat","növény"),2) rep() ismétlés(mit,hányszor).

Feladatok 1. feladat: ratings fájlban található adatok alapján tetszőleges pontdiagramm készítése és mentése. ratings fájlban szereplő adatok alapján tetszőleges pontdiagramm készítése és mentése. 2. feladat: ratings fájlban található adatok alapján tetszőleges boxplot készítése. Célábra: cím, angol vagy magyar nyelvű tengelyfelirat.