Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

Hasonló dokumentumok
Változók eloszlása, középértékek, szóródás

Grafikonok az R-ben március 7.

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Korrel aci os egy utthat ok febru ar 29.

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Adatelemzés az R-ben április 25.

Biomatematika 2 Orvosi biometria

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Segítség az outputok értelmezéséhez

Kutatásmódszertan és prezentációkészítés

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

A leíró statisztikák

[Biomatematika 2] Orvosi biometria

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Vizsgáljuk elôször, hogy egy embernek mekkora esélye van, hogy a saját

Biomatematika 2 Orvosi biometria

A valószínűségszámítás elemei

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biostatisztika Összefoglalás

SZÁMÍTÓGÉPES ADATFELDOLGOZÁS

A gyakorló feladatok számozása a bevezetı órát követı órán, azaz a második órán indul. Gyakorló feladatok megoldásai 1

Biostatisztika Összefoglalás

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

[Biomatematika 2] Orvosi biometria

Vargha András Károli Gáspár Református Egyetem Budapest

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Microsoft Excel Gyakoriság

Normális eloszlás tesztje

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Vizuális adatelemzés

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Statisztikai alapfogalmak a klinikai kutatásban. Molnár Zsolt PTE, AITI

[Biomatematika 2] Orvosi biometria

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Vizuális adatelemzés

Bevezetés az SPSS program használatába

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

matematikai statisztika

SULINOVA PROGRAMTANTERVÉHEZ ILLESZKEDŐ TANMENET 9. ÉVFOLYAM SZÁMÁRA

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

STATISZTIKA I. A változók mérési szintjei. Nominális változók. Alacsony és magas mérési szint. Nominális változó ábrázolása

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Biostatisztika VIII. Mátyus László. 19 October

Az R adatelemzési nyelv alapjai I.

3/29/12. Biomatematika 2. előadás. Biostatisztika = Biometria = Orvosi statisztika. Néhány egyszerű definíció:

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Elemi statisztika fizikusoknak

STATISZTIKA KÉSZÍTETTE: TAKÁCS SÁNDOR

Matematikai statisztika

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

A statisztika alapjai - Bevezetés az SPSS-be -

Adatok statisztikai értékelésének főbb lehetőségei

Bevezetés a statisztikába

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Követelmény a 7. évfolyamon félévkor matematikából

Kockázatkezelés és biztosítás 1. konzultáció 2. rész

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Az MS Excel táblázatkezelés modul részletes tematika listája

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Bevezetés. 1. előadás, február 11. Módszerek. Tematika

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

QGIS Gyakorló. 1. kép. A vektor réteg (grassland.shp).

Az első számjegyek Benford törvénye

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Bevezető. Mi is az a GeoGebra? Tények

AWK programozás, minták, vezérlési szerkezetek

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

A statisztika alapfogalmai Kovács, Előd, Pannon Egyetem

Alkalmazott statisztika feladatok

AWK programozás, minták, vezérlési szerkezetek

Ez az előadás a leíró statisztika alapvető fogalmairól szól. Az előadás első részében a statisztikai tevékenység egy lehetséges csoportosítását írom

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

A Statisztika alapjai

s.s. Bere Anikó Zsuzsanna

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Táblázatkezelés Excel XP-vel. Tanmenet

Matematika III. 8. A szórás és a szóródás egyéb mérőszámai Prof. Dr. Závoti, József

GRADUÁLIS BIOSTATISZTIKAI KURZUS február hó 22. Dr. Dinya Elek egyetemi docens

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

SPSS ALAPISMERETEK. T. Parázsó Lenke

Nemparametrikus tesztek december 3.

AWK programozás Bevezetés

Többváltozós lineáris regressziós modell feltételeinek

Populációbecslések és monitoring

MATLAB. 9. gyakorlat. Cellatömbök, struktúrák, fájlműveletek

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Átírás:

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

Leíró statisztika Definíciója: populáció egy ismert részhalmazára vonatkozó megfigyelések leírása és összegzése. Jelentősége: nominális adatok esetén, exploratív tanulmányokban, ahol nincsenek konkrét hipotéziseink, adatok elsődleges felmérése, tesztek létjogosultságának ellenőrzése.

Jellemzők gyakoriság eloszlás középérték szóródás Ábrázolás táblázatban vagy grafikonokon.

Gyakoriság abszolút érték (ha elemszámok megegyeznek), arány (elemszám/összes), százalékos arány (arány*100), kumulatív gyakoriság: előfordulás bizonyos érték ALATT. Értékeket gyakran csoportokba, azaz kategóriákba vonjuk össze. A gyakoriságot gyakran csoportokra adják meg, pl. a 21, 23, 35, 43 évesek 21 30, 31 40, 45 50 stb. éves csoportokba rendezve. R-funkciók: table(x), table(x/length(x)), table(x/length(x)*100), prop.table(x), cumsum(table(x))

Ábrázolás kördiagram, oszlopdiagram, hisztogram. R-funkciók: pie(table(x)), barplot(table(x)), hist(x)

Példa Angol növény- és állatnevek hosszúsága betűkben megadva. típus elemszám növény 35 állat 46

Kördiagram Növénynevek betűszámának gyakoriságai 5 6 4 10 7 9 8

Oszlopdiagram Növény- (bal), és állatnevek (jobb) betűszámának gyakoriságai (hány betűből áll a szó): 0 2 4 6 8 10 0 2 4 6 8 10 12 4 5 6 7 8 9 10 3 4 5 6 7 8 9 10 Jellemző felhasználás: nominális adatok, ordinális diszkrét adatok, kategorizált adatok. Probléma: két csoportban eltérő elemszám! (n n = 35, n a = 46)

Oszlopdiagram százalékos arányokkal Növény- (bal), és állatnevek (jobb) betűszámának gyakoriságainak százalékos aránya: 0 5 10 15 20 25 30 0 5 10 15 20 25 30 4 5 6 7 8 9 10 3 4 5 6 7 8 9 10

Két minta egy oszlopdiagramban frequency (%) 0 5 10 15 20 animals plants 3 4 5 6 7 8 9 10 Előny: adatok jobb összehasonĺıthatósága.

Hisztogram Növény- (bal), és állatnevek (jobb) betűszámának sűrűsége: Histogram of ratings$length[z] Histogram of ratings$length[!z] Density 0.00 0.05 0.10 0.15 0.20 0.25 Density 0.00 0.05 0.10 0.15 0.20 0.25 0.30 4 5 6 7 8 9 10 ratings$length[z] 3 4 5 6 7 8 9 10 ratings$length[!z] Felhasználás: legalább ordinális skála.

Eloszlás Definíció: sorrendbe álĺıtott elemek milyen gyakorisággal fordulnak elő. Felhasználás: ordinális skálától felfelé. Előálĺıtás: folytonos vagy diszkrét értékek közötti interpoláció. Jelentőség: valószínűségi statisztikai elemzés alapja. R-funkciók: hist(x,frequency=false): arányos gyakoriságok, plot(density()): sűrűségfüggvény.

Eloszlás típusai Egyenletes eloszlás pl. dobott számok gyakorisága Histogram of dobas Density 0.0 0.1 0.2 0.3 1 2 3 4 5 6 dobas

Eloszlás típusai Unimodális: egy módusza van. Density 0.0 0.1 0.2 0.3 0.4 0.5 4 2 0 2 4 Az eloszlás lehet szimmetrikus vagy aszimmetrikus, laposabb vagy csúcsosabb.

Eloszlás típusai Bimodális: két módusza van. Density 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0 1 2 3 4 5 6 N = 30 Bandwidth = 0.5079 Bi- és multimodális eloszlásra a legtöbb statisztikai teszt nem végezhető el!

Szóródás: terjedelem Szóródás/diszperzió: az adatok egymástól való távolsága. Jelzi az eloszlás szélességét. Pl. az unimodális eloszlást szemléltető görbék közül a piros a legnagyobb szóródású, a kék a legkisebb. Terjedelem: a legkisebb és legnagyobb érték különbsége. Ordinális és metrikus skálára egyaránt alkalmazható, de érzékeny a szélső értékekre. Átlagos Facebook-felhasználó ismerőseinek száma: terjedelem = 724 113 = 611 Extravagáns Facebook-felhasználó ismerőseinek száma: terjedelem = 5439 11 = 5428 Probléma: az első érték valószínűleg jobb becslése a populációra jellemző terjedelemnek, mert az 5000 fölötti ismerőssel rendelkező ismerősök ritkák.

Interkvartilis tartomány Jelentőség: ha ordinális skála vagy nem szimmetrikus eloszlású parametrikus adatok. Interkvartilis tartomány: az X változó értékskálájának az a középen elterülő övezete, ahol a populáció 50%-a található. Folytonos változó esetén: negyedelő vagy 1. kvartilis és felső vagy 3. kvartilis közé esik. Interkvartilis félterjedelem: (K3-K1)/2. Kétféle Facebook-felhasználó: 1.: 113 149 178 196 269 382 388 467 546 682 724 2.: 11 149 178 196 269 382 388 467 546 682 5439 Interkvartilisek kevésbé érzékenyek a szélső értékekre.

Interkvartilisek ábrázolása Dobozdiagram (boxplot). Szerkezete: (1) megfigyelések sűrűsége a középső 50%-os tartományban, (2) eloszlás szimmetriája. duration of /a/ duration (ms) 50 100 150 200 250 300 long short Pontok: szélső értékek.

R

Adatok beolvasása az R-be Adatokat többnyire más szoftverrel álĺıtottuk elő (E-Prime, Praat, manuális lejegyzés stb). Ezek beolvasása: read.table() read.table(file, header = FALSE, sep = "", dec = ".") header: ha első sor eggyel kevesebb elemet tartalmaz, automatikus sep: szóköz vagy tab, problémás lehet, ha vannak üres cellák. Pontosvessző megbízhatóbb. dec: ha közép-európai kódolású szoftvert használunk, a decimális vessző! tehát dec = "," Feladat: töltsünk le egy adatfájlt innen: http://clara.nytud.hu/ mady/courses/statistics/materials/soc.dat Érdemes a felhasználói név alatt létrehozni egy R könyvtárat erre a célra!

Fájl beolvasása Linuxban Adatfájl helye: /home/user/r/kurzus/soc.dat (tetszés szerinti könyvtár). Beolvasás: soc=read.table("/home/user/r/kurzus/soc.dat", header=t,sep=";") Ezzel a soc változóba (objektumba) írtuk a soc.dat fájl tartalmát. Idézőjel szerepe: ha nincs, R a munkamemóriában tárolt változót (objektumot) keres! Linux előnye: R bármelyik könyvtárból megnyitható az R parancs beírásával. Ha soc.dat-ot ide mentettük, elég a read.table("soc.dat",...) függvényt beírni. Gyakorlati haszon: R-fájlokat projekteknek megfelelő könyvtárban tudjuk tárolni.

Grafikus felület (Mac, Windows) Betöltés nem lehetséges közvetlen elérési útvonallal. Ehelyett: (1) R-konzolban (ablak) File > Change directory... megkeressük a könyvtárat, ahova soc.dat-ot mentettük. soc=read.table("c:/users/en/downloads/soc.dat", header=t,sep=";") VAGY (2) aktuális munkamemória: getwd(). Betöltendő fájl helyének megadása: setwd( konyvtar ). Fontos: Windows-ban is / jelet használunk!

Néhány hasznos függvény ls(): R munkamemóriában tárolt objektumok (változók). names(soc): oszlopban tárolt változók neve. head(soc): első hat adatsor. data.frame változóira (oszlopaira) hivatkozás: soc$valtozo, ahol valtozo az oszlop nevével azonos.

Adatok mentése Kilépés NEM a GUI (grafikus felület, graphical user interface) bezárásával, hanem a q() függvénnyel. Save directory? yes/no/cancel Érdemes menteni, akkor az objektumok megnyitáskor ismét betöltődnek. Linux: automatikusan abba a könyvtárba ment, ahonnan megnyitottuk az R-t. Mac és Windows: default: R.exe fájl könyvtára. Módosítható setwd() függvénnyel.

Feladat I a. Helynevek gyakorisága a soc.dat adatai alapján. Ábrázolás kördiagrammal, oszlopdiagrammal (abszolút és százalékos értékek). b. Kor eloszlása hisztogrammal. Szóródás ábrázolása dobozdiagrammal. Mekkora az 1. és 3. interkvartilis, a medián és az interkvartilis félterjedelem?

Feladat II Két dobókockával való 10, 100, 1000 dobálás összege: módusz, medián, átlag, ezek eloszlásának ábrázolása hisztogrammal és dobozdiagrammal.