Adatelemzés az R-ben. 2014. április 25.

Hasonló dokumentumok
Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

1 Hipot ezisek, sk alat ıpusok Objektumok az R-ben

Korrel aci os egy utthat ok febru ar 29.

Az R adatelemzési nyelv alapjai I.

Ismételt méréses multifaktoriális varianciaanaĺızis (repeated measures MANOVA) szeptember 19.

2012. április 18. Varianciaanaĺızis

Tantárgy: BEVEZETÉS A TUDOMÁNYOS KUTATÁS MÓD- SZERTANÁBA

Segítség az outputok értelmezéséhez

Microsoft Excel 2010

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Matematikai programok

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Grafikonok az R-ben március 7.

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

y ij = µ + α i + e ij

Matematikai programok






Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Projekt beszámoló. NEWSIT News basedearlywarning System forintradaytrading: Hír alapú Korai Figyelmeztető Rendszer Napon belüli Kereskedéshez

w w w. h a n s a g i i s k. h u 1

Az első számjegyek Benford törvénye

INFORMATIKA - VIZSGAKÖVETELMÉNYEK. - négy osztályos képzés. nyelvi és matematika speciális osztályok

Programozás I. 3. gyakorlat. Szegedi Tudományegyetem Természettudományi és Informatikai Kar

tétel: különböző típusú adatokat csoportosít, ezeket egyetlen adatként kezeli, de hozzáférhetünk az elemeihez is

Nemparametrikus tesztek december 3.

Csima Judit március 9. és 16.

Kutatásmódszertan és prezentációkészítés

Adattípusok, ábrák és grafikonok az excelben

C# Nyelvi Elemei. Tóth Zsolt. Miskolci Egyetem. Tóth Zsolt (Miskolci Egyetem) C# Nyelvi Elemei / 18

A szürke háttérrel jelölt fejezet/alfejezet szövege a CD-mellékleten található. A CD-melléklet használata. 1. Elméleti áttekintés 1

Az empirikus vizsgálatok alapfogalmai

Táblázatkezelés Excel XP-vel. Tanmenet

Követelmény az 5. évfolyamon félévkor matematikából

Programozás III CSOMAGOK. Az összetartozó osztályok és interfészek egy csomagba (package) kerülnek.

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Web-programozó Web-programozó

A magyar teljesítménytúra-naptár fejlődése,

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Diagramok/grafikonok használata a 2003-as verzióban

Választó lekérdezés létrehozása

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Az informatika kulcsfogalmai

Rajzolás PowerPoint 2007 programban

Vizsgáljuk elôször, hogy egy embernek mekkora esélye van, hogy a saját

Utasítások. Excel VII. Visual Basic programozás alapok. A Visual Basic-kel megoldható feladatok típusai Objektumok, változók Alprogramok

Mi az a Scribus? SCRIBUS. Mi az a Scribus? Milyen platformon érhet el? Hasonló feladatra használható programok. Mire használhatjuk a Scribust?

A vezetői jelentésrendszer alapjai. Információs igények, irányítás, informatikai támogatás

Debreceni Egyetem Matematikai és Informatikai Intézet. 13. Védelem

Az iskolai rendszerű képzésben az összefüggő szakmai gyakorlat időtartama. 10. évfolyam Adatbázis- és szoftverfejlesztés gyakorlat 50 óra

Írjon olyan programot a standard könyvtár alkalmazásával, amely konzolról megadott valós adatokból meghatározza és kiírja a minimális értékűt!

Bártfai Barnabás. Office 2010

Időkönyvelő Projektfeladat specifikáció

Országos Területrendezési Terv térképi mel ékleteinek WMS szolgáltatással történő elérése, Quantum GIS program alkalmazásával Útmutató 2010.

Kettőnél több csoport vizsgálata. Makara B. Gábor

Érdekes informatika feladatok

Linux Linux rendszeren a Wine segédprogram segítségével telepíthető az Adobe Digital Editions.

4. okt. 3.: statisztika: binomiális regresszió, saját kísérletek

Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések. 1. Mi a programozás?

Kérem, ismerkedjen meg a DigitAudit program AuditTeszt moduljának Adatok tesztelése menüpontjával.

Az emelők működés közbeni megfigyelésének célja: Arkhimédész görög fizikust és matematikust az ókor egyik legnagyobb tudósa volt.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Térképek jelentése és elemzése

Navigációs GPS adatok kezelése QGIS programmal (1.4 verzió) Összeállította dr. Siki Zoltán

Szathmáry László Debreceni Egyetem Informatikai Kar

Python tanfolyam Python bevezető I. rész

AZ INFORMATIKA ÉRETTSÉGI VIZSGA ÁLTALÁNOS KÖVETELMÉNYEI

2013/2014.tanév TANMENET

Az R statisztikai programozási környezet: az adatgyűjtéstől a feldolgozáson és vizualizáción át a dinamikus jelentéskészítésig

Vetési Albert Gimnázium, Veszprém. Didaktikai feladatok. INFORMÁCIÓTECHNOLÓGIAI ALAPISMERETEK (10 óra)

AZ Informatika érettségi VIZSGA ÁLTALÁNOS követelményei

Mindent olyan egyszerűvé kell tenni, amennyire csak lehet, de nem egyszerűbbé.

MATLAB alapismeretek III.

2 Excel 2016 zsebkönyv

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Statisztikai alapfogalmak

Informatika tagozat osztályozóvizsga követelményei

A LOGSYS GUI. Fehér Béla Raikovich Tamás, Laczkó Péter BME MIT FPGA laboratórium

2 Access 2016 zsebkönyv

Biomatematika 2 Orvosi biometria

Készítsen egy adatbázist (egytáblásat) egy számítástechnikai tanfolyam résztvevőiről. Az adattábla rögzítse a következőket:

Dr. Mileff Péter

FRISSÍTÉSI LEÍRÁS A WINIKSZ PROGRAMCSOMAGHOZ

HORVÁTH ZSÓFIA 1. Beadandó feladat (HOZSAAI.ELTE) ápr 7. 8-as csoport

Java programozási nyelv 8. rész Grafikus felhasználói felület

SZÁMÍTÓGÉPES ADATFELDOLGOZÁS

Indítsuk el a PowerPoint 2010 alkalmazást, majd a Nézet/Mintanézetek/Diaminta paranccsal lépjünk be a minta nézetbe.

Követelmény a 7. évfolyamon félévkor matematikából

A társadalomkutatás módszerei I.

Lőre Vendel- Csigó Györbiró Alpár Üzleti szimulációk az oktatásban

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Számítógépes munkakörnyezet II. Szoftver

Zoiper VoIP mobil alkalmazás szoftver beállítása Android rendszerre

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Space Invaders Dokumenta cio

Átírás:

Adatelemzés az R-ben 2014. április 25.

Kísérleti adatok elemzése Kísérlet célja: valamilyen álĺıtás vagy megfigyelés empirikus és szisztematikus tesztelése. Pl. a nők többet beszélnek, mint a férfiak, nyáron gyorsabban nő a hajunk, mint télen stb. A kísérletek alapja az összehasonĺıtás.

Kísérleti adatok elemzése Eljárás: 1. Munkahipotézis (H 1 ): a nők többet beszélnek, mint a férfiak. 2. Adatgyűjtés minél többféle helyzetben úgy, hogy a nők és a férfiak adatai összehasonĺıthatóak legyenek. 3. Parametrizálás: számszerű mutató, pl. produkált szavak száma adott időtartamon belül, beszédidő adott időtartamon belül stb. 4. Kiindulási hipotézis (H 0 ) statisztikai tesztelése: feltételezzük, hogy a nők és a férfiak ugyanannyit beszélnek. Ha sikerül kimutatni, hogy a nők vagy a férfiak egységnyi idő alatt többet beszélnek, mint a másik csoport, akkor elvetjük a nullhipotézist, és feltételezzük, hogy H 1 igaz.

Az eredmények prezentálása A kísérleti eredményeket bemutató előadások és cikkek felépítése állandó sémát követ: 1. Bevezetés: miért releváns a kérdés, mit írtak róla az irodalomban, mi az, amit még nem tudunk? 2. Anyag és módszerek: a felhasznált anyag minél pontosabb bemutatása, valamint az adatok elemzése (statisztikák, esetleges nem világos kérdések). 3. Eredmények: a konkrét kísérlet eredményeinek bemutatása szóban és diagramokon. 4. Következtetések: az eredmények értékelése a bevezetésben felvázolt összefüggések alapján, esetleges további nyitott kérdések vázolása.

Példa: három beszélő rövid és hosszú u ú magánhangzóit hasonĺıtjuk össze rövid és hosszú mondatokban. Hipotézisek: 1. Feltételezzük, hogy a hosszú /u:/ tartama nagyobb, mint a rövid /u/-é. 2. Feltételezzük, hogy a hosszabb mondatokban gyorsabb a beszédtempó, ezért a magánhangzók általában rövidebbek. A hipotéziseknek korábbi szakirodalomra kell támaszkodniuk. Feltehetünk egyéb kérdéseket is, pl. Ugyanúgy aránylanak-e a rövid és hosszú magánhangzó-tartamok egymáshoz a rövid és a hosszú mondatokban? Hosszabb-e a rövid /u/ megvalósulása a rövid mondatban, mint a hosszú mondatbeli /u:/-é?

Az elemzés menete Nagyobb osztású csoporttól a kisebb felé. Először összehasonĺıtjuk az összes rövid /u/ tartamát az összes hosszú /u:/ tartamával. Összehasonĺıtjuk a két magánhangzó-hosszot a kétféle hosszúságú mondaton belül. Megnézzük, hogy a tendencia minden beszélőre igaz-e.

Az R statisztikai szoftver Letöltés: www.r-project.org, onnan elérhető tükrök. Windows GUI (graphical user interface): személyre szabott telepítés: eldönthető, hogy terminál és ábrák egy ablakba kerüljenek, vagy kettőbe. Linux: általában alapcsomag része, ha nem, repositoryból letölthető. Nincs GUI, megnyitás terminálablakban R paranccsal.

Objektumok az R-ben Lekérdezés: class(objektum) vector: egydimenziós, pl. [1,2,5,6], ["a","e","i","u"]. Egy vektorban egyféle típusú adat található (csak string, csak numerikus stb.). Szám lehet string, de fordítva nem. matrix: kétdimenziós, minden sor és minden oszlop egyforma hosszú. Adatok egyféle típusúak. data.frame: kétdimenziós adattáblázat, adattípusok oszloponként változhatnak. Adattípusok: numeric, integer, character, factor, logical stb. maganhangzo data.frame oszlopaiban található adattípus lekérdezése: class(maganhangzo$mondatszam).

Dobozdiagram (boxplot) Adatok beolvasása: objektum = read.table("file",header=t,sep=";") Hosszú és rövid /u/ tartama tartam (s) 0.04 0.06 0.08 0.10 0.12 0.14 0.16 u u: Eljárás: összes mért adat sorrendbe álĺıtása legkisebbtől legnagyobbig. Középső vízszintes vonal: középső adat. Doboz alsó és felső határa: 25 és 75%. Alső és felső talp: 10 és 90%. Ha az adatok szimmetrikus eloszlásúak, a dobozdiagram is szimmetrikus.

Előálĺıtása R-ben Függvény: boxplot(mertadatok osztalyok,objektum) azaz boxplot(dur vowel,data=u) Ugyanez beszélőnként boxplot(dur vowel*subj,data=u) vagy: boxplot(u$dur u$vowel*u$subj) Hosszú és rövid /u/ tartama tartam (s) 0.04 0.06 0.08 0.10 0.12 0.14 0.16 u.af0001 u:.af0001 u.jm0007 u:.jm0007 u.pd0027 u:.pd0027

Részhalmaz ábrázolása Ha az adatoknak csak egy részét akarjuk ábrázolni: logikai vektor. Változóra igaz, hogy: resz = u$subj == "AF0001" resz: objektum elemeinek száma TRUE, amelyekre a feltétel teljesül. A függvények csak ezekre az elemekre lesznek érvényesek. boxplot(u$dur[resz] u$vowel[resz])

Diagram mentése Windows: különböző képformátumok jobb egérgombbal. Linux: pdf, ps. dev.print("directory/file",device=postscript) vagy dev.print("filenev",device=pdf)

Adatmátrixok összekapcsolása Fenti adatbázisban jelölni akarjuk a rövid és hosszú mondatokat. Újabb adatmátrix létrehozása szöveges fájlként (pl..txt): sent;length 11;long 12;long 17;short 18;short Beolvasás: sentencelist = read.table("sentencelist.txt",header=t,sep=";") A sent változó adatai megegyeznek, erre építve egyesítjük a két mátrixot: u = merge(u,sentencelist,by="sent")