Korrel aci os egy utthat ok febru ar 29.

Hasonló dokumentumok
Grafikonok az R-ben március 7.

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

A leíró statisztikák

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

[Biomatematika 2] Orvosi biometria

Segítség az outputok értelmezéséhez

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Korrelációs kapcsolatok elemzése

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Adatelemzés az R-ben április 25.

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Matematikai geodéziai számítások 6.

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Faktoranalízis az SPSS-ben

Matematikai geodéziai számítások 6.

Regressziós vizsgálatok

Faktoranalízis az SPSS-ben

Normális eloszlás tesztje

A valószínűségszámítás elemei

Biomatematika 2 Orvosi biometria

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

[Biomatematika 2] Orvosi biometria

Kutatásmódszertan és prezentációkészítés

Korreláció és lineáris regresszió

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

[Biomatematika 2] Orvosi biometria

Biomatematika 2 Orvosi biometria

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Diszkriminancia-analízis

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Adatok statisztikai értékelésének főbb lehetőségei

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

(Independence, dependence, random variables)

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Van-e kapcsolat a változók között? (példák: fizetés-távolság; felvételi pontszám - görgetett átlag)

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

BIOMATEMATIKA ELŐADÁS

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

GEOSTATISZTIKA. Földtudományi mérnöki MSc, geofizikus-mérnöki szakirány. 2018/2019 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

18. modul: STATISZTIKA

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Gyakorló feladatok. Az alábbi feladatokon kívül a félév szemináriumi anyagát is nézzék át. Jó munkát! Gaál László

13. előadás. Matlab 7. (Statisztika, regresszió, mérési adatok feldolgozása) Dr. Szörényi Miklós, Dr. Kallós Gábor. Széchenyi István Egyetem

Biostatisztika VIII. Mátyus László. 19 October

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Valószínűségszámítás összefoglaló

Változók eloszlása, középértékek, szóródás

Példatár a bevezetés a Matlab programozásába tárgyhoz

Kísérlettervezés alapfogalmak

Elemi statisztika fizikusoknak

Gazdasági matematika II. vizsgadolgozat, megoldással,

Vizsgáljuk elôször, hogy egy embernek mekkora esélye van, hogy a saját

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

[Biomatematika 2] Orvosi biometria

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Többváltozós lineáris regressziós modell feltételeinek

Bevezetés a hipotézisvizsgálatokba

Kísérlettervezés alapfogalmak

Microsoft Excel Gyakoriság

MATEMATIKA HETI 5 ÓRA. IDŐPONT: Június 4.

Az SPC (statisztikai folyamatszabályozás) ingadozásai

Eloszlás-független módszerek 13. elıadás ( lecke)

SPSS ALAPISMERETEK. T. Parázsó Lenke

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

SZÁMÍTÓGÉPES ADATFELDOLGOZÁS

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Gazdasági matematika II. vizsgadolgozat megoldása A csoport

Logisztikus regresszió

Matematikai geodéziai számítások 10.

Mérési adatok illesztése, korreláció, regresszió

Gyakorló feladatok a 2. dolgozathoz

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

A maximum likelihood becslésről

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Vizuális adatelemzés

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Országos Területrendezési Terv térképi mel ékleteinek WMS szolgáltatással történő elérése, Quantum GIS program alkalmazásával Útmutató 2010.

Választó lekérdezés létrehozása

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

KÖVETKEZTETŐ STATISZTIKA

IV. Felkészítő feladatsor

Varianciaanalízis 4/24/12

Átírás:

Korrelációs együtthatók 2012. február 29.

Május 2-án elmarad az óra. Helyette április 10-én, kedden 5 órakor vendégelőadás lesz: Maschine learning with R: decision trees, clustering. Applications: language typology, comparison of sound systems: inventory, phonotactics. Előadó: Uwe Reichel, Institute of Phonetics and Speech Processing, University of Munich.

Változók típusai Független változó: A minta jellemzésére szolgáló mérőszám, gyakran a minta összeálĺıtásának szempontja is. Független változók: kategoriális változók (nem, anyanyelv), ordinális változók (kor: fiatal, közép, éltes), metrikus változók (évek száma, kockán látható pöttyök). Függő változó: A kísérlet hipotéziseinek tesztelésére szolgáló mérőszám. Függő változók: számszerű változó, statisztikai teszt alapja, ordinális (természetességi ítéletek) vagy metrikus (formánsok, gyakoriságok).

Változók összefüggései Ha két legalább ordinális függő változónk van, vagy egy legalább ordinális független és egy legalább ordinális függő változónk, a kettő összefüggései kifejezhetőek korrelációs együtthatókkal. Lehetséges összefüggések a független és b függő változók között: Ahogy a növekszik, úgy nő b is. Ahogy a növekszik, úgy csökken b. A két változó között nem látszik összefüggés.

Változók összefüggései Ha két legalább ordinális függő változónk van, vagy egy legalább ordinális független és egy legalább ordinális függő változónk, a kettő összefüggései kifejezhetőek korrelációs együtthatókkal. Lehetséges összefüggések a független és b függő változók között: Ahogy a növekszik, úgy nő b is. Ahogy a növekszik, úgy csökken b. A két változó között nem látszik összefüggés. Lehetséges értelmezések: 1. a függő változó b független változó következménye. Jellegzetes nyugat-európai példa: iskolapadban eltöltött évek száma és éves bevétel. 2. A két változó egy harmadik, figyelmen kívül hagyott vagy még ismeretlen változó függvénye. Híres példa: gólyák száma és születések száma (mindkettő csökkenő tendenciát mutat).

Korreláció mértéke Tartomány: 1 és +1 között. Ha a két változó szorosan összefügg, a korrelációs együttható +1-hez közeĺıt. Ha a két változó között szoros fordított összefüggés áll fent, a korrelációs együttható 1-hez közeĺıt. Ha a két változó között nincs összefüggés, az együttható értéke 0 körül mozog. Együtthatók: Pearson-féle r (metrikus adatokra), Spearman-féle ρ vagy Kendall-féle τ (ordinális adatokra).

Kovariancia σ x, y = 1 n 1 Eljárás: n k=1 (x k x) (y k y) 1. Kiszámítjuk minden egyes pont átlagtól való eltérését. 2. Összegezzük az eltéréseket. 3. Ha teljes populáció rendelkezésünkre áll: összeget elosztjuk az összes elem számával, n-nel. 4. Ha populáció helyett mintával dolgozunk, n-1-gyel osztunk, mert a minta koverianciája csak közeĺıtő értéket ad. Kovariancia alsó értéke 0. Probléma: az érték függ a minta méretétől és a szórástól.

Kovariancia standardizálása Koordinátarendszer origója átlag. Kovariancia osztása a két változó szórásával: Pearson-féle r r = n (x k x) (y k y) k=1 n (x k x) 2. n (y k y) 2 k=1 k=1 Determinációs együttható: a mért y értékek varianciájából mekkora részt (hány százalékot) magyaráz meg a regressziós becslések varianciája, azaz a regressziós becslés milyen mértékben mutatja meg a b változó viselkedését. Ha az összefüggés lineáris, az együttható: r 2.

Spearman-féle Rho Ha az egyik vagy mindkét változó csak ordinális: Spearman-féle ρ. Eljárás: mindkét változó értékeit sorrendbe álĺıtjuk, eltérések különbségét négyzetre emeljük, és összegezzük. ρ = 1 6 d 2 i n(n 2 1)

R

Munkamemória helyreálĺıtása Előzőleg előálĺıtott R-objektumok, pl. soc betöltése: setwd("munkamem") load(".rdata") load(".rhistory") munkamem lehet C:/Dokumentumok/Felhasználó/én/R vagy C:/Programok/R/lib vagy egyéb. Bezárás előtti mentéskor (q(), yes) az R az objektumokat az aktuális munkamemóriába, egy.rdata nevű fájlba írja ki, a parancsokat egy.rhistory fájlba. Figyelem! Ha a Windows Intéző úgy van beálĺıtva, hogy a rendszerfájlokat rentse el (alapértelmezett beálĺıtás), akkor az.rdata és.rhistory fájlokat az Intéző nem fogja megjeleníteni. Ezt a Beálĺıtások menüpontban meg kell változtatni. Linuxban a megjelenítés l -a vagy ls -a paranccsal történik.

Házi feladat I Helynevek gyakorisága: barplot(table(soc$loc)) Százalékos gyakoriság: Eljárás: table() adatait osztjuk az összes adat számával, megszorozzuk 100-zal. barplot(table(soc$loc)/length(soc$loc)) Összes adat: több alternatív eljárás length(soc$loc): egydimenzionális vektorokra érvényes: vagy egy a=c("budapest","szeged","kiskunlacháza"...) típusú vektor, vagy egy adatmátrix oszlopa, pl. soc$loc. nrow(soc): kétdimenziós objektum (mátrix vagy adatmátrix) sorainak száma. Itt: megfelel kísérleti személyek számának. dim(soc)[1]: kétdimenziós objektum sorainak [1] és oszlopainak [2] száma.

Házi feladat I Kor eloszlása kördiagrammal: pie(table(soc$age)). oszlopdiagrammal: abszolút: barplot(table(soc$age)), százalékos barplot(table(soc$age)/length(soc$age)*100). hisztogrammal: hist(soc$age). Interkvartilis félterjedelem megállapítása: h = boxplot(soc$age) Objektum típusa list, vektorok hossza eltérő ( Matlab: struktúra). Vektor lekérdezése: objektum$vektornév, itt: h$stats. ik = (h$stats[4]-h$stats[2])/2 azaz: 4. interkvartilis és 2. interkvartilis különbségének a fele.

Házi feladat II Két dobókockával való 10, 100, 1000 dobálás összege. Hipotézis: leggyakoribb szám 7 lesz. Miért?

Házi feladat II Két dobókockával való 10, 100, 1000 dobálás összege. Hipotézis: leggyakoribb szám 7 lesz. Miért? Legtöbb számkombinációval elérhető szám (1+6, 2+5, 3+4, 4+3, 5+2, 6+1). dobas1 = sample(1:6,10,replace=t) dobas2 = sample(1:6,10,replace=t) Generáltunk két vektort, amelyek tíz, 1 és 6 közötti, véletlenszerűen választott elemet tartalmaznak. Összegük: dobas.ossz = dobas1+dobas2

Házi feladat II módusz: tab = table(dobas.ossz) # táblázat létrehozása tab.sort = sort(tab) # gyakoriságok sorrendje tab.leng = length(tab) # összes érték száma tab.max = tab.sort[tab.leng] # táblázat utolsó (= legnagyobb, n -edik) eleme. Ugyanez egy sorban: sort(table(dobas.ossz))[length(table(dobas.ossz))] medián: median(dobas.ossz). átlag: mean(dobas.ossz). eloszlások: barplot(table(dobas.ossz)), hist(dobas.ossz), boxplot(dobas.ossz), plot(density(dobas.ossz)). density: sűrűségfüggvény, interpolált értékekkel nem létező értékek (itt: tört számok) előfordulási valószínűségét is megkapjuk.

Programcsomagok telepítése az R-ben Mivel az R nyílt forráskódú szoftver, bárki fejleszthet hozzá csomagokat. Ellérhető csomagok listája az R mirror oldalakon, Packages menüpont alatt. Telepítés interneten keresztül: install.packages("languager") mirror kiválasztása (minél közelibb, annál kevesebb adatforgalmat generálunk). Fontos! Ha objektumokat tartalmazó csomagot installálunk, jól jegyezzük meg, hova telepíti őket az R! Az objektumok listáját később ott találjuk meg. Windows 7: a programkönyvtár nem írható, adminisztrátori jogokkal sem. Ezért az R a felhasználó könyvtárában létrehoz egy R könyvtárat, és oda tölti le a languager csomagot.

Csomag betöltése betöltés (R megnyitása után minden egyes alkalommal): library(languager) Ha balra nyíló kisebb-nagyobb jelet kapunk válaszként, akkor a csomag betöltődött az R-be. Ellenőrzés: search() aktuálisan betöltött csomagok listája. Elérhető objektumok listája és rövid leírása: languager telepítésének könyvtárában, az INDEX fájlban.

Kétváltozós összefüggések ábrázolása languager könyvtár ratings objektuma. names(ratings): változók (oszlopok) neve. head(ratings), tail(ratings): első hat és utolsó hat sor (= eset, record). Hipotézis: A rövidebb állat- és növénynevek gyakoribbak.

Kétváltozós összefüggések ábrázolása languager könyvtár ratings objektuma. names(ratings): változók (oszlopok) neve. head(ratings), tail(ratings): első hat és utolsó hat sor (= eset, record). Hipotézis: A rövidebb állat- és növénynevek gyakoribbak. Ábrázolás: plot(ratings$length,ratings$frequency) első érték: x-tengely, második érték: y-tengely.

Kétváltozós összefüggések ábrázolása languager könyvtár ratings objektuma. names(ratings): változók (oszlopok) neve. head(ratings), tail(ratings): első hat és utolsó hat sor (= eset, record). Hipotézis: A rövidebb állat- és növénynevek gyakoribbak. Ábrázolás: plot(ratings$length,ratings$frequency) első érték: x-tengely, második érték: y-tengely. Korrelációs együtthatók: cor.test(ratings$length,ratings$frequency) method = "pearson" -- default, alternatív: "spearman", "kendall") Obs! R érzékeny a kis- és nagybetűkre! Elnevezést lehet rövidíteni, ha különbség egyértelmű, itt elég p, s, k.