Az R statisztikai programozási környezet: az adatgyűjtéstől a feldolgozáson és vizualizáción át a dinamikus jelentéskészítésig

Hasonló dokumentumok
1., Egy területen véletlenszerűen kihelyezet kvadrátokban megszámlálták az Eringium maritimum (tengerparti ördögszekér) egyedeit.

BIOMETRIA_ANOVA_2 1 1

KISTERV2_ANOVA_

STATISZTIKA PRÓBAZH 2005

Logisztikus regresszió október 27.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Kabos Sándor. Térben autokorrelált adatrendszerek

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Correlation & Linear Regression in SPSS

Correlation & Linear Regression in SPSS

Hipotézis vizsgálatok

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

Idősoros elemzés. Ferenci Tamás, január 7.

Idősoros elemzés minta

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

Esetelemzés az SPSS használatával

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Gyakorlat: Sztochasztikus idősor-elemzés alapfogalmai II. Egységgyök-folyamatok és tesztek. Dr. Dombi Ákos

Statisztika II. feladatok

Bevezetés a Korreláció &

Regresszió számítás az SPSSben

: az i -ik esélyhányados, i = 2, 3,..I

Statistical Inference

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Normál eloszlás. Gyakori statisztikák

Statisztikai szoftverek esszé

WIL-ZONE TANÁCSADÓ IRODA

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Bevezetés az ökonometriába

Esetelemzések az SPSS használatával

Több laboratórium összehasonlítása, körmérés

Magyarországon személysérüléses közúti közlekedési balesetek okozóik és abból alkoholos állapotban lévők szerinti elemzése. Rezsabek Tamás GSZDI

Feltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Regression

MARKETINGKUTATÁS II. Oktatási segédanyag. Budapest, február

A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

É í

ö ü ü ö ö í Ö Í ü ö ü ö ü Á Á í ö Í í Í ö í Í ö Í ü üí ü ö Í ű ö í í

í ü ü ú í ü ú ú É Á í ű Á ú í ü í Ő Ű í Ó ű í ü í ű Ú ú É í ü í í

ó í ú ő ó ó ü ő í ú ó ü Ö Í ö ő ü ö ö ó ő ü Ü ö Ö ö ü ó ü ú ö Ö í í ő ö ü ú ü ü ó í ő ő ü í ü É ő ő Í ö ö ó ő ó ó ő ü ö ü ő ó ő ő ö Ö ő ü ő ő ő ü ö ö

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

BASH script programozás II. Vezérlési szerkezetek

Ú ű É ű ű Ü Ü ű ű Ú É ű ű Ü ű ű ű ű ű ű ű Ú ű ű

ú Ó ú ú ú ú ú ú ú É Á

ü ü Ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü É ü ü

Ó é é Ó Ó ő ű Ó Ö ü Ó é Ó ő Ó Á Ö é Ö Ó Ó é Ó Ó Ó Ó ú Ó Ó Ó Ó ű Ö Ó Ó Ó é Ó Ó ö Ö Ó Ö Ö Ó Ó Ó é ö Ö é é Ü Ó Ö Ó é Ó é ö Ó Ú Ó ő Ö Ó é é Ö ú Ó Ö ö ű ő

Á Ü É Ü Ú Ü É

Á Ó ű ű Á É ű ű ű ű Ú Ú

Á Á ő ő Ö ő ő ö É ö ő ö ő ő ö ő ő ö ő ő ü ö

ű Ú ű ű É Ú ű ű

ó ő ő ó ő ö ő ő ó ó ó ö ő ó ó ó ö ő ó ő ő ö Ö ő ö ó ő ö ő ő ú ö ö ü ö ó ö ö ö ő ö ö Ö ú ü ó ü ő ő ő ő ó ő ü ó ü ö ő ö ó ő ö ő ö ü ö ü ő ö ö ó ö ő ő ö

ű Ö ű Ú ű ű ű Á ű

Ó Ó ö ú ö ö ö ö ü ú ú ö ö ö ú ú ö ö ö ú ú ú ű ö ö ú ö ü ö ö ö ö ü ú Á ö ü Á ö ö ö ö ö ö

ű ű ű Ú Ú Á ű Ö ű ű Ú Ő É

Á Ö Ö Ö Ö ú ú Ö Ö Ó Ó ú ú Ü ú Ó Ö Ö Ü Ó Ö Ö Á Ó ú ú ú ű Ö Ö Ö Ö Á Ó Ö Ó ú ú Ö

É É Ö

ö ö Á Á Ó Á ö ö ö ö ö ú ű ö ö Á Á ű ű ö ö ö ö ű

Á ó ó ó Ü Ü ó ó Ü ó ó ú ú ó ó Ü ó ó ó Ü ó ó

Á ű ó ó

É Á Á Ö Á

ö ő ü ö ő ő ü ü ő ő ő ü ö ü ü ő ú ő ő ő ü ő ő ő ő ő ú ő ő ü ő ő ő ü ö ü ú ő ő ő ő ü ü ő ő ú

ű ő ő ő

é ü ó ö é Ö é ü é é ó ö é ü ü é é ó ó ó é Á é é ü ó é ó ó é ö ö ö é é ü é ü é é ö ü ü é ó é é é é é é ö é é é é é é ö é ó ö ü é é é ü é é ó é ü ó ö é

ó Ó ú ó ó ó Á ó ó ó Á ó ó ó ó Á ó ú ó ó ó

ú ö ö ö ö ö ö Á ö ö ö á á á ű Ü ű ö ö Á á Á

ü ú ú ü ú ú ú ú

Ó Ó ó ö ó

Korreláció és lineáris regresszió

Normális eloszlás paramétereire vonatkozó próbák

Regresszió és ANOVA. Freedman: fejezet. Freedman: fejezet. Freedman: fejezet

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

DÖNTÉSHOZATALI MODELLEZŐ ESZKÖZ TRANSZNACIONÁLIS ALKALMAZÁSA

PhEur Two-dose multiple assay with completely randomised design An assay of corticotrophin by subcutaneous injection in rats

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Hypothesis Testing. Petra Petrovics.

Logisztikus regresszió

ő í ö ü ö ő ő ü ö ü ő ő ö ö ö ü í ő ö ö ü í í í ü ő ő í í ú í ő

ö ü ü ö Ő ü í ü í ü ö ö Ö ó ö ö ö ö ó ö ö ö í ü í Ő Ü ü ö í Á í ü ü ü ö ű ú ö ö ü í Ü Ő ü ü ó ó ó ó í í ó í ö ú ü ü Ö Ö ű ó í ó ó ü ú ü ü ö í ó Ő Ü ó

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Ö Ö Ö í í ü í ű ú í ú

ü í ö í ó ö ö Ö í ü ó ó í ö ö ö ö ö í í ü í ó ö ö í ó ű ö í í ú ó ó í ó ö ü í í ó ó ö ó ó

Diszkriminancia-analízis

Descriptive Statistics

Statisztika. Politológus képzés. Daróczi Gergely május 4. Politológia Tanszék

Minőség-képességi index (Process capability)

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Választási modellek 3

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Biztosítói káradatok matematikai modellezése

í ü Ó Ö Ö ó Ö í ú í ó ó ó í ü í í í ó Ö ó ü í í ó ü í ú ó í í í ü ó í ó í ó ó ü ü ó ó ó ű ű ó í ó í ó ó ű í í ű Á

É ú É ö ö ű ö ö ö ú ú ú ű ű ú ö ű ö ű ű ü ö ö ü ű ö ü ö ö ö ö ú ü ö ö ö ú ö ö ú ö ö ú ü ú ú ú ű ü ö ö ű ú ű ű ü ö ű ö ö ö ű ú ö ö ü ú ü ö ö ö ü ú ö ű

í ű ő ü ó í ó í Ö ü í ő ó ő í ű ű ú ű ű ű ú úí ő í ü íő í ü ő í í ű ű ő í ü ű ó ő í ű ú ű ő ó ő í

É Ö Á Í Á Ó Ö ü

ö É í ü í Ú ö ó ó ó ü ó í Ö í Ú í ö í í ó ű ö ű ö ű í ö Ö ű ü ö ü ö ű ü ó ü ó í ö ű ó í ó í ó ű í í ó í ü ű ü í ó í ü ú ó í í ó ü ü í í ó í ó í í ö í

Statistical Dependence

ú ú ö ö ü ü ü ü ű ü ü

Átírás:

: az adatgyűjtéstől a feldolgozáson és vizualizáción át a dinamikus jelentéskészítésig Ferenci Tamás ferenci.tamas@nik.uni-obuda.hu 2017. február 23.

Tartalom Az R mint programozási nyelv A könyvtárakról általában Lattice rms

Tartalom Az R mint programozási nyelv A könyvtárakról általában Lattice rms

Tartalom Az R mint programozási nyelv A könyvtárakról általában Lattice rms

Adattípusok Semmi meglepetés, van: Logikai Sztring (R szóhasználat: character) Szám (ebben flexibilis, nem kell ennél pontosabban megadni) Ami kicsit statisztikusabb: Kategoriális (R szóhasználat: factor, ordered és unordered) Dátum, idősor és egyéb egzotikumok Bármelyik lehet missing value (NA), ez nagyon jól kezelt

Adatstruktúrák Egydimenziós, homogén: vektor Kétdimenziós (szigorúan téglalap!), homogén: mátrix Egydimenziós, heterogén: lista Kétdimenziós (szigorúan téglalap!), heterogén: adatkeret (data frame)

Például 1 data ( b i r t h w t ) 2 head ( b i r t h w t ) low age lwt race smoke ptl ht ui ftv bwt 85 0 19 182 black 0 0 0 1 0 2523 86 0 33 155 other 0 0 0 0 3 2551 87 0 20 105 white 1 0 0 0 1 2557 88 0 21 108 white 1 0 0 1 2 2594 89 0 18 107 white 1 0 0 1 0 2600 91 0 21 124 other 0 0 0 0 0 2622

Például 1 s t r ( b i r t h w t ) data.frame : 189 obs. of 10 variables: $ low : int 0 0 0 0 0 0 0 0 0 0... $ age : int 19 33 20 21 18 21 22 17 29 26... $ lwt : int 182 155 105 108 107 124 118 103 123 113... $ race : Factor w/ 3 levels "white","black",..: 2 3 1... $ smoke: int 0 0 1 1 1 0 0 0 1 1... $ ptl : int 0 0 0 0 0 0 0 0 0 0... $ ht : int 0 0 0 0 0 0 0 0 0 0... $ ui : int 1 0 0 1 1 0 0 0 0 0... $ ftv : int 0 3 1 2 0 0 1 1 1 0... $ bwt : int 2523 2551 2557 2594 2600 2622 2637 2637...

Tartalom Az R mint programozási nyelv A könyvtárakról általában Lattice rms

Programszervezés Van: Változó, értékadás, függvény-fogalom Lehet objektum-orientáltnak is lenni... de csak ha nagyon akar az ember Elágazás Ciklus... de nem szeretjük! R-ben szinte minden, amihez ciklus kell, megoldható anélkül is (és jobb is úgy!)

Programszervezés Van: Változó, értékadás, függvény-fogalom Lehet objektum-orientáltnak is lenni... de csak ha nagyon akar az ember Elágazás Ciklus... de nem szeretjük! R-ben szinte minden, amihez ciklus kell, megoldható anélkül is (és jobb is úgy!)

Programszervezés Van: Változó, értékadás, függvény-fogalom Lehet objektum-orientáltnak is lenni... de csak ha nagyon akar az ember Elágazás Ciklus... de nem szeretjük! R-ben szinte minden, amihez ciklus kell, megoldható anélkül is (és jobb is úgy!)

Programszervezés Van: Változó, értékadás, függvény-fogalom Lehet objektum-orientáltnak is lenni... de csak ha nagyon akar az ember Elágazás Ciklus... de nem szeretjük! R-ben szinte minden, amihez ciklus kell, megoldható anélkül is (és jobb is úgy!)

Programszervezés Van: Változó, értékadás, függvény-fogalom Lehet objektum-orientáltnak is lenni... de csak ha nagyon akar az ember Elágazás Ciklus... de nem szeretjük! R-ben szinte minden, amihez ciklus kell, megoldható anélkül is (és jobb is úgy!)

Programszervezés Van: Változó, értékadás, függvény-fogalom Lehet objektum-orientáltnak is lenni... de csak ha nagyon akar az ember Elágazás Ciklus... de nem szeretjük! R-ben szinte minden, amihez ciklus kell, megoldható anélkül is (és jobb is úgy!)

Adatimport- és export Szinte minden formátumból tudunk olvasni, és írni Webes dolgok is jól működnek (XML, JSON stb. is)

Adatmanipuláció Indexelés (logikai vektorral, pozíciókkal, névvel; valamint mindez negálható is) Összefűzés (oszlop és sor szerint, illetve vektorok egymás mögé) Mintázatgenerálás Már így is elég erőteljes, de a data.table-lel igazán elképesztő

Alapvető adatfeldolgozás Alapvető aritmetika (számokkal és vektorokkal, valamint mátrix-műveletek) Nem-is-annyira-alapvető matematikai műveletek (mátrix spektrálfelbontása, lineáris egyenletrendszerek megoldása stb. mint egy-egy sor) Alapvető sztring-műveletek (hossz, rész-sztring kivágás, reguláris kifejezésekkel keresés stb.)

Konzisztens terminológia Egy modell (lásd később, hogy micsoda, most csak a szintaxis a lényeg): 1 lm ( b i r t h w t $bwt ~ b i r t h w t $ l w t + b i r t h w t $smoke ) Ráadásul csak a fekete anyák körében: 1 lm ( b i r t h w t $bwt [ b i r t h w t $ r a c e==" b l a c k " ] ~ b i r t h w t $ l w t [ b i r t h w t $ r a c e ==" b l a c k " ] + b i r t h w t $smoke [ b i r t h w t $ r a c e==" b l a c k " ] ) Ez azonban ugyanaz mint: 1 lm ( bwt ~ l w t + smoke, data = b i r t h w t, s u b s e t = r a c e==" b l a c k " )

Konzisztens terminológia Egy modell (lásd később, hogy micsoda, most csak a szintaxis a lényeg): 1 lm ( b i r t h w t $bwt ~ b i r t h w t $ l w t + b i r t h w t $smoke ) Ráadásul csak a fekete anyák körében: 1 lm ( b i r t h w t $bwt [ b i r t h w t $ r a c e==" b l a c k " ] ~ b i r t h w t $ l w t [ b i r t h w t $ r a c e ==" b l a c k " ] + b i r t h w t $smoke [ b i r t h w t $ r a c e==" b l a c k " ] ) Ez azonban ugyanaz mint: 1 lm ( bwt ~ l w t + smoke, data = b i r t h w t, s u b s e t = r a c e==" b l a c k " )

Konzisztens terminológia Egy modell (lásd később, hogy micsoda, most csak a szintaxis a lényeg): 1 lm ( b i r t h w t $bwt ~ b i r t h w t $ l w t + b i r t h w t $smoke ) Ráadásul csak a fekete anyák körében: 1 lm ( b i r t h w t $bwt [ b i r t h w t $ r a c e==" b l a c k " ] ~ b i r t h w t $ l w t [ b i r t h w t $ r a c e ==" b l a c k " ] + b i r t h w t $smoke [ b i r t h w t $ r a c e==" b l a c k " ] ) Ez azonban ugyanaz mint: 1 lm ( bwt ~ l w t + smoke, data = b i r t h w t, s u b s e t = r a c e==" b l a c k " )

Tartalom Az R mint programozási nyelv A könyvtárakról általában Lattice rms

Funkcionális programozás az R-ben Valamilyen szinte persze minden multi-paradigm De az R-hez érezhetően nagyon passzol a funkcionális paradigma Függvény átadható gátlástalanul függvénynek paraméterként Függvény alkalmazható listára Nagyon erőteljes tud lenni

Funkcionális programozás az R-ben Valamilyen szinte persze minden multi-paradigm De az R-hez érezhetően nagyon passzol a funkcionális paradigma Függvény átadható gátlástalanul függvénynek paraméterként Függvény alkalmazható listára Nagyon erőteljes tud lenni

Funkcionális programozás az R-ben Valamilyen szinte persze minden multi-paradigm De az R-hez érezhetően nagyon passzol a funkcionális paradigma Függvény átadható gátlástalanul függvénynek paraméterként Függvény alkalmazható listára Nagyon erőteljes tud lenni

Funkcionális programozás az R-ben Valamilyen szinte persze minden multi-paradigm De az R-hez érezhetően nagyon passzol a funkcionális paradigma Függvény átadható gátlástalanul függvénynek paraméterként Függvény alkalmazható listára Nagyon erőteljes tud lenni

Funkcionális programozás az R-ben Valamilyen szinte persze minden multi-paradigm De az R-hez érezhetően nagyon passzol a funkcionális paradigma Függvény átadható gátlástalanul függvénynek paraméterként Függvény alkalmazható listára Nagyon erőteljes tud lenni

Tartalom Az R mint programozási nyelv A könyvtárakról általában Lattice rms

Statisztikai funkciók az R-ben 19 eloszlást ismer (mindegyikre sűrűség-, eloszlás- és kvantilis-függvény, valamint véletlenszám-generálás, egységes terminológiával) Deskriptív statisztika (analitikus mutatók): átlag, medián, szórás, IQR, MAD, tartomány,... Kereszttábla Vizualizáció: hisztogram, magfüggvényes sűrűségbecslése, boxplot, szóródási diagram, QQ-ábra,... Induktív statisztika: számos becslés és hipotézisvizsgálat beépítve

Egydimenziós deskriptív statisztika (analitikus mutatók) 1 mean ( b i r t h w t $bwt ) [1] 2944.587 1 median ( b i r t h w t $bwt ) [1] 2977 1 sd ( b i r t h w t $bwt ) [1] 729.2143

Egydimenziós deskriptív statisztika (analitikus mutatók) 1 mean ( b i r t h w t $bwt ) [1] 2944.587 1 median ( b i r t h w t $bwt ) [1] 2977 1 sd ( b i r t h w t $bwt ) [1] 729.2143

Egydimenziós deskriptív statisztika (analitikus mutatók) 1 mean ( b i r t h w t $bwt ) [1] 2944.587 1 median ( b i r t h w t $bwt ) [1] 2977 1 sd ( b i r t h w t $bwt ) [1] 729.2143

Egydimenziós adatvizualizáció 1 h i s t ( b i r t h w t $bwt ) Histogram of birthwt$bwt Frequency 0 10 20 30 40 1000 2000 3000 4000 5000 birthwt$bwt

Kis kitérő: minden testreszabható (És nagyon konzisztens terminológiával) 1 h i s t ( b i r t h w t $bwt, b r e a k s = seq ( 500, 5500, 750 ), x l a b = " Szü l e t é s i t ömeg [ g ] ", main = "Ú j s z ü l ö t t e k s z ü l e t é s i t ömegé nek e l o s z l á sa ", y l a b = " G y a k o r i s ág [ f ő ] ", c o l = " b l u e ", b o r d e r = " r e d " ) Újszülöttek születési tömegének eloszlása Gyakoriság [fő] 0 10 20 30 40 50 60 70 1000 2000 3000 4000 5000 Születési tömeg [g]

Egydimenziós adatvizualizáció 1 b o x p l o t ( b i r t h w t $bwt ) 1000 2000 3000 4000 5000

Egydimenziós adatvizualizáció 1 p l o t ( d e n s i t y ( b i r t h w t $bwt ) ) density.default(x = birthwt$bwt) Density 0e+00 1e-04 2e-04 3e-04 4e-04 5e-04 0 1000 2000 3000 4000 5000 N = 189 Bandwidth = 230

Kétdimenziós deskriptív statisztika (analitikus mutatók) 1 t a b l e ( b i r t h w t $ race, b i r t h w t $ ht ) 0 1 white 91 5 black 23 3 other 63 4

Kétdimenziós deskriptív statisztika (analitikus mutatók) 1 prop. t a b l e ( t a b l e ( b i r t h w t $ race, b i r t h w t $ ht ), 1 ) 0 1 white 0.94791667 0.05208333 black 0.88461538 0.11538462 other 0.94029851 0.05970149

Kétdimenziós adatvizualizáció 1 p l o t ( b i r t h w t $bwt, b i r t h w t $ l w t ) birthwt$lwt 100 150 200 250 1000 2000 3000 4000 5000 birthwt$bwt

Kétdimenziós adatvizualizáció 1 b o x p l o t ( bwt ~ race, data = b i r t h w t ) 1000 2000 3000 4000 5000 white black other

Induktív statisztika 1 t. t e s t ( low ~ smoke, data = b i r t h w t ) Welch Two Sample t-test data: low by smoke t = -2.1766, df = 141.69, p-value = 0.03117 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.29240371-0.01405928 sample estimates: mean in group 0 mean in group 1 0.2521739 0.4054054

Induktív statisztika 1? t. t e s t x a (non-empty) numeric vector of data values. y an optional (non-empty) numeric vector of data values. alternative a character string specifying the alternative hypothesis, must be one of "two.sided" (default), "greater" or "less". You can specify just the initial letter. mu a number indicating the true value of the mean (or difference in means if you are performing a two sample test). paired a logical indicating whether you want a paired t-test. var.equal a logical variable indicating whether to treat the two variances as being equal. If TRUE then the pooled variance is used to estimate the variance otherwise the Welch (or Satterthwaite) approximation to the degrees of freedom is used. conf.level confidence level of the interval. és így tovább...

Statisztikai modellek az R-ben Számos beépített modell (lineáris modell, általánosított lineáris modell, így logisztikus regresszió és Poisson-regresszió is), például: 1 f i t < lm ( bwt ~ l w t + r a c e + age + smoke, data = b i r t h w t )

Praktikus elemzések automatikusan 1 f i t Call: lm(formula = bwt ~ lwt + race + age + smoke, data = birthwt) Coefficients: (Intercept) lwt raceblack raceother age smoke 2839.433 4.000-510.501-398.644-1.948-401.720

Praktikus elemzések automatikusan 1 summary ( f i t ) Call: lm(formula = bwt ~ lwt + race + age + smoke, data = birthwt) Residuals: Min 1Q Median 3Q Max -2281.9-449.1 24.3 474.1 1746.2 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 2839.433 321.435 8.834 8.2e-16 *** lwt 4.000 1.738 2.301 0.02249 * raceblack -510.501 157.077-3.250 0.00137 ** raceother -398.644 119.579-3.334 0.00104 ** age -1.948 9.820-0.198 0.84299 smoke -401.720 109.241-3.677 0.00031 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 682.1 on 183 degrees of freedom Multiple R-squared: 0.1483,Adjusted R-squared: 0.125 F-statistic: 6.373 on 5 and 183 DF, p-value: 1.758e-05

Praktikus elemzések automatikusan 1 par ( mfrow = c ( 2, 2 ) ) 2 p l o t ( f i t ) Residuals vs Fitted Normal Q-Q Residuals -2000 0 1000 4 226 10 Standardized residuals -3-2 -1 0 1 2 3 10 4 226 2400 2800 3200 3600 Fitted values -3-2 -1 0 1 2 3 Theoretical Quantiles Standardized residuals 0.0 0.5 1.0 1.5 4 Scale-Location 226 10 Standardized residuals -4-3 -2-1 0 1 2 3 Residuals vs Leverage 226 11 4 Cook's distance 0.5 2400 2800 3200 3600 Fitted values 0.00 0.05 0.10 0.15 Leverage

A könyvtárakról általában Lattice rms Tartalom Az R mint programozási nyelv A könyvtárakról általában Lattice rms

A könyvtárakról általában Lattice rms Tartalom Az R mint programozási nyelv A könyvtárakról általában Lattice rms

A könyvtárakról általában Lattice rms Az R-könyvtárak A mai nap 10 146 (!!!) hivatalos könyvtár érthető el (Nyílt forráskód előnye, annak előnye, hogy sokan használják... ) Központi, hivatalos repozitórium (CRAN) Pezsgő élet a Github-on

A könyvtárakról általában Lattice rms Tartalom Az R mint programozási nyelv A könyvtárakról általában Lattice rms

A könyvtárakról általában Lattice rms Adatvizualizáció szépen és tisztán 1 p l o t ( b i r t h w t $bwt, b i r t h w t $ l w t ) birthwt$lwt 100 150 200 250 1000 2000 3000 4000 5000 birthwt$bwt

A könyvtárakról általában Lattice rms Adatvizualizáció szépen és tisztán 1 x y p l o t ( l w t ~ bwt, data = b i r t h w t ) 250 200 lwt 150 100 1000 2000 3000 4000 5000 bwt

A könyvtárakról általában Lattice rms Adatvizualizáció szépen és tisztán 1 x y p l o t ( l w t ~ bwt, data = b i r t h w t, g r o u p s = race, auto. key = l i s t ( columns = 3 ) ) white black other 250 200 lwt 150 100 1000 2000 3000 4000 5000 bwt

A könyvtárakról általában Lattice rms Adatvizualizáció szépen és tisztán 1 x y p l o t ( l w t ~ bwt race, data = b i r t h w t, l a y o u t = c ( 3, 1 ) ) 1000 2000 3000 4000 5000 white black other 250 200 lwt 150 100 1000 2000 3000 4000 5000 bwt 1000 2000 3000 4000 5000

A könyvtárakról általában Lattice rms Adatvizualizáció szépen és tisztán 1 x y p l o t ( l w t ~ bwt, data = b i r t h w t, t y p e = c ( " p ", " smooth " ) ) 250 200 lwt 150 100 1000 2000 3000 4000 5000 bwt

A könyvtárakról általában Lattice rms Adatvizualizáció szépen és tisztán 1 x y p l o t ( l w t ~ bwt, data = b i r t h w t, p a n e l = f u n c t i o n (... ) { 2 p a n e l. x y p l o t (... ) 3 p a n e l. smoother (... ) 4 } ) 250 200 lwt 150 100 1000 2000 3000 4000 5000 bwt

A könyvtárakról általában Lattice rms Tartalom Az R mint programozási nyelv A könyvtárakról általában Lattice rms

A könyvtárakról általában Lattice rms Regressziós modellezés a teljes folyamat átfogva 1 f i t < lm ( bwt ~ l w t + r a c e + age + smoke, data = b i r t h w t ) 2 summary ( f i t ) Call: lm(formula = bwt ~ lwt + race + age + smoke, data = birthwt) Residuals: Min 1Q Median 3Q Max -2281.9-449.1 24.3 474.1 1746.2 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 2839.433 321.435 8.834 8.2e-16 *** lwt 4.000 1.738 2.301 0.02249 * raceblack -510.501 157.077-3.250 0.00137 ** raceother -398.644 119.579-3.334 0.00104 ** age -1.948 9.820-0.198 0.84299 smoke -401.720 109.241-3.677 0.00031 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 682.1 on 183 degrees of freedom Multiple R-squared: 0.1483,Adjusted R-squared: 0.125 F-statistic: 6.373 on 5 and 183 DF, p-value: 1.758e-05

A könyvtárakról általában Lattice rms Regressziós modellezés a teljes folyamat átfogva 1 f i t < o l s ( bwt ~ lwt + r a c e + age + smoke, data = birthwt, x = TRUE, y = TRUE ) 2 f i t Linear Regression Model ols(formula = bwt ~ lwt + race + age + smoke, data = birthwt) Model Likelihood Discrimination Ratio Test Indexes Obs 189 LR chi2 30.34 R2 0.148 sigma682.1065 d.f. 5 R2 adj 0.125 d.f. 183 Pr(> chi2) 0.0000 g 309.962 Residuals Min 1Q Median 3Q Max -2281.9-449.1 24.3 474.1 1746.2 Coef S.E. t Pr(> t ) Intercept 2839.4334 321.4345 8.83 <0.0001 lwt 3.9999 1.7380 2.30 0.0225 race=black -510.5015 157.0768-3.25 0.0014 race=other -398.6439 119.5792-3.33 0.0010 age -1.9478 9.8201-0.20 0.8430 smoke -401.7205 109.2408-3.68 0.0003

A könyvtárakról általában Lattice rms Regressziós modellezés a teljes folyamat átfogva 1 p l o t ( summary ( f i t ), pch = 19 ) lwt - 140:110 bwt -900-700 -500-300 -100 0 100 300 age - 26:19 smoke - 1:0 race - black:white race - other:white

A könyvtárakról általában Lattice rms Regressziós modellezés a teljes folyamat átfogva 1 p < p e n t r a c e ( f i t, seq ( 0, 100, 0. 1 ) ) 2 p l o t ( p ) 3 f i t < update ( f i t, p e n a l t y = p$ p e n a l t y ) Information Criterion (c 2 scale) 5 10 15 20 0 20 40 60 80 100 Penalty Solid: AIC_c Dotted: AIC Dashed: BIC

A könyvtárakról általában Lattice rms Regressziós modellezés a teljes folyamat átfogva 1 f i t < o l s ( bwt ~ l w t + r a c e + r c s ( age ) + smoke, data = b i r t h w t, x = TRUE, y = TRUE ) 2 p l o t ( P r e d i c t ( f i t ), anova = anova ( f i t ), p v a l = TRUE ) race F 2,180 = 8.2 P < 0.001 smoke F 1,180 = 12 P < 0.001 3500 3000 2500 bwt white black other age 0.0 0.2 0.4 0.6 0.8 1.0 lwt F 4,180 = 1.6 P = 0.173 F 1,180 = 5.4 P = 0.022 3500 3000 2500 15 20 25 30 100 120 140 160 180

A könyvtárakról általában Lattice rms Regressziós modellezés a teljes folyamat átfogva 1 p l o t ( c a l i b r a t e ( f i t ) ) Observed bwt 2400 2600 2800 3000 3200 3400 3600 Apparent Bias-corrected Ideal 2400 2600 2800 3000 3200 3400 3600 B= 40 repetitions, boot Predicted bwt Mean absolute error=38.982 n=189

Tartalom Az R mint programozási nyelv A könyvtárakról általában Lattice rms

A Nemzeti Rákregiszter adatainak feldolgozása http://research.physcon.uni-obuda.hu/rakregisztervizualizator/