Segítség az outputok értelmezéséhez



Hasonló dokumentumok
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A leíró statisztikák

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Kutatásmódszertan és prezentációkészítés

Elemi statisztika fizikusoknak

[Biomatematika 2] Orvosi biometria

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Biomatematika 2 Orvosi biometria

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Alkalmazott statisztika feladatok

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Varianciaanalízis 4/24/12

y ij = µ + α i + e ij

Normális eloszlás tesztje

[Biomatematika 2] Orvosi biometria

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

[Biomatematika 2] Orvosi biometria

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

(Independence, dependence, random variables)

A konfidencia intervallum képlete: x± t( α /2, df )

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Mérési adatok illesztése, korreláció, regresszió

A valószínűségszámítás elemei

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Grafikonok az R-ben március 7.

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Biostatisztika VIII. Mátyus László. 19 October

- BESZÁMOLÓ - ALKALMAZOTT GEOMATEMATIKA, MODELLEZÉS ÉS SZIMULÁCIÓ C. TANTÁRGYHOZ. Készítette: BERTALAN LÁSZLÓ Geográfus MSc. I. évf. DEBRECEN 2011.

Korrelációs kapcsolatok elemzése

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Vizuális adatelemzés

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Változók eloszlása, középértékek, szóródás

Többváltozós lineáris regressziós modell feltételeinek

Biometria gyakorló feladatok BsC hallgatók számára

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Biostatisztika Összefoglalás

Biostatisztika Összefoglalás

Van-e kapcsolat a változók között? (példák: fizetés-távolság; felvételi pontszám - görgetett átlag)

Matematikai statisztika

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Bevezetés a hipotézisvizsgálatokba

Iskolai jelentés. 10. évfolyam szövegértés

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Vargha András Károli Gáspár Református Egyetem Budapest

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Regressziós vizsgálatok

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

6. Előadás. Vereb György, DE OEC BSI, október 12.

Centura Szövegértés Teszt

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Iskolai jelentés. 10. évfolyam szövegértés

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztikai szoftverek esszé

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Szövegértés. Borsos Miklós Általános Iskola OM azonosító: Telephelyi jelentés Telephely kódja: 003. Általános iskola, 6.

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

Adatok statisztikai értékelésének főbb lehetőségei

Korreláció és lineáris regresszió

13. előadás. Matlab 7. (Statisztika, regresszió, mérési adatok feldolgozása) Dr. Szörényi Miklós, Dr. Kallós Gábor. Széchenyi István Egyetem

Eseményalgebra. Esemény: minden amirl a kísérlet elvégzése során eldönthet egyértelmen hogy a kísérlet során bekövetkezett-e vagy sem.

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

FIT-jelentés :: Arany János Általános Iskola és Gimnázium 2440 Százhalombatta, Szent István tér 1. OM azonosító: Intézményi jelentés

Kompetencia osztály MATEMATIKA. Az intézmények átlageredményeinek összehasonlítása

Szövegértés. Xántus János Két Tanítási Nyelvű Gimnázium és Szakgimnázium OM azonosító: Telephelyi jelentés Telephely kódja: 001

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

FIT-jelentés :: Bajza József Általános Iskola 1046 Budapest, Bajza u. 2. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

FIT-jelentés :: Néri Szent Fülöp Katolikus Általános Iskola 1161 Budapest, Béla u. 23. OM azonosító: Telephely kódja: 001

FIT-jelentés :: VÖRÖSMARTY MIHÁLY GIMNÁZIUM 2030 Érd, Széchenyi tér 1. OM azonosító: Intézményi jelentés. 10.

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

FIT-jelentés :: Érdi Vörösmarty Mihály Gimnázium 2030 Érd, Széchenyi tér 1. OM azonosító: Intézményi jelentés. 10.

FIT-jelentés :: Tatabányai Árpád Gimnázium 2800 Tatabánya, Fő tér 1. OM azonosító: Intézményi jelentés. 10. évfolyam

FIT-jelentés :: Ciszterci Szent István Gimnázium 8000 Székesfehérvár, Jókai utca 20. OM azonosító: Intézményi jelentés. 10.

FIT-jelentés :: Arany János Általános Iskola és Gimnázium 2440 Százhalombatta, Szent István tér 1. OM azonosító: Intézményi jelentés

FIT-jelentés :: Stromfeld Aurél Általános Iskola 1202 Budapest, Mártirok u OM azonosító: Telephely kódja: 001. Telephelyi jelentés

FIT-jelentés :: Százhalombattai Arany János Általános Iskola és Gimnázium 2440 Százhalombatta, Szent István tér 1. OM azonosító:

FIT-jelentés :: Bolyai János Gimnázium és Kereskedelmi Szakközépiskola 2364 Ócsa, Falu Tamás u. 35. OM azonosító: Intézményi jelentés

Nemparametrikus tesztek december 3.

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

FIT-jelentés :: Szász Ferenc Kereskedelmi Szakközépiskola és Szakiskola 1087 Budapest, Szörény utca 2-4. OM azonosító:

Matematika. Xántus János Két Tanítási Nyelvű Gimnázium és Szakgimnázium OM azonosító: Telephelyi jelentés Telephely kódja: 001

FIT-jelentés :: Ócsai Bolyai János Gimnázium 2364 Ócsa, Falu Tamás utca 35. OM azonosító: Intézményi jelentés. 10.

FIT-jelentés :: Corvin Mátyás Gimnázium és Műszaki Szakközépiskola 1165 Budapest, Mátyás király tér 4. OM azonosító: Intézményi jelentés

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

1/8. Iskolai jelentés. 10.évfolyam matematika

FIT-jelentés :: Révai Miklós Gimnázium és Kollégium 9021 Győr, Jókai út 21. OM azonosító: Intézményi jelentés. 10.

Átírás:

Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró statisztikák a numerikus változókra, a leiro.csv fájlba kiíratva. Oszlopai: Valtozo_neve : a változó neve, Elemszam: elemszám (hiányzók nélkül), Hianyzok_szama: hiányzó adatok száma, Atlag: átlag, Standard_hiba: standard hiba, Ki_also: konfidencia intervallum alsó határa, Ki_felso: konfidencia intervallum felső határa, Szoras: szórás, Median: medián, Minimum: minimum, Maximum: maximum, Also_kvartilis: alsó kvartilis (25%-os), Felso_kvartilis: felső kvartilis (75%-os), Terjedelem: az adatok terjelme (maximum-minimum), IQR: Interkvarilis terjedelem (felső kvartilis alsó kvartilis), Osszeg: összeg. Leiro_kategorias: Leíró statisztikák két kategóriás változó kategória-kombinációinak megfelelő bontásban, leiro1.csv fájlba kiíratva. Oszlopok: 1

Folytonos_valtozo : a folytonos változó megnevezése, Kategorias_valtozo: a kategóriás változó megnevezése, amely szerinti kategóriákban számolja a program a leíró statisztikákat, Kategoria: a kategóriás változó kategóriája, ugyanazok, mint a Leiro esetén. Leiro_2kategorias: Leíró statisztikák a kategóriás változók kategóriáinak megfelelő bontásban, leiro2.csv fájlba kiíratva. Oszlopok: Folytonos_valtozo : a folytonos változó megnevezése, Kategorias_valtozo1: az egyik kategóriás változó megnevezése, Kategoria1: a Kategorias_valtozo1 kategóriája, Kategorias_valtozo2: a másik kategóriás változó megnevezése, Kategoria2: a Kategorias_valtozo2 kategóriája, ugyanazok, mint a Leiro esetén. Leiro_3kategorias: Leíró statisztikák 3 kategóriás változó kategória-kombinációinak megfelelő bontásban, leiro3.csv fájlba kiíratva. Oszlopok: Folytonos_valtozo : a folytonos változó megnevezése, Kategorias_valtozo1: az egyik kategóriás változó megnevezése, Kategoria1: a Kategorias_valtozo1 kategóriája, Kategorias_valtozo2: a másik kategóriás változó megnevezése, Kategoria2: a Kategorias_valtozo2 kategóriája, Kategorias_valtozo3: a harmadik kategóriás változó megnevezése, Kategoria3: a Kategorias_valtozo3 kategóriája, ugyanazok, mint a Leiro esetén. 2

Outlier: Változónkénti kiugró értékek. Az outlier.csv táblázatba az adattábla kiugró értéket tartalmazó sorai kerülnek leszámítva az IDként megjelölt mezőt. Utolsó előtti (valtozo) oszlopába annak a folytonos változónak a megnevezése, amely szerint outlier az eset, a (sorszam) oszlopban az eset adattáblázatbeli sorszáma, az adott változó átlaga, valamint szórása.. Megjegyzés: Outliernek tekintjük az alsó, illetve felső kvartilistől 1.5 interkvartilis terjedelemnyi távolságnál messzebb eső értékeket. Gyakorisagok_kategorias: Gyakoriságok egy kategóriás változó kategóriáinként, a gyak1.csv fájlba kiíratva. Faktor: a kategóriás változó megnevezése, faktor_szint: a kategóriás változó adott szintje (kategóriája), gyakorisag: elemszám kategóriánként. Gyakorisagok_2kategorias: Gyakoriságok kategóriás változó párok kategória kombinációiként, a gyakorisag_2kategorias.csv fájlba kiíratva. faktor1, faktor2: a két kategóriás változó megnevezése, faktor1_szint, faktor2_szint: a kategóriás változók adott szintje (kategóriája), gyakorisag: elemszám az faktorszintek kombinációjában. Fisher: Fisher egzakt tesztek a kategóriás változók függetlenség vizsgálatára. Esélyhányadosok (OR) és konfidencia-intervallumok 2x2-es táblákra a fisher.csv fájlba kiíratva. 3

faktor1, faktor2: a két kategóriás változó megnevezése, p_ertek: a teszt eredményeként kapott P-érték. Hagyományosan, ha < 0.05, akkor a két változó között statisztikus összefüggés van a minták alapján. OR: esélyhányados, KI_also: az OR-re vonatkozó konfidencia-intervallum alsó határa, KI_felso: az OR-re vonatkozó konfidencia-intervallum alsó határa. Megyjegyzések: (1) A statisztikai függetlenség azt jelenti, hogy az egyik változó megfigyelése nem szolgál információval a másikra nézve, azaz az egyik változó bármely értéke mellett a másik változónak ugyanaz az eloszlása. (2) P-érték: a tesztstatisztika azon értékinek össz-valószínűsége, amelyek a megfigyeltnél jobban ellentmondanak a H 0 -nak a H 1 javára. Esetünkben a H 0 az hogy a két változó független, a H 1 pedig az, hogy nem független. (3) OR: Az esélyhányados két oddsz hányadosa: azt fejezi ki, hogy egy bizonyos csoportban egy eseménynek pl. megbetegedésnek, halálozásnak hányszor akkora az oddsza, mint a referenciacsoportban. Oddsz: egy esemény esetén hányszor akkora a valószínűsége annak, hogy bekövetkezik, mint annak, hogy nem. Csak olyan kategóriás változókra számolható, amelyeknek két kategóriája van. Ha a változók függetlenek, akkor az elméleti OR=1. (4) Konfidencia-intervallum: egy populációs paraméterre vonatkozó olyan értéktartomány, amelybe az adott megbízhatósággal (általában 95%) beleesik. (5) Az esélyhányados értelmezéséhez célszerű a 2 kategóriás gyakoriságokat is kiíratni! Korrelacio (korr.csv): Korrelációs együtthatók és tesztek (Pearson, Spearman, Kendall) numerikus változópárokra. valtozo1,valtozo2: a két numerikus változó, Pearson_R: Pearson-féle korrelációs együttható, Pearson_KI_also: a Pearson-féle korrelációs együtthatóra vonatkozó konfidenciaintervallum alsó határa, Pearson_KI_felso: a Pearson-féle korrelációs együtthatóra vonatkozó konfidenciaintervallum felső határa, 4

Pearson_p_ertek: a Pearson-féle korrelációs együttható nulla voltára vonatkozó teszt eredményeként kapott P-érték. Hagyományosan <0.05 esetén a két változó közötti korrelációs együttható szignifikánsan különbözik 0-tól, azaz a két változó korrelált a minták alapján. Spearman_R: Spearman-féle korrelációs együttható, Spearman_p_ertek: a Spearman-féle korrelációs együttható nulla voltára vonatkozó teszt eredményeként kapott P-érték. (1) A korreláció monoton kapcsolatot jelent két változó között. (2) A lineáris kapcsolat erősségét intervallumskála esetén számszerűen a Pearson-féle korrelációs együtthatóval mérhetjük. (3) Nemlineáris, de monoton kapcsolatok esetén a Spearman-féle rangkorrelációs együtthatót. (4) Mindegyik együttható értéke 1 és +1 közé eshet. A 0 körüli értékek gyenge, a 1-hez közeli értékek erős negatív, az 1-hez közeliek erős pozitív korrelációs kapcsolatokat jeleznek. Hisztogram: Hisztogramok és/vagy simított hisztogramok numerikus változókra. A simított hisztogram jobban közelíti a változó sűrűségfüggvényét, mint a hisztogram. Simított hisztogram esetén az egyedi értékek is megjelennek a vízszintes tengelyen. A parameterek táblázatban adhatjuk meg, hogy milyen típusú hisztogramot szeretnénk. 20-nál kevesebb adat esetén egy egyszerű pontábrát készít a program. (1) Hisztogram: a változó értéktartományát részekre osztjuk, és az egyes részek osztályok gyakoriságait ábrázoljuk megfelelő magasságú oszlopokkal. (2) Ha a változót sokszor megfigyeljük, akkor ott helyezkednek el sűrűbben a megfigyelések, ahol a sűrűségfüggvény értéke nagyobb. (3) Normális eloszlású változó sűrűségfüggvénye haranggörbe (Gauss-görbe) alakú. 5

Hisztogram_kategorias: Hisztogramok és/vagy simított hisztogramok numerikus változókra a kategóriás változók kategóriái szerinti bontásban. Boxplot: Boxplotok numerikus változókra. (1) A boxplot a (kiugró értékek elhagyása utáni) minimumot és maximumot, a kvartiliseket (doboz alja és teteje) és a mediánt (középső vastag vonal) ábrázolja. (2) A kiugró értékeket a karikák jelzik. (3) Az adatok középértéke és szóródása mellett az eloszlás szimmetrikus voltát vagy ferdeséget is jól kivehetően mutatja. (4) Több csoport összehasonlítására is alkalmas. Boxplot_kategorias: Boxplotok numerikus változókra a kategoriás változók kategóriáiként. Boxplot_2kategorias: Boxplotok numerikus változókra két kategoriás változó kategória-kombinációiban. Oszlopdiagram: Oszlopdiagramok a kategóriás változókra. Mozaikabra: Mozaikábra kategóriás változópárokra gyakoriságokkal. Megjegyzés: Az ábra úgy készül, hogy először az első változó szerint veszi az összes gyakoriságot, és ezeknek 6

arányában állapítja meg vízszintes irányban a téglalapok szélességét. Az egyes oszlopokon belül a másik változó értékeinek megoszlása szerint állítja be a téglalapok magasságát. Interakció: Interakciós ábrák kategóriás változók interakciójának vizsgálatára numerikus változónként. (1) Az interakció jelenléte azt jelenti, hogy az első kategóriás változó kategóriáinak (szintjeinek) hatása a 2. kategóriás változó kategóriáiban különböző. Ha nincs interakció, akkor a két változó hatása additív, együttes hatásuk a külön-külön vett hatások egyszerű összege, nincs közöttük kölcsönhatás. Ilyenkor az ábrán közel párhuzamos vonalakat látunk. (2) Az ábrán a folytonos változó átlagait láthatjuk a kategória-kombinációkban. (3) Az azonos típusú vonalak a 2. változó megfelelő szintjét jelölik. Szorasdiagram: Szórásdiagramok numerikus változópárokra simított trendvonallal. Szorasdiagram_kategorias: Szórásdiagramok numerikus változópárokra a kategoriás változók kategóriáinként simított trendvonallal. 7