Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró statisztikák a numerikus változókra, a leiro.csv fájlba kiíratva. Oszlopai: Valtozo_neve : a változó neve, Elemszam: elemszám (hiányzók nélkül), Hianyzok_szama: hiányzó adatok száma, Atlag: átlag, Standard_hiba: standard hiba, Ki_also: konfidencia intervallum alsó határa, Ki_felso: konfidencia intervallum felső határa, Szoras: szórás, Median: medián, Minimum: minimum, Maximum: maximum, Also_kvartilis: alsó kvartilis (25%-os), Felso_kvartilis: felső kvartilis (75%-os), Terjedelem: az adatok terjelme (maximum-minimum), IQR: Interkvarilis terjedelem (felső kvartilis alsó kvartilis), Osszeg: összeg. Leiro_kategorias: Leíró statisztikák két kategóriás változó kategória-kombinációinak megfelelő bontásban, leiro1.csv fájlba kiíratva. Oszlopok: 1
Folytonos_valtozo : a folytonos változó megnevezése, Kategorias_valtozo: a kategóriás változó megnevezése, amely szerinti kategóriákban számolja a program a leíró statisztikákat, Kategoria: a kategóriás változó kategóriája, ugyanazok, mint a Leiro esetén. Leiro_2kategorias: Leíró statisztikák a kategóriás változók kategóriáinak megfelelő bontásban, leiro2.csv fájlba kiíratva. Oszlopok: Folytonos_valtozo : a folytonos változó megnevezése, Kategorias_valtozo1: az egyik kategóriás változó megnevezése, Kategoria1: a Kategorias_valtozo1 kategóriája, Kategorias_valtozo2: a másik kategóriás változó megnevezése, Kategoria2: a Kategorias_valtozo2 kategóriája, ugyanazok, mint a Leiro esetén. Leiro_3kategorias: Leíró statisztikák 3 kategóriás változó kategória-kombinációinak megfelelő bontásban, leiro3.csv fájlba kiíratva. Oszlopok: Folytonos_valtozo : a folytonos változó megnevezése, Kategorias_valtozo1: az egyik kategóriás változó megnevezése, Kategoria1: a Kategorias_valtozo1 kategóriája, Kategorias_valtozo2: a másik kategóriás változó megnevezése, Kategoria2: a Kategorias_valtozo2 kategóriája, Kategorias_valtozo3: a harmadik kategóriás változó megnevezése, Kategoria3: a Kategorias_valtozo3 kategóriája, ugyanazok, mint a Leiro esetén. 2
Outlier: Változónkénti kiugró értékek. Az outlier.csv táblázatba az adattábla kiugró értéket tartalmazó sorai kerülnek leszámítva az IDként megjelölt mezőt. Utolsó előtti (valtozo) oszlopába annak a folytonos változónak a megnevezése, amely szerint outlier az eset, a (sorszam) oszlopban az eset adattáblázatbeli sorszáma, az adott változó átlaga, valamint szórása.. Megjegyzés: Outliernek tekintjük az alsó, illetve felső kvartilistől 1.5 interkvartilis terjedelemnyi távolságnál messzebb eső értékeket. Gyakorisagok_kategorias: Gyakoriságok egy kategóriás változó kategóriáinként, a gyak1.csv fájlba kiíratva. Faktor: a kategóriás változó megnevezése, faktor_szint: a kategóriás változó adott szintje (kategóriája), gyakorisag: elemszám kategóriánként. Gyakorisagok_2kategorias: Gyakoriságok kategóriás változó párok kategória kombinációiként, a gyakorisag_2kategorias.csv fájlba kiíratva. faktor1, faktor2: a két kategóriás változó megnevezése, faktor1_szint, faktor2_szint: a kategóriás változók adott szintje (kategóriája), gyakorisag: elemszám az faktorszintek kombinációjában. Fisher: Fisher egzakt tesztek a kategóriás változók függetlenség vizsgálatára. Esélyhányadosok (OR) és konfidencia-intervallumok 2x2-es táblákra a fisher.csv fájlba kiíratva. 3
faktor1, faktor2: a két kategóriás változó megnevezése, p_ertek: a teszt eredményeként kapott P-érték. Hagyományosan, ha < 0.05, akkor a két változó között statisztikus összefüggés van a minták alapján. OR: esélyhányados, KI_also: az OR-re vonatkozó konfidencia-intervallum alsó határa, KI_felso: az OR-re vonatkozó konfidencia-intervallum alsó határa. Megyjegyzések: (1) A statisztikai függetlenség azt jelenti, hogy az egyik változó megfigyelése nem szolgál információval a másikra nézve, azaz az egyik változó bármely értéke mellett a másik változónak ugyanaz az eloszlása. (2) P-érték: a tesztstatisztika azon értékinek össz-valószínűsége, amelyek a megfigyeltnél jobban ellentmondanak a H 0 -nak a H 1 javára. Esetünkben a H 0 az hogy a két változó független, a H 1 pedig az, hogy nem független. (3) OR: Az esélyhányados két oddsz hányadosa: azt fejezi ki, hogy egy bizonyos csoportban egy eseménynek pl. megbetegedésnek, halálozásnak hányszor akkora az oddsza, mint a referenciacsoportban. Oddsz: egy esemény esetén hányszor akkora a valószínűsége annak, hogy bekövetkezik, mint annak, hogy nem. Csak olyan kategóriás változókra számolható, amelyeknek két kategóriája van. Ha a változók függetlenek, akkor az elméleti OR=1. (4) Konfidencia-intervallum: egy populációs paraméterre vonatkozó olyan értéktartomány, amelybe az adott megbízhatósággal (általában 95%) beleesik. (5) Az esélyhányados értelmezéséhez célszerű a 2 kategóriás gyakoriságokat is kiíratni! Korrelacio (korr.csv): Korrelációs együtthatók és tesztek (Pearson, Spearman, Kendall) numerikus változópárokra. valtozo1,valtozo2: a két numerikus változó, Pearson_R: Pearson-féle korrelációs együttható, Pearson_KI_also: a Pearson-féle korrelációs együtthatóra vonatkozó konfidenciaintervallum alsó határa, Pearson_KI_felso: a Pearson-féle korrelációs együtthatóra vonatkozó konfidenciaintervallum felső határa, 4
Pearson_p_ertek: a Pearson-féle korrelációs együttható nulla voltára vonatkozó teszt eredményeként kapott P-érték. Hagyományosan <0.05 esetén a két változó közötti korrelációs együttható szignifikánsan különbözik 0-tól, azaz a két változó korrelált a minták alapján. Spearman_R: Spearman-féle korrelációs együttható, Spearman_p_ertek: a Spearman-féle korrelációs együttható nulla voltára vonatkozó teszt eredményeként kapott P-érték. (1) A korreláció monoton kapcsolatot jelent két változó között. (2) A lineáris kapcsolat erősségét intervallumskála esetén számszerűen a Pearson-féle korrelációs együtthatóval mérhetjük. (3) Nemlineáris, de monoton kapcsolatok esetén a Spearman-féle rangkorrelációs együtthatót. (4) Mindegyik együttható értéke 1 és +1 közé eshet. A 0 körüli értékek gyenge, a 1-hez közeli értékek erős negatív, az 1-hez közeliek erős pozitív korrelációs kapcsolatokat jeleznek. Hisztogram: Hisztogramok és/vagy simított hisztogramok numerikus változókra. A simított hisztogram jobban közelíti a változó sűrűségfüggvényét, mint a hisztogram. Simított hisztogram esetén az egyedi értékek is megjelennek a vízszintes tengelyen. A parameterek táblázatban adhatjuk meg, hogy milyen típusú hisztogramot szeretnénk. 20-nál kevesebb adat esetén egy egyszerű pontábrát készít a program. (1) Hisztogram: a változó értéktartományát részekre osztjuk, és az egyes részek osztályok gyakoriságait ábrázoljuk megfelelő magasságú oszlopokkal. (2) Ha a változót sokszor megfigyeljük, akkor ott helyezkednek el sűrűbben a megfigyelések, ahol a sűrűségfüggvény értéke nagyobb. (3) Normális eloszlású változó sűrűségfüggvénye haranggörbe (Gauss-görbe) alakú. 5
Hisztogram_kategorias: Hisztogramok és/vagy simított hisztogramok numerikus változókra a kategóriás változók kategóriái szerinti bontásban. Boxplot: Boxplotok numerikus változókra. (1) A boxplot a (kiugró értékek elhagyása utáni) minimumot és maximumot, a kvartiliseket (doboz alja és teteje) és a mediánt (középső vastag vonal) ábrázolja. (2) A kiugró értékeket a karikák jelzik. (3) Az adatok középértéke és szóródása mellett az eloszlás szimmetrikus voltát vagy ferdeséget is jól kivehetően mutatja. (4) Több csoport összehasonlítására is alkalmas. Boxplot_kategorias: Boxplotok numerikus változókra a kategoriás változók kategóriáiként. Boxplot_2kategorias: Boxplotok numerikus változókra két kategoriás változó kategória-kombinációiban. Oszlopdiagram: Oszlopdiagramok a kategóriás változókra. Mozaikabra: Mozaikábra kategóriás változópárokra gyakoriságokkal. Megjegyzés: Az ábra úgy készül, hogy először az első változó szerint veszi az összes gyakoriságot, és ezeknek 6
arányában állapítja meg vízszintes irányban a téglalapok szélességét. Az egyes oszlopokon belül a másik változó értékeinek megoszlása szerint állítja be a téglalapok magasságát. Interakció: Interakciós ábrák kategóriás változók interakciójának vizsgálatára numerikus változónként. (1) Az interakció jelenléte azt jelenti, hogy az első kategóriás változó kategóriáinak (szintjeinek) hatása a 2. kategóriás változó kategóriáiban különböző. Ha nincs interakció, akkor a két változó hatása additív, együttes hatásuk a külön-külön vett hatások egyszerű összege, nincs közöttük kölcsönhatás. Ilyenkor az ábrán közel párhuzamos vonalakat látunk. (2) Az ábrán a folytonos változó átlagait láthatjuk a kategória-kombinációkban. (3) Az azonos típusú vonalak a 2. változó megfelelő szintjét jelölik. Szorasdiagram: Szórásdiagramok numerikus változópárokra simított trendvonallal. Szorasdiagram_kategorias: Szórásdiagramok numerikus változópárokra a kategoriás változók kategóriáinként simított trendvonallal. 7