III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Hasonló dokumentumok
Regressziós vizsgálatok

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Korreláció és lineáris regresszió

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Adatok statisztikai értékelésének főbb lehetőségei

Korrelációs kapcsolatok elemzése

[Biomatematika 2] Orvosi biometria

GVMST22GNC Statisztika II.

Mérési adatok illesztése, korreláció, regresszió

Statisztika elméleti összefoglaló

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Korreláció és Regresszió

Regressziós vizsgálatok

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Matematikai geodéziai számítások 6.

Regresszió számítás az SPSSben

Matematikai geodéziai számítások 6.

IV. Változók és csoportok összehasonlítása

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Többváltozós lineáris regressziós modell feltételeinek

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Bevezetés a Korreláció &

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

KÖVETKEZTETŐ STATISZTIKA

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Kvantitatív statisztikai módszerek

Több valószínűségi változó együttes eloszlása, korreláció

II. A következtetési statisztika alapfogalmai

5. előadás - Regressziószámítás

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

V. Gyakorisági táblázatok elemzése

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Vargha András Károli Gáspár Református Egyetem Budapest

A leíró statisztikák

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Matematikai statisztikai elemzések 6.

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Az állat becsült kor. teljes súly. teljes hossz orrtól. törzs hossza. pocak körkörös méret. hátsó láb hossza kör

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Varianciaanalízis 4/24/12

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Többváltozós Regresszió-számítás

(Independence, dependence, random variables)

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

Lineáris regressziószámítás 1. - kétváltozós eset

[Biomatematika 2] Orvosi biometria

Q1 = 1575 eft Me = 2027,7778 eft Q3 = 2526,3158 eft

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

A többváltozós lineáris regresszió 1.

Statisztika II előadáslapok. 2003/4. tanév, II. félév

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Biometria gyakorló feladatok BsC hallgatók számára

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

11. elıadás ( lecke) 21. lecke. Korreláció és Regresszió (folytatás) Lineáris-e a tendencia? Linearizálható nem-lineáris regressziós függvények

[Biomatematika 2] Orvosi biometria

Normális eloszlás tesztje

A valószínűségszámítás elemei

BIOMATEMATIKA ELŐADÁS

Elemi statisztika fizikusoknak

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

y ij = µ + α i + e ij

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Kutatásmódszertan és prezentációkészítés

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Van-e kapcsolat a változók között? (példák: fizetés-távolság; felvételi pontszám - görgetett átlag)

LINEÁRIS REGRESSZIÓ (I. MODELL) ÉS KORRELÁCIÓ FELADATOK

Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Alkalmazott statisztika feladatok

A regisztrált álláskeresők számára vonatkozó becslések előrejelző képességének vizsgálata

Regresszió. Fő cél: jóslás Történhet:

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Korreláció számítás az SPSSben

Függetlenségvizsgálat, Illeszkedésvizsgálat

Segítség az outputok értelmezéséhez

Változók közötti kapcsolat III.: a folytonos eset. Regresszió és korreláció.

Abszolút folytonos valószín ségi változó (4. el adás)

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Számítógépes döntéstámogatás. Statisztikai elemzés

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Least Squares becslés

Dr. Kalló Noémi. Termelés- és szolgáltatásmenedzsment. egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék. Dr.

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Átírás:

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Tartalom Változók kapcsolata Kétdimenziós minta (pontdiagram) Regressziós előrejelzés (predikció) Korreláció

Tanuló Kétdimenziós minta Tanulással töltött idő (óra/nap) Tanulmányi átlag 1. 2 3,0 2. 4 4,0 3. 2 4,0 4. 4 3,0 5. 1 3,5 6. 3 2,5 7. 5 3,0 8. 3 5,0

Pontdiagram (kétváltozós) Tanulmányi átlag 5 4 3 2 0 1 2 3 4 5 Hány órát tanul naponta?

Pozitív lineáris kapcsolat (I.) Születési hossz (cm) 55 50 45 40 35 1 2 3 4 5 Születési súly (kg)

Pozitív lineáris kapcsolat (II.) Testmag. 10 évesen 145 140 135 130 125 120 115 20 25 30 35 40 45 Testsúly 10 éves korban (kg)

Nem lineáris (U-alakú) kapcsolat Y -3 0 3 X

Függetlenség 1 80 Y Y 0,5 50 0 X 0 0,5 1 20 20 50 80 X

Összefüggés, kapcsolat két változó (X és Y) között Az X-értékek és az Y-értékek együttjárása, együttmozgása, együttváltozása valamilyen szabály szerint

0 Mi a szabály az alábbi két változó kapcsolatában? Születési hossz (cm) 55 50 45 40 35 1 2 3 4 5 Születési súly (kg)

1 Mire jó, ha egy ilyen szabályt feltárunk? Megértünk valamit (elméleti szempont) Segítségével következtetéseket vonhatunk le (gyakorlati szempont). Pl.: ha X értéke ennyi, Y értéke mennyi?

2 Előrejelzés egyenes segítségével: ha X = 2, Y =? Születési hossz (cm) Y 55 50 45 40 35 1 2 3 4 5 Születési súly (kg) X

3 Regressziós feladat Az X és az Y változó között az összefüggés szabályának kitalálása: hogyan függ X-től Y? A függés nem feltétlenül ok-okozati (pl. a gyerekről is lehet a szülőre következtetni) A függés típusa többféle lehet: pl. lineáris vagy sokféle nemlineáris (U-alakú, szinuszoid, exponenciális, logaritmikus stb.)

4 Az előrejelzés alapfogalmai Jósolt (függő) változó: Y Jósló (előrejelző, független) változó: X Lineáris előrejelzés (jóslás): Ŷ = a + bx Az x értékhez tartozó igazi Y-érték: y Az x értékhez tartozó előrejelzés: ŷ = a + bx

5 Egy y = a + bx egyenes paraméterei Y 320 240 160 80 a 0 0 1 2 3 4 5 X a : Y-tengelymetszet b : meredekségi együttható: b = tg(

6 A lineáris kapcsolat jellemzője Nem mindig egyenes arányosság Azonos mértékű X-változást mindig azonos mértékű Y-változás kísér 1 egységnyi X-változás esetén Y várható változása b egységnyi

7 Példa lineáris regresszióra Változó Átlag Variancia X: ThosszSzül 50,2 6,4 Y: Thossz10 138,7 41,5 Regressziós egyenlet: Ŷ = 96,88 + 0,83X Következtetés (előrejelzés): Ha X = 45: Ŷ = 96,88 + 0,83 45 = 134,23 (cm) GYAK

8 A regressziós becslés átlagos hibája: a standard hiba Ha egy személynél a becsült (előrejelzett) 10 éves kori testmagasság 151 cm (Ŷ) és a valódi érték 146 cm (Y), akkor a hiba: Abszolút eltérés: 151-146 = 5 cm Négyzetes eltérés: (151-146) 2 = 5 2 = 25 cm 2 Átlagos négyzetes eltérés = Hibavariancia = Res Hibaszórás = Gyök(hibavariancia) = Standard hiba

9 Változó Példák lineáris regresszióra Átlag Variancia Regressziós egyenlet X: ThosszSzül 50,2 6,4 Ŷ = 96,88 + 0,83X Y: Thossz10 138,7 41,5 Res = 37,09, SH = 6,1 cm X: Anyatesth 161,1 38,3 Ŷ = 77,66 + 0,38X Y: Thossz10 138,7 41,5 Res = 36,02, SH = 6,0 cm X: Apatesth 173,4 46,0 Ŷ = 78,42 + 0,35X Y: Thossz10 138,7 41,5 Res = 35,96, SH = 6,0 cm X: Tsúly10 33,2 46,4 Ŷ = 117,90 + 0,626X Y: Thossz10 138,7 41,5 Res = 23,33, SH = 4,8 cm Melyik előrejelzés a legjobb Y-ra a fenti 4 közül? GYAK

0 A regressziós becslés standard hibája a lehető legkisebb A regressziós becslés standard hibája adott függvénytípus (pl. lineáris) esetén az összes azonos típusú becslés hibája közül a legkisebb. Pl. egyetlen egyenes standard hibája sem lehet kisebb, mint a regressziós egyenesé. Az összes egyenes közül a regressziós egyenes illeszkedik a legjobban a pontdiagram pontjaira.

1 Var(Y) és Res jelentése Var(Y): átlagtól való átlagos négyzetes eltérés = átlaggal való becslés hibavarianciája. (!!!) SH 2 = Res: regressziós becslés hibavarianciája. Minél kisebb Var(Y)-nál Res, annál jobb a regressziós becslés Hibacsökkenés: Var(Y) Res Relatív hibacsökkenés: (Var(Y) Res)/Var(Y)

2 Példák Változó Átlag Variancia Res SH RHCS X: ThosszSzül 50,2 6,4 Y: Thossz10 138,7 41,5 37,09 6,1 0,107 X: Anyatesth 161,1 38,3 Y: Thossz10 138,7 41,5 36,02 6,0 0,132 X: Apatesth 173,4 46,0 Y: Thossz10 138,7 41,5 35,96 6,0 0,134 X: Tsúly10 33,2 46,4 Y: Thossz10 138,7 41,5 23,33 4,8 0,438 GYAK

3 A determinációs együttható Hibacsökkenés: Var(Y) Res Megmagyarázott variancia Relatív hibacsökkenés: (Var(Y) Res)/Var(Y) Megmagyarázott variancia-arány Determinációs együttható: Det(X, Y) Minél nagyobb Det(X, Y), annál jobb a regressziós becslés, annál szorosabb kapcsolat van X és Y között.

4 A determinációs együttható Jól mutatja, hogy Y milyen mértékben függ lineárisan X-től, hogy X milyen mértékben határozza meg, determinálja Y-t. Jelzi, hogy az X és az Y változó milyen mértékben határozza meg egymást, vagy másképpen: X és Y milyen szoros lineáris típusú kapcsolatban van egymással. 0 Det(X, Y) 1, Det(X, Y) = Det(Y, X)

5 A korrelációs együttható A korrelációs együttható abszolút értéke a determinációs együttható négyzetgyöke: r Det(X,Y) A korrelációs együttható előjele megegyezik a regresszió meredekségi együtthatójának (b) előjelével: Pozitív trend: +, negatív trend:

6 Szokásos jelölés Mintabeli (tapasztalati) korrelációs együttható: r (Pearson-féle r) Populációbeli (elméleti) korrelációs együttható: ρ (ejtsd: ró). Mit mér a korrelációs együttható? A lineáris típusú kapcsolat szorosságát.

7 Egy korrelációs mátrix (n = 500) Változó Súly0 Súly10 Tmag0 Tmag10 Súly0 1 0,16 0,79 0,24 Súly10 0,16 1 0,23 0,66 Tmag0 0,79 0,23 1 0,33 Tmag10 0,24 0,66 0,33 1

8 Néhány tipikus korreláció Változók (X és Y) Korreláció IQ és egyetemi előmenetel 0,3 0,5 Egypetéjű, együtt nevelt ikrek IQ-ja 0,86 Együtt nevelt testvérek IQ-ja 0,47 Külön nevelt testvérek IQ-ja 0,24 CPI Jó közérzet skálája és a házassággal való elégedettség 0,25 0,35 Vallásgyakorlat és istenhit 0,68 Vallásgyakorlat és vallási kultúra ismerete 0,03 Férj és feleség testsúlya 0,22

9

0

1

2

3

4 A korrelációs együttható jellemzői -1 r 1, -1 1 Ha X és Y független, akkor (X,Y) = 0. Ha (X,Y) = 0, vagyis ha X és Y korrelálatlan, akkor nem feltétlenül függetlenek, de biztos, hogy nincs köztük lineáris típusú összefüggés (U vagy fordított U alakú kapcsolatban persze lehetnek). Ha X és Y együttes eloszlása normális, azaz bármely rögzített X = x mellett Y normális, akkor a függetlenség és a korrelálatlanság ekvivalens.

5 A lineáris transzformáció hatása a korrelációs együtthatóra Lineáris transzformációk: Szám hozzáadása a változóhoz: Y = X + 100 Változó számmal szorzása: Y = 10X Ezek kombinációja: Y = 50 + 3X ρ és r abszolút értéke nem változik, legfeljebb az előjele

6 A korrelációs együttható szignifikanciájának vizsgálata Nullhipotézis: H 0 : ρ = 0 Döntés alapja: egy n-elemű mintában kiszámított korrelációs együttható (r) Mitől függ H 0 elutasíthatósága? Az r együttható nagysága Az f szabadságfok nagysága (f = n - 2)

7 A H 0 : = 0 hipotézis vizsgálata X-minta r kiszámítása (f = n 2) Feltétel: X és Y együttes eloszlása legyen normális r 0,05 : 5%-os kritikus érték r -r 0,05 r < r r 0,05 r 0,05 H 1 : < 0 H 0 H 2 : > 0

8 Korrelációs mátrix szignifikanciákkal Lányok (n = 256) SúlySzül Súly10 MamaSúly 0,289*** 0,201** PapaSúly 0,097 0,282*** MamaTmag 0,213*** 0,121+ PapaTmag 0,126* 0,140* (f = 254; +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001) GYAK

9 Korrelációs mátrix p-értékekkel Lányok (n = 256) SúlySzül Súly10 MamaTmag 0,213*** p=0,0006 PapaTmag 0,126* p=0,0443 0,121+ p=0,0532 0,140* p=0,0251 (f = 254; +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001) GYAK

0 Intervallumbecslés -ra A nullhipotézis elutasítása csak annyit jelent, hogy valószínűleg ρ 0. Ez nem sokat mond nekünk. 95%-os konfidencia-intervallum (hol kell keresnünk nagy (95%-os) megbízhatósággal ρ-t? C 0,95 = (r a ; r f ) Pl. n = 500, r = 0,79 esetén: C 0,95 = (0,75; 0,82) Pl. n = 16, r = -0,87 esetén: C 0,95 = (-0,96; -0,65) GYAK

1 A korreláció nem feltétlenül oki kapcsolat, csak egy együttjárás Ha pl. > 0, akkor három eset lehetséges: a) X pozitív hatással van Y-ra b) Y pozitív hatással van X-re c) Valamilyen háttérváltozó hat egyidejűleg X-re és Y-ra

2 Mit csináljunk, ha a változók normalitása sérül? Wilcox-féle robusztus korreláció (r pb ) Rangkorrelációk (monotonitási mérőszámok) Feltétel: minimum ordinális skála