III. Kvantitatív változók kapcsolata (korreláció, regresszió)
Tartalom Változók kapcsolata Kétdimenziós minta (pontdiagram) Regressziós előrejelzés (predikció) Korreláció
Tanuló Kétdimenziós minta Tanulással töltött idő (óra/nap) Tanulmányi átlag 1. 2 3,0 2. 4 4,0 3. 2 4,0 4. 4 3,0 5. 1 3,5 6. 3 2,5 7. 5 3,0 8. 3 5,0
Pontdiagram (kétváltozós) Tanulmányi átlag 5 4 3 2 0 1 2 3 4 5 Hány órát tanul naponta?
Pozitív lineáris kapcsolat (I.) Születési hossz (cm) 55 50 45 40 35 1 2 3 4 5 Születési súly (kg)
Pozitív lineáris kapcsolat (II.) Testmag. 10 évesen 145 140 135 130 125 120 115 20 25 30 35 40 45 Testsúly 10 éves korban (kg)
Nem lineáris (U-alakú) kapcsolat Y -3 0 3 X
Függetlenség 1 80 Y Y 0,5 50 0 X 0 0,5 1 20 20 50 80 X
Összefüggés, kapcsolat két változó (X és Y) között Az X-értékek és az Y-értékek együttjárása, együttmozgása, együttváltozása valamilyen szabály szerint
0 Mi a szabály az alábbi két változó kapcsolatában? Születési hossz (cm) 55 50 45 40 35 1 2 3 4 5 Születési súly (kg)
1 Mire jó, ha egy ilyen szabályt feltárunk? Megértünk valamit (elméleti szempont) Segítségével következtetéseket vonhatunk le (gyakorlati szempont). Pl.: ha X értéke ennyi, Y értéke mennyi?
2 Előrejelzés egyenes segítségével: ha X = 2, Y =? Születési hossz (cm) Y 55 50 45 40 35 1 2 3 4 5 Születési súly (kg) X
3 Regressziós feladat Az X és az Y változó között az összefüggés szabályának kitalálása: hogyan függ X-től Y? A függés nem feltétlenül ok-okozati (pl. a gyerekről is lehet a szülőre következtetni) A függés típusa többféle lehet: pl. lineáris vagy sokféle nemlineáris (U-alakú, szinuszoid, exponenciális, logaritmikus stb.)
4 Az előrejelzés alapfogalmai Jósolt (függő) változó: Y Jósló (előrejelző, független) változó: X Lineáris előrejelzés (jóslás): Ŷ = a + bx Az x értékhez tartozó igazi Y-érték: y Az x értékhez tartozó előrejelzés: ŷ = a + bx
5 Egy y = a + bx egyenes paraméterei Y 320 240 160 80 a 0 0 1 2 3 4 5 X a : Y-tengelymetszet b : meredekségi együttható: b = tg(
6 A lineáris kapcsolat jellemzője Nem mindig egyenes arányosság Azonos mértékű X-változást mindig azonos mértékű Y-változás kísér 1 egységnyi X-változás esetén Y várható változása b egységnyi
7 Példa lineáris regresszióra Változó Átlag Variancia X: ThosszSzül 50,2 6,4 Y: Thossz10 138,7 41,5 Regressziós egyenlet: Ŷ = 96,88 + 0,83X Következtetés (előrejelzés): Ha X = 45: Ŷ = 96,88 + 0,83 45 = 134,23 (cm) GYAK
8 A regressziós becslés átlagos hibája: a standard hiba Ha egy személynél a becsült (előrejelzett) 10 éves kori testmagasság 151 cm (Ŷ) és a valódi érték 146 cm (Y), akkor a hiba: Abszolút eltérés: 151-146 = 5 cm Négyzetes eltérés: (151-146) 2 = 5 2 = 25 cm 2 Átlagos négyzetes eltérés = Hibavariancia = Res Hibaszórás = Gyök(hibavariancia) = Standard hiba
9 Változó Példák lineáris regresszióra Átlag Variancia Regressziós egyenlet X: ThosszSzül 50,2 6,4 Ŷ = 96,88 + 0,83X Y: Thossz10 138,7 41,5 Res = 37,09, SH = 6,1 cm X: Anyatesth 161,1 38,3 Ŷ = 77,66 + 0,38X Y: Thossz10 138,7 41,5 Res = 36,02, SH = 6,0 cm X: Apatesth 173,4 46,0 Ŷ = 78,42 + 0,35X Y: Thossz10 138,7 41,5 Res = 35,96, SH = 6,0 cm X: Tsúly10 33,2 46,4 Ŷ = 117,90 + 0,626X Y: Thossz10 138,7 41,5 Res = 23,33, SH = 4,8 cm Melyik előrejelzés a legjobb Y-ra a fenti 4 közül? GYAK
0 A regressziós becslés standard hibája a lehető legkisebb A regressziós becslés standard hibája adott függvénytípus (pl. lineáris) esetén az összes azonos típusú becslés hibája közül a legkisebb. Pl. egyetlen egyenes standard hibája sem lehet kisebb, mint a regressziós egyenesé. Az összes egyenes közül a regressziós egyenes illeszkedik a legjobban a pontdiagram pontjaira.
1 Var(Y) és Res jelentése Var(Y): átlagtól való átlagos négyzetes eltérés = átlaggal való becslés hibavarianciája. (!!!) SH 2 = Res: regressziós becslés hibavarianciája. Minél kisebb Var(Y)-nál Res, annál jobb a regressziós becslés Hibacsökkenés: Var(Y) Res Relatív hibacsökkenés: (Var(Y) Res)/Var(Y)
2 Példák Változó Átlag Variancia Res SH RHCS X: ThosszSzül 50,2 6,4 Y: Thossz10 138,7 41,5 37,09 6,1 0,107 X: Anyatesth 161,1 38,3 Y: Thossz10 138,7 41,5 36,02 6,0 0,132 X: Apatesth 173,4 46,0 Y: Thossz10 138,7 41,5 35,96 6,0 0,134 X: Tsúly10 33,2 46,4 Y: Thossz10 138,7 41,5 23,33 4,8 0,438 GYAK
3 A determinációs együttható Hibacsökkenés: Var(Y) Res Megmagyarázott variancia Relatív hibacsökkenés: (Var(Y) Res)/Var(Y) Megmagyarázott variancia-arány Determinációs együttható: Det(X, Y) Minél nagyobb Det(X, Y), annál jobb a regressziós becslés, annál szorosabb kapcsolat van X és Y között.
4 A determinációs együttható Jól mutatja, hogy Y milyen mértékben függ lineárisan X-től, hogy X milyen mértékben határozza meg, determinálja Y-t. Jelzi, hogy az X és az Y változó milyen mértékben határozza meg egymást, vagy másképpen: X és Y milyen szoros lineáris típusú kapcsolatban van egymással. 0 Det(X, Y) 1, Det(X, Y) = Det(Y, X)
5 A korrelációs együttható A korrelációs együttható abszolút értéke a determinációs együttható négyzetgyöke: r Det(X,Y) A korrelációs együttható előjele megegyezik a regresszió meredekségi együtthatójának (b) előjelével: Pozitív trend: +, negatív trend:
6 Szokásos jelölés Mintabeli (tapasztalati) korrelációs együttható: r (Pearson-féle r) Populációbeli (elméleti) korrelációs együttható: ρ (ejtsd: ró). Mit mér a korrelációs együttható? A lineáris típusú kapcsolat szorosságát.
7 Egy korrelációs mátrix (n = 500) Változó Súly0 Súly10 Tmag0 Tmag10 Súly0 1 0,16 0,79 0,24 Súly10 0,16 1 0,23 0,66 Tmag0 0,79 0,23 1 0,33 Tmag10 0,24 0,66 0,33 1
8 Néhány tipikus korreláció Változók (X és Y) Korreláció IQ és egyetemi előmenetel 0,3 0,5 Egypetéjű, együtt nevelt ikrek IQ-ja 0,86 Együtt nevelt testvérek IQ-ja 0,47 Külön nevelt testvérek IQ-ja 0,24 CPI Jó közérzet skálája és a házassággal való elégedettség 0,25 0,35 Vallásgyakorlat és istenhit 0,68 Vallásgyakorlat és vallási kultúra ismerete 0,03 Férj és feleség testsúlya 0,22
9
0
1
2
3
4 A korrelációs együttható jellemzői -1 r 1, -1 1 Ha X és Y független, akkor (X,Y) = 0. Ha (X,Y) = 0, vagyis ha X és Y korrelálatlan, akkor nem feltétlenül függetlenek, de biztos, hogy nincs köztük lineáris típusú összefüggés (U vagy fordított U alakú kapcsolatban persze lehetnek). Ha X és Y együttes eloszlása normális, azaz bármely rögzített X = x mellett Y normális, akkor a függetlenség és a korrelálatlanság ekvivalens.
5 A lineáris transzformáció hatása a korrelációs együtthatóra Lineáris transzformációk: Szám hozzáadása a változóhoz: Y = X + 100 Változó számmal szorzása: Y = 10X Ezek kombinációja: Y = 50 + 3X ρ és r abszolút értéke nem változik, legfeljebb az előjele
6 A korrelációs együttható szignifikanciájának vizsgálata Nullhipotézis: H 0 : ρ = 0 Döntés alapja: egy n-elemű mintában kiszámított korrelációs együttható (r) Mitől függ H 0 elutasíthatósága? Az r együttható nagysága Az f szabadságfok nagysága (f = n - 2)
7 A H 0 : = 0 hipotézis vizsgálata X-minta r kiszámítása (f = n 2) Feltétel: X és Y együttes eloszlása legyen normális r 0,05 : 5%-os kritikus érték r -r 0,05 r < r r 0,05 r 0,05 H 1 : < 0 H 0 H 2 : > 0
8 Korrelációs mátrix szignifikanciákkal Lányok (n = 256) SúlySzül Súly10 MamaSúly 0,289*** 0,201** PapaSúly 0,097 0,282*** MamaTmag 0,213*** 0,121+ PapaTmag 0,126* 0,140* (f = 254; +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001) GYAK
9 Korrelációs mátrix p-értékekkel Lányok (n = 256) SúlySzül Súly10 MamaTmag 0,213*** p=0,0006 PapaTmag 0,126* p=0,0443 0,121+ p=0,0532 0,140* p=0,0251 (f = 254; +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001) GYAK
0 Intervallumbecslés -ra A nullhipotézis elutasítása csak annyit jelent, hogy valószínűleg ρ 0. Ez nem sokat mond nekünk. 95%-os konfidencia-intervallum (hol kell keresnünk nagy (95%-os) megbízhatósággal ρ-t? C 0,95 = (r a ; r f ) Pl. n = 500, r = 0,79 esetén: C 0,95 = (0,75; 0,82) Pl. n = 16, r = -0,87 esetén: C 0,95 = (-0,96; -0,65) GYAK
1 A korreláció nem feltétlenül oki kapcsolat, csak egy együttjárás Ha pl. > 0, akkor három eset lehetséges: a) X pozitív hatással van Y-ra b) Y pozitív hatással van X-re c) Valamilyen háttérváltozó hat egyidejűleg X-re és Y-ra
2 Mit csináljunk, ha a változók normalitása sérül? Wilcox-féle robusztus korreláció (r pb ) Rangkorrelációk (monotonitási mérőszámok) Feltétel: minimum ordinális skála