Bevezetés a Korreláció & Regressziószámításba Petrovics Petra Doktorandusz
Statisztikai kapcsolatok Asszociáció 2 minőségi/területi ismérv között Vegyes kapcsolat minőségi/területi és egy mennyiségi ismérv között Korreláció mennyiségi ismérvek között
Korreláció Célja a kapcsolat szorosságának mérése. Regresszió Célja a kapcsolatban megfigyelhető törvényszerűség megfogalmazása, amelyet valamilyen függvény ír le. X (or X 1, X 2,, X p ): magyarázó változó(k), független változó(k) Y: eredményváltozó, függő változó Ok-okozati kapcsolat: X okozza Y szóródásának változását
Korrelációs mutatószámok 1. Kovariancia (C) értéke - és + közötti; C = 0, amikor X és Y között nincs kapcsolat; a kapcsolat irányát mutatja; nem mutatja a kapcsolat értékét!!! 2. Korrelációs együttható (r) A kapcsolat irányát ÉS erősségét mutatja; 0 < r <1 Csak lineáris kapcsolat esetében használható! 3. Determinációs együttható (r 2 ) %-os formában méri a kapcsolat erősségét hány %-ban befolyásolja X az Y ingadozását
1. Feladat File / Open / Employee data.sav Van kapcsolat a - current salary és a - beginning salary között? KORRELÁCIÓ
Analyze / Correlate / Bivariate 0 < I r I<0,3 Gyenge kapcsolat 0,3 < I r I< 0,7 Közepesen erős kapcsolat 0,7 < I r I< 1 Erős kapcsolat r Irányt és erősséget mutat C Csak irányt mutat!!! + -
Output Mean Std. Deviation N Current Salary $34,419.57 $17,075.661 474 Beginning Salary $17,016.09 $7,870.638 474 Current Salary Beginning Salary Current Salary Beginning Salary Pearson Correlation 1,880(**) Sig. (2-tailed),000 Sum of Squares and Cross-products 137916495436,340 55948605047,73 Covariance 291578214,45 118284577,27 N 474 474 Pearson Correlation,880(**) 1 Sig. (2-tailed),000 Sum of Squares and Cross-products 55948605047,73 29300904965,45 Covariance 118284577,27 61946944,96 N 474 474
2. Feladat Van kapcsolat a: current salary previous experience (month) month since hire beginning salary között? Többváltozós KORRELÁCIÓ
Analyze / Correlate / Bivariate 0 < I r I<0,3 Gyenge kapcsolat 0,3 < I r I< 0,7 Közepesen erős kapcsolat r Irányt és erősséget mutat C Csak irányt mutat!!! 0,7 < I r I< 1 Erős kapcsolat + -
Output Current Salary r C Pearson Correlation Sig. (2-tailed) Sum of Squares and Cross-products Correlations Mátrix Previous Experience Months Beginning Current Salary (months) since Hire Salary 1 -,097*,084,880**,034,067,000 1,379E+011-82332343,5 6833347,5 5,59E+010 Covariance 291578214,5-174064,151 14446,823 118284577 N 474 474 474 474 Previous Experience Pearson Correlation -,097* 1,003,045 Negatív (months) Sig. (2-tailed),034,948,327 Sum of Squares and -82332343,54 5173806,810 1482,241 17573777 Cross-products irányú (inverz) & gyenge kapcsolat Direkt (pozitív irányú) & erős kapcsolat Months since Hire Beginning Salary Covariance N Pearson Correlation Sig. (2-tailed) Sum of Squares and Cross-products Covariance N Pearson Correlation Sig. (2-tailed) Sum of Squares and Cross-products Covariance N *. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). -174064,151 10938,281 3,134 37153,862 474 474 474 474,084,003 1 -,020,067,948,668 6833347,489 1482,241 47878,295-739866,50 14446,823 3,134 101,223-1564,200 474 474 474 474,880**,045 -,020 1,000,327,668 55948605048 17573776,7-739866,5 2,93E+010 118284577,3 37153,862-1564,200 61946945 474 474 474 474 Negatív irányú (inverz) kapcsolat Pozitív irányú kapcsolat
Lineáris regressziós modell E (y) X és Y közötti kapcsolatot ábrázoló egyenes. Az Y függ: x 1, x 2,, x p p db magyarázó változótól A véletlen ingadozásától (ε) β 0, β 1,, β p regressziós együtthatóktól. y = β 0 + β 1 x + ε ahol: β 0 β 1 y függő vagy eredményváltozó x független vagy magyarázó változó ε véletlen hibatag β 0 x=0 helyen β 1 a függvény meredeksége x
Legkisebb négyzetek módszere y ŷ i = b 0 + b 1 X 1 Jelenlegi fizetés ($) Véletlen Kezdő fizetés ($) x
Scatter diagram lineáris S a l e s i n 1600 1200 800 400 $ 0 0 0 10 20 30 40 0 2 4 6 8 10 12 Advertising in $ Age of a house (year) 50 S e l l i n g p r i c e 5000 4000 3000 2000 1000 4000 nemlineáris w a s t a g e 40 30 20 10 S e l l i n g p r i c e 3000 2000 1000 0 0 10 20 30 40 Production (number of products per day) 0 0 5 10 15 Age of a car (year) Direkt kapcsolat Pozitív kapcsolat Inverz kapcsolat Negatív kapcsolat
Nincs kapcsolat 4000 Number of births 3000 2000 1000 0 0 10 20 30 40 Number of storks
3. Feladat File / Open / Employee data.sav Milyen természetű a kapcsolat a fizetés és az életkor között? Új változó létrehozása!
Új változó: életkor = adott év születési dátum (ÉV!) (date of birth) Transform / Compute Variable Adott év
Analyze / Regression / Curve Estimation Lineáris Compound (exponenciális) Power (hatványkitevős) Diagram
Output Lineáris Model Summary R R Square Adjusted R Square Std. Error of the Estimate,146,021,019 16928,804 The independent variable is age. Model Summary Compound Itt a legnagyobb az R 2 (illeszkedés) Power R R Square Adjusted R Square Std. Error of the Estimate,215,046,044,389 The independent variable is age. Model Summary R R Square Adjusted R Square Std. Error of the Estimate,156,024,022,393 The independent variable is age.
Output Melyik regressziófüggvény illeszkedik a legjobban?
Regresszió Analyze / Regression / Linear
R= Model 1 r 2 y1 Model Summary Adjusted Std. Error of R R Square R Square the Estimate,146 a,021,019 $16,928.804 a. Predictors: (Constant), age Többszörös korrelációs együttható + r 2 y2 2r 1 r y1 2 12 r y2 Gyenge kapcsolat r 12 Az összes változónak a függő változóra gyakorolt hatását fejezi ki Többszörös determinációs együttható Megmutatja, hogy a függő változó hány %-át határozza meg az összes független változó együttvéve. A függő változó (current salary) szóródását 2,1%-ban határozza meg ez a regressziós modell. Korrigált többszörös determinációs együttható R 2 n 1 = 1 (1 R n p 1 Összehasonlíthatóvá teszi a többszörös determinációs együtthatót a sokaságon belül. Kiszűri a különböző nagyságú mintákból eredő, különböző függő változó számú, különböző elemszámú (n) és független változó számú (p) sokaságokból eredő hibákat. 2 )
F-próba: modelltesztelés Minden szignifikanciaszinten elfogadható, hogy lineáris, megbízható a modell.
Model 1 b 0 b 1 (Constant) age Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig. 41543,805 2358,686 17,613,000 a. Dependent Variable: Current Salary -211,609 66,124 -,146-3,200,001 Regresszió egyenes: ŷ = b 0 + b 1 X t-próba: paraméterek tesztelése Minden szignifikanciaszinten elfogadhatók a paraméterek. b 0 : X = 0 helyen mennyi az Y. Ha 0 évesek a dolgozók, akkor a keresetük 41543,805$. (Nincs értelme.) b 1 : ha az X 1 egységgel nő, mennyivel változik az Y. Ha a dolgozók életkora 1 évvel nőne, a fizetésük 211,609$-ral csökkenne.
4. Feladat Jellemezze a kapcsolat természetét a current salary és az age, education level, beginning salary, month since hire, illetve previous experience között! y = current salary x 1 = age x 2 = education level (years) x 3 = beginning salary x 4 = month since hire x 5 = previous experience
Analyze / Regression / Linear y x
Output View
Output View yˆ = 13462.743 103,049 x 1+ 631.920 x2 + 1.771x3+ 166.444 x4 8. 301 x 5 Ha minden x=0 Ha x 1 1 egységgel nő az összes többi x változatlansága mellett Ha x 2 1 egységgel nő az összes többi x változatlansága mellett
Köszönöm a figyelmet!