GVMST22GNC Statisztika II. 4. előadás: 9. Kétváltozós korreláció- és regressziószámítás Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet
Korrelációszámítás Mennyiségi ismérvek közötti összefüggés vizsgálata. Korrelációszámítás Fennáll-e kapcsolat az ismérvek között, milyen erősségű. Regressziószámítás Összefüggésekben rejlő tendenciák matematikai függvényekkel való leírása.
Kétváltozós korrelációszámítás Korrelációszámítás Kapcsolat intenzitásának és irányának mérése. A kapcsolat mérőszámainál elvárt tulajdonságok: Ha nincs összefüggés: az érték 0. Ha (lineáris) függvényszerű kapcsolat: az érték 1, vagy -1. A kapcsolat szorosságának mérőszámai: 1 Kovariancia 2 Lineáris korrelációs együttható 3 Rangkorrelációs együttható
Kovariancia Kovariancia Két valószínűségi változó, ξ és η kovarianciája cov(ξ, η) = M([ξ M(ξ)] [η M(η)]) Az átlagtól való eltérések szorzatának átlaga. Tulajdonságok 1 cov(ξ, η) = M(ξη) M(ξ)M(η). 2 Ha ξ, η függetlenek cov(ξ, η) = 0. Fordítva NEM igaz! 3 HA ξ, η eloszlása kétváltozós normális, akkor cov(ξ, η) = 0 függetlenek.
Kovariancia számítás Adott sokaság, 2 ismérv, lehetséges értékei X 1,..., X s ; Y 1,..., Y t. Az együttes valószínűség p ij = P(X = X i, Y = Y j ); a peremvalószínűségek p i = P(X = X i ), p j = P(Y = Y j ). Ekkor cov(x, Y ) = t j=1 i=1 s p ij X i X j M(X ) M(Y ) ahol M(X ) = s i=1 p i X i, M(Y ) = t j=1 p jy j
Kovariancia véges sokaság Adott sokaság, 2 ismérv, lehetséges értékei X 1,..., X s ; Y 1,..., Y t. Az együttes gyakoriság a peremgyakoriságok p ij = f ij N = g ij; p i = f i N = g i, p j = f j N = g j. C XY = 1 N = = t t s j=1 i=1 j=1 i=1 t j=1 i=1 ( s f ij X i X j 1 N 2 i=1 ( s s g ij X i X j i=1 s g ij X i X j X Ȳ g i X i ) f i X i ) t j=1 t j=1 g j Y j f j Y j =
Egyedi adatok Ha minden értékpár csak egyszer fordul elő Ekkor C XY = 1 N N i=1 (X i X )(Y i Ȳ ) = N i=1 d X i d Yi N
Tulajdonságok 1 Előjelét a d Xi d Yi szorzatösszeg előjele adja meg 2 Elemszámtól független 3 Szorosabb korreláció nagyobb érték 4 Korrelátlanság esetén C XY = 0 5 Ismérvek függetlensége esetén C XY = 0. 6 Ha C XY 0 értéke függ a mértékegységtől normált (0 és 1 közötti) mérőszámot keresünk. 7 Mennyi a maximális érték??
Lineáris kapcsolat Tegyük fel, hogy lineáris a kapcsolat X és Y között: Y i = a + b X i d Yi = Y i Ȳ = (a + b X i ) (a + b X i ) = b d Xi Ebből: C XY = 1 N N i=1 d X i d Yi = σx σ Y. Fordítva is igaz! Ha C XY = σ X σ Y, a kapcsolat lineáris.
Lineáris korrelációs együttható Korrelációs együttható Sztochasztikus kapcsolatok szorosságát mérő dimenzió nélküli mérőszám. Lineáris (Pearson-féle) korrelációs együttható R(ξ, η) = cov(ξ, η) D(ξ)D(η) 0 R(ξ, η) 1 Szoros kapcsolat esetén R(ξ, η) közel az 1-hez. Ha R(ξ, η) = 0 akkor függetlenek. Véges sokaság esetén R XY = C XY σ X σ Y
Lineáris korreláció becslése ahol ˆR XY = 1 n n i=1 ξ iη i ˆµ X ˆµ Y ˆσ X ˆσ Y ˆµ X, ˆµ Y lehetséges mintaátlagok ˆσ X, ˆσ Y szórásbecslések n a minta elemszáma x, ȳ a mintaátlagok s x, s y tapasztalati szórások Konkrét minta esetén: 1 n xi y i xȳ dxi d yi r xy = = s x s y d 2 xi = d 2 yi xi y i n xȳ x 2 i n x 2 y 2 i nȳ 2
Rangkorrelációs együttható lineáris korreláció arányskálán mérhető ismérvek esetén rangkorreláció sorrendi (ordinális) skálán mérhető ismérvek esetén ρ = 1 6 N i=1 (X i Y i ) 2 N(N 2 1) becslőfüggvénye: ˆρ = 1 6 N i=1 (ξ i η i ) 2 n(n 2 1)
Az elméleti regresszió az egyik ismérv (változó) hogyan hat a másikra Feltételes várható érték Ha ξ {x 1,..., x s }, η {y 1,..., y t } diszkrét valósz.-i változók, h η (x i ) = M (η ξ = x 1 ) = M (η x 1 ) = t y j P(η = y j ξ = x i ) = j=1 az η várható értéke a ξ = x i feltétel esetén. A h η az η valószínűségi változó ξ-re vonatkozó regressziós függvénye. Grafikonja diszkrét pontokból áll. Ha ξ, η folytonos valószínűségi változók, h η = M(η ξ = x) = yf (y x)dy t j=1 p ij p i
Az elméleti regresszió tulajdonságok Ha ξ és η függetlenek, akkor h η (x) = M(η ξ = x) = M(η) független x-től. Az együttes eloszlás ismeretében a regressziófüggvény egyértelműen megadható Ha ξ, η együttes eloszlása normális, egymásra vonatkozó regressziófüggvényeik lineárisak: h η (x) = β 0 + β 1 x, ahol cov(ξ, η) β 0 = M(η) D 2 (ξ) M(ξ) β 1 = M(ξη) M(ξ)M(η) M(ξ 2 ) M 2 (ξ) = cov(ξ, η) D 2 (ξ).
A tapasztalati regresszió Diszkrét értékek esetén p ij = P(X = X i Y = Y j ) = f ij N így h Y (X i ) = t j=1 ahol Y i, X j részátlagok. p i = P(X = X i ) = f i N s Y j f ij f i = Y i h X (Y i ) = i=1 X i f ij f j = X j
Tapasztalati regresszió Grafikus ábrázolás Bruttó átlagkereset (e Ft) Bruttó átlagkereset (e Ft) Szolgálati idő Szolgálati idő Tapasztalati regressziófüggvény. A különböző ismérvértékekre (v. osztályközökre) számolt részátlagok (h X (Y i )) alkotta függvény.
A tapasztalati regressziófüggvény tulajdonságai Bruttó átlagkereset (e Ft) Szolgálati idő Korrelációs kapcsolat esetén a pontok a regressziófüggvény körül szóródnak. Kisebb szóródás szorosabb kapcsolat. Függvényszerű kapcsolat esetén a pontok a függvényre esnek Függetlenség esetén a függvény konstans.
A regressziófüggvény paramétereinek meghatározása A függvénykapcsolatot v. közeĺıtését nem mindig egy egyenes írja le a legjobban. 1 A regressziófüggvény szabálytalan 2 A regressziófüggvény ismeretlen. Analitikus függvényt választunk melyre M ( [ξ h ξ (η)] 2) és M ( [η h η (ξ)] 2) minimális. Ez az analitikus regressziófüggvény. lineáris regresszió hatványkitevős (v. multiplikatív) regresszió exponenciális regresszió parabolikus regresszió hiperbolikus regresszió
A legkisebb négyzetek módszere A függvénytípus után meg kell határozni paramétereit is. A legkisebb négyzetek módszere Lineáris regresszió; a függvény h Y (x) = y = β 0 + β 1 x ahol β 0, β 1 minimalizálja E(β 0, β 1 )-t. E(β 0, β 1 ) = N i=1 E 2 i = N (Y i β 0 β 1 X i ) 2 i=1 Bruttó átlagkereset (e Ft) Szolgálati idő β 0 = ( Y i ) ( Xi 2 ) ( Xi ) ( ) X i Y i N Xi 2 ( X i ) 2 = Ȳ X C XY σx 2 β 1 = N X i Y i ( X i ) ( Y i ) N Xi 2 ( X i ) 2 = C XY σx 2
A regressziófüggvény értelmezése A regressziós egyenes egyenlete y Ȳ = C XY σx 2 lényegében y = C XY x (x X ), X a független-, v. magyarázóváltozó, Y a függő- v. eredményváltozó β 1 az egyenes meredeksége; X egységnyi változása mekkora változást okoz Y -ban β 0 a függvény értéke az X = 0 helyen (pl pályakezdők fizetése).
A lineáris regresszió együtthatóinak becslése A (torzítatlan!) becslőfüggvények ˆβ 0 = ( η i ) ( ξi 2 ) ( ξi ) ( ξ i η i ) n ξi 2 ( ξ i ) 2 ˆβ 1 = n ξ i η i ( ξ i ) ( η i ) n ξ 2 i ( ξ i ) 2 Konkrét mintában b 0 = ( y i ) ( xi 2 ) ( xi ) ( ) x i y i n xi 2 ( x i ) 2 b 1 = n x i y i ( x i ) ( y i ) n x 2 i ( x i ) 2
A normálegyenletek megoldása Explicit képlettel (ld. fent) Transzformált normálegyenletekkel Mátrixalgebrai műveletekkel (ez főleg később lesz segítség).
A változók felcserélhetősége Kölcsönhatás esetén tetszőleges a változók szerepe. ŷ = b 0 (y x) + b 1 (y x)x b 1 (y x) = dx d y d 2 x ˆx = b 0 (x y) + b 1 (x y)y b 1 (x y) = dx d y d 2 y A két egyenes nem esik egybe. Legyen r 2 xy = b 1 (x y)b 1 (y x) Ha nincs korreláció: r xy = b 1 = 0, az egyenesek a tengellyel párhuzamosak, egymásra merőlegesek. Lineáris kapcsolat esetén r xy = 1, így b 1 (x y) = 1 b 1 (y x), a két egyenes egybeesik. Sztochasztikus kapcsolat esetén a közelség a kapcsolat szorosságától függ.
A rugalmassági együttható (elaszticitás) Elaszticitás Az egyik változó relatív változása a másik változó milyen mértékű relatív változását eredményezi. Mérésére a rugalmassági (elaszticitási) együttható (E) szolgál. E (y x) = dy dx x y. y-t becsüljük, így esetünkben Ê (y x) = dŷ dx x ŷ. E < 1 Y rugalmatlan X változásaival szemben E = 1 Y arányosan változik X változásaival szemben Itt E > 1 Y rugalmas X változásaival szemben Ê (y x) = b 1 x b 0 +b 1 x Szokásosan átlagpontban vizsgálva: Ê (y x= x) = b 1 x b 0 +b 1 x = b 1 x ȳ
A standard lineáris modell A lineáris sztochasztikus kapcsolat: M(Y X = X i ) = β 0 + β 1 X i. Ȳ i = β 0 + β 1 X i, azaz ha Y i = β 0 + β 1 X i + E i, akkor M(E) = 0. minta alapján η i = β 0 + β 1 X i + ε i, ε i valószínűségi változó. Bármi lehet! Standard lineáris modell 1 ε i (illetve η i ) normális eloszlásúak 2 cov(ε i, ε j ) = 0 ha i j 3 M(ε i ) = 0 4 D(ε i ) = σ (független X i -től)
Becslés során elkövetett hibák Kétféle hiba: 1 Mintából becsült paraméterek; becslés tehát nem pontos. 2 Az ismérvek között csak sztochasztikus kapcsolat van, nem függvényszerű, csak azt a részt kapjuk meg Y -ból, ami X -ből következik. Ha X i rögzített, a becslőfüggvények ˆβ 0 = ( η i ) ( Xi 2 ) ( Xi ) ( X i η i ) n Xi 2 ( X i ) 2 ˆβ 1 = n X i η i ( X i ) ( η i ) n Xi 2 ( X i ) 2 = ( (Xi X ) 2 η i ) (Xi X ) 2 Mindkettő az η i valószínűségi változók lineáris kombinációja.
A becslőfüggvények tulajdonságai 1 M( ˆβ 0 ) = β 0, M( ˆβ 1 ) = β 1 torzítatlanok 2 Szórásuk, azaz a becslés standard hibája megadható: D( ˆβ 0 ) = σ ˆβ0 = σ D( ˆβ 1 ) = σ ˆβ1 = σ 3 A becslés konzisztens. X 2 i n d 2 X 1 n d 2 X Itt σ az ε (nem ismert) szórása külön becsülni kell a mintából.
Minta szórásának becslése Az elméleti szórás: D(ε) = σ ε A mintából becsült szórás: ˆσ ε = 1 n (ηi ŷ i ) 2 Konkrét mintából becsült szórás: s e = e 2 i n 2 Itt ei 2 a minimalizálni kívánt négyzetösszeg, n 2 pedig a szabadságfokok száma torzítatlan becslés.
A regressziós becslés abszolút és relatív hibája Abszolút hiba Kifejezi, hogy a regressziós becslések (ŷ i ) átlagosan mennyivel térnek el az eredményváltozó (y i ) megfigyelt értékeitől. Itt s e, ld. fent, vagy s e = s y 1 r 2 Relatív hiba Kifejezi, hogy a regressziós becslések átlagosan hány %-kal térnek el az eredményváltozó megfigyelt értékeitől. Itt: V e = sē y. A gyakorlatban 10% alatti relatív hiba esetén jó a regressziós becslés.
A paraméterek intervallumbecslése Belátható, hogy β 1 ˆβ 1 σ ˆβ 1 n 2 szabadságfokú Student t-eloszlást követ. 1 α valószínűségi szint esetén ( ) β 1 b 1 t α (1 2 ) s b 1 ; b 1 + t α (1 2 ) s b 1 ( ) β 0 b 0 t α (1 2 ) s b 0 ; b 0 + t α (1 2 ) s b 0
Regressziós becslések és prognózisok A regressziós függvény minden x 0 értékre kidob egy ŷ 0 -t. Ez mit jelent? 1 Az Ȳ 0 = M(Y X = X 0 ) becslése. 2 Annak becslése, hogy (X 0, Y 0 ) minta esetén y 0 mekkora lehet. 1. Az x 0 értékhez tartozó feltételes várható érték intervallumbecslése. A ŷ 0 szórása meghatározható (itt: konkrét mintára): 1 sŷ0 = s e n + (x 0 x) 2 (x x) 2 (Ez x közelében a legjobb, távolodva romlik a becslés.) A konfidenciaintervallum pedig: ( ) ŷ 0 t α (1 2 ) s 1 e n + (x 0 x) 2 (x x) 2 ; ŷ 0 + t α (1 2 ) s 1 e n + (x 0 x) 2 (x x) 2
Regressziós becslések és prognózisok 2. Az egyedi y 0 becslések konfidenciaintervalluma... ha egy hiányzó Y 0 adatot kívánunk becsülni adott X 0 helyen. Y 0 = ˆβ 0 + ˆβ 1 X 1 + ε 0 = ŷ 0 + ε 0 σ 2 Y 0 = σ 2 ŷ 0 + σ 2 e A Y 0 szórása meghatározható (itt: konkrét mintára): 1 sŷ0 = s e n + (x 0 x) 2 (x x) 2 + 1 A ( konfidenciaintervallum pedig: ŷ 0 t α (1 2 ) s e 1 n + (x 0 x) 2 (x x) 2 + 1; ŷ 0 + t (1 α 2 ) s e ) 1 n + (x 0 x) 2 (x x) 2 + 1
A regressziófüggvény hipotézis-ellenőrzése A regressziófüggvény mintából származik, kérdés érvényes-e a sokaságra is. 1 Szignifikáns-e β 1? 2 Szignifikáns-e maga a regressziófüggvény? (két ismérv esetén a kettő ugyanaz)
A regressziós együttható (β 1 ) tesztelése Feltételezzük, hogy nincs korreláció, a tapasztalati paraméter b 1 0-tól való eltérését a véletlen okozza. H 0 : β 1 = 0, H 1 : β 1 0. n elemű minta esetén β 1 ˆβ 1 ˆσ ˆβ1 n 2 szabadságfokú t-eloszlást követ. α szignifikanciaszinten elfogadjuk, ha t = b 1 s b1 < t (n 2) 1 α 2
Varianciaanaĺızis a regressziószámításban y i = ŷ i + e i 1 y i : az Y megfigyelt értéke (X = x i ) 2 ŷ i = b 0 + b 1 x i : az x i -hez tartozó regressziós becslés 3 e i : maradéktag v. reziduum. n i=1 (y i ȳ) 2 = n i=1 (ŷ i ȳ) 2 + n i=1 (y i ŷ) 2 SST = SSR + SSE reziduális négyzetösszeg SSE = 0 függvényszerű kapcsolat. SSE 0 sztochasztikus kapcsolat.
Varianciaanaĺızis 2 A szórásnégyzet Eltérés- Szabadságfok Átlagos forrása négyzetösszeg négyzetösszeg Regresszió SSR = (ŷ i ȳ) 2 1 (ŷi ȳ) 2 1 (yi ŷ) 2 Hibatényező SSE = (y i ŷ) 2 n 2 Teljes SST = (y i ȳ) 2 n 1 Hipotézisvizsgálat: tagadjuk a regresszió létezését. H 0 : β 1 = 0 és H 1 : β 1 0 SSR = külső; SSE = belső szórás F -próba. Konkrét minta esetén: F 0 = SSR 1 SSE F (1) (n 2) n 2 n 2
Szorosság mérése varianciaanaĺızis-tábla alapján Determinációs együttható (r 2 ) A regresszió által megmagyarázott eltérés-négyzetösszegnek az y teljes eltérés-négyzetösszegéhez való aránya. r 2 = SSR SST = SST SSE SST = 1 SSE SST
Diagnosztikai tesztek Diagnosztikai teszt Értékeli a modellt; levont következtetések valódiságát támasztja alá. A reziduális változó tapasztalati értékeit (e i ) vizsgáljuk. Megfelel az elméleti ε i -nek hasonló tulajdonságokkal kell, hogy rendelkezzen. Például: a hibatényező szórása állandó nem jó, ha nő a szórás!
Robusztus becslési módszerek Mérési hibák: pontatlan adatok, eĺırás, stb. robusztus becslési módszerek: kevésbé érzékenyek. Nyesett átlag: elhagyunk nα megfigyelést a rangsor két szélén, majd újra becslés.
Nemlineáris regresszió Ha az X változó hatása Y -ra függ X nagyságától nemlineáris regresszió. Fontosabb típusai: hatványkitevős exponenciális parabolikus hiperbolikus A paraméterek meghatározására legkisebb négyzetek módszere.
Parabolikus regressziófüggvény Az eltérés-négyzetösszeg: ŷ = b 0 + b 1 x + b 2 x 2 f (b 0, b 1, b 2 ) = (y i ŷ i ) 2 = (y i b 0 b 1 x i b 2 x 2 i ) 2 A 0-val egyenlővé tett b 0, b 1, b 2 szerinti parciális deriváltakból kapjuk a normálegyenleteket: yi =b 0 n +b 1 xi +b 2 x 2 i xi y 1 =b 0 xi +b i x 2 i +b 2 x 3 i x 2 i y i =b 0 x 2 i +b 1 x 3 i +b 2 x 4 i Mikor használjuk? Ha a két változó közötti összefüggés iránya megváltozik Gyakori, hogy azt vizsgáljuk, hol maximális.
Hatványkitevős regressziófüggvény ŷ = b 0 x b 1 log ŷ = log b 0 + b 1 log x lineáris kapcsolat log x és log y között. Megoldás, mint a lineáris regressziónál A hatványkitevő a rugalmassági együtthatóval azonos. 1%-kal nagyobb x értékhez hány %-kal nagyobb y tartozik.
Exponenciális regressziófüggvény ŷ = b 0 b 1 x log ŷ = log b 0 + log b 1 x lineáris kapcsolat x és log y között. A b 1 arra ad választ, hogy a tényezőváltozó egységnyi növekedése hányszorosára változtatja az eredményváltozó értékét.
9.8. Feladat 19 ország adatai alapján vizsgálták az 1 lakosra jutó GDP, X és az 1000 lakosra jutó személygépkocsik száma, Y közötti összefüggést. Számítási eredmények: Lineáris regressziófüggvény: ŷ = 83, 4 + 0, 0935x. A megfigyelt változók szórásai: σ (x) = 1149; σ (y) = 120, 5. lg x = 67, 57, (lg y) 2 = 107, 5812, lg y = 44, 7463, (lg x lg y) = 160, 0585, (lg x) 2 = 240, 8056.
9.8. Feladat Feladat: a) Milyen szoros a kapcsolat a két ismérv között? b) Hány %-ban játszik szerepet az X ismérv az Y szórásában? c) Írjuk fel a hatványkitevős regresszió normálegyenleteit és számítsuk ki a paramétereket! d) Értelmezzük mindkét regressziófüggvény b 1 paraméterét! e) Adjunk becslést egy olyan országra, amelynek az 1 lakosra jutó GDP-mutatója 7200 dollár!
9.8. Feladat Megoldás a) Milyen szoros a kapcsolat a két ismérv között? A kapcsolat szorosságát a kovarianciával, vagy lineáris korrelációs együtthatóval mérhetjük. Tudjuk, hogy β 1 = cov(ξ, η) D 2 (ξ) cov(ξ, η) = β 1 D 2 (ξ) cov(ξ, η) = 0, 0935 1149 2 = 123439 R(ξ, η) = cov(ξ, η) D(ξ)D(η) R(ξ, η) = 123439 = 89, 1% 1149 120, 5
9.8. Feladat Megoldás b) Hány %-ban játszik szerepet az X ismérv az Y szórásában? A determinációs együttható (r 2 ) határozza meg. r 2 = R 2 (ξ, η) = 0, 891 2 = 79, 5%. Az X ismérv az Y szórását 79,5%-ban határozza meg.
9.8. Feladat Megoldás c) Írjuk fel a hatványkitevős regresszió normálegyenleteit és számítsuk ki a paramétereket! Hatványkitevős regressziófüggvény:ŷ = b 0 x b 1 azaz lg ŷ = lg b 0 + b 1 lg x. Normálegyenletek: lg yi = n lg b 0 + b 1 lg xi lg xi lg y i = lg b 0 lg xi + b 1 lg x 2 i 44, 75 = 19 lg b 0 + 67, 57b 1 160, 06 = 67, 57 lg b 0 + 240, 81b 1 b 1 = 1, 83, lg b 0 = 4, 165, azaz b 0 = 0, 000068, így ŷ = 0, 000068x 1,83.
9.8. Feladat Megoldás d) Értelmezzük mindkét regressziófüggvény b 1 paraméterét! Lineáris regresszió: Ha a GDP 1000 dollárral nő, akkor 1000 lakosonként 93,5 autóval több lesz. Hatványkitevős regresszió: Ha a GDP 1%-kal nő, (kb.) hány %-kal nő az 1000 lakosra jutó gépkocsik száma.
9.8. Feladat Megoldás e) Adjunk becslést egy olyan országra, amelynek az 1 lakosra jutó GDP-mutatója 7200 dollár! Lineáris regresszió: ŷ = 83, 4 + 0, 0935x = 83, 4 + 0, 0935 7200 = 589, 8. Hatványkitevős regresszió: ŷ = 0, 000068x 1,83 = 0, 000068 7200 1,83 = 807, 2.