Statisztika I. 1. előadás Előadó: Dr. Ertsey Imre
Regresszió analízis
A korrelációs együttható megmutatja a kapcsolat irányát és szorosságát. A kapcsolat vizsgálata során a gyakorlatban ennél messzebb menő kérdésekre is választ kell adni így: adott x értékhez milyen y tartozik, x egységnyi változása milyen y változással jár, illetve megfordítva Ezekre választ az un. regresszió elemzés ad.
Regresszió: az összetartozó x és y értékpárok által meghatározott ponthalmazhoz legszorosabban illeszkedő vonalat kifejező analitikus függvény meghatározása, regressziós függvény (az így meghatározott függvény), elméleti regresszió vonal (a függvény grafikus vonala),
Korrelációs kapcsolatban x és y valamilyen mennyiségi ismérv érték. A kapcsolat típusától függően a regressziós függvény lehet: egyenes vonalú (lineáris): lineáris regresszió elméleti vonala a regressziós egyenes, görbe vonalú (nem lineáris), a) exponenciális, b) parabolikus, c) hiperbolikus.
1. Lineáris regresszió y =a+bx Az egyenest úgy kell illeszteni, hogy y y ' minimum (a regressziós egyenes pontjai és az eredeti értékek közötti eltérések négyzetösszege minimális legyen). y = na + b x xy = a x + b x ( ) a = az origónál az egyenes által lemetszett rész b = az egyenes meredekségét kifejező iránytangens
1. Lineáris regresszió A koordináta tengely kezdőpontját az x és y változók által meghatározott pontba helyezzük a tengelyek az eredeti tengelyekkel párhuzamosak és így a változók átlagtól való eltéréseinek összefüggéseit vizsgáljuk.
Lineáris regresszió számításának grafikus levezetése y tg α = b y y a x α y y y y α x x y a b = x b * x = y a a = y b * x a x x
A normál egyenletekbe az x és y helyett az és az y y értékeket kell helyettesíteni ( ) ( x x ) ( y y ) = n * a + b ( x x ) ( x x )( y y ) = a ( x x ) + b ( x x ) ( x x ) = 0 ( y y ) = 0 *
0 = n *a b = ( x x )( y y ) = b ( x x ) Σ ( x x ) ( y y ) Σ( x x ) -aaz új koordináta rendszerben =0 - a regressziós egyenes átmegy a kezdőponton, amelynek koordinátái a = y bx ( x ;y ) - mivel az ( x ;y ) pont az egyenesen fekszik
a = y bx b = Σ ( ) ( ) x x y y ( ) Σ x x
1.1. Regressziós egyenes: megmutatja, hogy bármely adott x értékhez átlagosan mekkora valószínű y érték illetve regressziós érték várható. ( y y ) y = y + σ σ S ( y y ) y = σ y + σ ( y y ) = S y ( y y ) y = n regressziós érték és a hiba
( y y ') Sy = n a regressziós becslés standard hibája Sy Hr = 100% y relatív hiba
σ ( y y ) y = σ y + σ 1 = mivel σ σ y y y + S σ y y = r D ( y y ) n ( y y ) n A standard hiba négyzete így az x változásával magyarázható és a nem megmagyarázható rész arányát kapjuk meg viszonyszámokban σ y' σ = Determinációs együttható
A korrelációs együttható négyzete megmutatja, hogy milyen mértékben, hány % -ban határozza meg az x változó az y változó nagyságát A korrelációs együttható nem más, mint a számított regressziós értékek (y ) szórásának és a tényleges értékek (y) szórásának a hányadosa σy ' r = σ y = Σ Σ ( y ' y ') n ( y y ) n
A korrelációs együttható kifejezhető a tényleges értékek és a számított y regressziós értékek közötti négyzetes átlageltérés (az S y) segítségével is 1 = r S + σ y y ( y y' ) r = 1 ( y y ) r S y = 1 σ y Korrelációs index (I) Minél kisebb az S y korrelációs együttható érték annál nagyobb a
Az 1 főre jutó évi jövedelem és az élelmiszerre fordított kiadás alakulása jövedelem élelmiszerkiadás Háztartások sorszáma 1 főre jutó évi x ezer Ft y x x ( x x ) y y ( y y ) ( x x )*( y y ) y 1. 7 4-38,60-14,80 1489,9 19,0 571,8 5,8. 96 36-14,60 -,80 13,1 7,8 40,88 33,69 3. 10 4 9,40 3,0 88,3 10, 30,08 4,09 4. 130 44 19,40 5,0 376,3 7,0 100,88 45,59 5. 135 48 4,40 9,0 595,3 84,6 4,48 47,34 Σ 553 194 763, 348,8 967,60 194,0 Átlag 110,60 38,80 38,80
Az 1 főre jutó évi jövedelem és az élelmiszerre fordított kiadás alakulása Háztartások sorszáma y y ( y y ) y y ( y y ) 1. -1,8 1,65-13,5 18,70.,31 5,35-5,11 6,14 3. -0,09 0,01 3,9 10,83 4. -1,59,54 6,79 46,15 5. 0,66 0,43 8,54 73,00 Σ 10,0 338,83
A lineáris regressziós függvény meghatározása (x x)(y y) 967,6 b = = = 0,35 (x x) 763, a = y bx = 38,8 0,35 * 110,6 = 0,07 y = 0,07 + 0,35x
y = 0,07 + 0,35x A b paraméter azt mutatja, hogy ezer Ft jövedelem növekedés 350 Ft élelmiszer többletkiadást eredményez Az a paraméter szerint a kimutatható jövedelemmel nem rendelkezők átlagosan 70 Ftot költenek élelmiszerre (ebben az esetben ezt nem értelmezzük)
S Az illesztett függvény megbízhatóságának ellenőrzése (y y ) = n y = = 10 5 1,41 Az élelmiszerekre fordított kiadás 141 Ft-tal tér el átlagosan a regressziós egyenes számított értékeitől Hr = S y y 100 = 1,41 100 = 3,64% 38,8 A relatív hiba értéke azt mutatja, hogy a regressziós egyenes jól illeszkedik
A determinációs együttható meghatározása D = r = 0,986 = 0,971 Az egy főre jutó évi jövedelem 97%-ban magyarázza meg az egy főre jutó élelmiszerkiadás nagyságát (illetve annak szóródását), 3% az egyéb körülményeknek tulajdonítható hányad
A korrelációs együttható meghatározása a regressziós értékek és a függő változó értékeinek szórása alapján r = (y y ) (y y) = 338,83 348,80 = 18,4 = 0,986 18,7 A korrelációs index meghatározása: (y y ) I = 1 (y y) = 10 1 = 348,8 1 0,08 = 0,986
A jövedelem és az élelmiszerkiadás közötti kapcsolat 50 élelmiszerkiadás eft/fő 45 40 35 30 5 y = 0,07 + 0,35x R = 0,9714 élelmiszerkiadás lineáris regresszió 0 60 70 80 90 100 110 10 130 140 jövedelem eft/fő
. Két változós nem lineáris regresszió - a legmegfelelőbb görbetípust kell kiválasztani -pontdiagram.1. Exponenciális y' = ab x lg y' = lga + x lgb az y érték logaritmusával számolunk ha az y tengelyen logaritmikus skálát alkalmazunk a görbe egyenessé változik b > 1 regressziós vizsgálatban ritkán szerepel (trendelemzésekben)
. Két változós nem lineáris regresszió.. Hatványkitevős regressziós görbe y = ax b 0 < b < 1 transzformációval lineárissá tehető lg y = lga + b lg x mindkét tengelyen logisztikus lépték esetén egyenest kapunk
Számítás menete hasonló a lineárishoz, A b paraméter kifejezi: 1%-os okváltozás hány %-os okozatváltozást idéz elő, az egyes fogyasztói cikkek rugalmasságát vagy elaszticitását mérik vele. a) árelaszticitás: 1%-os árváltozás hány %-os változást idéz elő a fogyasztásban. b) jövedelem elaszticitás: 1%-os jövedelemváltozás hány %-os változást idéz elő a fogyasztásban. A korrelációs együtthatót úgy számoljuk, mint a lineárist, csak az eredeti értékek logaritmusát vesszük.
.3. Parabolikus típusú összefüggések a másodfokú parabolának egy maximuma vagy minimuma van (helyi szélső értéke) y = a + bx + cx c < 0 c > 0 a, b, c, paraméterek meghatározása (normál egyenletek alapján)
.4. Hiperbola 1 y = a + b x Ha valamelyik vagy mindkét változó egy meghatározott határérték felé közeledik, de azt teljesen nem érheti el (pl. termés növekedés önköltség csökkenést okoz) Parabola és hiperbola esetén az r-et korrelációs indexszel fejezzük ki. I = 1 Σ Σ ( y y' ) ( y y ) az un.
3. Többváltozós kapcsolatvizsgálat eddig csak két tényező kapcsolatát vizsgáltuk, többféle tényező együttes hatásának mérése és meghatározása valamely függő változóra: Több változós korreláció számítás ha a függő és független változók közötti összefüggés lineáris, a regressziós egyenes egyenlete: y = a + b K+ 1x1 + b x + b3 x3 + bn x n
totális korreláció parciális korreláció a független változók hatása összegződik a független változóknak egymástól függetlennek kell lennie
a tényezőváltozók függetlensége úgy értelmezendő, hogy bármely tényezőváltozó értékét tetszés szerint megváltoztathatjuk anélkül, hogy ezzel a többi tényezőváltozó értékét befolyásolnánk a tényezőváltozók közötti kapcsolat a multikollinearitás a tényezőváltozók közötti kapcsolat esetén a számított paraméterek megbízhatósága kifogásolható.
a b együtthatók azt fejezik ki, hogy a kérdéses tényezőváltozók egységnyi változása mekkora növekedést vagy csökkenést idéz elő az eredményváltozónál, feltételezve, hogy a vizsgálatba bevont többi tényezőváltozó értéke nem változik a b együtthatók az un. parciális regressziós együtthatók
Többszörös korrelációs együttható: az eredményváltozónak az összes tényezőváltozóval való együttes kapcsolatának mértékét fejezi ki Többszörös determinációs együttható: megmutatja, hogy a tényezőváltozók együttesen milyen mértékben határozzák meg az eredményváltozó szóródását Parciális korrelációs együttható: két változó összefüggését fejezi ki úgy, hogy a többi változó befolyásoló hatását kiszűrjük