Regressziólízis Iformtiki udomáyok Doktori Iskol A regressziószámítás lpprolémáj Regressziószámításkor egy változót egy (vgy tö) másik változóvl ecslük. Y függıváltozó,,... p függetle változók Y f(,,... p ) ecslés f F E(Y- f * (,,... p )) mi E(Y- f(,,... p )) f F Példák. A Du vízállásák elırejelzése Budpeste. A prdicsom eérési idejéek ecslése 3. Mőholdkép lpjá úz terméshozmák ecslése 4. Mőholdkép lpjá Mrs vstrtlmák ecslése 5. Predikciók, tredek idısorokál 6. Lieáris közgzdsági modellek
A regressziószámítás lpprolémáj H ismerjük z Y és z,,... p együttes eloszlását, kkor prolém elméletileg megoldott: f (,,... p ) E ( Y,,... p ). Gykorlt zo csk egy dtmátri dott: Y Y M Y M M L L O L p p M p Feltételes várhtó érték, folytoos eset I. Feltételes várhtó érték, folytoos eset II.
Feltételes várhtó érték, folytoos eset III. A regresszió tuljdosági Az összes függvéy közül regressziós görével lehet legpotos közelítei! Regresszió ormális eloszlás eseté f Y σ πσ ρ σ ( y) σ ( ) ρ e µ + ρ( y µ ) Normális kompoesek eseté regressziós összefüggés lieáris! 3
Elméleti lieáris regresszió Elméleti lieáris regresszió Láttuk, hogyh,y együttes eloszlás ormális, kkor regresszió lieáris lesz! A regressziószámítás lpprolémáj F {f(,,, p,,,c,,, c, vlós prméterek} A függvéyhlmzól zt z elemet fogjuk kiválszti, melyél: h(,,c,...) Σ (Y i - f( i, i,..., pi,,,c,... )) i mi,,c,... Ez legkise égyzetek módszere! 4
A regressziólízis fjtái Lieáris regresszió f() B + B öváltozós lieáris regresszió f(,,..., p ) B + B + B +...+ B p p Poliomiális regresszió f(,,..., p ) B + B + B +...+ B p p,,..., p p Kétprméteres (lieárisr visszvezethetı) regresszió pl. Yf() B o e B ly B + l B o A regressziólízis fjtái Nemlieáris regressziók két változó között I. f( ) B + B ep(b 3 ) szimptotikus I. f( ) B - B (B 3 ) f( ) (B + B ) -/B3 f( ) B (- B 3 ep(b )) szimptotikus II. sőrőség Guss f( ) B ep( - B ep( - B 3 ))) Gompertz f( ) B ep( - B /( + B 3 )) Johso-Schumcher A regressziólízis fjtái Nemlieáris regressziók két változó között II. f() (B + B 3 ) B f() B - l( + B ep( - B 3 ) f() B + B ep( - B 3 ) f() B / ( + B ) log-módosított log-logisztikus Metcherlich Michelis Mete f() (B B +B 3 B4 )/(B + B4 ) Morg-Merczer-Flori f() B /(+B ep( - B 3 +B 4 + B 5 3 )) Pel-Reed 5
A regressziólízis fjtái Nemlieáris regressziók két változó között III. f() (B + B +B 3 + B 4 3 )/ B 5 3 köök ráy f() (B + B +B 3 )/ B 4 égyzetek ráy f() B /((+B 3 ep(b )) (/B4) Richrds f() B /((+B 3 ep(b )) Verhulst f() (B (-B4) B ep( - B 3 )) /(-B4) Vo Bertlffy f() B - B ep( -B 3 B4 ) f() /(B + B +B 3 ) Weiull Yield sőrőség A regressziólízis fjtái Szkszokéti lieáris regresszió Poligoiális regresszió A regressziólízis fjtái 6
A regressziólízis fjtái öváltozós lieáris regresszió ktegóri-változóvl A regressziólízis fjtái Logisztikus regresszió, h z A eseméy ekövetkezik Y dichotóm Y {, h z A eseméy em következik e A eseméy,,..., p A válsztó fog szvzi A páciesek szívifrktus lesz Az üzletet meg fogják köti ordiális szitő függetle változók eddig háyszor met el, kor, iskol, jövedelem pi cigi, pi pohár, kor, stressz ár, meyiség, pici forglom, rktárkészlet A regressziólízis fjtái Logisztikus regresszió P(Y) P(A) - e -Z Z B + B + B +...+ B p p P(A) ODDS - P(A) e Z log (ODDS) Z B + B + B +...+ B p p 7
Logisztikus regresszió A regressziólízis fjtái A leggyo vlószíőség elve L(ε,ε,...,ε ) P(Y ε, Y ε,..., Y ε ) P(Y ε ) P(Y ε ) L P(Y ε ) L - e -Z - e -Z - e -Z l L(ε,ε,...,ε ) Σ ( l ) - ep (B + B + B +...+ B p p ) Lieáris regresszió A lieáris kpcsolt kitütetett: () legegyszerő és leggykori, köyő két prmétert értelmezi () két dimeziós ormális eloszlás eseté kpcsolt em is lehet más (vgy lieáris vgy egyáltlá ics) Lieáris regresszió Az empirikus lieáris regresszió együtthtóit legkise égyzetek módszerével kphtjuk meg: Az empirikus lieáris regresszió együtthtói z elméleti regressziós egyees együtthtóitól yi külöözek, hogy képleteke z elméleti mometumok helyett mitáól számolt megfelelı empirikus mometumok állk: 8
Lieáris regresszió A teljes égyzetösszeg A mrdékösszeg A regressziós összeg A lieáris regresszió Q Q res + Q reg y res ( i, y i ) reg (, y ) yˆ i ( i, ˆ ) y i + i A lieáris regresszió A teljes égyzetösszeg felotás: Q Q res + Q reg f reg szdsági fok -, mert tgú z összeg, de ezek között két összefüggés v. f res szdsági fok midössze, mert z átlg kosts H ics lieáris regresszió, vriciák háydos (, -) szdsági fokú F eloszlást követ. F Q reg s f Q ( ) reg reg reg s Q res res Q res f res 9
A lieáris regresszió A legkise égyzetek módszere lpelve: y yˆ i + i ( 3, y 3) ( 5, y 5) e 5 e 3 e 4 (, y ) e e ( 4, y 4) (, y ) Megjegyzések: A lieáris regresszió.. A lieáris regresszió ervezett (determiisztikus) megfigyelés Fıleg mőszki lklmzsok gykori, hogy méréseket Y -r elıírt eálltásokál végzik el, és így keresik z ismeretle Y~f() függvéykpcsoltot. A modell ilyekor z, hogy Y f() +ε, hol ε mérési hiát jeletı vlószíőségi változó, melyre E ε és σ ε véges.
Guss-Mrkov-tétel Lieárisr visszvezethetı kétprméteres regresszió I { f ( ;, ) } E * * ( Y f ( ;, )) mi E( Y f ( ;, f I )) Ameyie tlálhtók oly lklms g, h, k, k függvéyek, mivel prolém lierizálhtó: y f ( ;, ) g( y) k(, ) h( ) + k(, ) * * E( g( Y) k h( ) k ) mi E( g( Y ) k h( ) k ) k, k A trükkel em z eredeti miimlizálási feldt megoldását * * * * * * k ( k, k), k ( k, k) kpjuk meg, csk ttól em túl messze esı közelítéseket! Lieárisr visszvezethetı kétprméteres regresszió epoeciális függvéykpcsolt: y e E P 6 5 yep(.*) * y l y + l k + k 4 3 4 6 8 4 6 8 growth függvéy: y ep( + ) * y l y + compoud függvéy: y * y l y l + l
Lieárisr visszvezethetı kétprméteres regresszió y htváyfüggvéy: y**5 8 6 4 8 6 4 H A V 4 3 - Arrheius: e y * * l l k k y y + +, k e k yep(-5/) 8 6 4 8 6 4 A R R H.8.6.4.. -. y + reciprok: y y + * y/(+5*) 8 6 4 8 6 4 R E C I.8.6.4...8.6.4.. Lieárisr visszvezethetı kétprméteres regresszió y + rcioális:,, * * k k k k k y y + + y/(+5*) 8 6 4 8 6 4 R A C I..9.8.7.6 y + homogé kvdrtikus: y y + * y*+5* 8 6 4 8 6 4 K V A D R 6 5 4 3 hiperolikus: y + y+5/ 8 6 4 8 6 4 H I P E R 7 6 5 4 3 Lieárisr visszvezethetı kétprméteres regresszió logritmikus: ( ) y l l l + yl(5*) 8 6 4 8 6 4 L O G 5. 4.5 4. 3.5 3..5..5
Lierizálás, pl. Poliomiális regresszió A poliomiális regressziós feldtot töváltozós lieáris regresszióvl oldhtjuk meg, prediktor változók ilyekor z változó htváyi: i i! Poliomiális regresszió 3
Poliomiális regresszió A függetle változók zo lieáris komiációját keressük, melyél függıváltozót legkise égyzetes hiávl tudjuk közelítei: ~ Yi Yi + ε i + + +... + + ε i i k ki i Y ( ) ~ ε ε i ( Y ) ( Y ) i Y i Y i Y Y Y i + Y Y Y + Q( ) mi Az együtthtók meghtározás legkise égyzetek módszerével: Q Y + Y ( ) Y 4
Szóráslízis (ANOVA) modell érvéyességéek eldötésére A ullhipotézis z, hogy függetle változók midegyike, vgyis egyik prediktor változó sem mgyrázz célváltozót! H : β β... β k SSR ( k ) SSE ( k) F k, k F-próávl döthetük ullhipotézisrıl. Bét-együtthtók S i BEA i S y i Si S y i ( i,,..., k) A ét-együtthtók egyfjt z i-edik regressziós szempotól együtthtó, miısítik változók fotosságát lieáris összefüggése. H egy változók gy z együtthtój szolút z i-edik változó stdrd szórás, értéke, kkor fotos, h kicsi, kevésé fotos. célváltozó stdrd szórás. 5
R (coefficiet of determitio) meghtározottsági együtthtó H csk egy SSR SSE mgyrázó változó R, R v, kkor R éppe SSO SSO korrelációs együtthtó égyzete! R ± SSR SSO ( i )( Yi Y ) i ( i ) ( Yi Y ) i i Megmuttj, hogy lieáris regresszióvl célváltozó vriciáják mekkor háydát lehet mgyrázi, R. Az R érték megmuttj lieáris kpcsolt mértékét Korrigált (djusztált) meghtározottsági muttó R dj ( R ) SSE / p SSO ( p ) /( ) p függetle változók szám A korrekció zért szükséges, mert új változók evoásávl R utomtikus ı, és túl optimist képet mutt modell illeszkedésérıl. Az djusztált változt ütetjük túl sok változó evoását modelle. p esete em korrigáluk. 6
Modell-építési techikák Egy tipikus töváltozós lieáris regressziós prolémáál dott z Y célváltozó és gy számú,,, p mgyrázó változó. Az elemzés kezdetekor zt sem tudjuk, melyek zok változók, mik ekerülek, és melyek zok, mik em kerülek mjd e modelle. H mide lehetséges komiációt ki krák próáli, kkor összese Már 4 változó p p p eseté 5 modellt kellee illeszteük! k k modellillesztést kellee elvégezük! Modell-építési techikák Nyilvá szőkíteük kell kell z illesztedı modellek számát! Alklmzhtjuk z ENER eljárást, melye zokt mgyrázó változókt vesszük e változólistáól modelle, mely változókt szereték, hogy ee legyeek. Ezeket modelleket utólg értékeli kell meghtározottsági együtthtó gyság, és regressziós együtthtók szigifikci szitje lpjá. A módosításokkl újr el kell végezi z illesztést. Modell-építési techikák Automtikus modellépítési techikák: SEPWISE FOREWARD BACKWARD REMOVE A felhszálók csk z idulási mgyrázó változó listát kell specifikáli, z SPSS progrm eıl válsztv állít elı jó modelleket, mik közül válszthtuk végsı megoldást. 7
A prciális F-pró R R együk fel, hogy evotuk p-edik mgyrázó változót modelle. H z új változó mgyrázó ereje elhygolhtó, kkor z lái sttisztik, -p- szdságfokú Fisher-eloszlást követ: F p R R p R ( ) z új p változós modell meghtározottsági együtthtój, régi p- változós modell meghtározottsági együtthtój, A prciális F-pró A p-edik változót kkor vojuk e modelle, h hol ε ( R ) ( p ) K < R R K ε oly kritikus érték, hogy: ( < K ) ε P F,-p- ε FOREWARD modell-építés Alulról építkezı modellépítési eljárás. Mide modellépítési lépése listáól zt változót vojuk e, mely F-tesztjéhez legkise ε szit trtozik. A evoási folymt ddig trt, míg ez legkise ε szit egy eállított PIN korlát ltt mrd. Elıye, hogy viszoylg kevés mgyrázó változó lesz modelle, így köye modellt értelmezi. 8
BACKWARD modell-építés Felülrıl leotó eljárás. Kezdete z összes változót erkjuk modelle. Mide lépése zt változót hgyjuk el modellıl, melyél prciális F-próáál leggyo ε érték trtozik. Akkor álluk meg, h z elıre eállított POU küszöérték lá megy ez z ε. A BACKWARD modellépítéssel viszoylg sok mgyrázó változó mrd e modelle. SEPWISE modell-építés A FOREWARD eljárást úgy módosítjuk, hogy mide lépése elleırizzük modelle korá már evot változókhoz trtozó ε szigifikci-szitet, és zt elhgyjuk, hol ez szit gyo mit POU. Nem kerülük végtele ciklus, h PIN<POU. (Szokásos eállítás: PIN,5 és POU,. REMOVE modell-építés A REMOVE eljárás z ENER eállításáól idul ki, egyszerre hgy el változókt modellıl, összehsolításkét csk kosts tgot trtlmzó modell eredméyeit közli. 9
Multikollieritás Multikollieritáso mgyrázó változók között fellépı lieáris kpcsolt meglétét értjük. A multkollieritás jeleléte rotj modell értékelhetıségét. A multikollieritás mérıszámi: tolerci vrici ifláló fktor (VIF) kodíciós ide (CI) vrici háyd A multikollieritás mérıszámi. tolerci zt méri, hogy z i-edik mgyrázó változót z összes töi milye szoros htározz meg. A ullához közeli tolerci jeleti zt, hogy közel függvéyszerő kpcsolt v mgyrázó változók között. Értéke -R i, hol R i z i-edik változók töivel vett lieáris regresszióják korrelációs együtthtój, töszörös korrelációs együtthtó. A vrici ifláló fktor (VIF) tolerci reciprok: VIF/(-R i ). Ezért, h mgyrázó változók között szoros kpcsolt, VIF végtele gy is lehet. H mgyrázó változók korreláltlok, VIF értéke. A multikollieritás mérıszámi. A kodíciós ide (CI) mgyrázó változók korrelációs mátriák sjátértékeiıl számolt sttisztik. A leggyo és legkise sjátértékek háydosák égyzetgyöke. A CI>5 esetée megállpíthtó z erıs kollieritás. CI λ λ m mi Vrici háyd is utlht multikollieritásr. H egy-egy gy kodíciós ide sorá tö regressziós együtthtók v mgs vrici háyd. A regressziós együtthtók vriciáit sjátértékek között szétosztjuk.
A ecslést efolyásoló potok feltárás A lieáris regressziós modell értékeléséek fotos lépése z egyes dtpotok fotosságák feltárás. Melyek zok z dtpotok, melyek végleges összefüggést legerısee muttják, erısítik, és melyek zok z ú. outlier potok, melyek legkevésé illeszkedek z dott regressziós összefüggése. A ecslést efolyásoló potok feltárás A Y célváltozó és lieáris ecslés közötti kpcsolt: ~ Y B ~ e Y Y ( E H )Y ( ) Y H Y A ecslés hivektor, mrdékösszeg, regressziós összeg: SSE Y ( E H )Y H ( ) SSR Y H Y ( y ) A ecslést efolyásoló potok feltárás ( ) H leverge (htlom) vgy ht mátri A mátri szimmetrikus, h ii digoális elemei zt muttják, hogy z i-edik eset mekkor htást fejt ki regressziós ecslésre. h ii ( ) i i, hol i h p + ii i z i-edik esetvektor h ii
A ecslést efolyásoló potok feltárás p + Az i-edik eset efolyás átlgos, h ezek tipikus h ii esetek! Az i-edik eset efolyás jeletıs, h p + h ii > H <, h ii z i-edik eset evohtó z elemzése H, h ii <, 5 kockáztos z i-edik eset evoás,5 h ii z i-edik esetet ki kell hgyi, outlier pot A mrdéktgok (reziduálisok) elemzése Közöséges reziduális: e Y Yˆ i i i A lieáris ecslés elkészítésekor em számoluk z i-edik esettel, töröljük. ei örölt reziduális: e i i Yi Yˆ ( ) ( i ) i hii ei Stdrdizált reziduális: z p Belsıleg studetizált reziduális: i i e i r i e i ei i p h ii A mrdéktgok (reziduálisok) elemzése Heteroszkedszticitás: A mrdéktgok ull szit körüli szóródásák lehetséges típusi.) szóródás megfelel lieáris modellek,.) em lieáris modellhez trtozk mrdéktgok, c.) szóródások em zoosk, d.) hitgok em függetleek egymástól.
Péld kétváltozós lieáris regressziór Keressük lieáris összefüggést z employee dt állomáy kezdıfizetés és jelelegi fizetés között! Péld kétváltozós lieáris regressziór Péld kétváltozós lieáris regressziór 3
Péld kétváltozós lieáris regressziór mrdéktgok Heteroszkedszticitás jelesége megfigyelhetı: gyo -hez gyo szórás trtozik! Péld kétprméteres emlieáris regressziór Keressük emlieáris kpcsoltot Crs állomáy lóerı és fogysztás között! Péld kétprméteres emlieáris regressziór 4
Péld kétprméteres emlieáris regressziór Depedet Vrile: Miles per Gllo Model Summry d Prmeter Estimtes Equtio Lier Logrithmic Iverse Power Epoetil Logistic Model Summry Prmeter Estimtes Costt R Squre F df df Sig.,595 57,79 39, 39,855 -,57,658 75,88 39, 8,45-8,536,659 754,63 39, 3,963 88,7,75 933,576 39, 3,877 -,836,669 788,834 39, 47,3 -,7,669 788,834 39,,,7 he idepedet vrile is Horsepower. Péld kétprméteres emlieáris regressziór Péld kétprméteres emlieáris regressziór Depedet Vrile: Miles per Gllo Model Summry d Prmeter Estimtes Equtio Power Model Summry Prmeter Estimtes Costt R Squre F df df Sig.,75 933,576 39, 3,877 -,836 he idepedet vrile is Horsepower. 5
Péld töváltozós lieáris regressziór Végezzük lieáris elemzést z employee dt állomáyo! A jelelegi fizetés legye célváltozó, mgyrázó változók kezdıfizetés, lklmzás ideje (jotime) és dolgozó kor legye! Péld töváltozós lieáris regressziór A kosts szerepe elhygolhtó modelle. 6