A regresszószámítás alapproblémája egresszóaalízs egresszószámításkor egy változót egy (vagy több) másk változóval becslük. Y,,... p függıváltozó függetle változók Y f(,,... p ) becslés f F Iformatka udomáyok Doktor Iskola E(Y- f * (,,... p )) = m E(Y- f(,,... p )) f F Példák. A Dua vízállásáak elırejelzése Budapeste. A paradcsom beérés dejéek becslése 3. Mőholdkép alapjá a búza terméshozamáak becslése. Mőholdkép alapjá a Mars vastartalmáak becslése 5. Predkcók, tredek dısorokál. Leárs közgazdaság modellek A regresszószámítás alapproblémája Ha smerjük az Y és az,,... p együttes eloszlását, akkor a probléma elméletleg megoldott: f (,,... p ) = E ( Y,,... p ). Gyakorlatba azoba csak egy adatmátr adott: Y Y M Y M M L p L p O M L p Feltételes teles várhatv rható érték, folytoos eset I. Feltételes teles várhatv rható érték, folytoos eset II.
Feltételes teles várhatv rható érték, folytoos eset III. A regresszó tulajdosága Az összes függvéy közül a regresszós görbével lehet legpotosabba közelíte! egresszó ormáls eloszlás s eseté Elmélet leárs regresszó f Y σ πσ ρ σ ( y) = σ ( ) ρ e µ + ρ( y µ ) Normáls kompoesek eseté a regresszós összefüggés leárs! Elmélet leárs regresszó A regresszószámítás alapproblémája F = {f(,,, p, a,b,c, a, b, c, valós paraméterek} Láttuk, hogyha,y együttes eloszlása ormáls, akkor a regresszó leárs lesz! A függvéyhalmazból azt az elemet fogjuk kválaszta, amelyél: h(a,b,c,...) = Σ (Y - f(,,..., p, a,b,c,... )) = m a,b,c,... Ez a legksebb égyzetek módszere! m
A regresszóaalízs fajtá A regresszóaalízs fajtá Leárs regresszó f() = B + B Nemleárs regresszók két változó között I. öbbváltozós leárs regresszó f(,,..., p ) = B + B + B +...+ B p p Polomáls regresszó f(,,..., p ) = B + B + B +...+ B p p =, =,..., p = p Kétparaméteres (leársra vsszavezethetı) regresszó pl. Y=f() = B o e B ly = B + l B o f( ) = B + B ep(b 3 ) aszmptotkus I. f( ) = B - B (B 3 ) aszmptotkus II. f( ) = (B + B ) -/B3 sőrőség f( ) = B (- B 3 ep(b )) Gauss f( ) = B ep( - B ep( - B 3 ))) Gompertz f( ) = B ep( - B /( + B 3 )) Johso-Schumacher A regresszóaalízs fajtá Nemleárs regresszók két változó között II. B f() ) = (B + B 3 ) log-módos dosított f() ) = B - l( + B ep( - B 3 ) f() ) = B + B ep( - B 3 ) log-logsztkus logsztkus Metcherlch f() ) = B / ( ( + B ) Mchaels Mete f() ) = (B B +B 3 B )/(B + B ) Morga-Merczer Merczer-Flor A regresszóaalízs fajtá Nemleárs regresszók két változó között III. f() = (B + B +B 3 + B 3 )/ B 5 3 köbök aráya f() = (B + B +B 3 )/ B égyzetek aráya f() = B /((+B 3 ep(b )) (/B) chards f() = B /((+B 3 ep(b )) Verhulst f() = (B (-B) B ep( - B 3 )) /(-B) Vo Bertalaffy f() = B - B ep( -B 3 B ) Webull f() ) = B /(+B ep( - B 3 +B + B 5 3 )) Peal-eed f() = /(B + B +B 3 ) Yeld sőrőség A regresszóaalízs fajtá Szakaszokét leárs regresszó Polgoáls regresszó A regresszóaalízs fajtá 3
A regresszóaalízs fajtá A regresszóaalízs fajtá öbbváltozós leárs regresszó kategóra-változóval Logsztkus regresszó Y dchotóm Y= {, ha az A eseméy bekövetkezk, ha az A eseméy em következk k be A eseméy,,..., p A választó fog szavaz A pácesek szívfarktusa lesz Az üzletet meg fogják köt ordáls sztő függetle változv ltozók eddg háyszor met el, kor, skola, jövedelem ap cg, ap pohár, kor, stressz ár, meység, pac forgalom, raktárkészlet A regresszóaalízs fajtá Logsztkus regresszó P(Y=) = P(A) - e -Z Z = B + B + B +...+ B p p P(A) ODDS = - P(A) log (ODDS) = e Z Z = B + B + B +...+ B p p Logsztkus regresszó A legagyobb valószíőség elve L(ε,ε,...,ε ) = P(Y = ε, Y = ε,..., Y = ε ) = = P(Y = ε ) P(Y = ε ) L P(Y = ε ) A regresszóaalízs fajtá L - e -Z - e -Z - e -Z l L(ε,ε,...,ε ) = Σ ( l ) - ep (B + B + B +...+ B p p ) Leárs regresszó A leárs kapcsolat ktütetett: () a legegyszerőbb és leggyakorbb, köyő a két paramétert értelmez () két dmezós ormáls eloszlás eseté a kapcsolat em s lehet más (vagy leárs vagy egyáltalá cs) Leárs regresszó Az emprkus leárs regresszó együtthatót a legksebb égyzetek módszerével kaphatjuk meg: Az emprkus leárs regresszó együttható az elmélet regresszós egyees együtthatótól ayba külöbözek, hogy a képletekbe az elmélet mometumok helyett a mtából számolt megfelelı emprkus mometumok állak:
Leárs regresszó A teljes égyzetösszeg A leárs regresszó Q = Q res + Q reg A maradékösszeg y res (, y ) reg (, ˆ ) y A regresszós összeg (, y ) yˆ = b + a A leárs regresszó A teljes égyzetösszeg felbotása: Q = Q res + Q reg f reg szabadság foka -, mert tagú az összeg, de ezek között két összefüggés va. Ha cs leárs regresszó, a varacák háyadosa (, -) szabadság fokú F eloszlást követ. Q reg s f Q ( ) reg reg reg F = = = s Q res res Q res f res f res szabadság foka mdössze, mert az átlag kostas A leárs regresszó A legksebb égyzetek módszere alapelve: y yˆ = b + a ( 3, y 3) (, y ) e e (, y ) ( 5, y 5) e 5 e 3 e (, y ).. Megjegyzések: A leárs regresszó A leárs regresszó ervezett (determsztkus) megfgyelés Fıleg mőszak alkalmazasokba gyakor, hogy a méréseket Y -ra elıírt beálltásokál végzk el, és így keresk az smeretle Y~f() függvéykapcsolatot. A modell lyekor az, hogy Y = f() +ε, ahol ε a mérés hbát jeletı valószíőség változó, melyre E ε = és σ ε véges. 5
Gauss-Markov-tétel Leársra vsszavezethetı kétparaméteres regresszó I = { f ( ; a, b) } E * * ( Y f ( ; a, b )) = m E( Y f ( ; a, b f I )) Ameybe találhatók olya alkalmas g, h, k, k függvéyek, amvel a probléma learzálható: y = f ( ; a, b) g( y) = k( a, b) h( ) + k( a, b) * * E( g( Y) k h( ) k ) = m E( g( Y ) k h( ) k ) k, k A trükkel em az eredet mmalzálás feladat megoldását * * * * * * a k ( k, k), b k ( k, k) kapjuk meg, csak attól em túl messze esı közelítéseket! Leársra vsszavezethetı kétparaméteres regresszó Leársra vsszavezethetı kétparaméteres regresszó epoecáls függvéykapcsolat: y = a e b hatváyfüggvéy: y = a b H A V y=**5 3 E P y=ep(.*) * y = l y = b + l a = k + k - 5 growth függvéy: compoud függvéy: 3 y = ep( a + b) y = a b * y = l y = a + b * y = l y = l a + l b Arrheus: y = a e b * * y = l y = b + l a = k + b = k, a = e k k A H y=ep(-5/)..... -. Leársra vsszavezethetı kétparaméteres regresszó recprok: y = a + b y = * = a + b y y=/(+5*). E. C I........ Leársra vsszavezethetı kétparaméteres regresszó homogé kvadratkus: y = a + b * y y = = a + b K V A D y=*+5* 5 3 racoáls: a y = + b A C I y=/(+5*)..9..7. hperbolkus: H I P E y=+5/ 7 5 b y = a + logartmkus: y = a l b = a l b + a l y=l(5*) 5. L O G.5. 3.5 ( ) y * b * k = = + = k + k a =, b, y a a k = k 3 3..5..5
Learzálás, pl. Polomáls regresszó A polomáls regresszós feladatot többváltozós leárs regresszóval oldhatjuk meg, a predktor változók lyekor az változó hatváya: =! Polomáls regresszó Polomáls regresszó A regresszó közelítése Nadaraja módszerével Az és Y változók között a tökéletes függvéykapcsolatot az r()=e(y =) regresszós görbe adja meg. Nadaraja emparaméteres módszere a sőrőségfüggvéy Parze-oseblatt becslését haszálja. A sőrőségfüggvéy becslését felhaszálva a E( Y = ) = r( ) = + regresszós görbét közvetleül becsl. f, Y (, y) y dy f ( ) A regresszó közelítése Nadaraja módszerével étel: Legye az (, Y ), (, Y ),, (, Y ) mta együttes sőrőségfüggvéye f(,y). Legye továbbá k() olya páros sőrőségfüggvéy, amelyre gazak a következık: () k() korlátos függvéy () k() ha () k() másodk mometuma véges Legye a h > számsorozat olya, hogy (v) h ullsorozat Pl. k()=ϕ() és h = -/3 jó választás, ε > : P( r (v) h ( ) r( ) > ε ) (, I Akkor az Y k = = h r ( ) k = h az r() regressós görbe kozsztes becslése. 7
A regresszó közelítése Nadaraja módszerével Mvel mde esetbe bár agy, de mégscsak véges mtával végezzük a becslést, a h sorozat megadása helyett a Egy példa az alkalmazásra Egy meteorológa mérıballo segítségével külöbözı magasságokba megmérték a levegı ap ózo sztjét. Az összese =33 apo mértek: y k = = h r ( ) k h kfejezésbe a h paraméterrel mmalzáluk. Egy példa az alkalmazásra A két változó szóródásábrája: Egy példa az alkalmazásra Gauss magfüggvéyt haszálva: Egy példa az alkalmazásra A regresszó Nadaraja becslése: A függetle változók azo leárs kombácóját keressük, amelyél a függıváltozót legksebb égyzetes hbával tudjuk közelíte: ~ Y = Y + ε = b + b + b +... + b + ε k k = Y ( ) = = ~ ε ε = ( Y b) ( Y b) = Y Y Y b Y Y = b + b b = = = Y Y Y b + b b = Q( b) m b
Az együtthatók meghatározása a legksebb égyzetek módszerével: Q = Y + b = b b = Y ( ) Y b = Szórásaalízs (ANOVA) a modell érvéyességéek eldötésére A ullhpotézs az, hogy a függetle változók mdegyke, vagys egyk predktor változó sem magyarázza a célváltozót! H : β = β =... = β k = SS ( k ) SSE ( k) F k, k F-próbával döthetük a ullhpotézsrıl. Béta-együtthatók S BEA = b S y b S S y = (,,..., k) A béta-együtthatók egyfajta az -edk regresszós szempotból együttható, mısítk a változók fotosságát a leárs összefüggésbe. Ha egy változóak agy az együtthatója abszolút az -edk változó stadard szórása, értékbe, akkor fotos, ha kcs, kevésbé fotos. a célváltozó stadard szórása. (coeffcet of determato) meghatározottság együttható Az érték megmutatja a leárs kapcsolat mértékét Ha csak egy SS SSE magyarázó változó = =, va, akkor éppe a SSO SSO korrelácós együttható égyzete! = ± SS SSO = ( )( Y Y ) = ( ) ( Y Y ) = = Megmutatja, hogy a leárs regresszóval a célváltozó varacájáak mekkora háyadát lehet magyaráz,. 9
Korrgált (adjusztált) meghatározottság mutató adj = p a függetle változók száma ( ) SSE / = p SSO ( p ) /( ) A korrekcó azért szükséges, mert újabb változók bevoásával automatkusa ı, és túl optmsta képet mutat a modell lleszkedésérıl. Az adjusztált változatba bütetjük a túl sok változó bevoását a modellbe. p= esetbe em korrgáluk. Modell-építés techkák Egy tpkus többváltozós leárs regresszós problémáál adott az Y célváltozó és agy számú,,, p magyarázó változó. Az elemzés kezdetekor azt sem tudjuk, melyek azok a változók, amk bekerülek, és melyek azok, amk em kerülek majd be a modellbe. Ha mde lehetséges kombácót k akarák próbál, akkor összese Már változó p p p eseté 5 modellt = kellee lleszteük! k = k modellllesztést kellee elvégezük! Modell-építés techkák Nylvá szőkíteük kell kell az llesztedı modellek számát! Alkalmazhatjuk az ENE eljárást, amelybe azokat a magyarázó változókat vesszük be a változólstából a modellbe, amely változókat szereték, hogy bee legyeek. Ezeket a modelleket utólag értékel kell a meghatározottság együttható agysága, és a regresszós együtthatók szgfkaca sztje alapjá. A módosításokkal újra el kell végez az llesztést. Modell-építés techkák Automatkus modellépítés techkák: SEPWISE FOEWAD BACKWAD EMOVE A felhaszálóak csak az dulás magyarázó változó lstát kell specfkála, az SPSS program ebbıl választva állít elı jó modelleket, amk közül választhatuk végsı megoldást. A parcáls F-próba együk fel, hogy bevotuk a p-edk magyarázó változót a modellbe. Ha az új változó magyarázó ereje elhayagolható, akkor az alább statsztka, -p- szabadságfokú Fsher-eloszlást követ: F p = p ( ) az új p változós modell meghatározottság együtthatója, a rég p- változós modell meghatározottság együtthatója, A parcáls F-próba A p-edk változót akkor vojuk be a modellbe, ha ahol K ε ε ( ) ( p ) K < olya krtkus érték, hogy: ( < K ) = ε P F,-p- ε
FOEWAD modell-építés BACKWAD modell-építés Alulról építkezı modellépítés eljárás. Mde modellépítés lépésbe a lstából azt a változót vojuk be, amely F-tesztjéhez a legksebb ε szt tartozk. A bevoás folyamat addg tart, amíg ez a legksebb ε szt egy beállított PIN korlát alatt marad. Elıye, hogy vszoylag kevés magyarázó változó lesz a modellbe, így köyebb a modellt értelmez. Felülrıl lebotó eljárás. Kezdetbe az összes változót berakjuk a modellbe. Mde lépésbe azt a változót hagyjuk el a modellbıl, amelyél parcáls F-próbáál a legagyobb ε érték tartozk. Akkor álluk meg, ha az elıre beállított POU küszöbérték alá megy ez az ε. A BACKWAD modellépítéssel vszoylag sok magyarázó változó marad be a modellbe. SEPWISE modell-építés EMOVE modell-építés A FOEWAD eljárást úgy módosítjuk, hogy mde lépésbe elleırzzük a modellbe korábba már bevot változókhoz tartozó ε szgfkaca-sztet, és azt elhagyjuk, ahol ez a szt agyobb mt POU. Nem kerülük végtele cklusba, ha PIN<POU. (Szokásos beállítás: PIN=,5 és POU=,. A EMOVE eljárás az ENE beállításából dul k, egyszerre hagy el változókat a modellbıl, összehasolításkét csak a kostas tagot tartalmazó modell eredméyet közl. Multkolleartás Multkolleartáso a magyarázó változók között fellépı leárs kapcsolat meglétét értjük. A multkolleartás jeleléte rotja a modell értékelhetıségét. A multkolleartás mérıszáma: toleraca varaca fláló faktor (VIF) kodícós de (CI) varaca háyad A multkolleartás mérıszáma. toleraca azt mér, hogy az -edk magyarázó változót az összes több mlye szorosa határozza meg. A ullához közel toleraca jelet azt, hogy közel függvéyszerő kapcsolat va a magyarázó változók között. Értéke -, ahol az -edk változóak a többvel vett leárs regresszójáak a korrelácós együtthatója, a többszörös korrelácós együttható. A varaca fláló faktor (VIF) a toleraca recproka: VIF=/(- ). Ezért, ha a magyarázó változók között szoros a kapcsolat, VIF végtele agy s lehet. Ha a magyarázó változók korrelálatlaok, a VIF értéke.
A multkolleartás mérıszáma. A kodícós de (CI) a magyarázó változók korrelácós mátráak sajátértékebıl számolt statsztka. A legagyobb és legksebb sajátértékek háyadosáak égyzetgyöke. A CI>5 esetébe megállapítható az erıs kolleartás. CI = λ λ ma m Varaca háyad s utalhat multkolleartásra. Ha egy-egy agy kodícós de sorába több regresszós együtthatóak va magas varaca háyada. A regresszós együtthatók varacát a sajátértékek között szétosztjuk. A becslést befolyásoló potok feltárása A leárs regresszós modell értékeléséek fotos lépése az egyes adatpotok fotosságáak feltárása. Melyek azok az adatpotok, amelyek a végleges összefüggést legerısebbe mutatják, erısítk, és melyek azok az ú. outler potok, melyek legkevésbé lleszkedek az adott regresszós összefüggésbe. A becslést befolyásoló potok feltárása A Y célváltozó és a leárs becslés között kapcsolat: ~ Y = B = ~ e = Y Y = ( E H )Y ( ) Y = H Y A becslés hbavektora, maradékösszeg, regresszós összeg: SSE Y ( E H )Y H = ( ) = SS = Y H Y ( y ) ( ) H = a leverage (hatalom) vagy hat mátr A mátr szmmetrkus, h dagoáls eleme azt mutatják, hogy az -edk eset mekkora hatást fejt k a regresszós becslésre. h A becslést befolyásoló potok feltárása ( ) =, ahol = h = p + az -edk esetvektor h A becslést befolyásoló potok feltárása p + Az -edk eset befolyása átlagos, ha ezek a tpkus h esetek! Az -edk eset befolyása jeletıs, ha Ha <, h p + h > az -edk eset bevoható az elemzésbe Ha, h <, 5 kockázatos az -edk eset bevoása,5 h az -edk esetet k kell hagy, outler pot A maradéktagok (rezduálsok) elemzése Közöséges rezduáls: e = Y Yˆ e örölt rezduáls: e = Y Yˆ ( ) ( ) = h e Stadardzált rezduáls: z = p Belsıleg studetzált rezduáls: = e r = A leárs becslés elkészítésekor em számoluk az -edk esettel, töröljük. e e = p h
Példa kétváltozós leárs regresszóra A maradéktagok (rezduálsok) elemzése Heteroszkedasztctás: A maradéktagok ulla szt körül szóródásáak lehetséges típusa a.) a szóródás megfelel a leárs modellek, b.) em a leárs modellhez tartozak a maradéktagok, c.) a szóródások em azoosak, d.) a hbatagok em függetleek egymástól. Keressük leárs összefüggést az employee data állomáyba a kezdıfzetés és a jeleleg fzetés között! Példa kétváltozós leárs regresszóra Példa kétváltozós leárs regresszóra Példa kétváltozós leárs regresszóra a maradéktagok Példa kétparaméteres emleárs regresszóra Keressük emleárs kapcsolatot Cars állomáyba a lóerı és a fogyasztás között! Heteroszkedasztctás jelesége megfgyelhetı: agyobb -hez agyobb szórás tartozk! 3
Példa kétparaméteres emleárs regresszóra Példa kétparaméteres emleárs regresszóra Depedet Varable: Mles per Gallo Model Summary ad Parameter Estmates Equato Lear Logarthmc Iverse Power Epoetal Logstc Model Summary Parameter Estmates Costat b Square F df df Sg.,595 57,79 39, 39,55 -,57,5 75, 39,,5 -,53,59 75,3 39, 3,93,7,75 933,57 39, 3,77 -,3,9 7,3 39, 7,3 -,7,9 7,3 39,,,7 he depedet varable s Horsepower. Példa kétparaméteres emleárs regresszóra Példa kétparaméteres emleárs regresszóra Depedet Varable: Mles per Gallo Model Summary ad Parameter Estmates Equato Power Model Summary Parameter Estmates Costat b Square F df df Sg.,75 933,57 39, 3,77 -,3 he depedet varable s Horsepower. Példa többváltozós leárs regresszóra Végezzük leárs elemzést az employee data állomáyo! A jeleleg fzetés legye a célváltozó, a magyarázó változók a kezdıfzetés, alkalmazás deje (jobtme) és a dolgozó kora legye! Példa többváltozós leárs regresszóra A kostas szerepe elhayagolható a modellbe.