Regrezóanalíz Lneár regrezó REGRESSZIÓ 1 Modell: Valamely (pl. fzka) törvényzerûég értelméen az x független változó zonyo értékénél a függõ változó értéke Y ϕ (x). Y helyett y értéket mérünk, E(y x) Y, vagy y Y + ε é E( ε ) Var( ε ) σ Amennyen nncen mert é gazolt fzka özefüggé, nem lehetünk elõre meggyõzõdve az lleztett függvény alkalmaágáról. REGRESSZIÓ
A regrezóanalíz orán feltételezzük, hogy y az x mnden értékénél normál elozláú, vagy az ε méré hák N(,σ ) normál elozláúak; Var(y) kontan, lletve y-nak vagy x-nek mert függvénye; a különözõ méré pontokan elkövetett méré hák egymától függetlenek; Y(x) f(x, α,β,γ,...) az mert vagy feltételezett függvénykapcolat alakja, ahol α, β, γ a függvény kontana (paramétere). REGRESSZIÓ 3 Egyváltozó lneár regrezó métlé nélkül méréek eetén, A eclé krtérum: φ ( y Y$ ) mn. $Y + x a + x x Y β + βx α + β x x σ y φ y x mn. kontan β α βx a x REGRESSZIÓ 4
A normálegyenletek: φ [ y x] φ [ ] y x x Átrendezve: y n + x y x x + x Ha x a é ecléek egymától nem függetlenek REGRESSZIÓ 5 A normálegyenletek az Y + ( x x ) φ a φ [ y a ( x x )] [ y a ( x x )]( x x ) α β modell lleztéekor Átrendezve: ( ) y na + x x ( ) ( ) + ( ) y x x a x x x x ( x x ) x x n Az a é ecléek egymától függetlenek, mert REGRESSZIÓ 6
y na é y ( x x ) ( x x ) tehát az a é ecült paraméterek egymától függetlenül kaphatók meg a két normálegyenletõl: a y y( x x) n x x ( ) $Y a + x x ; ( $ ) α + β( ) E Y Y x x REGRESSZIÓ 7 A ecléek tulajdonága: E( a) y E α n Var a E( ) β σ n n σ Var( ) ( x x ) ( ) σ ( x x ) ( x x ) σ REGRESSZIÓ 8
[ ] E Y$ E a + x x E a + E x x α β E Y $ + x x Y Var( Y$ x x ) Var( a) + ( x x) Var( ) 1 σ + n n x ( x ) REGRESSZIÓ 9 a r n r ( x x ) 1 Y$ r + n x x ( x x ) + x x a + x Y$ ( x ) a A konfdencatartományok a t-elozlá alapján zámíthatók. REGRESSZIÓ 1
1. példa Kíérletleg vzgálták az x független változó é az y függő változó között özefüggét. Az x független változó értéke pontoan eállítható, az y függő változó értéke azonan a Y valód érték körül ngadozk. A méré adatok a következő tálázatan láthatók, az y értéke zernt növekvő orrende rendezve. A ténylege méré orrendet a tálázat máodk ozlopa tartalmazza. Feltételezve, hogy y normál elozláú, valamnt azt hogy az y é x között függvénykapcolat lneár, adjunk eclét az egyene paraméterere! REGRESSZIÓ 11 No méré orrend x y 1 3.58 5.5.7 3 4.8.88 4.1 3.4 5 1.1 3.53 6 6.15 5.1 REGRESSZIÓ 1
Excel eredmények SUMMARY OUTPUT Regreon Stattc Multple R.956164 R Square.936786 Adjuted R Square.87958858 Standard Error.613557 Oervaton 6 R r rezduál zórá ANOVA df SS MS F Sgnfcance F Regreon 1 14.487475 14.487475 37.543.3597945 Redual 4 1.54439481.386837 Total 5 16.318 r Coeffcent Standard Error t Stat P-value Lower 95% Upper 95% Intercept.5195755.543317.1383577.9858-1.347465911 1.451381 x 3.16594 5.65899 6.157887.3598 17.5516417 46.57855 REGRESSZIÓ 13 Determnácó együttható: Regreon R SSR SST SST SSE SST Redual 1 SSE SST Total R _ adj 1 SSE SST ( n ) n 1 REGRESSZIÓ 14
y ( y y) ( y Y$ ) + ( Y$ y) SST SSE + SSR d.f.: n-1 n- + 1 y 1 8 6 ( y Y$ ) ( $Y y) R SSR/SST 4 R R.745 4 6 8 1 xx REGRESSZIÓ 15 y 1 y 8 6 4 ( y Y $ ) ( $Y y) R R.34 4 6 8 1 x REGRESSZIÓ 16
ANOVA df SS Regreon 1 14.487475 Redual 4 1.54439481 Total 5 16.318 n - r SSE n SSR SSE SST REGRESSZIÓ 17 $Y y Y $ ( $ ) y Y r RESIDUAL OUTPUT Oervaton Predcted y Redual Standard Redual 1.5195755.584453.84983731 1.65783 -.9578319-1.53339493 3.613783.6671698.4957965 4 3.536849.16639159.677884 5 3.89393868 -.363938679 -.585717539 6 4.85443396.35556638.574734 n ( Redual ) 1 SSE REGRESSZIÓ 18
a r n r ( x x ) 1 Y$ r + n x x ( x x ) + x x a + x Y$ ( x ) a A konfdencatartományok a t-elozlá alapján zámíthatók. REGRESSZIÓ 19 Y$ ( x ) Coeffcent Standard Error t Stat-valu Lower 95% Upper 95% Intercept.51957547.543317 1-1.347465911 1.4513815 x 3.165943 5.65899 6 17.5516417 46.578547 95%-o konfdenca ntervallum a paraméterekre REGRESSZIÓ
Y$ Y$ + t 5 ( 4) fölõ Y$ Y$ t 5 ( 4) aló Konfdenca áv az Y(x) valód értékre. / Y$. / Y$ x Yhat _Yhat Yhat_aló Yhat_fölõ.5.5-1.35 1.45.5 1.65.31.8.51.8.61.5 1.91 3.3.1 3.5.7.51 4..1 3.89.3 3.1 4.78.15 4.85.43 3.66 6.5 REGRESSZIÓ 1 Jólá ntervallum 1 $ r 1 + + n y Y x x ( x x ) + + x x r a ntervallum: Y$ x ± tα y Y $ (1- α) a valózínűége annak, hogy x adott értékénél egy kéő méré eredménye a zámított ntervalluma ek. REGRESSZIÓ
7 6 r.956 95%-o jólá áv 5 4 Y$ 5196. + 317. x 3 y 1-1 95%-o konfdenca áv - -3 - x REGRESSZIÓ 3 A méréek orrendje e t 1..8.6.4.. x 1 x x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 1 dõ e t 1..8.6.4.. dõ x 9 x 1 x 3 x 1 x 6 x 5 x 8 x 4 x x 7 1 y 1 8 6 4 rezduum.7.3 -.1 x -.5 4 6 8 1 1 méré orrend y 1 8 6 4 x.7.3 -.1 -.5 4 6 8 1 1 méré orrend rezduum REGRESSZIÓ 4
Egyváltozó lneár regrezó mételt méréek eetén, σ y kontan y y k y a α Y α + β ( x x ) y Y $ Y$ Y n n n n ( x, y k ) ( x, y ) ( x, Y$ ) ( x, Y ) Y$ a + ( x x ) x x REGRESSZIÓ 5 SST SSE + SSR SST SSrepl + SSre + SSR Imétléekõl zámított négyzetözeg Rezduál négyzetözeg A zaadág fokok záma: n n p 1 e p 1 1 1 ( ) ( p 1) SSrepl + n + 1 r SSre n REGRESSZIÓ 6
e Az coportokon elül error zóránégyzet a varanca torzítatlan eclée, függetlenül az Y függvény alakjától. Az r rezduál zóránégyzet cak akkor eclée σ y -nak, ha a tapaztalat regrezó függvény "megfelelõ alakú", vagy az elmélet regrezó függvény lneár. Eetünken tehát akkor, ha Y α + β( x x ). REGRESSZIÓ 7 A hpotéz vzgálatára az F-próát haználjuk: χ v r r σ / r F χ σ / ν e Ha az r e arány nem halad meg egy F α krtku értéket, mondhatjuk, hogy a méré adatok nem mondanak ellent annak a nullhpotéznek, amely zernt az elmélet é tapaztalat regrezó göre matematkalag azono alakú. e e REGRESSZIÓ 8
Ha elfogadjuk a nullhpotézt, egyen azt állítjuk, hogy e é r egyaránt σ torzítatlan eclée. A kettõ együtt tö nformácót nyújt, mnt ármelyk külön-külön, mvel az így egyeített zóránégyzet nagyo zaadág fokú (tehát ke varancájú) eclée σ -nak, mnt akár e, akár r. Célzerű tehát a két eclét egyeíten. σ$ ν + ν ν + ν e e r r e r ( y ) ( $ k y + p y Y ) k ( p n) + ( n ) REGRESSZIÓ 9. példa Kalrácó eljárá orán a tálázatan közölt adatokat mérték, x a koncentrácó, y a mért jel. Illezünk egyenet a méré adatokra. y k x ha k p 1 3 4 5 1.46.1167.59.18.153 5 14 1.544 1.4737 1.55 1.537 1.451 5 1 3 1.43 1.59 1.168 1.36-4 5 4.5756.648.571.675-4 1.5 5.195.36.1954.437.455 5 p 3 REGRESSZIÓ 3
x y 5.648.153 1.5.1954 14 1.544.59 1.5.195.1167 5.5756 1.5.36 5.675 14 1.451 1.5.455.46 5.571 1 1.59 1 1.36 1 1.168 1.5.437 1 1.43.18 14 1.55 14 1.537 14 1.4737 Az adatok a méré orrendjéen kerülnek e az nput fle-a, tehát a programok zámára általáan ugyanaz az x - y adatok zerkezete, mnt métlé nélkül méréek eetén. REGRESSZIÓ 31 SUMMARY OUTPUT Regreon Stattc Multple R.997696 R Square.995398 Adjuted R Square.995179 Standard Error.477 Oervaton 3 SSrepl + SSre p ANOVA df SS MS F Sgnfcance F Regreon 1 1.3439 1.3439 454.869 4.98E-6 Redual 1.4785.77 Total 1.3991 Coeffcent Standard Error t Stat P-value Lower 95% Upper 95% Intercept.947.18397 5.5696 3.54E-5.56754.131786 x.9879.14649 67.3951 4.985E-6.9568.11775 REGRESSZIÓ 3
5 x + 5 14 + 4 1 + 4 5 + 5 15. 1. 717 3 a p y 5. 4933 11839. p 3 ( x ) ( x ) p y x p x 14. 7655. 9873 1611141. $. +. (. ). +. Y 11839 9873 x 1 717 943 9873x REGRESSZIÓ 33 e ( yk y ) k p n. 3587 181. 1 3 5 3 Annak ellenõrzéére, hogy az alkalmazott lneár modell megfelelõ-e, F-próát végzünk. Az Excel tálázat egítégével zámítuk k a rezduál zóránégyzetet, majd végezzük el a próát! p ( p 1) + ( n ) e r 3 1. 77 18 181. 1 + 3 r 3 r 5. 7 1 REGRESSZIÓ 34
5. 7 1 181. 1 3 F 3. 84 Az F-elozlá krtku értéke 95 % -o egyoldal znten ( α.5), ha a zámláló zaadág foka 3, a nevezõé 18: F.5 (3, 18) 3.16. Azt mondhatjuk, hogy a zámított egyene (a tapaztalat regrezó göre) a méré pontokat megfelelõen leírja. REGRESSZIÓ 35 y ( x ) p x. 77 1 16111. 3 146. 1 6 146. 1 3 a y. 77 1 p 3 3 a 9. 95 1 3 9. 91 1 5 REGRESSZIÓ 36
+ x x Y$ a 9. 91 1 +. 146 1 x 1. 717 5 6 5 6 4 Y $ ( x 9. 91 1 +. 146 1 1. 717 3. 54 1 ) 184 Y$. ( x ) REGRESSZIÓ 37 Egyváltozó lneár regrezó mételt méréek eetén, A eclé krtérum: σ y A négyzetözeg felontható: k yk y σ y + σ k nem kontan yk Y$ y mn. σ y p σ p y Y $ mn. σ y y REGRESSZIÓ 38
A varanca nem kontan, hanem x-nek mert függvénye: ahol σ [ ] σ y σ ( ) Var y x h x x -tõl független kontan. A mnmalzálandó függvény: p y Y $ 1 h ( x ) σ σ [ ( )] ( Y$ ) w p y w p y Y$ w p y a x x mn ahol w az ún. úly: σ 1 w σ h y ( x ) REGRESSZIÓ 39 Ha x w p x w p az a é ecült paraméterek egymától függetlenül kaphatók meg a két normálegyenletõl: a w p y w p w p y x w p x ( x) ( x) REGRESSZIÓ 4
Kalrácó egyene: a regrezó egyenlet megoldáa a független változóra Az egyene egyenlete: $Y a + ( x x ) Mot y a független, de ztochaztku változó (ötzör mérve 5 különözõ azorancát kapunk), x a függõ változó, amelynek eclée y a x$ x$( y) x + várható értéke (é valód értéke) X. (Az $x eclé valózínûég változó, mvel y, a é valózínûég változók.) REGRESSZIÓ 41 $x konfdenca-ntervalluma: egédváltozó z y a ( X x ) ( ν p ) z E z t z α β( ) E z Y X x Var z Var y + Var a + X x Var Ha y n méré átlagértéke, értelemzerûen írandó y helyée, é Var( y) Var( y) n REGRESSZIÓ 4
Var z 1 1 σ + + wn w p X x w p x ( x ) Az z eclét úgy kapjuk, hogy Var(z) elõ kfejezééen a w úlyok helyett eírjuk a h (x) függvény recprokának ecléét, σ eclééül pedg az -tatztkát haználhatjuk. P t < t < t α / α / 1 α ; z t z y a X x z REGRESSZIÓ 43 Az X-re máodfokú kfejezé átrendezée után a konfdencantervallum y a 1 1 x + t + α α / + wn w p α / < x + α / / $ ( x x) w p x y a 1 1 + + α t α / + wn w p α / α / ( x ) / $ < X < ( x x ) w p x ( x ) ahol α / t / α REGRESSZIÓ 44
Az X-re máodfokú kfejezé átrendezée után a konfdencantervallum y a y a P x + < X < x + + 1 α α / α / ahol tα / h x + α / w p α / ( $ ) ( $ ) + x x w p x ( x ) é α / 1 tα / REGRESSZIÓ 45 a -val é -vel kfejezve α / ( h ( x$ ) a ) ( x$ x) tα / + + α / Ha >>,, így az elõzõ kfejezé egyzerûödk α / ahol ( $ $ ) P x < X x + 1 α t h x α / + a + x x n ( $ ) ( $ ) REGRESSZIÓ 46
Az özefüggéek ha >> :,, x felhaználáával, y x$ ; P( x$ < X < x$ ) 1 α ahol t h x α / + + n y ( $ ) ( x$ xx $ ) REGRESSZIÓ 47 3. példa A. példáan kapott regrezó egyenet kalrácó özefüggéként haználjuk. Az meretlen koncentrácójú oldattal végzett 5 méré átlagértéke 1.5. Adjunk eclét é 95 %-o konfdenca-ntervallumot az oldat koncentrácójára (X-re ). y 15. n 5 x$ y 1. 5. 947. 9873 11. 76 6 146 1 t 5 1 8. ; ;. /. t α / 9. 5 1 4 REGRESSZIÓ 48
α / tα /. 9864,, x felhaználáával: α / 1 h ( x ) 1. 8. 9873. 77 1 5 3 3 (. 184) ( 1. 465 1 )( 11. 761 11761. 1. 717) + + 1. 8 A konfdenca-ntervallum: P ( X ) 11. 76 1. 8 < < 11. 76 + 1. 8. 95 P 1. 7 < X < 11. 7. 95 REGRESSZIÓ 49 A regrezó feltételenek ellenõrzée; a rezduumok vzgálata A regrezóanalíz orán feltételeztük, hogy y az x mnden értékénél normál elozláú, vagy az ε méré hák N(,σ ) normál elozláúak; Var(y) Var(y x) kontan, lletve y-nak vagy x-nek mert függvénye; a különözõ méré pontokan elkövetett méré hák egymától függetlenek; E(y x) Y(x) f(x, α,β,γ,...) az mert vagy feltételezett függvénykapcolat alakja, ahol α, β, γ a függvény kontana (paramétere). REGRESSZIÓ 5
1. Rezduumok a méréek orzámának függvényéen: extrém értékek y -Y r 3 1-1 - -3 5 1 15 5 3 35 4 A méré orzáma REGRESSZIÓ 51. Rezduumok a méréek orzámának függvényéen: trend y -Y r 3 1-1 - -3 5 1 15 5 3 35 4 A méré orzáma REGRESSZIÓ 5
3. Ugrá (Szntváltozá a rezduumok vzgálatánál) y -Y r 3 1-1 - -3 5 1 15 5 3 35 4 A méré orzáma REGRESSZIÓ 53 4. A zórá (varanca, méré pontoág) változáa y -Y Y REGRESSZIÓ 54
A h ( x) függvény megfelelõen írja le változáát: y -Y h(x ) REGRESSZIÓ 55 Y 5. Normaltá y Y Az $ közelítõleg zéru várható értékû normál h( x) elozláú kell legyen az 1 4. feltételezéek zernt. A normaltát tatztka próával vzgálhatjuk (χ -próa, Kolmogorov Szmrnov próa). A normaltát úgy vzgálhatjuk, hogy ún. valózínûég papíron (Gau hálón) árázoljuk y Y $ értékét h x REGRESSZIÓ 56
A rezduumok elozláa nem normál, az lleztett modell nem megfelelõ: y -Y h(x ) Y REGRESSZIÓ 57 A rezduum értékek árázoláa Gau-hálón. a rezduumok nem normál elozláúak.5 1.5 Expected Normal Value.5 -.5 elmélet elozlá -1.5 -.5 - -1 1 3 4 5 Redual REGRESSZIÓ 58
A rezduum értékek árázoláa Gau-hálón..5 a rezduumok normál elozláúak 1.5 Expected Normal Value.5 -.5-1.5 -.5-3.5 -.5-1.5 -.5.5 1.5.5 3.5 Redual REGRESSZIÓ 59 Kétváltozó lneár regrezó Az elmélet regrezó függvény: Y α + β x x + β x x A eclé krtérum: 1 1 1 ( y Y ) [ y a 1 ( x1 x1) ( x x )] φ $ mn. A ecülendõ paraméterek zernt derválva, é a derváltakat nullával egyenlõvé téve kapjuk a normálegyenleteket: REGRESSZIÓ 6
na + x x + x x y 1 1 1 ( 1 1) + 1 ( 1 1) + ( 1 1)( ) ( 1 1) a x x x x x x x x y x x ( ) + 1 ( 1 1)( ) + ( ) ( ) a x x x x x x x x y x x A ecült paraméterek akkor függetlenek egymától, ha ( x x ) 1 1 ( x x )( x x ) é 1 1 ; ( x x ) ; ortogonál kíérlet terv REGRESSZIÓ 61 Szempontok a független változók értékenek megválaztáához Egymától független ecült paraméterek (ortogonaltá) x 1-1 P, kpa 5 45 4 35 3 5 15 1 5 1 3 4 5 6 T, C x -1 1 1 REGRESSZIÓ 6
A paraméter mnél pontoa eclée a) -1 1 σ. 43 ) -1 1 σ. 9 c) -1 1 σ. 7 REGRESSZIÓ 63 Töváltozó lneár regrezó Legyen r a független változók záma. A kíérletorozat eredményet a következő tálázato formáan zokáo írn: x x L x L x y 11 1 j1 r1 1 x x L x L x y 1 j r M M M M M x x L x L x y 1 j r r M M M M M x x L x L x y 1n n jn rn n REGRESSZIÓ 64
A modell Y β x + β x + β x + + β x 1 1 K r r ahol x az általáno írámód érdekéen evezetett fktív változó. Az x elemek értéke 1. A tapaztalat regrezó egyene $Y x + x + x + + x 1 1 K r r A kétváltozó regrezónál mondottakhoz haonlóan a j ecléek egymától nem függetlenek. REGRESSZIÓ 65 Az egye változók zgnfkancájának vzgálata Eldöntendõ, hogy q < r változó fgyelemevétele r változóhoz képet nem rontja-e a közelítét. A q ll. r zámú változóra a mért pontok é a ecült ík között eltéréek négyzetözege, ha mnden pontan cak egy y méré van: q S y x j q jq j r S y x j r jr j $Y q $Y r REGRESSZIÓ 66
Tegyük fel, hogy r változó ztoan elég (hátlan a regrezó egyenlet alakja), ekkor az [ y Y $ ( r) ] eltéréek normál elozláúak, (kontannak feltételezett) varancával; az eltéréek S r négyzetözegének zaadág foka n-(r+1) σ y [ ] Ha q változó elég (H nullhpotéz), az y Y $ ( q) σ y eltéréek normál elozláúak, varancával; az eltéréek S q négyzetözegének zaadág foka n-(q+1) REGRESSZIÓ 67 Ha a nullhpotéz gaz, az F ( 1) q Sq / n q S / n r r r ( 1) hányado F-elozláú n q 1 é n r 1 zaadág fokkal. F-próa REGRESSZIÓ 68
S q é S r különége zntén normál elozláú eltéréek négyzetözege, zaadág foka r q: F r q r ( Sq Sr ) ( r q) / S / n r 1 r F-próa Bármelyk módzerrel elvégezhetõ az F-próa, a máodk érzékenye (általáno regrezó próa). REGRESSZIÓ 69 Ha az arány a krtku F értéket meghaladja, el kell vetnünk a nullhpotézt, amely zernt r q változó hatáa nem zgnfkán. Termézeteen r q 1 lehet, ekkor azt vzgáljuk, hogy adott egyetlen változó hatáának (lneár) fgyelemevétele javítja-e a közelítét. Mnthogy a ecléek egymától nem függetlenek, az elõ vzgálat t-próával nem végezhetõ el. Ha a normál elozlá feltételezée nem jogo, az tt leírt vzgálat módzer ham eredményeket ad! REGRESSZIÓ 7
Regrezó má, a független változóan nemlneár, de a paramétereken lneár függvényekkel z Y + z + β β1 β exp + β3 log z Vezeük e a következõ jelöléeket: x z 1 z x exp x log 3 z β Ezekkel Y j x j j A eclé proléma é az eredmények tatztka elemzée teljeen azono a töváltozó lneár regrezónál leírtakkal. REGRESSZIÓ 71 Polnom lleztée Legyenek olyan méré adatank, amelyeknél az y függõ változó nem lneár, hanem polnommal leírható függvénye a z független változónak. Mvel a z független változó értéke pontoan eállítható é nem terhel méré ha, tetzõlege hatványa pontoan mert, tehát determnztku független változóként kezelhetõ. Bevezetve az x 1 z, x z,..., x k z k jelöléeket, a feladat a töváltozó lneár regrezóra vezethetõ vza. $ k Y + z + z +... + z + x + x +... + x 1 k 1 1 k k Mvel x j értékek nem függetlenek egymától, a ecült j együtthatók erõen korreláltak leznek. REGRESSZIÓ 7