æ REGRESSZIÓANALÍZIS Az alapprobléma a következő: Az X, Y v.v. együttes eloszlásáak ismeretébe közelítei szereték Y-t X mérhető t fv.-ével legkisebb égyzetes értelembe: E(Y t(x)) 2 mi. t be. Tudjuk, hogy az optimumot az ú. regressziós görbe szolgáltatja, melyek egyelete: t opt (x) = E(Y X = x), azazyfeltételesvárhatóértékeax = xfeltételmellett. AmeyibeX,Y együttes eloszlása 2-dimeziós ormális, a regressziós görbe egyees lesz. Egyéb esetekbe is szokták a a legkisebb égyzetes értelembe legjobb lieáris közelítést keresi, külööse ha az elméleti együttes eloszlás em ismert, csak egy 2-dimeziós mita áll redelkezésükre. Lieáris regresszió. Elméleti megoldás Tegyük fel, hogy az X, Y v.v.-k(általába ismeretle) együttes eloszlása abszolút folytoos, továbbá a változók első, második és vegyes második mometumai létezek, ezeket külö jelöljük is: E(X) = m, E(Y) = m 2, D 2 (X) = σ 2, D2 (Y) = σ2 2, Cov(X,Y) = c, Corr(X,Y) = r, feltehető, hogy σ > 0. Keressük az l(x) = ax+b regressziós egyeest, mellyel h(a,b) = E(Y l(x)) 2 = E(Y ax b) 2 mi. a,b be. Ez egy kétváltozós szélsőérték feladat, a stacioárius megoldás az alábbi egyeletredszerből kapható: h = 2E[(Y ax b)x] = 0 a h = 2E[Y ax b] = 0 b (ui. a feti feltételek mellett a paraméter szeriti deriválás és az itegrálást jelető várható érték képzés felcserélhető), vagy ami ezzel ekvivales: () a E(X 2 )+b E(X) = E(XY) (2) a E(X)+b = E(Y).
2 Az ismeretleek a és b, az együtthatómátrix: H = ( ) E(X 2 ) E(X), E(X) melyekdetermiása: H = E(X 2 ) E 2 (X) = σ 2 > 0, ígyacramer-szabállyal: (3) a = E(XY) E(X) E(Y) σ 2 (2) alapjá: = c σ 2 = rσ σ 2 σ 2 = r σ 2 σ. (4) b = E(Y) ae(x) = m 2 c σ 2 m. A másodredű deriváltakat tartalmazó Hesse-mátrix szité H, eek midkét főmiora pozitív, így a (3), (4)-beli a, b valóba lokális miimumot szolgáltat, ami a tartomáyok yíltsága, és a differeciálhatósági feltételek teljesülése miatt globális miimumot is ad. A regressziós egyees egyelete tehát: (5) y = ax+b = c σ 2 (x m )+m 2, vagy még köyebbe megjegyezhető formába: (6) y m 2 σ 2 = r x m σ. Az is látható, hogy a kovariacia (korreláció) előjele adja meg a regressziós egyees iráytageséek előjelét. A feladat átfogalmazható a következő lieáris modellel: az (7) Y = l(x)+ε = (ax +b)+ε előállítástkeresük úgy, hogy a hibatagot képező ε v.v.-ra E(ε 2 ) miimális legye. A (3), (4)-beli a,begyütthatókkal az optimális ε = Y ax b. Köye látható, hogy E(ε) = 0, továbbá a kovariacia biliearitása miatt Cov(l(X),ε) = Cov(aX +b,y (ax +b)) = ac a 2 σ 2 = 0. Tehát a(7)-beli összeg tagjai korrelálatlaok(2-dimeziós ormális esetbe függetleek is egymástól), ezért szóráségyzetük összeadódik: (8) D 2 (Y) = D 2 (l(x))+d 2 (ε). Ebből a miimum értékére (9) D 2 (ε) = σ 2 2 r2 σ 2 σ2 2 σ 2 = σ 2 2 ( r2 )
adódik. Ie is látható, hogy r és egyelőség potosa akkor teljesül, ha D 2 (ε) = 0, ami E(ε) = 0 miatt csak úgy lehetséges, hogy ε = 0 ( vsz.-el), azaz Y = l(x) ( vsz.-el). (9)-ből következik, hogy r 2 = D2 (ε) D 2 (Y) = r2 = D2 (l(x)) D 2 (Y). Tehát a korrelációs együttható égyzete megadja, hogy Y szóráségyzetéek háyad részét magyarázza a lieáris regresszió, yilvá aál jobb a lieáris regresszió, miél agyobb az r 2 érték. Végül éháy szó a regresszió (=visszatérés) fogalom jeletéséről. Sir Fracis Galto brit orvos a XIX. század második felébe szülő gyerek testmagasság kapcsolatát vizsgálta. Feltételezte, hogy σ = σ 2 = σ. Akkor a gyerek testmagassága(y) a szülő testmagasságával(x) a(6) összefüggés alapjá a következőképpe predikálható lieárisa: Y = m 2 +r(x m ), ahol r az X és Y közti korrelációt jelöli. Ha r <, akkor yilvá Y m 2 < X m. Ebből látható, hogy az r > 0 esetbe: ameyibe a szülő azátlagál magasabb, a gyerek is az lesz, de az utód magassága kevesebbel múlja felül az átlagot, mit a szülőé. Hasolóa, ha a szülő az átlagál alacsoyabb, a gyerek is az lesz, de az utód magassága kevesebbel va alatta az átlagak, mit a szülőé. (Az átlagtól való abszolút eltérésre egatív korreláció eseté is hasoló modható.) Ezt a jeleséget evezte el Galto az átlaghoz való visszatérés ek, latiul regresszióak. 2. A regressziós együtthatók becslése mitából Legye most (X,Y ),...,(X,Y ) i.i.d. mita az (X,Y) háttérváltozóra. A (7) modell a, b együtthatóit becsüljük a legkisebb égyzetek módszerével: h(a,b) = (Y i ax i b) 2 mi. a,b be. i= Miutá az a, b szeriti parciális deriváltakat 0-val tesszük egyelővé, a következő egyeletredszert kapjuk: (0) a Xi 2 +b i= () a X i = i= X i +b = i= X i Y i i= Y i. A Cramer-szabály itt is alkalmazható, hisze feltehető, hogy az együtthatómátrix determiása 2 SX 2 > 0. Teljese hasoló számolással, mit az. részbe kijö, hogy i= 3 (2) â = C S 2 X = R S Y S X, ˆb = Ȳ â X = Ȳ RS Y S X X,
4 ahol S X ill. S Y jelöli X ill. Y (korrigálatla) empírikus szórását, C ill. R pedig az X és Y közti empírikus kovariaciát ill. korrelációt jelöli. Mivel az egyeletredszer megoldásakor ugyaazokat a lépéseket követjük el, mit az. részbe, em meglepő, hogy a és b becsléséél az elméleti első és második mometumok helyébe a mitából számolt empírikus mometumok lépek, azaz mometum becslést kapuk. A regressziós egyees meredekségéek előjelét most az empírikus korrelációs együttható, R határozza meg. Előzetese vizsgáli szokták R segítségével az r = 0 ull-hipotézist (ami 2-dimeziós ormális esetbe függetleségvizsgálatot jelet), ezt itt most em részletezzük. Ugyacsak végrehajtható a(8)-ak megfelelő szórásfelbotás is: (Y i Ȳ)2 = [ i= (X i X)(Y i Ȳ)]2 i= (X i X) + 2 i= vagy az agolszász irodalomba szokásos jelöléssel: (3) SST = SSR+SSE, (Y i âx i ˆb) 2, ahol SST (Sum of Squares Total)=SY 2 jelöli a függő változó (Y) teljes igadozását, azaz égyzetes eltéréseiek összegét saját átlagától, SSE (Sum of Squares due to Error) pedig a függő változó(y) igadozását jelöli a regressziós egyees körül, azaz Y i -k égyzetes eltéréseiek összegét a regressziós egyeese levő âx i +ˆb második koordiátákkal redelkező potoktól. A többváltozós statisztika kurzuso tauladó szórásfelbotási techikával kijö, hogy SSR = C 2 /SX 2 a regresszió okozta szóródás (Sum of Squares due to liear Regressio). Az. részbe tárgyaltakhoz hasolóa (4) R 2 = SSE SST = SSR SST. Ez a meyiség megmutatja, hogy a lieáris regresszió meyit magyaráz a teljes variaciából, ezért a (4)-beli R 2 -et (az empírikus korrelációs együttható égyzetét) meghatározottsági együtthatóak is szokták evezi. A Fisher Cochra tétel segítségével majd belátjuk (ld. többváltozós statisztika), hogy ameyibe miták 2-dimeziós ormális eloszlásból származik, a feti SSR, SSE meyiségek χ 2 -eloszlásúak, így szabadsági fokaikkal leosztott háyadosaikkal, mit F-eloszlású statisztikákkal próbákat hajthatuk végre a regressziós együtthatók és maga a regresszió szigifikaciájáak vizsgálatára. Midezt általáosabba, több függetle változó eseté tárgyaljuk majd többváltozós regresszió címszó alatt. Megjegyezzük, hogy lieáris regresszióra vezethetők vissza a következő approximációs feladatok: a. Y ae bx ly la+bx b. Y ax b ly la+blx c. Y /(ax +b) /Y ax +b Mitából becslésél a. esetbe az (X i,ly i ), b. esetbe az (lx i,ly i ), c. esetbe az (X i,/y i ) (i =,...,) 2-dimeziós mitáko hajtjuk végre a 2. i=
részbe leírt lieáris regressziót, és a végé éha még a becsült paramétert is traszformáli kell. Poliomiális regresszió r-edfokú poliomiális regresszióál keressük az Y a r X r + + a X + a 0 közelítést legkisebb égyzetes értelembe: E(Y a r X r a X a 0 ) 2 mi. a i kbe. Az a r,...,a,a 0 együtthatók meghatározásához deriváljuk célfv.-üket midegyik együttható szerit parciálisa. A deriváltakat 0-val egyelővé téve r + db. lieáris egyeletből álló egyeletredszert kapuk, mely megoldható Cramerszabállyal. A megoldásokba 2r redig jöek be mometumok (ezek létezését fel kell tei). Ameyibe 2-dimeziós mita alapjá szereték becsüli az együtthatókat, a becslésekbe a megfelelő empírikus mometumok jöek be (2r redig). Megjegyezzük, hogy itt az r egész szám értékét előre meg kell adi, bár egyes programcsomagokba elég a szóbajöhető maximális r-t megadi, és automatikusa megtörtéik az eél alacsoyabb fokú poliomokhoz való illesztés is az illeszkedés szigifikaciájáak vizsgálatával együtt, ha a felhaszáló kéri. (Az r = eset a lieáris regresszió.) 3. Tervezett (determiisztikus) megfigyelés Az előző részbe tárgyalt problémákat úgy kell elképzeli, hogy lieáris összefüggést keresük pl. a testmagasság és a testsúly, vagy a véryomás és a koleszteriszit között, az egyiket kievezzük függő, a másikat pedig függetle változóak. Mitákat páciesek adják, akike egyidejűleg mérük meg két véletle dolgot. Fizikai, kémiai kísérletekél gyakra előfordul, hogy egy Y v.v. értékeit adott x beállításokál mérik meg. Pl. külöböző (előre beállított) hőmérséklete ézik huzalok szakítószilárdságát, vagy előre beállított gyógyszer-dózisok mellett mérik patkáyok vérébe valamely kémiai ayag kocetrációját. A beállítás potos (determiisztikus), a reakció azoba véletle (az első esetbe mérési hibával terhelt, a második esetbe egyedekét külöböző). Ameyibe az x i beállításmellettazy i mérésieredméyt kapjuk (i =,...,), lieárismodellük a következő alakba írható: (5) Y i = ax i +b+ε i (i =,...,), ahol az ε i hibatagok teljese függetleek, továbbá feltesszük, hogy E(ε i ) = 0, D 2 (ε i ) = σ 2 <. Következésképpe E(Y i ) = ax i + b, D 2 (Y i ) = σ 2, és Y i -k is teljese függetleek (i =,...,). Az a,b együtthatókat itt is a legkisebb égyzetek módszerével becsüljük: h(a,b) = ε 2 i = (Y i ax i b) 2 mi. a,b be. i= i= Parciális deriválással a és b becslésére alakilag a (2) képlet megfelelője jö ki: i= â = (x i x)(y i Ȳ) x i x i= (x = i x) 2 j= (x j x) 2Y i = k i Y i (6) ˆb = Ȳ â x = i= i= ( ) xk i Y i = l i Y i, tehát lieáris becsléseket kaptuk (â és ˆb az Y i v.v.-k lieáris kombiációi a k i ill. az l i együtthatókkal). i= i= 5
6 Tétel(Gauss Markov). A (5) lieáris modellbe az a, b együtthatók feti legkisebb égyzetes becslései lieárisak, torzítatlaok és az összes lieáris torzítatla becslés közt a leghatásosabbak (miimális szórásúak). Agolul BLUE becslések (Best Liear Ubiased Estimate). Bizoyítás. A liearitást már láttuk. Fel fogjuk haszáli, hogy k i = i= (x (x i x) 2 i x) = 0, ki 2 = i= k i x i = i= i= [ i= (x i x) 2 ] 2 i= (x i x) 2 = i= i= (x i x)x i x i= (x i x) j= (x j x) 2 = i= (x i x) 2 i= (x i x) 2 j= (x j x) 2 =. Megjegyezzük, hogy a feti egyelőségekek a formális bizoyítás mellett a szemléletes tartalma a következő: A (6) összefüggés alapjá i= k iy i em más, mit az (x i,y i ) (i =,...,) potokhoz illesztett egyees iráytagese. Így i= k i tekithető az (x i,) (i =,...,) potokhoz illesztett egyees iráytageséek, ami a fv. kostas lévé yilvá 0. Hasolóa, i= k ix i em más, mit az (x i,x i ) (i =,...,) potokhoz illesztett egyees iráytagese, ami az egyees az idetitás fv. gráfja lévé yilvá. Végül i= k2 i az (x i,k i ) (i =,...,) potokhozillesztettegyeesiráytagese, ami mivelk i = x i / j= (x j x) 2 +egy kostas egyelő / j= (x j x) 2 -tel. A torzítatlaság bizoyítása: a fetiek miatt ( ) E(â) = E( E(ˆb) = E( = a k i Y i ) = i= k i x i +b i= l i Y i ) = i= k i E(Y i ) = i= k i (ax i +b) = i= k i = a +b 0 = a, i= l i E(Y i ) = i= i= = a x xa k i x i + b xb k i = b. i= ( ) xk i (ax i +b) = A hatásosság bizoyítása lieáris becslések körébe: D 2 (â) = ki 2 D2 (Y i ) = σ 2 ki 2 = σ 2 i= (x i x) 2, D 2 (ˆb) = i= i= i= lid 2 2 (Y i ) = σ 2 li 2 = σ 2 i= = σ 2 ( + x2 i= ki 2 2 x i= ( = σ 2 + x 2 ) i= (x. i x) 2 i= ) k i = i= ( ) 2 xk i =
Legye most ã = i= c iy i tetszőleges lieáris, torzítatla becslés a-ra. De E(ã) = c i (ax i +b) = a c i x i +b c i = a csak úgy lehetséges, hogy (7) i= c i x i = és i= i= c i = 0. Legye d i := c i k i. Ezzel és (7) figyelembevételével x i x k i d i = k i (c i k i ) = j= (x j x) k 2 2 i = és így i= = i= i= c i [ j= (x c j x) 2 i x i x i= i= c i ] i= i= i= j= (x j x) 2 = 0, D 2 (ã) = σ 2 c 2 i = σ2 (k i +d i ) 2 = σ 2 ki 2 +2σ2 k i d i +σ 2 d 2 i = i= i= = D 2 (â)+0+σ 2 d 2 i D2 (â), amit bizoyítai akartuk. i= Másrészt, ha b = i= w iy i tetszőleges lieáris, torzítatla becslés b-re, akkor E( b) = w i (ax i +b) = a w i x i +b w i = b. i= Ez csak úgy lehetséges, hogy (8) w i x i = 0 és i= i= i= w i =. Legye d i := w i l i. Ezzel és (8) figyelembevételével l i d i = l i (w i l i ) = w i l i li 2 = w i ( xk i) i= és így = i= i= i= i= i= i= i= i= ( xk i) 2 = w i x j= (x (x j x) 2 i x)w i x2 ki 2 +2 x k i = i= i= = + x 2 j= (x j x) 2 x 2 i= (x i x) 2 = 0, D 2 ( b) = σ 2 wi 2 = σ2 (l i +d i ) 2 = σ 2 li 2 +2σ2 l i d i +σ 2 d 2 i = i= i= = D 2 (ˆb)+0+σ 2 d 2 i D2 (ˆb), i= amivel a tételt bebizoyítottuk. i= i= i= i= i= i= 7
8 Tétel. Ha a (5) modellbe még azt is feltesszük, hogy ε i N(0,σ 2 ) i.i.d. v.v.-k (i =,...,), akkor az a,b paraméterekre legkisebb égyzetes becslést szolgáltató â,ˆb egybe maximum likelihood becslések is, továbbá a σ 2 paraméter maximum likelihood becslése: ˆσ 2 = (Y i âx i ˆb) 2. i= Bizoyítás. A tétel feltételei miatt Y i N(ax i +b,σ 2 ) i.i.d. (i =,...,), így a likelihood-fv.: ( ) [ ] L a,b,σ 2(Y,...,Y ) = exp (Y 2πσ 2σ 2 i ax i b) 2, a loglikelihood-fv. pedig: l a,b,σ 2(Y,...,Y ) = 2 l2π 2 lσ2 2σ 2 i= (Y i ax i b) 2. Ezt deriválva az a,b,σ 2 paraméterek szerit, a következő egyeletredszert kapjuk: l a = (Y σ 2 i ax i b)x i = 0, l b = σ 2 i= (Y i ax i b) = 0, i= l σ = 2 2 σ + 2 2σ 4 i= (Y i ax i b) 2 = 0. i= Ie az â,ˆb maximum likelihood becslések ugyaazok, mit a (6)-beli legkisebb égyzetes becslések voltak. (Ez em véletle, hisze a, b a likelihood fv.-be csak az expoesbe va bee, így a likelihood fv. maximalizálása ekvivales az expoesbe álló égyzetösszeg miimalizálásával, ami éppe a legkisebb égyzetes becslésél miimalizáladó célfv.) A harmadik egyeletből az is kijö, hogy ˆσ 2 = i= (Y i âx i ˆb) 2 = SSE, ha a 2. részbe haszált jelölést aktualizáljuk erre az esetre. A tétel taulsága az, hogy ormális eloszlású ε i hibák eseté (ami a gyakorlatba a cetrális határeloszlás tétel miatt sokszor feltehető, pl. ha a hibák sok apró téyező eredői) a feti legkisebb égyzetes becslések maguko viselik a maximum likelihood becslések jó tulajdoságait (ld. Cramer Dugue tétel). Megjegyzés: σ 2 torzítatla becslése χ 2 ( 2) és függetle â,ˆb-tól. Ezért â a s/s x t( 2), SSE 2SSE lee. Belátható, hogy σ 2 ˆb b s + x2 s 2 x t( 2) ahols = 2 SSE éss2 x = i= (x i x) 2,továbbáhaszáltuka(*)szóráségyzeteket. Így a, b-re kofideciaitervallumokat szerkeszthetük és hipotéziseket vizsgálhatuk.