Tudjuk, hogy az optimumot az ún. regressziós görbe szolgáltatja, melynek egyenlete:

Hasonló dokumentumok
Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Statisztika 1. zárthelyi dolgozat március 21.

f (M (ξ)) M (f (ξ)) Bizonyítás: Megjegyezzük, hogy konvex függvényekre mindig létezik a ± ben

2. Hatványsorok. A végtelen soroknál tanultuk, hogy az. végtelen sort adja: 1 + x + x x n +...

BIOMATEMATIKA ELŐADÁS

Matematika B4 I. gyakorlat

kismintás esetekben vagy olyanokban, melyeknél a tanulóalgoritmust tesztadatokon szeretnénk

æ MATEMATIKAI STATISZTIKA Dr. Bolla Marianna, Matematika Intézet, Sztochasztika Tanszék

Statisztika 1. zárthelyi dolgozat március 18.

VII. A határozatlan esetek kiküszöbölése

A matematikai statisztika elemei

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

A szórások vizsgálata. Az F-próba. A döntés. Az F-próba szabadsági fokai

Statisztika elméleti összefoglaló

Kutatói pályára felkészítı modul

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

6. feladatsor. Statisztika december 6. és 8.

V. Deriválható függvények

biometria III. foglalkozás előadó: Prof. Dr. Rajkó Róbert Hipotézisvizsgálat

24. tétel A valószínűségszámítás elemei. A valószínűség kiszámításának kombinatorikus modellje.

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Zavar (confounding): akkor lép fel egy kísérletben, ha a kísérletet végző nem tudja megkülönböztetni az egyes faktorokat.

I. Függelék. A valószínűségszámítás alapjai. I.1. Alapfogalamak: A valószínűség fogalma: I.2. Valószínűségi változó.

Nevezetes sorozat-határértékek

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

ÖSSZEFÜGGÉSVIZSGÁLAT, PARAMÉTERBECSLÉS

Regressziós vizsgálatok

5. előadás - Regressziószámítás

8.1. A rezgések szétcsatolása harmonikus közelítésben. Normálrezgések. = =q n és legyen itt a potenciál nulla. q i j. szimmetrikus. q k.

A figurális számokról (IV.)

ALGEBRA. egyenlet megoldásait, ha tudjuk, hogy egész számok, továbbá p + q = 198.

3. SOROZATOK. ( n N) a n+1 < a n. Egy sorozatot (szigorúan) monotonnak mondunk, ha (szigorúan) monoton növekvő vagy csökkenő.

Statisztika. Földtudomány szak, geológus szakirány, 2015/2016. tanév tavaszi

4. Test feletti egyhatározatlanú polinomok. Klasszikus algebra előadás NE KEVERJÜK A POLINOMOT A POLINOMFÜGGVÉNNYEL!!!

Likelihood, deviancia, Akaike-féle információs kritérium

Matematikai statisztika

A maximum likelihood becslésről

A paramétereket kísérletileg meghatározott yi értékekre támaszkodva becsülik. Ha n darab kisérletet (megfigyelést, mérést) végeznek, n darab

ezek alapján kívánunk dönteni. Ez formálisan azt jelenti, hogy ellenőrizni akarjuk,

A statisztikai vizsgálat tárgyát képező egyedek összességét statisztikai sokaságnak nevezzük.

Diszkrét matematika II., 3. előadás. Komplex számok

Populáció. Történet. Adatok. Minta. A matematikai statisztika tárgya. Valószínűségszámítás és statisztika előadás info. BSC/B-C szakosoknak

1. Gyökvonás komplex számból

A G miatt (3tagra) Az egyenlőtlenségek két végét továbbvizsgálva, ha mindkét oldalt hatványozzuk:

Egy lehetséges tételsor megoldásokkal

10.M ALGEBRA < <

Reakciómechanizmusok leírása. Paraméterek. Reakciókinetikai bizonytalanságanalízis. Bizonytalanságanalízis

Intervallum Paraméteres Hipotézisek Nemparaméteres. Statisztika december 2.

Statisztika (jegyzet)

EGYENLETEK ÉS EGYENLETRENDSZEREK MEGOLDÁSA A Z n HALMAZON. egyenletrendszer megoldása a Z

Gyakorló feladatok II.

EGYENLETEK ÉS EGYENLETRENDSZEREK MEGOLDÁSA A Z n HALMAZON. egyenletrendszer megoldása a

( a b)( c d) 2 ab2 cd 2 abcd 2 Egyenlőség akkor és csak akkor áll fenn

Matematika I. 9. előadás

SZÁMELMÉLET. Vasile Berinde, Filippo Spagnolo

Minta JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ A MATEMATIKA EMELT SZINTŰ ÍRÁSBELI 2. FELADATSORHOZ

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

(A TÁMOP /2/A/KMR számú projekt keretében írt egyetemi jegyzetrészlet):

Kalkulus II., második házi feladat

Bevezetés a Korreláció &

Statisztika gyakorlat Geológus szakirány

Statisztikai hipotézisvizsgálatok

18. Valószín ségszámítás. (Valószín ségeloszlások, függetlenség. Valószín ségi változók várható

Matematikai statisztika elıadás III. éves elemzı szakosoknak. Zempléni András 9. elıadásból (részlet)

Empirikus szórásnégyzet

Áringadozások elıadás Kvantitatív pénzügyek szakirány 2012/13 2. félév

Matematikai játékok. Svetoslav Bilchev, Emiliya Velikova

2. egy iskola tanulói, a változók: magasságuk cm-ben, súlyuk (tömegük) kilóban; 3. egy iskola tanulói, a változó: tanulmányi átlaguk;

MATEMATIKA I. KATEGÓRIA (SZAKKÖZÉPISKOLA)

Kalkulus szigorlati tételsor Számítástechnika-technika szak, II. évfolyam, 2. félév

ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

Számsorozatok. 1. Alapfeladatok december 22. sorozat határértékét, ha. 1. Feladat: Határozzuk meg az a n = 3n2 + 7n 5n létezik.

A többváltozós lineáris regresszió 1.

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Autoregressziós folyamatok

Korreláció és lineáris regresszió

3.1. A Poisson-eloszlás

Valószín ségszámítás és statisztika gyakorlat Programtervez informatikus szak, esti képzés

Többváltozós lineáris regressziós modell feltételeinek

Lineáris kódok. u esetén u oszlopvektor, u T ( n, k ) május 31. Hibajavító kódok 2. 1

1 k < n(1 + log n) C 1n log n, d n. (1 1 r k + 1 ) = 1. = 0 és lim. lim n. f(n) < C 3

Least Squares becslés

Kétváltozós függvények differenciálszámítása

Kétváltozós függvények

Szemmegoszlási jellemzők

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

1. A radioaktivitás statisztikus jellege

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

Line aris f uggv enyilleszt es m arcius 19.

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

3. MINTAFELADATSOR EMELT SZINT JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

LINEÁRIS MODELLBEN május. 1. Lineáris modell, legkisebb négyzetek elve

Eddig megismert eloszlások Jelölése Eloszlása EX D 2 X P(X = 1) = p Ind(p) P(X = 0) = 1 p. Leíró és matematikai statisztika

Statisztika II előadáslapok. 2003/4. tanév, II. félév

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

A mérési eredmény megadása

Kalkulus gyakorlat - Megoldásvázlatok

Átírás:

æ REGRESSZIÓANALÍZIS Az alapprobléma a következő: Az X, Y v.v. együttes eloszlásáak ismeretébe közelítei szereték Y-t X mérhető t fv.-ével legkisebb égyzetes értelembe: E(Y t(x)) 2 mi. t be. Tudjuk, hogy az optimumot az ú. regressziós görbe szolgáltatja, melyek egyelete: t opt (x) = E(Y X = x), azazyfeltételesvárhatóértékeax = xfeltételmellett. AmeyibeX,Y együttes eloszlása 2-dimeziós ormális, a regressziós görbe egyees lesz. Egyéb esetekbe is szokták a a legkisebb égyzetes értelembe legjobb lieáris közelítést keresi, külööse ha az elméleti együttes eloszlás em ismert, csak egy 2-dimeziós mita áll redelkezésükre. Lieáris regresszió. Elméleti megoldás Tegyük fel, hogy az X, Y v.v.-k(általába ismeretle) együttes eloszlása abszolút folytoos, továbbá a változók első, második és vegyes második mometumai létezek, ezeket külö jelöljük is: E(X) = m, E(Y) = m 2, D 2 (X) = σ 2, D2 (Y) = σ2 2, Cov(X,Y) = c, Corr(X,Y) = r, feltehető, hogy σ > 0. Keressük az l(x) = ax+b regressziós egyeest, mellyel h(a,b) = E(Y l(x)) 2 = E(Y ax b) 2 mi. a,b be. Ez egy kétváltozós szélsőérték feladat, a stacioárius megoldás az alábbi egyeletredszerből kapható: h = 2E[(Y ax b)x] = 0 a h = 2E[Y ax b] = 0 b (ui. a feti feltételek mellett a paraméter szeriti deriválás és az itegrálást jelető várható érték képzés felcserélhető), vagy ami ezzel ekvivales: () a E(X 2 )+b E(X) = E(XY) (2) a E(X)+b = E(Y).

2 Az ismeretleek a és b, az együtthatómátrix: H = ( ) E(X 2 ) E(X), E(X) melyekdetermiása: H = E(X 2 ) E 2 (X) = σ 2 > 0, ígyacramer-szabállyal: (3) a = E(XY) E(X) E(Y) σ 2 (2) alapjá: = c σ 2 = rσ σ 2 σ 2 = r σ 2 σ. (4) b = E(Y) ae(x) = m 2 c σ 2 m. A másodredű deriváltakat tartalmazó Hesse-mátrix szité H, eek midkét főmiora pozitív, így a (3), (4)-beli a, b valóba lokális miimumot szolgáltat, ami a tartomáyok yíltsága, és a differeciálhatósági feltételek teljesülése miatt globális miimumot is ad. A regressziós egyees egyelete tehát: (5) y = ax+b = c σ 2 (x m )+m 2, vagy még köyebbe megjegyezhető formába: (6) y m 2 σ 2 = r x m σ. Az is látható, hogy a kovariacia (korreláció) előjele adja meg a regressziós egyees iráytageséek előjelét. A feladat átfogalmazható a következő lieáris modellel: az (7) Y = l(x)+ε = (ax +b)+ε előállítástkeresük úgy, hogy a hibatagot képező ε v.v.-ra E(ε 2 ) miimális legye. A (3), (4)-beli a,begyütthatókkal az optimális ε = Y ax b. Köye látható, hogy E(ε) = 0, továbbá a kovariacia biliearitása miatt Cov(l(X),ε) = Cov(aX +b,y (ax +b)) = ac a 2 σ 2 = 0. Tehát a(7)-beli összeg tagjai korrelálatlaok(2-dimeziós ormális esetbe függetleek is egymástól), ezért szóráségyzetük összeadódik: (8) D 2 (Y) = D 2 (l(x))+d 2 (ε). Ebből a miimum értékére (9) D 2 (ε) = σ 2 2 r2 σ 2 σ2 2 σ 2 = σ 2 2 ( r2 )

adódik. Ie is látható, hogy r és egyelőség potosa akkor teljesül, ha D 2 (ε) = 0, ami E(ε) = 0 miatt csak úgy lehetséges, hogy ε = 0 ( vsz.-el), azaz Y = l(x) ( vsz.-el). (9)-ből következik, hogy r 2 = D2 (ε) D 2 (Y) = r2 = D2 (l(x)) D 2 (Y). Tehát a korrelációs együttható égyzete megadja, hogy Y szóráségyzetéek háyad részét magyarázza a lieáris regresszió, yilvá aál jobb a lieáris regresszió, miél agyobb az r 2 érték. Végül éháy szó a regresszió (=visszatérés) fogalom jeletéséről. Sir Fracis Galto brit orvos a XIX. század második felébe szülő gyerek testmagasság kapcsolatát vizsgálta. Feltételezte, hogy σ = σ 2 = σ. Akkor a gyerek testmagassága(y) a szülő testmagasságával(x) a(6) összefüggés alapjá a következőképpe predikálható lieárisa: Y = m 2 +r(x m ), ahol r az X és Y közti korrelációt jelöli. Ha r <, akkor yilvá Y m 2 < X m. Ebből látható, hogy az r > 0 esetbe: ameyibe a szülő azátlagál magasabb, a gyerek is az lesz, de az utód magassága kevesebbel múlja felül az átlagot, mit a szülőé. Hasolóa, ha a szülő az átlagál alacsoyabb, a gyerek is az lesz, de az utód magassága kevesebbel va alatta az átlagak, mit a szülőé. (Az átlagtól való abszolút eltérésre egatív korreláció eseté is hasoló modható.) Ezt a jeleséget evezte el Galto az átlaghoz való visszatérés ek, latiul regresszióak. 2. A regressziós együtthatók becslése mitából Legye most (X,Y ),...,(X,Y ) i.i.d. mita az (X,Y) háttérváltozóra. A (7) modell a, b együtthatóit becsüljük a legkisebb égyzetek módszerével: h(a,b) = (Y i ax i b) 2 mi. a,b be. i= Miutá az a, b szeriti parciális deriváltakat 0-val tesszük egyelővé, a következő egyeletredszert kapjuk: (0) a Xi 2 +b i= () a X i = i= X i +b = i= X i Y i i= Y i. A Cramer-szabály itt is alkalmazható, hisze feltehető, hogy az együtthatómátrix determiása 2 SX 2 > 0. Teljese hasoló számolással, mit az. részbe kijö, hogy i= 3 (2) â = C S 2 X = R S Y S X, ˆb = Ȳ â X = Ȳ RS Y S X X,

4 ahol S X ill. S Y jelöli X ill. Y (korrigálatla) empírikus szórását, C ill. R pedig az X és Y közti empírikus kovariaciát ill. korrelációt jelöli. Mivel az egyeletredszer megoldásakor ugyaazokat a lépéseket követjük el, mit az. részbe, em meglepő, hogy a és b becsléséél az elméleti első és második mometumok helyébe a mitából számolt empírikus mometumok lépek, azaz mometum becslést kapuk. A regressziós egyees meredekségéek előjelét most az empírikus korrelációs együttható, R határozza meg. Előzetese vizsgáli szokták R segítségével az r = 0 ull-hipotézist (ami 2-dimeziós ormális esetbe függetleségvizsgálatot jelet), ezt itt most em részletezzük. Ugyacsak végrehajtható a(8)-ak megfelelő szórásfelbotás is: (Y i Ȳ)2 = [ i= (X i X)(Y i Ȳ)]2 i= (X i X) + 2 i= vagy az agolszász irodalomba szokásos jelöléssel: (3) SST = SSR+SSE, (Y i âx i ˆb) 2, ahol SST (Sum of Squares Total)=SY 2 jelöli a függő változó (Y) teljes igadozását, azaz égyzetes eltéréseiek összegét saját átlagától, SSE (Sum of Squares due to Error) pedig a függő változó(y) igadozását jelöli a regressziós egyees körül, azaz Y i -k égyzetes eltéréseiek összegét a regressziós egyeese levő âx i +ˆb második koordiátákkal redelkező potoktól. A többváltozós statisztika kurzuso tauladó szórásfelbotási techikával kijö, hogy SSR = C 2 /SX 2 a regresszió okozta szóródás (Sum of Squares due to liear Regressio). Az. részbe tárgyaltakhoz hasolóa (4) R 2 = SSE SST = SSR SST. Ez a meyiség megmutatja, hogy a lieáris regresszió meyit magyaráz a teljes variaciából, ezért a (4)-beli R 2 -et (az empírikus korrelációs együttható égyzetét) meghatározottsági együtthatóak is szokták evezi. A Fisher Cochra tétel segítségével majd belátjuk (ld. többváltozós statisztika), hogy ameyibe miták 2-dimeziós ormális eloszlásból származik, a feti SSR, SSE meyiségek χ 2 -eloszlásúak, így szabadsági fokaikkal leosztott háyadosaikkal, mit F-eloszlású statisztikákkal próbákat hajthatuk végre a regressziós együtthatók és maga a regresszió szigifikaciájáak vizsgálatára. Midezt általáosabba, több függetle változó eseté tárgyaljuk majd többváltozós regresszió címszó alatt. Megjegyezzük, hogy lieáris regresszióra vezethetők vissza a következő approximációs feladatok: a. Y ae bx ly la+bx b. Y ax b ly la+blx c. Y /(ax +b) /Y ax +b Mitából becslésél a. esetbe az (X i,ly i ), b. esetbe az (lx i,ly i ), c. esetbe az (X i,/y i ) (i =,...,) 2-dimeziós mitáko hajtjuk végre a 2. i=

részbe leírt lieáris regressziót, és a végé éha még a becsült paramétert is traszformáli kell. Poliomiális regresszió r-edfokú poliomiális regresszióál keressük az Y a r X r + + a X + a 0 közelítést legkisebb égyzetes értelembe: E(Y a r X r a X a 0 ) 2 mi. a i kbe. Az a r,...,a,a 0 együtthatók meghatározásához deriváljuk célfv.-üket midegyik együttható szerit parciálisa. A deriváltakat 0-val egyelővé téve r + db. lieáris egyeletből álló egyeletredszert kapuk, mely megoldható Cramerszabállyal. A megoldásokba 2r redig jöek be mometumok (ezek létezését fel kell tei). Ameyibe 2-dimeziós mita alapjá szereték becsüli az együtthatókat, a becslésekbe a megfelelő empírikus mometumok jöek be (2r redig). Megjegyezzük, hogy itt az r egész szám értékét előre meg kell adi, bár egyes programcsomagokba elég a szóbajöhető maximális r-t megadi, és automatikusa megtörtéik az eél alacsoyabb fokú poliomokhoz való illesztés is az illeszkedés szigifikaciájáak vizsgálatával együtt, ha a felhaszáló kéri. (Az r = eset a lieáris regresszió.) 3. Tervezett (determiisztikus) megfigyelés Az előző részbe tárgyalt problémákat úgy kell elképzeli, hogy lieáris összefüggést keresük pl. a testmagasság és a testsúly, vagy a véryomás és a koleszteriszit között, az egyiket kievezzük függő, a másikat pedig függetle változóak. Mitákat páciesek adják, akike egyidejűleg mérük meg két véletle dolgot. Fizikai, kémiai kísérletekél gyakra előfordul, hogy egy Y v.v. értékeit adott x beállításokál mérik meg. Pl. külöböző (előre beállított) hőmérséklete ézik huzalok szakítószilárdságát, vagy előre beállított gyógyszer-dózisok mellett mérik patkáyok vérébe valamely kémiai ayag kocetrációját. A beállítás potos (determiisztikus), a reakció azoba véletle (az első esetbe mérési hibával terhelt, a második esetbe egyedekét külöböző). Ameyibe az x i beállításmellettazy i mérésieredméyt kapjuk (i =,...,), lieárismodellük a következő alakba írható: (5) Y i = ax i +b+ε i (i =,...,), ahol az ε i hibatagok teljese függetleek, továbbá feltesszük, hogy E(ε i ) = 0, D 2 (ε i ) = σ 2 <. Következésképpe E(Y i ) = ax i + b, D 2 (Y i ) = σ 2, és Y i -k is teljese függetleek (i =,...,). Az a,b együtthatókat itt is a legkisebb égyzetek módszerével becsüljük: h(a,b) = ε 2 i = (Y i ax i b) 2 mi. a,b be. i= i= Parciális deriválással a és b becslésére alakilag a (2) képlet megfelelője jö ki: i= â = (x i x)(y i Ȳ) x i x i= (x = i x) 2 j= (x j x) 2Y i = k i Y i (6) ˆb = Ȳ â x = i= i= ( ) xk i Y i = l i Y i, tehát lieáris becsléseket kaptuk (â és ˆb az Y i v.v.-k lieáris kombiációi a k i ill. az l i együtthatókkal). i= i= 5

6 Tétel(Gauss Markov). A (5) lieáris modellbe az a, b együtthatók feti legkisebb égyzetes becslései lieárisak, torzítatlaok és az összes lieáris torzítatla becslés közt a leghatásosabbak (miimális szórásúak). Agolul BLUE becslések (Best Liear Ubiased Estimate). Bizoyítás. A liearitást már láttuk. Fel fogjuk haszáli, hogy k i = i= (x (x i x) 2 i x) = 0, ki 2 = i= k i x i = i= i= [ i= (x i x) 2 ] 2 i= (x i x) 2 = i= i= (x i x)x i x i= (x i x) j= (x j x) 2 = i= (x i x) 2 i= (x i x) 2 j= (x j x) 2 =. Megjegyezzük, hogy a feti egyelőségekek a formális bizoyítás mellett a szemléletes tartalma a következő: A (6) összefüggés alapjá i= k iy i em más, mit az (x i,y i ) (i =,...,) potokhoz illesztett egyees iráytagese. Így i= k i tekithető az (x i,) (i =,...,) potokhoz illesztett egyees iráytageséek, ami a fv. kostas lévé yilvá 0. Hasolóa, i= k ix i em más, mit az (x i,x i ) (i =,...,) potokhoz illesztett egyees iráytagese, ami az egyees az idetitás fv. gráfja lévé yilvá. Végül i= k2 i az (x i,k i ) (i =,...,) potokhozillesztettegyeesiráytagese, ami mivelk i = x i / j= (x j x) 2 +egy kostas egyelő / j= (x j x) 2 -tel. A torzítatlaság bizoyítása: a fetiek miatt ( ) E(â) = E( E(ˆb) = E( = a k i Y i ) = i= k i x i +b i= l i Y i ) = i= k i E(Y i ) = i= k i (ax i +b) = i= k i = a +b 0 = a, i= l i E(Y i ) = i= i= = a x xa k i x i + b xb k i = b. i= ( ) xk i (ax i +b) = A hatásosság bizoyítása lieáris becslések körébe: D 2 (â) = ki 2 D2 (Y i ) = σ 2 ki 2 = σ 2 i= (x i x) 2, D 2 (ˆb) = i= i= i= lid 2 2 (Y i ) = σ 2 li 2 = σ 2 i= = σ 2 ( + x2 i= ki 2 2 x i= ( = σ 2 + x 2 ) i= (x. i x) 2 i= ) k i = i= ( ) 2 xk i =

Legye most ã = i= c iy i tetszőleges lieáris, torzítatla becslés a-ra. De E(ã) = c i (ax i +b) = a c i x i +b c i = a csak úgy lehetséges, hogy (7) i= c i x i = és i= i= c i = 0. Legye d i := c i k i. Ezzel és (7) figyelembevételével x i x k i d i = k i (c i k i ) = j= (x j x) k 2 2 i = és így i= = i= i= c i [ j= (x c j x) 2 i x i x i= i= c i ] i= i= i= j= (x j x) 2 = 0, D 2 (ã) = σ 2 c 2 i = σ2 (k i +d i ) 2 = σ 2 ki 2 +2σ2 k i d i +σ 2 d 2 i = i= i= = D 2 (â)+0+σ 2 d 2 i D2 (â), amit bizoyítai akartuk. i= Másrészt, ha b = i= w iy i tetszőleges lieáris, torzítatla becslés b-re, akkor E( b) = w i (ax i +b) = a w i x i +b w i = b. i= Ez csak úgy lehetséges, hogy (8) w i x i = 0 és i= i= i= w i =. Legye d i := w i l i. Ezzel és (8) figyelembevételével l i d i = l i (w i l i ) = w i l i li 2 = w i ( xk i) i= és így = i= i= i= i= i= i= i= i= ( xk i) 2 = w i x j= (x (x j x) 2 i x)w i x2 ki 2 +2 x k i = i= i= = + x 2 j= (x j x) 2 x 2 i= (x i x) 2 = 0, D 2 ( b) = σ 2 wi 2 = σ2 (l i +d i ) 2 = σ 2 li 2 +2σ2 l i d i +σ 2 d 2 i = i= i= = D 2 (ˆb)+0+σ 2 d 2 i D2 (ˆb), i= amivel a tételt bebizoyítottuk. i= i= i= i= i= i= 7

8 Tétel. Ha a (5) modellbe még azt is feltesszük, hogy ε i N(0,σ 2 ) i.i.d. v.v.-k (i =,...,), akkor az a,b paraméterekre legkisebb égyzetes becslést szolgáltató â,ˆb egybe maximum likelihood becslések is, továbbá a σ 2 paraméter maximum likelihood becslése: ˆσ 2 = (Y i âx i ˆb) 2. i= Bizoyítás. A tétel feltételei miatt Y i N(ax i +b,σ 2 ) i.i.d. (i =,...,), így a likelihood-fv.: ( ) [ ] L a,b,σ 2(Y,...,Y ) = exp (Y 2πσ 2σ 2 i ax i b) 2, a loglikelihood-fv. pedig: l a,b,σ 2(Y,...,Y ) = 2 l2π 2 lσ2 2σ 2 i= (Y i ax i b) 2. Ezt deriválva az a,b,σ 2 paraméterek szerit, a következő egyeletredszert kapjuk: l a = (Y σ 2 i ax i b)x i = 0, l b = σ 2 i= (Y i ax i b) = 0, i= l σ = 2 2 σ + 2 2σ 4 i= (Y i ax i b) 2 = 0. i= Ie az â,ˆb maximum likelihood becslések ugyaazok, mit a (6)-beli legkisebb égyzetes becslések voltak. (Ez em véletle, hisze a, b a likelihood fv.-be csak az expoesbe va bee, így a likelihood fv. maximalizálása ekvivales az expoesbe álló égyzetösszeg miimalizálásával, ami éppe a legkisebb égyzetes becslésél miimalizáladó célfv.) A harmadik egyeletből az is kijö, hogy ˆσ 2 = i= (Y i âx i ˆb) 2 = SSE, ha a 2. részbe haszált jelölést aktualizáljuk erre az esetre. A tétel taulsága az, hogy ormális eloszlású ε i hibák eseté (ami a gyakorlatba a cetrális határeloszlás tétel miatt sokszor feltehető, pl. ha a hibák sok apró téyező eredői) a feti legkisebb égyzetes becslések maguko viselik a maximum likelihood becslések jó tulajdoságait (ld. Cramer Dugue tétel). Megjegyzés: σ 2 torzítatla becslése χ 2 ( 2) és függetle â,ˆb-tól. Ezért â a s/s x t( 2), SSE 2SSE lee. Belátható, hogy σ 2 ˆb b s + x2 s 2 x t( 2) ahols = 2 SSE éss2 x = i= (x i x) 2,továbbáhaszáltuka(*)szóráségyzeteket. Így a, b-re kofideciaitervallumokat szerkeszthetük és hipotéziseket vizsgálhatuk.