BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT LINEÁRIS MODELLBEN Móri Tamás ELTE TTK Valószínűségelméleti és Statisztika Tanszék 2008 május Lineáris modell, legkisebb négyzetek elve Tegyük fel, hogy egy bizonyos pl fizikai) mennyiség más, ismert mennyiségek lineáris kombinációja: y = a x + + a p x p Az a,, a p együtthatókat nem ismerjük, ezeket szeretnénk becsülni Ennek érdekében n mérést végzünk, nem feltétlenül azonos körülmények között A mérések során az x,, x p változók értékét ami mérésről-mérésre változhat) pontosan ismerjük, de az y mennyiséget csak véletlen hibával terhelten tudjuk mérni Tehát az i-edik mérés eredménye y i = x i, a + x i,2 a 2 + + x i,p a p + ε i, ahol a ε i hibákról feltesszük, hogy 0 várható értékűek, ismeretlen) σ szórásúak és korrelálatlanok Az a j együtthatókat úgy akarjuk becsülni, hogy az ˆε i = y i x i, â + x i,2 â 2 + + x i,p â p ) úgynevezett reziduálisok négyzetösszege minimális legyen történő becslésnek Ez az eljárás Gausstól származik Ezt nevezzük a legkisebb négyzetek elvén Mielőtt a legkisebb négyzetes becslést kiszámítanánk, írjuk fel a modellt tömörebb alakban Legyen y = y y 2 y n, X = x, x,2 x,p x 2, x 2,2 x 2,p x n, x n,2 x n,p, a = a a 2 a p, ε = ε ε 2 ε n Ekkor a lineáris modell: y = Xa + ε, ahol y és ε n-dimenziós véletlen vektorok, Eε) = 0, Σ ε) = σ 2 Id n, X n p méretű ismert együtthatómátrix, a R p paramétervektor Keressük azt az â becslést, amelyre ˆε 2 := y Xâ 2 minimális Definíció A fenti tulajdonságú â becslést a legkisebb négyzetes LN ) becslésének nevezzük 2 Tétel Gauss-féle normálegyenlet) Az â vektor pontosan akkor minimalizálja y Xâ 2 -et, ha megoldása a következő lineáris egyenletrendszernek: X X â = X y Bizonyítás Xâ az Im X altér azon eleme, amely a legközelebb van y-hoz, vagyis y merőleges vetülete Im X-re Ez azzal ekvivalens, hogy y Xâ merőleges Im X-re, azaz benne van a Ker X altérben: X y Xâ) = 0
2 MÓRI TAMÁS A tételből az is következik, hogy a Gauss-féle normálegyenletnek mindig van megoldása, de természetesen csak akkor egyértelmű, ha X X invertálható Ez pedig pontosan akkor következik be, ha a rangja p Mivel rang X X = rang X, ehhez az kell, hogy az X mátrix oszlopai lineárisan függetlenek legyenek Legyen r = rang X Ha r = p, teljes rangú esetről beszélünk Ekkor tehát és könnyen látható, hogy â = X X) X y, Eâ = X X) X Xa = a, Σ â) = X X) X σ 2 Id n ) XX X) = σ 2 X X) Mivel tetszőleges y R n esetén Xâ = XX X) X y, ezért az Im X-re való ortogonális projekció operátora P X = XX X) X 3 Megjegyzés Ha r < p, akkor a Gauss-féle normálegyenletnek végtelen sok megoldása van, ezek egy p r dimenziós hipersíkot alkotnak Az egyenletrendszer legkisebb normájú megoldása: â = X X) X y, ahol X X) az X X mátrix Moore Penrose-féle pszeudoinverze Ezt a következőképpen lehet kiszámítani: tekintsük a mátrix X X = UΛU spektrálfelbontását, ahol Λ = diagλ,, λ p ) az X X mátrix sajátértékeit tartalmazó nemnegatív elemű) diagonális mátrix, U pedig ortonormált mátrix, amelynek oszlopai a sajátértékekhez tartozó ortonormált sajátvektorok Ekkor X X) = UΛ U, Λ = diagλ,, λ p ), ahol λ i = /λ i, ha λ i 0, és 0 különben Hangsúlyozzuk, hogy bár â nem egyértelmű a nem teljes rangú esetben, de Xâ = P X y már igen Ezért természetesen P X = XX X) X Bontsuk fel R n -et ortogonális alterek direkt összegére: R n = L X L R, ahol L X = Im X, L R = L X Az alterek dimenziója: n = r + n r) Ennek megfelelően az y megfigyelésvektor ortogonális felbontása: y = Xâ + ˆε 4 Definíció Az L R altér neve reziduális altér, a Q R = ˆε 2 mennyiség neve reziduális négyzetösszeg, az s 2 R = Q R mennyiség pedig a reziduális szórásnégyzet n r 5 Tétel Az s 2 R reziduális szórásnégyzet torzítatlan becslés σ2 -re Bizonyítás Jelölje P R a reziduális altérre való merőleges vetítés operátorát Ekkor nyilvánvalóan P R X = 0, továbbá EQ R = E P R y 2 = E y P R P R y ) Mint tudjuk, egy négyzetes mátrix pontosan akkor projekció, ha szimmetrikus és idempotens Ezért, felhasználva a trace függvény linearitását és ciklikus invarianciáját, EQ R = E y P R y ) = E tr y P R y ) = E tr P R yy ) = tr P R Eyy ) ) = = tr P R Σ y) + Ey Ey ) = tr P R σ 2 Id n + Xaa X ) = σ 2 tr P R Egy projekciónak csak 0 és sajátértékei lehetnek, ezért a nyoma, amely a sajátértékek összege, megegyezik a nem 0 sajátértékei számával, azaz a képterének a dimenziójával Tehát EQ R = σ 2 n r), és ebből Es 2 R = σ2
LINEÁRIS MODELL 3 6 Definíció Legyen a C mátrix q p mértetű Az a paraméter ψ = Ca alakú lineáris függvényét becsülhetőnek mondjuk, ha létezik torzítatlan lineáris becslése, azaz létezik olyan B q n méretű mátrix, hogy EBy) = ψ 7 Tétel ψ = Ca pontosan akkor becsülhető, ha előáll C = BX alakban, más szóval, ha C sorai benne vannak az X sorai által kifeszített altérben, az úgynevezett fázistérben Bizonyítás A By lineáris becslés pontosan akkor torzítatlan ψ-re, ha minden a R p esetén EBy) = BXa = Ca, vagyis C = BX A következő tétel a legkisebb négyzetes becslések optimalitásáról szól 8 Tétel Gauss Markov-tétel ) Legyen ψ = Ca becsülhető Ekkor a) tetszőleges â legkisebb négyzetes becslésből kiindulva a ˆψ = Câ becslés mindig ugyanaz lesz, b) ez a ˆψ becslés lineáris és torzítatlan, c) ˆψ az egyetlen optimális azaz minimális szórású) a torzítatlan lineáris becslések között A ˆψ becslést is legkisebb négyzetes becslésnek nevezzük Bizonyítás a) C = BX, ezért ˆψ = BXâ = BP X y valóban nem függ â választásától b) Látható, hogy ˆψ lineáris becslés, és E ˆψ = EBP X y) = BP X Ey = BP X Xa = BXa = ψ c) Legyen By tetszőleges torzítatlan lineáris becslés, akkor C = BX, és ezzel a B-vel is ˆψ = BP X y Mivel By = BP X + P R )y = BP X y + BP R y, ezért Σ By) = covbp X y + BP R y, BP X y + BP R y) = = Σ BP X y) + covbp X y, BP R y) + covbp R y, BP X y) + Σ BP R y) A keresztkovarianciák értéke 0, mert P X P R = P R P X = 0 Például Tehát covbp X y, BP R y) = BP X Σ y)p R B = σ 2 BP X P R B = 0 Σ By) = Σ BPX y) + Σ BPR y) Σ BPX y) Egyenlőség csak akkor állhat fenn, ha Σ BP R y) = 0, azaz BP R y = EBP R y) = 0, vagyis valószínűséggel By = BP X y = ˆψ Egyébként a torzítatlan lineáris becslések osztálya konvex, és a négyzetes veszteségfüggvény szigorúan konvex, ebből is következik az optimális becslés egyértelműsége) 9 Megjegyzés A teljes rangú esetben a paraméter minden lineáris függvénye becsülhető, mégpedig ψ = Ca legkisebb négyzetes becslése ˆψ = CX X) X y, és Σ ˆψ) = σ 2 CX X) C 2 Lineáris hipotézis normális lineáris modellben Ebben a részben normális lineáris modellel foglalkozunk, azaz feltesszük, hogy a véletlen hibák ε vektora normális eloszlású Ekkor tehát y N n Xa, σ 2 Id n ), és az y = Xâ + ˆε ortogonális felbontásban az összeadandók függetlenek, továbbá mivel Ey L R, ezért Q R σ 2 χ 2 n r Legyen B q p méretű mátrix, b Im B, és tekintsük a H 0 : Ba = b lineáris hipotézist az ellenhipotézis H : Ba b) Elegendő azzal az esettel foglalkoznunk, amikor b = 0, az általános eset ugyanis átparaméterezéssel visszavezethető erre: legyen a 0 R p olyan, hogy Ba 0 = b, és legyen az új paraméter ā = a a 0, továbbá ȳ = y Xa 0 Ezzel ȳ = Xā + ε ismét normális lineáris modell, amelyben H 0 a Bā = 0 alakot ölti H 0 teszteléséhez az ún általánosított likelihood-hányados próbát alkalmazzuk Az X, B, P = {P ϑ : ϑ Θ}) statisztikai mezőn tekintsük a Θ = Θ 0 Θ hipotézisvizsgálati feladatot Általánosított likelihood-hányados statisztika alatt a következő mennyiséget értjük: T X) = sup{f ϑx) : ϑ Θ} sup{f ϑ X) : ϑ Θ 0 }
4 MÓRI TAMÁS Ha a nullhipotézis teljesül, akkor ez közel van -hez, míg ha nem, akkor a számláló jóval nagyobb a nevezőnél, ezért a hányados nagy A nullhipotézis tesztelése tehát úgy történhet, hogy ha az általánosított likelihood-hányados statisztika nagyobb, mint valamely kritikus érték, akkor H 0 -t elvetjük, ha kisebb, akkor H 0 -t elfogadjuk, egyenlőség esetén pedig, ha szükséges, randomizálunk Ha mind a nullhipotézis, mind az ellenhipotézis egyszerű, azaz a hipotézisünk szerint a sűrűségfüggvény f 0, az ellenhipotézis szerint pedig f, akkor a T X) statisztika a következő alakot ölti: max{f 0 X), f X)} f 0 X) { = max, f X) } f 0 X) Itt a második tag a Neyman Pearson lemmából ismerős likelihood-hányados, vagyis a klasszikus likelihood-hányados próbát kapjuk, ha a kritikus érték nagyobb -nél Bár a Neyman Pearson lemmában a mintanagyság növekedtével a kritikus érték exponenciális sebességgel 0-hoz tart, de ez azért van, mert ott a két hipotézis,,el van választva : DP 0 P ) > 0, míg az általánosított likelihood-hányados próbát olyan feladatokban szokták alkalmazni, ahol a hipotézisek érintkeznek, ezért a kritikus érték tipikusan nagy) Jelen esetben a paraméter a, σ), és az y megfigyelések likelihood-függvénye f a,σ y) = 2π) n/2 σ n exp 2σ 2 y Xa 2) Látható, hogy tetszőleges rögzített σ esetén az a-ban való maximalizálás azzal ekvivalens, hogy a kitevőben az y Xa 2 reziduális négyzetösszeget minimalizáljuk: a statisztika számlálójához a teljes R p -n, a nevezőhöz pedig csak a nullhipotézisnek megfelelő Ker B altéren: T y) = sup{f a,σy) : a R p sup, σ > 0} sup{f a,σ y) : a Ker B, σ > 0} = σ>0 sup σ>0 σ n exp ) 2σ 2 y Xâ 2 σ n exp ), 2σ 2 y Xã 2 ahol â a legkisebb négyzetes becslés, ã pedig a Ker B altér olyan a eleme, amelyre y Xa 2 minimális Maximalizáljunk most σ-ban! A maximalizálandó kifejezés mind a számlálóban, mind a nevezőben σ n exp C ) 2σ 2 alakú Logaritmálás után deriválva a n σ + C σ 3 = 0 egyenletet kapjuk, azaz σ2 = C n, és a szuprémum σ n exp C ) ) n/2 Ce 2σ 2 = n Tehát az általánosított likelihood-hányados statisztika T y) = y Xã n y Xâ n Legyen L 0 = {Xa : Ba = 0}, és L = L X L 0, azaz R n = L 0 L L R ortogonális alterek direkt összege Jelölje L 0 dimenzióját r 0, akkor L dimenziója r r 0 Világos, hogy Xã az y merőleges vetülete az L 0 altérre, tehát az y vektor ortogonális felbontása: y = y 0 + y + y R, ahol y 0 = Xã, y = Xâ Xã, és y R = ˆε E három komponens független nemcentralitási paraméter értéke Vezessük be a Q = y 2 és az s 2 = Q /r r 0 ) jelölést Q eloszlása σ 2 χ 2 r r 0 [λ ], ahol a λ λ = Ey 2 σ 2 Világos, hogy H 0 pontosan akkor teljesül, ha Ey = Xa L 0, azaz Ey = Ey) = 0, vagyis λ = 0 A Pitagorasz-tétel szerint y Xã 2 = y + y R 2 = y 2 + y R 2 = Q + Q R,
LINEÁRIS MODELL 5 tehát T y) = + Q ) n 2 Q R Nyilvánvaló, hogy T y) helyett használhatnánk bármely szigorúan monoton növő függvényét is próbastatisztika céljára A gyakorlatban az F y) = s2 s 2 = n r T y) 2/n ) R r r 0 statisztikát szokták használni Ez H 0 teljesülése esetén F r r0, n r)-eloszlású Tehát a lineáris hipotézis tesztelésére F -próbát alkalmazhatunk, mégpedig egyoldalit, mert ha H 0 nem teljesül, a próbastatisztika eloszlása úgynevezett nemcentrális F -eloszlás, ami a centrálisnak is nevezett hagyományos F -eloszlástól csak abban különbözik, hogy a számlálójában álló χ 2 -eloszlás nemcentrális A nemcentrális χ 2 és a nemcentrális F sztochasztikusan nagyobb a centrális párjánál, ezért H 0 nem teljesülése esetén az F y) statisztika inkább nagyobb értékeket vesz fel Tehát kimondhatjuk az alábbi tételt: 2 Tétel A H 0 : Ba = 0 lineáris hipotézis tesztelésére az általánosított likelihood-próba a következőképpen hajtható végre: az F y) = s2 s 2 R próbastatisztikával r r 0, n r) szabadságfokú egyoldali F -próbát végzünk A próba gyakorlati végrehajtásához szükség lenne s 2 explicit alakjára A következő tétel ezt adja meg abban az esetben, ha rang B = q, azaz maximális Ezt mindig feltehetjük, hiszen B-ből elegendő csak olyan sorokat megtartani, amelyek lineáris kombinációjaként az összes többi sor kifejezhető 22 Tétel Tegyük fel, hogy rang X = p és rang B = q Ekkor a) A := BX X) B q q méretű pozitív definit szimmetrikus mátrix, b) ã = [ Id p X X) B A B ] â = [ X X) X X) B A BX X) ] X y, c) ha H 0 teljesül, akkor Eã = a és Σ ã) = σ 2[ X X) X X) B A BX X) ], d) Q = â B A Bâ, továbbá r 0 = p q, tehát r r 0 = q Bizonyítás a) A = CC, ahol C = BX X) /2, tehát rang A = rang C = rang B = q b) y L 0 Xâ ã) X Ker B â ã) X X Ker B = 0 X Xâ ã) Ker B, tehát X Xâ ã) = B z valamilyen z R q vektorra Ezért â ã = X X) B z, így Bâ = Bâ ã) = Az Következésképpen z = A Bâ, és végül â ã = X X) B A Bâ, amiből a bizonyítandó már közvetlenül adódik c) A b) állítás első egyenlőségéből Eã = [ Id p X X) B A B ] a = a, továbbá Σ ã) = σ 2[ Id p X X) B A B ] X X) [ Idp X X) B A B ] = = σ 2[ X X) X X) B A BX X) X X) B A BX X) + + X X) B A BX X) B A BX X) ] = }{{} A = σ 2[ X X) X X) B A BX X) ] d) X injektív, ezért r 0 = dim X Ker B ) = dim Ker B = p q Végül Q = y 2 = â ã) X X â ã) = = â B A B X X) X X X X) B A B â = }{{} A = â B A B â
6 MÓRI TAMÁS 23 Következmény Tegyük fel ismét, hogy rang X = p és rang B = q A H 0 : Ba = b általános lineáris hipotézis tesztelésénél csak annyi a változás a b = 0 esethez képest, hogy az F y) statisztika számlálójában Q = Bâ b) A Bâ b) Bizonyítás Az ā = a a 0 átparaméterezés után Q = ā B A B ā = â a 0 ) B A B â a 0 ) = Bâ b) A Bâ b) Amikor B sorvektor, a hipotézis arról szól, hogy a paraméterek egy bizonyos lineáris kombinációja milyen értéket vesz fel Ekkor q =, tehát A pozitív skalármennnyiség, és a 23 Következményből az alábbit kapjuk 24 Következmény Tegyük fel, hogy rang X = p, és legyen a hipotézisünk H 0 : b a = β Ekkor F y) számlálójában s 2 = b â β) 2 b X X) b, és a nullhipotézis teljesülése esetén a próbastatisztika F, n p) -eloszlású 25 Megjegyzés Az F, n p) -eloszlás a t n p -eloszlás négyzete, ezért nem tűnik túl merésznek az a feltételezés, hogy a b â β ty) = s R b X X) b statisztika eloszlása a nullhipotézis teljesülése, azaz b a = β esetén t n p -eloszlású van: b â N b a, σ 2 b X X) b ), s 2 R függvénye, ezért független ˆε-tól, így s R -től is Ez valóban így σ2 n p χ2 n p, és mivel b â = b X X) X Xâ az Xâ Ennek alapján lehetőség nyílik a H 0 : b a = β nullhipotézist a H : b a > β egyoldali ellenhipotézis ellenében is tesztelni