5. előadás - Regressziószámítás

Hasonló dokumentumok
A többváltozós lineáris regresszió 1.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

Lineáris regressziószámítás 1. - kétváltozós eset

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

A maximum likelihood becslésről

Többváltozós lineáris regressziós modell feltételeinek

Statisztika elméleti összefoglaló

GVMST22GNC Statisztika II.

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Diagnosztika és előrejelzés

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Regressziós vizsgálatok

Ökonometriai modellek paraméterei: számítás és értelmezés

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Többváltozós Regresszió-számítás

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Line aris f uggv enyilleszt es m arcius 19.

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Legkisebb négyzetek módszere, Spline interpoláció

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

Statisztika II előadáslapok. 2003/4. tanév, II. félév

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

LINEÁRIS MODELLBEN május. 1. Lineáris modell, legkisebb négyzetek elve

Principal Component Analysis

Bevezetés a Korreláció &

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

11. Előadás. 11. előadás Bevezetés a lineáris programozásba

Diszkriminancia-analízis

Korreláció és lineáris regresszió

Kísérlettervezés alapfogalmak

A mérési eredmény megadása

Likelihood, deviancia, Akaike-féle információs kritérium

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Regresszió a mintában: következtetés

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Gazdasági matematika II. vizsgadolgozat, megoldással,

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Lineáris algebra numerikus módszerei

Számítógépes döntéstámogatás. Statisztikai elemzés

Matematikai statisztikai elemzések 6.

Irányításelmélet és technika II.

Regresszió számítás az SPSSben

Gazdasági matematika II. vizsgadolgozat megoldása, június 10

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A szimplex algoritmus

ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

Matematikai geodéziai számítások 5.

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Statisztikai módszerek a skálafüggetlen hálózatok

[Biomatematika 2] Orvosi biometria

3. Lineáris differenciálegyenletek

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

5. elıadás március 22. Portfólió-optimalizálás

Numerikus módszerek I. zárthelyi dolgozat (2017/18. I., A. csoport) Megoldások

Korreláció és Regresszió (folytatás) Logisztikus telítıdési függvény Több független változós regressziós függvények

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Kísérlettervezés alapfogalmak

egyenletesen, és c olyan színű golyót teszünk az urnába, amilyen színűt húztunk. Bizonyítsuk

Matematikai geodéziai számítások 6.

Regressziós vizsgálatok

Korreláció és Regresszió

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Bevezetés az ökonometriába

Matematikai geodéziai számítások 6.

Pere Balázs október 20.

BIOMATEMATIKA ELŐADÁS

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Megoldások. ξ jelölje az első meghibásodásig eltelt időt. Akkor ξ N(6, 4; 2, 3) normális eloszlású P (ξ

Korrelációs kapcsolatok elemzése

Gazdasági matematika II. tanmenet

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Matematikai geodéziai számítások 5.

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Norma Determináns, inverz Kondíciószám Direkt és inverz hibák Lin. egyenletrendszerek A Gauss-módszer. Lineáris algebra numerikus módszerei

Kettőnél több csoport vizsgálata. Makara B. Gábor

Nagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet

A valószínűségszámítás elemei

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

4. Az A és B események egymást kizáró eseményeknek vagy idegen (diszjunkt)eseményeknek nevezzük, ha AB=O

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Többváltozós lineáris regresszió 3.

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Vektorok, mátrixok, lineáris egyenletrendszerek

Átírás:

5. előadás - Regressziószámítás 2016. október 3. 5. előadás 1 / 18

Kétváltozós eset A modell: Y i = α + βx i + u i, i = 1,..., T, ahol X i független u i -től minden i esetén, (u i ) pedig i.i.d. sorozat 0 várható értékkel és σ szórással. (OLS modell) Paraméterbecslés: legkisebb négyzetes módszerrel történik, azaz a V (a, b) = T e 2 i = i=1 T (Y i a bx i ) 2 i=1 veszteségfüggvényt kell minimalizálni az a, b paraméterek függvényében. ˆα = Ȳ ˆβ X és ˆβ = T i=1 X iy i XȲ T i=1 X2 i T X 2. σ 2 becslése: s 2 = T i=1 e2 i T 2. 5. előadás 2 / 18

Determinációs együttható TSS: T i=1 (Y i Ȳ )2 az átlagtól való teljes szóródás, RSS: T i=1 e2 i a hibák négyzetösszege, azaz a nem magyarázható szóródás ESS: ˆβ T i=1 (X i X)(Y i Ȳ ) a magyarázott szóródás. Világos, hogy T SS = ESS + RSS, így definiálható az R 2 = ESS T SS = 1 RSS T SS [0, 1] determinációs együttható, mely az illeszkedés jóságát méri. Könnyen látható, hogy R =Corr(Y i, Ŷ ). Könnyen igazolható, hogy α, β és σ becslései torzítatlanok, és ezek a legjobb lináris torzítatlan becslései (BLUE) a paramétereknek. 5. előadás 3 / 18

Alapmodell A modell: ahol T k, Y t = β 1 + β 2 X 2,t +... + β k X k,t + u t, t = 1,..., T, X 2,..., X k (k 1) darab független regresszor, avagy magyarázó változó, Y a függő, avagy magyarázott változó, u t azonos eloszlású, korrelálatlan sorozat, azaz Eu t = 0, Eu 2 t = σ 2 és Eu t u s = 0, ha t s. (OLS) Legyen y = (Y 1,..., Y T ), β = (β 1,..., β k ), u = (u 1,..., u T ), 1 X 2,1... X k,1 1 X 2,2... X k,2 X =.... 1 X 2,T... X k,t Ekkor a modell az y = Xβ + u kompakt formában is felírható. 5. előadás 4 / 18

Paraméterbecslés Legyen b R k egy tetszőleges futó paramétervektor. Ekkor a hibavektor e = e(b) = y Xb, tehát a költségfüggvény, azaz a hibák négyzetösszege a V (b) = e e = (y Xb) (y Xb) = y y 2b X y + b X Xb alakot ölti. Ennek a minimumát kellene megtalálni. Mivel V (b) = 2X y + 2X Xb b 2 V (b) b 2 = 2X X 0, ˆβ = (X X) 1 X y, ha X teljes rangú, mert ekkor létezik az inverz és egyértelmű a minimum. 5. előadás 5 / 18

Többszörös determinációs együttható Mivel X X ˆβ = X y = X (X ˆβ + e( ˆβ)), így X e( ˆβ) = 0, azaz a hibavektor mindegyik regressziós vektorral korrelálatlan! Ezt felhasználva adódik, hogy a teljes négyzetösszeg (TSS) felírható az alábbi felbontásban: T (Y i Ȳ )2 = y y T Ȳ 2 = (ŷ + e) (ŷ + e) T Ȳ 2 = i=1 = ŷ ŷ + 2 e ŷ +e e T }{{} Ȳ 2 = (ŷ ŷ T Ȳ 2 ) + }{{}}{{} e e 0 ESS RSS Így, hasonlóan a korábbi esethez, definiálható az R 2 = ESS T SS = 1 RSS T SS [0, 1] többszörös determinációs együttható. Ha β 1 0, akkor R =Corr(Y i, Ŷ ). 5. előadás 6 / 18

Probléma Kérdés: új változó felvétele a modellbe változtatja-e R 2 értékét? Az világos, hogy ekkor R 2 értéke csökkeni biztosan nem fog, hiszen "jobban" magyarázzuk Y -t, azaz egy nagyobb változókészleten minimalizáljuk a veszteségfüggvényt. Ezzel együtt viszont nő a modell bonyolultága, ami nem mindig jó! Tehát, ha R 2 -tel jellemezzük a modellünket, akkor mindig az összes potenciális magyarázó változó felhasználása lesz a legjobb döntés. A valóságban azonban ez korántsem biztos! Fontos lesz számunkra a modell ún. általánosító-képessége, azaz hogy mennyire jól tud a mintán kívüli világról is számot adni. Erre a feladatra viszont az R 2 nem a legszerencsésebb mutató, hiszen ez a minta jó "megjegyzését" adja, de nekünk ennél több kell! 5. előadás 7 / 18

Egy lehetséges megoldás Modellszelekció: olyan módosítás, mely figyelembe veszi a modell változóinak számát is, és meghatározható vele az optimális magyarázó-változók köre. Ennek egy lehetséges eszköze a korrigált determinációs együttható: R 2 = 1 RSS(T 2) T SS(T k) Büntetjük a magyarázó változók számának növelését. Könnyen látható, hogy R 2 R 2, azaz 1-nél biztosan kisebb ez is, de vigyázat, lehet negatív is! A gyakorlatban heurisztikus stratégiákat használunk (forward, backward és stepwise szelekciós módszerek), hogy ne kelljen az összes 2 k kombinációt tesztelni. 5. előadás 8 / 18

Egy másik lehetséges megoldás Módosított veszteségfüggvény használata (avagy információs kritériumok), melyek egyszerre büntetik a magyarázó változók nagy számát és a nagy hibát, a kettő közt egyensúlyt keresve: V SC (b) = ln e(b) e(b) T V AIC (b) = ln e(b) e(b) T Itt k optimális értéke is keresendő! + k T lnt + 2k T Modellszelekciós tesztek: a változók elhagyására vonatkozó Wald- és Lagrange Multiplikátor-teszt. (Ezeket most az idő rövidsége miatt nem tárgyaljuk részletesebben.) 5. előadás 9 / 18

Statisztikai tulajdonságok Tétel A β paraméter fenti ˆβ becslése torzítatlan becslés, továbbá D 2 ( ˆβ) = (X X) 1 σ 2. Tétel A zaj σ 2 szórásnégyzetének torzítatlan becslése s 2 = e( ˆβ) e( ˆβ) T k. Tétel (Gauss-Markov) Legyen c R k tetszőleges és µ = c β. Ennek legkisebb szórású, lineáris, torzítatlan (BLUE) becslése az y minta alapján ˆµ = c ˆβ, ahol ˆβ a lineáris regressziós együtthatók fenti LS-becslése. 5. előadás 10 / 18

Parciális korrelációs együttható Cél: két kvantitatív változó kapcsolatából ki akarjuk szűrni egy vagy több kvantitatív változó hatását. Kérdés: milyen lenne a vizsgált két változó kapcsolata, ha a kiszűrt változókat állandó szinten tartanánk? Válasz: parciális korrelációs együttható ρ XY,Z = ρ XY ρ XZ ρ Y Z 1 ρ 2 XZ 1 ρ 2 Y Z Feltételek: kvantitatív (skálás) változóink vannak; csak lineáris összefüggés létezik köztük; X és Y között ugyanolyan jellegű és szintű kapcsolat van a Z változó teljes értéktartományában. 5. előadás 11 / 18

Parciális korrelációs együttható Ha a vizsgált változók együttes eloszlása többdimenziós normális, akkor ezek a feltételek szükségképpen fennállnak, azaz csak lineáris típusú összefüggések léphetnek fel, és a két változó közti összefüggés a harmadik változó bármely rögzített értéke esetén ugyanakkora lesz. Mérlegelés nélküli, automatikus használata esetén komoly bajok forrása lehet! 5. előadás 12 / 18

Példa: k = 3 eset A háromváltozós modell becslése az alábbi alakban írható fel: Y t = ˆβ 1 + ˆβ 2 X 2,t + ˆβ 3 X 3,t + e t, t = 1,..., T. Átlagolva a fenti egyenletet adódik, hogy Ȳ = ˆβ 1 + ˆβ 2 X2 + ˆβ 3 X3. Kivonva egymásból a kettőt kapjuk, hogy Y t }{{ Ȳ = } ˆβ 2 (X 2,t X 2 ) + }{{} ˆβ 3 (X 3,t X 3 ) +e t, t = 1,..., T, }{{} =:ξ t =:η 2,t =:η 3,t azaz a konstans tagot kiküszöböltük a modellből. Ekkor T T T det(x X) = ( η2,t)( 2 η3,t) 2 ( η 2,t η 3,t ) 2 = = ( T i=1 η 2 2,t)( i=1 i=1 i=1 T η3,t)(1 2 r23), 2 ahol r 23 = corr(x 2, X 3 ). i=1 5. előadás 13 / 18

Példa: k = 3 eset Mivel D 2 ( ˆβ) = σ 2 (X X) 1, így adódik, hogy D 2 ( ˆβ 2 ) = σ 2 T i=1 η2 3,t ( T i=1 η2 2,t )( T i=1 η2 3,t )(1 r2 23 ) = σ2 ( T i=1 η2 2,t )(1 r2 23 ) D 2 ( ˆβ 3 ) = σ 2 T i=1 η2 2,t ( T i=1 η2 2,t )( T i=1 η2 3,t )(1 r2 23 ) = σ2 ( T i=1 η2 3,t )(1 r2 23 ) Azaz ha r 23 1, azaz X 2 és X 3 között szoros a lineáris kapcsolat, akkor a paraméterek szórása nagy lesz. Ezt a jelenséget hívják multikollinearitásnak. Határesetben X oszlopai lineárisan összefüggők, így ilyenkor β nem is becsülhető. Tehát vigyázni kell az új változók felvételével, mert ekkor nő a multikollinearitás esélye, ami rontja a becslések hibáját! 5. előadás 14 / 18

Multikollinearitás Az a jelenség, amikor a magyarázó változók lineáris kapcsolatban vannak egymással. Bár nem tökéletesen precíz, de a gyakorlatban azzal jellemezzük, hogy mennyire magyarázzák egymást. Az ennek megfelelő mérőszám az ún. tolerancia: Tol j = 1 R 2 j = 1 R 2 X j X 2,X 3,...,X j 1,X j+1,...,x k, azaz hogy a vizsgált magyarázó változót mennyire magyarázza a többi magyarázó változó. Ekkor D 2 ( ˆβ RSS/(T k) j ) = (T 1)D 2 (X j ) 1 Tol j azaz, ha a tolerancia romlik (csökken), akkor a becsült paraméter szórása nő! 5. előadás 15 / 18

GLS-becslés A modell most is y = Xβ + u alakú, és tegyük fel, hogy ahol Ω > 0 ismert kovariancia mátrix, u N (0, σ Ω 1/2 ), nem feltétlenül diagonális, és ha az, a diagonális elemek akkor sem feltétlenül egyenlők, azaz a modell heteroszkedasztikus, ami annyit jelent, hogy a zaj nem lesz azonos eloszlású folyamat, és a függetlenségi feltételt sem őrizzük meg minden esetben. Mi történik ekkor az OLS becsléssel? A torzítatlanság és a konzisztencia nem romlik el, de már nem lesz hatásos a becslés, azaz nem ez lesz a legkisebb szórású becslése a paramétereknek. A becsült standard hibák is torzítottak lesznek, így a tesztek érvényüket vesztik! 5. előadás 16 / 18

GLS-becslés Ω szimmetria tulajdonsága és pozitív definitsége miatt Ω 1 is szimmetrikus pozitív definit mátrix, így létezik olyan P nemszinguláris mátrix, melyre Ω 1 = P P. Szorozzuk végig ezzel a P mátrixszal balról a modell-egyenletet. Ekkor P y = P Xβ + P u, és legyen P y = ỹ, P X = X és P u = ũ. Könnyen látszik, hogy ekkor E(ũũ ) = P E(uu )P = P (σ 2 Ω)P = σ 2 P (P P ) 1 P = σ 2 I, tehát a transzformált modell már homoszkedasztikus, így működnek a korábbi becsléseink. Azaz ˆβ = ( X X) 1 X ỹ = (X P P X) 1 X P P y = = (X Ω 1 X) 1 X Ω 1 y. 5. előadás 17 / 18

GLS-becslés Ha Ω nem ismert, akkor az esetek nagy részében a becslése reménytelen. Arra van módszer, hogy diagonális, de nem homoszkedasztikus esetben az σ 2 (X ΩX) mátrixot becsüljük, ekkor ugyanis σ 2 (X ΩX) = T σi 2 X i X i, i=1 ahol σ i ismeretlen ugyan, de becsülhető az kifejezéssel, azaz σ 2 ˆΩ =diag(e 2 i ). e i = (y X i ˆβ) 2 5. előadás 18 / 18