Lineáris regressziószámítás 1. - kétváltozós eset

Hasonló dokumentumok
A többváltozós lineáris regresszió 1.

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Statisztika elméleti összefoglaló

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Többváltozós lineáris regressziós modell feltételeinek

5. előadás - Regressziószámítás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Diagnosztika és előrejelzés

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Korrelációs kapcsolatok elemzése

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Ökonometria BSc Gyakorló feladatok a kétváltozós regresszióhoz

GVMST22GNC Statisztika II.

Bevezetés a Korreláció &

Ökonometria gyakorló feladatok 1.

Regressziós vizsgálatok

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Többváltozós Regresszió-számítás

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

KÖVETKEZTETŐ STATISZTIKA

Korreláció és lineáris regresszió

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Matematikai statisztikai elemzések 6.

y ij = µ + α i + e ij

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Bevezetés a hipotézisvizsgálatokba

Regresszió számítás az SPSSben

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Adatok statisztikai értékelésének főbb lehetőségei

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

A Statisztika alapjai

Matematikai geodéziai számítások 6.

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

A mérési eredmény megadása

Matematikai geodéziai számítások 6.

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Varianciaanalízis 4/24/12

Hipotézis vizsgálatok

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Ökonometriai modellek paraméterei: számítás és értelmezés

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Hipotézis vizsgálatok

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

6. előadás - Regressziószámítás II.

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Több valószínűségi változó együttes eloszlása, korreláció

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Statisztikai módszerek a skálafüggetlen hálózatok

A maximum likelihood becslésről

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Kvantitatív statisztikai módszerek

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Likelihood, deviancia, Akaike-féle információs kritérium

Diszkriminancia-analízis

egyetemi jegyzet Meskó Balázs

Többváltozós lineáris regresszió 3.

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Regresszió a mintában: következtetés

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Számítógépes döntéstámogatás. Statisztikai elemzés

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

Ökonometria gyakorló feladatok Többváltozós regresszió

Korreláció és Regresszió

Autoregresszív és mozgóátlag folyamatok

Statisztika Elıadások letölthetık a címrıl

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

Kísérlettervezés alapfogalmak

Regressziós vizsgálatok

Biostatisztika VIII. Mátyus László. 19 October

Biostatisztika Összefoglalás

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

c adatpontok és az ismeretlen pont közötti kovariancia vektora

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Átírás:

Lineáris regressziószámítás 1. - kétváltozós eset Orlovits Zsanett 2019. február 6.

Adatbázis - részlet eredmény- és magyarázó jellegű változók Cél: egy eredményváltozó alakulásának jellemzése a magyarázó változók segítségével, avagy a változók közötti kapcsolat jellegének feltárása, matematikai függvényekkel történő leírása. Forrás: SPSS adatfájlok

Legegyszerűbb eset - kétváltozós kapcsolat modellezése Magyarázó v. - kezdő fizetés vs. eredmény v. - fizetés corr(fizetes, kezdofizetes) = 0, 88 szoros lineáris kapcsolat.

Lineáris regresszió általában A korrelációszámítás intervallum-, vagy arányskálán mért változók kapcsolatainak vizsgálatával foglalkozik, elemzi a kapcsolat meglétét, szorosságát és irányát. A regressziószámítás az összefüggésekben lévő tendenciát vizsgálja, és a kapcsolat természetét valamilyen függvénnyel írja le. A adatokra legjobban illeszkedő egyenest keressük analitikus formában. Ez lesz az ún. regressziós egyenes, a modell pedig a lineáris regresszió kétváltozós esete. Empírikus adatok kvantitatív elemzésére használjuk majdnem minden matematikát alkalmazó területen (közgazdasági, mérnöki, orvosi, társadalomtudományi, stb... területek). Torzított lesz a modell, de a lényeg kiemelésére, elemzésre és előrejelzésre kiválóan alkalmas.

Modell Legyenek tehát X t : a magyarázó változó megfigyelései, t = 1,..., n Y t : az eredményváltozó megfigyelései, t = 1,..., n ε t : a modell hibatagja, t = 1,..., n. Ekkor a modell Y t = α + βx t + ε t, t = 1,..., n alakú, ahol X t független ε t -től minden t esetén, (ε t ) pedig i.i.d. (független, azonos eloszlású) sorozat 0 várható értékkel és σ szórással.

Modell A hibatag tartalma: kihagyott változó(k) hatása helytelen függvényforma megválasztásából adódó eltérések mérési hibák modellezhetetlen véletlenség stb... Feladat: az α és β valós paraméterek becslése a mintából a modell illeszkedésének vizsgálata, mérése előrejelzés

Paraméterbecslés legkisebb négyzetek módszere (OLS) Tekintsük tehát az Y t = α + βx t + ε t, t = 1,..., n elméleti modellt, és jelölje Ŷ t = α + βx t, t = 1,..., n a minta alapján becsült regressziófüggvényt. Ekkor a legkisebb négyzetek (OLS) módszer lényege az, hogy azt az ˆα és ˆβ párt keressük, melyre a hibák négyzetösszege minimális, azaz n n n V (α, β) = (Y t Ŷ t ) 2 = (Y t α βx t ) 2 = et 2 min! α,β t=1 t=1 t=1

Paraméterbecslés legkisebb négyzetek módszere (OLS) Megoldás: szélsőérték keresési probléma, azaz deriválunk, melyből megkapjuk a V (α, β) α n n = 2 e t = 2 (Y t α βx t ) = 0 t=1 t=1 V (α, β) β ún. normálegyenleteket. n n = 2 X t e t = 2 X t (Y t α βx t ) = 0 t=1 t=1 Innen egyszerű számolással adódik, hogy ˆα = Ȳ ˆβ X és ˆβ = nt=1 X t Y t n XȲ nt=1 (X t X)(Y t Ȳ ) nt=1 Xt 2 = n X 2 nt=1 = S xy (X t X) 2 S xx

Feladat Egy 10 elemű minta alapján vizsgálták az Opel Corsa 1.2 típusú személygépkocsik életkora és eladási ára közötti kapcsolatot. A megfigyelések és a belőlük számolt regressziós részeredmények: életkor (év) eladási ár (ezer Ft) számítási részeredmények 3 1720 1 1800 6 1350 X 2 i = 157 4 1600 (Xi X)(Y i Ȳ ) = 4231 4 1500 ( Ŷ i Ȳ )2 = 372 169, 7 5 1550 (Yi Ȳ )2 = 404 610 0 2000 X = 3, 3, Ȳ = 1627 1 1750 7 1300 2 1700 Írja fel az életkor és az eladási ár kapcsolatát leíró becsült kétváltozós lineáris regressziós modellt!

Feladat A becsült modell tehát Ŷ t = 1917, 277 87, 963 X t alakú. De hogyan is kell értelmezni ezeket a számokat?

Együtthatók értelmezése Nem olyan nehéz kitalálni: A konstans ˆα = 1917 azt mutatja meg, hogy X t = 0 esetén, azaz egy új autó esetén, mennyi az átlagos eladási ár. A ˆβ = 87, 96 együttható azt mutatja meg, hogy a kor növekedésével évente 87 960 forinttal csökken az autók átlagos eladási ára. Ezt általánosan is megfogalmazhatjuk: A konstans ˆα azt mutatja meg, hogy X t = 0 esetén a modell szerint mekkora lesz az eredményváltozó átlagos értéke. A ˆβ együttható azt mutatja meg, hogy a magyarázó változó egységnyi növekedése a becsült eredményváltozóban átlagosan hány egységnyi növekedést/csökkenést okoz. Vegyük észre, hogy β = Y X, amit korábban marginális hatás néven tanultak! Részletek később.

Rugalmasság A regressziós együtthatók természetes mértékegységben jellemzik a két változó kapcsolatát. Előfordul azonban, hogy a kapcsolatot jobban leírhatjuk a rugalmasság fogalmának segítségével. A rugalmasság azt mutatja meg, hogy a magyarázó változó 1%-os növekedése az eredményváltozó hány %-os változásával jár együtt. Matematikailag ez a relatív változások egymáshoz való viszonyával írható le, azaz El(Y X) = Y Y X X = Y X X Y

Rugalmasság Kétváltozós lineáris regresszió esetén az El(Ŷ X) = ˆβX ˆα + ˆβX formulát kapjuk, ami nem állandó, hanem mindig az éppen aktuális X függvénye! Tehát értéke attól is függ, hogy a magyarázó változót milyen szinten rögzítettük. Módosítás: a rugalmasság azt mutatja meg, hogy a magyarázó változó adott szintről kiinduló 1%-os növelése a becsült eredményváltozó hány %-os változásával jár együtt. Alkalmazva ezt a példánkra: adott X = 3, 3 esetén (ez pont az átlag) El(Ŷ X) = 87, 96 3, 3 = 0, 178. 1917 87, 96 3, 3 Azaz ha az átlagos kor 1%-kal nő, akkor a becsült átlagos eladási ár 0, 178%-kal csökken.

Reziduumok A becsült regressziós függvény segítségével a megfigyelési pontokban meghatározhatjuk a reziduumok értékét: e t = Y t Ŷ t, t = 1,..., n. Fontos szerepet játszanak a modellezésben. Megmutatják, hogy a modell mennyire tudott közel kerülni a valósághoz. A kis e t értékek jó illeszkedést mutatnak, ez fontos kritérium lesz a modell megítélésekor. Mutatót képzünk belőlük: error of sum of squares, avagy a reziduumok négyzetösszege n ESS = et 2. t=1

Reziduumok A reziduális szórás, avagy a mintán belüli reziduális variancia: s e = ESS n, mely egyfajta szóródásmutató. Azt fejezi ki, hogy a regressziós becslések átlagosan mennyivel térnek el az eredményváltozó megfigyelt értékeitől. Ezért a regressziós becslés abszolút hibájának is szokták nevezni. A mintából számított becsült paraméterek is szóródnak az elméleti értékek körül, hiszen ezek is becslések. Ezt a szóródást az együtthatók standard hibái fejezik ki: s 2ˆβ = s2 e S xx, s 2ˆα = s2 e nt=1 X 2 t ns xx, és s 2ˆα ˆβ = X s 2 e S xx, ahol s a becsült paraméterértékek közti kovarianciát jelöli. 2ˆα ˆβ

Reziduumok - alkalmazás a feladatra

Determinációs együttható Azt már láttuk, hogy az OLS módszerrel becsült paraméterek mellett kapjuk meg az adatbázisra legjobban illeszkedő egyenes. De milyen értelemben a "legjobban" illeszkedő? Válasz: determinációs együttható, mely az illeszkedés jóságát méri. Származtatásához a varianciafelbontásra (ANOVA) lesz szükségünk. Jelölje tehát TSS: n t=1 (Y t Ȳ )2 a teljes négyzetösszeget, mely az átlagtól való teljes szóródás egy mérőszáma, ESS: n t=1 (Y t Ŷ t ) 2 = n t=1 e 2 t a hibák négyzetösszegét, mely az eltérésváltozó szóródását méri a regressziós becslésnél, azaz ez az ANOVA belső négyzetösszege, RSS: n t=1 (Ŷ t Ȳ ) 2 a regressziós négyzetösszeget, mely az ANOVA külső négyzetösszege.

Determinációs együttható Ekkor n n TSS = (Y t Ȳ )2 = (Y t Ŷt + Ŷt Ȳ )2 = t=1 t=1 n n n = (Y t Ŷt) 2 + (Ŷt Ȳ )2 +2 (Y t Ŷt) (Ŷt }{{} Ȳ ) t=1 t=1 t=1 }{{}}{{} e t }{{} ESS RSS 0 Azaz a tökéletesen rossz modelltől a tökéletesen jó modellig vezető út (TSS) hosszából éppen RSS hosszú részt tettünk meg. A külső négyzetösszegeket (RSS) magyarázott négyzetösszegnek is szokták nevezni.

Determinációs együttható A TSS = ESS + RSS összefüggés alapján definiálható az R 2 = RSS TSS = 1 ESS TSS [0, 1] determinációs együttható, mely megmutatja, hogy a regressziós modellel az eredményváltozóban meglévő variancia (bizonytalanság) hány százalékban magyarázható meg. Más szóval az illeszkedés jóságát méri, avagy a modell magyarázó erejének is szokás nevezni. R =Corr(Y t, Ŷ ). mértékegység független Példánkban: R 2 = 0, 919, azaz egy mintabeli autónál az eladási ár varianciájának 91,9%-át magyarázza az autó kora.

Determinációs együttható - példa

Mintavételi helyzet Az adatbázisunk alapján tehát kaptunk egy regressziós egyenest, és azt is tudjuk, hogy ez mennyire "jól" illeszkedik az adatokra. De, az adatbázis csak egy minta az eladásra kínált lakások sokkal bővebb sokaságából, azaz a mintavétel tükröződik a paraméterek becsléseiben is; ezért tehát ún. mintavételi ingadozás lép fel; azaz a paraméterek ingadozását vizsgálni kell!

Statisztikai tulajdonságok Tétel 1. Az α és β paraméterek OLS módszerrel előállított ˆα és ˆβ becslései torzítatlan és konzisztens becslések. Tétel 2. A reziduumok szórásnégyzetének torzítatlan becslése s e = ESS n 2. Tétel 3 (Gauss-Markov). A kétváltozós lineáris regressziós modell paramétereinek lineáris torzítatlan becslései közül a hagyományos legkisebb négyzetek módszerével (OLS) kapott becslések hatásosak, azaz a torzítatlan lineáris becslések közül ezek szórása a legkisebb.

Statisztikai tulajdonságok - Torzítatlanság A becslés várható értéke éppen a megfelelő paraméterértékkel egyenlő, azaz Eˆθ = θ. Azaz bár a minta függ a véletlentől, így ezáltal a becslések is, de az eltérések középpontja az elméleti paraméter legyen. Amennyiben a becslés torzított, úgy a torzítás mértéke éppen Eˆθ θ. Forrás: Gazdaságstatisztika jegyzet, BME 2018

Statisztikai tulajdonságok - Konzisztencia Konzisztens a becslés, ha ingadozása a becsült paraméter körül a minta elemszámának növelésével csökken, azaz nagy minta esetén a becslés jól közelítse a sokasági jellemzőt. Példa konzisztens, torzított becslésre θ = 0 esetén. Piros: kis minta, zöld: közepes minta, kék: nagy minta.

Statisztikai tulajdonságok - Hatásosság Két becslés közül azt nevezzük hatásosabbnak, melynek kisebb a szórása. Egy becslés hatásos, ha minden más becslésnél hatásosabb, azaz ez a legkisebb varianciájú becslés az összes torzítatlan becslés között.

Konfidencia intervallumok Az intervallumbecslés lényege az, hogy a pontbecslésünk ismert valószínűségi tulajdonságai segítségével adott megbízhatósági intervallumot adjunk a sokasági paraméterre. Ez is valószínűségi változó lesz, azaz mintáról mintára változik. Nagysága függ a minta elemszámától, a sokasági szórástól, és a választott megbízhatósági szinttől. A becsléselméletből ismert összefüggések alapján könnyen igazolható, hogy ˆα α sˆα t n 2 és ˆβ β s ˆβ t n 2, melynek segítségével a paraméterekre vonatkozó konf. iv-ok ˆα ± t 1 ε/2 (n 2) sˆα és ˆβ ± t1 ε/2 (n 2) s ˆβ, ahol t az (n 2) szabadsági fokú t eloszlás, ε pedig a választott megbízhatósági szint.

Konfidencia intervallumok Hasonlóan az előzőekhez az eredményváltozó Ŷ becslésére is konstruálható konfidencia intervallum. Az átlagra vonatkozóan (adott X t helyen Y várható értékére): 1 sŷt = s e n + (X t X) 2, S xx ahonnan a konfidencia intervallum Ŷ t ± t 1 ε/2 (n 2) sŷt A pontbecslésre (adott X t helyen egyedi Y t értékre) s Yt = s e 1 + 1 n + (X t X) 2, S xx ahonnan a konfidencia intervallum Ŷ t ± t 1 ε/2 (n 2) s Yt

Konfidencia intervallumok - alkalmazás a példára A paraméterek konfidencia intervallumai: sˆα = 36, 38, t 0,975 (8) = 2, 306, CI = 1917, 277 ± 36, 38 2, 306 = [1833, 38; 2001, 17] s ˆβ = 9, 18, t 0,975 (8) = 2, 306, CI = 87, 96 ± 9, 18 2, 306 = [ 109, 136; 66, 789] Az átlagra vonatkozó konfidencia intervallum:

Hipotézisvizsgálatok - az eredmények ellenőrzése A regresszió alapvető feltétele, hogy a magyarázó- és eredményváltozó közötti korreláció nem nulla. Ebben az esetben a regressziós együttható (β) sem nulla. Előfordulhat azonban, hogy egy rossz mintavétel következtében nullától eltérő becslést kapunk olyan esetben is, amikor a két változó közt nincs semmilyen kapcsolat. Hipotézisvizsgálattal fogjuk ellenőrizni tehát, hogy a magyarázó- és eredményváltozó között tényleg van-e a kapcsolat. Azt is tudjuk ellenőrizni, hogy elegendő-e a választott magyarázó változó az eredményváltozó jellemzésére, vagy esetleg kell-e további változókat felkutatni és beépíteni a modellbe.

A paraméterek szeparált tesztelése Azt teszteljük, hogy a meredekségi paraméter sokasági értéke lehet-e nulla, hiszen ekkor a nullhipotézis fennállása azt jelenti, hogy X alakulása nem befolyásolja Y alakulását, azaz a két változó közt nincs kapcsolat, tehát a modell értelmetlen. A próba hipotézisei: A tesztelés t-próbával történik: H 0 : β = 0, H 1 : β 0 t = ˆβ s ˆβ t n 2 Az α paraméter becsült értékének tesztelésére hasonló módon építhető próba, bár ennek jelentősége sokkal kisebb, mivel magyarázó ereje nem jelentős. Általában megtartjuk akkor is, ha sokasági értéke nem különbözik szignifikánsan nullától. Ennek okairól később beszélünk.

Alkalmazás a példára Alkalmazva a példára az előzőeket kapjuk, hogy t = ˆβ s ˆβ = 87, 96 9, 182 = 9, 58. A próba kétoldali, az α = 5% szignifikancia szinthez tartozó kritikus érték t = 2, 306. Mivel 9, 58 > 2, 306, azaz a statiszika számított értéke a kritikus tartományba esik, tehát a nullhipotézist elutasítjuk. Azaz meredekségi paraméterünk szignifikánsan nem nulla értékű, és ez egyben azt is jelenti, hogy magyarázó változónk alakulása szignifikánsan befolyásolja az eredményváltozónk alakulását.

Varianciaanalízis a regresszióban A regressziósfüggvény hipotézisellenőrzésének eszköze. Azt is teszteli, hogy vajon a modell elegendő-e, azaz minden hatást megragad-e. A kétváltozós esetben ez persze ugyanaz a kérdés, mint a fenti szeparált paraméter tesztelés. Most erre mutatunk egy másik eszközt. Többváltozós esetben ez a két kérdés különválik majd, és a két teszt mást és mást fog tesztelni. Emlékezzünk a TSS = RSS + ESS teljes négyzetösszeg felbontásra: n n n (Y t Ȳ ) 2 = (Ŷ t Ȳ ) 2 + (Y t Ŷ t ) 2 t=1 } {{ } t=1 } {{ } t=1 } {{ } TSS RSS ESS Világos, hogy ha ESS = 0, akkor Y teljes varianciája magyarázható az X változóval, azaz Ŷ t = Y t t, tehát a kapcsolat determinisztikus, míg ha ESS 0, akkor a kapcsolat sztochasztikus.

Varianciaanalízis a regresszióban Mivel szóródási mutatók felbontásából indulunk ki, így kézenfekvőnek látszik az ANOVA teszt alkalmazása. Ennek jelen esetben a hipotézisei: H 0 : β = 0, H 1 : β 0, ami ANOVA nyelven azt jelenti, hogy az X magyarázó változó szerint képzett csoportok várható értékei nem térnek el egymástól, azaz X együtthatója a regresszióban nulla. A tesztstatisztika: F = RSS/1 ESS/(n 2) = (n 2) R 2 F (1, n 2). 1 R2 ESS/(n 2) a belső szórás, azaz a szóródás azon része, melyet a csoportosítás nem magyaráz, RSS/1 pedig a csoportosítás hatása a szóródásra, azaz a külső szórás.

Varianciaanalízis a regresszióban Szabadsági fokok: TSS: (n 1), hiszen Ȳ kiszámítását igényli, ami elvesz e szabadsági fokot (1 paraméter) ESS: (n 2), hiszen ˆα és ˆβ becslése kell hozzá (2 paraméter) RSS: (n 1) (n 2) = 1, a maradék. Variancia szabadsági átlagos négyzetösszeg négyzetösszeg forrása fok Regresszió RSS 1 MSR = RSS 1 Maradék ESS n 2 MSE = ESS n 2 Teljes TSS n 1 F érték F = MSR MSE Példánkban RSS = 372 169, 7 és ESS = 32 440, 3, így F = 372 169, 7 32 440, 3/8 = 91, 7795 > F (1, 8) = 5, 31766, tehát a nullhipotézis elutasítva, modellünk ezáltal releváns.

Mértékegység-váltás hatása a becslésekre Tekintsük az Y t = α + βx t + ε t, t = 1,..., n modellt. Két esetet különböztetünk meg: Az eredményváltozó mértékegységének megváltozása: legyen az új változó Y = c Y valamely c konstans mellett (pl. ezer forint helyett forint esetén c = 1000). Ekkor az új modell Y = c Y = cα + cβx t + cε t, t = 1,..., n. A magyarázó változó mértékegységének megváltozatása: legyen X = c X valamely c konstans mellett (pl. év helyett hónapok esetén c=12). Ekkor az új modell Y t = α+βx t +ε t = α+ β c (cx t)+ε t = α+ β c X t +ε t, t = 1,..., n

Mértékegység-váltás hatása a becslésekre Az R 2 mutató értéke nem változik, hiszen mértékegység-független mutató. A becslések standard hibái a fentieknek megfelelően változnak, így ezzel párhuzamosan a t-statisztikák értékei változatlanok maradnak. A példánkban, ha az autók eladási árát (Y ) ezer forint helyett forintban mérnénk, akkor ˆα = 1917, 280 1000 = 1 917 280, ˆβ = 87, 9626 1000 = 87 962, 6.

Feladat 12 kereskedelmi vállalatnál vizsgálták a nettó árbevétel és az adózott eredmény közötti kapcsolatot. A megfigyeléseket és a belőlük számolt regressziós részeredményeket az alábbi táblázat foglalja össze. árbevétel (mft) eredmény (mft) számítási részeredmények 440 12 453 13 469 14 518 14 X 2 i = 9 642 309 644 21 (Xi X)(Y i Ȳ ) = 62 200, 5 750 25 ( Ŷ i Ȳ )2 = 3 144, 277 890 35 (Yi Ȳ ) 2 = 3 209, 667 999 44 X = 837, 25, Ȳ = 31, 833 1093 47 1228 55 1262 50 1301 52