Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Hasonló dokumentumok
GVMST22GNC Statisztika II.

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Statisztika elméleti összefoglaló

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Regressziós vizsgálatok

Többváltozós lineáris regressziós modell feltételeinek

Lineáris regressziószámítás 1. - kétváltozós eset

Matematikai statisztikai elemzések 6.

Bevezetés a Korreláció &

Többváltozós Regresszió-számítás

Korreláció és lineáris regresszió

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Regresszió számítás az SPSSben

Korrelációs kapcsolatok elemzése

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

KÖVETKEZTETŐ STATISZTIKA

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

5. előadás - Regressziószámítás

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Regressziós vizsgálatok

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Korreláció számítás az SPSSben

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Biometria gyakorló feladatok BsC hallgatók számára

Az idősorok összetevői Trendszámítás Szezonalitás Prognosztika ZH

Matematikai geodéziai számítások 6.

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Matematikai geodéziai számítások 6.

[Biomatematika 2] Orvosi biometria

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

y ij = µ + α i + e ij

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Matematikai statisztika c. tárgy oktatásának célja és tematikája

TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Bevezetés a hipotézisvizsgálatokba

Statisztika II előadáslapok. 2003/4. tanév, II. félév

A többváltozós lineáris regresszió 1.

Ökonometriai modellek paraméterei: számítás és értelmezés

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Hipotézis vizsgálatok

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Biostatisztika VIII. Mátyus László. 19 October

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

A Statisztika alapjai

A valószínűségszámítás elemei

Ökonometria gyakorló feladatok 1.

Diagnosztika és előrejelzés

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

egyetemi jegyzet Meskó Balázs

Varianciaanalízis 4/24/12

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Normális eloszlás tesztje

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Kvantitatív statisztikai módszerek

20 PONT Aláírás:... A megoldások csak szöveges válaszokkal teljes értékőek!

[Biomatematika 2] Orvosi biometria

Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018

Van-e kapcsolat a változók között? (példák: fizetés-távolság; felvételi pontszám - görgetett átlag)

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

Több valószínűségi változó együttes eloszlása, korreláció

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Hipotézis vizsgálatok

[Biomatematika 2] Orvosi biometria

Adatok statisztikai értékelésének főbb lehetőségei

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

A standard modellfeltevések, modelldiagnosztika

Matematikai statisztikai elemzések 3.

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Statisztika Elıadások letölthetık a címrıl

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

Valószínűségszámítás összefoglaló

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Átírás:

[GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

A standard lineáris modell A lineáris sztochasztikus kapcsolat: M(Y X = X i ) = β 0 + β 1 X i. Ȳ i = β 0 + β 1 X i, azaz ha Y i = β 0 + β 1 X i + E i, akkor M(E) = 0. minta alapján η i = β 0 + β 1 X i + ε i, ε i valószínűségi változó. Bármi lehet! Standard lineáris modell 1 ε i (illetve η i ) normális eloszlásúak 2 cov(ε i, ε j ) = 0 ha i j 3 M(ε i ) = 0 4 D(ε i ) = σ (független X i -től)

Becslés során elkövetett hibák Kétféle hiba: 1 Mintából becsült paraméterek; becslés tehát nem pontos. 2 Az ismérvek között csak sztochasztikus kapcsolat van, nem függvényszerű, csak azt a részt kapjuk meg Y -ból, ami X -ből következik. Ha X i rögzített, a becslőfüggvények ˆβ 0 = ( η i ) ( Xi 2 ) ( Xi ) ( X i η i ) n Xi 2 ( X i ) 2 ˆβ 1 = n X i η i ( X i ) ( η i ) n Xi 2 ( X i ) 2 = ( (Xi X ) 2 η i ) (Xi X ) 2 Mindkettő az η i valószínűségi változók lineáris kombinációja.

A becslőfüggvények tulajdonságai 1 M( ˆβ 0 ) = β 0, M( ˆβ 1 ) = β 1 torzítatlanok 2 Szórásuk, azaz a becslés standard hibája megadható: D( ˆβ 0 ) = σ ˆβ0 = σ D( ˆβ 1 ) = σ ˆβ1 = σ 3 A becslés konzisztens. X 2 i n d 2 X 1 n d 2 X Itt σ az ε (nem ismert) szórása külön becsülni kell a mintából.

Minta szórásának becslése Az elméleti szórás: D(ε) = σ ε A mintából becsült szórás: ˆσ ε = 1 n (ηi ŷ i ) 2 Konkrét mintából becsült szórás: s e = e 2 i n 2 Itt ei 2 a minimalizálni kívánt négyzetösszeg, n 2 pedig a szabadságfokok száma torzítatlan becslés.

A regressziós becslés abszolút és relatív hibája Abszolút hiba Kifejezi, hogy a regressziós becslések (ŷ i ) átlagosan mennyivel térnek el az eredményváltozó (y i ) megfigyelt értékeitől. Itt s e, ld. fent, vagy s e = s y 1 r 2 Relatív hiba Kifejezi, hogy a regressziós becslések átlagosan hány %-kal térnek el az eredményváltozó megfigyelt értékeitől. Itt: V e = sē y. A gyakorlatban 10% alatti relatív hiba esetén jó a regressziós becslés.

A paraméterek intervallumbecslése Belátható, hogy β 1 ˆβ 1 σ ˆβ 1 n 2 szabadságfokú Student t-eloszlást követ. 1 α valószínűségi szint esetén ( ) β 1 b 1 t α (1 2 ) s b 1 ; b 1 + t α (1 2 ) s b 1 ( ) β 0 b 0 t α (1 2 ) s b 0 ; b 0 + t α (1 2 ) s b 0

Regressziós becslések és prognózisok A regressziós függvény minden x 0 értékre kidob egy ŷ 0 -t. Ez mit jelent? 1 Az Ȳ 0 = M(Y X = X 0 ) becslése. 2 Annak becslése, hogy (X 0, Y 0 ) minta esetén y 0 mekkora lehet. 1. Az x 0 értékhez tartozó feltételes várható érték intervallumbecslése. A ŷ 0 szórása meghatározható (itt: konkrét mintára): 1 sŷ0 = s e n + (x 0 x) 2 (x x) 2 (Ez x közelében a legjobb, távolodva romlik a becslés.) A konfidenciaintervallum pedig: ( ) ŷ 0 t α (1 2 ) s 1 e n + (x 0 x) 2 (x x) 2 ; ŷ 0 + t α (1 2 ) s 1 e n + (x 0 x) 2 (x x) 2

Regressziós becslések és prognózisok 2. Az egyedi y 0 becslések konfidenciaintervalluma... ha egy hiányzó Y 0 adatot kívánunk becsülni adott X 0 helyen. Y 0 = ˆβ 0 + ˆβ 1 X 1 + ε 0 = ŷ 0 + ε 0 σ 2 Y 0 = σ 2 ŷ 0 + σ 2 e A Y 0 szórása meghatározható (itt: konkrét mintára): 1 sŷ0 = s e n + (x 0 x) 2 (x x) 2 + 1 A ( konfidenciaintervallum pedig: ŷ 0 t α (1 2 ) s e 1 n + (x 0 x) 2 (x x) 2 + 1; ŷ 0 + t (1 α 2 ) s e ) 1 n + (x 0 x) 2 (x x) 2 + 1

A regressziófüggvény hipotézis-ellenőrzése A regressziófüggvény mintából származik, kérdés érvényes-e a sokaságra is. 1 Szignifikáns-e β 1? 2 Szignifikáns-e maga a regressziófüggvény? (két ismérv esetén a kettő ugyanaz)

A regressziós együttható (β 1 ) tesztelése Feltételezzük, hogy nincs korreláció, a tapasztalati paraméter b 1 0-tól való eltérését a véletlen okozza. H 0 : β 1 = 0, H 1 : β 1 0. n elemű minta esetén β 1 ˆβ 1 ˆσ ˆβ1 n 2 szabadságfokú t-eloszlást követ. α szignifikanciaszinten elfogadjuk, ha t = b 1 s b1 < t (n 2) 1 α 2

Varianciaanaĺızis a regressziószámításban y i = ŷ i + e i 1 y i : az Y megfigyelt értéke (X = x i ) 2 ŷ i = b 0 + b 1 x i : az x i -hez tartozó regressziós becslés 3 e i : maradéktag v. reziduum. n i=1 (y i ȳ) 2 = n i=1 (ŷ i ȳ) 2 + n i=1 (y i ŷ) 2 SST = SSR + SSE reziduális négyzetösszeg SSE = 0 függvényszerű kapcsolat. SSE 0 sztochasztikus kapcsolat.

Varianciaanaĺızis 2 A szórásnégyzet Eltérés- Szabadságfok Átlagos forrása négyzetösszeg négyzetösszeg Regresszió SSR = (ŷ i ȳ) 2 1 (ŷi ȳ) 2 1 (yi ŷ) 2 Hibatényező SSE = (y i ŷ) 2 n 2 Teljes SST = (y i ȳ) 2 n 1 Hipotézisvizsgálat: tagadjuk a regresszió létezését. H 0 : β 1 = 0 és H 1 : β 1 0 SSR = külső; SSE = belső szórás F -próba. Konkrét minta esetén: F 0 = SSR 1 SSE F (1) (n 2) n 2 n 2

Szorosság mérése varianciaanaĺızis-tábla alapján Determinációs együttható (r 2 ) A regresszió által megmagyarázott eltérés-négyzetösszegnek az y teljes eltérés-négyzetösszegéhez való aránya. r 2 = SSR SST = SST SSE SST = 1 SSE SST

Diagnosztikai tesztek Diagnosztikai teszt Értékeli a modellt; levont következtetések valódiságát támasztja alá. A reziduális változó tapasztalati értékeit (e i ) vizsgáljuk. Megfelel az elméleti ε i -nek hasonló tulajdonságokkal kell, hogy rendelkezzen. Például: a hibatényező szórása állandó nem jó, ha nő a szórás!

Robusztus becslési módszerek Mérési hibák: pontatlan adatok, eĺırás, stb. robusztus becslési módszerek: kevésbé érzékenyek. Nyesett átlag: elhagyunk nα megfigyelést a rangsor két szélén, majd újra becslés.

Nemlineáris regresszió Ha az X változó hatása Y -ra függ X nagyságától nemlineáris regresszió. Fontosabb típusai: hatványkitevős exponenciális parabolikus hiperbolikus A paraméterek meghatározására legkisebb négyzetek módszere.

Parabolikus regressziófüggvény Az eltérés-négyzetösszeg: ŷ = b 0 + b 1 x + b 2 x 2 f (b 0, b 1, b 2 ) = (y i ŷ i ) 2 = (y i b 0 b 1 x i b 2 x 2 i ) 2 A 0-val egyenlővé tett b 0, b 1, b 2 szerinti parciális deriváltakból kapjuk a normálegyenleteket: yi =b 0 n +b 1 xi +b 2 x 2 i xi y 1 =b 0 xi +b i x 2 i +b 2 x 3 i x 2 i y i =b 0 x 2 i +b 1 x 3 i +b 2 x 4 i Mikor használjuk? Ha a két változó közötti összefüggés iránya megváltozik Gyakori, hogy azt vizsgáljuk, hol maximális.

Hatványkitevős regressziófüggvény ŷ = b 0 x b 1 log ŷ = log b 0 + b 1 log x lineáris kapcsolat log x és log y között. Megoldás, mint a lineáris regressziónál A hatványkitevő a rugalmassági együtthatóval azonos. 1%-kal nagyobb x értékhez hány %-kal nagyobb y tartozik.

Exponenciális regressziófüggvény ŷ = b 0 b 1 x log ŷ = log b 0 + log b 1 x lineáris kapcsolat x és log y között. A b 1 arra ad választ, hogy a tényezőváltozó egységnyi növekedése hányszorosára változtatja az eredményváltozó értékét.

9.8. Feladat 19 ország adatai alapján vizsgálták az 1 lakosra jutó GDP, X és az 1000 lakosra jutó személygépkocsik száma, Y közötti összefüggést. Számítási eredmények: Lineáris regressziófüggvény: ŷ = 83, 4 + 0, 0935x. A megfigyelt változók szórásai: σ (x) = 1149; σ (y) = 120, 5. lg x = 67, 57, (lg y) 2 = 107, 5812, lg y = 44, 7463, (lg x lg y) = 160, 0585, (lg x) 2 = 240, 8056.

9.8. Feladat Feladat: a) Milyen szoros a kapcsolat a két ismérv között? b) Hány %-ban játszik szerepet az X ismérv az Y szórásában? c) Írjuk fel a hatványkitevős regresszió normálegyenleteit és számítsuk ki a paramétereket! d) Értelmezzük mindkét regressziófüggvény b 1 paraméterét! e) Adjunk becslést egy olyan országra, amelynek az 1 lakosra jutó GDP-mutatója 7200 dollár!

9.8. Feladat Megoldás a) Milyen szoros a kapcsolat a két ismérv között? A kapcsolat szorosságát a kovarianciával, vagy lineáris korrelációs együtthatóval mérhetjük. Tudjuk, hogy β 1 = cov(ξ, η) D 2 (ξ) cov(ξ, η) = β 1 D 2 (ξ) cov(ξ, η) = 0, 0935 1149 2 = 123439 R(ξ, η) = cov(ξ, η) D(ξ)D(η) R(ξ, η) = 123439 = 89, 1% 1149 120, 5

9.8. Feladat Megoldás b) Hány %-ban játszik szerepet az X ismérv az Y szórásában? A determinációs együttható (r 2 ) határozza meg. r 2 = R 2 (ξ, η) = 0, 891 2 = 79, 5%. Az X ismérv az Y szórását 79,5%-ban határozza meg.

9.8. Feladat Megoldás c) Írjuk fel a hatványkitevős regresszió normálegyenleteit és számítsuk ki a paramétereket! Hatványkitevős regressziófüggvény:ŷ = b 0 x b 1 azaz lg ŷ = lg b 0 + b 1 lg x. Normálegyenletek: lg yi = n lg b 0 + b 1 lg xi lg xi lg y i = lg b 0 lg xi + b 1 lg x 2 i 44, 75 = 19 lg b 0 + 67, 57b 1 160, 06 = 67, 57 lg b 0 + 240, 81b 1 b 1 = 1, 83, lg b 0 = 4, 165, azaz b 0 = 0, 000068, így ŷ = 0, 000068x 1,83.

9.8. Feladat Megoldás d) Értelmezzük mindkét regressziófüggvény b 1 paraméterét! Lineáris regresszió: Ha a GDP 1000 dollárral nő, akkor 1000 lakosonként 93,5 autóval több lesz. Hatványkitevős regresszió: Ha a GDP 1%-kal nő, (kb.) hány %-kal nő az 1000 lakosra jutó gépkocsik száma.

9.8. Feladat Megoldás e) Adjunk becslést egy olyan országra, amelynek az 1 lakosra jutó GDP-mutatója 7200 dollár! Lineáris regresszió: ŷ = 83, 4 + 0, 0935x = 83, 4 + 0, 0935 7200 = 589, 8. Hatványkitevős regresszió: ŷ = 0, 000068x 1,83 = 0, 000068 7200 1,83 = 807, 2.