6. előadás - Regressziószámítás II.

Hasonló dokumentumok
A többváltozós lineáris regresszió III. Főkomponens-analízis

Többváltozós lineáris regresszió 3.

Bevezetés az ökonometriába

Nemlineáris modellek

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Bevezetés az ökonometriába

1. Ismétlés Utóbbi előadások áttekintése IV. esettanulmány Uniós országok munkanélkülisége... 1

Ökonometria. Modellspecifikáció. Ferenci Tamás 1 Hatodik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Ökonometria. Dummy változók használata. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Hetedik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Regressziós vizsgálatok

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Ökonometria. Modellspecifikáció. Ferenci Tamás 1 Hatodik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Lineáris regressziószámítás 1. - kétváltozós eset

társadalomtudományokban

Diagnosztika és előrejelzés

Korrelációs kapcsolatok elemzése

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

5. előadás - Regressziószámítás

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Lineáris regressziós modellek 1

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai statisztikai elemzések 6.

A standard modellfeltevések, modelldiagnosztika

Logisztikus regresszió

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Heckman modell. Szelekciós modellek alkalmazásai.

11. elıadás ( lecke) 21. lecke. Korreláció és Regresszió (folytatás) Lineáris-e a tendencia? Linearizálható nem-lineáris regressziós függvények

Többváltozós lineáris regressziós modell feltételeinek

STATISZTIKA. Mit nevezünk idősornak? Az idősorok elemzésének módszertana. Az idősorelemzés célja. Determinisztikus idősorelemzés

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Exponenciális kisimítás. Üzleti tervezés statisztikai alapjai

Korreláció és lineáris regresszió

(Independence, dependence, random variables)

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

A többváltozós lineáris regresszió 1.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Bevezetés a Korreláció &

A maximum likelihood becslésről

11. Előadás. 11. előadás Bevezetés a lineáris programozásba

GVMST22GNC Statisztika II.

Logisztikus regresszió

Regresszió számítás az SPSSben

Irányításelmélet és technika II.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mérési adatok illesztése, korreláció, regresszió

Melléklet 1. A knn-módszerhez használt változólista

Az idősorok összetevői Trendszámítás Szezonalitás Prognosztika ZH

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Likelihood, deviancia, Akaike-féle információs kritérium

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Adatok statisztikai értékelésének főbb lehetőségei

y ij = µ + α i + e ij

Logisztikus regresszió október 27.

Least Squares becslés

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Közgazdaságtan alapjai. Dr. Karajz Sándor Gazdaságelméleti Intézet

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Foglalkoztatási modul

Bevezetés, tudnivalók, ökonometriai alapok

Olvassa el figyelmesen az alábbi állításokat és karikázza be a helyes válasz előtt álló betűjelet.

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Regressziós vizsgálatok

[Biomatematika 2] Orvosi biometria

Autoregresszív és mozgóátlag folyamatok

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Diszkriminancia-analízis

OKTATÁSGAZDASÁGTAN. Készítette: Varga Júlia Szakmai felelős: Varga Júlia június

Statisztika I. 13. előadás Idősorok elemzése. Előadó: Dr. Ertsey Imre

Több valószínűségi változó együttes eloszlása, korreláció

REGIONÁLIS GAZDASÁGTAN B

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Az éghajlati modellek eredményeinek alkalmazhatósága hatásvizsgálatokban

4. el adás. Hosszú távú modell: szerepl k, piacok, egyensúly II. Kuncz Izabella. Makroökonómia. Makroökonómia Tanszék Budapesti Corvinus Egyetem

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Matematikai geodéziai számítások 6.

ELTE TáTK Közgazdaságtudományi Tanszék OKTATÁSGAZDASÁGTAN. Készítette: Varga Júlia. Szakmai felelős: Varga Júlia június

Segítség az outputok értelmezéséhez

Munkanélküliség és infláció I.

Méréselmélet MI BSc 1

Magyarország növekedési kilátásai A magyarországi vállalatok lehetőségei és problémái MTA KRTK KTI workshop

Matematikai geodéziai számítások 6.

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Egy és többváltozós logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Mérés és modellezés 1

Konjugált gradiens módszer

Idősorok elemzése előadás. Előadó: Dr. Balogh Péter

Mérés és modellezés Méréstechnika VM, GM, MM 1

Átírás:

6. előadás - Regressziószámítás II. 2016. október 10. 6. előadás 1 / 30

Specifikációs hibák A magyarázó- és eredményváltozók kiválasztásának alapja: szakirányú elmélet, mögöttes viselkedés ismerete, múltbeli tapasztalatok. Mivel a valós összefüggéseket nem ismerhetjük pontosan, így nyilván az ökonometriai modellek hibákat tartalmaznak. Specifikációs hiba: helytelen modellfelírás, akár a változók megválasztását, akár a függvényformák vagy az eltérésváltozók (u t ) struktúráját tekintetve. A harmadik esettel foglalkoztunk már (GLS becslés), most az első kettőn van a hangsúly: lényeges változó kihagyása, felesleges változó szerepeltetése, valamint a megfelelő függvényforma kiválasztása. De, míg eddig csak ezek matematikai hatásaival foglalkoztunk, most a struktúrális hatás is érdekel bennünket, azaz hogy ezek hogyan hatnak a modell belső struktúrájára. 6. előadás 2 / 30

Lényeges változó kihagyása - Példa Tegyük fel, hogy a valódi modell alakú, de mi az Y t = β 1 + β 2 X 2t + β 3 X 3t + u t Y t = β 1 + β 2 X 2t + v t modellt becsültük. (Azaz a β 3 = 0 feltételezéssel éltünk, de ez hibás.) Ekkor könnyen látható, hogy v t = β 3 X 3t + u t, melyre Ev t = β 3 X 3t 0, tehát v t megsérti a modell feltételeit. Továbbá az is megmutatható, hogy ha a β 3 = 0 feltételezés hibás, akkor az összes többi együttható becslése torzított lesz, azaz az előrejelzések is torzítottak lesznek és a tesztek is hatástalanok. 6. előadás 3 / 30

Változó bevonásának hatása a modellre - Példa Tekintsük a következő feladatot: Eredményváltozó: (Y ) a háztartások kiadása Magyarázóváltozó: (X J ) a jövedelem Magyarázóváltozó: (X L ) a család létszáma Tegyük fel, hogy modellünket kétféle módon becsültük, és az alábbi eredményeket kaptuk: Ŷ t = 339, 746 + 0, 637 X J, R = 0, 5369 Ŷ t = 283, 172 + 0, 617 X J + 34, 17 X L, R = 0.5386 Miért változtak meg az együtthatók? 6. előadás 4 / 30

Változó bevonásának hatása a modellre - Példa Tegyük fel, hogy a bővebb, második modell írja le a valóságos helyzetet (ez persze csak feltételezés, hiszen a valóságot nem ismerhetjük). Lehet-e ez alapján következtetni az első modellbeli jövedelem együtthatóra? Nézzük meg, hogy van-e a két változó között kapcsolat, azaz illesszünk ezekre is egy regressziót! Az eredmény: ˆX L = 1, 655 + 0, 000598 X J, R = 0, 2359, azaz a jövedelem nem csak a kiadásra hat sztochasztikusan, hanem a család létszámára is! 6. előadás 5 / 30

Változó bevonásának hatása a modellre - Példa Tehát azt kaptuk, hogy a szűkebb modell együtthatói előállíthatók a bővebb modell és a harmadik regresszió segítségével, mégpedig és formában. Mi ennek az oka? 339, 746 = 283, 172 + 34, 17 1, 655 0, 637 = 0, 617 + 34, 17 0, 000598 A bővebb modellben a jövedelem direkt hatása szerepel csak, mert itt a család létszámát állandó értéken tartjuk, ezért nincs jelentősége a köztük lévő kapcsolatnak. A szűkebb modellben viszont a jövedelem egységnyi növekedése a létszámot is növeli tendenciájában, a növekvő létszám viszont önmagában is növeli a kiadást. Ez az ún. indirekt hatás. 6. előadás 6 / 30

Változó bevonásának hatása a modellre - Példa A szűkebb modellben nem tudjuk izolálni a létszám hatását, a jövedelem változásával a létszám is változik, míg a bővebb modellben a jövedelem növekedése vagy csökkenése nem jár a létszám megváltozásával. Tehát a szűkebb modellben a kihagyott változón keresztül terjedő hatások is beépülnek az együtthatókba. A becsült paraméterekre gyakorolt hatás nehezen következtethető ki ebből, mert az indirekt hatástól függ a torzítás iránya és nagysága. 6. előadás 7 / 30

A marginális hatás A marginális hatás: a magyarázó változó egységnyi növelésének hatására mennyit változik az eredményváltozó Mértékegységekkel nem kell törődni. Matematikai definíció: Ha a modellünk az akkor Y X j Y = β 1 + β 2 X 2 +... + β k X k + u, Y X j = β j, azaz a marginális hatás és a becsült regressziós együttható kvázi szinonimák! (Persze csak akkor, ha a modell minden korábbi feltételnek eleget tesz!) 6. előadás 8 / 30

Interakció Térjünk vissza a korábbi példához: igaz-e az, hogy adott egységnyi pluszjövedelem a család létszámától függetlenül azonos többletkiadást jelent? Nyilván nem... Ilyenkor azt modjuk, hogy a két változó között interakció van, azaz az egyik marginális hatásának nagyságát befolyásolja a másik szintje. Tehát a kapcsolat a marginális hatás és a szint között van, nem pedig a marginális hatások közt avagy a szintek közt külön-külön! 6. előadás 9 / 30

Interakció Tegyük fel, hogy a kapcsolat lineáris, azaz az egyik változó szintje lineárisan hat a másik változó marginális hatására. Például (β J + β JL X 2 )X 1, ahol β JL az interakció hatását kifejező együttható. Ekkor Y = β 1 + (β J + β JL X 2 )X 1 + β L X 2 + u = = β 1 + β J X 1 + (β L + β JL X 1 )X 2 + u azaz az interakció szükségképpen szimmetrikus, tehát a hatás kölcsönös! Ezért írható helyette egyszerűbben a β J X 1 + β L X 2 + β JL X 2 X 1 összefüggés is, a marginális hatás ebből már adódik. 6. előadás 10 / 30

Marginális hatás interakciók esetén Ha interakció van a modellben, például az l-dik és m-dik tag közt, akkor Y X l = X l (β 1 + β 2 X 2 +... + +β l X l +... + β m X m +... + β k X k + β lm X l X m + u) = =β l + β lm X m, azaz az egyik változó szerinti marginális hatás tényleg függ a másik változó szintjétől! 6. előadás 11 / 30

Nemlinearitás - alapgondolatok Az élet általában nem lineáris. Mégis, a lineáris modellek sokszor nem térnek el (nagyon) a valóságtól, ráadásul matematikailag sokkal könnyebben kezelhetők, mint a nemlineáris modellek. Az esetek többségében persze ez csak egy közelítés lesz, de ha "ügyesek" vagyunk, akkor ez nem nagy baj. Érdemes vizsgálni a modellek érvényességi határait. 6. előadás 12 / 30

Nemlinearitás fajtái Változójában nemlineáris modell: Továbbra is fennáll a modell-struktúra, azaz csak alapműveleteket végzünk a paraméterek és a változók közt. Az OLS szempontjából mindegy, hogy egy változó esetlegesen egy másik valamilyen transzformáltjaként áll elő. Ide tartozik a kvadratikus és polinomiális hatás, a logaritmikus és exponenciális hatás, stb... Az interakció szintén változóbeli nemlinearitás. Minden korábbi becslés és technika ugyanúgy működik, mint korábban. De, vigyázni kell, paramétereiben lineáris marad a modell! 6. előadás 13 / 30

Nemlinearitás fajtái Paramétereiben nemlineáris modell: Megsérti a lineáris kombináció struktúráját, hiszen a paraméter nem csak együtthatóként szerepel a modellben. Ez már nem becsülhető az OLS módszerrel, mert az eredményváltozó nem állítható elő mátrixműveletekkel. Nemlineáris legkisebb négyzetek (NLS) módszerével becsülhetőek ezek a modellek, de ezek általában nehezen, vagy csak lokálisan megoldható feladatok. (Iteratív algoritmusokat használunk, de ezeknek gond lehet a konvergenciájával, stabilitásával és az egyértelműségével is.) Kezelése: algebrai linerizációval és az OLS használatával történik. (Ez persze nem mindig működik, de a gyakorlatban fontos esetekben azért általában használható.) 6. előadás 14 / 30

Log-Log modell Kedvelt a termelési és keresleti függvények becslésénél, pl. a jól ismert Cobb-Douglas termelési függvény is ilyen: Y = β 1 L β L K β K u ahol Y a kibocsátás, L a munka, K a tőke felhasználása. Linearizálás: vegyük mindkét oldal logaritmusát. Ekkor log Y = log β 1 + β L log L + β K log K + u 6. előadás 15 / 30

Log-Lin modell Tipikusan jövedelmek, bérek alakulásának modellezése a tanulással vagy tapasztalatszerzéssel töltött évek függvényében. A modell: Y = e β 1+β 2 X+u azaz log Y = β 1 + β 2 X + u Tehát az eredményváltozót logaritmizálva a magyarázóváltozók maradnak szintben. 6. előadás 16 / 30

Lin-Log és reciprok modellek Lin-Log modell: tipikusan a termés és a megművelt terület nagysága, vagy a terület és a kínálati ár összefüggésének jellemzésére szolgál. Y = β 1 + β 2 log X + u Reciprok modell: tipikusan a keresleti modellek ilyenek. Itt Y = β 1 + β 2 X + u 6. előadás 17 / 30

Alapok Kérdés: hogyan szerepeltethetünk egy minőségi (nominális) tulajdonságot (pl. férfi/nő, egészséges/beteg, szezonális hatások, korcsoportok, tapasztalat) egy lineáris regressziós modellben? Megoldás: kódolni kell, hiszen csak számszerű értékekkel tudunk dolgozni, ezért a lehetséges (véges sok!) kimenetelt fogjuk kódolni valamilyen egészértékű változóval. Legegyszerűbb eset: bináris kódolás, azaz csak 0 1 értékű változókkal kódolunk. Ezek az ún. Dummy-változók. 6. előadás 18 / 30

Kódolás 2 kimenetel: 1 dummy változónk van 0 és 1 értékkel k kimenetel: kell-e mindegyikre külön k darab dummy? Nem, ez ugyanis nem lenne jó megoldás minden esetben! Ugyanis k kimenetelre elég (k 1) darab dummy változó az ún. referencia-kódolás logikája alapján. Itt egy kimenetel kap (k 1) darab 0 értéket, ez lesz az ún. kontroll-csoport, a többi (k 1) kimenetelen pedig mindig pontosan egy darab dummy lesz 1 értékű. Példa 3 kimenetel esetén: A, B, C a lehetséges kimenetelek, R A, R B a két dummy változó R A R B A 1 0 B 0 1 C 0 0 6. előadás 19 / 30

Dummy-változó csapda Miért célszerű ezt használni a kézenfekvő "k változó - k dummy" kódolás helyett? Ha a modell nem tartalmaz konstans tagot, akkor használható mindkét kódolás, nem lesz belőle probléma. Viszont, ha a modellben van konstans tag, akkor TILOS k csoporthoz k darab dummyt használni, különben egzakt multikollenaritás lép fel! Ez az ún. dummy-változó csapda. Az ok egyszerű: ekkor ugyanis a konstans és a k darab dummy miatt X oszlopai lineárisan összefüggők lennének, ami ellentmond a modell alapfeltételeinek. 6. előadás 20 / 30

Dummy a modellben Dummy-változó magyarázó változóként minden gond nélkül bevehető a lineáris regressziós modellbe a folytonos változók mellé. Ez nem fogja bántani a regressziót, és az OLS is gond nélkül működik. A lehetséges eseteket az alábbi három modell írja le: Y = β 1 + β D D + β X X + u : csak a tengelymetszetet téríti el, azaz pl. +1 egység GDP hatása ugyanaz minden csoportban, de nem ugyanannyi a 0 GDP-hez tartozó munkanélküliség Y = β 1 + (β D D + β X )X + u : a meredekséget téríti el, azaz pl. ugyanannyi a 0 GDP-hez tartozó munkanélküliség minden csoportban, de nem egyfoma a +1 egység GDP hatása a csoportokban. (Interakció!) Y = β 1 + β D1 D1 + (β D2 D2 + β X )X + u : az előző kettő keverékét kapjuk. (Interakció!) 6. előadás 21 / 30

Kérdés Mi történik akkor, ha most a 0-1 értékű változónkat nem magyarázóként, hanem magyarázott változóként kívánjuk a modellben szerepeltetni? 6. előadás 22 / 30

Példa Minta: mérlegadataikkal adott cégek. Feladat: csőd-előrejelzés, azaz azt kell megmondanunk, hogy az adatok alapján várhatóan melyik cég fog csődbe menni és melyik nem, a vizsgált időhorizonton belül. magyarázó változók: mérlegadatok - folytonos (esetleg dummy) változók eredményváltozó: csőd vagy sem - bináris, azaz dummy-változó 6. előadás 23 / 30

Bináris változó az eredményváltozó szerepében Alapfeladat: osztályozást, avagy csoportba-sorolást akarunk végezni valamilyen adott szempontok szerint. Ezt nevezik klasszifikációs feladatnak. Gyakorlati jelentősége órási: halálozási adatok, demográfiai adatok, felvételi adatok, stb. elemzése során. A probléma legelemibb megoldási módszere: logisztikus regresszió. Más megoldás is létezik az ilyen feladatok megoldására: gépi tanulás, klaszterezés, diszkriminancia analízis, stb., de ezekkel most nem foglalkozunk. 6. előadás 24 / 30

Módszer Az elméleti modell: Y t = β 1 + β 2 X 2t +... + β k X kt + u, t = 1,..., T ahol az Y eredményváltozó bináris (dummy) változó. Kérdés: működik-e most is az OLS becslés? Nem valószínű, hiszen az OLS eredménye skálás (± közti érték), ebből nyilván nehéz lesz bináris változót becsülni. Trükk: a lineáris struktúrát megőrizve a célváltozónk "ügyes" transzformáltjára alkalmazzuk a lineáris regressziós modellt. 6. előadás 25 / 30

Módszer - 1. trükk A célváltozó tehát bináris (dummy) változó, azaz { 1 siker esetén Y = 0 kudarc esetén 1. trükk: nem a siker tényét, hanem annak P X = P (Y = 1 X) (a mintára vonatkozó) feltételes valószínűségét modellezzük. Ezzel {0, 1} helyett már [0, 1]-beli változót kell modelleznünk. Ez persze még mindig kevés a lineáris regresszióhoz! 6. előadás 26 / 30

Módszer - 2. és 3. trükk 2.trükk: újabb transzformáció - az esélyhányados bevezetése, amely a siker és a kudarc valószínűségének aránya, azaz odds X = Visszafejtve a transzformációt P X = P X P X + 1 P X = P X 1 P X [0, ) P X 1 P X P X 1 P X + 1 = odds X 1 + odds X Ez már majdnem jó lesz, csak a negatív értékek maradnak ki! 3. trükk: logaritmálás, azaz a logit bevezetése logit X = log(odds X ) (, ). Ezzel a siker és kudarc eloszlását is szimmetrizáltuk! 6. előadás 27 / 30

Modell Erre illesztünk tehát lineáris modellt logit X = α + βx + u alakban. Ezt nevezik logit avagy logisztikus regressziónak. Innen, a becslések elvégzése után, odds X = eˆα+ ˆβX és P X = eˆα+ ˆβX 1 + eˆα+ ˆβX 6. előadás 28 / 30

Becslés és az eredmények értelmezése A paraméterek becslése a ML-módszerrel történik, mert ekkor elegendő a feltételes valószínűségek előállítása. A likelihood függvény: L(α, β) = P X,i (1 P x,i ) Átlagos növekedési ráta: Y i =1 Y i =0 odds X+1 odds X = eα+β(x+1) e α+βx = e β Marginális hatás: P X X i = βp X (1 P X ) 6. előadás 29 / 30

Eredmények értelmezése Kérdés: a kapott becslések valószínűségek. Hogyan kell ezek alapján elvégezni a klasszifikációt? Cut-off point definiálása: Ŷ = 1, ha P X > C, ahol C értéke előre adott, de változtatható. Különböző C értékekhez különböző klasszifikáció tartozik. Jóság mérése: klasszifikációs mátrix, ami a megfigyelt és a becsült értékek kontingencia táblája. Ŷ = 1 Ŷ = 0 Y = 1 A B Y = 0 C D A, D: a helyes osztályozások száma B, C: elsőfajú hibák száma Helyes osztályozási ráta: A+D A+B+C+D 6. előadás 30 / 30