Többváltozós lineáris regresszió 3.

Hasonló dokumentumok
A többváltozós lineáris regresszió III. Főkomponens-analízis

6. előadás - Regressziószámítás II.

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Ökonometria. Dummy változók használata. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Hetedik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

1. Ismétlés Utóbbi előadások áttekintése IV. esettanulmány Uniós országok munkanélkülisége... 1

Principal Component Analysis

Regressziós vizsgálatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

(Independence, dependence, random variables)

Vektorterek. =a gyakorlatokon megoldásra ajánlott

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Diszkriminancia-analízis

Lineáris regressziószámítás 1. - kétváltozós eset

Többváltozós lineáris regressziós modell feltételeinek

5. előadás - Regressziószámítás

Bevezetés az ökonometriába

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Szinguláris érték felbontás Singular Value Decomposition

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Vektorok, mátrixok, lineáris egyenletrendszerek

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Kvadratikus alakok és euklideszi terek (előadásvázlat, október 5.) Maróti Miklós, Kátai-Urbán Kamilla

A többváltozós lineáris regresszió 1.

Likelihood, deviancia, Akaike-féle információs kritérium

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

azonosságot minden 1 i, l n, 1 j k, indexre teljesítő együtthatókkal, amelyekre érvényes a = c (j) i,l l,i

Least Squares becslés

Lineáris regressziós modellek 1

Adatok statisztikai értékelésének főbb lehetőségei

LINEÁRIS ALGEBRA. matematika alapszak. Euklideszi terek. SZTE Bolyai Intézet, őszi félév. Euklideszi terek LINEÁRIS ALGEBRA 1 / 40

Valószínűségi változók. Várható érték és szórás

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

A maximum likelihood becslésről

Sajátértékek és sajátvektorok. mf1n1a06- mf1n2a06 Csabai István

Logisztikus regresszió

1. Generátorrendszer. Házi feladat (fizikából tudjuk) Ha v és w nem párhuzamos síkvektorok, akkor generátorrendszert alkotnak a sík vektorainak

Több valószínűségi változó együttes eloszlása, korreláció

Diagnosztika és előrejelzés

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

LINEÁRIS MODELLBEN május. 1. Lineáris modell, legkisebb négyzetek elve

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

1. Bázistranszformáció

17. előadás: Vektorok a térben

9. Előadás. (9. előadás) Lineáris egyr.(3.), Sajátérték április / 35

Nemlineáris modellek

Faktoranalízis az SPSS-ben

1. feladatsor Komplex számok

Faktoranalízis az SPSS-ben

Segítség az outputok értelmezéséhez

Logisztikus regresszió

VIK A2 Matematika - BOSCH, Hatvan, 3. Gyakorlati anyag. Mátrix rangja

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Összeállította: dr. Leitold Adrien egyetemi docens

1. zárthelyi,

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Logisztikus regresszió október 27.

11. Előadás. 11. előadás Bevezetés a lineáris programozásba

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

6. Előadás. Megyesi László: Lineáris algebra, oldal. 6. előadás Bázis, dimenzió

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Matematika III előadás

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Korreláció és lineáris regresszió

Mat. A2 3. gyakorlat 2016/17, második félév

Lineáris leképezések (előadásvázlat, szeptember 28.) Maróti Miklós, Kátai-Urbán Kamilla

Matematika A1a Analízis

10. Előadás. Megyesi László: Lineáris algebra, oldal. 10. előadás Sajátérték, Kvadaratikus alak

Bevezetés a Korreláció &

Vektorterek. Több esetben találkozhattunk olyan struktúrával, ahol az. szabadvektorok esetében, vagy a függvények körében, vagy a. vektortér fogalma.

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Feladatok a Gazdasági matematika II. tárgy gyakorlataihoz

Egy és többváltozós logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Matematikai geodéziai számítások 6.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Irányításelmélet és technika II.

Felügyelt önálló tanulás - Analízis III.

Matematikai geodéziai számítások 6.

[Biomatematika 2] Orvosi biometria

Matematikai geodéziai számítások 10.

Heckman modell. Szelekciós modellek alkalmazásai.

A leíró statisztikák

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Diszkrét matematika II., 8. előadás. Vektorterek

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Matematika A2 vizsga mgeoldása június 4.

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Kettőnél több csoport vizsgálata. Makara B. Gábor

Átírás:

Többváltozós lineáris regresszió 3. Orlovits Zsanett 2018. október 10.

Alapok Kérdés: hogyan szerepeltethetünk egy minőségi (nominális) tulajdonságot (pl. férfi/nő, egészséges/beteg, szezonális hatások, korcsoportok, tapasztalat) egy lineáris regressziós modellben? Megoldás: kódolni kell, hiszen csak számszerű értékekkel tudunk dolgozni, ezért a lehetséges (véges sok!) kimenetelt fogjuk kódolni valamilyen egészértékű változóval. Legegyszerűbb eset: bináris kódolás, azaz csak 0 1 értékű változókkal kódolunk. Ezek az ún. Dummy-változók.

Kódolás 2 kimenetel: 1 dummy változónk van 0 és 1 értékkel k kimenetel: bonyolultabb helyzet. A triviális kódolás 3 változó esetén az alábbi lenne: D A D B D B A 1 0 0 B 0 1 0 C 0 0 1 De biztosan kell ennyi? Általában, k kimenetel esetén kell mindig k darab dummy? Nem, ugyanis: k kimenetelre elég (k 1) darab dummy változó az ún. referencia-kódolás logikája alapján. Itt egy kimenetel kap (k 1) darab 0 értéket, ez lesz az ún. kontroll-csoport, a többi (k 1) kimenetelen pedig mindig pontosan egy darab dummy lesz 1 értékű.

Kódolás Példa 3 kimenetel esetén: A, B, C a lehetséges kimenetelek, R A, R B a két dummy változó R A R B A 1 0 B 0 1 C 0 0 Itt C a referenciacsoport, R A és R B a két szükséges magyarázó (dummy-)változó. Vegyük észre, hogy R A D A és R B D B, tehát a két kódoláshoz pontosan ugyanazon dummy változókra van szükség, csak a referencia kódolásnál eldobjuk az egyiket, ez lesz a kontroll csoport.

Dummy-változó csapda Miért célszerű ezt használni a kézenfekvő "k változó - k dummy" kódolás helyett? Ha a modell nem tartalmaz konstans tagot, akkor használható mindkét kódolás, nem lesz belőle probléma. Viszont, ha a modellben van konstans tag, akkor TILOS k csoporthoz k darab dummyt használni, különben egzakt multikollenaritás lép fel! Ez az ún. dummy-változó csapda. Az ok egyszerű: ekkor ugyanis a konstans és a k darab dummy miatt X oszlopai lineárisan összefüggők lennének, ami ellentmond a modell alapfeltételeinek.

Dummy a modellben Dummy-változó magyarázó változóként minden gond nélkül bevehető a lineáris regressziós modellbe a folytonos változók mellé. Ez nem fogja bántani a regressziót, és az OLS is gond nélkül működik. A lehetséges eseteket az alábbi három modell írja le: Y = β 1 + β D D + β X X + u : csak a tengelymetszetet téríti el, azaz pl. +1 egység GDP hatása ugyanaz minden csoportban, de nem ugyanannyi a 0 GDP-hez tartozó munkanélküliség Y = β 1 + (β D D + β X )X + u : a meredekséget téríti el, azaz pl. ugyanannyi a 0 GDP-hez tartozó munkanélküliség minden csoportban, de nem egyfoma a +1 egység GDP hatása a csoportokban. (Interakció!) Y = β 1 + β D1 D1 + (β D2 D2 + β X )X + u : az előző kettő keverékét kapjuk. (Interakció!)

Kérdés Mi történik akkor, ha most a 0-1 értékű változónkat nem magyarázóként, hanem magyarázott változóként kívánjuk a modellben szerepeltetni?

Példa Minta: mérlegadataikkal adott cégek. Feladat: csőd-előrejelzés, azaz azt kell megmondanunk, hogy az adatok alapján várhatóan melyik cég fog csődbe menni és melyik nem, a vizsgált időhorizonton belül. magyarázó változók: mérlegadatok - folytonos (esetleg dummy) változók eredményváltozó: csőd vagy sem - bináris, azaz dummy-változó

Bináris változó az eredményváltozó szerepében Alapfeladat: osztályozást, avagy csoportba-sorolást akarunk végezni valamilyen adott szempontok szerint. Ezt nevezik klasszifikációs feladatnak. Gyakorlati jelentősége órási: halálozási adatok, demográfiai adatok, felvételi adatok, stb. elemzése során. A probléma legelemibb megoldási módszere: logisztikus regresszió. Más megoldás is létezik az ilyen feladatok megoldására: gépi tanulás, klaszterezés, diszkriminancia analízis, stb., de ezekkel most nem foglalkozunk.

Módszer Az elméleti modell: Y t = β 1 + β 2 X 2t +... + β k X kt + u, t = 1,..., T ahol az Y eredményváltozó bináris (dummy) változó. Kérdés: működik-e most is az OLS becslés? Nem valószínű, hiszen az OLS eredménye skálás (± közti érték), ebből nyilván nehéz lesz bináris változót becsülni. Trükk: a lineáris struktúrát megőrizve a célváltozónk "ügyes" transzformáltjára alkalmazzuk a lineáris regressziós modellt.

Módszer - 1. trükk A célváltozó tehát bináris (dummy) változó, azaz Y = { 1 "siker" esetén 0 "kudarc" esetén 1. trükk: nem a siker tényét, hanem annak P X = P(Y = 1 X) (a mintára vonatkozó) feltételes valószínűségét modellezzük. Ezzel {0, 1} helyett már [0, 1]-beli változót kell modelleznünk. Ez persze még mindig kevés a lineáris regresszióhoz!

Módszer - 2. és 3. trükk 2.trükk: újabb transzformáció - az esélyhányados bevezetése, amely a siker és a kudarc valószínűségének aránya, azaz odds X = Visszafejtve a transzformációt P X = P X P X + 1 P X = P X 1 P X [0, ) P X 1 P X P X 1 P X + 1 = odds X 1 + odds X Ez már majdnem jó lesz, csak a negatív értékek maradnak ki! 3. trükk: logaritmálás, azaz a logit bevezetése logit X = log(odds X ) (, ). Ezzel a siker és kudarc eloszlását is szimmetrizáltuk!

Modell Erre illesztünk tehát lineáris modellt logit X = β 1 + β 2 X 2 +... + β k X k = X T β alakban. Ezt nevezik logit avagy logisztikus regressziónak. Innen, a becslések elvégzése után, odds X = e ˆβ 1 + ˆβ 2 X 2 +...+ ˆβ k X k és P X = e ˆβ 1 + ˆβ 2 X 2 +...+ ˆβ k X k 1 + e ˆβ = ex T β 1 + ˆβ 2 X 2 +...+ ˆβ k X k 1 + e X T β

Becslés és az eredmények értelmezése A paraméterek becslése a ML-módszerrel történik, mert ekkor elegendő a feltételes valószínűségek előállítása. A likelihood függvény: L(β 1,..., β k ) = Átlagos növekedési ráta: P X,i Y i =1 Y i =0 (1 P X,i ) odds X1,...,X l 1,X l +1,X l+1,...,x k odds X1,...,X l 1,X l,x l+1,...,x k = e β l Marginális hatás: P X X i = βp X (1 P X )

Eredmények értelmezése Kérdés: a kapott becslések valószínűségek. Hogyan kell ezek alapján elvégezni a klasszifikációt? Cut-off point definiálása: Ŷ = 1, ha P X > C, ahol C értéke előre adott, de változtatható. Különböző C értékekhez különböző klasszifikáció tartozik. Jóság mérése: klasszifikációs mátrix, ami a megfigyelt és a becsült értékek kontingencia táblája. Ŷ = 1 Ŷ = 0 Y = 1 A B Y = 0 C D A, D: a helyes osztályozások száma B, C: elsőfajú hibák száma Helyes osztályozási ráta: Szenzitivitás: ROC görbe A+D A+B+C+D

Célok Az adatok dimenziójának (azaz a változók számának) csökkentése úgy, hogy lényeges információt ne veszítsünk. Lényegkiemelés, avagy nehezen megfogható fogalmak (pl. gazdasági fejlettség) definiálása összetett mutatórendszerrel való jellemzés útján - Látens változók előállítása Osztályozási feladatok adott közös faktorok alapján. Független komponensek előállítása Az ok az esetek legnagyobb részében a változók függetlenségi és közel azonos szórású tulajdonságainak hiányában rejlik. Eszköz: k < n darab új változó bevezetése úgy, hogy ezek már korrelálatlanok legyenek, és a minta teljes varianciáját (azaz a változók összes szórását) a lehető legjobban adják vissza.

Matematikai háttér Legyen X egy olyan n dimenziós valószínűségi vektorváltozó, melyre EX = 0 és VarX = D. Cél: az n dimenziós térben olyan új koordináta-rendszer bevezetése, melyben véletlen vektorunk koordinátái már korrelálatlanok Megoldás: Vegyük a kovariancia mátrix D = VarX = UΛU T, felbontását, ami éppen D spektrálelőállítása. Ekkor az Y = U T X vektor az X ún. főkomponens-vektora, ennek i-dik koordinátája X i-dik főkomponense.

Néhány fontos megjegyzés Ők már páronként korrelálatlanok, 0 várható értékűek és szórásaik éppen D sajátértékeinek négyzetgyökei, azaz DY i = λ i. Ezek X ún. kanonikus szórásai. Y forgatásinvariáns, azaz ha V ortonormált mátrix, akkor X és VX főkomponens-vektora megegyezik. Y viszont nem skalárinvariáns, azaz érzékeny a mértékegység megváltoztatására. Ha rangd = n, akkor az összes főkomponens nullától különböző. Ha rangd = k < n, akkor csak az első k főkomponens nem nulla. Ha D sajátértékei különbözőek, akkor a főkomponensek előjeltől eltekintve egyértelműek. Ha nem, akkor a többszörös sajátértékhez tartozó sajátvektorok tetszőlegesen forgathatók az általuk meghatározott sajátaltérben, azaz nem lesznek egyértelműek.

Szemléletes jelentés Az új koordinátarendszer első, u 1 irányának megfelelő tengelye éppen azt az irányt jelöli ki, melynek irányában X szórása a legnagyobb az összes lehetséges n dimenziós irány közül, és ez a maximum éppen X kanonikus szórása. Ez az első főtengely. A második főtengely az elsőre merőleges irányok közül az, melyre nézve X szórása a legnagyobb. Ez éppen a második kanonikus szórás lesz.

Dimenzió-csökkentés Feladat: egy n dimenziós véletlen vektor közelítése alacsonyabb dimenziós változóval. Megoldás: Keressük azt a Z valószínűségi változót, amely négyzetes hibában a legjobban közelíti X-et, azaz E X Z 2 min! Megmutatható, hogy EZ = EX = 0, és Z éppen X merőleges vetülete lesz az U mátrix oszlopavektorai által generált k dimenziós altérre. Azaz k Z = Y i u i. i=1 Ekkor E X Z 2 = λ k+1 +... + λ n.

k meghatározása X teljes varianciája: E X 2 = λ 1 +... + λ n. Ez megegyezik az Y főkomponens-vektor teljes varianciájával. Z teljes varianciája: E Z 2 = λ 1 +... + λ k, azaz az első k főkomponens ennyit magyaráz meg X teljes varianciájából. k megválasztása: a ψ k = λ 1 +... + λ k λ 1 +... + λ n variancia-hányados sorozat alapján.

Példa - gépkocsi jellemzők vizsgálata Változók: MPG - fogyasztás (mérföld/gallon) ENGINE - motor űrtartalma (inch-köb) HORSE - lóerő WEIGHT - súly (font) ACCEL - gyorsulási idő t szeretnénk végezni ezen 5 folytonos változó segítségével! Eszköz: SPSS - eredmények az output-on.