A többváltozós lineáris regresszió III. Főkomponens-analízis

Hasonló dokumentumok
Többváltozós lineáris regresszió 3.

6. előadás - Regressziószámítás II.

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Principal Component Analysis

Regressziós vizsgálatok

Vektorterek. =a gyakorlatokon megoldásra ajánlott

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

LINEÁRIS ALGEBRA. matematika alapszak. Euklideszi terek. SZTE Bolyai Intézet, őszi félév. Euklideszi terek LINEÁRIS ALGEBRA 1 / 40

1. Ismétlés Utóbbi előadások áttekintése IV. esettanulmány Uniós országok munkanélkülisége... 1

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Ökonometria. Dummy változók használata. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Hetedik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

Vektorok, mátrixok, lineáris egyenletrendszerek

A többváltozós lineáris regresszió 1.

Kvadratikus alakok és euklideszi terek (előadásvázlat, október 5.) Maróti Miklós, Kátai-Urbán Kamilla

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Többváltozós lineáris regressziós modell feltételeinek

1. Bázistranszformáció

Szinguláris érték felbontás Singular Value Decomposition

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

5. előadás - Regressziószámítás

Lineáris regressziószámítás 1. - kétváltozós eset

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

(Independence, dependence, random variables)

Adatok statisztikai értékelésének főbb lehetőségei

VIK A2 Matematika - BOSCH, Hatvan, 3. Gyakorlati anyag. Mátrix rangja

Sajátértékek és sajátvektorok. mf1n1a06- mf1n2a06 Csabai István

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

azonosságot minden 1 i, l n, 1 j k, indexre teljesítő együtthatókkal, amelyekre érvényes a = c (j) i,l l,i

17. előadás: Vektorok a térben

Feladatok a Gazdasági matematika II. tárgy gyakorlataihoz

Bevezetés az ökonometriába

Saj at ert ek-probl em ak febru ar 26.

6. Előadás. Megyesi László: Lineáris algebra, oldal. 6. előadás Bázis, dimenzió

Valószínűségi változók. Várható érték és szórás

Diagnosztika és előrejelzés

Összeállította: dr. Leitold Adrien egyetemi docens

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

LINEÁRIS MODELLBEN május. 1. Lineáris modell, legkisebb négyzetek elve

Diszkriminancia-analízis

Lineáris regressziós modellek 1

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Least Squares becslés

11. Előadás. 11. előadás Bevezetés a lineáris programozásba

Összeállította: dr. Leitold Adrien egyetemi docens

Logisztikus regresszió

Több valószínűségi változó együttes eloszlása, korreláció

10. Előadás. Megyesi László: Lineáris algebra, oldal. 10. előadás Sajátérték, Kvadaratikus alak

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

1. Generátorrendszer. Házi feladat (fizikából tudjuk) Ha v és w nem párhuzamos síkvektorok, akkor generátorrendszert alkotnak a sík vektorainak

Likelihood, deviancia, Akaike-féle információs kritérium

1. feladatsor Komplex számok

Matematika (mesterképzés)

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Mat. A2 3. gyakorlat 2016/17, második félév

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Faktoranalízis az SPSS-ben

Faktoranalízis az SPSS-ben

1. zárthelyi,

A maximum likelihood becslésről

Lin.Alg.Zh.1 feladatok

9. Előadás. (9. előadás) Lineáris egyr.(3.), Sajátérték április / 35

Vektorterek. Több esetben találkozhattunk olyan struktúrával, ahol az. szabadvektorok esetében, vagy a függvények körében, vagy a. vektortér fogalma.

Nemlineáris modellek

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Diszkrét matematika II., 8. előadás. Vektorterek

Irányításelmélet és technika II.

Nagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

1.1. Vektorok és operátorok mátrix formában

Segítség az outputok értelmezéséhez

Korreláció és lineáris regresszió

Lineáris algebra zárthelyi dolgozat javítókulcs, Informatika I márc.11. A csoport

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

Logisztikus regresszió október 27.

A szimplex algoritmus

Keresztmetszet másodrendű nyomatékainak meghatározása

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Lineáris leképezések. Wettl Ferenc március 9. Wettl Ferenc Lineáris leképezések március 9. 1 / 31

y ij = µ + α i + e ij

Felügyelt önálló tanulás - Analízis III.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Logisztikus regresszió

Matematikai geodéziai számítások 6.

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Lineáris algebra. =0 iє{1,,n}

Irányításelmélet és technika II.

Lineáris leképezések (előadásvázlat, szeptember 28.) Maróti Miklós, Kátai-Urbán Kamilla

Gyakorló feladatok I.

Alkalmazott algebra - SVD

Kvadratikus alakok gyakorlás.

Átírás:

A többváltozós lineáris regresszió III. 6-7. előadás Nominális változók a lineáris modellben 2017. október 10-17. 6-7. előadás A többváltozós lineáris regresszió III.,

Alapok Többváltozós lineáris regresszió Kérdés: hogyan szerepeltethetünk egy minőségi (nominális) tulajdonságot (pl. férfi/nő, egészséges/beteg, szezonális hatások, korcsoportok, tapasztalat) egy lineáris regressziós modellben? Megoldás: kódolni kell, hiszen csak számszerű értékekkel tudunk dolgozni, ezért a lehetséges (véges sok!) kimenetelt fogjuk kódolni valamilyen egészértékű változóval. Legegyszerűbb eset: bináris kódolás, azaz csak 0 1 értékű változókkal kódolunk. Ezek az ún. Dummy-változók. 6-7. előadás A többváltozós lineáris regresszió III.,

Kódolás Többváltozós lineáris regresszió 2 kimenetel: 1 dummy változónk van 0 és 1 értékkel k kimenetel: kell-e mindegyikre külön k darab dummy? Nem, ez ugyanis nem lenne jó megoldás minden esetben! Ugyanis k kimenetelre elég (k 1) darab dummy változó az ún. referencia-kódolás logikája alapján. Itt egy kimenetel kap (k 1) darab 0 értéket, ez lesz az ún. kontroll-csoport, a többi (k 1) kimenetelen pedig mindig pontosan egy darab dummy lesz 1 értékű. Példa 3 kimenetel esetén: A, B, C a lehetséges kimenetelek, R A, R B a két dummy változó R A R B A 1 0 B 0 1 C 0 0 6-7. előadás A többváltozós lineáris regresszió III.,

Dummy-változó csapda Miért célszerű ezt használni a kézenfekvő "k változó - k dummy" kódolás helyett? Ha a modell nem tartalmaz konstans tagot, akkor használható mindkét kódolás, nem lesz belőle probléma. Viszont, ha a modellben van konstans tag, akkor TILOS k csoporthoz k darab dummyt használni, különben egzakt multikollenaritás lép fel! Ez az ún. dummy-változó csapda. Az ok egyszerű: ekkor ugyanis a konstans és a k darab dummy miatt X oszlopai lineárisan összefüggők lennének, ami ellentmond a modell alapfeltételeinek. 6-7. előadás A többváltozós lineáris regresszió III.,

Dummy a modellben Dummy-változó magyarázó változóként minden gond nélkül bevehető a lineáris regressziós modellbe a folytonos változók mellé. Ez nem fogja bántani a regressziót, és az OLS is gond nélkül működik. A lehetséges eseteket az alábbi három modell írja le: Y = β 1 + β D D + β X X + u : csak a tengelymetszetet téríti el, azaz pl. +1 egység GDP hatása ugyanaz minden csoportban, de nem ugyanannyi a 0 GDP-hez tartozó munkanélküliség Y = β 1 + (β D D + β X )X + u : a meredekséget téríti el, azaz pl. ugyanannyi a 0 GDP-hez tartozó munkanélküliség minden csoportban, de nem egyfoma a +1 egység GDP hatása a csoportokban. (Interakció!) Y = β 1 + β D1 D1 + (β D2 D2 + β X )X + u : az előző kettő keverékét kapjuk. (Interakció!) 6-7. előadás A többváltozós lineáris regresszió III.,

Kérdés Többváltozós lineáris regresszió Mi történik akkor, ha most a 0-1 értékű változónkat nem magyarázóként, hanem magyarázott változóként kívánjuk a modellben szerepeltetni? 6-7. előadás A többváltozós lineáris regresszió III.,

Példa Többváltozós lineáris regresszió Minta: mérlegadataikkal adott cégek. Feladat: csőd-előrejelzés, azaz azt kell megmondanunk, hogy az adatok alapján várhatóan melyik cég fog csődbe menni és melyik nem, a vizsgált időhorizonton belül. magyarázó változók: mérlegadatok - folytonos (esetleg dummy) változók eredményváltozó: csőd vagy sem - bináris, azaz dummy-változó 6-7. előadás A többváltozós lineáris regresszió III.,

Bináris változó az eredményváltozó szerepében Alapfeladat: osztályozást, avagy csoportba-sorolást akarunk végezni valamilyen adott szempontok szerint. Ezt nevezik klasszifikációs feladatnak. Gyakorlati jelentősége órási: halálozási adatok, demográfiai adatok, felvételi adatok, stb. elemzése során. A probléma legelemibb megoldási módszere: logisztikus regresszió. Más megoldás is létezik az ilyen feladatok megoldására: gépi tanulás, klaszterezés, diszkriminancia analízis, stb., de ezekkel most nem foglalkozunk. 6-7. előadás A többváltozós lineáris regresszió III.,

Módszer Többváltozós lineáris regresszió Az elméleti modell: Y t = β 1 + β 2 X 2t +... + β k X kt + u, t = 1,..., T ahol az Y eredményváltozó bináris (dummy) változó. Kérdés: működik-e most is az OLS becslés? Nem valószínű, hiszen az OLS eredménye skálás (± közti érték), ebből nyilván nehéz lesz bináris változót becsülni. Trükk: a lineáris struktúrát megőrizve a célváltozónk "ügyes" transzformáltjára alkalmazzuk a lineáris regressziós modellt. 6-7. előadás A többváltozós lineáris regresszió III.,

Módszer - 1. trükk Többváltozós lineáris regresszió A célváltozó tehát bináris (dummy) változó, azaz Y = { 1 "siker" esetén 0 "kudarc" esetén 1. trükk: nem a siker tényét, hanem annak P X = P(Y = 1 X) (a mintára vonatkozó) feltételes valószínűségét modellezzük. Ezzel {0, 1} helyett már [0, 1]-beli változót kell modelleznünk. Ez persze még mindig kevés a lineáris regresszióhoz! 6-7. előadás A többváltozós lineáris regresszió III.,

Módszer - 2. és 3. trükk 2.trükk: újabb transzformáció - az esélyhányados bevezetése, amely a siker és a kudarc valószínűségének aránya, azaz odds X = Visszafejtve a transzformációt P X = P X P X + 1 P X = P X 1 P X [0, ) P X 1 P X P X 1 P X + 1 = odds X 1 + odds X Ez már majdnem jó lesz, csak a negatív értékek maradnak ki! 3. trükk: logaritmálás, azaz a logit bevezetése logit X = log(odds X ) (, ). Ezzel a siker és kudarc eloszlását is szimmetrizáltuk! 6-7. előadás A többváltozós lineáris regresszió III.,

Modell Többváltozós lineáris regresszió Erre illesztünk tehát lineáris modellt logit X = α + βx + u alakban. Ezt nevezik logit avagy logisztikus regressziónak. Innen, a becslések elvégzése után, ˆα+ ˆβX odds X = e és P X = e ˆα+ ˆβX 1 + e ˆα+ ˆβX 6-7. előadás A többváltozós lineáris regresszió III.,

Becslés és az eredmények értelmezése A paraméterek becslése a ML-módszerrel történik, mert ekkor elegendő a feltételes valószínűségek előállítása. A likelihood függvény: L(α, β) = (1 P x,i ) Átlagos növekedési ráta: P X,i Y i =1 Y i =0 odds X+1 odds X = eα+β(x+1) e α+βx = e β Marginális hatás: P X X i = βp X (1 P X ) 6-7. előadás A többváltozós lineáris regresszió III.,

Eredmények értelmezése Kérdés: a kapott becslések valószínűségek. Hogyan kell ezek alapján elvégezni a klasszifikációt? Cut-off point definiálása: Ŷ = 1, ha P X > C, ahol C értéke előre adott, de változtatható. Különböző C értékekhez különböző klasszifikáció tartozik. Jóság mérése: klasszifikációs mátrix, ami a megfigyelt és a becsült értékek kontingencia táblája. Ŷ = 1 Ŷ = 0 Y = 1 A B Y = 0 C D A, D: a helyes osztályozások száma B, C: elsőfajú hibák száma Helyes osztályozási ráta: A+D A+B+C+D 6-7. előadás A többváltozós lineáris regresszió III.,

6-7. előadás A többváltozós lineáris regresszió III.,

Célok Többváltozós lineáris regresszió Az adatok dimenziójának (azaz a változók számának) csökkentése úgy, hogy lényeges információt ne veszítsünk. Lényegkiemelés, avagy nehezen megfogható fogalmak (pl. gazdasági fejlettség) definiálása összetett mutatórendszerrel való jellemzés útján - Látens változók előállítása Osztályozási feladatok adott közös faktorok alapján. Független komponensek előállítása Az ok az esetek legnagyobb részében a változók függetlenségi és közel azonos szórású tulajdonságainak hiányában rejlik. Eszköz: k < n darab új változó bevezetése úgy, hogy ezek már korrelálatlanok legyenek, és a minta teljes varianciáját (azaz a változók összes szórását) a lehető legjobban adják vissza. 6-7. előadás A többváltozós lineáris regresszió III.,

Matematikai háttér Többváltozós lineáris regresszió Legyen X egy olyan n dimenziós valószínűségi vektorváltozó, melyre EX = 0 és VarX = D. Cél: az n dimenziós térben olyan új koordináta-rendszer bevezetése, melyben véletlen vektorunk koordinátái már korrelálatlanok Megoldás: ha u 1,..., u n ortonormált bázis R n -ben, akkor X i-dik koordinátája ebben a bázisban Y i = u T i X lesz, azaz Y = U T X, ahol U = [u 1,..., u n ] ortonormált mátrix. Azaz X = UY, vagyis X-et egy korrelálatlan komponensű véletlen vektor elforgatottjaként kívánjuk előállítani. Ha tehát VarY = Λ diagonális mátrix, akkor ami éppen D spektrálelőállítása. D = VarX = Var(UY ) = UΛU T, 6-7. előadás A többváltozós lineáris regresszió III.,

Néhány fontos megjegyzés Y = U T X az X ún. főkomponens-vektora, ennek i-dik koordinátája X i-dik főkomponense. Ők már páronként korrelálatlanok, 0 várható értékűek és szórásaik éppen D sajátértékeinek négyzetgyökei, azaz DY i = λ i. Ezek X ún. kanonikus szórásai. Y forgatásinvariáns, azaz ha V ortonormált mátrix, akkor X és VX főkomponens-vektora megegyezik. Y viszont nem skalárinvariáns, azaz érzékeny a mértékegység megváltoztatására. Ha rangd = n, akkor az összes főkomponens nullától különböző. 6-7. előadás A többváltozós lineáris regresszió III.,

Néhány fontos megjegyzés Ha rangd = k < n, akkor csak az első k főkomponens nem nulla. Ekkor valamint jelöléssel v i = λ i u i, i = 1,..., k, V = [v 1,..., v k ] R n k Z = [ ] Yi λi i=1,...,k X = VZ, R k ahol VarZ = I, V oszlopai ortogonálisak és v i = λ i. Ez X ún. kanonikus előállítása. Ha D sajátértékei különbözőek, akkor a főkomponensek előjeltől eltekintve egyértelműek. Ha nem, akkor a többszörös sajátértékhez tartozó sajátvektorok tetszőlegesen forgathatók az általuk meghatározott sajátaltérben, azaz nem lesznek egyértelműek. 6-7. előadás A többváltozós lineáris regresszió III.,

Szemléletes jelentés Többváltozós lineáris regresszió Tétel 1. Az új koordinátarendszer első, u 1 irányának megfelelő tengelye éppen azt az irányt jelöli ki, melynek irányában X szórása a legnagyobb az összes lehetséges n dimenziós irány közül, és ez a maximum éppen X kanonikus szórása. Ez az első főtengely. A második főtengely az elsőre merőleges irányok közül az, melyre nézve X szórása a legnagyobb. Ez éppen a második kanonikus szórás lesz. Ezt tovább folytatva az alábbi eredmény fogalmazható meg: max{e T De : e = 1} = u T 1 Du 1 = λ 1 max{e T De : e = 1, e T u j = 0, 1 j < i} = u T i Du i = λ i 6-7. előadás A többváltozós lineáris regresszió III.,

Dimenzió-csökkentés Feladat: egy n dimenziós véletlen vektor közelítése alacsonyabb dimenziós változóval. Megoldás: legyen L k azon n dimenziós Z valószínűségi változók tere, melyek egy valószínűséggel egy (legfeljebb) k dimenziós hipersíkban veszik fel értékeiket (azaz rang VarZ k). Keressük azt a Z L k valószínűségi változót, amely négyzetes hibában a legjobban közelíti X-et, azaz E X Z 2 min! Megmutatható, hogy EZ = EX = 0, és Z éppen X merőleges vetülete lesz az u 1,..., u k vektorok által generált k dimenziós altérre. Azaz k Z = Y i u i. i=1 Ekkor E X Z 2 = λ k+1 +... + λ n. 6-7. előadás A többváltozós lineáris regresszió III.,

k meghatározása Többváltozós lineáris regresszió X teljes varianciája: E X 2 = λ 1 +... + λ n. Ez megegyezik az Y főkomponens-vektor teljes varainciájával, hiszen a forgatás normatartó, azaz E Y 2 = λ 1 +... + λ n. Z teljes varianciája: E Z 2 = λ 1 +... + λ k, azaz az első k főkomponens ennyit magyaráz meg X teljes varianciájából. k megválasztása: a ψ k = λ 1 +... + λ k λ 1 +... + λ n variancia-hányados sorozat alapján. 6-7. előadás A többváltozós lineáris regresszió III.,

Példa - gépkocsi jellemzők vizsgálata Változók: MPG - fogyasztás (mérföld/gallon) ENGINE - motor űrtartalma (inch-köb) HORSE - lóerő WEIGHT - súly (font) ACCEL - gyorsulási idő t szeretnénk végezni ezen 5 folytonos változó segítségével! Eszköz: SPSS - eredmények az output-on. 6-7. előadás A többváltozós lineáris regresszió III.,