2. Lineáris regresszió Út a lineáris regresszióhoz Regresszió kétváltozós esetben Többváltozós lineáris regresszió...

Hasonló dokumentumok
A többváltozós lineáris regresszió 1.

Ökonometriai modellek paraméterei: számítás és értelmezés

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Bevezetés az ökonometriába

Korrelációs kapcsolatok elemzése

Regressziós vizsgálatok

Ökonometria I. Ferenci Tamás április 10.

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Regresszió a mintában: következtetés

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

5. előadás - Regressziószámítás

Bevezetés a Korreláció &

Lineáris regressziószámítás 1. - kétváltozós eset

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

12. előadás. Egyenletrendszerek, mátrixok. Dr. Szörényi Miklós, Dr. Kallós Gábor

Korreláció és lineáris regresszió

Nemlineáris modellek

Regresszió számítás az SPSSben

Többváltozós, valós értékű függvények

Konjugált gradiens módszer

Normák, kondíciószám

II. Két speciális Fibonacci sorozat, szinguláris elemek, természetes indexelés

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Gauss-eliminációval, Cholesky felbontás, QR felbontás

Matematikai geodéziai számítások 5.

A szimplex algoritmus

Vektorterek. =a gyakorlatokon megoldásra ajánlott

Matematikai geodéziai számítások 6.

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Matematika. 4. konzultáció: Kétváltozós függvények szélsőértéke. Parciális függvény, parciális derivált

A leíró statisztikák

Matematikai geodéziai számítások 6.

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Determinánsok. A determináns fogalma olyan algebrai segédeszköz, amellyel. szolgáltat az előbbi kérdésekre, bár ez nem mindig hatékony.

Statisztika elméleti összefoglaló

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

1. Generátorrendszer. Házi feladat (fizikából tudjuk) Ha v és w nem párhuzamos síkvektorok, akkor generátorrendszert alkotnak a sík vektorainak

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

[Biomatematika 2] Orvosi biometria

Norma Determináns, inverz Kondíciószám Direkt és inverz hibák Lin. egyenletrendszerek A Gauss-módszer. Lineáris algebra numerikus módszerei

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Többváltozós, valós értékű függvények

Vektorok, mátrixok, lineáris egyenletrendszerek

Line aris f uggv enyilleszt es m arcius 19.

y ij = µ + α i + e ij

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Bevezetés az ökonometriába

Matematikai statisztikai elemzések 6.

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

Matematikai geodéziai számítások 5.

Többváltozós lineáris regressziós modell feltételeinek

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

GVMST22GNC Statisztika II.

10. Előadás. Megyesi László: Lineáris algebra, oldal. 10. előadás Sajátérték, Kvadaratikus alak

Gépi tanulás a gyakorlatban. Lineáris regresszió

Többváltozós Regresszió-számítás

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

17. előadás: Vektorok a térben

Legkisebb négyzetek módszere, Spline interpoláció

Bevezetés az ökonometriába

Többváltozós lineáris regresszió 3.

Problémás regressziók

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Diagnosztika és előrejelzés

A legjobb közeĺıtés itt most azt jelentette, hogy a lineáris

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Kétváltozós függvények differenciálszámítása

Ökonometria. Dummy változók használata. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Hetedik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

First Prev Next Last Go Back Full Screen Close Quit

Mérési hibák

Vektorterek. Wettl Ferenc február 17. Wettl Ferenc Vektorterek február / 27

Gauss elimináció, LU felbontás

Összeállította: dr. Leitold Adrien egyetemi docens

A maximum likelihood becslésről

6. gyakorlat. Gelle Kitti. Csendes Tibor Somogyi Viktor. London András. jegyzetei alapján

15. LINEÁRIS EGYENLETRENDSZEREK

Mátrixok, mátrixműveletek

Gauss-Seidel iteráció

Numerikus módszerek II. zárthelyi dolgozat, megoldások, 2014/15. I. félév, A. csoport. x 2. c = 3 5, s = 4

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

A mérések általános és alapvető metrológiai fogalmai és definíciói. Mérések, mérési eredmények, mérési bizonytalanság. mérés. mérési elv

Matematika szigorlat június 17. Neptun kód:

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Matematika (mesterképzés)

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

6. Függvények. Legyen függvény és nem üreshalmaz. A függvényt az f K-ra való kiterjesztésének

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

A többváltozós lineáris regresszió III. Főkomponens-analízis

Függvények Megoldások

Első zárthelyi dolgozat megoldásai biomatematikából * A verzió

Adatok statisztikai értékelésének főbb lehetőségei

Matematika elméleti összefoglaló

Matematikai geodéziai számítások 10.

Átírás:

Tartalom Tartalomjegyzék 1. Jelölési konvenciók 1 2. Lineáris regresszió 3 2.1. Út a lineáris regresszióhoz............................... 3 2.2. Regresszió kétváltozós esetben............................. 7 2.3. Többváltozós lineáris regresszió............................ 10 3. Az OLS működése 14 4. A többváltozós lineáris regressziós modell minősítése 17 5. Parciális korreláció és standardizált regresszió 18 5.1. Parciális korreláció................................... 18 5.2. Standardizált regresszió................................ 19 A cím arra utal, hogy egyelőre nem foglalkozunk annak a következményeivel, hogy az adatbázisunk csak egy nagyobb sokaságból vett minta, így a belőle számolt jellemzők nem (csak) a valóságot tükrözik, hanem ki vannak téve annak hatásának is, hogy konkrétan hogyan választottuk ki a mintát a sokaságból. Ehelyett, egyelőre úgy tekintjük, hogy a kezünkben lévő minta tökéletesen írja le a valóságot, a belőle számolt jellemzők a keresett értékek. Ez tehát azt jelenti, hogy egyelőre nem foglalkozunk a modelleink mintavételi vonatkozásaival (illetve általában a valószínűségelméleti megalapozásukkal). 1. Jelölési konvenciók Az lakásár adatbázis madártávlatból gretl-ben Ez az I. esettanulmány adatbázisa gretl-ben megnyitva. 1

Változók körei Az ökonometriában mindig szisztematikusan megkülönböztetjük az eredmény- és a magyarázó jellegű változókat: mi hat mire? Most mindig egy eredményváltozót (endogén vagy függő változót) feltételezünk, jele: y, és több magyarázó változót (exogén vagy független változót), jelük: x i, i = 2, 3,..., k Figyelem: az első magyarázó változó tehát a 2 alsó indexet viseli (ennek okát később látni fogjuk), így a magyarázó változók száma k 1 A valóságban gyakran nem lehet ilyen vegytisztán csoportosítani a változókat (bonyolultabban terjednek a hatások), ez vezet el a többegyenletes ökonometriához Ebben a megkülönböztetésben a kauzalitás hangsúlyos nyomon követése tükröződik, ami az ökonometriai modellek egyik fontos, sajátos jellemzője (azaz más diszciplínákban nem, vagy csak kisebb hangsúlyt kap a regressziószámítás kapcsán). A megkülönböztetés hangsúlyozását elvi szempontok diktálják, statisztikailag sok esetben nincs jelentősége a kérdésnek. Például kétváltozós regresszió esetén tökéletesen ugyanaz marad minden modelljellemző, ha az eredményés a magyarázóváltozót megcseréljük. (A konkrét paraméterek természetesen módosulnak.) Ezt a kérdést fordított regresszió néven tárgyalja az irodalom. Általában is elmondható, hogy regressziószámítás esetén mindig az oksági kapcsolatok (és a feltételezett véletlen hatások) alapján kell az eredményváltozót kijelölni (és nem például a tervezett előrejelzési irány alapján). Egy konkrét regressziós feladat vonatkozásában talán nem tűnik igazi megszorításnak, hogy csak egyetlen eredményváltozót tekintünk. (Mondván, hogy ha több változót is akarunk modellezni, akkor legfeljebb több modellt építünk. Ez azonban figyelmen kívül hagyja az így használt eredményváltozók közti esetleges kapcsolatokat.) Egy komolyabb modellezési feladatban viszont nagyon is elképzelhető, hogy több, egymástól nem függetleníthető változónk van, melyeket szeretnénk, hogy a modellünk határozzon meg. (Erre jó példa az ár és a mennyiség valamely piacon, melyek nyilvánvaló, hogy kölcsönösen hatnak egymásra.) Ennek következtében ezeket egymástól izoláltan becsülni nem lehet, olyan modellt kell építeni, mely több endogén változót tartalmaz. Szokás ezt emiatt többegyenletes modellnek is nevezni; jellemzőik alapján beszélhetünk rekurzív, szimultán, széteső stb. többegyenletes modellekről, ez azonban túlmutat jelen kurzus keretein. Mátrixalgebrai jelölési konvenciók Sok szempontból célszerű ezt az adatbázist egy mátrixként felfogni. Jelölés (Mintanagyság, mintaméret). A minta nagyságát (tehát a megfigyelési egységek számát) általában n-nel jelöljük. Ahogy a gretl-ös output is sugallta, a magyarázó változókat célszerű egy n (k 1) típusú mátrixba, az eredményváltozókat pedig egy n hosszú (oszlop)vektorba összefogni A mintanagyság jele angol szakirodalomban néha inkább T. Követjük azt a konvenciót, hogy ha pusztán vektort mondunk, az alatt mindig oszlopvektort értünk. Ha sorvektorról van szó, akkor explicite jelöljük a transzponálást. Emlékeztetünk rá, hogy vastagon szedett kisbetűvel vektort, nagybetűvel mátrixot jelölünk. Már most megjegyezzük, hogy a mintavételi vonatkozások bevezetésekor a jelölési rendszer tovább 2

fog bonyolódni, így ott majd külön kitérünk erre a kérdésre, és részletesen tárgyaljuk a célszerű jelölési konvenciót. A kurzus egésze során törekszünk arra, hogy következetesen alkalmazott mátrixos (vektoros) jelölésrendszerben prezentáljuk az ökonometriát. Mátrixalgebrai jelölési konvenciók: eredményváltozó Az eredményváltozó (a mi példánkkal együtt): y 1 10,7 y 2 y n 1 = [y i ] =. = 10,0. 32,5 y n Mátrixalgebrai jelölési konvenciók: magyarázó változók A magyarázóváltozók (a mi példánkkal együtt): ] [ X n (k 1) = [x i(k+1) = [x 2, x 3,..., x k ] = x 1, x 2,..., x n] T = x 12 x 13 x 1k 32 0 0 x 22 x 23 x 2k =...... = 32 0 0...... x n2 x n3 x nk 116 8,6 1 Hamarosan világossá fog válni, hogy miért használtunk hullámot a változó elnevezésére. Vegyük észre, hogy a magyarázó változók mátrixának oszlopait (azaz az egyes magyarázó változókat) alsó, a sorait (azaz az egyes megfigyelési egységeket) pedig felső indexszel jelöljük. A vektorok és a mátrixok méreteit a későbbiekben már általában nem fogjuk kiírni explicite; ha így teszünk, akkor úgy értjük a méreteket, hogy a műveletek elvégzéséhez konformak legyenek. 2. Lineáris regresszió 2.1. Út a lineáris regresszióhoz A lineáris regresszió sok módon bevezethető, mi most egy meglehetősen természetes irányból fogunk közeledni: azt mutatjuk meg, hogyan juthat az ember erre a gondolatra akkor, ha adatbázisok strukturálódását igyekszik feltárni. Néhány általános gondolat elöljáróban A lineáris regresszió a legfontosabb módszerek egyike az alkalmazott statisztikában A legtipikusabb eszköze empirikus adatok kvantitatív elemzésének Majdnem minden terület (biostatisztikai, pszichometria, mérnöki tudományok stb.) használja (az ökonometrián túl) Egyelőre deskriptív megközelítés (mintavételi vonatkozások, valószínűségelméleti megalapozás később) 3

Elsőként pár definíciót ismétlünk meg (inkább csak a jelölésrendszer egyértelműsítése érdekében) Alapvető deskriptív mutatók: átlag Jelölés (Összegzővektor). Összegzővektornak nevezzük, és 1-gyel jelöljük azt a vektort, melynek minden eleme 1: 1 = [1, 1,..., 1] T. Definíció (Átlag). Legyen x egy változó, x i (i = 1, 2,..., n) megfigyelésekkel. Ekkor x változó átlagának (jelben: x) a következő értéket nevezzük: n x = x i n = 1 n 1T x. Alapvető deskriptív mutatók: variancia, szórás Definíció (Szórásnégyzet, variancia). Egy x változó szórásnégyzetének, más szóval varianciájának (jelben: var (x)) a következő értéket nevezzük: n var (x) = (x i x) 2. n Definíció (Szórás). Egy x változó szórásának (jelben: sd (x)) a szórásnégyzetéből (varianciájából) vont négyzetgyököt nevezzük: sd (x) = var (x). Ez itt természetesen a szórásnégyzetet sokasági definíciója. Ha mintából kívánunk varianciát becsülni, akkor van rá jobb becslőfüggvény! (Ez ugye torzított.) Néhány megjegyzés a szórásnégyzethez Definíció (Változó centrálása). Egy x változó centráltjának (jelben: x c ) az alábbi változót nevezzük: x c = x x1, azaz [x c ] i = x i x. Ezzel a szórásnégyzet felírása: n var (x) = (x i x) 2 = 1 n n (x x1)t (x x1) = 1 n xt c x c. A Steiner-tétel Állítás (Steiner-tétel). Következmény. 1 n (x i c) 2 = 1 n 1 min c n arg min c (x i x) 2 + (x c) 2 (x i c) 2 = var (x) 1 n (x i c) 2 = x. 4

Többváltozós adatelemzés Lépjünk tovább több dimenzióra: többváltozós adatbázisoknál kulcskérdés az adatok közötti kapcsolatok vizsgálata is Egy igen gyakran használt, praktikus eszköz a szóródási diagram (scattergram vagy scatterplot) 200 180 160 140 KinArMFt 120 100 80 60 40 20 0 100 200 300 400 500 Terulet A szóródási diagram két változó kapcsolatának szemléltetésére alkalmas. A szóródási diagramon minden megfigyelési egységnek egy pontot feleltetünk meg a síkban, úgy, hogy a pont egyik koordinátája az egyik, a másik a másik változó szerinti értéke a megfigyelési egységnek. Változók sztochasztikus kapcsolata I. Az előző ábra már sugallja a változók sztochasztikus kapcsolatának fogalmát Definíció (Sztochasztikus kapcsolat). Két változó sztochasztikus kapcsolatban van egymással, ha az egyik (saját) átlaga feletti értékei tendenciaszerűen a másik (saját) átlaga feletti értékeivel járnak együtt (pozitív kapcsolat) vagy fordítva, átlag feletti értékek átlag alatti értékekkel (negatív kapcsolat). Változók sztochasztikus kapcsolata II. Mit jelent az, hogy tendenciaszerűen? egyelőre fogadjuk el intuitívan, később pontosítjuk 250 200 KinArMFt 150 100 50 0 100 200 300 400 500 Terulet A sztochasztikus kapcsolat erőssége Vessük össze az előző szóródási diagramot ezzel: 5

180 160 140 120 KinArMFt 100 80 60 40 20 0 0 10 20 30 40 50 Terasz Kvalitatíve eljutunk a kapcsolat erősségének fogalmához A kapcsolat erősségének kvantifikálása Most ezt a fogalmat fogjuk matematikai szabatossággal megragadni: Definíció (Kovariancia). Legyen x és y két változónk, a rájuk vonatkozó megfigyeléseket jelölje x i és y i (i = 1, 2,..., n). Ekkor x és y kovarianciájának a következő értéket nevezzük: [ (xi x) (y i y) ] cov (x, y) = n n = 1 n xt c y c. Érdemes az előző ábrára visszatekintve végiggondolni, hogy miért valóban a kapcsolat erősségét fogja meg! Ismét csak: ez a kovariancia sokasági definíciója. Pár hozzáfűznivaló a kovariancia fogalmához Tulajdonság. Az önkovariancia (tehát egy változó önmagával vett kovarianciája) a változó varianciája: cov (x, x) = var (x). Tulajdonság. A kovariancia abszolút nagysága legfeljebb a két változó szórásának szorzata lehet: cov (x, y) sd (x) sd (y). Mi a baj a kovarianciával? Nem tudjuk a kapcsolat szorosságát ebből az egyetlen számból megítélni (csak az irányát) a cov (KinAr, Terulet) = 712,1 most sok vagy kevés...? Ám kihasználva az előző tulajdonságot, bevezethetünk egy új mutatót (viszonyítunk, relatíve a maximális értékhez) Definíció (Lineáris korrelációs együttható). Legyen x és y két változó, ekkor a (lineáris) korrelációs együtthatójuknak a következő értéket nevezzük: corr (x, y) = cov (x, y) sd (x) sd (y) 6

A korreláció értelmezhetősége Tulajdonság. Tetszőleges x és y változókra 1 corr (x, y) 1. A corr (KinAr, Terulet) = 0,86 mindjárt informatívabb! (corr (KinAr, Terasz) = 0,55!) A korreláció abszolút értéke a kapcsolat erősségét jelzi, előjele pedig annak irányát Pár hozzáfűznivaló a korreláció fogalmához Definíció (Változó standardizálása). Legyen x egy változó, x i (i = 1, 2,..., n) megfigyelésekkel. Ekkor a változó standardizáltjának (jelben: x z ) az alábbi változót nevezzük: x z = x x1 sd (x) = x c sd (x), azaz [x z] i = x i x sd (x). azaz Ezzel: corr (x, y) = cov (x z, y z ), corr (x, y) = 1 n xt z y z. 2.2. Regresszió kétváltozós esetben A korreláció mélyebb tartalma Aránylag könnyen észrevehető, hogy a kapcsolatszorosságra ilyen módon definiált korreláció épp azt méri, hogy mennyire egy egyenes körül szóródnak az adatok Megj.: itt természetesen nem nulla meredekségű egyenest értünk Szemléletesen: KinArMFt versus Terulet (with least squares fit) 250 Y = -4,31 + 0,400X 200 KinArMFt 150 100 50 0 100 200 300 400 500 Terulet Regressziós egyenes Az egyenes értelemszerűen a legjobban illeszkedő egyenes Kvantifikáljuk ezt: azon egyenes, amely a legjobban illeszkedik az adatainkhoz, analitikusan meghatározható Ez lesz a regressziós egyenes ez egy ökonometriai modell! (torzított lényegkiemelés!) Mire jó? mint minden ökonometriai modell, két célra alkalmazható: 7

Elemzés ( pl. meredekség) Előrejelzés ( kínálati ár becslése terület alapján) Torzított, hiszen az egyes pontokban általában nem pont ott húzódik az egyenes, ahol a pont van; a lényeget ragadja meg, mert alapjaiban azért visszaadja az eredményváltozó alakulását; és lényeget kiemelő jellegű, hiszen 1406 szám helyett mindössze 2 (!) számmal éri el ezt a meglehetősen jó leírását az eredményváltozó alakulásának. A regressziós egyenes leírása Ha csak két változónk van (egy eredmény és egy magyarázó!), akkor az egyenest két paraméter írja le Egy célszerű formátum (a megfigyelési egységek szintjén): ŷ i = β 1 + β 2 x 2i Jelölés. A kalap (.) becsült értékre utal (akár olyan értelemben, hogy minta alapján becsült, akár olyan értelemben, hogy modell alapján becsült az előző egyenlet mindkettőre mutat példát). Az egész adatbázisra felírva: ŷ = β 1 1 + β 2 x 2 A regressziószámításban (annak ellenére is, hogy a változók szerepe ebben az egyszerű kétváltozós esetben könnyen megcserélhető lenne) sokkal világosabban kifejeződik az oksági hatások feltételezett iránya, mint a teljesen szimmetrikus korrelációszámításban. Lásd még a kauzalitás kapcsán mondottakat! Az illeszkedés jellemzése Alkalmazzuk az egyenest az adatbázisunk megfigyelési egységeinek előrejelzésére Az egyes pontokban hibázhatunk: Definíció (Reziduum). Az egész adatbázisra: Más szóval: û i = y i ŷ i û = y ŷ y = ŷ + û = β 1 1 + β 2 x 2 + û Már itt megjegyezzük, hogy ez a fajta hiba-definíció (lévén, hogy ugyanazokkal az adatokat minősíti a modellt, amit annak becslésére is felhasznált) csak korlátozottan alkalmas a modell általánosítóképességének a jellemzésére. Az általánosítóképesség kérdésével később fogunk foglalkozni. Az a későbbiekben válik nyilvánvalóvá, hogy a reziduumot miért kalapos betűvel jelöltük. 8

Hagyományos legkisebb négyzetek (OLS) módszere Mit értünk legjobban illeszkedő alatt? Most ezt legkisebb négyzetes értelemben tekintjük, azaz azt nevezzük legjobban illeszkedő egyenesnek, melyre az ESS = û 2 i = u T u = ún. eltérés-négyzetösszeg minimális Miért kell a négyzetreemelés? (y i ŷ i ) 2 = (y ŷ) T (y ŷ) A reziduum jellemzi a hibát egy pontban, az ESS az egész adatbázisra vonatkoztatva Azt a becslési eljárást, mely az adatbázis alapján megkeresi az ilyen értelemben legjobban illeszkedő egyenest, hagyományos legkisebb négyzetek (OLS) módszerének nevezzük OLS kétváltozós esetben Az OLS tehát az adatbázis alapján két paramétert kell becsüljön: β 1 -t (neve: tengelymetszet, konstans, intercept) és β 2 -et (meredekség, slope) Ezeket regressziós koefficienseknek nevezzük; a sokasági ( valódi ) értékük (pl. β 1 ) neve elméleti (vagy sokasági) regressziós koefficiens, a mintából becsült értékük (pl. β 1 ) neve becsült regressziós koefficiens Az OLS tehát ezt az optimalizációs problémát oldja meg: ( β1, β ) 2 = arg min ESS = arg min (y ŷ) T (y ŷ) = b 1,b 2 b 1,b 2 = arg min b 1,b 2 [ y (b1 1 + b 2 x) ] T [ y (b1 1 + b 2 x) ] A minimum-képzés változóját (a futóváltozót) azért jelöltük b 1, b 2 -vel, hogy véletlenül se legyen összekeverhető β 1, β 2 -val, ez utóbbi ugyanis már az előbbi optimális értéke. OLS kétváltozós esetben A példánkban (kínálati ár modellezése terület alapján) az OLS a következő koefficienseket szolgáltatja: β 1 = 4,312 β 2 = 0,4002 Az OLS azt garantálja számunkra, hogy ezzel a két együtthatóval a minimális az ESS garantálja, hogy bármilyen más értékpárt választva romlana (de legalábbis nem javulna az ESS)...... hogy ez miért van így (és egyáltalán, hogyan oldja meg az optimalizációt), azzal az általános esetnél foglalkozunk 9

2.3. Többváltozós lineáris regresszió Az előzőek általánosítása Két változó kapcsolatában ez (a regressziós egyenes bevezetése) még nem bír sok gyakorlati jelentőséggel Általánosítsunk több változóra! Ezt abból kiindulva végezzük el, hogy a linearitást meg kívánjuk tartani...... azaz továbbra is a magyarázó változók lineáris kombinációjaként kívánjuk előállítani az eredményváltozót: ŷ = β 1 1 + β 2 x 2 + β 3 x 3 +... + β k x k. Három változó (két magyarázó változó) esetén még megpróbálkozhatunk szemléltetéssel Általában regressziónak azt a feladatot nevezzük, amikor egy { y i, x i} n minta alapján az azt (pontosabban a sokasági megfelelőjét) leíró legjobb y = f ( x i) : R k 1 R függvényt keressük (a jóság valamilyen mértéke szerint). Az itt szereplő kikötés tehát lényegében azt jelenti, hogy ezt a keresést leszűkítjük a lineáris függvények terére. E függvények viszont már egyértelműen felírhatóak egységes algebrai alakban, ahogy fent is szerepel. Háromváltozós regresszió 300 250 200 KinArMFt 150 100 50 0 200 150 Terasz 100 50 0 50 100 150 200 250 300 350 400 450 500 Terulet Háromváltozós regresszió Itt a magyarázó változók egy adott értéke nem egy pont a számegyenesen, hanem egy pont a síkon (az ábrán a vízszintes síkon), az adott ponthoz tartozó eredményváltozót pedig függőlegesen mérjük fel 3 dimenziós pontfelhőt kapunk, ahol a regressziós egyenes helyébe regressziós sík lép Több változó esetén a regressziós sík helyett regressziós hipersíkról beszélhetünk; ez értelemszerűen már semmilyen módon nem vizualizálható. Ilyenkor általában azzal a trükkel élnek, hogy a sokdimenziós pontfelhőt levetítik minden lehetséges koordinátapárra, ilyen módon kétdimenziós 10

szóródási diagramok sokaságát kapják. (Például a hárdomdimenziós esetben az x y, x z és y z síkokra, azaz le-fel, jobbra-balra és szembe-hátra irányokba lehet vetíteni a pontfelhőt, ilyen módon három darab, kétdimenziós szóródási diagramot előállítva.) Ezekből az ábrákból persze még elméletileg sem rekonstruálható az eredeti pontfelhő (ahogy egy szóródási diagram sem állítható vissza két hisztogramból), de szemléltetés céljára ez a leggyakrabban alkalmazott módszer. Megjegyezzük továbbá, hogy akárhány magyarázó változónk is van, létezik egy adatsor ami mindenképp egy dimenziós: a reziduumok sorozata. Éppen ezért ennek vizsgálata (akár önmagában (azaz eloszlására), akár például kiválasztott magyarázóváltozókkal szemben) fontos szerepet játszik sok változó használata esetén. A többváltozós lineáris regresszió 3-nál több változó esetén már végképp nincs szemléletes tartalom analitikus módszer kell Továbbra is az OLS használjuk (csak algebrailag bonyolódik) A megoldást tehát az alábbi alakban keressük: ŷ = β 1 1 + β 2 x 2 + β 3 x 3 +... + β k x k. Megfigyelési egységek szintjén: ŷ i = β 1 + β 2 x i2 + β 3 x i3 +... + β k x ik. Az OLS szolgáltatja tehát a β i becsült regressziós koefficienseket (megbecsli őket a minta alapján) A többváltozós lineáris regresszió A példánkban: β 1 = 7,19 β T erulet = 0,30 β T erasz = 0,35 β Szoba = 1,18. β DeliT aj = 1,40 Ismét csak: az OLS garantálja, hogy ezzel érjük el a legkisebb ESS-t, bármilyen más paraméter-választás mellett nőne (de legalábbis nem csökkenne) az ESS Többváltozós jelölési konvenciók Gondolva a ŷ = β 1 1 + β 2 x 2 + β 3 x 3 +... + β k x k 11

felírásra, logikus, hogy a jövőben az [ ] X n k = 1, X = [1, x 2, x 3,..., x k ] = 1 x 12 x 13 x 1k 1 x 22 x 23 x 2k =....... 1 x n2 x n3 x nk mátrixot vegyük alapul Neve: design mátrix Többváltozós jelölési konvenciók Következő lépésben a regressziós koefficienseket is fogjuk össze egy (oszlop)vektorba: β = [ β1, β 2, β 3,..., β ] T k Ezzel még rövidebben írhatóak az eddigiek: ŷ = X β, és azaz û = y ŷ = y X β y = ŷ + û = X β + û, A modellünk használata: elemzés (meredekség) A paraméterek értelmezésével elemezhetjük a modellünket; kérdéseket válaszolhatunk meg a modellezett jelenségről A meredekségek egyszerű értelmezése: ha a vizsgált magyarázó változó egy egységnyivel nagyobb lenne c. p., akkor modellünk szerint várhatóan hány egységnyit változna az eredményváltozó Hiszen: Figyelem: Ceteris paribus β 1 + β 2 x i2 +... + β l (x il + 1) +... + β k x ik = = β 1 + β 2 x i2 +... + β l x il + β l +... + β k x ik = ŷ i + β l. Mindegyik változót a saját egységében mérve Abszolút változásokat kapcsol össze Később precízebben is értelmezzük a meredekséget 12

A lineáris specifikáció hatása Eddigi definíció a meredekségre: a többi változót rögzítjük, a vizsgált egy egységgel nagyobb... de: milyen szinten rögzítjük a többit? milyen szintről indulva nő egy egységgel a vizsgált? A linearitás fontos következménye, hogy mindkettő mindegy! Mindegy milyen szinten rögzítjük a többi változót... Mindegy milyen szintről indulva növeljük eggyel a vizsgált változót...... mindenképp ugyanannyi lesz a növelés hatása az eredményváltozóra! Szemléletes tartalom: gondoljunk az egyenesre (illetve síkra) Ez a megközelítés két kérdést vet fel: egyrészt, hogy vajon a valóságos jelenségeknek egyáltalán elfogadható modellje-e ez, másrészt, hogy ha valahol nem, akkor hogyan oldható fel ez a megkötés. Később mindkét kérdést részletesen is tárgyaljuk az ún. nemlineáris kiterjesztéseknél. A modellünk használata: elemzés (tengelymetszet) A konstans értelmezése: ha valamennyi magyarázó változó nulla értékű, akkor modellünk szerint várhatóan mekkora az eredményváltozó Ha a minden magyarázó változó nulla kombináció kívül esik az értelmes tartományon, akkor ennek lehet, hogy nincs tárgyi értelme (ilyenkor: egyszerűen az illeszkedést javító paraméter) A nemlineáris kiterjesztéseknél ezt a jelenséget is mélyebben meg fogjuk érteni. A modellünk használata: elemzés (rugalmasság) A meredekséghez hasonló mutatót szeretnénk, de úgy, hogy ne abszolút, hanem relatív változásokat kössön össze Tehát: ha a vizsgált magyarázó változó 1 %-nyival nagyobb lenne c. p., akkor modellünk szerint várhatóan hány %-nyit változna az eredményváltozó Számítás: El (ŷ i, x il ) = β l /ŷ i 1/x il = β l x il β 1 + β 2 x i2 +... + β k x ik Figyelem: Ceteris paribus Minden elmozdulást relatíve (%-osan) mérve Ami új: az érték függ attól, hogy milyen pontban vagyunk (ezt tükrözi a jelölés is); teljesen logikus módon 13

A modellünk használata: előrejelzés A modellel: ŷ = X β A mintánkra: y i ŷ i = û i n ûi 2 = ESS = 110865,7 3. Az OLS működése Az OLS belülről Most megvizsgáljuk, hogy az OLS hogyan állítja elő a becsléseit...... azaz hogyan oldja meg az alábbi optimalizációs feladatot (immár általános esetre felírva): β = arg min b = arg min b = arg min b ESS = arg min b u T u = arg min u 2 = b (y Xb) T (y Xb) = arg min y Xb 2 = [ b ] y T y 2b T X T y + b T X T Xb A minimum-képzés változóját (a futóváltozót) ezúttal is azért jelöltük b-vel, hogy véletlenül se legyen összekeverhető β-val, ez utóbbi ugyanis már az előbbi optimális értéke. Lényegében egyszerű algebrai átalakításokat végzünk (és a definíciókat használjuk), hiszen a zárójeleket felbontani, műveleteket elvégezni, mátrixokkal-vektorokkal is hasonlóan kell mint valós számokkal. (A transzponálás tagonként elvégezhető, azaz (a b) T = a T b T.) Egyedül annyit kell észrevenni, hogy a y T Xb egy egyszerű valós szám, ezért megegyezik a saját transzponáltjával, b T X T y-nal. Ezért írhattunk (Xb) T y y T Xb helyett egyszerűen például 2b T X T y-t. (Itt mindenhol felhasználtuk, hogy a transzponálás megfordítja a szorzás sorrendjét: (AB) T = A T B T.) 14

Az OLS megoldása A szélsőérték-keresést oldjuk meg többváltozós deriválással (kvadratikus felület konvex, a stacionárius pont egyértelmű globális szélsőértékhely): [ ] y T y 2b T X T y + b T X T Xb = b = 2X T y + 2X T Xb = 0 β ( 1 = X X) T X T y, ha X T X nem szinguláris (később visszatérünk rá) Ez nem más, mintha X Moore-Penrose pszeudoinverzével szoroznánk y-t: β = X + y Itt jelentkezik igazán a mátrixos jelölésrendszer előnye. A y T y 2y T Xb+b T X T Xb lényegében egy másodfokú kifejezés többváltozós értelemben (az ax 2 + bx + c többváltozós megfelelője), és ami igazán szép: pont ahogy az ax 2 +bx+c lederiválható a változója (x) szerint (eredmény 2ax+b), ugyanúgy ez is lederiválható a változója (azaz b) szerint... és az eredmény az egyváltozóssal teljesen analóg lesz, ahogy fent is látható! Bár ezzel átléptünk egyváltozóról többváltozóra (sőt, a változók száma itt nem is ismert előre), a többváltozós analízisbeli eredmények biztosítanak róla, hogy formálisan ugyanúgy végezhető el a deriválás. (Ezt írja le röviden a vektor szerinti deriválás jelölése. Egy b vektor szerinti derivált alatt azt a vektort értjük, melyet úgy kapunk, hogy a deriválandó kifejezést lederiváljuk b egyes b i komponensei szerint (ez ugye egyszerű skalár szerinti deriválás, ami már definiált!), majd ez eredményeket összefogjuk egy vektorba. Látható tehát, hogy a vektor szerinti derivált egy ugyanolyan dimenziós vektor, mint ami szerint deriváltunk.) Azt, hogy a megtalált stacionaritási pont tényleg minimumhely, úgy ellenőrizhetjük, hogy megvizsgáljuk a Hesse-mátrixot a pontban. A mátrixos jelölésrendszerben ennek az előállítása is pofonegyszerű, mindössze még egyszer deriválni kell a függvényt a változó(vektora) szerint: ) [ ] H ( β = 2 b 2 y T y 2b T X T y + b T X T Xb = [ ] 2X T y + 2X T Xb = 2X T X. b Az ismert tétel szerint a függvénynek akkor van ) β pontban ténylegesen is (lokális, de a konvexitás miatt egyben globális) minimuma, ha H ( β pozitív definit. Ehhez tudni kell, hogy az minden további nélkül teljesül, hogy X T X pozitív szemidefinit (ez egy skalárszorzat-mátrix, más néven Gram-mátrix, amelyek mindig pozitív szemidefinitek), a kérdés tehát csak a határozott definitség. Belátható, hogy ennek feltétele, hogy X T X ne legyen szinguláris azaz itt is ugyanahhoz a feltételhez értünk! Megjegyezzük, hogy ez pontosan akkor valósul meg, ha az X teljes oszloprangú. (Erre a kérdésre a modellfeltevések tárgyalásakor még visszatérünk.) Végül egy számítástechnikai megjegyzés: az együtthatók számításánál a fenti formula direkt követése általában nem a legjobb út, különösen ha sok megfigyelési egység és/vagy változó van. Ekkor nagyméretű mátrixot kéne invertálni, amit numerikus okokból (kerekítési hibák, numerikus instabilitás stb.) általában nem szeretünk. Ehelyett, a különféle programok igyekeznek a direkt mátrixinverziót elkerülni, tipikusan az X valamilyen célszerű mátrix dekompozíciójával (QR-dekompozíció, Cholesky-dekompozíció). Pár további gondolat 15

Az előrejelzések a mintánkra: ( 1 ŷ = X β = X X X) T X T y Ez alapján vezessük be a mátrixot Ezzel ( ) 1 P = X X T X X T ŷ = Py Emiatt szokták hat mátrixnak is nevezni Az OLS alternatív interpretáció P projektormátrix lesz (P 2 = P, azaz idempotens) út az OLS geometriai interpretációjához Túlhatározott egyenletrendszer megoldása interpretáció Ezen a ponton szánunk pár bekezdést arra, hogy megismerkedjünk az OLS alternatív bevezetési lehetőségeivel. Természetesen végeredményben minden interpretáció ugyanazt a β = ( X T X ) 1 X T y becslést adja, ám filozófiájuk teljesen eltérő. Mi a továbbiakban is maradunk a négyzetes értelemben legjobban illeszkedő hipersík interpretációnál (amivel be is vezettük az OLS-t), így ez a rész kitekintő jellegű de a lentiek végiggondolása segítheti egy jobb, mélyebb kép kialakítását az OLS-ről. Az OLS geometriai interpretációja Mindenekelőtt emlékeztetünk rá, hogy az z 1, z 2,..., z n vektorok által kifeszített alteret azok a pontok alkotják, melyek előállnak e vektorok lineáris kombinációjaként. (E pontok mindig az eredeti vektortér (ami felett a vektorokat értelmeztük) alterét alkotják, ezért jogos az elnevezés.) Ha most vektortérnek az R n -et tekintjük, vektoroknak pedig az 1, x 2,..., x n magyarázóváltozókat (és a konstanst), azaz X oszlopvektorait, akkor az ezek által kifeszített altér ezt szokás egyébként az X mátrix oszlopterének nevezni épp azon pontokból áll, melyek előállhatnak becsült eredményváltozó(vektor)ként valamilyen regressziós koefficiensekkel! (Hiszen a becsült eredményváltozót is e vektorok lineáris kombinációjaként állítjuk elő.) Általánosságban persze nem várható, hogy a tényleges eredményváltozó(vektor) benne legyen ebben az altérben (azaz egzaktan értsd: minden egyes megfigyelési egységre megvalósulóan elő lehessen állítani lineáris kombinációként), ezt fejezi ki a reziduum. Mint a tényleges és a becsült eredményváltozó(vektor) különbségvektora, a reziduum hossza megmutatja, hogy mennyire messze van a becsült és a tényleges eredményváltozó egymástól (az R n -ben). Mi azt szeretnénk, ha ez minimális lenne. Választva a szokásos euklideszi metrikát, visszakapjuk a legkisebb négyzetes értelmezést. A kérdés már csak az, hogy adott ponthoz (tényleges eredményváltozó) hogyan határozható meg az altér (azaz: amit lineáris regresszióval elő tudunk állítani) legközelebbi pontja... de hát ez épp a geometriai vetítés művelete! A megoldás tehát az, hogy a tényleges eredményváltozót merőlegesen rávetítjük (ortogonális projekció) a magyarázóváltozók (és a konstans) által kifeszített altérre! A vetítés eredményeként kapott pont lesz a ténylegeshez legközelebbi előállítható becsült eredményváltozó, az előállításában szereplő együtthatók pedig az optimális becsült regressziós koefficiensek. Így aztán azt is megállapíthatjuk, hogy a fenti P mátrix nem más, mint ami a tényleges eredményváltozót levetíti a magyarázóváltozók (és a konstans) által kifeszített altérre. 16

Túlhatározott egyenletrendszer megoldása interpretáció Az ideális eset az lenne, ha találnánk olyan β vektort, mellyel X β = y előállítható lenne, azaz ha a tényleges eredményváltozókat egzaktan reprodukálni tudnánk. Ez persze általánosságban nem várható, már csak azért sem, mert a fenti lineáris egyenletrendszerben n egyenlet és csak k ismeretlen szerepel (ahol a mi feladatainkban tipikusan n k). Ezt túlhatározott egyenletrendszernek szokás nevezni. Az ilyen egyenletrendszert tehát általánosságban megoldani nem tudjuk, de logikus alternatíva, hogy akkor inkább keressük meg azt a megoldását (azaz ismeretlenek konkrét értékeit), mely mellett a tényleges jobb oldalak a legközelebb vannak a számított jobb oldalakhoz. Ha a közelséget L 2 metrikában értelmezzük, akkor épp az arg min b y Xb 2 feladathoz jutunk! Ez pedig, ahogy láttuk is, épp az OLS által is megoldott feladat. 4. A többváltozós lineáris regressziós modell minősítése Modell jóságának viszonyítási pontjai A modell minősítése az ESS alapján? kézenfekvő, de nem önmagában: viszonyítani kell! Két kézenfekvő alap: Tökéletes (v. szaturált, perfekt modell): minden mintaelemre a pontos értéket becsüli û i = 0 ESS = 0 Nullmodell: semmilyen külső (magyarázó)információt nem használ fel minden mintaelemet az átlaggal becsül Definíció (Teljes négyzetösszeg, T SS). Egy adott regressziós modell teljes négyzetösszegének nevezzük a hozzá tartozó (tehát ugyanazon eredményváltozóra vonatkozó) nullmodell hibanégyzetösszegét: T SS = ESS null = (y i y) 2. Hogyan jellemezzük modellünk jóságát? A minősítést képezzük a hol járunk az úton? elven: a tökéletesen rossz modelltől a tökéletesen jó modellig vezető út mekkora részét tettük meg Az út hossza T SS (= T SS 0), amennyit megtettünk : T SS ESS Definíció (Regressziós négyzetösszeg, RSS). Egy adott regressziós modell négyzetösszegének nevezzük a teljes négyzetösszegének és a hibanégyzetösszegének különbségét: RSS = T SS ESS. Ahogy már említettük is, sajnos néhány könyv az RSS-t más néven, hogy még rosszabb legyen a helyzet, néha ESS-ként, emlegeti. (Az itteni ESS pedig épp RSS az ottani terminológiában... ) Az új mutató bevezetése Ezzel az alkalmas modelljellemző mutató: Definíció (Többszörös determinációs együttható, R 2 ). Egy regressziós modell többszörös determinációs együtthatója (jele: R 2 y x 2,x 3...,x k, vagy ha a változók megadása nem fontos, egyszerűen R 2 ): R 2 = T SS ESS T SS = RSS T SS. 17

Az R 2 -ről bővebben Ha van konstans a modellben, akkor nyilván ESS < T SS, így: Tulajdonság. Minden regressziós modellre, amiben van konstans: 0 R 2 1. Az R 2 egy modell jóságának legszéleskörűbben használt mutatója Értelmezhető %-ként: a magyarázó változók ismerete mennyiben csökkentette az eredményváltozó tippelésekor a bizonytalanságunkat (ahhoz képest, mintha nem ismertünk volna egyetlen magyarázó változót sem) De vigyázat: nagyságának megítélése, változók száma stb. A belőle vont négyzetgyököt többszörös korrelációs együtthatónak szokás nevezni Az R 2 -ről bővebben Ha van konstans a modellben, akkor érvényes a következő felbontás: (y i y) 2 = (y i ŷ i ) 2 + (Négyzetek nélkül nyilvánvaló, de négyzetekkel is!) (ŷ i y) 2 Röviden tehát: T SS = ESS + RSS Összevetve az előző definícióval, kapjuk, hogy Egy megjegyzés a konstans szerepéről RSS = (ŷ i y) 2 Az előzőek is motiválják, hogy megállapítsuk: konstanst mindenképp szerepeltetünk a regresszióban, ha inszignifikáns, ha nem látszik különösebb értelme stb. akkor is! csak és kizárólag akkor hagyhatjuk el, ha az a modell tartalmából adódóan elméleti követelmény (erre látni fogunk nemsokára egy példát is, a standardizált regressziót) Ellenkező esetben (ún. konstans nélküli regresszió), a fenti felbontás nem teljesül, így a hol járunk az úton elven konstruált R 2 akár negatív is lehet! Néhány könyv, az R 2 alternatív definiálása révén, a negatív esetet kizárja. 5. Parciális korreláció és standardizált regresszió 5.1. Parciális korreláció A parciális korreláció tartalma Az eddig látott korrelációt mindig két változó között értelmezzük 18

Megjelennek benne a többi változón keresztül terjedő hatások Látszólagos korreláció jelensége (pl. félszobák száma és terület között) Ennek algebrai szűrésével (konkrét módszer most nem érdekes) nyerjük a parciális korrelációt Jelölése, pl. ha y és x j között számítjuk, minden más magyarázó változó hatását szűrve: corr ( y, x j.x 2, x 3,..., x j 1, x j+1,..., x k ) Olyan kontextusban, ahol ezt használjuk, a hagyományos korrelációt néha megkülönböztetésül totális korrelációnak nevezzük. 5.2. Standardizált regresszió A standardizált regresszió logikája Az eddig látott β i regressziós koefficiensek mértékegység-függőek mi is történik ha m 2 -ről áttérünk a cm 2 -re? Szeretnénk ettől megszabadulni: egy lehetőség, ha standardizáljuk az egész adatbázisunkat (eredményváltozót és magyarázó változókat is!) Ekkor lefuttatva a regressziót, a βi ún. standardizált regressziós koefficienseket nyerjük Érvényes a β i = β i sd (x i) sd (y) összefüggés (azaz a standardizált együtthatók megkapásához nem kell ténylegesen standardizálni az adatbázist) A standardizált regresszió értelme Ezek értelmezése: mint a szokásos regressziós együttható, de szórásnyi változásokat köt össze szórásnyi változóssal A szokásos β i koefficiensek nem alkalmasak a hozzájuk tartozó változó hatásnagyságának jellemzésére (bár intuitíve nagyon is így tűnhet: jó naggyal kell szorozni, akkó biztos nagyon hat az eredményváltozóra ) ld. a mértékegységfüggést A βi standardizált koefficiensek viszont már (persze csak mint heurisztikus mérőszámok) alkalmasak erre! Még egy érdekes összefüggés (R 2 alternatív számítása): R 2 = β i corr (y, x i ). 19