Linea ris Regresszio. Ma rkus La szlo. Valo szı nu se gelme leti e s Statisztika Tansze k, Eo tvo s Lora nd Tudoma nyegyetem

Hasonló dokumentumok
Linea ris Regresszio. Ma rkus La szlo. Valo szı nu se gelme leti e s Statisztika Tansze k, Eo tvo s Lora nd Tudoma nyegyetem

Analı zis elo ada sok

II. orsza gos magyar matematikaolimpia XXIX. EMMV Szatma rne meti, februa r 28. ma rcius 3. VIII. oszta ly

Programoza s I. 11. elo ada s Oszd meg e s uralkodj! elvu algoritmusok. Sergya n Szabolcs

To bbva ltozo s adatelemze s

Speciális bútorok. Laborbútor. Oktatási bútor. Ipari bútor. Mérlegasztal. Laborszék

PRECÍZ Információs füzetek

Hírlevél február. Fejleszte sek e s va ltoza sok a Precıź Integra lt U gyviteli Informa cio s rendszerben I.

PRCX PRCX. Perdületes mennyezeti befúvóelem

RAP-4 ELEKTROMECHANIKUS SOROMPÓ

33. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, már ci us 27., hétfõ TARTALOMJEGYZÉK. Ára: 3887, Ft

Scherlein Márta Dr. Hajdu Sándor Köves Gabriella Novák Lászlóné MATEMATIKA 2. A FELMÉRŐ FELADATSOROK ÉRTÉKELÉSE

A f ldm vel s gyi s vid kfejleszt si miniszter 81/2009. (VII. 10.) FVM rendelete

Programoza s I. 10. elo ada s Rendezett to mbo k. Sergya n Szabolcs

VII. Az Al kot m ny b r s g el n k nek v g z se

Informa cio k, Mo dszerek, O tletek e s Megolda sok a Precıź Integra lt U gyviteli Informa cio s rendszerhez. T31. Standolás

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, jú ni us 25., szerda. 93. szám. Ára: 2400, Ft

75. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, jú ni us 15., péntek TARTALOMJEGYZÉK. Ára: 2478, Ft. Oldal

Programoza s I. 13. elo ada s Moho algoritmusok. Sergya n Szabolcs

Berente Község Önkormányzat Képviselő-testületének 9/2016.(V.26.) önkormányzati rendelete

LVII. ÉVFOLYAM 2. SZÁM ÁRA: 874 Ft ja nu ár 27.

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, már ci us 17., hétfõ. 44. szám. Ára: 250, Ft

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA

Ajánlat. Gyertyaláng III. Érvényes: január 1-től

38. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, áp ri lis 5., szerda TARTALOMJEGYZÉK. Ára: 1311, Ft. Oldal

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA

79. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, jú ni us 14., kedd TARTALOMJEGYZÉK. Ára: 1472, Ft. Oldal

166. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, de cem ber 22., csütörtök TARTALOMJEGYZÉK. Ára: 2921, Ft. Oldal

NEFAG Zrt. SZARVASGOMBA-VADÁSZAT KARCAG-APAVÁRA ERDŐTERÜLETÉN. PÁRATLAN ÉLMÉNYT NYÚJTÓ KALAND A NEFAG Zrt. VENDÉGEKÉNT

CLEAN-PRECÍZ Integrált ügyviteli rendszer. Őstermelői bevallás készítése

40. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, áp ri lis 7., péntek TARTALOMJEGYZÉK. Ára: 207, Ft. Oldal

Feltétel. Perfekt Vagyonés üzemszünet biztosítás. Érvényes: januártól

72. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, május 31., kedd TARTALOMJEGYZÉK. Ára: 506, Ft. Oldal

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA

172. szám II. kö tet. II. rész JOGSZABÁLYOK. A Kormány tagjainak A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA

A MAGYAR KÖZLÖNY MELLÉKLETE T A R T A L O M

A SZOCIÁLIS ÉS MUNKAÜGYI MINISZTÉRIUM ÉS AZ ORSZÁGOS MUNKAVÉDELMI ÉS MUNKAÜGYI FÕFELÜGYELÕSÉG HIVATALOS LAPJA FELHÍVÁS! Tartalom

148. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, de cem ber 5., kedd TARTALOMJEGYZÉK. Ára: 1701, Ft. Oldal

A földmûvelésügyi és vidékfejlesztési miniszter 18/2009. (III. 6.) FVM rendelete. 2009/27. szám M A G Y A R K Ö Z L Ö N Y 5065

LIX. ÉVFOLYAM ÁRA: 1365 Ft 4. SZÁM TARTALOM MAGYARORSZÁG ALAPTÖRVÉNYE. Ma gyar or szág Alap tör vé nye (2011. áp ri lis 25.)...

A MAGYAR KÖZLÖNY MELLÉKLETE T A R T A L O M

Gyõr Megyei Jogú Város Önkormányzata egyszerû eljárás ajánlattételi felhívása (12070/2004)

A SZOCIÁLIS ÉS MUNKAÜGYI MINISZTÉRIUM ÉS AZ ORSZÁGOS MUNKAVÉDELMI ÉS MUNKAÜGYI FÕFELÜGYELÕSÉG HIVATALOS LAPJA. Tartalom

160. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, no vem ber 23., péntek TARTALOMJEGYZÉK. Ára: 3801, Ft. Oldal

T A R T A L O M A HONVÉDELMI MINISZTÉRIUM HIVATALOS LAPJA. CXXXIII. ÉVFOLYAM 11. SZÁM május Ft. Szám Tárgy Oldal.

A vadon élő állatok természeti környezetükre gyakorolt terhelésének csökkentése az Ipoly Erdő Zrt. Börzsöny vadászterületén

155. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, ok tó ber 31., péntek TARTALOMJEGYZÉK. Ára: 1110, Ft. Oldal

III. ÉVFOLYAM, 7. SZÁM Ára: 2100 Ft MÁRCIUS 31. TARTALOM. oldal oldal. Az ARTISJUS Ma gyar Szer zõi Jog vé dõ Iro da Egye sü let

AZ EGÉSZSÉGÜGYI MINISZTÉRIUM HIVATALOS LAPJA

TARTALOMJEGYZÉK. Bu da pest, feb ru ár 14. Ára: 1518 Ft 3. szám évi CLXIII. tv.

A nonprofit számvitel alapjai

PIAC- ÉS ORSZÁGTANULMÁNY

10288 M A G Y A R K Z L N Y 2004/120. sz $)A (" m II. r $)A (& sz JOGSZABLYOK A Korm $)A (" ny tagjainak rendeletei Az igazs $)A (" g (9 gy-miniszter

2007/9. szám TURISZTIKAI ÉRTESÍTÕ 401 AZ ÖNKORMÁNYZATI ÉS TERÜLETFEJLESZTÉSI MINISZTÉRIUM HIVATALOS ÉRTESÍTÕJE

12. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, február 3., péntek TARTALOMJEGYZÉK. Ára: 1311, Ft. Oldal

A MAGYAR KÖZLÖNY MELLÉKLETE T A R T A L O M

A MAGYAR KÖZLÖNY MELLÉKLETE TARTALOM

BALATON szelet Nyerj vagy Nyerj!

A SZOCIÁLIS ÉS MUNKAÜGYI MINISZTÉRIUM HIVATALOS LAPJA TARTALOM

AZ EGÉSZSÉGÜGYI MINISZTÉRIUM HIVATALOS LAPJA FELHÍVÁS!

123. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, szep tem ber 21., péntek TARTALOMJEGYZÉK. Ára: 1155, Ft

A SZOCIÁLIS ÉS MUNKAÜGYI MINISZTÉRIUM ÉS AZ ORSZÁGOS MUNKAVÉDELMI ÉS MUNKAÜGYI FÕFELÜGYELÕSÉG HIVATALOS LAPJA. Tartalom

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. 2006: CXXVII. tv. A Ma gyar Köz tár sa ság évi költ ség ve té sé rõl

CXIV. ÉVFOLYAM ÁRA: 1357 Ft 2. SZÁM

II. rész JOGSZABÁLYOK. A Kormány rendeletei. A Kormány 219/2004. (VII. 21.) Korm. rendelete M A G Y A R K Ö Z L Ö N Y 2004/102.

A MAGYAR BÁNYÁSZATI ÉS FÖLDTANI HIVATAL HIVATALOS LAPJA

EÖTVÖS LORÁND TUDOMÁNYEGYETEM BÁRCZI GUSZTÁV GYÓGYPEDAGÓGIAI KAR

A MAGYAR TÖRTÉNELMI TÁRSULAT KIADVÁNYAI

Kötelező gépjármű-felelősségbiztosítás Ügyfél-tájékoztató

KÖRNYEZETVÉDELMI ÉS VÍZÜGYI ÉRTESÍTÕ

Hírlevél október. Fejlesztések és változások a. Precíz Integrált Ügyviteli Információs rendszerben IV. negyedév

A SZÓRVÁNNYÁ VÁLÁS FOLYAMATA MINT A NEMZETI KISEBBSÉGI KÖZÖSSÉG LEBOMLÁSÁNAK TERMÉKE

A MAGYAR KÖZLÖNY MELLÉKLETE T A R T A L O M

19. szám. II. rész JOGSZABÁLYOK. A Kormány tagjainak A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. A pénzügyminiszter 12/2005. (II. 16.

AZ EGÉSZSÉGÜGYI MINISZTÉRIUM HIVATALOS LAPJA

115. szám 1. kö tet* A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, au gusz tus 31., péntek TARTALOMJEGYZÉK kö tet ára: 5124, Ft

118. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, szep tem ber 1., csütörtök TARTALOMJEGYZÉK. Ára: 506, Ft. Oldal

Bu da pest, au gusz tus 25. Ára: 1386 Ft 10. szám TARTALOMJEGYZÉK

MESEBÁL 3.A hõs kisegér Huszti Zoltán

Iterativ algoritmusok kezdeti rt k be ll t sa Balogh L szl egyetemi hallgat BME Villamosm rn ki s Informatikai Kar Villamosm rn ki Szak A munka a BME

A MAGYAR KÖZLÖNY MELLÉKLETE T A R T A L O M

A GAZDASÁGI ÉS KÖZLEKEDÉSI MINISZTÉRIUM HIVATALOS LAPJA

147. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, no vem ber 10., csütörtök TARTALOMJEGYZÉK. Ára: 2116, Ft. Oldal

OTKA PD projekt Hidraulikus hajtások dinamikus jelenségeinek vizsgálata Dr. Hős Csaba

F E B R U Á R. egyenlítô L L É K L E T. BÁ RÁN DY GER GELY PhD AZ IGAZ SÁG ÜGYI A CHRONOLOGY OF JUDICIAL CONSTITUTIONALIZATION FROM PAGE 24

A környezetvédelmi és vízügyi miniszter 31/2008. (XII. 31.) KvVM rendelete

TARTALOMJEGYZÉK. Bu da pest, június 23. Ára: 1890 Ft 7. szám december A PÉNZÜGYMINISZTER KÖZLEMÉNYEI

102. sz m A MAGYAR K ZT RSAS G HIVATALOS LAPJA. Budapest, jё li us 23., cs t rt k TARTALOMJEGYZ K. ra: 315 Ft. Oldal

47. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, áp ri lis 14., szombat TARTALOMJEGYZÉK. Ára: 966, Ft. Oldal

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA

III. ÉVFOLYAM, 1. SZÁM Ára: 715 Ft JANUÁR 17.

2008. évi CVIII. tör vény. 2008/187. szám M A G Y A R K Ö Z L Ö N Y 24697

A Kormány rendeletei

Heart ra te correc ti on of t he QT interva l d ur i ng e xercise

Jegyzőkönyv. EHÖK Elnökségi május 21. (17.00) Helyszín: ELTE EHÖK irodai tárgyaló terem (Budapest, Szerb utca )

145. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, ok tó ber 26., péntek TARTALOMJEGYZÉK. Ára: 1344, Ft. Oldal

104. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, jú li us 26., kedd TARTALOMJEGYZÉK. Ára: 1150, Ft. Oldal

121. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, szep tem ber 17., hétfõ TARTALOMJEGYZÉK. Ára: 2100, Ft. Oldal

Átírás:

Ma rkus La szlo Valo szı nu se gelme leti e s Statisztika Tansze k, Eo tvo s Lora nd Tudoma nyegyetem

A feladat Az adatok Me rni vagy megfigyelni tudunk valamilyen X1,..., Xk mennyise geket, (nevu k: fu ggetlen v. magyara zo va ltozo k, input, regresszor) illetve a velu k felte telezheto en o sszefu gge sben a llo Y mennyise get (neve: fu ggo va ltozo, va lasz, output). Ezeket a mennyise geket valva ltozo nak tekintju k. A me rt e rte kek ezek realiza cio i: az xi,j = Xi (ωj ) valo s sza mok. Adataink struktu ra ja a ko vetkezo. magyara zo va ltozo k va lasz va ltozo z} { Y y1 y2... yn z X1, x1,1 = x2,1... xn,1 } { X2,... Xk x1,2... x1,k x2,2... x2,k......... xn,2... xn,k Nem mindig adott vagy nem egye rtelmu melyik va ltozo a va lasz, fel kell me rni van-e o sszefu gge s valamely va ltozo k ko zo tt. Tiszta zni kell, mi fu gg mito l, mi a fu ggo va ltozo, melyek a magyara zo va ltozo k. Nem mindig matematikai feladat, me rheto se g, ko ltse g is befolya solhat. A t kell gondolni a ce lt, ami lehet pl. csak az o sszefu gge s igazola sa, vagy elo rejelze s az X-(ek) alapja n az Y-ra, stb. 2 / 27

A feladat Az adatelemze s kezdeti le pe sei Ezek jelento s re sze nem csupa n a regresszio ra vonatkozik, csak ennek kapcsa n mondjuk el. Az adata tvila gı ta s (screening) minden statisztikai elemze s elso le pe se. Elleno rizzu k, nem ı rta k-e el a tizedesvesszo t, nem ı rta k-e be a da tumot is adatke nt, stb. Megjelenı te s, vizualiza cio. Ez egyfelo l az adata tvila gı ta s re sze, ma sfelo l intuı cio kat szerzu nk a ltala az adatokro l, felme rju k a szo bajo vo modellek ko re t. Adatainkat o nmagukban is plottoljuk ill. egyma s fu ggve nye ben is (scatterplot), esetleg hisztogrammot, ritka bban su ru se gfu ggve ny becsle st, Q-Q plotot ne zu nk. O sszefu gge sek felme re se. Ide tartozik a korrela cio k sza mı ta sa. Ha a va lasz, a magyara zando va ltozo, sok magyara zo va ltozo egyu ttese to l fu gg, akkor nem fogunk ero s korrela cio kat tapasztalni, de aze rt valo s ko ru lme nyek ko zo tt legala bb 0.3, 0.4 nagysa gu korrela cio k le te elva rhato egy te nyleges linea ris modellben. Ha a scatterplotok nemlinea ris o sszefu gge sre utalnak, akkor a va lasz e s az egyes magyara zo va ltozo k kopula inak vizsga lata is hasznos lehet. A kopula ma r transzforma lt va ltozo, teha t a kapcsolat jellege re nem ko zvetlenu l utal! Megjegyze s: Ha pl. y 20 db fu ggetlen standard norma lis va ltozo a tlaga - teha t egy (sze lso se ges) linea ris kapcsolat a ll fenn - az elme leti korrela cio 120 = 0.223 a tapasztalatiak ko zt pedig alig lesz 0.3-na l nagyobb e rte k, legfeljebb 1-2 ado dik. 3 / 27

A feladat A regresszio a ltala nos modellje A regresszio modellje ben a va lasz valamilyen determinisztikus fu ggve nykapcsolatban van az o t magyara zo va ltozo kkal, e s ezt a kapcsolatot egy additı v zajon keresztu l tudjuk megfigyelni. ( Magyara zat -on azt e rtju k, hogy Y ve letlen fluktua cio ja a zajto l eltekintve megismerheto, sza mı thato az X-ek fluktua cio ja bo l.) I gy adataink az Y = f (X1, X2,..., Xk ) + ε egyenlet szerint jo nnek le tre, ahol f egy k-va ltozo s valo s fu ggve ny, az u.n. regresszio s fu ggve ny, ε fu ggetlen e rte ku (gyakran norma lis eloszla su ) zaj, e s D2 ε = σε2 <. Az adatokat le trehozo mechanizmus modellje linea ris regresszio esete n: Y = B0 + B1 X1 + B2 X2 +... + Bk Xk + ε ahol B0 R az u.n. intercept, B1,..., Bk R a regresszio s egyu tthato k. Alapesetben a B0 e s B1,..., Bk ismeretlen valo s sza mokat, valamint esetenke nt σε2 -et szeretne nk becsu lni. 4 / 27

A feladat A vizsga lt kapcsolatok jellege Nem csak linea ris kapcsolatot vizsga lhatunk. Magyara zo va ltozo k fu ggve nyeit is hozza vehetju k tova bbi magyara zo va ltozo ke nt, hiszen ennek e rte kei a megfigyeltek alapja n sza molhato ak. Pl. polinom jellegu kapcsolatot is becsu lhetu nk, vagy exi konstansszorosa is benne lehet a kapcsolatban, de az a le nyeg, hogy az egyu tthato kban linea ris legyen a fu ggve ny. Pe lda ul az Y = B0 + B1 X1 + B2 X12 +... + Bp X1p + + Bp+1 X2 +... + Bk+p 1 Xk + Bk+p exk + ε kapcsolat becsu lheto linea ris regresszio val, de az Y = B0 + eb1 X1 + ε vagy az Y = log (B1 X1 + B2 X2 ) + ε tı pusu kapcsolatok nem. A zaj sem felte tlen struktu ra latlan. Vizsga lhatjuk adott o sszefu gge si struktu ra val rendelkezo zaj (pl. ε egy AR(1) ido sor) esete t is. Ilyenkor a kovariancia ma trixot adottnak/ismertnek vagy legfeljebb ne ha ny becsu lheto parame terto l fu ggo nek fele telezzu k. 5 / 27

A modell ma trixos alakja Az interceptet B0 -t nem akarjuk ku lo n kezelni, eze rt belo le e s a B1,..., Bk egyu tthato kbo l megalkotjuk a B = (B0, B1,..., Bk ) vektort, amelynek dimenzio ja ı gy k + 1. Aze rt, hogy egyenleteinket vektor-ma trix alakban is konzisztensen ı rhassuk fel, a magyara zo va ltozo khoz X0 -ke nt a csupa 1-bo l a llo (oszlop)vektort vesszu k hozza. I gy a magyara zo va ltozo k az n (k + 1) dimenzio s X ma trixot adja k. Ezek uta n vektormu veletekkel is sza molhatunk. A regresszio modellje nek egyenlete ma trix alakban: Y = XB + ε. 6 / 27

Az egyu tthato k OLS becsle se A legegyszeru bb esetben a megfigyele seink (az egyes esetek) fu ggetlenek egyma sto l (ele g, hogy ε fu ggetlen e rte ku zaj). Ilyenkor ko zo nse ges legkisebb ne gyzetes (ordinary least squares, OLS) becsle sro l besze lu nk, amikor is az (Y XB)T (Y XB) = Y XB 2 elte re s ne gyzeto sszeget, az u.n. rezidua lis ne gyzeto sszeget szeretne nk minimaliza lni. Ebben az esetben az egyu tthato k becsle se bols = (X T X) 1 (X T Y) B -ke nt adhato meg. Erro l a deriva ltakra ado do egyenleteket megoldva ko nnyen meggyo zo dhetu nk. Az OLS becsle s torzı tatlan, konzisztens, hata sos e s aszimptotikusan norma lis ha a hiba ε ve ges szo ra su e s korrela latlan a magyara zo va ltozo kkal. Megmutathato, hogy az OLS becsle s felte teles variancia-kovariancia ma trixa adott X mellett ΣB OLS = (X T X) 1 σε2. Ez fontos megbı zhato sa gi (konfidencia) tartoma ny konstrukcio ja hoz, viszont ehhez szu kse ges σε2 becsle se. Ez: σ ε2 = n 1 1 Y X B 2 = ε i2 n k 1 n k 1 i=1 ahol ε i -k a rezidua lisok: ε i = yi B 0 B 1 xi,1... B k xi,k. 7 / 27

Az egyu tthato k GLS becsle se Az a ltala nosı tott legkisebb ne gyzetes mo dszer (generalised least squares, GLS) akkor alkalmazhato, ha a hiba ε egyes e rte kei ko zo tt korrela cio van, azonban ez a korrela cio ismert e s a variancia-kovariancia ma trixa Σε adott. (A gyakorlatban becsu lt ma trixszal is haszna ljuk a mo dszert, terme szetesen ez no veli a bizonytalansa got, ı gy a hiba t is.) Az egyu tthato k GLS becsle se ekkor 1 T 1 b = (X T Σ 1 B ε X) (X Σε Y). A GLS becsle s ismert Σε mellett torzı tatlan, konzisztens, hata sos e s aszimptotikusan norma lis. Becsu lt Σε mellett e tulajdonsa gok aszimptotikusan megmaradnak. Σε -t elso ke nt az OLS becsle s alapja n kapott rezidua lisokbo l becsu lhetju k, majd ezt itera lva, a fenti formula val u jrabecsu lt egyu tthato kkal rezidua lisokat kaphatunk, melyekbo l u jabb Σε -t becsu lu nk e s ı gy tova bb. Ekkor teha t a GLS egy iteratı v elja ra s. Ismert Σε mellett a GLS ekvivalens a ko zo nse ges ne gyzetes becsle s alkalmaza sa val linea risan transzforma lt adatokra. Ehhez Σε ne gyzetgyo ke kell: Σε = AAT ezuta n a regresszio s egyenletet beszorozzuk A 1 -gyel e s az ı gy kapott zaj ma r korrela latlan e rte ku lesz. Ez a ne gyzetgyo k azonban nem egye rtelmu. 8 / 27

A magyara zo va ltozo k kiva laszta sa Ke rde sek: kihagyhato k-e a magyara zo va ltozo k ko zu l egyesek ane lku l, hogy a magyara zo ero jelento sen cso kkenne, e rdemes-e hozza venni tova bbi va ltozo t a magyara zo khoz Akkor jo a va ltozo kiva laszta s, ha a magyara zo va ltozo k ero sen korrela lnak a va lasszal, de egyma s ko zt gyenge n Ko nnyen manipula lhato, jo l me rheto va ltozo k beva laszta sa is lehet szempont Hozza vegyu nk-e nemlinea ris tagokat? Vizsga lhato k magyara zo va ltozo k konkurrens csoportjai Mi a legjobb predikcio, ha a magyara zo kat me rju k, de a va laszt nem? Mennyire jo a regresszio, pl. a regresszio s egyenlet jobb becsle st ad-e mintha csak ve letlenszeru en va lasztana nk becsle st? 9 / 27

A regresszio hata rai Nem oksa gi kapcsolatot mutat ki (Sok a tu zolto nagy a ka r) E rze keny a beva lasztott magyara zo va ltozo kra - me g egy le nyegtelen kidoba sa is va ltoztat Ha ez egyik va ltozo me re si hiba ja korrela l a ma sik magyara zo va ltozo val, akkor ez ero s torzı ta st hozhat le tre Ugyancsak e rze keny az u.n. outlier-ekre, a kiugro vagy sze lso se ges e rte kekre/megfigyele sekre Az outliereket vagy me g az elemze s elo tt to ro lju k, vagy tudatosan bennhagyjuk e s a hata sukat elemezzu k, hogy mennyire te rı thetik el a regresszio t. 10 / 27

Esetsza m e s va ltozo sza m A legegyszeru bb o ko lszaba ly n 50 + 8k ahol k a magyara zo va ltozo k sza ma, n a megfigyele ssza m. Ezt persze kello tolerancia val rugalmassa ggal kell kezelni, sok esetben ke nyszeru lu nk enne l kevesebb adatbo l is regresszio s becsle sre. Fontos azonban ilyenkor a va ltoze konysa g elemze se, pe lda ul u jramintave teleze si (bootstrap) technika val. Ha az o sszefu gge sek ele g ero sek, akkor me g megbı zhato is lehet az eredme ny. A fenti o ko lszaba ly ko zepes fu ggo se gre vonatkozik, azaz ha a B egyu tthato t standardiza lt va ltozo kra (magyara zo e s fu ggo ) ne zzu k, akkor 0.2 ko ru linek kell lennie. 11 / 27

Me ro sza mok a regresszio e rte kele se re Tota lis ne gyzeto sszeg: n SSY = Yi Y 2 i=1 Regresszio s ne gyzeto sszeg: n SSreg = Y i Y 2 i=1 ahol Y i a megfigyele sek predikcio ja a regresszio alapja n a becsu lt egyu tthato k segı tse ge vel: Y i = B 0 + B 1 X1 + B 2 X2 +... + B k Xk Y i e rte kei a regresszio s egyenesen vagy hipersı kon vannak. Rezidua lis ne gyzeto sszeg: n SSres = Yi Y i 2 i=1 12 / 27

A regresszio e rte kele se: Determina cio s egyu tthato Determina cio s egyu tthato avagy R2 (Coefficient of determination or squared multiple correlation): SSreg SSres R2 = = 1 SSY SSY Jelente se: Az Y variancia ja nak ha nyadre sze t magyara zza a regresszio bo l ado do predikcio ja. Ma ske pp: az Y fuktua cio ja nak ha nyadre sze sza rmazik a magyara zo va ltozo kbo l. A regresszio akkor jo, ha a va rhato e rte k vı zszintes egyenese to l (hipersı kja to l, ha to bb magyara zo va ltozo nk van) me rt ne gyzetes elte re s fo ke nt a megfigyelt e rte kek regresszio s egyenes (hipersı k) mente n to rte no (szaba lyos) elhelyezkede se bo l ado dik, e s nem a ve letlen, szaba lytalan fluktua cio bo l. E szerint teha t SSreg nagy, miko zben SSres ehhez ke pest relatı ve kicsi. Ez azt jelenti, hogy R2 e rte ke 1-hez ko zeli. 13 / 27

A determina cio s egyu tthato eloszla sa: egyszeru regresszio A ke rde s az, hogy mikor van ele g ko zel 1-hez a determina cio s egyu tthato? A va lasz nem egyszeru e s nyilva n fu gg a regresszio s egyenletben szereplo zaj eloszla sa to l. Sajnos me g a hata reloszla s sem univerza lis. Eze rt nem is szoktak szignifikancia szintet meghata rozni R2 -re Az egyszeru regresszio (1 magyara zo va ltozo ) e s norma lis eloszla su, fu ggetlen e rte ku zaj esete n Rabbani egy elega ns o tlettel az R2 = cos(θ ) felı ra s alapja n elo szo r θ eloszla sa t hata rozza meg. Az n dimenzio s Gauss eloszla s ko r/go mbszimmetria ja t kihaszna lva, az n-szeres integra lt pola rkoordina ta kban kisza mı tva, kapja elo szo r θ su ru se gfu ggve nye t, majd ebbo l: Γ 2n n 3 (1 r) 2 fr2 (r) = n 1 πr Γ 2 14 / 27

A determina cio s egyu tthato eloszla sa: to bbva ltozo s regresszio To bb magyara zo va ltozo su ru se gfu ggve nyre. esete n ma r nem adhato za rt formula a Fu ggetlen e rte ku, norma lis eloszla su zajt 0 va rhato e rte kkel e s σ szo ra ssal felte telezve a japa n O tani e rt el eredme nyt 1994-ben. Ilyen felte telek mellett legyen y= 1 bt T b 1 bt b B X XB = Y Y 2σ 2 2σ 2 Ezzel a jelo le ssel az R2 statisztika su ru se gfu ggve nye: fr2 (z) = e y (1 z) n k 2 2 yi B i! k+2i 1 n k, 2 2 1 z k+2i 3 2 i=1 ahol B a nem teljes be ta fu ggve ny. 15 / 27

A determina cio s egyu tthato eloszla sa: to bbva ltozo s regresszio t eloszla su zajjal Me g tova bb bonyolo dik a helyzet, ha a genera lo zaj nem norma lis eloszla su, pedig ez sok alkalmaza sban van ı gy. A norma lisna l jo val vastagabb farku eloszla sok t eloszla sokkal gyakran jo l ko zelı theto k. Fu ggetlen e rte ku, szimmetrikus t eloszla su 0 va rhato e rte ku zaj esete n O tani e s Tanizaki 2004-es cikke alapja n lehet tudni a su ru se gfu ggve nyt. A pontos formula megleheto sen bonyolult, a norma lis esetben szereplo su ru se gfu ggve ny szorzo dik egy inverz Gauss eloszla s su ru se gfu ggve nye vel. Fontos ismerni az R2 statisztika korla tait is. Kis elemsza mu minta ra ero sen torzı t, mı g a korriga lt verzio (adjusted R2 ) szo ra sa t tekintve megbı zhatatlanabb az eredetine l. 16 / 27

A regresszio s egyenes, hipersı k ko ru li szo ra s A teljes ne gyzeto sszegbo l SSY -bo l ko nnyen ke szı thetu nk szo ra sne gyzet becsle st. Ezzel az adatoknak a va rhato e rte k szintu vı zszintes egyenes ko ru li szo ra sne gyzete t becsu lju k. A rezidua lis ne gyzeto sszegbo l SSres is elke szı thetu nk egy szo ra sne gyzet becsle st, ez pedig a regresszio s egyenes ko ru li szo ra st me ri, pontosabban becsu li meg. A regresszio s egyenes ko ru li szo ra st u gy e rtju k, hogy adatainkat a va rhato e rte k helyett a regresszio s egyenes megfelelo e rte ke vel, azaz a regresszio s predikcio val centra ljuk. Ha to bb magyara zo va ltozo nk van, az egyenesek szerepe t hipersı kok veszik a t, de egye bke nt minden ugyan ı gy e rve nyes, definia lhato. 17 / 27

A regresszio e rte kele se: F-pro ba A regresszio akkor jo, ha a va rhato e rte k vı zszintes egyenese ko ru li szo ra sne gyzet jo val nagyobb, mint a regresszio s egyenes ko ru li szo ra s, mivel az elo bbi tartalmazza a megfigyelt e rte kek regresszio s egyenes (hipersı k) mente n to rte no (szaba lyos) elhelyezkede se bo l ado do va ltoze konysa got is. Amennyiben teha t a ke t becsu lt szo ra s le nyegesen elte r, akkor az a felte telezett linea ris kapcsolat fenna lla sa ra utal. A szo ra sok elte re se t F-pro ba val elleno rizhetju k. Pro bastatisztika nk SSY n 1 SSres n 1, amely F eloszla su, n 1, n k 1 szabadsa gi fokokkkal. Amennyiben az F-pro ba elutası t, a regresszio jo, a felte telezett linea ris kapcsolat fenna ll. 18 / 27

Magyara zo va ltozo k szelekcio ja: tolerancia Egy magyara zo va ltozo, Xj, felesleges a regresszio ban, ha nem tartalmaz a to bbi magyara zo va ltozo to l elte ro informa cio t (de nem csak ekkor felesleges!). Ezt u gy elleno rizzu k, hogy elve gzu nk egy olyan regresszio t, amelyben az adott magyara zo va ltozo Xj lesz a va lasz, a fu ggo va ltozo, e s a regresszorok, az o t magyara zni kı va no va ltozo k pedig az eredeti regresszio megmarado magyara zo va ltozo i: X1,..., Xj 1, Xj+1,..., Xk. Nyilva n, ha ez a regresszio jo, akkor a va ltozo a to bbiekkel magyara zhato, benne nincs a to bbiekto l ku lo nbo zo le nyeges informa cio, teha t elhagyhato az eredeti regresszio magyara zo va ltozo i ko zu l. E regresszio jo volta t, illeszkede se t az R2 statisztika val elleno rizzu k, e s az 1 R2 e rte ket az adott va ltozo hoz tartozo tolerancia nak hı vjuk. A nagy, 0to l szignifika nsan elte ro tolerancia val rendelkezo va ltozo kat tarthatjuk meg magyara zo va ltozo ke nt. Egy va ltozo kidoba sa uta n az o sszes tolerancia t u jra kell sza molni Azt, hogy a tolerancia ele g nagy -e, szignifika nsan ku lo nbo zik-e 0-to l, az R2 statisztika eloszla sa alapja n mondhatjuk meg. Annak meghata roza sa azonban, hogy mit tekintu nk szignifika ns elte re snek, az adott feladatto l, alkalmaza sto l nagyban fu gghet. 19 / 27

A parcia lis korrela cio Legyen X, Y, Z ha rom ve ges szo ra su valva ltozo. Ekkor X, Y parcia lis kovariancia ja Z ismerete mellett: cov(x, Y Z) = E (X E(X Z)) (Y E(Y Z)). Teha t a kovariancia szoka sos definı cio ja ban a Z szerinti felte teles va rhato e rte kkel centra lunk a ko zo nse ges va rhato e rte k helyett. A parcia lis korrela cio t egyfajta felte teles korrela cio ke nt intrepreta ljuk. Az X felte teles szo ra sne gyzete, adott Z mellett, az o nmaga val vett parcia lis kovariancia ennek ne gyzetgyo ke a felte teles szo ra s: q D2 (X Z) = cov(x, X Z); D(X Z) = D2 (X Z) A parcia lis korrela cio t ezek uta n u gy kapjuk, hogy a parcia lis kovariancia t osztjuk a felte teles szo ra sokkal: cor(x, Y Z) = cov(x, Y Z). D(X Z) D(Y Z) 20 / 27

Magyara zo va ltozo k szelekcio ja parcia lis korrela cio alapja n Atto l, hogy az Xj magyara zo va ltozo tartalmaz a to bbieke to l ku lo nbo zo informa cio t, me g nem biztos, hogy ez a saja t informa cio releva ns az Y va lasz va ltozo va ltoze konysa ga nak magyara zata ban. Magyara n, az egyedi informa cio tartalomto l az Xj va ltozo me g nyugodtan lehet felesleges a regresszio ban, ha ez az egyedi informa cio nem az Y-t magyara zza. Az informa cio relevancia ja t pedig u gy elleno rizzu k, hogy kisza mı tjuk az Y e s az Xj parcia lis korrela cio ja t. Ha az Y e s Xj parcia lis korrela cio ja ele g nagy, legala bb 0.3 ko ru li, akkor az Xj -ben le vo saja t informa cio kapcsolatban van a va lasz va ltozo val, ı gy e rte kesen ja rulhat hozza a va lasz va ltoze konysa ga nak magyara zata hoz. 21 / 27

Magyara zo va ltozo k szelekcio ja t-pro ba alapja n Ha az Xj magyara zo va ltozo tartalmaz is a saja t informa cio t, e s ez az informa cio kapcsolatban is a ll az Y va lasz va ltozo va ltoze konysa ga val, me g mindig elo fordulhat, hogy le nyegtelenu l kicsi a szerepe a va ltoze konysa g leı ra sa ban. Ez a regresszio s egyu tthato le nyegtelenu l kicsi volta ban e rheto tetten. Tesztelnu nk kell teha t azt is, hogy az egyu tthato le nyeges-e, azaz szignifika nsan elte r-e 0-to l. bols = A legkisebb ne nyzetes mo dszerrel becsu lt OLS egyu tthato becsle s B (X T X) 1 (X T Y) torzı tatlan, norma lis eloszla su zaj mellett maga is norma lis eloszla su e s adott X mellett variancia-kovariancia ma trixa ΣB OLS = σε2 (X T X) 1. Az i-ik egyu tthato szo ra sa a ma trix diagona lisa i-ik eleme nek ne gyzetgyo ke, ı gy az egyu tthato k szignifikancia ja t-pro ba val e rte kelheto. Ha a zaj nem norma lis eloszla su, de fu ggetlen e rte ku, akkor az OLS alkalmazhato, aszimptotikus normalita s e rve nyes, e s a t-pro ba jo ko zelı te ssel e rve nyes. Ha a zaj nem is fu ggetlen e rte ku, e s a GLS mo dszert haszna ljuk, akkor a becsu lt variancia-kovariancia ma trix miatt az aszimptotikus normalita s ba r igaz, de sokkal lassabban e rve nyesu l, eze rt csak jelento s mintaelemsza m mellett lehet bı zni a tpro ba ban. 22 / 27

Modellszelekcio goodness-of-fit cross-validation -nal A cross-validation a ltala nos modellmegfelele s e rte kelo elja ra s, nem csupa n a regresszio hoz ko to tt. Kidobjuk, elfelejtju k a megfigyele sek (regresszio ban esetekro l, sorokro l van szo!) egy re sze t, a marade kra illesztju k a modellt e s a kidobottakon predikcio val elleno rizzu k. Ve gezhetju k egyese vel kidoba lva az eseteket, majd az illeszte skor kidobott magyara zo e rte keket felhaszna lva predika ljuk a va laszt a modellbo l. Ez a leave-oneout cross validation. E rte kele se hez sza moljuk a predikcio s hiba t a kidobott eseten. Ezt az ege sz elja ra st (kidoba s-predikcio -hiba) az o sszes eseten egyese vel elve gezve e s o sszeadva a ne gyzetes hiba kat, a modell jo sa ga t jellemzo egyetlen sza mot kapunk, ami modellek o sszevete se re alkalmas. Ha eloszla s jellegu elo zetes ismeretu nk vagy va rakoza sunk van a predikcio s hiba ra (pl. te rke pszerkeszte s esete n az u.n. probability map), Vagy az o sszefu gge si struktu ra ra, akkor nem egyese vel dobjuk ki a megfigyele seket, hanem pl. az adatok 30% -a t kidobjuk, a megmarado 70%ra illesztu nk, predika ljuk kidobott 30% -ot e s a hibaeloszla st vizsga ljuk. O sszefu gge si struktu ra esete n pl ve letlen va laszta ssal to bbszo r elve gezzu k az elja ra st e s a predikcio s hiba eloszla sa nak stabilita sa t elleno rizzu k. 23 / 27

Modellstabilita s, trendszelekcio, tu lilleszte s A cross validation alapveto en modellek ko zo tti va laszta sra, e s modellstabilita s elleno rze sere alkalmas. I gy pl jo lehet magyara zo va ltozo k ku lo nbo zo alternativ csoportjai ko zo tti do nte sre, a nemlinea ris jelleg/trend vizsga lata ra (pl polinomia lis vagy exponencia lis trend jobb-e) stb. A cross validation ugyancsak alkalmas pe lda ul modelltu lilleszte s kiszu re se re. Tu lilleszte s: az adott minta e s mintasza m mellett a modell jo l illeszkedo nek tu nik, azonban ha egy u jabb megfigyele s va lik ele rheto ve, az ma r nem illeszkedik a modellhez ill fordı tva. (Pe lda ul: 5 magyara zo va ltozo 5 megfigyele s = 5 egyenlet 5 ismeretlen, hiba ne lku l megoldhato. Nyilva n nem arro l van szo, hogy nincs zaj a rendszerben, hanem a megfigyele s keve s. Ha egy hatodik megfigyele st is tudunk ve gezni, biztos hogy nem az egyenletekbo l kisza molhato val fog egybeesni.) 24 / 27

Outlierek, Cook ta volsa g A regresszio nagyon e rze keny sze lso se ges, kiugro e rte kekre, ezek nagyon fe lrehu zhatja k a regresszio s egyenest / hipersı kot. Az outlierek esete n vagy a tska la zni vagy transzforma lni kell a va ltozo t (ha egy koordina ta kiugro ), ki kell hagyni az ege sz esetet (sort), vagy csak a megbı zhato sa g e rte kele se t kell nagy gonddal elve gezni e s bemutatni - outlierestu l :). A cross validation segı tse ge vel detekta lhato k az outlierek. Leave-one-out cross bi az i-ik eset validation-t ve gezve az egyu tthato vektort becsu lju k mindig (ez B b b ta volsa ga t kidoba sa esete n) e s ne zzu k Bi e s a teljes regresszio bo l sza rmazo B k R -ban. Ez a Cook ta volsa g. Azt me ri, hogy mennyire mozdı tja el az adott megfigyele s kidoba sa a regresszios egyenest, teha t a megfigyele s befolya sossa ga t me ri, e s ha ez nagy, akkor outlier-nek tekinthetju k. 25 / 27

Rezidua lis elemze s b normalita sra linearita sra e s homoszkedaszticita sra A rezidua lisokat (Y Y) (homo= homoge n + skedastikos = (sze t)szo ro dni ke pes (go ro g)) tesztelju k. Homoszkedaszticita s = homoge n szo ra s. A ltala ban a regresszio az outliereket kive ve robusztus. Le tezik ku lo n robusztus regresszio s elja ra s is. Ha nem norma lisak a rezidua lisok, akkor a tesztek nem pontosak. Legala bb szimmetria legyen az eloszla sban. Nemlinearita s vagy heteroszkedaszticita s nem e rve nytelenı ti csak gyengı ti a regresszio t, a kapcsolat egy re sze t felta rtuk de maradt ismeretlen hata s is. A heteroszkedaszticita s sza rmazhat a magyara zo ko lcso nhata sbo l, egyes va ltozo k ferdese ge bo l. va ltozo k ko zo tti 26 / 27

Scatterplotok Vizua lis elemze s, igen hasznos. Predicted vs. residuals: linearita s tesztele se re. Ha valamilyen minta zat la tszik a ploton, akkor valamilyen nemlinea ris hata s (kvadratikus trend etc.) is jelen van. Observed vs. residuals: pontosı ta shoz: ha van nemlinearita s, honnan sza rmazik. Sok plot is lehet - ko ru lme nyes. ANOVA ta bla ugyanerre Residuals vs deleted residuals instabilak-e a regresszio s egyu tthato k Normal plot of residuals - normalita svizsga lat 27 / 27