Linea ris Regresszio. Ma rkus La szlo. Valo szı nu se gelme leti e s Statisztika Tansze k, Eo tvo s Lora nd Tudoma nyegyetem

Hasonló dokumentumok
Linea ris Regresszio. Ma rkus La szlo. Valo szı nu se gelme leti e s Statisztika Tansze k, Eo tvo s Lora nd Tudoma nyegyetem

Analı zis elo ada sok

Programoza s I. 11. elo ada s Oszd meg e s uralkodj! elvu algoritmusok. Sergya n Szabolcs

II. orsza gos magyar matematikaolimpia XXIX. EMMV Szatma rne meti, februa r 28. ma rcius 3. VIII. oszta ly

PRECÍZ Információs füzetek

Speciális bútorok. Laborbútor. Oktatási bútor. Ipari bútor. Mérlegasztal. Laborszék

RAP-4 ELEKTROMECHANIKUS SOROMPÓ

Hírlevél február. Fejleszte sek e s va ltoza sok a Precıź Integra lt U gyviteli Informa cio s rendszerben I.

To bbva ltozo s adatelemze s

PRCX PRCX. Perdületes mennyezeti befúvóelem

Scherlein Márta Dr. Hajdu Sándor Köves Gabriella Novák Lászlóné MATEMATIKA 2. A FELMÉRŐ FELADATSOROK ÉRTÉKELÉSE

VII. Az Al kot m ny b r s g el n k nek v g z se

A f ldm vel s gyi s vid kfejleszt si miniszter 81/2009. (VII. 10.) FVM rendelete

33. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, már ci us 27., hétfõ TARTALOMJEGYZÉK. Ára: 3887, Ft

Informa cio k, Mo dszerek, O tletek e s Megolda sok a Precıź Integra lt U gyviteli Informa cio s rendszerhez. T31. Standolás

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, jú ni us 25., szerda. 93. szám. Ára: 2400, Ft

Programoza s I. 10. elo ada s Rendezett to mbo k. Sergya n Szabolcs

Programoza s I. 13. elo ada s Moho algoritmusok. Sergya n Szabolcs

A vadon élő állatok természeti környezetükre gyakorolt terhelésének csökkentése az Ipoly Erdő Zrt. Börzsöny vadászterületén

Berente Község Önkormányzat Képviselő-testületének 9/2016.(V.26.) önkormányzati rendelete

75. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, jú ni us 15., péntek TARTALOMJEGYZÉK. Ára: 2478, Ft. Oldal

LVII. ÉVFOLYAM 2. SZÁM ÁRA: 874 Ft ja nu ár 27.

38. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, áp ri lis 5., szerda TARTALOMJEGYZÉK. Ára: 1311, Ft. Oldal

Ajánlat. Gyertyaláng III. Érvényes: január 1-től

Feltétel. Perfekt Vagyonés üzemszünet biztosítás. Érvényes: januártól

172. szám II. kö tet. II. rész JOGSZABÁLYOK. A Kormány tagjainak A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA

79. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, jú ni us 14., kedd TARTALOMJEGYZÉK. Ára: 1472, Ft. Oldal

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, már ci us 17., hétfõ. 44. szám. Ára: 250, Ft

166. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, de cem ber 22., csütörtök TARTALOMJEGYZÉK. Ára: 2921, Ft. Oldal

40. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, áp ri lis 7., péntek TARTALOMJEGYZÉK. Ára: 207, Ft. Oldal

BALATON szelet Nyerj vagy Nyerj!

NEFAG Zrt. SZARVASGOMBA-VADÁSZAT KARCAG-APAVÁRA ERDŐTERÜLETÉN. PÁRATLAN ÉLMÉNYT NYÚJTÓ KALAND A NEFAG Zrt. VENDÉGEKÉNT

A földmûvelésügyi és vidékfejlesztési miniszter 18/2009. (III. 6.) FVM rendelete. 2009/27. szám M A G Y A R K Ö Z L Ö N Y 5065

CLEAN-PRECÍZ Integrált ügyviteli rendszer. Őstermelői bevallás készítése

72. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, május 31., kedd TARTALOMJEGYZÉK. Ára: 506, Ft. Oldal

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA

A MAGYAR KÖZLÖNY MELLÉKLETE T A R T A L O M

123. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, szep tem ber 21., péntek TARTALOMJEGYZÉK. Ára: 1155, Ft

2007/9. szám TURISZTIKAI ÉRTESÍTÕ 401 AZ ÖNKORMÁNYZATI ÉS TERÜLETFEJLESZTÉSI MINISZTÉRIUM HIVATALOS ÉRTESÍTÕJE

148. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, de cem ber 5., kedd TARTALOMJEGYZÉK. Ára: 1701, Ft. Oldal

TARTALOMJEGYZÉK. Bu da pest, feb ru ár 14. Ára: 1518 Ft 3. szám évi CLXIII. tv.

160. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, no vem ber 23., péntek TARTALOMJEGYZÉK. Ára: 3801, Ft. Oldal

T A R T A L O M A HONVÉDELMI MINISZTÉRIUM HIVATALOS LAPJA. CXXXIII. ÉVFOLYAM 11. SZÁM május Ft. Szám Tárgy Oldal.

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA

A SZOCIÁLIS ÉS MUNKAÜGYI MINISZTÉRIUM ÉS AZ ORSZÁGOS MUNKAVÉDELMI ÉS MUNKAÜGYI FÕFELÜGYELÕSÉG HIVATALOS LAPJA FELHÍVÁS! Tartalom

A MAGYAR TÖRTÉNELMI TÁRSULAT KIADVÁNYAI

II. rész JOGSZABÁLYOK. A Kormány rendeletei. A Kormány 219/2004. (VII. 21.) Korm. rendelete M A G Y A R K Ö Z L Ö N Y 2004/102.

A nonprofit számvitel alapjai

LIX. ÉVFOLYAM ÁRA: 1365 Ft 4. SZÁM TARTALOM MAGYARORSZÁG ALAPTÖRVÉNYE. Ma gyar or szág Alap tör vé nye (2011. áp ri lis 25.)...

PIAC- ÉS ORSZÁGTANULMÁNY

A MAGYAR KÖZLÖNY MELLÉKLETE T A R T A L O M

155. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, ok tó ber 31., péntek TARTALOMJEGYZÉK. Ára: 1110, Ft. Oldal

Gyõr Megyei Jogú Város Önkormányzata egyszerû eljárás ajánlattételi felhívása (12070/2004)

CXIV. ÉVFOLYAM ÁRA: 1357 Ft 2. SZÁM

AZ EGÉSZSÉGÜGYI MINISZTÉRIUM HIVATALOS LAPJA

A környezetvédelmi és vízügyi miniszter 31/2008. (XII. 31.) KvVM rendelete

KÖRNYEZETVÉDELMI ÉS VÍZÜGYI ÉRTESÍTÕ

12. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, február 3., péntek TARTALOMJEGYZÉK. Ára: 1311, Ft. Oldal

A MAGYAR KÖZLÖNY MELLÉKLETE TARTALOM

A SZOCIÁLIS ÉS MUNKAÜGYI MINISZTÉRIUM HIVATALOS LAPJA TARTALOM

Iterativ algoritmusok kezdeti rt k be ll t sa Balogh L szl egyetemi hallgat BME Villamosm rn ki s Informatikai Kar Villamosm rn ki Szak A munka a BME

AZ EGÉSZSÉGÜGYI MINISZTÉRIUM HIVATALOS LAPJA FELHÍVÁS!

EÖTVÖS LORÁND TUDOMÁNYEGYETEM BÁRCZI GUSZTÁV GYÓGYPEDAGÓGIAI KAR

10288 M A G Y A R K Z L N Y 2004/120. sz $)A (" m II. r $)A (& sz JOGSZABLYOK A Korm $)A (" ny tagjainak rendeletei Az igazs $)A (" g (9 gy-miniszter

118. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, szep tem ber 1., csütörtök TARTALOMJEGYZÉK. Ára: 506, Ft. Oldal

A SZOCIÁLIS ÉS MUNKAÜGYI MINISZTÉRIUM ÉS AZ ORSZÁGOS MUNKAVÉDELMI ÉS MUNKAÜGYI FÕFELÜGYELÕSÉG HIVATALOS LAPJA. Tartalom

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. 2006: CXXVII. tv. A Ma gyar Köz tár sa ság évi költ ség ve té sé rõl

19. szám. II. rész JOGSZABÁLYOK. A Kormány tagjainak A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. A pénzügyminiszter 12/2005. (II. 16.

A SZOCIÁLIS ÉS MUNKAÜGYI MINISZTÉRIUM ÉS AZ ORSZÁGOS MUNKAVÉDELMI ÉS MUNKAÜGYI FÕFELÜGYELÕSÉG HIVATALOS LAPJA. Tartalom

III. ÉVFOLYAM, 7. SZÁM Ára: 2100 Ft MÁRCIUS 31. TARTALOM. oldal oldal. Az ARTISJUS Ma gyar Szer zõi Jog vé dõ Iro da Egye sü let

AZ EGÉSZSÉGÜGYI MINISZTÉRIUM HIVATALOS LAPJA

147. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, no vem ber 10., csütörtök TARTALOMJEGYZÉK. Ára: 2116, Ft. Oldal

Bástya lakossági és kisvállalkozói biztosítások feltételek

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA

A MAGYAR KÖZLÖNY MELLÉKLETE T A R T A L O M

A MAGYAR BÁNYÁSZATI ÉS FÖLDTANI HIVATAL HIVATALOS LAPJA

P ÁRAD IFFÚ ZIÓ ÉP Ü LETFIZIKA

115. szám 1. kö tet* A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, au gusz tus 31., péntek TARTALOMJEGYZÉK kö tet ára: 5124, Ft

A MAGYAR KÖZLÖNY MELLÉKLETE T A R T A L O M

Általános Szerződési Feltételek a végső kedvezményezettekkel kötendő támogatási szerződések megvalósításához és kifizetéséhez

Hírlevél október. Fejlesztések és változások a. Precíz Integrált Ügyviteli Információs rendszerben IV. negyedév

Bu da pest, au gusz tus 25. Ára: 1386 Ft 10. szám TARTALOMJEGYZÉK

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, má jus 29., csütörtök. 80. szám. Ára: 1755, Ft

A SZÓRVÁNNYÁ VÁLÁS FOLYAMATA MINT A NEMZETI KISEBBSÉGI KÖZÖSSÉG LEBOMLÁSÁNAK TERMÉKE

F E B R U Á R. egyenlítô L L É K L E T. BÁ RÁN DY GER GELY PhD AZ IGAZ SÁG ÜGYI A CHRONOLOGY OF JUDICIAL CONSTITUTIONALIZATION FROM PAGE 24

Kötelező gépjármű-felelősségbiztosítás Ügyfél-tájékoztató

Scherlein Márta Dr. Hajdu Sándor Köves Gabriella Novák Lászlóné MATEMATIKA 3. A FELMÉRŐ FELADATSOROK ÉRTÉKELÉSE

121. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, szep tem ber 17., hétfõ TARTALOMJEGYZÉK. Ára: 2100, Ft. Oldal

Hírlevél július. Fejlesztések és változások a Precíz Integrált Ügyviteli Információs rendszerben III. negyedév

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA

2008. évi CVIII. tör vény. 2008/187. szám M A G Y A R K Ö Z L Ö N Y 24697

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, szep tem ber 12., péntek szám. Ára: 465, Ft

ARCULATI KÉZIKÖNYV TESTNEVELÉSI EGYETEM HELVETICA NEUE EXTENDED ABCDEFGHIJKLMNOPQRSTUVWXYZABCDEFGHIJKLM

79. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, jú ni us 12., péntek TARTALOMJEGYZÉK. Ára: 1125, Ft. Oldal

A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA

104. szám A MAGYAR KÖZTÁRSASÁG HIVATALOS LAPJA. Budapest, jú li us 26., kedd TARTALOMJEGYZÉK. Ára: 1150, Ft. Oldal

MESEBÁL 3.A hõs kisegér Huszti Zoltán

III. ÉVFOLYAM, 1. SZÁM Ára: 715 Ft JANUÁR 17.

Kosztolányi Ádám jegyzetfüzetéből

Átírás:

Ma rkus La szlo Valo szı nu se gelme leti e s Statisztika Tansze k, Eo tvo s Lora nd Tudoma nyegyetem

A feladat Az adatok Me rni vagy megfigyelni tudunk valamilyen X1,..., Xk mennyise geket, (nevu k: fu ggetlen v. magyara zo va ltozo k, input, regresszor) illetve a velu k felte telezheto en o sszefu gge sben a llo Y mennyise get (neve: fu ggo va ltozo, va lasz, output). Ezeket a mennyise geket valva ltozo nak tekintju k. A me rt e rte kek ezek realiza cio i: az xi,j = Xi (ωj ) valo s sza mok. Adataink struktu ra ja a ko vetkezo. magyara zo va ltozo k va lasz va ltozo z} { Y y1 y2... yn z X1, x1,1 = x2,1... xn,1 } { X2,... Xk x1,2... x1,k x2,2... x2,k......... xn,2... xn,k Nem mindig adott vagy nem egye rtelmu melyik va ltozo a va lasz, fel kell me rni van-e o sszefu gge s valamely va ltozo k ko zo tt. Tiszta zni kell, mi fu gg mito l, mi a fu ggo va ltozo, melyek a magyara zo va ltozo k. Nem mindig matematikai feladat, me rheto se g, ko ltse g is befolya solhat. A t kell gondolni a ce lt, ami lehet pl. csak az o sszefu gge s igazola sa, vagy elo rejelze s az X-(ek) alapja n az Y-ra, stb. 2 / 43

A feladat Az adatelemze s kezdeti le pe sei Ezek jelento s re sze nem csupa n a regresszio ra vonatkozik, csak ennek kapcsa n mondjuk el. Az adata tvila gı ta s (screening) minden statisztikai elemze s elso le pe se. Elleno rizzu k, nem ı rta k-e el a tizedesvesszo t, nem ı rta k-e be a da tumot is adatke nt, stb. Megjelenı te s, vizualiza cio. Ez egyfelo l az adata tvila gı ta s re sze, ma sfelo l intuı cio kat szerzu nk a ltala az adatokro l, felme rju k a szo bajo vo modellek ko re t. Adatainkat o nmagukban is plottoljuk ill. egyma s fu ggve nye ben is (scatterplot), esetleg hisztogrammot, ritka bban su ru se gfu ggve ny becsle st, Q-Q plotot ne zu nk. O sszefu gge sek felme re se. Ide tartozik a korrela cio k sza mı ta sa. Ha a va lasz, a magyara zando va ltozo, sok magyara zo va ltozo egyu ttese to l fu gg, akkor nem fogunk ero s korrela cio kat tapasztalni, de aze rt valo s ko ru lme nyek ko zo tt legala bb 0.3, 0.4 nagysa gu korrela cio k le te elva rhato egy te nyleges linea ris modellben. Ha a scatterplotok nemlinea ris o sszefu gge sre utalnak, akkor a va lasz e s az egyes magyara zo va ltozo k kopula inak vizsga lata is hasznos lehet. A kopula ma r transzforma lt va ltozo, teha t a kapcsolat jellege re nem ko zvetlenu l utal! Megjegyze s: Ha pl. y 20 db fu ggetlen standard norma lis va ltozo a tlaga - teha t egy (sze lso se ges) linea ris kapcsolat a ll fenn - az elme leti korrela cio 120 = 0.223 a tapasztalatiak ko zt pedig alig lesz 0.3-na l nagyobb e rte k, legfeljebb 1-2 ado dik. 3 / 43

A feladat A regresszio a ltala nos modellje A regresszio modellje ben a va lasz valamilyen determinisztikus fu ggve nykapcsolatban van az o t magyara zo va ltozo kkal, e s ezt a kapcsolatot egy additı v zajon keresztu l tudjuk megfigyelni. ( Magyara zat -on azt e rtju k, hogy Y ve letlen fluktua cio ja a zajto l eltekintve megismerheto, sza mı thato az X-ek fluktua cio ja bo l.) I gy adataink az Y = f (X1, X2,..., Xk ) + ε egyenlet szerint jo nnek le tre, ahol f egy k-va ltozo s valo s fu ggve ny, az u.n. regresszio s fu ggve ny, ε fu ggetlen e rte ku (gyakran norma lis eloszla su ) zaj, e s D2 ε = σε2 <. Az adatokat le trehozo mechanizmus modellje linea ris regresszio esete n: Y = B0 + B1 X1 + B2 X2 +... + Bk Xk + ε ahol B0 R az u.n. intercept, B1,..., Bk R a regresszio s egyu tthato k. Alapesetben a B0 e s B1,..., Bk ismeretlen valo s sza mokat, valamint esetenke nt σε2 -et szeretne nk becsu lni. 4 / 43

A feladat A vizsga lt kapcsolatok jellege Nem csak linea ris kapcsolatot vizsga lhatunk. Magyara zo va ltozo k fu ggve nyeit is hozza vehetju k tova bbi magyara zo va ltozo ke nt, hiszen ennek e rte kei a megfigyeltek alapja n sza molhato ak. Pl. polinom jellegu kapcsolatot is becsu lhetu nk, vagy exi konstansszorosa is benne lehet a kapcsolatban, de az a le nyeg, hogy az egyu tthato kban linea ris legyen a fu ggve ny. Pe lda ul az Y = B0 + B1 X1 + B2 X12 +... + Bp X1p + + Bp+1 X2 +... + Bk+p 1 Xk + Bk+p exk + ε kapcsolat becsu lheto linea ris regresszio val, de az Y = B0 + eb1 X1 + ε vagy az Y = log (B1 X1 + B2 X2 ) + ε tı pusu kapcsolatok nem. A zaj sem felte tlen struktu ra latlan. Vizsga lhatjuk adott o sszefu gge si struktu ra val rendelkezo zaj (pl. ε egy AR(1) ido sor) esete t is. Ilyenkor a kovariancia ma trixot adottnak/ismertnek vagy legfeljebb ne ha ny becsu lheto parame terto l fu ggo nek fele telezzu k. 5 / 43

A modell ma trixos alakja Az interceptet B0 -t nem akarjuk ku lo n kezelni, eze rt belo le e s a B1,..., Bk egyu tthato kbo l megalkotjuk a B = (B0, B1,..., Bk ) vektort, amelynek dimenzio ja ı gy k + 1. Aze rt, hogy egyenleteinket vektor-ma trix alakban is konzisztensen ı rhassuk fel, a magyara zo va ltozo khoz X0 -ke nt a csupa 1-bo l a llo (oszlop)vektort vesszu k hozza. I gy a magyara zo va ltozo k az n (k + 1) dimenzio s X ma trixot adja k. Ezek uta n vektormu veletekkel is sza molhatunk. A regresszio modellje nek egyenlete ma trix alakban: Y = XB + ε. 6 / 43

Az egyu tthato k OLS becsle se A legegyszeru bb esetben a megfigyele seink (az egyes esetek) fu ggetlenek egyma sto l (ele g, hogy ε fu ggetlen e rte ku zaj). Ilyenkor ko zo nse ges legkisebb ne gyzetes (ordinary least squares, OLS) becsle sro l besze lu nk, amikor is az (Y XB)T (Y XB) = Y XB 2 elte re s ne gyzeto sszeget, az u.n. rezidua lis ne gyzeto sszeget szeretne nk minimaliza lni. Ebben az esetben az egyu tthato k becsle se bols = (X T X) 1 (X T Y) B -ke nt adhato meg. Erro l a deriva ltakra ado do egyenleteket megoldva ko nnyen meggyo zo dhetu nk. Az OLS becsle s torzı tatlan, konzisztens, hata sos e s aszimptotikusan norma lis ha a hiba ε ve ges szo ra su e s korrela latlan a magyara zo va ltozo kkal. Megmutathato, hogy az OLS becsle s felte teles variancia-kovariancia ma trixa adott X mellett ΣB OLS = (X T X) 1 σε2. Ez fontos megbı zhato sa gi (konfidencia) tartoma ny konstrukcio ja hoz, viszont ehhez szu kse ges σε2 becsle se. Ez: σ ε2 = n 1 1 Y X B 2 = ε i2 n k 1 n k 1 i=1 ahol ε i -k a rezidua lisok: ε i = yi B 0 B 1 xi,1... B k xi,k. 7 / 43

Az egyu tthato k GLS becsle se Az a ltala nosı tott legkisebb ne gyzetes mo dszer (generalised least squares, GLS) akkor alkalmazhato, ha a hiba ε egyes e rte kei ko zo tt korrela cio van, azonban ez a korrela cio ismert e s a variancia-kovariancia ma trixa Σε adott. (A gyakorlatban becsu lt ma trixszal is haszna ljuk a mo dszert, terme szetesen ez no veli a bizonytalansa got, ı gy a hiba t is.) Az egyu tthato k GLS becsle se ekkor 1 T 1 b = (X T Σ 1 B ε X) (X Σε Y). A GLS becsle s ismert Σε mellett torzı tatlan, konzisztens, hata sos e s aszimptotikusan norma lis. Becsu lt Σε mellett e tulajdonsa gok aszimptotikusan megmaradnak. Σε -t elso ke nt az OLS becsle s alapja n kapott rezidua lisokbo l becsu lhetju k, majd ezt itera lva, a fenti formula val u jrabecsu lt egyu tthato kkal rezidua lisokat kaphatunk, melyekbo l u jabb Σε -t becsu lu nk e s ı gy tova bb. Ekkor teha t a GLS egy iteratı v elja ra s. Ismert Σε mellett a GLS ekvivalens a ko zo nse ges ne gyzetes becsle s alkalmaza sa val linea risan transzforma lt adatokra. Ehhez Σε ne gyzetgyo ke kell: Σε = AAT ezuta n a regresszio s egyenletet beszorozzuk A 1 -gyel e s az ı gy kapott zaj ma r korrela latlan e rte ku lesz. Ez a ne gyzetgyo k azonban nem egye rtelmu. 8 / 43

A magyara zo va ltozo k kiva laszta sa Ke rde sek: kihagyhato k-e a magyara zo va ltozo k ko zu l egyesek ane lku l, hogy a magyara zo ero jelento sen cso kkenne, e rdemes-e hozza venni tova bbi va ltozo t a magyara zo khoz Akkor jo a va ltozo kiva laszta s, ha a magyara zo va ltozo k ero sen korrela lnak a va lasszal, de egyma s ko zt gyenge n Ko nnyen manipula lhato, jo l me rheto va ltozo k beva laszta sa is lehet szempont Hozza vegyu nk-e nemlinea ris tagokat? Vizsga lhato k magyara zo va ltozo k konkurrens csoportjai Mi a legjobb predikcio, ha a magyara zo kat me rju k, de a va laszt nem? Mennyire jo a regresszio, pl. a regresszio s egyenlet jobb becsle st ad-e mintha csak ve letlenszeru en va lasztana nk becsle st? 9 / 43

A regresszio hata rai Nem oksa gi kapcsolatot mutat ki (Sok a tu zolto nagy a ka r) E rze keny a beva lasztott magyara zo va ltozo kra - me g egy le nyegtelen kidoba sa is va ltoztat Ha ez egyik va ltozo me re si hiba ja korrela l a ma sik magyara zo va ltozo val, akkor ez ero s torzı ta st hozhat le tre Ugyancsak e rze keny az u.n. outlier-ekre, a kiugro vagy sze lso se ges e rte kekre/megfigyele sekre Az outliereket vagy me g az elemze s elo tt to ro lju k, vagy tudatosan bennhagyjuk e s a hata sukat elemezzu k, hogy mennyire te rı thetik el a regresszio t. 10 / 43

Esetsza m e s va ltozo sza m A legegyszeru bb o ko lszaba ly n 50 + 8k ahol k a magyara zo va ltozo k sza ma, n a megfigyele ssza m. Ezt persze kello tolerancia val rugalmassa ggal kell kezelni, sok esetben ke nyszeru lu nk enne l kevesebb adatbo l is regresszio s becsle sre. Fontos azonban ilyenkor a va ltoze konysa g elemze se, pe lda ul u jramintave teleze si (bootstrap) technika val. Ha az o sszefu gge sek ele g ero sek, akkor me g megbı zhato is lehet az eredme ny. A fenti o ko lszaba ly ko zepes fu ggo se gre vonatkozik, azaz ha a B egyu tthato t standardiza lt va ltozo kra (magyara zo e s fu ggo ) ne zzu k, akkor 0.2 ko ru linek kell lennie. 11 / 43

Me ro sza mok a regresszio e rte kele se re Tota lis ne gyzeto sszeg: n SSY = Yi Y 2 i=1 Regresszio s ne gyzeto sszeg: n SSreg = Y i Y 2 i=1 ahol Y i a megfigyele sek predikcio ja a regresszio alapja n a becsu lt egyu tthato k segı tse ge vel: Y i = B 0 + B 1 X1 + B 2 X2 +... + B k Xk Y i e rte kei a regresszio s egyenesen vagy hipersı kon vannak. Rezidua lis ne gyzeto sszeg: n SSres = Yi Y i 2 i=1 12 / 43

A regresszio e rte kele se: Determina cio s egyu tthato Determina cio s egyu tthato avagy R2 (Coefficient of determination or squared multiple correlation): SSreg SSres R2 = = 1 SSY SSY Jelente se: Az Y variancia ja nak ha nyadre sze t magyara zza a regresszio bo l ado do predikcio ja. Ma ske pp: az Y fuktua cio ja nak ha nyadre sze sza rmazik a magyara zo va ltozo kbo l. A regresszio akkor jo, ha a va rhato e rte k vı zszintes egyenese to l (hipersı kja to l, ha to bb magyara zo va ltozo nk van) me rt ne gyzetes elte re s fo ke nt a megfigyelt e rte kek regresszio s egyenes (hipersı k) mente n to rte no (szaba lyos) elhelyezkede se bo l ado dik, e s nem a ve letlen, szaba lytalan fluktua cio bo l. E szerint teha t SSreg nagy, miko zben SSres ehhez ke pest relatı ve kicsi. Ez azt jelenti, hogy R2 e rte ke 1-hez ko zeli. 13 / 43

A determina cio s egyu tthato eloszla sa: egyszeru regresszio A ke rde s az, hogy mikor van ele g ko zel 1-hez a determina cio s egyu tthato? A va lasz nem egyszeru e s nyilva n fu gg a regresszio s egyenletben szereplo zaj eloszla sa to l. Sajnos me g a hata reloszla s sem univerza lis. Eze rt nem is szoktak szignifikancia szintet meghata rozni R2 -re Az egyszeru regresszio (1 magyara zo va ltozo ) e s norma lis eloszla su, fu ggetlen e rte ku zaj esete n Rabbani egy elega ns o tlettel az R2 = cos(θ ) felı ra s alapja n elo szo r θ eloszla sa t hata rozza meg. Az n dimenzio s Gauss eloszla s ko r/go mbszimmetria ja t kihaszna lva, az n-szeres integra lt pola rkoordina ta kban kisza mı tva, kapja elo szo r θ su ru se gfu ggve nye t, majd ebbo l: Γ 2n n 3 (1 r) 2 fr2 (r) = n 1 πr Γ 2 14 / 43

A determina cio s egyu tthato eloszla sa: to bbva ltozo s regresszio To bb magyara zo va ltozo su ru se gfu ggve nyre. esete n ma r nem adhato za rt formula a Fu ggetlen e rte ku, norma lis eloszla su zajt 0 va rhato e rte kkel e s σ szo ra ssal felte telezve a japa n O tani e rt el eredme nyt 1994-ben. Ilyen felte telek mellett legyen y= 1 bt T b 1 bt b B X XB = Y Y 2σ 2 2σ 2 Ezzel a jelo le ssel az R2 statisztika su ru se gfu ggve nye: fr2 (z) = e y (1 z) n k 2 2 yi B i! k+2i 1 n k, 2 2 1 z k+2i 3 2 i=1 ahol B a nem teljes be ta fu ggve ny. 15 / 43

A determina cio s egyu tthato eloszla sa: to bbva ltozo s regresszio t eloszla su zajjal Me g tova bb bonyolo dik a helyzet, ha a genera lo zaj nem norma lis eloszla su, pedig ez sok alkalmaza sban van ı gy. A norma lisna l jo val vastagabb farku eloszla sok t eloszla sokkal gyakran jo l ko zelı theto k. Fu ggetlen e rte ku, szimmetrikus t eloszla su 0 va rhato e rte ku zaj esete n O tani e s Tanizaki 2004-es cikke alapja n lehet tudni a su ru se gfu ggve nyt. A pontos formula megleheto sen bonyolult, a norma lis esetben szereplo su ru se gfu ggve ny szorzo dik egy inverz Gauss eloszla s su ru se gfu ggve nye vel. Fontos ismerni az R2 statisztika korla tait is. Kis elemsza mu minta ra ero sen torzı t, mı g a korriga lt verzio (adjusted R2 ) szo ra sa t tekintve megbı zhatatlanabb az eredetine l. 16 / 43

A regresszio s egyenes, hipersı k ko ru li szo ra s A teljes ne gyzeto sszegbo l SSY -bo l ko nnyen ke szı thetu nk szo ra sne gyzet becsle st. Ezzel az adatoknak a va rhato e rte k szintu vı zszintes egyenes ko ru li szo ra sne gyzete t becsu lju k. A rezidua lis ne gyzeto sszegbo l SSres is elke szı thetu nk egy szo ra sne gyzet becsle st, ez pedig a regresszio s egyenes ko ru li szo ra st me ri, pontosabban becsu li meg. A regresszio s egyenes ko ru li szo ra st u gy e rtju k, hogy adatainkat a va rhato e rte k helyett a regresszio s egyenes megfelelo e rte ke vel, azaz a regresszio s predikcio val centra ljuk. Ha to bb magyara zo va ltozo nk van, az egyenesek szerepe t hipersı kok veszik a t, de egye bke nt minden ugyan ı gy e rve nyes, definia lhato. 17 / 43

A regresszio e rte kele se: F-pro ba A regresszio akkor jo, ha a va rhato e rte k vı zszintes egyenese ko ru li szo ra sne gyzet jo val nagyobb, mint a regresszio s egyenes ko ru li szo ra s, mivel az elo bbi tartalmazza a megfigyelt e rte kek regresszio s egyenes (hipersı k) mente n to rte no (szaba lyos) elhelyezkede se bo l ado do va ltoze konysa got is. Amennyiben teha t a ke t becsu lt szo ra s le nyegesen elte r, akkor az a felte telezett linea ris kapcsolat fenna lla sa ra utal. A szo ra sok elte re se t F-pro ba val elleno rizhetju k. Pro bastatisztika nk SSY n 1 SSres n 1, amely F eloszla su, n 1, n k 1 szabadsa gi fokokkkal. Amennyiben az F-pro ba elutası t, a regresszio jo, a felte telezett linea ris kapcsolat fenna ll. 18 / 43

Magyara zo va ltozo k szelekcio ja: tolerancia Egy magyara zo va ltozo, Xj, felesleges a regresszio ban, ha nem tartalmaz a to bbi magyara zo va ltozo to l elte ro informa cio t (de nem csak ekkor felesleges!). Ezt u gy elleno rizzu k, hogy elve gzu nk egy olyan regresszio t, amelyben az adott magyara zo va ltozo Xj lesz a va lasz, a fu ggo va ltozo, e s a regresszorok, az o t magyara zni kı va no va ltozo k pedig az eredeti regresszio megmarado magyara zo va ltozo i: X1,..., Xj 1, Xj+1,..., Xk. Nyilva n, ha ez a regresszio jo, akkor a va ltozo a to bbiekkel magyara zhato, benne nincs a to bbiekto l ku lo nbo zo le nyeges informa cio, teha t elhagyhato az eredeti regresszio magyara zo va ltozo i ko zu l. E regresszio jo volta t, illeszkede se t az R2 statisztika val elleno rizzu k, e s az 1 R2 e rte ket az adott va ltozo hoz tartozo tolerancia nak hı vjuk. A nagy, 0to l szignifika nsan elte ro tolerancia val rendelkezo va ltozo kat tarthatjuk meg magyara zo va ltozo ke nt. Egy va ltozo kidoba sa uta n az o sszes tolerancia t u jra kell sza molni Azt, hogy a tolerancia ele g nagy -e, szignifika nsan ku lo nbo zik-e 0-to l, az R2 statisztika eloszla sa alapja n mondhatjuk meg. Annak meghata roza sa azonban, hogy mit tekintu nk szignifika ns elte re snek, az adott feladatto l, alkalmaza sto l nagyban fu gghet. 19 / 43

A parcia lis korrela cio Legyen X, Y, Z ha rom ve ges szo ra su valva ltozo. Ekkor X, Y parcia lis kovariancia ja Z ismerete mellett: cov(x, Y Z) = E (X E(X Z)) (Y E(Y Z)). Teha t a kovariancia szoka sos definı cio ja ban a Z szerinti felte teles va rhato e rte kkel centra lunk a ko zo nse ges va rhato e rte k helyett. A parcia lis korrela cio t egyfajta felte teles korrela cio ke nt intrepreta ljuk. Az X felte teles szo ra sne gyzete, adott Z mellett, az o nmaga val vett parcia lis kovariancia ennek ne gyzetgyo ke a felte teles szo ra s: q D2 (X Z) = cov(x, X Z); D(X Z) = D2 (X Z) A parcia lis korrela cio t ezek uta n u gy kapjuk, hogy a parcia lis kovariancia t osztjuk a felte teles szo ra sokkal: cor(x, Y Z) = cov(x, Y Z). D(X Z) D(Y Z) 20 / 43

Magyara zo va ltozo k szelekcio ja parcia lis korrela cio alapja n Atto l, hogy az Xj magyara zo va ltozo tartalmaz a to bbieke to l ku lo nbo zo informa cio t, me g nem biztos, hogy ez a saja t informa cio releva ns az Y va lasz va ltozo va ltoze konysa ga nak magyara zata ban. Magyara n, az egyedi informa cio tartalomto l az Xj va ltozo me g nyugodtan lehet felesleges a regresszio ban, ha ez az egyedi informa cio nem az Y-t magyara zza. Az informa cio relevancia ja t pedig u gy elleno rizzu k, hogy kisza mı tjuk az Y e s az Xj parcia lis korrela cio ja t. Ha az Y e s Xj parcia lis korrela cio ja ele g nagy, legala bb 0.3 ko ru li, akkor az Xj -ben le vo saja t informa cio kapcsolatban van a va lasz va ltozo val, ı gy e rte kesen ja rulhat hozza a va lasz va ltoze konysa ga nak magyara zata hoz. 21 / 43

Magyara zo va ltozo k szelekcio ja t-pro ba alapja n Ha az Xj magyara zo va ltozo tartalmaz is a saja t informa cio t, e s ez az informa cio kapcsolatban is a ll az Y va lasz va ltozo va ltoze konysa ga val, me g mindig elo fordulhat, hogy le nyegtelenu l kicsi a szerepe a va ltoze konysa g leı ra sa ban. Ez a regresszio s egyu tthato le nyegtelenu l kicsi volta ban e rheto tetten. Tesztelnu nk kell teha t azt is, hogy az egyu tthato le nyeges-e, azaz szignifika nsan elte r-e 0-to l. bols = A legkisebb ne nyzetes mo dszerrel becsu lt OLS egyu tthato becsle s B (X T X) 1 (X T Y) torzı tatlan, norma lis eloszla su zaj mellett maga is norma lis eloszla su e s adott X mellett variancia-kovariancia ma trixa ΣB OLS = σε2 (X T X) 1. Az i-ik egyu tthato szo ra sa a ma trix diagona lisa i-ik eleme nek ne gyzetgyo ke, ı gy az egyu tthato k szignifikancia ja t-pro ba val e rte kelheto. Ha a zaj nem norma lis eloszla su, de fu ggetlen e rte ku, akkor az OLS alkalmazhato, aszimptotikus normalita s e rve nyes, e s a t-pro ba jo ko zelı te ssel e rve nyes. Ha a zaj nem is fu ggetlen e rte ku, e s a GLS mo dszert haszna ljuk, akkor a becsu lt variancia-kovariancia ma trix miatt az aszimptotikus normalita s ba r igaz, de sokkal lassabban e rve nyesu l, eze rt csak jelento s mintaelemsza m mellett lehet bı zni a tpro ba ban. 22 / 43

Modellszelekcio goodness-of-fit cross-validation -nal A cross-validation a ltala nos modellmegfelele s e rte kelo elja ra s, nem csupa n a regresszio hoz ko to tt. Kidobjuk, elfelejtju k a megfigyele sek (regresszio ban esetekro l, sorokro l van szo!) egy re sze t, a marade kra illesztju k a modellt e s a kidobottakon predikcio val elleno rizzu k. Ve gezhetju k egyese vel kidoba lva az eseteket, majd az illeszte skor kidobott magyara zo e rte keket felhaszna lva predika ljuk a va laszt a modellbo l. Ez a leave-oneout cross validation. E rte kele se hez sza moljuk a predikcio s hiba t a kidobott eseten. Ezt az ege sz elja ra st (kidoba s-predikcio -hiba) az o sszes eseten egyese vel elve gezve e s o sszeadva a ne gyzetes hiba kat, a modell jo sa ga t jellemzo egyetlen sza mot kapunk, ami modellek o sszevete se re alkalmas. Ha eloszla s jellegu elo zetes ismeretu nk vagy va rakoza sunk van a predikcio s hiba ra (pl. te rke pszerkeszte s esete n az u.n. probability map), Vagy az o sszefu gge si struktu ra ra, akkor nem egyese vel dobjuk ki a megfigyele seket, hanem pl. az adatok 30% -a t kidobjuk, a megmarado 70%ra illesztu nk, predika ljuk kidobott 30% -ot e s a hibaeloszla st vizsga ljuk. O sszefu gge si struktu ra esete n pl ve letlen va laszta ssal to bbszo r elve gezzu k az elja ra st e s a predikcio s hiba eloszla sa nak stabilita sa t elleno rizzu k. 23 / 43

Modellstabilita s, trendszelekcio, tu lilleszte s A cross validation alapveto en modellek ko zo tti va laszta sra, e s modellstabilita s elleno rze sere alkalmas. I gy pl jo lehet magyara zo va ltozo k ku lo nbo zo alternativ csoportjai ko zo tti do nte sre, a nemlinea ris jelleg/trend vizsga lata ra (pl polinomia lis vagy exponencia lis trend jobb-e) stb. A cross validation ugyancsak alkalmas pe lda ul modelltu lilleszte s kiszu re se re. Tu lilleszte s: az adott minta e s mintasza m mellett a modell jo l illeszkedo nek tu nik, azonban ha egy u jabb megfigyele s va lik ele rheto ve, az ma r nem illeszkedik a modellhez ill fordı tva. (Pe lda ul: 5 magyara zo va ltozo 5 megfigyele s = 5 egyenlet 5 ismeretlen, hiba ne lku l megoldhato. Nyilva n nem arro l van szo, hogy nincs zaj a rendszerben, hanem a megfigyele s keve s. Ha egy hatodik megfigyele st is tudunk ve gezni, biztos hogy nem az egyenletekbo l kisza molhato val fog egybeesni.) 24 / 43

Outlierek, Cook ta volsa g A regresszio nagyon e rze keny sze lso se ges, kiugro e rte kekre, ezek nagyon fe lrehu zhatja k a regresszio s egyenest / hipersı kot. Az outlierek esete n vagy a tska la zni vagy transzforma lni kell a va ltozo t (ha egy koordina ta kiugro ), ki kell hagyni az ege sz esetet (sort), vagy csak a megbı zhato sa g e rte kele se t kell nagy gonddal elve gezni e s bemutatni - outlierestu l :). A cross validation segı tse ge vel detekta lhato k az outlierek. Leave-one-out cross bi az i-ik eset validation-t ve gezve az egyu tthato vektort becsu lju k mindig (ez B b b ta volsa ga t kidoba sa esete n) e s ne zzu k Bi e s a teljes regresszio bo l sza rmazo B k R -ban. Ez a Cook ta volsa g. Azt me ri, hogy mennyire mozdı tja el az adott megfigyele s kidoba sa a regresszios egyenest, teha t a megfigyele s befolya sossa ga t me ri, e s ha ez nagy, akkor outlier-nek tekinthetju k. 25 / 43

Rezidua lis elemze s b normalita sra linearita sra e s homoszkedaszticita sra A rezidua lisokat (Y Y) (homo= homoge n + skedastikos = (sze t)szo ro dni ke pes (go ro g)) tesztelju k. Homoszkedaszticita s = homoge n szo ra s. A ltala ban a regresszio az outliereket kive ve robusztus. Le tezik ku lo n robusztus regresszio s elja ra s is. Ha nem norma lisak a rezidua lisok, akkor a tesztek nem pontosak. Legala bb szimmetria legyen az eloszla sban. Nemlinearita s vagy heteroszkedaszticita s nem e rve nytelenı ti csak gyengı ti a regresszio t, a kapcsolat egy re sze t felta rtuk de maradt ismeretlen hata s is. A heteroszkedaszticita s sza rmazhat a magyara zo ko lcso nhata sbo l, egyes va ltozo k ferdese ge bo l. va ltozo k ko zo tti 26 / 43

Scatterplotok Vizua lis elemze s, igen hasznos. Predicted vs. residuals: linearita s tesztele se re. Ha valamilyen minta zat la tszik a ploton, akkor valamilyen nemlinea ris hata s (kvadratikus trend etc.) is jelen van. Observed vs. residuals: pontosı ta shoz: ha van nemlinearita s, honnan sza rmazik. Sok plot is lehet - ko ru lme nyes. ANOVA ta bla ugyanerre Residuals vs deleted residuals instabilak-e a regresszio s egyu tthato k Normal plot of residuals - normalita svizsga lat 27 / 43

Specia lis regresszio k 28 / 43

Simı ta s A budapesti napi ko ze pho me rse klet 5 (fekete), 20 (ke k), 100 (piros) e vre a tlagolva. La thato an egyre sima bb go rbe t kapunk, az elvi e ves menet egy sima go rbe. 29 / 43

Nemparametrikus regresszio Running line (futo egyenes): Minden pontnak egy ko rnyezete ben regresszio t alkalmazunk. Ebbo l predika ljuk a megfigyelt e rte ket az adott pontban. Ezzel az elja ra ssal ve gigmegyu nk a pontokon. 30 / 43

Running line A megfigyele s simı ta sa t kapjuk, ez a ltala ban a trend torzı tott becsle se. N(0,1)-es i.i.d minta t, ha simı tjuk, aka r periodikus go rbe t is kaphatunk belo le. 31 / 43

Ke t alapke rde s A simı ta s sora n 2 alapke rde s van: 1 Hogyan a tlagoljunk egy bizonyos ko rnyezetben? Amit a pontokra illesztu nk az: A tlag vı zszintesen Linea ris egyenes Kvadratikus go rbe Magasabb rendu go rbe 2 Hogyan va lasszuk meg a ko rnyezetet Legko zelebbi szomsze d - a legko zelebbi k pont Szimmetrikus legko zelebbi szomsze d - az egyik e s ma sik oldalon is 2k, Egyfajta mozgo ablak. k 2 pont. 32 / 43

Running Quadratic Curve Ne gyzetes regresszio, 5 pontos ko rnyezet: 33 / 43

Legyen: Y = µ(x) + ε, ahol µ sima fu ggve ny, e s legyen minta nk Y-ra X-re. Running line: egy mozgo ablakot va lasztunk, e s az ablakon belu l egy egyszeru linea ris regresszio t alkalmazunk Y-ra X-szel. Yi -t az Xi alapja n abbo l az ablakbo l becsu lju k, amelynek o van a ko zepe n. Pl. k=11-re Y14 -et az (X9, Y9 ),...(X19, Y19 ) ablakbo l,azaz ezen pa rokra ve gzu nk regresszio t, e s ennek egyu tthato ival predika ljuk Y14 -et X14 -bo l. Ez az elja ra s jo irregula risan megfigyelt ido sorra is. Ekkor Xi az ido, ami ve letlenszeru, vagyis regresszorke nt is felfoghato. 34 / 43

Mag regresszio (Kernel regression): Ekkor is ko rnyezeteket va lasztunk, de ezen belu l nem egyenlo su llyal vesszu k figyelembe a pontokat. Ha x0 -ban vagyunk kı va ncsiak a simı tott predikcio ra, akkor a megfigyele si helyeket (a regresszor e rte keit) su lyozzuk az x0 -to l valo ta volsa guk fu ggve nye ben C0 x0 xi K w0,i = λ λ ahol K egy magfu ggve ny λ a sa vsze lesse g (Egy leheto se g pl. xi -t a szo ra sa val osztani.) Ezekkel a su lyokkal egy su lyozott regresszio t csina lunk, vagyis a minimaliza lando legkisebb ne gyzetes kifejeze st su lyozva a llı tjuk elo. x x K 0λ i yi µ (x0 ) = x x K 0λ i 35 / 43

Magfu ggve nyek: Gauss mag: a Gauss eloszla s su ru se gfu ggve nye Minima lis variancia mag: K(t) = 38 (3 5t2 ) t 1 Epanechnikov mag: K(t) = 34 (1 t2 ) t 1 36 / 43

Loka lis regresszio : LOESS A Running line e s a Kernel regresszio kombina cio ja. Minden ko rnyezetben su lyozott legkisebb ne gyzetes illeszte s. A loka lis regresszio ce lja pl. trend kiszu re se x0 xi W= x0 x0 az adott ko rnyezet legnagyobb ta volsa ga x0 -to l. ( (1 t3 )3 W(t) = 0 0 t 1 Robusztus regresszio t is lehet haszna lni, ha szimmetrikusnak te telezzu k fel a zajt norma lis helyett. 37 / 43

Logisztikus regresszio A feladat: A va lasz va ltozo ke tfe le kimenetet ı r le, amit 0-val e s 1-gyel ko dolunk, e s ennek va ltoze konysa ga t szeretne nk a magyara zo va ltozo kkal magyara zni. Pe lda ul: Egy banki u gyfe l hitelke pesse ge nek bı ra latakor arra vagyunk kı va ncsiak, ke pes-e fizetni a to rleszte st vagy cso dbe megy valamikor. Ezt magyara zhatja fizete se, a to rleszto nagysa ga, a rezsiko ltse gei, va sa rla si szoka sai, nyarala sai, stb. Egy szeme ly hala los szı vinfarktust kap vagy sem. Ezt magyara zhatja ve re nek koleszterintartalma, ve rcukorszintje, doha nyza sa, alkoholfogyaszta sa stb. To bb u gyfe lro l, to bb szeme lyro l van adatunk. Azonban nem a 0 vagy 1 kimenetet akarjuk magyara zni, vagy predika lni a magyara zo va ltozo kkal, hanem annak a valo szı nu se ge t, hogy 1 lesz a kimenet, ez azonban u gyfe lro l u gyfe lre, szeme lyro l szeme lyre, teha t esetro l esetre va ltozik. Azonban a valo szı nu se gre ko zvetlenu l nincs adatunk, becsu lni sem tudjuk, hiszen nyilva n e rtelmetlen, hogy az adott szeme ly milyen gyakran halt meg infarktusban. 38 / 43

Bina ris va lasz A ko zo nse ges regresszio esete n a va laszt a magyara zo k ellene ben megjelenı tve a kapcsolat jellege ro l ke pet kaphatunk. A bina ris va lasz esete n ez sajnos nincs ı gy. 39 / 43

A felte teles valo szı nu se g A va lasz e rte kei helyett vizsga lhatjuk az E(Y X = xi ) = P(Y = 1 X = xi ) = π(xi ) fu ggve nyt, azaz, hogy az Xi ismerete ben mennyi a felte teles valo szı nu se ge a vizsga lt eseme ny beko vetkeze se nek az i-edik megfigyele s esete n. Azonban ez a fu ggve ny nem linea ris, teha t nem alkalmazhatunk linea ris regresszio t a meghata roza sa ra. Sokkal inka bb valamilyen S alaku go rbe. A ko vetkezo fu ggve nyek: π(x) = exp(β0 + β1 x) 1 + exp(β0 + β1 x) jo l parametriza lt S alaku fu ggve nycsala dot adnak. Azt felte telezzu k, hogy ez ı rja le a fenti felte teles valo szı nu se g e s a magyara zo va ltozo k kapcsolata t. Innen π(x) log = β0 + β1 x 1 π(x) vagyis a log odds ha nyados lesz linea ris fu ggve nye a magyara zo va ltozo knak, e s ennek az egyu tthato it kell meghata roznunk. Ez a logisztikus regresszio modellje. 40 / 43

E rtelmeze s Vegyu k e szre, hogy a modellben nincs szu kse g zajra, mivel eleve a felte teles va rhato e rte ket modellezzu k, ami ma r az X-ek, a magyara zo va ltozo k fu ggve nye e s nem a va lasze. A β1 egyu tthato e rtelmeze se is ma s, mint a ko zo nse ges regresszio ban. A magyara zo va ltozo egyse gnyi va ltoza sa β1 va ltoza st okoz a log-oddsban, de e helyett inka bb azt mondjuk, hogy egyse gnyi va ltoza s a magyara zo va ltozo ban az oddsot eβ1 szorzo te nyezo vel no veli. 41 / 43

Becsle s Mivel π(xi ) = πi -re nincs megfigyele su nk, a legkisebb ne gyzetes mo dszer nem alkalmazhato. A maximum likelihood mo dszer mu ko dik. Ehhez elo szo r az Y1,..., Yn minta g(y1,..., yn ) su ru se gfu ggve nye t kell sza molni. Mivel az esetek (a sorok) fu ggetlen megfigyele sek eredme nyei, eze rt szorzo dnak a margina lis su ru se gfu ggve nyek: n n i=1 i=1 g(y1,..., yn ) = fi (yi ) = πiyi (1 πi )1 yi Sza moljuk most a log-likelihoodot. n log (g(y1,..., yn )) = log! πiyi 1 yi (1 πi ) = i=1 n n = yi log(πi ) + (1 yi ) log(1 πi ) = i=1 i=1 42 / 43

n πi = yi log 1 πi i=1 n + log(1 πi ) = i=1 Ide beı rjuk a log oddsra vonatkozo linearis egyenletet: n n = yi (β0 + β1 xi ) + log(1 + exp(β0 + β1 xi )) i=1 i=1 Ezek szerint megkaptuk a log-likelihoodot, mint az ismeretlen parame terek fu ggve nye t e s most ma r ezt kell a parame terekben maximaliza lni. A deriva ltak felı rhato k e s ezeket kell 0-ra megoldani. Ez azonban nem linea ris egyenletrendszer, eze rt csak iteratı v megolda sa van amennyiben az konverga l. Egy, az a ltala nosı tott legkisebb ne gyzetes mo dszerrel rokon itera cio t kapunk, amelyet az R azzal egyu tt is kezel, a glm parancsban. 43 / 43