Ma rkus La szlo Valo szı nu se gelme leti e s Statisztika Tansze k, Eo tvo s Lora nd Tudoma nyegyetem
A feladat Az adatok Me rni vagy megfigyelni tudunk valamilyen X1,..., Xk mennyise geket, (nevu k: fu ggetlen v. magyara zo va ltozo k, input, regresszor) illetve a velu k felte telezheto en o sszefu gge sben a llo Y mennyise get (neve: fu ggo va ltozo, va lasz, output). Ezeket a mennyise geket valva ltozo nak tekintju k. A me rt e rte kek ezek realiza cio i: az xi,j = Xi (ωj ) valo s sza mok. Adataink struktu ra ja a ko vetkezo. magyara zo va ltozo k va lasz va ltozo z} { Y y1 y2... yn z X1, x1,1 = x2,1... xn,1 } { X2,... Xk x1,2... x1,k x2,2... x2,k......... xn,2... xn,k Nem mindig adott vagy nem egye rtelmu melyik va ltozo a va lasz, fel kell me rni van-e o sszefu gge s valamely va ltozo k ko zo tt. Tiszta zni kell, mi fu gg mito l, mi a fu ggo va ltozo, melyek a magyara zo va ltozo k. Nem mindig matematikai feladat, me rheto se g, ko ltse g is befolya solhat. A t kell gondolni a ce lt, ami lehet pl. csak az o sszefu gge s igazola sa, vagy elo rejelze s az X-(ek) alapja n az Y-ra, stb. 2 / 27
A feladat Az adatelemze s kezdeti le pe sei Ezek jelento s re sze nem csupa n a regresszio ra vonatkozik, csak ennek kapcsa n mondjuk el. Az adata tvila gı ta s (screening) minden statisztikai elemze s elso le pe se. Elleno rizzu k, nem ı rta k-e el a tizedesvesszo t, nem ı rta k-e be a da tumot is adatke nt, stb. Megjelenı te s, vizualiza cio. Ez egyfelo l az adata tvila gı ta s re sze, ma sfelo l intuı cio kat szerzu nk a ltala az adatokro l, felme rju k a szo bajo vo modellek ko re t. Adatainkat o nmagukban is plottoljuk ill. egyma s fu ggve nye ben is (scatterplot), esetleg hisztogrammot, ritka bban su ru se gfu ggve ny becsle st, Q-Q plotot ne zu nk. O sszefu gge sek felme re se. Ide tartozik a korrela cio k sza mı ta sa. Ha a va lasz, a magyara zando va ltozo, sok magyara zo va ltozo egyu ttese to l fu gg, akkor nem fogunk ero s korrela cio kat tapasztalni, de aze rt valo s ko ru lme nyek ko zo tt legala bb 0.3, 0.4 nagysa gu korrela cio k le te elva rhato egy te nyleges linea ris modellben. Ha a scatterplotok nemlinea ris o sszefu gge sre utalnak, akkor a va lasz e s az egyes magyara zo va ltozo k kopula inak vizsga lata is hasznos lehet. A kopula ma r transzforma lt va ltozo, teha t a kapcsolat jellege re nem ko zvetlenu l utal! Megjegyze s: Ha pl. y 20 db fu ggetlen standard norma lis va ltozo a tlaga - teha t egy (sze lso se ges) linea ris kapcsolat a ll fenn - az elme leti korrela cio 120 = 0.223 a tapasztalatiak ko zt pedig alig lesz 0.3-na l nagyobb e rte k, legfeljebb 1-2 ado dik. 3 / 27
A feladat A regresszio a ltala nos modellje A regresszio modellje ben a va lasz valamilyen determinisztikus fu ggve nykapcsolatban van az o t magyara zo va ltozo kkal, e s ezt a kapcsolatot egy additı v zajon keresztu l tudjuk megfigyelni. ( Magyara zat -on azt e rtju k, hogy Y ve letlen fluktua cio ja a zajto l eltekintve megismerheto, sza mı thato az X-ek fluktua cio ja bo l.) I gy adataink az Y = f (X1, X2,..., Xk ) + ε egyenlet szerint jo nnek le tre, ahol f egy k-va ltozo s valo s fu ggve ny, az u.n. regresszio s fu ggve ny, ε fu ggetlen e rte ku (gyakran norma lis eloszla su ) zaj, e s D2 ε = σε2 <. Az adatokat le trehozo mechanizmus modellje linea ris regresszio esete n: Y = B0 + B1 X1 + B2 X2 +... + Bk Xk + ε ahol B0 R az u.n. intercept, B1,..., Bk R a regresszio s egyu tthato k. Alapesetben a B0 e s B1,..., Bk ismeretlen valo s sza mokat, valamint esetenke nt σε2 -et szeretne nk becsu lni. 4 / 27
A feladat A vizsga lt kapcsolatok jellege Nem csak linea ris kapcsolatot vizsga lhatunk. Magyara zo va ltozo k fu ggve nyeit is hozza vehetju k tova bbi magyara zo va ltozo ke nt, hiszen ennek e rte kei a megfigyeltek alapja n sza molhato ak. Pl. polinom jellegu kapcsolatot is becsu lhetu nk, vagy exi konstansszorosa is benne lehet a kapcsolatban, de az a le nyeg, hogy az egyu tthato kban linea ris legyen a fu ggve ny. Pe lda ul az Y = B0 + B1 X1 + B2 X12 +... + Bp X1p + + Bp+1 X2 +... + Bk+p 1 Xk + Bk+p exk + ε kapcsolat becsu lheto linea ris regresszio val, de az Y = B0 + eb1 X1 + ε vagy az Y = log (B1 X1 + B2 X2 ) + ε tı pusu kapcsolatok nem. A zaj sem felte tlen struktu ra latlan. Vizsga lhatjuk adott o sszefu gge si struktu ra val rendelkezo zaj (pl. ε egy AR(1) ido sor) esete t is. Ilyenkor a kovariancia ma trixot adottnak/ismertnek vagy legfeljebb ne ha ny becsu lheto parame terto l fu ggo nek fele telezzu k. 5 / 27
A modell ma trixos alakja Az interceptet B0 -t nem akarjuk ku lo n kezelni, eze rt belo le e s a B1,..., Bk egyu tthato kbo l megalkotjuk a B = (B0, B1,..., Bk ) vektort, amelynek dimenzio ja ı gy k + 1. Aze rt, hogy egyenleteinket vektor-ma trix alakban is konzisztensen ı rhassuk fel, a magyara zo va ltozo khoz X0 -ke nt a csupa 1-bo l a llo (oszlop)vektort vesszu k hozza. I gy a magyara zo va ltozo k az n (k + 1) dimenzio s X ma trixot adja k. Ezek uta n vektormu veletekkel is sza molhatunk. A regresszio modellje nek egyenlete ma trix alakban: Y = XB + ε. 6 / 27
Az egyu tthato k OLS becsle se A legegyszeru bb esetben a megfigyele seink (az egyes esetek) fu ggetlenek egyma sto l (ele g, hogy ε fu ggetlen e rte ku zaj). Ilyenkor ko zo nse ges legkisebb ne gyzetes (ordinary least squares, OLS) becsle sro l besze lu nk, amikor is az (Y XB)T (Y XB) = Y XB 2 elte re s ne gyzeto sszeget, az u.n. rezidua lis ne gyzeto sszeget szeretne nk minimaliza lni. Ebben az esetben az egyu tthato k becsle se bols = (X T X) 1 (X T Y) B -ke nt adhato meg. Erro l a deriva ltakra ado do egyenleteket megoldva ko nnyen meggyo zo dhetu nk. Az OLS becsle s torzı tatlan, konzisztens, hata sos e s aszimptotikusan norma lis ha a hiba ε ve ges szo ra su e s korrela latlan a magyara zo va ltozo kkal. Megmutathato, hogy az OLS becsle s felte teles variancia-kovariancia ma trixa adott X mellett ΣB OLS = (X T X) 1 σε2. Ez fontos megbı zhato sa gi (konfidencia) tartoma ny konstrukcio ja hoz, viszont ehhez szu kse ges σε2 becsle se. Ez: σ ε2 = n 1 1 Y X B 2 = ε i2 n k 1 n k 1 i=1 ahol ε i -k a rezidua lisok: ε i = yi B 0 B 1 xi,1... B k xi,k. 7 / 27
Az egyu tthato k GLS becsle se Az a ltala nosı tott legkisebb ne gyzetes mo dszer (generalised least squares, GLS) akkor alkalmazhato, ha a hiba ε egyes e rte kei ko zo tt korrela cio van, azonban ez a korrela cio ismert e s a variancia-kovariancia ma trixa Σε adott. (A gyakorlatban becsu lt ma trixszal is haszna ljuk a mo dszert, terme szetesen ez no veli a bizonytalansa got, ı gy a hiba t is.) Az egyu tthato k GLS becsle se ekkor 1 T 1 b = (X T Σ 1 B ε X) (X Σε Y). A GLS becsle s ismert Σε mellett torzı tatlan, konzisztens, hata sos e s aszimptotikusan norma lis. Becsu lt Σε mellett e tulajdonsa gok aszimptotikusan megmaradnak. Σε -t elso ke nt az OLS becsle s alapja n kapott rezidua lisokbo l becsu lhetju k, majd ezt itera lva, a fenti formula val u jrabecsu lt egyu tthato kkal rezidua lisokat kaphatunk, melyekbo l u jabb Σε -t becsu lu nk e s ı gy tova bb. Ekkor teha t a GLS egy iteratı v elja ra s. Ismert Σε mellett a GLS ekvivalens a ko zo nse ges ne gyzetes becsle s alkalmaza sa val linea risan transzforma lt adatokra. Ehhez Σε ne gyzetgyo ke kell: Σε = AAT ezuta n a regresszio s egyenletet beszorozzuk A 1 -gyel e s az ı gy kapott zaj ma r korrela latlan e rte ku lesz. Ez a ne gyzetgyo k azonban nem egye rtelmu. 8 / 27
A magyara zo va ltozo k kiva laszta sa Ke rde sek: kihagyhato k-e a magyara zo va ltozo k ko zu l egyesek ane lku l, hogy a magyara zo ero jelento sen cso kkenne, e rdemes-e hozza venni tova bbi va ltozo t a magyara zo khoz Akkor jo a va ltozo kiva laszta s, ha a magyara zo va ltozo k ero sen korrela lnak a va lasszal, de egyma s ko zt gyenge n Ko nnyen manipula lhato, jo l me rheto va ltozo k beva laszta sa is lehet szempont Hozza vegyu nk-e nemlinea ris tagokat? Vizsga lhato k magyara zo va ltozo k konkurrens csoportjai Mi a legjobb predikcio, ha a magyara zo kat me rju k, de a va laszt nem? Mennyire jo a regresszio, pl. a regresszio s egyenlet jobb becsle st ad-e mintha csak ve letlenszeru en va lasztana nk becsle st? 9 / 27
A regresszio hata rai Nem oksa gi kapcsolatot mutat ki (Sok a tu zolto nagy a ka r) E rze keny a beva lasztott magyara zo va ltozo kra - me g egy le nyegtelen kidoba sa is va ltoztat Ha ez egyik va ltozo me re si hiba ja korrela l a ma sik magyara zo va ltozo val, akkor ez ero s torzı ta st hozhat le tre Ugyancsak e rze keny az u.n. outlier-ekre, a kiugro vagy sze lso se ges e rte kekre/megfigyele sekre Az outliereket vagy me g az elemze s elo tt to ro lju k, vagy tudatosan bennhagyjuk e s a hata sukat elemezzu k, hogy mennyire te rı thetik el a regresszio t. 10 / 27
Esetsza m e s va ltozo sza m A legegyszeru bb o ko lszaba ly n 50 + 8k ahol k a magyara zo va ltozo k sza ma, n a megfigyele ssza m. Ezt persze kello tolerancia val rugalmassa ggal kell kezelni, sok esetben ke nyszeru lu nk enne l kevesebb adatbo l is regresszio s becsle sre. Fontos azonban ilyenkor a va ltoze konysa g elemze se, pe lda ul u jramintave teleze si (bootstrap) technika val. Ha az o sszefu gge sek ele g ero sek, akkor me g megbı zhato is lehet az eredme ny. A fenti o ko lszaba ly ko zepes fu ggo se gre vonatkozik, azaz ha a B egyu tthato t standardiza lt va ltozo kra (magyara zo e s fu ggo ) ne zzu k, akkor 0.2 ko ru linek kell lennie. 11 / 27
Me ro sza mok a regresszio e rte kele se re Tota lis ne gyzeto sszeg: n SSY = Yi Y 2 i=1 Regresszio s ne gyzeto sszeg: n SSreg = Y i Y 2 i=1 ahol Y i a megfigyele sek predikcio ja a regresszio alapja n a becsu lt egyu tthato k segı tse ge vel: Y i = B 0 + B 1 X1 + B 2 X2 +... + B k Xk Y i e rte kei a regresszio s egyenesen vagy hipersı kon vannak. Rezidua lis ne gyzeto sszeg: n SSres = Yi Y i 2 i=1 12 / 27
A regresszio e rte kele se: Determina cio s egyu tthato Determina cio s egyu tthato avagy R2 (Coefficient of determination or squared multiple correlation): SSreg SSres R2 = = 1 SSY SSY Jelente se: Az Y variancia ja nak ha nyadre sze t magyara zza a regresszio bo l ado do predikcio ja. Ma ske pp: az Y fuktua cio ja nak ha nyadre sze sza rmazik a magyara zo va ltozo kbo l. A regresszio akkor jo, ha a va rhato e rte k vı zszintes egyenese to l (hipersı kja to l, ha to bb magyara zo va ltozo nk van) me rt ne gyzetes elte re s fo ke nt a megfigyelt e rte kek regresszio s egyenes (hipersı k) mente n to rte no (szaba lyos) elhelyezkede se bo l ado dik, e s nem a ve letlen, szaba lytalan fluktua cio bo l. E szerint teha t SSreg nagy, miko zben SSres ehhez ke pest relatı ve kicsi. Ez azt jelenti, hogy R2 e rte ke 1-hez ko zeli. 13 / 27
A determina cio s egyu tthato eloszla sa: egyszeru regresszio A ke rde s az, hogy mikor van ele g ko zel 1-hez a determina cio s egyu tthato? A va lasz nem egyszeru e s nyilva n fu gg a regresszio s egyenletben szereplo zaj eloszla sa to l. Sajnos me g a hata reloszla s sem univerza lis. Eze rt nem is szoktak szignifikancia szintet meghata rozni R2 -re Az egyszeru regresszio (1 magyara zo va ltozo ) e s norma lis eloszla su, fu ggetlen e rte ku zaj esete n Rabbani egy elega ns o tlettel az R2 = cos(θ ) felı ra s alapja n elo szo r θ eloszla sa t hata rozza meg. Az n dimenzio s Gauss eloszla s ko r/go mbszimmetria ja t kihaszna lva, az n-szeres integra lt pola rkoordina ta kban kisza mı tva, kapja elo szo r θ su ru se gfu ggve nye t, majd ebbo l: Γ 2n n 3 (1 r) 2 fr2 (r) = n 1 πr Γ 2 14 / 27
A determina cio s egyu tthato eloszla sa: to bbva ltozo s regresszio To bb magyara zo va ltozo su ru se gfu ggve nyre. esete n ma r nem adhato za rt formula a Fu ggetlen e rte ku, norma lis eloszla su zajt 0 va rhato e rte kkel e s σ szo ra ssal felte telezve a japa n O tani e rt el eredme nyt 1994-ben. Ilyen felte telek mellett legyen y= 1 bt T b 1 bt b B X XB = Y Y 2σ 2 2σ 2 Ezzel a jelo le ssel az R2 statisztika su ru se gfu ggve nye: fr2 (z) = e y (1 z) n k 2 2 yi B i! k+2i 1 n k, 2 2 1 z k+2i 3 2 i=1 ahol B a nem teljes be ta fu ggve ny. 15 / 27
A determina cio s egyu tthato eloszla sa: to bbva ltozo s regresszio t eloszla su zajjal Me g tova bb bonyolo dik a helyzet, ha a genera lo zaj nem norma lis eloszla su, pedig ez sok alkalmaza sban van ı gy. A norma lisna l jo val vastagabb farku eloszla sok t eloszla sokkal gyakran jo l ko zelı theto k. Fu ggetlen e rte ku, szimmetrikus t eloszla su 0 va rhato e rte ku zaj esete n O tani e s Tanizaki 2004-es cikke alapja n lehet tudni a su ru se gfu ggve nyt. A pontos formula megleheto sen bonyolult, a norma lis esetben szereplo su ru se gfu ggve ny szorzo dik egy inverz Gauss eloszla s su ru se gfu ggve nye vel. Fontos ismerni az R2 statisztika korla tait is. Kis elemsza mu minta ra ero sen torzı t, mı g a korriga lt verzio (adjusted R2 ) szo ra sa t tekintve megbı zhatatlanabb az eredetine l. 16 / 27
A regresszio s egyenes, hipersı k ko ru li szo ra s A teljes ne gyzeto sszegbo l SSY -bo l ko nnyen ke szı thetu nk szo ra sne gyzet becsle st. Ezzel az adatoknak a va rhato e rte k szintu vı zszintes egyenes ko ru li szo ra sne gyzete t becsu lju k. A rezidua lis ne gyzeto sszegbo l SSres is elke szı thetu nk egy szo ra sne gyzet becsle st, ez pedig a regresszio s egyenes ko ru li szo ra st me ri, pontosabban becsu li meg. A regresszio s egyenes ko ru li szo ra st u gy e rtju k, hogy adatainkat a va rhato e rte k helyett a regresszio s egyenes megfelelo e rte ke vel, azaz a regresszio s predikcio val centra ljuk. Ha to bb magyara zo va ltozo nk van, az egyenesek szerepe t hipersı kok veszik a t, de egye bke nt minden ugyan ı gy e rve nyes, definia lhato. 17 / 27
A regresszio e rte kele se: F-pro ba A regresszio akkor jo, ha a va rhato e rte k vı zszintes egyenese ko ru li szo ra sne gyzet jo val nagyobb, mint a regresszio s egyenes ko ru li szo ra s, mivel az elo bbi tartalmazza a megfigyelt e rte kek regresszio s egyenes (hipersı k) mente n to rte no (szaba lyos) elhelyezkede se bo l ado do va ltoze konysa got is. Amennyiben teha t a ke t becsu lt szo ra s le nyegesen elte r, akkor az a felte telezett linea ris kapcsolat fenna lla sa ra utal. A szo ra sok elte re se t F-pro ba val elleno rizhetju k. Pro bastatisztika nk SSY n 1 SSres n 1, amely F eloszla su, n 1, n k 1 szabadsa gi fokokkkal. Amennyiben az F-pro ba elutası t, a regresszio jo, a felte telezett linea ris kapcsolat fenna ll. 18 / 27
Magyara zo va ltozo k szelekcio ja: tolerancia Egy magyara zo va ltozo, Xj, felesleges a regresszio ban, ha nem tartalmaz a to bbi magyara zo va ltozo to l elte ro informa cio t (de nem csak ekkor felesleges!). Ezt u gy elleno rizzu k, hogy elve gzu nk egy olyan regresszio t, amelyben az adott magyara zo va ltozo Xj lesz a va lasz, a fu ggo va ltozo, e s a regresszorok, az o t magyara zni kı va no va ltozo k pedig az eredeti regresszio megmarado magyara zo va ltozo i: X1,..., Xj 1, Xj+1,..., Xk. Nyilva n, ha ez a regresszio jo, akkor a va ltozo a to bbiekkel magyara zhato, benne nincs a to bbiekto l ku lo nbo zo le nyeges informa cio, teha t elhagyhato az eredeti regresszio magyara zo va ltozo i ko zu l. E regresszio jo volta t, illeszkede se t az R2 statisztika val elleno rizzu k, e s az 1 R2 e rte ket az adott va ltozo hoz tartozo tolerancia nak hı vjuk. A nagy, 0to l szignifika nsan elte ro tolerancia val rendelkezo va ltozo kat tarthatjuk meg magyara zo va ltozo ke nt. Egy va ltozo kidoba sa uta n az o sszes tolerancia t u jra kell sza molni Azt, hogy a tolerancia ele g nagy -e, szignifika nsan ku lo nbo zik-e 0-to l, az R2 statisztika eloszla sa alapja n mondhatjuk meg. Annak meghata roza sa azonban, hogy mit tekintu nk szignifika ns elte re snek, az adott feladatto l, alkalmaza sto l nagyban fu gghet. 19 / 27
A parcia lis korrela cio Legyen X, Y, Z ha rom ve ges szo ra su valva ltozo. Ekkor X, Y parcia lis kovariancia ja Z ismerete mellett: cov(x, Y Z) = E (X E(X Z)) (Y E(Y Z)). Teha t a kovariancia szoka sos definı cio ja ban a Z szerinti felte teles va rhato e rte kkel centra lunk a ko zo nse ges va rhato e rte k helyett. A parcia lis korrela cio t egyfajta felte teles korrela cio ke nt intrepreta ljuk. Az X felte teles szo ra sne gyzete, adott Z mellett, az o nmaga val vett parcia lis kovariancia ennek ne gyzetgyo ke a felte teles szo ra s: q D2 (X Z) = cov(x, X Z); D(X Z) = D2 (X Z) A parcia lis korrela cio t ezek uta n u gy kapjuk, hogy a parcia lis kovariancia t osztjuk a felte teles szo ra sokkal: cor(x, Y Z) = cov(x, Y Z). D(X Z) D(Y Z) 20 / 27
Magyara zo va ltozo k szelekcio ja parcia lis korrela cio alapja n Atto l, hogy az Xj magyara zo va ltozo tartalmaz a to bbieke to l ku lo nbo zo informa cio t, me g nem biztos, hogy ez a saja t informa cio releva ns az Y va lasz va ltozo va ltoze konysa ga nak magyara zata ban. Magyara n, az egyedi informa cio tartalomto l az Xj va ltozo me g nyugodtan lehet felesleges a regresszio ban, ha ez az egyedi informa cio nem az Y-t magyara zza. Az informa cio relevancia ja t pedig u gy elleno rizzu k, hogy kisza mı tjuk az Y e s az Xj parcia lis korrela cio ja t. Ha az Y e s Xj parcia lis korrela cio ja ele g nagy, legala bb 0.3 ko ru li, akkor az Xj -ben le vo saja t informa cio kapcsolatban van a va lasz va ltozo val, ı gy e rte kesen ja rulhat hozza a va lasz va ltoze konysa ga nak magyara zata hoz. 21 / 27
Magyara zo va ltozo k szelekcio ja t-pro ba alapja n Ha az Xj magyara zo va ltozo tartalmaz is a saja t informa cio t, e s ez az informa cio kapcsolatban is a ll az Y va lasz va ltozo va ltoze konysa ga val, me g mindig elo fordulhat, hogy le nyegtelenu l kicsi a szerepe a va ltoze konysa g leı ra sa ban. Ez a regresszio s egyu tthato le nyegtelenu l kicsi volta ban e rheto tetten. Tesztelnu nk kell teha t azt is, hogy az egyu tthato le nyeges-e, azaz szignifika nsan elte r-e 0-to l. bols = A legkisebb ne nyzetes mo dszerrel becsu lt OLS egyu tthato becsle s B (X T X) 1 (X T Y) torzı tatlan, norma lis eloszla su zaj mellett maga is norma lis eloszla su e s adott X mellett variancia-kovariancia ma trixa ΣB OLS = σε2 (X T X) 1. Az i-ik egyu tthato szo ra sa a ma trix diagona lisa i-ik eleme nek ne gyzetgyo ke, ı gy az egyu tthato k szignifikancia ja t-pro ba val e rte kelheto. Ha a zaj nem norma lis eloszla su, de fu ggetlen e rte ku, akkor az OLS alkalmazhato, aszimptotikus normalita s e rve nyes, e s a t-pro ba jo ko zelı te ssel e rve nyes. Ha a zaj nem is fu ggetlen e rte ku, e s a GLS mo dszert haszna ljuk, akkor a becsu lt variancia-kovariancia ma trix miatt az aszimptotikus normalita s ba r igaz, de sokkal lassabban e rve nyesu l, eze rt csak jelento s mintaelemsza m mellett lehet bı zni a tpro ba ban. 22 / 27
Modellszelekcio goodness-of-fit cross-validation -nal A cross-validation a ltala nos modellmegfelele s e rte kelo elja ra s, nem csupa n a regresszio hoz ko to tt. Kidobjuk, elfelejtju k a megfigyele sek (regresszio ban esetekro l, sorokro l van szo!) egy re sze t, a marade kra illesztju k a modellt e s a kidobottakon predikcio val elleno rizzu k. Ve gezhetju k egyese vel kidoba lva az eseteket, majd az illeszte skor kidobott magyara zo e rte keket felhaszna lva predika ljuk a va laszt a modellbo l. Ez a leave-oneout cross validation. E rte kele se hez sza moljuk a predikcio s hiba t a kidobott eseten. Ezt az ege sz elja ra st (kidoba s-predikcio -hiba) az o sszes eseten egyese vel elve gezve e s o sszeadva a ne gyzetes hiba kat, a modell jo sa ga t jellemzo egyetlen sza mot kapunk, ami modellek o sszevete se re alkalmas. Ha eloszla s jellegu elo zetes ismeretu nk vagy va rakoza sunk van a predikcio s hiba ra (pl. te rke pszerkeszte s esete n az u.n. probability map), Vagy az o sszefu gge si struktu ra ra, akkor nem egyese vel dobjuk ki a megfigyele seket, hanem pl. az adatok 30% -a t kidobjuk, a megmarado 70%ra illesztu nk, predika ljuk kidobott 30% -ot e s a hibaeloszla st vizsga ljuk. O sszefu gge si struktu ra esete n pl ve letlen va laszta ssal to bbszo r elve gezzu k az elja ra st e s a predikcio s hiba eloszla sa nak stabilita sa t elleno rizzu k. 23 / 27
Modellstabilita s, trendszelekcio, tu lilleszte s A cross validation alapveto en modellek ko zo tti va laszta sra, e s modellstabilita s elleno rze sere alkalmas. I gy pl jo lehet magyara zo va ltozo k ku lo nbo zo alternativ csoportjai ko zo tti do nte sre, a nemlinea ris jelleg/trend vizsga lata ra (pl polinomia lis vagy exponencia lis trend jobb-e) stb. A cross validation ugyancsak alkalmas pe lda ul modelltu lilleszte s kiszu re se re. Tu lilleszte s: az adott minta e s mintasza m mellett a modell jo l illeszkedo nek tu nik, azonban ha egy u jabb megfigyele s va lik ele rheto ve, az ma r nem illeszkedik a modellhez ill fordı tva. (Pe lda ul: 5 magyara zo va ltozo 5 megfigyele s = 5 egyenlet 5 ismeretlen, hiba ne lku l megoldhato. Nyilva n nem arro l van szo, hogy nincs zaj a rendszerben, hanem a megfigyele s keve s. Ha egy hatodik megfigyele st is tudunk ve gezni, biztos hogy nem az egyenletekbo l kisza molhato val fog egybeesni.) 24 / 27
Outlierek, Cook ta volsa g A regresszio nagyon e rze keny sze lso se ges, kiugro e rte kekre, ezek nagyon fe lrehu zhatja k a regresszio s egyenest / hipersı kot. Az outlierek esete n vagy a tska la zni vagy transzforma lni kell a va ltozo t (ha egy koordina ta kiugro ), ki kell hagyni az ege sz esetet (sort), vagy csak a megbı zhato sa g e rte kele se t kell nagy gonddal elve gezni e s bemutatni - outlierestu l :). A cross validation segı tse ge vel detekta lhato k az outlierek. Leave-one-out cross bi az i-ik eset validation-t ve gezve az egyu tthato vektort becsu lju k mindig (ez B b b ta volsa ga t kidoba sa esete n) e s ne zzu k Bi e s a teljes regresszio bo l sza rmazo B k R -ban. Ez a Cook ta volsa g. Azt me ri, hogy mennyire mozdı tja el az adott megfigyele s kidoba sa a regresszios egyenest, teha t a megfigyele s befolya sossa ga t me ri, e s ha ez nagy, akkor outlier-nek tekinthetju k. 25 / 27
Rezidua lis elemze s b normalita sra linearita sra e s homoszkedaszticita sra A rezidua lisokat (Y Y) (homo= homoge n + skedastikos = (sze t)szo ro dni ke pes (go ro g)) tesztelju k. Homoszkedaszticita s = homoge n szo ra s. A ltala ban a regresszio az outliereket kive ve robusztus. Le tezik ku lo n robusztus regresszio s elja ra s is. Ha nem norma lisak a rezidua lisok, akkor a tesztek nem pontosak. Legala bb szimmetria legyen az eloszla sban. Nemlinearita s vagy heteroszkedaszticita s nem e rve nytelenı ti csak gyengı ti a regresszio t, a kapcsolat egy re sze t felta rtuk de maradt ismeretlen hata s is. A heteroszkedaszticita s sza rmazhat a magyara zo ko lcso nhata sbo l, egyes va ltozo k ferdese ge bo l. va ltozo k ko zo tti 26 / 27
Scatterplotok Vizua lis elemze s, igen hasznos. Predicted vs. residuals: linearita s tesztele se re. Ha valamilyen minta zat la tszik a ploton, akkor valamilyen nemlinea ris hata s (kvadratikus trend etc.) is jelen van. Observed vs. residuals: pontosı ta shoz: ha van nemlinearita s, honnan sza rmazik. Sok plot is lehet - ko ru lme nyes. ANOVA ta bla ugyanerre Residuals vs deleted residuals instabilak-e a regresszio s egyu tthato k Normal plot of residuals - normalita svizsga lat 27 / 27