A regressziószámítás gyakorlati kérdései A Szent István Egyetem Állatorvosi Kar Biomatematikai és Számítástechnikai Tanszék, Budapest és az Bécsi Állatorvosi Egyetem Biofizika és Biostatisztika Tanszék, Bécs közös tanfolyama. Letölthető a www.univet.hu/users/jreiczig/omaa-courses-1 címről További információk: Dr. Reiczigel Jenő (Reiczigel.Jeno@aotk.szie.hu) Készült az AKCIÓ Osztrák-Magyar Alapítvány támogatásával (1999-1)
Tartalomjegyzék A regressziószámítás célja 3 A legegyszerűbb modell (simple lin. regr.) 9 Regressziós modellek 11 A változók transzformálása 1 Többszörös (multiple) regresszió 17 Többszörös és parciális korreláció 1 Polinomiális regresszió Multikollinearitás 3 Logit és probit modellek 6 Regressziós diagnosztika 9 Néhány további fogalom röviden 37 Ajánlott irodalom 38
A regressziószámítás célja A regressziószámítást akkor használjuk, amikor függvényszerű kapcsolatot keresünk egy vagy több magyarázó változó (vagy független változó) és egy függő változó között. Szokásosan a magyarázó változókat X-ekkel, a függő változót pedig Y -nal jelöljük. Feltételezzük, hogy az X-ek és az Y közötti összefüggés kifejezhető függvény formájában, azaz X Y vagy Y = f(x) pl. TESTSÚLY = f (KOR) X 1, X,, X r Y vagy Y = f(x 1, X,, X r ) pl. TESTSÚLY = f (KOR, SZÜLETÉSI_SÚLY) Ahhoz, hogy regressziószámítást végezhessünk, mind a magyarázó, mind a függő változót ismernünk kell ugyanazokon a megfigyelési egységeken (egyedeken), azaz a kiinduló adatok egy magyarázó változó esetén (x 1,y 1 ), (x,y ), (x 3,y 3 )... (x n,y n ) értékpárok, több magyarázó változó esetén pedig (x 11, x 1, x 13,, y 1 ), (x 1, x, x 3,, y ), (x 31, x 3, x 33,, y 3 )... (x n1, x n, x n3,, y n ) vektorok. Ez az úgynevezett adatmátrix. Egy magyarázó változó esetén több magyarázó változó esetén 1. egyed: x 1 y 1 x 11 x 1 x 13 y 1. egyed: x y x 1 x x 3 y 3. egyed: x 3 y 3 x 31 x 3 x 33 y 3 n-ik egyed: x n y n x n1 x n x n3 y n 3
4 A regressziószámítás szokásos kérdésfeltevései Van-e bizonyos változók között összefüggés, Függ-e a borjak 3 napos testtömege a születési súlyuktól? Milyen függvénnyel (lineáris, exponenciális, stb.) írható le az összefüggés, Alkalmas-e ennek az összefüggésnek a leírására a lineáris függvény? Mi a függő változó várható értéke a magyarázó változó egy bizonyos értékéhez, Mekkora 3 napos testtömeget várhatunk, ha a születési súly 45 kg? Mi a magyarázó változó feltételezhető értéke a függő változó egy bizonyos értékéhez, Mekkora születési súly küszöb feletti állatokat szelektáljunk, ha az a cél, hogy 3 napos korban az állatok (legalábbis átlagban) elérjék az 55 kg-ot? A cél lehet oksági kapcsolat megállapítása X és Y között, gyakran azonban csak következtetni szeretnénk az egyik változó értékéből a másikra, a közöttük tapasztalt összefüggés alapján. Feltételezzük, hogy mind a magyarázó, mind a függő változó intervallum skálán mérhető. Egyes modellekben dichotom (=kétértékű, bináris, /1, igen/nem) változók is előfordulhatnak. Például a logit és probit modellekben a függő változó /1 változó (ott a magyarázó változók folytonosak). Tágabb értelemben a varianciaelemzés is felfogható regressziószámításnak, mesterséges /1változók (=dummy változók) bevezetésével.
5 Példa: A születési súly és a 3 napos testtömeg összefüggése 3 borjú adatai alapján (Bajcsy Á. Csaba és munkatársai, Szülészeti Tanszék). Bár egyértelmű a pozitív összefüggés a két adat között, a szóródás túlságosan nagy ahhoz, hogy a születési súly alapján jó előrejelzést adhatnánk a 3 napos testtömegre. 7 65 6 55 5 45 4 3 napos testtömeg (kg) Születési súly (kg) 35 3 35 4 45 5 55 Melyik változó legyen a magyarázó és melyik a függő változó? Ez mindig attól függjön, hogy milyen irányú oksági kapcsolatot, illetve milyen véletlen hatásokat tételezünk fel a változók között, és NE attól, hogy melyik változót szeretnénk a másik alapján előrejelezni. Előfordulhat, hogy az ismeretlen X-et szeretnénk meghatározni a megfigyelt Y -ból, bár a regressziós modell Y = f (X) + ε. Ez az úgynevezett inverz regresszió. Például ha ugyanarra a mérésre két módszer is van, az A1 (lassú, drága, de pontos) és a A (olcsó, gyors, de kevésbé pontos), a helyes regressziós modell V = V1 + ε (a pontatlan módszer tartalmazza a hibát), de a természetes előrejelzési feladat a V V1.
Véletlenség a magyarázó és a függő változóban A függő változó mindig valószínűségi változó, a magyarázó változók azonban nem biztos. Általában úgy gondoljuk, hogy Y két független, additív komponesre bontható: az egyik az X- ektől függ, a másik pedig egy, az X-ektől független véletlen faktor, azaz Y = f (X ) + ε. magyarázó változó(k) hatása függő változó véletlen komponens (=minden egyéb hatás) Fel szokás tenni, hogy a véletlen komponens várható értéke, azaz E(ε)= és hogy eloszlása szimmetrikus, a statisztikai tesztek kedvéért pedig még azt is, hogy normális eloszlású. Mivel Y valószínűségi változó, X értéke nem határozza meg teljesen Y-t, csak Y eloszlására van hatással. Ezért adott X = x esetén vagy az Y feltételes eloszlását, vagy (gyakrabban) a feltételes várható értékét E(Y X = x ) szokták vizsgálni. (Például gondoljunk azon borjak 3 napos testtömegének eloszlására, illetve várható értékére, amelyeknek születési súlya 35 kg). A magyarázó változóban háromféle véletlenséget szoktak megkülönböztetni: - X egyáltalán nem véletlen változó, a kísérlet vezetője állítja be, MODEL I - bár a természet állítja be az X értékét, de az pontosan ismert, - a mért X nem azonos az Y-t befolyásoló változóval (mérési pontatlanság miatt, vagy mert X elvont, nem mérhető, pl. ha X = intelligencia IQ). Ezt az esetet itt nem tárgyaljuk. MODEL II 6
Korreláció- vagy regressziószámítás? A legfontosabb különbségek a két módszer között: - a korrelációszámítás szimmetrikus kapcsolatot tételez fel az X és Y között, míg a regressziószámítás egy bizonyos irányú (X Y) kapcsolatot, - míg a korrelációszámításban mindkét változó valószínűségi változó, a regressziószámításban X nem feltétlenül az (nem feltétlenül függ a véletlentől). A korrelációszámításnak nincs értelme akkor, ha az X értékeit a kísérletező állítja be (pl. egy gyógyszer dózisát). Gyakran mindkét módszer alkalmazható, ha megfelelően átfogalmazzuk a kérdéseket. Mindig gondoljuk meg azonban, melyik fogalmazás tükrözi jobban, hogy valójában mi is érdekel! Tegyünk fel korrelációs és regressziós megközelítésű kérdéseket a következő (vagy hasonló) mért adatok közötti összefüggésekkel kapcsolatban és beszéljük meg ezeket! cipőméret és testsúly testmagasság és testsúly vérnyomás és testsúly vérnyomás és életkor Na és K koncentráció a vérben age and body weight 7
NE használjunk regressziószámítást - ha két mérési módszer közötti egyezést vizsgálunk és nem pedig azt, hogy hogyan fejezhető ki egyik mérési eredmény a másikkal. Ilyenkor a korrelációelemzésnek sincs értelme, hiszen az erős korreláció sem feltétlenül jelent jó egyezést erős korrelációt kaphatunk nagy szisztematikus hiba (torzítás) esetén is (ha X = X 1 + 1, a korrelációs együttható = 1). Ha a mérési eredmények egyezése érdekel, legjobb, ha a különbséggel (abszolút vagy relatív) számolunk. (DE végezhetünk regresszió- <nem korreláció!> számítást, ha az egyik mérési módszert pontosnak tekintjük, és arra vagyunk kíváncsiak, hogyan lehet a másikat korrigálni.) - ha nem tudjuk eldönteni, melyik változót tekintsük magyarázó és melyiket függő változónak (ez nem csupán technikai kérdés, hanem a véleményünket tükrözi arról, hogy mi mitől függ, illetve, hogy mit tételezünk fel a véletlen faktorokról), - ha tudjuk, hogy a magyarázó változó a függő változóval azonos nagyságrendű véletlen hibával terhelt, vagy általánosabban fogalmazva, ha tudjuk, hogy az Y nem a mért X-től függ, hanem egy ismeretlen "valódi értéktől", (jelöljük X*-gal) azaz X* Y, a megfigyelt X érték pedig X = X* + δ ahol δ az X*-tól független véletlen faktor. (DE ha feltehetjük, hogy δ nem a valódi, hanem a mért X-től független, akkor alkalmazhatunk regressziószámítást.) 8
Lineáris regresszió egy magyarázó változóval (simple linear regression) a) Az általános modell egy magyarázó változóval: Y = f(x) + ε 9 b) Ugyanez lineáris függvénnyel: Y = β + β 1 X + ε c) Az együtthatók becslése az adatokból: a legkisebb négyzetek módszere ( LS módszer ) a becsléseket b, b 1 jelöli (máshol lehet még b ˆ ˆ, b1) Y estimated line Y=b +b 1 X observed data true line Y= β + β 1 X d) Hipotézisvizsgálat ("Valóban függ az Y az X-től?") t-próba H : β 1 = ( β 1 = azt jelenti, hogy Y nem függ X-től a modellben! ) próba-statisztika: b 1 / SE ( b 1 ) ahol SE ( b 1 ) -et az adatokból becsüljük null-eloszlás: Student-féle t eloszlás n szabadsági fokkal F-próba ugyanarra (ekvivalens csak több magyarázó változó esetén különbözik) Y teljes szórása = Y X-től való függéséből eredő szórása + Y egyéb hatások miatti szórása ("véletlen hiba") Σ ( Y i Y ) = Σ ( f (X i ) Y ) + Σ ( Y i f (X i) ) Teljes SSQ = Regressziós SSQ + HIba (=reziduális) SSQ Mindkét teszthez szükséges: a véletlen faktor (=ε) független, normális eloszlású legyen! X
1 e) Az illeszkedés jóságának mérése: R (determinációs koefficiens, Regressziós SSQ / Teljes SSQ), reziduumok (a megfigyelt és a számított Y értékek eltérése - az ε becslése). f) Konfidencia-intervallumok a paraméterekre (a β i -kre: b i ± t crit SE( b i ), ahol t crit az (n ) szabadsági fokú t eloszlás kritikus értéke, és SE( b i ) -t az adatokból becsüljük. Konfidenciasáv a regressziós egyenesre / az egyes Y értékekre ugyanazok a feltételek szükségesek, mint a hipotézisvizsgálathoz! Az ábrán (a borjak adatai), a lila vonalak jelölik a regressziós egyenesre vonatkozó, a zöld vonalak pedig az egyes pontokra vonatkozó 95%-os konfidenciasávot. Figyeljük meg, hogy az X tartomány szélei felé haladva a becslések egyre bizonytalanabbak. (A legkisebb a bizonytalanság az X értékek átlagánál.) 7 65 6 55 5 45 4 35 3-day body weight (kg) Birth weight (kg) 3 35 4 45 5
11 Regressziós modellek Egy regressziós modell legfontosabb összetevői a változók közötti kapcsolatot leíró függvény típusa (lineáris, négyzetes, exponenciális, stb.) és a feltevések arról, hogy hogyan befolyásolja a véletlen az adatokat (pl. hogy az Y véletlen komponense additív-e vagy multiplikatív). A regressziószámítás végrehajtásának lépései 1. Informális modell (mik a fontos változók mi mitől függ ; grafikon-rajzolás). Formális modell (a függvénytípus megválasztása, a véletlenség a modellben) 3. A modell-paraméterek becslése (a legjobban illeszkedő görbe/felület megkeresése) 4. A modell jóságának vizsgálata - F-próba (az illeszkedés globális vizsgálatára), - t-próba (az egyes paraméterek egyenkénti vizsgálatára), - R (a kapcsolat szorosságát, a függő változó meghatározottságát méri), - a regressziószámításhoz szükséges feltételek ellenőrzése (reziduumok vizsgálata, regressziós diagnosztika) Fontos, hogy lássuk a különbséget az alábbi fogalom-párok között: valódi összefüggés feltételezett modell (a reziduális elemzés segít megtalálni a helyes modellt) valódi becsült paraméterek (konfidencia-intervallumok, standard hibák) megfigyelt számított Y érték (konfidencia-sávok) véletlen faktor (ε ) reziduum (e i )
A változók transzformálása A transzformációk olyankor segíthetnek, amikor a megfigyelt adatokra a lineáris regresszió közvetlenül nem alkalmazható. Néha elméleti megfontolásokból következik, hogy a változók közötti kapcsolat nem lineáris: Tumor átmérője térfogata ( gömb / ellipszoid térfogata hatványfüggvény) Gyógyszer dózis hatás görbéje (logisztikus görbe vagy hasonló S-alakú görbe) Máskor a megfigyelt adatok ugyan egyértelműen arra utalnak, hogy az X és az Y között van összefüggés, de ha a pontokra egyenest illesztünk, az illeszkedés nagyon rossz. Antibiotikum koncentrációja baktériumkultúrák átlagos átmérője Antibiotikum koncentrációja baktériumkultúrák átlagos területe Antibiotikum koncentrációja baktériumkultúrák átlagos száma Szerv területe az ultrahang-készülék képernyőjén a szerv térfogata Tumor térfogata túlélési idő hossza Az első esetben az elméleti megfontolások arra vonatkozóan is útmutatást adnak, hogy milyen függvénytípust válasszunk, a másodikban pedig az adatok grafikus ábrázolása segíthet: - a kétváltozós szórásdiagramok a modell-választáshoz nyújtanak segítséget, - a hisztogram, boxplot, stb. az adatok eloszlásának vizsgálatában (szükséges feltevések!). 1
Azokban az esetekben, amikor az X és Y közötti összefüggés nem lineáris, lineáris összefüggés állhat fenn valamely X és Y transzformált változók között. Ha elméleti megfontolásokból nem következik, hogy milyen transzformációval érdemes próbálkozni, akkor szórásdiagramok segítségével választhatjuk ki a legmegfelelőbbet. Mivel a legtöbb számítógépes programban egy gombnyomással kérhető, a logaritmus-transzformációt próbáljuk ki rutinszerűen! NB. A logaritmus csak pozitív számokra van értelmezve! Ha vagy negatív X és/vagy Y értékek is előfordulnak, szokás egy alkalmas állandót hozzáadni az értékekhez, mielőtt a logaritmus vesszük, például log(x+1)-et venni log(x) helyett. Mindig gondoljuk végig, hogy egy ilyen transzformáció interpretálható-e, meg tudjuk-e magyarázni, mi az értelme. exponenciális görbe log. skála az y tengelyen egyenes 13 1 8 6 4 5 1 1 1 5 1
14 logaritmus-görbe log. skála az x tengelyen egyenes 3 3 1 5 1 1 1 1 hatványfüggvény log. skála mindkét tengelyen egyenes 3 1 1 1 1 5 1 1 1 1
A transzformációk érinthetik mind a regressziós függvényt, mind a véletlenséget a modellben (utóbbit akkor, ha a függő változót transzformáljuk). Példák: 1. Ha a regresszió lineárissá válik az Y log-transzformálásával: log Y = β + β 1 X + ε akkor a függvény exponenciális, multiplikatív hibával: Y = e β e β 1X e ε Multiplikatív hiba: a véletlen faktor nem hozzáadódik a függvényértékhez, hanem összeszorzódik vele. Ekkor nagyobb függvényértékhez nagyobb Y szórás tartozik. (NB. a relatív szórás állandó!). Ha a regresszió lineárissá válik X és Y log-transzformálásával: log Y =β +β 1 log X +ε akkor a függvény hatványfüggvény, multiplikatív hibával: Y = e β x β 1 e ε 3. Ha a regresszió lineárissá válik az X log-transzformálásával: Y =β +β 1 log X +ε akkor a függvény logaritmus-függvény, additív hibával. Ugyanilyen elterjedt a hatvány- és a gyök-transzformáció. A gyökök (relatíve) összehúzzák a nagy értékek tartományát, az (egynél nagyobb) hatványok pedig a kis értékekét. Ha a mért értékek helyett rangokkal dolgozunk, a változót teljesen skála-függetlenné tehetjük. Megjegyzések: A fent említettek mind monoton transzformációk. Ha a változó értéktartománya szűk, a rangok kivételével az összes többi kb. egyenértékű. Gyakorisági adatokra az arcus sinus transzformációt is szokták alkalmazni. 15
A transzformációk statisztikai modell hiányában is hasznosak lehetnek. Segíthetnek az adatok jobb megismerésében és ábrázolásában, szebb grafikonok készítésében, stb. Példa a transzformációs lehetőségekre az összefüggés linearizálásában: 16 1 4 5 1 1 1-1 -4 1 eredeti összefüggés négyzetgyök Y 4-ik gyök Y logaritmus Y Megjegyzések: A transzformációkat nemcsak az összefüggés linearizálására, hanem szórás-kiegyenlítésre és az eloszlások szimmetrizálására is szokták használni. (Persze előfordulhat, hogy az a transzformáció, amely linearizálja az összefüggést, elrontja a szórások egyenlőségét, stb.) A transzformáció megválasztásánál fontos szempont az interpretálhatóság. A transzformáció útján történő linearizálás nem az egyetlen lehetőség a nemlineáris összefüggések kezelésére. Léteznek eljárások lineárissá nem transzformálható ( intrinsically nonlinear ) modellek illesztésére is.
Többszörös (multiple) regresszió Gyakran indokolt a függő változót egyszerre több magyarázó változóval is (X 1, X,..., X r ) összefüggésbe hozni. A teljesen általános modellben azt tételezzük fel, hogy az Y kifejezhető, mint az X-ek valamely függvénye plusz egy véletlen faktor (=additív hiba!): Y = f (X 1, X, X 3,..., X r ) + ε. Többszörös lineáris regresszióról akkor beszélünk, ha a függvény lineáris: Y = β + β 1 X 1 + β X + β 3 X 3 +... + β r X r + ε. megfigyelt számított hiba Hogy a borjak 3 napos súlyára pontosabb előrejelzést kapjunk, ésszerűnek tűnhet további magyarázó változóként az első 6 napi súlygyarapodást is bevonni. Az így kibővített modell WEIGHT3 = f (SZÜLETÉSI_SÚLY, SÚLYGYARAPODÁS_6) + ε, vagy ha a lineáris modellt választjuk WEIGHT3 = β + β 1 SZÜLETÉSI_SÚLY + β SÚLYGYARAPODÁS_6 + ε. A paraméterek becslését itt is a legkisebb négyzetek módszerével szokás végezni. A becsült paramétereket szokásosan b, b 1,..., b r jelöli, azaz a becsült regressziós egyenlet alakja Y = b + b 1 X 1 + b X + b 3 X 3 +... + b r X r + e, megfigyelt számított reziduum ahol a reziduum (=maradéktag) a véletlen faktor (ε ) becslésének tekinthető. 17
A lineáris függvény grafikonja (a valódié is és a becsülté is, de az ε vagy e tagoktól eltekintve) egy r-dimenziós sík (= hipersík ) az (r+1)-dimenziós térben. A megfigyelt Y értékek e hipersík körül helyezkednek el. A következő ábra két magyarázó változó (X 1 és X ) esetén szemlélteti a fentieket, amikor a regressziós felület egy közönséges kétdimenziós sík a háromdimenziós térben. Ezen az ábrán a becsült regressziós síkot ábrázoltuk. A kék pontok a megfigyelt adatoknak felelnek meg, a kék vonalak pedig a megfigyelt és a számított (=a felületen lévő) értékek eltérésének, azaz a reziduumoknak. A grafikonról azt az összefüggést olvashatjuk le, hogy ha X 1 nő, akkor a számított Y csökken, azaz az Y az X 1 -nek csökkenő függvénye. Ez azt is jelenti, hogy a becsült b 1 regressziós együttható negatív (számszerű értéke a sík meredeksége az X 1 irányában a grafikonról leolvasva körülbelül.5). Hasonló a helyzet X -vel is (a grafikonról leolvasva b értéke is körülbelül.5). A b regressziós együttható (amelyet konstans tag -nak is neveznek) jelentése: az Y számított értéke az X 1 = X = pontban (értéke a grafikonról leolvasva körülbelül 14). 18
Példa (borjak növekedése) Ha a születési súly mellé az első 6 napi súlygyarapodást is bevonjuk a regressziós modellbe, azt kapjuk, hogy a 3 napos súly gyakorlatilag nem függ ettől a változótól, azaz az előrejelzés nem válik pontosabbá. Ezt mutatja a becsült regressziós függvény grafikonja is. 19 (Megjegyezzük, hogy a grafikonok sok magyarázó változó esetén kevésbé szemléletesek.)
A hipotézisvizsgálatok lényegében ugyanazok itt is, mint egy magyarázó változó esetén. t-próbák az Y egy-egy magyarázó változótól való függésének tesztelésére: H i : β i= ahol i=1,,..., r (β i= azt jelenti, hogy az Y nem függ X i-től a modellben) próba-statisztika: b i / SE ( b i ) ahol SE ( b i ) -t az adatokból becsüljük null-eloszlás: Student-t eloszlás ( n r 1 ) szabadsági fokkal F-próba az Y összes X-ektől való (együttes) függésének tesztelése H együttes : minden β i = (ez azt jelenti, hogy az Y a modellbeli egyik X i -től sem függ) Az F-próba itt is az Y szórásának (tkp. eltérés-négyzetösszegének) felbontásán alapul Az Y teljes szórása = Az Y-nak a magyarázó változóktól való függéséből eredő szórása + Az Y egyéb hatások miatti szórása ("véletlen hiba") Teljes SSQ = Regressziós (modell, magyarázott) SSQ + Hiba (reziduális) SSQ próba-statisztika: a Regressziós SSQ / r osztva a Hiba SSQ / ( n r 1 ) -gyel null-eloszlás: F-eloszlás ( r és n r 1 ) szabadsági fokokkal. Konfidencia-intervallumokat is a szokásos módon adhatunk a β i regressziós együtthatókra: b i t krit SE ( b i )... b i + t krit SE ( b i ), ahol t krit az (n r 1) szabadsági fokú t-eloszlás megfelelő kritikus értéke, SE(b i)-t pedig az adatokból becsüljük. Konfidencia-sávok is hasonlóan kaphatók a valódi regressziós felületre és az egyedi pontokra is (ezeket már nem szokták kézzel számolni). A szükséges feltételek is a szokásosak (a tesztekhez is): független, normális eloszlású ε.
Többszörös és parciális korreláció A többszörös korreláció a függő változó és több magyarázó változó összessége között mért korreláció. Definíciója R ( Y, {X 1, X,..., X r }) = R ( Y, Y (becsült) ), ahol Y (becsült) a többszörös lineáris regresszióval Y-ra nyert becslés. Jegyezzük meg, hogy Y (becsült) az X -eknek az a speciális lineáris kombinációja, amelynek a megfigyelt Y változóval a legnagyobb a korrelációja. Általában a többszörös korreláció egy valószínűségi változó és valószínűségi változók egy halmaza között hasonlóképpen definiálható. Ennek négyzete (R ) az úgynevezett determinációs együttható, amely azt mutatja meg, hogy a magyarázó változók a függő változó igadozásának hány százalékát magyarázzák. Az Y 1 és Y változók közötti parciális korreláció a köztük levő korreláció, miután valószínűségi változók egy X 1, X,, X r halmazának a korrelációjukra vonatkozó (lineáris) hatását kiküszöböltük. Definíciója R ( Y 1, Y X 1, X,..., X r ) = R ( Y 1 - Y 1 (becsült), Y - Y (becsült) ) (becsült) (becsült) ahol Y 1 és Y az Y 1 és Y változó többszörös lineáris regresszióból származó becslése az X 1, X,, X r magyarázó változók mellett. Más szóval, a parciális korreláció Y 1 és Y között a köztük lévő reziduális korreláció, miután néhány egyéb változó hatását többszörös lineáris regresszióval kiküszöböltük. 1
Polinomiális regresszió Az egyszerű lineáris regresszió úgy is általánosítható, hogy a modell a magyarázó változó magasabb hatványait is tartalmazza. A polinomiális modell szoros kapcsolatban áll a többszörös lineáris regressziós modellel, de itt r különböző magyarázó változó helyett ugyanannak a magyarázó változónak r egymást követő hatványa szerepel a regresszióban. Valójában X különböző hatványait különálló magyarázó változóknak tekintjük: Y = β + β 1 X + β X + β 3 X 3 +... + β r X r + ε A polinomiális regressziót tipikusan olyankor alkalmazzuk, amikor a várt görbének minimuma vagy maximuma van. A fokszám legyen a lehető legalacsonyabb! Harmadfokúnál magasabb fokú polinomokat ritkán használunk, mert a paraméterek értelmezése csaknem lehetetlen (az értelmezhetetlen modelleknek nincs gyakorlati értékük, még akkor sem, ha jól illeszkednek). Ha a fokszám megközelíti a megfigyelések számát, a szignifikancia-teszt problematikussá vagy lehetetlenné válik ( overfitting ). Ha van egy, az adatainkra esetleg kevésbé jól illeszkedő modellünk, amely jobban értelmezhető, mint a polinomiális, használjuk inkább azt! Itt nem vizsgálunk minden együtthatót, csak egy általános ellenőrzés történik F-próbával, valamint a legnagyobb fokú tag együtthatójának tesztelése (H: β r = ) annak az eldöntésére, hogy a polinom fokszáma helyesen lett-e megválasztva.
3 Multikollinearitás (vagy egyszerűen kollinearitás ) Multikollinearitásról akkor beszélünk, ha a magyarázó változók nem függetlenek egymástól, hanem erősen korreláltak. Ez akkor is előfordulhat, ha a páronkénti korrelációk kicsik ezért a többszörös korrelációkat kell vizsgálnunk. Ez kizárólag a magyarázó változók tulajdonsága semmi köze a függő változóhoz! Kollinearitás esetén - az egyes magyarázó változók hatását a függő változóra nem lehet szétválasztani, - a magyarázó változók átvehetik egymás szerepét a regressziós egyenletben, - következésképp a regressziós együtthatók becslésekor növekszik a bizonytalanság: magas SE értékek jelentkeznek, az együtthatók nem-szignifikánssá válhatnak, - sőt a számítási folyamat lefagyhat. Szokásos mérőszámok az érintett változók meghatározására - négyzetes többszörös korreláció az i-ik magyarázó változó és a többi magyarázó változó között: R i (1-hez közeli érték kollinearitást jelez fontoljuk meg a változó kihagyását!), - tolerancia: 1 R i (-hoz közeli érték kollinearitást jelez) - VIF (variancia infláció faktor): 1/(1-R i ) (nagy értékek { >1? } kollinearitást jeleznek)
Példák a multikollinearitásra Tegyük fel, hogy meg akarjuk jósolni a borjak 3 napos testsúlyát a születési súly és a 6 napos korban mért súly alapján. A születési súly és a 6 napos súly közti szórásdiagram nagy korrelációt mutat, ezért ezek használata kollinearitási problémákat okozhat. A természetes megoldás a 6 nap alatti súlygyarapodás használata a 6 napos súly helyett. A második szórásdiagramon látható, hogy a 6 napos súlygyarapodás és a születési súly gyakorlatilag korrelálatlanok. 4 5 6-day weight (kg) 3 6-day weight gain (kg) 4 Birth weight (kg) 3 3 4 5 1 Birth weight (kg) 3 4 5 A kollinearitás fenti mértékei ebben az esetben: R =.97, tolerancia=.78, VIF= 35.97 R =.81, tolerancia=.9919, VIF= 1.8
A kollinearitás tipikusan előfordul a polinomiális regresszióban is, ahol a magyarázó változók ugyanannak a változónak a hatványai, pl. x, x, x 3 stb., ezért erősen korreláltak lehetnek. Ilyen esetekben segít a centrálás. Például x és x helyett használható x és ( x - x ). Hasonló kérdéseket az ortogonális polinomok elmélete tárgyal. 5 4 x = x 1 7 6 x = ( x 1 - x 1 ) 3 5 4 3 1 x 1 1 x 1 1 3 4 5 6 1 3 4 5 6 A kollinearitás mértékei: R =.9583, tolerancia =.417, VIF = 3.98 R =, tolerancia = 1, VIF = 1.
Logit és probit modellek Egyes vizsgálatokban a célváltozó bináris, azaz lehetséges értéke van, mint például túlélés vagy halál, siker vagy kudarc, stb. Ezekben az esetekben csaknem természetes feltételezni, hogy a magyarázó változók az eredmény bekövetkezési valószínűségében játszanak szerepet, ezért a bekövetkezés valószínűségét tekinthetjük függő változónak. Folytonos magyarázó változók esetén, amelyek és + között értelmezettek, a legegyszerűbb modell, a többszörös lineáris regresszió alkalmazhatatlan, mert a becsült értékek nem feltétlenül fognak és 1 közé esni. A logit modell alapgondolata a valószínűség logit értékének használata függő változóként. A logit transzformáció a és 1 közötti intervallumot képezi le és + közé. Képlete logit (Y ) = ln ( Y / (1 Y ) ) lásd a grafikont Így a regressziós egyenlet logit (Y ) = β + β 1 X 1 + ε egyszerű regresszió (1 magyarázó változó) esetén vagy logit (Y ) = β + β 1 X 1 + β X +... + β r X r + ε többszörös regresszió (több magyarázó változó) esetén. -5 5 4 3 1-1 - -3-4 logit probab.,5 1 6
7 A logit transzformáció inverzét használva 1 probab. invlogit (U) = exp(u) / (1 + exp(u) ) felírhatjuk a regressziós egyenletet közvetlenül a valószínűséget használva függő változóként (természetesen ebben a formában a regresszió nem lesz lineáris). exp( β + β1x1 + β X +... + β r X r ) Y = 1+ exp( β + β X + β X +... + β X 1 1 r r + ε ) Megjegyezzük, hogy az egyenletnek ez a formája másfajta véletlenszerűséget feltételez egy additív hibatagot Y-ban mint az előző, amelynél logit (Y) tartalmazott egy additív hibatagot. A grafikonon látható, hogy X azonos mértékű megváltozása Y különböző mértékű változását eredményezheti X értékétől függően. A szélek felé haladva a függőség egyre gyengül. Az általános logisztikus regresszió bármilyen függő változóval használható, nem csak valószínűséggel. A függő változó minimuma és maximuma paraméterként megadható ebben a modellben. A regressziós egyenlet a következő: Y = MIN + ( MAX exp( β + β1x1 + β X +... + βr X r ) MIN) + ε 1+ exp( β + β X + β X +... + β X ) 1 logit -8-3 7 1,5 r r
8 Az általános logisztikus regresszió főbb alkalmazási területei a a) növekedési görbék, b) dózis-válasz összefüggések, és a c) bioassay típusú vizsgálatok. A probit egy másik transzformáció, mely a logit transzformációhoz hasonlóan a és 1 közötti intervallumból képez a és + közti tartományba. Ez a standard normális eloszlás eloszlásfüggvényének (Φ) inverz függvényét használja a transzformációhoz. probit (Y ) = Φ -1 ( Y ) lásd a grafikont Jegyezzük meg, hogy sem Φ, sem Φ -1 nem írható fel analitikus alakban, azaz nincsen képletük, értékeik csak numerikus módszerekkel számíthatók ki. A probit modell a valószínűség probit értékét használja függő változóként. Ez annak a feltételezésnek felel meg, hogy a bináris kimeneti változó értékét egy, a háttérben lévő normális eloszlású valószínűségi változó határozza meg. A grafikon hasonló a logit-éhoz, sőt a regressziós eredmények -4 is többé-kevésbé azonosak a legtöbb esetben. -5 5 4 3 1-1 - -3 probit probab.,5 1
Regressziós diagnosztika Regressziós diagnosztikán a regressziós eredmények vizsgálatát értjük. Ide tartozik - az illesztett modell jóságának vizsgálata, - a regressziószámítás alkalmazhatóságához szükséges feltételek meglétének vizsgálata, - olyan adatpontok keresése, amelyek eltorzíthatják a regressziós eredményeket. A regressziós diagnosztika nagyrészt a reziduumok elemzéséből áll. Reziduumnak a megfigyelt értéknek a számítottól való eltérését nevezzük. Hogy lássuk, mi a reziduumok szemléletes jelentése, készítsünk ugyanazokról az adatokról két ábrát! Regressziós ábra Reziduumok ábrája 9 8 6 4 y 5 1 x 1-1 - resid. x 5 1 zero residual = perfect fit
Ha a modell megfelelő, akkor a reziduumok olyanok, mintha csupán a regressziós egyenes (vagy felület) körüli véletlen eltérések lennének. Ha nem, próbáljunk egy jobb modellt találni (válasszunk másik regressziós függvényt, vagy használjunk további magyarázó változókat)! Regressziós ábra Reziduumok ábrája 3 8 y 6 4 x 5 1 5 y 15 1 5 x 5 1 6 4-1 -1 - resid. 5 1 resid. horseshoe -pattern Residuals look random here! Residuals show rather systematic pattern here check the model! 5 1 x x
Ha a reziduumok nagyságrendje függ X nagyságától, az azt jelzi, hogy a hiba (ε) szórása nem állandó. Például a következő ábrán növekvő X esetén a reziduumok is egyre nagyobbak. 31 3 y 15 resid. 1 5 1 x 5-5 -15 5 1 x (Többszörös regresszió esetén, ha ugyanerre kíváncsi valaki, a reziduumokat a számított Y értékek függvényében érdemes ábrázolni. lásd ) Ha a hiba szórása nem állandó, akkor próbálkozhatunk transzformációkkal, vagy használhatjuk a súlyozott legkisebb négyzetek módszerét (WLS) a becslésre (a súlyokat a varianciával fordítottan arányosan kell megválasztani). Többszörös regresszió esetén, ha a reziduumokat az egyik x i magyarázó változó függvényében ábrázolva patkó alakú mintázatot kapunk, próbáljuk meg az x i kvadratikus tagot bevenni a modellbe (mint magyarázó változót). Ha a reziduumok két magyarázó változó (x i és x k ) szorzatával korrelációt mutatnak, megpróbálhatjuk a szorzatot is bevenni a modellbe. 15 5-5 -15 resid. predicted 5 1 15
3 A reziduumok normalitásának tesztelése A regressziószámítás esetén alkalmazott klasszikus statisztikai tesztek (mint például a t- és F- próbák) alkalmazhatóságának szükséges feltétele a véletlen tag (=a hibatag, ε) normalitása. Ezt a feltételt a reziduumokra alkalmazott közönséges normalitás-vizsgálattal (pl. khi-négyzet próba) lehet ellenőrizni. NB. Ennek a próbának csak akkor van értelme, ha a reziduumok véletlenszerűnek tűnnek, azaz nem mutatnak szisztematikus mintázatot. Outlierek és torzító pontok Egy megfigyelést akkor nevezünk outliernek, ha az adott X érték mellett Y értéke kiugró, és így a reziduum értéke különösen nagy (összehasonlítva a többi adatpontéval). Ezen az ábrán a pirossal jelölt pont tűnik outliernek. (Megjegyezzük, hogy az Y=1.36 érték csak a hozzátartozó X=5.77 értékkel kapcsolatban kiugró). A fekete egyenes az egész adathalmazra illesztett regressziós egyenes, a zöld pedig az outlier nélküli adatokra illesztett. Ebben a példában az outlier nem nagyon befolyásolja a becsült regressziós együtthatókat. 8 6 4 y 5 1 x