és az közös tanfolyama. Készült az AKCIÓ Osztrák-Magyar Alapítvány támogatásával (1999-2001)



Hasonló dokumentumok
Az állat becsült kor. teljes súly. teljes hossz orrtól. törzs hossza. pocak körkörös méret. hátsó láb hossza kör

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Mérési adatok illesztése, korreláció, regresszió

Regressziós vizsgálatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Korreláció és lineáris regresszió

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Többváltozós lineáris regressziós modell feltételeinek

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

[Biomatematika 2] Orvosi biometria

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Segítség az outputok értelmezéséhez

A leíró statisztikák

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

(Independence, dependence, random variables)

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

6. Függvények. Legyen függvény és nem üreshalmaz. A függvényt az f K-ra való kiterjesztésének

Adatok statisztikai értékelésének főbb lehetőségei

Matematikai geodéziai számítások 6.

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Varianciaanalízis 4/24/12

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Korrelációs kapcsolatok elemzése

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Bevezetés a Korreláció &

Matematikai geodéziai számítások 6.

A mérési eredmény megadása

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

1. Gauss-eloszlás, természetes szórás

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Regresszió számítás az SPSSben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mérési hibák

Matematikai statisztika c. tárgy oktatásának célja és tematikája

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Függvények

Függvények Megoldások

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Statisztika elméleti összefoglaló

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

5. előadás - Regressziószámítás

Least Squares becslés

Normális eloszlás tesztje

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Többváltozós Regresszió-számítás

Pontműveletek. Sergyán Szabolcs Óbudai Egyetem Neumann János Informatikai Kar február 20.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

A maximum likelihood becslésről

Logisztikus regresszió

Likelihood, deviancia, Akaike-féle információs kritérium

6. Függvények. 1. Az alábbi függvények közül melyik szigorúan monoton növekvő a 0;1 intervallumban?

A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉP SZINT Függvények

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Figyelem, próbálja önállóan megoldani, csak ellenőrzésre használja a következő oldalak megoldásait!

Számítógépes döntéstámogatás. Statisztikai elemzés

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Függvények

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

y ij = µ + α i + e ij

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉPSZINT Függvények

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

[Biomatematika 2] Orvosi biometria

Biomatematika 2 Orvosi biometria

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Legkisebb négyzetek módszere, Spline interpoláció

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Abszolútértékes és gyökös kifejezések Megoldások

Kettőnél több csoport vizsgálata. Makara B. Gábor

b) Ábrázolja ugyanabban a koordinátarendszerben a g függvényt! (2 pont) c) Oldja meg az ( x ) 2

Minitab 16 újdonságai május 18

KOVÁCS BÉLA, MATEMATIKA I.

0-49 pont: elégtelen, pont: elégséges, pont: közepes, pont: jó, pont: jeles

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉP SZINT Függvények

STATISZTIKA. Mit nevezünk idősornak? Az idősorok elemzésének módszertana. Az idősorelemzés célja. Determinisztikus idősorelemzés

Heckman modell. Szelekciós modellek alkalmazásai.

MÉSZÁROS JÓZSEFNÉ, NUMERIKUS MÓDSZEREK

A Föld középpontja felé szabadon eső test sebessége növekszik, azaz, a

Biostatisztika VIII. Mátyus László. 19 October

Regressziós vizsgálatok

Feladatok a logaritmus témaköréhez 11. osztály, középszint

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

BIOMATEMATIKA ELŐADÁS

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉP SZINT Függvények

a) A logaritmus értelmezése alapján: x 8 0 ( x 2 2 vagy x 2 2) (1 pont) Egy szorzat értéke pontosan akkor 0, ha valamelyik szorzótényező 0.

1. Görbe illesztés a legkissebb négyzetek módszerével

Átírás:

A regressziószámítás gyakorlati kérdései A Szent István Egyetem Állatorvosi Kar Biomatematikai és Számítástechnikai Tanszék, Budapest és az Bécsi Állatorvosi Egyetem Biofizika és Biostatisztika Tanszék, Bécs közös tanfolyama. Letölthető a www.univet.hu/users/jreiczig/omaa-courses-1 címről További információk: Dr. Reiczigel Jenő (Reiczigel.Jeno@aotk.szie.hu) Készült az AKCIÓ Osztrák-Magyar Alapítvány támogatásával (1999-1)

Tartalomjegyzék A regressziószámítás célja 3 A legegyszerűbb modell (simple lin. regr.) 9 Regressziós modellek 11 A változók transzformálása 1 Többszörös (multiple) regresszió 17 Többszörös és parciális korreláció 1 Polinomiális regresszió Multikollinearitás 3 Logit és probit modellek 6 Regressziós diagnosztika 9 Néhány további fogalom röviden 37 Ajánlott irodalom 38

A regressziószámítás célja A regressziószámítást akkor használjuk, amikor függvényszerű kapcsolatot keresünk egy vagy több magyarázó változó (vagy független változó) és egy függő változó között. Szokásosan a magyarázó változókat X-ekkel, a függő változót pedig Y -nal jelöljük. Feltételezzük, hogy az X-ek és az Y közötti összefüggés kifejezhető függvény formájában, azaz X Y vagy Y = f(x) pl. TESTSÚLY = f (KOR) X 1, X,, X r Y vagy Y = f(x 1, X,, X r ) pl. TESTSÚLY = f (KOR, SZÜLETÉSI_SÚLY) Ahhoz, hogy regressziószámítást végezhessünk, mind a magyarázó, mind a függő változót ismernünk kell ugyanazokon a megfigyelési egységeken (egyedeken), azaz a kiinduló adatok egy magyarázó változó esetén (x 1,y 1 ), (x,y ), (x 3,y 3 )... (x n,y n ) értékpárok, több magyarázó változó esetén pedig (x 11, x 1, x 13,, y 1 ), (x 1, x, x 3,, y ), (x 31, x 3, x 33,, y 3 )... (x n1, x n, x n3,, y n ) vektorok. Ez az úgynevezett adatmátrix. Egy magyarázó változó esetén több magyarázó változó esetén 1. egyed: x 1 y 1 x 11 x 1 x 13 y 1. egyed: x y x 1 x x 3 y 3. egyed: x 3 y 3 x 31 x 3 x 33 y 3 n-ik egyed: x n y n x n1 x n x n3 y n 3

4 A regressziószámítás szokásos kérdésfeltevései Van-e bizonyos változók között összefüggés, Függ-e a borjak 3 napos testtömege a születési súlyuktól? Milyen függvénnyel (lineáris, exponenciális, stb.) írható le az összefüggés, Alkalmas-e ennek az összefüggésnek a leírására a lineáris függvény? Mi a függő változó várható értéke a magyarázó változó egy bizonyos értékéhez, Mekkora 3 napos testtömeget várhatunk, ha a születési súly 45 kg? Mi a magyarázó változó feltételezhető értéke a függő változó egy bizonyos értékéhez, Mekkora születési súly küszöb feletti állatokat szelektáljunk, ha az a cél, hogy 3 napos korban az állatok (legalábbis átlagban) elérjék az 55 kg-ot? A cél lehet oksági kapcsolat megállapítása X és Y között, gyakran azonban csak következtetni szeretnénk az egyik változó értékéből a másikra, a közöttük tapasztalt összefüggés alapján. Feltételezzük, hogy mind a magyarázó, mind a függő változó intervallum skálán mérhető. Egyes modellekben dichotom (=kétértékű, bináris, /1, igen/nem) változók is előfordulhatnak. Például a logit és probit modellekben a függő változó /1 változó (ott a magyarázó változók folytonosak). Tágabb értelemben a varianciaelemzés is felfogható regressziószámításnak, mesterséges /1változók (=dummy változók) bevezetésével.

5 Példa: A születési súly és a 3 napos testtömeg összefüggése 3 borjú adatai alapján (Bajcsy Á. Csaba és munkatársai, Szülészeti Tanszék). Bár egyértelmű a pozitív összefüggés a két adat között, a szóródás túlságosan nagy ahhoz, hogy a születési súly alapján jó előrejelzést adhatnánk a 3 napos testtömegre. 7 65 6 55 5 45 4 3 napos testtömeg (kg) Születési súly (kg) 35 3 35 4 45 5 55 Melyik változó legyen a magyarázó és melyik a függő változó? Ez mindig attól függjön, hogy milyen irányú oksági kapcsolatot, illetve milyen véletlen hatásokat tételezünk fel a változók között, és NE attól, hogy melyik változót szeretnénk a másik alapján előrejelezni. Előfordulhat, hogy az ismeretlen X-et szeretnénk meghatározni a megfigyelt Y -ból, bár a regressziós modell Y = f (X) + ε. Ez az úgynevezett inverz regresszió. Például ha ugyanarra a mérésre két módszer is van, az A1 (lassú, drága, de pontos) és a A (olcsó, gyors, de kevésbé pontos), a helyes regressziós modell V = V1 + ε (a pontatlan módszer tartalmazza a hibát), de a természetes előrejelzési feladat a V V1.

Véletlenség a magyarázó és a függő változóban A függő változó mindig valószínűségi változó, a magyarázó változók azonban nem biztos. Általában úgy gondoljuk, hogy Y két független, additív komponesre bontható: az egyik az X- ektől függ, a másik pedig egy, az X-ektől független véletlen faktor, azaz Y = f (X ) + ε. magyarázó változó(k) hatása függő változó véletlen komponens (=minden egyéb hatás) Fel szokás tenni, hogy a véletlen komponens várható értéke, azaz E(ε)= és hogy eloszlása szimmetrikus, a statisztikai tesztek kedvéért pedig még azt is, hogy normális eloszlású. Mivel Y valószínűségi változó, X értéke nem határozza meg teljesen Y-t, csak Y eloszlására van hatással. Ezért adott X = x esetén vagy az Y feltételes eloszlását, vagy (gyakrabban) a feltételes várható értékét E(Y X = x ) szokták vizsgálni. (Például gondoljunk azon borjak 3 napos testtömegének eloszlására, illetve várható értékére, amelyeknek születési súlya 35 kg). A magyarázó változóban háromféle véletlenséget szoktak megkülönböztetni: - X egyáltalán nem véletlen változó, a kísérlet vezetője állítja be, MODEL I - bár a természet állítja be az X értékét, de az pontosan ismert, - a mért X nem azonos az Y-t befolyásoló változóval (mérési pontatlanság miatt, vagy mert X elvont, nem mérhető, pl. ha X = intelligencia IQ). Ezt az esetet itt nem tárgyaljuk. MODEL II 6

Korreláció- vagy regressziószámítás? A legfontosabb különbségek a két módszer között: - a korrelációszámítás szimmetrikus kapcsolatot tételez fel az X és Y között, míg a regressziószámítás egy bizonyos irányú (X Y) kapcsolatot, - míg a korrelációszámításban mindkét változó valószínűségi változó, a regressziószámításban X nem feltétlenül az (nem feltétlenül függ a véletlentől). A korrelációszámításnak nincs értelme akkor, ha az X értékeit a kísérletező állítja be (pl. egy gyógyszer dózisát). Gyakran mindkét módszer alkalmazható, ha megfelelően átfogalmazzuk a kérdéseket. Mindig gondoljuk meg azonban, melyik fogalmazás tükrözi jobban, hogy valójában mi is érdekel! Tegyünk fel korrelációs és regressziós megközelítésű kérdéseket a következő (vagy hasonló) mért adatok közötti összefüggésekkel kapcsolatban és beszéljük meg ezeket! cipőméret és testsúly testmagasság és testsúly vérnyomás és testsúly vérnyomás és életkor Na és K koncentráció a vérben age and body weight 7

NE használjunk regressziószámítást - ha két mérési módszer közötti egyezést vizsgálunk és nem pedig azt, hogy hogyan fejezhető ki egyik mérési eredmény a másikkal. Ilyenkor a korrelációelemzésnek sincs értelme, hiszen az erős korreláció sem feltétlenül jelent jó egyezést erős korrelációt kaphatunk nagy szisztematikus hiba (torzítás) esetén is (ha X = X 1 + 1, a korrelációs együttható = 1). Ha a mérési eredmények egyezése érdekel, legjobb, ha a különbséggel (abszolút vagy relatív) számolunk. (DE végezhetünk regresszió- <nem korreláció!> számítást, ha az egyik mérési módszert pontosnak tekintjük, és arra vagyunk kíváncsiak, hogyan lehet a másikat korrigálni.) - ha nem tudjuk eldönteni, melyik változót tekintsük magyarázó és melyiket függő változónak (ez nem csupán technikai kérdés, hanem a véleményünket tükrözi arról, hogy mi mitől függ, illetve, hogy mit tételezünk fel a véletlen faktorokról), - ha tudjuk, hogy a magyarázó változó a függő változóval azonos nagyságrendű véletlen hibával terhelt, vagy általánosabban fogalmazva, ha tudjuk, hogy az Y nem a mért X-től függ, hanem egy ismeretlen "valódi értéktől", (jelöljük X*-gal) azaz X* Y, a megfigyelt X érték pedig X = X* + δ ahol δ az X*-tól független véletlen faktor. (DE ha feltehetjük, hogy δ nem a valódi, hanem a mért X-től független, akkor alkalmazhatunk regressziószámítást.) 8

Lineáris regresszió egy magyarázó változóval (simple linear regression) a) Az általános modell egy magyarázó változóval: Y = f(x) + ε 9 b) Ugyanez lineáris függvénnyel: Y = β + β 1 X + ε c) Az együtthatók becslése az adatokból: a legkisebb négyzetek módszere ( LS módszer ) a becsléseket b, b 1 jelöli (máshol lehet még b ˆ ˆ, b1) Y estimated line Y=b +b 1 X observed data true line Y= β + β 1 X d) Hipotézisvizsgálat ("Valóban függ az Y az X-től?") t-próba H : β 1 = ( β 1 = azt jelenti, hogy Y nem függ X-től a modellben! ) próba-statisztika: b 1 / SE ( b 1 ) ahol SE ( b 1 ) -et az adatokból becsüljük null-eloszlás: Student-féle t eloszlás n szabadsági fokkal F-próba ugyanarra (ekvivalens csak több magyarázó változó esetén különbözik) Y teljes szórása = Y X-től való függéséből eredő szórása + Y egyéb hatások miatti szórása ("véletlen hiba") Σ ( Y i Y ) = Σ ( f (X i ) Y ) + Σ ( Y i f (X i) ) Teljes SSQ = Regressziós SSQ + HIba (=reziduális) SSQ Mindkét teszthez szükséges: a véletlen faktor (=ε) független, normális eloszlású legyen! X

1 e) Az illeszkedés jóságának mérése: R (determinációs koefficiens, Regressziós SSQ / Teljes SSQ), reziduumok (a megfigyelt és a számított Y értékek eltérése - az ε becslése). f) Konfidencia-intervallumok a paraméterekre (a β i -kre: b i ± t crit SE( b i ), ahol t crit az (n ) szabadsági fokú t eloszlás kritikus értéke, és SE( b i ) -t az adatokból becsüljük. Konfidenciasáv a regressziós egyenesre / az egyes Y értékekre ugyanazok a feltételek szükségesek, mint a hipotézisvizsgálathoz! Az ábrán (a borjak adatai), a lila vonalak jelölik a regressziós egyenesre vonatkozó, a zöld vonalak pedig az egyes pontokra vonatkozó 95%-os konfidenciasávot. Figyeljük meg, hogy az X tartomány szélei felé haladva a becslések egyre bizonytalanabbak. (A legkisebb a bizonytalanság az X értékek átlagánál.) 7 65 6 55 5 45 4 35 3-day body weight (kg) Birth weight (kg) 3 35 4 45 5

11 Regressziós modellek Egy regressziós modell legfontosabb összetevői a változók közötti kapcsolatot leíró függvény típusa (lineáris, négyzetes, exponenciális, stb.) és a feltevések arról, hogy hogyan befolyásolja a véletlen az adatokat (pl. hogy az Y véletlen komponense additív-e vagy multiplikatív). A regressziószámítás végrehajtásának lépései 1. Informális modell (mik a fontos változók mi mitől függ ; grafikon-rajzolás). Formális modell (a függvénytípus megválasztása, a véletlenség a modellben) 3. A modell-paraméterek becslése (a legjobban illeszkedő görbe/felület megkeresése) 4. A modell jóságának vizsgálata - F-próba (az illeszkedés globális vizsgálatára), - t-próba (az egyes paraméterek egyenkénti vizsgálatára), - R (a kapcsolat szorosságát, a függő változó meghatározottságát méri), - a regressziószámításhoz szükséges feltételek ellenőrzése (reziduumok vizsgálata, regressziós diagnosztika) Fontos, hogy lássuk a különbséget az alábbi fogalom-párok között: valódi összefüggés feltételezett modell (a reziduális elemzés segít megtalálni a helyes modellt) valódi becsült paraméterek (konfidencia-intervallumok, standard hibák) megfigyelt számított Y érték (konfidencia-sávok) véletlen faktor (ε ) reziduum (e i )

A változók transzformálása A transzformációk olyankor segíthetnek, amikor a megfigyelt adatokra a lineáris regresszió közvetlenül nem alkalmazható. Néha elméleti megfontolásokból következik, hogy a változók közötti kapcsolat nem lineáris: Tumor átmérője térfogata ( gömb / ellipszoid térfogata hatványfüggvény) Gyógyszer dózis hatás görbéje (logisztikus görbe vagy hasonló S-alakú görbe) Máskor a megfigyelt adatok ugyan egyértelműen arra utalnak, hogy az X és az Y között van összefüggés, de ha a pontokra egyenest illesztünk, az illeszkedés nagyon rossz. Antibiotikum koncentrációja baktériumkultúrák átlagos átmérője Antibiotikum koncentrációja baktériumkultúrák átlagos területe Antibiotikum koncentrációja baktériumkultúrák átlagos száma Szerv területe az ultrahang-készülék képernyőjén a szerv térfogata Tumor térfogata túlélési idő hossza Az első esetben az elméleti megfontolások arra vonatkozóan is útmutatást adnak, hogy milyen függvénytípust válasszunk, a másodikban pedig az adatok grafikus ábrázolása segíthet: - a kétváltozós szórásdiagramok a modell-választáshoz nyújtanak segítséget, - a hisztogram, boxplot, stb. az adatok eloszlásának vizsgálatában (szükséges feltevések!). 1

Azokban az esetekben, amikor az X és Y közötti összefüggés nem lineáris, lineáris összefüggés állhat fenn valamely X és Y transzformált változók között. Ha elméleti megfontolásokból nem következik, hogy milyen transzformációval érdemes próbálkozni, akkor szórásdiagramok segítségével választhatjuk ki a legmegfelelőbbet. Mivel a legtöbb számítógépes programban egy gombnyomással kérhető, a logaritmus-transzformációt próbáljuk ki rutinszerűen! NB. A logaritmus csak pozitív számokra van értelmezve! Ha vagy negatív X és/vagy Y értékek is előfordulnak, szokás egy alkalmas állandót hozzáadni az értékekhez, mielőtt a logaritmus vesszük, például log(x+1)-et venni log(x) helyett. Mindig gondoljuk végig, hogy egy ilyen transzformáció interpretálható-e, meg tudjuk-e magyarázni, mi az értelme. exponenciális görbe log. skála az y tengelyen egyenes 13 1 8 6 4 5 1 1 1 5 1

14 logaritmus-görbe log. skála az x tengelyen egyenes 3 3 1 5 1 1 1 1 hatványfüggvény log. skála mindkét tengelyen egyenes 3 1 1 1 1 5 1 1 1 1

A transzformációk érinthetik mind a regressziós függvényt, mind a véletlenséget a modellben (utóbbit akkor, ha a függő változót transzformáljuk). Példák: 1. Ha a regresszió lineárissá válik az Y log-transzformálásával: log Y = β + β 1 X + ε akkor a függvény exponenciális, multiplikatív hibával: Y = e β e β 1X e ε Multiplikatív hiba: a véletlen faktor nem hozzáadódik a függvényértékhez, hanem összeszorzódik vele. Ekkor nagyobb függvényértékhez nagyobb Y szórás tartozik. (NB. a relatív szórás állandó!). Ha a regresszió lineárissá válik X és Y log-transzformálásával: log Y =β +β 1 log X +ε akkor a függvény hatványfüggvény, multiplikatív hibával: Y = e β x β 1 e ε 3. Ha a regresszió lineárissá válik az X log-transzformálásával: Y =β +β 1 log X +ε akkor a függvény logaritmus-függvény, additív hibával. Ugyanilyen elterjedt a hatvány- és a gyök-transzformáció. A gyökök (relatíve) összehúzzák a nagy értékek tartományát, az (egynél nagyobb) hatványok pedig a kis értékekét. Ha a mért értékek helyett rangokkal dolgozunk, a változót teljesen skála-függetlenné tehetjük. Megjegyzések: A fent említettek mind monoton transzformációk. Ha a változó értéktartománya szűk, a rangok kivételével az összes többi kb. egyenértékű. Gyakorisági adatokra az arcus sinus transzformációt is szokták alkalmazni. 15

A transzformációk statisztikai modell hiányában is hasznosak lehetnek. Segíthetnek az adatok jobb megismerésében és ábrázolásában, szebb grafikonok készítésében, stb. Példa a transzformációs lehetőségekre az összefüggés linearizálásában: 16 1 4 5 1 1 1-1 -4 1 eredeti összefüggés négyzetgyök Y 4-ik gyök Y logaritmus Y Megjegyzések: A transzformációkat nemcsak az összefüggés linearizálására, hanem szórás-kiegyenlítésre és az eloszlások szimmetrizálására is szokták használni. (Persze előfordulhat, hogy az a transzformáció, amely linearizálja az összefüggést, elrontja a szórások egyenlőségét, stb.) A transzformáció megválasztásánál fontos szempont az interpretálhatóság. A transzformáció útján történő linearizálás nem az egyetlen lehetőség a nemlineáris összefüggések kezelésére. Léteznek eljárások lineárissá nem transzformálható ( intrinsically nonlinear ) modellek illesztésére is.

Többszörös (multiple) regresszió Gyakran indokolt a függő változót egyszerre több magyarázó változóval is (X 1, X,..., X r ) összefüggésbe hozni. A teljesen általános modellben azt tételezzük fel, hogy az Y kifejezhető, mint az X-ek valamely függvénye plusz egy véletlen faktor (=additív hiba!): Y = f (X 1, X, X 3,..., X r ) + ε. Többszörös lineáris regresszióról akkor beszélünk, ha a függvény lineáris: Y = β + β 1 X 1 + β X + β 3 X 3 +... + β r X r + ε. megfigyelt számított hiba Hogy a borjak 3 napos súlyára pontosabb előrejelzést kapjunk, ésszerűnek tűnhet további magyarázó változóként az első 6 napi súlygyarapodást is bevonni. Az így kibővített modell WEIGHT3 = f (SZÜLETÉSI_SÚLY, SÚLYGYARAPODÁS_6) + ε, vagy ha a lineáris modellt választjuk WEIGHT3 = β + β 1 SZÜLETÉSI_SÚLY + β SÚLYGYARAPODÁS_6 + ε. A paraméterek becslését itt is a legkisebb négyzetek módszerével szokás végezni. A becsült paramétereket szokásosan b, b 1,..., b r jelöli, azaz a becsült regressziós egyenlet alakja Y = b + b 1 X 1 + b X + b 3 X 3 +... + b r X r + e, megfigyelt számított reziduum ahol a reziduum (=maradéktag) a véletlen faktor (ε ) becslésének tekinthető. 17

A lineáris függvény grafikonja (a valódié is és a becsülté is, de az ε vagy e tagoktól eltekintve) egy r-dimenziós sík (= hipersík ) az (r+1)-dimenziós térben. A megfigyelt Y értékek e hipersík körül helyezkednek el. A következő ábra két magyarázó változó (X 1 és X ) esetén szemlélteti a fentieket, amikor a regressziós felület egy közönséges kétdimenziós sík a háromdimenziós térben. Ezen az ábrán a becsült regressziós síkot ábrázoltuk. A kék pontok a megfigyelt adatoknak felelnek meg, a kék vonalak pedig a megfigyelt és a számított (=a felületen lévő) értékek eltérésének, azaz a reziduumoknak. A grafikonról azt az összefüggést olvashatjuk le, hogy ha X 1 nő, akkor a számított Y csökken, azaz az Y az X 1 -nek csökkenő függvénye. Ez azt is jelenti, hogy a becsült b 1 regressziós együttható negatív (számszerű értéke a sík meredeksége az X 1 irányában a grafikonról leolvasva körülbelül.5). Hasonló a helyzet X -vel is (a grafikonról leolvasva b értéke is körülbelül.5). A b regressziós együttható (amelyet konstans tag -nak is neveznek) jelentése: az Y számított értéke az X 1 = X = pontban (értéke a grafikonról leolvasva körülbelül 14). 18

Példa (borjak növekedése) Ha a születési súly mellé az első 6 napi súlygyarapodást is bevonjuk a regressziós modellbe, azt kapjuk, hogy a 3 napos súly gyakorlatilag nem függ ettől a változótól, azaz az előrejelzés nem válik pontosabbá. Ezt mutatja a becsült regressziós függvény grafikonja is. 19 (Megjegyezzük, hogy a grafikonok sok magyarázó változó esetén kevésbé szemléletesek.)

A hipotézisvizsgálatok lényegében ugyanazok itt is, mint egy magyarázó változó esetén. t-próbák az Y egy-egy magyarázó változótól való függésének tesztelésére: H i : β i= ahol i=1,,..., r (β i= azt jelenti, hogy az Y nem függ X i-től a modellben) próba-statisztika: b i / SE ( b i ) ahol SE ( b i ) -t az adatokból becsüljük null-eloszlás: Student-t eloszlás ( n r 1 ) szabadsági fokkal F-próba az Y összes X-ektől való (együttes) függésének tesztelése H együttes : minden β i = (ez azt jelenti, hogy az Y a modellbeli egyik X i -től sem függ) Az F-próba itt is az Y szórásának (tkp. eltérés-négyzetösszegének) felbontásán alapul Az Y teljes szórása = Az Y-nak a magyarázó változóktól való függéséből eredő szórása + Az Y egyéb hatások miatti szórása ("véletlen hiba") Teljes SSQ = Regressziós (modell, magyarázott) SSQ + Hiba (reziduális) SSQ próba-statisztika: a Regressziós SSQ / r osztva a Hiba SSQ / ( n r 1 ) -gyel null-eloszlás: F-eloszlás ( r és n r 1 ) szabadsági fokokkal. Konfidencia-intervallumokat is a szokásos módon adhatunk a β i regressziós együtthatókra: b i t krit SE ( b i )... b i + t krit SE ( b i ), ahol t krit az (n r 1) szabadsági fokú t-eloszlás megfelelő kritikus értéke, SE(b i)-t pedig az adatokból becsüljük. Konfidencia-sávok is hasonlóan kaphatók a valódi regressziós felületre és az egyedi pontokra is (ezeket már nem szokták kézzel számolni). A szükséges feltételek is a szokásosak (a tesztekhez is): független, normális eloszlású ε.

Többszörös és parciális korreláció A többszörös korreláció a függő változó és több magyarázó változó összessége között mért korreláció. Definíciója R ( Y, {X 1, X,..., X r }) = R ( Y, Y (becsült) ), ahol Y (becsült) a többszörös lineáris regresszióval Y-ra nyert becslés. Jegyezzük meg, hogy Y (becsült) az X -eknek az a speciális lineáris kombinációja, amelynek a megfigyelt Y változóval a legnagyobb a korrelációja. Általában a többszörös korreláció egy valószínűségi változó és valószínűségi változók egy halmaza között hasonlóképpen definiálható. Ennek négyzete (R ) az úgynevezett determinációs együttható, amely azt mutatja meg, hogy a magyarázó változók a függő változó igadozásának hány százalékát magyarázzák. Az Y 1 és Y változók közötti parciális korreláció a köztük levő korreláció, miután valószínűségi változók egy X 1, X,, X r halmazának a korrelációjukra vonatkozó (lineáris) hatását kiküszöböltük. Definíciója R ( Y 1, Y X 1, X,..., X r ) = R ( Y 1 - Y 1 (becsült), Y - Y (becsült) ) (becsült) (becsült) ahol Y 1 és Y az Y 1 és Y változó többszörös lineáris regresszióból származó becslése az X 1, X,, X r magyarázó változók mellett. Más szóval, a parciális korreláció Y 1 és Y között a köztük lévő reziduális korreláció, miután néhány egyéb változó hatását többszörös lineáris regresszióval kiküszöböltük. 1

Polinomiális regresszió Az egyszerű lineáris regresszió úgy is általánosítható, hogy a modell a magyarázó változó magasabb hatványait is tartalmazza. A polinomiális modell szoros kapcsolatban áll a többszörös lineáris regressziós modellel, de itt r különböző magyarázó változó helyett ugyanannak a magyarázó változónak r egymást követő hatványa szerepel a regresszióban. Valójában X különböző hatványait különálló magyarázó változóknak tekintjük: Y = β + β 1 X + β X + β 3 X 3 +... + β r X r + ε A polinomiális regressziót tipikusan olyankor alkalmazzuk, amikor a várt görbének minimuma vagy maximuma van. A fokszám legyen a lehető legalacsonyabb! Harmadfokúnál magasabb fokú polinomokat ritkán használunk, mert a paraméterek értelmezése csaknem lehetetlen (az értelmezhetetlen modelleknek nincs gyakorlati értékük, még akkor sem, ha jól illeszkednek). Ha a fokszám megközelíti a megfigyelések számát, a szignifikancia-teszt problematikussá vagy lehetetlenné válik ( overfitting ). Ha van egy, az adatainkra esetleg kevésbé jól illeszkedő modellünk, amely jobban értelmezhető, mint a polinomiális, használjuk inkább azt! Itt nem vizsgálunk minden együtthatót, csak egy általános ellenőrzés történik F-próbával, valamint a legnagyobb fokú tag együtthatójának tesztelése (H: β r = ) annak az eldöntésére, hogy a polinom fokszáma helyesen lett-e megválasztva.

3 Multikollinearitás (vagy egyszerűen kollinearitás ) Multikollinearitásról akkor beszélünk, ha a magyarázó változók nem függetlenek egymástól, hanem erősen korreláltak. Ez akkor is előfordulhat, ha a páronkénti korrelációk kicsik ezért a többszörös korrelációkat kell vizsgálnunk. Ez kizárólag a magyarázó változók tulajdonsága semmi köze a függő változóhoz! Kollinearitás esetén - az egyes magyarázó változók hatását a függő változóra nem lehet szétválasztani, - a magyarázó változók átvehetik egymás szerepét a regressziós egyenletben, - következésképp a regressziós együtthatók becslésekor növekszik a bizonytalanság: magas SE értékek jelentkeznek, az együtthatók nem-szignifikánssá válhatnak, - sőt a számítási folyamat lefagyhat. Szokásos mérőszámok az érintett változók meghatározására - négyzetes többszörös korreláció az i-ik magyarázó változó és a többi magyarázó változó között: R i (1-hez közeli érték kollinearitást jelez fontoljuk meg a változó kihagyását!), - tolerancia: 1 R i (-hoz közeli érték kollinearitást jelez) - VIF (variancia infláció faktor): 1/(1-R i ) (nagy értékek { >1? } kollinearitást jeleznek)

Példák a multikollinearitásra Tegyük fel, hogy meg akarjuk jósolni a borjak 3 napos testsúlyát a születési súly és a 6 napos korban mért súly alapján. A születési súly és a 6 napos súly közti szórásdiagram nagy korrelációt mutat, ezért ezek használata kollinearitási problémákat okozhat. A természetes megoldás a 6 nap alatti súlygyarapodás használata a 6 napos súly helyett. A második szórásdiagramon látható, hogy a 6 napos súlygyarapodás és a születési súly gyakorlatilag korrelálatlanok. 4 5 6-day weight (kg) 3 6-day weight gain (kg) 4 Birth weight (kg) 3 3 4 5 1 Birth weight (kg) 3 4 5 A kollinearitás fenti mértékei ebben az esetben: R =.97, tolerancia=.78, VIF= 35.97 R =.81, tolerancia=.9919, VIF= 1.8

A kollinearitás tipikusan előfordul a polinomiális regresszióban is, ahol a magyarázó változók ugyanannak a változónak a hatványai, pl. x, x, x 3 stb., ezért erősen korreláltak lehetnek. Ilyen esetekben segít a centrálás. Például x és x helyett használható x és ( x - x ). Hasonló kérdéseket az ortogonális polinomok elmélete tárgyal. 5 4 x = x 1 7 6 x = ( x 1 - x 1 ) 3 5 4 3 1 x 1 1 x 1 1 3 4 5 6 1 3 4 5 6 A kollinearitás mértékei: R =.9583, tolerancia =.417, VIF = 3.98 R =, tolerancia = 1, VIF = 1.

Logit és probit modellek Egyes vizsgálatokban a célváltozó bináris, azaz lehetséges értéke van, mint például túlélés vagy halál, siker vagy kudarc, stb. Ezekben az esetekben csaknem természetes feltételezni, hogy a magyarázó változók az eredmény bekövetkezési valószínűségében játszanak szerepet, ezért a bekövetkezés valószínűségét tekinthetjük függő változónak. Folytonos magyarázó változók esetén, amelyek és + között értelmezettek, a legegyszerűbb modell, a többszörös lineáris regresszió alkalmazhatatlan, mert a becsült értékek nem feltétlenül fognak és 1 közé esni. A logit modell alapgondolata a valószínűség logit értékének használata függő változóként. A logit transzformáció a és 1 közötti intervallumot képezi le és + közé. Képlete logit (Y ) = ln ( Y / (1 Y ) ) lásd a grafikont Így a regressziós egyenlet logit (Y ) = β + β 1 X 1 + ε egyszerű regresszió (1 magyarázó változó) esetén vagy logit (Y ) = β + β 1 X 1 + β X +... + β r X r + ε többszörös regresszió (több magyarázó változó) esetén. -5 5 4 3 1-1 - -3-4 logit probab.,5 1 6

7 A logit transzformáció inverzét használva 1 probab. invlogit (U) = exp(u) / (1 + exp(u) ) felírhatjuk a regressziós egyenletet közvetlenül a valószínűséget használva függő változóként (természetesen ebben a formában a regresszió nem lesz lineáris). exp( β + β1x1 + β X +... + β r X r ) Y = 1+ exp( β + β X + β X +... + β X 1 1 r r + ε ) Megjegyezzük, hogy az egyenletnek ez a formája másfajta véletlenszerűséget feltételez egy additív hibatagot Y-ban mint az előző, amelynél logit (Y) tartalmazott egy additív hibatagot. A grafikonon látható, hogy X azonos mértékű megváltozása Y különböző mértékű változását eredményezheti X értékétől függően. A szélek felé haladva a függőség egyre gyengül. Az általános logisztikus regresszió bármilyen függő változóval használható, nem csak valószínűséggel. A függő változó minimuma és maximuma paraméterként megadható ebben a modellben. A regressziós egyenlet a következő: Y = MIN + ( MAX exp( β + β1x1 + β X +... + βr X r ) MIN) + ε 1+ exp( β + β X + β X +... + β X ) 1 logit -8-3 7 1,5 r r

8 Az általános logisztikus regresszió főbb alkalmazási területei a a) növekedési görbék, b) dózis-válasz összefüggések, és a c) bioassay típusú vizsgálatok. A probit egy másik transzformáció, mely a logit transzformációhoz hasonlóan a és 1 közötti intervallumból képez a és + közti tartományba. Ez a standard normális eloszlás eloszlásfüggvényének (Φ) inverz függvényét használja a transzformációhoz. probit (Y ) = Φ -1 ( Y ) lásd a grafikont Jegyezzük meg, hogy sem Φ, sem Φ -1 nem írható fel analitikus alakban, azaz nincsen képletük, értékeik csak numerikus módszerekkel számíthatók ki. A probit modell a valószínűség probit értékét használja függő változóként. Ez annak a feltételezésnek felel meg, hogy a bináris kimeneti változó értékét egy, a háttérben lévő normális eloszlású valószínűségi változó határozza meg. A grafikon hasonló a logit-éhoz, sőt a regressziós eredmények -4 is többé-kevésbé azonosak a legtöbb esetben. -5 5 4 3 1-1 - -3 probit probab.,5 1

Regressziós diagnosztika Regressziós diagnosztikán a regressziós eredmények vizsgálatát értjük. Ide tartozik - az illesztett modell jóságának vizsgálata, - a regressziószámítás alkalmazhatóságához szükséges feltételek meglétének vizsgálata, - olyan adatpontok keresése, amelyek eltorzíthatják a regressziós eredményeket. A regressziós diagnosztika nagyrészt a reziduumok elemzéséből áll. Reziduumnak a megfigyelt értéknek a számítottól való eltérését nevezzük. Hogy lássuk, mi a reziduumok szemléletes jelentése, készítsünk ugyanazokról az adatokról két ábrát! Regressziós ábra Reziduumok ábrája 9 8 6 4 y 5 1 x 1-1 - resid. x 5 1 zero residual = perfect fit

Ha a modell megfelelő, akkor a reziduumok olyanok, mintha csupán a regressziós egyenes (vagy felület) körüli véletlen eltérések lennének. Ha nem, próbáljunk egy jobb modellt találni (válasszunk másik regressziós függvényt, vagy használjunk további magyarázó változókat)! Regressziós ábra Reziduumok ábrája 3 8 y 6 4 x 5 1 5 y 15 1 5 x 5 1 6 4-1 -1 - resid. 5 1 resid. horseshoe -pattern Residuals look random here! Residuals show rather systematic pattern here check the model! 5 1 x x

Ha a reziduumok nagyságrendje függ X nagyságától, az azt jelzi, hogy a hiba (ε) szórása nem állandó. Például a következő ábrán növekvő X esetén a reziduumok is egyre nagyobbak. 31 3 y 15 resid. 1 5 1 x 5-5 -15 5 1 x (Többszörös regresszió esetén, ha ugyanerre kíváncsi valaki, a reziduumokat a számított Y értékek függvényében érdemes ábrázolni. lásd ) Ha a hiba szórása nem állandó, akkor próbálkozhatunk transzformációkkal, vagy használhatjuk a súlyozott legkisebb négyzetek módszerét (WLS) a becslésre (a súlyokat a varianciával fordítottan arányosan kell megválasztani). Többszörös regresszió esetén, ha a reziduumokat az egyik x i magyarázó változó függvényében ábrázolva patkó alakú mintázatot kapunk, próbáljuk meg az x i kvadratikus tagot bevenni a modellbe (mint magyarázó változót). Ha a reziduumok két magyarázó változó (x i és x k ) szorzatával korrelációt mutatnak, megpróbálhatjuk a szorzatot is bevenni a modellbe. 15 5-5 -15 resid. predicted 5 1 15

3 A reziduumok normalitásának tesztelése A regressziószámítás esetén alkalmazott klasszikus statisztikai tesztek (mint például a t- és F- próbák) alkalmazhatóságának szükséges feltétele a véletlen tag (=a hibatag, ε) normalitása. Ezt a feltételt a reziduumokra alkalmazott közönséges normalitás-vizsgálattal (pl. khi-négyzet próba) lehet ellenőrizni. NB. Ennek a próbának csak akkor van értelme, ha a reziduumok véletlenszerűnek tűnnek, azaz nem mutatnak szisztematikus mintázatot. Outlierek és torzító pontok Egy megfigyelést akkor nevezünk outliernek, ha az adott X érték mellett Y értéke kiugró, és így a reziduum értéke különösen nagy (összehasonlítva a többi adatpontéval). Ezen az ábrán a pirossal jelölt pont tűnik outliernek. (Megjegyezzük, hogy az Y=1.36 érték csak a hozzátartozó X=5.77 értékkel kapcsolatban kiugró). A fekete egyenes az egész adathalmazra illesztett regressziós egyenes, a zöld pedig az outlier nélküli adatokra illesztett. Ebben a példában az outlier nem nagyon befolyásolja a becsült regressziós együtthatókat. 8 6 4 y 5 1 x