Regressziós vizsgálatok
Regresszió (regression) Általános jelentése: visszaesés, hanyatlás, visszafelé mozgás, visszavezetés. Orvosi területen: visszafejlődés, involúció. A betegség tünetei, vagy maga a betegség javulása. Regrediál.
Regressziószámítás Regresszió: a változók közötti kapcsolat elemzésének elterjedt eszköze. Vizsgálja: egy kitüntetett, a vizsgálat tárgyát képező változó, amelyet eredményváltozónak (vagy függő változónak, response) nevezünk, hogyan függ egy vagy több ún. magyarázó (vagy független, prediktor) változótól.
Regressziós felület Egy változó esetén: (elsőfajú) regressziós egyenes. Két változó esetén: (elsőfajú) regressziós sík. Több változó esetén: regressziós felület.
Regressziós általános modell Input vektor: Output: Y (valós) Y-t jósoljuk egy f(x) függvény segítségével úgy, hogy a várható hiba minimális legyen. Négyzetes hiba: Minkowsky hiba: a kitevőben 2 helyett p.
Nemlineáris regresszió Polinomos regresszió: Ebben az esetben a regressziós függvényt ŷ = a 0 + a 1 x + a 2 x 2 + + a n x n alakban keressük. Hatványkitevős regresszió: ŷ = ax b Ez azzal ekvivalens: ln ŷ= lna + blnx
Nemlineáris regresszió Exponenciális regresszió: ŷ = ab x Ezzel ekvivalens: ln ŷ= lna + (lnb)x Logaritmikus regresszió: ŷ = a + blnx
Nemlineáris regresszió Probit regresszió: Maga a kifejezés az angol probability unit szavak összevonásából keletkezett és a dózis-hatás (tehát kvantális hatásvizsgálat) összefüggés egyik gyakran alkalmazott statisztikai eszköze.
Logisztikus regresszió A függő változó kategórikus : - bináris (a megfigyelt eseménynek csak két állapota van), - polychotomus (a megfigyelt esemény több állapotú). Többváltozós módszer, amelyben Több tényező (jellemző, tünet) alapján valamely betegség előfordulásának valószínűségét becsüljük. A független változók eloszlására nincs feltétel. p ( x) ( x x x x4 ) 1 e 0 1 1 1 2 2 3 3 4
Pearson féle lineáris korreláció
Hipotézisek H 0 : nincs korrelációs kapcsolat r = 0 H 1 : van korrelációs kapcsolat r 0
Feltételek Y: normális eloszlású legyen. X: normális eloszlású legyen.
cov( x, y) d x d y kovariancia n r cov( x, y) var( x) var( y) Az r korrelációs együttható olyan -1 és +1 között elhelyezkedő mutatószám, amelyik 1-hez közeli abszolút értékei szoros, közel lineáris függvényszerű kapcsolatot, 0 körüli értékei a lineáris kapcsolat hiányát (az ún. korrelálatlanságot) jelentik. Az r a két változó kapcsolat szorosságának mérőszáma. d d 2 x x d y d 2 y
A korreláció (a két változó közötti kapcsolat) erősségének megítélése. Leegyszerűsített megoldás a kapcsolat erősségére: 0-0,25: Nincs vagy igen gyenge 0,25-0,50: Gyenge 0,50-0,70: Mérsékelten erős vagy erős 0,70-1,00: Igen erős
A korrelációs koefficiens legfontosabb tulajdonságai 1. Ha nincs lineáris korreláció, akkor a korrelációs koefficiens értéke: 0, tökéletes pozitív, ill. negatív lineáris korreláció fennállása esetén a korrelációs koefficiens értéke +1,00, ill. -1,00. 2. A korrelációs koefficiens értéke független a mértékegységektől, amelyekben a két változó rögzítve van (pl. testmagasság és testsúly közötti korreláció, mindegy, hogy ezek milyen mértékegységben (kg, font, cm, inch) vannak megadva). 3. A korrelációs koefficiens értékét az outlier (kiugró) értékek igen erősen befolyásolják. Ezt minden esetben végig kell gondolni és pl. adat-transzformációt kell végrehajtani. A kiugró érték lehet egy szabálytalan, torzult eloszlás eredménye, ilyenkor segíthet a transzformáció, vagy lehet mérési hiba, ilyenkor lehet a mérést ismételni, vagy az értéket kizárni. 4, A korreláció nem jelent ok-okozati kapcsolatot: ez lehet annak a következménye, hogy az x tengelyre felvett változó befolyásolja az y tengelyre felvettet; az y tengelyre felvett változó befolyásolja az x tengelyre felvettet- Egyik eset sem áll fenn, hanem egy harmadik tényező mindkettőt egy irányba (pozitív korreláció) vagy különböző irányokba (negatív korreláció) mozdítja el.
Parciális korreláció Egymás hatásától megtisztított érték. X, Y, Z változók esetén: pl. X, Y korrelációja: levesszük Z hatását a kapcsolatból.
Lineáris regresszió
Hipotézisek H 0 : nincs regressziós kapcsolat 1 = 0 H 1 : van regressziós kapcsolat 1 0
Feltételek Y: normális eloszlású legyen. X: hibamentesen mérjük és legalább 3 értéke legyen.
Lineáris regressziós modell yˆ ahol: E() = 0 Var() = 2 Cov( i, j ) = 0 ~ N(0,) ˆ 0 x Annyit feltételezünk, hogy: Van két változónk (legalább intervallumskála), Közöttük kvázi lineáris kapcsolat van. ˆ 1
yˆ ˆ 0 ˆ 1 x Hiba (0 átlagú) Eredményváltozó Magyarázó változó Kétváltozós lineáris modell
y Y változás X változás b (meredekség): y változás/x változás 0 x
Egy y^ = 0^+ 1^x egyenest keresünk Az input/output adatok nem feltétlenül esnek az egyenesre, a hiba e i y i = 0^ + 1^x i + e i A hibák négyzetösszegét akarjuk minimalizálni. e i véletlen zaj minimalizálnunk kell: Ez egy kvadratikus függvény, pontosan ott lesz minimális, ahol a 0 ittelve a 1 szerinti deriváltak nullák. Eredmény: ˆ 0 y ˆ x 1 n n n 2 2 2 e ˆ ˆ ˆ i ( yi yi ) ( yi 0 1xi ) i1 i1 i1 ˆ 1 n i1 ( x n i i1 ( x x)( y i i x) 2 y)
R 2 SSR 1 SSE SST SST Determinációs együttható - az eredményváltozónak a regresszió által magyarázott és teljes eltérésnégyzetösszegei hányadosaként számítható mutatószám. Jelölése R 2 Az R 2 százszorosa megmutatja, hogy a regressziós modellel az y adatokban meglévő variancia (bizonytalanság) hány százaléka szüntethető meg
Linearizálás, pl.
ˆ1 yˆ x
Elaszticitás - rugalmasság. Olyan mutatószám, mely megadja, hogy a magyarázó változó egy százalékos elmozdulása hány százalékos és milyen irányú elmozdulással jár együtt az eredményváltozóban. Pl. ár és jövedelem rugalmassági együttható - rugalmas fogyasztás (közszükségleti cikkek): I1I < rugalmatlan fogyasztás (luxuscikkek): I1I >
Ha a magyarázó változók száma (k) több (k>1), akkor sok(több)változós lineáris modellről beszélünk: y 0 1 x 1 2 x 2 x k k
Quantile regresszió A függő változó quantiliseinek a finomabb spektrumú becslése.