Többváltozós statisztika Szegedi Tudományegyetem, Bolyai Intézet
Többváltozós módszerek Ezek a módszerek több változó együttes vizsgálatára vonatkoznak. Alapvető típusaik: többdimenziós eloszlásokra vonatkozó hipotézisvizsgálatok (általában többdimenziós normális eloszlás paramétereire vonatkoznak), varianciaanaĺızisek, klasszifikációs módszerek (diszkrimináló illetve klaszterező eljárások), dimenziócsökkentés,...
Egyszempontos varianciaanaĺızis (ANOVA) Tekintsük a ξ i,j N(µ i, σ 2 ), i = 1,..., r, j = 1,..., n i független mintákat. A várható értékek feĺırhatók a következő formában: µ i = µ + a i, ahol µ a várható értékek n i értékekkel súlyozott átlaga, a i pedig az i-edik csoporthatás. azaz minden csoporthatás 0. H 0 : µ 1 =... = µ r, Legyen n = n 1 +... + n r. Képezzük a következő statisztikákat: ξ i = ni j=1 ξ i,j n i, ξ = r ni i=1 j=1 ξ i,j. n
SSB = SST = r n i (ξ i,j ξ) 2, i=1 j=1 r n i (ξ i ξ) 2, SSW = i=1 Álĺıtás SST = SSB + SSW. Bizonyítás SST = r n i (ξ i,j ξ i ) 2. i=1 j=1 r n i ((ξ i,j ξ i ) + (ξ i ξ)) 2 i=1 j=1 = SSW + SSB + 2 = SSW + SSB + 2 r n i (ξ i,j ξ i )(ξ i ξ) i=1 j=1 r n i (ξ i ξ) (ξ i,j ξ i ). i=1 j=1 } {{ } 0
Visszatérve H 0 vizsgálatára: a próbastatisztika F = SSB SSW n r r 1, ami H 0 mellett F (r 1, n r) eloszlású. Tehát a kritikus érték α-hoz F α = Fr 1,n r (1 α). Döntés: ha F < F α, akkor H 0 -t elfogadjuk, különben elvetjük. Megjegyzések ANOVA a kétmintás t-próba általánosítása: könnyen látható, hogy ha r = 2 és 0 = 0, akkor F = t 2, és F α = t 2 α. Itt is feltétel a szórások egyezése, ami az általánosított F -próbával tesztelhető. Ha a szórások nem egyenlőek, akkor ANOVA helyett a többmintás Welch-próbát alkalmazzák. Az ANOVA-t diszkrét és normális eloszlású változó függetlenségének tesztelésére is használják. Van többszempontos varianciaanaĺızis is.
Lineáris regresszió Tekintsük a (ξ, η) véletlen vektort. Keressük η-t legjobban közeĺıtő lineáris függvényt, azaz a-t és b-t, amelyre E((η (aξ + b)) 2 ) négyzetes eltérés minimális. Ennek megoldása a = Cov(ξ, η) D 2 (ξ) = r(ξ, η) D(η) D(ξ), b = E(η) + Cov(ξ, η) D 2 E(ξ). (ξ) Definíció A fenti paraméterekkel feĺırt y = ax + b egyenes a regressziós egyenes, a, b paraméterek a lineáris regressziós együtthatók. Megjegyzés Ha ξ, η függetlenek, akkor a = r(ξ, η) D(η) D(ξ) = 0.
Regressziós egyenes paramétereinek becslése Cél Q(a, b) = n i=1 (y i ax i b) 2 minimalizálása, ez a (legkisebb négyzetek módszere). Q(a, b) minimumát az alábbi helyen veszi fel: â = r n (ξ, η) D n n(η) D n (ξ), ˆb = i=1 y n i i=1 â x i. n n Definíció Az â, ˆb értékeket becsült lineáris regressziós együtthatóknak, az y = âx + ˆb egyenest becsült lineáris regressziós egyenesnek nevezzük. Megjegyzések Q(a, b) az (x 1, y 1 ),..., (x n, y n ) pontok együttes négyzetes távolsága az y = ax + b egyenestől. A becsült lineáris regressziós egyenest η n+1 érték becslésére használjuk, ha x n+1 adott csak.
Varianciaanaĺızis lineáris modellben Tekintsük a η = ax + b + ε, ε N(0, σ 2 ) regressziós modellt és az η 1,..., η n mintát. H 0 : a = 0. Vegyük a regressziós egyenes paramétereinek â, ˆb becsléseit és legyen ˆη i = âx i + ˆb. Képezzük a következő négyzetösszegeket: n n n SST = (η i η) 2, SSR = (ˆη i η) 2, SSE = (η i ˆη i ) 2. i=1 a próbastatisztika i=1 F = SSR (n 2), SSE ami H 0 mellett F (1, n 2) eloszlású. Tehát a kritikus érték α-hoz F α = F1,n 2 1 (1 α). Döntés: ha F < F α, akkor H 0 -t elfogadjuk, különben elvetjük. i=1
Álĺıtás SST = SSR + SSE. Bizonyítás n SST = ((η i ˆη i )+(ˆη i η)) 2 = SSR+SSE+2 i=1 n (η i ˆη i )(ˆη i η), i=1 }{{} 2 n i=1 (η i âx i ˆb)(âx i + ˆb η) = â Q a (ˆb η) Q b = 0. Álĺıtás SSR = SST r 2 n (x, η). Bizonyítás n n (η i âx i ˆb) 2 = â 2 (x i x) = rn 2 (x, η) V n(η) V n (x) nv n(x). i=1 i=1 Következmény SSE = SST (1 r 2 n (x, η)) és SSR SSE = r 2 n (x, η) 1 r 2 n (x, η).
Többváltozós regresszió A modell η = a 1 x 1 +... + a r x r + b + ε, ε N(0, σ 2 ). H 0 : a 1 =... = a r = 0. Vesszük a 1,..., a r, b legkisebb négyzetes becsléseit, ˆη i = â 1 x i,1 +... + â r x i,r + ˆb i és képezzük SST, SSR és SSE négyzetösszegeket. A próbastatisztika most F = SSR SSE n r 1, ami H 0 mellett r F (r, n r 1) eloszlású. Megjegyzések Az x i -k a teljes variancia r 2 n (x, η)-részét magyarázzák. Ha (ξ, η) kétdimenziós normális eloszlású és ξ, η függetlenek, akkor r n 2 n(ξ,η) aszimptotikusan t(n 2) eloszlású. 1 r 2 n (ξ,η) Az általános regressziós modell η = f (ξ) + ε. Általában a nemlineáris regressziót a lineárisra vezetik vissza.
Főkomponensanaĺızis Legyen X egy d-dimenziós véletlen vektor m várható érték vektorral és pozitív definit C kovarianciamátrixszal. Cél a változók számának csökkentése minél kevesebb információ vesztésével. C szimmetrikus, spektrálfelbontása C = VΛV, ahol Λ = diag(λ 1,..., λ d ) a C mátrix λ 1... λ d > 0 sajátértékeinek diagonális mátrixa, V oszlopvektorai pedig a hozzá tartozó ortonormált sajátvektorrendszer a megfelelő sorrendben. Definíció A Y = V 1 (X m) = V T (X m) az X főkomponensvektora, Y k-adik komponense (Y k ) a k-adik főkomponens.
Álĺıtás Y kovarianciamátrixa Λ. Bizonyítás E(Y) = E(V T (X m)) = V T (E(X) m) = 0, E(YY ) = E(V T (X m)(x m) V) = V T E((X m)(x m) )V = V CV = Λ. Tétel x 1,..., x d ortonormált vektorrendszer. Ekkor k k x i Cx i λ i, k = 1,..., d. i=1 i=1 Ha x i = v i, i = 1,..., d, akkor egyenlőség teljesül. Következmény Y k szórása maximális az z (X m) alakú vv-k között, amelyre x = 1 és z (X m) korrelálatlan Y i -vel minden i < k-ra.
Tétel A k(< d)-dimenziós P projekciók közül E( X PX ) kifejezést a v 1,..., v k által feszített altérre vetítő projekció minimalizálja. (Tehát X négyzetes középben vett legjobb k-dimenziós becslésének első k koordinátája a sajátvektorok bázisában az első k főkomponens, a többi pedig 0.) k megválasztása λ 1 +... + λ k λ 1 +... + λ d hányados azt mutatja, hogy az első k főkomponens a teljes variancia hányadrészét magyarázza. Megjegyzés A gyakorlatban egy minta empirikus kovarianciamátrixából indulunk, ennek sajátértékei és sajátvektorai lesznek λ i és v i (i = 1,..., d) becslései.
Faktoranaĺızis Definíció Legyen X egy d-dimenziós véletlen vektor m várható érték vektorral és C kovarianciamátrixszal. A k-faktor modell a következő: X = AY + W + m, ahol A átviteli mátrix vagy faktorsúlymátrix d k-as, az Y közös faktor k-dimenziós véletlen vektor, amelyre E(Y) = 0 és E(YY ) = I k, valamint W egyedi faktor egy d-dimenziós véletlen vektor, amelyre E(W) = 0, E(WW ) = D diagonális mátrix, valamint E(YW ) = 0. A modell paraméterei A és D, feltevése, hogy a faktorkomponensek korrelálatlanok, továbbá a közös faktorok szórásnégyzete 1.
Álĺıtás C = AA + D. (Ezt nevezzük a modell mátrixalakjának.) Bizonyítás X i = k j=1 a i,jy j + W i + m i (1 i d) szórásnégyzete c ii = k j=1 a2 i,j + d i,i, mivel a faktorkomponensek korrelálatlanok. ( k j=1 a2 i,j az X i változó kommunalitása, d i,i az egyedi variancia.) Tétel Adott k < d esetén a k-faktor modellnek pontosan akkor van megoldása, ha van olyan d d-s D nemnegatív elemű diagonális mátrix, hogy C D egy legfeljebb k-adrangú, pozitív szemidefinit. Bizonyítás Ha van megoldás, akkor C D = AA rangja legfeljebb k, mivel A egy d k-as mátrix. Fordítva, ha C D szimmetrikus, rangja r( k), akkor feĺırható AA alakban, ahol A d r-es.
Megjegyzések Ha C D-nek van AA alakú felbontása, akkor mivel ez nem egyértelmű: ha U egy ortogonális mátrix, akkor B = AU -ra AA = BB, sokszor további feltételeket is tesznek A-ra. Közeĺıtő megoldásokat szoktak adni (ML; legkisebb négyzetek módszere; főkomponensanaĺızis módosított változata;...). A faktorsúlyok értelmezése és a faktorok rotációja Cov(X i, Y j ) = E((X i m i )Y j ) = E(( k j=1 a i,jy j + W i )Y j ) = a i,j a faktorsúlyok korrelálatlansága miatt. X i az Y j faktorral akkor áll szoros kapcsolatban, ha a i,j nagy. A faktorok értelmezése szempontjából az a jó, ha minden i-re kevés (esetleg egy) a i,j nagy, a többi kicsi. A rotáció célja olyan U k k-s ortogonális mátrix keresése, amelyre az X = X = A Y + W + m modell, ahol A = AU és Y = U Y, teljesíti a fentieket.
Diszkriminanciaanaĺızis Legyen X változó N(m 1, C) vagy N(m 2, C) eloszlású. Ezt az osztálybatartozást szeretnénk eldönteni a tér egy X 1 X 2 partícionálásával. Legyen f i az i-edik osztályhoz tartozó sűrűségfüggvény. (Általában m i -t és C-t a mintából becsüljük.) Két megközeĺıtést tekintünk. I. Az f 2 (x) dx + X 1 f 1 (x) dx X 2 veszteségfüggvényt minimalizáló partícionálást keresünk. Belátható, hogy az átlagos veszteség akkor minimális, ha x osztálya j, amire m j C 1 x 1 2 m j C 1 m j nagyobb. Ez alapján L(x) = (m 1 m 2 ) C 1 x + c alakú Fisher-féle diszkriminancia-függvényt használjuk: x pontosan akkor tartozik az első osztályba, ha L(x) > 0.
II. Legyen A = (m 1 m 2 )(m 1 m 2 ). Tekintsük a Rayleigh-hányadost: R(v) = v Av v Cv Heurisztika: R maximumhelyének irányában jól tudunk szeparálni. Legyenek C 1 A sajátértékei λ 1... λ d és v 1,..., v d hozzájuk tartozó sajátvektorok a kanonikus főirányok. Belátható, hogy R maximumhelye v 1. Egy L(x) = v 1 x + b alakú diszkriminanciafüggvény segítségével döntünk: x akkor esik az első osztályba, ha L(x) > 0. Megjegyzések A két diszkriminanciafüggvény pozitív konstans faktorban tér el, ugyanazt az osztályozást eredményezik. A szeparálás jóságát a Wilks-féle Λ = (1 + ˆλ 1 ) 1 statisztikával jellemezzük. Ha az osztályok jól szeparálhatók, akkor Λ kicsi.
Logisztikus regresszió Legyen η ismeretlen p paraméterű Bernoulli-változó és x egy d-dimenziós vektor. Tegyük fel, hogy p = p(x), ezt a függést a következő logisztikus regressziós modell (logitmodell) írja le: ln p 1 p = a x + b. Tekintsük egy n elemű mintát. Meghatározzuk â, ˆb ML becsléseket (kihasználva, hogy az x i vektorhoz tartozó n i mintaelem összege binomiális eloszlású n i és p(x i ) paraméterekkel). Ebből kapjuk p becslését: ˆp = 1 1 + e â x ˆb. η értékei szerinti osztálybatartozás előrejelzése ennek segítségével úgy történik, hogy rögzítünk egy 0 < p 0 < 1 értéket, és ˆη = 1, ha ˆp > p 0.
Klaszteranaĺızis Különböző eloszlásból vett minták esetén nem tudjuk, melyik mintaelem melyik osztályba (klaszterbe) tartozik, esetleg az osztályok száma is ismeretlen. Célunk az osztályok meghatározása. Tekintsük az x 1,..., x n realizációt. Tegyük fel, hogy van k klaszter: C 1,..., C k. Legyen x C = 1 C x j C x j a C klaszterközéppontja. Legyen SST = n i=1 x i x 2, SSW = k i=1 x j C i x j x Ci 2, SSB = k i=1 C i x Ci x 2. Most is SST = SSW + SSB. A klasztereket úgy szeretnénk meghatározni, hogy a SSW SSB = SSW SST SSW kifejezést minimalizálják, ami egyenértékű SSW minimalizálásával.
SSW minimumának meghatározása már két klaszter esetén is 2 n 1 1 eset vizsgálatát jelenti az n elemű mintán, ezért heurisztikákat alkalmaznak. A klaszterező eljárásoknak két alapvető fajtája van aszerint, hogy a klaszterek száma ismert-e. k-közép módszer Veszünk k kezdeti klaszterközéppontot, minden mintaelemet ahhoz a klaszterhez soroljuk, amelyik középpontjához közelebb van, majd a középpontokat újraszámítjuk. Függ a kezdeti középpontoktól. Hierarchikus módszerek Vannak a klaszterszámot csökkentő (agglomeratív vagy összevonó) és növelő (divizív vagy felosztó) módszerek. Pl. előbbi esetében kezdetben minden pont külön klaszterbe tartozik, minden lépésben a két legközelebbi klasztert vonjuk össze, míg egy klaszter nem lesz. Függ a klaszterek távolságának definíciójától.
Klaszterek távolsága (d(c i, C j )) Legközelebbi szomszéd (nearest neighbor vagy single linkage): min x y. x C i,y C j Legtávolabbi szomszéd (furthest neighbor vagy complete linkage): max x y. x C i,y C j Átlagos távolság (between-groups linkage vagy average linkage): 1 x y. C i C j x C i,y C j Unió pontjainak átlagos távolsága (within-groups linkage): 1 ) ( Ci + C j 2 x,y C i C j x y. Klaszterközéppontok távolsága (centroid): x Ci x Cj.
Medián távolság: x Ci x Cj, ahol x C a C klaszter súlyozott közepe, amit rekurzívan számolunk a következő módon: ha C klaszter C C unióként jött létre, akkor x C = 1 2 ( x C + x C ). Ward távolság: x C i C j x x Ci C j 2 = C i C j C i + C j x C i x Cj 2. l {i,j} x C l x x Cl 2 (Tehát a Ward módszer azt a két klasztert vonja össze, amelyek összevonásával SSW legkevésbé nő.)
Irodalom Bolla Marianna, Krámli András: i következtetések elmélete, Typotex Fazekas István (szerk.): Bevezetés a matematikai statisztikába, Kossuth Egyetemi Kiadó Móri F. Tamás, Szeidl László, Zempléni András: Matematikai statisztika példatár, ELTE Eötvös Kiadó, Osztényiné Krauczi Éva, Székely László: Valószínűségszámítás és statisztika példatár, Polygon Jegyzettár Viharos László: A sztochasztika alapjai, Polygon Jegyzettár