Többváltozós problémák Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok). Volt: Több magyarázó változó: többszörös regresszió, több faktoros ANOVA, ANCOVA. Most: több független változó, vagy több függő és független változó (vektor változók). pl. 989 február.-én Rhode Island-en egy nagyvihar után 49 haldokló verebet vittek be a Brown Egyetem biológiai laboratóriumába. Ezek után a madaraknak kb a fele elpusztult, és Hermon Bumpus ezt egy jó alkalomnak találta a természetes szelekció hatásának vizsgálatára. A madarak 5 testmérete sorrendben: teljes hossz, szárnytávolság, csőr és fej hossz, felkar hossz, mellcsont hossza. Ezek a változók most egy vektorváltozót alkotnak. Eloszlás: általában többváltozós normális. Középpontja: centroid, várható érték vektor. Várható érték: μ x μ x μ= és ennek becslése a mintából: x = M M μ p A szórás helyett kovariancia mátrix : cov(x,y)= μ{(x-μ(x))(y-μ(y))} x p 3
Ha X=Y, akkor a kovariancia a változó varianciája. cov σ cov, X = M cov, ( ) ( X) ( X X) ( X X ) σ ( X ) cov,... ( X X ) σ ( X ) n n-ed rendű mátrix, szimmetrikus, és nincs negatív sajátértéke. A korrelációs mátrix, ha: n. R(X,Y) = μ{(x-μ(x))(y-μ(y))}/{σ(x)σ(y)}, RX R( X ) = M RXn A verebek esetén: teljes hossz (, X) (, X) szarnytavolsag csor es fej hossz felkar hossz mellcsont hossza ( X) RX,... Variance 57.98 3.35 4.33 5.68 3.46.63 8.47.3 0.83.98 4
> var(vereb[,:6]) X X X3 X4 X5 X 3.35 3.6.9.33.9 X 3.6 5.68.74.98.658 X3.9.7 0.63 0.34 0.45 X4.33.0 0.34 0.38 0.339 X5.9.66 0.45 0.339 0.983 > cor(vereb[,:6]) X X X3 X4 X5 X.000 0.735 0.66 0.645 0.605 X 0.735.000 0.674 0.769 0.59 X3 0.66 0.674.000 0.763 0.56 X4 0.645 0.769 0.763.000 0.607 X5 0.605 0.59 0.56 0.607.000 Ha csoportokat alkotnak a megfigyelési egységek, akkor itt is lehet csoportok közötti (between groups) és csoportokon belüli kovariancia mátrixokról beszélni. A módszereknél általában feltétel a csoportokon belüli kovariancia mátrixok egyezősége. 5
Többváltozós problémák. Verebek a viharban TULEL Group Total nem elte tul a vihart tulelte a vihart Count Maximum Median Minimum Std Deviation Count Maximum Median Minimum Std Deviation Variance Count Maximum Median Minimum Std Deviation Variance teljes csor es fej felkar mellcsont hossz szarnytavolsag hossz hossz hossza 8 8 8 8 8 65.00 5.00 33.40 9.80 3.0 58.43 4.57 3.48 8.45 0.84 59.00 4.00 3.50 8.50 0.70 5.00 30.00 30.0 7.0 8.60 3.88 5.7.85.66.5 5.07 3.55.73.43.3 64.00 48.00 3.80 9.30.00 57.38 4.00 3.43 8.50 0.8 57.00 40.00 3.40 8.50 0.60 53.00 35.00 30.30 7.70 9.60 3.3 4.8.73.4.76.05 7.50.53.8.57 49 49 49 49 49 65.00 5.00 33.40 9.80 3.0 57.98 4.33 3.46 8.47 0.83 58.00 4.00 3.50 8.50 0.70 5.00 30.00 30.0 7.0 8.60 3.65 5.07.79.56.99 Variance 3.35 5.68.63.3.98 Milyen kérdéseket lehet feltenni? Milyen kapcsolatban vannak egymással a mért változók? Túlélők, nem túlélők átlagai, szórásai különböznek-e? (Variancia-analízis, F-próba, Levene próba) Ha a túlélők és nem túlélők különböznek a mért változók eloszlásai szempontjából, akkor lehetséges-e konstruálni egy olyan függvényét ezeknek a változóknak, amely szétválasztja a két csoportot. Ha ez nagy a túlélőkre és kicsi a nem túlélőkre, akkor ez lehetne a darwini fitnesszre egy index. 6
. Egyiptomi koponyák Thébából származó férfi koponyák 5 korszakból. Mindegyikből 30-30 darab.. Korai predinasztikus kor (4000 ie). Késő predinasztikus kor (3300 ie) 3.. 3. dinasztia (850 ie) 4. Ptolemaioszi kor (00 ie) 5. Római kor (50 iu) Milyen kapcsolatban van a 4 mért érték egymással? Van-e szignifikáns differencia a mintaátlagok illetve szórások között, és ha igen, akkor ez tükrözi-e fokozatos időbeli változást? Lehetséges-e konstruálni egy f függvényét a 4 változónak, amely valamilyen értelemben visszatükrözi a minták közti különbségeket? 7
DINASZT.00 Count X X X3 X4 30 30 30 30 Maximum 4.00 43.00 4.00 56.00 3.37 33.60 99.7 50.53 Minimum 9.00.00 89.00 44.00 Std Err of.94.8.07.50 Std Deviation 5.3 4.47 5.88.76 Variance 6.3 9.97 34.63 7.64.00 Count 30 30 30 30 Maximum 48.00 45.00 07.00 56.00 3.37 3.70 99.07 50.3 Minimum 3.00 4.00 90.00 45.00 Std Err of.88.85.79.54 Std Deviation 4.8 4.65 4.35.96 Variance 3.4.60 8.89 8.74 3.00 Count 30 30 30 30 Maximum 40.00 45.00 06.00 60.00 34.47 33.80 96.03 50.57 Minimum 6.00 3.00 87.00 45.00 Std Err of.64.9.83.65 Std Deviation 3.48 4.98 4.55 3.55 Variance. 4.79 0.7.60 4.00 Count 30 30 30 30 Maximum 44.00 4.00 07.00 60.00 35.50 3.30 94.53 5.97 Minimum 9.00 0.00 86.00 46.00 Std Err of.7.94.84.5 Std Deviation 3.9 5.3 4.59.8 Variance 5.36 6.36.09 7.96 5.00 Count 30 30 30 30 Maximum 47.00 38.00 03.00 58.00 36.7 30.33 93.50 5.37 Minimum 6.00 0.00 8.00 44.00 Std Err of.98.9.9.68 Std Deviation 5.35 4.97 5.06 3.7 Variance 8.63 4.7 5.57 3.83 8
Alapvető technika: eredeti változók olyan lineáris kombinációját létrehozni, ami összegzi az eredeti adathalmaz varianciáját. Az eredeti adatok: Objektum X X... X p x x... x p x x... x p M n x n x n x np Zi = aix + aix +... + aipx p Az ilyen függvényeket szokták diszkriminancia függvényeknek, főkomponenseknek, kanonikus függvényeknek, faktoroknak nevezni. analógia: regressziós függvény Időnként még egy plusz konstans is van benne, ekkor: Z = a + a X + a X +... + a i i0 i i ip X p (Megj: ha az adatok standardizáltak, akkor a konstans 0.) A látens (extracted) változók általános tulajdonságai: az első magyarázza a variancia legnagyobb részét, a második a maradékból a legnagyobb részt, stb.; nem korreláltak, merőlegesek-függetlenek számuk = p a régi változók száma megj.: csak néhányat tartunk meg belőlük. 9
Sajátértékek, sajátvektorok Eredeti össz variancia: Sp(cov(X))= λ. Ha a változók standardizáltak, akkor p i= p i λ =p. i= Sajátvektorok: új változók együtthatói, az a ij -k. > eigen(cor(vereb[,:6])) $values [] 3.66 0.53 0.386 0.30 0.65 $vectors [,] [,] [,3] [,4] [,5] [,] -0.45 0.0507 0.690 0.404-0.374 [,] -0.46-0.996 0.34-0.5479 0.530 [3,] -0.45-0.346-0.454 0.6063 0.343 [4,] -0.47-0.847-0.4-0.3883-0.65 [5,] -0.398 0.8765-0.78-0.0689 0.9 Hogy lehet a sajátértékeket sajátvektorokat kiszámítani?. Asszociációs mátrix s.é.-ei, s.v.-ai: spektrál felbontás. Az eredeti vagy a standardizált adatmátrix szinguláris érték felbontásával. (Kontingencia táblákra is működik.) R-mode analízis: a változók cov vagy R mátrixából indulunk ki. szkór (score): új változókból számítjuk ki a megfigyelési egységekre. Q-mode analízis: a megfigyelési egységek cov vagy R mátrixából indulunk ki, az objektumok lin. komb.-jait kapjuk. i 30
(mátrix algebrával összekapcsolhatók) A Q-mode analízis különbségi mértékeken alapul (dissimilarity measures) s.é., s.v. számítás: kanonikus korreláció analízis, főkomponens analízis és korrespondencia analízis Ha az objektumok csoportokat alkotnak, akkor úgy lehet kiszámítani a komponenseket, hogy azok a csoportok közötti különbségeket a leginkább kihangsúlyozzák: MANOVA, diszkriminancia elemzés. 3
Többváltozós exploratív elemzés Többváltozós grafikonok Szokásos egyváltozósak. Chernoff arcok, csillagok 3
>stars(vereb[,:6]) Szórásdiagram mátrix. >pairs(vereb[,:6]) 33
Szórás diagram az új, látens változókkal. Kétváltozós boxlot 34
35
Töbváltozós távolságok, hasonlóságok Hasonlósági mértékek (similarity measures): mennyire hasonlóak az objektumok: korreláció Különbözőségi mértékek (dissimilarity measures): többváltozós távolság. Többváltozós problémák - egyedi megfigyelések, minták, illetve populációk közötti távolságok. Egyedi megfigyelések közti távolságok: Legegyszerűbb eset: n egyeden p változót X, X,..., X p mérünk. Az i-edik egyed mért értékei: xi, xi,..., xip, a j-ediké: xj, xj,..., xjp. Ha p=, akkor a két pont távolságát a Pitagorasz tétel alapján számíthatjuk: dij = ( xi xj) + ( xi xj) Több változó esetére is működik: p ( ) d = x x ij ik jk k= Euklideszi távolság. Ha egy változó sokkal variabilisebb a többinél, illetve a nagyságrendje sokkal nagyobb, akkor az dominálja a távolságot. Standardizálás.. 36
pl. Thaiföldi prehisztorikus kutyák kb ie 3500-ból származó kutyacsontokat találtak. Nem világos, hogy honnan származtatható a prehisztorikus kutya, az arany sakáltól (Canis aureus), vagy a farkastól. Az eredet kiderítése végett méréseket végeztek az alsó állkapocs csontokon, illetve más fajták állkapcsán. A mért változók: X - az állkapocs szélessége, X - az állkapocs magassága az első zápfog alatt, X 3 - az első zápfog hossza, X 4 - az első zápfog szélessége, X 5 - az első és harmadik zápfog közötti távolság (beleértve a zápfogakat is), X 6 - az első és negyedik zápfog közötti távolság (beleértve a zápfogakat is). A mérések átlagai: X X X 3 X 4 X 5 X 6 Modern kutya 9.7.0 9.4 7.7 3.0 36.5 Arany sakál 8. 6.7 8.3 7.0 30.3 3.9 Kínai farkas 3.5 7.3 6.8 0.6 4.9 48. Indiai farkas.5 4.3 4.5 9.3 40.0 44.6 Kujon 0.7 3.5.4 8.5 8.8 37.6 Dingó 9.6.6. 8.3 34.4 43. Prehisztorikus 0.3. 9. 8. 3.3 35.0 kutya Forrás: Higham et al. (980). 37
A standardizált értékek X X X 3 X 4 X 5 X 6 Modern kutya -.46 -.46 -.68 -.69 -.46 -.57 Arany sakál -.4 -.79 -.04 -.9 -.80 -. Kínai farkas.78.48.70.80.55.50 Indiai farkas.60.55.96.69.7.88 Kujon.3.3 -.04.00 -.0 -.37 Dingó -.5.03 -.3 -.7.03.6 Prehisztorikus kutya -. -. -.78 -.34 -.39 -.83 :Modern kutya :Arany sakal 3:Kinai kutya 4:Indiai kutya 5:Kujon 6:Dingo 7:Prehisztorikus kutya Proximity Matrix Euclidean Distance :Modern :Arany 3:Kinai 4:Indiai 7:Prehisztorikus kutya sakal kutya kutya 5:Kujon 6:Dingo kutya.9 5.38 3.386.5.559.665.9 7. 5.059 3.90 3.83.389 5.38 7..39 4.575 4.4 5. 3.386 5.059.39.9.97 3.8.5 3.90 4.575.9.669.76.559 3.83 4.4.97.669.704.665.389 5. 3.8.76.704 This is a dissimilarity matrix 3 4 5 6 7 0.0000000.9370 5.38450 3.385996.538.5594 0.664797.93703 0.000000 7.054 5.059430 3.90303 3.8365.38854 3 5.384505 7.054 0.000000.38709 4.57540 4.459 5.639 4 3.3859959 5.059430.38709 0.000000.9066.9740 3.76738 5.5383 3.90303 4.57540.9066 0.000000.66935.760053 6.5594 3.8365 4.459.9740.66935 0.000000.7036909 7 0.664797.3885 5.63 3.7674.76005.70369 0.0000000 Ez is négyzetes mátrix, szimmetrikus és 0-ák vannak az átlóban. 38
City-block (Manhattan) távolság: d ij = p k= x ik x jk. Hasonló eredményt ad az előzőhöz, de nem olyan érzékeny az outlierekre. Csebisev (Chebychev) távolság: Ha csak dimenzióban nézzük a különbséget. d ij = max x k ik x jk Hatvány (Power, Costumized) távolság: Ha a növelni vagy csökkenteni akarjuk azoknak a dimenzióknak a súlyát, amelyek esetén különböznek az objektumok: d Az n és r értékét mi választhatjuk meg. ij p = k= Az n az egyedi dimenziók közötti távolságokat súlyozza, az r pedig az egyes megfigyelt egyedek közöttieket. Ha n = r, akkor Minkowsky távolságnak nevezzük. Bray-Curtis (Kulczynski): faj abudancia adatok esetén használatos. Gyakorisági értékek esetén: Chi-négyzet (Chi-square). A szokásos módon számolt χ -érték. Phi-négyzet (Phi-square) Az előző normalizálva. x ik y jk n r. 39
Jaccard e.h.: bináris skálán mért (prezencia, abszencia) adatokra. a a + b + c a azoknak a változóknak a száma, amelyek esetén egyik objektum értéke sem 0 b ahol az egyik 0, c ahol a másik 0. Gower e.h.: lehetnek folytonos és kategoriális változók is. Dissim. mértékek tulajdonságai: metrikusság: háromszög készíthető a 3 pont páronkénti távolságaiból. Általában ilyenek, Bray-Curtis nem. MDA-nál lényeges tulajdonság. 40
4
Mikor melyiket használjuk? Ha a változók hasonló skálán mértek és nincs 0? értékük, akkor Euklideszi, City-block. Ha nem hasonló a skála, akkor először standardizálni kell! Fajok abundanciája esetén olyan kell, amely maximális akkor, ha nincs közös faj a két mintavételi egységen: Bray-Curtis, Kulczynski jó. Távolsági mátrixok összehasonlítása Mantel-teszt pl.: genetikus távolságok - földrajzi, időbeli távolságok. Távolságok populációk és minták között Mahalanobis távolság: v rs D p p ij ri rj r= s= rs ( ) v ( si sj ) = μ μ μ μ, ahol a kovariancia mátrix inverzének az r-edik sorában és s- edik oszlopában álló eleme. Másképp: = μ μ C μ μj kvadratikus alak, ahol ( ) ( ) D ij i j i 4
μi μ i μi =, az i-edik populáció várható érték vektora. C a M μ pi kovariancia mátrix. Használható egy egyednek a populáció középpontjától mért távolságának mérésére is: p p rs ( ) ( ) Dij = xr μr v xs μ s, r= s= ahol az egyeden mért értékek: x, x,..., x p és a megfelelő populáció átlagok: μ, μ,..., μp. Úgy tekinthető, mint az x megfigyelés többváltozós reziduuma, azaz, hogy milyen messze van x az összes változó eloszlásának középpontjától. Figyelembe veszi a változók közti korrelációt is. Ha a populáció többváltozós normális eloszlást követ, akkor χ eloszlású p szabadsági fokkal. Ha D értéke szignifikánsan nagy (P<0.00), akkor a megfigyelésünk vagy hibás, vagy egy extremális megfigyelés. A populáció átlagokat és a kovariancia mátrixot a mintából becsülhetjük. D 43
pl. Az egyiptomi koponya minták közötti távolságok: Covarian Correlati X X X3 X4 X X X3 X4 Pooled Within-Groups a. The covariance matrix has 45 degrees X X X3 X4. 3.678E- 7.908E-.00 3.678E- 3.48 5.0.84 7.908E- 5.0 4.7.3.00.84.3 0.5.00.00.00.3.00.00..8.00..00.07.3.8.07.00 a Group Statistics DINASZT.00.00 3.00 4.00 5.00 Total X X X3 X4 X X X3 X4 X X X3 X4 X X X3 X4 X X X3 X4 X X X3 X4 Std. Valid N (listwise) Deviation Unweighted Weighted 3.3667 5.9 30 30.000 33.6000 4.469 30 30.000 99.667 5.8844 30 30.000 50.5333.7635 30 30.000 3.3667 4.80 30 30.000 3.7000 4.647 30 30.000 99.0667 4.3465 30 30.000 50.333.9558 30 30.000 34.4667 3.483 30 30.000 33.8000 4.9786 30 30.000 96.0333 4.553 30 30.000 50.5667 3.5495 30 30.000 35.5000 3.994 30 30.000 3.3000 5.337 30 30.000 94.5333 4.598 30 30.000 5.9667.8 30 30.000 36.667 5.3504 30 30.000 30.3333 4.97 30 30.000 93.5000 5.0566 30 30.000 5.3667 3.784 30 30.000 33.9733 4.8907 50 50.000 3.5467 4.9393 50 50.000 96.4600 5.3778 50 50.000 50.9333 3.079 50 50.000 A Mahalanobis távolságok: 44
Dinasztia 3 4 5 0.09 3 0.903 0.79 4.88.594 0.443 5.697.76 0.9 0.9 megj: Az ún. Mantel teszttel lehet mérni két távolság mátrix hasonlóságát. Ebben az esetben például azt, hogy a dinasztiák távolságainak mátrixa korrelál-e az időbeli távolságok mátrixával. (igen) n Teszt statisztika: Z = m ij e ij, ahol ij és eij a két i= i j = összehasonlítandó mátrix elemei. Az egyik mátrix sorainak random sorrendjeiből számított tapasztalati eloszlással hasonlítjuk össze. Ha korreláltak a mátrixok, akkor Z nagy lesz, P kicsi. m 45