Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok).



Hasonló dokumentumok
Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok).

Standardizálás, transzformációk

Hátrányok: A MANOVA elvégzésének lépései:

Standardizálás, transzformációk

Diszkriminancia-analízis

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

y ij = µ + α i + e ij

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Segítség az outputok értelmezéséhez

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Statisztikai szoftverek esszé

Faktoranalízis az SPSS-ben

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Principal Component Analysis

Varianciaanalízis 4/24/12

Faktoranalízis az SPSS-ben

Többváltozós lineáris regressziós modell feltételeinek

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Hipotézis vizsgálatok

Bevezetés a Korreláció &

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

A leíró statisztikák

Logisztikus regresszió

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Adatok statisztikai értékelésének főbb lehetőségei

(Independence, dependence, random variables)

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Többváltozós Regresszió-számítás

Regressziós vizsgálatok

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Többváltozós lineáris regresszió 3.

Heckman modell. Szelekciós modellek alkalmazásai.

Logisztikus regresszió

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Kettőnél több csoport vizsgálata. Makara B. Gábor

Korreláció és lineáris regresszió

Klaszterezés, 2. rész

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

c adatpontok és az ismeretlen pont közötti kovariancia vektora

[Biomatematika 2] Orvosi biometria

Több valószínűségi változó együttes eloszlása, korreláció

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Főkomponens és Faktor analízis

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Matematikai geodéziai számítások 6.

KISTERV2_ANOVA_

Főkomponens és Faktor analízis

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

2012. április 18. Varianciaanaĺızis

y ij e ij BIOMETRIA let A variancia-anal telei Alapfogalmak 2. Alapfogalmak 1. ahol: 7. Előad Variancia-anal Lineáris modell ltozó bontását t jelenti.

Minden az adatról. Csima Judit február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41

Korreláció számítás az SPSSben

Regresszió számítás az SPSSben

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

BIOMETRIA_ANOVA_2 1 1

: az i -ik esélyhányados, i = 2, 3,..I

Nagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás

Biostatisztika VIII. Mátyus László. 19 October

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai geodéziai számítások 6.

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Esetelemzések az SPSS használatával

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

A többváltozós lineáris regresszió III. Főkomponens-analízis

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Least Squares becslés

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Módszertani hozzájárulás a Szegénység

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

Vektorterek. =a gyakorlatokon megoldásra ajánlott

Feltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2

Esetelemzés az SPSS használatával

Q1 = 1575 eft Me = 2027,7778 eft Q3 = 2526,3158 eft

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Correlation & Linear Regression in SPSS

A magyarországi nonprofit szektorban dolgozók motivációjára káros hatások értékelésének elemzése többváltozós statisztikai módszerekkel

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

A maximum likelihood becslésről

Ismételt méréses multifaktoriális varianciaanaĺızis (repeated measures MANOVA) szeptember 19.

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Átírás:

Többváltozós roblémák Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok). Volt: Több magyarázó változó: többszörös regresszió, több faktoros ANOVA, ANCOVA. Most: több független változó, vagy több függő és független változó (vektor változók). l. 889 február.-én Rhode Island-en egy nagyvihar után 49 haldokló verebet vittek be a Brown Egyetem biológiai laboratóriumába. Ezek után a madaraknak kb a fele elusztult, és Hermon Bumus ezt egy jó alkalomnak találta a természetes szelekció hatásának vizsgálatára. A madarak 5 testmérete sorrendben: teljes hossz, szárnytávolság, csőr és fej hossz, felkar hossz, mellcsont hossza. Ezek a változók most egy vektorváltozót alkotnak. Eloszlás: általában többváltozós normális. Közéontja: centroid, várható érték vektor. Várható érték: μ x μ x μ= és ennek becslése a mintából: x = M M μ x 3

A szórás helyett kovariancia mátrix : cov(x,y)= μ{(x-μ(x))(y-μ(y))} Ha X=Y, akkor a kovariancia a változó varianciája. cov σ cov, X = M cov, ( ) ( X) ( X X) ( X X ) σ ( X ) cov,... ( X X ) σ ( X ) n n-ed rendű mátrix, szimmetrikus, és nincs negatív sajátértéke. A korrelációs mátrix, ha: n. R(X,Y) = μ{(x-μ(x))(y-μ(y))}/{σ(x)σ(y)}, RX R( X ) = M RXn A verebek esetén: teljes hossz (, X) (, X) szarnytavolsag csor es fej hossz felkar hossz mellcsont hossza ( X) RX,... Mean Variance 57.98 3.35 4.33 5.68 3.46.63 8.47.3 0.83.98 4

> var(vereb[,:6]) X X X3 X4 X5 X 3.35 3.6.9.33.9 X 3.6 5.68.74.98.658 X3.9.7 0.63 0.34 0.45 X4.33.0 0.34 0.38 0.339 X5.9.66 0.45 0.339 0.983 > cor(vereb[,:6]) X X X3 X4 X5 X.000 0.735 0.66 0.645 0.605 X 0.735.000 0.674 0.769 0.59 X3 0.66 0.674.000 0.763 0.56 X4 0.645 0.769 0.763.000 0.607 X5 0.605 0.59 0.56 0.607.000 Ha csoortokat alkotnak a megfigyelési egységek, akkor itt is lehet csoortok közötti (between grous) és csoortokon belüli kovariancia mátrixokról beszélni. A módszereknél általában feltétel a csoortokon belüli kovariancia mátrixok egyezősége. 5

Többváltozós roblémák. Verebek a viharban TULEL Grou Total nem elte tul a vihart tulelte a vihart Count Maximum Mean Median Minimum Std Deviation Count Maximum Mean Median Minimum Std Deviation Variance Count Maximum Mean Median Minimum Std Deviation Variance teljes csor es fej felkar mellcsont hossz szarnytavolsag hossz hossz hossza 8 8 8 8 8 65.00 5.00 33.40 9.80 3.0 58.43 4.57 3.48 8.45 0.84 59.00 4.00 3.50 8.50 0.70 5.00 30.00 30.0 7.0 8.60 3.88 5.7.85.66.5 5.07 3.55.73.43.3 64.00 48.00 3.80 9.30.00 57.38 4.00 3.43 8.50 0.8 57.00 40.00 3.40 8.50 0.60 53.00 35.00 30.30 7.70 9.60 3.3 4.8.73.4.76.05 7.50.53.8.57 49 49 49 49 49 65.00 5.00 33.40 9.80 3.0 57.98 4.33 3.46 8.47 0.83 58.00 4.00 3.50 8.50 0.70 5.00 30.00 30.0 7.0 8.60 3.65 5.07.79.56.99 Variance 3.35 5.68.63.3.98 Milyen kérdéseket lehet feltenni? Milyen kacsolatban vannak egymással a mért változók? Túlélők, nem túlélők átlagai, szórásai különböznek-e? (Variancia-analízis, F-róba, Levene róba) Ha a túlélők és nem túlélők különböznek a mért változók eloszlásai szemontjából, akkor lehetséges-e konstruálni egy olyan függvényét ezeknek a változóknak, amely szétválasztja a két csoortot. Ha ez nagy a túlélőkre és kicsi a nem túlélőkre, akkor ez lehetne a darwini fitnesszre egy index. 6

. Egyitomi koonyák Thébából származó férfi koonyák 5 korszakból. Mindegyikből 30-30 darab.. Korai redinasztikus kor (4000 ie). Késő redinasztikus kor (3300 ie) 3.. 3. dinasztia (850 ie) 4. Ptolemaioszi kor (00 ie) 5. Római kor (50 iu) Milyen kacsolatban van a 4 mért érték egymással? Van-e szignifikáns differencia a mintaátlagok illetve szórások között, és ha igen, akkor ez tükrözi-e fokozatos időbeli változást? Lehetséges-e konstruálni egy f függvényét a 4 változónak, amely valamilyen értelemben visszatükrözi a minták közti különbségeket? 7

DINASZT.00 Count X X X3 X4 30 30 30 30 Maximum 4.00 43.00 4.00 56.00 Mean 3.37 33.60 99.7 50.53 Minimum 9.00.00 89.00 44.00 Std Err of Mean.94.8.07.50 Std Deviation 5.3 4.47 5.88.76 Variance 6.3 9.97 34.63 7.64.00 Count 30 30 30 30 Maximum 48.00 45.00 07.00 56.00 Mean 3.37 3.70 99.07 50.3 Minimum 3.00 4.00 90.00 45.00 Std Err of Mean.88.85.79.54 Std Deviation 4.8 4.65 4.35.96 Variance 3.4.60 8.89 8.74 3.00 Count 30 30 30 30 Maximum 40.00 45.00 06.00 60.00 Mean 34.47 33.80 96.03 50.57 Minimum 6.00 3.00 87.00 45.00 Std Err of Mean.64.9.83.65 Std Deviation 3.48 4.98 4.55 3.55 Variance. 4.79 0.7.60 4.00 Count 30 30 30 30 Maximum 44.00 4.00 07.00 60.00 Mean 35.50 3.30 94.53 5.97 Minimum 9.00 0.00 86.00 46.00 Std Err of Mean.7.94.84.5 Std Deviation 3.9 5.3 4.59.8 Variance 5.36 6.36.09 7.96 5.00 Count 30 30 30 30 Maximum 47.00 38.00 03.00 58.00 Mean 36.7 30.33 93.50 5.37 Minimum 6.00 0.00 8.00 44.00 Std Err of Mean.98.9.9.68 Std Deviation 5.35 4.97 5.06 3.7 Variance 8.63 4.7 5.57 3.83 8

Alavető technika: eredeti változók olyan lineáris kombinációját létrehozni, ami összegzi az eredeti adathalmaz varianciáját. Az eredeti adatok: Objektum X X... X x x... x x x... x M n x n x n x n Zi = aix + aix +... + aix Az ilyen függvényeket szokták diszkriminancia függvényeknek, főkomonenseknek, kanonikus függvényeknek, faktoroknak nevezni. analógia: regressziós függvény Időnként még egy lusz konstans is van benne, ekkor: Z = a + a X + a X +... + a i i0 i i i X (Megj: ha az adatok standardizáltak, akkor a konstans 0.) A látens (extracted) változók általános tulajdonságai: az első magyarázza a variancia legnagyobb részét, a második a maradékból a legnagyobb részt, stb.; nem korreláltak, merőlegesek-függetlenek számuk = (a régi változók száma) megj.: csak néhányat tartunk meg belőlük. 9

Sajátértékek, sajátvektorok Eredeti össz variancia: S(cov(X))= λ. Ha a változók standardizáltak, akkor i= i λ =. i= Sajátvektorok: új változók együtthatói, az a ij -k. > eigen(cor(vereb[,:6])) $values [] 3.66 0.53 0.386 0.30 0.65 $vectors [,] [,] [,3] [,4] [,5] [,] -0.45 0.0507 0.690 0.404-0.374 [,] -0.46-0.996 0.34-0.5479 0.530 [3,] -0.45-0.346-0.454 0.6063 0.343 [4,] -0.47-0.847-0.4-0.3883-0.65 [5,] -0.398 0.8765-0.78-0.0689 0.9 Hogy lehet a sajátértékeket sajátvektorokat kiszámítani?. Asszociációs mátrix s.é.-ei, s.v.-ai: sektrál felbontás. Az eredeti vagy a standardizált adatmátrix szinguláris érték felbontásával. (Kontingencia táblákra is működik.) R-mode analízis: a változók cov vagy R mátrixából indulunk ki. szkór (score): új változókból számítjuk ki a megfigyelési egységekre. Q-mode analízis: a megfigyelési egységek cov vagy R mátrixából indulunk ki, az objektumok lin. komb.-jait kajuk. i 30

(mátrix algebrával összekacsolhatók) A Q-mode analízis különbségi mértékeken alaul (dissimilarity measures) s.é., s.v. számítás: kanonikus korreláció analízis, főkomonens analízis és korresondencia analízis Ha az objektumok csoortokat alkotnak, akkor úgy lehet kiszámítani a komonenseket, hogy azok a csoortok közötti különbségeket a leginkább kihangsúlyozzák: MANOVA, diszkriminancia elemzés. 3

Többváltozós exloratív elemzés Többváltozós grafikonok Szokásos egyváltozósak. Chernoff arcok, csillagok 3

>stars(vereb[,:6]) Szórásdiagram mátrix. >airs(vereb[,:6]) 33

Szórás diagram az új, látens változókkal. Kétváltozós boxlot 34

35

Töbváltozós távolságok, hasonlóságok Hasonlósági mértékek (similarity measures): mennyire hasonlóak az objektumok: korreláció Különbözőségi mértékek (dissimilarity measures): többváltozós távolság. Többváltozós roblémák - egyedi megfigyelések, minták, illetve oulációk közötti távolságok. Egyedi megfigyelések közti távolságok: Legegyszerűbb eset: n egyeden változót X, X,..., X mérünk. Az i-edik egyed mért értékei: xi, xi,..., xi, a j-ediké: xj, xj,..., xj. Ha =, akkor a két ont távolságát a Pitagorasz tétel alaján számíthatjuk: dij = ( xi xj) + ( xi xj) Több változó esetére is működik: ( ) d = x x ij ik jk k= Euklideszi távolság. Ha egy változó sokkal variabilisebb a többinél, akkor az dominálja a távolságot. Standardizálás.. 36

l. Thaiföldi rehisztorikus kutyák kb ie 3500-ból származó kutyacsontokat találtak. Nem világos, hogy honnan származtatható a rehisztorikus kutya, az arany sakáltól (Canis aureus), vagy a farkastól. Az eredet kiderítése végett méréseket végeztek az alsó állkaocs csontokon, illetve más fajták állkacsán. A mért változók: X - az állkaocs szélessége, X - az állkaocs magassága az első záfog alatt, X 3 - az első záfog hossza, X 4 - az első záfog szélessége, X 5 - az első és harmadik záfog közötti távolság (beleértve a záfogakat is), X 6 - az első és negyedik záfog közötti távolság (beleértve a záfogakat is). A mérések átlagai: X X X 3 X 4 X 5 X 6 Modern kutya 9.7.0 9.4 7.7 3.0 36.5 Arany sakál 8. 6.7 8.3 7.0 30.3 3.9 Kínai farkas 3.5 7.3 6.8 0.6 4.9 48. Indiai farkas.5 4.3 4.5 9.3 40.0 44.6 Kujon 0.7 3.5.4 8.5 8.8 37.6 Dingó 9.6.6. 8.3 34.4 43. Prehisztorikus 0.3. 9. 8. 3.3 35.0 kutya Forrás: Higham et al. (980). 37

A standardizált értékek X X X 3 X 4 X 5 X 6 Modern kutya -.46 -.46 -.68 -.69 -.46 -.57 Arany sakál -.4 -.79 -.04 -.9 -.80 -. Kínai farkas.78.48.70.80.55.50 Indiai farkas.60.55.96.69.7.88 Kujon.3.3 -.04.00 -.0 -.37 Dingó -.5.03 -.3 -.7.03.6 Prehisztorikus kutya -. -. -.78 -.34 -.39 -.83 :Modern kutya :Arany sakal 3:Kinai kutya 4:Indiai kutya 5:Kujon 6:Dingo 7:Prehisztorikus kutya This is a dissimilarity matrix Proximity Matrix Euclidean Distance :Modern :Arany 3:Kinai 4:Indiai 7:Prehisztorikus kutya sakal kutya kutya 5:Kujon 6:Dingo kutya.9 5.38 3.386.5.559.665.9 7. 5.059 3.90 3.83.389 5.38 7..39 4.575 4.4 5. 3.386 5.059.39.9.97 3.8.5 3.90 4.575.9.669.76.559 3.83 4.4.97.669.704.665.389 5. 3.8.76.704 Ez is négyzetes mátrix, szimmetrikus és 0-ák vannak az átlóban. City-block (Manhattan) távolság: d ij = k= x ik x jk. Hasonló eredményt ad az előzőhöz, de nem olyan érzékeny az outlierekre. Csebisev (Chebychev) távolság: 38

Ha csak dimenzióban nézzük a különbséget. d ij = max x k ik x jk Hatvány (Power, Costumized) távolság:ha a növelni vagy csökkenteni akarjuk azoknak a dimenzióknak a súlyát, amelyek esetén különböznek az objektumok: d Az n és r értékét mi választhatjuk meg. ij = k= Az n az egyedi dimenziók közötti távolságokat súlyozza, az r edig az egyes megfigyelt egyedek közöttieket. Ha n = r, akkor Minkowsky távolságnak nevezzük. Bray-Curtis (Kulczynski): faj abudancia adatok esetén használatos. Gyakorisági értékek esetén: Chi-négyzet (Chi-square). A szokásos módon számolt χ -érték. Phi-négyzet (Phi-square) Az előző normalizálva. Jaccard e.h.: bináris skálán mért (rezencia, abszencia) adatokra. a a + b + c a azoknak a változóknak a száma, amelyek esetén egyik objektum értéke sem 0 b ahol az egyik 0, c ahol a másik 0. x ik y jk n r. 39

Gower e.h.: lehetnek folytonos és kategoriális változók is. Dissim. mértékek tulajdonságai: metrikusság: háromszög készíthető a 3 ont áronkénti távolságaiból. Általában ilyenek, Bray-Curtis nem. MDA-nál lényeges tulajdonság. 40

Mikor melyiket használjuk? Ha a változók hasonló skálán mértek és nincs 0 értékük, akkor Euklideszi, City-block. Ha nem hasonló a skála, akkor először standardizálni kell! Fajok abundanciája esetén olyan kell, amely maximális akkor, ha nincs közös faj a két mintavételi egységen: Bray-Curtis, Kulczynski jó. Távolsági mátrixok összehasonlítása Mantel-teszt l.: genetikus távolságok - földrajzi, időbeli távolságok. Távolságok oulációk és minták között Mahalanobis távolság: v rs D ij ri rj r= s= rs ( ) v ( si sj ) = μ μ μ μ, ahol a kovariancia mátrix inverzének az r-edik sorában és s- edik oszloában álló eleme. Máské: = μ μ C μ μj kvadratikus alak, ahol ( ) ( ) D ij i j i 4

μi μ i μi =, az i-edik ouláció várható érték vektora. C a M μ i kovariancia mátrix. Használható egy egyednek a ouláció közéontjától mért távolságának mérésére is: rs ( ) ( ) Dij = xr μr v xs μ s, r= s= ahol az egyeden mért értékek: x, x,..., x és a megfelelő ouláció átlagok: μ, μ,..., μ. Úgy tekinthető, mint az x megfigyelés többváltozós reziduuma, azaz, hogy milyen messze van x az összes változó eloszlásának közéontjától. Figyelembe veszi a változók közti korrelációt is. Ha a ouláció többváltozós normális eloszlást követ, akkor χ eloszlású szabadsági fokkal. Ha D értéke szignifikánsan nagy (P<0.00), akkor a megfigyelésünk vagy hibás, vagy egy extremális megfigyelés. A ouláció átlagokat és a kovariancia mátrixot a mintából becsülhetjük. D 4

l. Az egyitomi koonya minták közötti távolságok: Covarian Correlati X X X3 X4 X X X3 X4 Pooled Within-Grous a. The covariance matrix has 45 degrees X X X3 X4. 3.678E- 7.908E-.00 3.678E- 3.48 5.0.84 7.908E- 5.0 4.7.3.00.84.3 0.5.00.00.00.3.00.00..8.00..00.07.3.8.07.00 a Grou Statistics DINASZT.00.00 3.00 4.00 5.00 Total X X X3 X4 X X X3 X4 X X X3 X4 X X X3 X4 X X X3 X4 X X X3 X4 Std. Valid N (listwise) Mean Deviation Unweighted Weighted 3.3667 5.9 30 30.000 33.6000 4.469 30 30.000 99.667 5.8844 30 30.000 50.5333.7635 30 30.000 3.3667 4.80 30 30.000 3.7000 4.647 30 30.000 99.0667 4.3465 30 30.000 50.333.9558 30 30.000 34.4667 3.483 30 30.000 33.8000 4.9786 30 30.000 96.0333 4.553 30 30.000 50.5667 3.5495 30 30.000 35.5000 3.994 30 30.000 3.3000 5.337 30 30.000 94.5333 4.598 30 30.000 5.9667.8 30 30.000 36.667 5.3504 30 30.000 30.3333 4.97 30 30.000 93.5000 5.0566 30 30.000 5.3667 3.784 30 30.000 33.9733 4.8907 50 50.000 3.5467 4.9393 50 50.000 96.4600 5.3778 50 50.000 50.9333 3.079 50 50.000 A Mahalanobis távolságok: 43

Dinasztia 3 4 5 0.09 3 0.903 0.79 4.88.594 0.443 5.697.76 0.9 0.9 megj: Az ún. Mantel teszttel lehet mérni két távolság mátrix hasonlóságát. Ebben az esetben éldául azt, hogy a dinasztiák távolságainak mátrixa korrelál-e az időbeli távolságok mátrixával. (igen) 44

Standardizálás, transzformációk A transzformációk ugynúgy mennek, mint egyváltozós esetben. Itt még fontosabbak a linearitás miatt. Standardizálás átskálázás. Centrálás: kivonjuk minden változó átlagát, így az átlag 0 lesz. (Sektrál felbontás esetén tulajdonkéen a centrált adatok kovariancia mátrixával dolgozunk.) Standardizálás: korrelációs mátrix standardizált adatok kovariancia mátrixa. Relatív értékek (arányok): legnagyobb értékkel osztjuk az összeset. Megfigyelési egységeket is lehet standardizálni. Abundancia adatoknál fontos, ha a megfigyelési egységek mérete különböző. (arányok) 0,-é is lehet konvertálni. Sokszor hasznos lehet különböző módokon standardizálni és összehasonlítani az eredményeket: eredeti standardizált 0, eredeti: legnagyobb abundanciájú mit befolyásol 0, : rezencia, abszenciától mi függ. Asszociációs mértékek imlicit módon standardizáltak. 45

Az, hogy a kovariancia vagy korrelációs mátrixot használjuk attól függ, hogy a varianciák különbsége fontos-e biológiai szemontból. 46

Hiányzó adatok MCAR-missing comletely at random: független mind a megfigyelt adatoktól, mind a többi hiányzótól. Random részhalmaza az adatoknak. MAR lehet, hogy függ a csoorttól, hogy hiányzik-e. Mit tegyünk a hiányzó adatokkal?. Objektum törlése (deletion): legjobb megoldás, ha kevesebb, mint 5% hiányzik és MCAR Információ vesztés listwise deletion esetén. Ha az analízis áronkénti (airwise) asszociációkon alaul (kovariancia, korreláció), akkor airwise deletion. Csak akkor töröljük, ha éen azokkal a változókkal dolgozunk, amelyiknél hiányzik a megfigyelés. Imutáció Helyettesítés becsléssel. Módszerek:. átlaggal (változó értékeiből számolt\na) A varianciát alulbecsüli.. Regressziós modellel. Más változókkal becsüljük, l. a legjobban korrelált változót vagy változókat választjuk rediktornak.) 3. Hot-deck: Hasonló objektum értékével helyettesítjük. Problémák: függetlenség sérül; varianciát alulbecsli. 47

Maximum likelihood (ML) és EM becslés ML : araméter becslés a megfigyelt, nem teljes adatokból, majd a modellből becsüljük a hiányzó adatokat. Felhasználja a megfigyelt adatok eloszlását és a hiányzó adatok mintázatát. Iteratív imutáció + ML : Exectation Maximization ML araméter becslés hiányzó adatok ML araméterbecslés hiányzó adatok..., amíg nem konvergál. ML és EM feltétele a MAR. 48

Többváltozós adatelemzés SPSS-sel Előkészületek: Adatok megjelenítése: SPSS Grahics SPSS Frequency Hiányzó adatok elemzése (Missing data analysis) : Ellenőrizzük, hogy létezik-e mintázat (randomnak kell lennie) Kategoriális változó esetén: Ha Missing < 5%, List-wise otion Ha >=5%, akkor a hiányzó értékek kerüljenek egy új kategóriába Mért változó esetén: Ha Missing < 5%, List-wise otion 5% és 5% között : Transform>Relace Missing Value. (5%-nál kevesebb adat behelyettesítésének nincs túl komoly hatása Ha > 5%, akkor töröljük a változót, vagy a megfigyelési egységet (ismételt mérések esetén) Kiugró értékek ellenőrzése (Outlier-ek) : (Általában a statisztikai eljárások érzékenyek az outlier-ekre.) 49

Egyváltozós eset: boxlot Többváltozós eset: Mahalanobis távolság (Khi-négyzet statisztika), egy ont akkor outlier, ha a -érték <.00. o Az eset azonosítója (dummy variable) : Deendent, a többi változó: Indeendent o Save>Mahalanobis Kezelés: Töröljük az esetet Közöljünk két elemzést (egyet az outlier-rel, egyet edig nélküle) Normalitás: Egyváltozós normalitás tesztek: Q-Q lot Skewness és Kurtosis Tesztek Többváltozós normalitás tesztelése: A szórásdiagrammoknak ellitikusaknak kell lennie Minden változónak normálisnak kell lennie Linearitás: A linearitás ellenőrzése Reziduális lot regresszió esetén Szórásdiagrammok 50

Homoscedasticity: a kovariancia mátrixoknak a csoortokban meg kell egyeznie: Tesztelése: Box s M test Érzékeny a normalitásra Levene teszt: a csoort varianciák egyezőségének vizsgálata. Nem annyira érzékeny a normalitásra 5

Emlékeztető: ANOVA Az egyfaktoros ANOVA a o. átlagok egyezőségét teszteli Feltételek: független megfigyelések; normalitás; varianciák homogenitása Két faktoros ANOVA 3 hiotézis teszttel szimultán: Interakció a két faktor között A két faktor hatásának tesztelése Emlékeztető: ANCOVA A függő változó értéke folytonos független változótól (kovariáns) is függhet. Kovariánsok hatásának figyelembe vétele illetve becslése. A reguláris ANOVA feltételein túl követelmény még: Lineáris kacsolat a függő változó és a kovariánsok között MANOVA Tulajdonságok: Hasonló az ANOVÁ-hoz Több függő változó A függő változók korreláltak és a lineáris kombinációnak értelme van. Azt teszteli, hogy k oulációban a független változók egy lineáris kombinációjának átlagai különböznek-e. Alaötlet: találjunk egy olyan lineáris kombinációt, amely otimálisan szearálja a csoortokat, azaz olyat amely 5

maximalizálja a hiba (within grou) variancia/kovariancia mátrix és a hatás (between grou) variancia/kovariancia mátrix hányadosát. (Ez ugyanaz, mint amit a diszkriminancia elemzésnél használunk.) Ennek a kombinációnak a standardizált együtthatói megmondják, hogy melyik változó milyen súllyal szereel a szearálásban. Előnyök: Annak az esélye, hogy különbségeket találunk a csoortok között, nagyobb, ahhoz kéest, mintha minden változóra egyenként ANOVÁ-t csinálnánk. Nem inflálódik az elsőfajú hiba. Több ANOVA elvégzése nem veszi figyelembe azt, hogy a független változók korreláltak. Hátrányok: Bonyolultabb, Az ANOVA gyakran nagyobb hatóerejű. Sokkal komlikáltabb kísérleti elrendezést igényel. Kétségek merülhetnek fel, hogy valójában mely független változók mely függő változók értékét befolyásolják. Minden lusz függő változó szabadsági fokkal kevesebbet jelent. Feltételek: Független minták, Többváltozós normális eloszlás a csortokban A kovariancia mátrix homogenitása 53

Lineáris kacsolat a független változók között A MANOVA elvégzésének léései: Feltételek ellenőrzése Ha a MANOVA nem szignifikáns, sto Ha a MANOVA szignifikáns, egyváltozós ANOVÁk Ha az egyváltozós ANOVA szignifikáns, Post Hoc tesztek. Ha igaz a homoscedasticity, Wilks Lambda, ha nem Pillai s Trace. Általában mind a 4 statisztikának hasonlónak kell lennie. A MANOVA algoritmusa:. Az ANOVA négyzetösszegei helyett sums-of-squares-andcross-roducts (SSCP) mátrixok. Egy a hatásnak (between grous) megfelelő (H), egy edig a reziduális (within grous): E, és egy a teljesnek megfelelő (T).. Kiszámítjuk a HE - szorzatot (egyváltozós esetben ez az F érték). 3. Kiszámítjuk a HE - sektrál felbontását: sajátértékek, sajátvektorok. A s.é.-kek azt mutatják meg, hogy betweengrou varianciából a sajátvektorok vagy lineáris kombinációk mennyit magyaráznak. A s.v.-ok tartalmazzák a lineáris kombinációk együtthatóit. 4. Az a lineáris kombináció, amelyikhez a legnagyobb s.é. tartozik maximalizálja a between-grou/within-grou variancia hányadost. H 0 : a csoort centroidok megegyeznek. 54

Ez tesztelhető valamelyik variancia mérték segítségével (nyom, determináns:általánosított variancia). Wilk s lambda: E / T. A teljes variancia hányad része a reziduális. Minél kisebb, annál nagyobb a csoortok köztötti különbségek. Hotelling-Lawley trace: H / E. Ez ugyanaz, mint a HE - mátrix nyoma (sajátértékek összege). Nagyobb értékek nagyobb különbségeket indikálnak a csoort centroidok között. Pillai trace: A HT - nyoma, vagyis a between grous variancia. Roy s largest root: a HE - legnagyobb s.é.-e, vagyis ahhoz a lineáris kombinációhoz tartozó s.é. amely a between grous variancia-kovarianca legnagyobb részét magyarázza. Ezeknek a statisztikáknak az eloszlása nem teljesen ismert, közelítő F értékekké konvertálják ezeket. Két csoort esetén a Wilk s lambda, a Hotteling és Pillai féle érték megegyezik és megegyezik a Hotteling féle T statisztikával, ami a t-róba többváltozós kiterjesztése. Általában hasonló eredményeket rodukálnak több csoort esetén is. A Pillai trace a legrobosztusabb teszt. 55

MANCOVA Cél: Csoortok közötti különbség tesztelése független változók egy lineáris kombinációja alaján egy kovariáns figyelembe vételével. Példa: 3 területen élő őzek összehasonlítása a kor kovariáns figyelembe vételével. Reeated Measure Analysis Cél: csoortok közötti különbségek tesztelése, ha a megfigyelési egységeken többször mérünk. Feltétel: Független megfigyelések!! Helyette: Kevert modell 56

Diszkriminancia analízis Cél: egy olyan függvény létrehozása, amely alaján az egyedek két vagy több csoortba sorolhatók (a függvény értéke lényegesen változik csoortról csoortra). Később a függvényt új egyedek besorolására lehessen használni. l. verebek. A testméretek alaján besorolhatók-e a verebek a túlélők ill. nem túlélők közé (Mire emlékeztet ez a kérdés?!!): Lineáris diszkriminancia függvény: Z = ax + ax +... + a X Ha Z értéke jelentősen változik csoortról csoortra, akkor a csoortok jól szearálhatók. Több függvény is konstruálható. A függvény úgy vetíti le a csoortokat egy alacsonyabb dimenziós térbe, hogy azok eloszlásai a legkisebb mértékben fedjék át egymást. A MANOVA inverze. A MANOVA ugyanezt a függvényt használja. Kétféle cél:. Prediktív diszkriminancia analízis (generáljunk egy szabályt, amely alaján csoortokba sorolhatunk).. Leíró analízis: a függő változó és a független változók kacsolatát vizsgáljuk. Hogyan működik?. Feltételezzük, hogy a célouláció egymást kizáró rész oulációkból áll.. Feltételezzük, hogy a független változóink többváltozós normális elsozlást követnek 57

3. Megkeressük azt a lineáris kombinációt, amely a legjobban szearálja a csoortokat. 4. Ha k csoortunk van, akkor k- diszkriminancia függvényt készítünk. 5. Minden függvényre kiszámítjuk a diszkriminancia szkórokat. 6. Ezeket a szkórokat használjuk a klasszifikáláshoz. Klasszifikálási módok: ML ahhoz a csoorthoz sorolja be, amelynek legnagyobb a valószínűsége. Fisher (lineáris) klasszifikáló függvény: abba a csoortba sorolja be, amely esetén a csoorthoz tartozó függvény szkórja a legnagyobb. Diszkriminálás Mahalanobis távolságokkal: Kiszámítjuk az egyedek Mahalanobis távolságát a csoort centroidoktól, és abba soroljuk be, amelyhez a legközelebb van. Megjegyzés: az SPSS a Maximum likelihood módszert használja. Logisztikus regresszió vagy diszkriminancia analízis? Ha a magyarázó változók normális eloszlásúak, akkor a DA jobb. Ha kategoriális változóink is vannak, akkor a DA akkor rosszabb, ha a kategóriák száma nagyon kicsi (, 3). Ezekben az esetekben a LR eredménye hasonló a DA-éhoz, legfeljebb egy kicsit rosszabb (ha a mintaelemszám aránylag kicsi). Ha a DA feltételei nem teljesülnek, mindenkéen a LR-t kell használni. Az LR nem eloszlás függő. 58

Őzes élda oututja: terület Árádhalom Babat Pitvaros Pooled within-grous Log Determinants Log Rank Determinant 5 4.83 5 5.408 5 4.67 5 5.49 The ranks and natural logarithms of determinants rinted are those of the grou covariance matrices. Általánosított variancia logaritmusa. Ha közel egyenlőek, akkor valószínűleg nincs nagy gond. Test Results Box's M F Arox. df df Sig. 4.08. 30 5736.090.88 Tests null hyothesis of equal oulation covariance matrices. Function Eigenvalues Canonical Eigenvalue % of Variance Cumulative % Correlation.866 a 95. 95..68.044 a 4.9 00.0.06 a. First canonical discriminant functions were used in the analysis. A HE - mátrix s.é.-ei és a megfelelő variancia hányadok. A Canonical correlation egy asszociációs mérték a diszkriminancia szkórok és a csoortok között. Wilks' Lambda Test of Function(s) through Wilks' Lambda Chi-square df Sig..53 54.053 0.000.957 3.56 4.474 59

A Wilks Lambda a varianciából a csoortok különbözősége által nem magyarázott hányad. A szignifikancia szint a diszkriminancia fv. szignifikanciáját mutatja. Z Canonical Discriminant Function Coefficients Function teljes hossz orrtól farok végéig.07 -.08 marmagasság köröm végéig.063.8 szív súlya.06.008 jobb vese súlya -.080.6 ln_vesezsir.303 -.40 (Constant) -3.99-6.85 Unstandardized coefficients = 0.07 testh + 0.063 marm + 0.06 szivs 0.08 veses + 0.303 ln_ ve Ezekkel a fv.ekkel tudunk szkórokat számolni minden esethez. Functions at Grou Centroids terület Árádhalom Babat Pitvaros Function.884 -.349 -.708.03.443.30 Unstandardized canonical discriminant functions evaluated at grou means A fv értékek a csoort centroidok esetén. Standardized Canonical Discriminant Function Coefficients teljes hossz orrtól farok végéig marmagasság köröm végéig szív súlya jobb vese súlya ln_vesezsir Function.49 -.468.9.49.544.6 -.55.797.63 -. 60

Az egyes változók fontosságát? mutatják az egyes diszkriminancia függvényekben. (Nagyon korrelált változók esetén nehéz interretálni.) szív súlya teljes hossz orrtól farok végéig ln_vesezsir jobb vese súlya marmagasság köröm végéig Structure Matrix Function.753*.503.7*.50.58*.048 -.04.873*.535.58* Pooled within-grous correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. *. Largest absolute correlation between each variable and any discriminant function A diszkriminancia függvények és az eredeti változók korrelációi. Az első függvény a szívsúllyal, a teljes hosszal és a vesezsírral korrelál, míg a másik a jobb vese súlyával és a marmagassággal. Classification Function Coefficients terület Árádhalom Babat Pitvaros teljes hossz orrtól farok végéig.883.737.870 marmagasság köröm végéig 4.966 4.9 5.079 szív súlya -.8 -.303 -.67 jobb vese súlya -.83 -. -.5 ln_vesezsir.64.06.78 (Constant) -3.66-30.857-335.54 Fisher's linear discriminant functions A Fisher féle fv-ek. Amelyik csoort esetén a legnagyobb az értéke, abba sorolja be. 6

Original Count % terület Árádhalom Babat Pitvaros Árádhalom Babat Pitvaros Classification Results a Predicted Grou Membershi a. 76.7% of original groued cases correctly classified. Árádhalom Babat Pitvaros Total 3 3 8 7 43 3 53 4 0 5 66.7 6.7 6.7 00.0 3. 8. 5.7 00.0 6.7.0 73.3 00.0 Canonical Discriminant Functions 4 terület Árádhalom Babat Pitvaros Grou Centroid Function 0 Babat Pitvaros Árádhalom - -4-3 - - 0 3 4 Function 6

63

Adatredukció (Ordináció) Főkomonens analízis (PCA) Felfedező adatelemzésben használatos. Adathalmaz kényelmesebb és informatívabb ábrázolása, dimenziószám csökkentése, fontos változók beazonosítása. Cél: Van változónk: X, X,..., X és keressük ezeknek olyan Z, Z,..., Z kombinációit (főkomonensek), amelyek nem korreláltak. A korrelálatlanság azt jelenti, hogy az új változók az adatok különböző dimenzióit mérik. ( Z ) ( Z )... ( Z ) σ σ σ Remény: a legtöbb főkomonens szórása olyan kicsi, hogy elhanyagolhatók, így az adatokban meglévő változatosság néhány főkomonenssel jól leírható. Ha az eredeti változók egyáltalán nem korreláltak, az analízis semmit nem csinál. Legjobb eredmény: nagyon korrelált változók esetén. Adatok: Egyed X X... X x x... x x x... x M n x n x n x n 64

A főkomonensek: Zi = aix + aix +... + aix a + a +... + a = i i i ( ) ( ) ( ) és σ Z σ Z... σ Z. A főkomonensek varianciái az adatok kovariancia mátrixának sajátértékei (λ i ), az együtthatói edig a megfelelő sajátértékhez tartozó sajátvektor együtthatói. Ha a kovarianciamátrix: c c... c c c... c C =, M M M c c c akkor λ + λ+... + λ = c + c+... + c = σ ( X) + σ ( X ) +... + σ ( X ) Céls zerű az adatokat standardizálni az analízis előtt. Ekkor a kovariancia mátrix megegyezik korrelációs mátrixszal. Feltételek: Normalitás nem feltétel, de a nagyon ferde eloszlás ronthatja az eredményt. A normalitás csak tesztek esetén szükséges. Linearitás. Ne legyenek outlierek. 65

Példa: Őzek: teljes súly teljes hossz orrtól farok végéig marmagasság köröm végéig törzs hossza ocak körkörös mérete hátsó láb hossza körömtől gerincig szív súlya lé súlya jobb vese súlya recés gyomor súlya kaja nélkül Communalities Initial Extraction.000.806.000.76.000.758.000.378.000.636.000.576.000.70.000.604.000.634.000.389 Extraction Method: Princial Comonent Analysis. Azt mutatja meg, hogy a főkomonensek mennyit magyaráznak az egyes változókból. Az Initial azt jelenti, hogy az összes főkomonens együtt mennyit magyaráz, az Extraction edig azt, hogy az extraktolt főkomonensek mennyit. (A főkomonensek (magyarázó változók) és a megfelelő változó többszörös korrelációs együtthatójának négyzete.) Total Variance Exlained Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums Comonent Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of 4.647 46.466 46.466 4.647 46.466 46.466 4.494.55 5.507 6.973.55 5.507 6.973.704 3.8 8.5 70.98 4.708 7.078 77.76 5.65 6.54 83.790 6.578 5.78 89.57 7.35 3.506 93.077 8.83.834 95.9 9.8.79 98.090 0.9.90 00.000 Extraction Method: Princial Comonent Analysis. A korrelációs/kovariancia mátrix s.é.-ei, és a megfelelő variancia hányadok. 66