Standardizálás, transzformációk

Átírás

1 Standardizálás, transzformációk A transzformációk ugynúgy mennek, mint egyváltozós esetben. Itt még fontosabbak a linearitás miatt. Standardizálás átskálázás. Centrálás: kivonjuk minden változó átlagát, így az átlag 0 lesz. (Spektrál felbontás esetén tulajdonképpen a centrált adatok kovariancia mátrixával dolgozunk.) Standardizálás: korrelációs mátrix standardizált adatok kovariancia mátrixa. Relatív értékek (arányok): legnagyobb értékkel osztjuk az összeset. Megfigyelési egységeket is lehet standardizálni. Abundancia adatoknál fontos, ha a megfigyelési egységek mérete különböző. (arányok) 0,-é is lehet konvertálni. Sokszor hasznos lehet különböző módokon standardizálni és összehasonlítani az eredményeket: eredeti standardizált 0, eredeti: legnagyobb abundanciájú mit befolyásol 0, : prezencia, abszenciától mi függ. Asszociációs mértékek implicit módon standardizáltak.

2 Az, hogy a kovariancia vagy korrelációs mátrixot használjuk attól függ, hogy a varianciák különbsége fontos-e biológiai szempontból.

3 Hiányzó adatok MCAR-missing completely at random: független mind a megfigyelt adatoktól, mind a többi hiányzótól. Random részhalmaza az adatoknak. MAR lehet, hogy függ a csoporttól, hogy hiányzik-e. Mit tegyünk a hiányzó adatokkal?. Objektum törlése (deletion): legjobb megoldás, ha kevesebb, mint 5% hiányzik és MCAR Információ vesztés (complete.obs) esetén. Ha az analízis páronkénti (pairwise) asszociációkon alapul (kovariancia, korreláció), akkor paiwise.complete.obs. Csak akkor töröljük, ha éppen azokkal a változókkal dolgozunk, amelyiknél hiányzik a megfigyelés. Imputáció Helyettesítés becsléssel. Módszerek:. átlaggal (változó értékeiből számolt\na) A varianciát alulbecsüli.. Regressziós modellel. Más változókkal becsüljük, pl. a legjobban korrelált változót vagy változókat választjuk prediktornak.) 3. Hot-deck: Hasonló objektum értékével helyettesítjük. Problémák: függetlenség sérül; varianciát alulbecsli.

4 Maximum likelihood (ML) és EM becslés ML : paraméter becslés a megfigyelt, nem teljes adatokból, majd a modellből becsüljük a hiányzó adatokat. Felhasználja a megfigyelt adatok eloszlását és a hiányzó adatok mintázatát. Iteratív imputáció + ML : Expectation Maximization ML paraméter becslés hiányzó adatok ML paraméterbecslés hiányzó adatok..., amíg nem konvergál. ML és EM feltétele a MAR.

5 Adatredukció (Ordináció) Főkomponens analízis (PCA) Felfedező adatelemzésben használatos. Adathalmaz kényelmesebb és informatívabb ábrázolása, dimenziószám csökkentése, fontos változók beazonosítása. Cél: Van p változónk:,,..., p és keressük ezeknek olyan,,..., kombinációit (főkomponensek), amelyek p nem korreláltak. A korrelálatlanság azt jelenti, hogy az új változók az adatok különböző dimenzióit mérik.... p Remény: a legtöbb főkomponens szórása olyan kicsi, hogy elhanyagolhatók, így az adatokban meglévő változatosság néhány főkomponenssel jól leírható. Ha az eredeti változók egyáltalán nem korreláltak, az analízis semmit nem csinál. Legjobb eredmény: nagyon korrelált változók esetén. Adatok: Egyed... p x x... x p x x... x p n x n x n x np

6 A főkomponensek: a a a i i i... ip p a a... a i i ip és p.... A főkomponensek varianciái az adatok kovariancia mátrixának sajátértékei ( i ), az együtthatói pedig a megfelelő sajátértékhez tartozó sajátvektor együtthatói. Ha a kovarianciamátrix: c c... c c c... c C c c c p p pp p p, akkor... c c... c... p pp p Célszerű az adatokat standardizálni az analízis előtt. Ekkor a kovariancia mátrix megegyezik korrelációs mátrixszal. Feltételek: Normalitás nem feltétel, de a nagyon ferde eloszlás ronthatja az eredményt. A normalitás csak tesztek esetén szükséges. Linearitás. Ne legyenek outlierek.

7 Azt mutatja meg, hogy a főkomponensek mennyit magyaráznak az egyes változókból. A korrelációs/kovariancia mátrix s.é.-ei, és a megfelelő variancia hányadok.

8 A s.é.-kek a komponens sorszám függvényében.

9 > pca=princomp(vereb[,:6],cor=t) > summary(pca,loadings=true) Importance of components: Comp. Comp. Comp.3 Standard deviation Proportion of Variance Cumulative Proportion Comp.4 Comp.5 Standard deviation Proportion of Variance Cumulative Proportion Loadings: Comp. Comp. Comp.3 Comp.4 Comp >par(pty="s") >plot(pca$scores[,],pca$scores[,], >ylim=range(pca$scores[,]), >xlab="pc",ylab="pc",type="n",lwd=) >text(pca$scores[,],pca$scores[,], >labels=row.names(vereb),cex=0.7,lwd=)

10 > pca$scores Ezekkel a szkórokkal tudjuk kiszámolni a komponensek értékeit az egyes esetekre. (Ezek az a ij együtthatók.) >biplot(pca) > cor(data.frame(pca$scores[,],vereb[,:6]))[,] pca.scores... pca.scores

11 Faktoranalízis Nagyszámú változó korrelációinak elemzése. Változók faktorokba csoportosítása. Az egy faktorba csoportosított változók korreláltsága nagyobb egymással, mint a csoporton kívüliekkel. A faktorok interpretálása (látens változók) a változók alapján. Sok változó összesítése néhány faktorba. i a F a F... i i a im F m e i aij - faktorsúlyok (loadings), i -k a standardizált változók. F j : korrelálatlan közös faktorok 0 várható értékkel és szórással. e i - egyedi faktor, várható értéke 0, F j -kel nem korrelált. Nem korrelált a többi j, j i változóval sem. i ai F... aim Fm ei a... a e i im i a a - kommunalitás, - egyediség (uniqueness). i... im ( e i )

12 i és j m l a a il jl - az és korrelációs együtthatója. (Csak akkor lehet két változó nagyon korrelált, ha nagy súllyal szereplenek ugyanabban a faktorban.) Számítás menete:. Korrelációs vagy kovarinacia mátrix kiszámítása.. Faktorsúlyok becslése (faktor extrakció). Pl. főkomponens analízisből megtartjuk az -nél nagyobb sajátértékű főkomponenseket (Főkomponens faktoranalízis). Főkomponensek: p b b b p b b b p... b p... b p... b Mátrix egyenlet formában: pp =B B - = B T = Mivel a B mártix ortonormált. Így: b p b b p b b b p... b... b p p... b pp p p p p p p

13 Mivel Faktor analízis esetén m < p számú faktorral dolgozunk, ezért: p b b b p b b b p... b... b m m... b mp m m e m e e Mostmár csak át kell skálázni az eredeti főkomponenseket úgy, hogy legyen a varianciájuk. Ehhez a i ket osztani kell a szórásukkal, ami éppen i. Így: p F i i / i. 3. Faktor rotációt végzünk azért, hogy a faktorok interpretálhatóbbak legyenek. A súlyok minden faktor esetén vagy nagyok vagy nagyon kicsik legyenek. 4. Faktor értékek kiszámítása a mintaegyedekre. További analízisek. Rotációs módszerek: Ortogonális: Varimax, Quartimax, Equamax Varimax: úgy forgat, hogy az együtthatók vagy -hez vagy 0-hoz közeliek legyenek. Quartimax: minimalizálja a változók magyarázásához szükséges faktorok számát Equamax: Az előző kettő kompromisszuma. A rotált faktorok nem korreláltak.

14 Ferde (Oblique): Direct Oblimin, Promax Nagyobb sajátértékeket eredményeznek. A Promax nagyon nagy táblázatok esetén használatos. Korrelált faktorok. Maximum-likelihood faktor analízis Leginkább elfogadott módszer. Szükséges faktorszám tesztelhető. Fakt > fa<-factanal(vereb[,:6],factors=,scores="regression",correlation=t) > fa Call: factanal(x = vereb[, :6], factors =, scores = "regression", correlation = T) Uniquenesses: Loadings: Factor Factor Factor Factor SS loadings Proportion Var Cumulative Var Test of the hypothesis that factors are sufficient. The chi square statistic is 0.7 on degree of freedom. The p-value is 0.603

15 Ha nem szign., akkor jó. > fa<-factanal(vereb[,:6],factors=,rotation="promax") > fa Call: factanal(x = vereb[, :6], factors =, rotation = "promax") Uniquenesses: Loadings: Factor Factor Factor Factor SS loadings Proportion Var Cumulative Var Test of the hypothesis that factors are sufficient. The chi square statistic is 0.7 on degree of freedom. The p-value is > par(pty="s") > plot(fa$scores[,],fa$scores[,], + ylim=range(fa$scores[,]), + xlab="fa",ylab="fa",type="n",lwd=) > text(fa$scores[,],fa$scores[,], + labels=row.names(vereb),cex=0.7,lwd=)

16

17 Klaszter analízis n egyedből álló minta, amelynek minden egyedén p számú változó értékét mérjük. Csoportosítási séma, amely a hasonló objektumokat egy csoportba sorolja. A csoportok száma nem ismert (általában). Algoritmusok két típusa: Hierarhikus technikák. Dendrogramot produkálnak.. Egyedek egymástól való távolságának kiszámítása.. Csoportok létrehozása vagy összevonással, vagy felosztással. Az összevonás esetén először minden objektumot külön csoportba sorolunk és azután a legközelebbieket fokozatosan egyesítjük. A felosztó módszerek esetén, először egy csoportba soroljuk az összes objektumot, majd először ketté osztjuk, majd a ketté osztottakat is tovább osztjuk egészen addíg, amíg minden egyed külön csoportot alkot. Másik típusa esetén az egyedek be is kerülhetnek egy csoportba és ki is kerülhetnek onnan (k-means clustering). Előre meg kell határozni, hogy hány csoportunk legyen.

18 Összevonási technikák (linkage methods):

19 Egyszerű lánc módszer (nearest neighbor): Két csoport távolságát az egymáshoz legközelebb eső, de nem egy csoportba tartozó elemeik távolságaként határozzuk meg. Ha a csoportok közt nincs éles elválás, akkor nem működik jól, viszont ha élesen elhatárolódnak, akkor nagyon effektív. Hosszú giliszták jönnek létre. hclust: method = single Teljes lánc módszer (furthest neighbor): Két csoport távolságát legtávolabbi elemeik távolsága adja meg. Jól működik nem elhatárolódó, de erős kohéziójú csoportok esetén. Kompakt kupacokat eredményez. hclust: method = single

20 Csoportátlag módszer (group average clustering): Az előző két módszer közötti átmenet. A két csoport távolsága elemeik páronkénti távolságainak átlaga osztva a két csoport elemszámával. Jól működik akkor is, ha azt várjuk, hogy a csoportok elemszáma nagyon különböző lesz. hclust: method = average Centroid módszer (centroid clustering): Két csoport távolságát a súlypontjaik távolsága adja meg. Csoportok összevonásakor az új súlypont a régiek csoportmérettel súlyozott átlaga. A kis klasztert felfalja a nagy. hclust: method = centroid Medián módszer (median clustering): Két csoport távolságát a súlypontjaik távolsága adja meg. Csoportok összevonásakor az új súlypont a régiek egyszerű számtani átlaga. Ha várhatóan nagyok az elemszámokban a különbségek, akkor az előzőhöz képest ezt célszerű használni. hclust: method = median

21 Ward módszer (Ward s method): A csoportokon belüli varianciát minimalizálja. Nagyon effektív, de kis elemszámú csoportok létrehozására hajlamos módszer. hclust: method = ward

22 pl: Az emlősállatoknak négyféle foguk van: metszőfog, szemfog, kiszápfog és zápfog. Az adattáblázat 3 állatfaj egyik oldali állkapcsában alul illetve felül található különböző fogainak számát tartalmazza.

23 Modell alapú klaszterezés (Model based clustering) A populáció valahány részpopulációból (= klaszterek) áll. Csilpcsalp füzikék szárnyhossz eloszlása

24 Paraméterek $pro (mixing proportions, keverékek aránya) [] $mean (komponensek várható értéke) $variance $variance$modelname [] "V" (variable variances, lehetnek különbözők a varianciák) $variance$d (az adatok dimenziója, most csak a szárnyhosszt nézzük, ezért ) [] $variance$g (komponensek száma a keverékfelbontásban) [] $variance$sigmasq (ebben a paraméterezésben a két variancia becslése) [] $variance$scale (ebben a paraméterezésben a két variancia becslése) []

25