Standardizálás, transzformációk A transzformációk ugynúgy mennek, mint egyváltozós esetben. Itt még fontosabbak a linearitás miatt. Standardizálás átskálázás. Centrálás: kivonjuk minden változó átlagát, így az átlag 0 lesz. (Spektrál felbontás esetén tulajdonképpen a centrált adatok kovariancia mátrixával dolgozunk.) Standardizálás: korrelációs mátrix standardizált adatok kovariancia mátrixa. Relatív értékek (arányok): legnagyobb értékkel osztjuk az összeset. Megfigyelési egységeket is lehet standardizálni. Abundancia adatoknál fontos, ha a megfigyelési egységek mérete különböző. (arányok) 0,-é is lehet konvertálni. Sokszor hasznos lehet különböző módokon standardizálni és összehasonlítani az eredményeket: eredeti standardizált 0, eredeti: legnagyobb abundanciájú mit befolyásol 0, : prezencia, abszenciától mi függ. Asszociációs mértékek implicit módon standardizáltak.
Az, hogy a kovariancia vagy korrelációs mátrixot használjuk attól függ, hogy a varianciák különbsége fontos-e biológiai szempontból.
Hiányzó adatok MCAR-missing completely at random: független mind a megfigyelt adatoktól, mind a többi hiányzótól. Random részhalmaza az adatoknak. MAR lehet, hogy függ a csoporttól, hogy hiányzik-e. Mit tegyünk a hiányzó adatokkal?. Objektum törlése (deletion): legjobb megoldás, ha kevesebb, mint 5% hiányzik és MCAR Információ vesztés (complete.obs) esetén. Ha az analízis páronkénti (pairwise) asszociációkon alapul (kovariancia, korreláció), akkor paiwise.complete.obs. Csak akkor töröljük, ha éppen azokkal a változókkal dolgozunk, amelyiknél hiányzik a megfigyelés. Imputáció Helyettesítés becsléssel. Módszerek:. átlaggal (változó értékeiből számolt\na) A varianciát alulbecsüli.. Regressziós modellel. Más változókkal becsüljük, pl. a legjobban korrelált változót vagy változókat választjuk prediktornak.) 3. Hot-deck: Hasonló objektum értékével helyettesítjük. Problémák: függetlenség sérül; varianciát alulbecsli.
Maximum likelihood (ML) és EM becslés ML : paraméter becslés a megfigyelt, nem teljes adatokból, majd a modellből becsüljük a hiányzó adatokat. Felhasználja a megfigyelt adatok eloszlását és a hiányzó adatok mintázatát. Iteratív imputáció + ML : Expectation Maximization ML paraméter becslés hiányzó adatok ML paraméterbecslés hiányzó adatok..., amíg nem konvergál. ML és EM feltétele a MAR.
Adatredukció (Ordináció) Főkomponens analízis (PCA) Felfedező adatelemzésben használatos. Adathalmaz kényelmesebb és informatívabb ábrázolása, dimenziószám csökkentése, fontos változók beazonosítása. Cél: Van p változónk:,,..., p és keressük ezeknek olyan,,..., p kombinációit (főkomponensek), amelyek nem korreláltak. A korrelálatlanság azt jelenti, hogy az új változók az adatok különböző dimenzióit mérik. ( ) ( )... ( p ) σ σ σ Remény: a legtöbb főkomponens szórása olyan kicsi, hogy elhanyagolhatók, így az adatokban meglévő változatosság néhány főkomponenssel jól leírható. Ha az eredeti változók egyáltalán nem korreláltak, az analízis semmit nem csinál. Legjobb eredmény: nagyon korrelált változók esetén. Adatok: Egyed... p x x... x p x x... x p M n x n x n x np
A főkomponensek: i = ai + ai +... + aip p a + a +... + a = i i ip és σ( ) σ( ) σ( p ).... A főkomponensek varianciái az adatok kovariancia mátrixának sajátértékei (λ i ), az együtthatói pedig a megfelelő sajátértékhez tartozó sajátvektor együtthatói. Ha a kovarianciamátrix: c c... c p c c... c p C =, M M M cp cp cpp akkor λ + λ+... + λp = c + c+... + cpp = σ ( ) + σ ( ) +... + σ ( p ) Célszerű az adatokat standardizálni az analízis előtt. Ekkor a kovariancia mátrix megegyezik korrelációs mátrixszal. Feltételek: Normalitás nem feltétel, de a nagyon ferde eloszlás ronthatja az eredményt. A normalitás csak tesztek esetén szükséges. Linearitás. Ne legyenek outlierek.
Azt mutatja meg, hogy a főkomponensek mennyit magyaráznak az egyes változókból. A korrelációs/kovariancia mátrix s.é.-ei, és a megfelelő variancia hányadok.
A s.é.-kek a komponens sorszám függvényében.
> pca=princomp(vereb[,:6],cor=t) > summary(pca,loadings=true) Importance of components: Comp. Comp. Comp.3 Standard deviation.90576 0.790433 0.663056 Proportion of Variance 0.73957 0.063008 0.077849 Cumulative Proportion 0.73957 0.894965 0.9067839 Comp.4 Comp.5 Standard deviation 0.549498 0.405699 Proportion of Variance 0.06033 0.039055 Cumulative Proportion 0.9670945.0000000 Loadings: Comp. Comp. Comp.3 Comp.4 Comp.5-0.45 0.690 0.40-0.374-0.46-0.300 0.34-0.548 0.530 3-0.45-0.35-0.454 0.606 0.343 4-0.47-0.85-0.4-0.388-0.65 5-0.398 0.876-0.78 0.9 >par(pty="s") >plot(pca$scores[,],pca$scores[,], >ylim=range(pca$scores[,]), >xlab="pc",ylab="pc",type="n",lwd=) >text(pca$scores[,],pca$scores[,], >labels=row.names(vereb),cex=0.7,lwd=)
> pca$scores Ezekkel a szkórokkal tudjuk kiszámolni a komponensek értékeit az egyes esetekre. (Ezek az a ij együtthatók.) >biplot(pca) > cor(data.frame(pca$scores[,],vereb[,:6]))[,] pca.scores... pca.scores... -0.859 0.037-0.878-0.8 3-0.857-0.37 4-0.895-0.35 5-0.756 0.639
Faktoranalízis Nagyszámú változó korrelációinak elemzése. Változók faktorokba csoportosítása. Az egy faktorba csoportosított változók korreláltsága nagyobb egymással, mint a csoporton kívüliekkel. A faktorok interpretálása (látens változók) a változók alapján. Sok változó összesítése néhány faktorba. = a F + a F +... + a F + i i i im m e i aij - faktorsúlyok (loadings), i -k a standardizált változók. F j : korrelálatlan közös faktorok 0 várható értékkel és szórással. e i - egyedi faktor, várható értéke 0, F j -kel nem korrelált. σ = ( i ) = = aiσ ( F ) +... + aimσ ( Fm ) + σ ( ei ) a +... + a + σ ( e ) i im i = a i +... + aim - kommunalitás, σ ( ) - egyediség. e i
i és j m l a il a jl - az és korrelációs együtthatója. (Csak akkor lehet két változó nagyon korrelált, ha nagy súllyal szereplenek ugyanabban a faktorban.) Számítás menete:. Korrelációs vagy kovarinacia mátrix kiszámítása.. Faktorsúlyok becslése (faktor extrakció). Pl. főkomponens analízisből megtartjuk az -nél nagyobb sajátértékű főkomponenseket (Főkomponens faktoranalízis). Főkomponensek: = b + b +... + b M p = b = b p + b + b p p +... + b p +... + b Mátrix egyenlet formában: Így: = b + b +... + b pp =B B - = B T = Mivel a B mártix ortonormált. M p = b = b p + b + b p +... + b p p +... + b pp p p p p p p
Mivel Faktor analízis esetén m < p számú faktorral dolgozunk, ezért: M p = b = b = b p + b + b + b p +... + b +... + b m m +... + b mp m m + e + e m + e p Mostmár csak át kell skálázni az eredeti főkomponenseket úgy, hogy legyen a varianciájuk. Ehhez a i ket osztani kell a szórásukkal, ami éppen λ i. Így: F = i i / λi. 3. Faktor rotációt végzünk azért, hogy a faktorok interpretálhatóbbak legyenek. A súlyok minden faktor esetén vagy nagyok vagy nagyon kicsik legyenek. 4. Faktor értékek kiszámítása a mintaegyedekre. További analízisek. Rotációs módszerek: Ortogonális: Varimax, Quartimax, Equamax Varimax: úgy forgat, hogy az együtthatók vagy -hez vagy 0-hoz közeliek legyenek. Quartimax: minimalizálja a változók magyarázásához szükséges faktorok számát Equamax: Az előző kettő kompromisszuma. A rotált faktorok nem korreláltak.
Ferde (Oblique): Direct Oblimin, Promax Nagyobb sajátértékeket eredményeznek. A Promax nagyon nagy táblázatok esetén használatos. Korrelált faktorok. Maximum-likelihood faktor analízis Leginkább elfogadott módszer. Szükséges faktorszám tesztelhető. Fakt > fa<-factanal(vereb[,:6],factors=,scores="regression",correlation=t) > fa Call: factanal(x = vereb[, :6], factors =, scores = "regression", correlation = T) Uniquenesses: 3 4 5 0.005 0.307 0.36 0.05 0.55 Loadings: Factor Factor 0.366 0.98 0.63 0.543 3 0.657 0.454 4 0.937 0.36 5 0.486 0.460 Factor Factor SS loadings.078.68 Proportion Var 0.46 0.336 Cumulative Var 0.46 0.75 Test of the hypothesis that factors are sufficient. The chi square statistic is 0.7 on degree of freedom. The p-value is 0.603
Ha nem szign., akkor jó. > fa<-factanal(vereb[,:6],factors=,rotation="promax") > fa Call: factanal(x = vereb[, :6], factors =, rotation = "promax") Uniquenesses: 3 4 5 0.005 0.307 0.36 0.05 0.55 Loadings: Factor Factor -0.5.67 0.5 0.350 3 0.635 0.90 4.79-0.37 5 0.366 0.335 Factor Factor SS loadings.44.688 Proportion Var 0.449 0.338 Cumulative Var 0.449 0.787 Test of the hypothesis that factors are sufficient. The chi square statistic is 0.7 on degree of freedom. The p-value is 0.603 > par(pty="s") > plot(fa$scores[,],fa$scores[,], + ylim=range(fa$scores[,]), + xlab="fa",ylab="fa",type="n",lwd=) > text(fa$scores[,],fa$scores[,], + labels=row.names(vereb),cex=0.7,lwd=)
Klaszter analízis n egyedből álló minta, amelynek minden egyedén p számú változó értékét mérjük. Csoportosítási séma, amely a hasonló objektumokat egy csoportba sorolja. A csoportok száma nem ismert (általában). Algoritmusok két típusa: Hierarhikus technikák. Dendrogramot produkálnak.. Egyedek egymástól való távolságának kiszámítása.. Csoportok létrehozása vagy összevonással, vagy felosztással. Az összevonás esetén először minden objektumot külön csoportba sorolunk és azután a legközelebbieket fokozatosan egyesítjük. A felosztó módszerek esetén, először egy csoportba soroljuk az összes objektumot, majd először ketté osztjuk, majd a ketté osztottakat is tovább osztjuk egészen addíg, amíg minden egyed külön csoportot alkot. Másik típusa esetén az egyedek be is kerülhetnek egy csoportba és ki is kerülhetnek onnan (k-means clustering). Előre meg kell határozni, hogy hány csoportunk legyen.
Összevonási technikák (linkage methods):
Egyszerű lánc módszer (nearest neighbor): Két csoport távolságát az egymáshoz legközelebb eső, de nem egy csoportba tartozó elemeik távolságaként határozzuk meg. Ha a csoportok közt nincs éles elválás, akkor nem működik jól, viszont ha élesen elhatárolódnak, akkor nagyon effektív. Teljes lánc módszer (furthest neighbor): Két csoport távolságát legtávolabbi elemeik távolsága adja meg. Jól működik nem elhatárolódó, de erős kohéziójú csoportok esetén. Csoportátlag módszer (between-groups linkage): Az előző két módszer közötti átmenet. A két csoport távolsága elemeik páronkénti távolságainak átlaga osztva a két csoport elemszámával. Jól működik akkor is, ha azt várjuk, hogy a csoportok elemszáma nagyon különböző lesz.
Egyszerű átlag módszer (within-groups linkage): Ugyanaz, mint az előző, de nem veszi figyelembe az csoportok elemszámát. Centoid módszer (centroid clustering): Két csoport távolságát a súlypontjaik távolsága adja meg. Medián módszer (median clustering): Ugyanaz, mint az előző, de figyelembe veszi a csoportok elemszámát is. Ha várhatóan nagyok az elemszámokban a különbségek, akkor az előzőhöz képest ezt célszerű használni. Ward módszer (Ward s method): A csoportokon belüli varianciát minimalizálja. Nagyon effektív, de kis elemszámú csoportok létrehozására hajlamos módszer.
pl: Az emlősállatoknak négyféle foguk van: metszőfog, szemfog, kiszápfog és zápfog. Az adattáblázat 3 állatfaj egyik oldali állkapcsában alul illetve felül található különböző fogainak számát tartalmazza.
Modell alapú klaszterezés (Model based clustering) A populáció valahány részpopulációból (= klaszterek) áll. Csilpcsalp füzikék szárnyhossz eloszlása
Paraméterek $pro [] 0.457078 0.5749 $mean 56.365 6.65983 $variance $variance$modelname [] "V" $variance$d [] $variance$g [] $variance$sigmasq [].803607 4.4676 $variance$scale [].803607 4.4676