Standardizálás, transzformációk

Hasonló dokumentumok
Standardizálás, transzformációk

Faktoranalízis az SPSS-ben

Faktoranalízis az SPSS-ben

Principal Component Analysis

Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok).

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Főkomponens és Faktor analízis

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek

Főkomponens és Faktor analízis

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Adatok statisztikai értékelésének főbb lehetőségei

Diszkriminancia-analízis

Nagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet

Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok).

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Klaszterezés, 2. rész

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

c adatpontok és az ismeretlen pont közötti kovariancia vektora

y ij = µ + α i + e ij

Matematikai geodéziai számítások 6.

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Közösség detektálás gráfokban

Hipotézis vizsgálatok

Segítség az outputok értelmezéséhez

A leíró statisztikák

Többváltozós lineáris regressziós modell feltételeinek

Bevezetés a Korreláció &

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Faktor- és fıkomponens analízis

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Matematikai geodéziai számítások 6.

Varianciaanalízis 4/24/12

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Regressziós vizsgálatok

Klaszterelemzés az SPSS-ben

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Többváltozós lineáris regresszió 3.

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Hátrányok: A MANOVA elvégzésének lépései:

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Statisztikai szoftverek esszé

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

(Independence, dependence, random variables)

Saj at ert ek-probl em ak febru ar 26.

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Elemi statisztika fizikusoknak

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Normális eloszlás tesztje

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Saj at ert ek-probl em ak febru ar 22.

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

A maximum likelihood becslésről

Mérési adatok illesztése, korreláció, regresszió

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Izgalmas újdonságok a klaszteranalízisben

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Klaszterelemzés az SPSS-ben

IBM SPSS Modeler 18.2 Újdonságok

Blind Source Separation. Kiváltott agyi jelek informatikai feldolgozása

Adatbányászati szemelvények MapReduce környezetben

7. Régió alapú szegmentálás

Least Squares becslés

Sajátértékek és sajátvektorok. mf1n1a06- mf1n2a06 Csabai István

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Több valószínűségi változó együttes eloszlása, korreláció

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

[Biomatematika 2] Orvosi biometria

Korrel aci os egy utthat ok febru ar 29.

Régészeti mintákon végzett neutronaktivációs analízis eredményeinek sokváltozós statisztikai feldolgozása

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Korreláció számítás az SPSSben

Lineáris algebra gyakorlat

Van-e kapcsolat a változók között? (példák: fizetés-távolság; felvételi pontszám - görgetett átlag)

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Biomatematika 2 Orvosi biometria

Átírás:

Standardizálás, transzformációk A transzformációk ugynúgy mennek, mint egyváltozós esetben. Itt még fontosabbak a linearitás miatt. Standardizálás átskálázás. Centrálás: kivonjuk minden változó átlagát, így az átlag 0 lesz. (Spektrál felbontás esetén tulajdonképpen a centrált adatok kovariancia mátrixával dolgozunk.) Standardizálás: korrelációs mátrix standardizált adatok kovariancia mátrixa. Relatív értékek (arányok): legnagyobb értékkel osztjuk az összeset. Megfigyelési egységeket is lehet standardizálni. Abundancia adatoknál fontos, ha a megfigyelési egységek mérete különböző. (arányok) 0,-é is lehet konvertálni. Sokszor hasznos lehet különböző módokon standardizálni és összehasonlítani az eredményeket: eredeti standardizált 0, eredeti: legnagyobb abundanciájú mit befolyásol 0, : prezencia, abszenciától mi függ. Asszociációs mértékek implicit módon standardizáltak.

Az, hogy a kovariancia vagy korrelációs mátrixot használjuk attól függ, hogy a varianciák különbsége fontos-e biológiai szempontból.

Hiányzó adatok MCAR-missing completely at random: független mind a megfigyelt adatoktól, mind a többi hiányzótól. Random részhalmaza az adatoknak. MAR lehet, hogy függ a csoporttól, hogy hiányzik-e. Mit tegyünk a hiányzó adatokkal?. Objektum törlése (deletion): legjobb megoldás, ha kevesebb, mint 5% hiányzik és MCAR Információ vesztés (complete.obs) esetén. Ha az analízis páronkénti (pairwise) asszociációkon alapul (kovariancia, korreláció), akkor paiwise.complete.obs. Csak akkor töröljük, ha éppen azokkal a változókkal dolgozunk, amelyiknél hiányzik a megfigyelés. Imputáció Helyettesítés becsléssel. Módszerek:. átlaggal (változó értékeiből számolt\na) A varianciát alulbecsüli.. Regressziós modellel. Más változókkal becsüljük, pl. a legjobban korrelált változót vagy változókat választjuk prediktornak.) 3. Hot-deck: Hasonló objektum értékével helyettesítjük. Problémák: függetlenség sérül; varianciát alulbecsli.

Maximum likelihood (ML) és EM becslés ML : paraméter becslés a megfigyelt, nem teljes adatokból, majd a modellből becsüljük a hiányzó adatokat. Felhasználja a megfigyelt adatok eloszlását és a hiányzó adatok mintázatát. Iteratív imputáció + ML : Expectation Maximization ML paraméter becslés hiányzó adatok ML paraméterbecslés hiányzó adatok..., amíg nem konvergál. ML és EM feltétele a MAR.

Adatredukció (Ordináció) Főkomponens analízis (PCA) Felfedező adatelemzésben használatos. Adathalmaz kényelmesebb és informatívabb ábrázolása, dimenziószám csökkentése, fontos változók beazonosítása. Cél: Van p változónk:,,..., p és keressük ezeknek olyan,,..., kombinációit (főkomponensek), amelyek p nem korreláltak. A korrelálatlanság azt jelenti, hogy az új változók az adatok különböző dimenzióit mérik.... p Remény: a legtöbb főkomponens szórása olyan kicsi, hogy elhanyagolhatók, így az adatokban meglévő változatosság néhány főkomponenssel jól leírható. Ha az eredeti változók egyáltalán nem korreláltak, az analízis semmit nem csinál. Legjobb eredmény: nagyon korrelált változók esetén. Adatok: Egyed... p x x... x p x x... x p n x n x n x np

A főkomponensek: a a a i i i... ip p a a... a i i ip és p.... A főkomponensek varianciái az adatok kovariancia mátrixának sajátértékei ( i ), az együtthatói pedig a megfelelő sajátértékhez tartozó sajátvektor együtthatói. Ha a kovarianciamátrix: c c... c c c... c C c c c p p pp p p, akkor... c c... c... p pp p Célszerű az adatokat standardizálni az analízis előtt. Ekkor a kovariancia mátrix megegyezik korrelációs mátrixszal. Feltételek: Normalitás nem feltétel, de a nagyon ferde eloszlás ronthatja az eredményt. A normalitás csak tesztek esetén szükséges. Linearitás. Ne legyenek outlierek.

Azt mutatja meg, hogy a főkomponensek mennyit magyaráznak az egyes változókból. A korrelációs/kovariancia mátrix s.é.-ei, és a megfelelő variancia hányadok.

A s.é.-kek a komponens sorszám függvényében.

> pca=princomp(vereb[,:6],cor=t) > summary(pca,loadings=true) Importance of components: Comp. Comp. Comp.3 Standard deviation.90576 0.790433 0.663056 Proportion of Variance 0.73957 0.063008 0.077849 Cumulative Proportion 0.73957 0.894965 0.9067839 Comp.4 Comp.5 Standard deviation 0.549498 0.405699 Proportion of Variance 0.06033 0.039055 Cumulative Proportion 0.9670945.0000000 Loadings: Comp. Comp. Comp.3 Comp.4 Comp.5-0.45 0.690 0.40-0.374-0.46-0.300 0.34-0.548 0.530 3-0.45-0.35-0.454 0.606 0.343 4-0.47-0.85-0.4-0.388-0.65 5-0.398 0.876-0.78 0.9 >par(pty="s") >plot(pca$scores[,],pca$scores[,], >ylim=range(pca$scores[,]), >xlab="pc",ylab="pc",type="n",lwd=) >text(pca$scores[,],pca$scores[,], >labels=row.names(vereb),cex=0.7,lwd=)

> pca$scores Ezekkel a szkórokkal tudjuk kiszámolni a komponensek értékeit az egyes esetekre. (Ezek az a ij együtthatók.) >biplot(pca) > cor(data.frame(pca$scores[,],vereb[,:6]))[,] pca.scores... pca.scores... -0.859 0.037-0.878-0.8 3-0.857-0.37 4-0.895-0.35 5-0.756 0.639

Faktoranalízis Nagyszámú változó korrelációinak elemzése. Változók faktorokba csoportosítása. Az egy faktorba csoportosított változók korreláltsága nagyobb egymással, mint a csoporton kívüliekkel. A faktorok interpretálása (látens változók) a változók alapján. Sok változó összesítése néhány faktorba. i a F a F... i i a im F m e i aij - faktorsúlyok (loadings), i -k a standardizált változók. F j : korrelálatlan közös faktorok 0 várható értékkel és szórással. e i - egyedi faktor, várható értéke 0, F j -kel nem korrelált. Nem korrelált a többi j, j i változóval sem. i ai F... aim Fm ei a... a e i im i a a - kommunalitás, - egyediség (uniqueness). i... im ( e i )

i és j m l a a il jl - az és korrelációs együtthatója. (Csak akkor lehet két változó nagyon korrelált, ha nagy súllyal szereplenek ugyanabban a faktorban.) Számítás menete:. Korrelációs vagy kovarinacia mátrix kiszámítása.. Faktorsúlyok becslése (faktor extrakció). Pl. főkomponens analízisből megtartjuk az -nél nagyobb sajátértékű főkomponenseket (Főkomponens faktoranalízis). Főkomponensek: p b b b p b b b p... b p... b p... b Mátrix egyenlet formában: pp =B B - = B T = Mivel a B mártix ortonormált. Így: b p b b p b b b p... b... b p p... b pp p p p p p p

Mivel Faktor analízis esetén m < p számú faktorral dolgozunk, ezért: p b b b p b b b p... b... b m m... b mp m m e m e e Mostmár csak át kell skálázni az eredeti főkomponenseket úgy, hogy legyen a varianciájuk. Ehhez a i ket osztani kell a szórásukkal, ami éppen i. Így: p F i i / i. 3. Faktor rotációt végzünk azért, hogy a faktorok interpretálhatóbbak legyenek. A súlyok minden faktor esetén vagy nagyok vagy nagyon kicsik legyenek. 4. Faktor értékek kiszámítása a mintaegyedekre. További analízisek. Rotációs módszerek: Ortogonális: Varimax, Quartimax, Equamax Varimax: úgy forgat, hogy az együtthatók vagy -hez vagy 0-hoz közeliek legyenek. Quartimax: minimalizálja a változók magyarázásához szükséges faktorok számát Equamax: Az előző kettő kompromisszuma. A rotált faktorok nem korreláltak.

Ferde (Oblique): Direct Oblimin, Promax Nagyobb sajátértékeket eredményeznek. A Promax nagyon nagy táblázatok esetén használatos. Korrelált faktorok. Maximum-likelihood faktor analízis Leginkább elfogadott módszer. Szükséges faktorszám tesztelhető. Fakt > fa<-factanal(vereb[,:6],factors=,scores="regression",correlation=t) > fa Call: factanal(x = vereb[, :6], factors =, scores = "regression", correlation = T) Uniquenesses: 3 4 5 0.005 0.307 0.36 0.05 0.55 Loadings: Factor Factor 0.366 0.98 0.63 0.543 3 0.657 0.454 4 0.937 0.36 5 0.486 0.460 Factor Factor SS loadings.078.68 Proportion Var 0.46 0.336 Cumulative Var 0.46 0.75 Test of the hypothesis that factors are sufficient. The chi square statistic is 0.7 on degree of freedom. The p-value is 0.603

Ha nem szign., akkor jó. > fa<-factanal(vereb[,:6],factors=,rotation="promax") > fa Call: factanal(x = vereb[, :6], factors =, rotation = "promax") Uniquenesses: 3 4 5 0.005 0.307 0.36 0.05 0.55 Loadings: Factor Factor -0.5.67 0.5 0.350 3 0.635 0.90 4.79-0.37 5 0.366 0.335 Factor Factor SS loadings.44.688 Proportion Var 0.449 0.338 Cumulative Var 0.449 0.787 Test of the hypothesis that factors are sufficient. The chi square statistic is 0.7 on degree of freedom. The p-value is 0.603 > par(pty="s") > plot(fa$scores[,],fa$scores[,], + ylim=range(fa$scores[,]), + xlab="fa",ylab="fa",type="n",lwd=) > text(fa$scores[,],fa$scores[,], + labels=row.names(vereb),cex=0.7,lwd=)

Klaszter analízis n egyedből álló minta, amelynek minden egyedén p számú változó értékét mérjük. Csoportosítási séma, amely a hasonló objektumokat egy csoportba sorolja. A csoportok száma nem ismert (általában). Algoritmusok két típusa: Hierarhikus technikák. Dendrogramot produkálnak.. Egyedek egymástól való távolságának kiszámítása.. Csoportok létrehozása vagy összevonással, vagy felosztással. Az összevonás esetén először minden objektumot külön csoportba sorolunk és azután a legközelebbieket fokozatosan egyesítjük. A felosztó módszerek esetén, először egy csoportba soroljuk az összes objektumot, majd először ketté osztjuk, majd a ketté osztottakat is tovább osztjuk egészen addíg, amíg minden egyed külön csoportot alkot. Másik típusa esetén az egyedek be is kerülhetnek egy csoportba és ki is kerülhetnek onnan (k-means clustering). Előre meg kell határozni, hogy hány csoportunk legyen.

Összevonási technikák (linkage methods):

Egyszerű lánc módszer (nearest neighbor): Két csoport távolságát az egymáshoz legközelebb eső, de nem egy csoportba tartozó elemeik távolságaként határozzuk meg. Ha a csoportok közt nincs éles elválás, akkor nem működik jól, viszont ha élesen elhatárolódnak, akkor nagyon effektív. Hosszú giliszták jönnek létre. hclust: method = single Teljes lánc módszer (furthest neighbor): Két csoport távolságát legtávolabbi elemeik távolsága adja meg. Jól működik nem elhatárolódó, de erős kohéziójú csoportok esetén. Kompakt kupacokat eredményez. hclust: method = single

Csoportátlag módszer (group average clustering): Az előző két módszer közötti átmenet. A két csoport távolsága elemeik páronkénti távolságainak átlaga osztva a két csoport elemszámával. Jól működik akkor is, ha azt várjuk, hogy a csoportok elemszáma nagyon különböző lesz. hclust: method = average Centroid módszer (centroid clustering): Két csoport távolságát a súlypontjaik távolsága adja meg. Csoportok összevonásakor az új súlypont a régiek csoportmérettel súlyozott átlaga. A kis klasztert felfalja a nagy. hclust: method = centroid Medián módszer (median clustering): Két csoport távolságát a súlypontjaik távolsága adja meg. Csoportok összevonásakor az új súlypont a régiek egyszerű számtani átlaga. Ha várhatóan nagyok az elemszámokban a különbségek, akkor az előzőhöz képest ezt célszerű használni. hclust: method = median

Ward módszer (Ward s method): A csoportokon belüli varianciát minimalizálja. Nagyon effektív, de kis elemszámú csoportok létrehozására hajlamos módszer. hclust: method = ward

pl: Az emlősállatoknak négyféle foguk van: metszőfog, szemfog, kiszápfog és zápfog. Az adattáblázat 3 állatfaj egyik oldali állkapcsában alul illetve felül található különböző fogainak számát tartalmazza.

Modell alapú klaszterezés (Model based clustering) A populáció valahány részpopulációból (= klaszterek) áll. Csilpcsalp füzikék szárnyhossz eloszlása

Paraméterek $pro (mixing proportions, keverékek aránya) [] 0.457078 0.5749 $mean (komponensek várható értéke) 56.365 6.65983 $variance $variance$modelname [] "V" (variable variances, lehetnek különbözők a varianciák) $variance$d (az adatok dimenziója, most csak a szárnyhosszt nézzük, ezért ) [] $variance$g (komponensek száma a keverékfelbontásban) [] $variance$sigmasq (ebben a paraméterezésben a két variancia becslése) [].803607 4.4676 $variance$scale (ebben a paraméterezésben a két variancia becslése) [].803607 4.4676