Főkomponens és Faktor analízis

Hasonló dokumentumok
Főkomponens és Faktor analízis

Principal Component Analysis

Faktoranalízis az SPSS-ben

Faktoranalízis az SPSS-ben

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Szinguláris értékek. Wettl Ferenc április 3. Wettl Ferenc Szinguláris értékek április 3. 1 / 28

Szinguláris értékek. Wettl Ferenc április 12. Wettl Ferenc Szinguláris értékek április / 35

Sajátértékek és sajátvektorok. mf1n1a06- mf1n2a06 Csabai István

Vektorterek. =a gyakorlatokon megoldásra ajánlott

A többváltozós lineáris regresszió III. Főkomponens-analízis

Többváltozós lineáris regresszió 3.

6. gyakorlat. Gelle Kitti. Csendes Tibor Somogyi Viktor. London András. jegyzetei alapján

Diszkriminancia-analízis

Standardizálás, transzformációk

Nagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet

Saj at ert ek-probl em ak febru ar 26.

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

LINEÁRIS MODELLBEN május. 1. Lineáris modell, legkisebb négyzetek elve

Kvadratikus alakok és euklideszi terek (előadásvázlat, október 5.) Maróti Miklós, Kátai-Urbán Kamilla

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

9. Előadás. (9. előadás) Lineáris egyr.(3.), Sajátérték április / 35

A maximum likelihood becslésről

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Saj at ert ek-probl em ak febru ar 22.

LINEÁRIS ALGEBRA. matematika alapszak. Euklideszi terek. SZTE Bolyai Intézet, őszi félév. Euklideszi terek LINEÁRIS ALGEBRA 1 / 40

[Biomatematika 2] Orvosi biometria

Matematika (mesterképzés)

Szinguláris érték felbontás Singular Value Decomposition

A KroneckerCapelli-tételb l következik, hogy egy Bx = 0 homogén lineáris egyenletrendszernek

Vektorok, mátrixok, lineáris egyenletrendszerek

5. előadás - Regressziószámítás

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Feladatok a Gazdasági matematika II. tárgy gyakorlataihoz

Bevezetés a hipotézisvizsgálatokba

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

y ij = µ + α i + e ij

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Gauss-eliminációval, Cholesky felbontás, QR felbontás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Lineáris algebra 2. Filip Ferdinánd december 7. siva.banki.hu/jegyzetek

Lineáris algebra Gyakorló feladatok

Problémás regressziók

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

II. Két speciális Fibonacci sorozat, szinguláris elemek, természetes indexelés

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek

1. zárthelyi,

Standardizálás, transzformációk

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Gazdasági matematika II. tanmenet

[Biomatematika 2] Orvosi biometria

Gauss-Seidel iteráció

Matematikai geodéziai számítások 5.

A szimplex algoritmus

Hadamard-mátrixok Előadó: Hajnal Péter február 23.

Hátrányok: A MANOVA elvégzésének lépései:

Matematikai geodéziai számítások 6.

Bevezetés az algebrába 2 Vektor- és mátrixnorma

Numerikus módszerek 1.

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Least Squares becslés

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Matematikai geodéziai számítások 6.

A főkomponens-elemzés alkalmazása a kémiában

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Kettőnél több csoport vizsgálata. Makara B. Gábor

Korreláció és lineáris regresszió

Regressziós vizsgálatok

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Összeállította: dr. Leitold Adrien egyetemi docens

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

Statisztika elméleti összefoglaló

Mátrixok 2017 Mátrixok

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Matematikai geodéziai számítások 5.

Keresztmetszet másodrendű nyomatékainak meghatározása

7. gyakorlat megoldásai

A PARCIÁLIS LEGKISEBB NÉGYZETEK REGRESSZIÓ. Horváth Vivien

5. elıadás március 22. Portfólió-optimalizálás

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

karakterisztikus egyenlet Ortogonális mátrixok. Kvadratikus alakok főtengelytranszformációja

Segítség az outputok értelmezéséhez

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

15. LINEÁRIS EGYENLETRENDSZEREK

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

1. Generátorrendszer. Házi feladat (fizikából tudjuk) Ha v és w nem párhuzamos síkvektorok, akkor generátorrendszert alkotnak a sík vektorainak

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

1.1. Vektorok és operátorok mátrix formában

BIOMATEMATIKA ELŐADÁS

Átírás:

Főkomponens és Faktor analízis Márkus László 2017. december 5. Márkus László Főkomponens és Faktor analízis 2017. december 5. 1 / 35

Bevezetés - Főkomponens és Faktoranalízis A főkomponens és faktor analízis olyan statisztikai technika, amelyet változók halmazára alkalmazunk, hogy feltárjuk, közülük melyek tartalmaznak közös fluktuációs mintákat - akár csak részben, más fluktuációkkal kombináltan is -, és meghatározzuk ezeket a közös mintákat. Úgy gondoljuk általában, hogy egy-egy közös változékonyságminta valamilyen, a háttérben meghúzódó (látens) változó/folyamat hatásának eredményeként áll elő. E hatást a faktorváltozó reprezentálja. Mivel faktor az egyes megfigyelt változók közös additiv komponense (bár súlya az egyes változóban általában eltérő, akár 0 is lehet), így ez a megfigyelt változók korrelációjának forrása. A faktorok segítségével az összes megfigyelt változó változékonysága leírható, így ezek teljesen jellemzik megfigyeléseinketezért pusztán ezeket megtartva információvesztés nélkül csökkenthetjük (sokszor jelentősen) a változóink számát, azaz adatstruktúránk dimenzióját. Márkus László Főkomponens és Faktor analízis 2017. december 5. 2 / 35

Bevezetés - Főkomponens és Faktoranalízis Például: Hallgatók adatai: motiváció, intellektuális képességek, iskolatörténet, családtörténet, egészség, fizikai jellemzők, személyiségjegyek. Mindegyiket több változóval is mérik. Néhány személyiségjegy, motivációs és iskolatörténeti változó mutathatja, hogy mennyire szeret önállóan dolgozni a hallgató, kombinálódhat egy önállósági faktorban. Mások egy intelligencia fatort adhatnak ki. STB. Talajvízszint mérő kutak adatainak fluktuációja főként a csapadékból történő utánpótlás, esetlegesen fólyóvízből oldalirányú betáplálás és a kommunális vízkivétel eredőjeként alakul, e három hatás kutak százainak adatait jellemezheti globálisan (és e hatások eltávolítása után határozhatók meg a lokális befolyásoló tényezők). Márkus László Főkomponens és Faktor analízis 2017. december 5. 3 / 35

Bevezetés - Főkomponens és Faktoranalízis A főkomponens analízis (Principal Component Analysis, PCA) a változók közötti variancia, míg a faktoranalízis (FA) inkább a korrelációs mintákat összegzi. A PCA (és a FA is) jelentősen csökkenti a változók számát. Bizonyos változók a kísérletek, megfigyelések során alig változnak ingadozásuk (szórásuk) kicsi, ezeket tehát nem tekintjük jellemzőnek, elhagyhatjuk, ha tudjuk, melyek ezek. Ám gyakran nem ez vagy az a változó kis szórású, hanem pl. a kettő összege, vagy valamely más lineáris kombinációja. Ezeket keressük. Illetve inkább azokat, amelyeknek nagy a szórása, és ezért nem hagyhatók el. Az egész dolgot érdemes úgy is felfogni, hogy az X 1,...,X n minta egy N dimenziós teret feszít ki, ám még véletlenül sem ortogonális bázisként. Mi tehát adatainkat egy F 1,...,F n új, ortogonális bázisban szeretnénk felírni, melynek össz-hossznégyzete, azaz szórás 2 -összege az eredetivel egyező. Az új bázis F i elemei az X 1,...,X n lineáris kombinációjaként állnak elő. Ha megvan F 1,...,F n, az utolsó néhányat (gyakran sokat) elhagyhatjuk. Márkus László Főkomponens és Faktor analízis 2017. december 5. 4 / 35

Főkomponens analízis Cél: Az első főkomponens megtalálásához maximalizálni akarjuk a változók egy lineáris kombinációjának szórását. Lényegileg egy olyan irányt keresünk, amely mentén a változók maximálisan "szétterülnek", szétszóródnak. Általában ez különbözik a diszkriminancia analízis vagy a kanonikus korreláció által találat irányoktól. Néha a PCA a végcél, de máskor inputot generál további elemzéshez. Márkus László Főkomponens és Faktor analízis 2017. december 5. 5 / 35

Főkomponens analízis A kép Eltoljuk a középpontot az új középpontba, majd beforgatjuk a tengelyeket. Márkus László Főkomponens és Faktor analízis 2017. december 5. 6 / 35

Főkomponens analízis Tegyük fel, hogy a centrálás már megtörtént. A forgatás egy A ortogonális mátrixszal: A T A = I való szorzás. X az adataink mátrixa, Z a főkomponenseké Z = AX A ellipszoid tengelyeit megtalálni pont az A mátrix megtalálásával ekvivalens, amely úgy forgatja el a változókat, hogy azok korrelálatlanok legyenek, vagyis a variancia-kovariancia mátrix diagonális: Másfelől: S Z = diag(σ 2 Z 1,...,σ 2 Z p ) S Z = EZZ T = E(AX)(AX) T = AS x A T Szimmetrikus mátrixok spektrálfelbontásának S X -re alkalmazásához vegyük az S X n db normált sajátvektorából (v 1,...,v n )-ből mint oszlopokból álló V mátrixot. Márkus László Főkomponens és Faktor analízis 2017. december 5. 7 / 35

Ekkor I = VV T : Valószínűségszámítás és matematikai statisztika Főkomponens analízis S X = S X VV T = S X (v 1,...,v n )V T = = (S X v 1,...,S X v n )V T = (λ 1 v 1,...,λ n v n )V T = VΛV T Ez a spektrálfelbontás, ahol Λ a sajátértékek diagonális mátrixa: Λ = diag(λ 1,...,λ n ). Innen S X = VΛV T miatt V T S X V = V T VΛV T V = Λ Tehát az A = V T választással kapott Z = AX bázisváltozók S Z variancia-kovariancia mátrixa diagonális lesz, ahogy a főkomponensekétől megkívántuk. A keresett forgatás tehát az A mátrixszal adható meg, az A meghatározásához pedig az S X sajátvektorainak és sajátértékeinek számítása szükséges. Márkus László Főkomponens és Faktor analízis 2017. december 5. 8 / 35

Főkomponens analízis Egyszersmind az S X mátrix sajátértékei a főkomponensek szórás 2 -ei is lesznek. Nagyságrend szerint rendezzük őket. S X és S Z nyoma ( az összes szórás 2 összege) megegyezik, ezért van értelme az első k főkomponens által "megmagyarázott" varianciáról beszélni, ami Proportion of variance = σ 2 Z 1 +...+σ 2 Z k λ 1 +...+λ n = σ 2 Z 1 +...+σ 2 Z k σ 2 X 1 +...+σ 2 Xn = σ 2 Z 1 +...+σ 2 Z k σ 2 Z 1 +...+σ 2 Zn Ha az eredeti változóink korreláltak (erősen), akkor az első néhány főkomponens "sok" varianciát magyaráz, míg az utolsó (jó) néhány keveset, így ez utóbbiak akár el is dobhatóak. Tehát az első néhányat megtartva redukálhatjuk a dimenziót, miközben megőrizzük a változékonyságot. Márkus László Főkomponens és Faktor analízis 2017. december 5. 9 / 35

Főkomponens analízis Ha függetlenek (vagy inkább korrelálatlanok) a változóink, akkor ők maguk főkomponensek is nincs mit keresni. Vigyázni kell a skálával. A főkomponensek nem skálainvariánsok. Ha g/l helyett mg/l-ben mérünk egy változót jóval nagyobb lesz a súlya a főkomponensek előállításában. A megoldás, hogy a kovariancia mátrix helyett a korrelációkkal dolgozunk, azaz pl. minden változónk szórását 1-re normáljuk. Megjegyzés: Eredetileg Z 1 szórás 2 -ét akartuk maximalizálni, aztán a rá ortogonális altérben Z 2 -t, és így tovább. De Z i szórás 2 -e: a T S x a, és tetszőleges a-ra nincs maximum, ezért λ = at S X a -t maximalizáljuk. a T a λ 1 a legnagyobb sajátérték az (S X λi)a = 0 egyenletben Itt nem kell invertálni szinguláris S X mátrix is megengedhető. (Ez természetesen algebrailag is ugyanazt a megoldást adja, mint előbb). Márkus László Főkomponens és Faktor analízis 2017. december 5. 10 / 35

Főkomponens analízis Elnevezések: faktor/főkomponens mátrix: F vagy Z = AX, j-ik faktor: F j vagy Z j = n i=1 a i,jx i a i,j factor score coefficient A factor score coefficient matrix X i (ω 1 ) X i =.,Z j(ω k ) = n i=1 a i,jx i (ω k ) X i (ω p ) Z j (ω 1 ) (Factor score) F j = Z j =. Z j (ω p ) (Factor score) (De S+ ban: Factor score coefficient matrix = loadings, Factor scores = scores) Márkus László Főkomponens és Faktor analízis 2017. december 5. 11 / 35

Főkomponens analízis Factor loadings matrix A T (most) Z = AX A T Z = A T AX = X Tehát a faktorokból a megfigyeléseket visszaállíthatjuk. Ez nem érdekes addig, míg pontos az előállítás, nincs zaj. Főkomponens plotok Az első két vagy néhány főkomponens score-jait scatterplotoljuk párosával. Ezek mutathatnak normalitást, esetleg nemlinearitást (ez már összefüggés, ami nem jó, mert a PC-k korrelálatlanok és igazából normális eloszlás alapfeltevés mellett függetlenek is. Outlier is detektálható ezekből a plotokból, illeve csoportok is megfigyelhetőek az "eset"-ekben (az adatmátrix bizonyos sorai összetartozhatnak, csoportosulhatnak). Itt is igaz, hogy kovariancia mátrix helyett korrelációs mátrixból is lehet dolgozni. Ez ugyanaz, mintha normálnánk a változókat, megszabadulunk a skálázási problémától. Ez azonban nem mindig jogos! Márkus László Főkomponens és Faktor analízis 2017. december 5. 12 / 35

Főkomponens analízis Például: { } 1 4 S =, míg a neki megfelelő korrelációs mátrix: R = 4 25 { } 1 0.8 0.8 1 S-ből λ 1 = 25.65,λ 2 = 0.35 Az F 1 98.6% szórást magyaráz F 1 = 0.16X 1 + 0.987X 2, vagyis F 1 lényegileg X 2 Ugyanez R-rel: λ 1 = 1.8 λ 2 = 0.2 Az F 1 90% szórást magyaráz. F 1 = 0.707 X 1 + 0.141 X 2 tehát F 1 sokkal inkább X 1, mint X 2. Márkus László Főkomponens és Faktor analízis 2017. december 5. 13 / 35

Főkomponens analízis Hány főkomponenst tartsunk meg? 4 lehetőség a döntésre: 1 Magyarázzák a szórás rögzített (pl 80) %-át 2 Dobjuk azokat, melyek az átlagnál kisebb sajátértékhez tartoznak. λ j λ i ξ n ; Korrelációs mátrixra ez az átlag 1, tehát az 1-nél kisebb sajátértékhez tartozó főkomponenseket elhagyjuk. 3 Scree plot - kőomlás diagram. (nagyság szerint plottoljuk a sajátértékeket, és ahol az első (vagy második) törést látjuk a közel lineáris csökkenésben, onnantól dobjuk a főkomponenseket.) 4 A nagyobb főkomponens szignifikanciáját formálisan teszteljük. 5 Értelmezés alapján, a társtudománnyal együttműködve, ez nem statisztikai módszer, de hasznos lehet. Márkus László Főkomponens és Faktor analízis 2017. december 5. 14 / 35

Főkomponens analízis 3. H 0,k : λ n k+1 = = λ n = 0 λ = 1 k n i=n k+1 logλ i Teszt statisztika: n = (p 2n+11 6 )(k log( λ) n i=n k+1 logλ i) Ez közelítőleg χ 2 d, d = (k 1)(k+2) 2 Ez általában kissé túlbecsüli a megtartandó komponensek számát. 2. Scree-plot Márkus László Főkomponens és Faktor analízis 2017. december 5. 15 / 35

Főkomponens analízis 4. Értelmezés A faktormegoldások elforgathatók - ettől megoldások maradnak. A forgatás PCA-ra nem javasolt, csak FA-ra, de Principal Factorból gyakran ugyanazt kapjuk, mintha PCA-t forgattunk volna. Az új, forgatott megoldás már korrelál és nem a maximális varianciát határozza meg. Úgy forgatjuk a megoldást, hogy minél több együttható a lineáris kombinációban 0 legyen, így könnyebb értelmezni a megoldást, mert az eredeti változókból csak keveset használunk így fel egy-egy faktor meghatározásához a különböző faktorok más és más mért változót tartalmaznak (nagy súllyal). Márkus László Főkomponens és Faktor analízis 2017. december 5. 16 / 35

Valószínűségszámítás és matematikai statisztika A FA-ban a változókat reprezentálni akarjuk, mint néhány (jóval kevesebb) másik változó (a faktorok) lineáris kombinációja. A faktort általában nem lehet mérni, vagy megfigyelni. Rencher szerint a FA különbözik a PCA-tól, mert 1 A PC-k az eredeti változók lineáris kombinációi, míg a FA-ban az eredeti változókat fejezzük ki a faktorok lineáris kombinációival. 2 PCA-ban az összes variancia nagy részét magyarázzuk, míg FA-ban a változók közötti kovarianciákat szeretnénk a legjobban reprodukálni. Több statisztikus nem szereti - a régebbi számítási módszerek gyakran adtak ellentmondó eredményeket, ezeket ma nem használják. A számítógépes módszerek ma már konzisztensebbek. Azonban így is meglehetősen szubjektív az elfogadott modell, de ez egyúttal az alkalmazó szabadsága is, a módszer "bája" akár. Márkus László Főkomponens és Faktor analízis 2017. december 5. 17 / 35

Tegyük fel hogy p változót: Y 1,...,Y p figyelünk meg, mindegyiket pontosan n-szer. Ezekből a megfigyelésekből a szokásostól eltérően egy p nes mátrixot állítunk össze (most az oszlopok az esetek!). A változókról feltesszük, hogy 0 várható értékűek, különben az átlaggal centrálunk. Úgy gondoljuk, hogy a p változó közül az erősen összefüggők csoportjainak szinkronizált fluktuációját mindössze egy-egy látens, közvetlenül nem megfigyelhető háttérváltozó hozza létre. Ezeket a háttérváltozókat nevezzük faktoroknak, számuk, m lényegesen kisebb mint a megfigyelt változóké m << p. A változók n megfigyelt értékéhez a faktorok n értéke társul, tehát egy m n-es mátrixot adnak. A megfigyelt változók fluktuációjának jelentős része tehát a faktorok fluktuációjának lineáris kombinációjaként áll elő, marad azonban egy csupán az adott változóra Y i -re specifikus fluktuáció ε i is. Ezt idioszinkratikus komponensnek, vagy zajnak hívjuk. Minden i-re n értéke van, tehát ez is egy p n-es mátrix. Márkus László Főkomponens és Faktor analízis 2017. december 5. 18 / 35

A faktormodell egyenlet: Y = DF + ε Itt Y és ε p n-es mátrix. Az F faktorok n m, a D faktorsúlyok (factor loadings) p m-es mátrixot adnak. Lényeges, hogy D nem négyzetes, hanem p m-es mátrix, több sora van, mint oszlopa m << p. Az ε zaj és DF korrelálatlanok, a faktorok maguk (F oszlopai) ugyancsak korrelálatlanok - normálisra függetlenek, és az F j -ket 1 szórásúnak feltételezzük. Ezért: Σ Y = cov(df+ε) = cov(df)+cov(ε) = E(DFF T D T )+Σ ε = DD T +Σ ε Itt Σ ε = diag(σ 2 1,ε,,σ2 n,ε). Márkus László Főkomponens és Faktor analízis 2017. december 5. 19 / 35

Ez a felbontás nem feltétlen létezik m >> n-re. De a lényeg, hogy FAban ezt keressük, ezt értjük azon, hogy szórásmátrixot szeretnénk minél jobban reprodukálni, kisebb dimenzióból. A faktormegoldás nem egyértelmű: ugyanis, ha van egy megoldás tetszőleges T m x m-es forgatással: tehát: TT T = I Y = DTT T D T + ε = = DD T + ε Y = DTF + ε is jól reprodukálja a szórásmátrixot, így F = TF -fel, mint új faktorokkal: Y = DF + ε és mivel T ortogonális, így F is faktor tulajdonságú. Márkus László Főkomponens és Faktor analízis 2017. december 5. 20 / 35

A FA modell szerint minden változó varianciája a faktorok varianciájából áll elő lineáris kombinációként plusz még van egy, a zajból származó saját, specifikus varianciája. A faktorok által magyarázott rész az úgynevezett kommunalitás, ez h 2 i = d 2 i,1 +... + d2 i,m a D mátrix i-ik sorának négyzetösszege. Ha még a megfigyelt változó is egy szórású, akkor a kommunalitás a faktorok által magyarázott variancia arányát adja. Márkus László Főkomponens és Faktor analízis 2017. december 5. 21 / 35

Mivel Y i = m j=1 d i,jf j, és a faktorok korrelálatlanok és 1 szórásúak, ezért cov(y i,f j ) = d i,j Innen cov(y,f) = D Továbbá h 2 i = m j=1 cov(y i,f j ) 2 = = D 2 ( m j=1 d ijf j ) A kommunalitások nem változnak a megoldás forgatásával. Megjegyzés: h i nem más, mint az i-ik sor faktorsúly vektorának hossza az R m -ben. Ha standardizáltak a megfigyelések, akkor az a jó, ha közel van 1-hez. Márkus László Főkomponens és Faktor analízis 2017. december 5. 22 / 35

A faktormegoldás előállítása 1 Főkomponens módszer 2 Principal Factor vagy Principal Axis módszer (főtengely) Márkus László Főkomponens és Faktor analízis 2017. december 5. 23 / 35

Főkomponens módszer: Először is Y -t S-sel becsüljük. Keressük ˆD-ot, amelyre újfent spektrálfb.-juk S-et: ahol E: diag. s.é, C: s.vekt. S = ˆD ˆD T + S ε S = CEC T Mivel E diag négyzetgyököt vonhatunk, mert a főátlóban szórásnégyzetek állnak S = CE 1 2 (E 1 2 ) T C T Most lehetne ˆD = CE 1 2, de ez még nem jó, mert n x n-es mártix. Na de ne az összes sajátvektort vegyük, csak az első m-et: C m ˆD = C m E 1 2 m Márkus László Főkomponens és Faktor analízis 2017. december 5. 24 / 35

Tulajdonképp: az utolsó néhány főkomponenst zajnak tekintjük, és a változó egyéni variációjával "azonosítjuk". A dimenziók nem pontosak így a zajra, az ugyanis n rangú, míg az utsó PC-k (n-m) rangúak. Tehát összefüggés marad a zajban. Úgy tűnhet, hogy az interpretáció ugyanaz, mint a PCA-nál, de most forgathatunk, míg a PCA-kat nincs értelme forgatni - elvesztik PC tulajdonságukat. (Más a cél!) (Tetszőleges pozitív definit mátrix diagonálisba forgatható (vissza is!), de I-be már nem a PC-kat forgatva kaphatok összefüggéseket, de a F-kat forgatva nem) Újfent használhatjuk a korreláció mátrixot a kovariancia helyett. Most ez teljesen összeegyeztethető az interpretációval. Márkus László Főkomponens és Faktor analízis 2017. december 5. 25 / 35

Principal Factor vagy Principal Axis módszer (főtengely) Először becsüljük meg a zajt, azt vonjuk ki, aztán a maradékból határozzuk meg a faktort. Nem a zajt, hanem annak kovariancia mátrixát, tehát az egyes változók specifikus varianciáit kell becsülnünk. ĥ 2 1 s 1,2 s 1,n S Y S ε =... s m,1 s m,n 1 ĥ 2 m ahol ĥ 2 i a kommunalitások. Ezeket kell tehát becsülnünk. Márkus László Főkomponens és Faktor analízis 2017. december 5. 26 / 35

A kommunalitás becslése: s ii az S 1 diagonálisának i-ik eleme ĥ 2 i = s ii 1 s ii = s ii R 2 i (az utolsó egyenlőség megmutatható) ahol R 2 i a squared multiple correlation (- a regresszióból) a maradék n-1 változóval. Hasonlóan korreláció mátrix esetén: ĥ 2 i = 1 1 r ii = R 2 i az r ii az R 1 diag.-nak i-ik eleme. Ez akkor jó, ha R nem szinguláris. Ha szinguláris, akkor használjuk az abszolút érték vektort a négyzetét a legnagyobb korreláltnak az i. sorban. Gyakran negatív sajátértékek is adódnak S Y S ε -ból. Ekkor a magyarázott variancia 1 fölé megy és aztán csökken vissza 1-re (normált esetben) Márkus László Főkomponens és Faktor analízis 2017. december 5. 27 / 35

Maximum likelihood Tfh Y 1,...,Y n N n (η,( Y )) Ekkor D és ε ML becslése is lehetséges. Megmutatható, hogy ekkor ˆD és S ε a következőt elégíti ki: Ezt kell iteratíve megoldani. S Y S ε ˆD = ˆD(I + ˆD T Sε 1 ˆD) S ε = diag(s Y ˆD ˆD T ) ˆD T Sε 1 ˆD diagonális mátrix Ez gyakran nem konvergál, vagy nem ad jó megoldást, a kommunalitások meghaladják 1-et. Márkus László Főkomponens és Faktor analízis 2017. december 5. 28 / 35

A faktorszám megváltozik ugyanaz a 4 lehetőség, mint a PCA-nál: 1 inkább PCA-ra mint FA-ra 2 A rutin a legtöbb softwareben 3 Elég jó a scree plot is, (gyakran) felfedhet bizonytalanságot m megváltozásában. 4 -ben H 0 : Y = DD T + ε H 1 : Y DD T + ε akarjuk tesztelni. Márkus László Főkomponens és Faktor analízis 2017. december 5. 29 / 35

A teszt stat. likelihood hányadosból: (p 2n 2m+11 6 ) log( ˆD ˆD T S Y ) a determináns. Ez közelítőleg χ 2 d ahol d = 1 2 [(n m)2 n m] Ha H 0 -t elutasítjuk több faktor kell. Gyakorlatban gyakran túlbecsüli a faktorszámot. Márkus László Főkomponens és Faktor analízis 2017. december 5. 30 / 35

Factor scores Itt is vannak score-k: F = B T Y + ε ε : ez másik! B elemei a Factor Scoreok. Becslése: regressziószerű (tulajdonképp az is). ˆB = (Y T Y) 1 Y T F Márkus László Főkomponens és Faktor analízis 2017. december 5. 31 / 35

Forgatás Válasszuk T-t úgy, hogy minél könnyebben ért.hetőek legyenek a faktorok. Azaz az egyes faktorok minél közelebb kerüljenek a megfigyelt változók valamelyikéhez, hogy annak hatásával azonosítható legyen. Így forgassunk: Márkus László Főkomponens és Faktor analízis 2017. december 5. 32 / 35

Varimax forgatás Olyan rotált loadingsokat keresünk, hogy a négyzetük varianciáját maximalizáljuk D oszlopaiban. Az értelme: ha a faktorsúlyok mind egyenlőek lennének, a súlyok szórásnégyzete 0 lenne. Ha "szétdobáljuk" a súlyokat, a négyzetes súlyok 0-t, illetve 1-t közelítenek, a szórása nőni fog. A varimax módszer megkísérli a súlyokat vagy kicsi, vagy nagyra választani, hogy segítse az interpretációt. Márkus László Főkomponens és Faktor analízis 2017. december 5. 33 / 35

Változók csoportokba rendezése Egy-egy változó megfigyelése - egy pont R m -ben. Kell: távolság a pontok között: 1 euklideszi 2 négyzetes euklideszi Kell: távolság a csoportok között Pl: csoportok középpontjainak távolsága legközelebbi szomszédok távolsága legtávolabbi szomszédok távolsága Ward táv. a csoportokra ANOVA és a táv. a megfelelő szignifikancia szint (p-érték), amely mellett elutasítanánk a 0-hipotézist A cél: úgy csoportokra particionálni a megfigyelt változókat, hogy a csoportok távolsága maximális legyen (a legjobban elkülönüljenek). Márkus László Főkomponens és Faktor analízis 2017. december 5. 34 / 35

Távolságok a megfigyelések, mint R d -beli pontok között: Euklideszi: d i=1 (x i y i ) 2 Négyzetes Euklideszi: d i=1 (x i y i ) 2 Progresszíven nagyobb súly a távolabbi objektumokra Hatvány: ( d i=1 x i y i p ) 1 r Manhattan: d i=1 x i y i Nem annyira outlier érzékeny Csebisev: Max x i y i Ha valaki kül. bármely koord.-ban kül. Kül. százalék: x i y i d 100% Jó, ha kategorikus vált. van. Márkus László Főkomponens és Faktor analízis 2017. december 5. 35 / 35