Főkomponens és Faktor analízis

Hasonló dokumentumok
Főkomponens és Faktor analízis

Principal Component Analysis

Faktoranalízis az SPSS-ben

Faktoranalízis az SPSS-ben

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

Sajátértékek és sajátvektorok. mf1n1a06- mf1n2a06 Csabai István

Szinguláris értékek. Wettl Ferenc április 3. Wettl Ferenc Szinguláris értékek április 3. 1 / 28

Szinguláris értékek. Wettl Ferenc április 12. Wettl Ferenc Szinguláris értékek április / 35

Vektorterek. =a gyakorlatokon megoldásra ajánlott

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Nagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet

A többváltozós lineáris regresszió III. Főkomponens-analízis

Diszkriminancia-analízis

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Többváltozós lineáris regresszió 3.

Standardizálás, transzformációk

6. gyakorlat. Gelle Kitti. Csendes Tibor Somogyi Viktor. London András. jegyzetei alapján

Saj at ert ek-probl em ak febru ar 26.

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

5. előadás - Regressziószámítás

A maximum likelihood becslésről

Saj at ert ek-probl em ak febru ar 22.

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

LINEÁRIS MODELLBEN május. 1. Lineáris modell, legkisebb négyzetek elve

Kvadratikus alakok és euklideszi terek (előadásvázlat, október 5.) Maróti Miklós, Kátai-Urbán Kamilla

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Matematika (mesterképzés)

9. Előadás. (9. előadás) Lineáris egyr.(3.), Sajátérték április / 35

Szinguláris érték felbontás Singular Value Decomposition

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Feladatok a Gazdasági matematika II. tárgy gyakorlataihoz

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

y ij = µ + α i + e ij

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A KroneckerCapelli-tételb l következik, hogy egy Bx = 0 homogén lineáris egyenletrendszernek

Vektorok, mátrixok, lineáris egyenletrendszerek

LINEÁRIS ALGEBRA. matematika alapszak. Euklideszi terek. SZTE Bolyai Intézet, őszi félév. Euklideszi terek LINEÁRIS ALGEBRA 1 / 40

Bevezetés a hipotézisvizsgálatokba

[Biomatematika 2] Orvosi biometria

Lineáris algebra Gyakorló feladatok

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Problémás regressziók

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Matematikai geodéziai számítások 6.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

[Biomatematika 2] Orvosi biometria

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

Matematikai geodéziai számítások 5.

Standardizálás, transzformációk

Korreláció és lineáris regresszió

A szimplex algoritmus

Matematikai geodéziai számítások 6.

Gazdasági matematika II. tanmenet

Gauss-eliminációval, Cholesky felbontás, QR felbontás

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika elméleti összefoglaló

Lineáris algebra 2. Filip Ferdinánd december 7. siva.banki.hu/jegyzetek

II. Két speciális Fibonacci sorozat, szinguláris elemek, természetes indexelés

Hátrányok: A MANOVA elvégzésének lépései:

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

1. zárthelyi,

5. elıadás március 22. Portfólió-optimalizálás

A főkomponens-elemzés alkalmazása a kémiában

Kettőnél több csoport vizsgálata. Makara B. Gábor

Gauss-Seidel iteráció

Többváltozós lineáris regressziós modell feltételeinek

Regressziós vizsgálatok

A PARCIÁLIS LEGKISEBB NÉGYZETEK REGRESSZIÓ. Horváth Vivien

Matematikai geodéziai számítások 5.

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

1.1. Vektorok és operátorok mátrix formában

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Numerikus módszerek 1.

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Adatok statisztikai értékelésének főbb lehetőségei

Összeállította: dr. Leitold Adrien egyetemi docens

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Bevezetés az algebrába 2

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Segítség az outputok értelmezéséhez

Mátrixok 2017 Mátrixok

Alkalmazott algebra - SVD

Least Squares becslés

Biostatisztika VIII. Mátyus László. 19 October

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Átírás:

Főkomponens és Faktor analízis Márkus László 2014. december 4. Márkus László Főkomponens és Faktor analízis 2014. december 4. 1 / 34

Bevezetés - Főkomponens és Faktoranalízis A főkomponens és faktor analízis olyan statisztikai technika, amelyet változók halmazára alkalmazunk, hogy feltárjuk, közülük melyek tartalmaznak közös fluktuációs mintákat - akár csak részben, más fluktuációkkal kombináltan is -, és meghatározzuk ezeket a közös mintákat. Úgy gondoljuk általában, hogy egy-egy közös változékonyságminta valamilyen, a háttérben meghúzódó (látens) változó/folyamat hatásának eredményeként áll elő. E hatást a faktorváltozó reprezentálja. Mivel faktor az egyes megfigyelt változók közös additiv komponense (bár súlya az egyes változóban általában eltérő, akár 0 is lehet), így ez a megfigyelt változók korrelációjának forrása. A faktorok segítségével az összes megfigyelt változó változékonysága leírható, így ezek teljesen jellemzik megfigyeléseinketezért pusztán ezeket megtartva információvesztés nélkül csökkenthetjük (sokszor jelentősen) a változóink számát, azaz adatstruktúránk dimenzióját. Márkus László Főkomponens és Faktor analízis 2014. december 4. 2 / 34

Bevezetés - Főkomponens és Faktoranalízis Például: Hallgatók adatai: motiváció, intellektuális képességek, iskolatörténet, családtörténet, egészség, fizikai jellemzők, személyiségjegyek. Mindegyiket több változóval is mérik. Néhány személyiségjegy, motivációs és iskolatörténeti változó mutathatja, hogy mennyire szeret önállóan dolgozni a hallgató, kombinálódhat egy önállósági faktorban. Mások egy intelligencia fatort adhatnak ki. STB. Talajvízszint mérő kutak adatainak fluktuációja főként a csapadékból történő utánpótlás, esetlegesen fólyóvízből oldalirányú betáplálás és a kommunális vízkivétel eredőjeként alakul, e három hatás kutak százainak adatait jellemezheti globálisan (és e hatások eltávolítása után határozhatók meg a lokális befolyásoló tényezők). Márkus László Főkomponens és Faktor analízis 2014. december 4. 3 / 34

Bevezetés - Főkomponens és Faktoranalízis A főkomponens analízis (Principal Component Analysis, PCA) a változók közötti variancia, míg a faktoranalízis (FA) inkább a korrelációs mintákat összegzi. A PCA (és a FA is) jelentősen csökkenti a változók számát. Bizonyos változók a kísérletek, megfigyelések során alig változnak ingadozásuk (szórásuk) kicsi, ezeket tehát nem tekintjük jellemzőnek, elhagyhatjuk, ha tudjuk, melyek ezek. Ám gyakran nem ez vagy az a változó kis szórású, hanem pl. a kettő összege, vagy valamely más lineáris kombinációja. Ezeket keressük. Illetve inkább azokat, amelyeknek nagy a szórása, és ezért nem hagyhatók el. Az egész dolgot érdemes úgy is felfogni, hogy az X 1,...,X n minta egy N dimenziós teret feszít ki, ám még véletlenül sem ortogonális bázisként. Mi tehát adatainkat egy F 1,...,F n új, ortogonális bázisban szeretnénk felírni, melynek össz-hossznégyzete, azaz szórás 2 -összege az eredetivel egyező. Az új bázis F i elemei az X 1,...,X n lineáris kombinációjaként állnak elő. Ha megvan F 1,...,F n, az utolsó néhányat (gyakran sokat) elhagyhatjuk. Márkus László Főkomponens és Faktor analízis 2014. december 4. 4 / 34

Főkomponens analízis Cél: Az első főkomponens megtalálásához maximalizálni akarjuk a változók egy lineáris kombinációjának szórását. Lényegileg egy olyan irányt keresünk, amely mentén a változók maximálisan "szétterülnek", szétszóródnak. Általában ez különbözik a diszkriminancia analízis vagy a kanonikus korreláció által találat irányoktól. Néha a PCA a végcél, de máskor inputot generál további elemzéshez. Márkus László Főkomponens és Faktor analízis 2014. december 4. 5 / 34

Főkomponens analízis A kép Eltoljuk a középpontot az új középpontba, majd beforgatjuk a tengelyeket. Márkus László Főkomponens és Faktor analízis 2014. december 4. 6 / 34

Főkomponens analízis Tegyük fel, hogy a centrálás már megtörtént. A forgatás egy A ortogonális mátrixszal: A T A = I való szorzás. X az adataink mátrixa, Z a főkomponenseké Z = AX A ellipszoid tengelyeit megtalálni pont az A mátrix megtalálásával ekvivalens, amely úgy forgatja el a változókat, hogy azok korrelálatlanok legyenek, vagyis a variancia-kovariancia mátrix diagonális: Másfelől: S Z = diag(σ 2 Z 1,...,σ 2 Z p ) S Z = EZZ T = E(AX)(AX) T = AS x A T Szimmetrikus mátrixok spektrálfelbontásának S X -re alkalmazásához vegyük az S X n db normált sajátvektorából (v 1,...,v n )-ből mint oszlopokból álló V mátrixot. Márkus László Főkomponens és Faktor analízis 2014. december 4. 7 / 34

Ekkor I = VV T : Valószínűségszámítás és matematikai statisztika Főkomponens analízis S X = S X VV T = S X (v 1,...,v n )V T = = (S X v 1,...,S X v n )V T = (λ 1 v 1,...,λ n v n )V T = VΛV T Ez a spektrálfelbontás, ahol Λ a sajátértékek diagonális mátrixa: Λ = diag(λ 1,...,λ n ). Innen S X = VΛV T miatt V T S X V = V T VΛV T V = Λ Tehát az A = V T választással kapott Z = AX bázisváltozók S Z variancia-kovariancia mátrixa diagonális lesz, ahogy a főkomponensekétől megkívántuk. A keresett forgatás tehát az A mátrixszal adható meg, az A meghatározásához pedig az S X sajátvektorainak és sajátértékeinek számítása szükséges. Márkus László Főkomponens és Faktor analízis 2014. december 4. 8 / 34

Főkomponens analízis Egyszersmind az S X mátrix sajátértékei a főkomponensek szórás 2 -ei is lesznek. Nagyságrend szerint rendezzük őket. S X és S Z nyoma ( az összes szórás 2 összege) megegyezik, ezért van értelme az első k főkomponens által "megmagyarázott" varianciáról beszélni, ami Proportion of variance = σ 2 Z 1 +...+σ 2 Z k λ 1 +...+λ n = σ 2 Z 1 +...+σ 2 Z k σ 2 X 1 +...+σ 2 Xn = σ 2 Z 1 +...+σ 2 Z k σ 2 Z 1 +...+σ 2 Zn Ha az eredeti változóink korreláltak (erősen), akkor az első néhány főkomponens "sok" varianciát magyaráz, míg az utolsó (jó) néhány keveset, így ez utóbbiak akár el is dobhatóak. Tehát az első néhányat megtartva redukálhatjuk a dimenziót, miközben megőrizzük a változékonyságot. Márkus László Főkomponens és Faktor analízis 2014. december 4. 9 / 34

Főkomponens analízis Ha függetlenek (vagy inkább korrelálatlanok) a változóink, akkor ők maguk főkomponensek is nincs mit keresni. Vigyázni kell a skálával. A főkomponensek nem skálainvariánsok. Ha g/l helyett mg/l-ben mérünk egy változót jóval nagyobb lesz a súlya a főkomponensek előállításában. A megoldás, hogy a kovariancia mátrix helyett a korrelációkkal dolgozunk, azaz pl. minden változónk szórását 1-re normáljuk. Megjegyzés: Eredetileg Z 1 szórás 2 -ét akartuk maximalizálni, aztán a rá ortogonális altérben Z 2 -t, és így tovább. De Z i szórás 2 -e: a T S x a, és tetszőleges a-ra nincs maximum, ezért λ = at S X a -t maximalizáljuk. a T a λ 1 a legnagyobb sajátérték az (S X λi)a = 0 egyenletben Itt nem kell invertálni szinguláris S X mátrix is megengedhető. (Ez természetesen algebrailag is ugyanazt a megoldást adja, mint előbb). Márkus László Főkomponens és Faktor analízis 2014. december 4. 10 / 34

Főkomponens analízis Elnevezések: faktor/főkomponens mátrix: F vagy Z = AX, j-ik faktor: F j vagy Z j = n i=1 a i,jx i a i,j factor score coefficient A factor score coefficient matrix X i (ω 1 ) X i =.,Z j(ω k ) = n i=1 a i,jx i (ω k ) X i (ω p ) Z j (ω 1 ) (Factor score) F j = Z j =. Z j (ω p ) (Factor score) (De S+ ban: Factor score coefficient matrix = loadings, Factor scores = scores) Márkus László Főkomponens és Faktor analízis 2014. december 4. 11 / 34

Főkomponens analízis Factor loadings matrix A T (most) Z = AX A T Z = A T AX = X Tehát a faktorokból a megfigyeléseket visszaállíthatjuk. Ez nem érdekes addig, míg pontos az előállítás, nincs zaj. Főkomponens plotok Az első két vagy néhány főkomponens score-jait scatterplotoljuk párosával. Ezek mutathatnak normalitást, esetleg nemlinearitást (ez már összefüggés, ami nem jó, mert a PC-k korrelálatlanok és igazából normális eloszlás alapfeltevés mellett függetlenek is. Outlier is detektálható ezekből a plotokból, illeve csoportok is megfigyelhetőek az "eset"-ekben (az adatmátrix bizonyos sorai összetartozhatnak, csoportosulhatnak). Itt is igaz, hogy kovariancia mátrix helyett korrelációs mátrixból is lehet dolgozni. Ez ugyanaz, mintha normálnánk a változókat, megszabadulunk a skálázási problémától. Ez azonban nem mindig jogos! Márkus László Főkomponens és Faktor analízis 2014. december 4. 12 / 34

Főkomponens analízis Például: { } 1 4 S =, míg a neki megfelelő korrelációs mátrix: R = 4 25 { } 1 0.8 0.8 1 S-ből λ 1 = 25.65,λ 2 = 0.35 Az F 1 98.6% szórást magyaráz F 1 = 0.16X 1 + 0.987X 2, vagyis F 1 lényegileg X 2 Ugyanez R-rel: λ 1 = 1.8 λ 2 = 0.2 Az F 1 90% szórást magyaráz. F 1 = 0.707 X 1 + 0.141 X 2 tehát F 1 sokkal inkább X 1, mint X 2. Márkus László Főkomponens és Faktor analízis 2014. december 4. 13 / 34

Főkomponens analízis Hány főkomponenst tartsunk meg? 4 lehetőség a döntésre: 1 Magyarázzák a szórás rögzített (pl 80) %-át 2 Dobjuk azokat, melyek az átlagnál kisebb sajátértékhez tartoznak. λ j λ i ξ n ; Korrelációs mátrixra ez az átlag 1, tehát az 1-nél kisebb sajátértékhez tartozó főkomponenseket elhagyjuk. 3 Scree plot - kőomlás diagram. (nagyság szerint plottoljuk a sajátértékeket, és ahol az első (vagy második) törést látjuk a közel lineáris csökkenésben, onnantól dobjuk a főkomponenseket.) 4 A nagyobb főkomponens szignifikanciáját formálisan teszteljük. 5 Értelmezés alapján, a társtudománnyal együttműködve, ez nem statisztikai módszer, de hasznos lehet. Márkus László Főkomponens és Faktor analízis 2014. december 4. 14 / 34

Főkomponens analízis 3. H 0,k : λ n k+1 = = λ n = 0 λ = 1 k n i=n k+1 logλ i Teszt statisztika: n = (p 2n+11 6 )(k log( λ) n i=n k+1 logλ i) Ez közelítőleg χ 2 d, d = (k 1)(k+2) 2 Ez általában kissé túlbecsüli a megtartandó komponensek számát. 2. Scree-plot Márkus László Főkomponens és Faktor analízis 2014. december 4. 15 / 34

Főkomponens analízis 4. Értelmezés A faktormegoldások elforgathatók - ettől megoldások maradnak. A forgatás PCA-ra nem javasolt, csak FA-ra, de Principal Factorból gyakran ugyanazt kapjuk, mintha PCA-t forgattunk volna. Az új, forgatott megoldás már korrelál és nem a maximális varianciát határozza meg. Úgy forgatjuk a megoldást, hogy minél több együttható a lineáris kombinációban 0 legyen, így könnyebb értelmezni a megoldást, mert az eredeti változókból csak keveset használunk így fel egy-egy faktor meghatározásához a különböző faktorok más és más mért változót tartalmaznak (nagy súllyal). Márkus László Főkomponens és Faktor analízis 2014. december 4. 16 / 34

A FA-ban a változókat reprezentálni akarjuk, mint néhány (jóval kevesebb) másik változó (a faktorok) lineáris kombinációja. A faktort általában nem lehet mérni, vagy megfigyelni. Rencher szerint a FA különbözik a PCA-tól, mert 1 A PC-k az eredeti változók lineáris kombinációi, míg a FA-ban az eredeti változókat fejezzük ki a faktorok lineáris kombinációival. 2 PCA-ban az összes variancia nagy részét magyarázzuk, míg FA-ban a változók közötti kovarianciákat szeretnénk a legjobban reprodukálni. Több statisztikus nem szereti - a régebbi számítási módszerek gyakran adtak ellentmondó eredményeket, ezeket ma nem használják. A számítógépes módszerek ma már konsztensebbek. Azonban így is meglehetősen szubjektív az elfogadott modell, de ez egyúttal az alkalmazó szabadsága is, a módszer "bája" akár. Márkus László Főkomponens és Faktor analízis 2014. december 4. 17 / 34

A faktormodell egyenlet Y = DF + ε Most Y a megfigyelés. Y helyett Y µ áll(hat), ezért tegyük fel, hogy µ = 0. F a faktorok, ε a zaj, D a factor loadings mátrix. ε és DF korrelálatlan, a faktorok maguk (F oszlopai) ugyanacsak korrelálatlanok - normálisra függetlenek, és az F j -ket 1 szórásúnak feltételezzük. Ezért: Y = cov(df + ε) = cov(df) + covε = E(DFF T D T ) + ε = DD T + ε Lényeges, hogy D nem négyetes mátrix, több sora van, mint oszlopa, míg ε diag(σ 2 1,ε,,σ2 n,ε. Így m db faktorunk van. F = (F 0,,F m ) Márkus László Főkomponens és Faktor analízis 2014. december 4. 18 / 34

Ez a felbontás nem feltétlen létezik m >> n-re. De a lényeg, hogy FA-ban ezt keressük, ezt értjük azon, hogy szórásmátrixot szeretnénk minél jobban reprodukálni, kisebb dimenzióból. A faktormegoldás nem egyértelmű: ugyanis, ha van egy megoldás tetszőleges m x m-es forgatással: tehát: TT T = I Y = DTT T D T + ε = = DD T + ε Y = DTF + ε is jól reprodukálja a szórásmátrixot, így F = TF -fel, mint új faktorokkal: Y = DF + ε és mivel T ortogonális, így F is faktor tulajdonságú. Márkus László Főkomponens és Faktor analízis 2014. december 4. 19 / 34

A FA modell szerint minden változó varianciáját a faktorok varianciája magyarázza bizonyos mértékig, és van egy, a zajból származó saját, specifikus varianciája. A faktorok által magyarázott "arány" az úgynevezett kommunalitás, ez h 2 i = d 2 i,1 +... + d2 i,m a D mátrix i-ik sorának négyzetösszege. Márkus László Főkomponens és Faktor analízis 2014. december 4. 20 / 34

Mivel a faktorok korrelálatlanok és standardek, ezért h 2 i = m j=1 cov(y i,f j ) 2 = = D 2 ( m j=1 d ijf j ) A kommunalitások nem változnak a megoldás forgatásával. Megjegyzés: h i nem más, mint az i-ik sor faktorsúly vektorának hossza az R m -ben. Az a jó, ha közel van 1-hez. Márkus László Főkomponens és Faktor analízis 2014. december 4. 21 / 34

A faktormegoldás előállítása 1 Főkomponens módszer 2 Principal Factor vagy Principal Axis módszer (főtengely) Márkus László Főkomponens és Faktor analízis 2014. december 4. 22 / 34

Főkomponens módszer: Először is Y -t S-sel becsüljük. Keressük ˆD-ot, amelyre újfent spektrálfb.-juk S-et: ahol E: diag. s.é, C: s.vekt. S = ˆD ˆD T + S ε S = CEC T Mivel E diag négyzetgyököt vonhatunk, mert a főátlóban szórásnégyzetek állnak S = CE 1 2 (E 1 2 ) T C T Most lehetne ˆD = CE 1 2, de ez még nem jó, mert n x n-es mártix. Na de ne az összes sajátvektort vegyük, csak az első m-et: C m ˆD = C m E 1 2 m Márkus László Főkomponens és Faktor analízis 2014. december 4. 23 / 34

Tulajdonképp: az utolsó néhány főkomponenst zajnak tekintjük, és a változó egyéni variációjával "azonosítjuk". A dimenziók nem pontosak így a zajra, az ugyanis n rangú, míg az utsó PC-k (n-m) rangúak. Tehát összefüggés marad a zajban. Úgy tűnhet, hogy az interpretáció ugyanaz, mint a PCA-nál, de most forgathatunk, míg a PCA-kat nincs értelme forgatni - elvesztik PC tulajdonságukat. (Más a cél!) (Tetszőleges pozitív definit mátrix diagonálisba forgatható (vissza is!), de I-be már nem a PC-kat forgatva kaphatok összefüggéseket, de a F-kat forgatva nem) Újfent használhatjuk a korreláció mátrixot helyett. Most ez teljesen osszeegyeztethető az interpretációval. Márkus László Főkomponens és Faktor analízis 2014. december 4. 24 / 34

Principal Factor vagy Principal Axis módszer (főtengely) Először becsüljük meg a zajt, azt vonjuk ki, aztán a maradékból határozzuk meg a faktort. Nem a zajt, hanem annak kovariancia mátrixát, tehát az egyes változók specifikus varianciáit kell becsülnünk. ĥ 2 1 s 1,2 s 1,n S Y S ε =... s m,1 s m,n 1 ĥ 2 m ahol ĥ 2 i a kommunalitások. Ezeket kell tehát becsülnünk. Márkus László Főkomponens és Faktor analízis 2014. december 4. 25 / 34

A kommunalitás becslése: s ii az S 1 diagonálisának i-ik eleme ĥ 2 i = s ii 1 s ii = s ii R 2 i (az utolsó egyenlőség megmutatható) ahol R 2 i a squared multiple correlation (- a regresszióból) a maradék n-1 változóval. Hasonlóan korreláció mátrix esetén: ĥ 2 i = 1 1 r ii = R 2 i az r ii az R 1 diag.-nak i-ik eleme. Ez akkor jó, ha R nem szinguláris. Ha szinguláris, akkor használjuk az abszolút érték vektort a négyzetét a legnagyobb korreláltnak az i. sorban. Gyakran negatív sajátértékek is adódnak S Y S ε -ból. Ekkor a magyarázott variancia 1 fölé megy és aztán csökken vissza 1-re (normált esetben) Márkus László Főkomponens és Faktor analízis 2014. december 4. 26 / 34

Maximum likelihood Tfh Y 1,...,Y n N n (η,( Y )) Ekkor D és ε ML becslése is lehetséges. Megmutatható, hogy ekkor ˆD és S ε a következőt elégíti ki: Ezt kell iteratíve megoldani. S Y S ε ˆD = ˆD(I + ˆD T Sε 1 ˆD) S ε = diag(s Y ˆD ˆD T ) ˆD T Sε 1 ˆD diagonális mátrix Ez gyakran nem konvergál, vagy nem ad jó megoldást, a kommunalitások meghaladják 1-et. Márkus László Főkomponens és Faktor analízis 2014. december 4. 27 / 34

A faktorszám megváltozik ugyanaz a 4 lehetőség, mint a PCA-nál: 1 inkább PCA-ra mint FA-ra 2 A rutin a legtöbb softwareben 3 Elég jó a scree plot is, (gyakran) felfedhet bizonytalanságot m megváltozásában. 4 -ben H 0 : Y = DD T + ε H 1 : Y DD T + ε akarjuk tesztelni. Márkus László Főkomponens és Faktor analízis 2014. december 4. 28 / 34

A teszt stat. likelihood hányadosból: (p 2n 2m+11 6 ) log( ˆD ˆD T S Y ) a determináns. Ez közelítőleg χ 2 d ahol d = 1 2 [(n m)2 n m] Ha H 0 -t elutasítjuk több faktor kell. Gyakorlatban gyakran túlbecsüli a faktorszámot. Márkus László Főkomponens és Faktor analízis 2014. december 4. 29 / 34

Factor scores Itt is vannak score-k: F = B T Y + ε ε : ez másik! B elemei a Factor Scoreok. Becslése: regressziószerű (tulajdonképp az is). ˆB = (Y T Y) 1 Y T F Márkus László Főkomponens és Faktor analízis 2014. december 4. 30 / 34

Forgatás Válasszuk T-t úgy, hogy minél könnyebben ért.hetőek legyenek a faktorok. Azaz az egyes faktorok minél közelebb kerüljenek a megfigyelt változók valamelyikéhez, hogy annak hatásával azonosítható legyen. Így forgassunk: Márkus László Főkomponens és Faktor analízis 2014. december 4. 31 / 34

Varimax forgatás Olyan rotált loadingsokat keresünk, hogy a négyzetük varianciáját maximalizáljuk D oszlopaiban. Az értelme: ha a faktorsúlyok mind egyenlőek lennének, a súlyok szórásnégyzete 0 lenne. Ha "szétdobáljuk" a súlyokat, a négyzetes súlyok 0-t, illetve 1-t közelítenek, a szórása nőni fog. A varimax módszer megkísérli a súlyokat vagy kicsi, vagy nagyra választani, hogy segítse az interpretációt. Márkus László Főkomponens és Faktor analízis 2014. december 4. 32 / 34

Változók csoportokba rendezése Egy-egy változó megfigyelése - egy pont R m -ben. Kell: távolság a pontok között: 1 euklideszi 2 négyzetes euklideszi Kell: távolság a csoportok között Pl: csoportok középpontjainak távolsága legközelebbi szomszédok távolsága legtávolabbi szomszédok távolsága Ward táv. a csoportokra ANOVA és a táv. a megfelelő szignifikancia szint (p-érték), amely mellett elutasítanánk a 0-hipotézist A cél: úgy csoportokra particionálni a megfigyelt változókat, hogy a csoportok távolsága maximális legyen (a legjobban elkülönüljenek). Márkus László Főkomponens és Faktor analízis 2014. december 4. 33 / 34

Távolságok a megfigyelések, mint R d -beli pontok között: Euklideszi: d i=1 (x i y i ) 2 Négyzetes Euklideszi: d i=1 (x i y i ) 2 Progresszíven nagyobb súly a távolabbi objektumokra Hatvány: ( d i=1 x i y i p ) 1 r Manhattan: d i=1 x i y i Nem annyira outlier érzékeny Csebisev: Max x i y i Ha valaki kül. bármely koord.-ban kül. Kül. százalék: x i y i d 100% Jó, ha kategorikus vált. van. Márkus László Főkomponens és Faktor analízis 2014. december 4. 34 / 34