Principal Component Analysis

Principal Component Analysis Definíció Ortogonális transzformáció, amely az adatokat egy új koordinátarendszerbe transzformálja úgy, hogy a koordináták az eredeti adatok egyre kevesebb varianciájú irányát adják. első koordináta: legnagyobb variancia második: második legnagyobb variancia

Principal Component Analysis Adatok Legyen X egy olyan mátrix, amely az adatainkat tartalmazza: X oszlopai nulla várható értékűek a sorok (n) reprezentálják a méréseinket az oszlopok (p) a jellemzőink Transzformáció A transzformáció olyan p-dimenziós w (k) = w 1,,, w p (k) súlyvektorokkal írható le, amelyek minden x (i) sorvektort egy-egy új t (i) = t 1,,, t p (i) főkomponens értékekbe képeznek le: t k i = x i w k A t elemei tartalmazzák az X adathalmaz maximális szórásait, w egységvektorokkal.

Normalizálás szükséges! w 1 = arg max w=1 Első főkomponens i t 1 2 i = arg max w=1 i x i w 2 w 1 = arg max w=1 Xw 2 = arg max w=1 wt X T Xw Mivel w egységvektor, ez a következő kifejezést is kielégíti: w 1 = arg max wt X T Xw w T w Ez a kifejezés akkor maximum, ha a wt X T Xw kifejezés értéke az XT X legnagyobb sajátértéke, w T w w pedig a hozzá tartozó sajátvektor.

Első főkomponens t 1 j = x j w 1

További főkomponensek A k. komponenshez először kivonjuk az első k-1 főkomponenst X-ből: k 1 X k = X s=1 Xw s w s T Ezután megkeressük a következő w súlyvektort, amely a maradék mátrix legnagyobb varianciáját tartalmazza: w k = arg max w=1 X k w 2 = arg max wt X k T X k w w T w a w vektorok az X T X sajátvektorai!

Főkomponensek t k j = x j w k A w k az X T X mátrix k. sajátvektora

Kovarianciák Az X T X arányos az X tapasztalati kovarianciamátrixával. Két főkomponens közötti kovariancia Q = cov PC (i), PC (j) Xw j T Xw k = w j T X T Xw k = w j T λ k w k sajátérték = λ k w j T w k = 0 ortogonálisak! A főkomponensek páronkénti kovarianciája 0. Mátrix formában Q X T X = WΛW T WQW T W T WΛW T W = Λ

Dimenziócsökkentés A T = XW leképezés az eredeti p-dimenziós térből egy új p- dimenziós térbe transzformálja az adatokat, amelyek nem korreláltak. Tartsuk meg csak az első L darab főkomponenst: T L = X W L ahol, T L -nek n sora van, de már csak L oszlopa. A PCA megtanul egy olyan t = W T x, x R p, t R L lineáris leképezést, amelyben a p L dimenziójú W mátrix ortogonális bázist alkot az L jellemzőre, és korrelálatlanok. Az első L oszlop megtartja az eredeti adathalmaz legnagyobb varianciáját, így minimalizálja a visszaállított négyzetes hibát.

Dimenziócsökkentés 3D 2D PCA nélkül PCA-val

Szinguláris érték felbontás (Singular value decomposition) A PCA összefügg egy másik mátrix faktorizációs eljárással, a szinguláris érték felbontással: X = UΣW T Σ egy n x p diagonális mátrix, amely elemei a szinguláris értékek U egy n x n mátrix, amely elemei a bal oldali szinguláris vektorok W pedig egy p x p mátrix, amely oszlopait jobb oldali szinguláris vektoroknak nevezzük és ortogonális egységvektorok. XX T = WΣU T UΣW T = WΣ 2 W T Σ 2 diagonális elemei a sajátértékek négyzetei W oszlopai a sajátvektorok X T X = WΛW T

PCA + SVD SVD XX T = WΣ 2 W T PCA SVD-vel T = XW = UΣW T W = UΣ Dimenziócsökkentés T L = XW L = U L Σ L

Independent Component Analysis

Independent component analysis x 1 t = a 11 s 1 t + a 12 s 2 t x 2 t = a 21 s 1 t + a 22 s 2 t

Independent component analysis Modell s 1 t s 2 t Megfigyelés x 1 t = a 11 s 1 t + a 12 s 2 t x 2 t = a 21 s 1 t + a 22 s 2 t t = 1 T Amit szeretnénk s 1 t, t = 1 T s 2 t, t = 1 T Cél a ij =?

Independent component analysis

Independent component analysis http://research.ics.aalto.fi/ica/cocktail/cocktail_en.cgi

Definíciók Függetlenség Y 1, Y 2 p Y 1, Y 2 = p Y 1 p Y 2 Entrópia H Y 1, Y 2,.., Y m = න p y 1,, y m log p(y 1,, y m ) KL divergencia (távolság) 0 KL f, g = න f log f g Mutual Information (kölcsönös információ) 0 I Y 1, Y 2, Y m = න p y 1,, y m log p y 1,, y m p y 1 p y 2 p y m

ICA probléma megoldása i.i.d. forrásokkal ICA probléma: x = As, s = s 1 ; s 2 ; ; s M függetlenek Korlátok: A s = s 1 ; s 2 ; ; s M források alábbi tulajdonságait nem lehet megtudni: előjel, skála, permutáció Ok: P = tetszőleges permutációs mátrix Λ= tetszőleges skálázó mátrix x = AP 1 Λ 1 ΛPs = As

ICA probléma megoldása Lemma Feltehetjük, hogy E s = 0 Bizonyítás Az átlag kivonása nem változtatja meg a keverő mátrixot x E x = A s E s A továbbiakban feltesszük, hogy E ss T = I M, E s = 0

Fehérítés Σ = cov x = E xx T = E Ass T A T = AA T x = As, s = s 1 Q = D 1 2U T R M N A = QA x = Qx = QAs = A s s M Σ = UDU T UU T = I M D: diagonális mátrix, rangja: M E x x T = E Qxx T Q T = QΣQ T = D 1 2U T UDU T UD 1 2 = I E x x T = I M és A A T = I A A T = I

Fehérítés hatása Megjegyzés Egy N x N es ortogonális mátrix szabad paramétereinek száma: N(N-1)/2 a fehérítés az ICA problémának a felét megoldja Fehérítés után elegendő ortogonális mátrixokat figyelembe venni az elkülönítésnél.

ICA megoldása ICA feladat adott x esetén y megkeresése (s becslése) W megkeresése (A -1 becslése) ICA megoldás: y=wx Kivonjuk az átlagot (E s = 0), Fehérítés (E xx T = I), Ortogonális W-t keresünk, amely optimalizálja a célfüggvényünket

ICA költségfüggvények Legyen y = Wx, y = y 1 ; ; y M kölcsönös információval: J ICA1 W = I y 1, y 2, y m = න p y 1,, y m log és mérjük a függőséget a p y 1,, y m p y 1 p y 2 p y m dy H y = H y 1, y 2,.., y m = න p y 1,, y m log p(y 1,, y m ) dy Lemma H Wx = H x + log detw p y 1,, y m I y 1, y 2, y m = න p y 1,, y m log p y 1 p y 2 p y m = H y 1, y 2,.., y m + H y 1 + + H y M = H x 1, x 2,.., x m log detw + H y 1 + + H y M

ICA költségfüggvények p y 1,, y m I y 1, y 2, y m = න p y 1,, y m log p y 1 p y 2 p y m = H y 1, y 2,.., y m + H y 1 + + H y M = H x 1, x 2,.., x m log detw + H y 1 + + H y M H x 1, x 2,.., x m konstans, log detw = 0. J ICA1 W = H y 1 + + H y M A kovariancia fix: Melyik eloszlásnak van a legnagyobb entrópiája? Minél messzebb a normál eloszlástól!

Centrális határeloszlás-tétel Független változók szummája normális eloszláshoz tart. A szétválasztáshoz minél messzebb kell mennünk a normál eloszlástól.

Maximum likelihood ICA alg. legegyszerűbb megközelítés tudnunk kell a rejtett források eloszlását x t = As t, s t = Wx t, ahol A 1 = W = w 1 ; ; w M R M M T L = log p x x t = log p AS As t = A 1 log p S t=1 T M T t=1 T t=1 L = T log W + log f k w k x t max W t=1 k=1 s t = T log W + log p st T M t=1 i=1 T M T δl = T W T ij 1 δ + log f δw ij δw k w k x t = T W T ij 1 fi w i x t + ij f t=1 k=1 t=1 i w i x t x j t w k x t W W T 1 + 1 T t=1 T g i Wx t x T, ahol g i = Τ f i f i

ICA algoritmus Kurtosis maximalizálással Normális eloszlástól való távolság mértékének mérése Csúcsosság k 4 = E y 4 3 E y 2 2 = 3, ha E y = 0 és fehérített

Fast ICA alg. adott a fehérített adat (x) becsüljük meg az első ICA komponenst y = w T x, w = 1 w T = W első sora Maximalizáljuk/minimalizáljuk az f w = k 4 y = E y 4 3 kurtózist a következő megkötéssel: h w = w 2 1 = 0 az optimumnál: f w + λh w = 0 4E w T x 3 x + 2λw = 0 (λ Lagrange együttható) Newton s method: F W = 0 W k+1 = W k F W k F W k

Fast ICA alg. Megoldani F W = 4E w T x 3 x + 2λw = 0 Megjegyzés y = w T x, w = 1, E w T x 2 = I, E xx T = I F deriváltja F W = 12E w T x 2 xx T + 2λI = 0 12E w T x 2 E xx T + 2λI I = 12I + 2λI I

Fast ICA alg. w k + 1 = w k F w k 1 F w k w k + 1 = w k 4E w k T x 3 x + 2λw k 12 + 2λ 12 + 2λw k + 1 = 12w k + 2λw k 4E w k T x 3 x 2λw k 12 + 2λ w k + 1 = 3w k + E w k T x 3 x 4 Legyen w 1 a következő fix pont: ഥw k + 1 = E w k T x 3 x 3w k ഥw k + 1 w k + 1 = ഥw k + 1 Becsüljük meg a második ICA komponenst ugyanígy a w w 1 megkötéssel

Fast ICA több egységre Komponensek ortogonálissá tétele egyesével (Gram-Schmidt): w 1,, w p p w p+1 = w p+1 j=1 Fast ICA update T w p+1 w j w j Komponensek ortogonálissá tétele egyszerre: UD 1Τ2 U T W = WW T Τ 1 2 W UDU T

ICA vs. PCA PCA nem normális eloszlású adatokon a nyilak ortogonálisak a visszaállított eredeti jelek messze vannak az eredeti jelektől figyelmen kívül hagytuk a nem normális eloszlásból következő tulajdonságokat

ICA vs. PCA ICA normális eloszlású adatokon