Principal Component Analysis

Hasonló dokumentumok
Szinguláris érték felbontás Singular Value Decomposition

Blind Source Separation. Kiváltott agyi jelek informatikai feldolgozása

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

Blind Source Separation. Kiváltott agyi jelek informatikai feldolgozása

Kvadratikus alakok és euklideszi terek (előadásvázlat, október 5.) Maróti Miklós, Kátai-Urbán Kamilla

Saj at ert ek-probl em ak febru ar 22.

A maximum likelihood becslésről

Vektorterek. =a gyakorlatokon megoldásra ajánlott

Saj at ert ek-probl em ak febru ar 26.

Sajátértékek és sajátvektorok. mf1n1a06- mf1n2a06 Csabai István

Többváltozós lineáris regresszió 3.

A többváltozós lineáris regresszió III. Főkomponens-analízis

Alkalmazott algebra - SVD

1. Bázistranszformáció

Matematika (mesterképzés)

5. elıadás március 22. Portfólió-optimalizálás

azonosságot minden 1 i, l n, 1 j k, indexre teljesítő együtthatókkal, amelyekre érvényes a = c (j) i,l l,i

Szalai Péter. April 17, Szalai Péter April 17, / 36

LINEÁRIS MODELLBEN május. 1. Lineáris modell, legkisebb négyzetek elve

Lineáris algebra 2. Filip Ferdinánd december 7. siva.banki.hu/jegyzetek

Szinguláris értékek. Wettl Ferenc április 3. Wettl Ferenc Szinguláris értékek április 3. 1 / 28

Matematika A2 vizsga mgeoldása június 4.

Matematikai geodéziai számítások 5.

Nem felügyelt tanulás

Line aris f uggv enyilleszt es m arcius 19.

10. Előadás. Megyesi László: Lineáris algebra, oldal. 10. előadás Sajátérték, Kvadaratikus alak

1.1. Vektorok és operátorok mátrix formában

Mátrixok 2017 Mátrixok

Szinguláris értékek. Wettl Ferenc április 12. Wettl Ferenc Szinguláris értékek április / 35

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Vektorok, mátrixok, lineáris egyenletrendszerek

LINEÁRIS ALGEBRA. matematika alapszak. Euklideszi terek. SZTE Bolyai Intézet, őszi félév. Euklideszi terek LINEÁRIS ALGEBRA 1 / 40

A szimplex algoritmus

Összeállította: dr. Leitold Adrien egyetemi docens

Függetlenaltér-analízis

Feladatok a Gazdasági matematika II. tárgy gyakorlataihoz

Lineáris algebra Gyakorló feladatok

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

További sajátértékek. 10. előadás, május 3. Megjegyzések. A szűrés hatása a portfólió optimalizálásra

1 Lebegőpontos számábrázolás

A főkomponens-elemzés alkalmazása a kémiában

A független komponens analízis és empirikus vizsgálata*

Összeállította: dr. Leitold Adrien egyetemi docens

c adatpontok és az ismeretlen pont közötti kovariancia vektora

5. előadás - Regressziószámítás

1. feladatsor Komplex számok

Numerikus módszerek 1.

1. Lineáris transzformáció

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Lineáris leképezések (előadásvázlat, szeptember 28.) Maróti Miklós, Kátai-Urbán Kamilla

Fraktálok. Kontrakciók Affin leképezések. Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék. TARTALOMJEGYZÉK Kontrakciók Affin transzformációk

1. Az euklideszi terek geometriája

4. Előadás: Erős dualitás

Rang, sajátérték. Dr. Takách Géza NyME FMK Informatikai Intézet takach/ február 15

Gazdasági matematika II. vizsgadolgozat megoldása, június 10

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Hadamard-mátrixok Előadó: Hajnal Péter február 23.

Matematikai geodéziai számítások 5.

Determinánsok. A determináns fogalma olyan algebrai segédeszköz, amellyel. szolgáltat az előbbi kérdésekre, bár ez nem mindig hatékony.

Matematika elméleti összefoglaló

VIK A2 Matematika - BOSCH, Hatvan, 3. Gyakorlati anyag. Mátrix rangja

Lineáris algebra numerikus módszerei

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

1. Diagonalizálás. A Hom(V) diagonalizálható, ha van olyan bázis, amelyben A mátrixa diagonális. A diagonalizálható van sajátvektorokból álló bázis.

Kvadratikus alakok gyakorlás.

6. gyakorlat. Gelle Kitti. Csendes Tibor Somogyi Viktor. London András. jegyzetei alapján

Lineáris regressziós modellek 1

LNM folytonos Az interpoláció Lagrange interpoláció. Lineáris algebra numerikus módszerei

Az impulzusnyomatékok általános elmélete

Nagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet

Matematikai geodéziai számítások 6.

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

(Independence, dependence, random variables)

Totális Unimodularitás és LP dualitás. Tapolcai János

Határozatlansági relációk származtatása az

A KroneckerCapelli-tételb l következik, hogy egy Bx = 0 homogén lineáris egyenletrendszernek

Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés

Készítette: Fegyverneki Sándor

Nem teljesen kitöltött páros összehasonlítás mátrixok sajátérték optimalizálása Newton-módszerrel p. 1/29. Ábele-Nagy Kristóf BCE, ELTE

Helymeghatározási alapelvek és módszerek

i=1 λ iv i = 0 előállítása, melynél valamelyik λ i

Keresztmetszet másodrendű nyomatékainak meghatározása

[Biomatematika 2] Orvosi biometria

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

9. Előadás. (9. előadás) Lineáris egyr.(3.), Sajátérték április / 35

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Diszkrét Matematika MSc hallgatók számára. 4. Előadás

Centrális határeloszlás-tétel

Bevezetés az algebrába 2 Vektor- és mátrixnorma

Lineáris algebra zárthelyi dolgozat javítókulcs, Informatika I márc.11. A csoport

II. Két speciális Fibonacci sorozat, szinguláris elemek, természetes indexelés

GPK M1 (BME) Interpoláció / 16

és n oszlopból áll, akkor m n-es mátrixról beszélünk. (Az oszlopok száma a mátrix vízszintes mérete, a sorok 2 3-as, a ij..

Mat. A2 3. gyakorlat 2016/17, második félév

3. előadás Stabilitás

Matematikai geodéziai számítások 6.

Átírás:

Principal Component Analysis

Principal Component Analysis

Principal Component Analysis Definíció Ortogonális transzformáció, amely az adatokat egy új koordinátarendszerbe transzformálja úgy, hogy a koordináták az eredeti adatok egyre kevesebb varianciájú irányát adják. első koordináta: legnagyobb variancia második: második legnagyobb variancia

Principal Component Analysis Adatok Legyen X egy olyan mátrix, amely az adatainkat tartalmazza: X oszlopai nulla várható értékűek a sorok (n) reprezentálják a méréseinket az oszlopok (p) a jellemzőink Transzformáció A transzformáció olyan p-dimenziós w (k) = w 1,,, w p (k) súlyvektorokkal írható le, amelyek minden x (i) sorvektort egy-egy új t (i) = t 1,,, t p (i) főkomponens értékekbe képeznek le: t k i = x i w k A t elemei tartalmazzák az X adathalmaz maximális szórásait, w egységvektorokkal.

Normalizálás szükséges! w 1 = arg max w=1 Első főkomponens i t 1 2 i = arg max w=1 i x i w 2 w 1 = arg max w=1 Xw 2 = arg max w=1 wt X T Xw Mivel w egységvektor, ez a következő kifejezést is kielégíti: w 1 = arg max wt X T Xw w T w Ez a kifejezés akkor maximum, ha a wt X T Xw kifejezés értéke az XT X legnagyobb sajátértéke, w T w w pedig a hozzá tartozó sajátvektor.

Első főkomponens t 1 j = x j w 1

További főkomponensek A k. komponenshez először kivonjuk az első k-1 főkomponenst X-ből: k 1 X k = X s=1 Xw s w s T Ezután megkeressük a következő w súlyvektort, amely a maradék mátrix legnagyobb varianciáját tartalmazza: w k = arg max w=1 X k w 2 = arg max wt X k T X k w w T w a w vektorok az X T X sajátvektorai!

Főkomponensek t k j = x j w k A w k az X T X mátrix k. sajátvektora

Kovarianciák Az X T X arányos az X tapasztalati kovarianciamátrixával. Két főkomponens közötti kovariancia Q = cov PC (i), PC (j) Xw j T Xw k = w j T X T Xw k = w j T λ k w k sajátérték = λ k w j T w k = 0 ortogonálisak! A főkomponensek páronkénti kovarianciája 0. Mátrix formában Q X T X = WΛW T WQW T W T WΛW T W = Λ

Dimenziócsökkentés A T = XW leképezés az eredeti p-dimenziós térből egy új p- dimenziós térbe transzformálja az adatokat, amelyek nem korreláltak. Tartsuk meg csak az első L darab főkomponenst: T L = X W L ahol, T L -nek n sora van, de már csak L oszlopa. A PCA megtanul egy olyan t = W T x, x R p, t R L lineáris leképezést, amelyben a p L dimenziójú W mátrix ortogonális bázist alkot az L jellemzőre, és korrelálatlanok. Az első L oszlop megtartja az eredeti adathalmaz legnagyobb varianciáját, így minimalizálja a visszaállított négyzetes hibát.

Dimenziócsökkentés 3D 2D PCA nélkül PCA-val

Szinguláris érték felbontás (Singular value decomposition) A PCA összefügg egy másik mátrix faktorizációs eljárással, a szinguláris érték felbontással: X = UΣW T Σ egy n x p diagonális mátrix, amely elemei a szinguláris értékek U egy n x n mátrix, amely elemei a bal oldali szinguláris vektorok W pedig egy p x p mátrix, amely oszlopait jobb oldali szinguláris vektoroknak nevezzük és ortogonális egységvektorok. XX T = WΣU T UΣW T = WΣ 2 W T Σ 2 diagonális elemei a sajátértékek négyzetei W oszlopai a sajátvektorok X T X = WΛW T

PCA + SVD SVD XX T = WΣ 2 W T PCA SVD-vel T = XW = UΣW T W = UΣ Dimenziócsökkentés T L = XW L = U L Σ L

Independent Component Analysis

Independent component analysis x 1 t = a 11 s 1 t + a 12 s 2 t x 2 t = a 21 s 1 t + a 22 s 2 t

Independent component analysis Modell s 1 t s 2 t Megfigyelés x 1 t = a 11 s 1 t + a 12 s 2 t x 2 t = a 21 s 1 t + a 22 s 2 t t = 1 T Amit szeretnénk s 1 t, t = 1 T s 2 t, t = 1 T Cél a ij =?

Independent component analysis

Independent component analysis http://research.ics.aalto.fi/ica/cocktail/cocktail_en.cgi

Definíciók Függetlenség Y 1, Y 2 p Y 1, Y 2 = p Y 1 p Y 2 Entrópia H Y 1, Y 2,.., Y m = න p y 1,, y m log p(y 1,, y m ) KL divergencia (távolság) 0 KL f, g = න f log f g Mutual Information (kölcsönös információ) 0 I Y 1, Y 2, Y m = න p y 1,, y m log p y 1,, y m p y 1 p y 2 p y m

ICA probléma megoldása i.i.d. forrásokkal ICA probléma: x = As, s = s 1 ; s 2 ; ; s M függetlenek Korlátok: A s = s 1 ; s 2 ; ; s M források alábbi tulajdonságait nem lehet megtudni: előjel, skála, permutáció Ok: P = tetszőleges permutációs mátrix Λ= tetszőleges skálázó mátrix x = AP 1 Λ 1 ΛPs = As

ICA probléma megoldása Lemma Feltehetjük, hogy E s = 0 Bizonyítás Az átlag kivonása nem változtatja meg a keverő mátrixot x E x = A s E s A továbbiakban feltesszük, hogy E ss T = I M, E s = 0

Fehérítés Σ = cov x = E xx T = E Ass T A T = AA T x = As, s = s 1 Q = D 1 2U T R M N A = QA x = Qx = QAs = A s s M Σ = UDU T UU T = I M D: diagonális mátrix, rangja: M E x x T = E Qxx T Q T = QΣQ T = D 1 2U T UDU T UD 1 2 = I E x x T = I M és A A T = I A A T = I

Fehérítés hatása Megjegyzés Egy N x N es ortogonális mátrix szabad paramétereinek száma: N(N-1)/2 a fehérítés az ICA problémának a felét megoldja Fehérítés után elegendő ortogonális mátrixokat figyelembe venni az elkülönítésnél.

ICA megoldása ICA feladat adott x esetén y megkeresése (s becslése) W megkeresése (A -1 becslése) ICA megoldás: y=wx Kivonjuk az átlagot (E s = 0), Fehérítés (E xx T = I), Ortogonális W-t keresünk, amely optimalizálja a célfüggvényünket

ICA költségfüggvények Legyen y = Wx, y = y 1 ; ; y M kölcsönös információval: J ICA1 W = I y 1, y 2, y m = න p y 1,, y m log és mérjük a függőséget a p y 1,, y m p y 1 p y 2 p y m dy H y = H y 1, y 2,.., y m = න p y 1,, y m log p(y 1,, y m ) dy Lemma H Wx = H x + log detw p y 1,, y m I y 1, y 2, y m = න p y 1,, y m log p y 1 p y 2 p y m = H y 1, y 2,.., y m + H y 1 + + H y M = H x 1, x 2,.., x m log detw + H y 1 + + H y M

ICA költségfüggvények p y 1,, y m I y 1, y 2, y m = න p y 1,, y m log p y 1 p y 2 p y m = H y 1, y 2,.., y m + H y 1 + + H y M = H x 1, x 2,.., x m log detw + H y 1 + + H y M H x 1, x 2,.., x m konstans, log detw = 0. J ICA1 W = H y 1 + + H y M A kovariancia fix: Melyik eloszlásnak van a legnagyobb entrópiája? Minél messzebb a normál eloszlástól!

Centrális határeloszlás-tétel Független változók szummája normális eloszláshoz tart. A szétválasztáshoz minél messzebb kell mennünk a normál eloszlástól.

Maximum likelihood ICA alg. legegyszerűbb megközelítés tudnunk kell a rejtett források eloszlását x t = As t, s t = Wx t, ahol A 1 = W = w 1 ; ; w M R M M T L = log p x x t = log p AS As t = A 1 log p S t=1 T M T t=1 T t=1 L = T log W + log f k w k x t max W t=1 k=1 s t = T log W + log p st T M t=1 i=1 T M T δl = T W T ij 1 δ + log f δw ij δw k w k x t = T W T ij 1 fi w i x t + ij f t=1 k=1 t=1 i w i x t x j t w k x t W W T 1 + 1 T t=1 T g i Wx t x T, ahol g i = Τ f i f i

ICA algoritmus Kurtosis maximalizálással Normális eloszlástól való távolság mértékének mérése Csúcsosság k 4 = E y 4 3 E y 2 2 = 3, ha E y = 0 és fehérített

Fast ICA alg. adott a fehérített adat (x) becsüljük meg az első ICA komponenst y = w T x, w = 1 w T = W első sora Maximalizáljuk/minimalizáljuk az f w = k 4 y = E y 4 3 kurtózist a következő megkötéssel: h w = w 2 1 = 0 az optimumnál: f w + λh w = 0 4E w T x 3 x + 2λw = 0 (λ Lagrange együttható) Newton s method: F W = 0 W k+1 = W k F W k F W k

Fast ICA alg. Megoldani F W = 4E w T x 3 x + 2λw = 0 Megjegyzés y = w T x, w = 1, E w T x 2 = I, E xx T = I F deriváltja F W = 12E w T x 2 xx T + 2λI = 0 12E w T x 2 E xx T + 2λI I = 12I + 2λI I

Fast ICA alg. w k + 1 = w k F w k 1 F w k w k + 1 = w k 4E w k T x 3 x + 2λw k 12 + 2λ 12 + 2λw k + 1 = 12w k + 2λw k 4E w k T x 3 x 2λw k 12 + 2λ w k + 1 = 3w k + E w k T x 3 x 4 Legyen w 1 a következő fix pont: ഥw k + 1 = E w k T x 3 x 3w k ഥw k + 1 w k + 1 = ഥw k + 1 Becsüljük meg a második ICA komponenst ugyanígy a w w 1 megkötéssel

Fast ICA több egységre Komponensek ortogonálissá tétele egyesével (Gram-Schmidt): w 1,, w p p w p+1 = w p+1 j=1 Fast ICA update T w p+1 w j w j Komponensek ortogonálissá tétele egyszerre: UD 1Τ2 U T W = WW T Τ 1 2 W UDU T

ICA vs. PCA PCA nem normális eloszlású adatokon a nyilak ortogonálisak a visszaállított eredeti jelek messze vannak az eredeti jelektől figyelmen kívül hagytuk a nem normális eloszlásból következő tulajdonságokat

ICA vs. PCA ICA normális eloszlású adatokon