PCA LDA MDS, LLE, CCA. Adatbányászat. Dimenziócsökkentő eljárások. Szegedi Tudományegyetem. Adatbányászat

Hasonló dokumentumok
PCA LDA MDS, LLE, CCA. Adatbányászat. Dimenziócsökkentő eljárások. Szegedi Tudományegyetem. Adatbányászat

1. Sajátérték és sajátvektor

2. függelék. Mátrixszámítási praktikum-ii. Lineáris algebrai eljárások

8.1. A rezgések szétcsatolása harmonikus közelítésben. Normálrezgések. = =q n és legyen itt a potenciál nulla. q i j. szimmetrikus. q k.

Lineáris kódok. u esetén u oszlopvektor, u T ( n, k ) május 31. Hibajavító kódok 2. 1

Matematika B4 I. gyakorlat

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Vektorok által generált altér, lineáris összefüggőség, függetlenség, generátorrendszer, bázis, dimenzió

Principal Component Analysis

A szórások vizsgálata. Az F-próba. A döntés. Az F-próba szabadsági fokai

6. gyakorlat. Gelle Kitti. Csendes Tibor Somogyi Viktor. London András. jegyzetei alapján

3. Sztereó kamera. Kató Zoltán. Képfeldolgozás és Számítógépes Grafika tanszék SZTE (

Szinguláris érték felbontás Singular Value Decomposition

Lineáris kódok. sorvektor. W q az n dimenziós s altere. 3. tétel. t tel. Legyen K [n,k,d] kód k d (k 1). Ekkor d(k)=w(k)

Haladó lineáris algebra

Szociális hálózatok Gráf alapú módszerek. Adatbányászat. Klaszterezés Szociális hálózatok. Szegedi Tudományegyetem. Adatbányászat

Vektorterek. =a gyakorlatokon megoldásra ajánlott

17. Lineáris algebra

10 Norma. Vektornorma. = x T x, ha x R n, (10.1)

Összeállította: dr. Leitold Adrien egyetemi docens

VIK A2 Matematika - BOSCH, Hatvan, 3. Gyakorlati anyag. Mátrix rangja

Szinguláris értékek. Wettl Ferenc április 12. Wettl Ferenc Szinguláris értékek április / 35

Szinguláris értékek. Wettl Ferenc április 3. Wettl Ferenc Szinguláris értékek április 3. 1 / 28

Komplex számok (el adásvázlat, február 12.) Maróti Miklós

Diszkrét matematika II., 3. előadás. Komplex számok

Mátrixok 2017 Mátrixok

Alkalmazott algebra - SVD

Emlékeztető: az n-dimenziós sokaság görbültségét kifejező mennyiség a Riemann-tenzor (Riemann, 1854): " ' #$ * $ ( ' $* " ' #µ

I. Függelék. A valószínűségszámítás alapjai. I.1. Alapfogalamak: A valószínűség fogalma: I.2. Valószínűségi változó.

BIOMATEMATIKA ELŐADÁS

1 k < n(1 + log n) C 1n log n, d n. (1 1 r k + 1 ) = 1. = 0 és lim. lim n. f(n) < C 3

i=1 λ iv i = 0 előállítása, melynél valamelyik λ i

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Numerikus módszerek 1.

Andai Attila: november 13.

Saj at ert ek-probl em ak febru ar 26.

Eloszlások jellemzése. Momentumok. Medián és kvantilis. Karakterisztikus függvény

Lineáris algebra mérnököknek

Integrálás sokaságokon

Empirikus szórásnégyzet

Nem puskás tételek 1/28. Permutáció, mint bijektív függvény: f: H H. S X : X-ben az összes permutáció S n : {1,2,, n} összes permutációjának halmaza

9. HAMILTON-FÉLE MECHANIKA

IV. OPERTOROK HILBERT-TEREKBEN

Sorozatok, határérték fogalma. Függvények határértéke, folytonossága

1. Lineáris transzformáció

Testek. 16. Legyen z = 3 + 4i, w = 3 + i. Végezzük el az alábbi. a) (2 4), Z 5, b) (1, 0, 0, 1, 1) (1, 1, 1, 1, 0), Z 5 2.

Tudjuk, hogy az optimumot az ún. regressziós görbe szolgáltatja, melynek egyenlete:

Lineáris leképezések. Wettl Ferenc március 9. Wettl Ferenc Lineáris leképezések március 9. 1 / 31

Kutatói pályára felkészítı modul

1. Bázistranszformáció

Összeállította: dr. Leitold Adrien egyetemi docens

Zavar (confounding): akkor lép fel egy kísérletben, ha a kísérletet végző nem tudja megkülönböztetni az egyes faktorokat.

Determinánsok. A determináns fogalma olyan algebrai segédeszköz, amellyel. szolgáltat az előbbi kérdésekre, bár ez nem mindig hatékony.

Matematikai statisztika elıadás III. éves elemzı szakosoknak. Zempléni András 9. elıadásból (részlet)

10. Előadás. Megyesi László: Lineáris algebra, oldal. 10. előadás Sajátérték, Kvadaratikus alak

Lineáris algebra Gyakorló feladatok

A KroneckerCapelli-tételb l következik, hogy egy Bx = 0 homogén lineáris egyenletrendszernek


1. A radioaktivitás statisztikus jellege

LINEÁRIS ALGEBRA. matematika alapszak. Euklideszi terek. SZTE Bolyai Intézet, őszi félév. Euklideszi terek LINEÁRIS ALGEBRA 1 / 40

Interpoláció. Korszerű matematikai módszerek 2013.

Feladatok a Gazdasági matematika II. tárgy gyakorlataihoz

LINEÁRIS TRANSZFORMÁCIÓ

Lineáris algebra mérnököknek

f (M (ξ)) M (f (ξ)) Bizonyítás: Megjegyezzük, hogy konvex függvényekre mindig létezik a ± ben

Matematika (mesterképzés)

2. Hatványsorok. A végtelen soroknál tanultuk, hogy az. végtelen sort adja: 1 + x + x x n +...

OPERÁTOROK HILBERT-TEREKBEN

Bevezetés az algebrába 2

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

Lineáris algebra 2. Filip Ferdinánd december 7. siva.banki.hu/jegyzetek

Lineáris leképezések (előadásvázlat, szeptember 28.) Maróti Miklós, Kátai-Urbán Kamilla

Opkut deníciók és tételek

Matematika A2 vizsga mgeoldása június 4.

Bevezetés az algebrába 2 Vektor- és mátrixnorma

Optimális mérési elrendezés hidraulikus hálózatokon

A2 Vektorfüggvények minimumkérdések szóbelire 2015

Numerikus módszerek I. zárthelyi dolgozat (2017/18. I., A. csoport) Megoldások

(2) Határozzuk meg a következő területi integrálokat a megadott halmazokon: x sin y dx dy, ahol T : 0 x 1, 2 y 3.

Statisztika elméleti összefoglaló

Számítógépi geometria. Kovács Zoltán

4. Előadás: Erős dualitás

Hanka László. Fejezetek a matematikából

A statisztikai vizsgálat tárgyát képező egyedek összességét statisztikai sokaságnak nevezzük.

Méréstani összefoglaló

Reakciómechanizmusok leírása. Paraméterek. Reakciókinetikai bizonytalanságanalízis. Bizonytalanságanalízis

A parciális törtekre bontás?

Numerikus módszerek II. zárthelyi dolgozat, megoldások, 2014/15. I. félév, A. csoport. x 2. c = 3 5, s = 4

Vektorok, mátrixok, lineáris egyenletrendszerek

9. Előadás. (9. előadás) Lineáris egyr.(3.), Sajátérték április / 35

Lin.Alg.Zh.1 feladatok

A felhasznált térfogalmak: lineáris tér (vektortér), normált tér, Banach tér, euklideszi-tér, Hilbert tér. legjobban közelítõ elem, azaz v u

KÖZGAZDÁSZ SZAK. Módszertani szigorlat követelménye, tavaszi félév

1. Diagonalizálás. A Hom(V) diagonalizálható, ha van olyan bázis, amelyben A mátrixa diagonális. A diagonalizálható van sajátvektorokból álló bázis.

Matematika elméleti összefoglaló

Kalkulus I. Első zárthelyi dolgozat szeptember 16. MINTA. és q = k 2. k 2. = k 1l 2 k 2 l 1. l 1 l n 6n + 8

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

Saj at ert ek-probl em ak febru ar 22.

Lineáris algebra numerikus módszerei

Átírás:

Dimeziócsökkető eljárások Szegedi Tudomáyegyetem

Dimeziócsökketés szerepe Az adatpotok reprezetálására haszált dimeziók számáak csökketésével spórolhatuk Tödimeziós adatpotok vizualizálása (pl. 2 vagy 3D-e) Zajcsökketés, jellemzőszelekció Ötlet: próáljuk meg alacsoya dimezióa árázoli a potjaikat Az alacsoya dimeziós reprezetáció kapcsá mie mérjük az elégedettségüket?,, SVD,...

Főkompoes aalízis (ricipal Compoet Aalysis) Traszformáljuk úgy alacsoya dimezióa a tö/sokdimeziós adatukat, hogy a ee rejlő variacia miél kise részét veszítsük csak el Feltevés: az eredeti m-dimeziós adatpotok egy izoyos m -dimeziós altére (vagy legaláis aak közelée) helyezkedek el az adatpotokat az altér tegelyeire traszformálva jól reprezetálható az eredeti adat Mi lehet ez a m -dimeziós altér? 2 k(xi xi )k rekostrukciós hiát szereték miimálisak láti, ahol xi az eredeti xi pot egy közelítése

Kovariacia Emlékeztető Y és Z véletle változók együttmozgását számszerűsíti cov (Y, Z ) = E[(Y µy )(Z µz )] Ahol µy = 1 yi és µz = 1 zi Az X adatmátrixuk i, j oszlopaira (X:,i, X:,j ) tekithetük véletle változókét

Szóródási,- és kovariaciamátrixok Szóródási mátrix: S = (xi µ)(xi µ) Torzított (torzítatla) kovariaciamátrix: Σ = 1 S (Σ = 1 1 S) cov (X:,1, X:,1 ) cov (X:,1, X:,2 )... cov (X:,1, X:,m ) cov (X:,2, X:,1 ) cov (X:,2, X:,2 )... cov (X:,2, X:,m ) Σ=........ cov (X, X ). :,i :,j cov (X:,m, X:,1 )...... cov (X:,m, X:,m ) Σi,j tehát az i. és j. jellemzők kovariaciája (cov (X:,i, X:,j )) Milye elemek állak a főátlóa?

Szóródási,- és kovariaciamátrixok tulajdoságai Állítás: S és Σ mátrixok szimmetrikusak és pozitív defiitek Bizoyítás. S= (xi µ)(xi =! (xi µ)(xi µ) = S a Sa = µ) (a (xi µ))((xi µ) a) = (a (xi µ))2 Következméy: S és Σ sajátértékeire λ1 λ2... λm Az adat variaciáját legjoa megőrző m -dimeziós projekciót úgy kapjuk, ha az adatpotokat S (vagy Σ) m legagyo sajátértékéhez tartozó sajátvektoráól képzett mátrixszal szorozzuk (lásd: tála)

Lagrage szorzók Korlátozott/feltételes (emlieáris) optimalizációs feladat f (x) mi/max f.h. gi (x) = i {1,..., } Lagrage függvéy: L(x, λ) = f(x) + X λi gi (x) Karush-Kuh-Tucker (KKT) feltételek: az optimalitás szükséges feltételei L(x, λ) = (1) λi gi (x) = i {1,..., } (2) λi (3)

Gyakorlati megfotolások Az adatpotokat érdemes egységes skálára hozi: ormalizáció mi-max ormalizáció: xi,j = stadardizálás: xi,j = xi,j mi(x,j ) max(x,j ) mi(x,j ) xi,j µj σj A redukált dimeziószámot (m ) miek válasszuk? m m si2 λi = Hit : k λi m = arg mi t küszöérték m 1 k m λi m = arg max 1 i m m = arg λi > m 1 X λj m j=1 max (λi λi+1 ) 1 i m 1

összegzés Cetralizáljuk és ormalizáljuk az X adatmátrixot Számoljuk ki a (cetralizált és ormalizált) X adatmátrixot jellemző kovariacia/szóródási-mátrixot Számoljuk ki a mátrix sajátértékeit Az m legagyo sajátértékhez tartozó sajátvektoról képezzük projekciós mátrixot X = X adja meg a traszformált adatmátrixot X alaka kaphatjuk vissza az eredeti adatpotok egy közelítését tutorial

Sziguláris érték felotás X = U x Sigma x V t rag (X ) σi ui vi s s rag m (X ) 2 xij2 = σi kx kf = X = UΣV = j=1 X alacsoy(a) ragú közelítése: X = U Σ V X előállítása sorá csupá Σ első m < m sziguláris értékére hagyatkozzuk Ha a közelítés eltérését Froeius-ormáa mérjük, akkor X megadható legpotosa m -dimeziós ecslése X

SVD példa 5 4 4 5 1 4 5.7.8.64.7.71.7.7.6.6 9.4 6.4.1. 1. =.11.62.37 1.14.71.7.7.4.78.31

SVD és a sajátérték dekompozíció viszoya Emlékeztető Egy szimmetrikus A mátrix felotható A = X ΛX 1 alaka, ahol X = [x1 x2... xm ] az A (ortogoális) sajátvekroraiól képzett mátrix, Λ = diag ([λ1 λ2... λm ]) pedig az egyes sajátvektorokhoz tartozó sajátértékeől álló diagoális mátrix. Miért is? Tetszőleges m-es X mátrix előáll UΣV szorzatkét, ahol U = [u1 u2... u ] XX ortoormált sajátvektoraiól álló mátrix Σ m = diag ( λ1, λ2,..., λm ) Vm m = [v1 v2... vm ] X X ortoormált sajátvektoraiól álló mátrix. Miért? Ortogoális mátrix: M M = I (szemléletese: olya forgatás, ami a vektorok hosszát em változtatja meg) Miért?

SVD és a Froeius-orma viszoya Tfh. M = Q R, azaz mij = k 58 M = 32 28 87 6 48 = 2 42 3 1 4 2 1 2 2 3 4 2 pik qkl rlj l 3 m32 = 3 4 3 + 2 1 3 + 2 pik qkl rlj Ekkor kmk2f = (mij )2 = i j i j k l 2 Továá pik qkl rlj = pik qkl rlj pi qm rmj k l k l m Ahoa kmk2f = pik qkl rlj pi qm rmj i j k l m Ameyie, Q, R mátrixok az SVD felotásól jöek, kmk2f = pik qkk rkj pi q rj = qkk rkj qkk rkj = (qkk )2. i,j,k, j,k k Miért? X mátrix X = U Σ V mátrixszal törtéő közelítéséek hiája: kx X k2f = ku(σ Σ )V k2f = (σkk σ kk )2 k

CUR SVD hátráya, hogy egy jellemzőe ritka mátrixot sűrű mátrixokat (U és V ) is tartalmazó szorzatkét állítja elő Egy alteratíva az eredeti mátrix CUR formáa törtéő előállítása Csak az U mátrix adódik sűrűek, és az SVD felotás egy közelítését adja C és R mátrixok az eredeti X mátrix soraiól, illetve oszlopaiól származak, így azok megőrzik X ritkaságát Míg az SVD egyedi felotást eredméyez, addig a CUR em

CUR dekompozíció C és R előállítása Visszatevésessel válasszuk ki k oszlopot (sort) az eredeti adatmátrixól Előfordulhatak ismétlődő oszlopok (sorok) C-e (R-e) Egy oszlop (sor) kiválasztásáak pi valószíűsége legye a ee található elemek égyzetösszegével aráyos A kiválasztott oszlopot (sort) szorozzk e 1/ kpi -vel

CUR dekompozíció U előállítása 1 2 3 Hozzuk létre a k kiválasztott oszlop/sor metszetéől W Rkxk -t W - hajtsuk végre SVD-t, azaz W = X ΣY U = Y (Σ+ )2 X, ahol Σ+ az SVD-ől jövő Σ (pszeudo)iverze Σ diagoális, így (pszeudo)iverzéek számítása egyszerű Elég a emulla főátlóeli elemeiek reciprokát vei eseté éritetleül hagyi azokat

Alie Matrix Casalaca Titaic CUR dekompozíció példa aul Sam Martha Bo Sarah 4 5 3 3 4 3 5 4 5 4 25 166 41 166 18 166 5 166 32 166 5 166 34 166 41 166 41 166 5.2 6.4 C = 3.9.4 U= 7.1 R= 7.1 5.7.4 5.7 6.4 6.4

Lieáris Diszkrimiacia Aalízis (Liear Discrimiat Aalysis) Traszformáljuk úgy alacsoya dimezióa a tö/sokdimeziós címkézett adatukat, hogy az új tére az eltérő osztályú potok miél kevésé keveredjeek Mi legye w vetítés iráya? µ ~i = w µi µ~1 µ~2 = w (µ1 µ2 ) s i = X (w x ~ µi ) 2 x i címkéjű w = arg max J(w) = arg max w w ~ µ1 ~ µ2 2 2 s 1 + s 22 (1)

Belső,- és külső szóródási mátrixok i osztályú traszformált potok első szóródási mátrixa: X Si = (x µi )(x µi ) x i címkéjű Aggregált első szóródási mátrix: SW = S1 + S2 i osztályú traszformált potok szóródása: X X s i 2 = (w x w µi )2 = w (x µi )(x µi ) w = w Si w x i címkéjű Eltérő osztályú traszformált potok közötti szóródási mátrix: SB = (µ1 µ2 )(µ1 µ2 ) Eltérő osztályú traszformált potok közötti szóródás: (µ 1 µ 2 )2 = (w µ1 w µ2 )2 = w SB w

Azaz az eredeti (1)-e foglalt céluk átfogalmazható w = arg maxw J(w) = arg maxw ww SSWB ww alakra w SB w w SW w az ú. általáosított Rayleigh-háyados J(w) maximális ww SSWB ww = SB w = λsw w 1 1 SW SB w = λw w = SW (µ1 µ2 ) (Lásd tála) Emlékeztetőül f (x) = g (x) f (x)g (x) f (x)g (x) g 2 (x) x x Ax = 2Ax, ameyie A = A xx y = xi yi x (vagyis egy x iráyáa mutató vektor)

vs. 4 3 4 3 2 2 1 1 1 2 3 4 1 2 3 4

Multidimeziós skálázás (Multi-Dimesioal Scalig) Cél: adott potpárokéti költségeket/távolságokat tartalmazó mátrixhoz keressük meg az adatpotok azo pozícióit a tére, melyre kxi xj k δij Tö/sokdimeziós adatpotok traszformációja alacsoya dimezióa úgy, hogy a potok közötti távolságok miél iká megőrződjeek

Lokális lieáris eágyazás (Locally Liear Emeddig) A, SVD és mid lieáris függést feltételeztek Nemlieáris dimeziócsökkető eljárás Trükk: Mide pothoz határozzuk meg a legközelei szomszédait, és írjuk fel őket azok lieáris komiációikét J(W ) = kxi Wij xj k2, úgy, hogy Wij = 1, és j=1 j=1 wij > xj eighors(xi )

Kaoikus korreláció aalízis A potjaik koordiátái két kordiátaredszer szerit ismertek Feladat: a két koordiátaredszer potjaiak egy (csökketett dimeziójú) koordiátaredszere való összegyúrása, hogy a traszformált jellemzők korrelációja maximális legye E [xy ] = E [x 2 ] E [y 2 ] wx Cxy w y wx Cxx wx wy Cyy wy ρ= E[wx xy wy ] E[wx xx wx ] E [wy yy wy ] = arg max ρ-t em efolyásolja wx vagy wy hossza arg max ρ = arg max wx Cxy wy " # " # Σxx Σxy x x Σ= =E y y Σyx Σyy