Függetlenaltér-analízis



Hasonló dokumentumok
Principal Component Analysis

A maximum likelihood becslésről

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Adatelemzési eljárások az idegrendszer kutatásban Somogyvári Zoltán

Nem-paraméteres predikció, Lasso közelítés

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

Matematikai statisztika c. tárgy oktatásának célja és tematikája

A lineáris programozás alapjai

Szalai Péter. April 17, Szalai Péter April 17, / 36

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Bevezetés. 1. előadás, február 11. Módszerek. Tematika

azonosságot minden 1 i, l n, 1 j k, indexre teljesítő együtthatókkal, amelyekre érvényes a = c (j) i,l l,i

Nemkonvex kvadratikus egyenlőtlenségrendszerek pontos dualitással

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés

17. előadás: Vektorok a térben

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Matematikai geodéziai számítások 6.

(Independence, dependence, random variables)

5. előadás - Regressziószámítás

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

2014/2015. tavaszi félév

Strukturált Generátorrendszerek Online Tanulása és Alk-ai

Közösség detektálás gráfokban

Bozóki Sándor. MTA SZTAKI, Budapesti Corvinus Egyetem. Vitaliy Tsyganok

Matematikai geodéziai számítások 6.

c adatpontok és az ismeretlen pont közötti kovariancia vektora

A független komponens analízis és empirikus vizsgálata*

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

Lineáris regressziós modellek 1

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Elliptikus eloszlások, kopuláik. 7. előadás, március 25. Elliptikusság tesztelése. Arkhimédeszi kopulák

Probabilisztikus funkcionális modellek idegrendszeri adatok elemzésére

KÖZELÍTŐ INFERENCIA II.

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

2 (j) f(x) dx = 1 arcsin(3x 2) + C. (d) A x + Bx + C 5x (2x 2 + 7) + Hx + I. 2 2x F x + G. x

Blind Source Separation. Kiváltott agyi jelek informatikai feldolgozása

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Algoritmuselmélet. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 13.

Konjugált gradiens módszer

Gráfelmélet jegyzet 2. előadás

Sajátértékek és sajátvektorok. mf1n1a06- mf1n2a06 Csabai István

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Normák, kondíciószám

NGB_IN040_1 SZIMULÁCIÓS TECHNIKÁK dr. Pozna Claudio Radu, Horváth Ernő

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

Centrális határeloszlás-tétel

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

1. Generátorrendszer. Házi feladat (fizikából tudjuk) Ha v és w nem párhuzamos síkvektorok, akkor generátorrendszert alkotnak a sík vektorainak

Több valószínűségi változó együttes eloszlása, korreláció

Diszkrét matematika 2.C szakirány

Számítógépes döntéstámogatás. Statisztikai elemzés

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Diszkrét matematika 2. estis képzés

Optimalizálási eljárások MSc hallgatók számára. 11. Előadás

Intelligens adatelemzés

KÖZELÍTŐ INFERENCIA II.

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

Vektorterek. =a gyakorlatokon megoldásra ajánlott

KIEGYENLÍTŐ SZÁMÍTÁSOK II.

Opkut deníciók és tételek

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

CHT& NSZT Hoeffding NET mom. stabilis november 9.

Heckman modell. Szelekciós modellek alkalmazásai.

Nem-lineáris programozási feladatok

GEOSTATISZTIKA. Földtudományi mérnöki MSc, geofizikus-mérnöki szakirány. 2018/2019 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

Statisztika elméleti összefoglaló

Gyakorló feladatok I.

Algoritmuselmélet 18. előadás

Sztochasztikus folyamatok alapfogalmak

Algoritmusok bonyolultsága

Irányításelmélet és technika II.

Hiszterézises káoszgenerátor vizsgálata

Diszkrét matematika 2.C szakirány

Lineáris algebra. =0 iє{1,,n}

Hibajavító kódolás (előadásvázlat, november 14.) Maróti Miklós

Feladatok a Gazdasági matematika II. tárgy gyakorlataihoz

Kvadratikus alakok és euklideszi terek (előadásvázlat, október 5.) Maróti Miklós, Kátai-Urbán Kamilla

Nemlineáris programozás 2.

Diszkrét matematika 2.C szakirány

A Statisztika alapjai

6. Előadás. Vereb György, DE OEC BSI, október 12.

Gráfalgoritmusok és hatékony adatszerkezetek szemléltetése

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Módszertani hozzájárulás a Szegénység

Algoritmuselmélet. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 12.

Villamosmérnök A4 11. hét Kétdimenziós normális eloszlás, cht - Megoldások

Loss Distribution Approach

Átírás:

Függetlenaltér-analízis Póczos Barnabás Témavezető: Dr. Lőrincz András Eötvös Loránd Tudományegyetem Információs Rendszerek Tanszék Neural Information Processing Group

Tartalomjegyzék Függetlenkomponens-analízis (ICA) Függetlenaltér-analízis (ISA) FastISA-algoritmus Többdimenziós entrópiabecslések Kölcsönös információ kernel becslése ISA szeparációs tétel Numerikus szimulációk ISA innovációs folyamatokon

Függetlenkomponens-analízis

Függetlenkomponens-analízis Az ICA célja, hogy lineárisan összekevert független jelek megfigyeléseiből az eredeti jeleket megbecsüljük. Források s(t) Keverés Megfigyelés Becslés A x(t) = As(t) y(t)=wx(t)

Függetlenkomponens-analízis Két független jel A két jel keveréke A becslés ICA alkalmazása után

Néhány ICA alkalmazás Koktélparti probléma Képek zajtalanítása Orvosi jelfeldolgozás fmri, MEG, EEG Hippocampus modellezés Látókérgi sejtek modellezése Arcfelismerés Pénzügyi idősorok elemzése

Többértelműség az ICA feladatban Bizonyítás:

Az i.i.d. források esete

A fehérítés már félsiker Bizonyítás:

ICA egyenletes val. változók keverékére

A normális eloszlások keverőmátrixa nem becsülhető A standard többdimenziós normális eloszlás minden ortogonális keveréke ugyanúgy néz ki. Ez az egyetlen szférikusan szimmetrikus eloszlás, ahol a koordináták függetlenek. p(x,y) ~ exp(-0.5*(x2+y2))

Centrális határeloszlás tétel A független valószínűségi változók összege egyre közelebb kerül a normálishoz. A normális eloszlás pedig normális marad.

ICA feladatban a páronkénti függetlenség kényszerítése együttes függetlenséghez vezet Általában: Páronkénti függetlenség ; Együttes függetlenség Az ICA modellben viszont: Páronkénti függetlenség ) Együttes függetlenség

ICA költségfüggvények 1.

ICA költségfüggvények 2.

ICA költségfüggvények 3. Az előbb az együttes függőséget minimalizáltuk, de Darmois-Skitovich, Comon tételei miatt tudjuk, hogy a komponensek közötti páronkénti függőségeket is elég lett volna minimalizálni. ) Nemlineáris kersztkorreláció minimalizáció Centrális határeloszlás tétele: Független val. változók keveréke közelebb kerül a normális eloszláshoz. Ezért, ha szeparálni akarunk, akkor távolodjunk a normális eloszlástól. )Negentrópia maximalizálás, kurtózis maximalizálás

Különböző ICA algoritmusok Magasabb rendű momentumok és kumulánsok [Comon 94, Hyvarinen 97] Nemlineáris PCA [Karhunen 94; Oja 97] Információátvitel maximalizálás [Bell & Sejnowski 95; Amari 96; Lee 97-98] Maximum likelihood, EM [MacKay 96; Pearlmutter & Parra 96; Cardoso 97] Negentrópia maximalizálás [Girolami & Fyfe 97] Nemlineáris kersztkorreláció minimalizáció [JuttenHerault, Cardoso]

Függetlenaltér-analízis

Függetlenaltér-analízis (ISA) Források Megfigyelés Becslés s 1 2 Rd x1 2 Rd y1 2 Rd s 2 2 Rd x2 2 Rd y2 2 Rd s m 2 Rd xm 2 Rd y m 2 Rd A 2 Rmd md W 2 Rmd md s s T ; : : : ; sm T T 2 Rdm x x T ; : : : ; xm T T 2 Rdm x As y y T ; : : : ; ym T T 2 Rdm y Wx

Többértelműség az ISA feladatban 0 1 0 0 C 0 B C C 0 0 0 B C C B C 2 Rmd md @ 0 0 0 C A 0 C 0 0 Ci 2 Rd d i : : : m x AC Cs Ci si Cj sj Tehát az ISA modellben: A AC si Cisi

Többértelműség az ISA feladatban A források csak tetszőleges permutáció tetszőleges invertálható transzformáció erejéig állíthatók vissza. Az alterek páronkénti függetlensége az alterek együttes függetlensége. Proof: Legyen fs ; s ; s g; fs ; s ; s g; fs ; s ; s g 3 db 3 dimenziós független forrás, ahol az alterekben lévő koordináták már páronként függetlenek. Ekkorfs ; s ; s g; fs ; s ; s g; fs ; s ; s g egy rossz ISA megoldás.

ISA költségfüggvények

FastISA algoritmus

Függvénycsalád, melynek az ismeretlen szeparáló mátrix stacionárius pontja Tétel:

Bizonyítás vázlat

FastISA algoritmus A stacionárius pontok Newton-módszerrel meghatározhatók:

FastISA előnyök, hátrányok Előnyök: Gyors Nagydimenziós problémákon is alkalmazható. Sok mintára is számolható. Hátrányok: A Newton-módszer konvergenciája bizonytalan. A stacionárius pontok közt csak kevés ISA megoldás van, sokszor kell véletlen kezdőpontból újraindítani az algoritmust. Valódi problémákon nem tudhatjuk, hogy jó megoldást kaptunk e.

FastISA 2D numerikus szimuláció Performancia Eredeti Kevert Becsült

FastISA 3D numerikus szimuláció Performancia Eredeti Kevert Becsült

Entrópia becslések

Egydimenziós entrópia becslések Először becsüljük meg a sűrűségfüggvényt: Edgeworth-sorfejtés Hermite-polinomok és magasabb rendű kumulánsok Mixture of Gaussians becslés (EM-módszer) B-spline becslés (Pham) Parzen-ablakok, és kernel sűrűségfüggvény becslések Közvetlen entrópia becsés: Spacing-módszer (Wasicek, Learned-Miller)

Többdimenziós entrópia becslések, Kozahenko és Leonenko fz ; : : : ; z n g n z 2 Rd Nk;j z j k Ekkor a Kozahenko és Leonenko féle entrópiabecslés: n P P H z nkv z j k CE n j v2n ;j 1 R t CE e t dt Ez a becslés means-square konzisztens. Érdemes lehet megpróbálni több szomszédot is használni!

Többdimenziós Shannon-entrópia becslések a Rényi-entrópia segítségével R Alkalmazzuk a Rényi H f z dz entrópia becslését a Shannon-entrópia H f z f z dz! becslésére: R A Rényi-féle α-entrópia a Beadword - Halton - Hammersley tétel alkalmazásával becsülhető.

Rényi-entrópia becslés euklideszi k-szomszédsági gráffal Nk;j z j k d d n P P! H z c k v z j k n j v2nk;j n! 1 A becslés aszimptotikusan torzítatlan és erősen konzisztens (Yukich, 1998).

Rényi-entrópia becslés euklideszi feszítőfákkal Definiáljuk az alábbi kifejezéseket: euklideszi gráf a mintahalmazon: E fe e p; q z p z q 2 Rd ; p 6 qg A minimális (γ-súlyú) euklideszi feszítőfa súlya: P L z kek T2T e2t ahol T az össze γ-súlyú euklideszi feszítőfa halmaza.

Beadword - Halton - Hammersley tétel euklideszi feszítőfákon d d d L z! H z c n! 1 n Ez a becslés - aszimptotikusan torzítatlan és erősen konzisztens (Yukich, 1998). - érzékeny az outlier-ekre ha a feszítőfának hosszú élei vannak.

Robusztusabb becslés készítése Töröljük a leghosszabb k élt a feszítőfából, és csak a maradék éleket vegyük figyelembe a becsléshez (Banks et al, 1992) Keressük meg azt a k elemű ponthalmazt, melyen a legkisebb az élhosszak összege. NP teljes feladat Mohó módszer létezik (Hero & Michel, 1998) Használjunk geodezikus feszítőfákat.

Geodezikus feszítőfák Készítsünk először egy euklideszi szomszédsági gráfot használjuk a k legközelebbi csúcsot minden csúcshoz Használjuk az ε sugarú gömbön belül lévő csúcsokat Keressünk geodezikus feszítőerdőt (minimális feszítő erdő az euklideszi szomszédsági gráfon) Egyéb alkalmazások: Manifold learning, ISOMAP algoritmus (Tenenbaum et al, 2000) Ponthalmaz belső dimenziójának becslése (Costa & Hero, 2004)

Geodezikus feszítőfák

A Shannon-entrópia becslése geodezikus feszítőfákkal

A kölcsönös információ becslése

Reprodukáló magvú kernel Hilbert tér (RKHS)

Moore-Aronszajn tétel Moore-Aronszajn tétel:

Mercer tétele

RKHS készítése sajátfüggvényekkel

Az előbbivel izomorf RKHS készítése

RKHS készítése x,y val. változóhoz

Kernel kovariancia (KC) A minimalizálandó célfüggvény:

Kernel kovariancia (KC) Sőt, rövid számolgatás után adódik, hogy:

Kernel kovariancia (KC)

Kernel Kanonikus Korreláció Analízis (KCCA) Az előzőek kovariancia helyett korrelációra is végig vihetők: Ennek empirikus becslése:

Kernel Kanonikus Korreláció Analízis (KCCA)

Kernel Kanonikus Korreláció Analízis (KCCA)

Szeparációs tétel

Szeparációs tétel

Költségfüggvény optimalizálás

Optimalizálási stratégiák Amikor a szeparációs tétel igaz: -ICA előfeldolgozás után permutácókeresés Mohó koordináta cserélgetés Cross-entropy (CE) módszer Amikor a szeparációs tétel nem igaz: -ICA előfeldolgozás után Jacobi-forgatások -Globális optimalizálás (DIRECT-módszer)

Optimalizálás Jacobi-forgatásokkal Jacobi-forgatásmátrix: 0 B B B B : B G p; q; µ B B B B B @ ::: ::: ::: ::: µ µ : : : µ : : : µ : :: : :: 1 ::: C C C : : : C C C 2 Rmd md C : : : C C C A ::: H y µ : : : H ym µ : y µ T ; : : : ; ym µ T T G p; q; µ y

Pszeudó kód

Numerikus szimulációk

Numerikus szimulációk 2D betűk (i.i.d.) Források Megfigyelés Becsült források Performancia mátrix

Numerikus szimulációk 3D görbék (i.i.d.) Források Megfigyelés Becsült források Performancia mátrix

Numerikus szimulációk Arcképek (i.i.d.) Források Megfigyelés Becsült források Performancia mátrix

Numerikus szimulációk Videók

Páronként független koordináták

Függetlenaltér-analízis autoregresszív folyamatokon

ISA AR folyamatok innovációján Az előbbi módszerek i.i.d. forrásokon működnek. Mit tehetünk τ-rendű AR források esetén? si t F si t : : : F si t ¹ t Ezek innovációja i.i.d. folyamat: si t si t E si t jsi t ; si t : : : ¹ t Továbbá a keverőmátrix ugyanaz marad az innováción is: A s t x t E x t jx t ; x t : : : x t

Numerikus szimulációk AR folyamatokon Eredeti AR források Kevert források ISA-val becsült források ISA Performancia Innovációkon ISA-val becsült források Performancia innovációs folyamatokon

Referenciák Noncombinatorial estimation of independent auto-regressive sources. B. Póczos and A. Lőrincz Neurocomputing (to appear). Independent Subspace Analysis on Innovations B. Póczos, B. Takács and A. Lőrincz Proc. of. ECML/PKDD 2005, Porto, LNAI 3720: 698-706, Springer-Verlag Independent subspace analysis using geodesic spanning trees B. Póczos and A. Lőrincz Proc. of ICML 2005, Bonn, ICML: 673-680 Independent subspace analysis using k-nearest neighborhood distances B. Póczos and A. Lőrincz Proc. of ICANN 2005, Warsaw, LNCS 3697: 163-168, Springer-Verlag Cross-Entropy Optimization for Independent Process Analysis Z. Szabó, B. Póczos and A. Lőrincz Proc. of ICA 2006, Charleston, SC: LNCS 3889, 909-916, Springer Verlag, Separation Theorem for Independent Subspace Analysis Z. Szabó, B. Póczos and A. Lőrincz ELU, Budapest, Technical Report

ISA költségfüggvények Kölcsönös Információ: I y ; : : : ; yd R p y dy d p y p y R Shannon-entrópia: H y p y p y dy y Wx H Wx H x jwj I y ; : : : ; yd H x jwj A költség függvény: d P i H yi J W H y : : : H yd

Független Komponens Analízis Kölcsönös Információ minimalizálása x = As (+ n), P(s) = P(s1 )...P(sn ), y = Wx I ( y1,..., ym ) = H ( yi ) H (x ) log det W W i min f (ζ ) = ϕ (ζ )(1 + κ3 ( y )h3 (ζ ) / 6 + κ 4 ( y )h4 (ζ ) / 24 +...) Kis számolgatá s után az algoritmus : [ ] ΔW = W T 1 2 tanh( Wx) xt ΔW = ( I 2 tanh( y ) yt ) W