Csoport-Struktúrált és Független Alterek melletti Generátorrendszer Tanulás

Csoport-Struktúrált és Független Alterek melletti Generátorrendszer Tanulás Szabó Zoltán Doktori értekezés tézisei Témavezet : L rincz András Matematika Doktori Iskola Laczkovich Miklós Alkalmazott Matematika Program Michaletzky György Budapest, 2011.

Doktori értekezés tézisei Szabó Zoltán 2011. június 9. 1. Motiváció A következ kben disszertációm motivációját ismertetem. Munkám a kernelek, ritka és csoport-ritka reprezentáció és ezek generátorrendszer tanulása (1.1. fejezet), illetve a független altér alapú generátorrendszer tanulási feladatok (1.2. fejezet) köré csoportosítható. 1.1. Struktúrált Ritka Reprezentáció, Kernelek Számos sikeres alkalmazása folytán a ritka kódolás [4] a matematika aktívan kutatott területei közé tartozik. A ritka kódolási megközelítésben azt feltételezzük, hogy a meggyelésünk egy x, adott generátorrendszerb l kevés elem segítségével leírható. A ritka reprezentáció egy alkalmas variánsáról igazolták [7], hogy ekvivalens napjaink egyik legsikeresebb approximációs módjával, az SVM (support vector machine)-ekkel [8], melyek a kernel alapú módszerek közé tartoznak. Kernelek alkalmazása sokrét : lehet vé teszik SVM-en túl számos pusztán skaláris szorzat segítségével megfogalmazható feladat nemlineáris kiterjesztését, egységes keretet biztosítanak igen sok jól ismert lineáris eljárás (például Fourier-, polinomokkal történ közelítés, wavelet approximáció) egységes keretben való tárgyalására, biztosítja hasonlósági fogalom értelmezését struktúrált objektumok, így például szövegek, gének, gráfok, dinamikai rendszerek körében, a kernel alapú módszereket az RKHS-ek [6] (reproducing kernel Hilbert space) kiforrott matematikai technikája alapozza meg. A klasszikus ritka kódolási megközelítés semmilyen formában nem veszi gyelembe, a rejtett forrásról (kódról) meglev el zetes tudásunkat (például, hogy diszjunkt cso- 1

portokba vagy egy fa mentén rendez dnek a kód elemei). Azonban, amint azt alkalmazások sora igazolja, ezen információ gyelembevétele, és struktúrált ritka kódok alkalmazása számos esetben hatékonyabb módszereket eredményez, így például együttes kernel tanulás, többfeladatos tanulás, jellemz -kivonatolás és tömörített érzékelés területeken [5]. Struktúrált ritka kódokhoz tartozó generátorrendszer tanulási probléma, az ún. struktúrált generátorrendszerek tanulása rendkívül friss, számtalan nyitott kérdést tartogató kutatási irány. Struktúrált generátorrendszerek optimalizációjakor természetes megkövetelni az alábbi négy tulajdonságot: Általános, átfed csoportokkal birkózzon meg. A csoport-struktúrát indukáló regularizáció lehessen nem-konvex, kevésbé korlátozó csoport ritkaságok kezelésére. Legyen online. Az online tanulási módszerek a batch technikákkal összevetve egységnyi id alatt több minta feldolgozására képesek, ami sok esetben hatékonyabb becslést eredményez. Nagy, memóriaigényes számítások esetén gyakran online módszerek az egyedüli alternatívák. Az online módszerek adaptívak: például ajánlórendszerek esetén, új felhasználók megjelenése esetén nem célszer a generátorrendszert nulláról újratanulni, elégséges az új felhasználók aktivitásait gyelembe véve frissíteni a generátorrendszer becslést. Birkózzon meg hiányos meggyelésekkel. Kollaboratív sz rés esetén például a felhasználók nem értékelnek minden egyes 'árut', így a meggyeléseink hiányosak. Igen kevés struktúrált generátorrendszer tanulási módszer létezik csak az irodalomban és legjobb tudásunk szerint ezek is a fenti négy követelmény közül csak legfeljebb kett egyidej kezelésére képesek. 1.2. Független Altér Analízis A független komponens analízis (independent component analysis, ICA) a jelfeldolgozás egyik központi területe [9]. Az ICA feladatra szemléletesen egy koktél parti problémaként tekinthetünk: független források (beszél k) keverékét rögzítve (mikrofonok) feladatunk az eredeti források helyreállítása. Munkám motivációját adták: az ICA feladat enyhítéseinek fokozatosan b vül alkalmazásai (1.2.1. fejezet). az ICA kutatás egyik központi eredménye, az ISA (independent subspace analysis, ICA kiterjesztése többdimenziós forráskomponensekre) szeparációs elv (1.2.2. fejezet). 2

1.2.1. Az ICA Probléma Kiterjesztései Az ICA feladat feltevéseit (1-dimenziós forráskomponensek, id ben i.i.d. források, azonnali keverés) enyhítik az alábbi irányok: Többdimenziós komponensek: Itt a rejtett forrásoknak csak bizonyos csoportjai függetlenek, azaz a rejtett források többdimenziósak. A koktél parti analógiával élve a beszél k különálló csoportokat képeznek. Az ICA problémának ez a kiterjesztése a független altér analízis (independent subspace analysis, ISA). Az ISA feladat i.i.d. (id ben független azonos eloszlású) feltevésén tovább enyhít az autoregresszív feltevéssel él AR-IPA (autoregressive independent process analysis) feladat. Komplex változós források: komplex változós ICA problémában, mind a forrás, mind a keverés komplex változók körében zajlik. Komplex változós modellek jól illeszkednek például fmri jelek elemzéséhez. Id beli keverés: Egy másik irányú kiterjesztése az ICA-nak, a vak dekonvolúció (blind source deconvolution, BSD). Itt bár a rejtett források 1-dimenziósak és i.i.d-k, de az ICA feltevéssel szemben nem azonnali, hanem id beli, konvolutív keverék a meggyelés (`visszhangos koktél parti'). Nemparametrikus forrásdinamikák: Ezen terület célja a rejtett források id beli dinamikájának modellezése, igen általános formában, speciális parametrikus dinamikák feltételezése nélkül. Már több sikeres alkalmazás igazolja ezeknek a kiterjesztéseknek az alkalmazhatóságát, így (i) távoli érzékelés (passzív radar/szonár), (ii) képek élesítése, hangok zajtalanítása, (iii) többantennás drótnélküli kommunikáció, szenzor hálózatok, (iv) biológiai mérésekeeg, ECG, MEG, fmrielemzése, (v) optika, (vi) földrengéstani vizsgálatok, (vii) arcfelismerés, (viii) génmintázatok elemzésében. Ezek az ígéretes ICA kiterjesztések azonban még mindig több szempontból korlátozóak: gyakran a kiterjesztések közül csak egy irány egyidej kezelésére alkalmasak, például id beli keverést megengednek (BSD), de csak 1-dimenziós független forrásokra. irányítási lehet séggel nem bírnak, és így például irányítás melletti jellemz kivonatolásra vagy irányítással történ aktív tanulásra nem adnak lehet séget. a hiányos meggyelések esete alig tárgyalt, csak a legegyszer bb ICA feltevések esetén kidolgozott az irodalomban. 3

a nemparametrikus dinamikák esetére szintén alig kerültek módszerek kidolgozásra, és ezek is a kever mátrix speciális alakját, vagy a rejtett forrásdimenziók ismeretét és egyenl voltát feltételezik. 1.2.2. ISA Szeparációs Elv Az ICA kutatás egyik legizgalmassabb és talán legfontosabb sejtése Jean-François Cardoso nevéhez köt dik. Cardoso azt az észrevételt tette [1], hogy az ISA feladat megoldása permutáció erejéig megkapható 1-dimenziós forrásokat feltételez ICA-val. Szemléletesen: az ISA megoldáshoz elégséges az ICA elemeket statisztikailag összefügg csoportokba rendezni. Ez az elv képezi a state-of-the-art ISA megoldók alapját. Hogy pontosan milyen forrásokra áll fenn ez a (10 éve nyitott) állítás egyel re még nem ismert, de elégséges feltételeket a teljesülésére már tudunk mutatni [21]. Egy ilyen szeparációs elv jelent sége: 1. Az egyes részfeladatok megoldásához már meglev, jól-ismert (példában: ICA, klaszterez ) algoritmusok használhatók. 2. Korábbi ISA algoritmusok az egyes komponensek dimenzióját ismertnek feltételezik. Ezen komponens dimenziók ismerete nélkül a D teljes forrásdimenzió összes D = d 1 +... + d M (d m > 0, M D) felbontásának végigpróbálása lehet szükséges, ami igen költséges. A lehet ségek pontos számát, azaz hogy hányféleképp lehet a D számot pozitív egészek összegére bontani, az ún. partíció függvény adja meg, amelynek asszimptotikus viselkedése ismert [2, 3]: f(d) eπ 2D/3 4D 3, D. Az ISA szeparációs elv használatával jól skálázódó ISA módszerek konstruálhatók az alterek dimenziójának el zetes ismerete nélkül is. Ezek a módszerek a becsült ICA elemek páronkénti statisztikai összefüggését használva elkerülik az összes, igen gyorsan növ f(d) darab altérméret lehet ség végignézését. 1.3. Disszertációm Célja Disszertációm célja kett s: 1. Csoport-struktúrált ritka kódokhoz tartozó általános generátorrendszer tanulási módszer konstruálása, újtípusú ritka reprezentáció kernel ekvivalenciák származtatása illetve kernel alapú függvényapproximációs módok megfogalmazása volt. 4

2. ISA feladat meglév kényszereinek enyhítése, ISA kiterjesztések, és ezekre szeparációs elv típusú megoldások származtatása volt. 2. Tézisek 1. tézis: Általános csoport-ritka kódokhoz tartozó generátorrendszerek optimalizációjára módszert adtam; újtípusú ritkaság kernel ekvivalenciát illetve kernel alapú függvényapproximációs módokat származtattam: A ritka kódokhoz tartozó generátorrendszer tanulási problémát kiterjesztettem [11,12] (i) átfed csoport-struktúrát, (ii) nem-konvex regularizációt, (iii) hiányos meggyeléseket, és (iv) online érkez meggyeléseket megenged esetre korábbi irodalombeli módszerek ezek közül legfeljebb 2 egyidej kezelésére voltak alkalmasak. Variációs elvekre és a block coordinate descent módszerre épül megközelítésem hatékonyságát (i) természetes képek kitöltési problémáján, (ii) nagyfelbontású arcok online nem-negatív csoport-struktúrált mátrix faktorizációján, és (iii) kollaboratív sz rési területeken demonstráltam. Csoport-ritka kódokhoz tartozó generátorrendszer tanulás: RKHS-beli függvény approximációs formák, ekvivalenciák: RKHS-ekben deniált ritka reprezentációs formát kiterjesztettem, az egyes koordináták mentén ható, ɛ-ritkasági formára. Igazoltam, hogy az így deniált alak SVM-ek egy általánosított családjával ekvivalens [23]. Többréteg perceptronokba (multilayer perceptron, MLP) SVM-eket ágyazva többréteg SVM hálókat konstruáltam. Az összekapcsolt Többréteg kerceptron (MLK, multilayer kercteptron) hálózatra beláttam, hogy az MLP-k hibavisszaterjesztésen alapuló hangolási eljárása kiterjeszthet [22]. 2. tézis: Független altér feltevés mellett új generátorrendszer tanulási feladatokat és szeparációs elv típusú megoldási technikákat származtattam: A független komponens keresési problémát irányítással és aktív tanulással összekapcsoltam. A deniált ARX-IPA (`X': exogén input) probléma megoldására szeparációs tulajdonságot igazoltam, miszerint a feladat megoldása D-optimális AR identikációra és ISA feladatra bontható [19]. A [19]-es munka nemlineáris kiterjesztéseként deniáltam és megoldási módszert adtam a PNL ARX-IPA feladatra (PNL: poszt nemlineáris; koordinátánként ható nemlinearitás) [20]. 5

Id beli keverést (konvolúció) is megenged irányban kiterjesztettem [19] eredményeit, deniáltam az ARMAX-IPA (ARMA: autoregressive moving average) feladatot és megoldására szeparációs elv megoldási módot szerkesztettem [16]. Független komponensek keresését kiterjesztettem hiányosan meggyelt esetben többdimenziós rejtett forráskomponensek esetére (ISA irány), megengedve, hogy a rejtett forráskomponensek dimenziója nem feltétlenül azonos, illetve -ismert, a források dinamikáját modellezve: irányban enyhítve. az i.i.d. feltevést autoregresszív A kapott hiányosan meggyelt AR-IPA probléma megoldását, hiányosan meggyelt AR becslésre és ISA feladat megoldására vezettem vissza [13,14]. Maximum likelihood (ML) alapú megoldás hatékonyságát illusztráltam [14]-ben. Ez a technika robusztus, de er sen számításigényes megoldási módot biztosít. A ML alapú becslés alternatívájaként a [13]-es munkában bemutattam egy altér alapú és egy Bayesi módszerre épül megoldási formát. Ezek a technikák jelent s gyorsítást tudnak adni az ML módszerhez képest. A független altér keresést komplex változós irányban kiterjesztettem. Igazoltam, hogy a származtatott komplex változós feladat valósra formára visszavezethet, alkalmas, a forrásváltozókra tett nem-gauss-sági feltevések esetén [15]. Az ISA feladatot kiterjesztettem (i) nemparametrikus, asszimptotikusan stacionárius forrásdinamikákra, (ii) az ismeretlen forrásdimenziók esetét is sikerült kezelnem [10]. A feladat megoldását kernel regresszióra és ISA feladatra redukáltam. Az ISA és BSD problémák közös kiterjesztéseként deniáltam a BSSD (blind subspace deconvolution) feladatot. Ez a megfogalmazás megengedi többdimenziós rejtett források konvolúcióját. Igazoltam, hogy négyzetes esetben (koktél parti nyelvén ilyenkor ugyanannyi mikrofont feltételezünk, mint beszél t) a BSSD feladat megoldása szétbontható AR becslésre és ISA feladatra [18]. Fontos információelméleti mennyiségek, úgy mint entrópia, kölcsönös információ, divergencia mértékek becslése nagy dimenzióban igen költséges. Ezek a mennyiségek azonban mintapontok páronkénti távolságából statisztikailag konzisztens módon becsülhet k. Véletlen projekciók közelít páronkénti 6

ponttávolságokat meg rz tulajdonságára építve, nagy dimenziós információelméleti mennyiségek gyors, párhuzamosítható becslésére mutattam technikát [17]-ben. A megoldás hatékonyságát az ISA problémán illusztráltam. Az ISA feladat megfogalmazható, mint többdimenziós entrópiaösszeg optimalizációs feladat. Módszerem a korábbi technikákhoz képest 8-30-szoros gyorsítást tudott eredményezni. Megjegyzés: Téziseim els szerz ként és önálló szerz ként készült anyagaimra épülnek. Els szerz ként készült publikációimban alkotó munkám dönt szerepet játszott. Az egyetlen szerz s publikációk saját alkotó munkám eredményei. 3. Következtetések Munkám eredményeként: b vültek a csoport-ritkaság, a kernel alapú közelítés, és ritkaságkernel közötti kapcsolatokról meglév ismereteink, csoport-ritka kódokhoz tartozó generátorrendszer tanulás igen általános keretben lehet vé vált. A kidolgozott megközelítés több alkalmazásban már most is sikeresen teljesített, és számos további alkalmazási lehet séget megalapoz. a független altér analízis feladat számos kiterjesztése (irányított, hiányosan meggyelt, komplex változós, nemparametrikus) kezelhet vé vált, és a származtatott szeparációs elv alapú technikákkal ezekre a modellekre a rejtett forrásdimenziók ismeretét nem igényl hatékony megoldási módot kaptunk. Küls Hivatkozások [1] Jean-François Cardoso. Multidimensional independent component analysis. In International Conference on Acoustics, Speech, and Signal Processing (ICASSP '98), volume 4, pages 19411944, 1998. [2] Godfrey H. Hardy and Srinivasa I. Ramanujan. Asymptotic formulae in combinatory analysis. Proceedings of the London Mathematical Society, 17(1):75115, 1918. [3] James V. Uspensky. Asymptotic formulae for numerical functions which occur in the theory of partitions. Bulletin of the Russian Academy of Sciences, 14(6):199 218, 1920. 7

[4] Joel A. Tropp and Stephen J. Wright. Computational methods for sparse solution of linear inverse problems. Proceedings of the IEEE special issue on Applications of sparse representation and compressive sensing, 98(6):948958, 2010. [5] Francis Bach, Rodolphe Jenatton, Julien Marial, and Guillaume Obozinski. Optimization for Machine Learning, chapter Convex optimization with sparsityinducing norms. MIT Press, 2011. [6] Theodoros Evgeniou, Massimiliano Pontil, and Tomaso Poggio. Regularization networks and support vector machines. Advances in Computational Mathematics, 13(1):150, 2000. [7] Federico Girosi. An equivalence between sparse approximation and support vector machines. Neural Computation, 10(6):14551480, 1998. [8] Bernhard Schölkopf, Christopher Burges, and Alexander Smola. Advances in Kernel Methods - Support Vector Learning. MIT Press, Cambridge, 1999. [9] Aapo Hyvärinen and Erkki Oja. Independent component analysis: algorithms and applications. Neural Networks, 13(4-5):411430, 2000. Saját Hivatkozások [10] Zoltán Szabó and Barnabás Póczos. Nonparametric independent process analysis. In European Signal Processing Conference (EUSIPCO), Barcelona, Spain, 29 August 2 September 2011. (elfogadva). [11] Zoltán Szabó, Barnabás Póczos, and András L rincz. Online dictionary learning with group structure inducing norms. In International Conference on Machine Learning (ICML) Structured Sparsity: Learning and Inference Workshop, Bellevue, Washington, USA, 2 July 2011. (elfogadva). [12] Zoltán Szabó, Barnabás Póczos, and András L rincz. Online group-structured dictionary learning. In IEEE Computer Vision and Pattern Recognition (CVPR), pages 28652872, Colorado Springs, CO, USA, 20-25 June 2011. [13] Zoltán Szabó. Autoregressive independent process analysis with missing observations. In Michel Verleysen, editor, European Symposium on Articial Neural Networks, Computational Intelligence and Machine Learning (ESANN), pages 159 164, Bruges, Belgium, 28-30 April 2010. d-side. ISBN 2-930307-10-2. [14] Szabó Zoltán. Hiányosan meggyelt független altér analízis. In Intelligens RendszerekFiatal Kutatók Szimpóziuma, Budapest, november 20 2009. 8

[15] Zoltán Szabó and András L rincz. Complex independent process analysis. Acta Cybernetica, 19:177190, 2009. [16] Zoltán Szabó and András L rincz. Controlled complete ARMA independent process analysis. In International Joint Conference on Neural Networks (IJCNN), pages 30383045, Atlanta, Georgia, USA, 14-19 June 2009. IEEE Catalog Number: CFP09IJS-CDR; ISBN: 978-1-4244-3553-1; ISSN: 1098-7576. [17] Zoltán Szabó and András L rincz. Fast parallel estimation of high dimensional information theoretical quantities with low dimensional random projection ensembles. In Tülay Adali, Christian Jutten, João Marcos T. Romano, and Allan Kardec Barros, editors, Independent Component Analysis and Signal Separation (ICA), volume 5441 of Lecture Notes in Computer Science, pages 146153, Paraty, Brazil, 15-18 March 2009. Springer-Verlag. [18] Zoltán Szabó. Complete blind subspace deconvolution. In Tülay Adali, Christian Jutten, João Marcos T. Romano, and Allan Kardec Barros, editors, Independent Component Analysis and Signal Separation (ICA), volume 5441 of Lecture Notes in Computer Science, pages 138145, Paraty, Brazil, 15-18 March 2009. Springer- Verlag. [19] Zoltán Szabó and András L rincz. Towards independent subspace analysis in controlled dynamical systems. In ICA Research Network Workshop (ICARN), pages 912, Liverpool, U.K., 25-26 September 2008. [20] Szabó Zoltán és L rincz András. Poszt nemlineáris rejtett infomax identikáció. In Tavaszi Szél Konferencia, pages 5258, Budapest, 2008. [21] Zoltán Szabó, Barnabás Póczos, and András L rincz. Undercomplete blind subspace deconvolution. Journal of Machine Learning Research, 8:10631095, 2007. [22] Szabó Zoltán és L rincz András. Többréteg kerceptron. Alkalmazott Matematikai Lapok, 24:209222, 2007. [23] Zoltán Szabó and András L rincz. ɛ-sparse representations: Generalized sparse approximation and the equivalent family of SVM tasks. Acta Cybernetica, 17(3):605614, 2006. 9