Strukturált Generátorrendszerek Online Tanulása és Alkalmazásai Problémamegoldó Szeminárium 2010. nov. 5
Tartalomjegyzék Motiváció, példák Regressziós feladatok (generátorrendszer fix) Legkisebb négyzetes becslés Lasso feladat (ritkaság) Group lasso feladat (csoportok) Általános csoportok és nem-konvex regularizáció Generátorrendszerek tanulása: Főkomponens analízis (PCA) Nem-negatív mátrix faktorizáció (NMF) Batch vs online tanulás Hiányos megfigyeltség
Példák: fényképezőgép Látható színek: RGB értékekből tevődik össze, de szenzor minden pontban csak az R/G/B értékek egyikét méri Kérdések: képpontban a hiányos mérések kitöltése. mik a kitöltéshez jó képi jellemzők? ezek kialakíthatók (tanítóhalmaz)?
Példák: dokumentumok Adottak: szövegek (pl egy adott konferencián megjelent cikkek / Wiki dokumentumok) Kérdések: Mennyire jól tömöríthető ez az adatbázis? Mik a dokumentumhalmaz tömörítéséhez jó témák? Meg tudjuk ezeket a teljes Wiki memóriába való betöltése nélkül becsülni? Ha hiányoznak szavak, ki tudnánk tölteni a dokumentumokat?
Regressziós feladatok: legkisebb négyzetes becslés Adott: x R dx, D R dx dα. Feladat: f(α) = x Dα 2 2 min α R dα. (1) Megoldás (Moore-Penroose inverzből): ˆα = D + x. (2) Ez optimális, abban az értelemben, hogy a x Dα 2 2 -t minimalizálók közül minimális 2-es normájú. Gond : túl sok/akár D oszlopot használhat. Pl: x dokumentum, D(ictionary) oszlopai témák. ritkaság.
Regressziós feladatok: ritkaság Lasso és csoportok A ritkasági kényszer megragadható regularizációval: Lasso feladat [ 1 ritkaság indukáló norma]: f(α) = x Dα 2 2 + λ α 1 min α R dα. (3) Group-lasso: csoportok dokumentumokra gondolva a témák közt lehet összefüggés. f(α) = x Dα 2 2 + K i=1 λ i αgi 2 min α R dα, (4) ahol {G i } K i=1 a {1,...,d α} halmaz egy partíciója.
Regressziós feladatok: átfedő csoportok, nem-konvex regularizáció Group lasso kiterjesztések, átfedő csoportok: f(α) = x Dα 2 2 + K f(α) = x Dα 2 2 i=1 λ i αgi 2 min α R dα, avagy (5) + Ω(α) min α R dα, (6) ahol G = {G i } K i=1 nem feltétlenül partíció és Ω(α) = ( ) λ αgi 2 K i (0 < η < 1). (7) i=1 η Sikeres egyéb alkalmazás példák: génmintázatok elemzése, arckifejezés felismerés, képekhez kulcsszavak rendelése (annotálása; keresőmotorok)
Generátorrendszerek tanulása PCA Adott: x t R dx, t = 1,...,T mintapontok. Feladat (főkomponens analízis): keressük azt a d α -dimenziós alteret (D R dx dα ), [ f(d) = E x proj D (x) 2] (8) minimális. Megoldás: cov(x) d α db domináns sajátvektora =: D.
Főkomponens analízis: példa (A) (B) (C) (D) (E) (F) (A): eredeti kép, (B)-(F):1, 2, 5, 10, 20%-ra tömörítés.
Generátorrendszerek tanulása NMF (nem-negativitási kényszer) Adott: x t 0 R dx, t = 1,..., T mintapontok (X). Feladat (nem-negatív mátrix faktorizáció): keressük azt a D R dx dα + mátrixot és hozzá tartozó A = [α 1,...,α T ] 0 reprezentációt, amire minimális. f(d, A) = X DA 2 F (9)
NMF-demo Adatbázis: arcképek (19 19; x t ) Generátorrendszer (D):
Generátorrendszerek tanulása NMF ++ Mixture-of-topic modell (x t szógyakoriságok): D-re (=témákra) kényszer: d i 0 oszlopok és l 1 -gömbbeliek ( j d ij 1), α-ra megkötés: α 0, G: hierarchikus felépítés, G i az i-edik nódus a gyerekeivel.
Generátorrendszerek tanulása batch vs online, hiányos megfigyelések Batch vs online D becslés: Batch: Becslés módja: X = {x 1,..., x T } D. Hátrány: x t nagydimenziós lehet (pl Wiki-nél) nem fér be a memóriába. Online: t = 0: D 0. t = 1: D 0,x 1 D 1. t = 2: D 1,x 2 D 2.... Hiányos megfigyelések: minden egyes x t -ből csak bizonyos koordináták mérhetők.
Generátorrendszerek tanulása: általános feladat Felmerült természetes kényszerek: csoport ritkaság és nem-konvex regularizáció ({G i } K i=1,ω), D és α-ra: kényszerek lehetősége (pl korlátosság, nem-negativitás) online tanítás, hiányos megfigyelések.
Példa Szereposztás: xt mintapontok: természetes képek képrészletei α tóruszon realizálva: a {Gi }Ki=1 szomszédságok környezetek, η = 0.5 (Ω)
Példa folyt. Kialakuló generátorrendszer (D): ritka reprezentáció (G i = {i}) vs másodszomszédokkal
Igény Olyan emberek jelentkezését várom ( 2 fő), akik megfelelő harci kedvet éreznek a témában a legfrissebb irodalmi eredmények elsajátításához és Matlab-os numerikus kísérletekhez a megközelítés 1-1 alkalmazásban való kipróbálására.
Köszönöm a figyelmet! Kontakt: E-mail: szzoli@cs.elte.hu URL: http://nipg.inf.elte.hu/szzoli