Compressed Sensing Sipos Roland Adatbányászat szeminárium 2014 Május 22.
Bevezetés
Túl sok az adat! Generált adatmennyiség > összes tárhely Adat generálásának üteme (mérések sebessége) >> Adatátvitel fejlődése Elérkezünk arra a pontra, amikor az adat ideiglenes lesz! Használd most, vagy elveszíted!
Példák
Jelfeldolgozás - Mintavétel Mi történik a digitális fényképezőgépben? x -> mintan ->? Analóg jel (fény) -> CFA (Color Filter Array) -> Mintavételi ráta (Nyquist) alapján ez az N nagyon nagy. (Megapixelek -> N = Milliók.)
Jelfeldolgozás - Tömörítés Aztán rájövünk, hogy túl sok mintánk van: x -> mintan ->.TIFF (no compr.) Ezért tömörítünk: N >> K x -> mintan -> tömörítés -> csak K minta JPEG
Hogyan? Transform Coding! N pixel -> Wavelet transzformáció, DCT (Discrete Cosine Transform), stb.,
Példa Megtartjuk a K (<< N) legnagyobb wavelet együtthatót! (fekete = 0)
Mi a probléma? Túl sok energiát fektetünk abba, hogy mérjünk és rögzítsünk nagy adatmennyiségeket, csak azért, hogy utána valamilyen tömörítési eljárás segítségével ennek nagy részét eldobjuk... Nem lehetne egy lépésben megoldani a mérést és a tömörítést? x -> tömörített mintak
Jelekről bővebben
Sparsity - K-ritka jelek x: N x 1 Legfeljebb K nem nulla elem! Ezen jelek halmaza? Modell: K dim. alterek uniója. pl.: N = 3, K = 2 (Tehát maximum 1 nulla elem!) Ilyen jelek a valóságban nem léteznek!
Tömöríthető jelek Azonban léteznek hasonló jelek. Compressible signals : Ha rendezzük x-et, akkor a koordinátákon lévő értékek nagy ütemben csökkennek. (Hatványtörvény - power law - szerint.)
Összehasonlításuk Xi //// : ritka jelek //// + //// : tömöríthető jelek K rendezett index N
Tömöríthető jelek 2. Az összes ilyen jel halmaza? Modell: lp balls : Fontos! p < 1! Nem konvex halmazt fogunk kapni.
Compressed sensing
Cél Rögtön a tömörített adatot rögzítjük. (Dimenzió redukció: általánosabb mérés.) K ~~ M << N x -> tömörített mintam -> y y ->M recover ->N x
Hogyan? 1. A mintavételezési eljárás megalkozásához két fontos kérdésre kell ügyelnünk: 1.: Információ megőrzés: Minden fontos információt x-ből, tárolunk-e? 2.: Helyreállítási probléma: y-ból egyértelműen meghatározhatjuk-e x-et?
Hogyan? 2. y MxN x Nx1 ritka jel Mx1 mérés Mint mindig: K < M << N K nem nulla elem
Hogyan? 3. Nem néz ki bíztatóan A két kérdésre ugyan az a válasz: Az operátor mátrix rövid, és széles mátrix, nem teljes rangú. Így végtelen sok x projekciója megegyezik ugyan azzal az y-al.
Hogyan? 4. Az első és legfontosabb kulcsa a CS-nek: Minket kizárólag a ritka jelek érdekelnek! Ez azt jelenti, hogy a Fí mátrix csupán K oszlopa végzi el a tömörítést, mivel csak azon oszlopok lineráis kombinációjának eredménye lesz y. Tehát ha tudjuk, hol vannak x nagy együtthatói:
Hogyan? 5. y MxN x Nx1 ritka jel Mx1 mérés K nem nulla elem Csak K oszlopra van szükségünk!
Hogyan? 6. y MxK x Nx1 ritka jel Mx1 mérés Így Fí effektíve MxK lehetne! K nem nulla elem
Hogyan? 7. Azonban gyakorlatban sosem tudjuk, hol vannak a nagy együtthatók. Így kapunk egy modellezési problémát. Jó Fí-t kell kreálnunk, ami független a pozícióktól: Ez egy olyan mátrix, hogy annak minden lehetséges MxK részmátrixa teljes rangú (K). Lényegében ez a RIP tulajdonság.
RIP Restricted Isometry Property Ez azt jelenti, hogy Fí távolságtartó leképezés: RN RM x1 Fí(x1) Fí(x2) x2 Biztosítja, hogy:
RIP - Miért fontos? Nem akarunk két különböző jelet összekeverni! RN RM Nem RIP x1 Fí(x2) Fí(x1) x2 Fí(x1 )
Esélytelen... Sajnos ilyen Fí kreálása, NP nehéz probléma. (Még az is, hogy belássuk egy mátrixról, hogy rendelkezik-e RIP-pel.) Csak gondoljunk bele: Vegyünk tetszőleges K oszlopot, annak a részmátrixnak keressük meg a rangját (pl.: egy SVD vel), és ezt tegyük meg minden lehetséges kombinációra.
Hihetetlen... 1970-es években orosz matematikusok (Kashin, Gluskin és sokan mások), annak ellenére, hogy maga a modellezési probléma NP-nehéz bebizonyították, hogy rengeteg olyan mátrix van, amelyek nagy valószínűséggel rendelkeznek ezzel a tulajdonsággal!
Random mátrixok Vegyünk egy Fí mátrixot véletlenszerűen! Matlab: iid Gaussian Ilyen mátrixok (sőt, hasonló randomizált mátrix csoportok), (NAGYON) nagyon nagy valószínűssel, birtokolják a RIP-et!
Random mátrixok 2. Ez működik egészen addig, amíg a következő nagyon fontos képlet helyt áll: (Lényegében minél ritkább a jel, annál több mintára van szükségünk, de csak log N.)
Véletlenszerű mintavételezés MxN y x Nx1 ritka jel Mx1 mérés x minden elemét véletlenszerűen súlyozzuk. y = Véletlenszerű lineáris kombinációja x-nek! K nem nulla elem
Helyreállítási probléma Vissza akarjuk kapni x-et y-ból. Random projekció sem teljes rangú Ugyan az a probléma mint az encoding-nál. Ki kell használnunk a ritka/tömöríthető jelek geometriai jellemzőjét! (Hogyan is néztek ki?)
CS - Decoding Fí-nek van egy (N-M) dimenziójú null-tere. x mindenképpen egy koordináta tengelyen helyezkedik el, és rajta van ezen N R a hipersíkon! Válasszuk a lehető legjobb x-et, ami ezen a null-téren elhelyezkedik. (A végtelen sok ilyen x közül.) x
CS - Decoding 2. Kézenfekvő megoldás, legkisebb négyzetek módszere. (2-es norma.) Optimalizáció: Zárt forma, megoldás: Mit is oldottunk meg?
CS - Decoding 3. Megtaláltuk a legelső olyan x-et, ami egy tetszőleges/random állású nulltéren van (Metsszi a felfújt l2-ballt, a gömböt.) RN x (Eredmény: zaj, legelső random találat.) Nem ezt a metrikát keressük. x
CS - Decoding 4. l2 nem volt jó. l0? Mozgassuk a nullteret mindenhova, és válasszuk a legritkább jelet! Ez a tökéletes válasz! RN x De ez egy NP-teljes algoritmus. :) (Végigpróbáljuk az összes jelet.)
Fárasztó vicc ideje Két tartóvektor beszélget. A raccsoló azt mondja a másiknak: Elegy (l1) innen, fujj! Eredj te! Én vagyok a kiválasztott! És tényleg
CS - Encoding 5. 2004-ben több zseni (köztük Terence Tao), megoldotta a problémát: Nem a mennyiségek négyzetét vizsgálta, hanem csupán a mennyiségeket! Azaz az l1 normát! És nem csupán működött a dolog,...
Megoldás hanem polinomiális idejű algoritmust adtak meg. (Lineáris programozással.) RN x
CS - Összegzés Stabil matematikai algoritmus Nem szokványos Általában okos tömörítési és buta kitömörítési eljárásaink vannak. A CS pont fordítva. Robosztus Univerzális (generikus) Ugyan az a tetszőleges projekció (lényegében hardware) használható bármely ritka jel csoporthoz.
Alkalmazások Túl drága az adat. CS: elég kevesebb is! Túl sok az adat! CS: már mérés közben tömörítünk
Referenciák
Vége Köszönöm a figyelmet!