IDA ELŐADÁS I. Bolgár Bence 2014. október 17. I. Generatív és dszkrmnatív modellek Korábban megsmerkedtünk a felügyelt tanulással (supervsed learnng). Legyen adott a D = {, y } P =1 tanító halmaz, ahol rendszernt X R d, d az adatok dmenzója, y Y-ra pedg pl. Y = {+1, 1} (klasszfkácó) vagy Y = R (regresszó). Célunk, hogy bármely új mntára y-t predktáljuk. I.A. Generatív modellek Az ún. generatív modellek esetében p(, y)-t keressük (nnen a generatív kfejezés s: a p(, y) együttes eloszlás smeretében akár új mntákat s tudunk generáln). Innen p(y ) = p(,y) p(), azaz adott esetén a y jósolható. Mért jobb nekünk p(y ) smerete, mnt egy egyszerű pontbecslés? Konfdenca-értékek származtatása. Bár adott -re mndkét esetben ugyanazt az értéket jósoljuk, mégs, az egyk esetben bztosabbak lehetünk az eredmény helyességében: p(y ) Mnták eldobása. Bzonytalanság esetén adott esetben egy-egy mnta akár el s dobható. Kegyensúlyozatlan osztályozás kompenzácója. Tegyük fel, hogy a feladat egy rtka betegség dagnosztzálása; jelölje C b a beteg osztályt: p(c b ) p( C b )p(c b ). Mvel az egészséges emberek sokkal nagyobb arányban fordulnak elő, a modellünk majdnem tökéletes eredményt fog elérn akkor s, ha mnden pácenst egészségesnek nylvánít. Ennek kküszöbölésére tanítsuk a modellt egy mesterségesen kegyensúlyozott adathalmazon. A fent képlet alapján a kapott posteror arányos a prorral, így nncs más dolgunk, mnt a kapott poszterort leosztan a mesterséges prorral (azaz a kegyensúlyozás után az adott osztályba eső mnták arányával), majd vsszaszorozn az eredet populácóra jellemző prorral. Modellek kombnácója. Éljünk az alább nav feltételezéssel: p( A, B C b ) = p( A C b )p( B C b ), azaz pl. a betegség dagnosztzálására két teszt s rendelkezésre áll, amelyek eredménye feltételesen (!) független egymástól. Ekkor p(c b A, B ) p( A, B C b )p(c b ) p( A C b )p( B C b )p(c b ) p(c b A )p(c b B ) p(c b ) A generatív modellek tovább előnye közé tartozk a margnálsok smerete. A p() eloszlás például felhasználható az ún. outlerek (kugró, rendellenes mnták) detekcójára. A generatív modellek hátránya, hogy rendszernt sok mntát és nagy számítás teljesítményt gényelnek (mntakompletás, számítás kompletás). y
I.B. Dszkrmnatív modellek A dszkrmnatív modelleknél közvetlenül p(y )-et becsüljük. Ekkor az együttes eloszlást, lletve p()-et elveszítjük, ám a fent előnyök nagy része továbbra s megmarad. Az alább ábra smét egy osztályozás feladatot mutat: p( C 1 ) p( C 2 ) p(c 2 ) p(c 1 ) Látható, hogy p( C 1 ) baloldal módusza egyáltalán nem befolyásolja a poszterort az együttes eloszlás smerete tehát nncs khatással a predkcóra. I.C. Dszkrmnatív függvények Itt olyan f : X Y, f F függvényt keresünk, amelyre f() = y, azaz a p(y ) eloszlást s elveszítjük (annak mnden előnyével együtt), y-ra csak pontbecslést kapunk. Előny vszont, hogy általában hatékonyan számítható és jó predktív teljesítménnyel bíró eljárásokhoz jutunk (pl. SVM). Felmerül a kérdés, hogy hogyan válasszuk meg f-et? f() f() f() Az ábra bal oldalán a hat adatpontunkra egy ötödfokú polnomot llesztettünk. Ez a függvény hat szabad paraméterrel bír, így r = 0 hbával rálleszhető a tanítómntákra. Megmutatható, hogy ennek ellenére a modell általánosítóképessége rossz f gyakorlatlag nem tett mást, mnt megjegyezte a tanítómntákra adandó válaszokat. Lényegesen jobb általánosítóképesség érhető el, ha F-et megszorítjuk, pl. a legfeljebb n-edfokú polnomokra (az ábra közepén n = 1, azaz lneárs regresszót végeztünk) így a szabad paraméterek számát, más szóval a modell kompletását csökkentjük (tt gondolhatunk például az Occam borotvája elvre). A modell kompletásának csökkentésére másk megközelítés az f függvény regularzácója. Az ábra jobb oldalán szntén ötödfokú polnomot llesztettünk, ám korlátoztuk az együtthatók nagyságát. A regularzált rzkómnmalzálás (RRM) során a hba mnmalzálása mellett a függvény kompletásának mnmalzálására törekszünk, amelyet például mérhetünk a függény valamlyen f normájával. A következő szakasz egy olyan keretet tárgyal, amely magába foglalja a regularzácó kérdését, a korábban már megsmert kernel módszereket, valamnt elmélet garancákat s szolgáltat.
II. Reproducng Kernel Hlbert Space (RKHS) Tekntsük a H := {f f = α k(, )} teret, ahol k(, ) : X X R egy kernel függvény (azaz szmmetrkus és poztív defnt). Ekkor a k(, ) : X R függvények bázst alkotnak a H térben. Tudjuk, f regularzácójához szükségünk lesz egy normára, valamnt a legtöbb kernel gép gényel egy belső szorzatot. Defnáljunk tehát egy belső szorzatot a fent téren a következőképpen: 1. Defnícó. Legyen f, g H, f = α k(, ), g = j β jk(, j ). Ekkor f, g := α β j k(, j ). j 1. Következmény. A fent választással f, g = α β j k(, j ) = j 2. Következmény. Szntén azonnal látható, hogy α g( ) = j β j f( j ). f, k(, ) = α k(, ) = f(). Ez a reprodukáló tulajdonság (reproducng property). Ahhoz, hogy H vektortér legyen (és így az algortmusok működjenek), be kell látnunk, hogy a fent defnált belső szorzat eleget tesz a követelményeknek. 1. Állítás., valóban belső szorzat a H téren. Bzonyítás. Az alább tulajdonságokat kell belátn: Szmmetrkus: k szmmetrájának közvetlen következménye. Blneárs: pl. f + f, g = j β j(f + f )( j ) = j β jf( j ) + j β jf ( j ) = f, g + f, g. A λf, g = λ f, g eset hasonlóképpen látható; a blneartás a szmmetra felhasználásával következk. f, f 0. Tudjuk, hogy f, f = j α α j k(, j ) = α T Kα, ahonnan az állítás következk K poztív defnt volta matt. f, f = 0 f = 0. Az egyk rány következk az f() 2 = f, k(, ) 2 k(, ) f, f egyenlőtlenségből, ahol a Cauchy-Schwarz-Bunyakovszkj egyenlőtlenséget használtuk. A másk rány trváls. Emlékezzünk vssza, hogy számos algortmus nemlnearzálásának alapötlete az volt, hogy az mntákat egy másk (gyakran magasabb dmenzójú) térbe képeztük, majd ebben futtattuk az eredet (lneárs) algortmusunkat. A kernel trükk alkalmazása során pedg a leképezés eplct megadása helyett mntegy lecseréltük az eukldesz belső szorzatot a k kernel függvényre:, j φ( ), φ( j ) = k(, j ). A reprodukáló tulajdonságból mmár azt s tudjuk, hogyan írható fel ez a leképezés, ugyans k(, j ) = k(, ), k(, j ), így látjuk, hogy a φ leképezés nem más, mnt φ : k(, ). Hogyan néz k φ a gyakorlatban?
1. Példa. Legyen a k : X X R kernel függvény a következő: k(, j ) =, 2. Az egyszerűség kedvéért kétdmenzós esetet tekntünk, azaz legyen =, j =. Ekkor φ ( ), φ ( ) = k (, = (a 1 b 1 + ) 2 ) =, 2 = a 1 b 1 a 1 b 1 + a 1 b 1 + a 1 b 1 + = a 1 a 1 b 1 b 1 + a 1 b 1 + a 1 b 1 + a 1 a 1 b 1 b 1 = a 1 a 1, b 1 b 1. ( ) a 1 a 1 Következk, hogy φ = a 1 a 1, azaz k rögzítésével megkaptuk a φ leképezést s. A fent k a polnomáls kernelek specáls esete: k(, j ) = (, j + a) d, ahol d a kernel foka, a pedg a homogén/nhomogén tulajdonságért felel. Látjuk, hogy a másodfokú homogén polnomáls kernel (d = 2, a = 0) a feature-párok terébe képez ez hasznos pl. képfeldolgozásnál, ahol az éldetekcó történhet pel-párok alapján. Magasabb fokú kernelek a feature-n-esek terébe képeznek, a 0 esetén pedg nhomogén kereszt-tagok s megjelennek a reprezentácóban (azaz feature 1-esek + feature 2-esek +... + feature-n-esek). A fent példa jól mutatja a kernel trükk lényegét: míg nagy d esetén a φ() reprezentácók belső szorzata a nagy dmenzó matt közvetlenül már nem kszámítható, a k függvény segítségével mégscsak gyorsan megkaphatjuk. Térjünk most vssza f regularzácójára és az f normára. 1. Tétel. (Kmeldorf Wahba reprezenter tétel). Legyen adott Ω : R + R szgorúan monoton növő függvény, L : (X R R) P R általános veszteségfüggvény. Ekkor a L (( 1, y 1, f( 1 )),..., (( P, y P, f( P ))) + Ω ( f ) regularzált rzkó mnden mnmalzátora a következő alakban írható: f() = α k(, ). 2. Példa. Kétosztályos SVM. L (( 1, y 1, f( 1 )),..., (( P, y P, f( P ))) = 1 P Ω ( f ) = λ 2 f 2 Ez a felírás ekvvalens a következővel: ma (0, 1 y f ( )) mn 1 2 f 2 + C ξ s.t. y f( ) 1 ξ, ξ 0,
am a kétosztályos SVM prmálja, ha fgyelembe vesszük, hogy f() = w T + b (ezt nem bzonyítjuk; a Resz reprezentácós tétel következménye). A Kmeldorf Wahba tétel garantálja, hogy a megoldás s a kívánt alakot vesz fel. Fgyeljük meg, hogy mvel f = α k(, ), f 2 mnmalzálása ekvvalens az α együtthatók korlátozásával (nagyon hasonlóan az előző szakaszban látott polnom-llesztéshez). Korábban azt s láttuk, hogy a kétosztályos SVM duál feladata a következő: 1 mn α α j y y j k(, j ) α 2 j s.t. 0 α C, ahol a kényszerfeltétel szntén az α együtthatók korlátozását jelent. Magas C esetén a korlát magasabb, am gyengébb regularzácót jelent kompleebb modelleket és esetlegesen túllleszkedést eredményezve. α