Kernel gépek vizsgálata

Kernel gépek vizsgálata Kooperáció és gépi tanulás laboratórium (VIMIMB02) 2018. március 5. Elméleti alapok A mérés során újabb kernel gépeket fogunk megismerni: a szupportvektor-gépek (SVM) regressziós és többkerneles kiterjesztését, valat az ún. Gauss-folyamatokat. Az elméleti anyag egy része előadáson elhangzott, a többi megtalálható a hivatkozott irodalomban [1]; itt egy rövid áttekintést adunk. Regresszióról általában A regresszió felügyelt tanulási feladat. Legyenek adottak a { i, z i } P i=1 párok (tanítóhalmaz), ahol i R D a ták leírásai, z i R pedig a tákhoz tartozó valós értékek. Célunk, hogy a tanítóhalmaz alapján egy olyan modellt tanuljunk, amely képes további tapontokra (teszthalmaz) értékeket jósolni. Három megközelítés közül választhatunk: 1. Generatív modellek. Modellezzük a p(x, Z) együttes eloszlást, majd a Bayes-tétel segítségével számítsuk ki a p(z, X, Z) prediktív eloszlást, ahol {X, Z} a teljes tanítóhalmaz, pedig az új ta. 2. Diszkriatív modellek. Modellezzük közvetlenül a p(z X) feltételes eloszlást, majd ebből számítsuk ki a prediktív eloszlást. Látható, hogy diszkriatív és generatív modelleknél egy új tánál nem csak pontbecslést kapunk, hanem egy eloszlást, amely felhasználható például bizonytalanságunk jellemzésére, hibakorlátok számítására is. 3. Diszkriatív függvények. Keressünk olyan f F függvényt, amelyre f( i ) z i. Ebben az esetben csak pontbecslést kapunk. Az f függvény megválasztása nem triviális feladat. Ha nem korlátozzuk valamiképp a választást, f például megjegyezheti a tákat és a rájuk adandó válaszokat, így a tanítóhalmazon tökéletes eredményt fog elérni, de általánosítóképessége rossz lesz (túlilleszkedés). Vegyük a következő egyszerű példát. Legyen X = { 1,..., 6 }, i R, az értékek pedig származzanak egy normál eloszlású zajjal terhelt lináris kapcsolatból: z i = i + ε, ε N (0, σ 2 ). Válasszuk F-et a legfeljebb ötödfokú polinomiális függvények osztályának: { } 5 F := f f() = α n n. n=0 1

Használjuk a négyzetes hibát. Így a következő feladatot kell megoldanunk: (f( i ) z i ) 2. f F i Reprezentáljuk az f függvényt az együtthatóival, így a fenti feladat ekvivalens a következővel: α ( 5 ) 2 α n n i z i. i n=0 Tovább alakítva: ahol α Xα z 2, 2 5 1 1 1 1 2 5 1 2 2 2 X =....... 2 5 1 6 6 6 egy Vandermonde-típusú mátri, α az együtthatók vektora, z pedig az értékeké. A feladatot a szokásos módszerrel oldjuk meg (deriválással szélsőértékhelyet keresünk): α Xα z 2 = 2X T (Xα z) = 0, tehát az alábbi lineáris rendszert kell megoldani: α = (X T X) 1 X T z. A kapott polinomot az 1. ábra szemlélteti. Látható, hogy a függvény pontosan illeszkedik a tapontokra, így a tanítóhalmazon elért teljesítménye tökéletes lesz. Nem is vártunk mást, hiszen a szabad paraméterek száma megegyezik a taszámmal, tehát dig tudjuk úgy hangolni a paramétereket, hogy tökéletes eredményt kapjunk. Általánosítóképessége viszont annál gyengébb: az utolsó tapont után elszáll, és a 7. (teszt!) tapontra már rossz eredményt ad. Módosítsuk tehát a feladatot úgy, hogy korlátozzuk az α együtthatókat: α Xα z 2 + λ α 2, ahol λ szabályozza a korlátozás szigorúságát. A megoldáshoz ismét deriválunk: α Xα z 2 + λ α 2 = 2X T (Xα z) + 2λα = 0, tehát az alábbi lineáris rendszert kell megoldani: α = (X T X + λi) 1 X T z A kapott polinomot a 2. ábra szemlélteti; látható, hogy a túlilleszkedés némiképp csökkent. Másik lehetőség lenne, ha nem az együtthatók nagyságát, hanem a szabad paraméterek számát csökkentjük, azaz alacsonyabb fokszámú polinomot, speciális esetként lineáris regressziót választunk (3. ábra). 2

15 10 z 5 0 2 4 6 1. ábra. Ötödfokú polinom illesztése 6 tapontra, a 7. tapont alkotja a teszthalmazt. 7.5 5.0 z 2.5 0.0 2 4 6 2. ábra. Ötödfokú polinom illesztése 6 tapontra regularizációval. 6 z 4 2 2 4 6 3. ábra. Lineáris regresszió (elsőfokú polinom választása). 3

Szupportvektor-regresszió (SVR) Válasszuk most a függvényosztályt a következőképpen: { F := f f = } α i k( i, ), i ahol k : R D R D R szimmetrikus, pozitív definit kernel függvény, α i R pedig valós együtthatók. Definiáljunk továbbá F-en egy belső szorzatot: f = i g = j f, g F = i α i k( i, ), β j k( j, ), α i β j k( i, j ). j Könnyen belátható, hogy a fenti kifejezés valóban belső szorzatot határoz meg. Szintén könnyen látható a következő fontos ( reprodukáló ) tulajdonság: f, k(, ) F = i α i k( i, ) = f(), innen pedig k( i, ), k( j, ) F = k( i, j ). Ezzel az egyszerű definícióval több dolgot is nyertünk: 1. Lehetőség a regularizációra. A belső szorzat birtokában használhatjuk az f normát, amelynek korlátozása analóg a korábban nézett polinomok együtthatóinak korlátozásával. 2. Hozzáférés a kernel trükkhöz. Immár van egy φ : k(, ) leképezésünk, amelyre tehát φ( i ), φ( j ) = k( i, j ). Most már megfogalmazhatjuk a szupportvektor-regressziós feladatot: f 1 2 f 2 s.t. z i f( i ) ε. Szemléletesen tehát egy él egyszerűbb f függvényt keresünk, amellyel adott ε hibahatáron belül tudjuk közelíteni a tákhoz tartozó értékeket. A fenti megfogalmazás több szempontból sem szerencsés: 1. Az abszolútértékfüggvény nehezen kezelhető. 2. Nincs lehetőségünk a regularizáció szigorúságának (a kompleitás büntetésének) szabályozására. 4

A következőképpen módosítjuk a feladatot: 1 f,ξ +,ξ 2 f 2 + C ( ξ + i + ξ i i s.t. z i f( i ) ε + ξ + i, f( i ) z i ε + ξ i, ξ + i, ξ i 0, ) azaz a feltételt két részre bontottuk és a ξ +, ξ ( slack ) változókkal gyengítettük. Így a kompleitást a C paraméter szabályozza. Ez a megfogalmazás ekvivalens az ún. ε-inszenzitív veszteségfüggvény alkalmazásával: Hiba ξ i ε f( i ) z i Többkerneles tanulás A Multiple Kernel Learning (MKL) eljárások a hagyományos kernel gépek kiterjesztései, ahol egyszerre több kernel függvényt használunk, ezeket valamiképp kombináljuk. Statikus kombináció. A kernelek kombinációjának legegyszerűbb módszerei a statikus lineáris vagy nemlineáris kombinációk, például: Kernelek összege: ˆk( i, j ) = k k k( i, j ). Kernelek súlyozott átlaga: ˆk( i, j ) = k d kk k ( i, j ), ahol d k jelöli a k. kernel függvény súlyát, és pl. d = 1 valamilyen normában. Kernelek Hadamard-szorzata: ˆk( i, j ) = k k k( i, j ). És még sok más eljárás. Egyszerűségük ellenére általában jó prediktív teljesítményt nyújtanak. Adaptív kombináció. A kernel gép tanítása és a kernel-fúzió egy lépésben is történhet, ha az optimalizációba a lineáris kombináció súlyainak tanulását is beépítjük. Ennek előnye, hogy a kombináció ekkor adaptívan, dig az aktuális feladatot figyelembe véve történik. A SVR 5

primál feladatát a következőképpen módosíthatjuk: f,ξ +,ξ,d s.t. 1 f k 2 + C ( ) ξ + i + ξ i 2 k i z i dk f k ( i ) ε + ξ + i, k dk f k ( i ) z i ε + ξ i, k ξ + i, ξ i 0, d p = 1, d k 0. A fenti feladatban valójában a f 1 f. f n, d1 φ 1 ( i ) φ( i ). dn φ n ( i ) helyettesítésekkel éltünk. A korábbiakkal analóg módon a φ( i ), φ( j ) = k( i, j ) összefüggés a következőképen módosul: d1 φ 1 ( i ) d1 φ 1 ( j ).,. = d k k k ( i, j ), dn φ n ( i ) dn φ n ( j ) k azaz a kernel függvények lineáris kombinációjához jutunk, ahol az algoritmus egyben az optimális súlyozást is meg fogja adni. Külön figyelmet érdemel a d p = 1 kényszer enélkül a d k súlyokat den határon túl növelve a célfüggvény tetszőlegesen csökkenthető lenne. Az a p = ( l ap l )1/p normát L p -normának nevezzük, és p különböző értékeire más-más jellegű regularizációt kapunk: p < 2 esetén kevés súly fog magas értéket kapni (ritka kombináció, legjobb kernelek kiválasztása), nagyobb p esetén egyenletesebb lesz a súlyok eloszlása. Gauss-folyamatok Térjünk vissza a regresszió valószínűségi értelmezéséhez. Említettük, hogy generatív és diszkriatív modelleknél egy adott tához tartozó z értékre nem csak pontbecslést kapunk, hanem egy teljes eloszlást. Ha ezt az eloszlást a normál eloszlásnak választjuk, akkor a Gaussfolyamatok definíciójához jutunk. Gauss-folyamatokról beszélünk tehát akkor, ha az f függvényt tetszőleges tapontokra kiértékelve a kapott értékek együttesen (többváltozós) normál eloszlást követnek. A normál eloszlás egyértelműen meghatározható a várható érték és a kovarianciamátri ismeretében: E[f()] = 0, E[f( i )f( j )] = k( i, j ), azaz előbbit rendszerint 0-nak választjuk, utóbbit pedig egy kernel függvény diktálja. Az egyszerűség kedvéért legyenek most a táink 1 = 1, 2 = 2,... 100 = 100 (itt gondolhatunk például egy idősorra). Használjunk két kernel függvényt: k( i, j ) = e γ( i j ) 2 Gauss RBF kernel, k( i, j ) = e θ i j eponenciális kernel. 6

1 0 f() -1 0 25 50 75 100 4. ábra. Minták a Gauss-folyamatból, Gauss RBF kernel, γ = 0.01. 3 2 1 f() 0-1 -2 0 25 50 75 100 5. ábra. Minták a Gauss-folyamatból, Gauss RBF kernel, γ = 0.05. 2 0 f() -2 0 25 50 75 100 6. ábra. Minták a Gauss-folyamatból, eponenciális kernel, θ = 0.05. 7

Az így definiált Gauss-folyamatokból származó tákat a 4, 5, 6. ábrákon láthatjuk. Implementáljuk R-ben a Gauss-folyamatokból történő tavételezést! library(ggplot2) library(mass) <-1:100 # bemeno tak k<-function(,y) ep(-0.05*abs(-y)) # kernel fuggveny C<-outer(,,FUN=k) # kovarianciamatri f<-mvrnorm(1,rep(0,length()),c) ggplot() + geom_line(aes(=,y=f)) # f() tavetelezese Végül megmutatjuk, hogyan lehet a Gauss-folyamatokat regresszióra használni. Legyen z i = f( i ) + ε, ε N (0, β 1 ), ahol f egy Gauss-folyamatot határoz meg 0 várható értékkel és k kernellel. Másképpen: p(z X) = i N (z i f( i ), β 1 ) = N (Z f(x), β 1 I), ahol f(x)-et ennek megfelelően definiáltuk. Ekkor a normál eloszlásra vonatkozó összefüggések alapján a kovarianciák összeadódnak [1], azaz az értékek együttes eloszlására a következő összefüggést kapjuk: p(z) = p(z X)p(X)dX = N (Z 0, C), ahol C ij = k( i, j ) + β 1 I ij. A keresett p(z, X, Z) feltételes valószínűség kiszámításához hozzávesszük az teszttát az adathalmazhoz, azaz kibővítjük a kovarianciamátriot: ( ) C k C = k T, c ahol k = [k(, 1 ),..., k(, P )] T és c = k(, ) + β 1. Végül a kibővített kovarianciamátri és a normál eloszlás feltételes valószínűségeire vonatkozó összefüggés segítségével meghatározzuk a keresett valószínűséget: p(z, X, Z) = N (z m, σ 2 ), m = k T C 1 Z, σ 2 = c k T C 1 k. 8

A mérés során megoldandó feladatok Regresszió mesterséges adathalmazokon 1) Implementálja a legfeljebb n-edfokú polinom illesztését n + 1 adatpontra a példának megfelelően! Figyelje meg és dokumentálja a λ paraméter hatását az illesztésre. 2) Töltse be a kernlab csomagot, majd generáljon egy normál zajjal terhelt egydimenziós tahalmazt! Például: <-1:100 z<-sin(/10)/(/10) + rnorm(100,0,0.1) 3) Hozzon létre új kernel függvényeket. Ügyeljen arra, hogy vektorokra is működjenek. A korábban említett Gauss-RBF definíciója pl. így nézhet ki (γ = 100): k<-function(,y) ep(-100*crossprod(-y)) class(k)<-"kernel" Ennek alapján hozza létre a következő kernel függvényeket: k( i, j ) = i, j lineáris kernel, k( i, j ) = ep { γ i j 2} Gauss RBF kernel, k( i, j ) = ( i, j + 1) d inhomogén polinomiális kernel, k( i, j ) = Tanimoto kernel. i, j i 2 + j 2 i, j Megjegyzés. Használja a crossprod(), crossprod(,y) függvényt a normanégyzetek és belső szorzatok kiszámításához. Ez nem túl gyors, viszont egyszerű. 4) Tanítsa az SVM-et és ábrázolja az eredményeket! r<-ksvm(,z,kernel=k,c=1,epsilon=0.05) p<-predict(r,) ggplot() + geom_point(aes(=,y=z)) + geom_line(aes(=,y=p)) A 7. ábrán láthat egy példát. 5) Hogyan befolyásolja a választott kernel függvény, a C és az ε paraméter az eredményeket? Dokumentálja a találtakat. Szupportvektor-regresszió valós adathalmazon, több kernellel 1) Töltse le és olvassa be a https://archive.ics.uci.edu/ml/machine-learning-databases/ 00291/airfoil_self_noise.dat adatbázist! A file a NASA aerodinamikai laboratóriumában, szélcsatornában vizsgált szárnyprofilok paramétereit, utolsó oszlopában pedig a keltett zaj mértékét tartalmazza. Használja a read.table(), as.matri() és as.vector() függvényeket. 9

1.0 0.5 z 0.0-0.5 0 25 50 75 100 7. ábra. Szupportvektor-regresszió ε = 0.05, C = 1 és γ = 100 paraméterekkel. 2) Ossza ketté az adatokat 80%-20% arányban tanító- és teszthalmazra! Használja a negatív indeelést és a sample() függvényt. 3) Tanítson SVR modelleket a keltett zajra! Kísérletezzen különböző kernelekkel és paraméterekkel. Használja az előzőekben megismert függvényeket a tanításhoz és kernelek definiálásához. 4) Értékelje ki a hibát a tanító- és a teszthalmazon is. A következő hibafüggvényt használja: 1 RMSE = (z t f( t )) T 2, ahol T jelöli az adott halmazt. Mikor tapasztalt túltanulást? Addig ne menjen tovább, amíg nem sikerül a teszthalmazon RMSE < 3 eredményt elérni. Milyen paraméterekkel érte el a legjobb eredményt? 5) Implementáljon egy kernel függvényt, amelyben több kernelt kombinál (pl. az előző feladatban talált legjobbakat). A kombináció módja tetszőleges. Sikerült javítani az eredményeken? Gauss-folyamatok regresszióra 1) A korábban mutatott kódot bemásolva tavételezzen egy tetszőleges Gauss-folyamatot. Használjon különböző kernel függvényeket. 2) Futtasson le egy regressziót az előző feladat szárnyprofil- és zajadataira a legjobb talált kernellel és paraméterezéssel. Ehhez használja az előző 80%-20% felosztást, valat a gausspr() és predict() függvényeket, vagy pluszpontért az egyenletek alapján implementálja a Gauss-folyamatot. A var paraméterrel az általunk β-nak jelölt precizitást szabályozhatja; egyébként a gausspr() függvény paraméterezése analóg a ksvm()-ével. Számítsa ki a hibát. Sikerült felülmúlnia a SVR teljesítményét? 10 t T

0.04 0.00 z -0.04 39840 39880 39920 39960 time 0.06 0.03 z 0.00-0.03-0.06 39840 39880 39920 39960 time 8. ábra. Az isztambuli értéktőzsde adataira épített GP modell (első száz adat), Gauss-RBF kernel, β = 0.1 és β = 1 esetén. A konfidencia-intervallumot szürke sáv jelzi (2 standard deviáció). Gauss-folyamatok idősor-elemzésre 1) Töltse le az https://archive.ics.uci.edu/ml/machine-learning-databases/ 00247/data_akbilgic.ls adatbázist! Ez a file az isztambuli értéktőzsde, valat vezető értéktőzsdék indeeinek változását tartalmazza a 2009-2011-es időszakban. Nyissa meg LibreOffice-szal, az első oszlop típusát változtassa meg egész számra, eportálja megfelelő formátumban, majd töltse be R-ben. 2) Az első oszlop az időt jelzi, a második az idősor (Z). A 4-10. oszlopok jelölik az egyéb tőzsdeindeek változásait, ezeket feature-ként fogjuk felhasználni (X). Az előbbi változók felhasználásával tanuljon egy GP modellt! A standard deviációk kiszámításához adja meg a variance.model=true paramétert is. 11

Például: d<-read.table("data.tsv",sep= \t,header=true) t<-d[[1]] z<-d[[2]] <-as.matri(d[4:10]) res<-gausspr(,z,kernel=rbfdot, kpar=list(sigma=1),variance.model=true,var=1) 3) Illessze a modellt a következőképpen: p<-predict(res,) s<-predict(res,,type="sdeviation") 4) Végül ábrázolja az idősor egy tetszőleges szeletét (lásd 8. ábra). A szürke sávok kirajzolásához használhatja a ggplot csomag geom_ribbon(aes(=t,y=p-2*s,yma=p+2*s),alpha=0.1) függvényét. Hogyan befolyásolja β értéke az illesztést? Hivatkozások [1] Christopher M. Bishop. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006. 12