Gépi anulás Bagging, Boosing Adaboos Paaki Béla BME I.E. 414, 463-26-79 paaki@mi.bme.hu, hp://www.mi.bme.hu/general/saff/paaki
Ponos, de különböző együműködő megoldások 1 y M d( x) y y 1 2 y M h ( x) h ( x ) 1 2 h ( x ) M x A különbözőség bizosíásának egyik eszköze lehe, hogy különböző aníómina-halmazoka használunk a különböző szakérőknél. De ha széoszuk a minahalmaz M szakérő köz, akkor az eredei N mina helye N/M u egyre kevés lehe a aníáshoz.
Bagging (Boosrap Aggregaing): az eredei N-elemű aníóminából mind az M szakérőnek egy-egy N-elemű minahalmaz generálunk visszaevéses minavéelezéssel. Mivel a már kive mináka visszaesszük a kövekező minavéel elő, ezér lesznek olyan minák, amelyeke öbbször is beeszünk a célhalmazba. Nagy N-re kb. 1 1 63,2% lesz olyan mina, amelyik csak e egyszer fordul elő a célhalmazban, a öbbi kb. 37% készeres vagy öbbszörös előfordulású mina. Persze minden célhalmazban mások lesznek a öbbszörösek, ez bizosía a különbözősége.
Boosing alapöle #1 Baggingnél: az egyes szakérőknél használ aníómina-halmazoka logikailag párhuzamosan alakíouk ki (a sorrend mindegy vol, az egyik halmaz összeéele nem hao a másikra sb.) vélelenszerű vol, hogy melyik mina kerül öbbször az egyik vagy másik aníó-halmazba. Boosing: a szakérők aníása legyen soros: vegyük figyelembe, hogy a már anío szakérők hol elesíenek rosszul, és oda képezzük ki az ú szakember azoka mináka súlyozzuk a kövekező minahalmazba, amike az előző szakérő rosszul oszályozo
A legöbb problémánál: Boosing alapöle #2 álalában nehéz kifinomul, ponos megoldás adni ugyanakkor sokszor könnyű nem úl ponos ökölszabályoka felállíani (pl. ha a hallgaó bizonyalanul nézege szanaszé a vizsgára való felkészülés során, akkor kevese ud ) ehá próbálunk egyszerű eszközökből ponos összee eszköz lérehozni Az egyszerű eszközöke gyengén anuló (Weak Learner, WL) eszközöknek nevezzük. Annyi várunk el őlük, hogy 50%-nál kisebb hibával oszályozzanak (bináris, IGAZ/HAMIS probléma. (50% a vélelen alálgaás eredménye lenne).
folyamaábra áblára
A -dik oszályozó megkeresi az opimális vágás, figyelembe véve az egyes minákhoz rendel súlyoka. h (ST(x ))=-1 LegobbLimi A dik oszályozó hibaaránya a aníóminákon: h ( x ) y D ( ) T 1 1 ht ( x) sign( h ( x)) ln 1 2 D ( ) e ha h ( ) y x D 1( ) D ( ) e D ( ) e ha h ( x ) y D D(x 7 ) y 7 =+1 1 D(x 1 ) y 1 =-1 legobb limi D(x 3 ) y 3 =-1 D ( ) ( ) D ( ) D(x 19 ) y 19 =+1 h (STx ))=+1 D(x 5 ) y 5 =+1 arg min( D ( x )) L h ( ST ( x )) y 1 D(x 283 ) y 283 =-1 D(x 2 ) y 2 =+1 Normáluk, hogy a súlyok összege 1 legyen. skaláruladonság: ST(x) h ( x ) y Gyakran a P paraméerből álló összee leírás uladonságokra bonuk, és az egyes részoszályozók ezeke vizsgálák. (Legegyszerűbb, ha skalár a uladonság.) x x x x 1 2 P (Skalár) Tuladonság 1 pl. x 3 (Skalár) Tuladonság 2 pl. log(x 1 x 13 ) (Skalár) Tuladonság K Az eredő összee oszályozó T lépés uán. Növelük a rosszul oszályozo, csökkenük a ól oszályozo minák súlyá.
Felső korlá az eredő eszköz VC-dimenzióára T h( x) sign( ( h ( x) b) :, b, h H 1 ahol d=vcdim(h). Az adaboos megoldás VC-dimenzióára adhaó korlá: d 2 ( d 1) ( T 1) log (( T 1) e) VC 2
Túlanulás? A nagy komplexiás arra ual, hogy könnyen halamos lehe a úlanulásra. Ez előfordul, de a gyakorla legöbbször nem igazola vissza: Még akkor is avul, amikor már 100%-os a aníóminán! On he Margin Explanaion of Boosing Algorihms (Wang, e al., COLT 2008)
Az egyes minaponok oszályozási margóa m( x, y ) y h( x ) Ha mindegyik részoszályozó ól oszályoza a -dik miná, akkor m( x, y) 1, ha mindegyik rosszul, akkor m( x, y ) 1 (small dash, large dash,solid) lines equal (5, 100, 1000) rounds of boosing Adaboos wih C4.5 rees [Freund & Schapire, 1998]
Korlá a aníási minákon elérheő hibára 1 0 2 Pr( h( x) y) [2 (1 ) ] 1 4 e Ha minden -re 0 Pr( h( x) d) e 2T 2 2 2 2
Korlá a eszminákon elérheő hibára TdVC P( h( xesz ) y) P( h( xaníó) y) O( ) N N a aníóminák száma, T az Adaboos ierációk száma d VC a kialakuló VC-dimenzió. Másik korlá a aníás során léreö oszályozó minaponokra ado margóin alapul. dvc P( h( xesz ) yesz ) P( m( xaníó, yaníó) ) O( ) N 2
Demófelada: 5 dimenziós mináka sorolunk 2 oszályba, olyan oszályozórendszer használunk, amelynek VC dimenzióa 8. Turbózás során 6 részoszályozó aníounk, a 100 elemű aníómina-halmazon elér ponosságuk rendre 0,95 0,93 0,96 0,9.0,8.0,95. Milyen ponosságo vállalhaunk nagy valószínűséggel az eszközre, ha a 100 ponos mina ól reprezenála a problémá? (A felsőkorlá-becsléseke ponos képlekén felfogva ami amúgy ordíó módon nem igaz.) Az eredő oszályozó mind a 100 aníópono ól oszályoza, a kövekező 3 vol a legkevésbé bizosan oszályozo pon, a öbbieknél a margó 0,95-nél nagyobbra adódo: y k +1-1 -1 h (x k ) h 1 (x k ) 0,05 1,4722 1-1 -1 h 2 (x k ) 0,07 1,2933-1 -1 1 h 3 (x k ) 0,04 1,5890 1 1-1 h 4 (x k ) 0,1 1,0986 1-1 -1 h 5 (x k ) 0,2 0,6931 1 1 1 h 6 (x k ) 0,05 1,4722 1-1 -1 m(x k ) 0,6605 0,4009 0,4785