Learnng n te nervous system I. renforcement learnng Balazs B Ujfalussy 24 october 2016
Teoretcal Neuroscence Computatonal and Matematcal Modelng of Neural Systems Larry Abbott and Peter Dayan Renforcement Learnng An Introducton Rcard S. Sutton and Andrew G. Barto
learnng Dynamcs of a neural network: r dr dt = r(t)+ + Wr(t) frng rate external nput synaptc wegts ow to modfy te parameters (w) to aceve a gven dynamcs? For a sngle neuron: v = f(wu) ow to modfy te w to mplement a gven mappng from nput u to response r?
Types of learnng v = f(wu) Supervsed learnng bot u and v are gven supervsed Hebban learnng, gradent-based (perceptron) - next week labelled nput data s sparse / expensve v does not elp te network ow to solve te task - ow to develop useful representatons Unsupervsed learnng only u s gven OK, but ow can we learn f we don t get any feed-back? goal: fnd patterns n te data learn useful representatons unlabelled data s ceap! rest of te class
Types of learnng v = f(wu) Supervsed learnng bot u and v are gven supervsed Hebban learnng, gradent-based (perceptron) - next week labelled nput data s sparse / expensve v does not elp te network ow to solve te task - ow to develop useful representatons Renforcement learnng v s not provded but some feed-back sgnal about te performance of te system agent nteracts wt ts envronment receves feed-back n te form of reward goal: maxmse future reward Unsupervsed learnng only u s gven OK, but ow can we learn f we don t get any feed-back? goal: fnd patterns n te data learn useful representatons unlabelled data s ceap!
Predctng reward Pavlovan - classcal condtonng uncondtoned stmulus, condtoned stmulus uncondtoned stmulus: smell & vew of food acton condtoned stmulus: sound of bell reward nstrumental - operant condtonng te actons of te anmal determne te reward
Rescorla-Wagner rule v represents predcted reward lnear predcton of reward v = wu E = 1 2 (v r)2 w {z! } w + de dw w! w + u wt = r v Predctng reward! E = 1 2 (wu de dw = 1 d 2 dw (wu de = u (v r) dw {z } error! r)2 r)2
Rescorla-Wagner rule v represents predcted reward lnear predcton of reward v = wu Predctng reward E = 1 2 (v r)2 w! w + de dw {z } w! w + u wt = r v
renforcement learnng State state of te envronment partally observed Markov property Acton agents nteract wt te envronment wt actons polcy maps states to actons actons may cange te state and/or lead to reward Reward Rt(s,a) s te reward gven at tme t nstate s and acton a negatve or postve goal: maxmse total reward polcy πt (at st) reward functon Rt(st,at) state transton functon G(st, at) everytng te agent can not fully control
Wy s t ard? renforcement learnng rewards are dstal - credt assgnment problem state-space s uge - searcng takes a long tme! state dynamcs s unknown state dynamcs s stocastc - nosy envronment or nosy acton rewards are stocastc states are only partally observed rules cange wt tme
k=0 grdworld state transtons P (s t+1 s t,a t ) rewards: r(s t,a t,s t+1 ) dscountng: R t = r t+1 + r t+2 + 2 r t+2 +... 1X = polcy: k r t+k+1 (a t s t ) k=0 k r t+k+1 wat s te value assocated wt a gven state under a polcy? Bellmann equaton: V (s) = E [R t S t = s] X 1 = E S t = s = E r t+1 + = X a = X a 1X k=0 k r t+k+2 (a s) X s 0 P (s 0 a, s) " S t = s r(s, a, s 0 )+ E 1 X k=0 (a s) X P (s 0 a, s) r(s, a, s 0 )+ V (s 0 ) s 0 consstency relatonsp between states depends on polcy optmal polcy: gest value learnng: fnd te optmal polcy k r t+k+2 S t = s 0#
grdworld state transtons P (s t+1 s t,a t ) rewards: r(s t,a t,s t+1 ) Bellmann equaton dscountng: for Q: R t = r t+1 + r t+2 + 2 r t+2 +... 1X Q (s, a) = X P (s 0 a, s) r(s, = a, s 0 )+ X k r (a s 0 ) Q (s 0,a) t+k+1 s 0 a k=0 polcy: k r t+k+1 (a t s t ) k=0 wat s te value assocated wt a gven state under a polcy? Bellmann equaton: V (s) = E [R t S t = s] X 1 = E S t = s = E r t+1 + = X a = X a 1X k=0 k r t+k+2 (a s) X s 0 P (s 0 a, s) " S t = s r(s, a, s 0 )+ E 1 X k=0 (a s) X P (s 0 a, s) r(s, a, s 0 )+ V (s 0 ) s 0 consstency relatonsp between states depends on polcy optmal polcy: gest value learnng: fnd te optmal polcy k r t+k+2 S t = s 0#
Computng te value functon, V(s) random polcy optmal polcy
solutons to te RL problem dynamc programmng solve Belmann equatons teratvely need an accurate model of te envronment polcy evaluaton: Vπ(s) π(a s) polcy mprovement: π(a s) Vπ(s) Monte Carlo tecnques update value functons based on average returns Q (s t,a t ) Q (s t,a t )+ R t Q (s t,r t ) temporal dfference learnng R don t wat wt te updates untl te end of te tral! {z } Q (s t,a t ) Q (s t,a t )+ r t+1 + Q (s t+1,a t+1 ) {z } estmate Q (s t,a t ) {z }
solutons to te RL problem temporal dfference learnng R don t wat wt te updates untl te end of te tral! Q (s t,a t ) Q (s t,a t )+ r t+1 + Q (s t+1,a t+1 ) {z } estmate Q (s t,a t ) {z } Monte Carlo temporal dfference
solutons to te RL problem temporal dfference learnng don t wat wt te updates untl te R end of te tral! Q (s t,a t ) Q (s t,a t )+ r t+1 + Q(s t+1,a t+1 ) {z Q(s t,a t ) } estmate Q-learnng: a powerful algortm tat as been appled to many dfferent real-word {z {z } } problems Q(s t,a t ) Q(s t,a t )+ r t+1 + max Q(s t+1,a) Q(s t,a t ) a {z } predcton error neuronal mplementaton: learn te state space - representatonal learnng tabular vs. functon approxmaton learnng s based on predcton error s reward predcton error calculated by te bran?
dopamne = predcton error? t r t+ Q t Q t+1 Q t t r t+1 + max Q(s t+1,a) Q(s t,a t ) a {z } t
dopamne = predcton error? t r t+ Q t Q t+1 Q t t
Megerősítéses tanulás Az aktív (környezettel való nterakcókból való) tanulás egyk nagy próblémája a felfedezés és a kaknázás (exploraton - explotaton) dlemmája: Amkor választanom kell, akkor a már megszerzett tudásomat aknázom k, azaz a pllanatnylag legjobbnak látszó leetőséget választom, vagy próbálok mnél több nformácót begyűjten a még smeretlen leetőségek értékéről (felfedezés). Az egyk klasszkus példa, amben vzsgáln szokták a dlemmát a "félkarú rabló" (n-armed bandt) játék. A játékos N különböző akcóból (játékgépből) választat, melyek során különböző valószínűséggel jutat jutalomoz. A játékos folyamatosan gyűjt a jutalmat és az nformácót, és frssít az egyes akcókoz tartozó értéket: Qt(a) = (R1 + R2 + + RKa) / Ka aol Ka az a eddg akcó választásának száma. Tegyük fel, ogy N=4 és az egyes választások átlagos értéke R(a) ~ Unform(0,1) egy véletlen szám 0 és 1 között, az aktuáls jutalom pedg a R(a) valószínüséggel 1, 1-R(a) valószínűséggel pedg 0. Írj egy rövd programot, am szmulálja a játékos vselkedését különböző döntésozó mecanzmusok mellett! Vzsgáld meg a begyűjtott jutalmak számát, a becsült akcó-értékeket (Q(a)) és a választásokat egy kb. 1000 menet osszú játékban. M lenne az optmáls stratága? Mlyen gyorsan - gyakran találta meg a játékos az optmáls stratégát? Tegyük fel, ogy a kezdetben mnden Q(a)=0.5, és játékos mndg a legnagyobb Q(a) értékkel rendelkező leetőséget választja a játékos. Ez jó stratéga? Mlyen veszélyt rejt magában? (4p) Módosítsunk annyt a stratégán, ogy a játékos kezdetben optmsta - mondjuk úgy ndul, mnta már 10- szer választotta volna mndegyk leetőséget, és mndannyszor nyert volna. M változk meg ettől? Mlyen előnye és átránya van az optmzmusnak? (2p) Tegyük fel, ogy a játékos valószínűség játékos - mnden leetőséget Q(a) arányában választ. Tud-e így több jutalmat gyűjten, mnt az ak mndg az általa legjobbnak vélt leetőséget választja? (2p) Van más ötleted arra, ogy ogyan leetne gyorsan megtaláln a legjobb stratégát? (2p)