Learning in the nervous system I. reinforcement learning

Hasonló dokumentumok
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Review of Correlation & Regression

Megerősítéses tanulási módszerek és alkalmazásaik

Performance Modeling of Intelligent Car Parking Systems

Abigail Norfleet James, Ph.D.

Megerősítéses tanulás

Genome 373: Hidden Markov Models I. Doug Fowler

Correlation & Linear Regression in SPSS

First experiences with Gd fuel assemblies in. Tamás Parkó, Botond Beliczai AER Symposium

Using the CW-Net in a user defined IP network

Korszerű információs technológiák

Stratégiák tanulása az agyban

Phenotype. Genotype. It is like any other experiment! What is a bioinformatics experiment? Remember the Goal. Infectious Disease Paradigm

Megerősítéses tanulás

FOSS4G-CEE Prágra, 2012 május. Márta Gergely Sándor Csaba

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

KELER KSZF Zrt. bankgarancia-befogadási kondíciói. Hatályos: július 8.

Bevezetés a kvantum-informatikába és kommunikációba 2015/2016 tavasz

Eladni könnyedén? Oracle Sales Cloud. Horváth Tünde Principal Sales Consultant március 23.

Kálmán-szűrés. Korszerű matematikai módszerek a geodéziában

A forrás pontos megnevezésének elmulasztása valamennyi hivatkozásban szerzői jogsértés (plágium).

Társasjáték az Instant Tanulókártya csomagokhoz

A modern e-learning lehetőségei a tűzoltók oktatásának fejlesztésében. Dicse Jenő üzletfejlesztési igazgató

EEA, Eionet and Country visits. Bernt Röndell - SES

A BÜKKI KARSZTVÍZSZINT ÉSZLELŐ RENDSZER KERETÉBEN GYŰJTÖTT HIDROMETEOROLÓGIAI ADATOK ELEMZÉSE

Expansion of Red Deer and afforestation in Hungary

ANGOL NYELVI SZINTFELMÉRŐ 2013 A CSOPORT. on of for from in by with up to at

Megerősítéses tanulás 2. előadás

Mesterséges Intelligencia MI

Local fluctuations of critical Mandelbrot cascades. Konrad Kolesko

A Lean Beszállító fejlesztés tapasztalatai a Knorr Bremse-nél

Utolsó frissítés / Last update: február Szerkesztő / Editor: Csatlós Árpádné

A vitorlázás versenyszabályai a évekre angol-magyar nyelvű kiadásának változási és hibajegyzéke

FÖLDRAJZ ANGOL NYELVEN

KIEGÉSZÍTŽ FELADATOK. Készlet Bud. Kap. Pápa Sopr. Veszp. Kecsk Pécs Szomb Igény

Összeszerelési és kezelési útmutató. VideoTerminal

Supporting Information

Philosophiae Doctores. A sorozatban megjelent kötetek listája a kötet végén található

Egyenlőtlenségi mérőszámok alkalmazása az adatbányászatban. Hajdu Ottó BCE: Statisztika Tanszék BME: Pénzügyek tanszék Budapest, 2011

Investment performance of the Hungarian Private and Voluntary Pension Funds ( )

Statisztikai próbák. Ugyanazon problémára sokszor megvan mindkét eljárás.

FORGÁCS ANNA 1 LISÁNYI ENDRÉNÉ BEKE JUDIT 2

Bevezetés a kvantum-informatikába és kommunikációba 2016/2017 tavasz

Az Ipoly árvízi előrejelző rendszer

SOFI State of the Future Index

Computational Neuroscience

Utolsó frissítés / Last update: Szeptember / September Szerkesztő / Editor: Csatlós Árpádné

Decision where Process Based OpRisk Management. made the difference. Norbert Kozma Head of Operational Risk Control. Erste Bank Hungary

Pletykaalapú gépi tanulás teljesen elosztott környezetben

KAPILLÁRIS NYOMÁS GÖRBE MEGHATÁROZÁSA HIGANYTELÍTÉSES POROZITÁSMÉRÉS ADATAIBÓL DETERMINATION OF CAPILLARY PRESSURE CURVE FROM MERCURY POROSIMETRY DATA

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Felnőttképzés Európában

EN United in diversity EN A8-0206/419. Amendment

Klaszterezés, 2. rész

Statistical Dependence

Flowering time. Col C24 Cvi C24xCol C24xCvi ColxCvi

Statistical Inference

Valószínűségi modellellenőrzés Markov döntési folyamatokkal

Lexington Public Schools 146 Maple Street Lexington, Massachusetts 02420

Szoftver-technológia II. Tervezési minták. Irodalom. Szoftver-technológia II.

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

MŰSZAKI TUDOMÁNY AZ ÉSZAK-ALFÖLDI RÉGIÓBAN 2010

Műszaki folyamatok közgazdasági elemzése. Kevert stratégiák és evolúciós játékok

Rendszermodellezés: házi feladat bemutatás

discosnp demo - Peterlongo Pierre 1 DISCOSNP++: Live demo

Fizikai kémiai és kolloidkémiai laboratóriumi gyakorlatok gyógyszerészhallgatók részére 2018/2019. tanév, II. félév. Név

izotópfrakcion Demény Attila, Kele Sándor, Siklósy Zoltán Geokémiai Kutatóintézet

B&V. CSALOGÁNY IRODAHÁZ/OFFICE BUILDING Budapest, II., Csalogány utca BÉRBEADÓ IRODÁK OFFICES TO LET

Ensemble Kalman Filters Part 1: The basics

Correlation & Linear Regression in SPSS

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

STUDENT LOGBOOK. 1 week general practice course for the 6 th year medical students SEMMELWEIS EGYETEM. Name of the student:

Megerősítéses tanulás

Széchenyi István Egyetem

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

Item-válasz-elmélet alapú adaptív tesztelés. Item Response Theory based adaptive testing

A Magyar Honvédség hírrendszerének továbbfejlesztése

ANOVA. Egy faktor szerinti ANOVA. Nevével ellentétben nem szórások, hanem átlagok összehasonlítására szolgál. Több független mintánk van, elemszámuk

HIDEGEN HENGERELT ALUMÍNIUM SZALAG LENCSÉSSÉGÉNEK VIZSGÁLATA INVESTIGATION OF CROWN OF COLD ROLLED ALUMINIUM STRIP

A világ néhány jelentős migrációs útvonala napjainkban Bevezetés a migrációs politikába

INDEXSTRUKTÚRÁK III.

TÉRGAZDÁLKODÁS - A TÉR MINT VÉGES KÖZÖSSÉGI ERŐFORRÁS INGATLAN NYILVÁNTARTÁS - KÜLFÖLDI PÉLDÁK H.NAGY RÓBERT, HUNAGI

Cluster Analysis. Potyó László

Szerven belül egyenetlen dóziseloszlások és az LNT-modell

RESEARCHING THE CONNECTION BETWEEN URBAN OPEN SPACES

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Regression

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

Ciklikusan változó igényűkészletezési modell megoldása dinamikus programozással

Mechanizmus-tervezés: szociális jóléti függvény nem kooperatív (versengő) ágensek. A megegyezés keresése és elérése: Tárgyalás (Negotiation)

Training of integrity advisors in Hungary. dr. Princzinger Péter NUPS Institute of Executive Training and Continuing Education

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

SQL/PSM kurzorok rész

Az egészségügyi munkaerő toborzása és megtartása Európában

Csima Judit április 9.

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

General information for the participants of the GTG Budapest, 2017 meeting

FORD KA KA_202054_V5_2013_Cover.indd /06/ :59

Longman Exams Dictionary egynyelvű angol szótár nyelvvizsgára készülőknek

2 level 3 innovation tiles. 3 level 2 innovation tiles. 3 level 1 innovation tiles. 2 tribe pawns of each color. 3 height 3 tribe pawns.

Átírás:

Learnng n te nervous system I. renforcement learnng Balazs B Ujfalussy 24 october 2016

Teoretcal Neuroscence Computatonal and Matematcal Modelng of Neural Systems Larry Abbott and Peter Dayan Renforcement Learnng An Introducton Rcard S. Sutton and Andrew G. Barto

learnng Dynamcs of a neural network: r dr dt = r(t)+ + Wr(t) frng rate external nput synaptc wegts ow to modfy te parameters (w) to aceve a gven dynamcs? For a sngle neuron: v = f(wu) ow to modfy te w to mplement a gven mappng from nput u to response r?

Types of learnng v = f(wu) Supervsed learnng bot u and v are gven supervsed Hebban learnng, gradent-based (perceptron) - next week labelled nput data s sparse / expensve v does not elp te network ow to solve te task - ow to develop useful representatons Unsupervsed learnng only u s gven OK, but ow can we learn f we don t get any feed-back? goal: fnd patterns n te data learn useful representatons unlabelled data s ceap! rest of te class

Types of learnng v = f(wu) Supervsed learnng bot u and v are gven supervsed Hebban learnng, gradent-based (perceptron) - next week labelled nput data s sparse / expensve v does not elp te network ow to solve te task - ow to develop useful representatons Renforcement learnng v s not provded but some feed-back sgnal about te performance of te system agent nteracts wt ts envronment receves feed-back n te form of reward goal: maxmse future reward Unsupervsed learnng only u s gven OK, but ow can we learn f we don t get any feed-back? goal: fnd patterns n te data learn useful representatons unlabelled data s ceap!

Predctng reward Pavlovan - classcal condtonng uncondtoned stmulus, condtoned stmulus uncondtoned stmulus: smell & vew of food acton condtoned stmulus: sound of bell reward nstrumental - operant condtonng te actons of te anmal determne te reward

Rescorla-Wagner rule v represents predcted reward lnear predcton of reward v = wu E = 1 2 (v r)2 w {z! } w + de dw w! w + u wt = r v Predctng reward! E = 1 2 (wu de dw = 1 d 2 dw (wu de = u (v r) dw {z } error! r)2 r)2

Rescorla-Wagner rule v represents predcted reward lnear predcton of reward v = wu Predctng reward E = 1 2 (v r)2 w! w + de dw {z } w! w + u wt = r v

renforcement learnng State state of te envronment partally observed Markov property Acton agents nteract wt te envronment wt actons polcy maps states to actons actons may cange te state and/or lead to reward Reward Rt(s,a) s te reward gven at tme t nstate s and acton a negatve or postve goal: maxmse total reward polcy πt (at st) reward functon Rt(st,at) state transton functon G(st, at) everytng te agent can not fully control

Wy s t ard? renforcement learnng rewards are dstal - credt assgnment problem state-space s uge - searcng takes a long tme! state dynamcs s unknown state dynamcs s stocastc - nosy envronment or nosy acton rewards are stocastc states are only partally observed rules cange wt tme

k=0 grdworld state transtons P (s t+1 s t,a t ) rewards: r(s t,a t,s t+1 ) dscountng: R t = r t+1 + r t+2 + 2 r t+2 +... 1X = polcy: k r t+k+1 (a t s t ) k=0 k r t+k+1 wat s te value assocated wt a gven state under a polcy? Bellmann equaton: V (s) = E [R t S t = s] X 1 = E S t = s = E r t+1 + = X a = X a 1X k=0 k r t+k+2 (a s) X s 0 P (s 0 a, s) " S t = s r(s, a, s 0 )+ E 1 X k=0 (a s) X P (s 0 a, s) r(s, a, s 0 )+ V (s 0 ) s 0 consstency relatonsp between states depends on polcy optmal polcy: gest value learnng: fnd te optmal polcy k r t+k+2 S t = s 0#

grdworld state transtons P (s t+1 s t,a t ) rewards: r(s t,a t,s t+1 ) Bellmann equaton dscountng: for Q: R t = r t+1 + r t+2 + 2 r t+2 +... 1X Q (s, a) = X P (s 0 a, s) r(s, = a, s 0 )+ X k r (a s 0 ) Q (s 0,a) t+k+1 s 0 a k=0 polcy: k r t+k+1 (a t s t ) k=0 wat s te value assocated wt a gven state under a polcy? Bellmann equaton: V (s) = E [R t S t = s] X 1 = E S t = s = E r t+1 + = X a = X a 1X k=0 k r t+k+2 (a s) X s 0 P (s 0 a, s) " S t = s r(s, a, s 0 )+ E 1 X k=0 (a s) X P (s 0 a, s) r(s, a, s 0 )+ V (s 0 ) s 0 consstency relatonsp between states depends on polcy optmal polcy: gest value learnng: fnd te optmal polcy k r t+k+2 S t = s 0#

Computng te value functon, V(s) random polcy optmal polcy

solutons to te RL problem dynamc programmng solve Belmann equatons teratvely need an accurate model of te envronment polcy evaluaton: Vπ(s) π(a s) polcy mprovement: π(a s) Vπ(s) Monte Carlo tecnques update value functons based on average returns Q (s t,a t ) Q (s t,a t )+ R t Q (s t,r t ) temporal dfference learnng R don t wat wt te updates untl te end of te tral! {z } Q (s t,a t ) Q (s t,a t )+ r t+1 + Q (s t+1,a t+1 ) {z } estmate Q (s t,a t ) {z }

solutons to te RL problem temporal dfference learnng R don t wat wt te updates untl te end of te tral! Q (s t,a t ) Q (s t,a t )+ r t+1 + Q (s t+1,a t+1 ) {z } estmate Q (s t,a t ) {z } Monte Carlo temporal dfference

solutons to te RL problem temporal dfference learnng don t wat wt te updates untl te R end of te tral! Q (s t,a t ) Q (s t,a t )+ r t+1 + Q(s t+1,a t+1 ) {z Q(s t,a t ) } estmate Q-learnng: a powerful algortm tat as been appled to many dfferent real-word {z {z } } problems Q(s t,a t ) Q(s t,a t )+ r t+1 + max Q(s t+1,a) Q(s t,a t ) a {z } predcton error neuronal mplementaton: learn te state space - representatonal learnng tabular vs. functon approxmaton learnng s based on predcton error s reward predcton error calculated by te bran?

dopamne = predcton error? t r t+ Q t Q t+1 Q t t r t+1 + max Q(s t+1,a) Q(s t,a t ) a {z } t

dopamne = predcton error? t r t+ Q t Q t+1 Q t t

Megerősítéses tanulás Az aktív (környezettel való nterakcókból való) tanulás egyk nagy próblémája a felfedezés és a kaknázás (exploraton - explotaton) dlemmája: Amkor választanom kell, akkor a már megszerzett tudásomat aknázom k, azaz a pllanatnylag legjobbnak látszó leetőséget választom, vagy próbálok mnél több nformácót begyűjten a még smeretlen leetőségek értékéről (felfedezés). Az egyk klasszkus példa, amben vzsgáln szokták a dlemmát a "félkarú rabló" (n-armed bandt) játék. A játékos N különböző akcóból (játékgépből) választat, melyek során különböző valószínűséggel jutat jutalomoz. A játékos folyamatosan gyűjt a jutalmat és az nformácót, és frssít az egyes akcókoz tartozó értéket: Qt(a) = (R1 + R2 + + RKa) / Ka aol Ka az a eddg akcó választásának száma. Tegyük fel, ogy N=4 és az egyes választások átlagos értéke R(a) ~ Unform(0,1) egy véletlen szám 0 és 1 között, az aktuáls jutalom pedg a R(a) valószínüséggel 1, 1-R(a) valószínűséggel pedg 0. Írj egy rövd programot, am szmulálja a játékos vselkedését különböző döntésozó mecanzmusok mellett! Vzsgáld meg a begyűjtott jutalmak számát, a becsült akcó-értékeket (Q(a)) és a választásokat egy kb. 1000 menet osszú játékban. M lenne az optmáls stratága? Mlyen gyorsan - gyakran találta meg a játékos az optmáls stratégát? Tegyük fel, ogy a kezdetben mnden Q(a)=0.5, és játékos mndg a legnagyobb Q(a) értékkel rendelkező leetőséget választja a játékos. Ez jó stratéga? Mlyen veszélyt rejt magában? (4p) Módosítsunk annyt a stratégán, ogy a játékos kezdetben optmsta - mondjuk úgy ndul, mnta már 10- szer választotta volna mndegyk leetőséget, és mndannyszor nyert volna. M változk meg ettől? Mlyen előnye és átránya van az optmzmusnak? (2p) Tegyük fel, ogy a játékos valószínűség játékos - mnden leetőséget Q(a) arányában választ. Tud-e így több jutalmat gyűjten, mnt az ak mndg az általa legjobbnak vélt leetőséget választja? (2p) Van más ötleted arra, ogy ogyan leetne gyorsan megtaláln a legjobb stratégát? (2p)