Megerősítéses tanulás

Hasonló dokumentumok
Megerősítéses tanulás

Stratégiák tanulása az agyban

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Correlation & Linear Regression in SPSS

Megerősítéses tanulási módszerek és alkalmazásaik

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Correlation & Linear Regression in SPSS

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Tanulás az idegrendszerben

Angol Középfokú Nyelvvizsgázók Bibliája: Nyelvtani összefoglalás, 30 kidolgozott szóbeli tétel, esszé és minta levelek + rendhagyó igék jelentéssel

On The Number Of Slim Semimodular Lattices

Széchenyi István Egyetem

Genome 373: Hidden Markov Models I. Doug Fowler

ANGOL NYELVI SZINTFELMÉRŐ 2013 A CSOPORT. on of for from in by with up to at

Lopocsi Istvánné MINTA DOLGOZATOK FELTÉTELES MONDATOK. (1 st, 2 nd, 3 rd CONDITIONAL) + ANSWER KEY PRESENT PERFECT + ANSWER KEY

Phenotype. Genotype. It is like any other experiment! What is a bioinformatics experiment? Remember the Goal. Infectious Disease Paradigm

Construction of a cube given with its centre and a sideline

OLYMPICS! SUMMER CAMP

Számítógéppel irányított rendszerek elmélete. A rendszer- és irányításelmélet legfontosabb részterületei. Hangos Katalin. Budapest

Tudományos Ismeretterjesztő Társulat

Korszerű információs technológiák

Bevezetés a kvantum-informatikába és kommunikációba 2015/2016 tavasz

Visszacsatolt (mély) neurális hálózatok

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

Választási modellek 3

Using the CW-Net in a user defined IP network

Statistical Inference

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Hypothesis Testing. Petra Petrovics.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Supporting Information

A rosszindulatú daganatos halálozás változása 1975 és 2001 között Magyarországon

First experiences with Gd fuel assemblies in. Tamás Parkó, Botond Beliczai AER Symposium

Cluster Analysis. Potyó László

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

Proxer 7 Manager szoftver felhasználói leírás

Csima Judit április 9.

Performance Modeling of Intelligent Car Parking Systems

Pletykaalapú gépi tanulás teljesen elosztott környezetben

Neurális hálózatok.... a gyakorlatban

EN United in diversity EN A8-0206/419. Amendment

discosnp demo - Peterlongo Pierre 1 DISCOSNP++: Live demo

Probabilisztikus funkcionális modellek idegrendszeri adatok elemzésére

Tavaszi Sporttábor / Spring Sports Camp május (péntek vasárnap) May 2016 (Friday Sunday)

Cashback 2015 Deposit Promotion teljes szabályzat

A modern e-learning lehetőségei a tűzoltók oktatásának fejlesztésében. Dicse Jenő üzletfejlesztési igazgató

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Statistical Dependence

SQL/PSM kurzorok rész

Tel.: (+361) , FAX: (+361) vagy Honlap:

Mapping Sequencing Reads to a Reference Genome

MAKING MODERN LIVING POSSIBLE. Danfoss Heating Solutions

A golyók felállítása a Pool-biliárd 8-as játékának felel meg. A golyók átmérıje 57.2 mm. 15 számozott és egy fehér golyó. Az elsı 7 egyszínő, 9-15-ig

Tudományos Ismeretterjesztő Társulat

Statisztikai tanulás az idegrendszerben, Bevezetés. Bányai Mihály

Statisztikai tanulás az idegrendszerben, Bevezetés. Bányai Mihály

3. MINTAFELADATSOR KÖZÉPSZINT. Az írásbeli vizsga időtartama: 30 perc. III. Hallott szöveg értése

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

Utasítások. Üzembe helyezés

(NGB_TA024_1) MÉRÉSI JEGYZŐKÖNYV

Abigail Norfleet James, Ph.D.

(Asking for permission) (-hatok/-hetek?; Szabad ni? Lehet ni?) Az engedélykérés kifejezésére a következő segédigéket használhatjuk: vagy vagy vagy

TestLine - Angol teszt Minta feladatsor

Ültetési és öntözési javaslatok. Planting and watering instructions

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

ANGOL NYELVI SZINTFELMÉRŐ 2015 B CSOPORT

Budapest By Vince Kiado, Klösz György

Király Linda - Can't Let Go dalszöveg - lyrics

NYOMÁSOS ÖNTÉS KÖZBEN ÉBREDŐ NYOMÁSVISZONYOK MÉRÉTECHNOLÓGIAI TERVEZÉSE DEVELOPMENT OF CAVITY PRESSURE MEASUREMENT FOR HIGH PRESURE DIE CASTING

STUDENT LOGBOOK. 1 week general practice course for the 6 th year medical students SEMMELWEIS EGYETEM. Name of the student:

Smaller Pleasures. Apróbb örömök. Keleti lakk tárgyak Répás János Sándor mûhelyébõl Lacquerware from the workshop of Répás János Sándor

General information for the participants of the GTG Budapest, 2017 meeting

Searching in an Unsorted Database

A BÜKKI KARSZTVÍZSZINT ÉSZLELŐ RENDSZER KERETÉBEN GYŰJTÖTT HIDROMETEOROLÓGIAI ADATOK ELEMZÉSE

HAMBURG Használati útmutató Vezérlőmodul UKSM 24VDC Cikkszám:

Társasjáték az Instant Tanulókártya csomagokhoz

1. MINTAFELADATSOR KÖZÉPSZINT. Az írásbeli vizsga időtartama: 30 perc. III. Hallott szöveg értése

EGYSZERŰNEK TŰNIK IV. RÉSZ

Meteorológiai ensemble elırejelzések hidrológiai célú alkalmazásai

mondat ami nélkül ne indulj el külföldre

EGY KIS ZŰRZAVAR. Lecke (Középhaladó 1. / 1.) SOMETIMES, SOMETIME VAGY SOME TIME?

Számítógépes Hálózatok GY 8.hét

Megerősítéses tanulás 9. előadás

Computer Architecture

Előszó.2. Starter exercises. 3. Exercises for kids.. 9. Our comic...17

Create & validate a signature

ELEKTRONIKAI ALAPISMERETEK ANGOL NYELVEN

LEGYÜNK VÁLASZTÉKOSAK

Minta ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA II. Minta VIZSGÁZTATÓI PÉLDÁNY

A HATÁSOS PREZENTÁCIÓK TITKAI. Bincze Bea Szeptember 30.

Megerősítéses tanulás 2. előadás

Ensemble Kalman Filters Part 1: The basics

Expansion of Red Deer and afforestation in Hungary

KELER KSZF Zrt. bankgarancia-befogadási kondíciói. Hatályos: július 8.

NEURÁLIS HÁLÓZATOK 1. eloadás 1

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla


Kvantum-informatika és kommunikáció 2015/2016 ősz. A kvantuminformatika jelölésrendszere szeptember 11.

Átírás:

Megerősítéses tanulás

2

Múltbeli események Tudás A világ tanult szabályosságai Tudatosság? A konkrét megfigyelésből kikövetkeztetett információ Döntéshozás Érzékelés Izomvezérlés

How to build a decision making model on top of the perceptual one? We need to choose a target variable from the model that we will try to optimise - this will be called the reward Motor output will be modelled a fixed set of possible actions that make modifications in the environment A combination of inferred values for the latent variables is called a (perceived) state of the environment We have to figure out which action to choose in every state

A tanulás alapvető típusai Felügyelt Az adat: bemenet-kimenet párok halmaza A cél: függvényapproximáció, klasszifikáció Megerősítéses Az adat: állapotmegfigyelések és jutalmak A cél: optimális stratégia a jutalom maximalizálására Nem felügyelt, reprezentációs Az adat: bemenetek halmaza

Classical conditioning Simplest case of learning from reward

Reward encoding in the cortex Dopaminerg neurons in the monkey s cortex respond according to the learned association between indicator variables and reward Activity is proportional to surprise

Az ágens-környezet modell Ágens: a tanulórendszer Környezet: minden, amit nem belsőleg állít elő Bemenet: aktuális állapot, jutalom Kimenet: cselekvés

Learning the value of states Simplest case: there is a finite number of states of the environment each state s is a combination of inferred values for the latent variables of the mental model (e.g. we take the a posteriori most probable values) for each state we assign a value, V(s), that encodes the desirability of that state after each decision, at time t, we update the estimation of state values using previous estimations and the reward intuition: a value of a state is determined by the reward, and the value of other states that are accessible from it through a few actions Russell & Norvig, 1995

A jutalom hosszútávú maximalizációja Összesített jutalom: valamilyen becslést kell alkalmazni a jövőre nézve Különbség a felügyelt tanulástól: egyiknél azt tudjuk, hogy a képtérben milyen messze vagyunk az optimálistól, a másiknál arra kapunk egy becslést, hogy a paramétertérben mennyire térünk el az optimálistól

Temporal Difference learning We learn from prediction error The value of the state we stepped on makes the previously visited state more similar to itself We can propagate to earlier states too V t+1 (s t )=V t (s t )+ [r t+1 + V t (s t + 1) V t (s t )]

Model-based and model-free RL We have to use a strategy knowing the values of states We need to know which action leads to which state We can learn that from trying too Or alternatively, we can learn the value of state-action pairs instead Model-free or Q-learning has more parameters, needs less evaluations Q t+1 (s t,a t )=Q t (s t,a t )+ h r t+1 + max a i Q t (s t +1,a) Q t (s t,a t )

Tanulási szabályok Off-policy Q-learning On-policy szabály (SARSA): nem a lehető legjobb, hanem mindig az aktuálisan választott cselekvés alapján tanulunk

Exploration vs. exploitation When we don t know anything about the environment yet, it doesn t make sense to repeat the first series of actions that led to some reward When we know more, we can just use the best strategy we found Usual way: act randomly in the beginning, gradually increase of probability of choosing the action we think is best

Representation of the value function If there are not so many, we can use a table With large and continuous spaces we can only represent state variables we need to generalise to states never visited feedforward neural networks are a good choice we have to construct a desired output for backpropagation at each step from the prediction error

TD tanulás neurális hálózattal Gerald Tesauro: TD-Gammon Előrecsatolt hálózat Bemenet: a lehetséges lépések nyomán elért állapotok Kimenet: állapotérték (nyerési valség) Minden lépésben meg kell határozni a hálózat kimeneti hibáját Reward signal alapján Eredmény: a legjobb emberi játékosokkal összemérhető

TD neurális reprezentációval Prediction error felhasználása a tanuláshoz Az állapotérték frissítése neurális reprezentációban: w( ) w( )+" (t)u(t ) (t) = X t A prediction error kiszámítása A teljes jövőbeli jutalom kellene hozzá r(t + ) v(t) Egylépéses lokális közelítést alkalmazunk X r(t + ) v(t) r(t)+v(t + 1) t Ha a környezet megfigyelhető, akkor az optimális stratégiához konvergál A hibát visszaterjeszthetjük a korábbi állapotokra is

Learning to play computer games reinforcement learning combined with deep networks observation: computer screen & score Mnih et al, 2015 18

Gépi példák

The effect of reward in dopaminerg cell of basal ganglia An interpretation: Dopamine cells signals the difference between the expected and received reward.

Glascher, Daw Dayan, O'Doherty, Neuron, 2010. Modellalapú és modell nélküli algoritmusok predikciós hibájájával való korreláció

fmri eredmények

Mi az, amit tényleg tudunk az agy működéséről? Nagyon keveset Anatómiáról sokat tudunk de nem ismerjük az idegsejtek pontos összeköttetési hálózatát (connectome) a lokális összeköttetési mintázatok is csak részben ismertek Dinamikáról is sokat tudunk le tudjuk írni egyes neuronok és hálózatok elektromos és kémiai viselkedését de nehezen tudjuk ezt idegrendszeri funkciókhoz kötni Lokalizációról is sokat tudunk alacsony szintű érzékelés, motorvezérlés, epizodikus memória, stb sok funkcióról csak sejtések vannak Sok receptív mezőt ismerünk feltéve, hogy a megfelelő stimulustulajdonságokat rögzítettük, amikor leírtuk őket objektumokról és magasabbrendű koncepciókról csak tippjeink vannak Sokat tudunk arról, hogy hogy kell hasonló problémákat megoldani, mint az agy specializált megoldásokkal, általános problémamegoldó nincs fogalmunk sincs, hogyan fordíthatnánk le ezeket biofizikai implementációra Egy kicsit arról is tudunk, hogy hogyan nézhet ki a mentális modell, és hogyan lehet következtetni benne

HF Add meg a kincskeresős játékhoz tartozó állapot- és cselekvésteret Valósítsd meg valamilyen programnyelven az ágens és a környezet szimulált interakcióját Q-learning segítségével tanuld meg, melyik állapotban melyik cselekvés a leghasznosabb Eredményedet ábrákkal illusztráld