Megerősítéses tanulás

Hasonló dokumentumok
Stratégiák tanulása az agyban

Megerősítéses tanulás

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Megerősítéses tanulási módszerek és alkalmazásaik

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Korszerű információs technológiák

Megerősítéses tanulás 2. előadás

Megerősítéses tanulás 7. előadás

Tanulás az idegrendszerben

Probabilisztikus modellek. Nagy Dávid

Megerősítéses tanulás 9. előadás

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla

Probabilisztikus funkcionális modellek idegrendszeri adatok elemzésére

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I.

Modellkiválasztás és struktúrák tanulása

STATISZTIKAI TANULÁS AZ IDEGRENDSZERBEN BAYES-I VISELKEDÉS TÖRÖK BALÁZS

Visszacsatolt (mély) neurális hálózatok

TARTALOMJEGYZÉK. TARTALOMJEGYZÉK...vii ELŐSZÓ... xiii BEVEZETÉS A lágy számításról A könyv célkitűzése és felépítése...

Megerősítéses tanulás

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Tanulás tanuló gépek tanuló algoritmusok mesterséges neurális hálózatok

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Mesterséges Intelligencia MI

Neurális hálózatok.... a gyakorlatban

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

I. LABOR -Mesterséges neuron

NEURÁLIS HÁLÓZATOK 1. eloadás 1

Gépi tanulás a gyakorlatban. Lineáris regresszió

Az idegrendszeri memória modelljei

Programozási módszertan. A gépi tanulás alapmódszerei

Egy csodálatos elme modellje

Irányításelmélet és technika II.

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Neurális hálózatok bemutató

Konvolúciós neurális hálózatok (CNN)

Adaptív menetrendezés ADP algoritmus alkalmazásával

A TANTÁRGY ADATLAPJA

Intelligens orvosi műszerek VIMIA023

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2007/2008

Irányítástechnika GÁSPÁR PÉTER. Prof. BOKOR JÓZSEF útmutatásai alapján

Hibadetektáló rendszer légtechnikai berendezések számára

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

Számítógépes döntéstámogatás. Genetikus algoritmusok

A TANTÁRGY ADATLAPJA

Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás

Intelligens Rendszerek Elmélete

KÖZELÍTŐ INFERENCIA II.

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Mesterséges Intelligencia MI

Intelligens ágensek. Mesterséges intelligencia február 28.

Fuzzy rendszerek és neurális hálózatok alkalmazása a diagnosztikában

Forgalmi modellezés BMEKOKUM209

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

Neurális hálózatok elméleti alapjai TULICS MIKLÓS GÁBRIEL

A kibontakozó új hajtóerő a mesterséges intelligencia

Probabilisztikus modellek II: Inferencia. Nagy Dávid

Gépi tanulás Gregorics Tibor Mesterséges intelligencia

KÖZELÍTŐ INFERENCIA II.

társadalomtudományokban

za TANTÁRGY ADATLAPJA

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Valószínűségi modellellenőrzés Markov döntési folyamatokkal

E x μ x μ K I. és 1. osztály. pontokként), valamint a bayesi döntést megvalósító szeparáló görbét (kék egyenes)

Regression games and applications TDK prezentáció

CARE. Biztonságos. otthonok idős embereknek CARE. Biztonságos otthonok idős embereknek Dr. Vajda Ferenc Egyetemi docens

Deep Learning a gyakorlatban Python és LUA alapon Tanítás: alap tippek és trükkök

Számítsuk ki a nyelvet! Matematika, fizika és algoritmusok a nyelvben

Gyártórendszerek irányítási struktúrái

Irányításelmélet és technika II.

Probabilisztikus modellek. Nagy Dávid

Kétszemélyes játékok Gregorics Tibor Mesterséges intelligencia

III.6. MAP REDUCE ELVŰ ELOSZTOTT FELDOLGOZÁSI ALGORITMUSOK ÉS TESZTKÖRNYEZET KIDOLGOZÁSA ADATBÁNYÁSZATI FELADATOK VÉGREHAJTÁSÁHOZ

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók 2. Pataki Béla

Biológiai rendszerek modellellenőrzése bayesi megközelítésben

Sarokba a bástyát! = nim

Logikai ágensek. Mesterséges intelligencia március 21.

Számítógépvezérelt irányítás és szabályozás elmélete (Bevezetés a rendszer- és irányításelméletbe, Computer Controlled Systems) 7.

Perceptron konvergencia tétel

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Szoftverminőségbiztosítás

A RADARJELEK DETEKTÁLÁSA NEURÁLIS HÁLÓZAT ALKALMAZÁSÁVAL

Mesterséges Intelligencia 1

Látórendszer modellezése

A megerősítéses tanulás alkalmazása az Othello játékban

Mesterséges intelligencia alapú regressziós tesztelés

Tartalom. Állapottér reprezentációk tulajdonságai stabilitás irányíthatóság megfigyelhetőség minimalitás

Az idegrendszeri memória modelljei

Kollektív tanulás milliós hálózatokban. Jelasity Márk

További forgalomirányítási és szervezési játékok. 1. Nematomi forgalomirányítási játék

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

5. Hét Sorrendi hálózatok

AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA

Bevezetés az informatikába

Bizonytalanság. Mesterséges intelligencia április 4.

Bevezetés a neurális számításokba Analóg processzortömbök,

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

Átírás:

Megerősítéses tanulás

elméleti kognitív neurális Introduction Knowledge representation Probabilistic models Bayesian behaviour Approximate inference I (computer lab) Vision I Approximate inference II: Sampling Measuring priors Neural representation of probabilities Structure learning Decision making and reinforcement learning Vision II

3

érzékelés jelenlegi megfigyelésből kikövetkeztetett információ percepció (észlelés) környezet világ tanult szabályosságai múltbeli események döntéshozás cselekvés izomvezérlés

Hogyan építsünk döntési modellt az érzékelési modellre? Választanunk tell egy optimalizálandó célváltozót - ezt hívjuk jutalomnak (reward) A motoros kimenetet véges mennyiségű fix cselekvésként modellezük, amelyek módosítják a környezetet Az érzékelési model látens változóira adott megfigyelés mellett következtetett értékek kombinációja a környezet (érzékelt) állapota Ki tell találnunk, hogy a környezet mely állapotában mely cselekvést válasszuk

A tanulás alapvető típusai Felügyelt Az adat: bemenet-kimenet párok halmaza A cél: függvényapproximáció, klasszifikáció Megerősítéses Az adat: állapotmegfigyelések és jutalmak A cél: optimális stratégia a jutalom maximalizálására Nem felügyelt, reprezentációs Az adat: bemenetek halmaza

A jutalom előrejelzésének tanulása Pavlovi - klasszikus kondicionálás csak az állapotok értékét tanuljuk, cselekvés nincs operáns kondicionálás a cselekvések határozzák meg a jutalmat

A jutalom kódolása az agykéregben Egyes dopamintermelő neuronok a majom agykérgében a jutalom és egyes környezeti változók között tanult kapcsolat alapján tüzelnek Az aktivitás a meglepetés mértékével és előjelével arányos

Az ágens-környezet modell Ágens: a tanulórendszer Környezet: minden, amit nem belsőleg állít elő Bemenet: aktuális állapot, jutalom Kimenet: cselekvés

Állapotok értékének tanulása Legegyszerűbb eset: véges mennyiségű állapotból áll a környezet minden állapot, s, a mentális model lateens változóinak ego kikövetkeztetett értékkombinációja (pl. vehetjük az a posteriori legvalószínűbb értékeket) minden állapothoz hozzárendelünk egy értéket, V(s), amely az állapot kívánatosságát kódolja minden döntés után, t időpillanatban, frissítjük az állapotértékek becslését a korábbi becslések és az aktuális jutalom alapján intuíció: egy állapot értékét meghatározza az abban kapható jutalom és a belőle kevés cselekvéssel elérhető további állapotok értéke Russell & Norvig, 1995

A jutalom hosszútávú maximalizációja Összesített jutalom: valamilyen becslést kell alkalmazni a jövőre nézve Különbség a felügyelt tanulástól: egyiknél azt tudjuk, hogy a képtérben milyen messze vagyunk az optimálistól, a másiknál arra kapunk egy becslést, hogy a paramétertérben mennyire térünk el az optimálistól

Temporal Difference tanulás A predikciós hibából tanulunk Az aktuálisan meglátogatott állapot értéke az előzőleg meglátogatottét önmagához hasonlóbbá teszi Korábban meglátogatott állapotokra is visszaterjeszthetjük a változtatást V t+1 (s t )=V t (s t )+ [r t+1 + V t (s t + 1) V t (s t )]

Modellalapú és modell nélküli RL Ha tudjuk az állapotok értékét, stratégiát kell alkotnunk a kiválasztandó cselekvésekre Ehhez tudnunk kell, melyik cselekvés melyik állapotba visz át (milyen valószínűséggel) Ezt is tanulhatjuk tapasztalatokból Vagy tanulhatjuk közvetlenül állapotcselekvés párok értékét Modell nélküli vagy Q-learning több paramétere van, de gyorsabban tudunk számolni vele h r t+1 + Q t+1 (s t,a t )=Q t (s t,a t )+ max a i Q t (s t +1,a) Q t (s t,a t )

Exploration vs. exploitation Amikor még keveset tudunk a környezetről, nincs értelme az első jutalomhoz vezető cselekvéssort ismételni a végtelenségig Amikor többet tudunk, akkor viszont érdemes a lehető legjobb stratégiát alkalmazni folyamatosan Szokásos megoldás: próbálkozzunk véletlenszerűen az elején, és fokozatosan emeljük a legjobbnak becsült cselekvés választásának valószínűségét

Az állapotérték-függvény reprezentációja Ha nincs olyan sok érték, használhatunk táblázatot Nagy illetve esetleg folytonos állapotterekben csak az állapotváltozókat tudjuk közvetlenül reprezentálni, nem az összes lehetséges értékkombinációt általánosítanunk kell olyan állapotokra, amiket sosem látogattunk meg korábban a többrétegű neurális hálózatok alkalmasak mindkét probléma megoldására mivel ezek tanításához szükséges egy elvárt kimenet minden lépésben, ezt a TD algoritmus predikciós hibájából kell megalkotnunk

TD tanulás neurális hálózattal Gerald Tesauro: TD-Gammon Előrecsatolt hálózat Bemenet: a lehetséges lépések nyomán elért állapotok Kimenet: állapotérték (nyerési valség) Minden lépésben meg kell határozni a hálózat kimeneti hibáját Reward signal alapján Eredmény: a legjobb emberi játékosokkal összemérhető

TD neurális reprezentációval Prediction error felhasználása a tanuláshoz Az állapotérték frissítése neurális reprezentációban: w( ) w( )+" (t)u(t ) (t) = X t A prediction error kiszámítása A teljes jövőbeli jutalom kellene hozzá r(t + ) v(t) Egylépéses lokális közelítést alkalmazunk X r(t + ) v(t) r(t)+v(t + 1) t Ha a környezet megfigyelhető, akkor az optimális stratégiához konvergál A hibát visszaterjeszthetjük a korábbi állapotokra is

Fizikai mozgás

Számítógépes játékok tanulása reinforcement learning + deep networks megfigyelés: a képernyő pixelei + pontszám Mnih et al, 2015 20

A jutalom reprezentációja az agyban

Glascher, Daw Dayan, O'Doherty, Neuron, 2010. Modellalapú és modell nélküli algoritmusok predikciós hibájájával való korreláció

fmri eredmények

HF Add meg a kincskeresős játékhoz tartozó állapot- és cselekvésteret Valósítsd meg valamilyen programnyelven az ágens és a környezet szimulált interakcióját Q-learning segítségével tanuld meg, melyik állapotban melyik cselekvés a leghasznosabb Eredményedet ábrákkal illusztráld