Stratégiák tanulása az agyban

Hasonló dokumentumok
Megerősítéses tanulás

Megerősítéses tanulás

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Megerősítéses tanulási módszerek és alkalmazásaik

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Korszerű információs technológiák

Megerősítéses tanulás 2. előadás

Megerősítéses tanulás 9. előadás

Megerősítéses tanulás 7. előadás

Tanulás az idegrendszerben

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla

Megerősítéses tanulás

Modellkiválasztás és struktúrák tanulása

I. LABOR -Mesterséges neuron

Mesterséges Intelligencia MI

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I.

Programozási módszertan. A gépi tanulás alapmódszerei

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Gépi tanulás a gyakorlatban. Lineáris regresszió

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Probabilisztikus funkcionális modellek idegrendszeri adatok elemzésére

Az idegrendszeri memória modelljei

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2007/2008

NEURÁLIS HÁLÓZATOK 1. eloadás 1

Irányítástechnika GÁSPÁR PÉTER. Prof. BOKOR JÓZSEF útmutatásai alapján

TARTALOMJEGYZÉK. TARTALOMJEGYZÉK...vii ELŐSZÓ... xiii BEVEZETÉS A lágy számításról A könyv célkitűzése és felépítése...

Tanulás tanuló gépek tanuló algoritmusok mesterséges neurális hálózatok

Adaptív menetrendezés ADP algoritmus alkalmazásával

Neurális hálózatok.... a gyakorlatban

Irányításelmélet és technika II.

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

Neurális hálózatok bemutató

Egy csodálatos elme modellje

Visszacsatolt (mély) neurális hálózatok

Számítógépes döntéstámogatás. Genetikus algoritmusok

Intelligens ágensek. Mesterséges intelligencia február 28.

Gyártórendszerek irányítási struktúrái

Gépi tanulás Gregorics Tibor Mesterséges intelligencia

Irányításelmélet és technika II.

Hibadetektáló rendszer légtechnikai berendezések számára

Mérési struktúrák

Mesterséges Intelligencia MI

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Mit mond a XXI. század emberének a statisztika?

Dinamikus modellek szerkezete, SDG modellek

Probabilisztikus modellek V: Struktúra tanulás. Nagy Dávid

Forgalmi modellezés BMEKOKUM209

Intelligens orvosi műszerek VIMIA023

Valószínűségi változók. Várható érték és szórás

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

5. Hét Sorrendi hálózatok

Számítsuk ki a nyelvet! Matematika, fizika és algoritmusok a nyelvben

Kétszemélyes játékok Gregorics Tibor Mesterséges intelligencia

Konvolúciós neurális hálózatok (CNN)

Sarokba a bástyát! = nim

Magasabb idegrendszeri folyamatok

Szoftverminőségbiztosítás

Logikai ágensek. Mesterséges intelligencia március 21.

V & V Feladatok. V & V Feladatok

V. Tanuláselméleti perspektíva. Behaviorizmus

Az idegrendszeri memória modelljei

Aszinkron sorrendi hálózatok

Döntési rendszerek I.


Intelligens Rendszerek Elmélete

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

A RADARJELEK DETEKTÁLÁSA NEURÁLIS HÁLÓZAT ALKALMAZÁSÁVAL

Mesterséges intelligencia alapú regressziós tesztelés

Deep Learning a gyakorlatban Python és LUA alapon Tanítás: alap tippek és trükkök

KÖZELÍTŐ INFERENCIA II.

További forgalomirányítási és szervezési játékok. 1. Nematomi forgalomirányítási játék

Az orvosi pszichológia alapjai III. Tanulás és emlékezés

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

Mesterséges Intelligencia MI

társadalomtudományokban

Döntéselmélet II. ELŐADÁS DÖNTÉSI FOLYAMAT

Bevezetés az informatikába

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Ellátási lánc optimalizálás P-gráf módszertan alkalmazásával mennyiségi és min ségi paraméterek gyelembevételével

Tanulás Boltzmann gépekkel. Reiz Andrea

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Mesterséges Intelligencia 1

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Az egységugrás függvény a 0 időpillanatot követően 10 nagyságú jelet ad, valamint K=2. Vizsgáljuk meg a kimenetet:

Adatbányászati szemelvények MapReduce környezetben

Regressziós játékok. Pintér Miklós. XXVII. OPKUT Konferencia 2007, június 7-9. Balatonöszöd. Budapesti Corvinus Egyetem Matematika Tanszék

Számítógép és programozás 2

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Bevezetés az állapottér-elméletbe Dinamikus rendszerek állapottér reprezentációi

Tartalom. Állapottér reprezentációk tulajdonságai stabilitás irányíthatóság megfigyelhetőség minimalitás

Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás

III.6. MAP REDUCE ELVŰ ELOSZTOTT FELDOLGOZÁSI ALGORITMUSOK ÉS TESZTKÖRNYEZET KIDOLGOZÁSA ADATBÁNYÁSZATI FELADATOK VÉGREHAJTÁSÁHOZ

KÖZELÍTŐ INFERENCIA II.

Statisztikai tanulás az idegrendszerben, Bevezetés. Bányai Mihály

E x μ x μ K I. és 1. osztály. pontokként), valamint a bayesi döntést megvalósító szeparáló görbét (kék egyenes)

Átírás:

Statisztikai tanulás az idegrendszerben, 2019. Stratégiák tanulása az agyban Bányai Mihály banyai.mihaly@wigner.mta.hu http://golab.wigner.mta.hu/people/mihaly-banyai/

Kortárs MI thispersondoesnotexist.com

Múltbeli események Tudás A világ tanult szabályosságai Tudatosság? A konkrét megfigyelésből kikövetkeztetett információ Döntéshozás Érzékelés Izomvezérlés

Hogyan építsünk döntési modellt az érzékelési modellre? Választanunk tell egy optimalizálandó célváltozót - ezt hívjuk jutalomnak (reward) A motoros kimenetet véges mennyiségű fix cselekvésként modellezük, amelyek módosítják a környezetet Az érzékelési model látens változóira adott megfigyelés mellett következtetett értékek kombinációja a környezet (érzékelt) állapota Ki tell találnunk, hogy a környezet mely állapotában mely cselekvést válasszuk

A tanulás alapvető típusai Felügyelt Az adat: bemenet-kimenet párok halmaza A cél: függvényapproximáció, klasszifikáció Megerősítéses Az adat: állapotmegfigyelések és jutalmak A cél: optimális stratégia a jutalom maximalizálására Nem felügyelt, reprezentációs Az adat: bemenetek halmaza

A jutalom előrejelzésének tanulása Pavlovi - klasszikus kondicionálás csak az állapotok értékét tanuljuk, cselekvés nincs operáns kondicionálás a cselekvések határozzák meg a jutalmat

A jutalom kódolása az agykéregben Egyes dopamintermelő neuronok a majom agykérgében a jutalom és egyes környezeti változók között tanult kapcsolat alapján tüzelnek Az aktivitás a meglepetés mértékével és előjelével arányos

Az ágens-környezet modell Ágens: a tanulórendszer Környezet: minden, amit nem belsőleg állít elő Bemenet: aktuális állapot, jutalom Kimenet: cselekvés

Állapotok értékének tanulása Legegyszerűbb eset: véges mennyiségű állapotból áll a környezet minden állapot, s, a mentális model lateens változóinak ego kikövetkeztetett értékkombinációja (pl. vehetjük az a posteriori legvalószínűbb értékeket) minden állapothoz hozzárendelünk egy értéket, V(s), amely az állapot kívánatosságát kódolja minden döntés után, t időpillanatban, frissítjük az állapotértékek becslését a korábbi becslések és az aktuális jutalom alapján intuíció: egy állapot értékét meghatározza az abban kapható jutalom és a belőle kevés cselekvéssel elérhető további állapotok értéke Russell & Norvig, 1995 https://cs.stanford.edu/people/karpathy/reinforcejs/gridworld_td.html

A jutalom hosszútávú maximalizációja Összesített jutalom: valamilyen becslést kell alkalmazni a jövőre nézve Különbség a felügyelt tanulástól: egyiknél azt tudjuk, hogy a képtérben milyen messze vagyunk az optimálistól, a másiknál arra kapunk egy becslést, hogy a paramétertérben mennyire térünk el az optimálistól

Temporal Difference tanulás A predikciós hibából tanulunk Az aktuálisan meglátogatott állapot értéke az előzőleg meglátogatottét önmagához hasonlóbbá teszi Korábban meglátogatott állapotokra is visszaterjeszthetjük a változtatást

Cselekvésválasztás Az ágens a környezet állapotaihoz értéket rendelő függvény tanul V: s -> R Ahhoz, hogy kiválaszthassunk egy cselekvést, tudnunk kell, hogy az aktuális állapotból melyik cselekvés melyik állapotba vezet át M: (s,a) -> s illetve általánosabban M: (s1,s2,a) -> P ezt az M függvényt nevezzük a környezet modelljének Minden olyan RL megoldásban, ahol állapotérték-függvényt tanulunk, meg kel tanulnunk a modellfüggvényt is ezeket modellalapú megoldásoknak nevezzük

Modellmentes RL A környezet modelljének megtanulása helyett tannulhatjuk közvetlenül állapotcselekvés párok értékét Q: (s,a) -> R hasonló tanulóalgoritmusok használhatóak ebben az esetben is a cselekvésválasztáshoz csak a Q függvényre van szükség, modellre nem

Deliberatív és reaktív rendszerek A Q függvények (#állapotok x #cselekvések) mennyiségű parametere van, míg a V-nek csak (#állapotok) sokkal több adatra van szükségünk a Q becsléséhez mint a V-éhez Modellalapú megoldásokban az M újrahasznosítható új feladatnál, a Q-t nulláról kell újratanulni Modellalapú megoldásokban sokkal számításigényesebb a cselekvésválasztás de a modell segítségével készíthetünk hosszútávú terveket a modellmentes megoldások reflexek halmazához hasonlók a kit rendszer kiegészítheti egymást, főként egy feladat elsajátításának különböző fázisaiban

Exploration vs. exploitation Amikor még keveset tudunk a környezetről, nincs értelme az első jutalomhoz vezető cselekvéssort ismételni a végtelenségig Amikor többet tudunk, akkor viszont érdemes a lehető legjobb stratégiát alkalmazni folyamatosan Szokásos megoldás: próbálkozzunk véletlenszerűen az elején, és fokozatosan emeljük a legjobbnak becsült cselekvés választásának valószínűségét

Az állapotérték-függvény reprezentációja Ha nincs olyan sok érték, használhatunk táblázatot Nagy illetve esetleg folytonos állapotterekben csak az állapotváltozókat tudjuk közvetlenül reprezentálni, nem az összes lehetséges értékkombinációt általánosítanunk kell olyan állapotokra, amiket sosem látogattunk meg korábban a többrétegű neurális hálózatok alkalmasak mindkét probléma megoldására mivel ezek tanításához szükséges egy elvárt kimenet minden lépésben, ezt a TD algoritmus predikciós hibájából kell megalkotnunk

Optimális döntések tanulása neurális hálózattal Gerald Tesauro: TD-Gammon Többrétegű neuronhálózat Bemenet: a lehetséges lépések nyomán elért állapotok Kimenet: a nyerés valószínűsége az adott állapotból Ez alapján ki lehet választani, hogy melyik állapotba szeretnénk kerülni Eredmény: a legjobb emberi játékosokkal összemérhető A teljes tanítási folyamat ma: 5s

TD neurális reprezentációval Prediction error felhasználása a tanuláshoz Az állapotérték frissítése neurális reprezentációban: w( ) w( )+" (t)u(t ) (t) = X t A prediction error kiszámítása A teljes jövőbeli jutalom kellene hozzá r(t + ) v(t) Egylépéses lokális közelítést alkalmazunk X r(t + ) v(t) r(t)+v(t + 1) t Ha a környezet megfigyelhető, akkor az optimális stratégiához konvergál A hibát visszaterjeszthetjük a korábbi állapotokra is

Számítógépes játékok tanulása reinforcement learning + deep networks megfigyelés: a képernyő pixelei + pontszám!19 Mnih et al, 2015

Fizikai mozgás

A jutalom reprezentációja az agyban

RL-változatok korrelátumai az agyban Glascher, Daw, Dayan & O'Doherty, Neuron, 2010

RL-változatok korrelátumai az agyban Deliberatív modellalapú RL prefrontális és parietális kéreg Reaktív modellmentes RL kéreg alatti struktúrák

HF Add meg a kincskeresős játékhoz tartozó állapot- és cselekvésteret Valósítsd meg valamilyen programnyelven az ágens és a környezet szimulált interakcióját Q-learning segítségével tanuld meg, melyik állapotban melyik cselekvés a leghasznosabb Eredményedet ábrákkal illusztráld