Tanulás elosztott rendszerekben/3

Hasonló dokumentumok
Tanulás elosztott rendszerekben/2. Intelligens Elosztott Rendszerek BME-MIT, 2018

Megerősítéses tanulási módszerek és alkalmazásaik

Megerősítéses tanulás

Mesterséges Intelligencia MI

Kooperáció és intelligencia

Mesterséges Intelligencia MI

Döntési rendszerek I.

Monoton Engedmény Protokoll N-M multilaterális tárgyalás

Rasmusen, Eric: Games and Information (Third Edition, Blackwell, 2001)

13. Tanulás elosztott rendszerekben/1. Intelligens Elosztott Rendszerek BME-MIT, 2017

Korszerű információs technológiák

Megerősítéses tanulás 2. előadás

Megerősítéses tanulás 7. előadás

Adaptív menetrendezés ADP algoritmus alkalmazásával

Kétszemélyes játékok Gregorics Tibor Mesterséges intelligencia

Nem-kooperatív játékok

Bonyolult jelenség, aminek nincs jó modellje, sok empirikus adat, intelligens (ember)ágens képessége, hogy ilyen problémákkal mégis megbirkozzék.

Mátrixjátékok tiszta nyeregponttal

12. előadás - Markov-láncok I.

Stratégiák tanulása az agyban

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

1. feladat Az egyensúly algoritmus viselkedése: Tekintsük a kétdimenziós Euklideszi teret, mint metrikus teret. A pontok

Mikroökonómia I. B. ELTE TáTK Közgazdaságtudományi Tanszék. 12. hét STRATÉGIAI VISELKEDÉS ELEMZÉSE JÁTÉKELMÉLET

DIFFERENCIAEGYENLETEK

Markov-láncok stacionárius eloszlása

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Megerősítéses tanulás

PIACI JÁTSZMÁK. Bevezető Közgazdaságtan Tanszék

Diszkrét idejű felújítási paradoxon

Mesterséges Intelligencia MI

Hidden Markov Model. March 12, 2013

V. Kétszemélyes játékok

JÁTÉKELMÉLETTEL KAPCSOLATOS FELADATOK

Problémamegoldás kereséssel. Mesterséges intelligencia március 7.

Navigáci. stervezés. Algoritmusok és alkalmazásaik. Osváth Róbert Sorbán Sámuel

Markov modellek

Megerősítéses tanulás 9. előadás

Döntési rendszerek I.

Sapientia - Erdélyi Magyar TudományEgyetem (EMTE) Csíkszereda IRT- 4. kurzus. 3. Előadás: A mohó algoritmus

Ismételt játékok: véges és végtelenszer. Kovács Norbert SZE GT. Példa. Kiindulás: Cournot-duopólium játék Inverz keresleti görbe: P=150-Q, ahol

Universität M Mis is k k olol ci c, F Eg a y kultä etem t, für Wi Gazda rts ságcha tudft o sw máis n s yen i scha Kar, ften,

Megoldott feladatok november 30. n+3 szigorúan monoton csökken, 5. n+3. lim a n = lim. n+3 = 2n+3 n+4 2n+1

KÖZGAZDASÁGTAN I. Készítette: Bíró Anikó, K hegyi Gergely, Major Klára. Szakmai felel s: K hegyi Gergely június

Mesterséges Intelligencia MI

Intelligens ágensek. Mesterséges intelligencia február 28.

Statisztika elméleti összefoglaló

További forgalomirányítási és szervezési játékok. 1. Nematomi forgalomirányítási játék

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Szokol Patricia szeptember 19.

Ambiens szabályozás problémája Kontroll és tanulás-1

Monte Carlo módszerek a statisztikus fizikában. Az Ising modell. 8. előadás

PIACI JÁTSZMÁK. Fiú. Színház. Színház (4 ; 2) (0 ; 0) A38 (0 ; 0) (2 ; 4) Lány

(Diszkrét idejű Markov-láncok állapotainak

Véletlenszám generátorok és tesztelésük HORVÁTH BÁLINT

Dunaújvárosi Főiskola Informatikai Intézet. Intelligens ágensek. Dr. Seebauer Márta. főiskolai tanár

Számításelmélet. Második előadás

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Felső végükön egymásra támaszkodó szarugerendák egyensúlya

Fraktálok. Hausdorff távolság. Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék március 14.

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

Függvények növekedési korlátainak jellemzése

A megerősítéses tanulás alkalmazása az Othello játékban

Autoregresszív és mozgóátlag folyamatok

1000 forintos adósságunkat, de csak 600 forintunk van. Egyetlen lehetőségünk, hogy a


Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

N-személyes játékok. Bársony Alex

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Kétszemélyes játékok

1. Lineáris differenciaegyenletek

Nagyságrendek. Kiegészítő anyag az Algoritmuselmélet tárgyhoz. Friedl Katalin BME SZIT február 1.

Közgazdaságtan I. 11. alkalom

1.1. Vektorok és operátorok mátrix formában

Teljesen elosztott adatbányászat alprojekt

Problémás regressziók

Játékelmélet és stratégiai gondolkodás

Kollektív tanulás milliós hálózatokban. Jelasity Márk

f(x) vagy f(x) a (x x 0 )-t használjuk. lim melyekre Mivel itt ɛ > 0 tetszőlegesen kicsi, így a a = 0, a = a, ami ellentmondás, bizonyítva

A Termelésmenedzsment alapjai tárgy gyakorló feladatainak megoldása

Mátrixhatvány-vektor szorzatok hatékony számítása

Explicit hibabecslés Maxwell-egyenletek numerikus megoldásához

Van-e kapcsolat a változók között? (példák: fizetés-távolság; felvételi pontszám - görgetett átlag)

Intelligens Elosztott Rendszerek. Dobrowiecki Tadeusz és Eredics Péter, Gönczy László, Pataki Béla és Strausz György közreműködésével

Tanulás Boltzmann gépekkel. Reiz Andrea

Mesterséges Intelligencia (MI)

Mesterséges Intelligencia MI

A stratégiák összes kombinációján (X) adjunk meg egy eloszlást (z) Az eloszlás (z) szerint egy megfigyelő választ egy x X-et, ami alapján mindkét

Játékelméleti alapvetés - I

Q 1 D Q 2 (D x) 2 (1.1)

KÖZGAZDASÁGTAN. Játékelmélet Szalai László

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Osztott algoritmusok

Koordinálás és feladatkiosztás aukciókkal 3.rész. Kooperáció és intelligencia, Dobrowiecki, BME-MIT

Least Squares becslés

Kooperáció és intelligencia kis HF-ok/ Kooperáció és intelligencia, Dobrowiecki T., BME-MIT 1

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

Átírás:

Tanulás elosztott rendszerekben/3

MARL Multi Agent Reinforcement Learning Többágenses megerősítéses tanulás Kezdjük egy ágenssel. Legyenek a környezeti állapotai s-ek, cselekvései a-k, az ágens cselekvéseit meghatározó eljárásmód p, ill. ágens cselekvés-érték függvénye Q(s,a). Az állapotok és a cselekvések közötti kapcsolatot az un. Markov döntési folyamat (MDF) írja le, T(s,a,s ) átmenet-valószínűségel. Egyes állapotokban ágens r(s,a,s ) közvetlen megerősítést kap. Ágens célja megállapítani azt az optimális eljárásmódot, ami a diszkont hátralévő jutalmat (az s k állapottól végtelen jövőbe) maximálja, ahol γ a diszkont faktor és r a megerősítés. j Rk E rk j1 j0 Adott eljárásmód mellett az ágens cselekvés-érték függvényt tanul p j Q s, a E rk j1 sk s, ak a, p j0

MARL Multi Agent Reinforcement Learning Többágenses megerősítéses tanulás A lehető legjobb eredmény az optimális cselekvés-érték függvény: ami teljesíti az un. Bellman egyenletet:, max p, Q s a Q s a, (,, ) (,, ) max, Q s a T s a s r s a s a Q s a s S Az ágens eljárásmódja mohó: p s arg max, ami optimális, ha Q is optimális. a Q s a p

A Bellman-egyenlet ismeretlen r és T mellett az un. Q-tanulással oldható meg (jelen formában időkülönbség Q-tanulással):,, max,, 1 Q s, a r max Q s, a Q s a Q s a r Q s a Q s a k1 k k k k k k k 1 a k k 1 k k k k k k k k k1 a k k 1 Q-tanulás bizonyos feltételek mellett optimális Q-hoz konvergál. A legfontosabb feltétel, hogy a tanuló ágensnek nem nulla valószínűséggel ki kell próbálnia minden létező cselekvését. Nem tud tehát csak mohó lenni, a mohóságát felfedezési igénnyel kell vegyítenie. A mohóság + felfedezés keverékviselkedést biztosítani tudjuk: - ε-mohósággal: az ágens ε valószínűséggel véletlen cselekvést választ, ill. 1-ε valószínűséggel mohó, vagy - Boltzmann-felfedezési modellel, ahol egy a cselekvés megválasztásának valószínűsége egy s állapotban: ahol a T hőmérséklet a két véglet között szabályoz. ha T, akkor a választás tisztán (egyenletesen) véletlen, ha T 0, akkor a választás mohó. p sa, e e a Q( s, a)/ T Q( s, a)/ T

Többágenses eset: - (matrix) játék (stage game), hasznossági (payoff) mátrixxal definiált, - ismételt játék (repeated game, iterative game), minden fordulóban ugyanazt a mátrixjátékot játsszák, - sztochasztikus játék (stochastic game, SG), a MDF többágenses kiterjesztése, ahol az állapotátmeneteket és a kapott megerősítést az összes ágens együttes cselekvése határozza meg, és ahol az egyedi ágensek eljárásmódjai mellett beszélünk az együttes eljárásmódról is. Mindegyik állapotban az ágensek új mátrix játékot játszanak, aminek mátrixát a tanult hasznosságok határozzák meg. Megjegyzés: - Egy mátrix játékban mindegyik ágens megerősítése/ hasznossága függ az állapottól és az összes ágens együttes cselekvésétől (joint action, joint learners) - MDF a sztochasztikus játék egyágenses esete - Ismételt játék a sztochasztikus játék egyetlenegy állapotú esete. N, S, A A, T, R, T : S A S [0,1], R : S A kn k k k R( s, a) i

Játék lehet modell-alapú. Akkor az ágens először megtanulja az ellenfél stratégiáját, majd talál rá a legjobb választ. Lehet model-nélküli is, amikor az ágens az ellenfelélre jó választ adó stratégiát tanulja meg anélkül, hogy az ellenfél stratégiáját explicite kitanulná. Jelölje egy-egy ágens megerősítését generáló függvényt ρ i. Beszélhetünk akkor - teljesen kooperatív ágensrendszerekről 1... n - teljesen versengő ágensrendszerekről, ill. (két ágens, zérus összegű) 1 2 és ρ 1 + ρ 2 + ρ n = 0, több ágens esetén - vegyes ágensrendszerekről (általános összegű, ahol semmilyen feltétel nem adható). 1 2... n 0 Minden zérus-összegű mátrix játéknak van NE-ja tiszta stratégiákban. (Neumann) Minden általános összegű mátrix játéknak van NE-ja. (Nash) Minden teljesen versengő sztochasztikus játéknak van NE-ja (Shapley) Minden általános (vegyes) sztochasztikus játéknak van NE-ja. (Fink)

Pl. Stackelberg-féle játék Left Right Up 1, 0 3, 2 Down 2, 1 4, 0 Down a sorjátékos domináns stratégiája. Sorjátékos meg fogja játszani a Down -t. Ezt megsejtve az oszlopjátékos Left -tel készül. Eredményben a szociális jólét = 3. A sorjátékos sorozatban játsza meg az Up -ot. Erre a jelzésre az oszlopjátékos Right -tal készül válaszolni. Eredményben a szociális jólét = 5, nemcsak az összegében nagyobb, de egyenként is. Többágenses környezetben nemigen választható szét a tanulás éa a tanítás.

Többágenses megerősítéses tanulás problémái: Alapvető problémák: nem stacionárius (l. előbbi előadás) a szokásos (egy ágenses) bizonyítható konvergencia lehetetlen. koordinálás igénye (pl. több NE esetén) Mi legyen a tanulás célja? (1) Stabilitás - Konvergencia stratégiában valamilyen egyensúlyhoz (pl. NE), ha a saját maga ellen játszik (self-play, minden ágens ugyanazt a tanulási algoritmust használja) (2) Adaptivítás - Az ellenfél stratégiájának sikeres megtanulása. (3) Egy bizonyos hasznossági szintet túlhaladó nyerességek megszerzése. Milyen tulajdonságokkal rendelkezzen egy tanulási algoritmus? (1) Biztonságos (Safe) garantáljon legalább a minimax szintű nyerességet. (2) Konzisztens (Consistent) legalább ilyen jó, mint az egyensúlyi esetre számított legjobb válasz (best response). (P1) Konvergencia - Konvergáljon egy stacionárius eljárásmódhoz. (P2) Racionalitás - Ha az ellenfél egy stacionárius stratégiához konvergál, a tanulónak a legjobb válaszhoz kell konvergálnia.

Egyensúlyok pro és kontra Pro Egyensúly feltételeket fogalmaz meg, hogy a tanulásnak mikor le kell, le kellene állnia. Egyensúlyban egyszerűbb a játék (kevesebb erőforrás, számítás) Kontra NE nem egy előírás jellegű. Több egyensúly is lehet. Valamilyen konkrét egyensúlyra vonatkozó ötletadás nem lehetséges (vagy csalás) Az ellenfél nem biztos, hogy az egyensúlyra vágyik (és játszik). NE egyensúly számításának komplexitása általános játékok esetén tiltó lehet.

Egy ágenstől több ágensig,, max,, Q s a Q s a r Q s a Q s a k 1 k k k k k k k 1 a k k1 k k k Mások cselekvései is, a, a max, a, a Q s Q s r Q s Q s k 1 k k k k k k k 1 a k k1 k k k Valami más, ami a cselekvések baráti, vagy adverz jellegére utal és eszerint számítja ki a várható jövőt., a, a, a Q s Q s r XYZ Q s k1 k k k k k k k1 k k k 1 ágens 2 ágens N ágens

Teljes együttműködés Optimális együttes Q értékek parallel tanulása és belőle egyenkénti optimális eljárásmód származtatása Együttműködés ellenére probléma a koordinálás szükségessége. Példa: formáció-mozgás 1... n, a, a max, a, a Q s Q s r Q s Q s k 1 k k k k k k 1 a k k1 k k k s a arg max max Q s, a p i ai a1,..., ai1, ai1,..., an A két optimális helyzet ellenére, koordinálás hiányában ágensek szuboptimális Q( L1, R2) helyzetben végezhetnek. (ha a Q érték közös, mindkét optimális eset egy Nash egyensúly) 1 2 1 2 Q( L, L ) Q( R, R ) 10

(e,e) koordinálása, ha nem tökéletes, bűntetésbe visz. Biztonságosabb a szuboptimális (d, *), (*, d).

Koordinálás kérdése Koordinálás-mentes pl. Team-Q: optimális együttes cselekvés egyedi jellegét tételezi fel Distributed-Q-Learning: lokális Q és p tanulás, de az egyedi Q frissítése csak akkor, ha növekszik (a közös optimális Q értéket is el fogja kapni). A stratégia frissítése csak akkor, ha a Q érték növekszik., max,, max, Q s a Q s a r Q s a i, k1 k i, k i, k k i, k k1 a i, k k1 i i

Koordinálás kérdése Koordinálás-alapú pl. együttes Q dekomponálása kisebb csoportasulások szerint. (koordinációs gráfok) Q( s, a) Q ( s, a ) Q ( s, a, a ) Q ( s, a, a ) 1 1 2 2 3 3 2 3 Q( s, a) Q ( s, a, a ) Q ( s, a, a ) Q ( s, a ) 1 1 2 2 1 2 3 3

Koordinálás kérdése Indirekt koordinálás pl. tanulva mások (stacionárius probabilisztikus) empirikus modelljét, hogy egyes cselekvéseit milyen gyakorisággal használják: JAL Joint Action Learner C i j (u j ) i-edik ágens hányszor látta, hogy az j-edik ágens egy a j cselekvéséhez i folyamodik, erre a legjobb válasz számítása i ˆ ( a ) ( a ) j j j j i C a A j ( a ) Frequency Maximum Q-value heurisztika: mely cselekvések jók voltak a múltban? r max (a i ) - az a i re eddig kapott max megerősítés, C i max (a i ) ennek a gyakorisága és C i (a i ) az a i cselekvés (önmagában) gyakorisága (az a i -re több megerősítés is jöhetett, szórás csakis a mások cselekvései miatt, determinisztikus probléma). A számított Q értéket a Boltzmann-felfedezés képletében használja (v egy súly). C ( a ) Q a Q a r a Explicit koordinálás pl. társadalmi szabályok pl. ágens 1 < ágens 2 normatívák, törvények L < R < S kommunikáció döntés (L 1, L 2 ) szerepek Intelligens Elosztott... Rendszerek BME-MIT, 2019 i max i i( i) i( i) max ( i) i C ( ai ) C j j j

Teljes versengés Minimax Q-tanulás (1. ágens esete, Q = Q 1 = - Q 2 ),,,, Q s a a Q s a a k1 k 1, k 2, k k k 1, k 2, k r m ( Q, s ) Q s, a, a k1 1 k k 1 k k 1, k 2, k m ( Q, s) max min p ( s, a ) Q( s, a, a ) 1 p ( s, ) a a 1 1 1 2 1 2 1 p s, arg m ( Q, s ) 1, k k 1 k k Az 1. ágens minimax haszna Garantált konvergencia (NE) (self-play), de nem racionális.

Teljes versengés Minimax Q-tanulás, példa 1. ágens szeretne elfoglalni a keresztet és elmenekülni. 2. ágens szeretne elkapni az 1. ágenst. A Q táblázat az 1. ágens perspektíváját mutatja, a 2. ágens Q függvénye ennek (-1)-szerese. A minimax megoldás 1. ágensre: Ha L 1 -et lép, akkor a 2. minimalizálva L 2 -et lép, eredményben 0. Ha R 1 -et lép, akkor a 2. minimalizálva szintén L 2 -et lép, eredményben -10. Az 1. ágensnek tehát L 1 -et kell lépnie, mert így legfeljebb 0-val megússza.

Vegyes feladatok Nincsenek feltételek megerősítésekre. Valamilyen egyensúly felé mégis húzni kell. Lehet pl. Nash-egyensúly, de mi van, ha több van ilyen? Egyedi ágens Q-tanulás (a többi implicite a környezeti információban) Ágens-független módszerek (egymástól független, de feltehetően egy közös egyensúly fel), pl. Nash-Q-tanulás., a, a eval (,.), a Q s Q s r Q s Q s i, k1 k k i, k k k i, k1 i., k k1 i, k k k eval p solve s, solve Q ( s,.) i, k i., k k Q., s V s NEQ., s i Q., k ( s,.) NEi Q., k ( s,.) (,.) (, (,.) ) i k i k NE az egyensúly kiszámítása, NE i az i-ik ágens stratégiája az egyensúlyban és V i az ágens várható haszna s-ben az egyensúlyban. Bizonyos feltételekkel NE-hoz konvergál. Mindegyik ágens számon tartja mások Q értékeit is!

Vegyes feladatok Nash-Q egyszerübben: FoF Friend-or-Foe tanulás Fel kell ismerni, hogy az ellenfél kooperál, vagy ellenünk dolgozik. Kooperál esetében: JAL megoldás, a Q közös maximumára való törekvés Ellenünk van: minimax-q játék. Nash ( s, Q, Q ) max Q ( s, a, a ) 1 1 2 a, a 1 1 2 1 2 Nash ( s, Q, Q ) max min p ( s, a ) Q ( s, a, a ) 1 1 2 p ( s, ) a a 1 1 1 1 2 1 2 1 Ellenséges egyensúly (EE): ha mások tőle eltérnek, az ágensünk helyzete változatlan lesz, vagy javul. Kooperatív egyensúly (KE): ahol az ágensek maximális haszonhoz jutnak (a jóléti megoldás). Ha a játéknak van EE egysúlya, FOE-Q tanulás ezt megtanulja. Ha a jatéknak van KE egyensúlya, FRIEND-Q tanulás ezt megtanulja.

Vegyes feladatok Problémák egyensúlyi helyzetek koordinálásával itt is, pl.: Két porszívóágens feladata a két szobából álló lakás kitakarítása. Mindegyik jobban szeretne a bal szobát megkapni, mert ez kisebb. ( L, R ), ( R, L ) Két Nash-egyensúly van: 1 2 1 2 de ha a két ágens között nincs koordináció (nincs megegyezés melyik NE-re játszanak, akkor mindketten ugyanabban a szobában végeznek, kisebb hasznossággal. Q ( L, L ) Q ( R, R ) Q ( L, L ) Q ( R, R ) 0 1 1 2 1 1 2 2 1 2 2 1 2

Vegyes feladatok Ágens-követő, ágens-tudatos módszerek (más ágensek modellezése, a modell használata tanulásban: - érzékelés + stratégia-váltás) AWESOME (Adapt When Everyone is Stationary, Otherwise Move to Equilibrium) Induláskor p i egyensúlyi stratégiát játszik (az i-ik ágens) és mások cselekvéseit követi. Minden N-ik kör végére a megfigyelt gyakoriságokból kiszámítja az s j -t, az j-ik ágens (feltehetően vegyes) stratégia becslését. Ha s j minden j-ik játékos stratégiája egyensúlyi, akkor i folytatja az egyensúlyi stratégiájának bevetését. Különben az i-ik ágens megjátsza az s j stratégiára kiszámított legjobb válasz stratégiáját (best response). Ha minden játékos AWESOME játékos, akkor a közös tanulás az egyensúlyi helyzethez konvergál és nem fog tőle eltérni.

Vegyes feladatok IGA (Infinitensimal Gradient Ascent) ágensek cselekvéseinek a valószínűsége az, amit az ágensek tanulnak (2 ágens, 2 cselekvés), α az 1. ágens 1. cselekvésének a valószínűsége és β a 2. ágens 1. cselekvésének a valószínűsége: k 1 k 1, k k 1 k 2, k E r 1 2, E r, 1, k 2, k

Vegyes feladatok WoLF-IGA (Win-or-Learn-Fast) - győztes helyzetben ágens óvatos, kis δ-val lassan tanul, nehogy az előnyös pozícióját elveszítse, - vesztes esetben viszont nagyobb δ-val gyorsan igyekszik kikerülni a jelen helyzetből. k 1 k 1, k k 1 k 2, k E r 1 2, Hogyan látszik meg melyik a győzelem, melyik a vesztes állapot? E r, WoLF-elv: Ha a várható hasznom, ahogy játszom és ahogy az ellenfél játszik, jobb, mintha a jelen játéka mellett én az egyensúlyi stratégiámot játszanám, akkor győzelemre állok. Ha rosszabbul állok az egyensúlyi stratégiámhoz képest (az ellenfél adott játéka mellett), akkor vesztésre állok. Lucian Busoniu, Robert Babuska, and Bart De Schutter, A Comprehensive Survey of Multiagent Reinforcement Learning, IEEE Trans. on Systems, Man, and Cybernetics Part C: Applications and Reviews, Vol. 38, No. 2, March 2008,, 0 1, k 2, k min max

Többágenses mély megerősítéses tanulás, a, a max, a, a,, a θ Q s Q s r a Q s Q s Q s a θi a a θi a θi L min L s, r max Q s, Q s, θ θ θ θ i1 i i Környezet 2 dim, 2 ágens tipus, diszkrét tér/idő. Konvolúciós NN csatornák: háttér cs. (akadályok), ellenfelek cs., szövetségesek cs., saját magam cs. : 4 x H x H. 2

Többágenses mély megerősítéses tanulás Tanulás: egyszerre 1 ágens, a többinek stratégiája fix, a megtanult stratégia kiosztása a saját tipusú ágensekre.

Többágenses mély megerősítéses tanulás Szimulációk http://busoniu.net/repository.php http://busoniu.net/files/repository/2010-08-04_marl-1.3.zip startuprl.m alg_gui.m rrgwdemo.m