Tanulás elosztott rendszerekben/2. Intelligens Elosztott Rendszerek BME-MIT, 2018

Hasonló dokumentumok
Tanulás elosztott rendszerekben/3

Tanulás elosztott rendszerekben/2

Megerősítéses tanulási módszerek és alkalmazásaik

Megerősítéses tanulás

Mesterséges Intelligencia MI

13. Tanulás elosztott rendszerekben/1. Intelligens Elosztott Rendszerek BME-MIT, 2017

12. előadás - Markov-láncok I.

Mesterséges Intelligencia MI

Korszerű információs technológiák

Stratégiák tanulása az agyban

Megerősítéses tanulás 2. előadás

Megerősítéses tanulás 7. előadás

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Monoton Engedmény Protokoll N-M multilaterális tárgyalás

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Navigáci. stervezés. Algoritmusok és alkalmazásaik. Osváth Róbert Sorbán Sámuel

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Markov-láncok stacionárius eloszlása

Adaptív menetrendezés ADP algoritmus alkalmazásával

Mátrixjátékok tiszta nyeregponttal

Rasmusen, Eric: Games and Information (Third Edition, Blackwell, 2001)

Megerősítéses tanulás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Döntési rendszerek I.

Gépi tanulás a gyakorlatban. Lineáris regresszió

Kooperáció és intelligencia

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

(Diszkrét idejű Markov-láncok állapotainak

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Kétszemélyes játékok Gregorics Tibor Mesterséges intelligencia

Mesterséges Intelligencia MI

Bonyolult jelenség, aminek nincs jó modellje, sok empirikus adat, intelligens (ember)ágens képessége, hogy ilyen problémákkal mégis megbirkozzék.

Monte Carlo módszerek a statisztikus fizikában. Az Ising modell. 8. előadás

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Véletlen bolyongás. Márkus László március 17. Márkus László Véletlen bolyongás március / 31

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Dunaújvárosi Főiskola Informatikai Intézet. Intelligens ágensek. Dr. Seebauer Márta. főiskolai tanár

Intelligens robotok. Előadás vázlat. 1 előadás

Kooperáció és intelligencia

Fraktálok. Hausdorff távolság. Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék március 14.

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Megerősítéses tanulás 9. előadás

Valószínűségi modellellenőrzés Markov döntési folyamatokkal

Mesterséges Intelligencia MI

Válogatott fejezetek a közlekedésgazdaságtanból

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

10. Előadás. 1. Feltétel nélküli optimalizálás: Az eljárás alapjai

4. Lokalizáció Magyar Attila

Mikroökonómia I. B. ELTE TáTK Közgazdaságtudományi Tanszék. 12. hét STRATÉGIAI VISELKEDÉS ELEMZÉSE JÁTÉKELMÉLET

Függvények növekedési korlátainak jellemzése

Intelligens ágensek. Mesterséges intelligencia február 28.

Irányításelmélet és technika II.

[Biomatematika 2] Orvosi biometria

1. feladat Az egyensúly algoritmus viselkedése: Tekintsük a kétdimenziós Euklideszi teret, mint metrikus teret. A pontok

Least Squares becslés

Ambiens szabályozás problémája Kontroll és tanulás-1

Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Nem-kooperatív játékok

Explicit hibabecslés Maxwell-egyenletek numerikus megoldásához

A sorozat fogalma. függvényeket sorozatoknak nevezzük. Amennyiben az értékkészlet. az értékkészlet a komplex számok halmaza, akkor komplex

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

DIFFERENCIAEGYENLETEK

f(x) vagy f(x) a (x x 0 )-t használjuk. lim melyekre Mivel itt ɛ > 0 tetszőlegesen kicsi, így a a = 0, a = a, ami ellentmondás, bizonyítva

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Kooperáció és intelligencia

Követelmény a 7. évfolyamon félévkor matematikából

Mozgásmodellezés. Lukovszki Csaba. Navigációs és helyalapú szolgáltatások és alkalmazások (VITMMA07)

Funkcionálanalízis. n=1. n=1. x n y n. n=1

Forgalmi modellezés BMEKOKUM209

Nagyságrendek. Kiegészítő anyag az Algoritmuselmélet tárgyhoz. Friedl Katalin BME SZIT február 1.

1. ábra. 24B-19 feladat

Kooperáció és intelligencia kis HF-ok/ Kooperáció és intelligencia, Dobrowiecki T., BME-MIT 1

Robotok inverz geometriája

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2007/2008

Modellkiválasztás és struktúrák tanulása

2. A példahalmazban n = 3 negatív és p = 3 pozitív példa van, azaz a példahalmazt képviselő döntési fa információtartalma: I = I(1/2, 1/2) = 1 bit.

Kereső algoritmusok a diszkrét optimalizálás problémájához

Nem-lineáris programozási feladatok

Kémiai reakciók mechanizmusa számítógépes szimulációval

V. Békés Megyei Középiskolai Matematikaverseny 2012/2013 Megoldások 12. évfolyam

Konjugált gradiens módszer

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Markov modellek

A +Q töltés egy L hosszúságú egyenes szakasz mentén oszlik el egyenletesen (ld ábra ábra

A szimplex algoritmus

Megoldott feladatok november 30. n+3 szigorúan monoton csökken, 5. n+3. lim a n = lim. n+3 = 2n+3 n+4 2n+1

minden x D esetén, akkor x 0 -at a függvény maximumhelyének mondjuk, f(x 0 )-at pedig az (abszolút) maximumértékének.

Valószínűségszámítás összefoglaló

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Koordinálás és feladatkiosztás aukciókkal 3.rész. Kooperáció és intelligencia, Dobrowiecki, BME-MIT

LINEÁRIS PROGRAMOZÁSI FELADATOK MEGOLDÁSA SZIMPLEX MÓDSZERREL

Kereső algoritmusok a diszkrét optimalizálás problémájához

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás

Opkut deníciók és tételek

Véletlenszám generátorok és tesztelésük. Tossenberger Tamás

Hidden Markov Model. March 12, 2013

Átírás:

Tanulás elosztott rendszerekben/2

Rétegezett tanulás (Layered Learning) Közvetlen bemeneti adat kimenet függvény tanulása nem megy - hierarchiadekompozíció, taszk feltörése rétegekre, - más-más koncepció (függvény) tanulása rétegenként Alulról felfelé taszk dekompozíció adva van (feladathierarchia) alulról felfelé tanulás, amíg nem éri el a teljes probléma-komplexitást, altászkok, granuláltság a konkrét tartomány függvénye. Adatokból tanulás, adaptálás tanulás minden szinten gépi tanulás: ha kézi (szimbolikus) hangolás nem megy, adaptálás, ha a feladat előre aluldefiniált, ha dinamikus. Tanulás eredménye egy szinten = példák a következő szint számára minden szinten tanulás a következő szintet közvetlenül befolyásolja: - a tanító példák szerkesztése, - a tanításhoz szükséges tulajdonságok megválasztása, - a kimeneti halmaz nyesése

Rétegezett tanulás (Layered Learning) H i a hipotézisek halmaza, belőle egy h i hipotézis tanulása H i : állapottulajdonságok (attributúmok) S i kimenetek O i Rétegezett tanulás: hierarchikus taszkrétegek, egy réteg: L i = (F i, O i, T i, M i, h i ) F i az állapottulajdonságok bemeneti vektora, O i a kimenetek halmaza, T i tanító példák az L i taszk számára ( (f,o): f F i o O i ), M i a gépi tanulás algoritmusa L i rétegben, az F i O i függvényt legjobban leíró hipotézis megválasztása T i alapján, h i a tanulás eredménye. Réteg Stratégiai szint Viselkedés Példa 1 Robot egyéni labdamegfogás 2 1-1 játékos több-ágens átadás értékelés 3 1-N játékos team átadás választás 4 team formation team stratégiai poz. 5 team-ellenség adverz stratégiai adapt.

Robot futball (CMUnited) viselkedés példa L 1 egyedi labda megfogása L 2 több ágens labdaátadás értékelése L 3 csapat labdaátadás kiválasztása L 1 Labda megfogása: a megtanulása (sebesség információ nélkül) könnyebb, mint a beprogramozása F 1 labda távolsága-1,-2, szög, O 1 megfordulás szöge, T 1 kapura lövések, minősítés: megfogta, gól, mellément, M 1 neurális háló, h 1 kb. 5000 példa után 84% megfog, 9% gól.

L 2 Labdaátadás értékelése: több ágenses viselkedés tanulása, labdaátadás egy másik játékosnak sikerül-e? átveszi-e? A tanító példák szerkesztésénél a passzoló és az ellenségek tudják a h 1 -t. F 2 több, mint 170 tulajdonság, játékosok, ellenségek pozíciói, lényeges, lényegtelen, hadd szelektálja a tanuló algoritmus! O 2-1, 1, szándékolt átadás, vagy siker v. kudarc: 0... 1 megbízhatósági tényezővel T 2 véletlenül helyezett játékosok, h 1 labda kezelési képességgel, siker (társ fogta meg), kudarc (ellenség fogta meg), félrement (senki), véletlenül választott társnál a passzok 51%-ka sikeres, M 2 döntési fa tanulása (irreleváns bemenetek kiszelektálása!), h 2 döntési fa, osztályozás + (-1... 1) megbízhatósági tényező, összes átadás 65%-ka, sikeresnek (.8-.9) becsült átadások 79%-ka valójában sikeres. Intelligens Elosztott Rendszerek BME-MIT, 2017

L 3 Labdaátadás szelektálása: Együttműködő/ellenséges csapatviselkedés h 2 felhasználása tanító minták szerkesztéséhez: ha rendelkezik labdával, kinek adja át (a legsikeresebbnek ítélt passz általában nem a stratégiailag legjobb, azért dönthet, átadja, vagy kapura lő). Óriási a döntési tér (ágens kurrens pozíciója, társai, ellenségei kurrens pozíciói, társak képessége az átadás átvételére, ellenségek képessége az átadás megfogására, társak döntési képessége, ellenségek stratégiája), a döntés jósága csak a csapat hosszú idejű sikereiből, a tér redukálása h 2 -ből. F 3 (játékos pozíciója,...), durva helyzetbontás, 1 cselekvésfüggő tulajdonság minden átadáshoz (h 2 eredménye minden lehetséges megfogó társhoz) O 3 (lövés) (melyik társ), T 3 valós mérkőzésekből, M 3 TPOT-RL: on-line, többágenses, megerősítéses tanulás, Q-tanulás mintájára (csapatbontott, átláthatatlan területek), h 3 elosztott átadás szelektálási stratégia,

RL algoritmus kihívásai: 1. on-line, 2. nagy állapotteret kezel korlátos tanulással, 3. tanulnia kell az igen késleltetett megerősítésből, 4. változó helyzeteket/koncepciókat kezel, 5. team-bontott helyzetekben működik, 6. elmosódó átmeneteket kezel.

TPOT-RL Team-Partitioned, Opaque-Transition Reinforcement Learning Elvi (idő-különbség) Q-tanulás: Q(s,a) = Q(s,a) + (r + max a Q(s,a ) Q(s,a)) kihasználja a modell ismeretét, azaz hogy a cselekvés hatására milyen állapotba kerül az ágens környezete: T: (S, A) S. De egyedi ágensnek nincs kontrollja a helyzet egészén, a cselekvése folytatásán sem! Láncolt cselekvések a cselekvését más ágensek cselekvései követik. A cselekvés utáni állapot ismeretlen (másoktól függ). A tanult stratégia: állapot cselekvés leképezés (Q tanulás) S A (ill. S x A R ) Mivel az állapottér igen nagy (a tanulás kevés példából n. nehéz), az állapotteret általánosítani kell kisebb komplexitású (dimenzióban redukált) V tulajdonságtérré (feature space). S V A (egy-egy játékos nem az egész pályán érdekelt ) Átláthatatlan környezetben (modell nélküli) a tanulás: Q(v, a) = Q(v, a) + (r Q(v, a))

Mi lehet itt a megerősítés? r -Q max, Q max t lim -belül a jövőből, mindkettő problémafüggő Probléma: a megerősítés túl ritka! (gól, mérkőzés-, bajnokság végeredménye): kb. 10 tanuló példa/ 10 perces játék nagyon kevés! hatékony tanulás kell! Megerősítés kérdése még egyszer: - gól, ez igazi megerősítés, de ritka, - belső megerősítés, környezeti megfigyelések alapján (jelen esetben a labda pályája alapján) rúgás pillanatában megjegyzi a labda pozícióját: x t -t r = R(labda pozíció t lim ) Az ágens a labda átlagos pozícióját számolja (megfigyelésből) ha x avg x t, r 0, annál nagyobb, minél közelebb a (ellenfél) kapuhoz ha x avg x t, r 0 annál nagyobb, minél közelebb a (saját) kapuhoz

MARL Multi Agent Reinforcement Learning Többágenses megerősítéses tanulás Kezdjük 1 db ágenssel. Legyenek a környezet állapotai s-ek, ágens cselekvései a-k, ágens cselekvéseit meghatározó eljárásmód p, ill. ágens cselekvés-érték függvénye Q(s,a). Az állapotok és a cselekvések közötti kapcsolatot az un. Markov döntési folyamat (MDF) írja le, T(s,a,s ) átmenet-valószínűségel. Egyes állapotokban ágens r(s,a,s ) közvetlen megerősítést kap. Ágens célja megállapítani azt az optimális eljárásmódot, ami a diszkont hátralévő jutalmat (az s k állapottól végtelen jövőbe) maximálja, ahol γ a diszkont faktor és r a megerősítés. j Rk E rk j1 j0 Adott eljárásmód mellett az ágens cselekvés-érték függvényt tanul p j Q s, a E rk j1 sk s, ak a, p j0

MARL Multi Agent Reinforcement Learning Többágenses megerősítéses tanulás A lehető legjobb eredmény az optimális cselekvés-érték függvény: ami teljesíti az un. Bellman egyenletet:, max p, Q s a Q s a, (,, ) (,, ) max, Q s a T s a s r s a s a Q s a s S Az ágens eljárásmódja mohó: p s arg max, ami optimális, ha Q is optimális. a Q s a p

A Bellman-egyenlet ismeretlen r és T mellett az un. Q-tanulással oldható meg (jelen formában időkülönbség Q-tanulással):,, max,, Q s a Q s a r Q s a Q s a k 1 k k k k k k k 1 a k k1 k k k Q-tanulás bizonyos feltételek mellett optimális Q-hoz konvergál. A feltételek közül a legfontosabb, hogy a tanuló ágensnek véges nem nulla valószínűséggel ki kell próbálni minden létező cselekvését. Nem tud tehát csak mohó lenni, a mohóságát felfedezési igénnyel kell vegyítenie. A mohóság + felfedezés keverékviselkedést biztosítani tudjuk: - ε-mohósággal: az ágens ε valószínűséggel véletlen cselekvést választ, ill. 1-ε valószínűséggel mohó, vagy - Boltzmann-felfedezési modellel, ahol egy a cselekvés megválasztásának valószínűsége egy s állapotban: ahol a T hőmérséklet a két véglet között szabályoz. ha T, akkor a választás tisztán (egyenletesen) véletlen, ha T 0, akkor a választás mohó. p sa, e e a Q( s, a)/ T Q( s, a)/ T

Többágenses eset: - (matrix) játék (stage game), hasznossági (payoff) mátrixxal definiált - ismételt játék (repeated game, iterative game), minden fordulóban ugyanazt a mátrixjátékot játsszák - sztochasztikus játék (stochastic game, SG), a MDF többágenses kiterjesztése, ahol az állapotátmeneteket és a kapott megerősítést az összes ágens együttes cselekvése határozza meg, és ahol az egyedi ágensek eljárásmódjai mellett beszélünk az együttes eljárásmódról is. Mindegyik állapotban az ágensek új mátrix játékot játszanak, aminek mátrixát a tanult hasznosságok határozzák meg. Megjegyzés: - Mátrix játékban mindegyik ágens megerősítése/ hasznossága függ az állapottól és az összes ágens együttes cselekvésétől (joint action, joint learners). - MDF a sztochasztikus játék egyágenses esete. - Ismételt játék a sztochasztikus játék egyetlenegy állapotú esete. N, S, A A, T, R, T : S A S [0,1], R : S A kn k k k R( s, a) i

Játék lehet modell-alapú: ágens először megtanulja az ellenfél stratégiáját, majd talál rá a legjobb választ. Lehet model-nélküli is, amikor ágens az ellenfélre jó választ adó stratégiát tanulja meg anélkül, hogy az ellenfél stratégiáját explicite kitanulná. Jelölje egy-egy ágens megerősítését generáló függvényt ρ i. Beszélhetünk akkor - teljesen kooperatív ágensrendszerekről 1... n - teljesen versengő ágensrendszerekről, ill. (két ágen, zérus összegű) 1 2 és ρ 1 + ρ 2 + ρ n = 0, több ágens esetén - vegyes ágensrendszerekről (általános összegű, ahol semmilyen feltétel nem adható). 1 2... n 0 Minden zérus-összegű mátrix játéknak van NE-ja tiszta stratégiákban. (Neumann) Minden általános összegű mátrix játéknak van NE-ja (de lehet, hogy csak kevert stratégiákban). (Nash) Minden teljesen versengő sztochasztikus játéknak van NE-ja. (Shapley) Minden általános (vegyes) sztochasztikus játéknak van NE-ja. (Fink)

Pl. Stackelberg-féle játék Left Right Up 1, 0 3, 2 Down 2, 1 4, 0 Down a sorjátékos domináns stratégiája. Sorjátékos meg fogja játszani a Down -t. Ezt megsejtve az oszlopjátékos Left -tel készül. Eredményben a szociális jólét = 3. A sorjátékos sorozatban játsza meg az Up -ot. Erre a jelzésre az oszlopjátékos Right -tal készül válaszolni. Eredményben a szociális jólét = 5, nemcsak az összegében nagyobb, de egyenként is. Többágenses környezetben nemigen választható szét a tanulás éa a tanítás.

Többágenses megerősítéses tanulás problémái Alapvető problémák: - nem stacionárius a szokásos (egy ágenses) bizonyítható konvergencia lehetetlen. - koordinálás igénye (pl. több NE esetén) Mi legyen a tanulás célja? (1) Stabilitás - Konvergencia stratégiában valamilyen egyensúlyhoz (pl. NE), ha a saját maga ellen játszik (self-play, minden ágens ugyanazt a tanulási algoritmust használja). (2) Adaptivítás - Az ellenfél stratégiájának sikeres megtanulása. (3) Egy bizonyos hasznossági szintet túlhaladó nyerességek megszerzése. Milyen tulajdonságokkal rendelkezzen egy tanulási algoritmus? (1) Biztonságos (Safe) legalább minimax szintű nyerességet garantál. (2) Konzisztens (Consistent) legalább ilyen jó, mint az egyensűlyi esetre számított legjobb válasz (best response). (P1) Konvergencia - Konvergáljon egy stacionárius eljárásmódhoz. (P2) Racionalitás - Ha az ellenfél egy stacionárius stratégiához konvergál, a tanulónknak a legjobb válaszhoz kell konvergálnia.

Egy ágenstől több ágensig,, max,, Q s a Q s a r Q s a Q s a k 1 k k k k k k k 1 a k k1 k k k, a, a max, a, a Q s Q s r Q s Q s k 1 k k k k k k k 1 a k k1 k k k Valami más összefüggés, ami a cselekvések baráti, vagy adverz jellegére utal és eszerint számítja ki a jövebeli egyéni várható hasznot. Mások cselekvései is, a, a XYZ, a Q s Q s r Q s k1 k k k k k k k1 k k k 1 ágens 2 ágens N ágens

Teljes együttműködés Optimális együttes Q értékek parallel tanulása (MDF egy központi ágens esetén) és belőle egyenkénti optimális eljárásmód származtatása Együttműködés ellenére komoly probléma a koordinálás szükségessége. Példa: formáció-mozgás 1... n, a, a max, a, a Q s Q s r Q s Q s k 1 k k k k k k 1 a k k1 k k k s a arg max max Q s, a p i ai a1,..., ai1, ai1,..., an A két optimális helyzet ellenére, koordinálás hiányában ágensek Q( L1, R2) szuboptimális helyzetben végezhetnek. (ha a Q érték közös, mindkét optimális eset egy Nash egyensúly) Q( L, L ) Q( R, R ) 10 1 2 1 2

Koordinálás kérdése Koordinálás-mentes pl. Team-Q: egyedi opt. együttes cselekvést tételez fel Distributed-Q-Learning: lokális Q és p tanulása, de az egyedi Q frissítése csak akkor, ha az növekszik (a közös opt.-t is el fogja kapni). A stratégia frissítése csak akkor, ha a Q érték növekszik. Koordinálás-alapú pl. együttes Q dekomponálása kisebb csoportasulások szerint. (koordinációs gráfok) Q( s, a) Q ( s, a ) Q ( s, a, a ) Q ( s, a, a ) 1 1 2 2 3 3 2 3 Q( s, a) Q ( s, a, a ) Q ( s, a, a ) Q ( s, a ) 1 1 2 2 1 2 3 3

Koordinálás kérdése Indirekt koordinálás pl. tanulva, hogy mások bizonyos cselekedeteit milyen gyakorisággal használják: JAL Joint Action Learner: fictitious play (kitalált) játék C i j (u j ) i-edik ágens hányszor tapasztalja, hogy az j-edik ágens egy a j cselekvéshez folyamodik (mások prob. modellje, stacionárius vegyes stratégia elképzelése, erre a legjobb válasz számítása) i i ˆ ( a ) ( a ) j j j j i C a A j Frequency Maximum Q-value heurisztika: mely cselekvések jók voltak a múltban? r max a i re kapott eddigi max megerősítés, C max ennek az esetnek a gyakorisága C az a i cselekvés (önmagában) gyakorisága (az a i -re több megerősítés is jöhetett, szórás csakis a mások cselekvései miatt, determinisztikus probléma) a számított Q értéket a Boltzmann-felfedezés képletében használja Explicit koordinálás pl. társadalmi szabályok pl. ágens 1 < ágens 2 normatívák, törvények L < R < S kommunikáció szerepek döntés (L 1, L 2 ) Intelligens Elosztott... Rendszerek BME-MIT, 2018 C j j ( a ) C ( a ) Q a Q a r a i max i i( i) i( i) max ( i) i C ( ai ) j

Teljes versengés Minimax Q-tanulás (2 ágens esete, Q = Q 1 = - Q 2 ),,,, Q s a a Q s a a k1 k 1, k 2, k k k 1, k 2, k r m ( Q, s ) Q s, a, a k1 1 k k 1 k k 1, k 2, k m ( Q, s) max min p ( s, a ) Q( s, a, a ) 1 p ( s, ) a a 1 1 1 2 1 2 1 p s, arg m ( Q, s ) 1, k k 1 k k Garantált konvergencia (NE) (self-play), de nem racionális.

Teljes versengés Minimax Q-tanulás, példa 1. ágens szeretne elfoglalni a keresztet és elmenekülni. 2. ágens szeretne elkapni az 1. ágenst. A Q táblázat az 1. ágens perspektíváját mutatja, a 2. ágens Q függvénye ennek -1-szerese. A minimax megoldás 1. ágensre: Ha L 1 -et lép, akkor a 2. az 1. nyerességét minimalizálva L 2 -et lép, eredményben 0. Ha R 1 -et lép, akkor a 2. az 1. nyerességét minimalizálva szintén L 2 -et lép, eredményben -10. Az 1. ágensnek tehát L 1 -et kell lépnie, mert így legfeljebb 0-val megússza.

Vegyes feladatok Nincsenek feltételek megerősítésekre. Valamilyen egyensúly felé kell húzni. Lehet pl. Nash-egyensúly, de mi van, ha több van ilyen? Egyedi ágens Q-tanulás (a többi implicite a környezeti információban) Ágens-független módszerek (egymástól független, de egy, feltehetően, közös egyensúly felé), pl. Nash-Q-tanulás., a, a eval (,.), a Q s Q s r Q s Q s i, k1 k k i, k k k i, k1 i., k k1 i, k k k eval p solve s, solve Q ( s,.) i, k i., k k Q., s V s NEQ., s i Q., k ( s,.) NEi Q., k ( s,.) (,.) (, (,.) ) i k i k NE az egyensúly kiszámítása, NE i az i-ik ágens stratégiája egyensúlyban és V i az ágens várható haszna x-ben az egyensúlyban. Bizonyos feltételekkel NE-hoz konvergál. Mindegyik ágens számon tartja mások Q értékeit is!

Vegyes feladatok Nash-Q-tanulás. Ellenséges egyensúly (EE): ha mások tőle eltérnek, az ágensünk helyzete változatlan, vagy javul. Kooperatív egyensúly (KE): ahol az ágensek maximális haszonhoz jutnak (a jóléti megoldás). Feltételek: Az EE és a KE létezik az egész játék számára és a tanult közbülső Q értékek által definiált minden mátrix játék számára. Ilyenkor a Nash-Q tanulás NE-hoz konvergál, feltéve, hogy a feltételekben említett egynsúlyok egyértelműek. (kemény feltételek!)

Vegyes feladatok Nash-Q egyszerübben: FoF Friend-or-Foe tanulás Fel kell ismerni, hogy az ellenfél kooperál, vagy ellenünk dolgozik. Kooperál esetében: JAL megoldás, a Q közös maximumára való törekvés Ellenünk van: minimax-q játék. Nash ( s, Q, Q ) max Q ( s, a, a ) 1 1 2 a, a 1 1 2 1 2 Nash ( s, Q, Q ) max min p ( s, a ) Q ( s, a, a ) 1 1 2 p ( s, ) a a 1 1 1 1 2 1 2 1 Ha a játéknak van EE egysúlya, FOE-Q tanulás ezt megtanulja. Ha a jatéknak van KE egyensúlya, FRIEND-Q tanulás ezt megtanulja.

Vegyes feladatok Ágens-követő, ágens-tudatos módszerek (más ágensek modellezése, a modell használata tanulásban: - érzékelés + stratégia-váltás) AWESOME (Adapt When Everyone is Stationary, Otherwise Move to Equilibrium) Induláskor p i egyensúlyi stratégiát játszik (az i-ik ágens) és mások cselekvéseit követi. Minden N-ik kör végére a megfigyelt gyakoriságokból kiszámítja az s j -t, az j-ik ágens (feltehetően vegyes) stratégia becslését. Ha s j minden j-ik játékos egyensúlyi stratégiája, akkor i folytatja az egyensúlyi stratégia bevetését. Különben az i-ik ágens megjátsza az s j stratégiára kiszámított legjobb válasz stratégiáját (best response). Ha minden játékos AWESOME játékos, akkor a közös tanulás az egyensúlyi helyzethez konvergál és nem fog tőle eltérni.

Vegyes feladatok IGA (Infinitensimal Gradient Ascent) ágensek cselekvéseinek Valószínűsége az, amit az ágens tanul (2 ágens, 2 cselekvés), α 1. ágens 1. cselekvésének a valószínűsége és β 2. ágens 1. cselekvésének a valószínűsége: k 1 k 1, k k 1 k 2, k E r 1 2, E r, 1, k 2, k

Vegyes feladatok WoLF-IGA (Win-or-Learn-Fast) - győztes helyzetben ágens óvatos, kis δ-val lassan tanul, nehogy az előnyös pozícióját elveszítse, - vesztes esetben viszont nagyobb δ-val gyorsan kikerül a jelen helyzetből. k 1 k 1, k k 1 k 2, k E r Hogyan látszik meg a győzelem, a vesztes állapot? 1 2, E r, WoLF-elv: Ha a várható hasznom, ahogy játszom és ahogy az ellenfél játszik, jobb, mintha a jelen játéka mellett én egyensúlyi stratégiát játszanám, akkor győzelemre állok. Ha rossabbul állok az egyensúlyi stratégiámhoz képest (az ellenfél adott játéka mellett), akkor vesztésre állok. Lucian Busoniu, Robert Babuska, and Bart De Schutter, A Comprehensive Survey of Multiagent Reinforcement Learning, IEEE Trans. on Systems, Man, and Cybernetics Part C: Applications and Reviews, Vol. 38, No. 2, March 2008,, 0 1, k 2, k min max

Többágenses mély megerősítéses tanulás, a, a max, a, a,, a θ Q s Q s r a Q s Q s Q s a θ a θ a θ min L s, r max Q s, Q s, θ θ θ L θ i1 i θ i i a i i Környezet 2 dim, 2 ágens tipus, diszkrét tér/idő. Konvolúciós NN csatornák: háttér cs. (akadályok), ellenfelek cs., szövetségesek cs., saját magam cs. : 4 x H x H. 2

Többágenses mély megerősítéses tanulás Tanulás: egyszerre 1 ágens, a többinek stratégiája fix, a megtanult stratégia kiosztása a saját tipusú ágensekre.

Tanulás több ágensből álló környezetben - a mozgó cél tanulás dinamikája N az ágensek halmaza, i N egy konkrét ágens, W a világ állapotainak halmaza, w W egy konkrét világ, A i az i-edik ágens cselekvéseinek halmaza, t i : W A i az i-edik ágens döntési függvénye (cselekvés számítása) D t i : W A i az i-edik ágens cél (tanulandó ideális döntési) függvénye, e( t i) = Pr ( t i(w) D t i (w) w D) az i-edik ágens hibája t-időben, annak a valószínűsége, hogy az ágens rossz döntést fog hozni, feltéve, hogy a környezeti állapotok egy D eloszlásból sorsolódnak, Visszacsatolás (megerősítés) t+1 Környezet t w t i (w t ) Érzékelés Cselekvés számítása, tanulás Cselekvés

A mozgó cél A tanuló ágens környezete dinamikus, mert a benne lévő más ágensek is tanulnak és alakulnak át. Mivel az ágensünknek éppen más ágensek viselkedését ki kell tanulnia, hogy az együttműködés/ versengés miatt helyesen döntsön, azok tanulása a fő zavaró tényező.

A döntési függvény t i lehet helyes, v. hibás. Definiáljunk egy hibaszótárt! helyes volt hibás volt helyes lesz hibás lesz nem mozog mozog változik nem változik megtanulta a régit nem tanulta meg a régit új rácsúszott új nem csúszott rá t i (w) = D t i (w) t i (w) D t i (w) t+1 i (w) = D t+1 i (w) t+1 i (w) D t+1 i (w) D t+1 i (w) = D t i (w) D t+1 i (w) D t i (w) t+1 i (w) t i (w) t+1 i (w) = t i (w) t+1 i (w) = D t i (w) t+1 i (w) D t i (w) t i (w) = D t+1 i (w) t i (w) D t+1 i (w)

A függvény megváltozása - a tanulás - javíthat, de ronthat is a dolgon. A D t i (w) idő közbeni változása a célpont elmozdulása a mozgó célpont. Legyen akkor az ágens tanulási (helyes célfüggvény követési) hibája: t e( i ) D( w)pr hibás volt w Egy konkrét tanuló algoritmus helyett próbáljuk meg a tanulás várható sikerességét valószínűségi alapon modellezni. Mi a valószínűsége a sikeres megtanulásnak, ha bizonyos ráhatások valószínűsége adott. CLRI elmélet (Change, Learning, Retention, Impact)

Definiáljuk a tanuló viselkedésére jellemző alábbi mérőszámokat : Változékonyság (changing rate c(i)): a helytelen leképzés elmozdulása, de mi felé? A helytelen leképzés javítása (helyes irányba történő változás a tanulás), Tanulás sebessége (learning rate l(i)): ci ( ) Pr változik hibás volt li ( ) Pr megtanulta a régit hibás volt l( i) c( i) D t 1 t t t w c( i) Pr i ( w) i ( w) i ( w) i ( w) D D mert a tanulás csak változással érhető el, ha az ágens cselekvéseinek választéka bináris, akkor l i = c i, mert a helytelen döntés alternatívája a helyes cselekvés, (1 l(i) ) az a valószínűség, hogy a helytelen leképezés nem javul. t1 t t t w l( i) Pr i ( w) i ( w) i ( w) i ( w)

Megtartás sebessége (retention r(i)): helyes volt, és helyes marad Illó sebesség, illékonyság (volatility v(i)): ri ( ) Pr megtanulta a régit helyes volt vi ( ) Pr mozog D D t1 t t t w r( i) Pr i ( w) i ( w) i ( w) i ( w) D D t1 t w v( i) Pr i ( w) i ( w)

Foglalkozunk most az ágens eredő hibájával: E = hibás lesz a = nem mozog b = helyes volt t t t e( i ) D( w)pr i ( w) Di ( w) w A várható hiba t+1 időpontban függ attól, hogy a célfüggvény változik-e (a), vagy sem, illetve, hogy a döntési függvény t időpontban eredetileg helyes volt-e, vagy sem (b): Pr E PrE a b Pr E a b Pr Pr E a b E a b a b Pr Pr E a b a b E a b Pr E a b Pr a b Pr Pr Pr E a b Pr a b

A négy db valószínűség most: Pr(hibás lesz nem mozog helyes volt) = 1 r(i) Pr(hibás lesz nem mozog hibás volt) = 1 l(i) Pr(hibás lesz mozog helyes volt) = r(i) + B (1 - r(i)) B = Pr(hibás lesz mozog helyes volt nem tanulta meg a régit) Pr(hibás lesz mozog hibás volt) = D (1 - c(i)) + l(i) + F (c(i) - l(i)) D = Pr(új nem csúszott rá mozog hibás volt) F = Pr(hibás lesz mozog hibás volt nem tanulta meg a régit változik) - a helyes leképzést megtartani nem tudja, - a helyes leképzést nem tanulja meg, - a hibás leképzést megtartja, ill. nem, de rossz irányba változtatja, - rossz irányba tanul, nem változik, ill. változik, de nem a tanulás irányába.

Valószínűségek és a tényleges ágensek A valószínűségek ugyanúgy eltakarják a konkrét tanuló algoritmust, mint a konkrét architektúrát és ágensprogramot, ill. a környezet hatását is. További vizsgálathoz ezeket a szempontokat olyan valószínűségekkel ki kellene fejezni, melyek megfelelnek numerikusan az ágensek adottságainak. Így a valószínűségi (hiba) egyenletek akár nagyon bonyolult, akár igen egyszerű összefüggésekhez vezethetnek. Egyszerű szimuláció ha a döntési, ill. a célfüggvény változik, akkor az új cselekvés megválasztása az A i felett értelmezett egyenletes eloszlásból történjen, azontúl az ágensek tanulása legyen független, ilyenkor: Ai 2 Ai 3 B D F A 1 A 2 i i

Pr t ( ) t ( ) t ( ) t ( ) Pr t ( ) t ( ) Pr t ( ) t i w Di w j w D j w i w Di w j w D j ( w) 1 1 Ai li r li c t Ar i i t i i E e( i ) 1 ri vi e( i ) ri li vi Ai 1 Ai 1 Egy lineáris összefüggés y = a x + b Az ágens hibája beáll a körülményektől függő szintre, amely az alábbi diagramból kiolvasható (pl. v i =.2, c i = 1, l i =.3, r i = 1, minden ágens 20 cselekvéssel rendelkezik, a beállt hiba színt jelen esetben kb..4) Az ágens hibáját két erő formálja: - csökkenő irányba a tanulás (l), és y v + x (.7.7 v) - növekvő irányba az illékonyság (v). [ 0.7x ] + [ -.14 x +.2 ] Mindkettőnél a hiba kifejezés lineáris (tanulási egyenes pozitív, m 1 meredekségű, az illékonysági egyenes negatív meredekségű). Ha az ágens hibája nagyon kicsi, akkor a jósolt hiba majdnem egészében az illékonysággal magyarázható. (*)

Stacionér hiba A mozgó pont szétveri [ 0.7x ] + [ -0.14x +.2 ] A tanulás mérsékli