Kooperáció és intelligencia



Hasonló dokumentumok
Tanulás elosztott rendszerekben/3

Kooperáció és intelligencia

Játékok (domináns stratégia, alkalmazása

Tanulás elosztott rendszerekben/2. Intelligens Elosztott Rendszerek BME-MIT, 2018

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉPSZINT Függvények

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2006/2007

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Trigonometria

V. Kétszemélyes játékok

ELEKTRONIKAI ALAPISMERETEK

Számítógép hálózatok gyakorlat

Útmutató a vízumkérő lap kitöltéséhez

VÁLTOZÁSOK ÉS EREDMÉNYESSÉG: A DÉLUTÁNIG TARTÓ ISKOLA BEVEZETÉSÉNEK INTÉZMÉNYI TAPASZTALATAI

Sz ekelyhidi L aszl o Val osz ın us egsz am ıt as es matematikai statisztika *************** Budapest, 1998

MATEMATIKA HETI 3 ÓRA

A döntő feladatai. valós számok!

Áramlástechnikai gépek soros és párhuzamos üzeme, grafikus és numerikus megoldási módszerek (13. fejezet)

Analízis elo adások. Vajda István október 3. Neumann János Informatika Kar Óbudai Egyetem. Vajda István (Óbudai Egyetem)

Conjoint-analízis példa (egyszerűsített)

Komponensek keresése a megerősítéses tanulásban

Vezetőtárs értékelő kérdőív

FENNTARTHATÓ FEJLŐDÉS

Érettségi feladatok Algoritmusok egydimenziós tömbökkel (vektorokkal) 1/6. Alapműveletek

KOVÁCS BÉLA, MATEMATIKA I.

Csecsemő- és gyermeknevelőgondozó Csecsemő- és gyermeknevelőgondozó

Jelek tanulmányozása

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

[GVMGS11MNC] Gazdaságstatisztika

Programozás I gyakorlat

MATEMATIKA ÍRÁSBELI VIZSGA május 3.

2011. március 9. Dr. Vincze Szilvia

MATLAB. 4. gyakorlat. Lineáris egyenletrendszerek, leképezések

... ahol l 0. Minden tranzakcióhoz létezik. = f(σ i. A sorozat nem bővíthető. Ha véges, akkor az utolsó konfigurációnak nincs rákövetkezője.

Operációkutatás. 2. konzultáció: Lineáris programozás (2. rész) Feladattípusok

Kereséssel történő problémamegoldás. Ormándi Róbert

Lineáris algebra jegyzet

Reiz Beáta április

Véleményezési határidő: november 26. Véleményezési cím:

B1: a tej pufferkapacitását B2: a tej fehérjéinek enzimatikus lebontását B3: a tej kalciumtartalmának meghatározását. B.Q1.A a víz ph-ja = [0,25 pont]

Lineáris programozás. Modellalkotás Grafikus megoldás Feladattípusok Szimplex módszer

Radon, Toron és Aeroszol koncentráció viszonyok a Tapolcai Tavas-barlangban

Fa- és Acélszerkezetek I. 5. Előadás Stabilitás I. Dr. Szalai József Főiskolai adjunktus

Puskás Tivadar Távközlési Technikum

INFORMATIKAI ALAPISMERETEK

Fazekas Mihály Fővárosi Gyakorló Általános Iskola és Gimnázium

Fábián Zoltán Hálózatok elmélet

Vasúti menetrendek optimalizálása

ELEKTRONIKAI ALAPISMERETEK

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

MOBIL CROWDSENSING ÉS BIG DATA TÁVKÖZLÉSI ÉS MÉDIAINFORMATIKAI TANSZÉK BUDAPESTI MŰSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM

EPER E-KATA integráció

Átalakuló HR szervezet, változó Business Partneri szerepek

GAZDASÁGI MATEMATIKA Gyakorlat

IV.5. GARÁZS 1. A feladatsor jellemzői

Mágneses szuszceptibilitás vizsgálata

A MOTIVÁCIÓKRA ALAPOZOTT ÖNKÉNTES- MENEDZSMENT LEHETŐSÉGEI A VÁLLALATI ÖNKÉNTESSÉGBEN

MÁTRIXOK SAJÁTÉRTÉKEINEK ÉS SAJÁTVEKTORAINAK KISZÁMÍTÁSA. 1. Definíció alkalmazásával megoldható feladatok

MIT VÁR EL A PSZICHOLÓGUS A JÓ KRESZTŐL? ARANYOS JUDIT közlekedés szakpszichológus

avagy, hogyan lehetünk hatékonyabbak (nemcsak) a hivatásunkban

1. forduló. MEGOLDÁSOK Pontszerző Matematikaverseny 2015/2016-os tanév

Párhuzamos programozás

ELEKTRONIKAI ALAPISMERETEK

Mehet!...És működik! Non-szpot televíziós hirdetési megjelenések hatékonysági vizsgálata. Az r-time és a TNS Hoffmann által végzett kutatás

Bevezetés a lágy számítás módszereibe

Észlelési verseny éjszakai forduló. Tudnivalók

Tájékoztató az önkéntes nyugdíjpénztárak számára a 2012-től érvényes felügyeleti adatszolgáltatási változásokról

Illeszkedésvizsgálat

A környezettan tantárgy intelligencia fejlesztő lehetőségei

A hasznos élettartamot befolyásoló egyes tényezők elemzése a Tedej Zrt. holstein-fríz állományánál

Feszített vasbeton gerendatartó tervezése költségoptimumra

Diszkrét matematika I. gyakorlat

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ. Foglalkozásegészségügyi szakápoló szakképesítés Foglalkozásegészségügyi felmérés modul. 1.

Analízis elo adások. Vajda István szeptember 24. Neumann János Informatika Kar Óbudai Egyetem. Vajda István (Óbudai Egyetem)

A Hozzárendelési feladat megoldása Magyar-módszerrel

Lineáris algebra gyakorlat

SZAKÁLL SÁNDOR, ÁsVÁNY- És kőzettan ALAPJAI

3. Napirendi pont ELŐTERJESZTÉS. Csabdi Község Önkormányzata Képviselő-testületének november 27. napjára összehívott ülésére

K&H kommunikációs verseny 2016/2017 tanév

Egy El Classico tanulságai

Esettanulmányok és modellek 1 Termelésprogramozás az iparban

A fiatalok pénzügyi kultúrája Számít-e a gazdasági oktatás?

ELŐTERJESZTÉS. - a Közgyűléshez - az építményadóról szóló rendelet módosítására

KOVÁCS BÉLA, MATEMATIKA I.

Tartószerkezetek I. (Vasbeton szilárdságtan)

A javítási-értékelési útmutatótól eltérő helyes megoldásokat is el kell fogadni.

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ. Fogászati asszisztens szakképesítés Gyermekfogászati és fogszabályozási beavatkozások modul. 1.

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ. Klinikai neurofiziológiai szakasszisztens szakképesítés

Munkaerőpiaci szervező, elemző Munkaerőpiaci szervező, elemző Személyügyi gazdálkodó és fejlesztő

Hajdúhadház Város Önkormányzata Jegyzőjétől Hajdúhadház, Bocskai tér l. sz.

ELEKTRONIKAI ALAPISMERETEK

Jelölje meg (aláhúzással vagy keretezéssel) Gyakorlatvezetőjét! Györke Gábor Kovács Viktória Barbara Könczöl Sándor. Hőközlés.

A Hungarikum Bizottság ágazati szakbizottságainak alapszabálya

1. Írja fel prímszámok szorzataként a 420-at! 2. Bontsa fel a et két részre úgy, hogy a részek aránya 5 : 4 legyen!

Az új modulrendszer tapasztalatai

Lineáris algebra és a rang fogalma (el adásvázlat, május 29.) Maróti Miklós

TANTÁRGYI ÚTMUTATÓ. Pénzügyi-számviteli informatika 2. tanulmányokhoz

Khi-négyzet próbák. Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet

FIT-jelentés :: Zoltánfy István Általános Iskola 6772 Deszk, Móra F. u. 2. OM azonosító: Telephely kódja: 005. Telephelyi jelentés

Fordítóprogramok Készítette: Nagy Krisztián

Milyen segítséget tud nyújtani a döntéshozatalban a nem-hagyományos jelfeldolgozás?

Egy SLA kialakításának gyakorlata fókuszban a nehézségek megoldása. Előadó: Oroszi Norbert. KÜRT Rt. Információ Menedzsment KÜRT Rt.

Átírás:

Kooperáció és intelligencia Tanulás többágenses szervezetekben/3

MARL Multi Agent Reinforcement Learning Többágenses megerősítéses tanulás: áttekintés Kezdjük 1 db ágenssel. Legyenek a környezet állapotai x-ek, ágens cselekvései u-k, ágens cselekvéseit meghatározó eljárásmód h, ill. az ágens cselekvés-érték függvénye Q(x,u). Az állapotok és a cselekvések közötti kapcsolatot az un. Markov döntési folyamat írja le (átmenet-valószínűségek). Egy ágenses megerősítéses tanulásnál egy ágens diszkont hátralévő jutalmat maximálja, ahol γ a diszkont faktor és r a megerősítés. Adott eljárásmód mellett az ágens cselekvés-érték függvényt tanul. A lehető legjobb eredmény az optimális cselekvés-érték függvény: ami teljesíti az un. Bellman egyenletet:

Az ágens mohó eljárásmódja: ami optimális, ha Q is optimális. A Bellman-egyenlet un. Q-tanulással oldható meg (jelen formában időkülönbség Q-tanulás): Q-tanulás bizonyos feltételek mellett optimális Q-hoz konvergál. A feltételek közül a legfontosabb, hogy a tanuló ágensnek véges nem nulla valószínűséggel ki kell próbálni minden létező cselekvését. Nem tud tehát csak mohó lenni, a mohóságát felfedezési igénnyel kell vegyítenie. A mohóság + felfedezés keverék viselkedést biztosítani tudjuk: - ε-mohósággal: az ágens ε valószínűséggel véletlen cselekvést választ, ill. 1-ε valószínűséggel mohó, vagy - Boltzmann-felfedezési modellel, ahol egy u cselekvés megválasztásának valószínűsége egy x állapotban: a T hőmérséklet a két véglet között szabályoz. ha T, akkor a választás tisztán (egyenletesen) véletlen, ha T 0, akkor a választás mohó.

Többágenses esetben Markov döntési folyamat helyett a modell un. Sztochasztikus Játék (Stochastic Game, SG), ahol az állapotátmeneteket az összes ágens együttes cselekvése határozza meg, és ahol az egyedi ágensek eljárásmódjai mellett beszéljünk a együttes eljárásmódról is. Jelölje egy-egy ágens megerősítését generáló függvényt ρ i. Beszélhetünk akkor - teljesen kooperatív ágens rendszerekről - teljesen versengő ágens rendszerekről, ill. (két ágens esetén) és ρ 1 + ρ 2 + ρ n = 0, több ágens esetén - vegyes ágens rendszerekről (ahol semmilyen feltétel nem adható).

Többágenses megerősítéses tanulás problémái: - mi a cél? - nem stacionárius (l. előbbi előadás) - koordinálás igénye Általában az SG bekényszerítése valamiféle egyensúlyi helyzetbe, tipikus választás a Nash-egyensúly. Mindenki tartson ehhez, akkor nem lesz probléma. Cél: - stabilitás (konvergencia, ha mások ua. a tanuló algoritmust használják, ha mások stacionáriusak, ha ) - adaptivitás változó másokhoz (hatékonynak maradni, ha mások megváltoznak) Tanulás - opponens-független - opponens-függő (milyen mértékben tud róla)

Teljes együttműködés Optimális együttes Q értékek parallel tanulása (vektor az együttes cselekvéshalmazt jelenti): és belőle egyenkénti optimális eljárásmód származtatása A koordinálás szükségessége itt is általában megjelenik. Példa: formáció-mozgás A két optimális helyzet ellenére, koordinálás hiányában ágensek szuboptimális helyzetben végezhetnek. (ha a Q érték közös, mindkét optimális eset egy Nash egyensúly)

Koordinálás kérdése Koordinálás-mentes pl. Team-Q: egyedi opt. együttes cselekvést tételez fel Distributed-Q-Learning: lokális Q és h tanulás, de az egyedi Q frissítése csak akkor, ha növekszik (a közös opt.-t is el fogja kapni) Koordinálás-alapú pl. együttes Q dekomponálása kisebb csoportullások szerint Indirekt koordinálás pl. tanulva, hogy más ágensek bizonyos cselekedeteit milyen gyakorisággal használják: JAL Joint Action Learner: C i (u ) i-edik ágens hányszor tapasztalja, hogy j-edik j j ágens egy u j cselekvéshez folyamodik (mások prob. modellje) Frequency Maximum Q-value heurisztika: r max u i mellett legjobb megerősítés, C max ennek gyakorisága C a cselekvés gyakorisága a számított Q értéket a Boltzmann-felfedezés képletében használja

Koordinálás kérdése Explicit koordinálás pl. társadalmi szabályok pl. ágens 1 < ágens 2 normatívák, törvények L < R < S kommunikáció döntés (L 1, L 2 ) Teljes versengés szerepek... Minimax Q-tanulás (1. ágens)

Teljes versengés Teljes versengés Minimax Q-tanulás, példa 1. ágens szeretne elfoglalni a keresztet és elmenekülni. 2. ágens szeretne elkapni az 1. ágenst. A Q táblázat az 1. ágens perspektíváját mutatja, a 2. ágens Q függvénye ennek -1- szerese. A minimax megoldás 1. ágensre: Ha L1-et lép, akkor a 2. minimalizálva L2-et lép, eredményben 0. Ha R1-et lép, akkor a 2. minimalizálva szintén L2-et lép, eredményben -10. Az 1. ágensnek tehát L1-et kell lépnie, mert így legfeljebb 0-val megússza Vegyes feladatok Nincsenek feltételek megerősítésekre. Valamilyen egyensúly felé kell húzni. Lehet pl. a Nash-egyensúly, de mi van, ha több van?

Vegyes feladatok - egyedi ágens Q-tanulás (a többi implicite a környezeti információban) - ágens-független módszerek (egymástól független, de egy feltehetően közös egyensúly felé (Nash-Q-learning, correlated equilibrium Q-learning, asymetric Q-learning, ) Problémák egyensúlyi helyzetekkel, pl.: Két porszívóágens feladata a két szobából álló lakás kitakarítása. Mindegyik jobban szeretne a bal szobát megkapni, mert ez kisebb. Két Nash-egyensúly van: de ha a két ágens között nincs koordináció, akkor mindketten ugyanabban a szobában végeznek, kisebb hasznossággal.

Vegyes feladatok Ágens-követő, ágens-tudatos módszerek (más ágensek modellezése, a modell használata tanulásban: - érzékelés + stratégia-váltás) AWESOME (Adapt When Everyone is Stationary, Otherwise Move to Equilibrium) IGA (Infinitensimal Gradient Ascent) ágensek cselekvéseinek valószínűsége az, amit az ágens tanul (2 ágens, 2 cselekvés,» α 1. ágens 1. cselekvése és β 2. ágens 1. cselekvése: WoLF-IGA (Win-or-Learn-Fast) - győztes helyzetben ágens óvatos, kis δ-val lassan tanul, nehogy az előnyös pozícióját elveszítse - vesztes esetben viszont nagyobb δ-val gyorsan kikerül a jelen helyzetből. Lucian Busoniu, Robert Babuska, and Bart De Schutter, A Comprehensive Survey of Multiagent Reinforcement Learning, IEEE Trans. on Systems, Man, and Cybernetics Part C: Applications and Reviews, Vol. 38, No. 2, March 2008