13. Tanulás elosztott rendszerekben/1. Intelligens Elosztott Rendszerek BME-MIT, 2017

13. Tanulás elosztott rendszerekben/1

(Egyedi ágens) tanulásáról röviden Célja: javulás (feladavégzésben), adaptalódás, robusztusság (környezet), kompenzálás, hibatürés (ismerethiány, meghibasodás) Miből: példák (forrásuk a környezet), háttértudás (forrása a fejlesztő), példák minősítése (kritikus, tanár) Megközelítések: felügyelt, megerősítéses, felügyelet nélküli Tipikus tanulási absztrakció: induktív függvénytanulás (példák alapján), ami osztályozás (döntés), regresszió (approximáció) Absztrakt tanulási algoritmus: helyes függvény keresése hipotézisek terében Absztrakt tanulási algoritmus problémái: tanulási zaj, tanulási elfogultság, tanulás komplexitása (VKH tanulás), empirikus és háttér tananyag kölcsönhatása, nagyon sok konkrét algoritmus (tudásreprezentáció függvényében)

A MAS tanulást igénylő absztrakt és valós problémakörök Vadászok és prédák Objektumok (dobozok) tologatása Labda tartása Kooperatív célmegfigyelés Cselekvés-koordinálás Gyűjtögetés Csapatfutball Kooperatív navigálás Terelés Szociális problémák.. Elosztott járműmegfigyelés Légi írányítás Hálózatmenedzsment és routing Villamos energia elosztása Elosztott egészségügyi problémák Ellátásláncok Hierarchikus MAS problémák Szociális kölcsönhatások MAS modellezése Megbeszélésütemezés

Tények/kihivások Hipotézistér Többágenses környezetben tanulás szintén egy keresés a hipotézisek terében, de most a tér (a többi ágens miatt) szokotlanul nagy. Emergent A kölcsönhatások bonyolúltága miatt a tanult viselkedésben bekövetkező kis változások nem megjósolható (emergent, kialakuló) változásokhoz vezethetnek a szervezet viselkedésének egészében. Játékelmélet Többágenses szervezetben több független tanulási folyamat van jelen. Mindegyik ágens tanul és adaptálódik mások által meghatározott kontextusban. Ilyen tanulás természetes módon játékelméleti modellekhez vezet, amelyek kapcsolata tanulással még nem tisztázott. Tanítók A kölcsönhatások említett komplexitása miatt nemigen esélyes felügyelt tanulásra törekedni. Többágenses rendszer együttes tanulásához nehéz megfelelő tudású kritikust találni.

Tények/kihivások Megerősítés Azért ez egyik elterjedtebb tanulási forma a többágenses megerősítéses (kooperatív és versengő) tanulás és az evolúciós számítások (cooperative/ competetive coevolution). Stacionarítás Több, parallel és konkurrens módon tanuló ágensek jelenléte ágens környezetét nemstacionáriussá teszi, ami sérti a tradicionális (egyágenses) tanulási módszerek egyik alapvető feltételét. Dinamika A környezet mások tanulásának ütemében változik. Ha az ugyanilyen gyors, mint az ágensünk tanulása, akkor az soha nem éri el a megtanult - nak nevezhető állapotot. Érdemhozzárendelés A környezeti változások az összes ágens együttes cselekvésének hatására következnek be. Az ágensünk cselekvése mennyire volt ebben meghatározó? Milyen nagy az érdeme/bűne a közösség szempontjából kifejezetten előnyös/káros környezeti állapot elérésében?

Tények/kihivások Nash-egyensúly Stacionarítás nélkül az optimálisan megtanulthoz való konvergencia (példák növekedésével) nem biztosítható. Azonban a tanulással valahová tartani kell. Nash-egynsúly egy alternatíva, de láttuk, hogy ez nemigen az optimális szociális jólét alternatívája. És mi van, ha több Nash-egyensúly van? Konvergencia A tanulás konvergenciája megtévesztő lehet és mérnöki szempontból nem lehet egyedüli cél. Elképzelhető, hogy a konvergens tanulás a szociális jólétre nézve (hasznosságban) veszteséges, a nem konvergens tanuláshoz képest. Kommunikáció Kommunikáció egy információforrás. Információ szükséges a tanuláshoz. Azonban kommunikáció erőforrásigényes, a tanulás is. Mi van, ha egy ágens korlátosan racionális? Milyen legyen akkor a kommunikáció? Lehet tanulni kommunikáció érdekében is?

Tényállás Más ágensek jelenléte egy ágens környezetében érvényteleníti az egyedül tanuló ágens sikeres tanulásának alapvető matematikai feltételkörét. (Naív) Következmény Több ágenses környezetben sikeres tanulás tehát lehetetlen. Az eddigi (egyedül létező) ágens tanulási tudása (algoritmusai) eldobható. (Pragmatikus) Következmény Több ágenses környezetben sikeres tanulás sokkal nehezebb probléma (mint ). Sikeres kivitelezése feltehetően más feltételekhez van kötve, más algoritmusokhoz vezet és a sikerességet is át kell értékelni.

Kihívások tanulás egymásról: mivel más ágensek a környezet részei, azok modelljét meg kell tanulni a környezeti hatások hatásos jóslása érdekében (hogyan fognak válaszolni, mit lépnek, mi a szándékuk,...) tanulás közösségről és környezetről: egy szervezet minőségileg több, mint az egyedek összege, az ágens egyedek kitanulását követően meg kell tanulni a szervezetük speciális métavonásait tanulás a változó ágens egyedekkel való kölcsönhatásból: tanulom a modelledet, de számodra én vagyok a környezeti tényező, így te tanulsz engem. Tanulás révén változom, a változó modellemet tanulva, változol hát te is. A változó modelledet tanulva annál inkább én is változom,... tanulás torzított szociális struktúrákban/ struktúrák által: ld. korábban: elfogultság,..., torzítás objektív, v. szubjektív régi csoporttagok felejtése csoport által: a megtanult információ érvényét veszti, ha az objektuma eltűnik, azonban ennek érzékelése egyáltalán nem triviális ott, ahol az érzékelésnek fő módja pl. a (bizonytalan) kommunikáció

Kihívások Tanulni másokról mert ez kell a konfliktusok, a fölösleges kommunikáció mérsékléséhez, a tárgyalásokhoz szükséges erőforrások mérsékléséhez, az ágens tárgyalási készség javulásához, az együttműködés optimalizálásához,... másoktól mert érdemes, hiszen ők is intelligens, racionális egyedek, talán a környezetet másképpen, más szempontból jobban érzékelik, a tudásuk jól kiegészítheti a miénket,... mások ellenére mert az együttműködési igény, kényszer nem mindig van jelen, a tanulásunk pedig jobb versenyhelyzetbe helyez minket, és így másokat rosszabban,... mások segítségével mert érdekeltek lehetnek abban, hogy a csapat minden tagja hatékonyabb és ügyesebb legyen, így a közös megoldás is jobb lesz,...

Kihívások Tanulás tárgyalás közepette Tárgyalás: egyik fő célja a lehetséges konfliktusok detektálása, egy és ugyanannak a problémának mások által más a javasolt megoldása, egy javasolt részmegoldás eltérő értékelése (javasló és elfogadó), majd jön az információ csere és az elfogadható döntések megtétele, Tanulás tárgyalás -ból tárgyalás közben tárgyalás végeztével Tanulás tárgyalásból, feltétlenül szükséges egy stabil ágensközösség - ugyanazok az ágensek több tárgyalásban is részt vesznek - bizonyos ágenstípusok halmaza állandó (különben lehetetlen tanulni) Ágens mit tartson meg a tárgyalás végeztével a beérkező információ permanens megtartása az eredeti formájában a beérkező információ ideiglenes tárolása, kompilálása és beintegrálása a beérkező információ törlése, miután az ágens azt felhasználta (processzállás és komplexitás terhe)

A tanulási problémák fajtái Team-tanulás (egy tanuló) Homogén team-tanulás keresési tér Heterogén team-tanulás specialisták Hibrid team-tanulás osztagokra bontás Konkurrens tanulás (több tanuló) Teljesen kooperatív szcenárió Általános összegű játékok Versengő tanulás Team-tanulás problémái Team-társ modellje hiedelmek, preferenciák, képességek Bayes frissítése 0, 1, 2, - szintű tanuló ágens 0: mások nem tanulnak 1: mások 0 n: mások n-1 mások tanulása érzékenység kezdeti hiedelmekre, eredményben rosszabb is lehet, fontos: felfedezni kooperatív v. versengő kölcsönösség elve (reciprocity)

Konkurrens tanulás problémái Érdemhozzárendelés globális megerősítés, lokális megerősítés, u saját + (1- ) u jólét, Wonderful Life Utility (team haszna nélkülem), leszámoltatás helyett átlagolás feladatszekvenciák felett, senkinek nem érdeke, de közérdek Tanulás dinamikája attraktorok, trajéktóriák, tanulási hiba tanulási, változási, visszatartási ráta függvényében, Nash-egyensúly kooperatív esetben hasznosságok korreláltak, mozgás globális NE felé lehetséges, más esetben koordinálás NE GE kérdéses, inkább NE Tanulás és kommunikáció kapcsolata Direkt kommunikáció (érzékelhető, dekódolható változás a környezetben) (megosztott tárak, jeladás, üzenetváltás) (koordinálás, megosztás) (nyeresség, költség) (sávszélesség, hálózati késés) (broadcast, narrowcast) (keresési tér mérete) (figyelembe vétele tanuló algoritmusokban) Indirekt kommunikáció (ferromonok, nyomok, pózok, )

Konkurrens tanulás problémái Felskálázhatóság Keresési tér mérete: nagy, hetergén, erősen kölcsönható MAS tanulása gyakorlatilag lehetetlen: egyedi tanulók tipizálása, heterogenitás mérséklése, viselkedési komplexitás mérséklése, viselkedések, hasznosságok dekomponálása (pl. Q(s, a1, a2, a3, a4) = Q(s, a1, a2) + Q(s, a3, a4)) Adaptivítás dinamikája és Nash-egyensúlyok mások: a célállapot elmozdulása, konvergencia mihez? racionális NE optimális jólét, NE koordinálás? racionálitás igénye másodlagos az optimális team viselkedéshez képest, kooperatív team kontextusban racionálisan félni mások defektálásától valóban irracionális Problémadekompozició viselkedések csoportosítása, rétegezett tanulás: először elemi viselkedés, majd egyre bonyolúltabb, megerősítés-formálás: először egyszerűbb viselkedés előnyben részesítése, majd bonyolúltabb, az előbbire alapozva, koordinálási gráf: közös Q értékek részleges dekomponálása (ld. előbb) Ellenség modellezése ellenség? viselkedéseinek statisztikája?

A MAS tanulás témája/objektuma/ kudarcok, sikerek kontextusa (konfliktust okozó elemek, döntések, célok) kudarcok, konfliktusok típustana, konfliktusminták különböző típusú konfliktusok felismerése és osztályozása kudarc utáni visszaállás (fail recovery) és konfliktusfeloldás heurisztikái a feladat paramétereire vonatkozó kényszerek a feladat paramétereinek függőségi viszonyai a döntéseket alátámasztó, vagy ellenző érvelések tervezési szabályok, módszerek, tervek ágens preferenciái, hasznosságai, szándékai, tervei fontos: adott kontextus milyen szándékokat kelt más ágensekben különösen kívánatos: tervfelismerés hiedelmek és szándékok alapján, hosszú távon biztosítja más ágensek követhetőségét, de egy másik ágens tárgyalási stratégiájának a megértése a hiedelmek és szándékok megértése alapján nagyon bonyolult szabályok, cselekvések, feladatok előfeltételei és hatásai tervezési döntések konzekvenciái tárgyalási cselekvések és stratégiák

A tanuló algoritmus formális célja (a beállás elvi feltételei), ill. a tanuló algoritmus sikeres elvégzése révén (a formális cél elérésével) elért MAS hatás nagyon nem ugyanaz.

Néhány konkrét MAS hatás Erősen strukturált kooperatív szervezetben, közös feladatmegoldás felé haladva, jóindulatú konfliktusok jelentkeznek. Itt a tanulás célja = a fölösleges kommunikáció mérséklése, azáltal a hatékonyságnövekedés. Alapvetően kooperatív, de laza, nem strukturált szervezetben, induktív tanuló ágensek. Itt a tanulás célja = mások segítségével az egyéni tanulógörbét megjavítani. Alapvetően kooperatív, laza, nem strukturált szervezetben tanuló ágensek. Itt a tanulás célja = koordinálást megtanulni együttműködés fokozása érdekében. Erősen strukturált hierarchikus és kooperatív szervezetben, ami, mint szervezet veszélyes környezetben ténykedik. Itt a tanulás célja = egyéni, csoportos, szervezeti hatékonyság növelése szervezeti célok elérése érdekében. Alapvetően versengő szervezetben. Itt a tanulás célja = mások minél jobb kitanulása a minél hatékony visszavágás érdekében.