Tanulás elosztott rendszerekben/1
(Egyedi ágens) tanulásáról röviden Célja: javulás (feladavégzésben), adaptalódás, robusztusság (környezet) kompenzálás, hibatürés (ismerethiány, meghibasodás). Miből: példák (forrásuk a környezet), háttértudás (forrása a fejlesztő), példák minősítése (forrása a kritikus, tanár). Megközelítések: felügyelt, megerősítéses, felügyelet nélküli. Tipikus tanulási absztrakció: induktív függvénytanulás (példák alapján), ami osztályozás (döntés), vagy regresszió (approximáció). Absztrakt tanulási algoritmus: helyes függvény keresése hipotézisek terében. Absztrakt tanulási algoritmus problémái: tanulási zaj, tanulási elfogultság, tanulás komplexitása (VKH tanulás), empirikus és háttér tananyag kölcsönhatása, és nagyon sok konkrét algoritmus (tudásreprezentáció függvényében), amiből választani lehet.
MAS tanulás - Tények/kihivások Hipotézistér Többágenses környezetben való tanulás szintén keresés a hipotézisek terében, de most ez a tér (a többi ágens miatt) szokotlanul nagy. Emergent (Kialakuló) A kölcsönhatások bonyolúltága miatt a tanult viselkedésben bekövetkező kis változások nem megjósolható (emergent, kialakuló) változásokhoz vezethetnek a szervezet viselkedésének egészében. Játékelmélet Többágenses szervezetben több független tanulási folyamat van jelen. Mindegyik ágens tanul és adaptálódik mások által meghatározott kontextusban. Ilyen tanulás természetes módon játékelméleti modellekhez vezet, amelyek kapcsolata tanulással még nem tisztázott. Tanítók A kölcsönhatások említett komplexitása miatt nemigen esélyes felügyelt tanulásra törekedni. Többágenses rendszer együttes tanulásához nehéz megfelelő tudású kritikust találni.
MAS tanulás - Tények/kihivások Megerősítés Amiatt ez egyik elterjedtebb tanulási forma a többágenses megerősítéses (kooperatív és versengő) tanulás és az evolúciós számítások (cooperative/ competetive coevolution). Stacionarítás Több, parallel és konkurrens módon tanuló ágensek jelenléte az ágens környezetét nemstacionáriussá teszi, ami sérti a tradicionális (egyágenses) tanulási módszerek egyik alapvető feltételét. Dinamika A környezet mások tanulásának ütemében változik. Ha az ugyanilyen gyors, mint az ágensünk tanulása, akkor az soha nem éri el a megtanult -nak nevezhető állapotot. Érdemhozzárendelés A környezeti változások az összes ágens együttes cselekvésének hatására következnek be. Ágensünk cselekvése mennyire volt ebben meghatározó? Milyen nagy az érdeme/bűne a közösség szempontjából kifejezetten előnyös/káros környezeti állapotok elérésében?
MAS tanulás - Tények/kihivások Nash-egyensúly Stacionarítás nélkül az optimálisan megtanulthoz való konvergencia (példszám növekedésével) nem biztosítható. Azonban a tanulással valahová tartani kell. Nash-egynsúly egy alternatíva, de láttuk, hogy ez nemigen az optimális szociális jólét alternatívája. És mi van, ha több Nash-egyensúly van? Konvergencia A tanulás konvergenciája megtévesztő lehet és a mérnöki szempontból nem lehet egyedüli cél. Elképzelhető, hogy a konvergens tanulás a szociális jólétre nézve (hasznosságban) veszteséges, a nem konvergens tanuláshoz képest. Kommunikáció Kommunikáció egy információforrás. Információ szükséges a tanuláshoz. Azonban kommunikáció erőforrásigényes, a tanulás is. Mi van, ha egy ágens korlátosan racionális? Milyen legyen akkor a kommunikáció? Lehet tanulni kommunikáció érdekében is?
Tényállás Más ágensek jelenléte egy ágens környezetében érvényteleníti az egyedül tanuló ágens sikeres tanulásának alapvető matematikai feltételkörét. (Naív) Következmény Több ágenses környezetben sikeres tanulás tehát lehetetlen. Az eddigi (egyedül létező) ágens tanulási tudása (algoritmusai) eldobható. (Pragmatikus) Következmény Több ágenses környezetben sikeres tanulás sokkal nehezebb probléma (mint ). Sikeres kivitelezése feltehetően más feltételekhez van kötve, más algoritmusokhoz vezet és a sikerességet is át kell értékelni.
Kihívások/1 Tanulás egymásról: mivel más ágensek a környezet részei, azok modelljét meg kell tanulni a környezeti hatások hatásos jóslása érdekében (hogyan fognak válaszolni, mit lépnek, mi a szándékuk,...). Tanulás közösségről és környezetről: egy szervezet minőségileg több, mint az egyedek összege, ágens egyedek kitanulását követően meg kell tanulni a szervezetük speciális métavonásait. Tanulás változó ágens egyedekkel való kölcsönhatásból: tanulom a modelledet, de számodra én vagyok a környezeti tényező, így te tanulsz engem. Tanulás révén változom, a változó modellemet tanulva, változol hát te is. A változó modelledet tanulva annál inkább én is változom,... Régi csoporttagok felejtése csoport által: a megtanult információ érvényét veszti, ha az objektuma eltűnik, azonban ennek érzékelése egyáltalán nem triviális ott, ahol az érzékelésnek fő módja pl. a (bizonytalan) kommunikáció.
Kihívások/2 Tanulni Másokról mert ez kell a konfliktusok, a fölösleges kommunikáció mérsékléséhez, a tárgyalásokhoz szükséges erőforrások mérsékléséhez, az ágens tárgyalási készségének javulásához, az együttműködés optimalizálásához,... Másoktól mert érdemes, hiszen ők is intelligens, racionális egyedek, talán a környezetet másképpen, más szempontból jobban érzékelik, a tudásuk jól kiegészítheti a miénket,... Mások ellenére mert az együttműködési igény, kényszer nem mindig van jelen, a tanulásunk pedig jobb versenyhelyzetbe helyez minket, és így másokat rosszabban,... Mások segítségével mert érdekeltek lehetnek abban, hogy a csapat minden tagja hatékonyabb és ügyesebb legyen, így a közös megoldás is jobb lesz,...
Kihívások/3 Tanulás tárgyalás közepette Tárgyalás egyik fő célja a lehetséges konfliktusok detektálása, mert egy és ugyanannak a problémának mások által más a javasolt megoldása, egy javasolt részmegoldás értékelése (javasló és elfogadó) eltérő, stb, Tanulás tárgyalásból tárgyalás közben tárgyalás végeztével Tanulás tárgyalásból-hoz feltétlenül szükséges egy stabil ágensközösség - ugyanazok az ágensek több tárgyalásban is részt vesznek, - bizonyos ágenstípusok halmaza állandó ( stacionárius szervezet, különben lehetetlen MAS tanulni). Ágens mit tartson meg a tárgyalás végeztével? - a beérkező információ permanens megtartása eredeti formájában, - a beérkező információ ideiglenes tárolása, kompilálása és beintegrálása, - a beérkező információ törlése, miután az ágens azt felhasználta. (processzállás és komplexitás terhe)
A tanulási problémák fajtái Team-tanulás (egy tanuló) Homogén team-tanulás keresési tér nagy Heterogén team-tanulás külön specialisták Hibrid team-tanulás osztagokra bontás Konkurrens tanulás (több tanuló) Teljesen kooperatív szcenáriók Általános összegű játékok Versengő tanulás Team-tanulás problémái Team-társ modellje hiedelmek, preferenciák, képességek Bayes-i frissítése mások tanulása érzékenység kezdeti hiedelmekre, eredményben rosszabb is lehet, mint modell nélkül fontos: felfedezni másik kooperatív v. versengő-e? direkt/indirekt kölcsönösség elve (reciprocity)
Konkurrens tanulás problémái Érdemhozzárendelés globális megerősítés, lokális megerősítés, u saját + (1- ) u jólét, Wonderful Life Utility (team haszna nélkülem), leszámoltatás helyett átlagolás feladatszekvenciák felett, senkinek nem érdeke, de közérdek Tanulás dinamikája attraktorok, trajéktóriák, tanulás hibája a tanulási, változási, visszatartási ráták függvényében, Nash-egyensúly kooperatív esetben hasznosságok korreláltak, mozgás globális NE felé lehetséges, más esetben koordinálás NE GE kérdéses, inkább NE Tanulás és kommunikáció kapcsolata Direkt kommunikáció (érzékelhető, dekódolható változás a környezetben) (megosztott tárak, jeladás, üzenetváltás) (koordinálás, megosztás) (nyeresség, költség) (sávszélesség, hálózati késés) (broadcast, narrowcast) (keresési tér mérete) (figyelembe vétele tanuló algoritmusokban) Indirekt kommunikáció (ferromonok, nyomok, pózok, )
Konkurrens tanulás problémái Felskálázhatóság Keresési tér mérete: nagy, heterogén, erősen kölcsönható MAS tanulása gyakorlatilag lehetetlen: egyedi tanulók tipizálása, heterogenitás mérséklése, viselkedési komplexitás mérséklése, viselkedések, hasznosságok dekomponálása (pl. Q(s, a1, a2, a3, a4) = Q(s, a1, a2) + Q(s, a3, a4)) Adaptivítás dinamikája és Nash-egyensúlyok mások: a célállapot elmozdulása, konvergencia mihez? racionális NE optimális jólét, NE koordinálás? racionalitás igénye másodlagos a team optimális viselkedéséhez képest, kooperatív team kontextusban racionálisan félni mások elutasításától valóban irracionális Problémadekompozició viselkedések csoportosítása, rétegezett tanulás: először elemi viselkedés, majd egyre bonyolúltabb, megerősítés-formálás: először egyszerűbb viselkedés előnyben részesítése, majd bonyolúltabb, az előbbire alapozva, koordinálási gráf: közös Q értékek részleges dekomponálása (ld. előbb) Ellenség modellezése ellenség-e? viselkedéseinek statisztikája?
A tanuló algoritmus formális célja (a beállás elvi feltételei), ill. a tanuló algoritmus sikeres elvégzése révén (a formális cél elérésével) elért MAS hatás nagyon lehet nem ugyanaz.
Néhány konkrét MAS hatás Erősen strukturált kooperatív szervezetben, közös feladatmegoldás felé haladva, jóindulatú konfliktusok jelentkeznek. Itt a tanulás célja = a fölösleges kommunikáció mérséklése, azáltal a hatékonyságnövekedés. Alapvetően kooperatív, de laza, nem strukturált szervezetben, induktív tanuló ágensek. Itt a tanulás célja = mások segítségével az egyéni tanulógörbét megjavítani. Alapvetően kooperatív, laza, nem strukturált szervezetben tanuló ágensek. Itt a tanulás célja = koordinálást megtanulni együttműködés fokozása érdekében. Erősen strukturált hierarchikus és kooperatív szervezetben, ami, mint szervezet veszélyes környezetben ténykedik. Itt a tanulás célja = egyéni, csoportos, szervezeti hatékonyság növelése szervezeti célok elérése érdekében. Alapvetően versengő szervezetben. Itt a tanulás célja = mások minél jobb kitanulása a minél hatékony visszavágás érdekében.
Erősen strukturált kooperatív szervezet egy tervezői team Single Function Agents SiFA Architektúra funkció, pl. Elemzés, Kritika, Értékelés, Becslés, Szelekció, Javaslat, cél, mire van közvetlen hatással (objektum, feladat része) szempont, funkció alkalmazása a célra, de milyen perspektívából Ágens tudása: tervezői (l. architektúra) konfliktusfeloldó konfliktusok detektálása, osztályozása, feloldása kommunikációs beszédaktusok szerkesztése és interpretálása lokális tár Koordinálás - globális tár (BB) design board = tervezés specifikációja, aktuális megoldás, javaslatok és döntések. Opportunista ütemezés egy ágens működésbe lép, ha (látja, hogy): a feladatának előfeltételei teljesülnek, az eredményeire igény jelentkezett. Kommunikáció (BA) felkérés egy alternatíva elfogadására, jelentés, hogy egy kényszer (nem) teljesül, kérdés a preferenciákra vonatkozólag, javaslat, javaslat (javasolt paraméterérték) elutasítása, Intelligens Elosztott... Rendszerek BME-MIT, 2018
Ágens tipusok Szelektor Becslő Értékelő Kritikus Dicsérő Javasló alternatívák között választ, preferenciák és kényszerek szerint hiányos információ miatt paramétereket becsül tervezési célok és szempontok alapján paramétereket értékel problémákat (kényszersérülés), gyenge döntéseket azonosít pozitív megjegyzéseket tesz, miért fontos? kritikák, kontextusok alapján alternatív megoldásokat ajánl Konfliktusok: eltérő funkciókból adódóan (néhány példa) Becslő - Szelektor/Javasló - nem becsülhető a kevés információ miatt Értékelő Becslő - az értékelés nem megbízható a rossz becslés miatt Szelektor Szelektor - eltérő preferenciák eltérő választáshoz vezetnek Kritikus Becslő/Értékelő - alacsony kvalitású munkát nem fogad el stb. Konfliktus típusok Kevés információ egy ágens kimenetében, mint ami szükséges lenne, Információ kvalitása nem elegendő az átvevő ágens szempontjai szerint: Szegényes processzálási modell(je az ágensnek) Eltérő preferenciák Sérült kényszerek
Konfliktusok feloldása Információ kibővítése ( kommunikáció) Megegyezés bizonyos értékek kérdésében ( kommunikáció) Információ kvalitásának emelése Átállás jobb processzálási módszerekre Konfliktusok érzékelése - Globális megoldástárban Szelektor konfliktusok - Szelektor nem tudja a preferált értékét megválasztani más ágens választásai miatt tárgyalás inicializálása Kritikus konfliktusok - Kritikus ellenőrzi a számon tartott kényszereket, sérülés esetén kinyomozza, melyik paraméter (ágens) a ludas tárgyalás inicializálása Dicsérő szerepe - állásfoglalása nyomást jelenthet konfliktusfeloldásban, ki inkább vonja vissza a javaslatát,... stb. SIFA tanulás A ágens B ágens leírását tanulja 1. fázis: Egyedi kölcsönhatás B -vel esetképzés (tanulás tárgyalásból) esetindex = B döntése mögött húzódó tervezői igények esettartalom = B konkrét válasza (minden eset = egy tanulópélda) 2. fázis: Esetek integrálása a B eddig megtanult modelljébe (tanulás tárgyalás végeztével), leképzés: különböző tervezési feltételek B opciói/ preferenciái
Tanulás hatása, célja: tárgyalás intenzitásának mérséklése későbbiekben MAS hatás: tanulás során mérséklődik a kommunikáció (kevesebb konfliktus) egyre nehezebben tanul, mert kevesebb a példa - Kritikusok jelenléte: Szelektor tanulja a Kritikusokat, abból adódóan kevésbé tárja fel a preferenciáit a további kölcsönhatásokban, Szelektor-ról való tanulás nem lesz pontos Mozgócél probléma: A tanul B -ről, B tanul A -ról, meg másokról. A tanul implicit módon C -ról, B által, abból, amit a B tanult a C -ról. MAS hatás: Tanulással a kölcsönhatások mértéke 2/3-ra csökkent (konkrét szimulációk, rugótervezés speciálstái)
Koaktív tanulás Coacting (pszichológia) egyedi szereplés, az ugyanilyen feladattal küszködő mások közepette. Tanulók aktív kölcsönhatása, de minden tanuló önmagáért tanul, nem csoporteredményről van itt szó. Tanulás eltérő példahalmazokon kommunikáció példák, közlés a hallgató érdekében, megítélés firtatása példák megítélése Tanulás azonos példahalmazon kommunikáció példák megítélése fontos: kritikus példák cseréje kritikus példák minősítése majdnem, mint a felügyelt tanulás (egymás részére)
Kísérlet: osztályozástanulás - IBL Instance-Based Learning egy új eset osztályozása (jóslása) = tárolt, az új esetre leginkább hasonlító esetek osztályozása alapján távolság definíciója? hány szomszéd? súlyozás (opcionális)? új eset eltárolása? IB1 minden megfigyelt eset tárolása (zajvédett, memória!) IB2 csak a rosszul osztályozott esetek tárolása (zajérzékeny, memória ok) IB3 minden rosszul osztályozott eset tárolása, korrekt/nem korrekt osztályozók adminisztrálása (szignifikancia teszt), rossz jóslók elhagyása (nem zajérzékeny, memória ok) (Ágens: igazmondó, jóhiszemű, kooperatív, jóindulatú, hasonló (azonos) tudáskezelés, hasonló (azonos) probléma megoldó készség)
Ua. a tanítóhalmaz, eltérő magántanulási stratégiák IB1 S -S +S +S vizsgált eset osztályozó példa S store, NS no store, P pass, G - get (ask for), D - drop IB2 S +NS -S +NS IB1 S -S +S +S IB2 nem tárolja az IB1 által sem jól osztályozott példát, IB2 NS +NS -S +NS IB2 javul. IB2 a példát nagy eséllyel zajnak hiszi. ---------------------------------------------------------------------- IB1 S -S +SP +S Ha IB2 rosszul osztályoz, amikor IB1 helyesen, IB2 NS +NS -S +NS IB2 eltárolja az IB1 által átadott osztályozó példát. További javulás, egyes problémákon jobb, mint IB3. --------------------------------------------------------------------- IB1 S -SD +SP +SP IB1 eldobja a rossz eredményt (IB2 másképpen IB2 -NS +NS -SD +NS osztályoz) adó osztályozó példát. Ha mindketten jól működnek, IB1 átadja a leginkább hasonló tárolt példát, amit az osztályozásnál használt, és azt az IB2 eltárolja. IB2 eldobja az osztályozó példáját, ha rosszul működik, és átveszi az IB1-ét. Legjobb jóslási képesség zajos eredményeken. Megnőtt tár. --------------------------------------------------------------------- IB1 S -SD +SP +NSP Helyes osztályozás esetén az új példát nem tárolják. IB2 NS +NS -SD +NS IB1 nem jobb, de tár kevesebb. IB2 jobb, mint egy független IB2, majdnem IB3 hatékonysági szinten.
Ua. a stratégia (IB2), de eltérő tanítóhalmazok A NS SG +NS +NS A csak akkor kérdez B-től az ő eredményét, ha neki nem B S +NS -S +NS sikerült. Ha B helyesen osztályozza az A tanító példáját, A megkéri (get) és eltárolja a B osztályozó példáját. Ha B szerint sem korrekt a példa, akkor A eldobja azt (feltehetően zajos). Zajos adatokon A jobb, mint B, fele annyi példát tárolva. Ez nem más, mint a véleménykikérés, segítségnyújtás B részéről. ----------------------------------------------- A NS SG +NS +NSG A minden esetben kérdez rá a B-re, és eltárolja B S +NS -S +NS a B osztályozó példáját, ha az korrektül osztályoz. A további javulása (pozitív döntések megerősítése). ----------------------------------------------- A SP SP +NS +NS Mindkét együtt cselekvő minden rosszul osztályozott B SP +NS SP +NS példáját másnak elküldi. Így mindenki azonos szinten integrálja magába a közösség tudását tanult tudás megosztása.
MAS hatások Egy adott M példaszám N db ágensre oszlik el, ami független tanulás esetén az egy-egy ágensnek a tanulási görbéjét ellapítaná, mivel egyegy ágens a tanuláshoz nem M, hanem M/N példát használ fel. Az együttműködés révén az egyedi (M/N példából tanuló) ágensnek tanulási görbéje az M példából önállóan tanuló ágens tanulási görbével lesz azonos (ugyanolyan meredek), az együttműködés tehát a példahiányt képest pótolni, valahogy úgy, mintha egy nyers háttértudást jelentene az ágensnek.
Egy szervezet ellenséges környezetben, ill. más szervezetek ellen
Kiindulás - katasztrófa-elhárítás Természeti katasztrófák és az információs technológia tapasztalata (1995-ös Kobe-i földrengés, 6 ezer áldozat, a város 1/5-e megsemmisült): 1. A feltételezett felskálázhatóság nem volt elegendő, 2. Szükségsegítség központok (Emergency Response center) és dolgozói sérülnek/ megsemmisülnek, 3. Kommunikációs kiesések, zavarok, 4. Lakosság és önkéntesek információs elszigeteltsége, 5. Nem elegendő támogatás a döntéshozatalhoz. Dinamikus, ellenséges (nem kooperatív), valós-idejű környezet, korlátozott kommunikációval
Tanulás valós-idejű stratégiai csapatmunkában PTS Periodic Team Synchronization Autonóm működés kommunikáció kiesése esetén, mégis cselekvés a közös (csapat) cél felé. (katasztrófaelhárítás, futball, korházmenedzsment, több űrhajó misszió, keresés/mentés (SAR), csatatéri műveletek, hálózati csomag routing, stb.), Időszakos koordinálás, korlátlan, zavartalan kommunikációval (off-line), majd dinamikus, valós-idejű (on-line) működés. Nem megbízható kommunikáció (on-line) üzenet érkezése valamilyen valószínűséggel, üzenetvétel csak bizonyos időközönként, kommunikációfüggőség költsége (ha üzenetvétel nélkül nem tud cselekedni) (ha üzenetvétel miatt nem tud cselekedni) Ágens felépítése és tudása (az alap architektúra egy változata) világállapota, belső állapot, belső viselkedés (kognitív), külső viselkedés (kommunikációs + fizikai), öltözői taktikai megbeszélés (LRA - Locker- Room Agreement), amikor a csapat képes elszigetelten szinkronizálni.
Csapat struktúra rugalmas ágensszerepek + szerepcsere protokollok csapatformációk szerephalmazokkal többlépéses, többágenses tervek meghatározott körülményekhez set-plays Szerep (viselkedés) specifikálása: merev, rugalmas (autonómia) Kommunikáció (kihívások): egyedi csatorna, alacsony sávszélesség, megbízhatatlan kommunikáció, azonosítás: melyik üzenet melyik ágensnek szól, aktív zavarás ellenséges ágensek részéről, álruhás üzenetek, LRA kódolási megállapodások Üzenettípusok: üzenet címzettje: egyedi ágens, team része, egész team válasz: nem szükséges, szükséges Csapatkoordinálás: LRA + ami átjön az üzenetekből valós időben Kihívások: LRA megbeszélések reprezentációja és végrehajtása; Hogyan állapítjuk a szerepváltás és formációváltás legjobb időpontját; Hogyan biztosítjuk, hogy minden ágens azonos formációt vesz fel; Hogyan biztosítjuk, hogy egy formáció minden szerepe aktív.
Mérközések RoboCup-XX, www.robocup.org CMUnited-97 formáció: 4-4-2 8-2-0 (vége felé, ha győz) 3-3-4 (vége felé, ha veszít) negyeddöntő (29 csapat, AT Humboldt), össz: 67-14 CMUnited-98: bajnok (34 csapat), össz: 66-0 CMUnited-99: bajnok (37 csapat):
RoboCup-Rescue típ. projektek Tanulható csapattevékenység kiterjesztése heterogén szerepkörű, kritikus folyamatokkal teli környezetben célokat megvalósító ágensekre. Szimulációk (RobotCup-Rescue Simulation) célja: 1. A szükséges információ begyűjtése, akkumulálása, továbbítása, szelektálása, elemzése, összegzése, szétküldése. 2. Megfelelő döntéstámogatás. 3. Rendszer-elosztottság megnövelt megbízhatóság és robusztusság érdekében. 4. Folyamatos cselekvés biztosítása normális körülményektől a szükségállapotig.
USAR (Urban Search And Rescue) Arenas Test Arenas for Autonomous Mobile Robots http://www.nist.gov/el/isd/testarenas.cfm Kooperáció és intelligencia, BME-MIT
Specific robotic capabilities: Negotiate compromised and collapsed structures Locate victims and ascertain their conditions Produce practical sensor maps of the environment Establish communications with victims Deliver fluids, nourishment, medicines Emplace sensors to identify/monitor hazards Mark or identify best paths to victims
RoboCup@Home arena Follow me, Clean up, Move to the LOCATION, find a person, and guide it to the exit. stb. EGPSR Endurance General Purpose Service Robot Test