Tanulás elosztott rendszerekben/2

Hasonló dokumentumok
Kooperáció és intelligencia

Tanulás elosztott rendszerekben/2. Intelligens Elosztott Rendszerek BME-MIT, 2018

Tanulás elosztott rendszerekben/1. Intelligens Elosztott Rendszerek BME-MIT, 2018

Stratégiák tanulása az agyban

Mesterséges Intelligencia MI

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Megerősítéses tanulási módszerek és alkalmazásaik

Megerősítéses tanulás

Intelligens Elosztott Rendszerek. Dobrowiecki Tadeusz és Eredics Péter, Gönczy László, Pataki Béla és Strausz György közreműködésével

Valószínűségi modellellenőrzés Markov döntési folyamatokkal

Játékrendszerek

1. Informatikai trendek, ágensek, többágenses rendszerek. Intelligens Elosztott Rendszerek BME-MIT, 2018

Navigáci. stervezés. Algoritmusok és alkalmazásaik. Osváth Róbert Sorbán Sámuel

4. Lokalizáció Magyar Attila

13. Tanulás elosztott rendszerekben/1. Intelligens Elosztott Rendszerek BME-MIT, 2017

Történet John Little (1970) (Management Science cikk)

A KOMMUNIKÁCIÓ ALAPJAI. - kommunikációs készségek oktatása gyógyszerészeknek. Dr. Heim Szilvia PTE ÁOK Családorvostani Intézet

Játékok oktatása. Módszertan

Alapszintű formalizmusok

Dunaújvárosi Főiskola Informatikai Intézet. Intelligens ágensek. Dr. Seebauer Márta. főiskolai tanár

Kisjátékok szerepe. Alapjátékok és szerepük a csapatjáték oktatásában

Quadkopter szimulációja LabVIEW környezetben Simulation of a Quadcopter with LabVIEW

A ROBOTIKA ALKALMAZÁSÁNAK LEHETŐSÉGEI A HAD- ÉS BIZTONSÁGTECHNIKAI MÉRNÖK KÉPZÉSBEN

Csapatjáték. felépítés

Gyakorlatok. VITMMA09 Okos város MSc mellékspecializáció

Forgalmi modellezés BMEKOKUM209

Korszerű információs technológiák

Jason platform. Intelligens Elosztott Rendszerek BME-MIT, 2018

Tanulás elosztott rendszerekben/3

Kooperáció és intelligencia kis HF-ok/ Kooperáció és intelligencia, Dobrowiecki T., BME-MIT 1

Követelmények a modern futballban

Neurális hálózatok.... a gyakorlatban

A digitális korszak kihívásai és módszerei az egyetemi oktatásban

CARE. Biztonságos. otthonok idős embereknek CARE. Biztonságos otthonok idős embereknek Dr. Vajda Ferenc Egyetemi docens

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Játékok oktatása. Módszertan

Módszer a tanítás művészete

Játékok oktatása. Módszertan

Megerősítéses tanulás 2. előadás

Teljesen elosztott adatbányászat alprojekt

Magyar Labdarúgó Szövetség Edzőképző Központ. Tervezés, periodizáció

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Ambiens szabályozás problémája Kontroll és tanulás-1

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Számítógépvezérelt irányítás és szabályozás elmélete (Bevezetés a rendszer- és irányításelméletbe, Computer Controlled Systems) 7.

Divényi Dániel, BME-VET Konzulens: Dr. Dán András 57. MEE Vándorgyűlés, szeptember

Neurális hálózatok bemutató

TARTALOMJEGYZÉK. TARTALOMJEGYZÉK...vii ELŐSZÓ... xiii BEVEZETÉS A lágy számításról A könyv célkitűzése és felépítése...

Takács Árpád K+F irányok

Logisztikai szimulációs módszerek

Mérés és modellezés 1

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Mesterséges intelligencia 2. laborgyakorlat

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Mérés és modellezés Méréstechnika VM, GM, MM 1

Méréselmélet MI BSc 1

Adatbányászati szemelvények MapReduce környezetben

Ember és robot együttműködése a gyártásban Ipar 4.0

Labdarúgás Fejlesztési Terv

UEFA A. SK STURM GRAZ KLUBLÁTOGATÁS május Készítette: Artner Tamás

Hogyan lesz adatbányából aranybánya?

Optimális keretfeltételek/ kísérő intézkedések

Figyelemzavar-hiperaktivitás pszichoterápiája. Kognitív-viselkedésterápia1

Modellkiválasztás és struktúrák tanulása

Etológia Emelt A viselkedés mérése. Miklósi Ádám egyetemi tanár ELTE TTK Etológia Tanszék 2018

pszichológiai háttere

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Autonóm jármű forgalomszimulátorba illesztése

Sportfoglalkozás-labdarúgás munkaterv

Hálózati Technológiák és Alkalmazások. Vida Rolland, BME TMIT október 29. HSNLab SINCE 1992

PSV AKADÉMIA 2007/2008

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I.

Visszacsatolt (mély) neurális hálózatok

Modell alapú tesztelés mobil környezetben

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla

III. Az állati kommunikáció

A SAKK ÉS A HADMŰVELETI MŰVÉSZET KAPCSOLATA

Dinamizmus állóképesség - kitartás w w w. h u n f l o o r b a l l. h u

A hálózattervezés alapvető ismeretei

Elérhetőségi probléma egyszerűsítése: Állapottér és struktúra redukció Petri-háló alosztályok

Mesterséges intelligencia 3. laborgyakorlat

EN United in diversity EN A8-0206/419. Amendment

A forrás pontos megnevezésének elmulasztása valamennyi hivatkozásban szerzői jogsértés (plágium).

Ericsson CoordCom. Integrált segélyhíváskezelés, tevékenységirányítás. <Name> Kovács László

10-11 éves korosztály

Bevezetés az informatikába

Kriptográfia 0. A biztonság alapja. Számítás-komplexitási kérdések

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

R3-COP. Resilient Reasoning Robotic Co-operating Systems. Autonóm rendszerek tesztelése egy EU-s projektben

Behatolás detektálás. Behatolás megel!zés. IDS rendszerek. Detektálás Eltérítés Elhárítás. (ellenlépések) Megel!z! csapás Küls! megel!

Hálózati réteg. WSN topológia. Útvonalválasztás.

Irányító és kommunikációs rendszerek III. Előadás 13

Gyártórendszerek irányítási struktúrái

Számítógépes Hálózatok 2010

Vitorláshal Angelfish

Kommunikáció. 3. előadás

280 YTO 135 TÍPUS YTO 135 TYPE. Rendelési cikkszám felépítése Order code structure. Kihajtó tengely pozíciók Drive shaft positions

A modellellenőrzés érdekes alkalmazása: Tesztgenerálás modellellenőrzővel

Megerősítéses tanulás 7. előadás

Mesterséges intelligencia alapú regressziós tesztelés

Átírás:

Tanulás elosztott rendszerekben/2

Egy szervezet ellenséges természetes környezetben, ill. más szervezetek ellen

Kiindulás - katasztrófa-elhárítás Természeti katasztrófák és az információs technológia tapasztalata (1995-ös Kobe-i földrengés, több, mint 6 ezer áldozat, a város 1/5-e megsemmisült): 1. A feltételezett felskálázhatóság nem volt elegendő, 2. Szükségsegítség központok (Emergency Response center) és dolgozói sérülnek/ megsemmisülnek, 3. Kommunikációs kiesések, zavarok, 4. Lakosság és önkéntesek információs elszigeteltsége, 5. Nem elegendő támogatás a döntéshozatalhoz. Dinamikus, ellenséges (nem kooperatív), valós-idejű környezet, korlátozott kommunikációval

Tanulás valós-idejű stratégiai csapatmunkában PTS Periodic Team Synchronization Autonóm működés kommunikáció kiesése esetén, mégis cselekvés a közös (csapat) cél felé (katasztrófaelhárítás, futball, korház/ gyármenedzsment, több űrhajóból álló misszió, keresés/mentés (SAR search and rescue), csatatéri műveletek, hálózati csomag routing, stb.), Időszakos koordinálás, korlátlan, zavartalan kommunikációval (off-line) majd dinamikus, valós-idejű (on-line) működés Nem megbízható kommunikáció üzenet érkezése csak valamilyen valószínűséggel, üzenetvétel csak bizonyos időközönként, kommunikációfüggőség költsége (ha üzenetvétel nélkül nem tud cselekedni) (ha üzenetvétel miatt nem tud cselekedni)

Ágens felépítése és tudása (az alap architektúra egy változata) világállapota (felfrissül szenzorok, megjósolt cselekvések alapján) hozzáférhető belső/külső viselkedés számára belső állapot (ágens állapotváltozói) belső viselkedés (kognitív) külső viselkedés (kommunikációs + fizikai) öltözői taktikai megbeszélés (LRA - Locker-Room Agreement) amikor a csapat képes elszigetelten szinkronizálni

Csapat struktúra rugalmas ágensszerepek + szerepcsere protokollok csapatformációk szerephalmazokkal többlépéses, többágenses tervek meghatározott körülményekhez set-plays Szerep (viselkedés) specifikálása: merev, rugalmas (autonómia) Kommunikáció (kihívások): egyedi csatorna, alacsony sávszélesség, megbízhatatlan kommunikáció, azonosítás: melyik üzenet melyik ágensnek szól, aktív zavarás ellenséges ágensek részéről, álruhás üzenetek, LRA kódolási megállapodások Üzenettípusok: üzenet címzettje: egyedi ágens, team része, egész team válasz: nem szükséges, szükséges Csapatkoordinálás: LRA + ami átjön az üzenetekből valós időben Kihívások: LRA megbeszélések reprezentációja és végrehajtása; Hogyan állapítjuk a szerepváltás és formációváltás legjobb időpontját; Hogyan biztosítjuk, hogy minden ágens azonos formációt vesz fel; Hogyan biztosítjuk, hogy egy formáció minden szerepe aktív.

Formáció F R U U U, 1, 2,..., k

Tanulás valós-idejű stratégiai csapatmunkában (CMUnited szg. labdarugó bajnok 97-99, DARPA (eredeti kisérlet)) MAS: 22 ágens Kommunikáció: egyetlen megbízhatatlan kommunikációs csatorna, csak közelről hallott üzenetekkel Objektummozgás: mozgás, gyorsulás, lassúlás,..., ütközés Játékosok teherbírása: újratermelhető, nem újratermelhető, véges. Ágens érzékelése: aura információ, a látás precizitása, a hallás precizitása, látás korlátos, környezet részben hozzáférhető. Mozgások: Fordulás, Előrerohanás, Rúgás, Fogás. Érzékelés és cselekvés aszinkron, valós-idejű. Zaj: beavatkozásban, objektumok mozgásában, vizuális érzékelésben Érzékelések, vagy üzenetek kiesése Utasítás végrehajtását szenzorikusan kell verifikálni. Strategic position by attraction and repulsion (SPAR) taszítás (repulsion) az ellenségtől, a csapattársaktól vonzás (attraction) aktív csapattársakhoz, labdához, az ellenség kapujához.

Mérközések RoboCup-XX, www.robocup.org CMUnited-97 formáció: 4-4-2 8-2-0 (vége felé, ha győz) 3-3-4 (vége felé, ha veszít) negyeddöntő (29 csapat, AT Humboldt), össz: 67-14 CMUnited-98: bajnok (34 csapat), össz: 66-0 CMUnited-99: bajnok (37 csapat):

RoboCup-Rescue típ. projektek Tanulható csapattevékenység kiterjesztése heterogén szerepkörű, kritikus folyamatokkal teli környezetben célokat megvalósító ágensekre. Szimulációk (RobotCup-Rescue Simulation) célja: 1. A szükséges információ begyűjtése, akkumulálása, továbbítása, szelektálása, elemzése, összegzése, szétküldése. 2. Megfelelő döntéstámogatás. 3. Rendszer elosztottság megnövelt megbízhatóság és robusztusság érdekében. 4. Folyamatos cselekvés biztosítása normális körülményektől a szükségállapotig.

USAR (Urban Search And Rescue) Arenas Test Arenas for Autonomous Mobile Robots http://www.nist.gov/el/isd/testarenas.cfm Kooperáció és intelligencia, BME-MIT

Specific robotic capabilities: Negotiate compromised and collapsed structures Locate victims and ascertain their conditions Produce practical sensor maps of the environment Establish communications with victims Deliver fluids, nourishment, medicines Emplace sensors to identify/monitor hazards Mark or identify best paths to victims

Simulated Victims: Simulated victims with several signs of life such as form, motion, head, sound and CO2 are distributed throughout the arenas Yellow Arena: For robots capable of fully autonomous navigation and victim identification, this arena consists of random mazes of hallways and rooms with continuous 15 pitch and roll ramp flooring. Orange Arena: For robots capable of autonomous or remote teleoperative navigation and victim identification, this arena consists of moderate terrains with crossing 15 pitch and roll ramps, structured obstacles: stairs, inclined planes, Red Arena: For robots capable of autonomous or remote teleoperative navigation and victim identification, this arena consists of complex stepfield terrains requiring advanced robot mobility. Blue Arena: For robots capable of mobile manipulation on complex terrains to place simple block or bottle payloads carried in from the start or picked up Black/Yellow Arena (RADIO DROP-OUT ZONE): For robots capable of autonomous navigation with reasonable mobility to operate on complex terrains. Black Arena (Vehicle Collapse Scenario): For robots capable of searching a simulated vehicle collapse scenario Aerial Arena (< 2 KG, VTOL suas): For small unmanned aerial systems (< 2 kg), vertical take-off and landing capabilities that can perform station-keeping, obstacle avoidance, and line following tasks with varying degrees of autonomy.

RoboCup@Home arena Follow me, Clean up, Move to the LOCATION, find a person, and guide it to the exit. stb. EGPSR Endurance General Purpose Service Robot Test

Egy szervezet tanulása (nézzünk bele) (más szervezetek ellenséges környezetében)

Rétegezett tanulás (Layered Learning) közvetlen bemeneti adat kimenet függvény tanulása nem megy - hierarchiadekompozíció, taszk feltörése rétegekre, - más-más koncepció tanulása rétegenként, lokális tanulás lokális koncepciók alulról felfelé taszk dekompozíció adva van (feladathierarchia, ld. előbb) alulról felfelé tanulás, amíg nem éri el a teljes probléma-komplexitást, altászkok, granuláltság a konkrét tartomány függvénye. adatokból tanulás, adaptálás tanulás minden szinten gépi tanulás: ha kézi (szimbolikus) hangolás nem megy, adaptálás, ha a feladat előre aluldefiniált, ha dinamikus. tanulás eredménye egy szinten példák a következő szint számára minden szinten tanulás a következő szintet közvetlenül befolyásolja: - a tanító példák szerkesztése, - a tanításhoz szükséges tulajdonságok biztosítása, - a kimeneti halmaz nyesése

Rétegezett tanulás (Layered Learning) H a hipotézisek halmaza, belőle egy h hipotézis tanulása H: állapottulajdonságok (attributúmok) S kimenetek O rétegezett tanulás: hierarchikus taszkrétegek, egy réteg: L i = (F i, O i, T i, M i, h i ) F i az állapottulajdonságok bemeneti vektora O i a kimenetek halmaza T i tanító példák az L i taszk számára ( (f,o): f F i o O i ) M i a gépi tanulás algoritmusa L i rétegben, F i O i függvényt legjobban leíró hipotézis megválasztása T i alapján, h i tanulás eredménye Réteg Stratégiai szint Viselkedés Példa 1 Robot egyéni labdamegfogás 2 1-1 játékos több-ágens átadás értékelés 3 1-N játékos team átadás választás 4 team formation team stratégiai poz. 5 team-ellenség adverz stratégiai adapt.

Robot futball viselkedés példa L 1 egyedi labda megfogása L 2 több ágens labdaátadás értékelése L 3 csapat labdaátadás kiválasztása L 1 Labda megfogása: a megtanulása (sebesség információ nélkül) könnyebb, mint a beprogramozása F 1 labda távolsága-1,-2, szög O 1 megfordulás szöge T 1 kapura lövések, minősítés: megfogta, gól, mellément M 1 neurális háló h 1 - kb. 5000 példa után 84% megfog, 9% gól

L 2 Labdaátadás értékelése: több ágenses viselkedés tanulása, labdaátadás egy másik játékosnak sikerül-e? átveszi? A tanító példák szerkesztésénél a passzoló és az ellenségek tudják a h 1 -t. F 2 174 tulajdonság, játékosok, ellenségek pozíciói, lényeges, lényegtelen, hadd szelektálja a tanuló algoritmus! O 2-1, 1, szándékolt átadás vagy siker v. kudarc: 0... 1 megbízhatósági tényezővel T 2 véletlenül helyezett játékosok, h 1 labda kezelési képességgel, siker (társ megfogta), kudarc (ellenségek megfogták), félrement (senki), véletlenül választott társnál a passzok 51%-ka sikeres, M 2 döntési fa tanulása (irreleváns bemenetek kiszelektálása!), h 2 - döntési fa, osztályozás + (-1... 1) megbízhatósági tényező, összes átadás 65%-ka, sikeresnek (.8-.9) becsült átadások 79%-ka valójában sikeres,

L 3 Labdaátadás szelektálása: Együttműködő/ellenséges csapatviselkedés h 2 felhasználása tanító minták szerkesztéséhez: ha rendelkezik labdával, kinek adja át (a legsikeresebbnek ítélt passz általában nem a stratégiailag legjobb, azért dönthet, átadja, vagy kapura lő). Óriási a döntési tér (ágens kurrens pozíciója, társai, ellenségei kurrens pozíciói, társak képessége az átadás átvételére, ellenségek képessége az átadás megfogására, társak döntési képessége, ellenségek stratégiája), a döntés jósága csak a csapat hosszú idejű sikereiből, a tér redukálása h 2 -ből. F 3 (játékos pozíciója,...), durva helyzetbontás, 1 cselekvésfüggő tulajdonság minden átadáshoz (h 2 eredménye minden lehetséges megfogó társhoz) O 3 (lövés) (melyik társ), T 3 valós mérkőzésekből, M 3 TPOT-RL: on-line, többágenses, megerősítéses tanulás, Q-tanulás mintájára (csapatbontott, átláthatatlan területek), h 3 - elosztott átadás szelektálási stratégia,

RL algoritmus kihívásai: 1. on-line 2. nagy állapotteret kezel korlátos tanulással 3. tanulni képes, de igen késleltetett megerősítésből 4. változó helyzeteket/koncepciókat kezel 5. team-bontott helyzetekben működik 6. elmosódó átmeneteket kezel

TPOT-RL Team-Partitioned, Opaque-Transition Reinforcement Learning Elvi (idő-különbség) Q-tanulás: Q(s,a) = Q(s,a) + (r + max a Q(s,a ) Q(s,a)) kihasználja a modell ismeretét, azaz hogy a cselekvés hatására milyen állapotba kerül az ágens környezete: T: (S, A) S. De egyedi ágensnek nincs kontrollja a helyzet egészén, a cselekvése folytatásán sem! Láncolt cselekvések a cselekvését más ágensek cselekvései követik. A cselekvés utáni állapot ismeretlen (másoktól függ). A tanult stratégia: állapot cselekvés leképezés (Q tanulás) S A ( S x A R ) Mivel az állapottér igen nagy (és így a tanulás kevés példából n.nehéz), az állapotteret általánosítani kell kisebb komplexitású (dimenzióban redukált) V tulajdonságtérré (feature space) (F 2, ld. előbb). S V A (egy-egy játékos nem az egész pályán érdekelt ) Átláthatatlan környezetben (modell nélküli) tanulás: Q(v, a) = Q(v, a) + (r Q(v, a))

Mi lehet itt a megerősítés? r -Q max, Q max t lim -belül a jövőből, mindkettő problémafüggő Probléma: a megerősítés túl ritka! (gól, mérkőzés-, bajnokság végeredménye) ágens: kb. 10 tanuló példa/ 10 perces játék nagyon kevés! hatékony tanulás kell! Megerősítés kérdése még egyszer: - gól, igazi megerősítés, de ritka, - belső megerősítés, környezeti megfigyelések alapján (jelen esetben a labda pályája alapján) rúgás pillanatában megjegyzi a labda pozícióját: x t -t r = R(labda pozíció t lim ) r = a labda out-ra megy (a gól is az): t + t 0 (t 0 t lim ), de minél később, annál kevesebb visszakapja a labdát: t + t r (t r t lim ) a labda még mindig a pályán: t + t lim az ágens a labda átlagos pozícióját számolja (megfigyelésből) ha x avg x t r 0, annál nagyobb, minél közelebb a (ellenfél) kapuhoz ha x avg x t r 0 annál nagyobb, minél közelebb a (saját) kapuhoz