Tanulás elosztott rendszerekben/2. Intelligens Elosztott Rendszerek BME-MIT, 2018
|
|
- Emília Dudás
- 5 évvel ezelőtt
- Látták:
Átírás
1 Tanulás elosztott rendszerekben/2
2 Rétegezett tanulás (Layered Learning) Közvetlen bemeneti adat kimenet függvény tanulása nem megy - hierarchiadekompozíció, taszk feltörése rétegekre, - más-más koncepció (függvény) tanulása rétegenként Alulról felfelé taszk dekompozíció adva van (feladathierarchia) alulról felfelé tanulás, amíg nem éri el a teljes probléma-komplexitást, altászkok, granuláltság a konkrét tartomány függvénye. Adatokból tanulás, adaptálás tanulás minden szinten gépi tanulás: ha kézi (szimbolikus) hangolás nem megy, adaptálás, ha a feladat előre aluldefiniált, ha dinamikus. Tanulás eredménye egy szinten = példák a következő szint számára minden szinten tanulás a következő szintet közvetlenül befolyásolja: - a tanító példák szerkesztése, - a tanításhoz szükséges tulajdonságok megválasztása, - a kimeneti halmaz nyesése
3 Rétegezett tanulás (Layered Learning) H i a hipotézisek halmaza, belőle egy h i hipotézis tanulása H i : állapottulajdonságok (attributúmok) S i kimenetek O i Rétegezett tanulás: hierarchikus taszkrétegek, egy réteg: L i = (F i, O i, T i, M i, h i ) F i az állapottulajdonságok bemeneti vektora, O i a kimenetek halmaza, T i tanító példák az L i taszk számára ( (f,o): f F i o O i ), M i a gépi tanulás algoritmusa L i rétegben, az F i O i függvényt legjobban leíró hipotézis megválasztása T i alapján, h i a tanulás eredménye. Réteg Stratégiai szint Viselkedés Példa 1 Robot egyéni labdamegfogás játékos több-ágens átadás értékelés 3 1-N játékos team átadás választás 4 team formation team stratégiai poz. 5 team-ellenség adverz stratégiai adapt.
4 Robot futball (CMUnited) viselkedés példa L 1 egyedi labda megfogása L 2 több ágens labdaátadás értékelése L 3 csapat labdaátadás kiválasztása L 1 Labda megfogása: a megtanulása (sebesség információ nélkül) könnyebb, mint a beprogramozása F 1 labda távolsága-1,-2, szög, O 1 megfordulás szöge, T 1 kapura lövések, minősítés: megfogta, gól, mellément, M 1 neurális háló, h 1 kb példa után 84% megfog, 9% gól.
5 L 2 Labdaátadás értékelése: több ágenses viselkedés tanulása, labdaátadás egy másik játékosnak sikerül-e? átveszi-e? A tanító példák szerkesztésénél a passzoló és az ellenségek tudják a h 1 -t. F 2 több, mint 170 tulajdonság, játékosok, ellenségek pozíciói, lényeges, lényegtelen, hadd szelektálja a tanuló algoritmus! O 2-1, 1, szándékolt átadás, vagy siker v. kudarc: megbízhatósági tényezővel T 2 véletlenül helyezett játékosok, h 1 labda kezelési képességgel, siker (társ fogta meg), kudarc (ellenség fogta meg), félrement (senki), véletlenül választott társnál a passzok 51%-ka sikeres, M 2 döntési fa tanulása (irreleváns bemenetek kiszelektálása!), h 2 döntési fa, osztályozás + ( ) megbízhatósági tényező, összes átadás 65%-ka, sikeresnek (.8-.9) becsült átadások 79%-ka valójában sikeres. Intelligens Elosztott Rendszerek BME-MIT, 2017
6 L 3 Labdaátadás szelektálása: Együttműködő/ellenséges csapatviselkedés h 2 felhasználása tanító minták szerkesztéséhez: ha rendelkezik labdával, kinek adja át (a legsikeresebbnek ítélt passz általában nem a stratégiailag legjobb, azért dönthet, átadja, vagy kapura lő). Óriási a döntési tér (ágens kurrens pozíciója, társai, ellenségei kurrens pozíciói, társak képessége az átadás átvételére, ellenségek képessége az átadás megfogására, társak döntési képessége, ellenségek stratégiája), a döntés jósága csak a csapat hosszú idejű sikereiből, a tér redukálása h 2 -ből. F 3 (játékos pozíciója,...), durva helyzetbontás, 1 cselekvésfüggő tulajdonság minden átadáshoz (h 2 eredménye minden lehetséges megfogó társhoz) O 3 (lövés) (melyik társ), T 3 valós mérkőzésekből, M 3 TPOT-RL: on-line, többágenses, megerősítéses tanulás, Q-tanulás mintájára (csapatbontott, átláthatatlan területek), h 3 elosztott átadás szelektálási stratégia,
7 RL algoritmus kihívásai: 1. on-line, 2. nagy állapotteret kezel korlátos tanulással, 3. tanulnia kell az igen késleltetett megerősítésből, 4. változó helyzeteket/koncepciókat kezel, 5. team-bontott helyzetekben működik, 6. elmosódó átmeneteket kezel.
8 TPOT-RL Team-Partitioned, Opaque-Transition Reinforcement Learning Elvi (idő-különbség) Q-tanulás: Q(s,a) = Q(s,a) + (r + max a Q(s,a ) Q(s,a)) kihasználja a modell ismeretét, azaz hogy a cselekvés hatására milyen állapotba kerül az ágens környezete: T: (S, A) S. De egyedi ágensnek nincs kontrollja a helyzet egészén, a cselekvése folytatásán sem! Láncolt cselekvések a cselekvését más ágensek cselekvései követik. A cselekvés utáni állapot ismeretlen (másoktól függ). A tanult stratégia: állapot cselekvés leképezés (Q tanulás) S A (ill. S x A R ) Mivel az állapottér igen nagy (a tanulás kevés példából n. nehéz), az állapotteret általánosítani kell kisebb komplexitású (dimenzióban redukált) V tulajdonságtérré (feature space). S V A (egy-egy játékos nem az egész pályán érdekelt ) Átláthatatlan környezetben (modell nélküli) a tanulás: Q(v, a) = Q(v, a) + (r Q(v, a))
9 Mi lehet itt a megerősítés? r -Q max, Q max t lim -belül a jövőből, mindkettő problémafüggő Probléma: a megerősítés túl ritka! (gól, mérkőzés-, bajnokság végeredménye): kb. 10 tanuló példa/ 10 perces játék nagyon kevés! hatékony tanulás kell! Megerősítés kérdése még egyszer: - gól, ez igazi megerősítés, de ritka, - belső megerősítés, környezeti megfigyelések alapján (jelen esetben a labda pályája alapján) rúgás pillanatában megjegyzi a labda pozícióját: x t -t r = R(labda pozíció t lim ) Az ágens a labda átlagos pozícióját számolja (megfigyelésből) ha x avg x t, r 0, annál nagyobb, minél közelebb a (ellenfél) kapuhoz ha x avg x t, r 0 annál nagyobb, minél közelebb a (saját) kapuhoz
10 MARL Multi Agent Reinforcement Learning Többágenses megerősítéses tanulás Kezdjük 1 db ágenssel. Legyenek a környezet állapotai s-ek, ágens cselekvései a-k, ágens cselekvéseit meghatározó eljárásmód p, ill. ágens cselekvés-érték függvénye Q(s,a). Az állapotok és a cselekvések közötti kapcsolatot az un. Markov döntési folyamat (MDF) írja le, T(s,a,s ) átmenet-valószínűségel. Egyes állapotokban ágens r(s,a,s ) közvetlen megerősítést kap. Ágens célja megállapítani azt az optimális eljárásmódot, ami a diszkont hátralévő jutalmat (az s k állapottól végtelen jövőbe) maximálja, ahol γ a diszkont faktor és r a megerősítés. j Rk E rk j1 j0 Adott eljárásmód mellett az ágens cselekvés-érték függvényt tanul p j Q s, a E rk j1 sk s, ak a, p j0
11 MARL Multi Agent Reinforcement Learning Többágenses megerősítéses tanulás A lehető legjobb eredmény az optimális cselekvés-érték függvény: ami teljesíti az un. Bellman egyenletet:, max p, Q s a Q s a, (,, ) (,, ) max, Q s a T s a s r s a s a Q s a s S Az ágens eljárásmódja mohó: p s arg max, ami optimális, ha Q is optimális. a Q s a p
12 A Bellman-egyenlet ismeretlen r és T mellett az un. Q-tanulással oldható meg (jelen formában időkülönbség Q-tanulással):,, max,, Q s a Q s a r Q s a Q s a k 1 k k k k k k k 1 a k k1 k k k Q-tanulás bizonyos feltételek mellett optimális Q-hoz konvergál. A feltételek közül a legfontosabb, hogy a tanuló ágensnek véges nem nulla valószínűséggel ki kell próbálni minden létező cselekvését. Nem tud tehát csak mohó lenni, a mohóságát felfedezési igénnyel kell vegyítenie. A mohóság + felfedezés keverékviselkedést biztosítani tudjuk: - ε-mohósággal: az ágens ε valószínűséggel véletlen cselekvést választ, ill. 1-ε valószínűséggel mohó, vagy - Boltzmann-felfedezési modellel, ahol egy a cselekvés megválasztásának valószínűsége egy s állapotban: ahol a T hőmérséklet a két véglet között szabályoz. ha T, akkor a választás tisztán (egyenletesen) véletlen, ha T 0, akkor a választás mohó. p sa, e e a Q( s, a)/ T Q( s, a)/ T
13 Többágenses eset: - (matrix) játék (stage game), hasznossági (payoff) mátrixxal definiált - ismételt játék (repeated game, iterative game), minden fordulóban ugyanazt a mátrixjátékot játsszák - sztochasztikus játék (stochastic game, SG), a MDF többágenses kiterjesztése, ahol az állapotátmeneteket és a kapott megerősítést az összes ágens együttes cselekvése határozza meg, és ahol az egyedi ágensek eljárásmódjai mellett beszélünk az együttes eljárásmódról is. Mindegyik állapotban az ágensek új mátrix játékot játszanak, aminek mátrixát a tanult hasznosságok határozzák meg. Megjegyzés: - Mátrix játékban mindegyik ágens megerősítése/ hasznossága függ az állapottól és az összes ágens együttes cselekvésétől (joint action, joint learners). - MDF a sztochasztikus játék egyágenses esete. - Ismételt játék a sztochasztikus játék egyetlenegy állapotú esete. N, S, A A, T, R, T : S A S [0,1], R : S A kn k k k R( s, a) i
14 Játék lehet modell-alapú: ágens először megtanulja az ellenfél stratégiáját, majd talál rá a legjobb választ. Lehet model-nélküli is, amikor ágens az ellenfélre jó választ adó stratégiát tanulja meg anélkül, hogy az ellenfél stratégiáját explicite kitanulná. Jelölje egy-egy ágens megerősítését generáló függvényt ρ i. Beszélhetünk akkor - teljesen kooperatív ágensrendszerekről 1... n - teljesen versengő ágensrendszerekről, ill. (két ágen, zérus összegű) 1 2 és ρ 1 + ρ 2 + ρ n = 0, több ágens esetén - vegyes ágensrendszerekről (általános összegű, ahol semmilyen feltétel nem adható) n 0 Minden zérus-összegű mátrix játéknak van NE-ja tiszta stratégiákban. (Neumann) Minden általános összegű mátrix játéknak van NE-ja (de lehet, hogy csak kevert stratégiákban). (Nash) Minden teljesen versengő sztochasztikus játéknak van NE-ja. (Shapley) Minden általános (vegyes) sztochasztikus játéknak van NE-ja. (Fink)
15 Pl. Stackelberg-féle játék Left Right Up 1, 0 3, 2 Down 2, 1 4, 0 Down a sorjátékos domináns stratégiája. Sorjátékos meg fogja játszani a Down -t. Ezt megsejtve az oszlopjátékos Left -tel készül. Eredményben a szociális jólét = 3. A sorjátékos sorozatban játsza meg az Up -ot. Erre a jelzésre az oszlopjátékos Right -tal készül válaszolni. Eredményben a szociális jólét = 5, nemcsak az összegében nagyobb, de egyenként is. Többágenses környezetben nemigen választható szét a tanulás éa a tanítás.
16 Többágenses megerősítéses tanulás problémái Alapvető problémák: - nem stacionárius a szokásos (egy ágenses) bizonyítható konvergencia lehetetlen. - koordinálás igénye (pl. több NE esetén) Mi legyen a tanulás célja? (1) Stabilitás - Konvergencia stratégiában valamilyen egyensúlyhoz (pl. NE), ha a saját maga ellen játszik (self-play, minden ágens ugyanazt a tanulási algoritmust használja). (2) Adaptivítás - Az ellenfél stratégiájának sikeres megtanulása. (3) Egy bizonyos hasznossági szintet túlhaladó nyerességek megszerzése. Milyen tulajdonságokkal rendelkezzen egy tanulási algoritmus? (1) Biztonságos (Safe) legalább minimax szintű nyerességet garantál. (2) Konzisztens (Consistent) legalább ilyen jó, mint az egyensűlyi esetre számított legjobb válasz (best response). (P1) Konvergencia - Konvergáljon egy stacionárius eljárásmódhoz. (P2) Racionalitás - Ha az ellenfél egy stacionárius stratégiához konvergál, a tanulónknak a legjobb válaszhoz kell konvergálnia.
17 Egy ágenstől több ágensig,, max,, Q s a Q s a r Q s a Q s a k 1 k k k k k k k 1 a k k1 k k k, a, a max, a, a Q s Q s r Q s Q s k 1 k k k k k k k 1 a k k1 k k k Valami más összefüggés, ami a cselekvések baráti, vagy adverz jellegére utal és eszerint számítja ki a jövebeli egyéni várható hasznot. Mások cselekvései is, a, a XYZ, a Q s Q s r Q s k1 k k k k k k k1 k k k 1 ágens 2 ágens N ágens
18 Teljes együttműködés Optimális együttes Q értékek parallel tanulása (MDF egy központi ágens esetén) és belőle egyenkénti optimális eljárásmód származtatása Együttműködés ellenére komoly probléma a koordinálás szükségessége. Példa: formáció-mozgás 1... n, a, a max, a, a Q s Q s r Q s Q s k 1 k k k k k k 1 a k k1 k k k s a arg max max Q s, a p i ai a1,..., ai1, ai1,..., an A két optimális helyzet ellenére, koordinálás hiányában ágensek Q( L1, R2) szuboptimális helyzetben végezhetnek. (ha a Q érték közös, mindkét optimális eset egy Nash egyensúly) Q( L, L ) Q( R, R )
19 Koordinálás kérdése Koordinálás-mentes pl. Team-Q: egyedi opt. együttes cselekvést tételez fel Distributed-Q-Learning: lokális Q és p tanulása, de az egyedi Q frissítése csak akkor, ha az növekszik (a közös opt.-t is el fogja kapni). A stratégia frissítése csak akkor, ha a Q érték növekszik. Koordinálás-alapú pl. együttes Q dekomponálása kisebb csoportasulások szerint. (koordinációs gráfok) Q( s, a) Q ( s, a ) Q ( s, a, a ) Q ( s, a, a ) Q( s, a) Q ( s, a, a ) Q ( s, a, a ) Q ( s, a )
20 Koordinálás kérdése Indirekt koordinálás pl. tanulva, hogy mások bizonyos cselekedeteit milyen gyakorisággal használják: JAL Joint Action Learner: fictitious play (kitalált) játék C i j (u j ) i-edik ágens hányszor tapasztalja, hogy az j-edik ágens egy a j cselekvéshez folyamodik (mások prob. modellje, stacionárius vegyes stratégia elképzelése, erre a legjobb válasz számítása) i i ˆ ( a ) ( a ) j j j j i C a A j Frequency Maximum Q-value heurisztika: mely cselekvések jók voltak a múltban? r max a i re kapott eddigi max megerősítés, C max ennek az esetnek a gyakorisága C az a i cselekvés (önmagában) gyakorisága (az a i -re több megerősítés is jöhetett, szórás csakis a mások cselekvései miatt, determinisztikus probléma) a számított Q értéket a Boltzmann-felfedezés képletében használja Explicit koordinálás pl. társadalmi szabályok pl. ágens 1 < ágens 2 normatívák, törvények L < R < S kommunikáció szerepek döntés (L 1, L 2 ) Intelligens Elosztott... Rendszerek BME-MIT, 2018 C j j ( a ) C ( a ) Q a Q a r a i max i i( i) i( i) max ( i) i C ( ai ) j
21 Teljes versengés Minimax Q-tanulás (2 ágens esete, Q = Q 1 = - Q 2 ),,,, Q s a a Q s a a k1 k 1, k 2, k k k 1, k 2, k r m ( Q, s ) Q s, a, a k1 1 k k 1 k k 1, k 2, k m ( Q, s) max min p ( s, a ) Q( s, a, a ) 1 p ( s, ) a a p s, arg m ( Q, s ) 1, k k 1 k k Garantált konvergencia (NE) (self-play), de nem racionális.
22 Teljes versengés Minimax Q-tanulás, példa 1. ágens szeretne elfoglalni a keresztet és elmenekülni. 2. ágens szeretne elkapni az 1. ágenst. A Q táblázat az 1. ágens perspektíváját mutatja, a 2. ágens Q függvénye ennek -1-szerese. A minimax megoldás 1. ágensre: Ha L 1 -et lép, akkor a 2. az 1. nyerességét minimalizálva L 2 -et lép, eredményben 0. Ha R 1 -et lép, akkor a 2. az 1. nyerességét minimalizálva szintén L 2 -et lép, eredményben -10. Az 1. ágensnek tehát L 1 -et kell lépnie, mert így legfeljebb 0-val megússza.
23 Vegyes feladatok Nincsenek feltételek megerősítésekre. Valamilyen egyensúly felé kell húzni. Lehet pl. Nash-egyensúly, de mi van, ha több van ilyen? Egyedi ágens Q-tanulás (a többi implicite a környezeti információban) Ágens-független módszerek (egymástól független, de egy, feltehetően, közös egyensúly felé), pl. Nash-Q-tanulás., a, a eval (,.), a Q s Q s r Q s Q s i, k1 k k i, k k k i, k1 i., k k1 i, k k k eval p solve s, solve Q ( s,.) i, k i., k k Q., s V s NEQ., s i Q., k ( s,.) NEi Q., k ( s,.) (,.) (, (,.) ) i k i k NE az egyensúly kiszámítása, NE i az i-ik ágens stratégiája egyensúlyban és V i az ágens várható haszna x-ben az egyensúlyban. Bizonyos feltételekkel NE-hoz konvergál. Mindegyik ágens számon tartja mások Q értékeit is!
24 Vegyes feladatok Nash-Q-tanulás. Ellenséges egyensúly (EE): ha mások tőle eltérnek, az ágensünk helyzete változatlan, vagy javul. Kooperatív egyensúly (KE): ahol az ágensek maximális haszonhoz jutnak (a jóléti megoldás). Feltételek: Az EE és a KE létezik az egész játék számára és a tanult közbülső Q értékek által definiált minden mátrix játék számára. Ilyenkor a Nash-Q tanulás NE-hoz konvergál, feltéve, hogy a feltételekben említett egynsúlyok egyértelműek. (kemény feltételek!)
25 Vegyes feladatok Nash-Q egyszerübben: FoF Friend-or-Foe tanulás Fel kell ismerni, hogy az ellenfél kooperál, vagy ellenünk dolgozik. Kooperál esetében: JAL megoldás, a Q közös maximumára való törekvés Ellenünk van: minimax-q játék. Nash ( s, Q, Q ) max Q ( s, a, a ) a, a Nash ( s, Q, Q ) max min p ( s, a ) Q ( s, a, a ) p ( s, ) a a Ha a játéknak van EE egysúlya, FOE-Q tanulás ezt megtanulja. Ha a jatéknak van KE egyensúlya, FRIEND-Q tanulás ezt megtanulja.
26 Vegyes feladatok Ágens-követő, ágens-tudatos módszerek (más ágensek modellezése, a modell használata tanulásban: - érzékelés + stratégia-váltás) AWESOME (Adapt When Everyone is Stationary, Otherwise Move to Equilibrium) Induláskor p i egyensúlyi stratégiát játszik (az i-ik ágens) és mások cselekvéseit követi. Minden N-ik kör végére a megfigyelt gyakoriságokból kiszámítja az s j -t, az j-ik ágens (feltehetően vegyes) stratégia becslését. Ha s j minden j-ik játékos egyensúlyi stratégiája, akkor i folytatja az egyensúlyi stratégia bevetését. Különben az i-ik ágens megjátsza az s j stratégiára kiszámított legjobb válasz stratégiáját (best response). Ha minden játékos AWESOME játékos, akkor a közös tanulás az egyensúlyi helyzethez konvergál és nem fog tőle eltérni.
27 Vegyes feladatok IGA (Infinitensimal Gradient Ascent) ágensek cselekvéseinek Valószínűsége az, amit az ágens tanul (2 ágens, 2 cselekvés), α 1. ágens 1. cselekvésének a valószínűsége és β 2. ágens 1. cselekvésének a valószínűsége: k 1 k 1, k k 1 k 2, k E r 1 2, E r, 1, k 2, k
28 Vegyes feladatok WoLF-IGA (Win-or-Learn-Fast) - győztes helyzetben ágens óvatos, kis δ-val lassan tanul, nehogy az előnyös pozícióját elveszítse, - vesztes esetben viszont nagyobb δ-val gyorsan kikerül a jelen helyzetből. k 1 k 1, k k 1 k 2, k E r Hogyan látszik meg a győzelem, a vesztes állapot? 1 2, E r, WoLF-elv: Ha a várható hasznom, ahogy játszom és ahogy az ellenfél játszik, jobb, mintha a jelen játéka mellett én egyensúlyi stratégiát játszanám, akkor győzelemre állok. Ha rossabbul állok az egyensúlyi stratégiámhoz képest (az ellenfél adott játéka mellett), akkor vesztésre állok. Lucian Busoniu, Robert Babuska, and Bart De Schutter, A Comprehensive Survey of Multiagent Reinforcement Learning, IEEE Trans. on Systems, Man, and Cybernetics Part C: Applications and Reviews, Vol. 38, No. 2, March 2008,, 0 1, k 2, k min max
29 Többágenses mély megerősítéses tanulás, a, a max, a, a,, a θ Q s Q s r a Q s Q s Q s a θ a θ a θ min L s, r max Q s, Q s, θ θ θ L θ i1 i θ i i a i i Környezet 2 dim, 2 ágens tipus, diszkrét tér/idő. Konvolúciós NN csatornák: háttér cs. (akadályok), ellenfelek cs., szövetségesek cs., saját magam cs. : 4 x H x H. 2
30 Többágenses mély megerősítéses tanulás Tanulás: egyszerre 1 ágens, a többinek stratégiája fix, a megtanult stratégia kiosztása a saját tipusú ágensekre.
31 Tanulás több ágensből álló környezetben - a mozgó cél tanulás dinamikája N az ágensek halmaza, i N egy konkrét ágens, W a világ állapotainak halmaza, w W egy konkrét világ, A i az i-edik ágens cselekvéseinek halmaza, t i : W A i az i-edik ágens döntési függvénye (cselekvés számítása) D t i : W A i az i-edik ágens cél (tanulandó ideális döntési) függvénye, e( t i) = Pr ( t i(w) D t i (w) w D) az i-edik ágens hibája t-időben, annak a valószínűsége, hogy az ágens rossz döntést fog hozni, feltéve, hogy a környezeti állapotok egy D eloszlásból sorsolódnak, Visszacsatolás (megerősítés) t+1 Környezet t w t i (w t ) Érzékelés Cselekvés számítása, tanulás Cselekvés
32 A mozgó cél A tanuló ágens környezete dinamikus, mert a benne lévő más ágensek is tanulnak és alakulnak át. Mivel az ágensünknek éppen más ágensek viselkedését ki kell tanulnia, hogy az együttműködés/ versengés miatt helyesen döntsön, azok tanulása a fő zavaró tényező.
33 A döntési függvény t i lehet helyes, v. hibás. Definiáljunk egy hibaszótárt! helyes volt hibás volt helyes lesz hibás lesz nem mozog mozog változik nem változik megtanulta a régit nem tanulta meg a régit új rácsúszott új nem csúszott rá t i (w) = D t i (w) t i (w) D t i (w) t+1 i (w) = D t+1 i (w) t+1 i (w) D t+1 i (w) D t+1 i (w) = D t i (w) D t+1 i (w) D t i (w) t+1 i (w) t i (w) t+1 i (w) = t i (w) t+1 i (w) = D t i (w) t+1 i (w) D t i (w) t i (w) = D t+1 i (w) t i (w) D t+1 i (w)
34 A függvény megváltozása - a tanulás - javíthat, de ronthat is a dolgon. A D t i (w) idő közbeni változása a célpont elmozdulása a mozgó célpont. Legyen akkor az ágens tanulási (helyes célfüggvény követési) hibája: t e( i ) D( w)pr hibás volt w Egy konkrét tanuló algoritmus helyett próbáljuk meg a tanulás várható sikerességét valószínűségi alapon modellezni. Mi a valószínűsége a sikeres megtanulásnak, ha bizonyos ráhatások valószínűsége adott. CLRI elmélet (Change, Learning, Retention, Impact)
35 Definiáljuk a tanuló viselkedésére jellemző alábbi mérőszámokat : Változékonyság (changing rate c(i)): a helytelen leképzés elmozdulása, de mi felé? A helytelen leképzés javítása (helyes irányba történő változás a tanulás), Tanulás sebessége (learning rate l(i)): ci ( ) Pr változik hibás volt li ( ) Pr megtanulta a régit hibás volt l( i) c( i) D t 1 t t t w c( i) Pr i ( w) i ( w) i ( w) i ( w) D D mert a tanulás csak változással érhető el, ha az ágens cselekvéseinek választéka bináris, akkor l i = c i, mert a helytelen döntés alternatívája a helyes cselekvés, (1 l(i) ) az a valószínűség, hogy a helytelen leképezés nem javul. t1 t t t w l( i) Pr i ( w) i ( w) i ( w) i ( w)
36 Megtartás sebessége (retention r(i)): helyes volt, és helyes marad Illó sebesség, illékonyság (volatility v(i)): ri ( ) Pr megtanulta a régit helyes volt vi ( ) Pr mozog D D t1 t t t w r( i) Pr i ( w) i ( w) i ( w) i ( w) D D t1 t w v( i) Pr i ( w) i ( w)
37 Foglalkozunk most az ágens eredő hibájával: E = hibás lesz a = nem mozog b = helyes volt t t t e( i ) D( w)pr i ( w) Di ( w) w A várható hiba t+1 időpontban függ attól, hogy a célfüggvény változik-e (a), vagy sem, illetve, hogy a döntési függvény t időpontban eredetileg helyes volt-e, vagy sem (b): Pr E PrE a b Pr E a b Pr Pr E a b E a b a b Pr Pr E a b a b E a b Pr E a b Pr a b Pr Pr Pr E a b Pr a b
38 A négy db valószínűség most: Pr(hibás lesz nem mozog helyes volt) = 1 r(i) Pr(hibás lesz nem mozog hibás volt) = 1 l(i) Pr(hibás lesz mozog helyes volt) = r(i) + B (1 - r(i)) B = Pr(hibás lesz mozog helyes volt nem tanulta meg a régit) Pr(hibás lesz mozog hibás volt) = D (1 - c(i)) + l(i) + F (c(i) - l(i)) D = Pr(új nem csúszott rá mozog hibás volt) F = Pr(hibás lesz mozog hibás volt nem tanulta meg a régit változik) - a helyes leképzést megtartani nem tudja, - a helyes leképzést nem tanulja meg, - a hibás leképzést megtartja, ill. nem, de rossz irányba változtatja, - rossz irányba tanul, nem változik, ill. változik, de nem a tanulás irányába.
39 Valószínűségek és a tényleges ágensek A valószínűségek ugyanúgy eltakarják a konkrét tanuló algoritmust, mint a konkrét architektúrát és ágensprogramot, ill. a környezet hatását is. További vizsgálathoz ezeket a szempontokat olyan valószínűségekkel ki kellene fejezni, melyek megfelelnek numerikusan az ágensek adottságainak. Így a valószínűségi (hiba) egyenletek akár nagyon bonyolult, akár igen egyszerű összefüggésekhez vezethetnek. Egyszerű szimuláció ha a döntési, ill. a célfüggvény változik, akkor az új cselekvés megválasztása az A i felett értelmezett egyenletes eloszlásból történjen, azontúl az ágensek tanulása legyen független, ilyenkor: Ai 2 Ai 3 B D F A 1 A 2 i i
40 Pr t ( ) t ( ) t ( ) t ( ) Pr t ( ) t ( ) Pr t ( ) t i w Di w j w D j w i w Di w j w D j ( w) 1 1 Ai li r li c t Ar i i t i i E e( i ) 1 ri vi e( i ) ri li vi Ai 1 Ai 1 Egy lineáris összefüggés y = a x + b Az ágens hibája beáll a körülményektől függő szintre, amely az alábbi diagramból kiolvasható (pl. v i =.2, c i = 1, l i =.3, r i = 1, minden ágens 20 cselekvéssel rendelkezik, a beállt hiba színt jelen esetben kb..4) Az ágens hibáját két erő formálja: - csökkenő irányba a tanulás (l), és y v + x (.7.7 v) - növekvő irányba az illékonyság (v). [ 0.7x ] + [ -.14 x +.2 ] Mindkettőnél a hiba kifejezés lineáris (tanulási egyenes pozitív, m 1 meredekségű, az illékonysági egyenes negatív meredekségű). Ha az ágens hibája nagyon kicsi, akkor a jósolt hiba majdnem egészében az illékonysággal magyarázható. (*)
41 Stacionér hiba A mozgó pont szétveri [ 0.7x ] + [ -0.14x +.2 ] A tanulás mérsékli
Tanulás elosztott rendszerekben/3
Tanulás elosztott rendszerekben/3 MARL Multi Agent Reinforcement Learning Többágenses megerősítéses tanulás Kezdjük egy ágenssel. Legyenek a környezeti állapotai s-ek, cselekvései a-k, az ágens cselekvéseit
RészletesebbenTanulás elosztott rendszerekben/2
Tanulás elosztott rendszerekben/2 Egy szervezet ellenséges természetes környezetben, ill. más szervezetek ellen Kiindulás - katasztrófa-elhárítás Természeti katasztrófák és az információs technológia tapasztalata
RészletesebbenMegerősítéses tanulási módszerek és alkalmazásaik
MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai Intézeti Tanszék Miskolc, 2017. szeptember 15. Tartalom
RészletesebbenMegerősítéses tanulás
Gépi tanulás (Szekvenciális döntési probléma) Megerősítéses tanulás Pataki Béla BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki Az egész világot nem tudjuk modellezni,
RészletesebbenMesterséges Intelligencia MI
Mesterséges Intelligencia MI Keresés ellenséges környezetben Dobrowiecki Tadeusz Eredics Péter, és mások BME I.E. 437, 463-28-99 dobrowiecki@mit.bme.hu, http://www.mit.bme.hu/general/staff/tade Ellenség
Részletesebben13. Tanulás elosztott rendszerekben/1. Intelligens Elosztott Rendszerek BME-MIT, 2017
13. Tanulás elosztott rendszerekben/1 (Egyedi ágens) tanulásáról röviden Célja: javulás (feladavégzésben), adaptalódás, robusztusság (környezet), kompenzálás, hibatürés (ismerethiány, meghibasodás) Miből:
Részletesebben12. előadás - Markov-láncok I.
12. előadás - Markov-láncok I. 2016. november 21. 12. előadás 1 / 15 Markov-lánc - definíció Az X n, n N valószínűségi változók sorozatát diszkrét idejű sztochasztikus folyamatnak nevezzük. Legyen S R
RészletesebbenMesterséges Intelligencia MI
Mesterséges Intelligencia MI Megerősítéses tanulás Pataki Béla BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki Ágens tudása: Induláskor: vagy ismeri már a környezetet
RészletesebbenKorszerű információs technológiák
MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR Korszerű információs technológiák Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai Intézeti Tanszék Miskolc,
RészletesebbenStratégiák tanulása az agyban
Statisztikai tanulás az idegrendszerben, 2019. Stratégiák tanulása az agyban Bányai Mihály banyai.mihaly@wigner.mta.hu http://golab.wigner.mta.hu/people/mihaly-banyai/ Kortárs MI thispersondoesnotexist.com
RészletesebbenMegerősítéses tanulás 2. előadás
Megerősítéses tanulás 2. előadás 1 Technikai dolgok Email szityu@eotvoscollegium.hu Annai levlista http://nipglab04.inf.elte.hu/cgi-bin/mailman/listinfo/annai/ Olvasnivaló: Sutton, Barto: Reinforcement
RészletesebbenMegerősítéses tanulás 7. előadás
Megerősítéses tanulás 7. előadás 1 Ismétlés: TD becslés s t -ben stratégia szerint lépek! a t, r t, s t+1 TD becslés: tulajdonképpen ezt mintavételezzük: 2 Akcióértékelő függvény számolása TD-vel még mindig
RészletesebbenGépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)
Gépi tanulás Hány tanítómintára van szükség? VKH Pataki Béla (Bolgár Bence) BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki Induktív tanulás A tanítás folyamata: Kiinduló
RészletesebbenMonoton Engedmény Protokoll N-M multilaterális tárgyalás
Tárgyalások/2 Monoton Engedmény Protokoll N-M multilaterális tárgyalás Fordulók 1. Minden ágens előáll a javaslatával k. Mindegyik ágens vagy ragaszkodik a javaslatához, vagy engedményt tesz. Ismétlés
RészletesebbenFELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE
FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE Dr. Aradi Szilárd, Fehér Árpád Mesterséges intelligencia kialakulása 1956 Dartmouth-i konferencián egy maroknyi tudós megalapította a MI területét
RészletesebbenNavigáci. stervezés. Algoritmusok és alkalmazásaik. Osváth Róbert Sorbán Sámuel
Navigáci ció és s mozgástervez stervezés Algoritmusok és alkalmazásaik Osváth Róbert Sorbán Sámuel Feladat Adottak: pálya (C), játékos, játékos ismerethalmaza, kezdőpont, célpont. Pálya szerkezete: akadályokkal
RészletesebbenIntelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban
Intelligens Rendszerek Elmélete : dr. Kutor László Versengéses és önszervező tanulás neurális hálózatokban http://mobil.nik.bmf.hu/tantargyak/ire.html Login név: ire jelszó: IRE07 IRE 9/1 Processzor Versengéses
RészletesebbenMarkov-láncok stacionárius eloszlása
Markov-láncok stacionárius eloszlása Adatbányászat és Keresés Csoport, MTA SZTAKI dms.sztaki.hu Kiss Tamás 2013. április 11. Tartalom Markov láncok definíciója, jellemzése Visszatérési idők Stacionárius
RészletesebbenAdaptív menetrendezés ADP algoritmus alkalmazásával
Adaptív menetrendezés ADP algoritmus alkalmazásával Alcím III. Mechwart András Ifjúsági Találkozó Mátraháza, 2013. szeptember 10. Divényi Dániel Villamos Energetika Tanszék Villamos Művek és Környezet
RészletesebbenMátrixjátékok tiszta nyeregponttal
1 Mátrixjátékok tiszta nyeregponttal 1. Példa. Két játékos Aladár és Bendegúz rendelkeznek egy-egy tetraéderrel, melyek lapjaira rendre az 1, 2, 3, 4 számokat írták. Egy megadott jelre egyszerre felmutatják
RészletesebbenRasmusen, Eric: Games and Information (Third Edition, Blackwell, 2001)
Játékelmélet szociológusoknak J-1 Bevezetés a játékelméletbe szociológusok számára Ajánlott irodalom: Mészáros József: Játékelmélet (Gondolat, 2003) Filep László: Játékelmélet (Filum, 2001) Csontos László
RészletesebbenMegerősítéses tanulás
Megerősítéses tanulás elméleti kognitív neurális Introduction Knowledge representation Probabilistic models Bayesian behaviour Approximate inference I (computer lab) Vision I Approximate inference II:
RészletesebbenFEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,
RészletesebbenDöntési rendszerek I.
Döntési rendszerek I. SZTE Informatikai Intézet Számítógépes Optimalizálás Tanszék Készítette: London András 8 Gyakorlat Alapfogalmak A terület alapfogalmai megtalálhatók Pluhár András Döntési rendszerek
RészletesebbenGépi tanulás a gyakorlatban. Lineáris regresszió
Gépi tanulás a gyakorlatban Lineáris regresszió Lineáris Regresszió Legyen adott egy tanuló adatbázis: Rendelkezésünkre áll egy olyan előfeldolgozott adathalmaz, aminek sorai az egyes ingatlanokat írják
RészletesebbenKooperáció és intelligencia
Kooperáció és intelligencia Tanulás többágenses szervezetekben/3 MARL Multi Agent Reinforcement Learning Többágenses megerősítéses tanulás: áttekintés Kezdjük 1 db ágenssel. Legyenek a környezet állapotai
RészletesebbenKeresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék
Keresés képi jellemzők alapján Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Lusta gépi tanulási algoritmusok Osztályozás: k=1: piros k=5: kék k-legközelebbi szomszéd (k=1,3,5,7)
Részletesebben(Diszkrét idejű Markov-láncok állapotainak
(Diszkrét idejű Markov-láncok állapotainak osztályozása) March 21, 2019 Markov-láncok A Markov-láncok anaĺızise főként a folyamat lehetséges realizációi valószínűségeinek kiszámolásával foglalkozik. Ezekben
RészletesebbenDiverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet
Operációkutatás I. 2017/2018-2. Szegedi Tudományegyetem Informatikai Intézet Számítógépes Optimalizálás Tanszék 11. Előadás Portfólió probléma Portfólió probléma Portfólió probléma Adott részvények (kötvények,tevékenységek,
RészletesebbenSzámítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék
Számítógépes képelemzés 7. előadás Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Momentumok Momentum-alapú jellemzők Tömegközéppont Irányultáság 1 2 tan 2 1 2,0 1,1 0, 2 Befoglaló
RészletesebbenBiomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János
Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision
RészletesebbenKétszemélyes játékok Gregorics Tibor Mesterséges intelligencia
Kétszemélyes játékok Kétszemélyes, teljes információjú, véges, determinisztikus,zéró összegű játékok Két játékos lép felváltva adott szabályok szerint, amíg a játszma véget nem ér. Mindkét játékos ismeri
RészletesebbenMesterséges Intelligencia MI
Mesterséges Intelligencia MI Valószínűségi hálók - következtetés Dobrowiecki Tadeusz Eredics Péter, és mások BME I.E. 437, 463-28-99 dobrowiecki@mit.bme.hu, http://www.mit.bme.hu/general/staff/tade Következtetés
RészletesebbenBonyolult jelenség, aminek nincs jó modellje, sok empirikus adat, intelligens (ember)ágens képessége, hogy ilyen problémákkal mégis megbirkozzék.
Vizsga, 2015. dec. 22. B cs. B1. Hogyan jellemezhetők a tanulást igénylő feladatok? (vendégelőadás) Bonyolult jelenség, aminek nincs jó modellje, sok empirikus adat, intelligens (ember)ágens képessége,
RészletesebbenMonte Carlo módszerek a statisztikus fizikában. Az Ising modell. 8. előadás
Monte Carlo módszerek a statisztikus fizikában. Az Ising modell. 8. előadás Démon algoritmus az ideális gázra időátlag fizikai mennyiségek átlagértéke sokaságátlag E, V, N pl. molekuláris dinamika Monte
RészletesebbenOptimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/
Operációkutatás I. 2017/2018-2. Szegedi Tudományegyetem Informatikai Intézet Számítógépes Optimalizálás Tanszék 9. Előadás Az optimalizálás alapfeladata Keressük f függvény maximumát ahol f : R n R és
RészletesebbenVéletlen bolyongás. Márkus László március 17. Márkus László Véletlen bolyongás március / 31
Márkus László Véletlen bolyongás 2015. március 17. 1 / 31 Véletlen bolyongás Márkus László 2015. március 17. Modell Deníció Márkus László Véletlen bolyongás 2015. március 17. 2 / 31 Modell: Egy egyenesen
RészletesebbenMatematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás
Matematikai alapok és valószínőségszámítás Valószínőségi eloszlások Binomiális eloszlás Bevezetés A tudományos életben megfigyeléseket teszünk, kísérleteket végzünk. Ezek többféle különbözı eredményre
RészletesebbenDunaújvárosi Főiskola Informatikai Intézet. Intelligens ágensek. Dr. Seebauer Márta. főiskolai tanár
Dunaújvárosi Főiskola Informatikai Intézet Intelligens ágensek Dr. Seebauer Márta főiskolai tanár seebauer.marta@szgti.bmf.hu Ágens Ágens (agent) bármi lehet, amit úgy tekinthetünk, hogy érzékelők (sensors)
RészletesebbenIntelligens robotok. Előadás vázlat. 1 előadás
Intelligens robotok Előadás vázlat 1 előadás Felhasznált Irodalom: Összeállította: Harmati István Ph.D., egyetemi adjunktus J. R. Kok, M. T. J. Spaan, N. Vlassis: Non-commutative multi-robot cooperation
RészletesebbenKooperáció és intelligencia
Kooperáció és intelligencia Tanulás többágenses szervezetekben/1 Erősen strukturált kooperatív szervezet (együtt tervezünk) Modell: a közösség - egyszerű ágensekben gazdag közösség, ahol egy-egy ágens
RészletesebbenFraktálok. Hausdorff távolság. Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék március 14.
Fraktálok Hausdorff távolság Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék 2015. március 14. TARTALOMJEGYZÉK 1 of 36 Halmazok távolsága ELSŐ MEGKÖZELÍTÉS Legyen (S, ρ) egy metrikus tér, A, B S, valamint
RészletesebbenMit látnak a robotok? Bányai Mihály Matemorfózis, 2017.
Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Vizuális feldolgozórendszerek feladatai Mesterséges intelligencia és idegtudomány Mesterséges intelligencia és idegtudomány Párhuzamos problémák
RészletesebbenMegerősítéses tanulás 9. előadás
Megerősítéses tanulás 9. előadás 1 Backgammon (vagy Ostábla) 2 3 TD-Gammon 0.0 TD() tanulás (azaz időbeli differencia-módszer felelősségnyomokkal) függvényapproximátor: neuronháló 40 rejtett (belső) neuron
RészletesebbenValószínűségi modellellenőrzés Markov döntési folyamatokkal
Valószínűségi modellellenőrzés Markov döntési folyamatokkal Hajdu Ákos Szoftver verifikáció és validáció 2015.12.09. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek
RészletesebbenMesterséges Intelligencia MI
Mesterséges Intelligencia MI Problémamegoldás kereséssel - csak lokális információra alapozva Pataki Béla BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki Lokálisan
RészletesebbenVálogatott fejezetek a közlekedésgazdaságtanból
Válogatott fejezetek a közlekedésgazdaságtanból 2. Választási modellek Levelező tagozat 2015 ősz Készítette: Prileszky István http://www.sze.hu/~prile Fogalmak Választási modellek célja: annak megjósolása,
RészletesebbenÚj típusú döntési fa építés és annak alkalmazása többtényezős döntés területén
Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Dombi József Szegedi Tudományegyetem Bevezetés - ID3 (Iterative Dichotomiser 3) Az ID algoritmusok egy elemhalmaz felhasználásával
Részletesebben10. Előadás. 1. Feltétel nélküli optimalizálás: Az eljárás alapjai
Optimalizálási eljárások MSc hallgatók számára 10. Előadás Előadó: Hajnal Péter Jegyzetelő: T. Szabó Tamás 2011. április 20. 1. Feltétel nélküli optimalizálás: Az eljárás alapjai A feltétel nélküli optimalizálásnál
Részletesebben4. Lokalizáció Magyar Attila
4. Lokalizáció Magyar Attila Pannon Egyetem Műszaki Informatikai Kar Villamosmérnöki és Információs Rendszerek Tanszék magyar.attila@virt.uni-pannon.hu 2011. szeptember 23. 4. Lokalizáció 2 4. Tartalom
RészletesebbenMikroökonómia I. B. ELTE TáTK Közgazdaságtudományi Tanszék. 12. hét STRATÉGIAI VISELKEDÉS ELEMZÉSE JÁTÉKELMÉLET
MIKROÖKONÓMIA I. B ELTE TáTK Közgazdaságtudományi Tanszék Mikroökonómia I. B STRATÉGIAI VISELKEDÉS ELEMZÉSE JÁTÉKELMÉLET K hegyi Gergely, Horn Dániel, Major Klára Szakmai felel s: K hegyi Gergely 2010.
RészletesebbenFüggvények növekedési korlátainak jellemzése
17 Függvények növekedési korlátainak jellemzése A jellemzés jól bevált eszközei az Ω, O, Θ, o és ω jelölések. Mivel az igények általában nemnegatívak, ezért az alábbi meghatározásokban mindenütt feltesszük,
RészletesebbenIntelligens ágensek. Mesterséges intelligencia február 28.
Intelligens ágensek Mesterséges intelligencia 2014. február 28. Ágens = cselekvő Bevezetés Érzékelői segítségével érzékeli a környezetet Beavatkozói/akciói segítségével megváltoztatja azt Érzékelési sorozat:
RészletesebbenIrányításelmélet és technika II.
Irányításelmélet és technika II. Modell-prediktív szabályozás Magyar Attila Pannon Egyetem Műszaki Informatikai Kar Villamosmérnöki és Információs Rendszerek Tanszék amagyar@almos.vein.hu 2010 november
Részletesebben[Biomatematika 2] Orvosi biometria
[Biomatematika 2] Orvosi biometria 2016.02.29. A statisztika típusai Leíró jellegű statisztika: összegzi egy adathalmaz jellemzőit. A középértéket jelemzi (medián, módus, átlag) Az adatok változékonyságát
Részletesebben1. feladat Az egyensúly algoritmus viselkedése: Tekintsük a kétdimenziós Euklideszi teret, mint metrikus teret. A pontok
1. feladat Az egyensúly algoritmus viselkedése: Tekintsük a kétdimenziós Euklideszi teret, mint metrikus teret. A pontok (x, y) valós számpárokból állnak, két (a, b) és (c, d) pontnak a távolsága (a c)
RészletesebbenLeast Squares becslés
Least Squares becslés A négyzetes hibafüggvény: i d i ( ) φx i A négyzetes hibafüggvény mellett a minimumot biztosító megoldás W=( d LS becslés A gradiens számítása és nullává tétele eredményeképp A megoldás
RészletesebbenAmbiens szabályozás problémája Kontroll és tanulás-1
Ambiens szabályozás problémája Kontroll és tanulás-1 Ambiens (fizikai) tér Ambiens Intelligencia szenzorok beavatkozók Ágens szervezet AmI - megfigyelés, elemzés - tervezés, megtanulás AmI - statikus -
RészletesebbenMesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás
Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás http:/uni-obuda.hu/users/kutor/ IRE 7/50/1 A neurális hálózatok általános jellemzői 1. A
RészletesebbenRegresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.
Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert
RészletesebbenNem-kooperatív játékok
Nem-kooperatív játékok Versengő ágensek konfliktusai játékelmélet Cselekvéseivel mások cselekvéseinek hatását befolyásolják. Ettől a cselekvések (mind) várható haszna meg fog változni. A változás az én
RészletesebbenExplicit hibabecslés Maxwell-egyenletek numerikus megoldásához
Explicit hibabecslés Maxwell-egyenletek numerikus megoldásához Izsák Ferenc 2007. szeptember 17. Explicit hibabecslés Maxwell-egyenletek numerikus megoldásához 1 Vázlat Bevezetés: a vizsgált egyenlet,
RészletesebbenA sorozat fogalma. függvényeket sorozatoknak nevezzük. Amennyiben az értékkészlet. az értékkészlet a komplex számok halmaza, akkor komplex
A sorozat fogalma Definíció. A természetes számok N halmazán értelmezett függvényeket sorozatoknak nevezzük. Amennyiben az értékkészlet a valós számok halmaza, valós számsorozatról beszélünk, mígha az
RészletesebbenHipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok
STATISZTIKA 1. Előadás Hipotézisvizsgálatok Tematika 1. Hipotézis vizsgálatok 2. t-próbák 3. Variancia-analízis 4. A variancia-analízis validálása, erőfüggvény 5. Korreláció számítás 6. Kétváltozós lineáris
RészletesebbenAlap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )
Budapesti Műszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Hidrodinamikai Rendszerek Tanszék, Budapest, Műegyetem rkp. 3. D ép. 334. Tel: 463-6-80 Fa: 463-30-9 http://www.vizgep.bme.hu Alap-ötlet:
RészletesebbenDIFFERENCIAEGYENLETEK
DIFFERENCIAEGYENLETEK Példa: elsőrendű állandó e.h. lineáris differenciaegyenlet Ennek megoldása: Kezdeti feltétellel: Kezdeti feltétel nélkül ha 1 és a végtelen összeg (abszolút) konvergens: / 1 Minden
Részletesebbenf(x) vagy f(x) a (x x 0 )-t használjuk. lim melyekre Mivel itt ɛ > 0 tetszőlegesen kicsi, így a a = 0, a = a, ami ellentmondás, bizonyítva
6. FÜGGVÉNYEK HATÁRÉRTÉKE ÉS FOLYTONOSSÁGA 6.1 Függvény határértéke Egy D R halmaz torlódási pontjainak halmazát D -vel fogjuk jelölni. Definíció. Legyen f : D R R és legyen x 0 D (a D halmaz torlódási
RészletesebbenBAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.
BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011. 1 Mérési hibák súlya és szerepe a mérési eredményben A mérési hibák csoportosítása A hiba rendűsége Mérési bizonytalanság Standard és kiterjesztett
RészletesebbenKooperáció és intelligencia
Kooperáció és intelligencia Tanulás többágenses szervezetekben/2 Tanulás több ágensből álló környezetben -a mozgó cél tanulás problémája (alapvetően megerősítéses tanulás) Legyen az ágens közösség formalizált
RészletesebbenKövetelmény a 7. évfolyamon félévkor matematikából
Követelmény a 7. évfolyamon félévkor matematikából Gondolkodási és megismerési módszerek Elemek halmazba rendezése több szempont alapján. Halmazok ábrázolása. A nyelv logikai elemeinek helyes használata.
RészletesebbenMozgásmodellezés. Lukovszki Csaba. Navigációs és helyalapú szolgáltatások és alkalmazások (VITMMA07)
TÁVKÖZLÉSI ÉS MÉDIAINFORMATIKAI TANSZÉK () BUDAPESTI MŰSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM (BME) Mozgásmodellezés Lukovszki Csaba Áttekintés» Probléma felvázolása» Szabadsági fokok» Diszkretizált» Hibát
RészletesebbenFunkcionálanalízis. n=1. n=1. x n y n. n=1
Funkcionálanalízis 2011/12 tavaszi félév - 2. előadás 1.4. Lényeges alap-terek, példák Sorozat terek (Folytatás.) C: konvergens sorozatok tere. A tér pontjai sorozatok: x = (x n ). Ezen belül C 0 a nullsorozatok
RészletesebbenForgalmi modellezés BMEKOKUM209
BME Közlekedésüzemi és Közlekedésgazdasági Tanszék Forgalmi modellezés BMEKOKUM209 Szimulációs modellezés Dr. Juhász János A forgalmi modellezés célja A közlekedési igények bővülése és a motorizáció növekedése
RészletesebbenNagyságrendek. Kiegészítő anyag az Algoritmuselmélet tárgyhoz. Friedl Katalin BME SZIT február 1.
Nagyságrendek Kiegészítő anyag az Algoritmuselmélet tárgyhoz (a Rónyai Ivanyos Szabó: Algoritmusok könyv mellé) Friedl Katalin BME SZIT friedl@cs.bme.hu 018. február 1. Az O, Ω, Θ jelölések Az algoritmusok
Részletesebben1. ábra. 24B-19 feladat
. gyakorlat.. Feladat: (HN 4B-9) A +Q töltés egy hosszúságú egyenes szakasz mentén oszlik el egyenletesen (ld.. ábra.). Számítsuk ki az E elektromos térerősséget a vonal. ábra. 4B-9 feladat irányában lévő,
RészletesebbenKooperáció és intelligencia kis HF-ok/ Kooperáció és intelligencia, Dobrowiecki T., BME-MIT 1
Kooperáció és intelligencia kis HF-ok/ 2015 Kooperáció és intelligencia, Dobrowiecki T., BME-MIT 1 Kis HF-1: Elosztott következtetés (modell-keresés) 3 db. logikailag következtető (KA1..3) ágens dolgozik
RészletesebbenRobotok inverz geometriája
Robotok inverz geometriája. A gyakorlat célja Inverz geometriai feladatot megvalósító függvények implementálása. A megvalósított függvénycsomag tesztelése egy kétszabadságfokú kar előírt végberendezés
RészletesebbenMesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2007/2008
Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 007/008 Az Előadások Témái Bevezető: mi a mesterséges intelligencia... Tudás reprezentáció i stratégiák Szemantikus hálók / Keretrendszerek
RészletesebbenModellkiválasztás és struktúrák tanulása
Modellkiválasztás és struktúrák tanulása Szervezőelvek keresése Az unsupervised learning egyik fő célja Optimális reprezentációk Magyarázatok Predikciók Az emberi tanulás alapja Általános strukturális
Részletesebben2. A példahalmazban n = 3 negatív és p = 3 pozitív példa van, azaz a példahalmazt képviselő döntési fa információtartalma: I = I(1/2, 1/2) = 1 bit.
Példa 1. Döntési fa számítása/1 1. Legyen a felhasználandó példahalmaz: Példa sz. Nagy(x) Fekete(x) Ugat(x) JóKutya(x) X1 Igen Igen Igen Nem X2 Igen Igen Nem Igen X3 Nem Nem Igen Nem X4 Nem Igen Igen Igen
RészletesebbenKereső algoritmusok a diszkrét optimalizálás problémájához
Kereső algoritmusok a diszkrét optimalizálás problémájához A. Grama, A. Gupta, G. Karypis és V. Kumar: Introduction to Parallel Computing, Addison Wesley, 2003. könyv anyaga alapján A kereső eljárások
RészletesebbenNem-lineáris programozási feladatok
Nem-lineáris programozási feladatok S - lehetséges halmaz 2008.02.04 Dr.Bajalinov Erik, NyF MII 1 Elég egyszerű példa: nemlineáris célfüggvény + lineáris feltételek Lehetséges halmaz x 1 *x 2 =6.75 Gradiens
RészletesebbenKémiai reakciók mechanizmusa számítógépes szimulációval
Kémiai reakciók mechanizmusa számítógépes szimulációval Stirling András stirling@chemres.hu Elméleti Kémiai Osztály Budapest Stirling A. (MTA Kémiai Kutatóközpont) Reakciómechanizmus szimulációból 2007.
RészletesebbenV. Békés Megyei Középiskolai Matematikaverseny 2012/2013 Megoldások 12. évfolyam
01/01 1. évfolyam 1. Egy röplabda bajnokságban minden csapat pontosan egyszer játszik a többi csapat mindegyikével. A bajnokságból még két forduló van hátra és eddig 104 mérkőzést játszottak le. Hány csapat
RészletesebbenKonjugált gradiens módszer
Közelítő és szimbolikus számítások 12. gyakorlat Konjugált gradiens módszer Készítette: Gelle Kitti Csendes Tibor Vinkó Tamás Faragó István Horváth Róbert jegyzetei alapján 1 LINEÁRIS EGYENLETRENDSZEREK
RészletesebbenFunkcionális konnektivitás vizsgálata fmri adatok alapján
Funkcionális konnektivitás vizsgálata fmri adatok alapján Képalkotási technikák 4 Log Resolution (mm) 3 Brain EEG & MEG fmri TMS PET Lesions 2 Column 1 0 Lamina -1 Neuron -2 Dendrite -3 Synapse -4 Mikrolesions
RészletesebbenMarkov modellek 2015.03.19.
Markov modellek 2015.03.19. Markov-láncok Markov-tulajdonság: egy folyamat korábbi állapotai a későbbiekre csak a jelen állapoton keresztül gyakorolnak befolyást. Semmi, ami a múltban történt, nem ad előrejelzést
RészletesebbenA +Q töltés egy L hosszúságú egyenes szakasz mentén oszlik el egyenletesen (ld ábra ábra
. Gyakorlat 4B-9 A +Q töltés egy L hosszúságú egyenes szakasz mentén oszlik el egyenletesen (ld. 4-6 ábra.). Számítsuk ki az E elektromos térerősséget a vonal irányában lévő, annak.. ábra. 4-6 ábra végpontjától
RészletesebbenA szimplex algoritmus
A szimplex algoritmus Ismétlés: reprezentációs tétel, az optimális megoldás és az extrém pontok kapcsolata Alapfogalmak: bázisok, bázismegoldások, megengedett bázismegoldások, degenerált bázismegoldás
RészletesebbenMegoldott feladatok november 30. n+3 szigorúan monoton csökken, 5. n+3. lim a n = lim. n+3 = 2n+3 n+4 2n+1
Megoldott feladatok 00. november 0.. Feladat: Vizsgáljuk az a n = n+ n+ sorozat monotonitását, korlátosságát és konvergenciáját. Konvergencia esetén számítsuk ki a határértéket! : a n = n+ n+ = n+ n+ =
Részletesebbenminden x D esetén, akkor x 0 -at a függvény maximumhelyének mondjuk, f(x 0 )-at pedig az (abszolút) maximumértékének.
Függvények határértéke és folytonossága Egy f: D R R függvényt korlátosnak nevezünk, ha a függvényértékek halmaza korlátos. Ha f(x) f(x 0 ) teljesül minden x D esetén, akkor x 0 -at a függvény maximumhelyének
RészletesebbenValószínűségszámítás összefoglaló
Statisztikai módszerek BMEGEVGAT Készítette: Halász Gábor Budapesti Műszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Hidrodinamikai Rendszerek Tanszék, Budapest, Műegyetem rkp. 3. D ép. 334. Tel:
RészletesebbenTanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function
Tanulás az idegrendszerben Structure Dynamics Implementation Algorithm Computation - Function Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha az A sejt axonja elég közel van a B sejthez,
RészletesebbenKoordinálás és feladatkiosztás aukciókkal 3.rész. Kooperáció és intelligencia, Dobrowiecki, BME-MIT
Koordinálás és feladatkiosztás aukciókkal 3.rész Komplex feladatok kezelése Elemi feladat nem dekomponálható Dekomponálható egyszerű feladat elemi, v. dekomponálható elemi feladatokra, de egyetlen egy
RészletesebbenLINEÁRIS PROGRAMOZÁSI FELADATOK MEGOLDÁSA SZIMPLEX MÓDSZERREL
LINEÁRIS PROGRAMOZÁSI FELADATOK MEGOLDÁSA SZIMPLEX MÓDSZERREL x 1-2x 2 6 -x 1-3x 3 = -7 x 1 - x 2-3x 3-2 3x 1-2x 2-2x 3 4 4x 1-2x 2 + x 3 max Alapfogalmak: feltételrendszer (narancs színnel jelölve), célfüggvény
RészletesebbenKereső algoritmusok a diszkrét optimalizálás problémájához
Kereső algoritmusok a diszkrét optimalizálás problémájához A. Grama, A. Gupta, G. Karypis és V. Kumar: Introduction to Parallel Computing, Addison Wesley, 2003. könyv anyaga alapján A kereső eljárások
RészletesebbenAlgoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás
Algoritmusok Tervezése 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás Mi az algoritmus? Lépések sorozata egy feladat elvégzéséhez (legáltalánosabban) Informálisan algoritmusnak nevezünk bármilyen jól definiált
RészletesebbenOpkut deníciók és tételek
Opkut deníciók és tételek Készítette: Bán József Deníciók 1. Deníció (Lineáris programozási feladat). Keressük meg adott lineáris, R n értelmezési tartományú függvény, az ún. célfüggvény széls értékét
RészletesebbenVéletlenszám generátorok és tesztelésük. Tossenberger Tamás
Véletlenszám generátorok és tesztelésük Tossenberger Tamás Érdekességek Pénzérme feldobó gép: $0,25-os érme 1/6000 valószínűséggel esik az élére 51% eséllyel érkezik a felfelé mutató oldalára Pörgetésnél
RészletesebbenHidden Markov Model. March 12, 2013
Hidden Markov Model Göbölös-Szabó Julianna March 12, 2013 Outline 1 Egy példa 2 Feladat formalizálása 3 Forward-algoritmus 4 Backward-algoritmus 5 Baum-Welch algoritmus 6 Skálázás 7 Egyéb apróságok 8 Alkalmazás
Részletesebben