Tanulás elosztott rendszerekben/2. Intelligens Elosztott Rendszerek BME-MIT, 2018

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "Tanulás elosztott rendszerekben/2. Intelligens Elosztott Rendszerek BME-MIT, 2018"

Átírás

1 Tanulás elosztott rendszerekben/2

2 Rétegezett tanulás (Layered Learning) Közvetlen bemeneti adat kimenet függvény tanulása nem megy - hierarchiadekompozíció, taszk feltörése rétegekre, - más-más koncepció (függvény) tanulása rétegenként Alulról felfelé taszk dekompozíció adva van (feladathierarchia) alulról felfelé tanulás, amíg nem éri el a teljes probléma-komplexitást, altászkok, granuláltság a konkrét tartomány függvénye. Adatokból tanulás, adaptálás tanulás minden szinten gépi tanulás: ha kézi (szimbolikus) hangolás nem megy, adaptálás, ha a feladat előre aluldefiniált, ha dinamikus. Tanulás eredménye egy szinten = példák a következő szint számára minden szinten tanulás a következő szintet közvetlenül befolyásolja: - a tanító példák szerkesztése, - a tanításhoz szükséges tulajdonságok megválasztása, - a kimeneti halmaz nyesése

3 Rétegezett tanulás (Layered Learning) H i a hipotézisek halmaza, belőle egy h i hipotézis tanulása H i : állapottulajdonságok (attributúmok) S i kimenetek O i Rétegezett tanulás: hierarchikus taszkrétegek, egy réteg: L i = (F i, O i, T i, M i, h i ) F i az állapottulajdonságok bemeneti vektora, O i a kimenetek halmaza, T i tanító példák az L i taszk számára ( (f,o): f F i o O i ), M i a gépi tanulás algoritmusa L i rétegben, az F i O i függvényt legjobban leíró hipotézis megválasztása T i alapján, h i a tanulás eredménye. Réteg Stratégiai szint Viselkedés Példa 1 Robot egyéni labdamegfogás játékos több-ágens átadás értékelés 3 1-N játékos team átadás választás 4 team formation team stratégiai poz. 5 team-ellenség adverz stratégiai adapt.

4 Robot futball (CMUnited) viselkedés példa L 1 egyedi labda megfogása L 2 több ágens labdaátadás értékelése L 3 csapat labdaátadás kiválasztása L 1 Labda megfogása: a megtanulása (sebesség információ nélkül) könnyebb, mint a beprogramozása F 1 labda távolsága-1,-2, szög, O 1 megfordulás szöge, T 1 kapura lövések, minősítés: megfogta, gól, mellément, M 1 neurális háló, h 1 kb példa után 84% megfog, 9% gól.

5 L 2 Labdaátadás értékelése: több ágenses viselkedés tanulása, labdaátadás egy másik játékosnak sikerül-e? átveszi-e? A tanító példák szerkesztésénél a passzoló és az ellenségek tudják a h 1 -t. F 2 több, mint 170 tulajdonság, játékosok, ellenségek pozíciói, lényeges, lényegtelen, hadd szelektálja a tanuló algoritmus! O 2-1, 1, szándékolt átadás, vagy siker v. kudarc: megbízhatósági tényezővel T 2 véletlenül helyezett játékosok, h 1 labda kezelési képességgel, siker (társ fogta meg), kudarc (ellenség fogta meg), félrement (senki), véletlenül választott társnál a passzok 51%-ka sikeres, M 2 döntési fa tanulása (irreleváns bemenetek kiszelektálása!), h 2 döntési fa, osztályozás + ( ) megbízhatósági tényező, összes átadás 65%-ka, sikeresnek (.8-.9) becsült átadások 79%-ka valójában sikeres. Intelligens Elosztott Rendszerek BME-MIT, 2017

6 L 3 Labdaátadás szelektálása: Együttműködő/ellenséges csapatviselkedés h 2 felhasználása tanító minták szerkesztéséhez: ha rendelkezik labdával, kinek adja át (a legsikeresebbnek ítélt passz általában nem a stratégiailag legjobb, azért dönthet, átadja, vagy kapura lő). Óriási a döntési tér (ágens kurrens pozíciója, társai, ellenségei kurrens pozíciói, társak képessége az átadás átvételére, ellenségek képessége az átadás megfogására, társak döntési képessége, ellenségek stratégiája), a döntés jósága csak a csapat hosszú idejű sikereiből, a tér redukálása h 2 -ből. F 3 (játékos pozíciója,...), durva helyzetbontás, 1 cselekvésfüggő tulajdonság minden átadáshoz (h 2 eredménye minden lehetséges megfogó társhoz) O 3 (lövés) (melyik társ), T 3 valós mérkőzésekből, M 3 TPOT-RL: on-line, többágenses, megerősítéses tanulás, Q-tanulás mintájára (csapatbontott, átláthatatlan területek), h 3 elosztott átadás szelektálási stratégia,

7 RL algoritmus kihívásai: 1. on-line, 2. nagy állapotteret kezel korlátos tanulással, 3. tanulnia kell az igen késleltetett megerősítésből, 4. változó helyzeteket/koncepciókat kezel, 5. team-bontott helyzetekben működik, 6. elmosódó átmeneteket kezel.

8 TPOT-RL Team-Partitioned, Opaque-Transition Reinforcement Learning Elvi (idő-különbség) Q-tanulás: Q(s,a) = Q(s,a) + (r + max a Q(s,a ) Q(s,a)) kihasználja a modell ismeretét, azaz hogy a cselekvés hatására milyen állapotba kerül az ágens környezete: T: (S, A) S. De egyedi ágensnek nincs kontrollja a helyzet egészén, a cselekvése folytatásán sem! Láncolt cselekvések a cselekvését más ágensek cselekvései követik. A cselekvés utáni állapot ismeretlen (másoktól függ). A tanult stratégia: állapot cselekvés leképezés (Q tanulás) S A (ill. S x A R ) Mivel az állapottér igen nagy (a tanulás kevés példából n. nehéz), az állapotteret általánosítani kell kisebb komplexitású (dimenzióban redukált) V tulajdonságtérré (feature space). S V A (egy-egy játékos nem az egész pályán érdekelt ) Átláthatatlan környezetben (modell nélküli) a tanulás: Q(v, a) = Q(v, a) + (r Q(v, a))

9 Mi lehet itt a megerősítés? r -Q max, Q max t lim -belül a jövőből, mindkettő problémafüggő Probléma: a megerősítés túl ritka! (gól, mérkőzés-, bajnokság végeredménye): kb. 10 tanuló példa/ 10 perces játék nagyon kevés! hatékony tanulás kell! Megerősítés kérdése még egyszer: - gól, ez igazi megerősítés, de ritka, - belső megerősítés, környezeti megfigyelések alapján (jelen esetben a labda pályája alapján) rúgás pillanatában megjegyzi a labda pozícióját: x t -t r = R(labda pozíció t lim ) Az ágens a labda átlagos pozícióját számolja (megfigyelésből) ha x avg x t, r 0, annál nagyobb, minél közelebb a (ellenfél) kapuhoz ha x avg x t, r 0 annál nagyobb, minél közelebb a (saját) kapuhoz

10 MARL Multi Agent Reinforcement Learning Többágenses megerősítéses tanulás Kezdjük 1 db ágenssel. Legyenek a környezet állapotai s-ek, ágens cselekvései a-k, ágens cselekvéseit meghatározó eljárásmód p, ill. ágens cselekvés-érték függvénye Q(s,a). Az állapotok és a cselekvések közötti kapcsolatot az un. Markov döntési folyamat (MDF) írja le, T(s,a,s ) átmenet-valószínűségel. Egyes állapotokban ágens r(s,a,s ) közvetlen megerősítést kap. Ágens célja megállapítani azt az optimális eljárásmódot, ami a diszkont hátralévő jutalmat (az s k állapottól végtelen jövőbe) maximálja, ahol γ a diszkont faktor és r a megerősítés. j Rk E rk j1 j0 Adott eljárásmód mellett az ágens cselekvés-érték függvényt tanul p j Q s, a E rk j1 sk s, ak a, p j0

11 MARL Multi Agent Reinforcement Learning Többágenses megerősítéses tanulás A lehető legjobb eredmény az optimális cselekvés-érték függvény: ami teljesíti az un. Bellman egyenletet:, max p, Q s a Q s a, (,, ) (,, ) max, Q s a T s a s r s a s a Q s a s S Az ágens eljárásmódja mohó: p s arg max, ami optimális, ha Q is optimális. a Q s a p

12 A Bellman-egyenlet ismeretlen r és T mellett az un. Q-tanulással oldható meg (jelen formában időkülönbség Q-tanulással):,, max,, Q s a Q s a r Q s a Q s a k 1 k k k k k k k 1 a k k1 k k k Q-tanulás bizonyos feltételek mellett optimális Q-hoz konvergál. A feltételek közül a legfontosabb, hogy a tanuló ágensnek véges nem nulla valószínűséggel ki kell próbálni minden létező cselekvését. Nem tud tehát csak mohó lenni, a mohóságát felfedezési igénnyel kell vegyítenie. A mohóság + felfedezés keverékviselkedést biztosítani tudjuk: - ε-mohósággal: az ágens ε valószínűséggel véletlen cselekvést választ, ill. 1-ε valószínűséggel mohó, vagy - Boltzmann-felfedezési modellel, ahol egy a cselekvés megválasztásának valószínűsége egy s állapotban: ahol a T hőmérséklet a két véglet között szabályoz. ha T, akkor a választás tisztán (egyenletesen) véletlen, ha T 0, akkor a választás mohó. p sa, e e a Q( s, a)/ T Q( s, a)/ T

13 Többágenses eset: - (matrix) játék (stage game), hasznossági (payoff) mátrixxal definiált - ismételt játék (repeated game, iterative game), minden fordulóban ugyanazt a mátrixjátékot játsszák - sztochasztikus játék (stochastic game, SG), a MDF többágenses kiterjesztése, ahol az állapotátmeneteket és a kapott megerősítést az összes ágens együttes cselekvése határozza meg, és ahol az egyedi ágensek eljárásmódjai mellett beszélünk az együttes eljárásmódról is. Mindegyik állapotban az ágensek új mátrix játékot játszanak, aminek mátrixát a tanult hasznosságok határozzák meg. Megjegyzés: - Mátrix játékban mindegyik ágens megerősítése/ hasznossága függ az állapottól és az összes ágens együttes cselekvésétől (joint action, joint learners). - MDF a sztochasztikus játék egyágenses esete. - Ismételt játék a sztochasztikus játék egyetlenegy állapotú esete. N, S, A A, T, R, T : S A S [0,1], R : S A kn k k k R( s, a) i

14 Játék lehet modell-alapú: ágens először megtanulja az ellenfél stratégiáját, majd talál rá a legjobb választ. Lehet model-nélküli is, amikor ágens az ellenfélre jó választ adó stratégiát tanulja meg anélkül, hogy az ellenfél stratégiáját explicite kitanulná. Jelölje egy-egy ágens megerősítését generáló függvényt ρ i. Beszélhetünk akkor - teljesen kooperatív ágensrendszerekről 1... n - teljesen versengő ágensrendszerekről, ill. (két ágen, zérus összegű) 1 2 és ρ 1 + ρ 2 + ρ n = 0, több ágens esetén - vegyes ágensrendszerekről (általános összegű, ahol semmilyen feltétel nem adható) n 0 Minden zérus-összegű mátrix játéknak van NE-ja tiszta stratégiákban. (Neumann) Minden általános összegű mátrix játéknak van NE-ja (de lehet, hogy csak kevert stratégiákban). (Nash) Minden teljesen versengő sztochasztikus játéknak van NE-ja. (Shapley) Minden általános (vegyes) sztochasztikus játéknak van NE-ja. (Fink)

15 Pl. Stackelberg-féle játék Left Right Up 1, 0 3, 2 Down 2, 1 4, 0 Down a sorjátékos domináns stratégiája. Sorjátékos meg fogja játszani a Down -t. Ezt megsejtve az oszlopjátékos Left -tel készül. Eredményben a szociális jólét = 3. A sorjátékos sorozatban játsza meg az Up -ot. Erre a jelzésre az oszlopjátékos Right -tal készül válaszolni. Eredményben a szociális jólét = 5, nemcsak az összegében nagyobb, de egyenként is. Többágenses környezetben nemigen választható szét a tanulás éa a tanítás.

16 Többágenses megerősítéses tanulás problémái Alapvető problémák: - nem stacionárius a szokásos (egy ágenses) bizonyítható konvergencia lehetetlen. - koordinálás igénye (pl. több NE esetén) Mi legyen a tanulás célja? (1) Stabilitás - Konvergencia stratégiában valamilyen egyensúlyhoz (pl. NE), ha a saját maga ellen játszik (self-play, minden ágens ugyanazt a tanulási algoritmust használja). (2) Adaptivítás - Az ellenfél stratégiájának sikeres megtanulása. (3) Egy bizonyos hasznossági szintet túlhaladó nyerességek megszerzése. Milyen tulajdonságokkal rendelkezzen egy tanulási algoritmus? (1) Biztonságos (Safe) legalább minimax szintű nyerességet garantál. (2) Konzisztens (Consistent) legalább ilyen jó, mint az egyensűlyi esetre számított legjobb válasz (best response). (P1) Konvergencia - Konvergáljon egy stacionárius eljárásmódhoz. (P2) Racionalitás - Ha az ellenfél egy stacionárius stratégiához konvergál, a tanulónknak a legjobb válaszhoz kell konvergálnia.

17 Egy ágenstől több ágensig,, max,, Q s a Q s a r Q s a Q s a k 1 k k k k k k k 1 a k k1 k k k, a, a max, a, a Q s Q s r Q s Q s k 1 k k k k k k k 1 a k k1 k k k Valami más összefüggés, ami a cselekvések baráti, vagy adverz jellegére utal és eszerint számítja ki a jövebeli egyéni várható hasznot. Mások cselekvései is, a, a XYZ, a Q s Q s r Q s k1 k k k k k k k1 k k k 1 ágens 2 ágens N ágens

18 Teljes együttműködés Optimális együttes Q értékek parallel tanulása (MDF egy központi ágens esetén) és belőle egyenkénti optimális eljárásmód származtatása Együttműködés ellenére komoly probléma a koordinálás szükségessége. Példa: formáció-mozgás 1... n, a, a max, a, a Q s Q s r Q s Q s k 1 k k k k k k 1 a k k1 k k k s a arg max max Q s, a p i ai a1,..., ai1, ai1,..., an A két optimális helyzet ellenére, koordinálás hiányában ágensek Q( L1, R2) szuboptimális helyzetben végezhetnek. (ha a Q érték közös, mindkét optimális eset egy Nash egyensúly) Q( L, L ) Q( R, R )

19 Koordinálás kérdése Koordinálás-mentes pl. Team-Q: egyedi opt. együttes cselekvést tételez fel Distributed-Q-Learning: lokális Q és p tanulása, de az egyedi Q frissítése csak akkor, ha az növekszik (a közös opt.-t is el fogja kapni). A stratégia frissítése csak akkor, ha a Q érték növekszik. Koordinálás-alapú pl. együttes Q dekomponálása kisebb csoportasulások szerint. (koordinációs gráfok) Q( s, a) Q ( s, a ) Q ( s, a, a ) Q ( s, a, a ) Q( s, a) Q ( s, a, a ) Q ( s, a, a ) Q ( s, a )

20 Koordinálás kérdése Indirekt koordinálás pl. tanulva, hogy mások bizonyos cselekedeteit milyen gyakorisággal használják: JAL Joint Action Learner: fictitious play (kitalált) játék C i j (u j ) i-edik ágens hányszor tapasztalja, hogy az j-edik ágens egy a j cselekvéshez folyamodik (mások prob. modellje, stacionárius vegyes stratégia elképzelése, erre a legjobb válasz számítása) i i ˆ ( a ) ( a ) j j j j i C a A j Frequency Maximum Q-value heurisztika: mely cselekvések jók voltak a múltban? r max a i re kapott eddigi max megerősítés, C max ennek az esetnek a gyakorisága C az a i cselekvés (önmagában) gyakorisága (az a i -re több megerősítés is jöhetett, szórás csakis a mások cselekvései miatt, determinisztikus probléma) a számított Q értéket a Boltzmann-felfedezés képletében használja Explicit koordinálás pl. társadalmi szabályok pl. ágens 1 < ágens 2 normatívák, törvények L < R < S kommunikáció szerepek döntés (L 1, L 2 ) Intelligens Elosztott... Rendszerek BME-MIT, 2018 C j j ( a ) C ( a ) Q a Q a r a i max i i( i) i( i) max ( i) i C ( ai ) j

21 Teljes versengés Minimax Q-tanulás (2 ágens esete, Q = Q 1 = - Q 2 ),,,, Q s a a Q s a a k1 k 1, k 2, k k k 1, k 2, k r m ( Q, s ) Q s, a, a k1 1 k k 1 k k 1, k 2, k m ( Q, s) max min p ( s, a ) Q( s, a, a ) 1 p ( s, ) a a p s, arg m ( Q, s ) 1, k k 1 k k Garantált konvergencia (NE) (self-play), de nem racionális.

22 Teljes versengés Minimax Q-tanulás, példa 1. ágens szeretne elfoglalni a keresztet és elmenekülni. 2. ágens szeretne elkapni az 1. ágenst. A Q táblázat az 1. ágens perspektíváját mutatja, a 2. ágens Q függvénye ennek -1-szerese. A minimax megoldás 1. ágensre: Ha L 1 -et lép, akkor a 2. az 1. nyerességét minimalizálva L 2 -et lép, eredményben 0. Ha R 1 -et lép, akkor a 2. az 1. nyerességét minimalizálva szintén L 2 -et lép, eredményben -10. Az 1. ágensnek tehát L 1 -et kell lépnie, mert így legfeljebb 0-val megússza.

23 Vegyes feladatok Nincsenek feltételek megerősítésekre. Valamilyen egyensúly felé kell húzni. Lehet pl. Nash-egyensúly, de mi van, ha több van ilyen? Egyedi ágens Q-tanulás (a többi implicite a környezeti információban) Ágens-független módszerek (egymástól független, de egy, feltehetően, közös egyensúly felé), pl. Nash-Q-tanulás., a, a eval (,.), a Q s Q s r Q s Q s i, k1 k k i, k k k i, k1 i., k k1 i, k k k eval p solve s, solve Q ( s,.) i, k i., k k Q., s V s NEQ., s i Q., k ( s,.) NEi Q., k ( s,.) (,.) (, (,.) ) i k i k NE az egyensúly kiszámítása, NE i az i-ik ágens stratégiája egyensúlyban és V i az ágens várható haszna x-ben az egyensúlyban. Bizonyos feltételekkel NE-hoz konvergál. Mindegyik ágens számon tartja mások Q értékeit is!

24 Vegyes feladatok Nash-Q-tanulás. Ellenséges egyensúly (EE): ha mások tőle eltérnek, az ágensünk helyzete változatlan, vagy javul. Kooperatív egyensúly (KE): ahol az ágensek maximális haszonhoz jutnak (a jóléti megoldás). Feltételek: Az EE és a KE létezik az egész játék számára és a tanult közbülső Q értékek által definiált minden mátrix játék számára. Ilyenkor a Nash-Q tanulás NE-hoz konvergál, feltéve, hogy a feltételekben említett egynsúlyok egyértelműek. (kemény feltételek!)

25 Vegyes feladatok Nash-Q egyszerübben: FoF Friend-or-Foe tanulás Fel kell ismerni, hogy az ellenfél kooperál, vagy ellenünk dolgozik. Kooperál esetében: JAL megoldás, a Q közös maximumára való törekvés Ellenünk van: minimax-q játék. Nash ( s, Q, Q ) max Q ( s, a, a ) a, a Nash ( s, Q, Q ) max min p ( s, a ) Q ( s, a, a ) p ( s, ) a a Ha a játéknak van EE egysúlya, FOE-Q tanulás ezt megtanulja. Ha a jatéknak van KE egyensúlya, FRIEND-Q tanulás ezt megtanulja.

26 Vegyes feladatok Ágens-követő, ágens-tudatos módszerek (más ágensek modellezése, a modell használata tanulásban: - érzékelés + stratégia-váltás) AWESOME (Adapt When Everyone is Stationary, Otherwise Move to Equilibrium) Induláskor p i egyensúlyi stratégiát játszik (az i-ik ágens) és mások cselekvéseit követi. Minden N-ik kör végére a megfigyelt gyakoriságokból kiszámítja az s j -t, az j-ik ágens (feltehetően vegyes) stratégia becslését. Ha s j minden j-ik játékos egyensúlyi stratégiája, akkor i folytatja az egyensúlyi stratégia bevetését. Különben az i-ik ágens megjátsza az s j stratégiára kiszámított legjobb válasz stratégiáját (best response). Ha minden játékos AWESOME játékos, akkor a közös tanulás az egyensúlyi helyzethez konvergál és nem fog tőle eltérni.

27 Vegyes feladatok IGA (Infinitensimal Gradient Ascent) ágensek cselekvéseinek Valószínűsége az, amit az ágens tanul (2 ágens, 2 cselekvés), α 1. ágens 1. cselekvésének a valószínűsége és β 2. ágens 1. cselekvésének a valószínűsége: k 1 k 1, k k 1 k 2, k E r 1 2, E r, 1, k 2, k

28 Vegyes feladatok WoLF-IGA (Win-or-Learn-Fast) - győztes helyzetben ágens óvatos, kis δ-val lassan tanul, nehogy az előnyös pozícióját elveszítse, - vesztes esetben viszont nagyobb δ-val gyorsan kikerül a jelen helyzetből. k 1 k 1, k k 1 k 2, k E r Hogyan látszik meg a győzelem, a vesztes állapot? 1 2, E r, WoLF-elv: Ha a várható hasznom, ahogy játszom és ahogy az ellenfél játszik, jobb, mintha a jelen játéka mellett én egyensúlyi stratégiát játszanám, akkor győzelemre állok. Ha rossabbul állok az egyensúlyi stratégiámhoz képest (az ellenfél adott játéka mellett), akkor vesztésre állok. Lucian Busoniu, Robert Babuska, and Bart De Schutter, A Comprehensive Survey of Multiagent Reinforcement Learning, IEEE Trans. on Systems, Man, and Cybernetics Part C: Applications and Reviews, Vol. 38, No. 2, March 2008,, 0 1, k 2, k min max

29 Többágenses mély megerősítéses tanulás, a, a max, a, a,, a θ Q s Q s r a Q s Q s Q s a θ a θ a θ min L s, r max Q s, Q s, θ θ θ L θ i1 i θ i i a i i Környezet 2 dim, 2 ágens tipus, diszkrét tér/idő. Konvolúciós NN csatornák: háttér cs. (akadályok), ellenfelek cs., szövetségesek cs., saját magam cs. : 4 x H x H. 2

30 Többágenses mély megerősítéses tanulás Tanulás: egyszerre 1 ágens, a többinek stratégiája fix, a megtanult stratégia kiosztása a saját tipusú ágensekre.

31 Tanulás több ágensből álló környezetben - a mozgó cél tanulás dinamikája N az ágensek halmaza, i N egy konkrét ágens, W a világ állapotainak halmaza, w W egy konkrét világ, A i az i-edik ágens cselekvéseinek halmaza, t i : W A i az i-edik ágens döntési függvénye (cselekvés számítása) D t i : W A i az i-edik ágens cél (tanulandó ideális döntési) függvénye, e( t i) = Pr ( t i(w) D t i (w) w D) az i-edik ágens hibája t-időben, annak a valószínűsége, hogy az ágens rossz döntést fog hozni, feltéve, hogy a környezeti állapotok egy D eloszlásból sorsolódnak, Visszacsatolás (megerősítés) t+1 Környezet t w t i (w t ) Érzékelés Cselekvés számítása, tanulás Cselekvés

32 A mozgó cél A tanuló ágens környezete dinamikus, mert a benne lévő más ágensek is tanulnak és alakulnak át. Mivel az ágensünknek éppen más ágensek viselkedését ki kell tanulnia, hogy az együttműködés/ versengés miatt helyesen döntsön, azok tanulása a fő zavaró tényező.

33 A döntési függvény t i lehet helyes, v. hibás. Definiáljunk egy hibaszótárt! helyes volt hibás volt helyes lesz hibás lesz nem mozog mozog változik nem változik megtanulta a régit nem tanulta meg a régit új rácsúszott új nem csúszott rá t i (w) = D t i (w) t i (w) D t i (w) t+1 i (w) = D t+1 i (w) t+1 i (w) D t+1 i (w) D t+1 i (w) = D t i (w) D t+1 i (w) D t i (w) t+1 i (w) t i (w) t+1 i (w) = t i (w) t+1 i (w) = D t i (w) t+1 i (w) D t i (w) t i (w) = D t+1 i (w) t i (w) D t+1 i (w)

34 A függvény megváltozása - a tanulás - javíthat, de ronthat is a dolgon. A D t i (w) idő közbeni változása a célpont elmozdulása a mozgó célpont. Legyen akkor az ágens tanulási (helyes célfüggvény követési) hibája: t e( i ) D( w)pr hibás volt w Egy konkrét tanuló algoritmus helyett próbáljuk meg a tanulás várható sikerességét valószínűségi alapon modellezni. Mi a valószínűsége a sikeres megtanulásnak, ha bizonyos ráhatások valószínűsége adott. CLRI elmélet (Change, Learning, Retention, Impact)

35 Definiáljuk a tanuló viselkedésére jellemző alábbi mérőszámokat : Változékonyság (changing rate c(i)): a helytelen leképzés elmozdulása, de mi felé? A helytelen leképzés javítása (helyes irányba történő változás a tanulás), Tanulás sebessége (learning rate l(i)): ci ( ) Pr változik hibás volt li ( ) Pr megtanulta a régit hibás volt l( i) c( i) D t 1 t t t w c( i) Pr i ( w) i ( w) i ( w) i ( w) D D mert a tanulás csak változással érhető el, ha az ágens cselekvéseinek választéka bináris, akkor l i = c i, mert a helytelen döntés alternatívája a helyes cselekvés, (1 l(i) ) az a valószínűség, hogy a helytelen leképezés nem javul. t1 t t t w l( i) Pr i ( w) i ( w) i ( w) i ( w)

36 Megtartás sebessége (retention r(i)): helyes volt, és helyes marad Illó sebesség, illékonyság (volatility v(i)): ri ( ) Pr megtanulta a régit helyes volt vi ( ) Pr mozog D D t1 t t t w r( i) Pr i ( w) i ( w) i ( w) i ( w) D D t1 t w v( i) Pr i ( w) i ( w)

37 Foglalkozunk most az ágens eredő hibájával: E = hibás lesz a = nem mozog b = helyes volt t t t e( i ) D( w)pr i ( w) Di ( w) w A várható hiba t+1 időpontban függ attól, hogy a célfüggvény változik-e (a), vagy sem, illetve, hogy a döntési függvény t időpontban eredetileg helyes volt-e, vagy sem (b): Pr E PrE a b Pr E a b Pr Pr E a b E a b a b Pr Pr E a b a b E a b Pr E a b Pr a b Pr Pr Pr E a b Pr a b

38 A négy db valószínűség most: Pr(hibás lesz nem mozog helyes volt) = 1 r(i) Pr(hibás lesz nem mozog hibás volt) = 1 l(i) Pr(hibás lesz mozog helyes volt) = r(i) + B (1 - r(i)) B = Pr(hibás lesz mozog helyes volt nem tanulta meg a régit) Pr(hibás lesz mozog hibás volt) = D (1 - c(i)) + l(i) + F (c(i) - l(i)) D = Pr(új nem csúszott rá mozog hibás volt) F = Pr(hibás lesz mozog hibás volt nem tanulta meg a régit változik) - a helyes leképzést megtartani nem tudja, - a helyes leképzést nem tanulja meg, - a hibás leképzést megtartja, ill. nem, de rossz irányba változtatja, - rossz irányba tanul, nem változik, ill. változik, de nem a tanulás irányába.

39 Valószínűségek és a tényleges ágensek A valószínűségek ugyanúgy eltakarják a konkrét tanuló algoritmust, mint a konkrét architektúrát és ágensprogramot, ill. a környezet hatását is. További vizsgálathoz ezeket a szempontokat olyan valószínűségekkel ki kellene fejezni, melyek megfelelnek numerikusan az ágensek adottságainak. Így a valószínűségi (hiba) egyenletek akár nagyon bonyolult, akár igen egyszerű összefüggésekhez vezethetnek. Egyszerű szimuláció ha a döntési, ill. a célfüggvény változik, akkor az új cselekvés megválasztása az A i felett értelmezett egyenletes eloszlásból történjen, azontúl az ágensek tanulása legyen független, ilyenkor: Ai 2 Ai 3 B D F A 1 A 2 i i

40 Pr t ( ) t ( ) t ( ) t ( ) Pr t ( ) t ( ) Pr t ( ) t i w Di w j w D j w i w Di w j w D j ( w) 1 1 Ai li r li c t Ar i i t i i E e( i ) 1 ri vi e( i ) ri li vi Ai 1 Ai 1 Egy lineáris összefüggés y = a x + b Az ágens hibája beáll a körülményektől függő szintre, amely az alábbi diagramból kiolvasható (pl. v i =.2, c i = 1, l i =.3, r i = 1, minden ágens 20 cselekvéssel rendelkezik, a beállt hiba színt jelen esetben kb..4) Az ágens hibáját két erő formálja: - csökkenő irányba a tanulás (l), és y v + x (.7.7 v) - növekvő irányba az illékonyság (v). [ 0.7x ] + [ -.14 x +.2 ] Mindkettőnél a hiba kifejezés lineáris (tanulási egyenes pozitív, m 1 meredekségű, az illékonysági egyenes negatív meredekségű). Ha az ágens hibája nagyon kicsi, akkor a jósolt hiba majdnem egészében az illékonysággal magyarázható. (*)

41 Stacionér hiba A mozgó pont szétveri [ 0.7x ] + [ -0.14x +.2 ] A tanulás mérsékli

Tanulás elosztott rendszerekben/3

Tanulás elosztott rendszerekben/3 Tanulás elosztott rendszerekben/3 MARL Multi Agent Reinforcement Learning Többágenses megerősítéses tanulás Kezdjük egy ágenssel. Legyenek a környezeti állapotai s-ek, cselekvései a-k, az ágens cselekvéseit

Részletesebben

Tanulás elosztott rendszerekben/2

Tanulás elosztott rendszerekben/2 Tanulás elosztott rendszerekben/2 Egy szervezet ellenséges természetes környezetben, ill. más szervezetek ellen Kiindulás - katasztrófa-elhárítás Természeti katasztrófák és az információs technológia tapasztalata

Részletesebben

Megerősítéses tanulási módszerek és alkalmazásaik

Megerősítéses tanulási módszerek és alkalmazásaik MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai Intézeti Tanszék Miskolc, 2017. szeptember 15. Tartalom

Részletesebben

Megerősítéses tanulás

Megerősítéses tanulás Gépi tanulás (Szekvenciális döntési probléma) Megerősítéses tanulás Pataki Béla BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki Az egész világot nem tudjuk modellezni,

Részletesebben

Mesterséges Intelligencia MI

Mesterséges Intelligencia MI Mesterséges Intelligencia MI Keresés ellenséges környezetben Dobrowiecki Tadeusz Eredics Péter, és mások BME I.E. 437, 463-28-99 dobrowiecki@mit.bme.hu, http://www.mit.bme.hu/general/staff/tade Ellenség

Részletesebben

13. Tanulás elosztott rendszerekben/1. Intelligens Elosztott Rendszerek BME-MIT, 2017

13. Tanulás elosztott rendszerekben/1. Intelligens Elosztott Rendszerek BME-MIT, 2017 13. Tanulás elosztott rendszerekben/1 (Egyedi ágens) tanulásáról röviden Célja: javulás (feladavégzésben), adaptalódás, robusztusság (környezet), kompenzálás, hibatürés (ismerethiány, meghibasodás) Miből:

Részletesebben

12. előadás - Markov-láncok I.

12. előadás - Markov-láncok I. 12. előadás - Markov-láncok I. 2016. november 21. 12. előadás 1 / 15 Markov-lánc - definíció Az X n, n N valószínűségi változók sorozatát diszkrét idejű sztochasztikus folyamatnak nevezzük. Legyen S R

Részletesebben

Mesterséges Intelligencia MI

Mesterséges Intelligencia MI Mesterséges Intelligencia MI Megerősítéses tanulás Pataki Béla BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki Ágens tudása: Induláskor: vagy ismeri már a környezetet

Részletesebben

Korszerű információs technológiák

Korszerű információs technológiák MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR Korszerű információs technológiák Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai Intézeti Tanszék Miskolc,

Részletesebben

Stratégiák tanulása az agyban

Stratégiák tanulása az agyban Statisztikai tanulás az idegrendszerben, 2019. Stratégiák tanulása az agyban Bányai Mihály banyai.mihaly@wigner.mta.hu http://golab.wigner.mta.hu/people/mihaly-banyai/ Kortárs MI thispersondoesnotexist.com

Részletesebben

Megerősítéses tanulás 2. előadás

Megerősítéses tanulás 2. előadás Megerősítéses tanulás 2. előadás 1 Technikai dolgok Email szityu@eotvoscollegium.hu Annai levlista http://nipglab04.inf.elte.hu/cgi-bin/mailman/listinfo/annai/ Olvasnivaló: Sutton, Barto: Reinforcement

Részletesebben

Megerősítéses tanulás 7. előadás

Megerősítéses tanulás 7. előadás Megerősítéses tanulás 7. előadás 1 Ismétlés: TD becslés s t -ben stratégia szerint lépek! a t, r t, s t+1 TD becslés: tulajdonképpen ezt mintavételezzük: 2 Akcióértékelő függvény számolása TD-vel még mindig

Részletesebben

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence) Gépi tanulás Hány tanítómintára van szükség? VKH Pataki Béla (Bolgár Bence) BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki Induktív tanulás A tanítás folyamata: Kiinduló

Részletesebben

Monoton Engedmény Protokoll N-M multilaterális tárgyalás

Monoton Engedmény Protokoll N-M multilaterális tárgyalás Tárgyalások/2 Monoton Engedmény Protokoll N-M multilaterális tárgyalás Fordulók 1. Minden ágens előáll a javaslatával k. Mindegyik ágens vagy ragaszkodik a javaslatához, vagy engedményt tesz. Ismétlés

Részletesebben

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE Dr. Aradi Szilárd, Fehér Árpád Mesterséges intelligencia kialakulása 1956 Dartmouth-i konferencián egy maroknyi tudós megalapította a MI területét

Részletesebben

Navigáci. stervezés. Algoritmusok és alkalmazásaik. Osváth Róbert Sorbán Sámuel

Navigáci. stervezés. Algoritmusok és alkalmazásaik. Osváth Róbert Sorbán Sámuel Navigáci ció és s mozgástervez stervezés Algoritmusok és alkalmazásaik Osváth Róbert Sorbán Sámuel Feladat Adottak: pálya (C), játékos, játékos ismerethalmaza, kezdőpont, célpont. Pálya szerkezete: akadályokkal

Részletesebben

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban Intelligens Rendszerek Elmélete : dr. Kutor László Versengéses és önszervező tanulás neurális hálózatokban http://mobil.nik.bmf.hu/tantargyak/ire.html Login név: ire jelszó: IRE07 IRE 9/1 Processzor Versengéses

Részletesebben

Markov-láncok stacionárius eloszlása

Markov-láncok stacionárius eloszlása Markov-láncok stacionárius eloszlása Adatbányászat és Keresés Csoport, MTA SZTAKI dms.sztaki.hu Kiss Tamás 2013. április 11. Tartalom Markov láncok definíciója, jellemzése Visszatérési idők Stacionárius

Részletesebben

Adaptív menetrendezés ADP algoritmus alkalmazásával

Adaptív menetrendezés ADP algoritmus alkalmazásával Adaptív menetrendezés ADP algoritmus alkalmazásával Alcím III. Mechwart András Ifjúsági Találkozó Mátraháza, 2013. szeptember 10. Divényi Dániel Villamos Energetika Tanszék Villamos Művek és Környezet

Részletesebben

Mátrixjátékok tiszta nyeregponttal

Mátrixjátékok tiszta nyeregponttal 1 Mátrixjátékok tiszta nyeregponttal 1. Példa. Két játékos Aladár és Bendegúz rendelkeznek egy-egy tetraéderrel, melyek lapjaira rendre az 1, 2, 3, 4 számokat írták. Egy megadott jelre egyszerre felmutatják

Részletesebben

Rasmusen, Eric: Games and Information (Third Edition, Blackwell, 2001)

Rasmusen, Eric: Games and Information (Third Edition, Blackwell, 2001) Játékelmélet szociológusoknak J-1 Bevezetés a játékelméletbe szociológusok számára Ajánlott irodalom: Mészáros József: Játékelmélet (Gondolat, 2003) Filep László: Játékelmélet (Filum, 2001) Csontos László

Részletesebben

Megerősítéses tanulás

Megerősítéses tanulás Megerősítéses tanulás elméleti kognitív neurális Introduction Knowledge representation Probabilistic models Bayesian behaviour Approximate inference I (computer lab) Vision I Approximate inference II:

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,

Részletesebben

Döntési rendszerek I.

Döntési rendszerek I. Döntési rendszerek I. SZTE Informatikai Intézet Számítógépes Optimalizálás Tanszék Készítette: London András 8 Gyakorlat Alapfogalmak A terület alapfogalmai megtalálhatók Pluhár András Döntési rendszerek

Részletesebben

Gépi tanulás a gyakorlatban. Lineáris regresszió

Gépi tanulás a gyakorlatban. Lineáris regresszió Gépi tanulás a gyakorlatban Lineáris regresszió Lineáris Regresszió Legyen adott egy tanuló adatbázis: Rendelkezésünkre áll egy olyan előfeldolgozott adathalmaz, aminek sorai az egyes ingatlanokat írják

Részletesebben

Kooperáció és intelligencia

Kooperáció és intelligencia Kooperáció és intelligencia Tanulás többágenses szervezetekben/3 MARL Multi Agent Reinforcement Learning Többágenses megerősítéses tanulás: áttekintés Kezdjük 1 db ágenssel. Legyenek a környezet állapotai

Részletesebben

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Keresés képi jellemzők alapján Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Lusta gépi tanulási algoritmusok Osztályozás: k=1: piros k=5: kék k-legközelebbi szomszéd (k=1,3,5,7)

Részletesebben

(Diszkrét idejű Markov-láncok állapotainak

(Diszkrét idejű Markov-láncok állapotainak (Diszkrét idejű Markov-láncok állapotainak osztályozása) March 21, 2019 Markov-láncok A Markov-láncok anaĺızise főként a folyamat lehetséges realizációi valószínűségeinek kiszámolásával foglalkozik. Ezekben

Részletesebben

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet Operációkutatás I. 2017/2018-2. Szegedi Tudományegyetem Informatikai Intézet Számítógépes Optimalizálás Tanszék 11. Előadás Portfólió probléma Portfólió probléma Portfólió probléma Adott részvények (kötvények,tevékenységek,

Részletesebben

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Számítógépes képelemzés 7. előadás Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Momentumok Momentum-alapú jellemzők Tömegközéppont Irányultáság 1 2 tan 2 1 2,0 1,1 0, 2 Befoglaló

Részletesebben

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision

Részletesebben

Kétszemélyes játékok Gregorics Tibor Mesterséges intelligencia

Kétszemélyes játékok Gregorics Tibor Mesterséges intelligencia Kétszemélyes játékok Kétszemélyes, teljes információjú, véges, determinisztikus,zéró összegű játékok Két játékos lép felváltva adott szabályok szerint, amíg a játszma véget nem ér. Mindkét játékos ismeri

Részletesebben

Mesterséges Intelligencia MI

Mesterséges Intelligencia MI Mesterséges Intelligencia MI Valószínűségi hálók - következtetés Dobrowiecki Tadeusz Eredics Péter, és mások BME I.E. 437, 463-28-99 dobrowiecki@mit.bme.hu, http://www.mit.bme.hu/general/staff/tade Következtetés

Részletesebben

Bonyolult jelenség, aminek nincs jó modellje, sok empirikus adat, intelligens (ember)ágens képessége, hogy ilyen problémákkal mégis megbirkozzék.

Bonyolult jelenség, aminek nincs jó modellje, sok empirikus adat, intelligens (ember)ágens képessége, hogy ilyen problémákkal mégis megbirkozzék. Vizsga, 2015. dec. 22. B cs. B1. Hogyan jellemezhetők a tanulást igénylő feladatok? (vendégelőadás) Bonyolult jelenség, aminek nincs jó modellje, sok empirikus adat, intelligens (ember)ágens képessége,

Részletesebben

Monte Carlo módszerek a statisztikus fizikában. Az Ising modell. 8. előadás

Monte Carlo módszerek a statisztikus fizikában. Az Ising modell. 8. előadás Monte Carlo módszerek a statisztikus fizikában. Az Ising modell. 8. előadás Démon algoritmus az ideális gázra időátlag fizikai mennyiségek átlagértéke sokaságátlag E, V, N pl. molekuláris dinamika Monte

Részletesebben

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/ Operációkutatás I. 2017/2018-2. Szegedi Tudományegyetem Informatikai Intézet Számítógépes Optimalizálás Tanszék 9. Előadás Az optimalizálás alapfeladata Keressük f függvény maximumát ahol f : R n R és

Részletesebben

Véletlen bolyongás. Márkus László március 17. Márkus László Véletlen bolyongás március / 31

Véletlen bolyongás. Márkus László március 17. Márkus László Véletlen bolyongás március / 31 Márkus László Véletlen bolyongás 2015. március 17. 1 / 31 Véletlen bolyongás Márkus László 2015. március 17. Modell Deníció Márkus László Véletlen bolyongás 2015. március 17. 2 / 31 Modell: Egy egyenesen

Részletesebben

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás Matematikai alapok és valószínőségszámítás Valószínőségi eloszlások Binomiális eloszlás Bevezetés A tudományos életben megfigyeléseket teszünk, kísérleteket végzünk. Ezek többféle különbözı eredményre

Részletesebben

Dunaújvárosi Főiskola Informatikai Intézet. Intelligens ágensek. Dr. Seebauer Márta. főiskolai tanár

Dunaújvárosi Főiskola Informatikai Intézet. Intelligens ágensek. Dr. Seebauer Márta. főiskolai tanár Dunaújvárosi Főiskola Informatikai Intézet Intelligens ágensek Dr. Seebauer Márta főiskolai tanár seebauer.marta@szgti.bmf.hu Ágens Ágens (agent) bármi lehet, amit úgy tekinthetünk, hogy érzékelők (sensors)

Részletesebben

Intelligens robotok. Előadás vázlat. 1 előadás

Intelligens robotok. Előadás vázlat. 1 előadás Intelligens robotok Előadás vázlat 1 előadás Felhasznált Irodalom: Összeállította: Harmati István Ph.D., egyetemi adjunktus J. R. Kok, M. T. J. Spaan, N. Vlassis: Non-commutative multi-robot cooperation

Részletesebben

Kooperáció és intelligencia

Kooperáció és intelligencia Kooperáció és intelligencia Tanulás többágenses szervezetekben/1 Erősen strukturált kooperatív szervezet (együtt tervezünk) Modell: a közösség - egyszerű ágensekben gazdag közösség, ahol egy-egy ágens

Részletesebben

Fraktálok. Hausdorff távolság. Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék március 14.

Fraktálok. Hausdorff távolság. Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék március 14. Fraktálok Hausdorff távolság Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék 2015. március 14. TARTALOMJEGYZÉK 1 of 36 Halmazok távolsága ELSŐ MEGKÖZELÍTÉS Legyen (S, ρ) egy metrikus tér, A, B S, valamint

Részletesebben

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Vizuális feldolgozórendszerek feladatai Mesterséges intelligencia és idegtudomány Mesterséges intelligencia és idegtudomány Párhuzamos problémák

Részletesebben

Megerősítéses tanulás 9. előadás

Megerősítéses tanulás 9. előadás Megerősítéses tanulás 9. előadás 1 Backgammon (vagy Ostábla) 2 3 TD-Gammon 0.0 TD() tanulás (azaz időbeli differencia-módszer felelősségnyomokkal) függvényapproximátor: neuronháló 40 rejtett (belső) neuron

Részletesebben

Valószínűségi modellellenőrzés Markov döntési folyamatokkal

Valószínűségi modellellenőrzés Markov döntési folyamatokkal Valószínűségi modellellenőrzés Markov döntési folyamatokkal Hajdu Ákos Szoftver verifikáció és validáció 2015.12.09. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek

Részletesebben

Mesterséges Intelligencia MI

Mesterséges Intelligencia MI Mesterséges Intelligencia MI Problémamegoldás kereséssel - csak lokális információra alapozva Pataki Béla BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki Lokálisan

Részletesebben

Válogatott fejezetek a közlekedésgazdaságtanból

Válogatott fejezetek a közlekedésgazdaságtanból Válogatott fejezetek a közlekedésgazdaságtanból 2. Választási modellek Levelező tagozat 2015 ősz Készítette: Prileszky István http://www.sze.hu/~prile Fogalmak Választási modellek célja: annak megjósolása,

Részletesebben

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Dombi József Szegedi Tudományegyetem Bevezetés - ID3 (Iterative Dichotomiser 3) Az ID algoritmusok egy elemhalmaz felhasználásával

Részletesebben

10. Előadás. 1. Feltétel nélküli optimalizálás: Az eljárás alapjai

10. Előadás. 1. Feltétel nélküli optimalizálás: Az eljárás alapjai Optimalizálási eljárások MSc hallgatók számára 10. Előadás Előadó: Hajnal Péter Jegyzetelő: T. Szabó Tamás 2011. április 20. 1. Feltétel nélküli optimalizálás: Az eljárás alapjai A feltétel nélküli optimalizálásnál

Részletesebben

4. Lokalizáció Magyar Attila

4. Lokalizáció Magyar Attila 4. Lokalizáció Magyar Attila Pannon Egyetem Műszaki Informatikai Kar Villamosmérnöki és Információs Rendszerek Tanszék magyar.attila@virt.uni-pannon.hu 2011. szeptember 23. 4. Lokalizáció 2 4. Tartalom

Részletesebben

Mikroökonómia I. B. ELTE TáTK Közgazdaságtudományi Tanszék. 12. hét STRATÉGIAI VISELKEDÉS ELEMZÉSE JÁTÉKELMÉLET

Mikroökonómia I. B. ELTE TáTK Közgazdaságtudományi Tanszék. 12. hét STRATÉGIAI VISELKEDÉS ELEMZÉSE JÁTÉKELMÉLET MIKROÖKONÓMIA I. B ELTE TáTK Közgazdaságtudományi Tanszék Mikroökonómia I. B STRATÉGIAI VISELKEDÉS ELEMZÉSE JÁTÉKELMÉLET K hegyi Gergely, Horn Dániel, Major Klára Szakmai felel s: K hegyi Gergely 2010.

Részletesebben

Függvények növekedési korlátainak jellemzése

Függvények növekedési korlátainak jellemzése 17 Függvények növekedési korlátainak jellemzése A jellemzés jól bevált eszközei az Ω, O, Θ, o és ω jelölések. Mivel az igények általában nemnegatívak, ezért az alábbi meghatározásokban mindenütt feltesszük,

Részletesebben

Intelligens ágensek. Mesterséges intelligencia február 28.

Intelligens ágensek. Mesterséges intelligencia február 28. Intelligens ágensek Mesterséges intelligencia 2014. február 28. Ágens = cselekvő Bevezetés Érzékelői segítségével érzékeli a környezetet Beavatkozói/akciói segítségével megváltoztatja azt Érzékelési sorozat:

Részletesebben

Irányításelmélet és technika II.

Irányításelmélet és technika II. Irányításelmélet és technika II. Modell-prediktív szabályozás Magyar Attila Pannon Egyetem Műszaki Informatikai Kar Villamosmérnöki és Információs Rendszerek Tanszék amagyar@almos.vein.hu 2010 november

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria 2016.02.29. A statisztika típusai Leíró jellegű statisztika: összegzi egy adathalmaz jellemzőit. A középértéket jelemzi (medián, módus, átlag) Az adatok változékonyságát

Részletesebben

1. feladat Az egyensúly algoritmus viselkedése: Tekintsük a kétdimenziós Euklideszi teret, mint metrikus teret. A pontok

1. feladat Az egyensúly algoritmus viselkedése: Tekintsük a kétdimenziós Euklideszi teret, mint metrikus teret. A pontok 1. feladat Az egyensúly algoritmus viselkedése: Tekintsük a kétdimenziós Euklideszi teret, mint metrikus teret. A pontok (x, y) valós számpárokból állnak, két (a, b) és (c, d) pontnak a távolsága (a c)

Részletesebben

Least Squares becslés

Least Squares becslés Least Squares becslés A négyzetes hibafüggvény: i d i ( ) φx i A négyzetes hibafüggvény mellett a minimumot biztosító megoldás W=( d LS becslés A gradiens számítása és nullává tétele eredményeképp A megoldás

Részletesebben

Ambiens szabályozás problémája Kontroll és tanulás-1

Ambiens szabályozás problémája Kontroll és tanulás-1 Ambiens szabályozás problémája Kontroll és tanulás-1 Ambiens (fizikai) tér Ambiens Intelligencia szenzorok beavatkozók Ágens szervezet AmI - megfigyelés, elemzés - tervezés, megtanulás AmI - statikus -

Részletesebben

Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás

Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás http:/uni-obuda.hu/users/kutor/ IRE 7/50/1 A neurális hálózatok általános jellemzői 1. A

Részletesebben

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31. Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert

Részletesebben

Nem-kooperatív játékok

Nem-kooperatív játékok Nem-kooperatív játékok Versengő ágensek konfliktusai játékelmélet Cselekvéseivel mások cselekvéseinek hatását befolyásolják. Ettől a cselekvések (mind) várható haszna meg fog változni. A változás az én

Részletesebben

Explicit hibabecslés Maxwell-egyenletek numerikus megoldásához

Explicit hibabecslés Maxwell-egyenletek numerikus megoldásához Explicit hibabecslés Maxwell-egyenletek numerikus megoldásához Izsák Ferenc 2007. szeptember 17. Explicit hibabecslés Maxwell-egyenletek numerikus megoldásához 1 Vázlat Bevezetés: a vizsgált egyenlet,

Részletesebben

A sorozat fogalma. függvényeket sorozatoknak nevezzük. Amennyiben az értékkészlet. az értékkészlet a komplex számok halmaza, akkor komplex

A sorozat fogalma. függvényeket sorozatoknak nevezzük. Amennyiben az értékkészlet. az értékkészlet a komplex számok halmaza, akkor komplex A sorozat fogalma Definíció. A természetes számok N halmazán értelmezett függvényeket sorozatoknak nevezzük. Amennyiben az értékkészlet a valós számok halmaza, valós számsorozatról beszélünk, mígha az

Részletesebben

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok STATISZTIKA 1. Előadás Hipotézisvizsgálatok Tematika 1. Hipotézis vizsgálatok 2. t-próbák 3. Variancia-analízis 4. A variancia-analízis validálása, erőfüggvény 5. Korreláció számítás 6. Kétváltozós lineáris

Részletesebben

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( ) Budapesti Műszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Hidrodinamikai Rendszerek Tanszék, Budapest, Műegyetem rkp. 3. D ép. 334. Tel: 463-6-80 Fa: 463-30-9 http://www.vizgep.bme.hu Alap-ötlet:

Részletesebben

DIFFERENCIAEGYENLETEK

DIFFERENCIAEGYENLETEK DIFFERENCIAEGYENLETEK Példa: elsőrendű állandó e.h. lineáris differenciaegyenlet Ennek megoldása: Kezdeti feltétellel: Kezdeti feltétel nélkül ha 1 és a végtelen összeg (abszolút) konvergens: / 1 Minden

Részletesebben

f(x) vagy f(x) a (x x 0 )-t használjuk. lim melyekre Mivel itt ɛ > 0 tetszőlegesen kicsi, így a a = 0, a = a, ami ellentmondás, bizonyítva

f(x) vagy f(x) a (x x 0 )-t használjuk. lim melyekre Mivel itt ɛ > 0 tetszőlegesen kicsi, így a a = 0, a = a, ami ellentmondás, bizonyítva 6. FÜGGVÉNYEK HATÁRÉRTÉKE ÉS FOLYTONOSSÁGA 6.1 Függvény határértéke Egy D R halmaz torlódási pontjainak halmazát D -vel fogjuk jelölni. Definíció. Legyen f : D R R és legyen x 0 D (a D halmaz torlódási

Részletesebben

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011. BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011. 1 Mérési hibák súlya és szerepe a mérési eredményben A mérési hibák csoportosítása A hiba rendűsége Mérési bizonytalanság Standard és kiterjesztett

Részletesebben

Kooperáció és intelligencia

Kooperáció és intelligencia Kooperáció és intelligencia Tanulás többágenses szervezetekben/2 Tanulás több ágensből álló környezetben -a mozgó cél tanulás problémája (alapvetően megerősítéses tanulás) Legyen az ágens közösség formalizált

Részletesebben

Követelmény a 7. évfolyamon félévkor matematikából

Követelmény a 7. évfolyamon félévkor matematikából Követelmény a 7. évfolyamon félévkor matematikából Gondolkodási és megismerési módszerek Elemek halmazba rendezése több szempont alapján. Halmazok ábrázolása. A nyelv logikai elemeinek helyes használata.

Részletesebben

Mozgásmodellezés. Lukovszki Csaba. Navigációs és helyalapú szolgáltatások és alkalmazások (VITMMA07)

Mozgásmodellezés. Lukovszki Csaba. Navigációs és helyalapú szolgáltatások és alkalmazások (VITMMA07) TÁVKÖZLÉSI ÉS MÉDIAINFORMATIKAI TANSZÉK () BUDAPESTI MŰSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM (BME) Mozgásmodellezés Lukovszki Csaba Áttekintés» Probléma felvázolása» Szabadsági fokok» Diszkretizált» Hibát

Részletesebben

Funkcionálanalízis. n=1. n=1. x n y n. n=1

Funkcionálanalízis. n=1. n=1. x n y n. n=1 Funkcionálanalízis 2011/12 tavaszi félév - 2. előadás 1.4. Lényeges alap-terek, példák Sorozat terek (Folytatás.) C: konvergens sorozatok tere. A tér pontjai sorozatok: x = (x n ). Ezen belül C 0 a nullsorozatok

Részletesebben

Forgalmi modellezés BMEKOKUM209

Forgalmi modellezés BMEKOKUM209 BME Közlekedésüzemi és Közlekedésgazdasági Tanszék Forgalmi modellezés BMEKOKUM209 Szimulációs modellezés Dr. Juhász János A forgalmi modellezés célja A közlekedési igények bővülése és a motorizáció növekedése

Részletesebben

Nagyságrendek. Kiegészítő anyag az Algoritmuselmélet tárgyhoz. Friedl Katalin BME SZIT február 1.

Nagyságrendek. Kiegészítő anyag az Algoritmuselmélet tárgyhoz. Friedl Katalin BME SZIT február 1. Nagyságrendek Kiegészítő anyag az Algoritmuselmélet tárgyhoz (a Rónyai Ivanyos Szabó: Algoritmusok könyv mellé) Friedl Katalin BME SZIT friedl@cs.bme.hu 018. február 1. Az O, Ω, Θ jelölések Az algoritmusok

Részletesebben

1. ábra. 24B-19 feladat

1. ábra. 24B-19 feladat . gyakorlat.. Feladat: (HN 4B-9) A +Q töltés egy hosszúságú egyenes szakasz mentén oszlik el egyenletesen (ld.. ábra.). Számítsuk ki az E elektromos térerősséget a vonal. ábra. 4B-9 feladat irányában lévő,

Részletesebben

Kooperáció és intelligencia kis HF-ok/ Kooperáció és intelligencia, Dobrowiecki T., BME-MIT 1

Kooperáció és intelligencia kis HF-ok/ Kooperáció és intelligencia, Dobrowiecki T., BME-MIT 1 Kooperáció és intelligencia kis HF-ok/ 2015 Kooperáció és intelligencia, Dobrowiecki T., BME-MIT 1 Kis HF-1: Elosztott következtetés (modell-keresés) 3 db. logikailag következtető (KA1..3) ágens dolgozik

Részletesebben

Robotok inverz geometriája

Robotok inverz geometriája Robotok inverz geometriája. A gyakorlat célja Inverz geometriai feladatot megvalósító függvények implementálása. A megvalósított függvénycsomag tesztelése egy kétszabadságfokú kar előírt végberendezés

Részletesebben

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2007/2008

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2007/2008 Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 007/008 Az Előadások Témái Bevezető: mi a mesterséges intelligencia... Tudás reprezentáció i stratégiák Szemantikus hálók / Keretrendszerek

Részletesebben

Modellkiválasztás és struktúrák tanulása

Modellkiválasztás és struktúrák tanulása Modellkiválasztás és struktúrák tanulása Szervezőelvek keresése Az unsupervised learning egyik fő célja Optimális reprezentációk Magyarázatok Predikciók Az emberi tanulás alapja Általános strukturális

Részletesebben

2. A példahalmazban n = 3 negatív és p = 3 pozitív példa van, azaz a példahalmazt képviselő döntési fa információtartalma: I = I(1/2, 1/2) = 1 bit.

2. A példahalmazban n = 3 negatív és p = 3 pozitív példa van, azaz a példahalmazt képviselő döntési fa információtartalma: I = I(1/2, 1/2) = 1 bit. Példa 1. Döntési fa számítása/1 1. Legyen a felhasználandó példahalmaz: Példa sz. Nagy(x) Fekete(x) Ugat(x) JóKutya(x) X1 Igen Igen Igen Nem X2 Igen Igen Nem Igen X3 Nem Nem Igen Nem X4 Nem Igen Igen Igen

Részletesebben

Kereső algoritmusok a diszkrét optimalizálás problémájához

Kereső algoritmusok a diszkrét optimalizálás problémájához Kereső algoritmusok a diszkrét optimalizálás problémájához A. Grama, A. Gupta, G. Karypis és V. Kumar: Introduction to Parallel Computing, Addison Wesley, 2003. könyv anyaga alapján A kereső eljárások

Részletesebben

Nem-lineáris programozási feladatok

Nem-lineáris programozási feladatok Nem-lineáris programozási feladatok S - lehetséges halmaz 2008.02.04 Dr.Bajalinov Erik, NyF MII 1 Elég egyszerű példa: nemlineáris célfüggvény + lineáris feltételek Lehetséges halmaz x 1 *x 2 =6.75 Gradiens

Részletesebben

Kémiai reakciók mechanizmusa számítógépes szimulációval

Kémiai reakciók mechanizmusa számítógépes szimulációval Kémiai reakciók mechanizmusa számítógépes szimulációval Stirling András stirling@chemres.hu Elméleti Kémiai Osztály Budapest Stirling A. (MTA Kémiai Kutatóközpont) Reakciómechanizmus szimulációból 2007.

Részletesebben

V. Békés Megyei Középiskolai Matematikaverseny 2012/2013 Megoldások 12. évfolyam

V. Békés Megyei Középiskolai Matematikaverseny 2012/2013 Megoldások 12. évfolyam 01/01 1. évfolyam 1. Egy röplabda bajnokságban minden csapat pontosan egyszer játszik a többi csapat mindegyikével. A bajnokságból még két forduló van hátra és eddig 104 mérkőzést játszottak le. Hány csapat

Részletesebben

Konjugált gradiens módszer

Konjugált gradiens módszer Közelítő és szimbolikus számítások 12. gyakorlat Konjugált gradiens módszer Készítette: Gelle Kitti Csendes Tibor Vinkó Tamás Faragó István Horváth Róbert jegyzetei alapján 1 LINEÁRIS EGYENLETRENDSZEREK

Részletesebben

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Funkcionális konnektivitás vizsgálata fmri adatok alapján Funkcionális konnektivitás vizsgálata fmri adatok alapján Képalkotási technikák 4 Log Resolution (mm) 3 Brain EEG & MEG fmri TMS PET Lesions 2 Column 1 0 Lamina -1 Neuron -2 Dendrite -3 Synapse -4 Mikrolesions

Részletesebben

Markov modellek 2015.03.19.

Markov modellek 2015.03.19. Markov modellek 2015.03.19. Markov-láncok Markov-tulajdonság: egy folyamat korábbi állapotai a későbbiekre csak a jelen állapoton keresztül gyakorolnak befolyást. Semmi, ami a múltban történt, nem ad előrejelzést

Részletesebben

A +Q töltés egy L hosszúságú egyenes szakasz mentén oszlik el egyenletesen (ld ábra ábra

A +Q töltés egy L hosszúságú egyenes szakasz mentén oszlik el egyenletesen (ld ábra ábra . Gyakorlat 4B-9 A +Q töltés egy L hosszúságú egyenes szakasz mentén oszlik el egyenletesen (ld. 4-6 ábra.). Számítsuk ki az E elektromos térerősséget a vonal irányában lévő, annak.. ábra. 4-6 ábra végpontjától

Részletesebben

A szimplex algoritmus

A szimplex algoritmus A szimplex algoritmus Ismétlés: reprezentációs tétel, az optimális megoldás és az extrém pontok kapcsolata Alapfogalmak: bázisok, bázismegoldások, megengedett bázismegoldások, degenerált bázismegoldás

Részletesebben

Megoldott feladatok november 30. n+3 szigorúan monoton csökken, 5. n+3. lim a n = lim. n+3 = 2n+3 n+4 2n+1

Megoldott feladatok november 30. n+3 szigorúan monoton csökken, 5. n+3. lim a n = lim. n+3 = 2n+3 n+4 2n+1 Megoldott feladatok 00. november 0.. Feladat: Vizsgáljuk az a n = n+ n+ sorozat monotonitását, korlátosságát és konvergenciáját. Konvergencia esetén számítsuk ki a határértéket! : a n = n+ n+ = n+ n+ =

Részletesebben

minden x D esetén, akkor x 0 -at a függvény maximumhelyének mondjuk, f(x 0 )-at pedig az (abszolút) maximumértékének.

minden x D esetén, akkor x 0 -at a függvény maximumhelyének mondjuk, f(x 0 )-at pedig az (abszolút) maximumértékének. Függvények határértéke és folytonossága Egy f: D R R függvényt korlátosnak nevezünk, ha a függvényértékek halmaza korlátos. Ha f(x) f(x 0 ) teljesül minden x D esetén, akkor x 0 -at a függvény maximumhelyének

Részletesebben

Valószínűségszámítás összefoglaló

Valószínűségszámítás összefoglaló Statisztikai módszerek BMEGEVGAT Készítette: Halász Gábor Budapesti Műszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Hidrodinamikai Rendszerek Tanszék, Budapest, Műegyetem rkp. 3. D ép. 334. Tel:

Részletesebben

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function Tanulás az idegrendszerben Structure Dynamics Implementation Algorithm Computation - Function Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha az A sejt axonja elég közel van a B sejthez,

Részletesebben

Koordinálás és feladatkiosztás aukciókkal 3.rész. Kooperáció és intelligencia, Dobrowiecki, BME-MIT

Koordinálás és feladatkiosztás aukciókkal 3.rész. Kooperáció és intelligencia, Dobrowiecki, BME-MIT Koordinálás és feladatkiosztás aukciókkal 3.rész Komplex feladatok kezelése Elemi feladat nem dekomponálható Dekomponálható egyszerű feladat elemi, v. dekomponálható elemi feladatokra, de egyetlen egy

Részletesebben

LINEÁRIS PROGRAMOZÁSI FELADATOK MEGOLDÁSA SZIMPLEX MÓDSZERREL

LINEÁRIS PROGRAMOZÁSI FELADATOK MEGOLDÁSA SZIMPLEX MÓDSZERREL LINEÁRIS PROGRAMOZÁSI FELADATOK MEGOLDÁSA SZIMPLEX MÓDSZERREL x 1-2x 2 6 -x 1-3x 3 = -7 x 1 - x 2-3x 3-2 3x 1-2x 2-2x 3 4 4x 1-2x 2 + x 3 max Alapfogalmak: feltételrendszer (narancs színnel jelölve), célfüggvény

Részletesebben

Kereső algoritmusok a diszkrét optimalizálás problémájához

Kereső algoritmusok a diszkrét optimalizálás problémájához Kereső algoritmusok a diszkrét optimalizálás problémájához A. Grama, A. Gupta, G. Karypis és V. Kumar: Introduction to Parallel Computing, Addison Wesley, 2003. könyv anyaga alapján A kereső eljárások

Részletesebben

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás Algoritmusok Tervezése 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás Mi az algoritmus? Lépések sorozata egy feladat elvégzéséhez (legáltalánosabban) Informálisan algoritmusnak nevezünk bármilyen jól definiált

Részletesebben

Opkut deníciók és tételek

Opkut deníciók és tételek Opkut deníciók és tételek Készítette: Bán József Deníciók 1. Deníció (Lineáris programozási feladat). Keressük meg adott lineáris, R n értelmezési tartományú függvény, az ún. célfüggvény széls értékét

Részletesebben

Véletlenszám generátorok és tesztelésük. Tossenberger Tamás

Véletlenszám generátorok és tesztelésük. Tossenberger Tamás Véletlenszám generátorok és tesztelésük Tossenberger Tamás Érdekességek Pénzérme feldobó gép: $0,25-os érme 1/6000 valószínűséggel esik az élére 51% eséllyel érkezik a felfelé mutató oldalára Pörgetésnél

Részletesebben

Hidden Markov Model. March 12, 2013

Hidden Markov Model. March 12, 2013 Hidden Markov Model Göbölös-Szabó Julianna March 12, 2013 Outline 1 Egy példa 2 Feladat formalizálása 3 Forward-algoritmus 4 Backward-algoritmus 5 Baum-Welch algoritmus 6 Skálázás 7 Egyéb apróságok 8 Alkalmazás

Részletesebben