Megerősítéses tanulás 2. előadás

Hasonló dokumentumok
Megerősítéses tanulási módszerek és alkalmazásaik

Megerősítéses tanulás 7. előadás

Korszerű információs technológiák

Megerősítéses tanulás 9. előadás

Megerősítéses tanulás

Stratégiák tanulása az agyban

Valószínűségi modellellenőrzés Markov döntési folyamatokkal

Intelligens ágensek. Mesterséges intelligencia február 28.

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Problémamegoldás kereséssel. Mesterséges intelligencia március 7.

Adaptív menetrendezés ADP algoritmus alkalmazásával

Informatikai Kar Eötvös Loránd Tudományegyetem Mesterséges neuronhálók

Mesterséges Intelligencia MI

Gépi tanulás a gyakorlatban. Lineáris regresszió

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2007/2008

Dunaújvárosi Főiskola Informatikai Intézet. Intelligens ágensek. Dr. Seebauer Márta. főiskolai tanár

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Mesterséges Intelligencia MI

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2007/2008

Markov-láncok stacionárius eloszlása

Miskolci Egyetem Gépészmérnöki és Informatikai Kar Informatikai Intézet Alkalmazott Informatikai Intézeti Tanszék

Megerősítéses tanulás

Számítógép és programozás 2

Programozási módszertan. A gépi tanulás alapmódszerei

Mesterséges Intelligencia MI

Mesterséges Intelligencia MI

Mesterséges intelligencia. Gregorics Tibor people.inf.elte.hu/gt/mi

Mesterséges Intelligencia MI

Legyen adott egy S diszkrét halmaz. Leggyakrabban S az egész számoknak egy halmaza, például S = {0, 1, 2,..., N}, {0, 1, 2,... }.

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Komponensek keresése a megerősítéses tanulásban

12. előadás - Markov-láncok I.

Nem-lineáris programozási feladatok

Valószínűségi változók. Várható érték és szórás

Kétszemélyes játékok

Logisztikai szimulációs módszerek

Irányítástechnika GÁSPÁR PÉTER. Prof. BOKOR JÓZSEF útmutatásai alapján

ALAPFOGALMAK 1. A reláció az program programfüggvénye, ha. Azt mondjuk, hogy az feladat szigorúbb, mint az feladat, ha

Programozási módszertan

A maximum likelihood becslésről

Döntéselméleti modellek

angolul: greedy algorithms, románul: algoritmi greedy

E.4 Markov-láncok E.4 Markov-láncok. Sok sorbanállási hálózat viselkedése leírható "folytonos idejű Markovláncok " segítségével.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Tanulás Boltzmann gépekkel. Reiz Andrea

Online tanulás nemstacionárius Markov döntési folyamatokban

Kiegészítő részelőadás 1. Az algoritmusok hatékonyságának mérése

A vegetatív működés modelljei

Mesterséges intelligencia 3. laborgyakorlat

Formális módszerek GM_IN003_1 Program verifikálás, formalizmusok

A TANTÁRGY ADATLAPJA

Tanulás elosztott rendszerekben/3

Szoftverminőségbiztosítás

Valószínűségszámítás és statisztika

(Diszkrét idejű Markov-láncok állapotainak

KÖZGAZDASÁGTAN I. BMEGT30A003 HÉTFŐ: 8:15 10:00 (Q-II) HÉTFŐ: 10:15 12:00 (QAF15) A CSERE 31. FEJEZET

Rend, rendezetlenség, szimmetriák (rövidített változat)

Számítsuk ki a nyelvet! Matematika, fizika és algoritmusok a nyelvben

Mesterséges Intelligencia MI

Bonyolult jelenség, aminek nincs jó modellje, sok empirikus adat, intelligens (ember)ágens képessége, hogy ilyen problémákkal mégis megbirkozzék.

Előfeltétel: legalább elégséges jegy Diszkrét matematika II. (GEMAK122B) tárgyból

Kétszemélyes játékok Gregorics Tibor Mesterséges intelligencia

4. Lokalizáció Magyar Attila

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Informatika Rendszerek Alapjai

Tartalomjegyzék. Tartalomjegyzék... 3 Előszó... 9

Stippinger Marcell: Tőzsdei modellezés (Szeminárium 2. előadás)

MATEMATIKA EMELT SZINTŰ SZÓBELI VIZSGA TÉMAKÖREI (TÉTELEK) 2012

TANTÁRGYI PROGRAM Matematikai alapok 2. útmutató

0,424 0,576. f) P (X 2 = 3) g) P (X 3 = 1) h) P (X 4 = 1 vagy 2 X 2 = 2) i) P (X 7 = 3, X 4 = 1, X 2 = 2 X 0 = 2) j) P (X 7 = 3, X 4 = 1, X 2 = 2)

Probabilisztikus modellek V: Struktúra tanulás. Nagy Dávid

Név KP Blokk neve KP. Logisztika I. 6 LOG 12 Dr. Kovács Zoltán Logisztika II. 6 Logisztika Dr. Kovács Zoltán

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Funkcionálanalízis. n=1. n=1. x n y n. n=1

Nagy Péter: Fortuna szekerén...

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

Hidraulikus hálózatok robusztusságának növelése

Jelek és rendszerek 1. 10/9/2011 Dr. Buchman Attila Informatikai Rendszerek és Hálózatok Tanszék

Az idegrendszeri memória modelljei

Játékelmélet. előadás jegyzet. Kátai-Urbán Kamilla. Tudnivalók Honlap: Vizsga: írásbeli.

Jelek és rendszerek MEMO_03. Pletl. Belépő jelek. Jelek deriváltja MEMO_03

Kereső algoritmusok a diszkrét optimalizálás problémájához

Lehetséges vizsgálatok III: Szimmetrikus bolyongás Jobbra => +1; Balra => -1 P(jobbra) = P(balra) = ½

ismertetem, hogy milyen probléma vizsgálatában jelent meg ez az eredmény. A kérdés a következő: Mikor mondhatjuk azt, hogy bizonyos események közül

... S n. A párhuzamos programszerkezet két vagy több folyamatot tartalmaz, melyek egymással közös változó segítségével kommunikálnak.

Probabilisztikus modellek II: Inferencia. Nagy Dávid

Intelligens Rendszerek Elmélete IRE 4/32/1

GONDOLKODÁS ÉS NYELV

Keresőeljárások kétszemélyes játékokhoz

1. tétel. Valószínűségszámítás vizsga Frissült: január 19. Valószínűségi mező, véletlen tömegjelenség.

Modellellenőrzés a vasút automatikai rendszerek fejlesztésében. XIX. Közlekedésfejlesztési és beruházási konferencia Bükfürdő

Cselekvési tervek generálása. Máté Annamária

A felsőoktatási lifelong learning társadalmi és gazdasági haszna: kutatás fejlesztés innováció

DOKTORANDUSZ FÓRUM, 1999 Miskolc, november. Megerősítő tanulási módszerek alkalmazása az informatikában

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2007/2008

Ismételt játékok: véges és végtelenszer. Kovács Norbert SZE GT. Példa. Kiindulás: Cournot-duopólium játék Inverz keresleti görbe: P=150-Q, ahol

10. modul: FÜGGVÉNYEK, FÜGGVÉNYTULAJDONSÁGOK

A TANTÁRGY ADATLAPJA

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

Navigáci. stervezés. Algoritmusok és alkalmazásaik. Osváth Róbert Sorbán Sámuel

Átírás:

Megerősítéses tanulás 2. előadás 1

Technikai dolgok Email szityu@eotvoscollegium.hu Annai levlista http://nipglab04.inf.elte.hu/cgi-bin/mailman/listinfo/annai/ Olvasnivaló: Sutton, Barto: Reinforcement Learning: An Introduction http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html Jegyzet Vizsga 2

Mi a megerősítéses tanulás? mesterséges intelligenciakutatás egyik ága interakcióból tanul előzetes információ nélkül próba-szerencse alapon célorientált maximális jutalom hosszú távra 3

Példák játékok: blackjack, sakk, dáma, tictactoe egyensúlyozás újszülött őzike mindenféle robotok sétáló navigáló helikoptervezérlő robotfoci 4

az RL nehéz a tanulóügynöknek nem mondják meg, hogy mi a helyes döntés tanár helyett kritikus próba-szerencse módszerrel kell megtalálni a helyes megoldást időnként új cselekvéseket is ki kell próbálni az így megszerzett tudást optimálisan felhasználni dilemma: a járt út vagy a járatlan? 5

az RL nehéz a helyes döntésért járó jutalom késhet rövidtávú nyereség $ hosszútávú nyereség miért járt a jutalom? bizonytalan környezet de kezelhető 6

A félév tervezett menete az RL feladat megfogalmazása matematikai modell egyszerű megoldási módszerek a legegyszerűbbektől indulunk elemzés (hatékonyság, konvergencia) korlátok 7

A félév tervezett menete néhány fejlettebb módszer általánosítás neuronhálózatok policy gradient alkalmazások backgammon helikopterirányítás ember-számítógép kölcsönhatás nyitott kérdések 8

Jöjjenek a részletek! 9

Az RL feladat környezet állapot jutalom ügynök akció stratégia, modell 10

Az RL feladat részei környezet: fekete doboz tanulóügynök állapot: az ügynök megfigyelése a környezetről jutalom: egyetlen szám (!!!) stratégia: állapot! akció leképezés akció: ez hat a környezetre kérdés: mi az a stratégia, ami a legtöbb összjutalmat adja 11

Feltevések szükség van rájuk, hogy meg lehessen támadni a feladatot mindegyik gyengíthető de nehezíti a feladatot némelyikre még visszatérünk 12

Feltevések a jutalom egyetlen számmal leírható az idő diszkrét ( t = 1, 2, 3, ) az állapottér is diszkrét és véges az állapot teljesen megfigyelhető és még egy (Markov tulajdonság), de erről később nem túl erősek a megkötések? 13

Formalizáljuk a feladatot idő: állapot: akció: jutalom: stratégia: determinisztikus: szochasztikus: (s,a) annak a valószínűsége, hogy s-ben a-t lép 14

Formalizáljuk a feladatot interakció: környezet modellje: átmeneti valószínűségek és jutalmak cél: maximális várható jutalom: 15

A Markov-feltevés feltesszük, hogy a régmúlt nem számít: a környezet dinamikája leírható az átmenetivalószínűség-mátrixszal: 16

Mi van a végén? epizodikus, fix idejű feladat epizodikus, nem fix idejű feladat folytonos feladat gond: r t végtelen lehet! megoldás: diszkontálás. r t helyett t r t, <1 garantáltan véges diszkontálás kényelmes, epizodikus feladatra is használni fogjuk! 17

Az RL feladat kezelhető modellje: a Markov döntési folyamat (MDP) S: állapottér A: akciótér átmeneti valószínűségek közvetlen jutalmak s 0 : kiindulási állapot : diszkontálási ráta 18

Markov döntési folyamat megoldása környezet lépked P és R szerint: ügynök lépked szerint: optimális stratégia: olyan, amelyre maximális. 19

Példák bot egyensúlyozása autó a völgyben tic-tac-toe dáma, backgammon póker 20

Optimális stratégia keresése két fő megközelítési mód direkt stratégiakeresési módszerek egyszerűbbnek tűnik, de nem az lokális minimum félév végén lesz róla szó értékelőfüggvény-alapú módszerek történetileg korábbi egyszerűbb globális maximum! 21

Az értékelőfüggvény s állapot értéke: a várható összjutalom s-ből indulva 22

A Bellman-egyenlet 23

A Bellman-egyenlet fixpontegyenlet egyértelmű megoldás, mindig létezik 24

Akcióértékelő függvény várható összjutalom s, a után Bellman-egyenlet: 25