Megerősítéses tanulás 2. előadás 1
Technikai dolgok Email szityu@eotvoscollegium.hu Annai levlista http://nipglab04.inf.elte.hu/cgi-bin/mailman/listinfo/annai/ Olvasnivaló: Sutton, Barto: Reinforcement Learning: An Introduction http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html Jegyzet Vizsga 2
Mi a megerősítéses tanulás? mesterséges intelligenciakutatás egyik ága interakcióból tanul előzetes információ nélkül próba-szerencse alapon célorientált maximális jutalom hosszú távra 3
Példák játékok: blackjack, sakk, dáma, tictactoe egyensúlyozás újszülött őzike mindenféle robotok sétáló navigáló helikoptervezérlő robotfoci 4
az RL nehéz a tanulóügynöknek nem mondják meg, hogy mi a helyes döntés tanár helyett kritikus próba-szerencse módszerrel kell megtalálni a helyes megoldást időnként új cselekvéseket is ki kell próbálni az így megszerzett tudást optimálisan felhasználni dilemma: a járt út vagy a járatlan? 5
az RL nehéz a helyes döntésért járó jutalom késhet rövidtávú nyereség $ hosszútávú nyereség miért járt a jutalom? bizonytalan környezet de kezelhető 6
A félév tervezett menete az RL feladat megfogalmazása matematikai modell egyszerű megoldási módszerek a legegyszerűbbektől indulunk elemzés (hatékonyság, konvergencia) korlátok 7
A félév tervezett menete néhány fejlettebb módszer általánosítás neuronhálózatok policy gradient alkalmazások backgammon helikopterirányítás ember-számítógép kölcsönhatás nyitott kérdések 8
Jöjjenek a részletek! 9
Az RL feladat környezet állapot jutalom ügynök akció stratégia, modell 10
Az RL feladat részei környezet: fekete doboz tanulóügynök állapot: az ügynök megfigyelése a környezetről jutalom: egyetlen szám (!!!) stratégia: állapot! akció leképezés akció: ez hat a környezetre kérdés: mi az a stratégia, ami a legtöbb összjutalmat adja 11
Feltevések szükség van rájuk, hogy meg lehessen támadni a feladatot mindegyik gyengíthető de nehezíti a feladatot némelyikre még visszatérünk 12
Feltevések a jutalom egyetlen számmal leírható az idő diszkrét ( t = 1, 2, 3, ) az állapottér is diszkrét és véges az állapot teljesen megfigyelhető és még egy (Markov tulajdonság), de erről később nem túl erősek a megkötések? 13
Formalizáljuk a feladatot idő: állapot: akció: jutalom: stratégia: determinisztikus: szochasztikus: (s,a) annak a valószínűsége, hogy s-ben a-t lép 14
Formalizáljuk a feladatot interakció: környezet modellje: átmeneti valószínűségek és jutalmak cél: maximális várható jutalom: 15
A Markov-feltevés feltesszük, hogy a régmúlt nem számít: a környezet dinamikája leírható az átmenetivalószínűség-mátrixszal: 16
Mi van a végén? epizodikus, fix idejű feladat epizodikus, nem fix idejű feladat folytonos feladat gond: r t végtelen lehet! megoldás: diszkontálás. r t helyett t r t, <1 garantáltan véges diszkontálás kényelmes, epizodikus feladatra is használni fogjuk! 17
Az RL feladat kezelhető modellje: a Markov döntési folyamat (MDP) S: állapottér A: akciótér átmeneti valószínűségek közvetlen jutalmak s 0 : kiindulási állapot : diszkontálási ráta 18
Markov döntési folyamat megoldása környezet lépked P és R szerint: ügynök lépked szerint: optimális stratégia: olyan, amelyre maximális. 19
Példák bot egyensúlyozása autó a völgyben tic-tac-toe dáma, backgammon póker 20
Optimális stratégia keresése két fő megközelítési mód direkt stratégiakeresési módszerek egyszerűbbnek tűnik, de nem az lokális minimum félév végén lesz róla szó értékelőfüggvény-alapú módszerek történetileg korábbi egyszerűbb globális maximum! 21
Az értékelőfüggvény s állapot értéke: a várható összjutalom s-ből indulva 22
A Bellman-egyenlet 23
A Bellman-egyenlet fixpontegyenlet egyértelmű megoldás, mindig létezik 24
Akcióértékelő függvény várható összjutalom s, a után Bellman-egyenlet: 25