Megerősítéses tanulás 2. előadás

Méret: px

Mutatás kezdődik a ... oldaltól:

Download "Megerősítéses tanulás 2. előadás"

Lóránd Orbán
10 évvel ezelőtt
Látták:

1 Megerősítéses tanulás 2. előadás 1

2 Technikai dolgok Annai levlista Olvasnivaló: Sutton, Barto: Reinforcement Learning: An Introduction Jegyzet Vizsga 2

3 Mi a megerősítéses tanulás? mesterséges intelligenciakutatás egyik ága interakcióból tanul előzetes információ nélkül próba-szerencse alapon célorientált maximális jutalom hosszú távra 3

4 Példák játékok: blackjack, sakk, dáma, tictactoe egyensúlyozás újszülött őzike mindenféle robotok sétáló navigáló helikoptervezérlő robotfoci 4

5 az RL nehéz a tanulóügynöknek nem mondják meg, hogy mi a helyes döntés tanár helyett kritikus próba-szerencse módszerrel kell megtalálni a helyes megoldást időnként új cselekvéseket is ki kell próbálni az így megszerzett tudást optimálisan felhasználni dilemma: a járt út vagy a járatlan? 5

6 az RL nehéz a helyes döntésért járó jutalom késhet rövidtávú nyereség $ hosszútávú nyereség miért járt a jutalom? bizonytalan környezet de kezelhető 6

7 A félév tervezett menete az RL feladat megfogalmazása matematikai modell egyszerű megoldási módszerek a legegyszerűbbektől indulunk elemzés (hatékonyság, konvergencia) korlátok 7

8 A félév tervezett menete néhány fejlettebb módszer általánosítás neuronhálózatok policy gradient alkalmazások backgammon helikopterirányítás ember-számítógép kölcsönhatás nyitott kérdések 8

9 Jöjjenek a részletek! 9

10 Az RL feladat környezet állapot jutalom ügynök akció stratégia, modell 10

11 Az RL feladat részei környezet: fekete doboz tanulóügynök állapot: az ügynök megfigyelése a környezetről jutalom: egyetlen szám (!!!) stratégia: állapot! akció leképezés akció: ez hat a környezetre kérdés: mi az a stratégia, ami a legtöbb összjutalmat adja 11

12 Feltevések szükség van rájuk, hogy meg lehessen támadni a feladatot mindegyik gyengíthető de nehezíti a feladatot némelyikre még visszatérünk 12

13 Feltevések a jutalom egyetlen számmal leírható az idő diszkrét ( t = 1, 2, 3, ) az állapottér is diszkrét és véges az állapot teljesen megfigyelhető és még egy (Markov tulajdonság), de erről később nem túl erősek a megkötések? 13

14 Formalizáljuk a feladatot idő: állapot: akció: jutalom: stratégia: determinisztikus: szochasztikus: (s,a) annak a valószínűsége, hogy s-ben a-t lép 14

15 Formalizáljuk a feladatot interakció: környezet modellje: átmeneti valószínűségek és jutalmak cél: maximális várható jutalom: 15

16 A Markov-feltevés feltesszük, hogy a régmúlt nem számít: a környezet dinamikája leírható az átmenetivalószínűség-mátrixszal: 16

17 Mi van a végén? epizodikus, fix idejű feladat epizodikus, nem fix idejű feladat folytonos feladat gond: r t végtelen lehet! megoldás: diszkontálás. r t helyett t r t, <1 garantáltan véges diszkontálás kényelmes, epizodikus feladatra is használni fogjuk! 17

18 Az RL feladat kezelhető modellje: a Markov döntési folyamat (MDP) S: állapottér A: akciótér átmeneti valószínűségek közvetlen jutalmak s 0 : kiindulási állapot : diszkontálási ráta 18

19 Markov döntési folyamat megoldása környezet lépked P és R szerint: ügynök lépked szerint: optimális stratégia: olyan, amelyre maximális. 19

20 Példák bot egyensúlyozása autó a völgyben tic-tac-toe dáma, backgammon póker 20

21 Optimális stratégia keresése két fő megközelítési mód direkt stratégiakeresési módszerek egyszerűbbnek tűnik, de nem az lokális minimum félév végén lesz róla szó értékelőfüggvény-alapú módszerek történetileg korábbi egyszerűbb globális maximum! 21

22 Az értékelőfüggvény s állapot értéke: a várható összjutalom s-ből indulva 22

23 A Bellman-egyenlet 23

24 A Bellman-egyenlet fixpontegyenlet egyértelmű megoldás, mindig létezik 24

25 Akcióértékelő függvény várható összjutalom s, a után Bellman-egyenlet: 25

Hasonló dokumentumok

Megerősítéses tanulási módszerek és alkalmazásaik

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai Intézeti Tanszék Miskolc, 2017. szeptember 15. Tartalom