MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai Intézeti Tanszék Miskolc, 2017. szeptember 15.
Tartalom Gépi tanulás története Gépi tanulás típusai A megerősítéses tanulás Q-learning SARSA FRIQ-learning FRIQ-learning Maze, Pong alkalmazás példák
A gépi tanulás története 1947-ben Arthur Lee Samuel dáma játék, ami képes legyőzni a világbajnokot motiváló okok: szimbolikus számítás hatékonyságának bemutatása szükség van PC-re az egyetemeken 20 évnyi fejlesztés gépi tanulás alappillérjeinek megalkotása
A gépi tanulás A gépi tanulás alapgondolata egy ágens képességeinek javítása A gépi tanulás egy eljárás, amely a rendszerben változásokat hoz létre a változtatások következtében a problémát a rendszer már helyesebben oldja meg
A gépi tanulás formái Felügyelt (ellenőrzött) supervised learning Felügyelet nélküli (nem ellenőrzött) unsupervised learning Megerősítéses reinforcement learning
A megerősítéses tanulás Egy módszer, amely megerősítési információk alapján tanul a környezetből érkező visszajelzések a megerősítések (reward) jutalmak/büntetések (sikerek/kudarcok) cél: várható jutalmak maximalizálása (optimális stratégia keresése) Pl.: egy ismeretlen játék játszása
A megerősítéses tanulás típusa Passzív rögzített stratégia -> viselkedés cél: stratégia jóságának megtanulása Aktív nincs rögzített stratégia cselekvés választásának eldöntése (mohó például) cél: cselekvésérték-függvény tanulása
A megerősítéses tanulás elemei állapot (s), akció (a), jutalom (r) politika (policy) jutalom függvény (reward function) értékelő függvény (value funciton) környezet modellje (model of the environment) 8
Ágens-környezet modell
Ágens-környezet modell példa
Ágens-környezet modell ágens lehet bármi, ami (érzékelőivel) érzékeli a környezetét és (beavatkozóival) megváltoztatja azt környezet determinisztikus: következő állapota, csakis a jelenlegi állapotától és a végrehajtott cselekvéstől függ nem determinisztikus: következő állapotát nem határozza meg az előző állapot és a végrehajtott cselekvés
Ágens-környezet modell állapot (s), akció (a), jutalom (r), politika (π) állapot: az ágens megfigyelése a környezetről akció: cselekvés, ez hat a környezetre jutalom: egyetlen szám politika: állapot-akció leképezés
Ágens-környezet modell diszkrét idő ( t=1, 2, 3, ) minden egyes t időpillanatban az ágens megkapja a környezet ez alapján választ egy akciót a választott akció függvényeként kap egy jutalmat majd egy új állapotba kerül az ágens célja: hosszú távon maximalizálja az összegyűjtött jutalmakat epizódikusság
Ágens-környezet modell a t s t s t+1 r t+1 s t : állapot a t időpillanatban a t : a végrehajtott akció a t időpillanatban r t+1 : a kapott jutalom a t+1 időpillanatban s t+1 : az új állapot Π t (s, a): s-ben a lépés a t időpontban 14
Ágens-környezet modell Az összegyűjtött jutalmak összegét hozamnak nevezzük: ahol T, az utolsó időpillanat ha nem beszélhetünk utolsó időpillanatról akkor: gond: R t végtelen lehet megoldás: diszkontálás, a diszkontált hozam:
Ágens-környezet modell Összefoglalva, a hozamfüggvény a következő formában írható fel: γ a diszkontálási paraméter: a jelen állapot jövőre vetíthetőségének mértéke. mekkora súllyal vegyük figyelembe egy későbbi állapot hasznosságát értéke: [0;1]
Ágens-környezet modell A feladat realizálása: interakció a környezet modellje: az átmeneti valószínűségek és jutalmak cél: maximális várható jutalom, optimális stratégia megtalálása
A Markov-feltevés Feltesszük, hogy a múlt nem számít Markov-tulajdonság : egy folyamat jövőbeli feltételezett állapota csak a jelenlegi állapottól függ, még akkor is, ha ismerjük a korábbi történéseket nincs emlékezés az átmeneti valószínűség megadja az s állapotba kerülés valószínűségét s állapotból a akció választása mellett: a várható jutalom: azokra a feladatokra alkalmazható a megerősítéses tanulás módszere, amelyek Markov-tulajdonságúak
Az állapot értékelő függvény E π jelöli a π politika követése melletti várható értéket, a t tetszőleges időpillanatban. Megadjuk az s állapotban a akció választásának értékét a π politika mellett. Ezt Q π (s,a) -val jelöljük:
A Bellman-egyenlet Az előzőek alapján a következő egyenlet a V π -re vonatkozó Bellman-egyenlet: egy állapot hasznosságának meghatározása egy állapot hasznossága, az állapotban tartózkodás jutalmának és a következő állapot várható hasznosságának összege az állapotok hasznosságai a Bellman-egyenletek egy rendszerének egyértelmű megoldásai
A Bellman-egyenlet Optimális: V*(s): s-ből indulva Q*(s,a): s-ben a A Bellman-egyenlet megoldása: dinamikus programozással értékiteráció minden egyes állapot hasznosságának számítása -> optimális cselekvés választása eljárásmód-iteráció ha egy akció jobb mint a többi -> a releváns állapotok hasznosságainak nagyságát nem szükséges precízen tudni - >értékelés;javítás. Leáll ha nincs hasznosságváltozás.
Megerősítéses tanulási algoritmusok Q-learning SARSA Fuzzy Q-learning FRI based Q-learning Stb.
Q-learning az egyik leggyakrabban alkalmazott megerősítéses tanulási módszer Q quality érték Q(s,a): s-ben a végrehajtásának jósága -> Q(s,a) párok ->Q-függvény; Q-tábla Update formula:
Q-learning - algoritmus
Q-learning - algoritmus
SARSA Szintén megerősítéses tanulási algoritmus State-Action-Reward-State-Action A Q-learning hasonló módszer Update formula: 26
SARSA - algoritmus 27
Q-learning vs. SARSA 28
Q-learning hátrány lehetséges állapotok exponenciálisan sok száma állapottér növekedése Q-tábla növekedése konvergenciája exponenciálisan lassú lehet Kb. 10000 a kezelhető állapotok száma Pl. n db állapotleíró, k részre osztva: k n az állapotok száma 29
RL alkalmazások TD-Gammon (Tesauro, 1992) Robotirányítási alkalmazások inverz inga (cart-pole) mountain- car maze pong rc drift autó: video és számos egyéb... 30
FRIQ-learning Az előzőleg bemutatott Q-learning módszer diszkrét állapot-akció térre alkalmazható fuzzy modell bevezetésével azonban kiterjeszthető folytonos állapot- és akciótérre A fuzzy szabály interpoláció alapú Q-tanulás (FRIQ-learning) az FQ-learning (fuzzy Q-learning) kiegészítése ritka szabálybázisok alkalmazhatósága
FRIQ-learning A diszkrét Q-learning fuzzy modell alkalmazásával kiterjeszthető folytonos állapot-akció térre Fuzzy Q-learning (FQ-learning) E.g. 0-order Takagi-Sugeno Fuzzy Inference model Probléma: a szabályszám exponenciálisan nő az állapot dimenzió (antecedens) számával Lehetséges megoldás: Fuzzy Rule Interpolation (FRI) FQ-learning + FRI FIVE: FRIQ-learning
FRIQ-learning példák Nézzünk működő alkalmazásokat : ) Maze Pong
FRIQ-learning példák - Maze 2 állapot leíró x pozíció: 0-8 y pozíció: 0-5 1 akció: elmozdulás (fel, le, jobbra, balra)
FRIQ-learning példák - Pong 4 állapot leíró labda x pozíció labda y pozíció labda iránya (6 eset) ütő pozíciója 1 akció: elmozdulás (fel, le, semerre)
FRIQ-learning példák Matlab bemutató : )
Felhasznált irodalom Richard S. Sutton and Andrew G. Barto Reinforcement Learning: An Introduction Peter Norvig, Stuart J. Russel Mesterséges intelligencia Modern megközelítésben http://project.mit.bme.hu/mi_almanach/books/aima/index 37
Köszönöm a figyelmet!