Megerősítéses tanulás 7. előadás 1
Ismétlés: TD becslés s t -ben stratégia szerint lépek! a t, r t, s t+1 TD becslés: tulajdonképpen ezt mintavételezzük: 2
Akcióértékelő függvény számolása TD-vel még mindig fix stratégia kiértékelése az egyszerűség kedvéért V-t számoltunk: ugyanígy megy Q-ra is: 3
Optimális stratégia kiszámítása TD-vel ugyanúgy, mint az értékiterációnál vagy a Monte Carlonál modell nélkül akarjuk használni muszáj Q-t számolni Q szerint mohó akció s-ben: V szerint mohó akció s-ben: kiindulási pont: Bellman-egyenlet Q * -ra 4
Optimális stratégia kiszámítása TD-vel Bellman-egyenlet: DP iteráció: TD iteráció: 5
A kapott algoritmus: Q-learning Q(s,a) tetszőleges ciklus (epizódokra) s:=s 0 ; t:=0 ciklus (lépésekre) t:=t+1 választunk a akciót vamilyen stratégia alapján végrehajtjuk a-t megfigyeljük az r jutalmat és s következő állapotot s:=s ciklus vége ciklus vége 6
Q-learning elemzés ugyanaz az alapelv, mint fix stratégia értékelésénél közben még lépkedünk is valamilyen stratégia szerint nem azt a stratégiát értékeljük ki, ami szerint lépkedünk, hanem a mohót! online algoritmus: csak az aktuális tapasztalatokat használjuk fel nem használunk régebbi tapasztalatokat nem használunk modellt egyetlen fennmaradó kérdés: mi legyen? majdnem mindegy mindjárt visszatérünk rá 7
Q-learning konvergenciája a sztochasztikus becslés tételt alkalmazzuk kotnraktív operátor: mohó Bellman-operátor Q-ra szükséges feltételek tanulási ráta megfelelő ütemben csökken: t t = 1, t t 2 < 1 a jutalmak korlátosak minden (s,a) párt végtelen sokszor látogatunk utolsó feltételt megfelelő -vel tudjuk elérni pl. minden akciót választ valamilyen valószínűséggel 8
Q-learning: választása a módszer online, azaz a gyűjtött jutalom a követett stratégiától függ (a) lehetőség: tanulás közben nem törődünk a gyűjtött jutalommal, csak Q tanulásával, pl. véletlenszerűen választjuk az akciókat. Aztán a végén átkapcsolunk a mohó stratégiára nem mindig van rá lehetőség (b) lehetőség: már tanulás közben is próbáljuk a lehető legtöbb jutalmat gyűjteni: mindig a mohó akciót választjuk nem teljesül a konvergenciafeltétel kompromisszum: legtöbbször a mohó akciót választjuk (járt út) de néha új akciót is kipróbálunk (járatlan út) mi a jó arány? nehéz kérdés legegyszerűbb: -mohó stratégia: 1- vszséggel a Q szerint mohó akció vszséggel véletlen akció 9
Q-learning -mohó stratégiával Q(s,a) tetszőleges ciklus (epizódokra) s:=s 0 ; t:=0 ciklus (lépésekre) t:=t+1 1- vszséggel a:=a mohó vszséggel a:=véletlen akció végrehajtjuk a-t megfigyeljük az r jutalmat és s következő állapotot s:=s ciklus vége ciklus vége 10
egy kis módosítás: SARSA Q-learning: s-ben a-t léptem ( szerint), r a jutalom, s a köv. állapot ehelyett: s-ben a-t léptem ( szerint), r a jutalom, s a köv. állapot, a a köv. akció ( szerint) név: SARSA ha a a mohó akció, akkor a két képlet ugyanaz különbség a felfedező akciók esetében mindig azt a stratégiát követem, amit épp kiértékelek éppen ezért általában gyorsabb picit nehezebb megmutatni a konvergenciát 11
SARSA konvergencia ez is kijön a sztochasztikus becslés-tételből szokásos feltevések (jutalom korlátos, tanulási ráta szépen csökken) minden (s,a) párt végtelen sokszor frissítünk (szükség van felfedező akciókra) a felfedező akciók nem optimálisak! ha az optimális értékelőfv-t szeretnénk megkapni, előbb-utóbb abba kell hagyni őket! kompromisszum: végtelen sok exploráció, de egyre kisebb vszínűséggel példa: t -mohó stratégia, t = 1/t 12
Q-learning összefoglaló a legelső RL-algoritmus nem túl jól működik, de rengeteg továbbfejlesztése létezik konvergál de ez exponenciálisan lassú is lehet inkább elméleti, mint gyakorlati jelentősége van fő problémák: nem hatékony az exploráció nem hatékony a TD-hibák visszaterjesztése minden (s,a) pár értékét külön kell becsülni 13
Az explorációs stratégia javítása az -mohó stratégia nagyon rossz! a felfedező lépések véletlen bolyongások példa jobb módszerre: explorációs bónuszok jutalom, ha ritkán látogatott állapotba jut az ügynök jutalom pl. legutóbbi látogatás ideje, TD hiba nagysága, stb. egyszerű módszer a felderítés bátorítására: optimista kezdőértékek Q 0 > Q * eleinte minden akciót végigpróbál, mert sok jutalmat remél lehet úgy csinálni, hogy polinomiális időben közel optimális Q-hoz konvergáljon 14
TD-hibák hatékonyabb visszaterjesztése felelősségnyomok Q-learning-hez nehéz korrektül definiálni, de SARSA-hoz könnyű részletek a könyvben tapasztalat-visszajátszás a tapasztalt trajektóriákat többször is lejátsszuk, mintha sokszor történt volna meg ugyanaz modell-építés Q-learningnek nem kell modell ha mégis van (pl. tanuljuk a tapasztalatokból), használhatjuk az igazi tapasztalatok mellé a modell alapján gyártunk szimulált tapasztalatot is itt a környezetet a (közelítő) modellje helyettesíti 15
Minden (s,a) pár értékét külön kell becsülni az állapotok száma exponenciálisan sok lehet! pl. folytonos feladatok diszkretizálása: k változó, mindegyiket n részre osztjuk n k állapot. ha kétszeres pontosságot szeretnénk, az állapotok száma 2 k -szorosára nő új változó bevezetése: 2 lehetséges érték! kétszeresére nő az állapottér akkor is, ha az új változó teljesen irreleváns (pl. világos van-e) Q-learning kb. 10000 állapotig bírja kellene: általánosítás ha egy s állapot értékét módosítjuk, akkor a hozzá hasonló állapotokét is módszer: függvényapproximátorok, függvényillesztés 16
Függvényillesztés függvényérték néhány pontban a lehető legjobban közelítő függvény esetünkben: pontok: állapotok fv-értékek: az értékelőfüggvény becslései egyes állapotokban keressük a legjobban illeszkedő közelítő értékelőfv-t 17