Megerősítéses tanulás 7. előadás



Hasonló dokumentumok
Megerősítéses tanulás 2. előadás

Megerősítéses tanulás 9. előadás

Megerősítéses tanulási módszerek és alkalmazásaik

Megerősítéses tanulás

Stratégiák tanulása az agyban

Konjugált gradiens módszer

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mesterséges Intelligencia MI

Gauss-Seidel iteráció

KÖZELÍTŐ INFERENCIA II.

Korszerű információs technológiák

Megerősítéses tanulás

KÖZELÍTŐ INFERENCIA II.

Véletlenszám generátorok és tesztelésük HORVÁTH BÁLINT

Mesterséges Intelligencia MI

Markov-láncok stacionárius eloszlása

Numerikus módszerek beugró kérdések

Számítógép és programozás 2

A következő feladat célja az, hogy egyszerű módon konstruáljunk Poisson folyamatokat.

Numerikus módszerek 1.

KOVÁCS BÉLA, MATEMATIKA II.

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Számítógép és programozás 2

Számítógépes döntéstámogatás. Genetikus algoritmusok

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

GROVER-algoritmus. Sinkovicz Péter. ELTE, MSc II dec.15.

Készítette: Trosztel Mátyás Konzulens: Hajós Gergely

Mesterséges Intelligencia MI

Szomszédság alapú ajánló rendszerek

Összefoglalás és gyakorlás

A sorozat fogalma. függvényeket sorozatoknak nevezzük. Amennyiben az értékkészlet. az értékkészlet a komplex számok halmaza, akkor komplex

Adaptív menetrendezés ADP algoritmus alkalmazásával

CHT& NSZT Hoeffding NET mom. stabilis november 9.

Monte Carlo módszerek a statisztikus fizikában. Az Ising modell. 8. előadás

12. előadás - Markov-láncok I.

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

A Riemann-Siegel zeta függvény kiugró értékeinek keresése. A matematikai egyik legnehezebb problémája, avagy a prímszámok misztériuma

Differenciálegyenletek numerikus megoldása

Sztochasztikus folyamatok alapfogalmak

Hatványsorok, Fourier sorok

Tanulási cél Szorzatfüggvényekre vonatkozó integrálási technikák megismerése és különböző típusokra való alkalmazása. 5), akkor

Valószínűségi változók. Várható érték és szórás

Numerikus integrálás

Saj at ert ek-probl em ak febru ar 26.

Algoritmusok bonyolultsága

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Diszkréten mintavételezett függvények

11. Előadás. 11. előadás Bevezetés a lineáris programozásba

Tanmenet a évf. fakultációs csoport MATEMATIKA tantárgyának tanításához

Függvények ábrázolása

OEP Gregorics Tibor: Minta dokumentáció a 3. házi feladathoz 1. Feladat. Elemzés 1

Centrális határeloszlás-tétel

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Az idősorok összetevői Trendszámítás Szezonalitás Prognosztika ZH

Függvények növekedési korlátainak jellemzése

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Dr. habil. Maróti György

Mesterséges Intelligencia MI

Legyen adott egy S diszkrét halmaz. Leggyakrabban S az egész számoknak egy halmaza, például S = {0, 1, 2,..., N}, {0, 1, 2,... }.

minden x D esetén, akkor x 0 -at a függvény maximumhelyének mondjuk, f(x 0 )-at pedig az (abszolút) maximumértékének.

10. Előadás. 1. Feltétel nélküli optimalizálás: Az eljárás alapjai

ANOVA összefoglaló. Min múlik?

Folytonos rendszeregyenletek megoldása. 1. Folytonos idejű (FI) rendszeregyenlet általános alakja

Függvény határérték összefoglalás

3D számítógépes geometria 2

29. Visszalépéses keresés 1.

Valószínűségi modellellenőrzés Markov döntési folyamatokkal

Véletlenszám generátorok és tesztelésük. Tossenberger Tamás

8. Előadás: Szimuláció, I.

Kétfázisú szimplex algoritmus és speciális esetei

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2007/2008

Random Forests - Véletlen erdők

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Mesterséges Intelligencia MI

BIOMATEMATIKA ELŐADÁS

STATISZTIKA I. Mintavétel fogalmai. Mintavételi hiba. Statisztikai adatgyűjtés Nem véletlenen alapuló kiválasztás

ALGORITMIKUS SZERKEZETEK ELÁGAZÁSOK, CIKLUSOK, FÜGGVÉNYEK

26. MINIMÁLIS KÖLTSÉGŰ UTAK MINDEN CSÚCSPÁRRA

Komponensek keresése a megerősítéses tanulásban

Soros felépítésű folytonos PID szabályozó

Compressed Sensing. Sipos Roland Adatbányászat szeminárium Május 22.

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén




Mesterséges Intelligencia MI

Kvantitatív módszerek

y ij = µ + α i + e ij

Programkonstrukciók A programkonstrukciók programfüggvényei Levezetési szabályok. 6. előadás. Programozás-elmélet. Programozás-elmélet 6.

Nemlineáris egyenletrendszerek megoldása április 15.

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Rekurzív sorozatok. SZTE Bolyai Intézet nemeth. Rekurzív sorozatok p.1/26

[Biomatematika 2] Orvosi biometria

KOMBINATORIKA ELŐADÁS osztatlan matematika tanár hallgatók számára. Szita formula

Gépi tanulás a gyakorlatban. Lineáris regresszió

Átírás:

Megerősítéses tanulás 7. előadás 1

Ismétlés: TD becslés s t -ben stratégia szerint lépek! a t, r t, s t+1 TD becslés: tulajdonképpen ezt mintavételezzük: 2

Akcióértékelő függvény számolása TD-vel még mindig fix stratégia kiértékelése az egyszerűség kedvéért V-t számoltunk: ugyanígy megy Q-ra is: 3

Optimális stratégia kiszámítása TD-vel ugyanúgy, mint az értékiterációnál vagy a Monte Carlonál modell nélkül akarjuk használni muszáj Q-t számolni Q szerint mohó akció s-ben: V szerint mohó akció s-ben: kiindulási pont: Bellman-egyenlet Q * -ra 4

Optimális stratégia kiszámítása TD-vel Bellman-egyenlet: DP iteráció: TD iteráció: 5

A kapott algoritmus: Q-learning Q(s,a) tetszőleges ciklus (epizódokra) s:=s 0 ; t:=0 ciklus (lépésekre) t:=t+1 választunk a akciót vamilyen stratégia alapján végrehajtjuk a-t megfigyeljük az r jutalmat és s következő állapotot s:=s ciklus vége ciklus vége 6

Q-learning elemzés ugyanaz az alapelv, mint fix stratégia értékelésénél közben még lépkedünk is valamilyen stratégia szerint nem azt a stratégiát értékeljük ki, ami szerint lépkedünk, hanem a mohót! online algoritmus: csak az aktuális tapasztalatokat használjuk fel nem használunk régebbi tapasztalatokat nem használunk modellt egyetlen fennmaradó kérdés: mi legyen? majdnem mindegy mindjárt visszatérünk rá 7

Q-learning konvergenciája a sztochasztikus becslés tételt alkalmazzuk kotnraktív operátor: mohó Bellman-operátor Q-ra szükséges feltételek tanulási ráta megfelelő ütemben csökken: t t = 1, t t 2 < 1 a jutalmak korlátosak minden (s,a) párt végtelen sokszor látogatunk utolsó feltételt megfelelő -vel tudjuk elérni pl. minden akciót választ valamilyen valószínűséggel 8

Q-learning: választása a módszer online, azaz a gyűjtött jutalom a követett stratégiától függ (a) lehetőség: tanulás közben nem törődünk a gyűjtött jutalommal, csak Q tanulásával, pl. véletlenszerűen választjuk az akciókat. Aztán a végén átkapcsolunk a mohó stratégiára nem mindig van rá lehetőség (b) lehetőség: már tanulás közben is próbáljuk a lehető legtöbb jutalmat gyűjteni: mindig a mohó akciót választjuk nem teljesül a konvergenciafeltétel kompromisszum: legtöbbször a mohó akciót választjuk (járt út) de néha új akciót is kipróbálunk (járatlan út) mi a jó arány? nehéz kérdés legegyszerűbb: -mohó stratégia: 1- vszséggel a Q szerint mohó akció vszséggel véletlen akció 9

Q-learning -mohó stratégiával Q(s,a) tetszőleges ciklus (epizódokra) s:=s 0 ; t:=0 ciklus (lépésekre) t:=t+1 1- vszséggel a:=a mohó vszséggel a:=véletlen akció végrehajtjuk a-t megfigyeljük az r jutalmat és s következő állapotot s:=s ciklus vége ciklus vége 10

egy kis módosítás: SARSA Q-learning: s-ben a-t léptem ( szerint), r a jutalom, s a köv. állapot ehelyett: s-ben a-t léptem ( szerint), r a jutalom, s a köv. állapot, a a köv. akció ( szerint) név: SARSA ha a a mohó akció, akkor a két képlet ugyanaz különbség a felfedező akciók esetében mindig azt a stratégiát követem, amit épp kiértékelek éppen ezért általában gyorsabb picit nehezebb megmutatni a konvergenciát 11

SARSA konvergencia ez is kijön a sztochasztikus becslés-tételből szokásos feltevések (jutalom korlátos, tanulási ráta szépen csökken) minden (s,a) párt végtelen sokszor frissítünk (szükség van felfedező akciókra) a felfedező akciók nem optimálisak! ha az optimális értékelőfv-t szeretnénk megkapni, előbb-utóbb abba kell hagyni őket! kompromisszum: végtelen sok exploráció, de egyre kisebb vszínűséggel példa: t -mohó stratégia, t = 1/t 12

Q-learning összefoglaló a legelső RL-algoritmus nem túl jól működik, de rengeteg továbbfejlesztése létezik konvergál de ez exponenciálisan lassú is lehet inkább elméleti, mint gyakorlati jelentősége van fő problémák: nem hatékony az exploráció nem hatékony a TD-hibák visszaterjesztése minden (s,a) pár értékét külön kell becsülni 13

Az explorációs stratégia javítása az -mohó stratégia nagyon rossz! a felfedező lépések véletlen bolyongások példa jobb módszerre: explorációs bónuszok jutalom, ha ritkán látogatott állapotba jut az ügynök jutalom pl. legutóbbi látogatás ideje, TD hiba nagysága, stb. egyszerű módszer a felderítés bátorítására: optimista kezdőértékek Q 0 > Q * eleinte minden akciót végigpróbál, mert sok jutalmat remél lehet úgy csinálni, hogy polinomiális időben közel optimális Q-hoz konvergáljon 14

TD-hibák hatékonyabb visszaterjesztése felelősségnyomok Q-learning-hez nehéz korrektül definiálni, de SARSA-hoz könnyű részletek a könyvben tapasztalat-visszajátszás a tapasztalt trajektóriákat többször is lejátsszuk, mintha sokszor történt volna meg ugyanaz modell-építés Q-learningnek nem kell modell ha mégis van (pl. tanuljuk a tapasztalatokból), használhatjuk az igazi tapasztalatok mellé a modell alapján gyártunk szimulált tapasztalatot is itt a környezetet a (közelítő) modellje helyettesíti 15

Minden (s,a) pár értékét külön kell becsülni az állapotok száma exponenciálisan sok lehet! pl. folytonos feladatok diszkretizálása: k változó, mindegyiket n részre osztjuk n k állapot. ha kétszeres pontosságot szeretnénk, az állapotok száma 2 k -szorosára nő új változó bevezetése: 2 lehetséges érték! kétszeresére nő az állapottér akkor is, ha az új változó teljesen irreleváns (pl. világos van-e) Q-learning kb. 10000 állapotig bírja kellene: általánosítás ha egy s állapot értékét módosítjuk, akkor a hozzá hasonló állapotokét is módszer: függvényapproximátorok, függvényillesztés 16

Függvényillesztés függvényérték néhány pontban a lehető legjobban közelítő függvény esetünkben: pontok: állapotok fv-értékek: az értékelőfüggvény becslései egyes állapotokban keressük a legjobban illeszkedő közelítő értékelőfv-t 17