Megerősítéses tanulási módszerek és alkalmazásaik

Hasonló dokumentumok
Korszerű információs technológiák

Megerősítéses tanulás 2. előadás

Megerősítéses tanulás

Stratégiák tanulása az agyban

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Programozási módszertan. A gépi tanulás alapmódszerei

Megerősítéses tanulás 7. előadás

Adaptív menetrendezés ADP algoritmus alkalmazásával

Megerősítéses tanulás

Mesterséges Intelligencia MI

Intelligens ágensek. Mesterséges intelligencia február 28.

Dr. Vincze Dávid, Miskolci Egyetem, Informatikai Intézet: Szabálybázis redukció az FRIQ-tanulási módszerben

DOKTORANDUSZ FÓRUM, 1999 Miskolc, november. Megerősítő tanulási módszerek alkalmazása az informatikában

Dunaújvárosi Főiskola Informatikai Intézet. Intelligens ágensek. Dr. Seebauer Márta. főiskolai tanár

Megerősítéses tanulás 9. előadás

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Bonyolult jelenség, aminek nincs jó modellje, sok empirikus adat, intelligens (ember)ágens képessége, hogy ilyen problémákkal mégis megbirkozzék.

Mesterséges Intelligencia MI

Problémamegoldás kereséssel. Mesterséges intelligencia március 7.

Komponensek keresése a megerősítéses tanulásban

12. előadás - Markov-láncok I.

Gépi tanulás a gyakorlatban. Lineáris regresszió

Tanulás elosztott rendszerekben/3

Neurális hálózatok bemutató

Mesterséges intelligencia 3. laborgyakorlat

Numerikus matematika

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

KÖZELÍTŐ INFERENCIA II.

Fourier transzformáció

0,424 0,576. f) P (X 2 = 3) g) P (X 3 = 1) h) P (X 4 = 1 vagy 2 X 2 = 2) i) P (X 7 = 3, X 4 = 1, X 2 = 2 X 0 = 2) j) P (X 7 = 3, X 4 = 1, X 2 = 2)

Megerősítéses tanulás

Hidden Markov Model. March 12, 2013

Markov-láncok stacionárius eloszlása

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Miskolci Egyetem Gépészmérnöki és Informatikai Kar Informatikai Intézet Alkalmazott Informatikai Intézeti Tanszék

E.4 Markov-láncok E.4 Markov-láncok. Sok sorbanállási hálózat viselkedése leírható "folytonos idejű Markovláncok " segítségével.

NGB_IN040_1 SZIMULÁCIÓS TECHNIKÁK dr. Pozna Claudio Radu, Horváth Ernő

Dr. Kalló Noémi. Termelés- és szolgáltatásmenedzsment. egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék. Dr.

Gépi tanulás és Mintafelismerés

GROVER-algoritmus. Sinkovicz Péter. ELTE, MSc II dec.15.

előadás Diszkrét idejű tömegkiszolgálási modellek Poisson-folyamat Folytonos idejű Markov-láncok Folytonos idejű sorbanállás

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Intelligens adatelemzés

KÖZELÍTŐ INFERENCIA II.

DIFFERENCIAEGYENLETEK

Gépi tanulás a gyakorlatban. Bevezetés

Valószínűségi modellellenőrzés Markov döntési folyamatokkal

4. Lokalizáció Magyar Attila

Név KP Blokk neve KP. Logisztika I. 6 LOG 12 Dr. Kovács Zoltán Logisztika II. 6 Logisztika Dr. Kovács Zoltán

Számítógép és programozás 2

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

1. gyakorlat. Mesterséges Intelligencia 2.

(Diszkrét idejű Markov-láncok állapotainak

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

TARTALOMJEGYZÉK. TARTALOMJEGYZÉK...vii ELŐSZÓ... xiii BEVEZETÉS A lágy számításról A könyv célkitűzése és felépítése...

A szimplex algoritmus

Miskolci Egyetem Gépészmérnöki és Informatikai Kar Alkalmazott Informatikai Tanszék

Az informatika logikai alapjai

Mesterséges intelligencia. Gregorics Tibor people.inf.elte.hu/gt/mi

Navigáci. stervezés. Algoritmusok és alkalmazásaik. Osváth Róbert Sorbán Sámuel

Előfeltétel: legalább elégséges jegy Diszkrét matematika II. (GEMAK122B) tárgyból

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás

Konjugált gradiens módszer

Haszongépj. Németh. Huba. és s Fejlesztési Budapest. Kutatási. Knorr-Bremse November 17. Knorr-Bremse

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Tartalomjegyzék. Tartalomjegyzék... 3 Előszó... 9

A Markowitz modell: kvadratikus programozás

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

A Markowitz modell: kvadratikus programozás

Gépi tanulás Gregorics Tibor Mesterséges intelligencia

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Tartalom. 1. Állapotegyenletek megoldása 2. Állapot visszacsatolás (pólusallokáció)

A megerosítéses tanulás és a szimulált hutés kombinált használata: algoritmusok és alkalmazások

10. Előadás. 1. Feltétel nélküli optimalizálás: Az eljárás alapjai

A megerősítéses tanulás alkalmazása az Othello játékban

Ambiens szabályozás problémája Kontroll és tanulás-1

Nemlineáris programozás 2.

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN

Mesterséges intelligencia 2. laborgyakorlat

Gauss-Seidel iteráció

Számításelmélet. Második előadás

A mesterséges intelligencia alapjai, alapelvek

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

1. Egy lineáris hálózatot mikor nevezhetünk rezisztív hálózatnak és mikor dinamikus hálózatnak?

Mesterséges Intelligencia I.

Közgazdaságtan I. Számolási feladat-típusok a számonkérésekre 6. hét. 2018/2019/I. Kupcsik Réka

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2007/2008

Dualitás Dualitási tételek Általános LP feladat Komplementáris lazaság 2017/ Szegedi Tudományegyetem Informatikai Intézet

A Föld középpontja felé szabadon eső test sebessége növekszik, azaz, a

4. Laplace transzformáció és alkalmazása

Mesterséges Intelligencia MI

Függvények növekedési korlátainak jellemzése

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Programkonstrukciók A programkonstrukciók programfüggvényei Levezetési szabályok. 6. előadás. Programozás-elmélet. Programozás-elmélet 6.

ÉPÜLETEK TŰZVÉDELME A TERVEZÉSTŐL A BEAVATKOZÁSIG TUDOMÁNYOS KONFERENCIA A BIM és a tűzvédelem The BIM and the fire protection

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2007/2008

Számelméleti alapfogalmak

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Átírás:

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai Intézeti Tanszék Miskolc, 2017. szeptember 15.

Tartalom Gépi tanulás története Gépi tanulás típusai A megerősítéses tanulás Q-learning SARSA FRIQ-learning FRIQ-learning Maze, Pong alkalmazás példák

A gépi tanulás története 1947-ben Arthur Lee Samuel dáma játék, ami képes legyőzni a világbajnokot motiváló okok: szimbolikus számítás hatékonyságának bemutatása szükség van PC-re az egyetemeken 20 évnyi fejlesztés gépi tanulás alappillérjeinek megalkotása

A gépi tanulás A gépi tanulás alapgondolata egy ágens képességeinek javítása A gépi tanulás egy eljárás, amely a rendszerben változásokat hoz létre a változtatások következtében a problémát a rendszer már helyesebben oldja meg

A gépi tanulás formái Felügyelt (ellenőrzött) supervised learning Felügyelet nélküli (nem ellenőrzött) unsupervised learning Megerősítéses reinforcement learning

A megerősítéses tanulás Egy módszer, amely megerősítési információk alapján tanul a környezetből érkező visszajelzések a megerősítések (reward) jutalmak/büntetések (sikerek/kudarcok) cél: várható jutalmak maximalizálása (optimális stratégia keresése) Pl.: egy ismeretlen játék játszása

A megerősítéses tanulás típusa Passzív rögzített stratégia -> viselkedés cél: stratégia jóságának megtanulása Aktív nincs rögzített stratégia cselekvés választásának eldöntése (mohó például) cél: cselekvésérték-függvény tanulása

A megerősítéses tanulás elemei állapot (s), akció (a), jutalom (r) politika (policy) jutalom függvény (reward function) értékelő függvény (value funciton) környezet modellje (model of the environment) 8

Ágens-környezet modell

Ágens-környezet modell példa

Ágens-környezet modell ágens lehet bármi, ami (érzékelőivel) érzékeli a környezetét és (beavatkozóival) megváltoztatja azt környezet determinisztikus: következő állapota, csakis a jelenlegi állapotától és a végrehajtott cselekvéstől függ nem determinisztikus: következő állapotát nem határozza meg az előző állapot és a végrehajtott cselekvés

Ágens-környezet modell állapot (s), akció (a), jutalom (r), politika (π) állapot: az ágens megfigyelése a környezetről akció: cselekvés, ez hat a környezetre jutalom: egyetlen szám politika: állapot-akció leképezés

Ágens-környezet modell diszkrét idő ( t=1, 2, 3, ) minden egyes t időpillanatban az ágens megkapja a környezet ez alapján választ egy akciót a választott akció függvényeként kap egy jutalmat majd egy új állapotba kerül az ágens célja: hosszú távon maximalizálja az összegyűjtött jutalmakat epizódikusság

Ágens-környezet modell a t s t s t+1 r t+1 s t : állapot a t időpillanatban a t : a végrehajtott akció a t időpillanatban r t+1 : a kapott jutalom a t+1 időpillanatban s t+1 : az új állapot Π t (s, a): s-ben a lépés a t időpontban 14

Ágens-környezet modell Az összegyűjtött jutalmak összegét hozamnak nevezzük: ahol T, az utolsó időpillanat ha nem beszélhetünk utolsó időpillanatról akkor: gond: R t végtelen lehet megoldás: diszkontálás, a diszkontált hozam:

Ágens-környezet modell Összefoglalva, a hozamfüggvény a következő formában írható fel: γ a diszkontálási paraméter: a jelen állapot jövőre vetíthetőségének mértéke. mekkora súllyal vegyük figyelembe egy későbbi állapot hasznosságát értéke: [0;1]

Ágens-környezet modell A feladat realizálása: interakció a környezet modellje: az átmeneti valószínűségek és jutalmak cél: maximális várható jutalom, optimális stratégia megtalálása

A Markov-feltevés Feltesszük, hogy a múlt nem számít Markov-tulajdonság : egy folyamat jövőbeli feltételezett állapota csak a jelenlegi állapottól függ, még akkor is, ha ismerjük a korábbi történéseket nincs emlékezés az átmeneti valószínűség megadja az s állapotba kerülés valószínűségét s állapotból a akció választása mellett: a várható jutalom: azokra a feladatokra alkalmazható a megerősítéses tanulás módszere, amelyek Markov-tulajdonságúak

Az állapot értékelő függvény E π jelöli a π politika követése melletti várható értéket, a t tetszőleges időpillanatban. Megadjuk az s állapotban a akció választásának értékét a π politika mellett. Ezt Q π (s,a) -val jelöljük:

A Bellman-egyenlet Az előzőek alapján a következő egyenlet a V π -re vonatkozó Bellman-egyenlet: egy állapot hasznosságának meghatározása egy állapot hasznossága, az állapotban tartózkodás jutalmának és a következő állapot várható hasznosságának összege az állapotok hasznosságai a Bellman-egyenletek egy rendszerének egyértelmű megoldásai

A Bellman-egyenlet Optimális: V*(s): s-ből indulva Q*(s,a): s-ben a A Bellman-egyenlet megoldása: dinamikus programozással értékiteráció minden egyes állapot hasznosságának számítása -> optimális cselekvés választása eljárásmód-iteráció ha egy akció jobb mint a többi -> a releváns állapotok hasznosságainak nagyságát nem szükséges precízen tudni - >értékelés;javítás. Leáll ha nincs hasznosságváltozás.

Megerősítéses tanulási algoritmusok Q-learning SARSA Fuzzy Q-learning FRI based Q-learning Stb.

Q-learning az egyik leggyakrabban alkalmazott megerősítéses tanulási módszer Q quality érték Q(s,a): s-ben a végrehajtásának jósága -> Q(s,a) párok ->Q-függvény; Q-tábla Update formula:

Q-learning - algoritmus

Q-learning - algoritmus

SARSA Szintén megerősítéses tanulási algoritmus State-Action-Reward-State-Action A Q-learning hasonló módszer Update formula: 26

SARSA - algoritmus 27

Q-learning vs. SARSA 28

Q-learning hátrány lehetséges állapotok exponenciálisan sok száma állapottér növekedése Q-tábla növekedése konvergenciája exponenciálisan lassú lehet Kb. 10000 a kezelhető állapotok száma Pl. n db állapotleíró, k részre osztva: k n az állapotok száma 29

RL alkalmazások TD-Gammon (Tesauro, 1992) Robotirányítási alkalmazások inverz inga (cart-pole) mountain- car maze pong rc drift autó: video és számos egyéb... 30

FRIQ-learning Az előzőleg bemutatott Q-learning módszer diszkrét állapot-akció térre alkalmazható fuzzy modell bevezetésével azonban kiterjeszthető folytonos állapot- és akciótérre A fuzzy szabály interpoláció alapú Q-tanulás (FRIQ-learning) az FQ-learning (fuzzy Q-learning) kiegészítése ritka szabálybázisok alkalmazhatósága

FRIQ-learning A diszkrét Q-learning fuzzy modell alkalmazásával kiterjeszthető folytonos állapot-akció térre Fuzzy Q-learning (FQ-learning) E.g. 0-order Takagi-Sugeno Fuzzy Inference model Probléma: a szabályszám exponenciálisan nő az állapot dimenzió (antecedens) számával Lehetséges megoldás: Fuzzy Rule Interpolation (FRI) FQ-learning + FRI FIVE: FRIQ-learning

FRIQ-learning példák Nézzünk működő alkalmazásokat : ) Maze Pong

FRIQ-learning példák - Maze 2 állapot leíró x pozíció: 0-8 y pozíció: 0-5 1 akció: elmozdulás (fel, le, jobbra, balra)

FRIQ-learning példák - Pong 4 állapot leíró labda x pozíció labda y pozíció labda iránya (6 eset) ütő pozíciója 1 akció: elmozdulás (fel, le, semerre)

FRIQ-learning példák Matlab bemutató : )

Felhasznált irodalom Richard S. Sutton and Andrew G. Barto Reinforcement Learning: An Introduction Peter Norvig, Stuart J. Russel Mesterséges intelligencia Modern megközelítésben http://project.mit.bme.hu/mi_almanach/books/aima/index 37

Köszönöm a figyelmet!