Megerősítéses tanulás

Hasonló dokumentumok
Mesterséges Intelligencia MI

Megerősítéses tanulási módszerek és alkalmazásaik

Megerősítéses tanulás 7. előadás

Korszerű információs technológiák

Adaptív menetrendezés ADP algoritmus alkalmazásával

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Stratégiák tanulása az agyban

Mesterséges Intelligencia MI

Megerősítéses tanulás

Tanulás elosztott rendszerekben/3

Megerősítéses tanulás 2. előadás

Mesterséges Intelligencia MI

Megerősítéses tanulás 9. előadás

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Mesterséges Intelligencia MI

Gépi tanulás a gyakorlatban. Lineáris regresszió

Sorozatok határértéke SOROZAT FOGALMA, MEGADÁSA, ÁBRÁZOLÁSA; KORLÁTOS ÉS MONOTON SOROZATOK

Bonyolult jelenség, aminek nincs jó modellje, sok empirikus adat, intelligens (ember)ágens képessége, hogy ilyen problémákkal mégis megbirkozzék.

KÖZELÍTŐ INFERENCIA II.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

KÖZELÍTŐ INFERENCIA II.

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

E.4 Markov-láncok E.4 Markov-láncok. Sok sorbanállási hálózat viselkedése leírható "folytonos idejű Markovláncok " segítségével.

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

2. A példahalmazban n = 3 negatív és p = 3 pozitív példa van, azaz a példahalmazt képviselő döntési fa információtartalma: I = I(1/2, 1/2) = 1 bit.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Gépi tanulás Gregorics Tibor Mesterséges intelligencia

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Programozási módszertan. A gépi tanulás alapmódszerei

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

11. Előadás. 11. előadás Bevezetés a lineáris programozásba

Mérés és modellezés Méréstechnika VM, GM, MM 1

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Konjugált gradiens módszer

Gauss-Seidel iteráció

A sorozat fogalma. függvényeket sorozatoknak nevezzük. Amennyiben az értékkészlet. az értékkészlet a komplex számok halmaza, akkor komplex

Sapientia - Erdélyi Magyar TudományEgyetem (EMTE) Csíkszereda IRT- 4. kurzus. 3. Előadás: A mohó algoritmus

Méréselmélet MI BSc 1

Mesterséges Intelligencia MI

Irányításelmélet és technika II.

5. Előadás. (5. előadás) Mátrixegyenlet, Mátrix inverze március 6. 1 / 39

Dunaújvárosi Főiskola Informatikai Intézet. Intelligens ágensek. Dr. Seebauer Márta. főiskolai tanár

Markov-láncok stacionárius eloszlása

Adatok statisztikai értékelésének főbb lehetőségei

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Hidden Markov Model. March 12, 2013

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

Explicit hibabecslés Maxwell-egyenletek numerikus megoldásához

DOKTORANDUSZ FÓRUM, 1999 Miskolc, november. Megerősítő tanulási módszerek alkalmazása az informatikában

Tartalom. 1. Állapotegyenletek megoldása 2. Állapot visszacsatolás (pólusallokáció)

Mesterséges Intelligencia MI

Gauss elimináció, LU felbontás

Kiterjesztések sek szemantikája

Rekurzív sorozatok. SZTE Bolyai Intézet nemeth. Rekurzív sorozatok p.1/26

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mátrixjátékok tiszta nyeregponttal

KOVÁCS BÉLA, MATEMATIKA II.

További forgalomirányítási és szervezési játékok. 1. Nematomi forgalomirányítási játék

Elővizsga, dec. 15. Szívhez szóló megjegyzések és megoldások Adja meg a kontrollált természetes nyelv definícióját (vendégelőadás)

Matematikai geodéziai számítások 6.

Intelligens ágensek. Mesterséges intelligencia február 28.

Megoldott feladatok november 30. n+3 szigorúan monoton csökken, 5. n+3. lim a n = lim. n+3 = 2n+3 n+4 2n+1

Mozgásmodellezés. Lukovszki Csaba. Navigációs és helyalapú szolgáltatások és alkalmazások (VITMMA07)

Valószínűségszámítás összefoglaló

Online algoritmusok. Algoritmusok és bonyolultságuk. Horváth Bálint március 30. Horváth Bálint Online algoritmusok március 30.

[Biomatematika 2] Orvosi biometria

Sorozatok. 5. előadás. Farkas István. DE ATC Gazdaságelemzési és Statisztikai Tanszék. Sorozatok p. 1/2

Számításelmélet. Második előadás

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Biostatisztika VIII. Mátyus László. 19 October

Matematikai geodéziai számítások 6.

Least Squares becslés

1.1. Alapfeladatok. hogy F 1 = 1, F 2 = 1 és általában F n+2 = F n+1 + F n (mert a jobboldali ág egy szinttel lennebb van, mint a baloldali).

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Programozási módszertan. Mohó algoritmusok

A Markowitz modell: kvadratikus programozás

Biomatematika 2 Orvosi biometria

Kétszemélyes játékok Gregorics Tibor Mesterséges intelligencia

Azonos és egymással nem kölcsönható részecskékből álló kvantumos rendszer makrókanónikus sokaságban.

0,424 0,576. f) P (X 2 = 3) g) P (X 3 = 1) h) P (X 4 = 1 vagy 2 X 2 = 2) i) P (X 7 = 3, X 4 = 1, X 2 = 2 X 0 = 2) j) P (X 7 = 3, X 4 = 1, X 2 = 2)

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

2010. október 12. Dr. Vincze Szilvia

1. feladat Az egyensúly algoritmus viselkedése: Tekintsük a kétdimenziós Euklideszi teret, mint metrikus teret. A pontok

Számsorok. 1. Definíció. Legyen adott valós számoknak egy (a n ) n=1 = (a 1, a 2,..., a n,...) végtelen sorozata. Az. a n

Exponenciális kisimítás. Üzleti tervezés statisztikai alapjai

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Függvények növekedési korlátainak jellemzése

Dr. Kalló Noémi. Termelés- és szolgáltatásmenedzsment. egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék. Dr.

Integr alsz am ıt as. 1. r esz aprilis 12.

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Mérési hibák

minden x D esetén, akkor x 0 -at a függvény maximumhelyének mondjuk, f(x 0 )-at pedig az (abszolút) maximumértékének.

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

előadás Diszkrét idejű tömegkiszolgálási modellek Poisson-folyamat Folytonos idejű Markov-láncok Folytonos idejű sorbanállás

Fraktálok. Hausdorff távolság. Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék március 14.

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN

A következő feladat célja az, hogy egyszerű módon konstruáljunk Poisson folyamatokat.

Számítógép és programozás 2

Átírás:

Gépi tanulás (Szekvenciális döntési probléma) Megerősítéses tanulás Pataki Béla BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki

Az egész világot nem tudjuk modellezni, gyakran (szinte mindig) alkalmazott trükk bontsuk két részre! (dekomponáljuk nem vagyunk a végsőkig holisztikusak) Ami kívül: az a környezet Ami belül: az a rendszer információ a környezetről fizikai hatás a környezetre információbegyűjtés eszközei szenzorok hatáskifejtés eszközei beavatkozók...

Megerősítéses tanulás Induktív tanulás: minden mintához megvan a jó válasz, egy tanító mindig megmondja, hogy jót vagy rosszat válaszoltunk, rendszerint azt is, hogy mennyire jó vagy rossz a válasz. Megerősítéses tanulás: nincs tanító, csak időnként kapunk visszajelzést, hogy az eddigi lépéssorozat pillanatnyi eredménye jó vagy rossz-e. Pl. sakkjáték: tanító nélkül is van visszacsatolás a játék végén: nyert vagy vesztett = +/- jutalom, azaz pozitív vagy negatív megerősítés. (Pozitív: összességében jó, amit csináltunk, negatív: összességében rossz.)

Megerősítéses tanulás Megerősítés: milyen gyakran? milyen erős? milyen értékű? A feladat: (ritka) jutalmakból megtanulni egy sikeres ágens-függvényt (optimális eljárásmód: melyik állapot, melyik cselekvés hasznos). Nehéz probléma: az információhiány miatt az ágens sohasem tudja, hogy mik a jó lépések, sőt azt sem, hogy melyik jutalom/büntetés melyik cselekvés(ek)ből származik.

Ágens tudása: Induláskor: vagy ismeri már a környezetet és a cselekvéseinek hatását, vagy pedig még ezt is meg kell tanulnia. Megerősítés: lehet csak a végállapotban, de lehet menet közben bármelyik állapotban is. Ágens: passzív tanuló: figyeli a világ alakulását és tanul, előre rögzített eljárásmód, nem mérlegel, előre kódoltan cselekszik aktív tanuló: a megtanult információ birtokában az eljárásmódot is alakítja, optimálisan cselekednie is kell (felfedező ) Ágens kialakítása: megerősítés hasznosság leképezés

Bellman egyenlet: Optimális eljárásmód Két lehetőség: U( s) R( s) max T( s, a, s') U( s') - leszámítolási tényező U(s) hasznosságfüggvény tanulása minden egyes állapot hasznosságát meg akarjuk határozni, ennek alapján a cselekvések eldöntése úgy, hogy az elérhető hasznosság várható értéke maximális legyen (környezet/ágens modellje szükséges, környezet: T(s,a,s )) Q(a, s) cselekvésérték függvény (állapot-cselekvés párok) tanulása, valamilyen várható hasznot tulajdonítva egy adott helyzetben egy adott cselekvésnek (környezet/ágens modell nem szükséges) Q tanulás (model-free) a s'

Fontos egyszerűsítés: a sorozat hasznossága = a sorozat állapotaihoz rendelt hasznosságok összege. (a hasznosság additív) Az állapot hátralevő-jutalma (reward-to-go) az adott lépéssorozatban: azon jutalmak összege, amelyet akkor kapunk, ha az adott állapotból valamelyik végállapotig eljutunk. Egy állapot várható hasznossága = a hátralevő-jutalom várható értéke t U ( s) E R( s ), s s t t 0 (közönségesen: várható érték=az előfordulási gyakorisággal súlyozott átlag) U ( s) R( s) T ( s, s ') U ( s ') s'

Passzív megerősítéses tanulás Markov döntési folyamat (MDF), szekvenciális döntés U ( s) R( s) T( s, ( s), s') U ( s') Passzív tanulás esetén az ágens π(s) stratégiája rögzített, az s állapotban mindig az a = π(s) cselekvést hajtja végre. A cél egyszerűen a stratégia jóságának tehát az U π (s) hasznosságfüggvénynek a megtanulása. Fontos különbség a Markov döntési folyamathoz, szekvenciális döntéshez képest, hogy a passzív ágens nem ismeri az állapotátmenet-modellt (transition model), a T(s, a, s')-t, amely annak a valószínűséget adja meg, hogy az a cselekvés hatására az s állapotból az s' állapotba jutunk, továbbá nem ismeri a jutalomfüggvényt (reward function), R(s)-et, amely minden állapothoz megadja az ott elnyerhető jutalmat. Egyszerűbb jelölés az állapotátmenetre: T ( s, ( s ), s ) helyett T P( s s a ( s )) k k m km k m k s'

Passzív tanulás - Közvetlen hasznosságbecslés Az állapotok hasznosságát a definíció alapján tanuljuk. Definíció: a hasznosság a hátralevő jutalom várhatóértéke (praktikusan átlaga) Sok kísérletet végzünk, és feljegyezzük, hogy amikor az s állapotban voltunk, akkor mennyi volt a végállapotig gyűjtött jutalom, amit az út során gyűjtöttünk. Ezen jutalmak átlaga ha nagyon sok kísérletet végzünk az U(s)-hez konvergál. Viszont nem használja ki a Bellman egyenletben megragadott összefüggést az állapotok közt, ezért lassan konvergál, nehezen tanul. U ( s) R( s) T ( s, ( s), s ') U ( s ') s' R( s) T ( s, s ') U ( s ') s'

Passzív tanulás - Adaptív Dinamikus Programozás Az állapotátmeneti valószínűségek T(s k,s m )= T km a megfigyelt gyakoriságokkal becsülhetők. Amint az ágens megfigyelte az összes állapothoz tartozó jutalom értéket, és elég tapasztalatot gyűjtött az állapotátmenetek gyakoriságáról, a hasznosság-értékek a következő lineáris egyenletrendszer megoldásával kaphatók meg: megtanult U ( s) R( s) T ( s, s ') U ( s ') megfigyelt s' 1 U R TU U ( I T) R.és ha nem megy?

A fontosak nem a konkrét értékek, hanem a jelleg! (logaritmikus skála!)

Passzív tanulás - Időbeli különbség (IK) tanulás (TD Temporal Difference) Ha csak az aktuális jutalmat néznénk: U( s) U( s) ( R ( s) U( s)) Ha a teljes megfigyelt hátralévő jutalomösszeget használjuk ki kell várni az epizód végét. Alapötlet: a hátralevő összjutalom helyett használjuk fel a megfigyelt állapotátmeneteknél a hasznosság aktuálisan becsült értékét! A jutalom becslése: Az előző becsléstől való eltérés: Frissítés: U ( s) U ( s) ( s) Uˆ ( s ) R ( s ) U ( s ') U ( s) ( R( s) U ( s ') U ( s)) - bátorsági faktor, tanulási tényező γ - leszámítolási tényező (ld. MDF) Az egymást követő állapotok hasznosságkülönbsége időbeli különbség (IK). ( s) Uˆ ( s) U ( s) R( s) U ( s ') U ( s)

Az összes időbeli különbség eljárásmód alapötlete 1. Korrekt hasznosság-értékek esetén lokálisan fennálló feltételek rendszere: U ( s) R( s) T ( s, s ') U ( s ') Ha egy adott ss átmenetet tapasztalunk a jelenlegi sorozatban, akkor úgy vesszük, mintha T(s,s )=1 lenne, tehát fenn kéne álljon. U ( s) R( s) U ( s ') 2. Ebből a módosító egyenlet, amely a becsléseinket ezen egyensúlyi" egyenlet irányába módosítja: U( s) U( s) ( R( s) U( s') U( s)) 3. Az ADP módszer felhasználta a modell teljes ismeretét. Az IK a szomszédos (egy lépésben elérhető) állapotok közt fennálló kapcsolatokra vonatkozó információt használja, de csak azt, amely az aktuális tanulási sorozatból származik. Az IK változatlanul működik előzetesen ismeretlen környezet esetén is. (Nem használtuk ki a T(s,s ) ismeretét!) s'

Egy egyszerű demóprobléma végállapotok: (4,2) és (4,3) =0 minden állapotban, amelyik nem végállapot R(s)= - 0,04 (pl. így lehet modellezni a lépésköltséget) 0,8 valószínűséggel a szándékolt irányba lép, 0,2 valószínűséggel a választott irányhoz képest oldalra. (Falba ütközve nem mozog.) Optimális * stratégia (eljárásmód) Az ezzel kapható hasznosságok

ADP U(1,1)=0,705 U(3,2)=0,66 U(1,1) rms hibája 20, egyenként 100 futásból álló kísérletre átlagolva Egyetlen 100-as sorozat, a 78-diknál jut először a -1-be IK U(1,1) rms hibája 20, egyenként 100 futásból álló kísérletre átlagolva

Ismeretlen környezetben végzett aktív megerősítéses tanulás Most nem kötött a stratégia, az ágens dönti el, hogy az s állapotban melyik cselekvést válassza. A stratégiát is tanulja az ágens, nem csak a hasznosságokat. ( s) U s R s s' T s a s U s a ( ) ( ) max (,, ') ( ') Döntés: melyik cselekvést válassza? a cselekvésnek mik a kimeneteleik? hogyan hatnak az elért jutalomra? = R( s) max T ( s, ( s), s ') U ( s ') A környezeti modell: a többi állapotba való átmenet valószínűsége egy adott cselekvés esetén. a s'

Aktív megerősítéses tanulás A feladat kettős: az állapottér felderítése és a jutalmak begyűjtése - a két cél gyakran ellentmondó cselekvést igényel Nehéz probléma, a fő kérdés: Helyes-e azt a cselekvést választani, amelynek a jelenlegi hasznosságbecslés alapján legnagyobb a közvetlen várható hozama? (Mohóság) Ez figyelmen kívül hagyja a cselekvésnek a tanulásra gyakorolt hatását!

Az állapottér felderítése A döntésnek kétféle hatása van: 1. Jutalma(ka)t eredményez a jelenlegi szekvenciában. 2. Ismeretekre tesz szert a környezetről, befolyásolja az észleléseket, és ezáltal az ágens tanulási képességét így jobb jutalmakat eredményezhet a jövőbeni szekvenciákban. Kompromisszum a jelenlegi jutalom, amit a pillanatnyi hasznosságbecslés tükröz, és a hosszú távú előnyök közt.

Az állapottér felderítése Két szélsőséges megközelítés a cselekvés kiválasztásában: Hóbortos, Felfedező : véletlen módon cselekszik, annak reményében, hogy végül is felfedezi az egész környezetet Mohó : a jelenlegi becslésre alapozva maximalizálja a hasznot. Előnyök/hátrányok: Hóbortos: képes jó hasznosság-becsléseket megtanulni az összes állapotra. Sohasem sikerül fejlődnie az optimális hozam elérésében. Mohó: gyakran talál egy viszonylag jó utat. Utána ragaszkodik hozzá, és általában nem tanulja meg a többi állapot hasznosságát, a legjobb utat.

Mohó: gyakran talál egy viszonylag jó utat. Utána ragaszkodik hozzá, és soha nem tanulja meg a többi állapot hasznosságát, a legjobb utat. A mohó ágens által talált stratégia A mohó ágens által talált optimális út A valódi optimális út

Mohó: gyakran talál egy viszonylag jó utat. Utána ragaszkodik hozzá, és soha nem tanulja meg a többi állapot hasznosságát, a legjobb utat. A mohó ágens által talált stratégia A mohó ágens által talált optimális út A valódi optimális út Optimális stratégia

Hóbortos: eljárási (stratégia) veszteség az optimálishoz képest Mohó: az állapothasznosságok átlagos rms hibája Mohó: eljárási (stratégia) veszteség az optimálishoz képest Hóbortos: az állapothasznosságok átlagos rms hibája Kísérletek száma A mohó és hóbortos eljárásmód tipikus eredményei folytonos vonal: az állapothasznosságok (a környezet) megismerésének hibája szaggatott vonal: mennyivel kevesebb jutalmat gyűjt átlagosan, mint egy optimális stratégiát használó ágens

Felfedezési stratégia Az ágens addig legyen hóbortos, amíg kevés fogalma van a környezetről, és legyen mohó, amikor a valósághoz közeli modellel rendelkezik. Létezik-e optimális felfedezési stratégia? Az ágens előnybe kell részesítse azokat a cselekvéseket, amelyeket még nem nagyon gyakran próbált, a már elég sokszor kipróbált és kis hasznosságúnak tapasztalt cselekvéseket pedig kerülje el, ha lehet.

1. Felfedezési stratégia - felfedezési függvény R ha n < N f ( u, n) e u különben U ( s) R( s) max f ( T ( s, a, s ') U ( s '), N( a, s)) a s' U + (i): az i állapothoz rendelt hasznosság optimista becslése N(a,i): az i állapotban hányszor próbálkoztunk az a cselekvéssel R + a tetszőleges állapotban elérhető legnagyobb jutalom optimista becslése Az a cselekvés, amely felderítetlen területek felé vezet, nagyobb súlyt kap. mohóság kíváncsiság f (u,n) : u-ban monoton növekvő (mohóság), n-ben monoton csökkenő (a próbálkozások számával csökkenő kíváncsiság)

Ismételjük meg a régi fóliát Egy egyszerű demóprobléma: végállapotok: (4,2) és (4,3) =0 minden állapotban, amelyik nem végállapot R(s)= - 0,04 (pl. így lehet modellezni a lépésköltséget) 0,8 valószínűséggel a szándékolt irányba lép, 0,2 valószínűséggel a választott irányhoz képest oldalra. (Falba ütközve nem mozog.) Optimális * stratégia (eljárásmód) Az ezzel kapható hasznosságok

Felfedezési függvény: R + =2, N e =5 U ( s) R( s) max f ( T( s, a, s') U ( s'), N( a, s)) a R ha n < N f ( u, n) e u különben s' Valós hasznosságok, opt. stratégia

2. Felfedezési stratégia - ε-mohóság (N cselekvési lehetősége van) 1-ε valószínűséggel mohó, tehát a legjobbnak gondolt cselekvést választja ilyen valószínűséggel az ágens ε valószínűséggel véletlen cselekvést választ egyenletes eloszlással, tehát ekkor 1/(N-1) valószínűséggel a nem a legjobbnak gondoltak közül 3. Felfedezési stratégia - Boltzmann-felfedezési modell egy a cselekvés megválasztásának valószínűsége egy s állapotban: P( a, s) e e a' hasznosság ( a, s)/ T hasznosság ( a', s)/ T Az összes, s-ben lehetséges N db a cselekvésre összegezve a T hőmérséklet a két véglet között szabályoz. Ha T, akkor a választás tisztán (egyenletesen) véletlen, ha T 0, akkor a választás mohó.

1 0.9 0.8 0.7 U(1)=5 U(2)=1 U(3)=2 T: 20-tól csökken -0,2 lépésekben 0,2-ig (T/20-at ábrázoltuk) exp(u(k)/t) exp(u(1)/t)+exp(u(2)/t)+exp(u(3)/t) 0.6 0.5 0.4 0.3 0.2 0.1 0 0 10 20 30 40 50 60 70 80 90 100 Boltzmann felfedezési modell, 3 lehetséges cselekvés, 3 követő állapotba visz. A követő állapotok hasznosságából becsülhető értékük U(a1,1)=5, U(a2,2)=1, U(a3,3)=2 P( a, s) e e a' hasznosság ( a, s)/ T hasznosság ( a', s)/ T

A cselekvésérték függvény tanulása A cselekvés-érték függvény egy adott állapotban választott adott cselekvéshez egy várható hasznosságot rendel: Q-érték U( s) max Q( a, s) A Q-értékek fontossága: a feltétel-cselekvés szabályokhoz hasonlóan lehetővé teszik a döntést modell használata nélkül, közvetlenül a jutalom visszacsatolásával tanulhatók. Mint a hasznosság-értékeknél, itt is felírhatunk egy kényszer egyenletet, amely egyensúlyi állapotban, amikor a Q-értékek korrektek, fenn kell álljon: Q( a, s) R( s) T ( s, a, s ') max Q( a ', s ') s' a a'

A cselekvés-érték függvény tanulása Ezt az egyenletet közvetlenül felhasználhatjuk egy olyan iterációs folyamat módosítási egyenleteként, amely egy adott modell esetén a pontos Q-értékek számítását végzi. De ez nem lenne modell-mentes. Az időbeli különbség viszont nem igényli a modell ismeretét. Az IK módszer Q-tanulásának módosítási egyenlete: Q( a, s) Q( a, s) R( s) max Q( a ', s ') Q( a, s) a' SARSA Q-tanulás (State-Action-Reward-State-Action) Q( a, s) Q( a, s) [ R( s) Q( a', s') Q( a, s)] (a' megválasztása pl. Boltzmann felfedezési modellből)

A megerősítéses tanulás általánosító képessége Eddig: ágens által tanult hasznosság: táblázatos (mátrix) formában reprezentált = explicit reprezentáció Kis állapotterek: elfogadható, de a konvergencia idő és (ADP esetén) az iterációnkénti idő gyorsan nő a tér méretével. Gondosan vezérelt közelítő ADP: 10.000 állapot, vagy ennél is több. De a való világhoz közelebb álló környezetek szóba se jöhetnek. (Sakk állapottere 10 50-10 120 nagyságrendű. Az összes állapotot látni kell, hogy megtanuljunk játszani?!) Egyetlen lehetőség: a függvény implicit reprezentációja: Pl. egy játékban a táblaállás tulajdonságainak valamilyen halmaza f 1, f n. Az állás becsült hasznosság-függvénye: Uˆ ( s ) f ( s ) f ( s )... f ( s ) 1 1 2 2 C. Shannon, Programming a Computer for Playing Chess, Philosophical Magazine, 7th series, 41, no. 314 (March 1950): 256-75 A.L. Samuel, Some Studies in Machine Learning Using the Game of Checkers. B.II-Recent Progress, IBM. J. 3, 211-229 (1959), kb. 20 tulajdonság Deep Blue (Feng-Hsiung Hsu) kb. 8000 tulajdonság, spec. sakk-csip n n

A hasznosság-függvény n értékkel jellemezhető, pl. 10 120 érték helyett. Egy átlagos sakk kiértékelő függvény kb. 10-20 súllyal épül fel, tehát hatalmas tömörítést értünk el. Az implicit reprezentáció által elért tömörítés teszi lehetővé, hogy a tanuló ágens általánosítani tudjon a már látott állapotokról az eddigiekben nem látottakra. Az implicit reprezentáció legfontosabb aspektusa nem az, hogy kevesebb helyet foglal, hanem az, hogy lehetővé teszi a bemeneti állapotok induktív általánosítását. Az olyan módszerekről, amelyek ilyen reprezentációt tanulnak, azt mondjuk, hogy bemeneti általánosítást végeznek.

4 x 3 világ Hasznosság implicit reprezentációja U ˆ ( x, y) x y 0 1 2 Hibafüggvény: a jósolt és a kísérleti ténylegesen tapasztalt hasznosságok különbségének négyzete 1 E ( ) ˆ ( ) ( ) 2 j s U s u j s 2 E () ˆ j s ˆ U () s Frissítés i i i u j ( s) U ( s) 0 0 1 1 2 2 u ( s) Uˆ ( s) u ( s) Uˆ ( s) x j u ( s) Uˆ ( s) y j j i i

Gyakorlófeladat - Aktív Q-tanulás, IK módszer a1=fel a2=le a3=jobbra 0,8 0,8 0,8 +1 0,7 xxx 0,65-1 0,68 0,6 0,5-0,89 a4=balra 0,5 0,6 0,7 +1 0,5 xxx 0,4-1 0,47 0,42 0,32 0,3 0,6 0,35 0,2 +1 0,3 xxx 0,10-1 0,4 0,3 0,0 0,0 0,83 0,88 0,95 +1 0,71 xxx -0,8-1 0,2 0,1 0,1-0,2 Feladat: 1. Az (1,1) bal alsó sarok állapotból indulunk, a jelenlegi (a fenti táblázatokban megadott) Q ˆ( a, s) becsléseink alapján melyik cselekvést milyen valószínűséggel választjuk, ha mohó eljárással biztosítjuk a felfedezést hóbortos eljárással biztosítjuk a felfedezést -mohó eljárással biztosítjuk a felfedezést és =0,1, Boltzmann lehűtéssel biztosítjuk a felfedezést, és a jelenlegi iterációnál T=20? Adja meg a valószínűségeket T=1 és T=0,01 esetre is!

2. Tegyük fel, hogy a választott cselekvés a JOBBRA lett, és ennek hatására az (1,2)-re léptünk. Hogyan alakul az IK-tanulás alapján a Qˆ ( FEL,(1,1)), Qˆ ( JOBBRA,(1,1)), Qˆ ( LE,(1,1)), Qˆ ( BALRA,(1,1)) becslésünk, ha a bátorsági (vagy tanulási) faktor) 0,1; a leszámítolási tényező 0,5?