Tartalomjegyzék. 1. Bevezetés... 3. 2. Gépi tanulás... 6. 2.1. A gépi tanulás fogalma... 6. 2.2. Input adatok... 6. 2.3. A reprezentációs nyelv...



Hasonló dokumentumok
26. HÁLÓZATI TÁPEGYSÉGEK. Célkitűzés: A hálózati egyenirányító és stabilizáló alapkapcsolások és jellemzőinek megismerése, illetőleg mérése.

Opkut 2. zh tematika

Jelek és rendszerek 2.

adott egy nemnegatív c(u, v) kapacitás. A gráfnak kitüntetjük két pontját: az s termelőt és a t fogyasztót. Ekkor a (G; c; s; t) négyest hálózatnak

Személyiségtípusok és kommunikáció a szervezetben 1

FIATAL MŰSZAKIAK TUDOMÁNYOS ÜLÉSSZAKA XVIII.

Elektronika 2 (BMEVIMIA027)

Ezért A ortogonális transzformációval diagonalizálható, vagyis létezik olyan S ortogonális transzformáció,

Portfólióelmélet. Portfólió fogalma. Friedman portfólió-elmélete. A befektetés három jellemzője. A kockázat általános értelmezése (Kindler József)

A tőzsdei részvények hozamainak modellezése fontos feladat, mert a hozamokat leíró

Tudtad? Ezt a kérdést azért tesszük fel, mert lehet, hogy erre még nem gondoltál.

ω = r Egyenletesen gyorsuló körmozgásnál: ϕ = t, és most ω = ω, innen t= = 12,6 s. Másrészről β = = = 5,14 s 2. 4*5 pont

d) Kétfokozatú differenciálerősítő közvetlen csatolással Ha I B = 0: Az n-p-n tranzisztorok munkaponti árama:

5. Differenciálegyenlet rendszerek

ismerd meg! A digitális fényképezgép VII. rész

Statisztika gyakorló feladatok

Gyakorló feladatok Az alábbiakon kívül a nappalis gyakorlatokon szereplő feladatokból is lehet készülni.

Juhász István Orosz Gyula Paróczay József Szászné Dr. Simon Judit MATEMATIKA 10. Az érthetõ matematika tankönyv feladatainak megoldásai

Középszintű érettségi feladatsor Fizika. Első rész

(11,05 Miskolczi Ferenc megérkezett, a létszám: 21 fő)

finanszírozza más városnak, tehát ezt máshonnan finanszírozni nem lehet.

Gépszerkezettan III. Példatár

Karacsonyt. Kellemes. és boldog uj evet. 829 Ft/db. Ft/Kg. 879Ft/db. Coca-Cola, Fanta narancs. Törley pezsgő. kométa vendégváró sertés virsli*

Matematika A3 HÁZI FELADAT megoldások Vektoranalízis

( E) ( E) de. 4πε. Két példa: 1. példa: Rutherford-szórás. 2. példa: : Kemény gömbön történı szórás szögfüggése. szögfüggése (elméletileg(

Hatvani István Fizikaverseny forduló megoldások. 1. kategória. 7. neutrínó. 8. álom

Paraméteres eljárások, normalitásvizsgálat, t-eloszlás, t-próbák. Statisztika I., 2. alkalom

Tartalom Fogalmak Törvények Képletek Lexikon 0,2 0,4 0,6 0,8 1,0 0,2 0,4 0,6 0,8 1,0

GAZDASÁGI MATEMATIKA I.

Tiszta és kevert stratégiák

5. Logaritmus. I. Nulladik ZH-ban láttuk: 125 -öt kapjunk. A 3 5 -nek a 3. hatványa 5, log. x Mennyi a log kifejezés értéke?

Az egyenes vonalú egyenletesen változó mozgás

Adatbázisok elmélete 17. előadás

Tipikus dinamikus tagok

Exponenciális és logaritmikus egyenletek, egyenletrendszerek, egyenlôtlenségek

HÁZI FELADAT megoldási segédlet. Relatív kinematika Két autó. 1. rész

Kokusai Budoin, IMAF International Martial Arts Federation Nemzetközi Harcművészeti Szövetség AIKIDO - IAIDO - JUJUTSU - KARATEDO

mateking.hu -beli vektorokat, de egyáltalán nem biztos, hogy így az egész V

ÚJPALOTA HELYSZÍNRAJZ, TÉRKIALAKÍTÁS FŐ TÉR ÖTLETPÁLYÁZAT. köz. Zsó kav. í rp. író

Populáció nagyságának felmérése, becslése

Egy látószög - feladat

Országos Középiskolai Tanulmányi Verseny 2010/2011 Matematika I. kategória (SZAKKÖZÉPISKOLA) Az 1. forduló feladatainak megoldása

5. IDŐBEN VÁLTOZÓ ELEKTROMÁGNESES TÉR

A torokgerendás fedélszerkezet erőjátékáról 1. rész

Sűrűségmérés. 1. Szilárd test sűrűségének mérése

A digitális multiméterek

tud vinni, tehát nem kényszeríthetjük építsen magának, hogy a mozsárkályhát Abból indulnék ki, hogy nem elvétett gondolat-e a fűtőmű

Mintaillesztő algoritmusok

"ALAPÍTÓ OKIRAT... A továbbiakban változatlanul a 13. ponttal bezárólag. Határidő: határozat megküldésére: október 30.

Budapesti Műszaki Főiskola Kandó Kálmán Villamosmérnöki Főiskolai Kar Automatika Intézet. Félévi követelmények és útmutató VILLAMOS GÉPEK.

Házi feladatok megoldása. Automaták analízise, szintézise és minimalizálása. Házi feladatok megoldása. Házi feladatok megoldása

A tapintó hőmérséklet érzékelő hőtani számítása, tekintetbe véve a környezet hőmérsékletterének a felület dőlésszögétől való függését

ÖSZVÉRSZERKEZETEK. Tartószerkezet-rekonstrukciós Szakmérnöki Képzés a BME Szilárdságtani és Tartószerkezeti Tanszéken. Dr.

Kedves Csapat! Folytatódjon a küldetés!

MUNKAANYAG. Szabó László. Hőközlés. A követelménymodul megnevezése: Kőolaj- és vegyipari géprendszer üzemeltetője és vegyipari technikus feladatok

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Exponenciális és Logaritmusos feladatok

A VI. FEKETE MIHÁLY EMLÉKVERSENY

A vasbeton vázszerkezet, mint a villámvédelmi rendszer része

E5CN Alkalmazási segédlet

KOVÁCS KLÁRA A SPORTOLÁS MINT TÁMOGATÓ FAKTOR A FELSŐOKTATÁSBAN

STATISZTIKA (H 0 ) 5. Előad. lete, Nullhipotézis 2/60 1/60 3/60 4/60 5/60 6/60

MAGICAR 441 E TÍPUSÚ AUTÓRIASZTÓ-RENDSZER

7. osztály, minimum követelmények fizikából

Adatbázisok elmélete 16. előadás

l.ch TÖBBVÁLTOZÓS FÜGGVÉNYEK HATÁRÉRTÉKE ÉS DIFFERENCIÁLHATÓSÁGA

1. Előadás: Készletezési modellek, I-II.

Általában a pálinkáról...

MATEMATIKA ÉRETTSÉGI október 25. KÖZÉPSZINT I.

VÉREK TES. Amit Lélekben kezdtetek el. ANYÁK NAPJÁN SZERETETTEl KÖSZÖNTÜNK MINDEN ÉDESANYÁT!

1. feladat Oldja meg a valós számok halmazán a következő egyenletet: 3. x log3 2

Középiskolás leszek! matematika. 13. feladatsor

A Hardy-Weinberg egyensúly

A Griff halála. The Death of Griff. énekhangra / for voice. jön. œ œ. œ œ œ. œ J. œ œ œ b J œ. & œ œ. n œ œ # œ œ. szí -vű sze-gé-nyek kon-ga.

4. Hatványozás, gyökvonás

Vektortér fogalma vektortér lineáris tér x, y x, y x, y, z x, y x + y) y; 7.)

1. tétel: EGYENLETES MOZGÁS


Óravázlatok: Matematika 2. Tartományintegrálok

ELASTO - LINE I. Vasalatlan saruk

Garay János: Viszontlátás Szegszárdon. kk s s. kz k k t. Kö - szönt-ve, szü-lı - föl-dem szép ha - tá-ra, Kö - szönt-ve tı-lem any-nyi év u-

GAZDASÁGI ÉS ÜZLETI STATISZTIKA jegyzet ÜZLETI ELŐREJELZÉSI MÓDSZEREK

Intuitív ADT és ADS szint:


tényezőt az 5. fejezetben tárgyaltuk részletesen. A jelen fejezetben a ψ ( E)

hajlító nyomaték és a T nyíróerő között ugyanolyan összefüggés van, mint az egyenes rudaknál.

Megjegyzések a mesterséges holdak háromfrekvenciás Doppler-mérésének hibaelemzéséhez

MUNKA, ENERGIA. Fizikai értelemben munkavégzésről akkor beszélünk, ha egy test erő hatására elmozdul.

2. modul Csak permanensen!

Kerületi Közoktatási Esélyegyenlőségi Program Felülvizsgálata Budapest Főváros IX. Kerület Ferencváros Önkormányzata 2011.

DÖRZSKÖSZÖRÜLÉS JÓSÁGI MUTATÓI ÉS TECHNOLÓGIAI OPTIMÁLÁSA

F a 1 u s s v Sándor: A Jogi és Ügyrendi Bizottság 6 igen szavazattal a rendelet-tervezet elfogadását javasolja.

1. Végezd el a kijelölt mûveleteket a betûk helyére írt számokkal! Húzd alá azokat a mûveleteket,

A Gauss elimináció M [ ]...


Jegyzőkönyv. Termoelektromos hűtőelemek vizsgálatáról (4)

Dinamikus optimalizálás és a Leontief-modell

Fizika Előadás

1. Gyakorlat: Egytárolós rendszerek modellje és szabályozásuk jellemzése

SZENT ISTVÁN EGYETEM

Tartalom Fogalmak Törvények Képletek Lexikon

Átírás:

Tlomjegyzék 1. Bevezeé... 3 2. Gépi nulá... 6 2.1. A gépi nulá foglm... 6 2.2. Inpu dok... 6 2.3. A epezenáció nyelv... 8 2.4. Háéimeeek... 9 2.5. Keeéi égi... 9 2.5.1. Evolúció lgoimuok... 10 2.5.2. Geneiku lgoimuok... 11 2.5.3. Bkeiáli lgoimuok... 12 2.6. A nulá helyeégé méő éékelő függvény... 13 2.7. Felügyele nélküli nulá... 14 2.8. Felügyel nulá... 14 3. A megeőíée nulá lpfoglmi... 16 3.1. A megeőíée nulá feld é lpfoglmi... 16 3.1.1. Az ügynök-könyeze modell... 17 3.1.2. Hozm... 18 3.1.3. Mkov-uljdonág, Mkov dönéi folym... 19 3.1.4. Éékelő függvény, Bellmn-egyenle... 21 3.1.5. Opimáli poliik é éékelő függvények. A Bellmn-féle opimliái egyenle... 23 3.2. A megeőíée nulá elemi módzeei... 25 3.2.1. Dinmiku pogmozá... 25 3.2.1.2. A poliik jvíá... 27 3.2.1.3. Poliik ieáció... 29 3.2.1.4. Éék ieáció... 30 3.2.1.5. Állánoío poliik ieáció... 31 3.2.2. Időbeli diffeenciák módzee... 32 3.2.2.1. TD jólá... 33 3.2.3. A TD(0) módze opimliá... 34 3.2.3.1. SARSA... 34 i

3.3 Emlékezeő nyomok módzee... 35 3.3.1. n lépée TD jólá... 35 3.3.2. A TD (λ) előeekinő váloz... 37 3.3.3. A TD(λ) vizekinő váloz... 39 3.3.4. A TD(λ) módze lklmzá logiki jáékokbn... 41 3.4. Kpcol függvény-ppoximáookkl... 42 3.4.1. Éékelő függvény beclée függvény-ppoximáookkl... 42 3.4.2. Gdien keeéi eljáá... 44 3.4.3. Lineái eljáá... 45 4. A minimx kiéékelé... 47 5. A megeőíée nulá bemuá egy nuló mőb jáék implemenációjábn... 50 5.1 Az mőb jáék öénee, zbályi... 50 5.2 Állpoé é endze ev nuló mőb lklmzához... 51 5.2.1. A könyeze modellje... 51 5.2.1.1. Az állpoé epezenációj... 51 5.2.2. Az ügynök modellje... 52 5.2.2.1. A kövekező lépé dönéének meghozl... 52 5.2.2.2. Minimx poliik... 58 5.2.2.3. Az állpo kiéékelő függvény közelíée... 59 5.3. A pogm felhználói felüleének imeeée... 62 5.4. Fuái eedmények, özegzé... 66 Mellékle... 71 1. mellékle Jelöléek... 71 2. mellékle Hdwe é Sofwe-chiekú... 73 Iodlomjegyzék... 75 Summy... 76 ii

Inelligen zámíái módzeek lklmzá logiki jáékokbn 1. Bevezeé 1947-ben Ahu L. Smuel, ki kkoibn villmoménök pofezo vol z Illinoi-i Egyeemen, zzl z öleel áll elő, hogy í egy dám (Checke) jáéko. A dámjáék, mi állábn egy, kknál egyzeűbb jáékkén nk zámon, ökélee ezköznek bizonyul, hogy bemu j zimboliku zámíá hékonyágá egy pogmozái pojek keeében. A feld egyzeű vol: Íjon egy dámjáék pogmo, hívj ki dámjáék világbjnoko egy mékőzée, é győzzön ellene." Az eméle, hogy ezzel ki pojekel felkeli nnyi z embeek édeklődéé, hogy z egyeemi zámíógépe nyújo dományok emelkedni fognk. Smuel ekko még nem i ejee, hogy ké évizeden keezül fog mjd dolgozni ezen pogmon, minek kövekezében nem cupán elkézí egy meei fokú jáéko (ki megvee ko egyik legjobb meiki dámjáékoá), hnem fono öleekkel i előáll mjd zámíógépe jáékok é gépi nulá eén. Az ké publikáció (Smuel 1959, 1967) mely kuái ézleezi, meeége inelligenci zkeüleének ké megháozó nulmány vál. Ezekben munkákbn nemck keeé lpú zámíógépe jáékpogmok (úgy min: minimx, lf-bé nyeé) eüleén veze be kiemelkedő fonoágú újíáok, hnem zámo olyn nulái echniká i fellál, melyek lklmk pogm eljeíményének uomiku fejlezéée. A dámjáéko ökélee ezköznek lál gépi nulá nulmányozáá, mivel jáékokbn felmeülő poblémák okzo vló világ poblémáink leegyzeűíe eeei, így ezen poblémák megfigyelée leheővé ezi kuók zámá z, hogy mguk nulái poblémák özponoínk. Eedményeinek közönheően zámo olyn módze, mi hozzájául hhoz, hogy gépi nulá udományo zine emelkedjék, közvelenül Smuel nevéhez köődik, é z ő, nulál kpcolo öleeinek öbbége vlmilyen fomábn még mindig hználbn vn. A dámjáéko előzö i emlékeze zok lépéeke, melyekkel gykn lál zemben mgá jáék folymán. Az imélée nulánk ezen egyzeű fomáj leheővé ee zámá, hogy idő nyejen, é hogy ovábbi jáékok folymán behóbb vizgálok végezheen minden olyn lklomml, miko egy, má ime állál lálkozo jáékmezőn. Egy máik fono vívmány, mi 3

Inelligen zámíái módzeek lklmzá logiki jáékokbn pogmml kpcolbn fono megemlíeni z, hogy Smuel jáéko vázol fel előkén ikeeen nnk nulái módzenek z lklmzáá, mi m megeőíée nulánk nevezünk (einfocemen lening), é minek egíégével z éékeléi függvény úlyozá beállíhó. A pogm mgá fejlezee, mégpedig úgy, hogy já mg bil minváloz ellen jázo. A kiéékelő függvény úlyi minden lépé uán beállío, egy logiki jáékokbn m i endzeeen hznál módze, z időbeni diffeenciák néven ime módze egy váloz lpján. Smuel pogmj nem ck beállío kiéékelő függvény úlyi, hnem folymon megzekezee kiéékelő függvény, zon pméeek lpján, melyek éékenek bizonyulk z do jáékállá kiéékelééhez. Kéőbb megváloz kiéékelő függvény, é pméeeke nem lineái kombinációbn ábázol, hnem egy olyn endzeben, mi egy háom éegű neuáli hálóz honlío. Ez endze özehonlíáo nulál (compion ining) fejlezeék, mely éning meei zinű mékőzéek öbb eze álláából áll. Smuel dámjáék pogmjánk kifejlezée ó gépi nulá, é jáék pogmázá eülee ok gzdgodo, de zámo ikee új módze, melye időközben fejlezeek ki ezen zkeüleen, közvelenül z ő öleeihez köődik. Az ő dámjáékoá mi npig e ké kuái ág legjelenőebb vívmányi közö juk zámon, mely egyben ökélee példkén hozhó fel e eüleek eedménye zimbióziá. A zámíógépe jáékok eén végze kuáok vló váloák AI (Aificl Inelligence, Meeége Inelligenci) elő álmi, vgyi léejö egy pogm melynek egíégével zámíógép megvee z kkoi kkvilágbjnoko egy jázmábn, mjd egy évvel kéőbb veeny i nye ellene. (Scheffe nd Pl 1997, Kpov 1998). A Chinook nevű dámjáék-pogm vol z elő, melyik egy hú-vé világbjnok ellen bámilyen jáékbn i nyeni udo. Ezzel, néhány egyzeűbb, népzeű jáék ejélye, úgy, min Connec 4, Gomoku, Nine men' moi megoldódo. A pogmok m má komoly ellenfelei legjobb embe jáékooknk, például olyn jáékok eeében, min z oábl, z ohello, vgy cbble. Hékony kuáok folynk má jáékokkl kpcolbn i, úgy min póke, bidge, hogi illeve Go, de ezekben gép még nem győze le z embe. 4

Inelligen zámíái módzeek lklmzá logiki jáékokbn E diplommunk célj Smuel nyomán hldv gépi nulá, megeőíée nulá vizgál egy inelligen mőb jáéko implemenációján keezül. A dolgoz, máodik fejezeében áekinjük gépi nulá elméleének legfonobb foglmi. A hmdik fejezeben megeőíée nulá lpfoglmi é lgoimui imeeem. A negyedik fejezeben elje infomációjú kézemélye jáékok jáékfájánk minimx kiéékelééől lez zó. Ezen imeeeke lpozv z öödik fejezeben bemuok egy, z Amőb jáéko poblémán lklmzo níái módze, illeve fuáok eedményei. Megpóbálok fejlezéi pzlok é fuái eedmények lpján kövekezeéeke levonni, é ovábbi kuái iány megháozni. 5

Inelligen zámíái módzeek lklmzá logiki jáékokbn 2. Gépi nulá 2.1. A gépi nulá foglm A gépi nulá Smuel ó meeége inelligenci egyik legfőbb kuái eüleévé fejlődö. A gépi nulá egy dpív eljáá, mely endzeben olyn válozáok hoz lée, hogy kövekező ciklubn megjelenő zono poblémá endze má helyeebben oldj meg. A nulái folym pméeek beállíáá, illeve copooíá, ozályozá, izikilg zignifikán zbályzeűégek felááá ezi leheővé endze zámá. A gépi nulál má má nem ck kuóműhelyekben fogllkoznk, hnem vló működő endzeekben i ikeeen hználják. A udábáziú endzeek é z imeezezé uomizáláán úl, gépi nulá módzeei gykn hználják iziki elemzéek ámogáánál z dok özefoglláához, z dokbn ejlő, eddig imeelen özefüggéek leleplezééhez. Ez eüle z dbányáz (d minining), melye vezeői dönéámogó endzeekhez lklmznk. Sokn úgy ják, hogy ez eüle lehe leggyobbn fejlődő keekedelmi felhználá meeége inelligenci echnikáknk. A gépi nulá é z dbányáz módzeei ovábbi gykoli poblémák megoldáá i hználják, min például elekommunikáció hálózok elemzéée é iányíáá, mobil elefonkézülékekkel kpcolo cláok feldeíéée, hékony lifvezélée, é zámo peciáli eülee i, min például ovoi dignoziká, illeve kifejezében gzdg zené jázó gépek megvlóíáá. Ezen kívül végül, de nem uoló obn, beállíhjuk ennek egíégével világ egyik legjobb oábl jáékoánk éékeléi függvényé. 2.2. Inpu dok Egy nulái módze kiválzá elő zükége mind poblém, mind endelkezée álló dok elemzée. A könyeze, z inpu dok, példák gépi nulá lpjá jelenik. Egy nulái módze eedményeége ngyméékben feldolgozndó dok minőégén é 6

Inelligen zámíái módzeek lklmzá logiki jáékokbn mennyiégén múlik. Az dok vége mennyiégben, illeve dfolymkén folymon állhnk endelkezée. Hozzáféheő könyeze, h nuló endze zámá bizoív vn hozzáféé könyeze elje állpoához. Deeminiziku könyeze, h jelenlegi állpo é z inelligen endze celekedee háozz meg kövekező állpoo. Hozzáféheő, deeminiziku könyezeben endzenek nem kell bizonylnággl öődnie. Epizódzeű könyeze, h endze ézlel, mjd celekzik, de ez celekede függelen z előzőekől, zz ck z do epizódbn événye. H könyeze megválozh zon időzk l, míg endze gondolkodik, kko könyeze dinmiku, egyébkén iku. H léezik z ézleléek é celekvéek elkülönülő, világon definiál vége elemű hlmz, kko z mondjuk, hogy könyeze dizké. Ezek lpján kk é z mőb például dizké, mivel minden egye lépében vége zámú leheége lépé vn, hozzáféheő, mivel könyeze eléheő, deeminiziku, hizen vélelennek nincen zeepe, lépé háozz meg kövekező állpoo, vlmin epizodiku, é iku. A bemenő dok izágá kövekező jellemzők befolyáolják: zjoág konzizenci eljeég mgyázóképeég ényzeűég zámzeűég A zjoág z jeleni, hogy z dok közö vn-e hib, illeve milyen méékben fodul ez elő. A konzizenci ul, hogy z inpu dok nem lmznk-e ellenmondáoágo. A eljeég z vizgálj, hogy endelkezée áll-e minden olyn d, mely zükége egy celekvéi döné kilkíáá endze zámá. Például egy mőb jáék eeén lájuk mind já, mind ellenfelünk jáékálláá, így képeek 7

Inelligen zámíái módzeek lklmzá logiki jáékokbn vgyunk döné hozni kövekező lépéől, míg egy káyjáék eeén ellenfelünk káyái zámunk ejve mdnk, é ellenfelünk káyáink imeee elengedheelenül fono lenne egy jó égi kilkíáához. Mgyázóképeégen z éjük, hogy z do jelenég mennyie vn hál má jelenégeke, így ezen jelenégek imeeében udunk-e kövekezeni má eeményeke. A kevébé fono eeményeke, melyek nincenek ngy hál endze működéée endze egyzeűíée édekében eeleg nem kell figyelembe venni. Az inpu dok ényzeűek, h mééi eedménykén, vgy például dizké jáékálláokkén állnk endelkezée. A ényzeű dok feldolgozá okkl egyzeűbb. Az dok zámzeűége ul, hogy z dok olyn numeiku fomáb kell hozni, hogy zokon mind numeiku, mind logiki műveleeke el leheen végezni, mivel ezeke műveleeke zükég vn nulái folym oán. 2.3. A epezenáció nyelv Az inpudok, nulá eedménye é háéimeeeke epezenálá feldolgozához elengedheelen. Elméleileg z inpudok lehe egy, nulái eedményől eléő epezenáció nyelven ábázolni, de gykn egyzeűbb ezeke inkább zono lp helyezni. A különböző dfomáumok z infomációk epezenáláá különböző méékben felelnek meg. A megfelelő nulái módze kiválzáá ngyméékben befolyáolj módze áll lklmzo epezenáció nyelv. A gépi nulái módzeek egyik leheége epezenáció nyelve lehe uljdonág vekook. A nulái eedmény i egy előe ögzíe ukúájú veko epezenálj. Ez epezenáció fomá zömmel meeége neuáli hálózok é z evolúció lgoimuok eeében hználják. Néhány ovábbi foglom izázá zoul komple poblém epezenációvl kpcolon: Az állpo, poblém leheége dzekezeeinek ééke. Az állpoé, z öze lényege dzekeze előfoduló éékeinek hlmz. 8

Inelligen zámíái módzeek lklmzá logiki jáékokbn A műveleek, illeve opeáook, z állpoéen éelmeze nzfomációk jelenik. Meg kell dni művele éelmezéi ományá, vlmin műveleek végehjáánk kölégei. Ez kölég lpéelmezében egyégnyi. Tuljdonképpen poblém megoldáá iányuló egy lépé, mely egyik állpoo máikb vizi á. A célfeléel, z eléni kíván célállpook hlmzá íj le. Ezek hlmz állábn nem konké állpook felooláávl, hnem feléelekkel definiálk. Réze z állpoének. A kezdőállpook hlmz i éze z állpoének. Egy kk jáék eeén például zbályok zein vló elhelyezée világo illeve öé bábuink 8 x 8- áblán. A megoldá egy olyn műveleooz, mi elveze kezdőállpoból célállpob. Az opimáli megoldá egy minimáli kölégű megoldá leheége megoldáok közül. 2.4. Háéimeeek Az d- é modellvezéel nulái módzeek közöi különbége z dj, hogy endelkezée állnk-e poblémávl kpcolo háéimeeek, illeve ezek felhználhók-e nulái lgoimu kilkíáábn. Amennyiben ezeke háé-infomációk endze felhználhj, előe definiál modelleke lkov modellvezéel nulá vlóíh meg. Amennyiben ezek háé-infomációk nem állnk endelkezée egy álláno, zkeüleekől függelen, dvezéel nulá megvlóíó endze épíheő. 2.5. Keeéi égi A nulá egy fj opimum keeékén foghó fel egy bzk ében. A keeéi égi kiválzáánál ez z bzk keeéi ee kell elődlegeen figyelembe vennünk, mivel z egye keeéi lgoimuok például nem lklmzhók végelen keeéi ében, máok pedig elkdhnk egy lokáli opimum ponnál, így vlódi opimumo nem képeek meglálni. 9

Inelligen zámíái módzeek lklmzá logiki jáékokbn Az opimlizálá vál má zámíógép felhználá egyik legfonobb eüleévé. Ennek egíégével végzik legöbb olyn zámíá, miko egy endze bizonyo kvniív uljdonágá minden endelkezée álló infomáció kihználv növelni vgy cökkeneni kell mindddig, míg egy opimáli megoldá lálunk. Az opimlizálá léeze má zámíógépek megjelenée elő i, de bonyolul poblémák eeén zámíógép nélkül zine leheelen vol ngy mennyiégű d feldolgozá z igényel óiái zámíái kpciá mi. A zámíógépek elejedée elő még ck nliiku módzeeke hználk opimlizáció. Ezek közö jellemzője vol, hogy z opimlizálndó endzeek ck egy bizonyo ézhlmzá volk lklmzhók, mivel ck zigoú megköéekkel, például diffeenciálhóág eeén lehee zükége zámíáok végezni. Ide oznk például gdien lpú módzeek, melyek közül lán legimeebb z úgyneveze hegymázó módze. Ennek lényege z, hogy egy do állpoból lokáli uljdonágok lpján lépünk legígéeeebb iányb ovább. Ennek módzenek zonnl láhó gyengeége, mi lokáli zélőéékeke vló ézékenyég. A feni poblém kiküzöböléée fejlezeék ki vélelenen lpuló, úgyneveze zochziku módzeeke, mely lgoimuok z nliiku megfonoláokon úl egyéb, vélelenzeű háok i képeek pméeek válozá. Így képe egy hielen ugál kikeülni lokáli zélőéékből, é folyni keeé végő opimum felé. Ennek módzenek óiái zámíáigénye vn, ezé ck zámíógépekkel, ezeken i főkén elozo, páhuzmo feldolgozál lehe jó eedményeke eléni. Egyik legédekeebb zochziku keeéi módze zimulál lehűé. Ez belő zekezeében honlí hegymázó módzee, de vélelen lépéeke i lmz. A vélelen háok gykoiágá z idő múláávl cökkenjük, minek z vá eedménye, hogy helye ú kezdei gyo meglálá uán képe z opimáli megoldá pono beháoláá. 2.5.1. Evolúció lgoimuok Az evolúció lgoimuok földi áll- é növényfjok dwini fejlődéének zámíáechniki modelljei, vgyi biológii evolúció uánozó vlózínűégi 10

Inelligen zámíái módzeek lklmzá logiki jáékokbn keeő eljááok. Ezen eljááok lényege, hogy emézee folymok lpul véve, populációk elkülönülen önállón fejlődjenek emézee kiválzódá zbályi zein. A populációk egyedei udnk zpoodni, elpuzulhnk, illeve i jön be zochziku opimlizálánál megemlíe vélelen zeepe, zpoodáuk közben muáció i felléphe. Ez folymo kell lgoimub kódolni, hol z egyedből ukú, z eeményből evolúció opeáo lez. A populáció egyedei ponok epezenálnk keeéi ében. A kiindulái populáció úgy módoíjuk kiválzó, keezező é muáció eljááokkl, hogy z egyedek éékének álg növekedjen. Ez z éék felel meg biológii lklmág foglmánk, így z álg növekedéé honlón éjük el, min hogy z evolúció működik: ngyobb éékű, lklmbb egyedeknek ngyobb eélyük vn, hogy megjelenjenek kövekező geneációbn i, illeve z uódok z lklmbb egyedek uljdonági póbálják egyeíeni. Kellő zámú geneáció múlv populáció legjobb egyedei közel honlók leznek leheége legjobb egyedekhez. Az lklmág méée állábn egyzeűen célfüggvény éékével öénik, ehá öekzünk, hogy z egyedek célfüggvény opimum helyei köül űűödjenek. 2.5.2. Geneiku lgoimuok A geneiku lgoimuok evolúció echnikán lpuló eljááok, melyek fuáuk közben keezeződée zpoodá, muáció, vlmin zelekív puzulá opeáo hználnk populációk megválozáához. Ezeke z lgoimuok vló, mgbb endű élőlények éleé megháozó biológii folymok modellezéekén hozák előzö lée. A megvlóíá elve kövekező: Az egyedek, káck emézeben, populációk lkonk, melyek egymáól ézben vgy egézben elzán léező zpoodái közöégek. Az egyed epezenációj egy kód, dzekeze, mely úgy áolj z egyed uljdonági, min hogy DNS óiámolekul egy élőlényé. A DNS zpoodá oán áöökíheő, z egyed élee oán vizon nem válozhó. A zelekció z élővilágbn z egyedek léfennmdáé folyo küzdelme. A eméze zbályi zein ck legmegfelelőbb egyedek hozhnk lée egy 11

Inelligen zámíái módzeek lklmzá logiki jáékokbn vgy öbb uódo, leggyengébb uljdonágúk még ivée kouk eléée elő elpuzulnk. Ez folym z opimlizáció lgoimubn oz uljdonágú egyedek DNS-ének öléé, jó uljdonágúk DNS-ének megáá, ezen DNS-ek kombinációiból új DNS-ek épíéé jeleni. Az egyedek zpoodáuk oán, keezeződéel udnk még megfelelőbb uódo léehozni, mi mi kódook ézleeinek vélelenzeű ceéjével vlóíunk meg. Ez folym honlí lán legjobbn vló, z élővilágbn léező módzee, miko i ivo zpoodá eeén ké ivej különböző infomációnygából z uód DNS-ébe vélelenzeűen keülnek ézleek. Muációnk nevezzük egy züleő egyed génkézleének vélelenzeű megválozáá, melye z lgoimubn DNS kód vélelenzeű, de jól zbályozo megválozá jeleni. A biológiábn, emézee köülmények közö muáció állábn ngyon ik eemény, de min például növénynemeíé i muj, meeégeen felgyoíhó folym, mi égen emézee módon évmilliókig o, z m okkl övidebb idő l, megháozo iányb megeheő. Egy zámíógépen fuó lgoimu eeén ez z idő emézeeen még okkl övidebb i lehe. 2.5.3. Bkeiáli lgoimuok Az evolúció echnikák máik fjáj bkeiáli lgoimuok. A vélelen zeepe zinén ngyon fono ebben z eljáábn i, de z egyedek nem keezeződée zpoodál, hnem ozódál zpoodnk. A muáció é zelekció ugyn úgy működik, min egyéb má evolúció echnikáknál. Az lgoimu endze megfelelő leíáávl kezdődik. A endzenek olyn pméeekkel kell endelkeznie, melyek jól é egyéelműen jellemzik. Ezeken pméeeken hjjuk vége z lgoimu. Az elő lépében léehozunk vélelenzeű pméeekkel egy endze. Ez elje endze lez kiinduló egyed. Ezuán z egyede lemáoljuk egy előe megháozo példánybn. Ez bkéiumok zpoodáánk megfelelő ozódá. Ebben megközelíében ehá z uódok egy egyed hozz lée, eléően hgyományo geneiku lgoimuól. A klónozá uán minden lemáol példány muáció lklmzunk. A muáció i i pméeek vélelenzeű megválozáá jeleni. A pméeek megválozá különböző keeek közé zoíhó, leheőég vn 12

Inelligen zámíái módzeek lklmzá logiki jáékokbn ehá finomhngolá i, é i, hogy ck egy bizonyo pmée válozunk meg. A muáció uán vlmilyen zempon zein kiéékeljük z egyedeke, é megháozzuk közülük legmegfelelőbbe. Ck ez z egyelen kiválzo egyede juk meg. Amennyiben endzeől egyéb má, például gdien módze lpján újbb infomációk kpunk, z egyedünke e zein i megválozhjuk. Ezuán megvizgáljuk, hogy z egyed mennyie d jó megoldá feld. H megoldá megfelelő, kko megáll z lgoimu, h nem megfelelő, kko új klónozá é muáció lklmzv folyjuk z. Az lgoimu megállíáánk máik leheőége, hogy előe megháozo zámú geneáció elééeko állíjuk le folymo. Egye jobb egyedek jönnek lée, hizen muáció uán legmegfelelőbb egyede válzjuk ki. A klónozá é muáció uán, zelekciónál z eedei egyed egyenngú lez öbbi egyeddel zemben, é kiéékelé uán lehe, hogy ikee muáció hiányábn új z eedei egyed md éleben. Az eljáá folymon közelíi z opimáli endze, de egy idő uán má nem bizo, hogy jvulni fog legjobb egyed. Ennek beállánk z ideje, függ ól, hogy hány pméeel jellemezzük endze, hogy hány pméee lklmzzuk muáció, hogy hány példány hozunk lée klónozáko, vlmin feldolgozá ebeégéől, é páhuzmoágáól. Amennyiben ngy zámú egyede klónozunk, kiebb z eély lokáli minimumb gdá, de lefuá i lbb lez. Özehonlív ké lgoimu, geneiku lgoimu eeében ké zülő hoz lée egy uódo, de ez ivée koukbn öbbzö i megeheik, míg bkeiáli eljáá eeében egy zülő egyed hoz lée ok uódo, é mennyiben egyik uódj éleképeebbnek bizonyul, já mg i kihl. 2.6. A nulá helyeégé méő éékelő függvény A gépi nulá nem má, min z opimáli endzeel kpcolo hipoéziünk folymo finomíá. Hogy egy új hipoézi jobb-e, min z előző, különböző éékelő függvények egíégével háozhjuk meg. Ez lehe: logiki, például hogy egye feléek eljeülek-e, iziki, például kedvező eedmények elív gykoiág nő-e, 13

Inelligen zámíái módzeek lklmzá logiki jáékokbn vlózínűégi, például endze eedménye dönéének feléele vlózínűége nő-e, infomációelmélei b. Az éékelő függvények lehenek előe ögzíeek, de endze uglmágá jvíhj egy zekezeileg ugyn ögzíe, de válozhó pméeű éékelő függvény. A válozhó éékelő függvények eeén endze lklmzkodóképeége ugyn mgbb lehe, zonbn nem bizo, hogy nulái eljáá oán hipoéziünk folymon ieál z opimáli eedményhez. 2.7. Felügyele nélküli nulá Az nulá, miko nem áll endelkezéünke emmilyen d endze helye kimeneével kpcolon, felügyele nélküli nulánk nevezzük (unupvied lening). Az unupevied lening eljáánál bemenő dok nem előozályozok, endze z dok ömleze feldolgozáá végzi. A felügyele nélküli nulá oán nem áll endelkezée hznoági függvény, ezé endze nem képe megnulni, hogy do helyzeekben mi kéne ennie, ck képe, hogy endelkezéée álló dok közö özefüggéeke keeen, illeve ezen özefüggéek lpján meg udj jóolni, hogy egy do állpo milyen kövekezményekkel já. Egyik ipiku felügyele nélküli nulá lklmzó Meeége Inelligenci (MI) émeüle má emlíe dbányáz i. 2.8. Felügyel nulá Minden olyn ziuáció, melyben egy nuló endzenek mind bemeneé, mind kimeneé ézlelni udjuk, felügyel nulánk (upevied lening) nevezzük. Gykn kimenei infomáció egy külő níó dj. A upevied lening nulái mód feléele, hogy z inpu dok felhználó, níó vgy má eljáá áll előozályozok legyenek. 14

Inelligen zámíái módzeek lklmzá logiki jáékokbn Előozályozoág zein megkülönbözeünk ck poziív példákkl, illeve poziív é negív példákkl vló níá. 15

Inelligen zámíái módzeek lklmzá logiki jáékokbn 3. A megeőíée nulá lpfoglmi 3.1. A megeőíée nulá feld é lpfoglmi A példák lpján vló nulá eeében be-kimenei dpáok állnk endze endelkezéée, é endze feld, hogy egy olyn függvény nuljon meg, mely példkén megdo bemenei dokból, z dpáok kimenei ézei geneálj. A megeőíée nulá eeében könyezeől endelkezée álló dok okkl kevébé kényezeik el endze, mivel endze nem kp példák, é nem áll endelkezéée hznoágfüggvény em. Egy nuló endze képe megnulni kkozni, vgy má egyéb kézemélye elje infomációjú logiki jáéko pofezionáli zinen jázni, mennyiben do jáékálláokhoz megmuj níó, mi zámá legjobb lépé. Amennyiben vizon nem áll endelkezée níó, vélelenzeű lépéek oozávl i feléképezhei endze z állpoee, é nélkül, hogy z do pillnbn udná melyik lépé vol oz, illeve jó megnulhj milyen lépé lenne zámá opimáli különböző jáékálláok eeében. Ehhez zonbn egyfj infomáció, vizjelzée zükége vn endzenek, ez pedig z, hogy ki nye jáék végén. Az embei nulái folymo lpul véve megállpíhjuk, hogy udáunk legfőbb foá könyezeünkkel vló kpcol, ngyon gykn celekedeeinke i előobn könyezeünk velünk zemben ámzo elváái vnnk hál. A gyemekek felnőé váláuk oán nem kizáólg egy-egy zemélyől nulnk, hnem innen-onnn "ellenek" dolgok, z egéz könyeze együeen lkíj udáuk. Ninc ehá egyelen, mindenek fele álló níó, ki megmondj, hogy mi jó é mi oz, mégi, inelligenciánk évén képeek vgyunk eljáíni z ok-okozi vizonyok, mélyebb özefüggéeke, é z, hogy hogyn éhejük el céljink. A kövekezőkben fen vázol nulái módze egy jelenően egyzeűíe modelljé ekinjük á. Imeeem z egyzeűbb nulái helyzeeke é megoldáuknál lklmzhó lgoimuok. A feni gondolmene lpján megeőíée nulá (einfocemen lening) é feldá úgy foglmzhjuk meg, min egy olyn módze, mely kpcolok lpján, bizonyo célok 16

Inelligen zámíái módzeek lklmzá logiki jáékokbn özponoív nul. 3.1.1. Az ügynök-könyeze modell Leegyzeűíe modellünk ké lpveő foglom köé copooíhó. Ezek közül egyik z kív dönéhozó fél, melye ügynöknek vgy ágennek (gen) nevezünk, máik pedig vele kpcolbn álló könyeze (envionmen). Az ügynök é könyeze folymo kpcolbn áll egymál, z ügynök kciók válz, könyeze pedig ezeke egál, é új ziuáció mu z ügynöknek. A könyezeől ékezik julom (ewd) i, melye z ügynök mximlizálni kíván. A könyeze elje pecifikációj ehá egy megeőíée nulá feldo definiál. Ponobbn foglmzv, z ügynök é könyeze dizké 0,1,2... időpillnokbn kpcolb keül egymál. Minden időpillnbn z ügynök megkpj könyeze S állpoleíáá, hol S leheége állpook (e) hlmz. Ennek lpján válz egy A ) kció, hol A ) ( ( z állpobn megengede kciók hlmz. A kövekező lépében, ézben válzo kció függvényekén, kp egy 1 R julm, é egy új 1 állpob keül. Ennek z inekciónk zemlélee leíá láhó 1. ábán. Minden egye időpillnbn z ügynök egy leképezé vlóí meg z állpoleíáok é z egye kciók válzái vlózínűégei közö. Ez leképezé z ügynök poliikájánk (policy) nevezzük, é -vel jelöljük, hol (, ) eeén válzáánk vlózínűégé dj meg. A megeőíée nulá különböző módzeei z íják le, hogy z ügynök hogyn válozj poliikájá z idő előehldávl pzli függvényében. Röviden, z ügynök célj, hogy hozú ávon mximlizálj z özegyűjö julmk. 17

Inelligen zámíái módzeek lklmzá logiki jáékokbn Állpo Ügynök Julom Akció 1 Könyeze 1 1. áb Ügynök-könyeze modell megeőíée nulábn 3.1.2. Hozm A,,hozú ávon gyűjö julom" foglmá ponobbn megfoglmzv, z ügynök feld, hogy váhó hozmo (eun), R - mximlizálj, hol R közvelen julmk oozánk vlmilyen függvénye. A legegyzeűbb eeben hozm egyzeűen julmk özege: R 1 2 3... T, (1) hol T z uoló időpilln. A feni definíció ck kko éelme, h bezélheünk z,,uoló pillnól", vgyi h z ügynök-könyeze inekció emézee módon ézoozok, úgyneveze epizódok (epiode) bomlik. Ez helyze például káyjáékok, vgy egy lbiinu-feld eeében. Minden egye epizód egy úgyneveze emináli állpobn é vége, mjd egy kiünee kiinduló állpob, vgy kiinduló állpook vlmelyikébe keülünk. Néh zükégünk lez, hogy megkülönbözeük egymáól nem emináli állpook S hlmzá emináli állpookkl kiegézíe S hlmzól. Máfelől ngyon gykn z inekció-ooz nem bonhó éelme módon epizódok, gondoljunk ck folymzbályozái vgy obovezéléi feldok. Az ilyen jellegű feldok folyhó folymoknk nevezzük. Ekko (1)-ben megfoglmzo definíció T mi egy végelen o lkjá öli, 18

Inelligen zámíái módzeek lklmzá logiki jáékokbn melynek z özegé mximlizálni kjuk. Könnyen leheége zonbn, hogy o divegen, ilyenko mximlizálá éelmé vezi. Éppen ezé (1)-ben do definíció helye egy máik, kié bonyolulbb, de memikilg jobbn kezelheő, definíció dunk hozm, é bevezejük dizkonál hozm foglmá: R 2 1, 2 γ 3... i 0 γ γ (2) i i 1 I 0 γ < 1 z úgyneveze dizkonálái pmée. Amennyiben γ < 1, (2) o konvegen, feléve, hogy julmk i ooz koláo. H γ 0, kko z ügynök,,övidláó" bbn z éelemben, hogy ck közvelenül kövekező julom mximlizáláá öekzik. Ahogy γ 1 ( γ < 1), kéőbbi julmk egye ngyobb úllyl jelennek meg, z ügynök egye inkább,,előeláó" lez. Az (1) é (2) eee özefogllhjuk egy egyége hozmfüggvény definícióbn: T R γ (3) i 0 i i 1 H T vége, é γ 0, kko z epizodiku, h T é 0 γ < 1, kko pedig folyhó folym megdo definíció kpjuk. 3.1.3. Mkov-uljdonág, Mkov dönéi folym A megeőíée nulá előzőleg má imeee ügynök-könyeze modelljében z ügynök dönéei könyeze áll bizoío állpojelől függenek. Az állpo leíá lmzz z kuáli zenzoo infomációk, de ezen kívül má i zeepelhe benne. Bonyolul módon függhe z előző megfigyeléek oozáól, de z i lehe, hogy z kuáli infomáció z egéz endze kkeizikájá, lényegében z ámene-vlózínűégeke nélkül íj le, hogy megelőző megfigyeléeke figyelembe venné. Az ilyen endzeeknek, hol ehá ck közvelenül megelőző állpoo kell figyelembe venni, Mkov-uljdonág vn. Az lábbikbn megdom Mkov-uljdonág fomáli definíciójá. Az egyzeűég kedvéé együk fel, hogy S <, é R <. A legállánobb eeben könyeze dinmikáj ck z öze előző időpilln figyelembevéelével íhó le: P( 1 ', 1,,, 1, 1, 1..., 1, 0, 0 ) (4) 19

Inelligen zámíái módzeek lklmzá logiki jáékokbn minden ( ', ) S R -e, é minden leheége múlbeli,,,..., 1, 0, 0 eeén. Ellenben, h endze endelkezik Mkov-uljdonággl, kko könyeze dinmikájá kövekezőképpen íhjuk fel: P ( 1 ', 1, ), (5) Má zóvl z állpoleíá ponon kko Mkov-uljdonágú (Mkovállpoé), h (4) egyenlő (5)-el. H könyeze endelkezik Mkov-uljdonággl, kko (5) lpján megdhjuk váhó új állpoo é julom ééké. Ső, ennél öbb i igz. A (5) ieáláávl láhó, hogy minden jövőbeli állpoo é julm előe megbecülheünk. Az i ézevehejük, hogy z kcióválzá i Mkovállpook eeén legkönnyebb. Ekko ugyni Mkov-állpoól függő poliik éppen olyn jó, min melyik z egéz előző öénee figyelembe vezi. Az megeőíée nulái folymo, mely kielégíi Mkov-uljodnágo, Mkov dönéi folymnk (Mkow Deciion Poce, MPD) nevezzük. Amennyiben z állpook é kciók hlmz vége, Mkov dönéi folym vége. A vége Mkov dönéi folymo megdhjuk z állpook é z kciók hlmzávl, ovábbá z egylépée könyezei dinmikávl. Az ámenevlózínűég megdj z állpob keülé vlózínűégé állpoból kció válzá melle: P P ( 1 ', ) (6) Honlóképpen váhó julom -ből -be keüléko kció válzá melle: R E,, ) (7) ( 1 1 P é R eljeen leíják vége Mkov dönéi folymo. A Mkov-uljdonág é Mkov dönéi folym áekinée é megéée zé vol zükége, me zok feldok lklmzhó bizonyíon megeőíée nulá módzee, melye fennáll Mkov-uljdonág, endze eljeen infomációjú, zz z állpoee eljeen imejük. Fono még z állpoé végeége i. 20

Inelligen zámíái módzeek lklmzá logiki jáékokbn 3.1.4. Éékelő függvény, Bellmn-egyenle Mjdnem mindegyik megeőíée nulá módze éékelő függvények becléén lpul. Az éékelő függvény endzein z állpook, vgy z állpokció páok függvénye, é z íj le, hogy mennyie jó egy do állpo (vgy mennyie jó egy do állpobn egy do kció végehjni). A,,jóág" hozm váhó éékével függ öze. A hozm vizon emézeeen függ z ügynök dönéeiől, ehá z ügynök poliikájáól. Infomálin, egy állpo poliik mellei,,jóág", melye ovábbikbn V () -el jelölünk, z állpoból poliik köveée melle gyűjheő hozm váhó ééke. Mkov dönéi folym eeén z úgyneveze állpoo éékelő függvény fomálin kövekező lkbn íhó fel: k V ( ) E ( R ) E γ k 1 (8) k 0 I E jelöli poliik köveée mellei váhó ééke, ezőlege időpilln. Megjegyezzük, hogy mennyiben z állpoében zeepelnek emináli állpook, zok ééke mindig 0. Honlóképpen, megdjuk z állpobn kció válzáánk ééké poliik melle. Ez Q (, ) -vl jelöljük, é z dj meg, hogy mennyi hozm váhó ééke, h z állpobn vgyunk, hol z kció válzjuk, mjd poliiká kövejük. Fomálin: Q k (, ) E ( R, ) E γ k 0 k 1, (9) Q elnevezée poliik mellei kció éékelő függvény. Az állpoo é kció éékelő függvény fono uljdonág, hogy kielégí egy ekuzív kpcolo. Minden poliiká é minden állpo, z é leheége ákövekező állpo ééke közö fennáll kövekező konzizenci kpcol: 21

Inelligen zámíái módzeek lklmzá logiki jáékokbn 22 [ ] k k k k k k k k V R P E R P E E R E V, ) ( ), ( ), ( ) ( ) ( 0 1 2 0 2 1 0 1 γ γ γ γ γ γ (10) hol implici módon feleük, hogy ) A( é S (epizodiku folymok eeén S ). A (10) egyenle V -e vonkozó Bellmn-egyenle, mely jelenlegi állpo é leheége ákövekező állpook ééke közöi özefüggé íj le. Megmuhó, hogy Bellmn-egyenlenek V állpoo éékelő függvény z egyedüli megoldá, zz fixponj. A 2.(). é 2.(b). ábák Bellmn-egyenleben zeeplő ekuzív kpcol zemlélee megjeleníéei. Az áb éelmezée kövekező: z üe köök z állpook, eli köök pedig z állpo-kció páok zemléleik., () A V - megháozó felözegzéi gáf (b) A Q - megháozó felözegzéi gáf 2. áb Az éékelő függvényekhez ozó felözegzéi gáfok.

Inelligen zámíái módzeek lklmzá logiki jáékokbn 3.1.5. Opimáli poliik é éékelő függvények. A Bellmn-féle opimliái egyenle Egy megeőíée nulá feld megoldá egy olyn poliik megkeeéé jeleni, mely köveée melle hozúávon ok julm gyűjheünk. Az éékelő függvények poliikák eén egy ézbeendezé definiálnk kövekezőképpen: egy poliik ponon kko leglább olyn jó, min egy poliik, h poliiká köveve minden egye állpobn váhó hozm ngyobb vgy egyenlő, min poliik eeén:, h S eeén V ( ) V ( ). Ekko léezik leglább egy olyn poliik, mely leglább olyn jó, min z öze öbbi. Ez poliiká opimáli poliikánk nevezzük. Bá z opimáli poliik nem * egyéelmű, mégi közö jelölé lklmzzuk z öze opimáli poliiká. Egyzeűen meggondolhó, hogy ezekhez ugynz z opimáli állpoo éékelő függvény ozik, melye * V -gl jelölünk: V ( ) mx( V ( )), S * Temézeeen közö opimáli kció éékelő függvényük i: * Q (, ) mx( Q (, )), (, ) S A( ) (11) (12) * Má zóvl, Q (, ) zon hozm váhó ééké dj, melye úgy kpunk, hogy z állpobn z kció válzjuk, mjd uán z opimáli * poliiká kövejük. Ezé Q * ( 1 1 * * Q felíhó V egíégével kövekezőképpen: *, ) E( γ V ( ), (13) Mivel * V egy léező poliik éékelő függvénye, így kielégíi (10)-ben do Bellmn-egyenlee. Ugynkko, mivel * V z opimáli állpoo éékelő függvény, Bellmn-egyenleben zeeplő ekuzív kpcol felíáához nem kell egy konké poliiká hivkoznunk: 23

Inelligen zámíái módzeek lklmzá logiki jáékokbn 24 ( ) ( ) [ ] A A k k k A k k k A V R P V E E E R E Q V ) ( mx, mx, mx, mx, ( mx ), ( mx ) ( * ) ( 1 * 1 ) ( 0 2 1 ) ( 0 1 ) ( * * * * * * γ γ γ γ γ (14) A feni egyenle * V - vonkozó Bellmn-féle opimliái egyenle. Honlóképpen felíhjuk (14) megfelelőjé * Q - i: [ ] Q R P Q E Q ), ( mx, ), ( mx ( ), ( * 1 * 1 * γ γ (15), () A V * - megháozó felözegzéi gáf (b) A Q * - megháozó felözegzéi gáf mx mx 3. áb Az opimáli éékelő függvényekhez ozó felözegzéi gáfok (Bckup) Vége Mkov dönéi folym eeén (14) egyenlenek egyéelműen léezik poliikáól függelen megoldá. A Bellmn-féle opimliái egyenle uljdonképpen egy egyenleendze, minden állpohoz ozik egy-egy egyenle. Tehá, h z állpook zám N, kko vn N db egyenleünk é N

Inelligen zámíái módzeek lklmzá logiki jáékokbn db imeelenünk. Így bbn z eeben, h könyeze dinmikáj ( R ) P ime, bámely, nemlineái egyenleendze megoldáá felhználhó módzeel elvileg megoldhjuk Bellmn-féle opimliái egyenlee. * V imeeében egy opimáli poliik meglálá egyzeű feld. Minden állpohoz léezik egy vgy öbb olyn kció, melye (14) egyenleben zeeplő mximumo eléjük. Bámely poliik, mely ezekhez é ck ezekhez z kciókhoz endel poziív kiválzái vlózínűége, opimáli. Má zóvl, z poliik, mely A * V - ekinve mohó, opimáli poliik i egyben. * Q imeeében z opimáli poliik megkeeée még egyzeűbb: minden * állpo egy olyn kció kell válzni, mely mximlizálj Q (, ) -., 3.2. A megeőíée nulá elemi módzeei Ebben fejezeben megeőíée nulá zon lpveő módzeei ekinjük á, melyek legngyobb jelenőéggel bínk mind elmélei, mind gykoli zemponból. 3.2.1. Dinmiku pogmozá A dinmiku pogmozá elnevezé zoknk z lgoimuoknk gyűjeményée vonkozik, melyek opimáli poliikák megkeeéée hználhók, feléve, h könyezeől egy elje Mkov dönéi folym modell áll endelkezéünke. Mivel ilyen eő megköé igényelnek, é zámíái kölégük i úl ngy, dinmiku pogmozá módzeei gykolbn nem hználok, elmélei jelenőégük mi mégi édeme áekineni őke. A fejezeben zzl felevéel élünk, hogy könyeze vége Mkov dönéi folym. Meg kell jegyeznünk, hogy dinmiku pogmozá módzeei folyono állpo é kcióeű poblémák eeén i lklmzhók, pono megoldá zonbn ck peciáli eeekben állíhó elő. A dinmiku pogmozá, é állábn megeőíée nulá lpölee, hogy jó poliikák z éékelő függvények lpján keeük. Ebben ézben megnézzük, hogyn lklmzhó dinmiku pogmozá z előző fejezeben definiál éékelő függvények megháozáá. Amin z má láuk, Bellmn- 25

Inelligen zámíái módzeek lklmzá logiki jáékokbn féle opimliái egyenlee kielégíő * V vgy * Q eeén egyzeűen megháozhó z opimáli poliik. A dinmiku pogmozá lgoimui úgy kphjuk meg, hogy különféle Bellmn-egyenleeke z éékelő függvény közelíéé jvíó felülíái zbályokká lkíjuk. 3.2.1.1. Poliik kiéékelée Előzö z nézzük meg, hogyn kézíhejük el egy ezőlege poliik állpoo éékelő függvényé. A dinmiku pogmozá eminológiájábn ez poliik kiéékelének nevezik. Emlékezzünk z előző ézben megdo Bellmnegyenlee: V ( ) 2 E ( 1 γ 2 γ 3... ) E ( 1 γv ( 1 ) (, ) P [ ( R γv )], hol (, ) nnk vlózínűége, hogy poliiká köveve z állpobn z kció válzjuk. A váhó ééke -vel indexelük nnk jelzéée, hogy ez uljdonképpen kövee poliikáól függő feléele váhó éék. egyéelmű léezée gnál, feléve, hogy γ < 1 vgy poliik melle minden kezdőállpoból vége ok lépé múlv emináli állpob juunk. H könyeze dinmikáj eljeen ime, kko feni egyenle S egyenleből álló, ugynennyi imeelene lineái egyenleendze, mely egyzeűen, bá vizonylg ngy zámíái köléggel, explici módon megoldhó. A mi céljinknk inkább z ieív megoldái módzeek felelnek meg. Tekinük közelíő állpoo éékelő függvények egy V V V S 0, 1, 2,...: R oozá. A kiinduló V 0 ezőlege, ck z eelege emináli állpooknk kell 0 éékkel endelkezniük, é minden kövekező go (10)-ben do Bellmn-egyenle lpján kpunk kövekezőképpen: V k 1 S ( ) E ( 1 γv ( 1) ) (, ) P [ R γ Vk ( )] -e. Nyilvánvlón k V k V feni egyenle fixponj, hizen ekko (16) V (17) V -e vonkozó Bellmn-egyenle gnálj z egyenlőége. Ső, meg lehe muni, 26

Inelligen zámíái módzeek lklmzá logiki jáékokbn hogy { V k } konvegál V -hez, h k, mégpedig ugynzon feléelek melle, melyek V léezéé gnálják. Ez z lgoimu ieív poliik kiéékelének nevezzük. V -ból úgy kpjuk V 1-e, hogy minden állpo ééké felülíjuk egy új k k éékkel, melye z ákövekező állpoink égi éékéből, vlmin kiéékel poliik mellei zonnli váhó julmkból háozunk meg. Ez z eljáá elje felözegzének nevezzük, mivel minden egye állpo ééké felülíjuk kövekező V 1 közelíé megháozáához. k Az lábbi áblázbn megdjuk z ieív poliik kiéékelé lgoimuá: Inpu: policy o be evlued Inilize: V ( ) 0 S Repe Δ 0 Fo ech S v V () V ( ) (, ) P ' [ R γ V ( ' ] ' ' k ) Δ mx( Δ, v V ( ) ) Unil Δ < θ (mll poiive numbe) Oupu: V V 1. ábláz. Az ieív poliik kiéékelé lgoimu 3.2.1.2. A poliik jvíá A célunk V kizámíáávl z vol, hogy jobb poliikák udjunk keeni. Tegyük fel, hogy megháozuk V - egy ezőlege deeminiziku poliiká. Vlmely állpobn z zeenénk eldöneni, hogy édeme-e megválozni poliiká oly módon, hogy egy ( ) kció válzunk. Egy leheőég ennek megválzoláá, hogy z állpobn z kció válzjuk, mjd poliiká kövejük. Az ilyen vielkedé ééke: Q (, ) E { 1 γ V ( 1) (, ) P ' k ', [ R γ V ( ') ] ' k } (18) 27

Inelligen zámíái módzeek lklmzá logiki jáékokbn 28 A kulckédé, hogy ez vjon kiebb vgy ngyobb-e, min ) ( V. Amennyiben ngyobb, kko egy jobb poliiká kpunk, minh végig poliik zein celekedünk voln. A feni z álláno poliik jvíá egy peciáli eee. Igz ugyni kövekező éel: Tegyük fel, hogy é deeminiziku poliikák, melyeke igz z lábbi: S V Q ), ( )) '(, ( (19) Ekko poliik leglább olyn jó, min, zz: ) ( ) ( V V (20) Továbbá, h (19)-ben bámely állpo zigoú egyenlőlenég eljeül, kko vn olyn állpo, melynél (20)-ben i zigoú egyenlőlenég áll. A bizonyíá lpölee ngyon egyzeű: kiindulunk (19) egyenlőlenégből, é Q oldlá kifejjük (19) iméel lklmzáávl: ) ( }... { } ) ( { } ) ( { } )} ( { { } )) '(, ( { } ) ( { )) '(, ( ) ( 4 3 3 2 2 1 ' 3 3 3 2 2 1 ' 2 2 2 1 ' 2 2 ' 1 ' 1 1 1 ' 1 1 ' V E V E V E V E E Q E V E Q V γ γ γ γ γ γ γ γ γ γ γ γ M (21) Ezzel z állíá bebizonyíouk. Az eddigiekben láuk, hogy egy do állpobn poliik megválozá hogyn h z kcióválzá. Ezen eljáá emézee kiejezée, hogy z kuáli poliik köveée helye minden állpobn z z kció válzuk, mely ), ( Q lpján legjobbnk űnik, zz megdhjuk z lábbi mohó poliiká:

Inelligen zámíái módzeek lklmzá logiki jáékokbn '( ) g mxq g mx E{ 1 γ V g mx P' ' ' (, ) ( 1 ) [ R γ V ( ') ] k, } (22) A mohó poliik z z kció válzj, mely V lpján egy lépée előeekinve legjobbnk űnik. A konukcióból dódón mohó poliik eljeíi z álláno poliik jvíá éel feléelei, így udjuk, hogy leglább olyn jó, min z eedei poliik. A folymo, mely oán poliikánk úgy módoíjuk, hogy mohóvá ezük z állpoo éékelő függvénye vonkozón, poliik jvíánk nevezzük. Tegyük fel, hogy z új poliik nem jobb, min z eedei. Ekko V (22) lpján V S -e: '( ) mx E{ γ V ( ) mx P' ' ' 1 1 ' [ R γ V ( ') ], } V mi vizon ugynz, min (14)-bn do Bellmn-féle opimliái egyenle. Így V V *, é (23), é opimáli poliikák. Kövekezéképpen, poliikjvíá zigoún jobb poliiká d, kivéve, h kiinduló poliik má mg i opimáli. Az eddigiekben feleük, hogy vizgál poliikák deeminizikuk, zonbn bemuo eedmények állánoíhók zochziku poliikák i. 3.2.1.3. Poliik ieáció H egy poliiká jvíounk megháozhjuk V lpján, é egy jobb poliiká kpunk, kko V -, é ez lpján egy még jobb poliikához juhunk. Tehá előállíhjuk poliikák é éékelő függvények monoon növő oozá: V 0 E I V... V 0 1 * 1 E I 2 E I E * hol E poliik kiéékeléé, I pedig poliik jvíáá jelöli. Minden kövekező poliik zigoún jobb z előzőnél, hck nem opimáli poliik. Mivel egy vége Mkov dönéi folym eeében ck vége ok poliik léezik, feni eljáá vége ok ieáció lépében z opimáli poliikához é éékelő függvényhez konvegál., 29

Inelligen zámíái módzeek lklmzá logiki jáékokbn Az opimáli poliik ilyen módon öénő megkeeée poliik ieáció. Az lábbi áblázbn poliik ieáció lgoimuá dom meg: 1. Inilize: V ( ) R nd ( ) A( ) fo ll S 2. Policy evluion Repe Δ 0 Fo ech S v V () Δ Unil V ( ) (, ) P ' [ R γ V ( ' ] ' ' k ) mx( Δ, v V ( ) ) Δ < θ (mll poiive numbe) 3. Policy impovemen Policy_i_bil ue Fo ech S b () ( ) mx (, ) P [ R V ] ' ' γ ( ') If b (), Policy_i_bil fle If Policy_i_bil hen op; ele go o 2. ' 2. ábláz. Poliik ieáció V*- 3.2.1.4. Éék ieáció A poliik ieáció egy ngy háány, hogy minden egye poliik kiéékelé igen ngy zámíái kölégű lehe, é z állpoé öbbzöi áolváá igényelhei. Szeencée, konvegenci megá melle cökkenheő poliik kiéékelé lépézám, é megállhunk z állpoé egyzei áolvá uán i. Ez z lgoimu éék ieációnk nevezzük, é egyzeűen felíhjuk poliikjvíá é módoío poliik kiéékelé figyelembevéelével: V k 1 ( ) mx E{ mx ' 1 P ' γ V ( ), [ R γ V ( ') ], S ' k 1 k } (24) Tezőlege V 0 melle igzolhó, hogy V k ooz V * -hoz, mégpedig ugynzon feléelek melle, melyek V léezéé gnálják. 30

Inelligen zámíái módzeek lklmzá logiki jáékokbn Az éék ieáció lgoimu: Inilize: V i biily, expec S Repe Δ 0 Fo ech S v V () V ( ) mx P ' γ ' [ R V ( ' ] ' ) Δ mx( Δ, v V ( ) ) Unil Δ < θ (mll poiive numbe) Oupu: deeminiic policy ( ) g mx P' [ R' γ V ( ' )] ', whee V()0 3. ábláz. Éék ieáció 3.2.1.5. Állánoío poliik ieáció A poliik ieáció ké zimulán, egymál kölcönhábn lévő folymból áll: z egyik z éékelő függvény zinkonizálj z kuáli poliikávl (poliik kiéékelé), míg máik poliiká mohóvá ezi z éékelő függvénye nézve (poliikjvíá). A poliik ieációnál ez ké folym zigoún válkozv, egymá uán működik, de ez nem zükégzeű. Az éék ieációnál például má egyelen poliik kiéékeléi lépé uán jvíjuk poliiká, ő ennél még finombbn i felozhjuk működé. Amíg mindké folym minden állpoo fií, végeedmény ugynz: konvegenci z opimáli éékelő függvényhez é poliikához. Az állánoío poliik ieáció elnevezé hználjuk kko, h poliik kiéékelő é poliik jvíó folym kölcönháá ulunk, függelenül z inekció,,finomágáól", é folymok egyéb ézleeiől. Mjdnem minden megeőíée nulá feld leíhó, min állánoío poliik ieáció: léezik megháozo poliik é éékelő függvény. A poliiká mindig z éékelő függvény lpján jvíjuk, z éékelő függvény pedig poliik éékelő függvényének iányáb módoíjuk. Ez z álláno émá láhjuk 4. ábán. Könnyen láhó, hogy h kiéékelő é jvíó folym bilizálódik, zz nem végez módoíáok, kko kpo éékelő függvény é poliik opimáli. Ugyni z éékelő függvény kko bilizálódik, h konzizen z do 31

Inelligen zámíái módzeek lklmzá logiki jáékokbn poliikávl, poliik pedig kko, h mohó z éékelő függvénye nézve. Mindké folym bilizálódá ehá z jeleni, hogy lálunk egy poliiká, mely mohó já éékelő függvényée nézve. Ebből kövekezik, hogy eljeül (14)-bn do Bellmn-féle opimliái egyenle, zz poliik é z éékelő függvény opimáli. kiéékelé V V V mohó(v) jvíá V * V * 4. áb. Állánoío poliik ieáció Az állánoío poliik ieáció kiéékelő é jvíó folymi egyzee együműködők é egymál veengők. Veengők bbn z éelemben, hogy ellenée iányb hnk. A poliik mohóvá éelével z éékelő függvény inkonzizen lez megválozo poliiká nézve, z éékelő függvény konzizené éele pedig endzein poliik mohóágá onj el. Ugynkko hozúávon ez ké konvegáló folym együműködik z opimáli poliik é éékelő függvény megláláábn. 3.2.2. Időbeli diffeenciák módzee A megeőíée nulá egyik közponi koncepciój z időbeli diffeenciák (Tempol Diffeence, TD) módzee, mely könyeze dinmikájánk imeee nélkül, diek módon képe nulni. A dinmiku pogmozához honlón poliik fiíée ézben előző becléeken lpul. A konol poblém megoldáá, zz z opimáli poliik megkeeéée, mindké módze z 32

Inelligen zámíái módzeek lklmzá logiki jáékokbn állánoío poliik ieáció vlmilyen válozá hználj. A lényege különbég do poliik mellei V becléének módjából dódik. 3.2.2.1. TD jólá A TD módze jólái poblém megoldáá pzlok hználj fel. A poliik köveée oán zeze pzli felhználj poliikához ozó V éékelő függvény V becléének felülíáá. H időpillnbn endze z állpobn vn, kko TD módze má ögön kövekező lépében módoíj V - megfigyel 1 julom é V ) koábbi becléének ( 1 felhználáávl. Ennek lpján legegyzeűbb TD módze, melye gykn TD(0)-nk hívnk, kövekezőképpen íhó le: [ V ( ) V ( )] V ( ) V ( ) α 1 γ 1 (25) A dinmiku pogmozá egy beclé, de nem elje könyezei dinmik imeeé feléelező váhó éék, hnem V ( 1 )-e helyeeíő V ( 1 ) felhználá mi. A TD öbbféle zemponból i beclé, egyéz miná vez váhó éékből, máéz felhználj V éékelő függvény V becléé. A 4. áblázbn megdom TD módze lgoimuá. Inpu: policy o be evlued Iniilize: V () biily Repe fo ech epiode iniilie Repe fo ech ep of epiode ke,,' [ γv ( V ( ))] V ( ) V ( ) α 1 unil i eminl 4. ábláz. TD(0) lgoimu V becléée Milyen előnyei vnnk TD módzenek dinmiku pogmozál zemben? Egyéz, nem zükége könyezei dinmik ( P, vlmin R ) imeee, 33

Inelligen zámíái módzeek lklmzá logiki jáékokbn máéz nem kell megváni egy-egy epizód végé z éékelő függvény fiíééhez, mely jelenő gyoulá eedményezhe. 3.2.3. A TD(0) módze opimliá Tegyük fel, hogy do níó példák vége hlmz (vége zámú epizód vgy lépé). A fokozo níá hgyományo megközelíée, hogy níó példák új é új megiméeljük, ddig, meddig módze nem konvegál. V közelíéeko (25) egyenle lpján mindig kizámíjuk zükége válozá mééké, de ck egyze, vgy z epizód végén, vgy h végigéünk níó hlmzon, fiíjük énylegeen V -, mégpedig válozáok özegével. Ezé ez módze köegel feldolgozánk nevezzük. Beláhó, hogy köegel feldolgozá eeén TD(0) módze deeminizikun konvegál z egyéelmű válzhoz, mégpedig z α lépéközől függelenül, nnyi megzoíál, hogy α elég kici. 3.2.3.1. SARSA (Se-Acion-Rewd-Se-Acion) Ebben zkzbn megvizgáljuk, hogy TD módzeek hogyn hználhók fel konol poblém megoldáá. Az állánoío poliik ieáció hználjuk, ck ezúl kiéékelé egy TD módzeel végezzük el. Az állpoo éékelő függvény beclée helye z kcióéékelő függvénnyel fogllkozunk. Szeencée, TD(0) eeében z állpoo éékelő függvénye vonkozó konvegenci-kiéiumok zimmeikun évényeek z kció éékelő függvénye i. Ezé kövekező íhjuk: [ Q(, ) Q(, )] Q(, ) Q(, ) α 1 γ 1 1 (26) Ez fiíé minden nememináli állpo eeén végehjjuk. H z 1 emináli, kko ( 1, 1 ) leíó (,, ), 1 1, 1 Q definíció zein 0. A fiíéi zbály z ámenee mind z ö eleme lmzz. Innen zámzik módze neve i. A SARSA lpján mgáól éeődően konuálhunk kív konol lgoimu: Q - becüljük, - pedig áblázbn dom meg. Q -e nézve mohóvá ezük. Az lgoimu 5. 34

Inelligen zámíái módzeek lklmzá logiki jáékokbn Inilize: Q (, ) biily fo ech epiode iniilie chooe in ε geedy Repe (fo ech ep of he epiode) execue ke, ' chooe ε geedy in ' ke,, ' Q, ) Q(, ) α γ Q( ' ; '; Unil i eminl [, ) Q(, )] ( 1 1 1 5. ábláz. SARSA: kív TD zbályozái lgoimu 3.3 Emlékezeő nyomok módzee Ebben ézben egy olyn módze imeeek, mely eedményeen kombinálhó z előzőekben áekine eljááokkl, é ok eeben hékonybb nuló lgoimu nyeheő egíégével. Az emlékezeő nyomok módzeének ké lpveő éelmezée leheége: z egyik z előe, máik vizekinő váloz. Az előeekinő vián előobn elmélei jelenőégű, é hid képez Mone- Clo módzeek 1 é TD módze közö. A vizekinő váloz má okkl gykolibb zemléleű: z emlékezeő nyomok uljdonképpen hozú ávú memóikén zolgálnk nulá oán. Segíégükkel áhidlhó bekövekező eemények é nulái infomációk közöi hézg. 3.3.1. n lépée TD jólá A legegyzeűbb, 1 lépée TD módze ck közvelen julm é kövekező állpo becül ééké vezi figyelembe. Vnnk "hibid" TD módzeek, melyek n lépében képezik felözegzéi gáf ééké. Ezeke zoká TD(n)-nel jelölni. 1 A Mone-Clo módzeek zinén z opimáli poliik é éékelő függvény megláláá zolgáló eljááok. 35

Inelligen zámíái módzeek lklmzá logiki jáékokbn TD(1) TD(2) TD(3) TD(n) MC 5. áb n lépée TD felözegzéi gáf Tegyük fel, hogy z állpo vonkozó felülíái ééke zeenénk megháozni, 1, 1, 2, 2, KT T pedig z állpook é julmk ooz., Az egylépée TD módze eeében felülíái éék nem má, min közvelen julom, pluz kövekező állpo dizkonál becül ééke. Képleel: (1) R γ V ( 1) (27) 1 Ez éelme, hizen 2 T 1 γ 2 γ 3 K γ T helyé vezi á V ( 1) γ beclé. Az ölee előzö keő, mjd n lépée állánoív juunk z n lépée becléhez: 2 n 1 n γ γ... γ γ V ( ( n) R 1 2 3 n n Tuljdonképpen z öénik, hogy hozmo n lépé uán conkoljuk, é hiányzó éz z n lépéel kéőbbi állpo dizkonál becül éékével helyeeíjük. Temézeeen, h z epizód előbb vége é, minem eléünk z n-edik lépéig, kko conkolá z epizód végén hjjuk vége. Ebben z eeben elje hozmo kpjuk. Az n lépée felözegzéi gáfo z n lépée hozm iányáb eő felülíái éékkel definiáljuk. Az állpoo éékelő eeben V ( ) felülíáá kövekezőképpen dom meg: ) (28) 36

Inelligen zámíái módzeek lklmzá logiki jáékokbn ( n) [ R V ( )] ΔV ( ) α (29) hol α > 0. Temézeeen minden eeén ΔV ( ) 0. Az n lépée módze ezzel z egyenleel djuk meg közvelen felülíái zbály helye. Ennek z z ok, hogy kéféle felülíá i megkülönbözeünk. Az egyik eeben felülíá folymon öénik (online upding), miko kizámíjuk válozáok. Ekko minden V 1( ) V ( ) ΔV ( ). A máik eeben felülíá z epizód végén öénik z özegyűjö módoíáok özegével (off-line upding). Azz ekko z epizód folymán V ( ) ééke konn, végén pedig () T 1 Δ V 0 V ( ) lez. Az öze n lépée hozm váhó ééke z igzi éékelő függvény jelenleginél jobb közelíéé dj, zz bámely V -e V zeini n lépée hozm váhó ééke V -nek V -nél jobb közelíée. Ez z jeleni, hogy legngyobb hib z új n közelíé eeében legfeljebb kko, min V legngyobb hibájánk γ -zeee. Ez z n lépée hozm hibcökkenéi uljdonágánk nevezzük, é képleel kövekezőképpen íhjuk le: ( n) n { R } V () mx V ( ) V ( ) mx E γ Ennek lpján fomálin i igzolhó, hogy mind folyono, mind köegel felülíá eeében TD módze helyeen működik, közelíéi feléelek melle. A hibcökkenéi uljdonág ellenée TD(n) módzeeke implemenáció nehézégek mi gykolbn ikán hználják, inkább ck elmélei jelenőéggel bínk. (30) 3.3.2. A TD (λ) előeekinő váloz A felözegzéi gáf éékének megháozá nem ck n lépée hozmokkl, hnem ezek álgávl, ő, úlyozo álgávl i öénhe. Elképzelheő például, hogy felözegzéi gáf ééké keő é négy lépée hozmok álgávl háozzuk meg. Az így előállío ééke komplex felözegzéi gáf éékének nevezzük. A TD ( λ ) lgoimu peciáli eee z n lépée hozmok álgoláánk, ugyni ez z álg minden n-e lmzz z n lépée hozmo, mégpedig úlyozv. Annk édekében, hogy úlyok özege 1 legyen, n 1 λ -nel 1 λ -vl 37

Inelligen zámíái módzeek lklmzá logiki jáékokbn nomlizálunk. Az így kpo hozmo λ -hozmnk ( λ Reun) nevezzük, é kövekezőképpen íhjuk le: R λ (1 λ) n 1 λ n 1 R ( n) (31) A úlyok minden hozzádo lépé eeén λ -vl felejődnek el, ennyivel cengenek le. H eléjük z epizód végé, zz emináli állpob keülünk, kko minden ennél ngyobb n-e z n lépée hozm áfoglmzhjuk z előző definíció: R -vel egyezik meg. Így R λ T 1 n 1 (1 λ) λ R γ n 1 ( n) T 1 R (32) Definiáljuk λ -hozm lgoimu úgy, hogy λ -hozm lpján háozz meg felülíái gáf ééké. Azz minden lépében ΔV ( ) válozá mééke: ΔV λ ) α [ R V ( )] (33) ( Ez TD( λ ) módze előe ekinő váloz, mely egyán lklmzhó mind folyono, mind köegel felülíá. T e δ -2 e 2 2-1 e 1 1 1 idő idő () A TD(λ) előe ekinő zemlélee. (b) A TD(λ) vizekinő zemlélee. 6. áb A TD(λ) kéféle váloz. 38

Inelligen zámíái módzeek lklmzá logiki jáékokbn 3.3.3. A TD(λ) vizekinő váloz A vizekinő váloz z előeekinőnél okkl könnyebben implemenálhó. Elő lépékén minden egye állpohoz bevezeünk egy memóiválozó, z emlékezeő nyomo (eligibiliy ce). Ez válozó z jelzi, hogy "z uóbbi időben" hányzo láoguk meg z do állpoo. Ponoív, időponbn z nememináli állpo vonkozó emlékezeő nyom: TD(λ),λ-hozm TD(1) TD(2) TD(3) TD(n) MC 1-λ (1-λ)λ (1-λ)λ 2 Σ1 (1-λ)λ T--1 7. áb A TD(λ) felözegzéi gáfj γλe e ( ) γλe 1 1 () () 1 h h (34) Az egyenleben γ dizkonálái hánydo, λ definíciój pedig TD( λ ) lgoimul fogllkozó ézben meglálhó. Az ilyen emlékezeő nyomo gyűjő nyomnk i nevezhejük, hizen z állpo öbbzöi elééével fokozon feleőödik, mjd leceng, h nem láogjuk meg öbbzö z do állpoo. 39