FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE Dr. Aradi Szilárd, Fehér Árpád

Mesterséges intelligencia kialakulása 1956 Dartmouth-i konferencián egy maroknyi tudós megalapította a MI területét Az elmúlt évtizedekben az MI-t szkeptikusan kezelték 2006-2010: mélytanulás kifejlesztése 2012-től robbanásszerű fejlődés 2018. 04. 11. 2

MI, gépi tanulás, mélytanulás 2018. 04. 11. 3

Ágens 2018. 04. 11. 4

Racionális ágens Racionálisan cselekedni: Racionális ágens legjobb kimenetel érdekében vagy bizonytalanság jelenlétében a legjobb várható kimenetel érdekében cselekszik 2018. 04. 11. 5

Tanulási fázis Jellemzően nagy mennyiségű adatból kinyert minták alapján történik. A rendszer felveszi a mintákban lévő ismereteket és a viselkedése módosul. Fő tanulási formák: felügyelt vagy ellenőrzött tanulás felügyelet nélküli vagy nemellenőrzött tanulás megerősítéses tanulás 2018. 04. 11. 6

Felügyelt tanulás Összetartozó ki- és bemeneti mintapárok rendelkezésre állnak. A tanító algoritmus feladata, hogy megtanítsa a mintapárok által reprezentált leképezést. A kívánt válaszok ismertek, tehát a hálózat közvetlen válasza összehasonlítható azokkal, és a különbségből kiderül, hogy szükséges-e további módosítás. A tanító eljárás lényege a kívánt és tényleges kimenetek közti hiba minimalizálása. 2018. 04. 11. 7

Előhívási fázis A betanított ágens, a neki szánt funkció betöltése során az előhívási szakaszban van. Gyorsabb folyamat, mint a tanítás A tanítás során kalkulált súlyokat felhasználva a kimeneten megjelenik a válasz. 2018. 04. 11. 8

Mesterséges neurális hálózatok Biológiai eredetű, de annál jóval egyszerűbb elemekből álló szimuláció. Ez lehet az ágens agya A gépi tanulás inspirálta a kifejlesztését. Története a 40-es évekre nyúlik vissza. Fontos mérföldkő volt 1958-ban Rosenblatt perceptronja. Ezt követően több probléma is stagnált a tématerülete kutatása 1975-ben Werbos publikálta a hibavisszaterjesztéses algoritmust, amellyel a többrétegű neurális hálózatok tanítása lehetővé vált. Végül újabb lökéseket adott a számítógépek teljesítménynek folyamatos növekedése, valamint az internetnek köszönhetően rendelkezésre álló óriási adatmennyiség 2018. 04. 11. 9

Mesterséges neurális hálózatok, definíció Definíció: Mesterséges neurális hálózatnak nevezzük azt a hardver vagy szoftver megvalósítású párhuzamos, elosztott működésre képes információfeldolgozó eszközt, amelyre igaz, hogy: Azonos vagy hasonló típusú általában nagyszámú lokális feldolgozást végző műveleti elem, neuron (processing element) többnyire rendezett topológiájú, nagymértékben összekapcsolt rendszeréből áll. Rendelkezik tanulási algoritmussal (learning algorithm), mely általában minta alapján való tanulást jelent, és amely az információfeldolgozás módját határozza meg. Rendelkezik a megtanult információ felhasználását lehetővé tevő információ előhívási, vagy röviden előhívási algoritmussal (recall algorithm). 2018. 04. 11. 10

Neuron felépítése MISO eszköz Nemlineáris leképezés Rendelkezhet lokális memóriával Aktivációs függvény 2018. 04. 11. 11

Neuron felépítése 2018. 04. 11. 12

Aktivációs függvények f(x)=x 2018. 04. 11. 13

Aktivációs függvények ReLU 2018. 04. 11. 14

Neuronok csoportosítása Elhelyezkedés, funkció és a többi neuronnal való kapcsolat szerint a hálózatban szereplő neuronokat három diszjunkt halmazba oszthatjuk: bemeneti neuronok, amiknek közvetlen bemenete a hálózat bemenete, egybemenetűek, jellemzően egy kimenettel rendelkeznek, más neuronok meghajtására szolgálnak kimeneti neuronok, amik a hálózat kimenetére továbbítják az információt rejtett neuronok, amik be és kimeneteikkel közvetlenül más neuronokhoz kapcsolódnak 2018. 04. 11. 15

Topológia 2018. 04. 11. 16

Konvolúciós neurális hálózat Hagyományos neurális hálózat alapokon nyugszik Képeken található minták feltárására fejlesztették 2018. 04. 11. 17

Felügyelt tanuló rendszer fejlesztése 2018. 04. 11. 18

Felügyelt tanuló rendszer fejlesztése HiL környezet Monitor Kamera PC HiL 2018. 04. 11. 19

Felügyelt tanuló rendszer fejlesztése Fejlesztés lépései: Tanító mintapont párok előállítása Jármű körbevezetése a pályán Képekhez tartozó kormányszög értékek Adatkonverzió 6460 darab mintapár Hálózat méretének megválasztása Betanítás Eredmények kiértékelése 2018. 04. 11. 20

Méretválasztás, betanítás Hálózati struktúra Futási idő [mm:ss] Validációs négyzetes hiba Tanulás négyzetes hibája (cél) Iterációk száma [30 20 5] 03:37 1.40631 0.02 12632 [50 20 5] 03:39 0.88868 0.02 9370 [50 30 20 5] 02:12 0.98182 0.02 5181 [80 50 20 5] 08:35 0.82197 0.006 11130 [100 50 5] 09:18 0.64459 0.006 11168 [100 50 30 20 5] 05:59 0.76948 0.006 6584 [100 50 20 5] 08:20 0.70402 0.006 8514 [80 40 20 5] 05:00 0.70368 0.006 5742 [80 30 20 5] 21:43 0.88932 0.006 27101 [120 50 5] 07:28 0.81488 0.006 6926 [100 40 20 5] 07:34 0.77396 0.006 9232 2018. 04. 11. 21

Méretválasztás, betanítás Konvolúciós neurális hálózat 3. hálózat: (1) 130 x 320 méretű, három csatornás bemeneti réteg Hálózat száma Futási idő [mm:ss] Validációs négyzetes hiba Tanulás négyzetes hibája Iterációk száma 1 50:31 2.1899 2.0166 2790 2 70:18 1.5351 1.2596 4400 3 124:17 0.7633 0.3363 8310 4 54:43 6.3384 4.2313 5400 5 46:54 2.671 2.48 6160 6 78:09 0.9171 0.6178 3150 (2) 13 x 32 méretű, 15 darab, 3 csatornás szűrőből álló konvolúciós réteg (3) ReLU aktivációs függvény (4) 15 neuronból álló teljesen összekapcsolt réteg (5) ReLU aktivációs függvény (6) 1 neuronból álló teljesen összekapcsolt réteg (7) Regressziós kimeneti réteg 2018. 04. 11. 22

Eredmények kiértékelése 2018. 04. 11. 23

Eredmények kiértékelése Videó 2018. 04. 11. 24

Megerősítéses tanulás A megerősítéses tanulás (reinforcement learning) feladata az, hogy optimális (vagy közel optimális) stratégiát tanuljon az ágens egy adott környezethez. Nincs felügyelet, csak egy ún. reward signal A visszacsatolás sokszor késleltetett, nem azonnali Az ágens akciói befolyásolják a későbbi adatokat 2018. 04. 11. 25

Megerősítéses tanulás példák Táblajátékok (amőba, sakk, go) Videójátékok Robotikai feladatok (humanoid robot járni tanul) Optimális irányítási feladatok Versenyautó irányítása Erőmű irányítás Jármű energiaoptimalizáció 2018. 04. 11. 26

Jutalom (Reward) A jutalom (R t ) egy skalár visszacsatolt jel Azt mutatja, hogy mennyire jól csinálja az ágens a feladatát t időpontban Az ágens célja, hogy maximalizálja a kumulált jutalmat Jutalom hipotézis: minden cél leírható a kumulált jutalom várható értékének maximalizálásával 2018. 04. 11. Konferencia neve 27

Megerősítéses tanulás 2018. 04. 11. 28

Markov-folyamat Olyan sztochasztikus folyamat, melynél a jövőbeli állapotok feltételes valószínűsége csak a jelenlegi állapottól függ, a folyamat múltbeli történetétől nem, ill. csak közvetve: a múlt a jövőt csak a jelenen keresztül befolyásolja. 2018. 04. 11. Konferencia neve 29

Állapotreprezentáció példa Mi történik akkor, ha az állapot sorrendben a 3 utolsó elem Mi történik akkor, ha az állapot a lámpák, csengők és karok számai? Mi történik akkor, ha az állapot a teljes szekvencia? 2018. 04. 11. Konferencia neve 30

Ágens komponensek Egy megerősítéses tanuló ágensek az alábbi komponensekből épülnek fel: Policy: az ágens viselkedését leíró függvény Value function: mennyire jó az adott állapot és/vagy akció Modell: az ágens környezet-reprezentációja 2018. 04. 11. Konferencia neve 31

Policy A policy az ágens viselkedése Az állapotk és az akciók közti leképezés Determinisztikus policy: Stohasztikus policy: 2018. 04. 11. Konferencia neve 32

Value function A jövőbeni jutalom predikciója Az állapotok jóságának meghatározására használható Ebből adódóan közvetetten az akciók kiválasztására is használhatók 2018. 04. 11. Konferencia neve 33

Modell A modell megjósolja, hogy mi fog történni a környezettel, azaz mi lesz a következő állapot, valamint a következő közvetlen jutalom. 2018. 04. 11. Konferencia neve 34

Labirintus példa Jutalom: -1 minden lépésben Akció: É, K, D, Ny Állapot: az ágens pozíciója 2018. 04. 11. Konferencia neve 35

Labirintus példa: policy A nyilak a policy-t reprezentálják, minden egyes állapotban 2018. 04. 11. Konferencia neve 36

Labirintus példa: value function A számok az egyes állapotok értékét reprezentálják 2018. 04. 11. Konferencia neve 37

Tanulás és tervezés Megerősítéses tanulás A környezet kezdetben ismeretlen Az ágens interakcióba lép a környezettel Az ágens fejleszti a policy-jét Tervezés A környezet modellje ismert Az ágens számításokat végez a modellel (külső interakció nélkül) Az ágens fejleszti a policy-jét 2018. 04. 11. Konferencia neve 38

Felfedezés és kihasználás A megerősítése tanulás egy trial-and-error tanulás Az ágensnek fel kell fedezni a jó policy-t Felhasználva a tapasztalatait a környezetből De közben kevés jutalmat elveszítve Exploration: több információ gyűjtése a környezetről Exploitation: a már megszerzett információ kihasználása a jutalom maximalizálása érdekében 2018. 04. 11. Konferencia neve 39

Köszönöm a figyelmet! 2018. 04. 11. TDK konferencia 40