FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Hasonló dokumentumok
Neurális hálózatok bemutató

I. LABOR -Mesterséges neuron

Megerősítéses tanulási módszerek és alkalmazásaik

Stratégiák tanulása az agyban

Megerősítéses tanulás

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

TDK dolgozat. Fehér Árpád, járműmérnöki (MSc) Dr. Aradi Szilárd, egyetemi adjunktus november

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Neurális hálózatok.... a gyakorlatban

A RADARJELEK DETEKTÁLÁSA NEURÁLIS HÁLÓZAT ALKALMAZÁSÁVAL

Korszerű információs technológiák

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I.

Megerősítéses tanulás 2. előadás

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla

NEURÁLIS HÁLÓZATOK 1. eloadás 1

Tanulás tanuló gépek tanuló algoritmusok mesterséges neurális hálózatok

Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás

Intelligens orvosi műszerek VIMIA023

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Neurális hálózatok elméleti alapjai TULICS MIKLÓS GÁBRIEL

DOKTORANDUSZ FÓRUM, 1999 Miskolc, november. Megerősítő tanulási módszerek alkalmazása az informatikában

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Hibadetektáló rendszer légtechnikai berendezések számára

Tanulás az idegrendszerben

Programozási módszertan. A gépi tanulás alapmódszerei

TARTALOMJEGYZÉK. TARTALOMJEGYZÉK...vii ELŐSZÓ... xiii BEVEZETÉS A lágy számításról A könyv célkitűzése és felépítése...

Intelligens ágensek. Mesterséges intelligencia február 28.

E x μ x μ K I. és 1. osztály. pontokként), valamint a bayesi döntést megvalósító szeparáló görbét (kék egyenes)

Tartalomjegyzék. Tartalomjegyzék... 3 Előszó... 9

Intelligens adatelemzés

Megerősítéses tanulás 9. előadás

Modellezés és szimuláció. Szatmári József SZTE Természeti Földrajzi és Geoinformatikai Tanszék

Fuzzy rendszerek és neurális hálózatok alkalmazása a diagnosztikában

Modellkiválasztás és struktúrák tanulása

Intelligens Rendszerek Elmélete

Történet John Little (1970) (Management Science cikk)

A kibontakozó új hajtóerő a mesterséges intelligencia

Készítette: Trosztel Mátyás Konzulens: Hajós Gergely

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Mesterséges Intelligencia MI

Gépi tanulás és Mintafelismerés

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás

Megerősítéses tanulás

Dunaújvárosi Főiskola Informatikai Intézet. Intelligens ágensek. Dr. Seebauer Márta. főiskolai tanár

Bevezetés a neurális számításokba Analóg processzortömbök,

Mérési struktúrák

Logisztikai szimulációs módszerek

Adatbányászati szemelvények MapReduce környezetben

A neurális hálók logisztikai alkalmazhatósága

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

CARE. Biztonságos. otthonok idős embereknek CARE. Biztonságos otthonok idős embereknek Dr. Vajda Ferenc Egyetemi docens

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Konvolúciós neurális hálózatok (CNN)

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Gyártórendszerek irányítási struktúrái

Mesterséges intelligencia alapú regressziós tesztelés

5. Hét Sorrendi hálózatok

Forgalmi modellezés BMEKOKUM209

Online algoritmusok. Algoritmusok és bonyolultságuk. Horváth Bálint március 30. Horváth Bálint Online algoritmusok március 30.

Méréselmélet MI BSc 1

Irányításelmélet és technika II.

Kovács Ernő 1, Füvesi Viktor 2

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók 2. Pataki Béla

Számítógépes döntéstámogatás. Genetikus algoritmusok

Valószínűségi modellellenőrzés Markov döntési folyamatokkal

Etológia Emelt A viselkedés mérése. Miklósi Ádám egyetemi tanár ELTE TTK Etológia Tanszék 2018

Számítógép és programozás 2

Gépi tanulás a gyakorlatban. Bevezetés

Dr. Sasvári Péter Egyetemi docens

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

Az idegrendszeri memória modelljei

A hálózattervezés alapvető ismeretei

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Szekvenciális hálózatok és automaták

Bizonytalanság. Mesterséges intelligencia április 4.

Mérés és modellezés 1

Tanulás Boltzmann gépekkel. Reiz Andrea

Biológiai és mesterséges neurális hálózatok

Beltéri autonóm négyrotoros helikopter szabályozó rendszerének kifejlesztése és hardware-in-the-loop tesztelése

Válogatott fejezetek a közlekedésgazdaságtanból

Egy csodálatos elme modellje

A mesterséges intelligencia alapjai, alapelvek

3/29/12. Biomatematika 2. előadás. Biostatisztika = Biometria = Orvosi statisztika. Néhány egyszerű definíció:

Mesterséges Intelligencia MI

8. Komponens elvű programfejlesztés. Ágens, akció, cél, kontraktus.

Élettartam teszteknél alkalmazott programstruktúra egy váltóvezérlő példáján keresztül

Megerősítéses tanulás

II. LABOR Tanulás, Perceptron, Adaline

Nagy Péter: Fortuna szekerén...

Az informatika kulcsfogalmai

Mesterséges Intelligencia I.

Számítógép-rendszerek fontos jellemzői (Hardver és Szoftver):

1. gyakorlat. Mesterséges Intelligencia 2.

Visszacsatolt (mély) neurális hálózatok

1. AZ MI FOGALMA. I. Bevezetés. Tulajdonságok. Kezdet ELIZA. Első szakasz (60-as évek)

ÉRZÉKELŐK ÉS BEAVATKOZÓK I. 3. MÉRÉSFELDOLGOZÁS

Átírás:

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE Dr. Aradi Szilárd, Fehér Árpád

Mesterséges intelligencia kialakulása 1956 Dartmouth-i konferencián egy maroknyi tudós megalapította a MI területét Az elmúlt évtizedekben az MI-t szkeptikusan kezelték 2006-2010: mélytanulás kifejlesztése 2012-től robbanásszerű fejlődés 2018. 04. 11. 2

MI, gépi tanulás, mélytanulás 2018. 04. 11. 3

Ágens 2018. 04. 11. 4

Racionális ágens Racionálisan cselekedni: Racionális ágens legjobb kimenetel érdekében vagy bizonytalanság jelenlétében a legjobb várható kimenetel érdekében cselekszik 2018. 04. 11. 5

Tanulási fázis Jellemzően nagy mennyiségű adatból kinyert minták alapján történik. A rendszer felveszi a mintákban lévő ismereteket és a viselkedése módosul. Fő tanulási formák: felügyelt vagy ellenőrzött tanulás felügyelet nélküli vagy nemellenőrzött tanulás megerősítéses tanulás 2018. 04. 11. 6

Felügyelt tanulás Összetartozó ki- és bemeneti mintapárok rendelkezésre állnak. A tanító algoritmus feladata, hogy megtanítsa a mintapárok által reprezentált leképezést. A kívánt válaszok ismertek, tehát a hálózat közvetlen válasza összehasonlítható azokkal, és a különbségből kiderül, hogy szükséges-e további módosítás. A tanító eljárás lényege a kívánt és tényleges kimenetek közti hiba minimalizálása. 2018. 04. 11. 7

Előhívási fázis A betanított ágens, a neki szánt funkció betöltése során az előhívási szakaszban van. Gyorsabb folyamat, mint a tanítás A tanítás során kalkulált súlyokat felhasználva a kimeneten megjelenik a válasz. 2018. 04. 11. 8

Mesterséges neurális hálózatok Biológiai eredetű, de annál jóval egyszerűbb elemekből álló szimuláció. Ez lehet az ágens agya A gépi tanulás inspirálta a kifejlesztését. Története a 40-es évekre nyúlik vissza. Fontos mérföldkő volt 1958-ban Rosenblatt perceptronja. Ezt követően több probléma is stagnált a tématerülete kutatása 1975-ben Werbos publikálta a hibavisszaterjesztéses algoritmust, amellyel a többrétegű neurális hálózatok tanítása lehetővé vált. Végül újabb lökéseket adott a számítógépek teljesítménynek folyamatos növekedése, valamint az internetnek köszönhetően rendelkezésre álló óriási adatmennyiség 2018. 04. 11. 9

Mesterséges neurális hálózatok, definíció Definíció: Mesterséges neurális hálózatnak nevezzük azt a hardver vagy szoftver megvalósítású párhuzamos, elosztott működésre képes információfeldolgozó eszközt, amelyre igaz, hogy: Azonos vagy hasonló típusú általában nagyszámú lokális feldolgozást végző műveleti elem, neuron (processing element) többnyire rendezett topológiájú, nagymértékben összekapcsolt rendszeréből áll. Rendelkezik tanulási algoritmussal (learning algorithm), mely általában minta alapján való tanulást jelent, és amely az információfeldolgozás módját határozza meg. Rendelkezik a megtanult információ felhasználását lehetővé tevő információ előhívási, vagy röviden előhívási algoritmussal (recall algorithm). 2018. 04. 11. 10

Neuron felépítése MISO eszköz Nemlineáris leképezés Rendelkezhet lokális memóriával Aktivációs függvény 2018. 04. 11. 11

Neuron felépítése 2018. 04. 11. 12

Aktivációs függvények f(x)=x 2018. 04. 11. 13

Aktivációs függvények ReLU 2018. 04. 11. 14

Neuronok csoportosítása Elhelyezkedés, funkció és a többi neuronnal való kapcsolat szerint a hálózatban szereplő neuronokat három diszjunkt halmazba oszthatjuk: bemeneti neuronok, amiknek közvetlen bemenete a hálózat bemenete, egybemenetűek, jellemzően egy kimenettel rendelkeznek, más neuronok meghajtására szolgálnak kimeneti neuronok, amik a hálózat kimenetére továbbítják az információt rejtett neuronok, amik be és kimeneteikkel közvetlenül más neuronokhoz kapcsolódnak 2018. 04. 11. 15

Topológia 2018. 04. 11. 16

Konvolúciós neurális hálózat Hagyományos neurális hálózat alapokon nyugszik Képeken található minták feltárására fejlesztették 2018. 04. 11. 17

Felügyelt tanuló rendszer fejlesztése 2018. 04. 11. 18

Felügyelt tanuló rendszer fejlesztése HiL környezet Monitor Kamera PC HiL 2018. 04. 11. 19

Felügyelt tanuló rendszer fejlesztése Fejlesztés lépései: Tanító mintapont párok előállítása Jármű körbevezetése a pályán Képekhez tartozó kormányszög értékek Adatkonverzió 6460 darab mintapár Hálózat méretének megválasztása Betanítás Eredmények kiértékelése 2018. 04. 11. 20

Méretválasztás, betanítás Hálózati struktúra Futási idő [mm:ss] Validációs négyzetes hiba Tanulás négyzetes hibája (cél) Iterációk száma [30 20 5] 03:37 1.40631 0.02 12632 [50 20 5] 03:39 0.88868 0.02 9370 [50 30 20 5] 02:12 0.98182 0.02 5181 [80 50 20 5] 08:35 0.82197 0.006 11130 [100 50 5] 09:18 0.64459 0.006 11168 [100 50 30 20 5] 05:59 0.76948 0.006 6584 [100 50 20 5] 08:20 0.70402 0.006 8514 [80 40 20 5] 05:00 0.70368 0.006 5742 [80 30 20 5] 21:43 0.88932 0.006 27101 [120 50 5] 07:28 0.81488 0.006 6926 [100 40 20 5] 07:34 0.77396 0.006 9232 2018. 04. 11. 21

Méretválasztás, betanítás Konvolúciós neurális hálózat 3. hálózat: (1) 130 x 320 méretű, három csatornás bemeneti réteg Hálózat száma Futási idő [mm:ss] Validációs négyzetes hiba Tanulás négyzetes hibája Iterációk száma 1 50:31 2.1899 2.0166 2790 2 70:18 1.5351 1.2596 4400 3 124:17 0.7633 0.3363 8310 4 54:43 6.3384 4.2313 5400 5 46:54 2.671 2.48 6160 6 78:09 0.9171 0.6178 3150 (2) 13 x 32 méretű, 15 darab, 3 csatornás szűrőből álló konvolúciós réteg (3) ReLU aktivációs függvény (4) 15 neuronból álló teljesen összekapcsolt réteg (5) ReLU aktivációs függvény (6) 1 neuronból álló teljesen összekapcsolt réteg (7) Regressziós kimeneti réteg 2018. 04. 11. 22

Eredmények kiértékelése 2018. 04. 11. 23

Eredmények kiértékelése Videó 2018. 04. 11. 24

Megerősítéses tanulás A megerősítéses tanulás (reinforcement learning) feladata az, hogy optimális (vagy közel optimális) stratégiát tanuljon az ágens egy adott környezethez. Nincs felügyelet, csak egy ún. reward signal A visszacsatolás sokszor késleltetett, nem azonnali Az ágens akciói befolyásolják a későbbi adatokat 2018. 04. 11. 25

Megerősítéses tanulás példák Táblajátékok (amőba, sakk, go) Videójátékok Robotikai feladatok (humanoid robot járni tanul) Optimális irányítási feladatok Versenyautó irányítása Erőmű irányítás Jármű energiaoptimalizáció 2018. 04. 11. 26

Jutalom (Reward) A jutalom (R t ) egy skalár visszacsatolt jel Azt mutatja, hogy mennyire jól csinálja az ágens a feladatát t időpontban Az ágens célja, hogy maximalizálja a kumulált jutalmat Jutalom hipotézis: minden cél leírható a kumulált jutalom várható értékének maximalizálásával 2018. 04. 11. Konferencia neve 27

Megerősítéses tanulás 2018. 04. 11. 28

Markov-folyamat Olyan sztochasztikus folyamat, melynél a jövőbeli állapotok feltételes valószínűsége csak a jelenlegi állapottól függ, a folyamat múltbeli történetétől nem, ill. csak közvetve: a múlt a jövőt csak a jelenen keresztül befolyásolja. 2018. 04. 11. Konferencia neve 29

Állapotreprezentáció példa Mi történik akkor, ha az állapot sorrendben a 3 utolsó elem Mi történik akkor, ha az állapot a lámpák, csengők és karok számai? Mi történik akkor, ha az állapot a teljes szekvencia? 2018. 04. 11. Konferencia neve 30

Ágens komponensek Egy megerősítéses tanuló ágensek az alábbi komponensekből épülnek fel: Policy: az ágens viselkedését leíró függvény Value function: mennyire jó az adott állapot és/vagy akció Modell: az ágens környezet-reprezentációja 2018. 04. 11. Konferencia neve 31

Policy A policy az ágens viselkedése Az állapotk és az akciók közti leképezés Determinisztikus policy: Stohasztikus policy: 2018. 04. 11. Konferencia neve 32

Value function A jövőbeni jutalom predikciója Az állapotok jóságának meghatározására használható Ebből adódóan közvetetten az akciók kiválasztására is használhatók 2018. 04. 11. Konferencia neve 33

Modell A modell megjósolja, hogy mi fog történni a környezettel, azaz mi lesz a következő állapot, valamint a következő közvetlen jutalom. 2018. 04. 11. Konferencia neve 34

Labirintus példa Jutalom: -1 minden lépésben Akció: É, K, D, Ny Állapot: az ágens pozíciója 2018. 04. 11. Konferencia neve 35

Labirintus példa: policy A nyilak a policy-t reprezentálják, minden egyes állapotban 2018. 04. 11. Konferencia neve 36

Labirintus példa: value function A számok az egyes állapotok értékét reprezentálják 2018. 04. 11. Konferencia neve 37

Tanulás és tervezés Megerősítéses tanulás A környezet kezdetben ismeretlen Az ágens interakcióba lép a környezettel Az ágens fejleszti a policy-jét Tervezés A környezet modellje ismert Az ágens számításokat végez a modellel (külső interakció nélkül) Az ágens fejleszti a policy-jét 2018. 04. 11. Konferencia neve 38

Felfedezés és kihasználás A megerősítése tanulás egy trial-and-error tanulás Az ágensnek fel kell fedezni a jó policy-t Felhasználva a tapasztalatait a környezetből De közben kevés jutalmat elveszítve Exploration: több információ gyűjtése a környezetről Exploitation: a már megszerzett információ kihasználása a jutalom maximalizálása érdekében 2018. 04. 11. Konferencia neve 39

Köszönöm a figyelmet! 2018. 04. 11. TDK konferencia 40