ADAPTÍV ERŐFORRÁS IRÁNYÍTÁS

Hasonló dokumentumok
Csáji, B.Cs.; Monostori, L. Monostori, L.; Váncza, J.; Kumara, S.R.T. Nof, S.Y.; Morel, G.; Monostori, L.; Molina, A.; Filip, F.

A megerosítéses tanulás és a szimulált hutés kombinált használata: algoritmusok és alkalmazások

Koordináció Termelési Hálózatokban

Előrenéző és paraméter tanuló algoritmusok on-line klaszterezési problémákra

Irányítási struktúrák összehasonlító vizsgálata. Tóth László Richárd. Pannon Egyetem Vegyészmérnöki és Anyagtudományok Doktori Iskola

Drótposta: ; ; Honlapom:

Mérnök informatikus (BSc) alapszak levelező tagozat (BIL) / BSc in Engineering Information Technology (Part Time)

Mi is volt ez? és hogy is volt ez?

P-gráf alapú workflow modellezés fuzzy kiterjesztéssel

Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások

Publikációs lista. Gódor Győző július 14. Cikk szerkesztett könyvben Külföldön megjelent idegen nyelvű folyóiratcikk...

AZ A PRIORI ISMERETEK ALKALMAZÁSA

List of Publications (Pánovics János)

Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben

Módszer köztes tárolókat nem tartalmazó szakaszos működésű rendszerek ütemezésére

Süle Zoltán publikációs listája

Teljesen elosztott adatbányászat alprojekt

AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA

Valószínűségi modellellenőrzés Markov döntési folyamatokkal

OTKA nyilvántartási szám: T ZÁRÓJELENTÉS

ICT ÉS BP RENDSZEREK HATÉKONY TELJESÍTMÉNY SZIMULÁCIÓJA DR. MUKA LÁSZLÓ

Termelési rendszerek, mint komplex, adaptív rendszerek a K sz. OTKA projekt Zárójelentése Témavezető: Dr. Monostori László

Logisztikai szimulációs módszerek

Publikációs jegyzék (Pánovics János)

List of publications Almási Béla, University of Debrecen

VALÓS HULLÁMFRONT ELŐÁLLÍTÁSA A SZÁMÍTÓGÉPES ÉS A DIGITÁLIS HOLOGRÁFIÁBAN PhD tézisfüzet

A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS

és alkalmazások, MSc tézis, JATE TTK, Szeged, Témavezető: Dr. Hajnal Péter

Új projekt ütemezési módszerek a termelés-tervezés támogatására

Megerősítéses tanulási módszerek és alkalmazásaik

Információ-visszakeresı módszerek egységes keretrendszere és alkalmazásai. Kiezer Tamás

Megerősítéses tanulás 2. előadás

EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA

B/16. számú melléklet Önéletrajz sablon

Tevékenység szemléletű tervezés magyarországi felsőoktatási intézmények pályázataiban

Pletykaalapú gépi tanulás teljesen elosztott környezetben

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

MULTIMÉDIA ALAPÚ OKTATÁSI TECHNOLÓGIÁK GYAKORLATI ALKALMAZÁSÁNAK VIZSGÁLATA A KATONAI SZAKNYELVOKTATÁSBAN

- Adat, információ, tudás definíciói, összefüggéseik reprezentációtípusok Részletesebben a téma az AI alapjai című tárgyban

Miskolci Egyetem Gépészmérnöki és Informatikai Kar Informatikai Intézet Alkalmazott Informatikai Intézeti Tanszék

Publikációs lista. Dr. Molnárka-Miletics Edit Széchenyi István Egyetem Matematika és Számítástudományi Tanszék

A TANTÁRGY ADATLAPJA

Adaptív menetrendezés ADP algoritmus alkalmazásával

MŰSZAKI TUDOMÁNY AZ ÉSZAK-KELET MAGYARORSZÁGI RÉGIÓBAN 2012

MULTI-ÁGENS SZIMULÁCIÓK

A TANTÁRGY ADATLAPJA

Megerősítéses tanulás 7. előadás

Dinamikus programozás alapú szivattyú üzemvitel optimalizálási technikák (főként) kombinatorikus vízműhálózatokra

JÓVÁHAGYÁS. szervezet. Név Dr. Szakonyi Lajos KPI Oktatási Minisztérium

Mikroelektromechanikai szerkezetek szilárdsági és megbízhatósági vizsgálata

Szétválasztási hálózatok szintézise: Különböző tulajdonságokon alapuló szétválasztó módszerek egyidejű alkalmazása. Heckl István

A MAGYAR H2020 SZEREPLÉS TAPASZTALATAI

Pacemaker készülékek szoftverének verifikációja. Hesz Gábor

2004 Nyugat Magyarországi Egyetem, Faipari Mérnöki Kar Okleveles Könnyűipari Mérnök

műszaki tudomány doktora 1992 Beosztás: stratégiai tanácsadó, tudományos tanácsadó Munkahelyek: Nokia -Hungary kft Veszprémi Egyetem

PUBLIKÁCIÓS ÉS ALKOTÁSI TEVÉKENYSÉG ÉRTÉKELÉSE, IDÉZETTSÉG Oktatói, kutatói munkakörök betöltéséhez, magasabb fokozatba történı kinevezéshez.

Városi légszennyezettség vizsgálata térinformatikai és matematikai statisztikai módszerek alkalmazásával

Mérnök informatikus (BSc) alapszak levelező tagozat (BIL) / BSc in Engineering Information Technology (Part Time)

TÁVOKTATÁSI TANANYAGOK FEJLESZTÉSÉNEK MÓDSZERTANI KÉRDÉSEI

Megerősítéses tanulás

Publikációs lista. 3) Economic Reforms and Some Issues of International Trade Policy (Business Partner Hungary, September 1986)

Név KP Blokk neve KP. Logisztika I. 6 LOG 12 Dr. Kovács Zoltán Logisztika II. 6 Logisztika Dr. Kovács Zoltán

A döntésorientált hibamód és hatáselemzés módszertanának tapasztalatai az AUDI Motor Hungária Kft.-nél

MŰSZAKI TUDOMÁNY AZ ÉSZAK-ALFÖLDI RÉGIÓBAN 2010

Távközlô hálózati folyamatok monitorozása

Sztochasztikus optimalizálás tehenészetben

Pannon Egyetem Vegyészmérnöki és Anyagtudományok Doktori Iskola

Kémiai és bioipari adatrendszerek és folyamatok minőségellenőrzésének informatikai eszközei. Viczián Gergely

OTKA Zárójelentés Publikációk

YANG ZIJIAN GYŐZŐ 杨子剑

MÉLYFÚRÁSI GEOFIZIKAI ADATOK ÉRTELMEZÉSÉNEK MODERN INVERZIÓS MÓDSZEREI

Kollektív tanulás milliós hálózatokban. Jelasity Márk

Új algoritmusok a vezetéknélküli szenzoriális kommunikációhoz

Foundation Fieldbus kommunikációra épülő folyamatirányítás teljesítőképességi kérdései. DR. JÓNAP KÁROLY dr. Univ., okleveles gépészmérnök

Mérnök informatikus MSc levelező tagozat tanterve

A forrás pontos megnevezésének elmulasztása valamennyi hivatkozásban szerzői jogsértés (plágium).

Telefonszám(ok) Mobil Fax(ok) Egyetem u. 10., 8200 Veszprém. Tehetséggondozás (matematika)

Autópálya forgalomszabályozás felhajtókorlátozás és változtatható sebességkorlátozás összehangolásával és fejlesztési lehetőségei

Ellátási lánc optimalizálás egy új multinál

Optimális hálózatok szintézise változtatható arányú és összetételű anyagáramokat feldolgozó műveleti egységekkel

őszi kezdés ETF I. félév ősz II. félév tavasz III. félév ősz IV. félév tavasz ea gy k kr ea gy k kr ea gy k kr ea gy k kr Alapozó ismeretek

Szabó Zoltán & Fehér Péter. & ITSMfMagyarországMagyarország

Feleségem Hizsnyik Mária, gyermekeim Gyula (1979) és Júlia (1981), unokáim Lola (2007), Kende (2010) és Márkó (2010)

Termeléstervezés és -irányítás Termelés és kapacitás tervezés Xpress-Mosel FICO Xpress Optimization Suite

AZ IVÓVÍZMINŐSÉG-JAVÍTÓ PROGRAM SZABOLCS- SZATMÁR-BEREG MEGYEI SAJÁTOSSÁGAI

Hughes, M.- Dancs, H.( 2007) (eds): Basics of Performance Analysis, Cardiff- Szombathely, Budapest

GÉPI ÉS EMBERI POZICIONÁLÁSI, ÉRINTÉSI MŰVELETEK DINAMIKÁJA

Policy keretrendszer dinamikus hálózatkompozíciók automatizált tárgyalási folyamatához

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2007/2008

Ember és robot együttműködése a gyártásban Ipar 4.0

Elektronikai javítási folyamatok modellezése Markov-láncokkal

KÉPALKOTÁSRA ALAPOZOTT RUHAIPARI

Bokor Judit PhD. Szerz, cím, megjelenés helye, Szerz, cím, megjelenés helye, Szerz, cím, megjelenés. helye, PUBLIKÁCIÓ. Könyv, idegen nyelv

Adatbányászati és gépi tanulási algoritmusok szoftver szenzorok fejlesztésére. Kulcsár Tibor

Tanulás elosztott rendszerekben/3

Publikációs lista Szabó Szilárd

Kalman-féle rendszer definíció

SZÉN NANOCSŐ KOMPOZITOK ELŐÁLLÍTÁSA ÉS VIZSGÁLATA

Nem teljesen kitöltött páros összehasonlítás mátrixok sajátérték optimalizálása Newton-módszerrel p. 1/29. Ábele-Nagy Kristóf BCE, ELTE

Erdélyi Ferenc közleményei

Átírás:

ADAPTÍV ERŐFORRÁS IRÁNYÍTÁS Gépi tanulási megközelítesek erőforrás elosztásra bizonytalan és változó környezetekben P h. D. é r t e k e z é s t é z i s e i Csáji Balázs Csanád Témavezető: Monostori László, D. Sc. Eötvös Loránd Tudományegyetem Informatikai Kar Informatikai Doktori Iskola Az informatika alapjai és módszertana doktori program Elnök: Prof. Demetrovics János, akadémikus Magyar Tudomámyos Akadémia Számítástechnikai és Automatizálási Kutatóintézet Budapest, 2008

1. Bevezetés 1 1. Bevezetés Az információtechnológia robbanásszerű fejlődésnek indult a múlt század közepe óta. Mégis, amint a számítástudomány áttörte a laboratóriumok és előadótermek falait és a való élet problémáival találta szembe magát, óriási nehézségekbe ütközött. A gyakorlatban ugyanis többnyire csak részleges és bizonytalan információink vannak a rendszerekről és környezetükről. Ezen felül ezek dinamikusan változhatnak is, a problémák lehetnek nem stacionáriusak. Továbbá bonyolultsági kérdésekkel is meg kell birkóznunk. Még statikus, nagyon leegyszerűsített, absztrakt problémák esetében is így van ez, amikor tudjuk, hogy a megoldás létezik és véges számú lépésben elérhető. Ilyenkor is előfordulhat ugyanis, hogy a feladat kezelhetetlen, mert nincs elég számítási kapacitásunk vagy tároló helyünk ahhoz, hogy a megoldást gyakorlatilag is kiszámítsuk. Ez a helyzet például sok NP-nehéz probléma esetén is. Ezen nehézségek leküzdésére kínálnak egy lehetséges megoldást a gépi tanulási módszerek. Ezek olyan rendszerek tervezését teszik lehetővé, amelyek képesek viselkedésükben alkalmazkodni a környezet aktuális állapotához, képesek tudásukat általánosítani az ismeretlen esetekre és megtanulni, hogy a rendszer hogyan optimalizálható. Ezek a megközelítések gyakran statisztikus módszereken alapulnak és megelégszenek közelítő, nem teljesen optimális, de kezelhető megoldásokkal, mind a számítási, mind a tároló kapacitás tekintetében. A tanulás fontosságát már a számítástudomány megalapítói is felismerték. Ismert például, hogy Neumann János mennyire érdeklődött a mesterséges élet iránt és sok egyéb mellett önszervező automatákat is tervezett. Egy másik példa lehet Alan Turing, aki híres cikkében amelyet a mesterséges intelligencia kutatás egyik elindítójának tekinthetünk azt írta, hogy ahelyett, hogy hatalmas és bonyolult rendszereket tervezünk, olyan programokat kellene készíteni, amelyek képesek saját maguk megtanulni a hatékony működést. A disszertációban egy olyan fontos, sok gyakorlati alkalmazással rendelkező problémát vizsgálok, amelyben az összes fent említett nehézség előfordul: az erőforrás elosztást. Az erőforrás elosztási problémák (EEP-k) nagy gyakorlati jelentőséggel bírnak, hiszen nagyon sok különböző területen fordulnak elő. Például, az ipari termelés-irányítás ( ütemezés), raktározás (tárkiosztás), áruszállítás, személyzeti politika (irodák, kórházak), építési projektek vezetése, celluláris mobil hálózatok irányítása vagy számítógépes programok ütemezésének (például erősen párhuzamos GRID rendszerekben) területén. Az EEP-k központi jelentőségűek a menedzsment tudományban is (Powell és Van Roy, 2004). A disszertációban olyan problémákat vizsgálok, amelyekben véges számú újrafelhasználható erőforrásokhoz kell nem megszakítható, összefüggő feladatokat rendelni, melyeknek időtartama és hatása bizonytalan. A dolgozat fő célkitűzése, hogy hatékony döntéshozó rendszereket tervezzen, amelyek képesek az erőforrásokat időben elosztani és közben egy célfüggvényt optimalizálni. A gyakorlati alkalmazások szempontjából fontos, hogy a megoldás képes legyen kezelni nagyméretű problémákat éppúgy, mint a környezeti változásokat. Az EEP-k vizsgálatánál egyik fő motivációm az volt, hogy az ipari termelékenység hatékonyságát növeljem. A mai ipari rendszerekben nagyon sok probléma származik a váratlan eseményekből és feladatokból, a nem-linearitásból és a különböző műhelyek tevékenységét összehangoló és irányító interakciók tömegéből. A bonyolultság és a bizonytalanság nagyon komolyan korlátozza a hagyományos termelésirányítási megközelítéseket, például a determi-

2 1. Bevezetés nisztikus ütemezést. A dolgozatban matematikai programozást és gépi tanulási módszereket alkalmazok, hogy közel optimális megoldásokat adjak egy általánosított sztochasztikus EEPosztályra. Ezek egy intelligens ipari rendszer alapvető részei is lehetnek. Hatvany és Nemes (1978) már a nyolcvanas években javasolták mesterséges intelligencia módszerek alkalmazását, amik segítségével bizonyos korlátok mellett előre nem jelezhető vagy/és eddig nem tapasztalt problémák is megoldhatók még hiányos adatok birtokában is. A különféle EEP-knek nagy számú pontos és közelítő megoldása létezik, például az ütemezési problémák esetén (Pinedo, 2002); ugyanakkor, ezek a módszerek legtöbbször csak a statikus és determinisztikus változatokkal foglalkoznak és többnyire nem képesek megbirkózni a bizonytalansággal és a változásokkal. Sok determinisztikus EEP, amely a kombinatorikus optimalizálás területén lép föl pl. az utazó ügynök probléma és a job-shop ütemezés erősen NP-nehéz, sőt bizonyíthatóan nincs hozzájuk jó polinomiális idejű közelítő algoritmus sem. A sztochasztikus esetben az EEP-k Markov döntési problémává (MDP) is átfogalmazhatók és dinamikus programozási (DP) módszereket alkalmazva (Bertsekas, 2001) (elméletileg) optimálisan megoldhatóak. Ám a Bellman által a dimenzionalitás átká - nak nevezett jelenség miatt, ezen módszerek gyakorlati hatékonysága csekély. Az átok azt a jelenséget takarja, hogy a probléma méretével arányosan a kiszámításához szükséges számítási kapacitás kombinatorikusan robban. Egyes szerzők (Powell és Van Roy, 2004) már nem is egy, hanem három fajta átkot említenek a DP módszerekkel kapcsolatban. Ezek a problémák közelítő módszereket motiváltak, amelyek a gyakorlatban is hatékonyan alkalmazhatóak, bár gyakran csak szuboptimális megoldást eredményeznek (Bertsekas, 2005). A következőkben röviden ismertetem a szakirodalom néhány olyan elemét, amely közel áll az én megközelítésemhez. Megoldási módszerem a közelítő dinamikus programozási (KDP) algoritmusok közé sorolható, mely egy diszkrét idejű irányítási technológia. Megjegyzendő, hogy a megerősítéses tanulási (MT) módszerek is a KDP-k osztályába tartoznak. Zhang és Dietterich (1995) alkalmazott elsőként MT módszereket egy speciális EEPre, egy NASA űrsikló rakodási problémájának megoldására alkalmaztva a TD(λ) módszert iteratív javítással kombinálva. Azóta sok olyan cikk született, ami EEP-kre javasolt különféle MT módszereket. Az első reaktív (visszacsatolt) megoldást ütemezési problémára KDP algoritmusok segítségével Schneider et al. (1998) adta. Riedmiller és Riedmiller (1999) többrétegű perceptron alapú neurális MT megoldást javasolt lokális heurisztikák tanulására. Aydin és Öztemel (2000) a Q-tanulás egy módosított változatának használták termelésirányítási erőforrás kiosztási (dispatching) stratégiákat tanulására. Powell és Van Roy (2004) bevezetett egy formális keretrendszert EEP-k vizsgálatára, melyek megoldására KDP-t alkalmaztak. Később az ő megoldásukat párhuzamosította Topaloglu és Powell (2005). Gersmann és Hammer (2005) szupport vektor gépeket alkalmazott iteratív javítási (lokális keresés) stratégiák továbbfejlesztésére, amelyeket erőforrás megszorított projekt ütemezési feladatokra alkalmaztak. Dolgov és Durfee (2006) ágens alapú erőforrás elosztási rendszert fejlesztett ki MDP-indukált preferenciákkal. Beck és Wilson (2007) proaktív megoldásokat javasolt job-shop típusú ütemezési problémákra. Ezen megoldások a Monte Carlo szimuláció és vagy korlátozás kielégítés vagy tabu keresés kombinációján alapultak. Végül a környezeti hatások tanuló algoritmusokra gyakorolt hatását vizsgálta Szita et al. (2002).

2. Főbb tudományos eredmények 3 2. Főbb tudományos eredmények A disszertáció főbb tudományos eredményei hat tézisben foglalhatóak össze, amelyek két téziscsoportba sorolhatóak. A következőkben ezeket a téziseket ismertetem. 2.1 Sztochasztikus erőforrás elosztás A dolgozat törzsét alkotó fejezetek első részében (2. fejezet) sztochasztikus EEP-ket vizsgáltam és ezekre gépi tanulási módszereken alapuló megoldásokat javasoltam: T 1.1 Bevezettem egy formális keretrendszert sztochasztikus EEP-k vizsgálatára, amelyek újrafelhasználható erőforrásokból és nem megszakítható, időbeni kiterjedéssel rendelkező feladatokból állnak. Megmutattam, hogy ezek átfogalmazhatóak MDP-ké és ez a módszer alkalmas mind reaktív mind proaktív megoldások kezelésére. Az általam definiált EEP keretrendszer természetes általánosítása számos klasszikus EEP-nek, mint pl. ütemezési és szállítási problémáknak. Megmutattam, hogy ez a rendszer átfogalmazható egy sztochasztikus legrövidebb út problémává, amely egy speciális MDP. Kiemelendő, hogy az ilyen MDP-k számos kedvező tulajdonsággal rendelkeznek: állapot- és akcióterük véges, aperiodikusak és ennél fogva minden politikájuk megfelelő, politikáik tere pedig biztonságosan leszűkíthető. Ezután reaktív EEP megoldásokat vizsgáltam, amelyeket az átfogalmazott MDP-k irányítási politikáiként definiáltam. Ezen kívül, a megközelítés proaktív megoldásokra való kiterjesztését is elemeztem, parciálisan megfigyelhető MDP-k (POMDP) irányítási politikáiként tekintve őket. Vizsgáltam a reaktív és a proaktív megközelítések közötti kapcsolatokat is. Ezen eredmények a disszertáció 2.1 fejezetében találhatóak. T 1.2 Megoldási módszereket javasoltam amelyek KDP, szimulált lehűlés és vagy hasító táblák vagy szupport vektor regresszió kombinációján alapulnak reaktív megoldások kiszámítására. A megközelítés hatékonyságát szimulációs kísérletek eredményeivel támasztottam alá, mind hatékonyság-mérő (benchmark) mind ipari adatokon. KDP-n alapuló módszereket speciálisan illesztett Q-tanulást javasoltam arra, hogy az MDP-vé átfogalmazott feladat egy hatékony irányítási politikáját kiszámítsuk. Két módszert vizsgáltam annak érdekében, hogy az értékelő függvény kompakt módon reprezentálható legyen: hasító táblákat és szupport vektor regressziót (SVR), különös tekintettel a ν-svr-ekre. A tanulási algoritmust off-line módon alkalmaztam azaz minden epizód végén történt csak tanulás. Egy epizód egy szimulált állapotakció-költség pályából (trajektóriából) állt. A felfedezés és az eddig tanult ismeretek kihasználása arányának beállítására Boltzmann formulát alkalmaztam. Ezen megközelítések a disszertáció 2.2.1 és 2.2.2 fejezeteiben találhatóak. Szimulációs kísérleteket is végeztem, hogy a módszer alkalmasságát alátámasszam, mind hatékonyság-mérő (benchmark) feladatokon, mind ipari adatokon. Megoldásom hatékonyságát nehéz ütemezési problémákon vizsgáltam, míg skálázhatóságát nagy méretű ipari adatokon. Ezen eredményeket a disszertáció 4.1.2 és 4.1.4 fejezetei tartalmazzák.

4 2. Főbb tudományos eredmények T 1.3 Számos további javítást javasoltam és vezettem be, mint pl. rollout algoritmusok alkalmazását kezdeti fázisban, állapottér-dekompozíciót, feladat klaszterezést és elosztott mintavételt,hogy ez által meggyorsítsam egy hatékony megoldás kiszámítását. Ezen módszerek eredményességét szimulációs kísérletekkel támasztottam alá. A javasolt módosítások a következők voltak: rollout algoritmusok alkalmazását javasoltam, hogy a kezdeti fázisban irányítsa a felfedezést és hogy kezdeti mintákat biztosítson a függvény approximátor számára. Továbbá javasoltam az akciótér dekomponálását, hogy ez által csökkentsem az egyes állapotokból elérhető akciók számát. Javasoltam még a részfeladatok klaszterezését, amely elősegítette, hogy a trajektóriák hosszának csökkenésével a kumulatív költség varianciája is kisebb legyen. Végül az algoritmus kétféle párhuzamosítási lehetőségét is vizsgáltam attól függően, hogy közösvagy osztott memória architektúrával dolgozunk. Ezek a módosítások a disszertáció 2.2.3 és 2.2.4 fejezeteiben találhatók. A klaszterezéssel és az elosztott mintavétellel kapcsolatos kísérletek eredményei a disszertáció 4.1.3 és 4.1.5 fejezeteiben találhatók. 2.2 Változó környezetek A dolgozattörzs második részében (3. fejezet) a környezeti változások hatásait vizsgáltam. T2.1 Korlátokat vezettem le diszkontált MDP-kben arra vonatkozóan, hogy hogyan függ az optimális értékelő függvény és egy tetszőleges rögzített politika értékelő függvénye az átmenet-valószínűségektől, az azonnali-költségektől és a diszkontálási faktortól. Bebizonyítottam, hogy egy tetszőleges rögzített (stacionárius, Markov, véletlenített) irányítási politika értékelő függvénye Lipschitz folytonosan függ az azonnali-költség függvénytől (11. tétel). Egy hasonló eredmény már ismert volt átmenet-valószínűség függvényekre, de erre az esetre is adtam egy erősebb korlátot (10. tétel). A diszkontálási faktor megváltozásának esetére szintén adtam korlátot (12. tétel) és egy példán keresztül megmutattam, hogy ez az összefüggés nem Lipschitz folytonos. Ezt követően (14. lemma segítségével) kiterjesztettem ezen eredményeket az optimális értékelő függvényekre is. Ezek a tételek a disszertáció 3.1 fejezetében találhatóak. T2.2 Bevezettem egy új MDP modellt az (ε, δ)-mdp-ket a változó környezetek vizsgálatára. Ebben a modellben az átmenet-valószínűségek és az azonnali-költségek időben változhatnak, de a változásoknak aszimptotikusan korlátosnak kell maradniuk. Ahhoz, hogy a környezeti változások elemezhetővé váljanak, bevezettem az (ε, δ)- MDP-ket (23. definíció), amelyek a klasszikus MDP-k és az ε-mdp-k általánosításai. Ebben a kiterjesztett modellben az átmenet-valószínűség függvény és az azonnaliköltség függvény időben változhat, de a változásoknak aszimptotikusan azaz határértékben korlátosnak kell maradniuk. Megmutattam (24. lemma), hogy a diszkontálási faktorban bekövetkezett változások visszavezethetőek az azonnali-költség függvényben bekövetkező változásokra, így a diszkont faktor változásait nem szükséges modellezni. Ezek az eredmények a disszertáció 3.2.2 fejezetében találhatóak.

3. Tudományos publikációk 5 T 2.3 Egy általános konvergencia tételt bizonyítottam időfüggő sztochasztikus iteratív algoritmusokra. Ennek következménye egy approximációs tétel (ε, δ)-mdp-kben működő, értékelő függvény alapú megerősítéses tanulási módszerekre. Ezen eredményeket három klasszikus MT algoritmuson és kísérleteken keresztül szemléltettem. Olyan sztochasztikus iteratív algoritmusokat vizsgáltam, amelyekben az értékelő függvényekre ható operátor időben változhat. Általánosított konvergencia tételt adtam (26. tétel) ilyen algoritmusokra. Ennek következményeként vezettem le egy approximációs tételt (ε, δ)-mdp-kben működő, értékelő függvény alapú MT módszerekre (27. következmény). Továbbá eredményeimet három klasszikus MT algoritmuson szemléltettem. Konvergencia tulajdonságokat bizonyítottam (ε, δ)-mdp-kben az aszinkron érték iteráció, a Q-tanulás és a TD-tanulás módszerére. Az eredményeket két egyszerű sztochasztikus iteratív algoritmuson szemléltettem, egy jól viselkedő és egy patologikus eseten. A disszertáció 3.2.3 és 3.2.4 fejezeteiben találhatóak az elméleti eredmények, míg a kísérletek eredményeit a 4.2 fejezet mutatja be. 3. Tudományos publikációk 3.1 Folyóirat cikkek 1. Schuh, G.; Monostori, L.; Csáji, B. Cs.; Döring, S.: Complexity-based modeling of reconfigurable collaborations in production industry, Annals of the CIRP Manufacturing Technology, Vol. 57., No. 1., 2008 (in print) - Impakt faktor: 0.989 2. Argyros, A.; Bártfai, G.; Eitzinger, Ch.; Kemény, Zs.; Csáji, B. Cs.; Kék, L.; Lourakis, M.; Reisner, W.; Sandrisser, W.; Sarmis, T.; Umgeher, G.; Viharos, Zs. J.: Smart sensor based vision system for automated processes, International Journal of Factory Automation, Robotics and Soft Computing, Thomson Scientific Journal, Vol. 3., 2007, pp. 118 123. 3. Csáji, B. Cs.; Monostori, L.; Kádár, B.: Reinforcement learning in a distributed market-based production control system, Advanced Engineering Informatics, Vol. 20, No. 3, July 2006, pp. 279 288. - Impakt faktor: 1.295 - Független hivatkozások: 2 4. Monostori, L.; Csáji, B. Cs.: Stochastic dynamic production control by neurodynamic programming, Annals of the CIRP Manufacturing Technology, Vol. 55, No. 1, 2006, pp. 473 478. - Impakt faktor: 0.989 - Független hivatkozások: 3 5. Kádár, B.; Monostori, L.; Csáji, B. Cs.: Adaptive approaches to increase the performance of production control systems, CIRP Journal of Manufacturing Systems, Vol.

6 3. Tudományos publikációk 34, No. 1, 2005, pp. 33 43. - Független hivatkozások: 3 6. Monostori, L.; Csáji, B. Cs.; Kádár, B.: Adaptation and learning in distributed production control, Annals of the CIRP Manufacturing Technology, Vol. 53, No. 1, 2004, pp. 349 352. - Impakt faktor: 0.973 - Független hivatkozások: 8 3.2 Könyvfejezetek 7. Argyros, A.; Bártfai, G.; Eitzinger, Ch.; Kemény, Zs.; Csáji, B. Cs.; Kék, L.; Lourakis, M.; Reisner, W.; Sandrisser, W.; Sarmis, T.; Umgeher, G.; Viharos, Zs. J.: Smart sensor based vision system for automated processes, In book: Emerging Technologies, Robotics and Control Systems, editor: Salvatore Pennacchio, Vol. 2., pages 24 29, International Society for Advanced Research, 2007 8. Csáji, B. Cs.; Monostori, L.: Stochastic reactive production scheduling by multi-agent based asynchronous approximate dynamic programming, Lecture Notes in Computer Science; 3690: Lecture Notes in Artificial Intelligence, Proceedings of the 4th International Central and Eastern European Conference on Multi-Agent Systems (CEEMAS), September 15 17, Budapest, Hungary, 2005, pp. 388 397. - Impakt faktor: 0.251 - Független hivatkozások: 2 9. Csáji, B. Cs.; Küng, J.; Palkoska, J.; Wagner, R.: On the automation of similarity information maintenance in flexible query answering systems; Lecture Notes in Computer Science, Vol. 3180: Proceedings of the 15th International Conference on Database and Expert Systems Applications, (DEXA), 2004 pp. 130 140. - Impakt faktor: 0.402 10. Csáji, B. Cs.; Kádár, B.; Monostori, L.: Improving multi-agent based scheduling by neurodynamic programming, Lecture Notes in Computer Science; 2744: Lecture Notes in Artificial Intelligence, Proceedings of the 1st International Conference on Holonic and Multi-Agent Systems for Manufacturing (HoloMAS), 2003, pp. 110 123. - Független hivatkozások: 9 3.3 Konferencia cikkek 11. Csáji, B. Cs.; Monostori, L.: A complexity model for networks of collaborating enterpises, 17th IFAC World Congress, July 6 11, 2008; Seoul, Korea (accepted) 12. Monostori, L.; Csáji, B. Cs.: Complex adaptive systems (CAS) approach to production systems and organisations; 41st CIRP Conference on Manufacturing Systems; May 26 28, 2008; The University of Tokyo, Japan (keynote paper)

3. Tudományos publikációk 7 13. Egri, P.; Csáji, B. Cs.; Kemény, Zs.; Monostori, L.; Váncza, J.: Komplexität der Bedarfsprognosen und ihre Wirkungen in kooperativen Logistiknetzwerken; 10th Paderborner Frühjahrstagung, Reagible Unternehmen in dynamischen Märkten; March 26, 2008; Paderborn, Germany (accepted) 14. Csáji, B. Cs.; Monostori, L.: Modeling networks of collaborating enterprises as complex systems, Preprints of the IFAC Workshop on Modelling, Management and Control (MIM 07), November 14 16, 2007, Budapest, Hungary, pp. 7 12. 15. Monostori, L.; Csáji, B. Cs.: Production structures as complex adaptive systems, Proceedings of the 40th CIRP International Seminar on Manufacturing Systems, May 30 June 1, 2007, Liverpool, United Kingdom. 16. Csáji, B. Cs.; Monostori, L.: Adaptive sampling based large-scale stochastic resource control, Proceedings of the 21st National Conference on Artificial Intelligence (AAAI- 06), July 16 20, 2006, Boston, Massachusetts, pp. 815 820. 17. Csáji, B. Cs.; Monostori, L.: Adaptive algorithms in distributed resource allocation, Proceedings of the 6th International Workshop on Emergent Synthesis, (IWES), Kashiwa, The University of Tokyo, Japan, August 18 19, 2006. pp. 69 75. - Független hivatkozások: 1 18. Viharos, Zs. J.; Kádár, B.; Monostori, L.; Kemény, Zs.; Csáji, B. Cs.; Pfeiffer, A.; Karnok D.: Integration of production-, quality- and process monitoring for agile manufacturing, Proceedings of the 13rd IMEKO World Congress, Metrology for a Sustainable Development, September, 17 22, Rio de Janeiro, Brazil, 2006 19. Csáji, B. Cs.; Monostori, L.: Stochastic approximate scheduling by neurodynamic learning, 16th IFAC World Congress, July 3 8, 2005, Prague, Czech Republic. - Független hivatkozások: 1 20. Pfeiffer, A.; Kádár, B,; Csáji, B. Cs.; Monostori, L.: Simulation supported analysis of a dynamic rescheduling system, IFAC Symposium on Manufacturing, Modelling, Management and Control, October 21 22, 2004, Athens, pp. 24 29. 21. Csáji, B. Cs.; Kádár, B.; Monostori, L.; Pfeiffer, A.: Simulation supported agentbased adaptive production scheduling, International IMS Forum; Global Challenges in Manufacturing, May 17 19, 2004, Cernobbio, Lake Como, Italy, pp. 658 665. 22. Csáji, B. Cs.; Monostori, L.; Kádár, B.: Learning and cooperation in a distributed market-based production control system, Proceedings of the 5th International Workshop on Emergent Synthesis, (IWES), May 24 25, Budapest, 2004, pp. 109 117. - Független hivatkozások: 6 23. Kádár, B.; Monostori, L.; Csáji, B. Cs.: Adaptive approaches to increase the performance of production control systems, Proceedings of the 36th CIRP International

8 3. Tudományos publikációk Seminar on Manufacturing Systems, Progress in Virtual Manufacturing Systems, June 3 5, 2003, Saarbrücken, Germany, pp. 305 312. - Független hivatkozások: 4 24. Monostori, L.; Kádár, B.; Csáji, B. Cs.: The role of adaptive agents in distributed manufacturing, Proceedings of the 4th International Workshop on Emergent Synthesis (IWES 02), May 9 10, 2002, Kobe, Japan, pp. 135 142. - Független hivatkozások: 1 3.4 A disszertációhoz nem kapcsolódó cikkek 25. Csáji, B. Cs.; Rédei, M.: A racionális demokratikus véleményösszegzés korlátairól, Magyar Filozófiai Szemle, Vol. 1., 2008 (accepted) 26. Gilles, M.; Ballin, D.; Csáji, B. Cs.: Efficient clothing fitting from data; 12nd International Conference in Central Europe on Computer Graphics, Visualization and Computer Vision, February 2 6, Plzen, Czech Republic, 2004, pp. 129 136. 27. Csáji, B. Cs.: In defense of the symmetry of true and false; Proceedings of the 6th Interdisciplinary Symmetry Congress and Exhibition of ISIS (International Society for the Interdisciplinary Study of Symmetry), Symmetry: Art & Science, October 22 29, Tihany, Hungary, 2004, pp. 46 49. 3.5 Elbírálás alatt lévő cikkek 28. Csáji, B. Cs.; Monostori, L.: Value function based reinforcement learning in changing Markovian environments, Journal of Machine Learning Research (submitted in 2007) 29. Csáji, B. Cs.; Monostori, L.: Adaptive stochastic resource control: a machine learning approach, Journal of Artificial Intelligence Research (submitted in 2007) 30. Kemény, Zs.; Csáji, B. Cs.; Viharos, Zs., J.: Timing parameter optimization for visionbased monitoring of automated production lines, Journal of Mechanical Systems and Signal Processing (submitted in 2008) kategória Összesítés saját cikkek impakt faktor hivatkozások folyóirat 6 4.246 16 könyvfejezet 4 0.653 11 konferencia 14 0 13 egyéb (3) (0) (0) elbírálás alatt (3) - - összesen 24 (30) 4.899 40

Hivatkozások 9 Hivatkozások Aydin, M. E. and Öztemel, E. (2000). Dynamic job-shop scheduling using reinforcement learning agents. Robotics and Autonomous Systems, 33:169 178. Beck, J. C. and Wilson, N. (2007). Proactive algorithms for job shop scheduling with probabilistic durations. Journal of Artificial Intelligence Research, 28:183 232. Bertsekas, D. P. (2001). Dynamic Programming and Optimal Control. Athena Scientific, Belmont, Massachusetts, 2nd edition. Bertsekas, D. P. (2005). Dynamic programming and suboptimal control: A survey from ADP to MPC. European Journal of Control, 11(4 5):310 334. Dolgov, D. A. and Durfee, E. H. (2006). Resource allocation among agents with MDPinduced preferences. Journal of Artificial Intelligence Research, 27:505 549. Gersmann, K. and Hammer, B. (2005). Improving iterative repair strategies for scheduling with the SVM. Neurocomputing, 63:271 292. Hatvany, J. and Nemes, L. (1978). Intelligent manufacturing systems - a tentative forecast. In Niemi, A., editor, A link between science and applications of automatic control; Proceedings of the 7th IFAC World Congress, volume 2, pages 895 899. Pinedo, M. (2002). Scheduling: Theory, Algorithms, and Systems. Prentice-Hall. Powell, W. B. and Van Roy, B. (2004). Handbook of Learning and Approximate Dynamic Programming, chapter Approximate Dynamic Programming for High-Dimensional Resource Allocation Problems, pages 261 283. IEEE Press, Wiley-Interscience. Riedmiller, S. and Riedmiller, M. (1999). A neural reinforcement learning approach to learn local dispatching policies in production scheduling. In Proceedings of the 16th International Joint Conference on Artificial Intelligence, Stockholm, pages 764 771. Schneider, J. G., Boyan, J. A., and Moore, A. W. (1998). Value function based production scheduling. In Proceedings of the 15th International Conference on Machine Learning, pages 522 530. Morgan Kaufmann, San Francisco, California. Szita, I., Takács, B., and Lőrincz, A. (2002). ε-mdps: Learning in varying environments. Journal of Machine Learning Research (JMLR), 3:145 174. Topaloglu, H. and Powell, W. B. (2005). A distributed decision-making structure for dynamic resource allocation using nonlinear function approximators. Operations Research, 53(2):281 297. Zhang, W. and Dietterich, T. (1995). A reinforcement learning approach to job-shop scheduling. In Proceedings of the 14th International Joint Conference on Artificial Intelligence (IJCAI), pages 1114 1120. Morgan Kauffman.