Adaptív menetrendezés ADP algoritmus alkalmazásával

Adaptív menetrendezés ADP algoritmus alkalmazásával Alcím III. Mechwart András Ifjúsági Találkozó Mátraháza, 2013. szeptember 10. Divényi Dániel Villamos Energetika Tanszék Villamos Művek és Környezet Csoport

Tartalom A probléma felvetése Az ágensmodell bemutatása Ágensek és környezet Cselekvések általánosítása Stratégia alapú program Tanulási módszer Megerősítéses tanulás alapjai Alkalmazás a problémára Összefoglalás 2013.09.10. III. Mechwart András Ifjúsági Találkozó, Mátraháza 2

A probléma felvetése A kutatást indító probléma ismertetése Szabályozási tartalékok szűkössége A paksi atomerőmű nem szabályozható Elavult, magas költségű erőművek Kiserőművek elterjedése Kiserőművek bevonása a rendszerszintű szabályozásba Négy éves kutatás során: A kiserőművek viselkedésének és üzemének modellezése Különböző termelési technológiákra Számos műszaki és gazdaságossági korlát figyelembevételével Szabályozási potenciál vizsgálata virtuális erőművek feltételezésével Ágensalapú kiserőmű modell 2013.09.12. 60. Vándorgyűlés, Mátraháza 3

A probléma felvetése Modell: elvárások Kezelje a különböző termelési technológiákat Kapcsolt gázmotor (földgáz, biogáz) gázturbina kazán (szén, olaj, gáz, biomassza) gőzturbina Megújuló szélerőművek vízerőművek napelemek Egyéb Energiatároló (hő, villamos) 2013.09.12. 60. Vándorgyűlés, Mátraháza 4

A probléma felvetése Modell: elvárások Kezelje a különböző termelési technológiákat Kapcsolt gázmotor (földgáz, biogáz) gázturbina kazán (szén, olaj, gáz, biomassza) gőzturbina Megújuló szélerőművek vízerőművek napelemek Egyéb Energiatároló (hő, villamos) Vegye figyelembe a következőket Műszaki korlátok Az összes fenti elvárás implementálásra került egy adaptív elemeket tartalmazó, könnyen bővíthető, áttekinthető struktúrájú modellben gradiens, minimum terhelés komplex rendszerek (CCGT) Gazdaságossági megfontolások Villamosenergia-piac (kötelező átvétel, szabad piac) Távhőpiac (hatósági ár) Távhőrendszer korlátai Éves szinten termelt hőenergia Hőigényre szabályozás Időjárás hatása Törvényi szabályozás (hatásfok) Üzemanyag-fogyasztás 2013.09.12. 60. Vándorgyűlés, Mátraháza 5

Az ágensmodell bemutatása 2013.09.10. III. Mechwart András Ifjúsági Találkozó, Mátraháza 6

Az ágensmodell alapjai Ágensalapú megközelítés Ágensek Kiserőművek (DG agent) Erőműkoncentrátor (DGC agent) Minden ágens célja a profitmaximalizálás, amit folyamatosan változó környezetben kell végezniük. Idő Időjárás hőmérséklet szélsebesség Piac Környezetük Váratlan üzemzavarok Részlegesen megfigyelhető, sztochasztikus, szekvenciális és statikus ágenskörnyezet. 2013.09.12. 60. Vándorgyűlés, Mátraháza 7

Az ágensmodell alapjai Cselekvések általánosítása Cselekvés = üzemállapot kiválasztása A haszonszámítás legyen független az alkalmazott technológiától Az üzemállapotokat általánosítani kell Az üzemállapotok paraméterei: Függetlenek a technológiától és az erőműtől Elegendőek a hasznosság számításához Állapotparaméterek Teljesítmények Villamos Hő (eladott, elengedett ) Üzemanyag-fogyasztás Szabályozási idő A működő egységek típusa és darabszáma Az alkalmazás időjárási feltételei 2013.09.12. 60. Vándorgyűlés, Mátraháza 8

Az ágensmodell alapjai Stratégia alapú program Két lépésből áll: 1. Szűrés 2. Hasznosságszámítás Az egyes lépések során figyelembe kell venni számos szempontot Az egyes korlátokat és meggondolásokat különböző stratégiák képviselik az algoritmus futása során. Jelenleg implementált stratégiák: Profit stratégia Villamosenergia-termelés stratégia Hőszolgáltatás stratégia (csak kapcsolt technológiák esetén) Hőtároló stratégia (ha van hőtároló az erőműben) Üzemanyag stratégia (csak kapcsolt technológiák esetén) Gépegység kezelő stratégia Időjárás stratégia (csak szélerőművek esetén) 2013.09.12. 60. Vándorgyűlés, Mátraháza 9

Tanulási módszer 2013.09.10. III. Mechwart András Ifjúsági Találkozó, Mátraháza 10

Tanulási módszer A megerősítéses tanulás alapjai Hol alkalmazható? Ott ahol az ágens nem ismeri a környezetét nem tudja cselekedeteinek következményeit nem tudja megállapítani, hogy mi a jó, mi kerülendő az egyes cselekvéseinek hasznáról csak utólag kap értékelést Alapfogalmak: Állapot: az ágens állapotról állapotra lépked Részleges vagy teljesen megfigyelhető környezet Cselekvés: egy állapotból egy másik állapotba visz Sztochasztikus vagy determinisztikus állapot átmenet modell Jutalom: megadja, hogy egy-egy állapotban való lét mennyire jó Hasznosság: egy állapot jutalmának, valamint az innen várható későbbi állapotok jutalmainak összege 2013.09.10. III. Mechwart András Ifjúsági Találkozó, Mátraháza 11

Tanulási módszer A megerősítéses tanulás alapjai Állapotok Kezdő állapot (bal alsó) Vég állapot (vastag keret) Cselekvés: Balra-Jobbra-Fel-Le Cselekvés-átmenet modell: sztochasztikus A kívánt irányba csak 80%-kal megy, ahhoz képest 10-10%, hogy oldal irányba halad. Jutalom: Minden átmeneti állapotban kicsit büntet (-0.04) A két végállapotban nagyon jó, vagy nagyon rossz! 0.04 0.04 0.04 1.00 0.04 0.04 1.00 0.04 0.04 0.04 0.04 Feladatok: 1. Hasznosságszámítás 0.812 0.868 0.918 1.00 0.762 0.660 1.00 0.705 0.655 0.611 0.388 2. Optimális stratégia meghatározás 2013.09.10. III. Mechwart András Ifjúsági Találkozó, Mátraháza 12

Tanulási módszer A megerősítéses tanulás alapjai Feladatok: 1. Hasznosságszámítás 2. Optimális stratégia Ha mindent tudok, akkor egyszerű, de: - ha nem látom a táblát? - Hol vannak állapotok/falak - Mennyi az állapotok jutalma? - Milyen végállapotok vannak? - ha nem ismerem a cselekvések következményeit? - A felfelé mindig felfelé visz? - De ha ott fal van? - S ha 10%-ban balra húz? 0.812 0.868 0.918 1.00 0.762 0.660 1.00 0.705 0.655 0.611 0.388 1.00 1.00 Különböző algoritmusok: A számítási igény az állapottér növekedésével exponenciálisan nő! Közelítő algoritmusok, egyszerűsítő lépések 2013.09.10. III. Mechwart András Ifjúsági Találkozó, Mátraháza 13

Tanulási módszer ADP algoritmus alkalmazása Passzív és aktív tanulás Passzív: nem fedez fel, csak véletlenszerűen lépked Aktív: szándékosan körbe néz, még akkor is, ha kezdetben nem éri meg. Alkalmazott: Aktív adaptív dinamikus programozás prioritásos végigsöpréssel Hasznosságszámítás: csak a legvalószínűbb következmények alapján Hasznosságértékek frissítése: csak ott, amelyek valószínű következményeiben nagy hasznosságváltozás történt! Aktív tanulás: a rég nem látott állapotok kipróbálása 2013.09.10. III. Mechwart András Ifjúsági Találkozó, Mátraháza 14

Tanulási módszer Alkalmazás a problémára Állapotok Szekvenciális állapottér: minden negyedórában 20-20 állapot így a teljes állapottér 24x4x20 = 1920 állapot Minden állapotból csak a következő negyedóra 20 állapotába lehet lépni A 20-20 állapot a stratégiától függően kerül meghatározásra: Pl. szolgáltatott villamos energia (0-100%, 5% lépésekben) Cselekvések: az (általánosított) üzemállapotba történő váltás. Determinisztikus: meghatározható, hogy egy adott üzemállapotba történő lépés melyik állapotba visz! 2013.09.10. III. Mechwart András Ifjúsági Találkozó, Mátraháza 15

Tanulási módszer Alkalmazás a problémára Jutalom: Az adott negyedórában, a stratégiához tartozó bevétel/költség: Villamosenergia-termelés: a negyedórás villamosenergia-bevétel, Hőszolgáltatás stratégia : a negyedórás hőenergia-bevétel, Hőtároló stratégia: a negyedórás, tárolóból eladott hőenergia-bevétel, Üzemanyag stratégia : a negyedórás üzemanyag-költség, Gépegység kezelő stratégia: az egységek szabályozási/indítási költsége. Az egyes stratégiák jutalmának összegéből kiadódik a profit! Cél: a jutalmak maximalizálása a nap során. Hasznosság egy adott állapotban Az adott negyedórás profit + az adott állapotból várható hátralévő profit 2013.09.10. III. Mechwart András Ifjúsági Találkozó, Mátraháza 16

Tanulási módszer Jelenlegi eredmények egy napra 2013.09.10. III. Mechwart András Ifjúsági Találkozó, Mátraháza 17

Köszönöm a figyelmet! divenyi.daniel@vet.bme.hu 2013.09.10. III. Mechwart András Ifjúsági Találkozó, Mátraháza 18