Doktori (PhD) értekezés tézisei Adatbányászati és gépi tanulási algoritmusok szoftver szenzorok fejlesztésére Kulcsár Tibor Pannon Egyetem Vegyészmérnöki- és Anyagtudományok Doktori Iskola Témavezet : Dr. Abonyi János Folyamatmérnöki Intézeti Tanszék Veszprém 2016.
1. El zmények és célkit zés Napjainkban az ipar és különösen a vegyipar egyre inkább támaszkodik olyan új - els sorban információelméleti, illetve mesterséges intelligenciai - megoldásokra, melyek segítségével a technológia javítható, a m szerezési, automatizálási, illetve karbantartási költségek csökkenthet k. A szoftver szenzorok képesek kiegészíteni vagy akár teljesen helyettesíteni egy technológia klasszikus m szerezését. Kifejlesztetem több technikát és eszközt e szenzorok adat alapú modelljeinek identikálására, karbantartására és bemutattam használatukat termék min ség és energia felhasználás becslésében. A disszertáció a szoftver szenzorok fejlesztésének három aspektusával foglalkozik. Az els két fejezet a parametrikus és nem parametrikus modellezésre fókuszál, a harmadik fejezet pedig az adatok kiválasztásra és el feldolgozására tesz több javaslatot. Nem parametrikus modellek kapcsán bemutatásra került egy genetikus programozáson alapuló algoritmus, mely dimenzió csökkent leképezéseket generál célirányosan. Bemutattam e leképezések alkalmazhatóságát spektroszkópiai modellezésben és a klasszikus bor osztályozási benchmark problémán is. Végül módszereket mutattam be a modellek bemeneti változóinak kiválasztására és az adatok szegmentációjára. E módszerek adottságait spektroszkópiai modellezésben és vegyipari folyamatok energia monitoringjában is demonstráltam. 2. Kísérleti eszközök és módszerek A dimenzió csökkent algoritmusokat azért fejlesztettem, hogy hasznos információt nyerjünk ki a MOL Dunai Finomító gázolajkever üzemegységében m köd online és a fejleszt laboratórium száloptikás spektrométeres rendszereib l. Az adathalmaz historikus spektrumokat tartalmazott ABB és Bruker spektrométerekb l. A spektrumok el feldolgozására az ABB és a Bruker szoftvereit használtam. A saját algoritmusaim mindegyikét MATLAB környezetben implementáltam. Parametrikus modellezést támogató módszerekhez a szükséges id sor adatokat a MOL központi OSIsoft PI rendszere szolgáltatta. 1
3. Tézisek 1. Sokváltozós adathalmaz megjelenítésére alkalmas genetikus programozáson alapuló algoritmust fejlesztettem és alkalmaztam szoftver szenzorok m ködési tartományainak feltérképezésére és osztályozási feladatok megoldására. (Kapcsolódó publikációk: [3, 5, 15, 18, 19, 14, 13]) (a) Többkromoszómás reprezentációra alapozva létrehoztam egy sokdimenziós térb l alacsonyabb dimenziós térbe történ explicit leképezések keresésére alkalmas genetikus algoritmust. A módszert els lépésben spektrális adatbázisok dimenzió csökkentésére használtam fel úgy, hogy a leképezés a lehet legnagyobb mértékben meg rizze az eredeti tér távolsági és szomszédossági viszonyait. Megmutattam, hogy a genetikus algoritmus alkalmazható spektrometriai modellek fejlesztésében és karbantartásában. [3, 18, 19] (b) kifejlesztett genetikus algoritmust osztályozási feladatok támogatásra is alkalmazhatóvá tettem. Az osztályozó algoritmusok módosítás nélküli felhasználásán és az osztályozók teljesítményére alapuló költségfüggvényén alapuló módszert referencia adatsorokon alkalmaztam, és számítási példákkal igazoltam, hogy a genetikus algoritmussal létrehozott explicit leképezéssel kiegészítve a hagyományos osztályozó eljárások osztályozási pontossága nagy mértékben javítható. Megmutattam továbbá, hogy célirányos költségfüggvényeket alkalmazva a genetikus algoritmus m - ködési tartományok elkülönítésére is alkalmas, egyaránt támogatva ezzel a parameterikus és nemparametrikus modellek fejlesztését. [3, 5, 14, 13] 2. Parametrikus modellek fejlesztését támogató keretrendszert hoztam létre, melyet spektroszkópiai regressziós modellek készítésére és az energia monitoring rendszerekben az energiafelhasználás célértékének meghatározására használtam fel. Megmutattam, hogy a keretrendszert felhasználva a modellek fejlesztése gyorsítható és informatív megjelenítés készíthet a modellek struktúrájáról és érvényességi tartományáról. (Kapcsolódó publikációk: [7, 1, 4, 6, 16, 8, 5, 12, 9]) (a) A közeli infravörös online és labor spektrométerekre támaszkodó anyagi jellemz k becslésére alkalmazott parametrikus regressziós 2
modellek validálására alkalmas eljárást fejlesztettem. Megmutattam, hogy ortogonális jelkompenzációt alkalmazó regressziós modellel a szoftver szenzorok érvényességi tartománya behatárolható. [7, 6, 12, 9] (b) M ködési tartományok vizsgálata kapcsán megmutattam, hogy az önszervez térkép (SOM) kiválóan alkalmazható EnergiaM Monitoring (EM) rendszerekben az egyes m ködési módok elkülönítésére és az energiafelhasználást meghatározó folyamatváltozók azonosítására. [1, 4, 6] (c) A keretrendszer részeként implementáltam egy Random Forest (RF) változó szelekciós algoritmust, melyet EM modellek bemeneti változóinak kiválasztására használtam fel. Az eljárás alkalmazhatóságát az adott üzem esetében a legnehezebben becsülhet energia jellemz esetén is sikeresen igazoltam. [4] 3. Szoftver szenzorok modelljeinek fejlesztése céljából többváltozós id sorok elemzésére alkalmas algoritmusokat hoztam létre és sikeresen alkalmaztam spektrális adatbázisok elemzésében és energia monitoring rendszerben alkalmazott modellek identikálásában. (Kapcsolódó publikációk: [1, 4, 2, 12, 9, 14]) (a) Kimutattam, hogy a f komponens-elemzésen alapuló többváltozós id sorszegmentáló algoritmus alkalmas spektrális id sorok alapján homogén m ködési szakaszok meghatározására, illetve az üzemmenet jelent sebb változásait eredményez események azonosítására. [1, 6] (b) Regressziós modelleken alapuló id sor szegmentáló algoritmust fejlesztettem azoknak az id intervallumoknak az azonosítására melyeken belül a szoftver szenzor (lokális) modellje az elvárt becslési pontossággal rendelkezik. Az algoritmust sikeresen alkalmaztam energia monitoring rendszerek lokális érvényességi tartományú modelljeinek identikálására. [1, 2] (c) Megmutattam, hogy az önszervez térkép m ködési tartományok szegmentálására és az adott szegmenseken belüli lokális modellek készítésére is alkalmazható. A fejlesztett módszert integráltam SOM alapú változó kiválasztással, hatékonyságát energia monitoring példán demonstráltam. [2] 3
4. A eredmények gyakorlati hasznosítása A dolgozatban ismertetett eredmények gyakorlati hasznosítása részben már megtörtént. A MOL Dunai Finomító Gázolaj kever üzemében m köd APP spektrométer modelljének karbantartására és frissítésére új gyakorlatot vezettek be, melynek része a topológiai leképezési egyenletek generálása és javítása is. A termékfejlesztési részleg kísérleti reaktorába egy száloptikás spektrométert integráltak, melyet a kísérletek nyomon követésére használnak. Itt parametrikus modellek képezik a termékjellemz s becslésének alapját. A változó szelekciós algoritmusokat jelenleg is használják a MOL Dunai nomítójában Energia Monitoring célérték modellek alkotására. Az értekezés spektrális adathalmazok elemzése kapcsán mutatta be dimenzió csökkent leképezések genetikus algoritmussal történ generálását, azonban e technika a vegyipari adatok mellett autóipari adatokon, els sorban hibaok elemzésben is jó eredményeket mutat. Az ismertetett isi relemzés technikákat a vizsgált problémák mellett jelenleg már alkalmazzák telekommunikációban az I-new Unied mobil Solutions megoldásaiban. A módszer ugyanis sok esetben képes detektálni a rendszerekben fellép hibákat még miel tt azok teljes szolgáltatáskiesést okoznának. Az id sorelemzés jelenleg már részét képezi többek között a Virgin Mobile Colombia, Virgin Mobile Chile, Compass és több más virtuális mobilszolgáltató (MVNO) infrastruktúra monitoring rendszerének. 4
5. Tézisekhez kapcsolódó publikációk Cikkek nemzetközi folyóiratban [1] Janos Abonyi, Tibor Kulcsar, Miklos Balaton, and Laszlo Nagy. Historical process data based energy monitoring-model based time-series segmentation to determine target values. Chemical Engineering Transactions, 35:931936, 2013. [2] Janos Abonyi, Tibor Kulcsar, Miklos Balaton, and Laszlo Nagy. Energy monitoring of process systems: time-series segmentation-based targeting models. Clean Technologies and Environmental Policy, 16(7):12451253, 2014. [3] Tibor Kulcsar and Janos Abonyi. Development of a modelling framework for nir spectroscopy based on-line analyzers using dimensional reduction techniques and genetic programming. Chemical Engineering Transactions, 32, 2013. [4] Tibor Kulcsar, Miklos Balaton, Laszlo Nagy, and Janos Abonyi. Feature selection based root cause analysis for energy monitoring and targeting. Chemical Engineering Transactions, 39:709714, 2014. [5] Tibor Kulcsar, Barbara Farsang, Sandor Nemeth, and Janos Abonyi. Multivariate statistical and computational intelligence techniques for quality monitoring of production systems. In Cengiz Kahraman and Seda Yank, editors, Intelligent Decision Making in Quality Management, volume 97 of Intelligent Systems Reference Library, pages 237263. Springer International Publishing, 2016. Cikkek hazai folyóiratban [6] Tibor Kulcsar and Janos Abonyi. Statistical process control based performance evaluation of on-line analysers. Hungarian Journal of Industry and Chemistry, 41(1):7782, 2013. [7] Tibor Kulcsar, Gabor Sarossy, Gabor Bereznai, Robert Auer, and Janos Abonyi. Partial least squares model based process monitoring using near infrared spectroscopy. Periodica Polytechnica Chemical Engineering, 57(1-2):1520, 2013. 5
Konferencia kiadványokban megjelent publikációk [8] J. Abonyi, B. Farsang, and T. Kulcsar. Data-driven development and maintenance of soft-sensors. In Applied Machine Intelligence and Informatics (SAMI), 2014 IEEE 12th International Symposium on, pages 239244. IEEE, Jan 2014. [9] J. Abonyi, B. Farsang, and T. Kulcsar. Data-driven development and maintenance of soft-sensors. In 2014 IEEE 12th International Symposium on Applied Machine Intelligence and Informatics (SAMI), Herl'any, Slovakia, 2014. [10] Janos Abonyi, Tibor Kulcsar, Miklos Balaton, and Laszlo Nagy. Historical process data based energy monitoring - model based time-series segmentation to determine target values. In PRES'13 - Conference Process Integration, Modelling and Optimisation for Energy Saving and Pollution Reduction, Rhodes, Greece, 2013. [11] Janos Abonyi, Tibor Kulcsar, Miklos Balaton, and Laszlo Nagy. Feature selection based root cause analysis for energy monitoring and targeting. In PRES 2014 - Conference Process Integration, Modelling and Optimisation for Energy Saving and Pollution Reduction, Prague, Czech Republic, 2014. [12] Tibor Kulcsar and Janos Abonyi. Partial least squares model based process monitoring using near infrared spectroscopy. In Chemical Engineering Days '12, Veszprem, Hungary, 2012. [13] Tibor Kulcsar and Janos Abonyi. Development of a modeling framework for nir spectroscopy based on-line analysers using dimensional reduction techniques and genetic programming. In ICheaP12 - International Conference on Chemical and Process Engineering, 2014. [14] Tibor Kulcsar, Gabor Bereznai, Gabor Sarossy, Robert Auer, and Janos Abonyi. Data-driven development and maintenance of soft-sensors. In Visualisation of High Dimensional Data by Use of Genetic Programming: Application to On-line Infrared Spectroscopy Based Process Monitoring, 2012. [15] Tibor Kulcsar, Gabor Bereznai, Gabor Sarossy, Robert Auer, and Janos Abonyi. Visualisation of high dimensional data by use of genetic programming: Application to on-line infrared spectroscopy based process monitoring. In Soft Computing in Industrial Applications, volume 6
223 of Advances in Intelligent Systems and Computing, pages 223231. Springer International Publishing, 2014. [16] Tibor Kulcsar, Peter Koncz, Miklos Balaton, Laszlo Nagy, and Janos Abonyi. Statistical process control based energy monitoring of chemical processes. In Petar Sabev Varbanov Ji í Jaromír Kleme² and Peng Yen Liew, editors, 24th European Symposium on Computer Aided Process Engineering, volume 33 of Computer Aided Chemical Engineering, pages 397 402. Elsevier, 2014. [17] Tibor Kulcsar, Peter Koncz, Miklos Balaton, Laszlo Nagy, and Janos Abonyi. Statistical process control based energy monitoring of chemical processes. In ESCAPE 24-24th European Symposium on Computer Aided Process Engineering, Budapest, Hungary, 2014. [18] Tibor Kulcsar, Gabor Sarossy, Gabor Bereznai, Robert Auer, and Janos Abonyi. Visualization and indexing of spectral databases. In Proceedings of International Conference on Computational and Statistical Sciences, volume 6, pages 860 865. World Academy of Science, Engineering and Technology, 2012. [19] Tibor Kulcsar, Gabor Sarossy, Gabor Bereznai, Robert Auer, and Janos Abonyi. Visualization and indexing of spectral databases. In International Conference on Computational and Statistical Sciences, Zurich, Switzerland, 2012. 7