Folyamatbányászat 1. Big Data, Event Data

Hasonló dokumentumok
Folyamatbányászat. Big Data, Event Data. Pannon Egyetem Villamosmérnöki és Információs Rendszerek Tanszék Werner Ágnes

Adatok felhasználása A folyamatbányászat az adatbányászat egy speciális területének is tekinthető

Folyamatbányászat. Werner Ágnes

PANNON EGYETEM Műszaki Informatikai Kar Villamosmérnöki és Információs Rendszerek Tanszék

Integrált gyártórendszerek

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

Component Soft és tovább

Vezetői információs rendszerek

TANTÁRGYI ADATLAP I. TANTÁRGYLEÍRÁS

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében):

Big Data: a több adatnál is több

A gazdaságinformatikus mesterszak tantervi hálója

Vonalkód olvasó rendszer. Specifikáció Vonalkód olvasó rendszer SoftMaster Kft. [1]

Vezetéknélküli Érzékelő Hálózatok

Big Data az adattárházban

Mobil Üzleti Intelligencia

Infor PM10 Üzleti intelligencia megoldás

Folyamatmodellezés és eszközei. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Big Data tömeges adatelemzés gyorsan

PÉNZÜGYI ÉS SZÁMVITELI KAR ALKALMAZOTT TUDOMÁNYOK EGYETE SZÁMVITEL INTÉZETI TANSZÉK. MESTER PÉNZÜGY és SZÁMVITEL (VEZETŐI SZÁMVITEL) SZAK

A Jövő Internet Nemzeti Kutatási Program bemutatása

Crowdsensing Participatory Sensing Szenzorhálózatok és alkalmazásaik

Internet of Things az új mobil forradalom

Adatbázis-kezelő rendszerek. dr. Siki Zoltán

A webanalitika változó világa 4 felvonásban

Adatbázis rendszerek 7. előadás State of the art

Internet of Things és Ipar 4.0 az agrárszektorban. Tarcsi Ádám, ELTE Informatikai Kar

Önkiszolgáló BI Az üzleti proaktivítás eszköze. Budapest,

Innovatív trendek a BI területén

ETL keretrendszer tervezése és implementálása. Gollnhofer Gábor Meta4Consulting Europe Kft.

Prozesskostenrechnung (PKR)

hagyományos médiaperformancia és e-kereskedelem mit tanulhat az egyik a másiktól Nagy Barnabás Magyar Telekom

Orvosi készülékekben használható modern fejlesztési technológiák lehetőségeinek vizsgálata

TANTÁRGYI ADATLAP I. TANTÁRGYLEÍRÁS

Elektronikus oktatástámogató rendszer bevezetésének tapasztalatai. Jókai Erika Vig Zoltán

Gyakorlatok. VITMMA09 Okos város MSc mellékspecializáció

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Viczián István IP Systems JUM XIX szeptember 18.

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / Mezei Ferenc üzletág-igazgató

Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter

Üzleti folyamatok rugalmasabb IT támogatása. Nick Gábor András szeptember 10.

Analitikai megoldások IBM Power és FlashSystem alapokon. Mosolygó Ferenc - Avnet

Bevezetés: Mi a CRM? A tervezési fázis helye és szerepe a CRM implementációs projektekben Jógyakorlatok: mire figyeljünk a CRM tervezés közben.

Alter Róbert Báró Csaba Sensor Technologies Kft

Modell alapú tesztelés mobil környezetben

VvAaLlÓóSs IiıDdEeJjȷŰű OoDdSs goldengate alapokon a magyar telekomban

vbar (Vemsoft banki BAR rendszer)

Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt.

Pannon Egyetem Gazdaságtudományi Kar

Data Integrátorok a gyakorlatban Oracle DI vs. Pentaho DI Fekszi Csaba Ügyvezető Vinnai Péter Adattárház fejlesztő február 20.

Programtervező informatikus BSc 2018, Szoftverfejlesztő specializáció ajánlott tantervi háló. Törzsanyag. Konzultáció Kredit

Felhőszámítástechnika (Cloud Computing) helye és szerepe az on-line világ folyamataiban. Dr. Élő Gábor Széchenyi István Egyetem ITOK 2013

IKT trendek és tapasztalatok a BME szemszögéből

BIG DATA ELEMZÉSEK LEHETŐSÉGEI

Takács Gábor mérnök informatikus, okl. mérnöktanár

A Jövő Internet kihívásai A jövő információs és kommunikációs technológiai MTA TRB és IB közös tudományos ülés november 17.

Big Data. Benczúr András Big Data Lendület kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András

(Teszt)automatizálás. Bevezető

Oktatási azonosító Tantárgy Elért pontszám Magyar nyelv Matematika Magyar nyelv Matematika

Automatikus tesztgenerálás modell ellenőrző segítségével

Számítógépes döntéstámogatás. Bevezetés és tematika

Tájékoztató a Jövő Internet Nemzeti Kutatási Program előrehaladásáról: JINKA2.1 Dr. Sallai Gyula

A szóbeli vizsgafeladatot ha a feladat indokolja a szaktanárok által összeállított mellékletek, segédanyagként felhasználható források egészítik ki.

30 MB INFORMATIKAI PROJEKTELLENŐR

Elektronikus levelek. Az informatikai biztonság alapjai II.

Temporális adatbázisok. Kunok Balázs szakdolgozata alapján

8. osztály. Felhasznált tankönyv: Pedellus Tankönyvkiadó, Debrecen, 2009; 2009

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

ADATBÁNYÁSZAT AZ AUTÓIPARI TERMÉKEK FEJLESZTÉSÉBEN

Az ErdaGIS térinformatikai keretrendszer

Ustream.tv Bepillantás egy közösségi élővideo site működésébe

V. Félév Információs rendszerek tervezése Komplex információs rendszerek tervezése dr. Illyés László - adjunktus

A vállalat mint rendszer. Informatikai rendszerek Vállalati információs rendszerek. Üzleti kapcsolatok. Vevői információs kapcsolatok. Cég.

Confederación Hidrográfica del Ebro AUTOMATA HIDROLÓGIAI INFORMÁCIÓS RENDSZER (A.H.I.R) AZ EBRO FOLYÓ VÍZGYÛJTÕ TERÜLETÉN

ÉLET A FELHŐBEN - HATÉKONYSÁGNÖVELÉS CLOUD TECHNOLÓGIÁVAL. Baranyi Fanni Microsoft Online Szolgáltatások Értékesítési Szakértő

Gépi tanulás és Mintafelismerés

BI megoldás a biztosítói szektorban

Szoftveripar és üzleti modellek

Papp Attila. BI - mindenkinek

Szimulációs módszerek alkalmazása az üzleti döntéstámogatásban

Intervenciós röntgen berendezés teljesítményszabályozójának automatizált tesztelése

Oracle Enterprise Manager: Az első teljesértékű felhő üzemeltetési megoldás

Oracle9i Alkalmazás Szerver Üzleti folyamat integráció. Molnár Balázs Vezető értékesítési konzultáns Oracle Hungary

Folyamatmodellezés (BPMN) és alkalmazásai

Big Data technológiai megoldások fejlesztése közvetlen mezőgazdasági tevékenységekhez

NETTUTOR AZ OKTATÁSSZERVEZÉS SZÁMÍTÓGÉPES TÁMOGATÁSA

Tervezés-Kutatás MÉDIAISMERET

ANDROID ALKALMAZÁS FEJLESZTÉS

Adatkeresés az interneten. Cicer Norbert 12/K.

MINISZTERELNÖKI HIVATAL. Szóbeli vizsgatevékenység

Beszámoló a negyedórás bontású villamosenergiapiaci előrejelző modellünk (EMMA) fejlesztési eredményeiről

Cato Software. Premier G Med Onko Kft. Licencek leírása 7/1. Premier G Med Onko Kft.

A TANTÁRGY ADATLAPJA

ProSeniis projekt. Monos János GE Healthcare

Crossplatform mobil fejlesztőkörnyezet kiválasztását támogató kutatás

A szemantikus Web. Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 0.

TDK tájékoztató Gazdaságinformatika Intézeti Tanszék szeptember

A tantárgyelem kódja: KIT0301G

Átírás:

Folyamatbányászat 1 Big Data, Event Data 1

Témakörök Cél: Folyamatokból származó adatok felhasználása a döntéstámogatáshoz 1. A folyamatbányászat különböző típusai, hogyan kapcsolódik a folyamatbányászat az adatbányászathoz, 3. Munkafolyamat hálók és stabilitás, Alpha algoritmus Folyamat felfedező algoritmus; 4. Minőségi kritériumok a folyamat feltáráshoz, Üzleti folyamat modell; 5. Függőségi gráfok és oksági hálók; 6. Tanulás függőségi gráfokkal, tanulás oksági hálókkal, tanulás átmenet rendszerekkel; 7. További folyamat feltáró technikák; 8. Konformancia ellenőrzés; 9. Esemény adatok feltárása; 10. Döntési pontok feltárása, feltárási akadályok; 11. Szociális háló feltárása, szervezeti háló feltárása, különböző perspektívák kombinálása; 12. Működés támogatás detektálás, előrejelzés és javaslat megadása; 13. Folyamatbányászati szoftverek; 14. Bevezetés a ProM keretrendszer használatába 2

Követelmények Az előadás anyagai megtalálhatóak: virt.uni-pannon.hu oldalon Tantárgyak menüpont Folyamatbányászat tárgy Félévközi beszámolók = 2, min. 50%-os teljesítése. Írásbeli vizsga min. 50%-os teljesítése. Az érdemjegyet a 3 dolgozat eredményének súlyozott átlagolásával (1. évközi ZH 15%, 2. évközi ZH 20%, vizsgadolgozat 65%) kapott pontszámból állapítjuk meg. Utolsó órán lesz lehetőség pótlásra, javításra. 3

Sok-sok adat "Az adat az új olaj!" Az elmúlt 10 percben több adatot generáltunk mint 2003 előtt összesen. Adatokat generálunk: jegyet vásárolunk egy repülőjáratra veszünk egy kávét feltöltjük üzemanyaggal az autónkat kezdeményezünk egy telefonhívást küldünk egy emailt megnézünk egy klippet a youtube-on stb. 4

Honnan? Az iphone-on pl. nagyon sok féle szenzor található: camera (elől, hátul), mágnestérmérő (magnetometer), érintés érzékelő, WIFI, gyorsulásmérő (accelerometer), Bluetooth, GPS, ujjlenyomat vizsgáló, környezeti fényerősség érzékelő (ambient light sensor) 5

Internet Az esemény adatoknak (event data) 4 forrását különböztethetjük meg: Tartalmak internetje: Wikipedia, Google stb. Személyek internetje: twitter, facebook stb. Dolgok, tárgyak internetje: hütőszekrény, mosógép stb. Helyek internetje: mobil telefon stb. Diagram by W. van der Aalst 6

Növekedés számítási kapacitás tároló kapacitás (exponenciális növekedés) pl. 40 évvel ezelőtt Párizsból New Yorkba 7 óra alatt juthattunk el repülővel, ma ezt megtehetjük Moore törvényét figyelembe véve 24 ms alatt 7

Hogyan tudunk valós adatokat kinyerni? Ma ez egy nagy kihívás. 4 dologra kell koncentrálni: Mennyiség (Volume) - adat mennyiség, adathalmazok mérete Sebesség (Velocity) az adathalmaz méretének folyamatos növekedése Változatosság (Variety) - az adatok különböző formában való megjelenése, adattípusok különbözősége Igazságtartalom (Veracity) - megfelel-e az igazságnak, a tárolt adatok valóságreprezentáló képessége 8

Vizsgálható kérdések 1 Az igazi kihívás manapság már nem az adatok generálása, hanem az adathalmazokból az értékes adatok kinyerése. 4 alap kérdést tehetünk fel: Mi történt? Miért történik mindez? Mi fog történni? Mi a legjobb, ami történhet? 9

Vizsgálható kérdések 2 Vegyük példaként az egészségügyi ellátást: Minden orvos követi a protokollt? Miért kell a betegnek olyan sokáig várnia? Mi okozza a késedelmet? Meg tudjuk jósolni a páciensek várakozási idejét? Meg tudjuk előre határozni, hogy a következő napon az adott osztályon mekkora személyzetre lesz szükség? Hogyan lehet csökkenteni a költségeket a minőségi ellátás megtartása mellett? 10

Vizsgálható kérdések 3 Vegyünk példaként egy gyártási folyamatot: Melyik komponens törött el, hibásodott meg? Mikor tört el/hibásodott meg és miért? Melyik komponenst kell kicserélni? Meg tudjuk jósolni, hogy melyik komponenssel fog történni valami? Tudunk-e tanulni a létező problémákból, hogy mely részeket kell javítani? Mi okozza a késedelmet a folyamatban? Meg tudjuk előre határozni, hogy a következő napon az adott osztályon mekkora személyzetre lesz szükség? Hogyan lehet csökkenteni a költségeket a minőségi ellátás megtartása mellett? 11

Kérdések megválaszolása Számos tudományterületre van szükség: 12

Adatok felhasználása A folyamatbányászat az adatbányászat egy speciális területének is tekinthető 13

Folyamatbányászat vs. adatbányászat mindkettő adatokkal dolgozik az adatbányászati technikák nem folyamat centrikusak a tradicionális adatbányászati technikákkal a folyamat felfedezés, összehasonlítás, torlódás elemzés nem elvégezhető A két módszer együttes használatával komplex kérdésekre adhatunk választ. 14

Mi is a folyamatbányászat? A folyamatbányászat célja: a folyamati adatokból valódi hasznosítható tudásanyag kinyerése. Felderíthetők és megjeleníthetők azok az összefüggések (pl. az ügyfélcsoportok, régiók, a termékek stb. között), amelyek a hosszú átfutási időért, a magas költségekért, a rossz minőségért felelősek. Felderíthetőek a gyártási folyamatban megjelenő hibák, amelyek a leállásokért, a hosszabb gyártási időért felelősek. 15

Jellemzők A folyamatbányászat egy híd: a folyamat modell elemzés (szimuláció, ellenőrzés, optimalizálás stb.) és az adat orientált elemzés (adatbányászat, gépi tanulás, üzleti intelligencia) között. A folyamatbányászat 2 fő elemzési területtel foglalkozik: hatékonyság orientált kérdések, problémák és megoldásaik megfelelés orientált kérdések, problémák és megoldásaik 16

Mivel foglalkozik a folyamatbányászat? Folyamat felfedezése, feltérképezése (Process discovery): mi történik valójában? Hasonlóság elemzés (Conformance checking): az történik amit elvárunk, amit előre meghatároztunk? Teljesítményelemzés (Performance analysis): hol lehet javítani, változtatni? Folyamat előrejelzés (Process prediction): vajon egy eset be fog következni? Folyamat fejlesztés, tökéletesítés (Process improvement): hogyan alakítsuk át a folyamatot? Stb. 17

A folyamatbányászat perspektívái Minden folyamatot megvizsgálhatunk más-más szempont szerint is, ezeket perspektíváknak nevezzük. 18

Hol alkalmazhatjuk a folyamatbányászatot? Önkormányzatoknál (pl.: Alkmaar, Heusden, Harderwijk) Kormányzati ügynökségeknél (pl.: Rijkswaterstaat, Centraal Justitieel Incasso Bureau, Justice department) Biztosításokhoz kapcsolódó társaságoknál (pl.: UWV) Bankoknál (pl.: ING Bank) Kórházakban (pl.: AMC kórház, Catharina kórház) Multi cégeknél (pl.: DSM, Deloitte) Média vállalatoknál (pl.: Winkwaves) High-tech rendszerek gyártóinál és fogyasztóiknál (pl.: Philips Healthcare, ASML, Thales) stb. 19

Kiindulási pont: esemény adatok Minden sor egy eseményt azonosít (eset azonosító, esemény neve, időbélyeg, egyéb). 20

A folyamatbányászat magas szintű modell diagramja 21

Folyamatbányászati feladatkörök 22

Kapcsolatok: folyamat modellek - esemény logok Play-out (szimuláció, munkafolyam automatizálás, modell ellenőrzés stb.): A folyamatból kell lefutásokat generálni. Ezeknek a lefutásoknak a száma ugrásszerűen növekedik a folyamat bonyolultságától függően. Amennyiben a folyamat tartalmaz visszacsatolást, akkor a lehetséges lefutások halmaza akár végtelen nagy is lehet. Play-in (logokból modell felépítése (folyamat felfedezés)): Minél nagyobb a lefutások halmaza, annál jobb folyamat generálható hozzá. Korlátot szab a folyamat bonyolultsága, minél összefüggőbb, annál nehezebb ütemezett folyamatot pontosan visszaadni, hiszen csak a valós lefutások álnak rendelkezésre inputnak. Replay (adott a modell és a viselkedés megfelelés vizsgálat, teljesítmény elemzés, előrejelzés, torlódás vizsgálat stb.): Egy meglévő folyamathoz kell a valós lefutásokat viszonyítani 23

A folyamat felfedezés hasonlít a nyelvtanuláshoz A mondatok olyanok mint a trace-ek az esemény logban, a nyelv pedig a folyamat modell. Az összehasonlítás elemzés hasonlít a helyesírás ellenőrzéshez: a nyelv modellje a helyesírás ellenőrző. 24

Egy lehetséges implementáció 25

Ha a hallgatók tanulmányait tekintjük Folyamat felfedezése: milyen a valós tanterv? Hasonlóság elemzés: a hallgatók találkoznak-e az előfeltételekkel? Teljesítményelemzés: hol lehet változtatni? Folyamat előrejelzés: be tudja fejezni a hallgató a tanulmányait? Folyamat fejlesztés, tökéletesítés: hogyan lehetne újratervezni a tantervet? 26

Honnan érkeznek az esemény adatok? adatbázis rendszerekből (pl. páciensek adatai egy kórházban) kórházi információs rendszerekből (pl. Chipsoft) vesszővel elválasztott értékek fájljaiból (CSV) vagy táblázatokból tranzakciós logokból (pl. kereskedelmi rendszer) üzleti rendszerekből, vállalati erőforrás tervező rendszerekből (pl. SAP, Oracle) üzenet logokból (pl. IBM middleware) folyamatirányító rendszerekből (pl. WebSphere software, Staffware, Flower, Eastman software, People Soft, Adept) web szerverek (pl. Apache) Szoftver Konfiguráció Menedzsment rendszerekből (pl. Subversion) ügyfél kapcsolatokat menedzselő rendszerekből (pl.: Microsoft Dinamics CRM) Stb. 27

Példák: 28

Egy másik példa esemény log-ra, páciensek adatai Minden sor egy eseményt azonosít (eset azonosító, esemény neve, időbélyeg, erőforrás, költség). Az esemény adatok ilyen és hasonló listáit tudjuk elemezni. 29

Nem mindig ilyen egyértelmű! Tekintsük a mail box-unkat, egy email egy esemény. Egy emailben van: küldő ("Honnan") erőforrás, tevékenység név fogadó ("Kinek") egyéb adat tárgy eset azonosító időbélyeg időbélyeg szövegtörzs egyéb adat stb. Kérdés, hogy mi lesz az eset azonosító, a tevékenység, az időbélyeg stb. Több féle válasz is lehetséges. Adott kontextusban kell vizsgálni. 30

Kiindulási pont: esemény napló esemény logok, ellenőrzési naplók, adatbázisok, üzenet logok stb. egyértelmű esemény log (MXML formátum) 31

A Staffware rendszer saját formátumú naplózásának MXML formátumra való fordításából kapott eseménynapló egy részlete: Esemény log: folyamatok folyamat előfordulások Egy esemény: művelet neve (esemény típusa) (végrehajtó) (időbélyeg) (adat) <Source program="staffware"> <Data> <Attribute name="version">7.0</attribute> </Data> </Source> <Process id="main_process"> <Data> <Attribute name="description">complaints handling</attribute> </Data> <ProcessInstance id="case 1"> <AuditTrailEntry> <WorkflowModelElement>Case start</workflowmodelelement> <EventType unkowntype="case_event">unkown</eventtype> <Timestamp>2011-04-16T11:06:00:000+001:00</Timestamp> </AuditTrailEntry> <AuditTrailEntry> <WorkflowModelElement>Register complaint</workflowmodelelement> <EventType>schedule</EventType> <Timestamp>2011-04-16T11:16:00:000+001:00</Timestamp> <Originator>jvluin@staffw</Originator> </AuditTrailEntry> 32