A nagyméretű és nagy mennyiségű adatok kezelésének adatbázis technológiai következményei Vállalati információrendszerek GIKOF 2013 Molnár Bálint ELTE, Információs rendszerek tanszék TÁMOP-4.2.2/B-10/1-2010-0030 támogatásával készült kutatás
A nagyméretű adatok fogalma Mik a nagyméretű adatok (Big data) 3V (volumen, viharsebesség, változatosság) Adatmennyiség= data volumes, Nagysebességgel keletkezik = high velocity Nagy változatosság variety; Amikor a hagyományos adatkezelési eljárások akadályokba ütköznek Inkább egy koncepció, mint egy pontos definíció, fogalom meghatározása ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 2
Vállalati információ kezelése (Vik) Információrendszerek irányítása Üzleti /szervezeti modell Vállalati technológia és architektúra Információ menedzsmentje és használata Vállalati szervezet és kultúra Tranzakció központú alkalmazások Üzleti alkalmazási rendszerek Működést támogató alkalmazások Vállalati adatmodell és adattárolók Döntés támogató alkalmazások (EDW, BI, Analízis) IT infrastruktúra IT üzemeltetés és támogatás IT környezet Információ életciklus kezelés Szabályozás (hatóságok) és szabályszerűség ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 3
A nagyméretű adatok kezelésének új megközelítései vállalati környezetben Hagyományos (vállalati) információrendszerek információkezelése Strukturált adatok, tárolva: Relációs adatbázis-kezelő; Objektum-orientált adatbázis-kezelő; Hálós adatbázis; Hierarchikus adatbázis ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 4
A nagyméretű adatok kezelésének új megközelítései vállalati környezetben Az adatok nagy része ma strukturálatlan formában keletkezik; Az adatok 85%-90% Ezeket az adatokat nem aknázzák ki: Nehéz elemezni (parsing); Modellezni; Értelmezni. ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 5
A nagyméretű adatok kezelésének új megközelítései vállalati környezetben A nagyméretű adatok keretében: A strukturált; Félig-strukturált; A strukturálatlan; A polistrukturált adatokat is kezelni kell. Pl.: e-levél, web lap tartalom, videó, audió stb. Adatbázis tartalom, napló állományok, XML állományok, strukturálatlan szöveges dokumentumok, web lapok, grafikák. ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 6
A nagyméretű adatok kezelésének új megközelítései vállalati környezetben Skálázhatóság Infrastruktúra menedzsment Végfelhasználó kielégítő kiszolgálása Adatmodellezés - NoSQL adatbázisok kifejlesztése ETL (Extract-Transform-Load) vállalati adattárházak hagyományos megoldásai szűk keresztmetszet félig-strukturált adatok céljaira. Adatok felfalása (data ingestion) Map-reduce technológia a párhuzamos feldolgozásra (funkcionális programozás) ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 7
Vállalati információrendszerek Az információrendszerek dokumentum központúvá válnak Nem csak a nagy mennyiség és méret, hanem az adatszerkezet típusok magas fokú heterogenitása is probléma. Hagyományos rendszerszervezési, elemzési és tervezési módszerek, információ kezelési eljárások nem kielégítőek ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 8
Adatbázisok evolúciója RDBMS (SQL, relációs adatbázis-kezelés) RDBMS oszlop-orientált (Sybase IQ/SAP) Teljesítmény: lekérdezések kontra sororientált problémái Üzleti intelligencia igényei, egyéb adat analitika igények; Memória-alapú adatbázis kezelés (In-memory); Grid (homogén csomópontok) illetve számítási felhő (heterogén csomópontok) ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 9
Adatbázisok evolúciója Not Only SQL, NoSQL DBMS Teljesítmény: Elosztott hálózati architektúra (distributed arch.) Masszív párhuzamos, konkurens adatfeldolgozás (high concurrency) Particionálással szembeni tűrés (parttion tolerance) Kiterjeszthetően skálázható arch. (Scale-out architecture) ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 10
Relációs kontra nem relációs adatbáziskzelés Strukturált adat: Minden adatelemre létezik meta-adat, SQL tárolás, elérés pontosan definiált. Strukturálatlan adat: Az adatbázis séma nem írja le pontosan. ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 11
Relációs kontra nem relációs adatbáziskzelés RDBMS : 3NF, táblák, kapcsolatok, integritási feltételek. Oszlopok strukturált adat. Logikai adatmodell Nem relációs DBMS Egymásba ágyazott, hierarchikus adatszerkezetek BoM, darabjegyzék, XML komplex dok. A régi hierarchikus, és hálós adatbázisok, objektum, objektum-relációs adatszerkezetek, dokumentumok, XML adatszerkezetek, gráfok Új SQL (NewSQL) NoSQL ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 12
Alkalmazhatóság (OldSQL, NewSQLm NoSQL) Összetett séma Gráf séma Egymásba ágyazott modellek 3NF séma Hópehely séma Csillag séma Adatszerkezet bonyolultsága OldSQL NoSQL NewSQL Egy tábla 40 TB > 40 TB ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 13
NoSQL Kulcs-érték pár (key-value pair) Gráf adatbázis Dokument adatbázis XML által definiált adatszerkezet JSON (JavaScript object notation )
Poliglott tartós tárolás (perzisztencia) RDBMS és egy vagy több NoSQL adatbázis kohabitációja az adatbáziskezelés rétegében ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 15
Poliglott tartós tárolás (perzisztencia) Nyers adatok Hadoop ökoszisztema Kötegelt adatfeldolgozás / Valós idejű adatfeldolgozási folyamat RDBMS NewSQL NoSQL Alkalmazások ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 16
Bálint Molnár, Senior Researcher, Information Systems Department 17
VA Enterprise Architecture DATA What FUNCTION How NETWORK Where PEOPLE Who TIME When MOTIVATION Why Based on work by John A. Zachman SCOPE (CONTEXTUAL) Things Important to the Business Processes Performed Business locations Important Organizations Ev ents Significant to the Business Business Goals and Strategy SCOPE (CONTEXTUAL) Planner Entity = Class of Business Thing Function = Class of Business Process Node = Major Business Locations People = Major Organizations Time = Major Business Event Ends/Means = Major Business Goals Planner ENTERPRISE MODEL (CONCEPTUAL) Semantic Model Business Process Model Business Logistics System Work Flow Model Master Schedule Business Plan ENTERPRISE MODEL (CONCEPTUAL) Owner Ent = Business Entity Proc = Business Process Rel = Business Relationship I/O = Business Resources Node = Business Location Link = Business Linkage People = Organization Unit Work = Work Product Time = Business Event Cycle = Business Cycle End = Business Objectiv e Means = Business Strategy Owner SYSTEM MODEL (LOGICAL) Logical Data Model Application Architecture Distributed System Architecture Human Interface Architecture Processing Structure Business Rule Model SYSTEM MODEL (LOGICAL) Designer Ent = Data Entity Rel = Data Relationship Proc = Application Function Node = IS Function I/O = User Views Link = Line Characteristics People = Role Work = Deliv erable Time = System Event Cycle = Processing Cycle End = Structural Assertion Means = Action Assertion Designer TECHNOLOGY MODEL (PHYSICAL) Physical Data Model System Design Technology Architecture Presentation Architecture Control Structure Rule Design TECHNOLOGY MODEL (PHYSICAL) Builder Ent = Segment/Table Rel = Pointer/Key Proc = Computer Function I/O = Data Elements/Sets Node = Hardware/Softw are People = User Link = Line Specifications Work = Screen Format Time = Ex ecute Cycle = Component Cycle End = Condition Means = Action Builder DETAILED Data REPRESENTATIONS Definition (OUT-OF-CONTEXT) Program Network Architecture Security Architecture Timing Definition Rule Design DETAILED REPRESENTATIONS (OUT-OF-CONTEXT) Sub-Contractor Ent = Field Rel = Address Proc = Language Statement Node = Addresses I/O = Control Block Link = Protocols People = Identity Work = Job Time = Interrupt Cycle = Machine Cycle End = Sub-Condition Means = Step Sub-Contractor FUNCTIONING ENTERPRISE Data Function Network Organization Schedule Strategy FUNCTIONING ENTERPRISE Ent = Rel = DATA What Proc = I/O = FUNCTION How Node = Link = NETWORK Where People = Work = PEOPLE Who Time = Cycle = TIME When End = Means = MOTIVATION Why Bálint Molnár, Senior Researcher, Information Systems Department 18
Bálint Molnár, Senior Researcher, Information Systems Department 19
Bálint Molnár, Senior Researcher, Information Systems Department 20
A schematic mapping between Zachman architecture and requirements and constraints in the framework of Axiomatic Design Aspects Entities Activities Locations People Time Motivation Perspectives Contextual UR Intensional document UR UR UR Intensional document UR UR Intensional document Scope Conceptual FR Document hierarchy FR Document hierarchy FR FR Document hierarchy FR FR Document hierarchy Enterprise Model Logical DC&P DC&P DC&P DC&P DC&P DC&P System Model Physical DC&P DC&P DC&P DC&P DC&P DC&P Technical Model Detailed representation (Actual implementation and operation) IF&OV IF&OV IF&OV IF&OV IF&OV IF&OV Components Functioning Data Function Network Organization Schedule Strategy enterprise/organizat Bálint Molnár, Senior Researcher, Information Systems Department 21 ion
Köszönöm a figyelmet Kérdések?