1 Copyright 2012, Oracle and/or its affiliates. All rights
Nem csak tiszta forrásból Adattisztaság, adatintegráció Enterprise Data Quality Fekete Zoltán Principal sales consultant https://blogs.oracle.com/zfekete 2 Copyright 2012, Oracle and/or its affiliates. All rights
Agenda Adattisztaság, miért is kellesz ó nagyon? Illik az adat a célhoz? DQ mérés és biztosítás Enterprise Data Quality Oracle Data Integrator Oracle Data Integrator és Oracle Enterprise Data Quality együttes előnyei 3 Copyright 2012, Oracle and/or its affiliates. All rights
Agenda Adattisztaság, miért is kellesz ó nagyon? Illik az adat a célhoz? DQ mérés és biztosítás Enterprise Data Quality Oracle Data Integrator Oracle Data Integrator és Oracle Enterprise Data Quality együttes előnyei 4 Copyright 2012, Oracle and/or its affiliates. All rights
Az adattisztaság üzleti hatása Rossz adatokkal Jó adatokkal Kisebb ROI Nagyobb projekt kockázat, idő, költség Drágább, következmények rossz számla, rossz kiszállítás, rossz alkatrészek, Nagyobb ROI Nagyobb agilitás Nagyobb hatékonyság Nagyobb ügyfél elégedettség Nagyobb skálázhatóság BI/DW implementációk 30%-a teljesen sikeres. Miért? Pénz és adattisztaság #1 ok, ami miatt a CRM projektek elbuknak: adattisztaság? Az adatintegráció és adattisztaság az alkalmazás bevezetés sikerének alapja, pl. CRM, SCM és ERP. 5 Copyright 2012, Oracle and/or its affiliates. All rights #OracleDataIntegration
Adatok áradata Elemzők: növekvő mennyiség, komplexitás External data sources are proliferating - On average, organizations are integrating 14 external data sources, up from 11 a year ago. - Aberdeen Group 40% projected growth in global data generated per year vs 5% growth in global IT spending. - McKinsey Global Institute New data stored by enterprises exceeded 7 exabytes of data globally in 2010 and new data stored by consumers exceeded an additional 6 exabytes.. - McKinsey Global Institute As data growth and complexity accelerates, companies should focus on quality assured data exchange (ensure data consistency and accuracy from the point of entry. - Aberdeen Group
Az adatok folyton változnak... Cégek 240 cég címe változik 150 üzleti telefonszám változik meg vagy szűnik meg 112 C-változás (CEO, CFO, stb.) 20 cég bukik meg 12 új cég jön létre 4 cég nevet változtat Személyek 5 769 személy változtat állást az USA-ban 2 748 személy címe változik 515 személy házasodik meg 263 személy válik el 186 személy jelent be magáncsődöt a DQ romlik? Termékek 1 óra alatt 1 óra alatt 1 év alatt Törzsadatok,master data: 2% változás havonta 2% monthly change is 27% évente, 61% 2 évente, 104% 3 év alatt!!! Termékek: 20% duplikátum 90% termék bevezetés rossz Kisker.: 40 milliárd $ vagy 3,5% értékesítés veszteség, termék infó gondok 60% számla hiba Global Data Sync: 30% IT költség csökkenés Source: D&B, US Census Bureau, US Department of Health and Human Services, Administrative Office of the US Courts, Bureau of Labor Statistics, Gartner, A.T Kearney, GMA Invoice Accuracy Study 7 Copyright 2012, Oracle and/or its affiliates. All rights
Adatok: hibák és konzisztencia gondok Eltérés vagy hiba Példa Eltérés vagy hiba Példa Sorrend Mark Douglas or Douglas Mark Olvasási hiba Hannah, Hamah Véletlen javítás Browne Brown Összefűzés Mary Anne, Maryanne Becenév, alias Chris Christine, Christopher, Tina Hiányzó vagy extra részek Más nyelvi adatok Kezdőbetűk zavara George W Smith, George Smith, Smith Khader AL Ghamdi, Khadir A. AlGamdey John Alan Smith, J A Smith Zaj Vessző, perjel, idézőjel, gondolatjel,... Betűcserék Johnson, Jhonson Rövidítés Wlm/William, Mfg/Manufacturing Lokalizáció Stanislav Milosovich Stan Milo Csonkítás Credit Suisse First Bost Téves dátumok Előtag variációk MacDonald/McDonald/Donald Átírási különbségek 12/10/1915, 21/10/1951, 10121951, 00001951 Gang, Kang, Kwang Elírás, elütés P0rter, Beht Hangzó hibák Graeme Graham 8 Copyright 2012, Oracle and/or its affiliates. All rights #OracleDataIntegration
Agenda Adattisztaság, miért is kellesz ó nagyon? Illik az adat a célhoz? DQ mérés és biztosítás Enterprise Data Quality Oracle Data Integrator Oracle Data Integrator és Oracle Enterprise Data Quality együttes előnyei 9 Copyright 2012, Oracle and/or its affiliates. All rights
Data Quality Illik az adat a célhoz? Honnan lehet megtudni? Mi a hatása az üzletre? Mit tegyünk? 10 Copyright 2012, Oracle and/or its affiliates. All rights
Ellenőrzés adatok megfelelnek a célnak? Irányítás Védelem Javítás Your Data Your Experts Business & data standards Current issues, gaps, errors Megismerés Understand current data fitness for purpose Estimate DQ impacts & ROI Identify critical issues & quick wins 11 Copyright 2012, Oracle and/or its affiliates. All rights
Adatok javítása, alkalmazás telj. javítása Irányítás Védelem Parse/ extract Standardize Enrich Verify Match/ merge Gold data Fit for purpose data Javítás Apply data standards Metrics, KPIs Megismerés Improve ROI and performance of existing applications Engage users and executives Bring data to a known, baseline quality ready to rollout new applications and initiatives 12 Copyright 2012, Oracle and/or its affiliates. All rights
DQ Firewall információ vagyon folyamatos védelme Irányítás Védelem Javítás External sources/ feeds Non-DQ/MDMaware Apps DQ/MDMaware Apps Web service call Oracle Data Integrator E-LT/ETL Process Hub Apply data standards/validate Megismerés Continuous, consistent enforcement of standards High quality data drives ROI No more DQ projects! 13 Copyright 2012, Oracle and/or its affiliates. All rights
DQ irányítás folyamatos folyamat javítás Irányítás Protect Gold data Source system DQ metrics DQ process metrics Improve Apply data standards Target system DQ metrics Understand Monitor ongoing effectiveness Track and resolve issues Improve overall effectiveness 14 Copyright 2012, Oracle and/or its affiliates. All rights
Agenda Adattisztaság, miért is kellesz ó nagyon? Illik az adat a célhoz? DQ mérés és biztosítás Enterprise Data Quality Oracle Data Integrator Oracle Data Integrator és Oracle Enterprise Data Quality együttes előnyei 15 Copyright 2012, Oracle and/or its affiliates. All rights
Enterprise Data Quality Datanomic, 2011. 16 Copyright 2012, Oracle and/or its affiliates. All rights
Enterprise Data Quality Integrált DQ megoldás Témakörspecifikus Könnyen használható Integrált DQ megoldás profiling, cleansing, classification, repurposing, matching & reporting Üzleti felhasználóknak Egyszerű konfiguráció és integráció DQ Services Integrált csoportmunka és menedzsment Specializált fő területekre: Parner és Termék Előre felépített folyamatok és tudás Megfelelő eszközt a feladathoz Kiterjeszthető tetszőleges területre, feladatra, folyamathoz Független: adatkör, piac, alkalmazás,... DQ nem csak a háttérmunkához Felhasználók monitorozhatják a fontos adatokat Testreszabott dashboard Tartalom és elrendezés kiválasztása Üzleti kontextus: megértés és egyetértés 17 Copyright 2012, Oracle and/or its affiliates. All rights 17
EDQ Console, a felhasználóra fókuszálva Fő terület Eszközpaletta Projekt böngésző Eredmények 18 Copyright 2012, Oracle and/or its affiliates. All rights
Teljes DQ folyamat felépítése Teljes DQ funkcionalitás: egyetlen egységes felület és repository Egyszerű vagy komplex folyamat Folyamat áttekintő nézet: navigáció 19 Copyright 2012, Oracle and/or its affiliates. All rights
Rögtön bevethető kész feldolgozók: Processor 20 Copyright 2012, Oracle and/or its affiliates. All rights
Fontos: nyelv-specifikus, régió-specifikus és ország-specifikus képességek Processorok: országokra, régiókra Teljes unicode megfelelés 21 Copyright 2012, Oracle and/or its affiliates. All rights
Fontos: nyelv-specifikus, régió-specifikus és ország-specifikus képességek 22 Copyright 2012, Oracle and/or its affiliates. All rights
Profiling adatok megértése, megismerése Interaktív felfedezés, eloszlások vizsgálata, kugró értékek lefúrással. Jellemzők: megismerés és mérés 23 2011 Oracle Corporation
Adatok javítása és tisztítása Teljesen alakítható transzformációs szabályok Batch és Real-Time is Adatváltoztatás esetén is teljes kontroll Az eredeti adat is megőrződik (minden köztes lépés is) Forrás adatok: állomásoztatva, feldolgozva vagy stream -elve a folyamatban Profiling eredmények: saját adatjavítási szabályok kialakítása Gyári processorok a szokásos feladatokhoz, például: cím standardizálás 24 Copyright 2012, Oracle and/or its affiliates. All rights
Nevek tisztítása Name: Dr Ellen Van Der Heijde Name: Mr RJ & Mrs FB MacDonald Name: Jalila Abdul-Alim (Do Not Call) Title: Dr First: Ellen Last: Van Der Heijde Gender: Female Title: Mr First: R Middle: J Last: MacDonald Gender: Male Title: Mrs First: F Middle: B Last: MacDonald Gender: Female First: Jalila Last: Abdul-Alim Gender: Female Note: Do Not Call Name: Ms April James DBA AJ Designs Parse, standardizálás, transzformálás Részekre bontás Egyének, cégek azonosítása További attribútumok kitöltése Title: Ms First: April Last: James Gender: Female Company: AJ Designs Nem csupán neveket: címek, dátumok, telefonszámok, stb. 25 Copyright 2012, Oracle and/or its affiliates. All rights 25
Matching ismétlődés kezelés, megelőzés Üzleti felhasználóknak Rugalmas matching motor bármely adathoz, összehasonlító algoritmusok Template match processorok: személy, egyed, cím egyezőség vizsgálathoz Konfigurált match processorok újra felhasználása Konfigurálható kimenetek (linkek, csoportok, Master and Slaves, legjobb record) Batch és Real-Time is Kész szabályok: bekapcsolás, kikapcsolás, testreszabás 26 Copyright 2012, Oracle and/or its affiliates. All rights
Parsing Improve & Review data Review color Passed Parse & classify Megfelelő és vizsgálandó rekordok 27 2011 Oracle Corporation
Big Data felhasználási eset {"OC_Name": "at_ns:.oc.eross3g1","identifier": "1546863","Target_Entity": "RCROOT at_ns:.oss.3g1rcroot SNW NISTE05 RNC NISTE05","Event_Type": "QualityofServiceAlarm","Managed_Object": "RCROOT at_ns:.oss.3g1rcroot SNW NISTE05 RNC NISTE05","Probable_Cause": "ThresholdCrossed","Severity": "Warning","Event_Time": "18/12/2012 19:10:16","State": "Outstanding","Additional_Text": "UtranCell_RrcEarlyReject\n\nstart_nms_tags\n@AlarmId=38444174\n@ManagedObj ect=kalkan,subnetwork=onrm_root_mo,subnetwork=niste05,mecontext=nist E05,ManagedElement=1,RncFunction=1,UtranCell=WIS04296\n@SpecificProblem=Ut rancell_rrcearlyreject\n@proposedrepairaction=\n@class=rcroot\nend_nms_ta gs \n\nsource:ossrc_fm","notification_id": "3589640175"} Parse & classify: komplex nemstrukturált, félig strukturált adatokat strukturált adatokká alakítja Big Data Operatív valós idejű riporting OC_Name at_ns:.oc.eross3g1 Identifier 1546863 RCROOT at_ns:.oss.3g1rcroot SNW NISTE05 Target_Entity RNC NISTE05 Event_Type QualityofServiceAlarm RCROOT at_ns:.oss.3g1rcroot SNW NISTE05 Managed_Object RNC NISTE05 Probable_Cause ThresholdCrossed Severity Warning Event_Time 18/12/2012 19:10:16 State Outstanding Notification_ID 3589640175" NmsTags.AlarmId 38444174\n NmsTags.ProposedRepair \n kalkan,subnetwork=onrm_root_mo,subnetwork= NISTE05,MeContext=NISTE05,ManagedElement=1,R NmsTags.ManagedObject ncfunction=1,utrancell=wis04296\n NmsTags.SpecificProblem UtranCell_RrcEarlyReject\n NmsTags.Class RCROOT\n 28 Copyright 2012, Oracle and/or its affiliates. All rights #OracleDataIntegration
EDQ Address Verification cím kezelés EDQ Match and Merge EDQ Parse and Standardize Parse Transliterate Validate Format Verify Add latitude/longitude coordinates Geocode EDQ Profile and Audit Global Knowledge Repository Data Packs EDQ Address Verification Server Verify cím kijavítása, pontosítása Worldwide address cleansing over 240 countries all populated countries on earth The most advanced error-tolerant parsing algorithms Geocode a címhez a megfelelő koordináták hozzákapcsolása Generates a latitude/longitude coordinate for any address worldwide Leverages the most comprehensive multi-source geographical reference data 29 Copyright 2012, Oracle and/or its affiliates. All rights
Felhasználói csoportok a folyamatban Adatelemzők Vezetők, tulajdonosok Üzleti elemzők Director felhasználók Director felülbírálók Director Data Stewards Director vezetők 30 Copyright 2012, Oracle and/or its affiliates. All rights #OracleDataIntegration
Az üzleti felhasználónak Rövid betanulás, hamar kamatozik Az üzleti probléma gazdáinak Integrált csapatmunka, együttműködés 31 2011 Oracle Corporation
Match áttekintés Independent End User Review of Matches Egyező rekordok megtekintése Áttekintés Döntés és megjegyzés: történet adatok Manuális döntések Konfigurálható: Decision Workflow Full Audit Trail és megjegyzések Match / No Match döntésekre emlékezik 32 2011 Oracle Corporation
Agenda Adattisztaság, miért is kellesz ó nagyon? Illik az adat a célhoz? DQ mérés és biztosítás Enterprise Data Quality Oracle Data Integrator Oracle Data Integrator és Oracle Enterprise Data Quality együttes előnyei 33 Copyright 2012, Oracle and/or its affiliates. All rights
Oracle Data Integrator 12c Fastest ETL/E-LT, Simpler Time-to-Value, Lowest TCO Oracle Data Integrator Enterprise Edition Legacy Sources Application Sources OLTP DB Sources Best in class performance, scalability Lowered TCO, lightweight deployment Improved usability and manageability Heterogeneous Open, standards-based Any Data Warehouse Any Planning System 34 Copyright 2011, Oracle and/or its affiliates. All rights
Introduction Oracle Data Integrator is the strategic go-forward ETL platform from Oracle Existing OWB customers are NOT being forced to migrate to ODI Oracle offers Lifetime Support option for Sustaining Support on all OWB features Oracle Data Integrator 12c supports a phased migration approach Execute and monitor existing OWB 11gR2 jobs from ODI 12c Use the migration utility to convert existing OWB 11gR2 objects into their ODI equivalents Start new developments using ODI 12c 35 Copyright 2011, Oracle and/or its affiliates. All rights
OWB ODI Migration Utility Overview Versions supported OWB 11.2.0.4 to ODI 12c Design-time metadata migration only Data Objects Mappings Separate command line utility uses OWB SDK and ODI SDK 3 different running modes: Run/Dry Run/Fast Check log and report files are available 36 Copyright 2011, Oracle and/or its affiliates. All rights
Agenda Adattisztaság, miért is kellesz ó nagyon? Illik az adat a célhoz? DQ mérés és biztosítás Enterprise Data Quality Oracle Data Integrator Oracle Data Integrator és Oracle Enterprise Data Quality együttes előnyei 37 Copyright 2012, Oracle and/or its affiliates. All rights
EDQ felhasználás az ODI-val együtt Csökkenti: ODI bevezetés idejét és kockázatot 50% DW/BI projektek: rossz elfogadottság, sikertelenség: nem figyeltek az adattisztaságra ETL mappingek: a specifikáción túl is kell valami Data Profiling: hibák, minták, formátumok időben felismerése az ETL folyamatban EDQ Profiling: adatok megismerése, megértése, szükséges mappingek megértése Adattárház töltése tiszta adatokkal Rossz döntések elkerülése: rossz adatok alapján (garbage-in, garbage-out) Folyamatos adatjavítás: Data Governance/Data Stewardship Üzleti felhasználók bevonása az üzleti szabályok létrehozásába EDQ Batch Processing: pontos, konzisztens, teljes adatok 38 Copyright 2011, Oracle and/or its affiliates. All rights Confidential Oracle Restricted
EDQ és Oracle Data Integrator: felhasználás Források Oracle Data Integrator Célok Data Profiling Analyze and understand data to build ODI mappings Enterprise Data Quality Automated Processes De-duplication, complex cleansing and parsing invoked in ODI workflow Pl. adattárház, Exadata Measure Ongoing Data Quality Assess quality of data in target system. How well is ETL working? 39 Copyright 2012, Oracle and/or its affiliates. All rights
EDQ and ODI: teljes Data Quality folyamat 1 Profile Data 2 Create new Data Quality Rules 4 - Continuous Quality Monitoring - Quality Alerts 3 - Add Data Quality to E-LT/ETL Flow Sources Oracle Data Integrator E-LT/ETL Process Targets Oracle Enterprise Data Quality Parsing Standardization Cleansing Matching Merging 40 Copyright 2011, Oracle and/or its affiliates. All rights Confidential Oracle Restricted
Information Management infrastruktúra ODI & EDQ megosztott architektúra Desktop ODI Studio JVM Designer Topology WebLogic 11g / Application Server FMW Console ODI Plug-in ODI Server Mgmt EDQ Server Mgmt EM Monitoring Java EE Application Operator Security Service Bus ODI SDK EDQ Launchpad Director Console Servlet Container Java EE Application ODI Console Runtime WS Java EE Agent Web Service Container ODI Public WS Data Services Match Review Administration Case Mgmt ODI SDK EDQ Engine EDQ Match Review EDQ Case Mgmt EDQ WS Data Sources Connection Pool Repositories ODI Master Repository ODI Work Repository #1 ODI Work Repository #n Sources and Targets JVM Runtime WS EDQ Repository EDQ Result Schema Legacy Files / XML DBMS Applications DW / BI / EPM Standalone Agent ERP/CRM/PLM/SCM 41
ODI és EDQ együttműködése Példa: Slowly Changing Dimension betöltése E-LT Sources Staging Target Stg_Valid_Customers 3 ODI loads DIM_Customers Customers Prospects EDQ Standardize, Parse 2 & Match w reference data 2 1 ODI extracts Stg_Customers 42
Q&A 43 Copyright 2012, Oracle and/or its affiliates. All rights
Hasznos linkek Oracle Enterprise Data Quality http://www.oracle.com/us/products/middleware/data-integration/enterprisedata-quality/overview/index.html http://www.oracle.com/technetwork/middleware/oedq/overview/index.html 44 Copyright 2012, Oracle and/or its affiliates. All rights
45 Copyright 2012, Oracle and/or its affiliates. All rights