Adattárház és BigData Szimbiózisa Baranyi Szabolcs IM Technical Sales Szabolcs.baranyi@hu.ibm.com
BigData adatforrásai
Adattárház kiterjesztés igénye BigData és adattárház integrációja a hatékonyság növelésére úja adatforrások használatára Adatok sokféleségének kiaknázása Struktúrált, struktúrálatlan adatforrások előkészítése előfeldolgozása (landing zone) Kis késleltetésű analitika Csak olvasható lekérdezhető archív Kiterjesztett adattárház Adatbázis tehermentesítés ritkán használt adatok hadoop környezetbe mozgatásával Csökkentett storage és ETL költség a valós idejű feldolgozás alkalmazásával. Adattárház performancia növelés, tehermentesítés staging zóna kiemelése
Kiterjesztés főbb útjai 1 Előfeldolgozás 2 Elemezhető archív 3 Adatforrás felfedezés
Tradícionális DW és Big Data Tradícionális Adattárház Struktúrált, rutinszerű Big Data Megközelítés Iteratív, felfedező Business: Előredefiniált üzleti kérdések IT: Platformot biztosít az önálló felfedezéshez IT Célirányos Struktúrált adatok az üzleti kérdések megválaszolására Rendszeres riportok Profitability analysis Customer surveys Business: Áttekintő elemzés, koreláció keresés Brand image Stratégia Marketing
Tradícionális: Előzetes Üzleti modell vezérelte tervezés Üzleti igények, definíciók Megválaszolandó üzleti kérdés Új igények, Új fejlesztések, Redesign IT megoldás tervezés, meghatározott funkcionalitással és struktúrákkal Üzleti napi használat, lekérdezések napi riportok, ad-hoc query-k 27 May 2014
Big Data Analitika: Információ vezérelt felfedezés Üzlet és IT meghatározza az elérhető adatforrásokat Felmerült új dimenziók igények vezérelte tradícionális fejlesztés IT felépíti a platformot, alap adatmodelleket ami lehetővé teszi a kreatív analízist Üzlet az adatok közti összefüggéseket keresi, meghatározza a mélyebb analízis kérdéseit adatköreit 27 May 2014
BigInsights mint DWH előtét Big Data Analitikai alkalmazások BigInsights Adattárház Tradícionális analitika Filter Transform Aggregate
BigInsights mint DWH archív Tradícionális analitika Big Data analitika BigInsights Adattárház Lekérdezhető, analizálható archív
Big Data teljes rendszer komponensek Ingestion and Real-time Analytic Zone Ingest Filter, Transform Analytics and Reporting Zone Correlate, Classify Warehousing Zone Query Engines Cubes Data Sinks Connectors Extract, Annotate Landing and Analytics Sandbox Zone Enterprise Warehouse Descriptive, Predictive Models Analytics MapReduce Hive/HBase Col Stores Indexes, facets Data Marts Widgets Discovery, Visualizer Search Ingest Documents In Variety of Formats Models Metadata and Governance Zone Repository, Workbench
Adattárház és Adatpiac modell Design Models Business Vocabulary Atomic Warehouse Models Dimensional Models Supportive Terms Business Terms Reporting Models Atomi Adattárház Üzleti Szótár Mind Hadoop mind RDBMS-re Landing Area Atomi Adattárház Adatpiac Közös szemantikus referencia Dimenzió modell Adatpiacok, DWH célgépek Hadoop Landing Area Zone Hadoop RDBMS RDBMS Integrated Warehouse & Marts Zone Metadata Catalogue Information Governing Systems Üzleti szótár Metaadattár
Adatfolyam Adatforrástól az Adatpiacig New Sources Landing Area Atomic Warehouse Dimensional Data & Marts Legacy Sources Master & Reference Data Hubs Content Repositories Shared Operational Information Zone Hadoop Landing Area Zone Hadoop RDBMS RDBMS Integrated Warehouse & Marts Zone Metadata Catalogue Information Governing Systems
Adathozzáférés az adatpiactól az Integrációs rétegig Landing Area Atomic Warehouse Dimensional Data & Marts Business Users Hadoop Hadoop RDBMS RDBMS Landing Area Zone Integrated Warehouse & Marts Zone Metadata Catalogue Information Governing Systems
Big SQL Univerzális SQL interfész SQL elérés Hadoop környezethez IBM SQL -based Application IBM data server client Magasszintű SQL támogatás Megszokott szabványos Adatbázis kliensek (JDBC, ODBC) teljes támogatása Big SQL Engine SQL MPP Run-time Data Sources IBM embedded SQL complier támogatás HiveTables HBase tables CSV Files BigInsights / Hadoop
1. Vizualizáció transzformáció modellezés hatékony R nyelven IBM BigInsights BigR R Clients 2. R kiterjesztése Partícionálás, Parallel sokcsomópontos feldolgozás Szinte bármely R csomag használható 3. Skálázható fejlett statisztikai rendszer Data Sources R Packages 1 3 Scalable Statistic s Engine 2 R Packages Embedded R Execution
Alkalmazási Példa: logelemzés
Alkalmazás: Ügyfél teljes áttekintés SOURCE SYSTEMS CRM Name: J Robertson Address: 35 West 15 th Address: Pittsburgh, PA 15213 ERP Name: Janet Robertson Address: 35 West 15 th St. Address: Pittsburgh, PA 15213 Legacy Name: Address: Jan Robertson 36 West 15 th St. Address: Pittsburgh, PA 15213 Master Data Management 360 View of Party Identity First: Janet Last: Robertson Address: 35 West 15 th St City: State/Zip: Pittsburgh PA / 15213 Unified View of Party s Information Gender: F Age: DOB: 48 1/4/64 BigInsights Unified View of Party s Information Streams Warehouse
Adattárház kiterjesztés esettanulmány Megnövelt analitikai teljesítmény 40X gyorsabb lekérdezés kisebb válaszidők órák helyett percek, kampány hatékonyság 20% kal növekedett Adattárház kiterjesztés előnyei? Nagy adatmennyiség (TB PB) kezelése, optimális storage költség Új adatforrások és adattípusok analízisbe bevonása Csökkentett működési költségek Adattárház mindenféle adatforrásra Adattárház (RDBMS) tehermentesítése Inakív, ritkán használt adatoktól Adatfolyam feldolgozás letárolás nélkül, Adattárház előfeldolgozó Analízis korelláció keresés új adatforrásokon Újfajta analitika alkalmazása Megszokott Eszközök használata az új Big Data környezetben