IBM Big Data Portfólió Áttekintés Baranyi Szabolcs +36 20 823 5619 Szabolcs.baranyi@hu.ibm.com September 9, 2013
Tartalom Big Data Platform Big Insight InfoSphere BigInsights Quick Start Edition Streams InfoSphere Streams Quick Start Edition Data explorer PureData for Analytics (Appliance) 2
Big Data A technológia ami lehetővé teszi hogy minden adatot elemezünk Költséghatékony menedzsmentje és elemzése Struktúrált, struktúrálatlan és adatfolyamban natív formában elérhető adatnak BigData Stratégia már most fontos Website Social Media Billing ERP CRM RFID Network Switches 3
BIG DATA több mint HADOOP Megtalálni, megérteni és navigálni az adathalmazban Elosztott keresés és navigáció Nagy mennyiségű adatkezelés Hadoop elosztott file rendszer MapReduce: elosztott feladatok Struktúrált adatok Adattárház, Célhardverek Adatfolyam, streaming média Stream Computing: Adatfolyam feldolgozás Nem struktúrált elemzés Text Analytics Engine Adatintegráció és követés sokféle adatforrásból Integráció, Adatminőség, Biztonság, Életciklus 4
Big Data Platform funkciócsoportok Folytonos real-time analitika Ingest Filter, Transform Analitika és riporting Zone Correlate, Classify Adattárház Zone Query Engines Cubes Data Sinks Connectors Extract, Annotate Adattárolás és analitika (landing zone) Enterprise Warehouse Descriptive, Predictive Models Analytics MapReduce Hive/HBase Col Stores Indexes, facets Data Marts Widgets Discovery, Visualizer Search Ingest Documents In Variety of Formats Models Metaadatkezelés Zone Repository, Workbench 5
BigData Platform elemei 1 Adatvisszanyerés, felfedezés InfoSphere Data Explorer Analytic: Text, Geospatial, Time series,data mining Applications Financial, Machine Data, Social, Telco 2 Natív analízis 3 Költséghatékony adattárolás InfoSphere BigInsights BI / Reporting Analitikai Alkalmazások Exploration / Functional Industry Predictive Visualization App App Analytics Visualization & Discovery Hadoop System IBM Big Data Platform Application Development Accelerators Stream Computing Content Analytics BI / Reportin g Systems Management Data Warehouse Integráció és követés (governance) 4 Egyszerű, hatékony adattárház (célhardverek) IBM Warehouse Solutions 5 Adatfolyam feldolgozás, gyors válasz InfoSphere Streams 6
IBM InfoSphere BigInsights Volumen és Variancia September 9, 2013
IBM InfoSphere BigInsights v2.1 Enterprise Edition Visualization & Discovery Applications & Development Administration Integration Big SQL JDBC BigSheets Dashboard & Visualization Apps Workflow Text Analytics Pig & Jaql MapReduce Hive Admin Console Monitoring Netezza DB2 Advanced Analytic Engines Adaptive Algorithms Text Processing Engine & Extractor Library) R Streams DataStage Workload Optimization Integrated Installer ZooKeeper Enhanced Security Oozie Splittable Text Compression Jaql Adaptive MapReduce Flexible Scheduler High Availability Guardium Platform Computing Lucene Pig H Catalog Index Cognos Runtime MapReduce Management Security Flume Data Store HBase Hive Audit & History Sqoop File System HDFS GPFS Lineage Open Source IBM 8
BigInsights és az adattárház Big Data analytic applications Adattárház Tradícionális analitika BigInsights Filter Transform Aggregate 9
Táblázatos Analízis Webes analízis és vizualizáció Táblázat alapú felület Táblázatos formában jobokat definiálunk Visszaadott értékeket diagramokat elemezzük módosítjuk (Nagy excel) JAQL: Speciális hierarchikus lekérdező nyelv hadoop környezethez 10
SQL interface.... SQL lekérdezési lehetőség SQL '92 és 2011 opciók Korellált subquery Windowed aggregates SQL elérés minden Big Insight beli strukturált adathoz JDBC/ODBC support Application SQL Language JDBC / ODBC Driver JDBC / ODBC Server SQL interface Engine MapReduce párhuzamosságának kihasználása Data Sources BigSQL supports: create table ;data types including varchar, decimals, etc. HiveTables HBase tables CSV Files InfoSphere BigInsights 11
Cluster komponensek és monitorozásuk: Cluster:CPU/Disk/Memory/Netk ihasználtság, node életjel HDFS: File rendszer állapota, NameNode JVM, írás / olvasás statisztika Mapreduce: Jobok státusa, Mapper, Reducer, JobTracker HBase: lekérdezések állapota Hive: metadata store hívások gyakorisága Oozie: statistics Zookeeper: késleltetlés,lekérdezések Flume: adatforrások, nyelők állapota EXT E N S I B L E!! Build your own Monitoring Dashboards, with the key KPI that are of your interest! 12 2012 2013 IBM IBM Corporation
Enterprise class Kezdetektől a nagyvállalatig PureData for Hadoop Célhardver Enterprise Edition funkcionalitásával (vas) Apache Hadoop New Enterprise Edition Terabyte alapú árazás Quick Start Edition Ingyenes Nem Produktív célra Basic Edition ingyenes Web-based mgmt console Jaql Install program Big Sheets Text Analytics Big SQL Workload optimization/ Query support Dev tools Connectors Mgmt tools IBM Hadoop Core Quick Start PLUS: Accelerators Enterprise Integration Production support Production-ready features 13
BigInsights Quick Start Edition contains most of the same features as the Enterprise Edition Available Big Sheets Text Analytics Big SQL All Workload optimization/query support Development tools Connectors Management tools IBM Hadoop Core Unavailable Production support Production-ready features: High Availability GPFS Accelerators: Machine Data Social Data Limited use licenses: Data Explorer Cognos Streams 14
IBM InfoSphere Streams 3.0 Agilitás, Gyorsaság 15
InfoSphere Streams Valós idejű analititka BIG Data felett Fókuszban a sebesség ICU Monitoring Valós idejű feldolgozás Environment Monitoring Volumen Terabytes / sec Petabytes / nap Algorithmic Trading Powerful Analytics Cyber Security Government / Law enforcement Smart Grid Telco Churn Prediction Variancia sokféle adat sokféle elemzés Sebesség Kiértékelés másodperc tört része alatt Millió esemény másodperc enként Tradícionális és újfajta adtforrás Mikro szekundumos késleltetés 16 16
Streams Működése Streams infrastruktúra Filter / Sample Transform Annotate Correlate Classify Egyedi gondolkodásmód Folyam feldolgozó egységek 17
Grafikus szerkesztő és monitorozó Vizuális programozás SPL nyelv Hierarchikus vizuális monitoring 18
SPSS és Streams speciális kapcsolata SPSS modellek használata valós idejű döntéshozatalban SPSS Modeler generálta modellek közvetlen használata SPSS Modelek frissítése cseréje a Stream megállítása nélkül IBM InfoSphere Streams S SPSS Scoring Operator S R P SPSS Repository Operator SPSS Publish Operator R P SPSS Model Change Notification File System IBM SPSS Modeler Solution Publisher IBM SPSS Collaboration & Deployment Services Model Refresh Repository 19
IBM InfoSphere DataStage Integráció Valós idejű feldolgozás és klasszikus ETL eszköz ötvözete Az adatáttöltés során röptében is tudunk elemezni Adattárházat tudja analitikailag tehermentesíteni, több napi riport Streams ETL toolkit Streams and DataStage adatcsere adapterek Integrációs kód 20
Streams Quick Start Quick Start ban elérhető fejlesztőeszközök teljes készlete Grafikus editor, SPL nyelv Adatvizualizáció Vizuális monitoring Skálázható architektúra Elosztott platform Analitikai kiegészítések Time series analysis Mining scoring using PMML, R or SPSS Complex Event Processing Geospatial analysis SPSS integráció Nem elérhetők IBM InfoSphere BigInsights Enterprise Edition integráció IBM DB2 IBM Accelerator for Machine Data Analytics IBM Accelerator for Social Data Analytics IBM Accelerator for Telecommunications Event Data Analytics 21 21 2012 2013 IBM IBM Corporation
Streams és BigInsights Interált folytonos feldolgozás és tárolás Visualization of realtime and historical insights Data Data ingest, preparation, online analysis, model validation InfoSphere Streams 1. Data Ingest 2. Bootstrap/Enrich Control flow 3. Adaptive Analytics Model InfoSphere BigInsights, Database & Warehouse Data Integration, data mining, machine learning, statistical modeling 22
Data Explorer Vizualizáció September 9, 2013
Data Explorer Keresés, indexálás Adat vizualizáció BigInsights, Streams, Adattárház, keimeneti adatainak webes fúziója A teljes képet mutatja minden kontextusban Sokféle adatforrásból származó adat egységes megjelenése Adatvagyon katalógus (glossary) szerinti csoportosítás Big Data Stratégi akezdő lépése 24
InfoSphere Data Explorer Architektúra Big Data application User profiles Big Data application Application framework Authentication/Authorization Business Rules Personalization Display Big Data application Query routing Subscriptions Feeds Web Results Text analytics Indexing and search engine Metadata extraction CM, RM, DM RDBMS Feeds Web 2.0 Email Web CRM, ERP File Systems BigInsights Streams Integration zone Connectors and APIs 25
Data ExplorerMegjelenítés Adaforrások Dinamikus kategorizálás llokáció Személyre szabott eredmény Struktúrált és nem struktúrált tartalom kollaboráció Rendezés, Virtuális mappák 26
Egyedi értékek Iparági megoldások September 9, 2013
Geospatial Toolkit Nagyteljesítményű Térinformatikai modul Elosztott, rendszer, LoadBalance Smarter Transport Térinformatikai adattípusok (Geospatial) e.g. Point, LineString, Polygon Térinformatikai függvények e.g. Distance, Map point to LineString, iscontained etc. 28
Time Series Toolkit Idősoros adatok elemzésére tervezve Gazdag funkciókészlet Adatsor generáció: függvény generátor Feldolgozás : szűrés, aggregáció, mintavételezés (e.g. ReSample, Interpolate) Analísis : korellációk anomáliák keresése Modellezés : prediction, regression (e.g. Holt-Winters, GAMLearner) 29
File parsing and error handling Rules: Lookups and Transforms Checkpoint Controller De-Dup Bloom Filter Parallel Write Telco Accelerator Dashboards Real Time Monitoring Master Script Config Files Rules Compiler Streams CDRs xdrs DB2 BigInsights HDFS CDR Repository External Data CDR statistics and data rate Output Files 30
Social Media Accelerator Extraction Entity Integration, Profile build Indexing Ingest Reports HDFS Üzleti lehetőségek feltárása Brand Management Mikroszegmentáció Személyes adatok Érdeklődés,szokások, szosiális aktivitás, barátok, Kimenet Sentiment analízis Index (Velocity) CXO Integrated end user view 31
Célhardverek Pure Data for analytics Pure data for hadoop September 9, 2013
In October 2012 Adattárház Célgép IBM Netezza átnevezve IBM PureData System for Analytics September 9, 2013
Adattárház Célgép Igény ami életrehívta Adattárház teljesítmény igény DWH adminisztrációs költség csökkentés Value statement Speed: 10 100x gyorsabb (mint alap tárház) Simplicity: Alig igényel adminisztrációt ( 75% csökkentés) Scalability Smart system Adatbázison belüli párhuzamos analitika Teljes SPSS integráció Megoldás IBM Netezza immáron: PureData System for Analytics 34
IBM big data IBM big data IBM big data IBM big data IBM big data THINK IBM big data IBM big data 35 IBM big data IBM big data IBM big data
1 Unlock Big Data Customer need Understand existing data sources Search and navigate data within existing systems No copying of data Value statement Get up and running quickly Discover and retrieve big data Work even with big data sources by business users Solution Vivisimo Velocity renamed to IBM InfoSphere DataDiscovery 36