Big Data adattárházas szemmel Arató Bence ügyvezető, BI Consulting 1
Bemutatkozás 15 éves szakmai tapasztalat az üzleti intelligencia és adattárházak területén A BI Consulting szakmai igazgatója A BI.hu portál és a BI Évkönyv periodika főszerkesztője Az Adattárház Fórum és Open Source BI Fórum konferenciák szervezője 2
Big Data 3
A Big Data sztori 4
Big Data Volume - Velocity Variety - Variability 5
Mekkora? Big Data a szokásos módon és eszközökkel nem kezelhető, mert Vagy túl nagy a mennyiség Vagy túlságosan gyorsan változik Vagy nem kellőképpen strukturált Felmerülő problémák Skálázhatóság Rugalmasság Költségek (HW és SW) 6
Mire használható? Hogyan hasznos? Ügyfélviselkedés jobb megértése Akciók és tevékenységek személyre szabása Működés optimalizálása (árazás, logisztika) Élettudományok (orvosi adatok, genetika) Kinek hasznos ez? Akinek vannak ügyfelei vagy látogatói, termékei, eladásai, mérési adatai, szenzorai és így tovább 7
8
Hadoop: A Big Data emelkedő csillaga 9
Hadoop: A Big Data emelkedő csillaga A Hadoop lényege Nyílt forráskódú, könnyen használható keretrendszer párhuzamos feldolgozások futtatására olcsó hardveren A Google és a Yahoo belső projektjeként indult, a cél egy nagyméretű adattömegek feldolgozására alkalmas platform kifejlesztése volt Néhány év alatt hatalmas karriert futott be, mára kiemelt Apache projekt és a meghatározó BigData platform 10
HADOOP 11
HADOOP 12
Hadoop megéri? The hardware and software combined will sell for $450,000. That's highly competitive, working out to less than $700 per terabyte and being in line with the low costs big data practitioners expect from deployments built on commodity hardware. 13
Mire használható? Alkalmazási réteg Adattárolás ETL és ELT Analitika és elemzések Alkalmazási terület Adatok előfeldolgozása webes viselkedés elemzése Adatbányászati modellek futtatása 14
Példák Cég Hadoop környezet Alkalmazási környezet Caree.rs 15 node Állásajánlatok elemzése Beebler 14 node, 56 core Társkeresők párosítása Cooliris 15 node, 120 core Online fotómegosztási adatok elemzése Enormo 4 node, 32 cores Ingatlanhirdetések feldolgozása Pronux 4 node, 32 core Könyvelési tételek elemzése PokerTableStats 2 node, 16 core Pókerstatisztikák számítása wiki.apache.org/hadoop/poweredby 15
Szállítók Big Data stratégiái 16
Céges stratégiák 17
Céges stratégiák Oracle Bejelentés Partnercég Saját disztribúció Termékek Érdekességek Elérhetőség 2011. ősz Cloudera Igen Oracle Big Data Appliance Oracle integráció, R integráció Appliance, ODI, Analytics Option 18
Céges stratégiák 19
Big Data Connectors Oracle Direct Connector for HDFS Hadoop által kezelt adatok elérése SQL-ből Oracle Loader for Hadoop Hadoop adatok betöltése Oracle adatbázisba Oracle Data Integrator Application Adapter Hadoop programok generálása ODI felületről Oracle R Connector for Hadoop Hadoop által kezelt adatok elérése R nyelvből 20
Céges stratégiák 21
Céges stratégiák IBM Bejelentés Partnercég Saját disztribúció Termékek Érdekességek Elérhetőség 2010. tavasz Igen IBM InfoSphere BigInsights DB konnektorok, tanácsadási háttér, Watson, BigSheets Többféle változatban is elérhető, a Basic ingyenes 22
Céges stratégiák 23
Céges stratégiák 24
Céges stratégiák Microsoft Bejelentés Partnercég Saját disztribúció Termékek Érdekességek 2011. ősz HortonWorks Igen SQL Server 2012, Windows Server, Azure HIVE ODBC driver, Javascript programozási felület Elérhetőség Jelenleg bétateszt, várhatóan 2012 közepén 25
Céges stratégiák 26
Céges stratégiák 27
Céges stratégiák SAP Bejelentés Partnercég Saját disztribúció Termékek Érdekességek Elérhetőség 2011. ősz Cloudera HANA, Sybase IQ MapReduce, R, PMML támogatás, Hadoop interfészek Elérhető 28
Céges stratégiák 29