Big data áttekintés. Sidló Csaba. MTA Számítástechnikai és Automatizálási Kutatóintézet

Hasonló dokumentumok

Big Data: a több adatnál is több

Big data áttekintés. Sidló Csaba. MTA Számítástechnikai és Automatizálási Kutatóintézet

Big Data. Benczúr András Big Data Lendület kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András

Big data amikor a probléma az adat mérete maga

Component Soft és tovább

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

Takács Gábor mérnök informatikus, okl. mérnöktanár

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

MMK-Informatikai projekt ellenőr képzés 4

Big Data az adattárházban

Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei. Földi Tamás

Gráfok mindenhol. x $ SZENDI-VARGA JÁNOS IOT SOCIAL NETWORKS FRAUD DETECTION MASTER DATA MANAGEMENT RECOMMENDATION ENGINES. Internet of Things

Copyright 2012, Oracle and/or its affiliates. All rights reserved.

Weblog elemzés Hadoopon 1/39

Hadoop és használata az LPDS cloud-on

Elosztott adatbázis-kezelő formális elemzése

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

Adattárház és BigData Szimbiózisa. Baranyi Szabolcs IM Technical Sales

BIG DATA ELEMZÉSEK LEHETŐSÉGEI

Big Data tömeges adatelemzés gyorsan

webalkalmazások fejlesztése elosztott alapon

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

A webanalitika változó világa 4 felvonásban

IT trendek és lehetőségek. Puskás Norbert

Cloud computing. Cloud computing. Dr. Bakonyi Péter.

Analitikai megoldások IBM Power és FlashSystem alapokon. Mosolygó Ferenc - Avnet

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Intelligens közlekedés: a járműipar és járműirányítás IKT igényei, a VehicleICT projekt. Lengyel László lengyel@aut.bme.hu

Exadata, a világ leggyorsabb adatbázisgépe

COMPANY PROFILE SZOFI ALGORITHMIC RESEARCH KFT

SAS Enterprise BI Server

Cloud computing Dr. Bakonyi Péter.

Entity Resolution azonosságfeloldás

BME-Ipar. Win-Win. Intelligens környezetek és e-technológiák. Dr. Charaf Hassan Fókuszban a Műegyetem és az ipar kapcsolata

IKT trendek és tapasztalatok a BME szemszögéből

Önkiszolgáló BI infrastruktúra az adatvezérelt teljesítménymenedzsmentben

Amazon Web Services. Géhberger Dániel Szolgáltatások és alkalmazások március 28.

Nem-relációs adatbáziskezelés. Gajdos Sándor május 8.

Valós idejű megoldások: Realtime ODS és Database In-Memory tapasztalatok

MTA Cloud Use cases MTA Cloud workshop. Hernáth Szabolcs MTA WIGNER FK

Felhők teljesítményelemzése felhő alapokon

Oracle Big Data koncepció. Stadler Gellért Vezető tanácsadó Oracle ConsulKng HTE 2015 Konferencia

Riak. Pronounced REE-ahk. Elosztott adattároló eszköz. Molnár Péter

DSD DSD. Egy országos méretű orvosi adatbázissal kapcsolatos informatikai kihívások. Kovács László Pataki Balázs Pataki Máté MTA SZTAKI DSD

Big Data elemzési módszerek

Alternatív adatbázisok Gráfadatbázisok

Mérésadatgyűjtő rendszer Oracle Database Appliance alapon. Szabad Miklós vezérigazgató-helyettes XperTeam ZRt. Budapest, Róbert Károly krt. 59.

Excel ODBC-ADO API. Tevékenységpontok: - DBMS telepítés. - ODBC driver telepítése. - DSN létrehozatala. -Excel-ben ADO bevonása

Innovatív trendek a BI területén

Hova tart a cross platform mérés?

Papp Attila. BI - mindenkinek

Mérnök informatikus (BSc) alapszak levelező tagozat (BIL) / BSc in Engineering Information Technology (Part Time)

Data Vault 2.0 és az Oracle DW/BD referencia architektúra. Gollnhofer Gábor Meta Consulting Kft.

RDBMS fejlesztési irányok. Ferris Wheel (óriáskerék) Jim Gray törvényei. Elosztott adatbázisok problémái. Elosztott adatbázisok

AZ IGAZI BIG DATA hogyan használják a világban és egyáltalán használják-e hazánkban?

Virtuális Obszervatórium. Gombos Gergő

Információs Rendszerek Szakirány

MapReduce paradigma a CAP-tétel kontextusában. Adatb haladóknak. Balassi Márton Adatbázisok haladóknak 2012.

A nagyméretű és nagy mennyiségű adatok kezelésének adatbázis technológiai következményei Vállalati információrendszerek GIKOF 2013

Párhuzamos és Grid rendszerek

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben

Szárnyas Gábor (BME) diáinak felhasználásával.

Tenant szeparáció Exadata platformon Koncepció

Az NIIF új szuperszámítógép infrastruktúrája Új lehetőségek a kutatói hálózatban

Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt.

Soltész Gábor. Önéletrajz Budapest, Lechner Ödön fasor em 26. a.

Változások előtt hol áll a banki (adat)elemzés? Nándorfi György

Muppet: Gyors adatok MapReduce stílusú feldolgozása. Muppet: MapReduce-Style Processing of Fast Data

IBM Váltsunk stratégiát! Budapest, 2012 november 14. V7000

Software Defined technológiák használata Oracle adatbázis konszolidációhoz

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

Oracle SQL Developer Data Modeler és a DW adatmodellezés. Gollnhofer Gábor Meta Consulting Kft.

Az információs rendszerek adatai

1 Copyright 2011, Oracle and/or its affiliates. All rights reserved.

Gartner: Hype Cycle for Big Data NoSQL Database Management Systems

FELHŐ és a MAINFRAME. Irmes Sándor

5G technológiák és felhasználási esetek

Internet of Things és Ipar 4.0 az agrárszektorban. Tarcsi Ádám, ELTE Informatikai Kar

Oracle Enterprise Manager: Az első teljesértékű felhő üzemeltetési megoldás

Adatbányászat és Perszonalizáció architektúra

NIIF Központi Elosztott Szolgáltatói Platform

Felhő technológia Trendek 2014 VMware Forum

SmartActive Squash - IoT sportanalitika a felhőben

Self service reporting fogások, technikák és megoldások controllereknek, nem csak Excel alapon

Üzleti kritikus alkalmazások Novell Open Enterprise Serveren

Worldwide LHC Computing Grid

<Insert Picture Here> Cloud, Oracle tervezett célrendszerek, Exadata Database Machine adatbázisgép Fekete Zoltán, Principal sales consultant

A Jövő Internet Nemzeti Kutatási Program bemutatása

Csalásfelderítés hálózatokon keresztül. Innovatív BI konferencia, Budapest,

Felhő rendszerek és felhő föderációk. Kacsuk Péter MTA SZTAKI

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

URBAN PLANNING IN THE AGE OF BIG DATA A NEW EMPIRIUM TELEPÜLÉSTERVEZÁS AZ ADATBŐSÉG KORÁBAN EGY ÚJ EMPÍRIUM

Az információs rendszerek adatai

Longneck Data Integration

Data Integrátorok a gyakorlatban Oracle DI vs. Pentaho DI Fekszi Csaba Ügyvezető Vinnai Péter Adattárház fejlesztő február 20.

Magic xpi 4.0 vadonatúj Architektúrája Gigaspaces alapokon

Osztott alkalmazások fejlesztési technológiái Áttekintés

A felhőről általában. Kacsuk Péter MTA SZTAKI

Átírás:

2014. október 30. Big data áttekintés Sidló Csaba MTA Számítástechnikai és Automatizálási Kutatóintézet Üzleti Intelligencia és Adattárházak Csoport Big Data Üzleti Intelligencia Csoport sidlo@sztaki.mta.hu http://dms.sztaki.hu http://bigdatabi.sztaki.hu

MTA SZTAKI Informatika Kutatólabor teljes innovációs lánc, kutatástól alkalmazásokig o adatbányászat, gépi tanulás, keresőtechnológiák, üzleti intelligencia, adattárházak, szociális hálózatok, bioinformatika o Big Data : Web, közösségi média elemzés és keresés smart city, mobilitás szenzoradatok (pl. szélerőmű), log-adatok dedikált csoportok: Lendület Big Data, Big Data Üzleti Intelligencia (partner: SZTAKI EMI) Longneck data integration

Tartalom definíció megoldások, szállítók trendek, kutatási témák alkalmazás példák néhány kiemelt big data téma o számítási modellek, pl. Hadoop o osztott rendszerek problémái

source: https://secure.flickr.com/photos/t_gregorius/5839399412

Big Data Big Data

Big Data definíciók adatok 3 (vagy 4, 5) V-je: o volume (mennyiség sok), pl. a 12-es farm 42. szélerőművének generátora el fog romlani, karbantartást igényel! o velocity (sebesség gyorsan jön és megy), pl. az ügyfél vonalban van, ki ő, mi a története? o variety (változatosság sokféle forrás, típus) pl. milyen népszerű a héten a termékünk közösségi hálókon? o veracity (megbízhatóság változó adatminőség), value (érték feldolgozással értéknövekedés), variability (változékonyság változó tartalom) big data is data that becomes large enough that it cannot be processed using conventional methods elsődleges alkalmazók: analitika, üzleti intelligencia velocity variety big data volume

Volume: business email each year mennyi? Google index Youtube upload each year Facebook upload each year Wired magazin, 2013: 2012-ben 2.8 ZettaByte információ keletkezett (vagy duplikálódott) (giga tera peta exa zetta) sok százezer PetaByte méretű adatbázis forrás: http://www.wired.com/magazine/2013/04/bigdata/

Big data megoldások hagyományostól eltérő, jól skálázódó rendszerek: o több / gyorsabb / változatosabb adat jól megoldható marad a feladat, tervezhetően több számítási erőforrással Petabytes régi módszerek, új megoldások: o oszd meg és uralkodj: párhuzamosítás, sok gép, elosztott rendszerek o áttérés új architektúrákra: in-memory, SSD GPU SQL, NoSQL, NewSQL példa: új technológiák és hype

Numbers Everyone Should Know - a megoldások korlátai RAM L1 cache reference 0.5 ns L2 cache reference 7 ns Main memory reference 100 ns Read 1 MB sequentially from memory 250,000 ns Intra-process communication Mutex lock / unlock 100 ns Read 1 MB sequentially from network 10,000,000 ns Disk Disk seek 10,000,000 ns Read 1 MB sequentially from disk 30,000,000 ns Disk 10+TB RAM 100+ GB CPU L2 1+ MB L1 10+ KB GPU onboard memory Global 4-8 GB Block shared 10+ KB forrás: Jeff Dean, Google

Big data piac kapcsolódó hardware, software és szolgáltatások bevételei 2012-ben: 11.4 milliárd USD növekvő befektetések: pl. Google, Facebook, Amazon, kormányzat IBM, Oracle, Microsoft, SAP, EMC, HP, felvásárolnak forrás: http://wikibon.org/wiki/v/big_ Data_Vendor_Revenue_and _Market_Forecast_2012-2017

forrás, 2012.06: http://www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape/

forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation

rétegek: adatelérés, analitika, alkalmazások sok szereplő, erős verseny SQL vs. NoSQL vs. NewSQL kötegelt vs. streaming (real time) feldolgozás szolgáltatások, eszközök, eszközkombinációk, full stack-ek, SaS, open source stb. feladathoz megfelelő kombináció forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation

Big data rétegek forrás: The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective, ICT- 2011.4.4 Info day Big Data Services Big Analytic s Fast Data

SQL, NoSQL eszközkombinációk ábra: alkalmazók, eszközök, szolgáltatók; teljesség igénye nélküli gyűjtés! polyglot persistence hagyományos alkalmazások? o o Mo.? főleg Web 2.0 alkalmazók és fejlesztők! ld. hype cycle, crossing the chasm nagy szereplők: o saját eszközkészlet

Big data trendek szubjektív válogatás innovációs görbe: o early adopters / post-innovators: Web 2.0 (pl. Google, Facebook, Twitter, LinkedIn) o early majority (pl. pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem stb.) pezsgés: meetup-ok, konferenciák (tudományos is) real time, streaming (adatfolyam) feldolgozás: hatalmas igény flash memória, SSD vs. hagyományos tároló-tömbök in memory feldolgozás o pl. SAP Hana és Oracle Exadata X3 (vs. Hadoop) statisztika + informatika + üzlet data science ( the sexiest job in the 21st century, Harward Business Review) kép:http://en.wikipedia.org/wiki/diffusion_of_innovations

Big data kutatás első nagyobb big data konferencia: IEEE BigData 2013 hangsúlyos téma egyéb nagy konferenciákon, pl. VLDB, SIGMOD irányvonalak: o alapok elméleti modellek, szabványok, o infrastruktúra cloud, stream, osztott feldolgozás, open platformok, NoSQL, o adatkezelés adatintegráció, adattisztítás, crowdsourcing, adatbáziskezelés, o keresés és adatbányászat o biztonság és adatvédelem o alkalmazások forrás: http://www.ischool.drexel.edu/bigdata/bigdata2013/

Néhány kiemelt kutatási téma új elméleti és számítási modellek: o MapReduce, BSP, Storm topológiák mi a következő? mi jön a Hadoop / MapReduce után? o egyszerűség, gyorsaság vs. komplex műveletek pl. relációs SQL vs. NoSQL key-value stores o cluster, cloud, grid különböző környezetek hogyan támogassák a big data problémák megoldását? keresés és adatbányászat o nagyléptékű gráf adat feldolgozás és analitika o valósidejű adatbányászat, jól skálázódó gépi tanulás, ajánlórendszerek

Néhány kiemelt kutatási téma 2. big data vizualizáció benchmarking skálázható adat-management felhőkön o storage rendszerek: adat lokalitás elrejtése o pl. több adat center lokális számításokkal Amazon S3-on

Új üzleti intelligencia módszertanok data science o matematika, statisztika, informatika, hacker atitűd, tudományos megközelítés, iparági ismeretek o the sexiest job in the 21st century (Harward Business Review): keresett, drága szakemberek agile data, agilie BI o agilis fejlesztési elvek üzleti intelligencia célokra o agile data science hagyományos alkalmazások? önkiszolgáló analitika o könnyen kezelhető eszközök a teljes folyamatra, adateléréstől vizualizációig o támogassuk és hagyjuk kibontakozni az elemzőket és azokat, ahol az információigény jelentkezik adatvezéreltség

Adatbányászat és big data adatbányászat: hasznos (meglepő?) tudás kinyerése nagy adattömegből; eszközök: o algoritmusok (nagy méret) o adatbázisok (elrendezés, hozzáférés) o Mesterséges Intelligencia és Gépi Tanulás (modellek) o Statisztika (hipotézisvizsgálat) big data adatbányászat: minden még nagyobb; eszközök: o algoritmusok (elosztott, MapReduce, Cloud) o adatbázisok (elosztott, NoSQL) o okostelefonok, közösségi média (Facebook, Twitter, ) o Mesterséges Intelligencia és Gépi Tanulás ajánló rendszerek, hálózatok o Statisztika adat más célból gyűlik gyakran nincs mintavételezés adatgazdagítás helyett a hiányzó adatokat átugró módszerek

Emberi genom dekódolás / szekvenálás o 725 MB adat kb. o 1990: 10-15 év, $3 milliárd o most: EC2, MapReduce, $100; egész folyamat: <$1000 o 40-node, 320-core: < 3 óra, 10-node: 1 nap

CERN CERN Wigner adatközpont: 1 PB/sec 2x100GB 100-200e gép, 70 PB

Web web 2.0 cégek: úttörők o Google: 1PB rendezése 33 percben (2011.07.) miért nincs Európában F1 adatbázisuk? Kevés az áram! o Facebook: 30+ PB felhasználói adat (2012.06.), 180 PB/év adattárházban (2013.02.) o Twitter o Amazon kiskereskedelemből kinőve felhő szolgáltatások, megvehetjük az infrastruktúráját o web keresés, látogatottság elemzés, ajánlások, hirdetések, trend elemzés

Saját web feladat példák Hanzo Archives (UK): o Amazon EC2 cloud + S3 Internet Memory Foundation: o low-end szerverekkel PB-ok feldolgozása SZTAKI Web adat, pl. http://kopi.sztaki.hu plágiumkereső saját kódok open source eszközök még nem elég kiforrottak 50 régi szerver (mostani desktopoknál gyengébbek): 1 hét 3TB tömörített adathoz hardware kb. $15,000; Amazon ár kb. $1000 lenne Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal kis rész

Gráfvizualizáció YAGO entitások kapcsolatok

Példa: Steve Jobs szófelhője http://info.ilab.sztaki.hu/vwo/2/1

Példa: Steve Jobs szófelhője http://info.ilab.sztaki.hu/vwo/2/1

Példa: Steve Jobs szófelhője http://info.ilab.sztaki.hu/vwo/2/1

Twitter, SAP HANA: Meryl Streep Oscar, 2012

Twitter, SAP HANA: Meryl Streep Oscar, 2012

Twitter, SAP HANA: Meryl Streep Oscar, 2012 kép: http://mirror.co.uk

Twitter, SAP HANA: Meryl Streep Oscar, 2012

Twitter, SAP HANA: Meryl Streep Oscar, 2012 kép: http://bbc.com

Twitter, SAP HANA: Meryl Streep Oscar, 2012

Twitter, SAP HANA: Meryl Streep Oscar, 2012

Kiskereskedelem Walmart: 250 gépes Hadoop cluster, napi több TB felhasználói aktivitás (2012.) hagyományos adatbányászati / elemzési feladatok - nagy adathalmazon Ajánlórendszerek magyar pl. Gravity, Scarab Research collaborative filtering (hasonló felhasználók), tartalom alapú, session alapú nagyon kis késleltetés az elvárt!

R P 1 4 3.3 3 2.4-0.5 3.5 4 4 1.5 4 4.9 2 1.1 4 1,4 1,1 0,9 1,9 2,5-0,3 1,5 2,1 1,0 0.7 1.6 Q -1,0 0,8 1,6 1,8 0,0 Forrás: Tikk Domonkos, Gravity

Mobilitás mobilszolgáltatók: infrastruktúrából location adatok o 4,5 milliárd mobil kb. mostanában o minőségi mutatók valós idejű követése, liquid applications, smart city o real-time scalable distributed stream processing: 100 000 events / sec (several million people) itthon pl: t-mobil kísérleti rendszer, helyfüggő kedvezmények sms-ben

Forgalmi térkép, útvonaltervezés woophoo.com, ~2008 google.com, 2011

woophoo.com (~2008)

big data competition open to the scientific community o exploring the tremendous potential of telephone data o producing rich, diverse ideas Orange anonymised data set: Ivory Coast, December 2011 April 2012, ~ 5M users, 2.5 billion records o aggregate communication between cell towers o communication sub-graphs o mobility traces: privacy vs. fine resolution coarse (prefectures) with more users, fine resolution dataset with less users (sparse sample) http://perso.uclouvain.be/vincent.blondel/netmob/2013/

D4D saját példa vizualizáció Aggregated cell density predictions Sample of individual user predictions

Okos város D4D példák Songdo City, Santander, itthon: o HUGO útdíj, Futár o Székesfehérvár, Debrecen, Szeged, Szolnok AllAboard: a system for exploring urban mobility and optimizing public transport using cellphone data disease containment using calls matrix and mobility matrix Unique in the crowd: The privacy bounds of human mobility forrás: D4D challenge

4/6 villamos megállóinak detekciója telefon szenzoradatokból már a telefonon szűrni kell pontatlan, heterogén, sok, gyorsan keletkező adat

Szenzoradatok Internet of Things, Cyber Physical Systems: szenzor mindenhol szélerőművek: o 1 turbina, ms mintavétel, 20-30 szenzor, 60-100 szignál > 100GB /hó o farm: 10-100 turbina, régió: 5-50 farm kép: http://www.newscientist.com/

Temperatures -30 Model estimation error (%) [limit: +/- 17%] Non-conform situation detection - estimation of the gearbox bearing temperature by a neural network modell (Model validity: ambient temperature between 4 and 10 C) 110 130 100 Values_for_Model_INPUT_2 Gearbox bearing temperature_model_estimates Values_for_Model_INPUT_1 Gearbox bearing temperature_measured 120 110 90 Ambient temperature (for model vaildity) Error_% 100 80 70 90 80 70 60 60 50 50 40 40 30 20 30 20 10 0 10 0-10 -20 Time - a year

Data processing alternatives for wind farm data analytics with Hadoop/Hive: efficient for bulk processing need for real-time statistics, alerts, predictions: data streaming tools, methods should be used instead of Hadoop DW DW DW SQL Real time alarms SQL SQL Big Data layer ETL SQL adapter Big Data layer Streaming Wind farm Wind farm Wind farm Wind farm Wind farm Wind farm Wind farm Wind farm Present Present with DW Big Data with ETL Direct Big Data 52

Sensors smart home, city, country, Road and parking slot sensors Mobile parking traces Public transport, Oyster cards Bike hire schemes Source: Internet of Things Comic Book, http://www.smartsantander.eu/images/iot_comic_book.pdf

even agriculture

Kép és hang megoldható? Keresem azt a képet, amin én (íme az arcképem) állok egy hegycsúcson! 1 db. MRI kép mérete: 2-5 GB o már csak hordozni is nehéz, pl. kórházról kórházra o évente mondjuk 1500 betegre: 3-7 TB rendszámfelismerés call center hívások o leiratok o NLP o sentiment analysis o entity recognition

Ügyféladatok: azonosságfeloldás nehéz feladat: O(n 2 ) Ügyfél rekordok csoportosítása valós személyek Hány természetes személy ügyfelünk van? Lehetséges felhasználások pl.: Call center, marketing lead-ek kezelése Kockázatelemzés, riasztás Kitiltott ügyfelek, új ügyfél kedvezmények

Mire alkalmazható? személyazonosság ügyfelek, adóalanyok internet szolgáltatás felhasználói (email, facebook stb.) nemzetbiztonság, terrorelhárítás termékek weboldalak (spam) helyek, POI-k összetett entitások: szervezetek, cégek, családok

Ügyfélkezelés CRM: külső adatforrások csatolása o pl. Twitter tweet-ek, Facebook call center teljesebb történet mire panaszkodott napok óta, mielőtt telefonált? jogilag kérdéses az adatgyűjtés! o beszélgetés leiratok hangulat (sentiment), kulcsszavak stb. keresés digitális marketing o tranzakciók felhasználása: vásárlások, beszélgetések, mindenféle kapcsolható esemény o lemorzsolódás előrejelzés, személyre szabott ajánlatok, o AdWords stb.

IT logok, alkalmazás naplók gyűjteni sokszor muszáj, elemezni nehéz pl. prezi.com: 150 GB / nap (2013) valós idejű tőzsdei kereskedés: pl. GusGus.hu: 400 TB + 170 GB / nap, Hadoop 5PB tár, 240 gép (2013) webanalitika, weblog: kiforrott megoldások kép: http://www.google.com/analytics/

IT-log feldolgozás adatfolyam hagyományos módszerek elhasalnak! Adattárház aggregáció? saját kísérletek: 30-100+ GB/nap 30-60 M esemény szűk keresztmetszetek azonosítása, folyamat-optimalizáció csalások, visszaélések, támadások felderítése adatintenzív feladat

Elosztott rendszerek Murphy törvénye 61 2013-09-17

NoSQL: CAP tétel és adatmodell CA: nincs partíció RDBMS (Oracle, PostgreSQL, MSSQL, DB2 ), Greenplum, Vertica, Membase, OrientDB, Neo4j, Consistency : minden node mindig ugyanazt az adatot látja C Avalilability : mindig van visszajelzés A P kettőt választhatsz! CP: nincs válasz, ha nincs egyetértés a replikákkal MongoDB, Redis, HBase, Hypertable, BigTable, AP: replika válaszolhat hibásan Dynamo, Project Voldemort, Riak, Tokyo Cabinet, Cassandra, CouchDB, OrientDB, A P Partition tolerance : kieshetnek node-ok, de a rendszer működik adatmodell: SQL key-value wide column dokumentumorientált gráf ACID vs. gyengített kritériumok, pl. BASE: Basically Available, Soft state, Eventual consistency ábra forrás: http://blog.nahurst.com/visual-guide-to-nosql-systems

Mi történik, ha szétesik a rendszer? Végül lehet konzisztens (eventual consistency) A kapcsolat helyreállása után lehet adatot cserélni CAP tétel bizonyítás Partition (P): a jobb oldalra beírt új értéket nem ismeri a bal oldal Ha azonnal kérdezünk a bal oldalon (availability), akkor hibás a válasz Vagy availability (A), vagy konzisztencia (C) 63 Big 2013-09-17 Data

Konzisztens hash-elés objektumok n szerveren pozíció: ax+b mod n új szerver? pozíció: a x+b mod n+1?? szerver Minden objektum a legközelebbi szerverre kerül

Input (HDFS) Output (HDFS) Hadoop és MapReduce Hadoop: o open source, kiforrott ( enterprise ready ), sok helyen használt platform o sokan építenek rá terméket, szolgáltatást o viszonylag nagy késleltetés, kötegelt adatfeldolgozásban nyerő leginkább MapReduce: a Hadoop számítási modellje o amiben jó: elosztott rendezés o példa: Keressük meg a top 10 leggyakoribb szót az előadás diáin! map reduce map map map map reduce reduce reduce split: (k, v) sort by k merge: (k, [v, v2, v3, ])

Distributed stream processing distributed stream processing: o processing components run parallel o data passed by streams among components o acyclic execution graph can be defined by the user o nice to have: guaranteed message processing Storm, S4, Hadoop 2.0 YARN, Stratosphere, BSP: Hama, Giraph,?

Storm guaranteed data processing horizontal scalability fault-tolerance no intermediate message brokers no single point of failure higher level abstraction than message passing just works, Hadoop of real time streaming jobs built by Backtype, recently bought by Twitter available as Open source Java + Closure, still under development (with an active community) source: http://storm-project.net/

Apache Flink PACT programozási modell végrehajtás optimalizáció, mint hagyományos adatbázis-kezelőknél alacsony szintű adatfolyam engine (Nephele) képes adatcsatornát (memória, diszk, hálózat) választani, adatot memóriában tartani, pl. MapReduce-t hatékonyan iterálni stream processing: SZTAKI

Bulk Synchronous Parallel (BSP) feldolgozás Google Pregel (nem publikus) GraphLab (C++, több mint BSP) Giraph, HAMA,

A Big Data nem csodafegyver NoSQL By Perry Hoekstra Technical Consultant Perficient, Inc.

Sidló Csaba sidlo@sztaki.mta.hu http://dms.sztaki.hu http://bigdatabi.sztaki.hu