Big data áttekintés. Sidló Csaba. MTA Számítástechnikai és Automatizálási Kutatóintézet

Hasonló dokumentumok

Big Data: a több adatnál is több

Big data áttekintés. Sidló Csaba. MTA Számítástechnikai és Automatizálási Kutatóintézet

Big Data. Benczúr András Big Data Lendület kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András

Component Soft és tovább

Big data amikor a probléma az adat mérete maga

Takács Gábor mérnök informatikus, okl. mérnöktanár

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

Big Data az adattárházban

Gráfok mindenhol. x $ SZENDI-VARGA JÁNOS IOT SOCIAL NETWORKS FRAUD DETECTION MASTER DATA MANAGEMENT RECOMMENDATION ENGINES. Internet of Things

Weblog elemzés Hadoopon 1/39

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Copyright 2012, Oracle and/or its affiliates. All rights reserved.

MMK-Informatikai projekt ellenőr képzés 4

BIG DATA ELEMZÉSEK LEHETŐSÉGEI

Elosztott adatbázis-kezelő formális elemzése

Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei. Földi Tamás

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

Big Data tömeges adatelemzés gyorsan

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

IT trendek és lehetőségek. Puskás Norbert

webalkalmazások fejlesztése elosztott alapon

Analitikai megoldások IBM Power és FlashSystem alapokon. Mosolygó Ferenc - Avnet

IKT trendek és tapasztalatok a BME szemszögéből

Entity Resolution azonosságfeloldás

A webanalitika változó világa 4 felvonásban

Hadoop és használata az LPDS cloud-on

Amazon Web Services. Géhberger Dániel Szolgáltatások és alkalmazások március 28.

MTA Cloud Use cases MTA Cloud workshop. Hernáth Szabolcs MTA WIGNER FK

Valós idejű megoldások: Realtime ODS és Database In-Memory tapasztalatok

Adattárház és BigData Szimbiózisa. Baranyi Szabolcs IM Technical Sales

Nem-relációs adatbáziskezelés. Gajdos Sándor május 8.

Intelligens közlekedés: a járműipar és járműirányítás IKT igényei, a VehicleICT projekt. Lengyel László lengyel@aut.bme.hu

Exadata, a világ leggyorsabb adatbázisgépe

BME-Ipar. Win-Win. Intelligens környezetek és e-technológiák. Dr. Charaf Hassan Fókuszban a Műegyetem és az ipar kapcsolata

AZ IGAZI BIG DATA hogyan használják a világban és egyáltalán használják-e hazánkban?

MapReduce paradigma a CAP-tétel kontextusában. Adatb haladóknak. Balassi Márton Adatbázisok haladóknak 2012.

Felhők teljesítményelemzése felhő alapokon

SAS Enterprise BI Server

Papp Attila. BI - mindenkinek

COMPANY PROFILE SZOFI ALGORITHMIC RESEARCH KFT

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Virtuális Obszervatórium. Gombos Gergő

Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt.

DSD DSD. Egy országos méretű orvosi adatbázissal kapcsolatos informatikai kihívások. Kovács László Pataki Balázs Pataki Máté MTA SZTAKI DSD

Alternatív adatbázisok Gráfadatbázisok

Cloud computing. Cloud computing. Dr. Bakonyi Péter.

Big Data elemzési módszerek

RDBMS fejlesztési irányok. Ferris Wheel (óriáskerék) Jim Gray törvényei. Elosztott adatbázisok problémái. Elosztott adatbázisok

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Internet of Things és Ipar 4.0 az agrárszektorban. Tarcsi Ádám, ELTE Informatikai Kar

Innovatív trendek a BI területén

Worldwide LHC Computing Grid

Változások előtt hol áll a banki (adat)elemzés? Nándorfi György

A nagyméretű és nagy mennyiségű adatok kezelésének adatbázis technológiai következményei Vállalati információrendszerek GIKOF 2013

Excel ODBC-ADO API. Tevékenységpontok: - DBMS telepítés. - ODBC driver telepítése. - DSN létrehozatala. -Excel-ben ADO bevonása

SmartActive Squash - IoT sportanalitika a felhőben

Oracle Enterprise Manager: Az első teljesértékű felhő üzemeltetési megoldás

Hova tart a cross platform mérés?

Cloud computing Dr. Bakonyi Péter.

Szárnyas Gábor (BME) diáinak felhasználásával.

A Jövő Internet Nemzeti Kutatási Program bemutatása

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Csalásfelderítés hálózatokon keresztül. Innovatív BI konferencia, Budapest,

5G technológiák és felhasználási esetek

Riak. Pronounced REE-ahk. Elosztott adattároló eszköz. Molnár Péter

URBAN PLANNING IN THE AGE OF BIG DATA A NEW EMPIRIUM TELEPÜLÉSTERVEZÁS AZ ADATBŐSÉG KORÁBAN EGY ÚJ EMPÍRIUM

Self service reporting fogások, technikák és megoldások controllereknek, nem csak Excel alapon

Oracle SQL Developer Data Modeler és a DW adatmodellezés. Gollnhofer Gábor Meta Consulting Kft.

Gartner: Hype Cycle for Big Data NoSQL Database Management Systems

Data Vault 2.0 és az Oracle DW/BD referencia architektúra. Gollnhofer Gábor Meta Consulting Kft.

Az NIIF új szuperszámítógép infrastruktúrája Új lehetőségek a kutatói hálózatban

Mérnök informatikus (BSc) alapszak levelező tagozat (BIL) / BSc in Engineering Information Technology (Part Time)

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

Az információs rendszerek adatai

Információs Rendszerek Szakirány

A felhőről általában. Kacsuk Péter MTA SZTAKI

A kibontakozó új hajtóerő a mesterséges intelligencia

Informatika és növekedés. Pongrácz Ferenc ügyvezető igazgató, IBM ISC Magyarország Kft., az MKT Informatikai Szakosztályának elnöke

Felhő rendszerek és felhő föderációk. Kacsuk Péter MTA SZTAKI

Mérésadatgyűjtő rendszer Oracle Database Appliance alapon. Szabad Miklós vezérigazgató-helyettes XperTeam ZRt. Budapest, Róbert Károly krt. 59.

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / Mezei Ferenc üzletág-igazgató

Eladni könnyedén? Oracle Sales Cloud. Horváth Tünde Principal Sales Consultant március 23.

<Insert Picture Here> Cloud, Oracle tervezett célrendszerek, Exadata Database Machine adatbázisgép Fekete Zoltán, Principal sales consultant

Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben

Infor PM10 Üzleti intelligencia megoldás

A jövő Internetje. HTE Közgyűlés május 20. Dr. Szabó Róbert, e. docens.

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

Beszerzések adatalapú vizsgálata a 21. században

Software Defined technológiák használata Oracle adatbázis konszolidációhoz

Korszerű Adatbázisok. Gombos Gergő

Jármű ICT fejlesztési irányok és kihívások

Data Integrátorok a gyakorlatban Oracle DI vs. Pentaho DI Fekszi Csaba Ügyvezető Vinnai Péter Adattárház fejlesztő február 20.

Önkiszolgáló BI infrastruktúra az adatvezérelt teljesítménymenedzsmentben

FELHŐ és a MAINFRAME. Irmes Sándor

Az információs rendszerek adatai

Oracle Big Data koncepció. Stadler Gellért Vezető tanácsadó Oracle ConsulKng HTE 2015 Konferencia

OKOS VÁROS FOGALMA, KONCEPCIÓJA, LEHETSÉGES ÉRTÉKELÉSI MÓDSZEREI

Oracle Exalogic Elastic Cloud

Átírás:

2014. november 6. Big data áttekintés Sidló Csaba MTA Számítástechnikai és Automatizálási Kutatóintézet Üzleti Intelligencia és Adattárházak Csoport Big Data Üzleti Intelligencia Csoport sidlo@sztaki.mta.hu http://dms.sztaki.hu http://bigdatabi.sztaki.hu

MTA SZTAKI Informatika Kutatólabor teljes innovációs lánc, kutatástól alkalmazásokig o adatbányászat, gépi tanulás, keresőtechnológiák, üzleti intelligencia, adattárházak, szociális hálózatok, bioinformatika o Big Data : Web, közösségi média elemzés és keresés smart city, mobilitás szenzoradatok (pl. szélerőmű), log-adatok dedikált csoportok: Lendület Big Data, Big Data Üzleti Intelligencia (partner: SZTAKI EMI) Longneck data integration

Tartalom definíció megoldások, szállítók trendek, kutatási témák alkalmazás példák néhány kiemelt big data téma o számítási modellek, pl. Hadoop o osztott rendszerek problémái

source: https://secure.flickr.com/photos/t_gregorius/5839399412

Big Data Big Data

Big Data definíciók adatok 3 (vagy 4, 5) V-je: o volume (mennyiség sok), pl. a 12-es farm 42. szélerőművének generátora el fog romlani, karbantartást igényel! o velocity (sebesség gyorsan jön és megy), pl. az ügyfél vonalban van, ki ő, mi a története? o variety (változatosság sokféle forrás, típus) pl. milyen népszerű a héten a termékünk közösségi hálókon? o veracity (megbízhatóság változó adatminőség), value (érték feldolgozással értéknövekedés), variability (változékonyság változó tartalom) big data is data that becomes large enough that it cannot be processed using conventional methods elsődleges alkalmazók: analitika, üzleti intelligencia velocity variety big data volume

Volume: business email each year mennyi? Google index Youtube upload each year Facebook upload each year Wired magazin, 2013: 2012-ben 2.8 ZettaByte információ keletkezett (vagy duplikálódott) (giga tera peta exa zetta) sok százezer PetaByte méretű adatbázis forrás: http://www.wired.com/magazine/2013/04/bigdata/

Big data megoldások hagyományostól eltérő, jól skálázódó rendszerek: o több / gyorsabb / változatosabb adat jól megoldható marad a feladat, tervezhetően több számítási erőforrással Petabytes régi módszerek, új megoldások: o oszd meg és uralkodj: párhuzamosítás, sok gép, elosztott rendszerek o áttérés új architektúrákra: in-memory, SSD GPU SQL, NoSQL, NewSQL példa: új technológiák és hype

Numbers Everyone Should Know - a megoldások korlátai RAM L1 cache reference 0.5 ns L2 cache reference 7 ns Main memory reference 100 ns Read 1 MB sequentially from memory 250,000 ns Intra-process communication Mutex lock / unlock 100 ns Read 1 MB sequentially from network 10,000,000 ns Disk Disk seek 10,000,000 ns Read 1 MB sequentially from disk 30,000,000 ns Disk 10+TB RAM 100+ GB CPU L2 1+ MB L1 10+ KB GPU onboard memory Global 4-8 GB Block shared 10+ KB forrás: Jeff Dean, Google

Big data piac kapcsolódó hardware, software és szolgáltatások bevételei 2012-ben: 11.4 milliárd USD növekvő befektetések: pl. Google, Facebook, Amazon, kormányzat IBM, Oracle, Microsoft, SAP, EMC, HP, felvásárolnak forrás: http://wikibon.org/wiki/v/big_ Data_Vendor_Revenue_and _Market_Forecast_2012-2017

forrás, 2012.06: http://www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape/

forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation

rétegek: adatelérés, analitika, alkalmazások sok szereplő, erős verseny SQL vs. NoSQL vs. NewSQL kötegelt vs. streaming (real time) feldolgozás szolgáltatások, eszközök, eszközkombinációk, full stack-ek, SaS, open source stb. feladathoz megfelelő kombináció forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation

Big data rétegek forrás: The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective, ICT- 2011.4.4 Info day Big Data Services Big Analytic s Fast Data

SQL, NoSQL eszközkombinációk ábra: alkalmazók, eszközök, szolgáltatók; teljesség igénye nélküli gyűjtés! polyglot persistence hagyományos alkalmazások? o o Mo.? főleg Web 2.0 alkalmazók és fejlesztők! ld. hype cycle, crossing the chasm nagy szereplők: o saját eszközkészlet

Big data trendek szubjektív válogatás innovációs görbe: o early adopters / post-innovators: Web 2.0 (pl. Google, Facebook, Twitter, LinkedIn) o early majority (pl. pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem stb.) pezsgés: meetup-ok, konferenciák (tudományos is) real time, streaming (adatfolyam) feldolgozás: hatalmas igény flash memória, SSD vs. hagyományos tároló-tömbök in memory feldolgozás o pl. SAP Hana és Oracle Exadata X3 (vs. Hadoop) statisztika + informatika + üzlet data science ( the sexiest job in the 21st century, Harward Business Review) kép:http://en.wikipedia.org/wiki/diffusion_of_innovations

Big data kutatás első nagyobb big data konferencia: IEEE BigData 2013 hangsúlyos téma egyéb nagy konferenciákon, pl. VLDB, SIGMOD irányvonalak: o alapok elméleti modellek, szabványok, o infrastruktúra cloud, stream, osztott feldolgozás, open platformok, NoSQL, o adatkezelés adatintegráció, adattisztítás, crowdsourcing, adatbáziskezelés, o keresés és adatbányászat o biztonság és adatvédelem o alkalmazások forrás: http://www.ischool.drexel.edu/bigdata/bigdata2013/

Néhány kiemelt kutatási téma új elméleti és számítási modellek: o MapReduce, BSP, Storm topológiák mi a következő? mi jön a Hadoop / MapReduce után? o egyszerűség, gyorsaság vs. komplex műveletek pl. relációs SQL vs. NoSQL key-value stores o cluster, cloud, grid különböző környezetek hogyan támogassák a big data problémák megoldását? keresés és adatbányászat o nagyléptékű gráf adat feldolgozás és analitika o valósidejű adatbányászat, jól skálázódó gépi tanulás, ajánlórendszerek

Néhány kiemelt kutatási téma 2. big data vizualizáció benchmarking skálázható adat-management felhőkön o storage rendszerek: adat lokalitás elrejtése o pl. több adat center lokális számításokkal Amazon S3-on

Új üzleti intelligencia módszertanok data science o matematika, statisztika, informatika, hacker atitűd, tudományos megközelítés, iparági ismeretek o the sexiest job in the 21st century (Harward Business Review): keresett, drága szakemberek agile data, agilie BI o agilis fejlesztési elvek üzleti intelligencia célokra o agile data science hagyományos alkalmazások? önkiszolgáló analitika o könnyen kezelhető eszközök a teljes folyamatra, adateléréstől vizualizációig o támogassuk és hagyjuk kibontakozni az elemzőket és azokat, ahol az információigény jelentkezik adatvezéreltség

Adatbányászat és big data adatbányászat: hasznos (meglepő?) tudás kinyerése nagy adattömegből; eszközök: o algoritmusok (nagy méret) o adatbázisok (elrendezés, hozzáférés) o Mesterséges Intelligencia és Gépi Tanulás (modellek) o Statisztika (hipotézisvizsgálat) big data adatbányászat: minden még nagyobb; eszközök: o algoritmusok (elosztott, MapReduce, Cloud) o adatbázisok (elosztott, NoSQL) o okostelefonok, közösségi média (Facebook, Twitter, ) o Mesterséges Intelligencia és Gépi Tanulás ajánló rendszerek, hálózatok o Statisztika adat más célból gyűlik gyakran nincs mintavételezés adatgazdagítás helyett a hiányzó adatokat átugró módszerek

Emberi genom dekódolás / szekvenálás o 725 MB adat kb. o 1990: 10-15 év, $3 milliárd o most: EC2, MapReduce, $100; egész folyamat: <$1000 o 40-node, 320-core: < 3 óra, 10-node: 1 nap

CERN CERN Wigner adatközpont: 1 PB/sec 2x100GB 100-200e gép, 70 PB

Web web 2.0 cégek: úttörők o Google: 1PB rendezése 33 percben (2011.07.) miért nincs Európában F1 adatbázisuk? Kevés az áram! o Facebook: 30+ PB felhasználói adat (2012.06.), 180 PB/év adattárházban (2013.02.) o Twitter o Amazon kiskereskedelemből kinőve felhő szolgáltatások, megvehetjük az infrastruktúráját o web keresés, látogatottság elemzés, ajánlások, hirdetések, trend elemzés

Saját web feladat példák Hanzo Archives (UK): o Amazon EC2 cloud + S3 Internet Memory Foundation: o low-end szerverekkel PB-ok feldolgozása SZTAKI Web adat, pl. http://kopi.sztaki.hu plágiumkereső saját kódok open source eszközök még nem elég kiforrottak 50 régi szerver (mostani desktopoknál gyengébbek): 1 hét 3TB tömörített adathoz hardware kb. $15,000; Amazon ár kb. $1000 lenne Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal kis rész

Gráfvizualizáció YAGO entitások kapcsolatok

Twitter, SAP HANA: Meryl Streep Oscar, 2012

Twitter, SAP HANA: Meryl Streep Oscar, 2012

Twitter, SAP HANA: Meryl Streep Oscar, 2012 kép: http://mirror.co.uk

Twitter, SAP HANA: Meryl Streep Oscar, 2012

Twitter, SAP HANA: Meryl Streep Oscar, 2012 kép: http://bbc.com

Twitter, SAP HANA: Meryl Streep Oscar, 2012

Twitter, SAP HANA: Meryl Streep Oscar, 2012

Kiskereskedelem Walmart: 250 gépes Hadoop cluster, napi több TB felhasználói aktivitás (2012.) hagyományos adatbányászati / elemzési feladatok - nagy adathalmazon Ajánlórendszerek magyar pl. Gravity, Scarab Research collaborative filtering (hasonló felhasználók), tartalom alapú, session alapú nagyon kis késleltetés az elvárt!

R P 1 4 3.3 3 2.4-0.5 3.5 4 4 1.5 4 4.9 2 1.1 4 1,4 1,1 0,9 1,9 2,5-0,3 1,5 2,1 1,0 0.7 1.6 Q -1,0 0,8 1,6 1,8 0,0 Forrás: Tikk Domonkos, Gravity

Mobilitás mobilszolgáltatók: infrastruktúrából location adatok o 4,5 milliárd mobil kb. mostanában o minőségi mutatók valós idejű követése, liquid applications, smart city o real-time scalable distributed stream processing: 100 000 events / sec (several million people) itthon pl: t-mobil kísérleti rendszer, helyfüggő kedvezmények sms-ben

Forgalmi térkép, útvonaltervezés woophoo.com, ~2008 google.com, 2011

woophoo.com (~2008)

big data competition open to the scientific community o exploring the tremendous potential of telephone data o producing rich, diverse ideas Orange anonymised data set: Ivory Coast, December 2011 April 2012, ~ 5M users, 2.5 billion records o aggregate communication between cell towers o communication sub-graphs o mobility traces: privacy vs. fine resolution coarse (prefectures) with more users, fine resolution dataset with less users (sparse sample) http://perso.uclouvain.be/vincent.blondel/netmob/2013/

D4D saját példa vizualizáció Aggregated cell density predictions Sample of individual user predictions

Okos város D4D példák Songdo City, Santander, itthon: o HUGO útdíj, Futár o Székesfehérvár, Debrecen, Szeged, Szolnok AllAboard: a system for exploring urban mobility and optimizing public transport using cellphone data disease containment using calls matrix and mobility matrix Unique in the crowd: The privacy bounds of human mobility forrás: D4D challenge

4/6 villamos megállóinak detekciója telefon szenzoradatokból már a telefonon szűrni kell pontatlan, heterogén, sok, gyorsan keletkező adat

Szenzoradatok Internet of Things, Cyber Physical Systems: szenzor mindenhol szélerőművek: o 1 turbina, ms mintavétel, 20-30 szenzor, 60-100 szignál > 100GB /hó o farm: 10-100 turbina, régió: 5-50 farm kép: http://www.newscientist.com/

Temperatures -30 Model estimation error (%) [limit: +/- 17%] Non-conform situation detection - estimation of the gearbox bearing temperature by a neural network modell (Model validity: ambient temperature between 4 and 10 C) 110 130 100 Values_for_Model_INPUT_2 Gearbox bearing temperature_model_estimates Values_for_Model_INPUT_1 Gearbox bearing temperature_measured 120 110 90 Ambient temperature (for model vaildity) Error_% 100 80 70 90 80 70 60 60 50 50 40 40 30 20 30 20 10 0 10 0-10 -20 Time - a year

Sensors smart home, city, country, Road and parking slot sensors Mobile parking traces Public transport, Oyster cards Bike hire schemes Source: Internet of Things Comic Book, http://www.smartsantander.eu/images/iot_comic_book.pdf

even agriculture

Kép és hang megoldható? Keresem azt a képet, amin én (íme az arcképem) állok egy hegycsúcson! 1 db. MRI kép mérete: 2-5 GB o már csak hordozni is nehéz, pl. kórházról kórházra o évente mondjuk 1500 betegre: 3-7 TB rendszámfelismerés call center hívások o leiratok o NLP o sentiment analysis o entity recognition

Ügyféladatok: azonosságfeloldás nehéz feladat: O(n 2 ) Ügyfél rekordok csoportosítása valós személyek Hány természetes személy ügyfelünk van? Lehetséges felhasználások pl.: Call center, marketing lead-ek kezelése Kockázatelemzés, riasztás Kitiltott ügyfelek, új ügyfél kedvezmények

Mire alkalmazható? személyazonosság ügyfelek, adóalanyok internet szolgáltatás felhasználói (email, facebook stb.) nemzetbiztonság, terror-elhárítás termékek weboldalak (spam) helyek, POI-k összetett entitások: szervezetek, cégek, családok

Ügyfélkezelés CRM: külső adatforrások csatolása o pl. Twitter tweet-ek, Facebook call center teljesebb történet mire panaszkodott napok óta, mielőtt telefonált? jogilag kérdéses az adatgyűjtés! o beszélgetés leiratok hangulat (sentiment), kulcsszavak stb. keresés digitális marketing o tranzakciók felhasználása: vásárlások, beszélgetések, mindenféle kapcsolható esemény o lemorzsolódás előrejelzés, személyre szabott ajánlatok, o AdWords stb.

IT logok, alkalmazás naplók gyűjteni sokszor muszáj, elemezni nehéz pl. prezi.com: 150 GB / nap (2013) valós idejű tőzsdei kereskedés: pl. GusGus.hu: 400 TB + 170 GB / nap, Hadoop 5PB tár, 240 gép (2013) webanalitika, weblog: kiforrott megoldások kép: http://www.google.com/analytics/

IT-log feldolgozás adatfolyam hagyományos módszerek elhasalnak! Adattárház aggregáció? saját kísérletek: 30-100+ GB/nap 30-60 M esemény szűk keresztmetszetek azonosítása, folyamat-optimalizáció csalások, visszaélések, támadások felderítése adatintenzív feladat

Elosztott rendszerek Murphy törvénye 54 2013-09-17

NoSQL: CAP tétel és adatmodell CA: nincs partíció RDBMS (Oracle, PostgreSQL, MSSQL, DB2 ), Greenplum, Vertica, Membase, OrientDB, Neo4j, Consistency : minden node mindig ugyanazt az adatot látja C Avalilability : mindig van visszajelzés A P kettőt választhatsz! CP: nincs válasz, ha nincs egyetértés a replikákkal MongoDB, Redis, HBase, Hypertable, BigTable, AP: replika válaszolhat hibásan Dynamo, Project Voldemort, Riak, Tokyo Cabinet, Cassandra, CouchDB, OrientDB, A P Partition tolerance : kieshetnek node-ok, de a rendszer működik adatmodell: SQL key-value wide column dokumentumorientált gráf ACID vs. gyengített kritériumok, pl. BASE: Basically Available, Soft state, Eventual consistency ábra forrás: http://blog.nahurst.com/visual-guide-to-nosql-systems

Mi történik, ha szétesik a rendszer? Végül lehet konzisztens (eventual consistency) A kapcsolat helyreállása után lehet adatot cserélni CAP tétel bizonyítás Partition (P): a jobb oldalra beírt új értéket nem ismeri a bal oldal Ha azonnal kérdezünk a bal oldalon (availability), akkor hibás a válasz Vagy availability (A), vagy konzisztencia (C) 56 Big 2013-09-17 Data

Input (HDFS) Output (HDFS) Hadoop és MapReduce Hadoop: o open source, kiforrott ( enterprise ready ), sok helyen használt platform o sokan építenek rá terméket, szolgáltatást o viszonylag nagy késleltetés, kötegelt adatfeldolgozásban nyerő leginkább MapReduce: a Hadoop számítási modellje o amiben jó: elosztott rendezés o példa: Keressük meg a top 10 leggyakoribb szót az előadás diáin! map reduce map map map map reduce reduce reduce split: (k, v) sort by k merge: (k, [v, v2, v3, ])

A Big Data nem csodafegyver NoSQL By Perry Hoekstra Technical Consultant Perficient, Inc.

Sidló Csaba sidlo@sztaki.mta.hu http://dms.sztaki.hu http://bigdatabi.sztaki.hu