Big Data: a több adatnál is több



Hasonló dokumentumok
Big Data. Benczúr András Big Data Lendület kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András

Big data amikor a probléma az adat mérete maga

Big data áttekintés. Sidló Csaba. MTA Számítástechnikai és Automatizálási Kutatóintézet

Big data áttekintés. Sidló Csaba. MTA Számítástechnikai és Automatizálási Kutatóintézet

Component Soft és tovább

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

Big Data tömeges adatelemzés gyorsan

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

Takács Gábor mérnök informatikus, okl. mérnöktanár

Big Data az adattárházban

A Jövő Internet Nemzeti Kutatási Program és eredményei

Amazon Web Services. Géhberger Dániel Szolgáltatások és alkalmazások március 28.

IT trendek és lehetőségek. Puskás Norbert

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

Exadata, a világ leggyorsabb adatbázisgépe

Hadoop és használata az LPDS cloud-on

MTA Cloud Use cases MTA Cloud workshop. Hernáth Szabolcs MTA WIGNER FK

MMK-Informatikai projekt ellenőr képzés 4

Felhő rendszerek és felhő föderációk. Kacsuk Péter MTA SZTAKI

Tájékoztató a Jövő Internet Nemzeti Kutatási Program előrehaladásáról: JINKA2.1 Dr. Sallai Gyula

A Jövő Internet Nemzeti Kutatási Program bemutatása

Longneck Data Integration

A felhőről általában. Kacsuk Péter MTA SZTAKI

BME-Ipar. Win-Win. Intelligens környezetek és e-technológiák. Dr. Charaf Hassan Fókuszban a Műegyetem és az ipar kapcsolata

Big Data elemzési módszerek

Internet of Things és Ipar 4.0 az agrárszektorban. Tarcsi Ádám, ELTE Informatikai Kar

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Oracle Big Data koncepció. Stadler Gellért Vezető tanácsadó Oracle ConsulKng HTE 2015 Konferencia

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Csalásfelderítés hálózatokon keresztül. Innovatív BI konferencia, Budapest,

Párhuzamos és Grid rendszerek

Oracle Exalogic Elastic Cloud

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / Mezei Ferenc üzletág-igazgató

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei. Földi Tamás

Informatika és növekedés. Pongrácz Ferenc ügyvezető igazgató, IBM ISC Magyarország Kft., az MKT Informatikai Szakosztályának elnöke

Adattárház és BigData Szimbiózisa. Baranyi Szabolcs IM Technical Sales

BIG DATA ELEMZÉSEK LEHETŐSÉGEI

VÁLTOZÓ VILÁG Tipping Points az információs- digitális- és média- forradalom

Papp Attila. BI - mindenkinek

Intelligens közlekedés: a járműipar és járműirányítás IKT igényei, a VehicleICT projekt. Lengyel László lengyel@aut.bme.hu

Entity Resolution azonosságfeloldás

Analitikai megoldások IBM Power és FlashSystem alapokon. Mosolygó Ferenc - Avnet

EGI-InSPIRE. Café Grid március 24. Szeberényi Imre 3/25/ EGI-InSPIRE RI

Oracle adatkezelési megoldások helye az EA világában. Előadó: Tar Zoltán

Hova tart a cross platform mérés?

Az információs rendszerek adatai

System Center Service Manager 2012 konferencia. Ker-Soft Kft. Dr. Vinkovits Eszter - Ügyvezető igazgató

Innovatív x86. Kósa Gábor System x Brand Specialist gabor.kosa@hu.ibm.com

SmartActive Squash - IoT sportanalitika a felhőben

Az információs rendszerek adatai

A nagyméretű és nagy mennyiségű adatok kezelésének adatbázis technológiai következményei Vállalati információrendszerek GIKOF 2013

Információs Rendszerek Szakirány

Tervezés-Kutatás. VÁLTOZÓ VILÁG Tipping Points az információs- digitális- és média- forradalom

Data Vault 2.0 és az Oracle DW/BD referencia architektúra. Gollnhofer Gábor Meta Consulting Kft.

CMDB architektúra megjelenítése SAMU-val Rugalmas megoldás. ITSMF Bekk Nándor Magyar Telekom / IT szolgáltatás menedzsment központ

IT trendek és lehetőségek

AZ IGAZI BIG DATA hogyan használják a világban és egyáltalán használják-e hazánkban?

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

SZTE Nyílt Forrású Szoftverfejlesztő és Minősítő Kompetencia Központ

A USER Kft - mint Open Text partner - bemutatása

NIIF Központi Elosztott Szolgáltatói Platform

MIKOR ÉS KINEK ÉRI MEG A FELHŐ?...ÉS ÉRDEKEL-E EZ BÁRKIT? Soós Tamás CEO

Klotz Tamás earchitect Oracle

Felhő technológia Trendek 2014 VMware Forum

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

A webanalitika változó világa 4 felvonásban

Web harvesztelés. Automatikus módszerekkel

Cloud Computing a gyakorlatban. Szabó Gyula (GDF) Benczúr András (ELTE) Molnár Bálint (ELTE)

<Insert Picture Here> Cloud, Oracle tervezett célrendszerek, Exadata Database Machine adatbázisgép Fekete Zoltán, Principal sales consultant

INFORMATIKA TANSZÉK Frissítve: :50 1.sz. Záróvizsga Bizottság január 20. (szerda) A202 terem


IKT trendek és tapasztalatok a BME szemszögéből

TDK tájékoztató Gazdaságinformatika Intézeti Tanszék tavasz

Self service reporting fogások, technikák és megoldások controllereknek, nem csak Excel alapon

Open Source trendek 2010: merre tart most a világ?

OKOS VÁROSOK ÉS A VÁROSFEJLESZTÉS

Gráfok mindenhol. x $ SZENDI-VARGA JÁNOS IOT SOCIAL NETWORKS FRAUD DETECTION MASTER DATA MANAGEMENT RECOMMENDATION ENGINES. Internet of Things

"A tízezer mérföldes utazás is egyetlen lépéssel kezdődik."

Globális trendek lokális stratégiák. Kovács András

Végpont védelem könnyen és praktikusan

Informatikai Tesztek Katalógus

Korszerű Adatbázisok. Gombos Gergő

URBAN PLANNING IN THE AGE OF BIG DATA A NEW EMPIRIUM TELEPÜLÉSTERVEZÁS AZ ADATBŐSÉG KORÁBAN EGY ÚJ EMPÍRIUM

OSINT. Avagy az internet egy hacker szemszögéből

Hogyan növelje kritikus üzleti alkalmazásainak teljesítményét?

SAS szoftverek felhasználási lehetőségei a felsőoktatásban

Copyright 2012, Oracle and/or its affiliates. All rights reserved.

Mobilinformatikai eszközök közigazgatási integrációjának kihívásai

Muppet: Gyors adatok MapReduce stílusú feldolgozása. Muppet: MapReduce-Style Processing of Fast Data

Alter Róbert Báró Csaba Sensor Technologies Kft

Felhő demonstráció Gergely Márk MTA SZTAKI

Az üzleti analitika meghatározó szerepe az ügyfélélmény területén. Radnai Szabolcs Üzletfejlesztési igazgató ECEMEA BA

moderátorok: Kovács András és Papp Attila Gyártói kerekasztal beszélgetés

Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt.

Felhők teljesítményelemzése felhő alapokon

Visszatekintés a Jövő Internet NTP öt évére. Dr. Bakonyi Péter Jövő Internet NTP.

Áttekintés a Jövő Internet agrárgazdasági alkalmazási lehetőségeiről Az NTP FI Agrár- és Élelmiszeripari tagozat

Weblog elemzés Hadoopon 1/39

1 Copyright 2011, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 7

Átírás:

Big Data: a több adatnál is több Sidló Csaba István MTA Számítástechnikai és Automatizálási Kutatóintézet Üzleti Intelligencia és Adattárházak Csoport sidlo@sztaki.mta.hu http://dms.sztaki.hu CIO Hungary konferencia, 2013. április 19.

MTA SZTAKI és Big Data Keresés és Adatbányászat, Üzleti Intelligencia és Adattárházak csoportok o Benczúr András, 2012 Big Data MTA Lendület Fiatal Kutatói Díj o kutatás fejlesztés, teljes innovációs lánc o kb. 30-40 tag, kutatók, fejlesztők, hallgatók o folyamatosan fejlődő infrastruktúra, 60+ gép, 170+ mag, 600+ TB tároló Big Data Üzleti Intelligencia Csoport o partner: Mérnöki és Üzleti Intelligencia Laboratórium, Dr. Viharos Zsolt János projektek valódi big data feladatokkal o logelemzés, webanalitika, webes keresés, spam detektálás, ajánlórendszerek, csalásfelderítés o smart city, mobilitás, internet of things http://dms.sztaki.hu http://bigdatabi.sztaki.hu

Big Data adatok 3 (vagy 4, 5) V-je: o Volume (mennyiség sok), o Velocity (sebesség gyorsan jön és megy), o Variety (változatosság sokéle forrás, típus) o + Value (érték feldolgozással értéknövekedés), Veracity (megbízhatóság változó adatminőség), Variability (változékonyság változó tartalom) big data is when the size of the data itself becomes part of the problem big data is data that becomes large enough that it cannot be processed using conventional methods

Mennyi? Google: 1PB rendezése 33 percben (2011.07.) Walmart: 250 gépes Hadoop cluster, napi több TB felhasználói aktivitás (2012.) Facebook: 30+ PB felhasználói adat (2012.06.) emberi genom dekódolás: o 1990: 10-15 év, $3 milliárd o most: EC2, MapReduce, $100 o 40-node, 320-core: < 3 óra, 10-node: 1 nap szélerőmű szenzor adatok: o 1 turbina, ms mintavétel, 20-30 szenzor, 60-100 szignál > 100GB adat / hó o farm: 10-100 turbina, régió: 5-50 farm

Big data piac kapcsolódó hardware, software és szolgáltatások bevételei 2012-ben: 11.4 milliárd USD, 59%-os növekmény 2011-hez képest növekvő befektetések: pl. Google, Facebook, Amazon, kormányzat IBM, Oracle, Microsoft, SAP, EMC, HP emelett felvásárolnak Web 2-es cégeken kívül beléptek: pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem, kiforrott termékek (pl. Hadoop) és szolgáltatások forrás: http://wikibon.org/wiki/v/big_data_vendor_revenue_and_market_forecast_2012-2017

Big data rétegek forrás: The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective, ICT- 2011.4.4 Info day Big Data services Big Analytics Fast Data

Big data kutatás első fontos big data konferencia: IEEE BigData 2013 hangsúlyos téma egyéb nagy konferenciákon, pl. VLDB, SIGMOD irányvonalak: o alapok számítási és egyéb elméleti modellek, adatminőség, szabványok, o infrastruktúra cloud, stream, osztott feldolgozás, open platformok, NoSQL, o adatkezelés adatintegráció, adattisztítás, crowdsourcing, adatbáziskezelés, o keresés és adatbányászat közösségi hálók, mobilitás adat, big data keresés, o biztonság és adatvédelem o alkalmazások forrás: http://www.ischool.drexel.edu/bigdata/bigdata2013/

Néhány kiemelt kutatási téma új elméleti és számítási modellek: o MapReduce, BSP, Storm topológiák mi a következő? mi jön a Hadoop / MapReduce után? o egyszerűség, gyorsaság vs. komplex műveletek pl. relációs SQL vs. NoSQL key-value stores o cluster, cloud, grid különböző környezetek hogyan támogassák a big data problémák megoldását? keresés és adatbányászat o nagyléptékű gráf adat feldolgozás és analitika o valósidejű adatbányászat, jól skálázódó gépi tanulás, ajánlórendszerek

Néhány kiemelt kutatási téma 2. big data vizualizáció benchmarking skálázható adat-management felhőkön o storage rendszerek: adat lokalitás elrejtése o pl. több adat center lokális számításokkal Amazon S3-on

Néhány big data trend Gartner 2011 trend No. 5: Next Generation Analytics: significant changes to existing operational and business intelligence infrastructures early adopters / post-innovators: Web2 vállalatok, mint Google, Facebook, Twitter and LinkedIn early majority gap: kutatás, kutatási eszközök vs. ipari alkalmazásra kész eszközök; Lucene kereső, Apache Hama stb. flash memória, SSD vs. hagyományos tároló-tömbök in memory vs. batch processing o pl. SAP Hana és Oracle Exadata X3 vs. Hadoop real time streaming feldolgozás o S4, Storm stb. NoSQL vs. NewSQL data science

Vállalati IT-napló feldolgozás hagyományos módszerek elhasalnak! Adattárház aggregáció? saját kísérletek: 30-100+ GB/nap 30-60 M esemény adatintenzív feladat szűk keresztmetszetek azonosítása, folyamat-optimalizáció csalások, visszaélések, támadások felderítése

Képek, szociális hálók, azonosságok kép szegmentáció (képkereséshez) számításintenzív feladatok entity resolution - azonosságfeloldás

Mobilitás, telekom, szélerőmű szenzor telekom adatok: CDR, OSS (operational support system) analitika: mozgás előrejelzés smart city : intelligens parkolás, forgalomirányítás stb. internet of things szélerőművek: szenzor adat adatfolyam http://www.d4d.orange.com számítás és adatintenzív feladatok

Webes feladat példák Hanzo Archives (UK): o Amazon EC2 cloud + S3 Internet Memory Foundation: o low-end szerverekkel PB-ok feldolgozása SZTAKI Web adat, pl. http://kopi.sztaki.hu plágiumkereső o saját kódok open source eszközök még nem elég kiforrottak o 50 régi szerver (mostani desktopoknál gyengébbek): 1 hét 3TB tömörített adathoz számítás és adatintenzív feladatok o hardware kb. $15,000; Amazon ár kb. $1000 lenne o Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal kis rész