GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Hasonló dokumentumok
MMK-Informatikai projekt ellenőr képzés 4

Big Data tömeges adatelemzés gyorsan

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

Hadoop és használata az LPDS cloud-on

MapReduce paradigma a CAP-tétel kontextusában. Adatb haladóknak. Balassi Márton Adatbázisok haladóknak 2012.

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

NIIF Központi Elosztott Szolgáltatói Platform

Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei. Földi Tamás

Webes alkalmazások fejlesztése 11. előadás. Alkalmazások felhőben Giachetta Roberto

Felhők teljesítményelemzése felhő alapokon

SUSE Linux Enterprise High Availability. Kovács Lajos Vezető konzultáns

A Facebook adattárháza. Trencséni Márton info99

KORSZERŰ BIG DATA FELDOLGOZÓ KERETRENDSZEREK Hermann Gábor MTA-SZTAKI

Weblog elemzés Hadoopon 1/39

Webes alkalmazások fejlesztése 11. előadás. Alkalmazások felhőben. Alkalmazások felhőben Számítástechnikai felhő

Y márci

Piaci körkép és szállítók

Párhuzamos és Grid rendszerek

Operációs Rendszerek II. Első verzió: 2009/2010. I. szemeszter Ez a verzió: 2009/2010. II. szemeszter

VIRTUALIZÁCIÓS TECHNOLÓGIÁK EUCALYPTUS CLOUD PLATFORM

Riak. Pronounced REE-ahk. Elosztott adattároló eszköz. Molnár Péter

Adatbázis rendszerek 7. előadás State of the art

Takács Gábor mérnök informatikus, okl. mérnöktanár

Big Data elemzési módszerek

EGI-InSPIRE. Café Grid március 24. Szeberényi Imre 3/25/ EGI-InSPIRE RI

Component Soft és tovább

Oracle Big Data koncepció. Stadler Gellért Vezető tanácsadó Oracle ConsulKng HTE 2015 Konferencia

30 MB INFORMATIKAI PROJEKTELLENŐR

Hiperkonvergens infrastruktúra. Brenner Zoltán rendszermérnök

Üzletmenet-folytonosság és katasztrófa helyzet kezelés (Honnan indultunk, miért változtunk, hova tartunk?)

A 21. század adatközpontja Oracle Solaris alapon

Big Data: a több adatnál is több

Big Data, Distributed Storage & Computing. Gombos Gergő

Web harvesztelés. Automatikus módszerekkel

RDBMS fejlesztési irányok. Ferris Wheel (óriáskerék) Jim Gray törvényei. Elosztott adatbázisok problémái. Elosztott adatbázisok

Költségcsökkentés a Production Imaging and Capture alkalmazással

SAS Enterprise BI Server

Alkalmazásfüggetlen Big Data erőforrás elosztás

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

NetWare 6 technikai áttekintés 2. rész

Non-stop hozzáférés az üzleti információkhoz bárhol, bármikor és bármilyen eszközzel

IT trendek és lehetőségek. Puskás Norbert

Oracle adatkezelési megoldások helye az EA világában. Előadó: Tar Zoltán

Optimalizáció ESX-től View-ig. Pintér Kornél ügyfélszolgála3 mérnök

Korszerű Adatbázisok. Gombos Gergő

Költséghatékony high-end adattároló megoldások Vitéz Gábor, Avaxio Kft.

Adatbázis-kezelés. Fülep Dávid. SELECT id FROM eloadas WHERE intezmeny = sze ORDER BY unalomfaktor LIMIT 1 NGB_SZ_003_9

DSD DSD. Egy országos méretű orvosi adatbázissal kapcsolatos informatikai kihívások. Kovács László Pataki Balázs Pataki Máté MTA SZTAKI DSD

Adatbázis-kezelés. Dr. Fülep Dávid. SELECT id FROM tantargy WHERE intezmeny = sze ORDER BY hasznossag LIMIT 1 NGB_SZ_003_9

IoT szolgáltatások fejlesztése - SensorHUB

The Power To Develop. i Develop

Soltész Gábor. Önéletrajz Budapest, Lechner Ödön fasor em 26. a.

IBM Váltsunk stratégiát! Budapest, 2012 november 14. V7000

R320 Szerver. Műszaki adatok

AZ IGAZI BIG DATA hogyan használják a világban és egyáltalán használják-e hazánkban?

IBM SPSS Modeler 18.2 Újdonságok

Infor PM10 Üzleti intelligencia megoldás

Adattárház és BigData Szimbiózisa. Baranyi Szabolcs IM Technical Sales

Teljes lefede2ség. Fehér Zoltán

Könyvtári szervervirtualizáció Oracle Virtual Machine platformon

Korszerű technológiai és szolgáltatási modellek

EMC AVAMAR. YOU WILL NEVER BACK UP THE SAME DATA TWICE. Diriczi Norbert

Nagy adathalmazok elosztott feldolgozása. Dr. Hajdu András, Debreceni Egyetem, Informatikai Kar

Everything Over Ethernet

Data Integrátorok a gyakorlatban Oracle DI vs. Pentaho DI Fekszi Csaba Ügyvezető Vinnai Péter Adattárház fejlesztő február 20.

Webes alkalmazások fejlesztése Bevezetés. Célkitűzés, tematika, követelmények. A.NET Core keretrendszer

SQL Server High Availability

Korszerű Adatbázisok. Gombos Gergő

Faxkommunikáció integrálása a DM folyamatokba. TOPCALL Magyarország Kft., T.: ,

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

Exadata, a világ leggyorsabb adatbázisgépe

Webes alkalmazások fejlesztése Bevezetés. Célkitűzés, tematika, követelmények. A.NET Core keretrendszer

webalkalmazások fejlesztése elosztott alapon

Adatbáziskezelő-szerver. Relációs adatbázis-kezelők SQL. Házi feladat. Relációs adatszerkezet

Big Data az adattárházban

Osztott alkalmazások fejlesztési technológiái Áttekintés

Üzleti folyamatok a felhőben. ECM Szakmai Kongresszus 2011.október 4.

Szerver-üzemeltetés - Tudásközpont, Pécs

A virtualizáció a modern vállalati informatikai infrastruktúra alapja

SUSE Linux Enterprise Server 12 Hargitai Zsolt

Segesdi Dániel. OpenNebula. Virtualizációs technológiák és alkalmazásaik BMEVIMIAV ősz

Felhő számítástechnika

Előadás_#13. Egy lemez írási művelet kiszolgálása

Excel ODBC-ADO API. Tevékenységpontok: - DBMS telepítés. - ODBC driver telepítése. - DSN létrehozatala. -Excel-ben ADO bevonása

.NET Microsoft.Net Framework

TECHNOLÓGIAI JÖVİKÉP. Felhınézetben. Tázló József mőszaki igazgató Cisco Systems Magyarország Cisco Systems, Inc. All rights reserved.

Storage optimalizálás egyetemi hálózatokban

Komponens alapú szoftverfejlesztés 10. előadás. Elosztott alkalmazások architektúrái. Elosztott alkalmazások architektúrái

Veeam Agent for Windows and Linux

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting

III. "JÖVŐ INTERNET" TECHNOLÓGIÁK: ELOSZTOTT ÉS FELHŐ SZOLGÁLTATÁSOK, TÁRGYAK INTERNETE DR. SIMON GYULA

JAVA webes alkalmazások

Operációs rendszerek. Elvárások az NTFS-sel szemben

Operációs Rendszerek II. Első verzió: 2009/2010. I. szemeszter Ez a verzió: 2009/2010. II. szemeszter

IBM felhő menedzsment

Summer of LabVIEW The Sunny Side of System Design

2. lépés: openssh szerver telepítés sudo apt-get install openssh-server

MySQL kontra MongoDB programozás. SQL és NoSQL megközelítés egy konkrét példán keresztül

Átírás:

INFORMATIKAI PROJEKTELLENŐR 30 MB Szabó Csenger ÚJ GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN 2016. 12. 31. MMK- Informatikai projektellenőr képzés

Big Data definíció

2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 3

Miért keletkezett?

Mi a Hadoop? Keretrendszer, masszívan parallel az elosztott rendszerek operációs rendszere JAVA-ban íródott Open-source alkalmazás A számítás és a tárolás egy helyen történik Lineárisan skálázható Lehetővé teszi az elosztott Adattárolást Adatfeldolgozást

Rövid történet 2002 Nutch (web crawler), új, gyorsabb keresőmotor Doug Cutting, Mike Cafarella 2003 Október Google File System paper 2004 December MapReduce paper (szintén a Google adta ki) 2005 ráépítették a Nutchot erre a két technológiára (20-40 gépen) 2006-ban Cuttinga Yahoo-hoz ment dolgozni A Yahoonak már akkor nagyon tetszett a GFS és a MapReduce -> open-source platform építése Elkezdték fejleszteni a Hadoop-ot az Apache SF keretei között Cuttingvezetésével Egymás után jelentek meg a kiegészítő komponensek (orchestration, security) 2008: Cloudera, 2009-től Cutting is ott dolgozik, jelenleg Chief Architect Eric Baldeschwieler (VP of Hadoop a Yahoo-nál) megalapítja a Hortonworksöt https://gigaom.com/2013/03/04/the-history-of-hadoop-from-4-nodes-to-the-future-of-data/

Disztribúciók A Hadoopot önmagában sem könnyű telepíteni 20 szoftverkomponenssel majdnem lehetetlen üzemeltetni Létrejöttek disztribúciók 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 7

Komponensek HDFS adattárolás MapReduce adatfeldolgozás YARN erőforrás menedzsment

Hadoop alapkomponensek

Clusterarchitektúra

Elosztottság Nem csak a fájlrendszer elosztott, hanem minden adatfeldolgozó szolgáltatás is (például a MapReduce)

Csak append HDFS (Hadoop Distributed File System)

MapReduce

SQL --> MapReduce SELECT SUM(fizetes) FROM alkalmazottak WHERE fizetes > 200000 GROUP by pozicio >> MAP SHUFFLE REDUCE 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 14

YARN 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 15

Főbb, Hadoop-palegyüttműködő szoftverkomponensek 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 16

Data Engineer Data Analyst BI Tools Data Scientist Analytic Tools STREAM Stream processors Interfaces BATCH Structured Data Unstructured Data Loaders Hadoop-based Data Management Cluster Data Process Engines Data Store Structured Data Unstructured Data System Engineer

Tableau, Spotfire RapidMiner, SAS Miner, KNIME STREAM Storm, Spark SQL: Hive (MR), Impala, code: Java (MR), Python (Spark) etc. Network log Hadoop-based Data Management Cluster BATCH Senzor data Sqoop, ODBC MapReduce, Spark, Impala HDFS CRM, ERP Measurement data

RAID és HDFS RAID (hardveres megoldás) 1. Hibatűrés: replikáció a diszkeken 2. Jobb teljesítmény: 1 fájl több diszken van tárolva, párhuzamosan lehet olvasni HDFS (szoftveres megoldás) 1. Hibatűrés: a fájl blokkok replikálva vannak a több datanode diszkjein. 2. Jobb teljesítmény : Minden diszk full sebességen tud pörögni egy jól optimalizált clusteren, hiszen itt is párhuzamosan lehet felolvasni 1-1 fájlt, csak itt blokkonként. Tehát a HDFS gyakorlatilag elvégzi a RAID munkáját. Ha mindkettőt egyszerre használnánk, akkor Költésgesebb lenne Kevesebb storage állna rendelkezésre Lassabb lenne

Virtualizálás Az általános mondás szerint nem virtualizálunk Hadoopot, mert teljesítménycsökkenést okoz VMware kutatása szerint akár érdemes lehet virtualizálni (non-shared, directattached storage (DAS)) http://www.zdnet.com/article/virtualized-hadoop- a-brief-look-at-the-possibility/

Felhő A felhőben Olcsón Könnyen Gyorsan Deployolhatunk Hadoop clustert A meglévő disztribúciók mellett kínálnak saját Hadoop disztribúciókat is A telepítés a platform saját konzoljáról történik 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 21

Köszönöm a figyelmet! Szabó Csenger szabo.csenger@nextent.hu 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 22