MMK-Informatikai projekt ellenőr képzés 4

Hasonló dokumentumok
GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Big Data tömeges adatelemzés gyorsan

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

Hadoop és használata az LPDS cloud-on

Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei. Földi Tamás

Component Soft és tovább

MapReduce paradigma a CAP-tétel kontextusában. Adatb haladóknak. Balassi Márton Adatbázisok haladóknak 2012.

Adatbázis rendszerek 7. előadás State of the art

Webes alkalmazások fejlesztése 11. előadás. Alkalmazások felhőben Giachetta Roberto

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

NIIF Központi Elosztott Szolgáltatói Platform

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Webes alkalmazások fejlesztése 11. előadás. Alkalmazások felhőben. Alkalmazások felhőben Számítástechnikai felhő

SUSE Linux Enterprise High Availability. Kovács Lajos Vezető konzultáns

Infor PM10 Üzleti intelligencia megoldás

Weblog elemzés Hadoopon 1/39

A Facebook adattárháza. Trencséni Márton info99

Hogyan növelje kritikus üzleti alkalmazásainak teljesítményét?

DSD DSD. Egy országos méretű orvosi adatbázissal kapcsolatos informatikai kihívások. Kovács László Pataki Balázs Pataki Máté MTA SZTAKI DSD

RDBMS fejlesztési irányok. Ferris Wheel (óriáskerék) Jim Gray törvényei. Elosztott adatbázisok problémái. Elosztott adatbázisok

EMC AVAMAR. YOU WILL NEVER BACK UP THE SAME DATA TWICE. Diriczi Norbert

NetWare 6 technikai áttekintés 2. rész

Adatbázis-kezelés. Dr. Fülep Dávid. SELECT id FROM tantargy WHERE intezmeny = sze ORDER BY hasznossag LIMIT 1 NGB_SZ_003_9

Oracle Big Data koncepció. Stadler Gellért Vezető tanácsadó Oracle ConsulKng HTE 2015 Konferencia

Big Data elemzési módszerek

Oracle adatkezelési megoldások helye az EA világában. Előadó: Tar Zoltán

Párhuzamos és Grid rendszerek

COMPANY PROFILE SZOFI ALGORITHMIC RESEARCH KFT

Hiperkonvergens infrastruktúra. Brenner Zoltán rendszermérnök

Felhők teljesítményelemzése felhő alapokon

Big Data: a több adatnál is több

Takács Gábor mérnök informatikus, okl. mérnöktanár

30 MB INFORMATIKAI PROJEKTELLENŐR

Adatbázis-kezelés. Fülep Dávid. SELECT id FROM eloadas WHERE intezmeny = sze ORDER BY unalomfaktor LIMIT 1 NGB_SZ_003_9

The Power To Develop. i Develop

Data Integrátorok a gyakorlatban Oracle DI vs. Pentaho DI Fekszi Csaba Ügyvezető Vinnai Péter Adattárház fejlesztő február 20.

Az információs rendszerek adatai

Big Data, Distributed Storage & Computing. Gombos Gergő

VIRTUALIZÁCIÓS TECHNOLÓGIÁK EUCALYPTUS CLOUD PLATFORM

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

IBM felhő menedzsment

Adatbáziskezelő-szerver. Relációs adatbázis-kezelők SQL. Házi feladat. Relációs adatszerkezet

A 21. század adatközpontja Oracle Solaris alapon

Non-stop hozzáférés az üzleti információkhoz bárhol, bármikor és bármilyen eszközzel

EGI-InSPIRE. Café Grid március 24. Szeberényi Imre 3/25/ EGI-InSPIRE RI

ETL keretrendszer tervezése és implementálása. Gollnhofer Gábor Meta4Consulting Europe Kft.

Optimalizáció ESX-től View-ig. Pintér Kornél ügyfélszolgála3 mérnök

ADATBÁZIS-KEZELÉS - BEVEZETŐ - Tarcsi Ádám, ade@inf.elte.hu

Feltörekvő technológiák: seam, drools, richfaces és társai a JBossban

Webes alkalmazások fejlesztése Bevezetés. Célkitűzés, tematika, követelmények. A.NET Core keretrendszer

Felhő rendszerek és felhő föderációk. Kacsuk Péter MTA SZTAKI

Web harvesztelés. Automatikus módszerekkel

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

Az információs rendszerek adatai

Operációs Rendszerek II. Első verzió: 2009/2010. I. szemeszter Ez a verzió: 2009/2010. II. szemeszter

Soltész Gábor. Önéletrajz Budapest, Lechner Ödön fasor em 26. a.

Könyvtári szervervirtualizáció Oracle Virtual Machine platformon

Korszerű technológiai és szolgáltatási modellek

Webes alkalmazások fejlesztése Bevezetés. Célkitűzés, tematika, követelmények. A.NET Core keretrendszer

Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter

A virtualizáció a modern vállalati informatikai infrastruktúra alapja

DW/BI rendszerek kialakítása bevezetői szemszögből. Gollnhofer Gábor - Meta Consulting Kft.

VvAaLlÓóSs IiıDdEeJjȷŰű OoDdSs goldengate alapokon a magyar telekomban

Konszolidáció és költségcsökkentés a gyakorlatban. Az Országos Tisztifőorvosi Hivatal Oracle adatbázis konszolidációja

OTRS bevezetése és tapasztalatok a DF-ISZK-n

Alkalmazásfüggetlen Big Data erőforrás elosztás

Korszerű Adatbázisok. Gombos Gergő

Korszerű Adatbázisok. Gombos Gergő

Hogyan lehet megakadályozni az üzleti modellezés és az IT implementáció szétválását? Oracle BPM Suite

Termékbemutató prospektus

Oracle Containers for Java - j2ee alkalmazás szerver funkciók. Molnár Balázs Oracle Hungary

Riak. Pronounced REE-ahk. Elosztott adattároló eszköz. Molnár Péter

Nagy adathalmazok elosztott feldolgozása. Dr. Hajdu András, Debreceni Egyetem, Informatikai Kar

KORSZERŰ BIG DATA FELDOLGOZÓ KERETRENDSZEREK Hermann Gábor MTA-SZTAKI

BEVEZETÉS AZ ADATTÁRHÁZ AUTOMATIZÁLÁSBA

2. lépés: openssh szerver telepítés sudo apt-get install openssh-server

Segesdi Dániel. OpenNebula. Virtualizációs technológiák és alkalmazásaik BMEVIMIAV ősz

Fejlesztés, működtetés, felügyelet Hatékony infrastruktúra IBM szoftverekkel

Klotz Tamás earchitect Oracle

Alternatív adatbázisok Gráfadatbázisok

Adatbáziskezelı-szerver SQL. Relációs adatbázis-kezelık. Relációs adatszerkezet. Házi feladat

Nagyvállalati adatintegráció és adatkezelés

ALKALMAZÁS KERETRENDSZER


Utolsó módosítás:

Y márci

Exadata, a világ leggyorsabb adatbázisgépe

SUSE Linux Enterprise Server 12 Hargitai Zsolt

Elemzési adatok hatékony kezelésének infrastruktúrális vonzatai

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting

Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt.

webalkalmazások fejlesztése elosztott alapon

Az Oracle Fusion szakértői szemmel

Nézetek és indexek. AB1_06C_Nézetek_Indexek - Adatbázisok-1 EA (Hajas Csilla, ELTE IK) - J.D. Ullman elıadásai alapján

SQL Server High Availability

Adattárház és BigData Szimbiózisa. Baranyi Szabolcs IM Technical Sales

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

Üzletmenet-folytonosság és katasztrófa helyzet kezelés (Honnan indultunk, miért változtunk, hova tartunk?)

JAVA webes alkalmazások

Átírás:

Miről lesz szó Big Data definíció Mi a Hadoop Hadoop működése, elemei Köré épülő technológiák Disztribúciók, Big Data a felhőben Miért, hol és hogyan használják

Big Data definíció

Miért Big a Data?

2017. 12. 07. MMK-Informatikai projekt ellenőr képzés 4

Mi a Hadoop? Open-source alkalmazás JAVA-baníródott keretrendszer az elosztott rendszerek operációs rendszere Lehetővé teszi az elosztott Adattárolást Adatfeldolgozást Lineárisan skálázható

Rövid történet 2002 Nutch (web crawler), új, gyorsabb keresőmotor Doug Cutting, Mike Cafarella 2003 Október Google File System paper 2004 December MapReduce paper (szintén a Google adta ki) 2005 ráépítették a Nutchot erre a két technológiára (20-40 gépen) 2006-ban Cuttinga Yahoo-hoz ment dolgozni A Yahoonak már akkor nagyon tetszett a GFS és a MapReduce -> open-source platform építése Elkezdték fejleszteni a Hadoop-ot az Apache SF keretei között Cutting vezetésével Egymás után jelentek meg a kiegészítő komponensek (orchestration, security) 2008: Cloudera, 2009-től Cuttingis ott dolgozik, jelenleg Chief Architect Eric Baldeschwieler (VP of Hadoop a Yahoo-nál) megalapítja a Hortonworks-öt https://gigaom.com/2013/03/04/the-history-of-hadoop-from-4-nodes-to-the-future-of-data/

Komponensek HDFS adattárolás MapReduce adatfeldolgozás YARN erőforrás menedzsment

Cluster architektúra

Elosztottság Nem csak a fájlrendszer elosztott, hanem minden adatfeldolgozó szolgáltatás is (például a MapReduce)

Csak append HDFS (Hadoop Distributed File System)

MapReduce

SQL --> MapReduce SELECT pozicio, SUM(fizetes) FROM alkalmazottak WHERE fizetes > 200000 GROUP by pozicio >> MAP REDUCE 2017. 12. 07. MMK-Informatikai projekt ellenőr képzés 12

YARN 2017. 12. 07. MMK-Informatikai projekt ellenőr képzés 13

Főbb, Hadoop-pal együttműködő open-source szoftverkomponensek 2017. 12. 07. MMK-Informatikai projekt ellenőr képzés 14

Adattárház a Hadoopon Impala, Hive, Presto Adattárház funkciók a HDFS-en tárolt fájlokon SQL Táblák, adatbázisok, sémák Táblakapcsolatok Hozzáférés ODBC, JDBC-vel Oozie BI eszközök Workflow készítő és workflow ütemező, monitorozó HUE-ban monitorozó felület is van hozzá Az Oozie-ban definiált jobok folyamatosan feedback-et szolgáltatnak Sqoop Kapcsolat más rendszerekkel Kapcsolat a Hadoop és a relációs adatbázisok között MySQL, Oracle, PostreSQL, SQL Server, Generic JDBC Adatok importálása és exportálása Hivemetastore-t használja 2017. 12. 07. MMK-Informatikai projekt ellenőr képzés 15

Disztribúciók A Hadoopot önmagában sem könnyű telepíteni 20 szoftverkomponenssel majdnem lehetetlen üzemeltetni Létrejöttek disztribúciók 2017. 12. 07. MMK-Informatikai projekt ellenőr képzés 16

Data Engineer Data Analyst BI Tools Data Scientist Analytic Tools STREAM Stream processors Interfaces BATCH Structured Data Unstructured Data Loaders Hadoop-based Data Management Cluster Data Process Engines Data Store Structured Data Unstructured Data System Engineer

Nagyvállalati hibrid architektúra 2017. 12. 07. MMK-Informatikai projekt ellenőr képzés 18

RAID és HDFS RAID (hardveres megoldás) 1. Hibatűrés: replikáció a diszkeken 2. Jobb teljesítmény: 1 fájl több diszken van tárolva, párhuzamosan lehet olvasni HDFS (szoftveres megoldás) 1. Hibatűrés: a fájl blokkok replikálva vannak a több datanode diszkjein. 2. Jobb teljesítmény : Minden diszk full sebességen tud pörögni egy jól optimalizált clusteren, hiszen itt is párhuzamosan lehet felolvasni 1-1 fájlt, csak itt blokkonként. Tehát a HDFS gyakorlatilag elvégzi a RAID munkáját. Ha mindkettőt egyszerre használnánk, akkor Költésgesebb lenne Kevesebb storage állna rendelkezésre Lassabb lenne

Virtualizálás Az általános mondás szerint nem virtualizálunk Hadoopot, mert teljesítménycsökkenést okoz VMware kutatása szerint akár érdemes lehet virtualizálni (non-shared, direct-attached storage (DAS)) http://www.zdnet.com/article/virtualized-hadoop-a -brie f-look-at-the-possibility/

Felhő A felhőben Olcsón Könnyen Gyorsan Deployolhatunk Hadoop clustert A meglévő disztribúciók mellett kínálnak saját Hadoop disztribúciókat is A telepítés a platform saját konzoljáról történik 2017. 12. 07. MMK-Informatikai projekt ellenőr képzés 21

Szabó Csenger Chatbotok 22