Hadoop és használata az LPDS cloud-on



Hasonló dokumentumok
MMK-Informatikai projekt ellenőr képzés 4

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Big Data tömeges adatelemzés gyorsan

Weblog elemzés Hadoopon 1/39

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

A Facebook adattárháza. Trencséni Márton info99

Párhuzamos és Grid rendszerek

MapReduce paradigma a CAP-tétel kontextusában. Adatb haladóknak. Balassi Márton Adatbázisok haladóknak 2012.

Webes alkalmazások fejlesztése 11. előadás. Alkalmazások felhőben Giachetta Roberto

Webes alkalmazások fejlesztése 11. előadás. Alkalmazások felhőben. Alkalmazások felhőben Számítástechnikai felhő

Worldwide LHC Computing Grid

SUSE Linux Enterprise High Availability. Kovács Lajos Vezető konzultáns

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

MTA Cloud Use cases MTA Cloud workshop. Hernáth Szabolcs MTA WIGNER FK

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei. Földi Tamás

SZTAKI Felhő projekt. Ormos Pál MTA SZTAKI HBONE Workshop 2012

Segesdi Dániel. OpenNebula. Virtualizációs technológiák és alkalmazásaik BMEVIMIAV ősz

A Középtávú Időjárási Előrejelzések Európai Központjában készülő időjárási modell előrejelzések informatikai háttere

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

Muppet: Gyors adatok MapReduce stílusú feldolgozása. Muppet: MapReduce-Style Processing of Fast Data

Felhők teljesítményelemzése felhő alapokon

Felhő rendszerek és felhő föderációk. Kacsuk Péter MTA SZTAKI

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

VIRTUALIZÁCIÓS TECHNOLÓGIÁK EUCALYPTUS CLOUD PLATFORM

SUSE Enterprise Storage

Felhő demonstráció Gergely Márk MTA SZTAKI

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Big Data: a több adatnál is több

Privát felhő megoldások és tapasztalatok

Korszerű technológiai és szolgáltatási modellek

EGI-InSPIRE. Café Grid március 24. Szeberényi Imre 3/25/ EGI-InSPIRE RI

IBM felhő menedzsment

Korszerű Adatbázisok. Gombos Gergő

Korszerű Adatbázisok. Gombos Gergő

Hiperkonvergens infrastruktúra. Brenner Zoltán rendszermérnök

Component Soft és tovább

Amazon Web Services. Géhberger Dániel Szolgáltatások és alkalmazások március 28.

Optimalizáció ESX-től View-ig. Pintér Kornél ügyfélszolgála3 mérnök

Enterprise szintű szerver- virtualizáció bevezetése felsőoktatási környezetben.

Nagy adathalmazok elosztott feldolgozása. Dr. Hajdu András, Debreceni Egyetem, Informatikai Kar

Oracle Big Data koncepció. Stadler Gellért Vezető tanácsadó Oracle ConsulKng HTE 2015 Konferencia

2. lépés: openssh szerver telepítés sudo apt-get install openssh-server

Bemutató Adatközponti címarchitektúra Cisco módra

Riak. Pronounced REE-ahk. Elosztott adattároló eszköz. Molnár Péter

MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

NIIF Központi Elosztott Szolgáltatói Platform

Big Data, Distributed Storage & Computing. Gombos Gergő

Networkshop Kaposvár Balaskó Á., Kozlovszky M., Karóczkai K., Márton I., Kacsuk P. MTA SZTAKI

Hitachi Flash Újdonságok. Szokol Zsolt Senior Solution Consultant 2016 március

A cloud szolgáltatási modell a közigazgatásban

Az MTA Cloud projekt MTA Cloud projektzáró június 28.

A tanulmány Klaus Berberich és Srikanta Bedathur Computing n-gram Statistics in MapReduce cikkét dolgozza fel.

Exadata, a világ leggyorsabb adatbázisgépe

Felhőszolgáltatások megvalósítása PureSystems eszközökön

FELHŐ és a MAINFRAME. Irmes Sándor

A hibrid DB cloud biztonsági eszköztára. Kóródi Ferenc Budapest,

Felhőszámítástechnika (Cloud Computing) helye és szerepe az on-line világ folyamataiban. Dr. Élő Gábor Széchenyi István Egyetem ITOK 2013

Everything Over Ethernet

Slamovits Tibor Államigazgatásiüzletág-vezető EMC Magyarország

Adatbázis és alkalmazás konszolidáció Oracle SPARC T4/5 alapon

Miért jó nekünk kutatóknak a felhő? Kacsuk Péter MTA SZTAKI

Költséghatékony high-end adattároló megoldások Vitéz Gábor, Avaxio Kft.

Oracle Enterprise Manager: Az első teljesértékű felhő üzemeltetési megoldás

TECHNOLÓGIAI JÖVİKÉP. Felhınézetben. Tázló József mőszaki igazgató Cisco Systems Magyarország Cisco Systems, Inc. All rights reserved.

A felhőről általában. Kacsuk Péter MTA SZTAKI

Software Defined technológiák használata Oracle adatbázis konszolidációhoz

Könyvtári szervervirtualizáció Oracle Virtual Machine platformon

Big Data elemzési módszerek

Az MTA Cloud használatának alapismeretei (tutorial) Lovas Róbert MTA SZTAKI

Webes alkalmazások fejlesztése Bevezetés. Célkitűzés, tematika, követelmények. A.NET Core keretrendszer

Internetes térkép publikálási technikák, szabványok, trendek, nyílt forráskódú megoldások

Távközlési Világnap 2016 Győr, május 12. Dr. Bartolits István főosztályvezető Technológia-elemző Főosztály

NIIF szolgáltatások a múzeumok számára

Webes alkalmazások fejlesztése Bevezetés. Célkitűzés, tematika, követelmények. A.NET Core keretrendszer

Hálózati szolgáltatások OpenStack környezetben

Elemzési adatok hatékony kezelésének infrastruktúrális vonzatai

Windows Server 2012: a felhő OS

A virtualizáció a modern vállalati informatikai infrastruktúra alapja

Composable Infrastruktúra

Adattárház és BigData Szimbiózisa. Baranyi Szabolcs IM Technical Sales

Web harvesztelés. Automatikus módszerekkel

Mikor és hogyan érdemes virtualizálni?

ProofIT Informatikai Kft Budapest, Petzvál J. 4/a

ARM Cortex magú mikrovezérlők. mbed

Storage optimalizálás egyetemi hálózatokban

STANDARD DEVELOPMENT U.L. FACTORY SYSTEMS GROUP IT DEPARTMENT

Data Integrátorok a gyakorlatban Oracle DI vs. Pentaho DI Fekszi Csaba Ügyvezető Vinnai Péter Adattárház fejlesztő február 20.

Szerver-üzemeltetés - Tudásközpont, Pécs

Szalai Ferenc

Az Invitel adatközponti virtualizációja IBM alapokon

IT infrastruktúra egy modern egyetemi könyvtárban

Egységes metamodell kialakítása privát IaaS cloud rendszerekhez

KORSZERŰ BIG DATA FELDOLGOZÓ KERETRENDSZEREK Hermann Gábor MTA-SZTAKI

Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter

Hardver összetevők ellenőrzése Linux alatt. Hardverguruk előnyben...

Non-stop hozzáférés az üzleti információkhoz bárhol, bármikor és bármilyen eszközzel

A 21. század adatközpontja Oracle Solaris alapon

Az információs rendszerek adatai

TIOP Hatékony informatikai infrastruktúra a központi oktatási rendszerek szolgálatában

Átírás:

Hadoop és használata az LPDS cloud-on Bendig Loránd lbendig@ilab.sztaki.hu 2012.04.13

Miről lesz szó? Bevezetés Hadoop áttekintés OpenNebula Hadoop cluster az LPDS cloud-on Tapasztalatok, nyitott kérdések

Bevezetés Adatmennyiség cat ip_addresses.txt sort uniq c ~ kétévente megduplázódik Google > 20PB napi adatmennyiség Facebook > 20TB napi adatmennyiség CERN LHC > 40TB napi adatmennyiség Baidu > 3000TB heti adatmennyiség Hardware Disk méret / transfer rate: 1TB disk, 100MB/s 2.5h High-end server vs olcsó számítógépek cluster-ben

Hadoop Java-ban írt open source framework (top level Apache project) a Google publikációi alapján: S. Ghemawat, H. Gobioff, and Shun-Tak Leung, "The Google File System" Oct. 2003 J. Dean and S. Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters" Dec 2004 A Mapreduce számítási modell egy implementációja Tervezési megfontolások: Hibatűrő és skálázható Számítás mozgatása az adathoz Moduláris, kiterjeszthető Fő építőelemei: Elosztott filerendszer (HDFS) Mapreduce programozási modell Master/slave architektúra Master: Namenode / JobTracker Slave: Datanode / TaskTracker

Hadoop HDFS Elosztott filerendszer a cluster node-jain Adatok tárolása blokkokban Koherencia-modell: egyszeri írás, többszöri olvasás Replikáció (JBOD: Just a Bunch of Disks) Namenode (master) Filerendszer namespace, metadata Single point of failure Datanode (slave) Blokkok tárolása

Hadoop HDFS (olvasás)

Hadoop HDFS (írás)

Hadoop HDFS (adatintegritás, tömörítés) Adatintegritás: CRC-32 checksum / 512 byte adat Ellenőrzés: Datanode-okon, kliensen Hiba esetén: namenode értesítése Tömörítés:

Hadoop Programozási modell Kiindulási állapot: Adatok HDFS-en a cluster gépein Egymástól független taskokon (immutable kulcs-érték párokon) dolgozunk 2 interfészt implementálunk: Mapper, Reducer Feldolgozás menete: Iteráció az input record-okon Minket érdeklő adatok kiválasztása (map) Köztes eredmények: shuffle és sort Aggregáció (reduce) Output kiírása cat input grep sort uniq -c cat > output Input Map Shuffle & Sort Reduce Output API Java (default) Streaming (standard input / standard output) Pipes (C++) socket-en keresztül

Hadoop Programozási modell Map(): Map(k1,v1) list(k2,v2) : Szűrés, transzformáció Reduce(k2, list (v2)) list(k3,v3) : Aggregáció

Hadoop Mapreduce job

Hadoop Tool-ok

Hadoop - Felhasználási területek ETL: Logtárolás HDFS-en, kimenet: RDBMS Átalános back-end processzálás: (NY Times: pdf konverzió) Marketing analytics, ads, perszonalizáció Machine learning / data mining WebMap, spamszűrés (Yahoo) Képfeldolgozás Text processzálás Indexelés Néhány adat: Ebay: 700 nodes cluster (700*12 core, 16PB) Facebook: 1100 nodes cluster, 8800 cores 12 PB raw storage Yahoo > 40000 gép, 300k core

SZTAKI cloud projekt - Célok A felhőkhöz, mint elosztott informatikai rendszerekhez kapcsolódó kutatások végzése: Skálázhatóság Meglévő szolgáltatások (pl. levelezés, szótár) kiterjesztése felhőre Adatintenzív feladatok vs SW/HW/Hálozat konfiguráció QoS, biztonsági kérdések Laborszintű felhők (ILAB): Nagymennyiségű adatfeldolgozás Teljesítőképesség / konfigurációs kérdések Az intézeti informatikai infrastruktúra korszerűsítése Gazdaságosabb üzemeltetés

OpenNebula - Bevezetés 2005 óta fejlesztett open-source toolkit, felhő alapú szolgáltatások létrehozására Többek között EU-s támogatással (FP7) Fizikai erőforrások összefogása, menedzselése IaaS (Infrastructure as a Service) Private/Public/Hybric cloud Virtualizációs menedzsment támogatás: KVM, VMware ESXi és XEN. Számos interface Felhasználó és csoport menedzsment

OpenNebula - Koncepció

Hadoop cloud - Áttekintés LPDS OpenNebula hozzáférés Ismerkedés az OpenNebulával, amíg nincs laborszintű felhő 4 gép, 64 CPU mag, 152GB RAM, 4.3TB osztott tárhely (RAID5)

Hadoop cloud - Elérés Gépek: Master c142.cloud Slave1 c144.cloud Slave2 c145.cloud Slave3 c146.cloud

Hadoop cloud Kapacitás

Hadoop cloud - Fejlesztés Job megírása lokálisan Maven: Cloudera repository install goal: jar feltöltése scp-vel a masterre Job futtatása a szokásos módon, a master-en HDFS I/O teszt: Map: file 10 1GB-os file írása/olvasása Reduce: statisztikák összegyűjtése

Tapasztalatok, nyitott kérdések Cloudera image vs. image készítés Node-ok ki/bekapcsolása igény szerint, skálázhatóság Disk elérés: virtuális disk felmountolva, RAID, OpenNebula köztesréteg vs. JBOD iscsi (SCSI over IP)? Amazon, Rackspace cloud, GoGrid: lokális diskek ElasticHosts, FlexiScale: iscsi Laborszintű felhő kialakítás

Köszönöm a figyelmet!