Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei. Földi Tamás

Hasonló dokumentumok
Nem-relációs adatbáziskezelés. Gajdos Sándor május 8.

MMK-Informatikai projekt ellenőr képzés 4

Component Soft és tovább

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

Konszolidáció és költségcsökkentés a gyakorlatban. Az Országos Tisztifőorvosi Hivatal Oracle adatbázis konszolidációja

Hadoop és használata az LPDS cloud-on

Big Data tömeges adatelemzés gyorsan

Gartner: Hype Cycle for Big Data NoSQL Database Management Systems

Adatbázis rendszerek 7. előadás State of the art

ADATBÁZIS-KEZELÉS - BEVEZETŐ - Tarcsi Ádám, ade@inf.elte.hu

A Facebook adattárháza. Trencséni Márton info99

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

webalkalmazások fejlesztése elosztott alapon

RDBMS fejlesztési irányok. Ferris Wheel (óriáskerék) Jim Gray törvényei. Elosztott adatbázisok problémái. Elosztott adatbázisok

Analitikai megoldások IBM Power és FlashSystem alapokon. Mosolygó Ferenc - Avnet

Magic xpi 4.0 vadonatúj Architektúrája Gigaspaces alapokon

Data Vault 2.0 és az Oracle DW/BD referencia architektúra. Gollnhofer Gábor Meta Consulting Kft.

Hiperkonvergens infrastruktúra. Brenner Zoltán rendszermérnök

Novell és Oracle: a csúcsteljesítményű, költséghatékony adatközpont megoldás. Sárecz Lajos Értékesítési konzultáns

Big Data: a több adatnál is több

Adattárház és BigData Szimbiózisa. Baranyi Szabolcs IM Technical Sales

Elosztott adatbázis-kezelő formális elemzése

Valós idejű megoldások: Realtime ODS és Database In-Memory tapasztalatok

30 MB INFORMATIKAI PROJEKTELLENŐR

Segítség, összementem!

Big Data az adattárházban

MapReduce paradigma a CAP-tétel kontextusában. Adatb haladóknak. Balassi Márton Adatbázisok haladóknak 2012.

Szárnyas Gábor (BME) diáinak felhasználásával.

Takács Gábor mérnök informatikus, okl. mérnöktanár

Felhők teljesítményelemzése felhő alapokon

Oracle SQL Developer Data Modeler és a DW adatmodellezés. Gollnhofer Gábor Meta Consulting Kft.

Amit mindig is tudni akartál a Real Application Testing-ről. Földi Tamás Starschema Kft.

TRL Hungary Kft. Cégismertető. TRL Hungary Kft.

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

Virtuális Obszervatórium. Gombos Gergő

Weblog elemzés Hadoopon 1/39

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

VIR alapfogalmai. Előadásvázlat. dr. Kovács László

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting

COMPANY PROFILE SZOFI ALGORITHMIC RESEARCH KFT

Enterprise extended Output Management. exom - Greendoc Systems Kft. 1

MTA Cloud Use cases MTA Cloud workshop. Hernáth Szabolcs MTA WIGNER FK

Exadata, a világ leggyorsabb adatbázisgépe

NoSQL technológiák. NoSQL Fórum Budapest, március 23. Diasablon: - a fotók sajátok :)

Pentaho 4: Mindennapi BI egyszerűen. Fekszi Csaba Ügyvezető október 6.

ÉLET A FELHŐBEN - HATÉKONYSÁGNÖVELÉS CLOUD TECHNOLÓGIÁVAL. Baranyi Fanni Microsoft Online Szolgáltatások Értékesítési Szakértő

BEVEZETÉS AZ ADATTÁRHÁZ AUTOMATIZÁLÁSBA

Vodafone ODI ETL eszközzel töltött adattárház Disaster Recovery megoldása. Rákosi Péter és Lányi Árpád

Az információs rendszerek adatai

Történet John Little (1970) (Management Science cikk)

Országgyűlés Hivatala Exadata a törvényhozásban

Adatbázis rendszerek. Molnár Bence. Szerkesztette: Koppányi Zoltán és Berényi Attila

Felhő rendszerek és felhő föderációk. Kacsuk Péter MTA SZTAKI

Papp Attila. BI - mindenkinek

Excel ODBC-ADO API. Tevékenységpontok: - DBMS telepítés. - ODBC driver telepítése. - DSN létrehozatala. -Excel-ben ADO bevonása

Adatbázis rendszerek I

Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt.

Termeléshatékonyság mérés Ipar 4.0 megoldásokkal a nyomdaiparban

Párhuzamos és Grid rendszerek

Self service reporting fogások, technikák és megoldások controllereknek, nem csak Excel alapon

IBM felhő menedzsment

Korszerű Adatbázisok. Gombos Gergő

Microsoft SQL Server telepítése

ADATBÁZISOK ADATBÁZIS-KEZELŐ RENDSZEREK. Debrenti Attila

Oracle Big Data koncepció. Stadler Gellért Vezető tanácsadó Oracle ConsulKng HTE 2015 Konferencia

Adatbázis-kezelő rendszerek. dr. Siki Zoltán

Teljeskörű BI megoldás a gyakorlatban IBM eszközök használatával, Magyarországon

Az információs rendszerek adatai

Web harvesztelés. Automatikus módszerekkel

ADATTÁRHÁZAK MINŐSÉGBIZTOSÍTÁSA

SAP Business One. Áttekintés, gyakorlati ismertetı. Mosaic Business System Kft.; Support:

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 0. A Wolfram Alpha tudásgép.

Amazon Web Services. Géhberger Dániel Szolgáltatások és alkalmazások március 28.

MPP Adattárház Teradata alapokon

Korszerű Adatbázisok. Gombos Gergő

1 Copyright 2011, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 7

A Népszámlálás infokommunikációs háttere (Miért érdekes a Népszámlálás?) Kópházi József Központi Statisztikai Hivatal

ADATBÁZIS RENDSZEREK. Adatbázisok története, alapfogalmak, adatmodellek. Krausz Nikol, Medve András, Molnár Bence

Adatbáziskezelő-architektúrák. Adatbázisok elmélete 2. előadás Gajdos Sándor

Webes alkalmazások fejlesztése 11. előadás. Alkalmazások felhőben. Alkalmazások felhőben Számítástechnikai felhő

Tárolóhely csökkentés és folyamatoptimalizáció archiválással

Tudásalapú információ integráció

Big Data elemzési módszerek

Új komponens a Talend Palettán: Starschema SAP Connector. Csillag Péter, Földi Tamás Starschema Kft.

NIIF Központi Elosztott Szolgáltatói Platform

VvAaLlÓóSs IiıDdEeJjȷŰű OoDdSs goldengate alapokon a magyar telekomban

Riak. Pronounced REE-ahk. Elosztott adattároló eszköz. Molnár Péter

StoreWay, Bull tárolórendszer

Hogyan lesz adatbányából aranybánya?

Mikor és hogyan érdemes virtualizálni?

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Sütik kezelése (cookie)

NAGY TELJESÍTM. Szerzők Dévai. István Automatizálási. és s Alkalmazott Informatikai Tanszék

Ügyfél- és címadatok feldolgozása Talenddel

RapidAnalytics Enterprise Edition bevezetés a Telenor Magyarországnál. Szakács Balázs - Telenor Magyarország Szücs Imre United Consult

Infor PM10 Üzleti intelligencia megoldás

Átírás:

Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei Földi Tamás tfoldi@starschema.net

IBM Kutatóközpont San Jose, California, 1970

Negyven évvel később

Gartner Report Elsősorban relációs adatbázisok Tranzakciókezelés (ACID) Erős adatbázis szerverek (SMP) Megjelenik a Masszív Párhuzamos feldolgozás Adattárházakban használt adatbázis-kezelők mágikus kvadránsai, Gartner 2010

Legforgalmasabb weboldalak Weboldal Google Facebook Youtube Microsoft Live, Bing Yahoo! Twitter Wikipedia BBC Myspace Amazon Terhelés Adat előfeldolgozás: 20 Petabájt / nap Inbox: 100 TB, 150 gépes klaszter Adattárház: 15 Petabyte adat, 1400 gép, 11200 CPU Napi 30 milliárd lekérés, 350ezer oldal/másodperc Havonta 50 millió egyedi látogató 92 Petabyte adat, a legnagyobb lekérdezés 10ezer gépen fut párhuzamosan 73 óráig Adatbázis növekedés 7TB naponta, 2+ PB évente Napi 11 milliárd oldalletöltés

Legforgalmasabb weboldalak Weboldal Főbb adatbázismotor Adatbázis típusa Google GFS, Google BigTable Columnar NoSQL Facebook Cassandra, Hadoop/HIVE Columnar NoSQL Youtube MySQL RDBMS Microsoft Live, Bing Azure Tuple store, RDBMS Yahoo! Hadoop, PNUTS Columnar NoSQL Twitter FlockDB, Cassandra, Hadoop/Hbase Graph, Columnar NoSQL Wikipedia Flatfile, MySQL Flat file, RDBMS BBC CouchDB Document Myspace Aster Data ncluster MPP RDBMS + MapReduce Amazon Amazon Dynamo Columnar NoSQL

Mi a NoSQL? = Not only SQL Choosing the right tool for the job Werner Vogels, Amazon CTO

Új trendek

Miért NoSQL? Web és adattárház alkalmazásoknak más igényeik vannak Alacsony és kiszámítható válaszidők Skálázhatóság és dinamikus bővíthetőség Hibatűrés Rugalmasság Illetve nem feltétlenül szükséges Tranzakciókezelés, erős konzisztencia Horizontálisan kiválóan skálázhatóak

RDBMS-ek: Konzisztens Hibatűrő RDBMS vs. NoSQL Új szereplők: Hibatűrő, széttagolható Nem teljesen konzisztensek Más megkötések a teljesítmény és skálázhatóság érdekében

Múlt és jelen

A jövő pedig

Shared Nothing Tárolási trendek Minden szerver saját diszkjeit használja Horizontálisan skálázható architektúra Tároló és az adatbázis kezelő összeolvad A tároló tudja, mit tárolnak rajta Tartalom alapú replikáció és párhuzamos olvasás Kiváltja a RAID funkcionalitását Olcsó PC a drága SAN helyett

SAS és a Masszív Parallel jövő A SAS új technológiájának köszönhetően 18 óráról két és fél percre csökkentette egy marketing-adatbázis feldolgozási idejét 196 szerver, 1664 CPU mag Shared-nothing alapú memóriahasználat Több terabájtnyi memória A legtöbb szállító MPP architektúrát fejleszt

Jelenlegi trendek

Map-Reduce

MapReduce A Google által kifejlesztett elosztott adatfeldolgozási eljárás, amely két részből áll: MAP: A feladatot elemi szintre bontja, szétszórja a hálózatban, majd elemi szinten kiszámolja REDUCE: A részeredményeket begyűjti a hálózatról, majd összesíti

Feladat Példa MapReduce 1. Új tarifacsomag tesztelése kiválasztott telefonszámok korábbi hívásadatain Map Kiválasztja hívásrekordokat telefonszám és időintervallum alapján, majd telefonszám szinten elkészíti a számlaösszegeket Reduce Összegzi a telefonszám alapú eredményeket

Példa MapReduce 2. Telefonszám 0-3-ig Telefonszám 4-6-ig Teljes hívásrekord adatbázis telefonszám alapján szétosztva a tárolók között Telefonszám 7-9-ig

Példa MapReduce 2. MAP REDUCE Telefonszám 0-3-ig Kiválasztott telefonszámok részfeladatok Telefonszám 4-6-ig Eredmények Új számlázási adatok Telefonszám 7-9-ig

MapReduce A mit? helyett a hogyan? Független, elosztott végrehajtás A feladatokat az adatbázis-kezelő felszeleteli, és a szeleteket ott futtatja le, ahol a releváns adat található Tervezhető futási idő és erőforrások Felhőképes koncepció

MapReduce támogatás Bejelentés dátuma Adatbázis szállító 2008. Augusztus Aster Data Systems 2008. Augusztus Greenplum 2009. Július Microsoft (Azure) 2009. Augusztus Vertica 2009. Szeptember Teradata 2009. Október Oracle 2009. December Sybase

Myspace Adattárház Ügyfél: Myspace 120 millió aktív felhasználó Többszáz terabájtos DW 2-3 TB/nap új adat Riport és elemzési igények Megoldás: Aster Data Aster Data ncluster MPP adatbázis-szerver MapReduce alapú ETL BI és Ad-hoc elemzések közvetlenül az adattárházból

Hadoop

Mi a Hadoop? Bővíthető és hibatűrő megoldás nagy mennyiségű, elosztott számítási és adatfeldolgozási feladat elvégzéséhez hétköznapi PC-kből álló hálózaton Nyílt forráskód + Olcsó hardver = IT költségcsökkentés

Hol használják? AOL Facebook Fox Interactive Media IBM ImageShack Joost Last.fm LinkedIn Meebo Microsoft The New York Times Rackspace Twitter

Hadoop Ecosystem

Hadoop HIVE Hadoop DWH megoldása MapReduce feldolgozás HDFS tárolás Hive Query Language Alap SQL utasítások Nagyteljesítményű adattárház, BI illesztéssel

Yahoo-Hadoop Story Yahoo Search! optimalizálás 1 trilliárd link feldolgozása (1 000 000 000 000 000 000 000, billiószor milliárd) 15 Petabájt kapacitás 10.000 magos klaszter Eredmények: Hadoop használatával 66%-os teljesítmény növekedés az előző célszoftverhez képest Egy hétről három napra csökkent a futásidő

Összefoglalás

Hazai helyzet Jelenleg nem tudunk sem éles, sem pilot adattárházas felhasználásról Több cég foglalkozik a technológia tesztelésével, elemzésével Komoly befektetések nélkül könnyen kipróbálható, tesztelhető

Összefoglalás NoSQL létezik és erősödik a használata Különösen a skálázhatósági igények felső végén Ingyenes szoftverek és olcsó hardverigény Konvergencia: nagy terjesztők is felkarolják Fejlődés viszont nem áll meg A jövő kérdéses, de izgalmas!

Köszönjük a figyelmet! Földi Tamás tfoldi@starschema.net

Felhasznált képek / Used pictures Dia / Slide no. Forrás / Source 3-5, 12 Tim Anglade NoSQL for Fun and Profit (presentation) 7 Gartner - Magic Quadrant for Data Warehouse Database Management Systems (white paper) 15,16 Jason Davies - Non-relational databases and world domination (presentation) 19,32,33 Philippe Julio Hadoop Architecture (presentation) 28 Aster Data - MySpace.com Scales Analytics for All of Its Friends (white paper)