Big Data elemzési módszerek

Hasonló dokumentumok
Big Data elemzési módszerek

Felhők teljesítményelemzése felhő alapokon

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

MMK-Informatikai projekt ellenőr képzés 4

Component Soft és tovább

Big Data: a több adatnál is több

Big Data tömeges adatelemzés gyorsan

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

Hadoop és használata az LPDS cloud-on

Takács Gábor mérnök informatikus, okl. mérnöktanár

Big Data az adattárházban

Teljesen elosztott adatbányászat alprojekt

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Big Data. Benczúr András Big Data Lendület kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

Adatbázis-kezelő rendszerek. dr. Siki Zoltán

Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei. Földi Tamás

Takács Árpád K+F irányok

Tudásalapú információ integráció

Webes alkalmazások fejlesztése 11. előadás. Alkalmazások felhőben Giachetta Roberto

COMPANY PROFILE SZOFI ALGORITHMIC RESEARCH KFT

Muppet: Gyors adatok MapReduce stílusú feldolgozása. Muppet: MapReduce-Style Processing of Fast Data

Párhuzamos és Grid rendszerek

KORSZERŰ BIG DATA FELDOLGOZÓ KERETRENDSZEREK Hermann Gábor MTA-SZTAKI

Adatbázis-kezelés. Fülep Dávid. SELECT id FROM eloadas WHERE intezmeny = sze ORDER BY unalomfaktor LIMIT 1 NGB_SZ_003_9

Adatbázis-kezelés. Dr. Fülep Dávid. SELECT id FROM tantargy WHERE intezmeny = sze ORDER BY hasznossag LIMIT 1 NGB_SZ_003_9

Elosztott adatbázis-kezelő formális elemzése

Copyright 2012, Oracle and/or its affiliates. All rights reserved.

Virtuális Obszervatórium. Gombos Gergő

III.6. MAP REDUCE ELVŰ ELOSZTOTT FELDOLGOZÁSI ALGORITMUSOK ÉS TESZTKÖRNYEZET KIDOLGOZÁSA ADATBÁNYÁSZATI FELADATOK VÉGREHAJTÁSÁHOZ

UNIX operációs rendszer bemutatása. A UNIX története, fejlesztésének céljai.

Webes alkalmazások fejlesztése 11. előadás. Alkalmazások felhőben. Alkalmazások felhőben Számítástechnikai felhő

Adattárház és BigData Szimbiózisa. Baranyi Szabolcs IM Technical Sales

Magic xpi 4.0 vadonatúj Architektúrája Gigaspaces alapokon

Big Data, Distributed Storage & Computing. Gombos Gergő

Weblog elemzés Hadoopon 1/39

Adatbázis rendszerek 7. előadás State of the art

Amazon Web Services. Géhberger Dániel Szolgáltatások és alkalmazások március 28.

Adatbázis rendszerek. dr. Siki Zoltán

AZ IGAZI BIG DATA hogyan használják a világban és egyáltalán használják-e hazánkban?

MTA Cloud Use cases MTA Cloud workshop. Hernáth Szabolcs MTA WIGNER FK

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

Data Integrátorok a gyakorlatban Oracle DI vs. Pentaho DI Fekszi Csaba Ügyvezető Vinnai Péter Adattárház fejlesztő február 20.

Stream Processing. Big Data elemzési módszerek. Kocsis Imre

Az információs rendszerek adatai

Nagy adathalmazok elosztott feldolgozása. Dr. Hajdu András, Debreceni Egyetem, Informatikai Kar

Infor PM10 Üzleti intelligencia megoldás

RDBMS fejlesztési irányok. Ferris Wheel (óriáskerék) Jim Gray törvényei. Elosztott adatbázisok problémái. Elosztott adatbázisok

Adatbányászati szemelvények MapReduce környezetben

Felhő számítástechnika

TANTÁRGYI ÚTMUTATÓ. Alkalmazott számítástechnika. tanulmányokhoz

EGI-InSPIRE. Café Grid március 24. Szeberényi Imre 3/25/ EGI-InSPIRE RI

Vizuális adatelemzés

Korszerű technológiai és szolgáltatási modellek

Webes alkalmazások fejlesztése Bevezetés. Célkitűzés, tematika, követelmények. A.NET Core keretrendszer

Hogyan lesz adatbányából aranybánya?

Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében):

Képi információk hatékony feldolgozása széles társadalmi rétegeket érintő egészségügyi problémákban

Webes alkalmazások fejlesztése Bevezetés. Célkitűzés, tematika, követelmények. A.NET Core keretrendszer

ADATBÁZIS-KEZELÉS - BEVEZETŐ - Tarcsi Ádám, ade@inf.elte.hu

Az információs rendszerek adatai

IK Algoritmusok és Alkalmazásaik Tsz, TTK Operációkutatás Tsz. A LEMON C++ gráf optimalizálási könyvtár használata

Neurális hálózatok bemutató

Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter

A számítási felhő világa

Kővári Attila, BI projekt

Valószínűségi modellellenőrzés Markov döntési folyamatokkal

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting

Korszerű Adatbázisok. Gombos Gergő

Felhőszámítástechnika (Cloud Computing) helye és szerepe az on-line világ folyamataiban. Dr. Élő Gábor Széchenyi István Egyetem ITOK 2013

A Jövő Internet Nemzeti Kutatási Program bemutatása

Adatbáziskezelő-szerver. Relációs adatbázis-kezelők SQL. Házi feladat. Relációs adatszerkezet

NIIF szolgáltatások a múzeumok számára

BIG DATA A H I VATA L O S S TAT I S Z T I K Á B A N

webalkalmazások fejlesztése elosztott alapon

Big data áttekintés. Sidló Csaba. MTA Számítástechnikai és Automatizálási Kutatóintézet

Informatikai alapismeretek Földtudományi BSC számára

30 MB INFORMATIKAI PROJEKTELLENŐR

Innovatív trendek a BI területén

Önkiszolgáló BI Az üzleti proaktivítás eszköze. Budapest,

Gartner: Hype Cycle for Big Data NoSQL Database Management Systems

MapReduce paradigma a CAP-tétel kontextusában. Adatb haladóknak. Balassi Márton Adatbázisok haladóknak 2012.

Excel ODBC-ADO API. Tevékenységpontok: - DBMS telepítés. - ODBC driver telepítése. - DSN létrehozatala. -Excel-ben ADO bevonása

Kollektív tanulás milliós hálózatokban. Jelasity Márk

Digitalizáció a vállalatirányításban - Milyen szerep jut a controllingnak? Budapest,

Adatszerkezetek 1. előadás

A SEO szerepe egy híroldal életében BUBLIK MÁTÉ

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

Felhő rendszerek és felhő föderációk. Kacsuk Péter MTA SZTAKI

Korszerű Adatbázisok. Gombos Gergő

IBM SPSS Modeler 18.2 Újdonságok

Self service reporting fogások, technikák és megoldások controllereknek, nem csak Excel alapon

Valós idejű megoldások: Realtime ODS és Database In-Memory tapasztalatok

Adatbázis rendszerek I

Entity Resolution azonosságfeloldás

Adatbányászati technikák (VISZM185) 2015 tavasz

Hálózati réteg. WSN topológia. Útvonalválasztás.

Intelligens adatelemzés

Átírás:

Big Data elemzési módszerek 2015.09.09. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Előadók, közreműködők o dr. Pataricza András o Dr. Horváth Gábor o Kocsis Imre (op. felelős) o Salánki Ágnes o Bolgár Bence A félévről ikocsis@mit.bme.hu, IB418, (+36 1 463) 2006 1 ZH (terv: 12. okt. hét), 40% Házi feladat o Kiadás: ~5. hét

Google Trends: Big Data

MI AZ A BIG DATA?

Definíció [1] Adatkészletek, melyek mérete nagyobb, mint amit regisztrálni, tárolni, kezelni és elemezni tudunk a tipikus ( adatbáziskezelő ) szoftverekkel. o Illetve a tipikus elemző szoftverekkel.

Hol van ennyi adat? Időben/populáción ismétlődő megfigyelések o Web logok o Telekommunikációs hálózatok o Kis(?)kereskedelemi üzletmenet o Tudományos kísérletek (LHC, neurológia, genomika, ) o Elosztott szenzorhálózatok (pl. smart metering ) o Járművek fedélzeti szenzorai o Számítógépes infrastruktúrák o Gráfok, hálózatok o Közösségi szolgáltatások

Hol van ennyi adat? Modern repülőgépek: ~10 TB/hajtómű/fél óra Facebook: 2.5 milliárd like egy nap Kollégiumi hálózat: pár GB-nyi Netflow rekord egy csendes hétvégén

Tárolási kapacitás a világon [1]

Számítási kapacitás a világon [1]

Nagyvállalatok által tárolt adatok [1]

Mit kezdjünk ennyi adattal? Üzletmenet o Működési metrikák, előrejelzés, adatbányászat Szenzor-adatok IT for IT o loganalízis, diagnosztika, hibaelőrejelzés, kapacitásmenedzsment, Közösségi média elemzése o Pl. PeerIndex Csalásfelderítés (fraud detection) o Ki vesz jegygyűrűt hajnal 4-kor? o N.B. ritka események; az algoritmika részben újszerű IBM Big Data Success Stories [8]

Virtual Desktop Infrastructure: kapacitástervezés ~2 dozen VM/host ~20 ESX metrics/vm (CPU, memory, net) ~1 dozen host/cluster ~50 ESX metrics/host Cluster: ~70 metrics (derived by aggregation)

Példa: kapacitástervezés

Alternatív definíció: Big Data jellemzők [2] Volume : igen nagy mennyiségű adat Variety : nagyszámú forrás és/vagy nemstrukturált/részben strukturált adatok Velocity : a Return on Data (ROD) a lassú feldolgozással csökken o Főleg streaming problémáknál o Ellentéte: at rest Big Data problémák Veracity : nagymennyiségű zaj o Pl. Twitter spam

De miért nem RDBMS (+SQL)?

Miért nem RDBMS? Például Big Data problémáknál általában létezik természetes (részleges) rendezési szempont o Természetes: a nemtriviális analízisek ebben a sorrendben működnek o Pl. idő (idősor-analízis) Relációs modell: sorok sorrendje? Következmény: véletlenszerű hozzáférés diszkről Az optimális hozzáférési mintához képest lassú Mint létni fogjuk, ingyenebéd persze nincs.

A normalizált séma igen lassú lehet [3]

Nagyvállalati adattárházak? Jellemzően igen komoly ETL Válaszidő -követelmények o Régi adatok aggregálása/törlése/archiválása Strukturálatlan adatok nem jellemzőek Drágák Nem lehet későbbi analízisre leborítani az adatokat

Példa: R Analízis eszközök? o De lehetne SPSS, SAS, h.d. Excel is Kulcsrakész függvények mediántól a neurális hálókig De: csak memóriában tárolt adattípusok, nem hatékony memóriakezelés

Vizualizáció? A klasszikus megoldások erősen támaszkodnak létező tárolási és analízis-megoldásokra Jellemzően statisztikai leképezések o Önmagában Big Data problémára vezethető vissza Feltáró adatanalízis (EDA): GPU támogatás?

Big Data probléma At rest Big Data o Nincs update o Mindent elemzünk Elosztott tárolás Computation to data Not true, but a very, very good lie! (T. Pratchett, Nightwatch)

Elosztott számítástechnika Big Data: a ma alkalmazott stratégia COTS elosztott rendszerek alkalmazása o Kivételek vannak; lásd IBM Netezza 8 db nyolcmagos gép jóval olcsóbb, mint egy 64 magos Modern hálózati technológiák: o Memóriánál lassabb o Helyi diszk áteresztőképességénél/válaszidejénél nem feltétlenül! A tárolás és a feldolgozás is elosztott o Lehetőleg egy helyen legyen azért

Felhő számítástechnika A számítási felhők egy modell, amely lehetővé teszi a hálózaton keresztül való, kényelmes és széles körű hozzáférést konfigurálható számítási erőforrások egy megosztott halmazához.

Amazon Web Services

~? Szolgáltatói oldalon

Alapvető kérdések Elosztott platformon párhuzamosítás szükséges Hatékony feldolgozáshoz továbbra is referenciális lokalitás kell Bár a feldolgozás közel vihető az adathoz, az adatterítés logikája befolyásolja a teljesítményt o Pl. csak egy csomópont dolgozik

Big Data == Hadoop? Google MapReduce és GFS Apache Hadoop Nyílt forráskódú, Java alapú keretrendszer Hadoop Distributed File System (HDFS) MapReduce programozási paradigma Ráépülő/kiegészítő/kapcsolódó projektek: Cassandra, Chukwa, Hbase, Hive, Mahout, Pig, ZooKeeper

MapReduce [, ] [, ] [, ] [, ] [, ] Reduce [,[,, ]] [,[,, ]] [,[,, ]] [,[,, ]] [,[,, ]] SHUFFLE [, ] [, ] [, ] [, ] [, ] [, ] [, ] [, ] [, ] [, ] [, ] [, ] [, ] [, ] [, ] Map Distributed File System

HDFS ~Klasszikus állományrendszer Nagy (64MB) blokkok, szétterítve és replikálva

Hadoop

MapReduce [6]

MapReduce: szavak számolása szövegben [7]

MapReduce, mint párhuzamosítási minta Számos probléma jól megfogalmazható MapReduce szemléletben o Mátrix-mátrix és mátrix-vektor szorzás o Relációalgebra o Korreláció o Ezekről később beszélünk o Sokat

Big Data =/= Hadoop (ökoszisztéma) Adatfolyamok! o Hadoop (eredetileg): batch & at rest

Big Data =/= Hadoop (ökoszisztéma) Elemző eszközök kiterjesztései o File backed o Adatbázis-integrált o Vitatható, hogy igazi Big Data-e Célhardver o IBM Netezza Gráfproblémák kezelése o Nem csak paraméterbecslés és tulajdonságvizsgálat; mintaillesztés is

Tentatív tematika kivonata Adatelemzési alapozás R Felderítő adatelemzés MapReduce algoritmika Mintavételezés Gépi tanulás (szemelvények) Folyamfeldolgozás ZH Beszámoló-előadások

Lehetőségek [1] Illetve: tessék körbenézni Budapesten.

Források [1] Manyika, J., Chui, M., Brown, B., & Bughin, J. (2011). Big data: The next frontier for innovation, competition, and productivity. Retrieved from http://www.citeulike.org/group/18242/article/9341321 [2] Zikopoulous, P., Deroos, D., Parasuraman, K., Deutsch, T., Corrigan, D., & Giles, J. (2013). Harness the Power of Big Data. McGraw-Hill. Retrieved from http://medcontent.metapress.com/index/a65rm03p4874243n.pdf [3] Jacobs, A. (2009). The pathologies of big data. Communications of the ACM, 52(8), 36. doi:10.1145/1536616.1536632 [4] http://www.ibm.com/developerworks/library/wa-introhdfs/ [5] Borkar, V., Carey, M. J., & Li, C. (2012). Inside Big Data management. In Proceedings of the 15th International Conference on Extending Database Technology - EDBT 12 (pp. 3 14). New York, New York, USA: ACM Press. doi:10.1145/2247596.2247598 [6] Rajaraman, A., & Ullman, J. D. (2011). Mining of Massive Datasets. Cambridge: Cambridge University Press. doi:10.1017/cbo9781139058452 [7] http://research.google.com/archive/mapreduce-osdi04-slides/index.html [8] IBM Big Data Success Stories. ftp://ftp.software.ibm.com/software/data/swlibrary/big-data/ibm-big-data-success.pdf