Big Data elemzési módszerek

Hasonló dokumentumok
Big Data elemzési módszerek

Felhők teljesítményelemzése felhő alapokon

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

MMK-Informatikai projekt ellenőr képzés 4

Számítási felhők: alkalmazási esetek és teljesítmény

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Big Data: a több adatnál is több

Számítási felhők: alkalmazási esetek és teljesítménymérés

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

Big Data tömeges adatelemzés gyorsan

Hadoop és használata az LPDS cloud-on

Párhuzamos és Grid rendszerek

Big Data az adattárházban

Component Soft és tovább

Teljesen elosztott adatbányászat alprojekt

Információs Rendszerek Szakirány

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Weblog elemzés Hadoopon 1/39

Takács Gábor mérnök informatikus, okl. mérnöktanár

Felhőszámítástechnika (Cloud Computing) helye és szerepe az on-line világ folyamataiban. Dr. Élő Gábor Széchenyi István Egyetem ITOK 2013

Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei. Földi Tamás

Slamovits Tibor Államigazgatásiüzletág-vezető EMC Magyarország

IBM SPSS Modeler 18.2 Újdonságok

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

Vizuális adatelemzés

Big Data. Benczúr András Big Data Lendület kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András

Stream Processing. Big Data elemzési módszerek. Kocsis Imre

TANTÁRGYI ÚTMUTATÓ. Alkalmazott számítástechnika. tanulmányokhoz

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Mintavételezés, szűrés, outlierek detektálása

Felhő számítástechnika

ÉRZÉKELŐK ÉS BEAVATKOZÓK I. 0. TANTÁRGY ISMERTETŐ

Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében):

Amazon Web Services. Géhberger Dániel Szolgáltatások és alkalmazások március 28.

Virtuális Obszervatórium. Gombos Gergő

Oracle Big Data koncepció. Stadler Gellért Vezető tanácsadó Oracle ConsulKng HTE 2015 Konferencia

Pentaho 4: Mindennapi BI egyszerűen. Fekszi Csaba Ügyvezető október 6.

III.6. MAP REDUCE ELVŰ ELOSZTOTT FELDOLGOZÁSI ALGORITMUSOK ÉS TESZTKÖRNYEZET KIDOLGOZÁSA ADATBÁNYÁSZATI FELADATOK VÉGREHAJTÁSÁHOZ

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Adatbányászati szemelvények MapReduce környezetben

Copyright 2012, Oracle and/or its affiliates. All rights reserved.

Az információs rendszerek adatai

Web harvesztelés. Automatikus módszerekkel

A cloud szolgáltatási modell a közigazgatásban

BIG DATA A H I VATA L O S S TAT I S Z T I K Á B A N

Miskolci Egyetem Gépészmérnöki és Informatikai Kar Informatikai Intézet Alkalmazott Informatikai Tanszék

IK Algoritmusok és Alkalmazásaik Tsz, TTK Operációkutatás Tsz. A LEMON C++ gráf optimalizálási könyvtár használata

COMPANY PROFILE SZOFI ALGORITHMIC RESEARCH KFT

Adattárház és BigData Szimbiózisa. Baranyi Szabolcs IM Technical Sales

Adatbázis rendszerek 7. előadás State of the art

Innovatív trendek a BI területén

A nagy adathalmazokkal kapcsolatos kormányzati feladatok. vezetői tájékoztató anyag a big datá -ról

Korszerű technológiai és szolgáltatási modellek

VIR alapfogalmai. Előadásvázlat. dr. Kovács László

FELHŐ és a MAINFRAME. Irmes Sándor

MTA Cloud Use cases MTA Cloud workshop. Hernáth Szabolcs MTA WIGNER FK

A számítási felhő világa

Az információs rendszerek adatai

Muppet: Gyors adatok MapReduce stílusú feldolgozása. Muppet: MapReduce-Style Processing of Fast Data

A webanalitika változó világa 4 felvonásban

KÖFOP VEKOP A jó kormányzást megalapozó közszolgálat-fejlesztés

Nagy méretű adathalmazok vizualizációja

Adatbázis-kezelő rendszerek. dr. Siki Zoltán

Magic xpi 4.0 vadonatúj Architektúrája Gigaspaces alapokon

Data Vault adatmodellezés.

Tudásalapú információ integráció

Digitális technika VIMIAA02

AZ IGAZI BIG DATA hogyan használják a világban és egyáltalán használják-e hazánkban?

Termelési és szolgáltatási döntések elemzése Vezetés és szervezés mesterszak

Mit mond a XXI. század emberének a statisztika?

Vizuális adatelemzés

Adatbázis rendszerek. dr. Siki Zoltán

KÖFOP VEKOP A jó kormányzást megalapozó közszolgálat-fejlesztés

A Jövő Internet Nemzeti Kutatási Program bemutatása

Önkiszolgáló BI Az üzleti proaktivítás eszköze. Budapest,

Self service reporting fogások, technikák és megoldások controllereknek, nem csak Excel alapon

Riak. Pronounced REE-ahk. Elosztott adattároló eszköz. Molnár Péter

Neurális hálózatok bemutató

Nagyméretű adathalmazok vizualizációja

Felhő rendszerek és felhő föderációk. Kacsuk Péter MTA SZTAKI

Adatbázis-kezelés. Dr. Fülep Dávid. SELECT id FROM tantargy WHERE intezmeny = sze ORDER BY hasznossag LIMIT 1 NGB_SZ_003_9

Analitikai megoldások IBM Power és FlashSystem alapokon. Mosolygó Ferenc - Avnet

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

Visszacsatolt (mély) neurális hálózatok

KORSZERŰ BIG DATA FELDOLGOZÓ KERETRENDSZEREK Hermann Gábor MTA-SZTAKI

Miskolci Egyetem Gépészmérnöki és Informatikai Kar Alkalmazott Informatikai Tanszék. Dr. Kulcsár Gyula egyetemi docens

Korszerű Adatbázisok. Gombos Gergő

Elektronikus információbiztonsági oktatási koncepció

RDBMS fejlesztési irányok. Ferris Wheel (óriáskerék) Jim Gray törvényei. Elosztott adatbázisok problémái. Elosztott adatbázisok

IK Algoritmusok és Alkalmazásaik Tsz, TTK Operációkutatás Tsz. A LEMON C++ gráf optimalizálási könyvtár használata

IBM felhő menedzsment

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

Elosztott adatbázis-kezelő formális elemzése

IT trendek és lehetőségek. Puskás Norbert

Termelési és szolgáltatási döntések elemzése Vezetés és szervezés mesterszak


Tájékoztató a Jövő Internet Nemzeti Kutatási Program előrehaladásáról: JINKA2.1 Dr. Sallai Gyula

Oracle SQL Developer Data Modeler és a DW adatmodellezés. Gollnhofer Gábor Meta Consulting Kft.

Átírás:

Big Data elemzési módszerek Kocsis Imre, ikocsis@mit.bme.hu 1. ea, 2017.09.04. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

A félévről https://inf.mit.bme.hu/edu/courses/bigdata Előadók, közreműködők o Dr. Pataricza András o Kocsis Imre (op. felelős) o Klenik Attila o HF (várhatóan): Gönczy László, Hullám Gábor, ikocsis@mit.bme.hu, IB418, (+36 1 463) 2006 1 ZH (terv: 12. okt. hét), min. 40% Házi feladat o Kiadás: ~7-8. hét o Érdemjegyhez elfogadása szükséges o 2-3 fős csapatok o Bemutatáson minden csapattagnak jelen kell lennie Érdemjegy: 0.4 * ZH + 0.6 * HF

MI AZ A BIG DATA?

Definíció [1] Adatkészletek, melyek mérete nagyobb, mint amit regisztrálni, tárolni, kezelni és elemezni tudunk a tipikus (szoftver) eszközökkel. o SQL Server, Matlab, SPSS, SAS, R, gnuplot

Tárolási kapacitás a világon [1]

Számítási kapacitás a világon [1]

Nagyvállalatok által tárolt adatok [1]

Milyen adatok ezek? Időben/populáción ismétlődő megfigyelések o IoT/CPS/mobil eszközök Elosztott szenzorhálózatok (pl. smart metering ) Járművek fedélzeti szenzorai o Telekommunikációs hálózatok 5G! o Kis(?)kereskedelemi üzletmenet o Tudományos kísérletek (LHC, neurológia, genomika, ) o Számítógépes infrastruktúrák, web logok o Gráfok, hálózatok o Közösségi szolgáltatások ~ Akármilyen adatban lehet (elég) (üzleti) értek, ha elég olcsón tudjuk tárolni + feldolgozni Természetes szöveg o Wikipedia A Big Data határ változik; pár száz GB pár száz TB a.k.a. jó lesz az még valamire

1GB tárolókapacitás ára (HDD) A trend a lényeg Cloud provider Nem SSD Source: https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/

1GB tárolókapacitás ára (HDD) Ismét: trend, nem az értékek http://www.mkomo.com/cost-per-gigabyte-update https://www-03.ibm.com/ibm/history/exhibits/vintage/vintage_4506vv4023.html

Tárolókapacitás ára általánosságban http://www.jcmit.net/mem2015.htm

És persze igazak ezek is: CPU, hálózat http://www.nature.com/news/the-chips-are-down-for-moore-s-law-1.19338 http://ix.br/pttforum/9/slides/ixbr9-ethernet.pdf

Mire megyünk a sok adattal? Üzletmenet o Működési metrikák, előrejelzés, adatbányászat Szenzor-adatok IT for IT o loganalízis, diagnosztika, hibaelőrejelzés, kapacitásmenedzsment, Közösségi média elemzése o Pl. PeerIndex Csalásfelderítés (fraud detection), nemzetbiztonság o N.B. ritka események; az algoritmika részben újszerű o terrorista nem vásárol életbiztosítást (+ nincs megtakarítása + péntek délután nem vesz ki pénzt ATM-ből) lásd Freakonomics IBM Big Data Success Stories [8]

Vagy csak vizualizáljuk, hátha kijön valami https://anaconda.org/jbednar/nyc_taxi/notebook

Vagy csak vizualizáljuk, hátha kijön valami https://anaconda.org/jbednar/census/notebook Ilyeneket fogunk és fogtok csinálni.

Egy saját példa: VDI kapacitástervezés ~2 dozen VM/host ~20 ESX metrics/vm (CPU, memory, net) ~1 dozen host/cluster ~50 ESX metrics/host Cluster: ~70 metrics (derived by aggregation)

Egy saját példa: VDI kapacitástervezés

Alternatív definíció: Big Data jellemzők [2] Volume : igen nagy mennyiségű adat Variety : nagyszámú forrás és/vagy nemstrukturált/részben strukturált adatok Velocity : a Return on Data (ROD) a lassú feldolgozással csökken o Főleg streaming problémáknál o Ellentéte: at rest Big Data problémák Veracity : nagymennyiségű zaj o Pl. Twitter spam

Amiben a Big Data adatelemzés más Nem mintavételezünk (nem/kevésbé kell) De az adat nem/kevésbé fogyasztásra kész Nem feltétlenül tudjuk előre, hogy mit csinálunk o Leíró statisztika o Adatfelderítés módszerei o Vizualizáció o (Nyelvfeldolgozás) o Statisztikusokat felháborító Machine Learning (ML) Más szoftver eszközök De ettől még az adatelemzés, adatbányászat és gépi tanulás koncepcionális rétege nagyban hasonlít

De miért nem RDBMS (+SQL)?

Miért nem RDBMS? Például Big Data problémáknál sokszor létezik természetes (részleges) rendezési szempont o Természetes: a nemtriviális analízisek ebben a sorrendben működnek o Pl. idő (idősor-analízis) Relációs modell: sorok sorrendje? Következmény: véletlenszerű hozzáférés diszkről Az optimális hozzáférési mintához képest lassú Ingyen ebéd továbbra sincs.

A normalizált séma igen lassú lehet [3] Indexekről, ACID tulajdonságokról, klaszterállapotszinkronitásról még nem is beszéltünk.

Nagyvállalati adattárházak? Jellemzően igen komoly ETL Válaszidő -követelmények o Régi adatok aggregálása/törlése/archiválása Strukturálatlan adatok nem jellemzőek Drágák Nem lehet későbbi analízisre leborítani az adatokat

Példa: R (base) Analízis eszközök? o De lehetne SPSS, SAS, h.d. Excel is Kulcsrakész függvények mediántól a neurális hálókig De: csak memóriában tárolt adattípusok, nem hatékony memóriakezelés Ez változóban; SQL/R/Python/ rárakódik a Big Data eszközökre

ELOSZTOTT SZÁMÍTÁSTECHNIKA ALKALMAZÁSA

Big Data probléma At rest Big Data o Nincs update o Mindent elemzünk Elosztott tárolás Computation to data Not true, but a very, very good lie! (T. Pratchett, Nightwatch)

Lazán csatolt, magas lokalitású párhuzamosítás

Elosztott számítástechnika Big Data: a ma alkalmazott stratégia COTS elosztott rendszerek alkalmazása o Kivételek vannak; lásd IBM Netezza 8 db nyolcmagos gép jóval olcsóbb, mint egy 64 magos Modern hálózati technológiák: o Memóriánál lassabb o Helyi diszk áteresztőképességénél/válaszidejénél nem feltétlenül! A tárolás és a feldolgozás is elosztott o Lehetőleg egy helyen legyen azért

Alapvető kérdések Elosztott platformon párhuzamosítás szükséges Hatékony feldolgozáshoz továbbra is referenciális lokalitás kell Bár a feldolgozás közel vihető az adathoz, az adatterítés logikája befolyásolja a teljesítményt o Pl. csak egy csomópont dolgozik

A klasszikus minta: MapReduce [, ] [, ] [, ] [, ] [, ] Reduce [,[,, ]] [,[,, ]] [,[,, ]] [,[,, ]] [,[,, ]] SHUFFLE [, ] [, ] [, ] [, ] [, ] [, ] [, ] [, ] [, ] [, ] [, ] [, ] [, ] [, ] [, ] Map Distributed File System

MapReduce funkcionális nézet [6]

MapReduce: szavak számolása szövegben [7]

Rendszerszervezési alapelvek Egyszerű elosztott tárolás o Nem hogy ACID, de állomány-frissítés o Sávszélesség n-szerezése! Optimális esetben: tárolóelem egyben számol is ~Ua a (párhuzamos) kód mindenhol Lokalitás fontos: hálózati kommunikáció drága! nem minden probléma embarrassingly parallel

MapReduce, mint párhuzamosítási minta Számos probléma jól megfogalmazható MapReduce szemléletben o Mátrix-mátrix és mátrix-vektor szorzás o Relációalgebra o Korreláció o Google PageRank (az eredeti) o (Mélyebb) algoritmikát lásd: Rajaraman, Ullman et al.: Mining of Massive Datasets [6] o www.mmds.org ingyenesen letölthető o ~ azonos nevű Stanford CS kurzus alapján

Big Data == Hadoop? Google MapReduce, GFS, BigTable cikkek Apache Hadoop Nyílt forráskódú, Java alapú keretrendszer Hadoop Distributed File System (HDFS) Eredetileg: MapReduce programozási paradigma Ráépülő/kiegészítő/kapcsolódó projektek Law of Betteridge applies Pay for support disztribúciók Cloudera, Hortonworks, MapR,

Az építőkészlet egy nézet Forrás: http://slides.com/racku/deck-4-3-2#/4/13

BIG DATA ÉS A FELHŐ

Ára van Költségoptimalizálás? o A ki nem szolgált igényeknek o És a felesleges kapacitásnak A felhő egységára (unit price) lehet magasabb a saját befektetésnél, de... ugyanez igaz az autóbérlésre és a hotelszobákra Hibrid felhők: privát: alapterhelés, publikus: változó o Komolyabb optimalizációs probléma és még mindig terhelést kell becsülni

~? Szolgáltatói oldalon

Miért éri meg a szolgáltatónak? [9] (Centrális határeloszlás-tétel nélkül) X i azonos várhatóértékű (μ) és varianciájú (σ 2 ), független val. változók Variációs koefficiens (coefficient of variation): σ μ Összeg várhatóértéke: várh. összege Összeg varianciája: varianciák összege CV X sum = nσ2 nμ = 1 n σ μ = 1 n CV(X i)

A statisztikai multiplexálás hatása Az átlaghoz képest vett szórás csökken 1 : gyorsan; kisebb n privát cloud-ok! A valóságban persze nem független minden terhelés Ábra forrása: http://en.wikipedia.org/wiki/central_limit_theorem

Párhuzamosítható terhelések Egyre több zavarbaejtően párhuzamos (embarrassingly parallel), scale-out alkalmazáskategóriánk van NYT TimesMachine [10]: public domain archív o Konverzió web-barát formátumra [11]: Hadoop, pár száz VM, 36 óra A használat alapú számlázás miatt ~ugyanannyiba kerül, mint egy VM-mel Praktikusan: ingyen idő

Vagy ha nem akarunk Hadoop-ot építeni GiB. Kell egyáltalán Hadoop? Javasolt olvasmány: http://www.kdnuggets.com/2015/11/big-ram-big-data-size-datasets.html

Vagy ha nem akarunk Hadoop-ot építeni (2) + kulcsrakész DM és ML különböző formái

BIG DATA 2017-BEN (NÉHÁNY GONDOLAT EREJÉIG)

Hol a Big Data??? Válasz: már 2015-ben sem volt rajta. Már nem emerging.

Ipari folyamatok Enterprise DL? Enterprise Big Data Érett megoldások és cégek (is)? Big Data + deep learning tech Cloud és XaaS Olcsó COTS ( szürke dobozok ) Startupok, F/OSS kultúra Digital native óriások, nem- DW elemzés Kutatási háttér Inspiráció: http://mattturck.com/bigdata2017/

Zárszó: oktatási céljaink (2 kredit kiméretben) Data science alapfogalmai, felderítő elemzés o Vizualizáció! DM és ML fő céljai, szemelvények o Mélységben min. egy szakirány Fő Big Data platformok koncepcionális megértése o Némi algoritmika o Egyre magasabb szintű programozás (inkl. SQL visszatérése) o + DM/ML könyvtárak és szolgáltatások Hands-on készségek alapjai: házi feladat o A tárgy élvezetes része

Tervezett tematika Dátum szeptember 5 szeptember 12 szeptember 19 szeptember 26 október 3 október 10 október 17 október 24 október 31 november 7 november 14 november 21 november 28 december 5 2017-es terv BD bevezetés Stat. alapfogalmak vizualizáció + EDA Interaktív és BD vizualizáció, datashader Az adatelemzés alapfeladatai Folyt; munkafolyamatok, cloud szolgáltatások HDFS, MapReduce - alapelvek, tulajdonságok, algoritmika Spark - alapelvek, tulajdonságok Vendégelőadás (téma egyeztetés alatt) BD ML szemelvények Stream processing ZH Szűrés, mintavételezés, outlier-detektálás, ritka események HF bemutatás

Források [1] Manyika, J., Chui, M., Brown, B., & Bughin, J. (2011). Big data: The next frontier for innovation, competition, and productivity. Retrieved from http://www.citeulike.org/group/18242/article/9341321 [2] Zikopoulous, P., Deroos, D., Parasuraman, K., Deutsch, T., Corrigan, D., & Giles, J. (2013). Harness the Power of Big Data. McGraw-Hill. Retrieved from http://medcontent.metapress.com/index/a65rm03p4874243n.pdf [3] Jacobs, A. (2009). The pathologies of big data. Communications of the ACM, 52(8), 36. doi:10.1145/1536616.1536632 [4] http://www.ibm.com/developerworks/library/wa-introhdfs/ [5] Borkar, V., Carey, M. J., & Li, C. (2012). Inside Big Data management. In Proceedings of the 15th International Conference on Extending Database Technology - EDBT 12 (pp. 3 14). New York, New York, USA: ACM Press. doi:10.1145/2247596.2247598 [6] Rajaraman, A., & Ullman, J. D. (2011). Mining of Massive Datasets. Cambridge: Cambridge University Press. doi:10.1017/cbo9781139058452 [7] http://research.google.com/archive/mapreduce-osdi04-slides/index.html [8] IBM Big Data Success Stories. ftp://ftp.software.ibm.com/software/data/sw-library/bigdata/ibm-big-data-success.pdf [9] Weinman, Joe. Cloudonomics: The business value of cloud computing. John Wiley & Sons, 2012. [10] http://timesmachine.nytimes.com/browser [11] http://open.blogs.nytimes.com/2008/05/21/the-new-york-times-archives-amazon-webservices-timesmachine/