INFORMATIKAI PROJEKTELLENŐR 30 MB Szabó Csenger ÚJ GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN 2016. 12. 31. MMK- Informatikai projektellenőr képzés
Big Data definíció
2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 3
Miért keletkezett?
Mi a Hadoop? Keretrendszer, masszívan parallel az elosztott rendszerek operációs rendszere JAVA-ban íródott Open-source alkalmazás A számítás és a tárolás egy helyen történik Lineárisan skálázható Lehetővé teszi az elosztott Adattárolást Adatfeldolgozást
Rövid történet 2002 Nutch (web crawler), új, gyorsabb keresőmotor Doug Cutting, Mike Cafarella 2003 Október Google File System paper 2004 December MapReduce paper (szintén a Google adta ki) 2005 ráépítették a Nutchot erre a két technológiára (20-40 gépen) 2006-ban Cuttinga Yahoo-hoz ment dolgozni A Yahoonak már akkor nagyon tetszett a GFS és a MapReduce -> open-source platform építése Elkezdték fejleszteni a Hadoop-ot az Apache SF keretei között Cuttingvezetésével Egymás után jelentek meg a kiegészítő komponensek (orchestration, security) 2008: Cloudera, 2009-től Cutting is ott dolgozik, jelenleg Chief Architect Eric Baldeschwieler (VP of Hadoop a Yahoo-nál) megalapítja a Hortonworksöt https://gigaom.com/2013/03/04/the-history-of-hadoop-from-4-nodes-to-the-future-of-data/
Disztribúciók A Hadoopot önmagában sem könnyű telepíteni 20 szoftverkomponenssel majdnem lehetetlen üzemeltetni Létrejöttek disztribúciók 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 7
Komponensek HDFS adattárolás MapReduce adatfeldolgozás YARN erőforrás menedzsment
Hadoop alapkomponensek
Clusterarchitektúra
Elosztottság Nem csak a fájlrendszer elosztott, hanem minden adatfeldolgozó szolgáltatás is (például a MapReduce)
Csak append HDFS (Hadoop Distributed File System)
MapReduce
SQL --> MapReduce SELECT SUM(fizetes) FROM alkalmazottak WHERE fizetes > 200000 GROUP by pozicio >> MAP SHUFFLE REDUCE 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 14
YARN 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 15
Főbb, Hadoop-palegyüttműködő szoftverkomponensek 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 16
Data Engineer Data Analyst BI Tools Data Scientist Analytic Tools STREAM Stream processors Interfaces BATCH Structured Data Unstructured Data Loaders Hadoop-based Data Management Cluster Data Process Engines Data Store Structured Data Unstructured Data System Engineer
Tableau, Spotfire RapidMiner, SAS Miner, KNIME STREAM Storm, Spark SQL: Hive (MR), Impala, code: Java (MR), Python (Spark) etc. Network log Hadoop-based Data Management Cluster BATCH Senzor data Sqoop, ODBC MapReduce, Spark, Impala HDFS CRM, ERP Measurement data
RAID és HDFS RAID (hardveres megoldás) 1. Hibatűrés: replikáció a diszkeken 2. Jobb teljesítmény: 1 fájl több diszken van tárolva, párhuzamosan lehet olvasni HDFS (szoftveres megoldás) 1. Hibatűrés: a fájl blokkok replikálva vannak a több datanode diszkjein. 2. Jobb teljesítmény : Minden diszk full sebességen tud pörögni egy jól optimalizált clusteren, hiszen itt is párhuzamosan lehet felolvasni 1-1 fájlt, csak itt blokkonként. Tehát a HDFS gyakorlatilag elvégzi a RAID munkáját. Ha mindkettőt egyszerre használnánk, akkor Költésgesebb lenne Kevesebb storage állna rendelkezésre Lassabb lenne
Virtualizálás Az általános mondás szerint nem virtualizálunk Hadoopot, mert teljesítménycsökkenést okoz VMware kutatása szerint akár érdemes lehet virtualizálni (non-shared, directattached storage (DAS)) http://www.zdnet.com/article/virtualized-hadoop- a-brief-look-at-the-possibility/
Felhő A felhőben Olcsón Könnyen Gyorsan Deployolhatunk Hadoop clustert A meglévő disztribúciók mellett kínálnak saját Hadoop disztribúciókat is A telepítés a platform saját konzoljáról történik 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 21
Köszönöm a figyelmet! Szabó Csenger szabo.csenger@nextent.hu 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 22