Miről lesz szó Big Data definíció Mi a Hadoop Hadoop működése, elemei Köré épülő technológiák Disztribúciók, Big Data a felhőben Miért, hol és hogyan használják
Big Data definíció
Miért Big a Data?
2017. 12. 07. MMK-Informatikai projekt ellenőr képzés 4
Mi a Hadoop? Open-source alkalmazás JAVA-baníródott keretrendszer az elosztott rendszerek operációs rendszere Lehetővé teszi az elosztott Adattárolást Adatfeldolgozást Lineárisan skálázható
Rövid történet 2002 Nutch (web crawler), új, gyorsabb keresőmotor Doug Cutting, Mike Cafarella 2003 Október Google File System paper 2004 December MapReduce paper (szintén a Google adta ki) 2005 ráépítették a Nutchot erre a két technológiára (20-40 gépen) 2006-ban Cuttinga Yahoo-hoz ment dolgozni A Yahoonak már akkor nagyon tetszett a GFS és a MapReduce -> open-source platform építése Elkezdték fejleszteni a Hadoop-ot az Apache SF keretei között Cutting vezetésével Egymás után jelentek meg a kiegészítő komponensek (orchestration, security) 2008: Cloudera, 2009-től Cuttingis ott dolgozik, jelenleg Chief Architect Eric Baldeschwieler (VP of Hadoop a Yahoo-nál) megalapítja a Hortonworks-öt https://gigaom.com/2013/03/04/the-history-of-hadoop-from-4-nodes-to-the-future-of-data/
Komponensek HDFS adattárolás MapReduce adatfeldolgozás YARN erőforrás menedzsment
Cluster architektúra
Elosztottság Nem csak a fájlrendszer elosztott, hanem minden adatfeldolgozó szolgáltatás is (például a MapReduce)
Csak append HDFS (Hadoop Distributed File System)
MapReduce
SQL --> MapReduce SELECT pozicio, SUM(fizetes) FROM alkalmazottak WHERE fizetes > 200000 GROUP by pozicio >> MAP REDUCE 2017. 12. 07. MMK-Informatikai projekt ellenőr képzés 12
YARN 2017. 12. 07. MMK-Informatikai projekt ellenőr képzés 13
Főbb, Hadoop-pal együttműködő open-source szoftverkomponensek 2017. 12. 07. MMK-Informatikai projekt ellenőr képzés 14
Adattárház a Hadoopon Impala, Hive, Presto Adattárház funkciók a HDFS-en tárolt fájlokon SQL Táblák, adatbázisok, sémák Táblakapcsolatok Hozzáférés ODBC, JDBC-vel Oozie BI eszközök Workflow készítő és workflow ütemező, monitorozó HUE-ban monitorozó felület is van hozzá Az Oozie-ban definiált jobok folyamatosan feedback-et szolgáltatnak Sqoop Kapcsolat más rendszerekkel Kapcsolat a Hadoop és a relációs adatbázisok között MySQL, Oracle, PostreSQL, SQL Server, Generic JDBC Adatok importálása és exportálása Hivemetastore-t használja 2017. 12. 07. MMK-Informatikai projekt ellenőr képzés 15
Disztribúciók A Hadoopot önmagában sem könnyű telepíteni 20 szoftverkomponenssel majdnem lehetetlen üzemeltetni Létrejöttek disztribúciók 2017. 12. 07. MMK-Informatikai projekt ellenőr képzés 16
Data Engineer Data Analyst BI Tools Data Scientist Analytic Tools STREAM Stream processors Interfaces BATCH Structured Data Unstructured Data Loaders Hadoop-based Data Management Cluster Data Process Engines Data Store Structured Data Unstructured Data System Engineer
Nagyvállalati hibrid architektúra 2017. 12. 07. MMK-Informatikai projekt ellenőr képzés 18
RAID és HDFS RAID (hardveres megoldás) 1. Hibatűrés: replikáció a diszkeken 2. Jobb teljesítmény: 1 fájl több diszken van tárolva, párhuzamosan lehet olvasni HDFS (szoftveres megoldás) 1. Hibatűrés: a fájl blokkok replikálva vannak a több datanode diszkjein. 2. Jobb teljesítmény : Minden diszk full sebességen tud pörögni egy jól optimalizált clusteren, hiszen itt is párhuzamosan lehet felolvasni 1-1 fájlt, csak itt blokkonként. Tehát a HDFS gyakorlatilag elvégzi a RAID munkáját. Ha mindkettőt egyszerre használnánk, akkor Költésgesebb lenne Kevesebb storage állna rendelkezésre Lassabb lenne
Virtualizálás Az általános mondás szerint nem virtualizálunk Hadoopot, mert teljesítménycsökkenést okoz VMware kutatása szerint akár érdemes lehet virtualizálni (non-shared, direct-attached storage (DAS)) http://www.zdnet.com/article/virtualized-hadoop-a -brie f-look-at-the-possibility/
Felhő A felhőben Olcsón Könnyen Gyorsan Deployolhatunk Hadoop clustert A meglévő disztribúciók mellett kínálnak saját Hadoop disztribúciókat is A telepítés a platform saját konzoljáról történik 2017. 12. 07. MMK-Informatikai projekt ellenőr képzés 21
Szabó Csenger Chatbotok 22