BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

Hasonló dokumentumok
Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Felhő rendszerek és felhő föderációk. Kacsuk Péter MTA SZTAKI

MTA Cloud Use cases MTA Cloud workshop. Hernáth Szabolcs MTA WIGNER FK

Az MTA Cloud használatának alapismeretei (tutorial) Lovas Róbert MTA SZTAKI

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

Felhő alapú hálózatok Konténerek orkesztrálása Simon Csaba. Budapesti Műszaki és Gazdaságtudományi Egyetem

A felhőről általában. Kacsuk Péter MTA SZTAKI

Az MTA Cloud projekt MTA Cloud projektzáró június 28.

Felhő demonstráció Gergely Márk MTA SZTAKI

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Miért jó nekünk kutatóknak a felhő? Kacsuk Péter MTA SZTAKI

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

MMK-Informatikai projekt ellenőr képzés 4

Párhuzamos és Grid rendszerek

Felhőszolgáltatások megvalósítása PureSystems eszközökön

Hadoop és használata az LPDS cloud-on

GUSE BEMUTATÓ. Az MTA CLOUD felhasználói számára készült guse bemutató v2.0. MTA Cloud csapat

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Big Data tömeges adatelemzés gyorsan

A hibrid DB cloud biztonsági eszköztára. Kóródi Ferenc Budapest,

A cloud szolgáltatási modell a közigazgatásban

VIRTUALIZÁCIÓS TECHNOLÓGIÁK EUCALYPTUS CLOUD PLATFORM

Felhőszámítástechnika (Cloud Computing) helye és szerepe az on-line világ folyamataiban. Dr. Élő Gábor Széchenyi István Egyetem ITOK 2013


A kibontakozó új hajtóerő a mesterséges intelligencia

alkalmazásfejlesztő környezete

Linux Linux rendszeren a Wine segédprogram segítségével telepíthető az Adobe Digital Editions.

Felhő-alapú technológiák az Ipar 4.0 szolgálatában (kibővített előadás az EOQ MNB fórumra)

Amazon Web Services. Géhberger Dániel Szolgáltatások és alkalmazások március 28.

IVSZ adatközpont és felhő workshop. A kormányzati felhő kialakítása október 29. Gazdag Ferenc infrastruktúra főmérnök

Segesdi Dániel. OpenNebula. Virtualizációs technológiák és alkalmazásaik BMEVIMIAV ősz

Megyei statisztikai profil a Smart Specialisation Strategy (S3) megalapozásához- Budapest és Pest megye. Budapest, dr.

NIIF Központi Elosztott Szolgáltatói Platform

FELHŐ és a MAINFRAME. Irmes Sándor

Wigner 115. A Felhők felett. Pető Gábor MTA Wigner FK, Adatközpont november 15.

Képi információk hatékony feldolgozása széles társadalmi rétegeket érintő egészségügyi problémákban

SUSE Container as a Service Platform Nagyvállalati Kubernetes. Papp Zsolt Konzultáns

Az NIIF új szuperszámítógép infrastruktúrája Új lehetőségek a kutatói hálózatban

Cloud Akkreditációs Szolgáltatás indítása CLAKK projekt. Kozlovszky Miklós, Németh Zsolt, Lovas Róbert 9. LPDS MTA SZTAKI Tudományos nap

Composable Infrastruktúra

Informatikai célrendszertől a komplex oktatási intézménymenedzsmentig

Bevezetés A harmadik szoftverkrízis korát éljük! Szoftverkrízisek: 1. nincs elég olcsó: hardver, szoftver, programozó 2. nincs elég olcsó: szoftver, p

NIIF szolgáltatások a múzeumok számára

Big Data: a több adatnál is több

KÖLTSÉGHATÉKONYSÁG CLOUD ALAPÚ RENDSZEREKBEN -

BackupPC. Az /etc/hosts fájlba betehetjük a hosztokat, ha nem a tejles (fqdn, DNS név) névvel hivatkozunk rájuk: # /etc/hosts #

NIIF és a Sulinet + fejlesztések

RH/CentOS felügyelet SUSE Manager segítségével. Kovács Lajos Vezető konzultáns

Automatikus infrastruktúra menedzsment és alkalmazástelepítés

A polgármesteri hivatal informatikai rendszere a városirányítás szolgálatában

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

Csoportkezelés a szövetségben

Korszerű Adatbázisok. Gombos Gergő

Campus IPv6 projekt eredményei

Sulinet infrastruktúra fejlesztése - Sulinet + projekt

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting

"sulinet+" - Végponti kapcsolatok és központi szolgáltatás-fejlesztés a közoktatási hálózatban

IT szolgáltatás menedzsment bevezetés az IIER projektben

Papp Attila. BI - mindenkinek

HaXSoN Nyílt forrásdú, zárt informatikai rendszer

Sulinet infrastruktúra fejlesztése - Sulinet + projekt

JavaScript Web AppBuilder használata

Az információs portáloktól a tudásportálokig

SZOFTVERFEJLESZTÉS. Földtudományi mérnöki mesterszak / Geoinformatikus-mérnöki szakirány. 2017/18 II. félév. A kurzus ebben a félévben nem indult

KORSZERŰ BIG DATA FELDOLGOZÓ KERETRENDSZEREK Hermann Gábor MTA-SZTAKI

Webes alkalmazások fejlesztése Bevezetés. Célkitűzés, tematika, követelmények. A.NET Core keretrendszer

Oracle Enterprise Manager: Az első teljesértékű felhő üzemeltetési megoldás

Networkshop Kaposvár Balaskó Á., Kozlovszky M., Karóczkai K., Márton I., Kacsuk P. MTA SZTAKI

Webes alkalmazások fejlesztése Bevezetés. Célkitűzés, tematika, követelmények. A.NET Core keretrendszer

"sulinet+" - végponti kapcsolatok és központi szolgáltatás-fejlesztés a közoktatási hálózatban

Felhőalkalmazások a. könyvvizsgálatban

EGI-InSPIRE. Café Grid március 24. Szeberényi Imre 3/25/ EGI-InSPIRE RI

Programtervező informatikus BSc 2018, Szoftverfejlesztő specializáció ajánlott tantervi háló. Törzsanyag. Konzultáció Kredit

Korszerű Adatbázisok. Gombos Gergő

MINISZTERELNÖKI HIVATAL. Szóbeli vizsgatevékenység

Egységes metamodell kialakítása privát IaaS cloud rendszerekhez

A Jövő Internet Nemzeti Kutatási Program bemutatása

Az információs rendszerek adatai

Statisztikai profil a Smart Specialisation Strategy (S3) megalapozásához Budapest

INFORMÁCIÓTECHNOLÓGIA ÉS KOMMUNIKÁCIÓ FELHŐBŐL. HOUG 2013, Siófok

Adatbázis rendszerek 7. előadás State of the art

TECHNOLÓGIAI JÖVİKÉP. Felhınézetben. Tázló József mőszaki igazgató Cisco Systems Magyarország Cisco Systems, Inc. All rights reserved.

WEB2GRID: Desktop Grid a Web 2.0 szolgálatában

Takács Gábor mérnök informatikus, okl. mérnöktanár

Sulinet infrastruktúra fejlesztése - Sulinet + projekt

Az információs rendszerek adatai

HAMOR Soft. Korszerű ügyvitel Linuxon, Cloudban, táblagéppel, okostelefonnal. Bodosi Imre ügyvezető, rendszertervező. Sántha Loránt programozó

Innovatív informatikai megoldás a logisztikai szektor nemzetközi együttműködésének javítására Bay Zoltán Nonprofit Kft. Logisztika Rendszerek

Az Open Source lehetősége a szegedi geoinformatika képzésben

Tartalom. Konfiguráció menedzsment bevezetési tapasztalatok. Bevezetés. Tipikus konfigurációs adatbázis kialakítási projekt. Adatbázis szerkezet

Eduroam Az NIIF tervei

TANANYAGTÁRHÁZAK SZEREPE AZ ELEARNINGBEN. Vágvölgyi Csaba - Papp Gyula. Kölcsey Ferenc Református Tanítóképző Főiskola Debrecen

Mobilplatformok Merre tart a világ? Kis Gergely MattaKis Consulting

Geotechnika II. (NGB-SE005-2) Geo5 használat

Worldwide LHC Computing Grid

Kutatási fázis eredményei. Turi Péter

Sulinet + " áttekintés

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

Esri Magyarország Felhasználói Konferencia Portal for ArcGIS. Kisréti Ákos

Átírás:

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

TARTALOM MTA Cloud Big Data és gépi tanulást támogató szoftver eszközök Apache Spark keretrendszer Occopus felhő menedzser és orkesztrátor Rstudio, R, SparklyR, Spark klaszter, HDFS környezet létrehozása Jupyter, Python, Spark ml, Spark klaszter, HDFS környezet létrehozása Továbbfejlesztési irányok

MTA CLOUD Két telephely:wigner Adatközpont és MTA SZTAKI OpenStack és Docker konténer alapú IaaS felhő infrastruktúra Ingyenes használat MTA kutatói számára Jelenleg 95 aktív projekt, 2016 óta több, mint 20 különböző MTA intézetből pld.: Nyelvtudományi Intézet, Konkoly Thege Miklós Csillagászati Intézet, Szociológiai Intézet, Rényi Alfréd Matematikai Kutatóintézet 4000 vcpu, 5,25 TB memória, 762 TB tároló kapacitás 2017-es bővítéssel GPGPU kártyák: Wigner 4 db nvidia V100, SZTAKI oldalon 8 darab Tesla K80 GPU

MUNKÁNK CÉLJA Gépi tanulás egyre fontosabb DE: nagy számítási erőforrás igény MTA Cloud az MTA kutatóknak Apache Spark keretrendszer elterjedt DE: kiépítése nem triviális, az MTA Cloud felhasználók döntő többsége nem informatikus CÉLUNK: megkönnyíteni az MTA Cloud felhasználók számára a Big Data és gépi tanulást támogató környezetek felépítését telepítési mechanizmus elkészítése, a megoldás használata Occopus orkesztrációs eszközzel 4

APACHE SPARK ÖKO SZISZTÉMA

BIG DATA ÉS GÉPI TANULÁST TÁMOGATÓ ESZKÖZÖK

ELŐRE DOBOZOLT MEGOLDÁSOK Google Cloud - Cloud Dataproc Google Cloud Platform Amazon Elastic MapReduce (EMR) CloudBreak from Hortonworks Hortonworks platforms Problémák: Kereskedelmi felhők Beszállítói függőség (vendor lock-in) Az MTA Cloud-on nem állnak rendelkezésre

MTA KUTATÓK TÁMOGATÁSA MTA TK Politikatudományi Intézet Feladat: nyomtatott és online médiában megjelenő újságcikkek osztályozása textanalitika, neurális háló használata, R nyelvben Spark klaszter használata MTA CSFK Csillagászati és Földtudományi Kutatóközpont Feladat: fényerősség intenzitásának változása alapján van-e bolygója egy csillagnak? klasszifikációs feladat, konvolúciós neurális hálóval, Python, Keras, TensorFlow, GPU használat

MTA TK POLITIKATUDOMÁNYI INTÉZET FELADATÁHOZ SZÜKSÉGES KÖRNYEZET

OCCOPUS Nyílt forráskódú hibrid orkesztrációs eszköz MTA SZTAKI által fejlesztett Felhőfüggetlen megoldás Hordozható leírók Skálázási lehetőség Kontextualizáció cloud-init segítségével

A MEGOLDÁS ARCHITEKTÚRÁJA Spark leírók OCCOPUS SW SM SW SW 11

OCCOPUS LEÍRÓK Infra description Csomópontok Változók Skálázás Függőségek Binárisok telepítése Konfigurációs fájlok telepítése (testreszabhatóság) Spark konfiguráció Spark démonok elindítása Node definition Erőforrás definiálás Kontextualizáció Egészség-ellenőrzés Konfigurációs menedzsment Cloud-init files Felhasználó kezelés Fájlok telepítése Parancsok

A MEGOLDÁS HASZNÁLATA 1. Occopus telepítése: Occopus weboldal Get started/install manual 2. Leírók letöltése: Occopus weboldal Tutorials/Tutorials on Big Data and AI applications/apache Spark cluster 3. Leírók személyre szabása: Occopus weboldal Collecting-resourceattributes 4. Occopus aktiválása: aktiváljuk az Occopus virtuális környezetét 5. Leírók importálása: importáljuk a node definíciós fájlt 6. Klaszter kiépítése: Indítsuk el a telepítési folyamatot

FELHASZNÁLÁSI LEHETŐSÉGEK Leírók közzététele MTA Cloud honlapján Integráció Jupyter Notebookkal (nyílt forráskódú webes alkalmazás, kódok, egyenletek és narratív szövegeket tartalmazó dokumentumok létrehozása, megosztása) Integráció RStudio-val (nyílt forráskódú integrált fejlesztői környezet (IDE) az R programozási nyelvhez)

WEB UI SPARK HADOOP A létrejött MI architekturák DATA TEXT FILES VM[1] HDFS VM[2] HDFS VM[10] HDFS VM[1] SPARK WORKER VM[2] SPARK WORKER VM[10] SPARK WORKER VM[0] SPARK MASTER R interpreter Python interpreter RSudio Web Server Jupyter Notebook MTA Cloud Public IP User PC

ELÉRÉS AZ MTA CLOUD-ON

TOVÁBBFEJLESZTÉSI IRÁNYOK Különböző alkalmazás osztályokhoz szükséges szoftver környezetek felépítése Occopusszal és ezek publikálása az MTA Cloud web lapján Pl. Az MTA CSFK Csillagászati és Földtudományi Kutatóközpont alkalmazásához szükséges környezet:

ÖSSZEFOGLALÁS Cél, hogy a magyar kutatók minél gyorsabban kezdhessék el az MI-hez kapcsolódó kutató munkát az MTA Cloud-on Ehhez olyan szoftver környezet kell, ami az ehhez szükséges szoftver eszközöket azonnal, egymással együttműködve és működőképesen tartalmazza. Célunk, hogy ilyen jól működő és felhasználható MI környezeteket hozzunk létre az MTA Cloud-on Az eddig összeállított környezetek (Hadoop, Spark, Jupyter, Rstudio) tutorial formájában elérhetők és kipróbálhatók az MTA Cloud-on Várjuk további MI igények bejelentését A felhalmozott tudás segítségével konzultációs segítséget is vállalunk

KÖSZÖNÖM A FIGYELMET! Kérdések?