III.6. MAP REDUCE ELVŰ ELOSZTOTT FELDOLGOZÁSI ALGORITMUSOK ÉS TESZTKÖRNYEZET KIDOLGOZÁSA ADATBÁNYÁSZATI FELADATOK VÉGREHAJTÁSÁHOZ

Hasonló dokumentumok

III. "JÖVŐ INTERNET" TECHNOLÓGIÁK: ELOSZTOTT ÉS FELHŐ SZOLGÁLTATÁSOK, TÁRGYAK INTERNETE DR. SIMON GYULA

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Dr. habil. Maróti György

Gépi tanulás a gyakorlatban. Lineáris regresszió

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Adatbányászati szemelvények MapReduce környezetben

Készítette: Trosztel Mátyás Konzulens: Hajós Gergely

OpenCL alapú eszközök verifikációja és validációja a gyakorlatban

Mély neuronhálók alkalmazása és optimalizálása

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Neurális hálózatok bemutató

NGB_IN040_1 SZIMULÁCIÓS TECHNIKÁK dr. Pozna Claudio Radu, Horváth Ernő

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás

Tanulás tanuló gépek tanuló algoritmusok mesterséges neurális hálózatok

Fuzzy rendszerek és neurális hálózatok alkalmazása a diagnosztikában

Optimalizáció ESX-től View-ig. Pintér Kornél ügyfélszolgála3 mérnök

IV.7 MÓDSZER KIDOLGOZÁSA FELHASZNÁLÓI ADATOK VÉDELMÉRE MOBIL ALKALMAZÁSOK ESETÉN

SAT probléma kielégíthetőségének vizsgálata. masszív parallel. mesterséges neurális hálózat alkalmazásával

Szoftver újrafelhasználás

Weblog elemzés Hadoopon 1/39

Big Data tömeges adatelemzés gyorsan

Szimuláció RICHARD M. KARP és AVI WIGDERSON. (Készítette: Domoszlai László)

Deep Learning a gyakorlatban Python és LUA alapon Tanítás: alap tippek és trükkök

30 MB INFORMATIKAI PROJEKTELLENŐR

Kollektív tanulás milliós hálózatokban. Jelasity Márk

április 24. INFO Savaria április 24. INFO Savaria április 24. INFO Savaria

AliROOT szimulációk GPU alapokon

Teljesen elosztott adatbányászat alprojekt

Stratégiák tanulása az agyban

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I.

A dokumentum egy feladatgyűjtemény első fejezetének előzetes változata.

Számítógép-rendszerek fontos jellemzői (Hardver és Szoftver):

Megerősítéses tanulás

I.3 ELOSZTOTT FOLYAMATSZINTÉZIS BERTÓK BOTOND. Témavezetői beszámoló

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Hogyan lesz adatbányából aranybánya?

KUTATÁSI JELENTÉS. Multilaterációs radarrendszer kutatása. Szüllő Ádám

Üzletmenet folytonosság menedzsment [BCM]

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

GPU-k a gravitációs hullám kutatásban

Smart Strategic Planner

Gépi tanulás és Mintafelismerés

CARE. Biztonságos. otthonok idős embereknek CARE. Biztonságos otthonok idős embereknek Dr. Vajda Ferenc Egyetemi docens

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

II. rész: a rendszer felülvizsgálati stratégia kidolgozását támogató funkciói. Tóth László, Lenkeyné Biró Gyöngyvér, Kuczogi László

Számítógépes döntéstámogatás. Genetikus algoritmusok

TARTALOMJEGYZÉK. TARTALOMJEGYZÉK...vii ELŐSZÓ... xiii BEVEZETÉS A lágy számításról A könyv célkitűzése és felépítése...

Az agyi jelek adaptív feldolgozása MENTÁ LIS FÁ R A DT S ÁG MÉRÉSE

Gépi tanulás a gyakorlatban. Bevezetés

Bár a szoftverleltárt elsősorban magamnak készítettem, de ha már itt van, miért is ne használhatná más is.

Hidraulikus hálózatok robusztusságának növelése

Mesterséges intelligencia alapú regressziós tesztelés

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Biztonsági Felhő A KÜRT legújabb világszínvonalú technológiai fejlesztése

A dokumentum egy feladatgyűjtemény harmadik fejezetének előzetes változata.

Rendszámfelismerő rendszerek

Szomszédság alapú ajánló rendszerek

Csank András ELMŰ Hálózati Kft. Dunay András Geometria Kft

A cloud szolgáltatási modell a közigazgatásban

MapReduce paradigma a CAP-tétel kontextusában. Adatb haladóknak. Balassi Márton Adatbázisok haladóknak 2012.

Hadoop és használata az LPDS cloud-on

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Teljesítmény Mérés. Tóth Zsolt. Miskolci Egyetem. Tóth Zsolt (Miskolci Egyetem) Teljesítmény Mérés / 20

Megerősítéses tanulás 7. előadás

Relációs algebra lekérdezések optimalizációja. Adatbázisok használata

ESZKÖZTÁMOGATÁS A TESZTELÉSBEN

RTD-CORROCONT Az alacsonyfrekvenciás anyagvizsgálatok gyakorlati tapasztalatai

MMK-Informatikai projekt ellenőr képzés 4

NEURONHÁLÓK ÉS TANÍTÁSUK A BACKPROPAGATION ALGORITMUSSAL. A tananyag az EFOP pályázat támogatásával készült.

Megoldás. Feladat 1. Statikus teszt Specifikáció felülvizsgálat

Magas szintű optimalizálás

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

Informatika Rendszerek Alapjai

Intelligens Rendszerek Elmélete. Párhuzamos keresés genetikus algoritmusokkal

Neurális hálózatok.... a gyakorlatban

PARADIGMAVÁLTÁS A KÖZOKTATÁSBAN MOST VAGY SOHA?!

Mérési hibák

Hibadetektáló rendszer légtechnikai berendezések számára

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

T E R M É K T Á J É K O Z TAT Ó

Aradi Bernadett. 2017/18 ősz. TensorFlow konvolúciós hálózatokhoz 2017/18 ősz 1 / 11

Átfogó megoldás a számlafolyamatok felgyorsításához ELO DocXtractor. Laczkó Kristóf ELO Digital Office Kft. Bálint András Prognax Kft.

Nyomtatási rendszer szolgáltatás - SLA

Nyilvántartási Rendszer

2. Rugalmas állandók mérése jegyzőkönyv javított. Zsigmond Anna Fizika Bsc II. Mérés dátuma: Leadás dátuma:

Peer-to-peer (P2P) gépi tanulás. Hegedűs István

Cloud Akkreditációs Szolgáltatás indítása CLAKK projekt. Kozlovszky Miklós, Németh Zsolt, Lovas Róbert 9. LPDS MTA SZTAKI Tudományos nap

Méréselmélet MI BSc 1

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

MŰSZAKKIOSZTÁSI PROBLÉMÁK A KÖZÖSSÉGI KÖZLEKEDÉSBEN

Szoftver karbantartási lépések ellenőrzése

Képi információk hatékony feldolgozása széles társadalmi rétegeket érintő egészségügyi problémákban

egy szisztolikus példa

[1000 ; 0] 7 [1000 ; 3000]

ELEMZŐ KAPACITÁS FEJLESZTÉSE, MÓDSZERTANI FEJLESZTÉS MEGVALÓSÍTÁSA

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

2. Számítógépek működési elve. Bevezetés az informatikába. Vezérlés elve. Külső programvezérlés... Memória. Belső programvezérlés

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

Átírás:

infokommunikációs technológiák III.6. MAP REDUCE ELVŰ ELOSZTOTT FELDOLGOZÁSI ALGORITMUSOK ÉS TESZTKÖRNYEZET KIDOLGOZÁSA ADATBÁNYÁSZATI FELADATOK VÉGREHAJTÁSÁHOZ KECSKEMÉTI ANNA KUN JEROMOS KÜRT Zrt.

KUTATÁSI TERÜLET BEMUTATÁSA A kutatási projekt során adatbányászati algoritmusok elosztott megvalósításait vizsgáltuk. Felépítettünk egy általános célú klasztert, ahol vizsgálni lehet elosztott algoritmusokat. Többféle algoritmus osztályból vizsgáltunk algoritmusokat, melyek elosztott implementáció szempontjából különböző kihívásokat jelentenek. I/O intenzív algoritmusok skálázódása elosztott rendszereken Deep learning algoritmusok vizsgálata elosztott környezetben 2

KUTATÁSBAN RÉSZT VEVŐ SZEMÉLYEK, SZEREPKÖRÖK Név Pálvölgyi János Balogh György Balázs László Tilesch Ferenc Katona Tamás Darabos Edvárd Salamon Zsolt Mátyus Milán Kecskeméti Anna Pappné Takács Krisztina Botos Ádám Szerepkör Témavezető Kutató Fiatal kutató Szoftverfejlesztési felelős Műszaki dokumentátor, tesztelő 3

A TÉMA ELŐREHALADÁSA 2014. JÚNIUS - AUGUSZTUS 4

KLASZTER KIALAKÍTÁS Cél: Elosztott adatbányászati algoritmusok futtatása 5 gép (Teljes kapacitás: 40 CPU mag, 20x500GB disk, 160GB RAM, dedikált hálózat) Hadoop ökoszisztéma: HDFS, Map-Reduce, és Appache Spark Eredménytermékek: Fizikai klaszterek fejlődéstörténetének ismertetése, (irodalmi, és technológiai áttekintés) Klaszter specifikáció (dokumentum). A megvalósult klaszter pontos specifikációja. Szoftver, hardver komponensek, konfiguráció. Klaszter telepítési útmutató (dokumentum). A klaszter reprodukáláshoz szükséges információk rögzítése. Klaszter optimalizáció (dokumentum). Klaszter építés elemzése. Milyen szempontokat kell figyelembe venni, milyen optimalizációs lehetőségek vannak. Klaszter teszt (dokumentum). A klaszter fizikai paramétereinek mérési adatai (Lokális diszk sebesség, hálózati sebesség, HDFS sebesség teszt Replikációs szám változtatása, blokkméret változtatása). 5

I/O INTENZÍV ALGORITMUSOK I/O limitált algoritmus osztály skálázódásának vizsgálata elosztott környezetben Környezet: HDFS, Map-Reduce, Appache Spark-ot. Algoritmus: log normalizáló Egy domain specifikus nyelven megfogalmazott szabályhalmaz segítségével félig strukturált adatokat strukturált táblázatos formára hoz. Vizsgálatok: Log olvasás Log normalizálás egy gép - egy szál, egy gép - több szál, batch mód - elosztott feldolgozás 6

I/O INTENZÍV ALGORITMUSOK TAPASZTALATOK log file olvasása HW függvényében: Az SSD sebességbeli fölénye a normál HDD-vel szemben. Log normalizálás: A HW összes magját kihasználva jelentős sebesség javulás értünk el. A hardware-k közötti IO sebesség eltérés eltűnt, mivel a számítások több időt igényelnek, mint maga az IO művelet. Számítások párhuzamosítása addig releváns, amíg nem érjük el az IO sebességét. Ha a számítás sebessége azonos az IO művelettel,, akkor további sebességnövekedést már csak az együttes párhuzamosítással érhető el (IO és CPU) Batch módú feldolgozás 6,83 szoros gyorsulást hozott 7

DEEP LEARNING ALGORITMUS OSZTÁLY SKÁLÁZÓDÁSÁNAK VIZSGÁLATA ELOSZTOTT KÖRNYEZETBEN Nehézségek ezen hálózatok tanításával: Jobb kezdeti paraméter beállítási technikák jobb modelleket eredményeznek, hatékony és hatásos kezdeti paraméter beállítás szakértői és domén specifikus tudást igényel, a felügyelt gépi tanítási algoritmusok hajlamosak túlzottan "memorizálni" a betanításra használt adathalmazt (túltanulás). a hálózat tanítása rendkívül időigényes. A mély és széles neurális hálózatok nagy számítási kapacitást vesznek igénybe a tanítási folyamat során. Alapmodell: egy gép egy mag dropout eljárás alapján készített implementáció. Egy multilayer (feed-forward) perceptron hálózat, melynek tanítása során stochastic gradient descend (SGD) technikát alkalmaztak. A dropout eljárást alkalmazva a hálózat egyes véletlenszerűen választott részeit tanítjuk. A modellnek több adathalmazon is jelentősen sikerült javítania az eddigi modellek felismerési pontosságát. Eredmények: A teszthalmazon mért legkisebb hiba 95 volt. 8

DEEP LEARNING ALAPMODELL Alapmodell hibája az MNIST adathalmazon. A teszthalmazon mért minimum: 95. 9

DEEP LEARNING PÁRHUZAMOSÍTÁSI LEHETŐSÉGEK VIZSGÁLATA Az MLP-k tanítását tanítási szakaszokra bontjuk és ezen szakaszokat párhuzamosan hajtjuk végre, majd a legígéretesebbnek tűnőket megtartjuk (jóság) és tovább képezzük, a többit elhagyjuk. Keretrendszer célja: Központi" gondolkodással rendelkező tanítási meta-paraméter együttes megtalálása Ismeri az eddigi tanítási szakaszok eredményeit és a folyamatban lévő tanítási szakaszokat és ezek alapján dönt a következő megvizsgálandó meta-paraméter együttesről. A keretrendszer tulajdonságai: Több számítógép, illetve processzor párhuzamos kihasználása. Központi keresési állapot konzisztenciájának megőrzése. Egy-egy gép vagy számítási szál rendes leállíthatósága. A számítási kapacitás ad-hoc bővíthetősége. Felesleges munkák elkerülése. Azaz, több gép ne számolja véletlenül ugyanazt. Egy-egy gép váratlan kiesésnek kézi kezelhetősége. A lehetséges tanítási paraméterek közül a legoptimálisabbat megpróbáljuk megkeresni egy felettes logikával. 10

DEEP LEARNING REFERENCIA MODELL Referencia modell: hálózatok átlagolása A keretrendszer ismertetésénél említett felettes logikából több is lehet. Felettes logikák (amennyiben több van) hatékonyságának vizsgálata egy referencia alapján. Több tanított hálózat Több lehetséges válasz Eredmény átlagolás Az egyes hálózatok külön-külön tanulnak, majd a klasszifikációk átlagolása történik. 11

DEEP LEARNING REFERENCIA MODELL Az ilyen párhuzamosítás az alapmodellekhez viszonyított hibát képes csökkenteni. Hiba mértékének csökkenése jelentősen függ attól, hogy a rendszer mennyire van messze az optimális tanulástól Amennyiben viszonylag messze van (még sokkal több epoch kellene), akkor ezen javulás jelentős tud lenni. Ha azonban az egyes hálózatokat hagyjuk az optimálishoz közeli szintig tanulni, akkor az eltévesztett klasszifikációk számának javulásában nem érhető el jelentős csökkenés. 12

ELOSZTOTT METAPARAMÉTER OPTIMALIZÁCIÓ MONTE CARLO MÓDSZERREL Cél: Hálózat tanítási paraméterek optimumának megtalálása bolyongással A paramétertér véletlenül kiválasztott kezdőpontjából (párhuzamosan több ilyen keresést is indítunk) indulva tovább lépünk egy másik véletlenül választott nem túl távoli pont irányába, amennyiben ott jobb a tanítás eredménye (kevesebb a hiba). 13

PILLANATKÉP AZ ELOSZTOTTAN INDÍTOTT KERESÉSEKRŐL Az ilyen keresés nem hatékony, mert a kezdeti pont környezetéről semmit nem tudunk és az erről szerzett tudást (a későbbi lépésekben) nem is használjuk fel. Emiatt elképzelhetőek olyan szerencsés választások, melyek ugyannyi lépés alatt lényegesen többet tudnak javítani a metaparaméterekben, mint egy másik helyről indított keresések. Így a keresésbe fektett erőfeszítés nem azonos módon térül meg. 14

ELOSZTOTT METAPARAMÉTER OPTIMALIZÁCIÓ BAYES MÓDSZERREL A paramétertér néhány véletlen helyén kiszámítjuk a függvény értékét (lefuttatjuk a tanítási folyamatot és vesszük a teszt halmazon mért hibát), majd a későbbiek során ezen eredmények inputjai lesznek egy keresésnek. A módszerrel becslés adható a függvényérték javításának valószínűségére (expected improvement) a függvényérték kiszámításánál lényegesen olcsóbban A kiválasztás Monte Carlo módszerrel történik, ott végrehajtunk egy tanítást, és ennek eredményét hozzáadjuk a Bayes adataihoz. Tehát a cél a keresés során olyan helyeket "tippelni", melyeknél a kiinduló hibához képest "jobb hely" található. 15

A HIBA IDŐBELI FEJLŐDÉSE EGY BAYES KERESÉS SORÁN 16

TANÍTÁSI IDŐBEN TÖRTÉNŐ KÖLTSÉGCSÖKKENTÉS KÍSÉRLETE 17

infokommunikációs technológiák KÖSZÖNJÜK A FIGYELMET!