RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Hasonló dokumentumok
Felhők teljesítményelemzése felhő alapokon

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Big Data elemzési módszerek

Adatbányászati szemelvények MapReduce környezetben

MMK-Informatikai projekt ellenőr képzés 4

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

Hadoop és használata az LPDS cloud-on

Számítógépes Hálózatok

EGYSZERŰ, NEM IRÁNYÍTOTT (IRÁNYÍTATLAN) GRÁF

Big Data tömeges adatelemzés gyorsan

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

Weblog elemzés Hadoopon 1/39

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Hálózati réteg. WSN topológia. Útvonalválasztás.

KORSZERŰ BIG DATA FELDOLGOZÓ KERETRENDSZEREK Hermann Gábor MTA-SZTAKI

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Big Data elemzési módszerek

Dinamikus modellek szerkezete, SDG modellek

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Közösség detektálás gráfokban

Muppet: Gyors adatok MapReduce stílusú feldolgozása. Muppet: MapReduce-Style Processing of Fast Data

E.4 Markov-láncok E.4 Markov-láncok. Sok sorbanállási hálózat viselkedése leírható "folytonos idejű Markovláncok " segítségével.

Component Soft és tovább

Riak. Pronounced REE-ahk. Elosztott adattároló eszköz. Molnár Péter

Nagy méretű adathalmazok vizualizációja

Lineáris algebra I. Vektorok és szorzataik

Algoritmuselmélet. Gráfok megadása, szélességi bejárás, összefüggőség, párosítás. Katona Gyula Y.

Multimédiás és webes adatbányászat KISS LÁSZLÓ

Adatbáziskezelő-szerver. Relációs adatbázis-kezelők SQL. Házi feladat. Relációs adatszerkezet

Saj at ert ek-probl em ak febru ar 26.

Adatszerkezetek 2. Dr. Iványi Péter

Algoritmuselmélet 7. előadás

IBM SPSS Modeler 18.2 Újdonságok

PageRank algoritmus Hubs and Authorities. Adatbányászat. Webbányászat PageRank, Hubs and Authorities. Szegedi Tudományegyetem.

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

1: Bevezetés: Internet, rétegmodell Alapok: aszimptótika, gráfok. HálózatokII, 2007

Teljesen elosztott adatfeldogozás és adatbányászat

Számítógép hálózatok, osztott rendszerek 2009

Képrekonstrukció 9. előadás

Karakterkészlet. A kis- és nagybetűk nem különböznek, a sztringliterálok belsejét leszámítva!

Robotok inverz geometriája

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

Egészítsük ki a Drupal-t. Drupal modul fejlesztés

Nagyméretű adathalmazok vizualizációja

Összeállította: dr. Leitold Adrien egyetemi docens

Teljesen elosztott adatbányászat alprojekt

MapReduce paradigma a CAP-tétel kontextusában. Adatb haladóknak. Balassi Márton Adatbázisok haladóknak 2012.

Big data amikor a probléma az adat mérete maga

2018, Diszkrét matematika

Constraint-ek. Fehér Béla Szántó Péter, Lazányi János, Raikovich Tamás BME MIT FPGA laboratórium





Oracle Big Data koncepció. Stadler Gellért Vezető tanácsadó Oracle ConsulKng HTE 2015 Konferencia

17. előadás: Vektorok a térben

Adatok importálása R-ben

KIEGÉSZÍTŽ FELADATOK. Készlet Bud. Kap. Pápa Sopr. Veszp. Kecsk Pécs Szomb Igény

1. Generátorrendszer. Házi feladat (fizikából tudjuk) Ha v és w nem párhuzamos síkvektorok, akkor generátorrendszert alkotnak a sík vektorainak

Házi Feladat. 3 fős csapatok o Javasolt: legyen benne > másodéves informatikus

Nyíregyházi Egyetem Matematika és Informatika Intézete. Input/Output

Adatbáziskezelı-szerver SQL. Relációs adatbázis-kezelık. Relációs adatszerkezet. Házi feladat

HÁZI FELADAT PROGRAMOZÁS I. évf. Fizikus BSc. 2009/2010. I. félév

Attribútumok, constraint-ek

INFORMATIKAI ALAPISMERETEK

Permutáció n = 3 esetében: Eredmény: permutációk száma: P n = n! romámul: permutări, angolul: permutation

Társadalmi és gazdasági hálózatok modellezése

2. lépés: openssh szerver telepítés sudo apt-get install openssh-server

A Facebook adattárháza. Trencséni Márton info99

Tulajdonságalapú tesztelés

Számítógépes Hálózatok. 6. gyakorlat

Webes alkalmazások fejlesztése 11. előadás. Alkalmazások felhőben Giachetta Roberto

Algoritmuselmélet. Legrövidebb utak, Bellmann-Ford, Dijkstra. Katona Gyula Y.

Webes alkalmazások fejlesztése 11. előadás. Alkalmazások felhőben. Alkalmazások felhőben Számítástechnikai felhő

Big Data az adattárházban

Bevezetés az algebrába 2 Vektor- és mátrixnorma

MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Képrekonstrukció 6. előadás

Gráfelméleti feladatok. c f

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

Aradi Bernadett. 2017/18 ősz. TensorFlow konvolúciós hálózatokhoz 2017/18 ősz 1 / 11

Szoftver-mérés. Szoftver metrikák. Szoftver mérés

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

1. zárthelyi,

Gauss-Seidel iteráció

Konjugált gradiens módszer

Distributed Computing, Spark Streaming, GraphX, MLib. Gombos Gergő

Bozóki Sándor. MTA SZTAKI, Budapesti Corvinus Egyetem. Vitaliy Tsyganok

Java és web programozás

A ChipScope logikai analizátor

Mintavételezés, szűrés, kilógó esetek detektálása

Objektumorientált Programozás III.

Relációs algebra áttekintés és egy táblára vonatkozó lekérdezések

Rendszermodellezés. Modellellenőrzés. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Virtuális Obszervatórium. Gombos Gergő

Gauss elimináció, LU felbontás

Felvételi tematika INFORMATIKA

Klaszterezés, 2. rész

Informatikai alapismeretek Földtudományi BSC számára

Diszkrét matematika 2.C szakirány

Átírás:

RHadoop Kocsis Imre ikocsis@mit.bme.hu Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Házi feladat Csapatépítés o 2 fő, tetszőleges kombinációkban http://goo.gl/m8yzwq Feladatválasztás o Adatsor típusa o Adatméret o Jelentkező csapatok maximális száma Specifikációk feldolgozása beérkezési sorrendben! Honlapon látszik majd, ha valamelyik feladattípus betelt

Specifikáció Választott adatsor szöveges leírása Dimenziók o Fontosabb attribútumok, típussal o Sorok száma rmr2 környezet kipróbálása local backend! Beolvasni, sorokat számolni tudjunk Lehetséges kutatási kérdések (~3) Határidő: nov. 10., 23:59 Send to: salanki@mit.bme.hu && ikocsis@mit.bme.hu

RHadoop (rmr2)

Egy/A Big Data probléma At rest Big Data o Nincs update o Mindent elemzünk Elosztott tárolás Computation to data Not true, but a very, very good lie! (T. Pratchett, Nightwatch)

MapReduce Reduce [,[,, ]] [,[,, ]] [,[,, ]] [,[,, ]] [,[,, ]] SHUFFLE Map Distributed File System

RHadoop = Hadoop + R MapReduce Hadoop SHUFFLE HDFS map(k,v) reduce(k,vv) mapreduce(...)

RHadoop github.com/revolutionanalytics/rhadoop/ The most mature [ ] project for R and Hadoop is RHadoop. (O Reilly, R In a Nutshell, 2012) rmr(2): mapreduce rhdfs: HDFS állománykezelés rhbase, plyrmr

Local backend rmr.options(backend="local") Helyi állományrendszer Szekvenciális végrehajtás Debug! Input/output itt is állományrendszer

RHadoop install (local backend) http://home.mit.bme.hu/~ikocsis/notes/2013/10/ 23/(r)hadoop-sandbox-howto/ N.B. egy éves tutorial De azért megnézzük

Szószámlálás

rmr: mapreduce

Forrás: [1], p 30 MapReduce: a teljes kép

Input/output format text json csv native (R sorosítás) sequence.typedbytes (Hadoop) pig.hive hbase

Map és Reduce: R-ben Előnyök o Csomagok! o MR algoritmus-prototipizálás + a vezérlés is: kényelem Hadoop Job: egy függvényhívás! o Pl. iteratív MapReduce teljesen R-ben o Map és Reduce: ~a hívó környezetben

Hogyan lehet ilyenem? Local backend, sandbox VM-ek o Cloudera, Hortonworks Saját Hadoop klaszter Amazon Elastic MapReduce (EMR) o Bérelhető Hadoop klaszter o Erősen javasolt kipróbálni Saját felhő megoldás

Nehézkes debug +1 hangolási réteg MAHOUT-klón Sok Hadoop funkc. Kevés példa Hátrányok?

Folytatás: GIM-V

PageRank A oldalt linkeljék T 1, T 2,, T n oldalak. 0 < d < 1. o Eredeti, publikált default: 0.85 C(A): kimenő fokszám Definíció: PR A = 1 d + d PR T 1 C T 1 + + PR T n C T n ~ random látogató helyének val. eloszlása

Tranzíciós mátrix

Általánosítás: a GIM-V primitív Generalized Iterative Matrix-Vector multiplication A szokásos feladat: M v = v, ahol v i = j=1 Valójában három operátor: o combine2: a szorzás n m ij v j o combineall: n szorzás-eredmény szummája i-re o assign: vektorelemek frissítése

GIM-V v = M G v v i = assign(v i, combineall i ({x j j = 1 n, x j = combine2(m ij, v j )})) Iteratív: G -t konvergenciakritériumig alkalmazzuk BTW feltételezve egy E(sid, did, val) és V(id,val) táblát G SQL-ben:

GIM-V: PageRank M: oszlopnormalizált szomszédossági mátrix combine2: c m ij v j combineall: 1 c n + n j=1 x j assign: v new

GIM-V: Random Walk with Restart Csomópontok közelségének mérése A k-adik csomópontból induló vektor egyenlete (M ua): r k = cmr k + 1 c e k Ahol e k nullvektor a k-adik, 1 értékű pozíciótól eltekintve combine2: c m ij v j n combineall: 1 c I i k + j=1 x j assign: v new

GIM-V: összefüggő komponensek Minden v i -hez komponens ID c i h : Minimum csomópont-id h hopon belül M: szomszédossági mátrix Minden iterációban: o Minden csomópont elküldi szomszédjainak c i h -ját o Iteráció: minden csomópontban minimumképzés combine2: m ij v j combineall:min{x j j = 1 n} assign: MIN(v i, v new )

GIM-V: összefüggő komponensek Megállás: nem változik a vektor Tétel: legfeljebb gráfátmérő számú lépés kell o Diameter: pontpárok közötti legrövidebb utak hosszának maximuma

GIM-V: algoritmusok Naive multiplication, block multiplication, clustered edges, diagonal block iteration, Blokk szorzás: vektorokat és mátrixot is blokkosítva tárolunk (és csak ha nem nulla)