Nagy adathalmazok elosztott feldolgozása. Dr. Hajdu András, Debreceni Egyetem, Informatikai Kar
|
|
- Jázmin Juhász
- 6 évvel ezelőtt
- Látták:
Átírás
1 Nagy adathalmazok elosztott feldolgozása Dr. Hajdu András, Debreceni Egyetem, Informatikai Kar
2 Mi a Big Data? Nem létezik egzakt Big Data definíció. A big data kifejezést a mai értelemben először Cox és Ellsworth (NASA) használta 1997-ben a szuperszámítógépes szimulációik során előállt extrém adatmennyiség feldolgozási kérdéseinek leírására. 2
3 Mi a Big Data? A big data olyan adat, ami meghaladja a hagyományos adatbázis rendszerek feldolgozási kapacitását. Az adat túl nagy, túl gyorsan mozog, vagy nem illeszkedik az adatbázis architektúra megkötéseihez. Ahhoz, hogy értéket nyerjünk ki ezekből az adatokból, alternatív feldolgozási módszert kell választani. E. Dumbill: Making sense of big data, Big Data, vol. 1, no. 1, 2013 Big Data az, amikor az adat mérete maga is a probléma részévé válik. Mike Loukides, O Reilly 3
4 A Big Data jellemzői Gartner 3V : volume terjedelem velocity sebesség variety sokszínűség IBM 4V : 3V veracity valódiság Forrás: Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data, McGraw Hill,
5 A Big Data jellemzői Terjedelem (Volume): Az előállt nyers adat mennyisége. Jellemző az akár exabájtos nagyságrend. Az adat terjedelme nem csak tárolási kérdés (pl. milyen adat kerüljön tárolásra és meddig, ritkán használt adatok periodikus törlése stb.), jelentős feldolgozási problémákat is felvet. 5
6 A Big Data jellemzői Terjedelem (Volume): Az IDC The Digital Universe in 2020 tanulmánya szerint a digitális univerzum megközelítőleg 4 zettabájt méretű (2013) és a jelenlegi növekedési ráta alapján 2020-ra elérheti a 35 zettabájtos méretet is. Például: Facebook: exabájt kapacitású cold storage adatközpont átadása 2013 októberében CERN Data Center: 220 PB (2013 július) 6
7 A Big Data jellemzői Sebesség (Velocity): Az adat előállásának és változásának gyorsasága, illetve az a sebesség amivel az adatot fogadni, értelmezni és feldolgozni kell. Jellemzően közel valósidejű vagy valósidejű/stream jellegű adatfogadásra és -feldolgozásra van szükség. 7
8 A Big Data jellemzői Sebesség (Velocity): Fontos az adatok időértéke is: az adott pillanatban rendelkezésre álló adatok valós idejű elemzése lehetővé teszi jobb adatvezérelt döntések meghozását, például termékajánlás, biztonsági kockázatok elemzése, stb. esetén. 8
9 A Big Data jellemzői Sebesség (Velocity): Például: A New York Stock Exchange naponta átlagosan 1 TB kereskedelmi információt gyűjt össze és tárol. Az LHC másodpercenként 1 PB adatot állít elő ennek kb. 1%-a kerül tárolásra. A SKA Telescope az átadása után várhatóan napi 1 EB adatot fog előállítani. 9
10 A Big Data jellemzői Sokszínűség (Variety): Az adatok forrásának, strukturáltságának és típusának változatossága. Strukturált adat: Jól definiált formában állnak rendelkezésre (pl. relációs vagy OO adatbázisokban). A tárolt adatoknak csak kb. 15%-a strukturált. 10
11 A Big Data jellemzői Sokszínűség (Variety): Strukturálatlan adat: Nem követ rögzített formátumot, sorrendet vagy egyéb szabályt. Nem megjósolható. Pl.: emberek által generált tartalmak (dokumentumok, képek, hangok, videók) 11
12 A Big Data jellemzői Sokszínűség (Variety): Félig strukturált adat: Heterogén forrásokból származó adatok integrációja és megosztása rendszerek között egyre jelentősebb. Absztrakt leírás: gráfokkal (csomópont - adatelem, élek - relációk, címkék - attribútumok). Pl.: XML állományok + dokumentumok 12
13 A Big Data jellemzői Valódiság (Veracity): A rendszer által feldolgozott és tárolt adatok minősége, pontossága, és származásának megbízhatósága. A 3V eredményeként nehéz az adatok valódiságát biztosítani. Jelentős kérdés az adatok valódiságának ellenőrzése. Pl.: Az USA gazdaságának évi 3 milliárd dolláros költséget jelent az adatok karbantartása és tisztítása (2012). 13
14 A Big Data jellemzői Valódiság (Veracity): Kezelendő problémaforrások: ellentmondásos vagy többértelmű adatok, duplikátumok, modell approximációk, feldolgozási késleltetésből eredő hibák, hamis adatok, spam, stb. Crowd computing megoldás: egy kellően nagy csoport, személyenként kis erőbefektetéssel is képes olyan problémákat megoldani ami szoftveresen nem lenne lehetséges. Pl.: improve-and-vote rendszerek. 14
15 A Big Data jelentősége A számító- és tárolókapacitás árának csökkenésével egyre nagyobb mennyiségű adat gyűjtése és tárolása válik lehetővé. A hálózatba kapcsolt eszközök számának jelentős növekedésével az adatok összegyűjtése egyre könnyebbé válik. 15 Az adatáradat - The Economist, február 25.
16 A Big Data jelentősége Leggyorsabban növekedő adatforrások: Tranzakciós és rendszernaplók Különböző eszközök szenzorai Social media: mindenki számára lehetővé vált tartalmak (szöveg, hang, kép, videó, GPS koordináták) könnyű és gyors megosztása. Cél: érték kinyerése a rendelkezésre álló nagy mennyiségű adatból. 16 Az adatáradat - The Economist, február 25.
17 A Big Data néhány alkalmazási területe Tudományos kutatás Az összegyűjthető és előállítható adatok mennyiségének robbanásszerű növekedése számos tudományterületen tette szükségessé a Big Data eszközök alkalmazását. A kollaboráció és az interdiszciplinaritás egyre inkább előtérbe kerül különböző adatok összekapcsolása. 17
18 A Big Data néhány alkalmazási területe Tudományos kutatás Konkrét hipotézisek ellenőrzése mellett új tudást is ki lehet nyerni a rendelkezésre álló adatokból hipotézismentes adatvezérelt kutatás. 18
19 A Big Data néhány alkalmazási területe Tudományos kutatás példák: Élettudományok: A biotechnológia fejlődésével és a szekvenálás költségének csökkenésével egyre több adat áll rendelkezésre, amit a hagyományos módszerekkel már nem lehet vizsgálni. Alkalmazási területek: genetika, metagenomika, proteomika, evolúciós biológia, farmakológia, stb. 19
20 A Big Data néhány alkalmazási területe Tudományos kutatás példák: Csillagászat: Square Kilometer Array (SKA) átadása után petabájtos nagyságrendű adatok feldolgozására lesz szükség. Ennek célja: az általános relativitáselmélet tesztelése, kozmológiai kutatás, sötét energia vizsgálata, galaxisok létrejöttének vizsgálata, stb. 20
21 A Big Data néhány alkalmazási területe Egészségügy és orvostudomány Elektronikus beteg rekord (EPR): egy beteg kórtörténetét tartalmazza. Diagnózisok, alkalmazott gyógyszerek, terápiák leírása és eredményei, védőoltások dátuma, allergiák és érzékenységek, radiológiai felvételek, laboratóriumi és egyéb tesztek eredményei, stb. 21
22 A Big Data néhány alkalmazási területe Egészségügy és orvostudomány Az egészségügyi folyamatokra jellemző, hogy általában több szervezeti egység vesz részt bennük, amelyek saját IT infrastruktúrával rendelkeznek heterogén adatforrásokból kell jellemzően félig strukturált adatokat kinyerni és feldolgozni. 22
23 A Big Data néhány alkalmazási területe Egészségügy és orvostudomány Ezekből adatbányászati eszközökkel lehet új ismeretet származtatni. Például: betegségek közötti összefüggések, krónikus betegségek kialakulásának okai, fertőzések terjedésének megfigyelése és előrejelzése, régiók jellemző megbetegedései (környezeti hatások feltárása) stb. 23
24 A Big Data néhány alkalmazási területe Egészségügy és orvostudomány Prediktív modellek létrehozásával lehetségessé válhat valós idejű döntéstámogatást nyújtani különböző egészségügyi osztályozási problémák során, diagnózis felállításában, az egészségügyi szolgáltatás minőségének javításában és annak költségeinek csökkentésében is. 24
25 A feldolgozás kérdései Adattárolás Hagyományos relációs adatbázis-kezelő rendszerek (RDBMS) előnyei: komplex tranzakciók, másodpercenként akár több ezer lekérdezés kezelése, hatékony lekérdező nyelv. De: RDBMS-ekre gyakran nagyon nehéz leképezni a Big Data problémákat. 25
26 A feldolgozás kérdései Adattárolás Ennek okai: az alkalmazott séma már az adat beérkezése előtt rögzített, nagy mennyiségű félig strukturált és strukturálatlan adat kezelése nehézkes, az ACID tulajdonságok sok esetben nem praktikusak, az architektúra nem mindig teszi lehetővé a könnyű skálázhatóságot (pl. nehezen partícionálható, inhomogén adatok esetében). 26
27 A feldolgozás kérdései Hardver architektúra A hagyományos RDBMS-ekhez használt hardverek leggyakrabban nagy teljesítményű, párhuzamos adatfeldolgozásra optimalizált számítógépek, amelyekhez külső tárolók kapcsolódnak. 27
28 A feldolgozás kérdései Hardver architektúra Ez az architektúra hatékony véletlenszerű adatelérést és párhuzamos feldolgozást biztosít, de magas költséggel jár. A számítóteljesítmény nehezebben skálázható, mint a tárolókapacitás. A kommunikáció a tároló és a feldolgozást végző gép között overhead. 28
29 A feldolgozás kérdései Hardver architektúra Nagy adatmennyiség feldolgozásához kis költséggel bővíthető, jól skálázható hardverre van szükség klaszter architektúra. Kisebb teljesítményű általános célú számítógépek összekapcsolása hálózaton keresztül. Jellemzően minden csomópont egy elosztott fájlrendszeren (pl. NFS) tárolt adatokon dolgozik. 29
30 A feldolgozás kérdései Hardver architektúra: klaszter Számítás-intenzív feladatokhoz jól illeszkedik. De: mivel az adatok egy elosztott fájlrendszeren érhetők el, ezért jelentős a hálózati adatforgalom ez szűk keresztmetszet lehet nagy adathalmazok esetén. 30
31 A feldolgozás kérdései Kihívások Adatmodell: hogyan osztható szét az adat hatékonyan a klaszter csomópontjaira? Programozási modell: hogyan készíthető könnyen olyan hatékony alkalmazás, amely képes a klaszteren futva az adatokat feldolgozni? Hogyan kezeljük a gépek meghibásodásait (csomópont kiesés, diszk hiba, stb.)? 31
32 32 Az Apache Hadoop
33 Az Apache Hadoop Az Apache Hadoop egy nyílt forráskódú, hibatűrő, elosztott rendszer nagy adathalmazok tárolásához és feldolgozásához. A Hadoop keretrendszere elosztott adatmodellt, elosztott programozási modellt, és klaszter erőforrás-kezelési megoldást is biztosít. 33
34 Az Apache Hadoop Adatmodell: HDFS elosztott fájlrendszer Egyszerű adatmodell, bármilyen típusú és formátumú adat illeszkedik hozzá. Programozási modell: MapReduce Automatikus feladatelosztást és párhuzamosítást tesz lehetővé, így egyszerű absztrakciót biztosít a fejlesztők számára. Erőforrás kezelés: YARN Feladatai: klaszter erőforrás-menedzsment, a skálázhatóság támogatása, job ütemezés és kezelés. 34
35 A Hadoop és RDBMS-ek összehasonlítása RDBMS: schema-on-write A sémát az adatok bevitele előtt létre kell hozni. A betöltés során az adatot az adatbázis belső struktúrájának megfelelő formátumba kell transzformálni. A séma bővítése vagy módosítása szükséges minden új típusú adat bevitele előtt egy rekordba. Gyors olvasás, jó kezelhetőség Hadoop: schema-on-read Az adatot egyszerűen fel kell másolni a tárolóra, nincs szükség transzformációra. Új típusú adatok bármikor bekerülhetnek. Az olvasás/feldolgozás során kell egy megfelelően implementált ETL eszközt alkalmazni. Gyors írás, flexibilitás 35
36 Az Apache Hadoop Háttér: Az Apache Hadoop a Google File System (2003) és a MapReduce programozási paradigma (2004) nyílt forráskódú implementációja, ami a Nutch keresőalgoritmus (2005) skálázási problémáinak megoldásra készült. 2008: az Apache Software Foundation önálló, kiemelt projektje lett. 36
37 Az Apache Hadoop Háttér: 2009: Jim Gray s Sort Benchmark 1 TB rendezése 62 másodperc alatt, 1 PB rendezése 16,25 óra alatt Hadoop-pal a Yahoo-nál. Napjainkban az egyik legelterjedtebb rendszer nagyon nagy mennyiségű adat elosztott feldolgozáshoz. 37
38 Apache Hadoop hatékonyság A Hadoop hatékonyan alkalmazható, ha a feldolgozandó adat nagy méretű, komplexitású, vagy gyorsan generálódik, ha összetett adatelemzésre van szükség, és ha az adatokon végzendő elemzési feladat időben változhat. De: a Hadoop nem hatékony relációs adatbázisok kiváltására, és ad-hoc jellegű elemzésekhez. 38
39 A Hadoop Distributed File System (HDFS) A Hadoop Distributed File System (HDFS) egy elosztott fájlrendszer, amely a Google File System-en (GFS) alapul. Rövid áttekintés A HDFS a Hadoop fájlrendszer komponense, amely egy már létező fájlrendszer (pl. Ext3) felett működik. 39
40 A Hadoop Distributed File System (HDFS) Rövid áttekintés A fájlrendszer metaadatait egy dedikált csomóponton elkülönítve, míg az alkalmazások adatait a klaszter többi csomópontján tárolja. A fájlrendszerbeli kommunikáció TCP/IP-alapú protokoll használatával történik. A tárolás szervezésével támogatja a nagy sebességű elosztott feldolgozást. 40
41 HDFS architektúra Tervezési célok Hibatűrés: Jellemzően nagy, olcsóbb szerverekből álló klaszterek támogatása, ahol a hardveres és hálózati hibák gyakoribbak. Nagy fájlok kezelése: Akár terabájtos nagyságú fájlok kezelésére is szükség lehet. 41
42 HDFS architektúra Tervezési célok Feldolgozási teljesítmény: Ahol csak lehetséges, ki kell használni az adatok és a feldolgozást végző csomópontok hálózaton belüli elhelyezkedését. Hordozhatóság: Heterogén hardver és szoftver platformok támogatása, könnyű bővíthetőség és skálázhatóság. 42
43 HDFS architektúra Tervezési alapkoncepciók Nagy áteresztőképesség előtérbe helyezése az alacsony késleltetéssel szemben: A fájlrendszer szervezése a szokásos gyors véletlenszerű hozzáférés helyett stream hozzáférésre van optimalizálva. Egyszerű konkurencia modell: Egy stream író több, párhuzamos stream olvasó Zárolásmentes írás és olvasás De: ezek miatt nincs teljes POSIX-kompatibilitás 43
44 HDFS architektúra Tervezési alapkoncepciók Feldolgozás az adat mellett: A feldolgozást végző programot általában kisebb költséggel lehet mozgatni, mint az feldolgozandó nagy mennyiségű adatot. A fájlok szervezésekor a minél nagyobb teljesítmény elérése érdekében figyelembe kell venni az általános klaszter-topológiát: Egy nagy klaszter jellemzően több rack-ből áll. 44
45 HDFS architektúra Tervezési alapkoncepciók A rack-ek közötti kommunikációhoz általában legalább két switch-en át kell menni a forgalomnak A rack-ek közötti késleltetés nagyobb, mint a rack-en belüli. Az aggregált rack-en belüli sávszélesség sokkal nagyobb, mint a rack-ek közötti sávszélesség. A fájlrendszert rack-en belüli párhuzamos hozzáférésre kell optimalizálni, ahol lehetséges. 45
46 HDFS logikai szervezés HDFS a mester-dolgozó szervezési mintát implementálja: Egy mester csomópont: NameNode HDFS metaadatainak tárolása a helyi fájlrendszeren, a fájlrendszer menedzselése Több dolgozó csomópont: DataNode-ok HDFS adatainak tárolása a helyi fájlrendszeren. A kliens alkalmazások a DataNode-okon futnak és nem különálló gépeken. Minden csomópont lehetőség szerint a helyi fájlrendszerén tárolt blokkokon dolgozik. 46
47 HDFS fájlszervezés NameNode Kezeli a fájlrendszer névterét: hierarchikus névtér (fájl illetve könyvtár fa). Kezeli a fájlokhoz és könyvtárakhoz tartozó metaadatokat (pl. a blokkok fizikai elhelyezkedése, stb.). Koordinálja az adatok DataNode-okon történő elhelyezését. 47
48 HDFS fájlszervezés NameNode Limitált hozzáférés-vezérlést biztosít: a fájlrendszerhez történő hozzáférés szabályozása kevésbé kritikus, ha a kliensek alapvetően megbízhatóak. Egy NameNode jelenléte nélkülözhetetlen a HDFS működéséhez, ennek kiesése elérhetetlenné teszi a teljes fájlrendszert. 48
49 HDFS fájlszervezés NameNode Ezek periódikusan egy-egy perzisztens fájlba kerülnek mentésre, amelyek egy szerkesztési napló segítségével vannak naprakészen tartva. A NameNode kiesésének kiküszöbölésére stand-by NameNode másolatokat lehet alkalmazni, de ehhez külső eszköz szükséges (pl. ZooKeeper); a HDFS jelenleg nem biztosít ilyet. 49
50 HDFS fájlszervezés NameNode A fájlok nagy méretű blokkokban kerülnek tárolásra, az egész klaszteren elosztva: Általában 64 vagy 128 MB egy blokk mérete (fájlonként konfigurálható) Minden blokk a DataNode-ok helyi fájlrendszerén, fájlként kerül tárolásra 50
51 HDFS fájlszervezés NameNode Minden blokk n-szeresen replikált a replikációs faktor fájlonként konfigurálható (alapesetben n = 3) a replikák is a teljes klaszteren elosztva helyezkednek el a replikáció célja: nagyobb rendelkezésre-állás elérése teljesítmény növelése a replikációs stratégia kritikus mindkét cél esetében 51
52 HDFS fájlszervezés DataNode A fájlok tárolását végzi egy dolgozó csomóponton. Két fájl reprezentál egy-egy blokk-replikát egy DataNode-on: az adatot magát tartalmazó fájl az ehhez a fájlhoz tartozó ellenőrzőösszegeket és verzió azonosítót tartalmazó fájl 52
53 HDFS fájlszervezés DataNode Egy DataNode a NameNode-hoz történő csatlakozás során egy kézfogási hitelesítést végez. Ennek során: ellenőrzi a névtér azonosítóját és a HDFS verziót újonnan csatlakozó DataNode-ok esetén megkapja azt a névtér azonosítót, amihez tartozni fog. 53
54 HDFS fájlszervezés DataNode Minden DataNode esetén szükséges azok regisztrációja a NameNode-on: Ekkor egy tároló azonosító (storage ID) kerül hozzárendelése a DataNode-hoz, ami egy egyedi belső azonosító és nem változik. 54
55 HDFS fájlszervezés DataNode NameNode kommunikáció: Blokk riport: a tárolt blokk-replikák azonosítására szolgál Tartalma: blokk azonosító, verzió azonosító, és a blokk hossza Először a regisztráció során kerül elküldésre, majd adott periodicitással (alapesetben óránként) 55
56 HDFS fájlszervezés DataNode NameNode kommunikáció: Szívverés: az elérhetőség jelzésére szolgáló üzenet Az alapértelmezett időintervallum 3 másodperc. Egy DataNode kiesettnek tekintendő, ha egy adott ideig nem küld szívverés üzenetet (alapesetben 10 percig). Ezek a rendszeres üzenetek egyben a skálázhatóságot is biztosítják. 56
57 HDFS fájlszervezés DataNode NameNode kommunikáció: Egy szívverés üzenet a tárhelyről és a terheléseloszlásról tartalmaz információkat: a teljes tárkapacitás a felhasznált tárhely mérete a folyamatban lévő írási és olvasási műveletek száma A NameNode ezek alapján utasításokat küld a DataNode-nak válaszként. 57
58 HDFS I/O műveletek és blokk kezelés Fájl írás és olvasás Egy alkalmazás egy fájl létrehozásával és az abba történő írással vihet be adatot a HDFS tárba. Minden fájl esetén a hozzáfűzés, olvasás és törlés műveletek engedélyezettek programozottan. 58
59 HDFS I/O műveletek és blokk kezelés Blokk kezelés A blokkok elhelyezését és a replikák kezelését a NameNode végzi a DataNode-ok által küldött blokk riportok és a szívverés üzenetek alapján. Amikor egy új blokkra van szükség, a NameNode egy új blokk azonosítót hoz létre és eldönti, hogy mely DataNode-ok fogják tárolni a blokk replikáit. 59
60 HDFS I/O műveletek és blokk kezelés Az adatot a DataNode-ok pipelinejellegűen kapják meg, azaz az első kiválasztott DataNode továbbítja a csomagokat a másodiknak, majd az a harmadiknak, stb. Az írt adat nem áll rendelkezésre az olvasók számára, ameddig a blokk létrehozása le nem zárul minden DataNode-on. A folyamat végét acknowledgement üzenetekkel jelzik a DataNode-ok a NameNode felé. node rack 1 rack 2 adatközpont 60
61 HDFS I/O műveletek és blokk kezelés Replikációs stratégiák Az alapértelmezett stratégia folyamatosan biztosítja, hogy: egy DataNode nem tartalmaz egynél több blokk replikát egyik blokk esetében sem; legalább egy replika ugyan azon a csomóponton van, amelyik a blokkot írja; Ha lehetséges, egy rack sem tartalmazza ugyan annak a blokknak kettőnél több replikáját; 61
62 HDFS I/O műveletek és blokk kezelés Replikációs stratégiák ha lehetséges, egy replika legyen ugyan azon a rack-en, amiben az a csomópont van, amelyik írja a blokkot; a blokkok egyenletesen kerüljenek eloszlásra a teljes klaszteren. Ezeken kívül további stratégiák is definiálhatóak. 62
63 HDFS I/O műveletek és blokk kezelés Kiegyensúlyozás A fenti stratégiai célok és új DataNode-ok hozzáadása kiegyensúlyozatlanná teheti a klasztert: az új blokkok egyformán kerülnek elosztásra a régi és az új DataNode-okon, de a régi blokkok megmaradnak a korábbi helyükön, az újabb DataNode-okra így sokkal kisebb terhelés jut kezdetben, 63
64 HDFS I/O műveletek és blokk kezelés Kiegyensúlyozás a feldolgozás folyamán ezek a csomópontok nagyobb hálózati forgalmat generálhatnak, mivel más csomópontokról kell adatot olvasniuk. A HDFS nem végez automatikus kiegyensúlyozást. Megoldás: balancer segédprogram (a Hadoop része), amely klaszter szintű kiegyensúlyozást tud végrehajtani. 64
65 Az Apache Hadoop MapReduce Az Apache Hadoop MapReduce egy keretrendszer, ami a MapReduce programozási paradigmát valósítja meg. Jellemzői: Nagy teljesítmény: terabájtos vagy nagyobb nagyságrendű adatok olcsó hardverekből épített, akár több ezer csomópontot tartalmazó klasztereken történő feldolgozására lett tervezve. Hibatűrés: az egyes taszkok külön-külön is újraindíthatóak. 65
66 Az Apache Hadoop MapReduce Legnagyobb előnye, hogy automatikus feladatelosztást és párhuzamosítást tesz lehetővé, így egyszerű absztrakciót biztosít a fejlesztők számára. Minden csomópont a rajta tárolt adatokon dolgozik, együttműködve az alkalmazott fájlrendszerrel, ami gyorsabb feldolgozást tesz lehetővé. 66
67 MapReduce a map és a reduce Funkcionális programozási paradigma A programozási feladat egy függvény kiértékelése. Az eredményhez vezető út nem feltétlenül ismert, a program végrehajtásához csak az eredmény pontos definíciója szükséges. Pl.: Lisp, Haskell, Erlang 67
68 MapReduce a map és a reduce Funkcionális programozási paradigma A MapReduce modell a funkcionális nyelvekben gyakran használt map és reduce műveletekből merített. Minden MapReduce job két fő fázisból áll: map: a feladat szétbontása részproblémákra reduce: a részeredményekből előállítja a feladat megoldását 68
69 MapReduce a map és a reduce Funkcionális programozási paradigma Egy tisztán funkcionális környezetben egy lista eleme, amelyet a map előállít nem látja a művelet hatását a lista többi elemén. Lisp példa: (map square ( )) ( ) (reduce + ( )) (+ 16 (+ 9 (+ 4 1) ) ) 30 square: unáris operátor + : bináris operátor 69
70 MapReduce a map és a reduce Funkcionális programozási paradigma Ha az f függvény alkalmazása a lista elemeire kommutatív, akkor a végrehajtás sorrendjét tetszőlegesen megváltoztathatjuk, illetve a függvény alkalmazását párhuzamosan is végrehajthatjuk. A MapReduce programozási modell ezt az implicit tulajdonságot használja ki. 70
71 MapReduce a map és a reduce Funkcionális programozási paradigma Számos problémát meg lehet hatékonyan fogalmazni a map és a reduce absztrakciókat használva. A problémák ilyen módon történő felosztása egyszerű feladatkiosztást tesz lehetővé a klaszteren. Egyszerűbbé teszi a futási hibák kezelését. 71
72 Az Apache Hadoop MapReduce A Hadoop MapReduce működése A MapReduce-ban a rendszer felhasználói által elvégezni kívánt feladatok job-okként jelennek meg. Egy job a következő elemekből áll össze: a feldolgozandó bemenő adatokból, egy MapReduce programból, és a konfigurációs információkból. 72
73 Az Apache Hadoop MapReduce A Hadoop MapReduce működése A Hadoop egy job bemenő adatait rögzített méretű, független darabokra (input split) bontja. Minden egyes darabhoz a Hadoop létrehoz egy önálló map taszkot, amely a felhasználó által definiált map függvényt hajtja végre a darabok rekordjain. A map taszkok mindig a feldolgozandó adathoz legközelebbi node-on kerülnek végrehajtásra. 73
74 Az Apache Hadoop MapReduce A Hadoop MapReduce működése A map taszkok a futtató node-ok saját helyi fájlrendszerére írják a kimeneteiket. Mivel a map taszkok kimenetei csak köztes kimenetek, ezért a job lefutása után már nincs szükség rájuk, így ezek elosztott, replikált tárolása felesleges lenne. A MapReduce a map taszkok kimeneteit ezután kulcsok szerint rendezi, majd a reduce taszkokat futtató nodeok helyi fájlrendszerére másolja. 74
75 Az Apache Hadoop MapReduce A Hadoop MapReduce működése A reduce taszkok hajtják végre a felhasználó által definiált reduce függvényt, és állítják elő a job végleges kimeneteit. Ezek kimenetei már a klaszter elosztott fájlrendszerén kerülnek tárolásra. A reduce taszkok számát nem az adat, hanem a feladat és a klaszter kapacitása alapján a felhasználónak kell megadni. 75
76 Az Apache Hadoop MapReduce A Hadoop MapReduce működése Ha egynél több reduce taszk fut majd, a map taszkok partícionálják a kimeneteiket, egy-egy saját partíciót létrehozva azoknak. Egy partíción belül számos kulcs is lehet, de az egy kulcshoz tartozó rekordok mind ugyan abba a partícióba kerülnek. A partícionáló függvényt is a felhasználónak kell definiálnia. 76
77 Az Apache Hadoop MapReduce A Hadoop MapReduce működése Számos esetben a klaszter sávszélessége jelenti a szűk keresztmetszet egy job futtatásakor, így fontos minimalizálni a map és reduce taszkok közötti adatátvitelt. Egy job-hoz megadható egy combine függvény, amely a map taszkok kimenetein fut, és amely kimenete lesz majd a reduce taszkok bemenete. 77
78 Az Apache Hadoop MapReduce A Hadoop MapReduce működése A combine egy speciális reduce függvényként is tekinthető, amely csak az adott node által generált kimeneteken működik. A combine függvény nem helyettesíti a reduce használatát, de bizonyos esetekben a reduce használható combine-ként is. 78
79 Az Apache Hadoop MapReduce A Hadoop MapReduce működése Mivel a combine egy optimalizációs lehetőség, ezért nem minden esetben fut le. Pl.: ha nincs kellő számú rekord az adott node-on előállt kimenetben, hogy megérje futtatni. Mivel nem garantált, hogy a combine le fog-e futni, és ha igen, hányszor, ezért a map-ek és a combine által adott kimenetek formátumának meg kell egyeznie. 79
80 Apache Hadoop feladatütemezés A JobTracker és a TaskTracker A Hadoop Core a feladatok ütemezéséhez a mester-dolgozó szervezési mintát implementálja: Egy mester csomópont: JobTracker A job-ok kezelését és ütemezését végzi. Több dolgozó csomópont: TaskTracker-ek A job-ok futtatását és monitorozást végzi a dolgozó csomópontokon. 80
81 Apache Hadoop feladatütemezés JobTracker A MapReduce taszkok kiosztása a klaszter csomópontjaira. Az ütemezés során minden taszk lehetőség szerint olyan csomópontra kerül, amely a lehető legközelebb van ahhoz, amelyen a feldolgozáshoz szükséges blokkok tárolása történik. Ideális esetben ugyan arra a csomópontra kerül, ahol az adat tárolódik, vagy legalább ugyan arra a rack-re. 81
82 Apache Hadoop feladatütemezés JobTracker A TaskTracker-ek jelzik a JobTracker számára, ha egy kiosztott taszk hibával leáll. A JobTracker ütemezési stratégiája: Ha egy taszk leáll, akkor egy másik csomópontra újraütemezi azt. Ha egy taszk több csomóponton is hibát ad, akkor megjelöli azt. A legtöbbször hibát jelző csomópontokat listázza és nem ütemez azokra feladatokat. 82
83 Apache Hadoop feladatütemezés JobTracker Amikor befejeződik egy taszk, a JobTracker frissíti a munka státuszát. A kliensek ezt a státuszt tudják lekérdezni. Fontos: a JobTracker egy single-point-of-failure, azaz ennek hibája esetén a teljes MapReduce szolgáltatás leáll, és megszakad minden job végrehajtása. 83
84 Apache Hadoop feladatütemezés TaskTracker A JobTracker által kiosztott taszkok fogadását és végrehajtását végzi. Minden TaskTracker egy bizonyos számú (csomópontonként konfigurálható) szabad slot-ot biztosít, ami az általa fogadható taszkok számát jelöli. 84
85 Apache Hadoop feladatütemezés TaskTracker Amikor a JobTracker egy munkát akar kiosztani, akkor először megpróbál szabad slot-okat találni azon a csomóponton, amin a feldolgozandó adat található. Ha nincs ilyen csomópont, akkor az adathoz legközelebbi csomópontra ütemezi a feldolgozást, ahol szabad slot található. 85
86 Apache Hadoop feladatütemezés TaskTracker Minden egyes taszkhoz egy saját JVM folyamatot indít, ezzel biztosítva, hogy az egyes taszkok hibája esetén annak ne legyen hatása a többi futó taszkra. (Taszk izoláció.) A taszkok futása során monitorozza azok működését, elkapja a kimeneteket és a kilépési kódokat. Amikor egy taszk befejeződik (sikeresen vagy hibával), akkor azt jelzi a JobTracker felé. 86
87 Apache Hadoop feladatütemezés TaskTracker A TaskTracker szívverés üzeneteket is küld a JobTracker számára (alapesetben percenként), hogy jelezze az elérhetőségét és működőképességét. Ezek az üzenetek tartalmazzák az aktuálisan elérhető slot-ok számát is, ami lehetővé teszi a klaszteren futó taszkok figyelését és feladatok ütemezését. 87
88 Apache Hadoop feladatütemezés Spekulatív végrehajtás Egy job végrehajtásának idejét a leglassabb taszk végrehajtásának ideje határozza meg. Ennek oka lehet hardver vagy szoftver hiba is, de ez nem kerül diagnosztizálásra. A MapReduce megpróbálja meghatározni, hogy melyek a lassú (lemaradó - straggler) taszkok és ezeknek egy másolatát is elindítja. 88
89 Apache Hadoop feladatütemezés Spekulatív végrehajtás Ha a lassú végrehajtás a futtatási környezet miatt állt elő, akkor a másolatként indított taszk nagy valószínűséggel hamarabb fog befejeződni, mint az eredeti, így az egész job is hamarabb tud lefutni. A spekulatív végrehajtás nem növeli a megbízhatóságot, csupán a futtatás sebességének optimalizálására szolgál. 89
90 Apache Hadoop feladatütemezés Spekulatív végrehajtás Minden lemaradó taszkhoz csak egy másolat indítása engedélyezett, az erőforrások hatékony kihasználása érdekében. A lemaradó és a másolat taszkok közül akármelyik is fejeződik be hamarabb, annak kimenetei lesznek csak később felhasználva és a JobTracker a másikat azonnal leállítja. 90
91 Apache Hadoop feladatütemezés Lemaradó taszkok meghatározása A Hadoop minden taszk előrehaladását monitorozza, és ez alapján egy 0 és 1 közötti score értéket rendel azokhoz. Ha ez a score érték kisebb, mint az átlag 0,2, és az adott taszk legalább egy perce fut, akkor lemaradónak kell jelölni azt. 91
92 Apache Hadoop feladatütemezés Lemaradó taszkok meghatározása Átlag 92 Lemaradó taszkok
93 Apache Hadoop feladatütemezés Hibatűrés A MapReduce hibatűrésének egyik alapja a hibás taszkok monitorozása és újraindítása. Abban az esetben, ha egy TaskTracker nem kommunikál a JobTracker-rel egy előre definiált ideig, a JobTracker feltételezi, hogy a TaskTracker elérhetetlen, pl. hardver hiba miatt leállt. 93
94 Apache Hadoop feladatütemezés Hibatűrés Ha egy job a map fázisban van, a JobTracker (JT) újra kiosztja az összes olyan taszkot, ami az elérhetetlen TaskTracker-en (TT) futott, egy másik TT-re. Ha egy job a reduce fázisban van, akkor a JT kiosztja azokat a reduce taszkokat egy másik TT-re, amelyek folyamatban voltak az elérhetetlen TT-en. 94
95 A MapReduce adatfolyama Input fájlok/adatblokkok beolvasása Az input split-ekre bontása Mapping A köztes output kiírása a pufferbe Particionálás, rendezés, a puffer kiírása Kombinálás A köztes output kiírása a lemezre Map taszk A partíciók darabjainak másolása Rendezett partíciók összeállítása Reducing A job outputjának kiírása Reduce taszk 95
96 MapReduce példa szószámláló Feladat: Számoljuk meg egy adott dokumentum-halmazban az egyes szavak előfordulásainak számát! Ez esetben a mapper megkapja a dokumentumhalmaz egy részét, majd leképezi azt <kulcs, érték> párokra, a függvény specifikációjának megfelelően. 96
97 MapReduce példa szószámláló Ebben a példában a kimenet <szó, "1"> párok listája lesz. Fontos: A mapper ez esetben sem végez aggregációt, az a reducer feladata lesz majd. A map szerepe, hogy az adatot <kulcs, érték> párok listájára képezze. 97
98 MapReduce példa szószámláló Reducing Lelkem ma sétál régi városokban Lelkem ma sétál tűnt utcák nagy éjén Mapping lelkem 1 ma 1 sétál 1 régi 1 városokban 1 lelkem 1 ma 1 sétál 1 tűnt 1 utcák 1 nagy 1 éjén 1 lelkem 2 ma 2 sétál 2 régi 1 városokban 1 tűnt 1 utcák 1 nagy 1 éjén 1 98
99 MapReduce példa Mapper osztály 99
100 MapReduce példa Reducer osztály 100
101 MapReduce példa Driver osztály 101
102 Ajánlott irodalom T. White: Hadoop: The Definitive Guide 4th ed., O Reilly, 2015 H. H. Liu: Hadoop Essentials: A Quantitative Approach, CreateSpace IPP, 2012 S. Perera: Instant MapReduce Patterns Hadoop Essentials How-to, Packt, 2013 C. Lam: Hadoop in Action, Manning,
Hadoop és használata az LPDS cloud-on
Hadoop és használata az LPDS cloud-on Bendig Loránd lbendig@ilab.sztaki.hu 2012.04.13 Miről lesz szó? Bevezetés Hadoop áttekintés OpenNebula Hadoop cluster az LPDS cloud-on Tapasztalatok, nyitott kérdések
MMK-Informatikai projekt ellenőr képzés 4
Miről lesz szó Big Data definíció Mi a Hadoop Hadoop működése, elemei Köré épülő technológiák Disztribúciók, Big Data a felhőben Miért, hol és hogyan használják Big Data definíció Miért Big a Data? 2017.
GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN
INFORMATIKAI PROJEKTELLENŐR 30 MB Szabó Csenger ÚJ GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN 2016. 12. 31. MMK- Informatikai projektellenőr képzés Big Data definíció 2016. 12. 31. MMK-Informatikai
MapReduce paradigma a CAP-tétel kontextusában. Adatb haladóknak. Balassi Márton Adatbázisok haladóknak 2012.
MapReduce paradigma a CAP-tétel kontextusában Balassi Márton balassi.marton@gmail.com 2012. október 30. Adatbázisok haladóknak 2012. 2012. október 30. Miről lesz szó? Elosztott adatfeldolgozásról általában
Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting
Big Data adattárházas szemmel Arató Bence ügyvezető, BI Consulting 1 Bemutatkozás 15 éves szakmai tapasztalat az üzleti intelligencia és adattárházak területén A BI Consulting szakmai igazgatója A BI.hu
Component Soft 1994-2013 és tovább
Component Soft 1994-2013 és tovább IT szakemberek oktatása, tanácsadás Fő témáink: UNIX/Linux rendszerek, virtualizációs, fürtözési, tároló menedzsment és mentési technológiák Adatbázisok és middleware
Magic xpi 4.0 vadonatúj Architektúrája Gigaspaces alapokon
Magic xpi 4.0 vadonatúj Architektúrája Gigaspaces alapokon Mi az IMDG? Nem memóriában futó relációs adatbázis NoSQL hagyományos relációs adatbázis Más fajta adat tárolás Az összes adat RAM-ban van, osztott
Csoportos üzenetszórás optimalizálása klaszter rendszerekben
Csoportos üzenetszórás optimalizálása klaszter rendszerekben Készítette: Juhász Sándor Csikvári András Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Automatizálási
Adatbázis-kezelő rendszerek. dr. Siki Zoltán
Adatbázis-kezelő rendszerek I. dr. Siki Zoltán Adatbázis fogalma adatok valamely célszerűen rendezett, szisztéma szerinti tárolása Az informatika elterjedése előtt is számos adatbázis létezett pl. Vállalati
MTA Cloud Use cases MTA Cloud workshop. Hernáth Szabolcs MTA WIGNER FK
MTA Cloud Use cases MTA Cloud workshop Hernáth Szabolcs MTA WIGNER FK IT felhasználás dimenziói Felhasználók száma / jellege Kapacitás mérete / jellege Számítási feladat / szoftverkörnyezet Adatok mérete
Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban
Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban Nagy Attila Mátyás 2016.12.07. Áttekintés Bevezetés Megközelítés Pilot tanulmányok
FORD Edifact IHS Import
FORD Edifact IHS Import 1149 Budapest, Egressy út 17-21. Telefon: +36 1 469 4021; fax: +36 1 469 4029 1/13 Tartalomjegyzék 1. FORD gyártói adatok betöltése... 3 1.1. Import Javasolt Ütemezése... 10 1.2.
KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató
KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató Hasonló, mégis más Ez se rossz amíg ezt ki nem próbáltad!
Virtuális Obszervatórium. Gombos Gergő
Virtuális Obszervatórium Gombos Gergő Áttekintés Motiváció, probléma felvetés Megoldások Virtuális obszervatóriumok NMVO Twitter VO Gombos Gergő Virtuális Obszervatórium 2 Motiváció Tudományos módszer
Autóipari beágyazott rendszerek. Komponens és rendszer integráció
Autóipari beágyazott rendszerek és rendszer integráció 1 Magas szintű fejlesztési folyamat SW architektúra modellezés Modell (VFB) Magas szintű modellezés komponensek portok interfészek adattípusok meghatározása
Hálózati réteg. WSN topológia. Útvonalválasztás.
Hálózati réteg WSN topológia. Útvonalválasztás. Tartalom Hálózati réteg WSN topológia Útvonalválasztás 2015. tavasz Szenzorhálózatok és alkalmazásaik (VITMMA09) - Okos város villamosmérnöki MSc mellékspecializáció,
Adatbázis rendszerek. dr. Siki Zoltán
Adatbázis rendszerek I. dr. Siki Zoltán Adatbázis fogalma adatok valamely célszerűen rendezett, szisztéma szerinti tárolása Az informatika elterjedése előtt is számos adatbázis létezett pl. Vállalati személyzeti
Név: Neptun kód: Pontszám:
Név: Neptun kód: Pontszám: 1. Melyek a szoftver minőségi mutatói? Fejlesztési idő, architektúra, programozási paradigma. Fejlesztőcsapat összetétele, projekt mérföldkövek, fejlesztési modell. Karbantarthatóság,
Adatbázis rendszerek Gy: Az adattárolás fejlődése
Adatbázis rendszerek 1. 2. Gy: Az adattárolás fejlődése 1/22 B ITv: MAN 2017.09.17 Papír alapú adattárolás Lyukkártya 2/22 Probléma: 3/22 Papír alapú adattárolás Lyukszalag 4/22 Papír alapú adattárolás
Muppet: Gyors adatok MapReduce stílusú feldolgozása. Muppet: MapReduce-Style Processing of Fast Data
Muppet: Gyors adatok MapReduce stílusú feldolgozása Muppet: MapReduce-Style Processing of Fast Data Tartalom Bevezető MapReduce MapUpdate Muppet 1.0 Muppet 2.0 Eredmények Jelenlegi tendenciák Nagy mennyiségű
A hazai alállomási irányítástechnika kezdete. Szakmai félnap a debreceni alállomási irányítástechnika üzembehelyezésének 20. évfordulója alkalmából
A hazai alállomási irányítástechnika kezdete. Szakmai félnap a debreceni alállomási irányítástechnika üzembehelyezésének 20. évfordulója alkalmából Kollár Mátyás MEE előadás 2011.06.08. Kihívások (1) Nem
Takács Gábor mérnök informatikus, okl. mérnöktanár
Takács Gábor mérnök informatikus, okl. mérnöktanár takacsg@sze.hu http://rs1.sze.hu/~takacsg/ Big Data Definition Big Data is data that can t be stored or analyzed using traditional tools. Információ tartalom,
webalkalmazások fejlesztése elosztott alapon
1 Nagy teljesítményű és magas rendelkezésreállású webalkalmazások fejlesztése elosztott alapon Nagy Péter Termékmenedzser Agenda Java alkalmazás grid Coherence Topológiák Architektúrák
ESZKÖZTÁMOGATÁS A TESZTELÉSBEN
ESZKÖZTÁMOGATÁS A TESZTELÉSBEN MUNKAERŐ-PIACI IGÉNYEKNEK MEGFELELŐ, GYAKORLATORIENTÁLT KÉPZÉSEK, SZOLGÁLTATÁSOK A DEBRECENI EGYETEMEN ÉLELMISZERIPAR, GÉPÉSZET, INFORMATIKA, TURISZTIKA ÉS VENDÉGLÁTÁS TERÜLETEN
Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék
Vizuális adatelemzés - Gyakorlat Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Adatelemzés szerepe a rendszermodellezésben Lényeges paraméterek meghatározása
30 MB INFORMATIKAI PROJEKTELLENŐR
INFORMATIKAI PROJEKTELLENŐR 30 MB DOMBORA SÁNDOR BEVEZETÉS (INFORMATIKA, INFORMATIAKI FÜGGŐSÉG, INFORMATIKAI PROJEKTEK, MÉRNÖKI ÉS INFORMATIKAI FELADATOK TALÁKOZÁSA, TECHNOLÓGIÁK) 2016. 09. 17. MMK- Informatikai
OpenCL alapú eszközök verifikációja és validációja a gyakorlatban
OpenCL alapú eszközök verifikációja és validációja a gyakorlatban Fekete Tamás 2015. December 3. Szoftver verifikáció és validáció tantárgy Áttekintés Miért és mennyire fontos a megfelelő validáció és
Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.
Rendszermodernizációs lehetőségek a HANA-val Poszeidon Groma István PhD SDA DMS Zrt. Poszeidon EKEIDR Tanúsított ügyviteli rendszer (3/2018. (II. 21.) BM rendelet). Munkafolyamat támogatás. Papírmentes
III.6. MAP REDUCE ELVŰ ELOSZTOTT FELDOLGOZÁSI ALGORITMUSOK ÉS TESZTKÖRNYEZET KIDOLGOZÁSA ADATBÁNYÁSZATI FELADATOK VÉGREHAJTÁSÁHOZ
infokommunikációs technológiák III.6. MAP REDUCE ELVŰ ELOSZTOTT FELDOLGOZÁSI ALGORITMUSOK ÉS TESZTKÖRNYEZET KIDOLGOZÁSA ADATBÁNYÁSZATI FELADATOK VÉGREHAJTÁSÁHOZ KECSKEMÉTI ANNA KUN JEROMOS KÜRT Zrt. KUTATÁSI
Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI
Az MTA Cloud a tudományos alkalmazások támogatására Kacsuk Péter MTA SZTAKI Kacsuk.Peter@sztaki.mta.hu Tudományos alkalmazások és skálázhatóság Kétféle skálázhatóság: o Vertikális: dinamikusan változik
Fájlrendszerek. A Windows operációs rendszerek fájlrendszere
Fájlrendszerek A Windows operációs rendszerek fájlrendszere Fájlrendszerek definíció A számítástechnika egy fájlrendszer alatt a számítógépes fájlok tárolásának és rendszerezésének a módszerét érti, ideértve
Adatbázismodellek. 1. ábra Hierarchikus modell
Eddig az adatbázisokkal általános szempontból foglalkoztunk: mire valók, milyen elemekből épülnek fel. Ennek során tisztáztuk, hogy létezik az adatbázis fogalmi modellje (adatbázisterv), amely az egyedek,
Adatbázis rendszerek I
Normalizálás 1NF 2NF BCNF Adatbázis rendszerek I 20111201 1NF 2NF BCNF Ha BCNF 2NF A B B A 2NF BCNF 2NF részkulcsból indul ki FD létezik FD, amely nem jelölt kulcsból indul ki Jelölt kulcs olyan mezőcsoport
Hálózatok. Alapismeretek. A hálózatok célja, építőelemei, alapfogalmak
Hálózatok Alapismeretek A hálózatok célja, építőelemei, alapfogalmak A hálózatok célja A korai időkben terminálokat akartak használni a szabad gépidők lekötésére, erre jó lehetőség volt a megbízható és
2278-771061-Y02 2014. márci
A WD és a WD embléma a Western Digital Technologies, Inc. az Egyesült Államokban és más országokban bejegyzett védjegyei; Az absolutely, a WD Re, a WD Se, a WD Xe, a RAFF és a StableTrac a Western Digital
Vodafone ODI ETL eszközzel töltött adattárház Disaster Recovery megoldása. Rákosi Péter és Lányi Árpád
Vodafone ODI ETL eszközzel töltött adattárház Disaster Recovery megoldása Rákosi Péter és Lányi Árpád Adattárház korábbi üzemeltetési jellemzői Online szolgáltatásokat nem szolgált ki, klasszikus elemzésre
Weblog elemzés Hadoopon 1/39
Weblog elemzés Hadoopon 1/39 Az előadás témái Egy Hadoop job életciklusa A Weblog-projekt 2/39 Mi a Hadoop? A Hadoop egy párhuzamos programozási séma egy implementációja. 3/39 A programozási séma: MapReduce
Tudásalapú információ integráció
Tudásalapú információ integráció (A Szemantikus Web megközelítés és a másik irány) Tanszéki értekezlet, 2008. május 14. 1 Miért van szükségünk ilyesmire? WWW: (Alkalmazások) Keresés a weben (pl. összehasonlítás
ADATBÁZIS-KEZELÉS. Adatbázis-kezelő rendszerek
ADATBÁZIS-KEZELÉS Adatbázis-kezelő rendszerek Adat (Data) Észlelhető, felfogható ismeret Jelsorozat Tény, közlés Valakinek vagy valaminek a jellemzője Adatbázis (Data Base, DB) Hosszú ideig évekig meglévő
Enterprise extended Output Management. exom - Greendoc Systems Kft. 1
Enterprise extended Output Management exom - Greendoc Systems Kft. 1 exom - Greendoc Systems Kft. 2 Sokféle bementi adatformátum kezelése Adatok fogadása különböző csatornákon Előfeldolgozás: típus meghatározás,
The Power To Develop. i Develop
The Power To Develop 2001 Alkalmazások fejlesztése Oracle9i Alkalmazás rel Molnár Balázs Értékesítési konzultáns Oracle Hungary Miről is lesz szó? Mi az Oracle9i AS, technikailag? Hogyan működik Oracle9i
Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás
Petőfi Irodalmi Múzeum A Digitális Irodalmi Akadémia megújuló rendszere technológiaváltás II. Partnerek, feladatok Petőfi Irodalmi Múzeum Megrendelő, szakmai vezetés, kontroll Konzorcium MTA SZTAKI Internet
Alternatív adatbázisok Gráfadatbázisok
Alternatív adatbázisok Gráfadatbázisok Adatbázis típusok Relációs PostgreSQL, Oracle, MySQL, stb. Dokumentum MongoDB, CouchDB, OrientDB Gráfadatbázis Neo4J, OrientDB, ArangoDB, InfiniteGraph Key-value
Szolgáltatási szint megállapodás
Szolgáltatási szint megállapodás Verzió: 1.1 (2017. november 30.) aai@niif.hu Tartalomjegyzék Tartalomjegyzésk 1 Műszaki szolgáltatások...3 1.1 Fájl-alapú metadata...3 1.1.1 Szolgáltatás URL...3 1.1.2
Worldwide LHC Computing Grid
Worldwide LHC Computing Grid Új modell a tudományos informatikában Hernáth Szabolcs hernath@mail.kfki.hu MTA KFKI RMKI www.eu-egee.org Tartalomjegyzék 1. Miért Grid? LHC adattárolás és -feldolgozás Computing
Big Data tömeges adatelemzés gyorsan
MEDIANET 2015 Big Data tömeges adatelemzés gyorsan STADLER GELLÉRT Oracle Hungary Kft. gellert.stadler@oracle.com Kulcsszavak: big data, döntéstámogatás, hadoop, üzleti intelligencia Az utóbbi években
A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES FELDOLGOZÁSA: ADATMODELLEZÉS ÉS SZABVÁNYOK
A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES FELDOLGOZÁSA: ADATMODELLEZÉS ÉS SZABVÁNYOK Boross István MNL Veszprém Megyei Levéltára Juhász Zoltán Pannon Egyetem Budapest Főváros Levéltára, 2014. május 6. MÓDSZERTANI
Azonnali fizetési rendszer megvalósítása
Azonnali fizetési rendszer megvalósítása 2017. 05. 24. Keretek, alapvetések, megoldandók (minden projekt résztvevőnek) 24/7/365-ös működés (folyamatos működés a karbantartások, upgrade-ek alatt is). Tranzakciók
Adatbázis, adatbázis-kezelő
Adatbázisok I. rész Adatbázis, adatbázis-kezelő Adatbázis: Nagy adathalmaz Közvetlenül elérhető háttértárolón (pl. merevlemez) Jól szervezett Osztott Adatbázis-kezelő szoftver hozzáadás, lekérdezés, módosítás,
Multimédiás adatbázisok
Multimédiás adatbázisok Multimédiás adatbázis kezelő Olyan adatbázis kezelő, mely támogatja multimédiás adatok (dokumentum, kép, hang, videó) tárolását, módosítását és visszakeresését Minimális elvárás
A Facebook adattárháza. Trencséni Márton info99
A Facebook adattárháza Trencséni Márton mtrencseni@gmail.com info99 1 Néhány szót rólam 1. BME-n végeztem 2004-ben műszaki informatikusként 2. Adatbázisok tárgy már akkor is volt :) Utána: ELTE, fizikus
Szoftverminőségbiztosítás
NGB_IN003_1 SZE 2014-15/2 (3) Szoftverminőségbiztosítás A szoftverminőségbiztosítási rendszer (folyt.) Eljárások, munkautasítások Eljárás: egy adott módja valami elvégzésének részletezett tevékenységek,
Szolgáltatási szint megállapodás. Verzió: 1.0. (2010. december 13.) aai@niif.hu
Szolgáltatási szint megállapodás Verzió: 1.0 (2010. december 13.) aai@niif.hu Műszaki szolgáltatások Metadata A metadata a föderáció tagjait leíró, a föderációs operátor által digitálisan aláírt állomány,
Tartalom. Konfiguráció menedzsment bevezetési tapasztalatok. Bevezetés. Tipikus konfigurációs adatbázis kialakítási projekt. Adatbázis szerkezet
Konfiguráció menedzsment bevezetési tapasztalatok Vinczellér Gábor AAM Technologies Kft. Tartalom 2 Bevezetés Tipikus konfigurációs adatbázis kialakítási projekt Adatbázis szerkezet Adatbázis feltöltés
Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t
Ellenőrző kérdések 2. Kis dolgozat kérdései 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t 37. Ha t szintű indexet használunk,
Adatmodellezés. 1. Fogalmi modell
Adatmodellezés MODELL: a bonyolult (és időben változó) valóság leegyszerűsített mása, egy adott vizsgálat céljából. A modellben többnyire a vizsgálat szempontjából releváns jellemzőket (tulajdonságokat)
RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék
RHadoop Kocsis Imre ikocsis@mit.bme.hu Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Házi feladat Csapatépítés o 2 fő, tetszőleges kombinációkban http://goo.gl/m8yzwq
Párhuzamosítás adatbáziskezelő rendszerekben
Párhuzamosítás adatbáziskezelő rendszerekben Erős Levente, 2018. 1 Párhuzamos műveletvégzés Miért? Nagy adatmennyiségek Nagyságrendileg nő a keletkező/feldolgozandó/tárolandó adat mennyisége Célhardver
TÁMOP /1/A projekt Regionális turisztikai menedzsment /BSc/ /Differenciált szakmai ismeretek modul/ Információs irodák menedzsmentje
Gyakorlatorientált képzési programok kidolgozása a turisztikai desztináció menedzsment és a kapcsolódó ismeretanyagok oktatására TÁMOP-4.1.2-08/1/A-2009-0034 projekt Regionális turisztikai menedzsment
Felhők teljesítményelemzése felhő alapokon
Felhők teljesítményelemzése felhő alapokon Kocsis Imre ikocsis@mit.bme.hu HTE Infokom 2014 Budapest University of Technology and Economics Department of Measurement and Information Systems 1 IT Szolgáltatásmenedzsment
RDBMS fejlesztési irányok. Ferris Wheel (óriáskerék) Jim Gray törvényei. Elosztott adatbázisok problémái. Elosztott adatbázisok
1 RDBMS fejlesztési irányok Column store Tömb adatmodell JIT fordító és vektorizált végrehajtás Ferris wheel (óriáskerék) Elosztott adatbázisok Ferris Wheel (óriáskerék) Optimalizált scan műveletek Table
Vonalkód olvasó rendszer. Specifikáció Vonalkód olvasó rendszer SoftMaster Kft. [1]
Specifikáció Vonalkód olvasó rendszer SoftMaster Kft. [1] T a r t a l o m j e g y z é k 1 Bevezetés... 3 1.1 A rendszer rövid leírása... 3 1.2 A dokumentum célja... 3 1.3 A rendszer komponensei... 3 1.4
BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT
BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT TARTALOM MTA Cloud Big Data és gépi tanulást támogató szoftver eszközök Apache Spark
COMET webalkalmazás fejlesztés. Tóth Ádám Jasmin Media Group
COMET webalkalmazás fejlesztés Tóth Ádám Jasmin Media Group Az előadás tartalmából Alapproblémák, fundamentális kérdések Az eseményvezérelt architektúra alapjai HTTP-streaming megoldások AJAX Polling COMET
Számítógép-rendszerek fontos jellemzői (Hardver és Szoftver):
B Motiváció B Motiváció Számítógép-rendszerek fontos jellemzői (Hardver és Szoftver): Helyesség Felhasználóbarátság Hatékonyság Modern számítógép-rendszerek: Egyértelmű hatékonyság (például hálózati hatékonyság)
Mobil Peer-to-peer rendszerek
Mobil Peer-to-peer rendszerek Kelényi Imre Budapesti Mőszaki és Gazdaságtudományi Egyetem imre.kelenyi@aut.bme.hu BME-AAIT 2009 Kelényi Imre - Mobil P2P rendszerek 1 Tartalom Mi az a Peer-to-peer (P2P)?
Rendszerkezelési útmutató
Rendszerkezelési útmutató Medtronic MiniMed Northridge, CA 91325 USA 800-646-4633 (800-MiniMed) 818.576.5555 www.minimed.com Képviselet az Európai Unióban: Medtronic B.V. Earl Bakkenstraat 10 6422 PJ Heerlen
Biztonsági folyamatirányító. rendszerek szoftvere
Biztonsági folyamatirányító rendszerek szoftvere 1 Biztonsági folyamatirányító rendszerek szoftvere Tartalom Szoftverek szerepe a folyamatirányító rendszerekben Szoftverek megbízhatósága Szoftver életciklus
Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében):
Követelményrendszer 1. Tantárgynév, kód, kredit, választhatóság: Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K 2. Felelős tanszék: Informatika Szakcsoport 3. Szak, szakirány, tagozat: Műszaki
Non-stop hozzáférés az üzleti információkhoz bárhol, bármikor és bármilyen eszközzel
Non-stop hozzáférés az üzleti információkhoz bárhol, bármikor és bármilyen eszközzel The Power to Change A NetWare 6 üzleti előnyeinek áttekintése NetWare 6: Az operációs rendszer szerepe a Hálózati szolgáltatásokban
Megoldás. Feladat 1. Statikus teszt Specifikáció felülvizsgálat
Megoldás Feladat 1. Statikus teszt Specifikáció felülvizsgálat A feladatban szereplő specifikáció eredeti, angol nyelvű változata egy létező eszköz leírása. Nem állítjuk, hogy az eredeti dokumentum jól
Riverbed Sávszélesség optimalizálás
SCI-Network Távközlési és Hálózatintegrációs zrt. T.: 467-70-30 F.: 467-70-49 info@scinetwork.hu www.scinetwork.hu Riverbed Sávszélesség optimalizálás Bakonyi Gábor hálózati mérnök Nem tudtuk, hogy lehetetlen,
IBM felhő menedzsment
IBM Váltsunk stratégiát! Budapest, 2012 november 14. IBM felhő menedzsment SmartCloud Provisioning és Service Delivery Manager Felhő alapú szolgáltatások Felhasználás alapú számlázás és dinamikus kapacitás
Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei. Földi Tamás
Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei Földi Tamás tfoldi@starschema.net IBM Kutatóközpont San Jose, California, 1970 Negyven évvel később Gartner Report Elsősorban relációs adatbázisok
Felhasználók hitelesítése adatbiztonság szállításkor. Felhasználóknak szeparálása
Szabó Zsolt adatbiztonság tároláskor Felhasználók hitelesítése adatbiztonság szállításkor Felhasználóknak szeparálása jogi és szabályozási kérdések incidens kezelés öntitkosító meghajtókat Hardveres Softveres
elektronikus adattárolást memóriacím
MEMÓRIA Feladata A memória elektronikus adattárolást valósít meg. A számítógép csak olyan műveletek elvégzésére és csak olyan adatok feldolgozására képes, melyek a memóriájában vannak. Az információ tárolása
Bokor Péter. DECOS Nemzeti Nap október 15. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék
Beépített diagnosztika Bokor Péter Tartalom 1. Elosztott diagnosztika: a feladat 2. A diagnosztika kihívása 3. A tagság mint diagnosztika 4. A DECOS diagnosztikai szolgáltatások 5. Kapcsolódó feladatok:
Adatbázis rendszerek 7. előadás State of the art
Adatbázis rendszerek 7. előadás State of the art Molnár Bence Szerkesztette: Koppányi Zoltán Osztott adatbázisok Osztott rendszerek Mi is ez? Mi teszi lehetővé? Nagy sebességű hálózat Egyre olcsóbb, és
Alkalmazásfüggetlen Big Data erőforrás elosztás
Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Távközlési és Médiainformatikai Tanszék Alkalmazásfüggetlen Big Data erőforrás elosztás Készítette Haja Dávid Konzulens
2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel
2011. November 8. Boscolo New York Palace Budapest Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel Integrált rendszerek - Engineered Systems Együtt tervezett hardver és szoftver Egyedi
Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter
Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter Bevezető az Oracle9i adattárházas újdonságaihoz Elemzési és vezetői információs igények 80:20 az adatgyűjtés javára! Adattárházak kínálta
A felhőről általában. Kacsuk Péter MTA SZTAKI
A felhőről általában Kacsuk Péter MTA SZTAKI Miért fontos a felhő? (I) Problémák, ha az infrastruktúra még nem létezik Az ötletek megvalósításához szükséges idő Kutatás a felhők előtt 1. Van egy jó ötlet
Operációs Rendszerek II. Első verzió: 2009/2010. I. szemeszter Ez a verzió: 2009/2010. II. szemeszter
Operációs Rendszerek II. Első verzió: 2009/2010. I. szemeszter Ez a verzió: 2009/2010. II. szemeszter 1 Mai témák ZFS NTFS 2 ZFS Új koncepció, nem továbbgondolás Pooled storage modell Minden művelet copy-on-write
ADATBÁZISOK ADATBÁZIS-KEZELŐ RENDSZEREK. Debrenti Attila
ADATBÁZISOK ADATBÁZIS-KEZELŐ RENDSZEREK Debrenti Attila Az adatbázis fogalma 2 Számos egzakt, tudományos definíció. Hétköznapi definíció: az adatbázis valamilyen jól definiált rendszer szerint tárolt adatokból
Grid menedzsment megoldás az ARC köztesrétegben
Grid menedzsment megoldás az ARC köztesrétegben Intézetünk az Új Magyarország Fejlesztési Terv TÁMOP 4.1.3[1] alprojektjének keretén belül dolgozott ki sikeresen egy jól működő megoldást egy olyan problémára,
H N S A d a t K a p c s o l a t
HNS AdatKapcsolat HNS AdatKapcsolat 2009 március 31 HNS SPC Statisztikai folyamatszabályozó és minőségellenőrző program Copyright 1995-2009 HNS Műszaki Fejlesztő Kft. 9027 Győr, Gesztenyefa u. 4. Tel.:
Képi információk hatékony feldolgozása széles társadalmi rétegeket érintő egészségügyi problémákban
Képi információk hatékony feldolgozása széles társadalmi rétegeket érintő egészségügyi problémákban Hajdu András Debreceni Egyetem, Informatikai Kar 2. Magyar Jövő Internet Konferencia Budapest, 2015.
II. rész: a rendszer felülvizsgálati stratégia kidolgozását támogató funkciói. Tóth László, Lenkeyné Biró Gyöngyvér, Kuczogi László
A kockázat alapú felülvizsgálati és karbantartási stratégia alkalmazása a MOL Rt.-nél megvalósuló Statikus Készülékek Állapot-felügyeleti Rendszerének kialakításában II. rész: a rendszer felülvizsgálati
VvAaLlÓóSs IiıDdEeJjȷŰű OoDdSs goldengate alapokon a magyar telekomban
VvAaLlÓóSs IiıDdEeJjȷŰű OoDdSs goldengate alapokon a magyar telekomban Pusztai Péter IT fejlesztési senior menedzser Magyar Telekom Medveczki György szenior IT architekt T-Systems Magyarország 2014. március
A ChipScope logikai analizátor
A ChipScope egy, az FPGA tervbe integrálható logikai analizátor, amely az FPGA terv belső jeleinek vizsgálatára használható Előnye a normál logikai analizátorhoz képest Az igényeknek megfelelően konfigurálható
WEB2GRID: Desktop Grid a Web 2.0 szolgálatában
WEB2GRID: Desktop Grid a Web 2.0 szolgálatában MAROSI Attila Csaba MTA SZTAKI atisu@sztaki.hu 2011.07.26. Áttekintés Bevezető Grid rendszerekkel szembeni elvarások változása Web 2.0 rendszerek főbb jellemzői
MŰSZAKI KÖVETELMÉNYEK, A KÖRKERESŐ SZOFTVER SPECIFIKÁCIÓJA, KÖLTSÉGVETÉS. A) Műszaki követelmények
1. sz. melléklet MŰSZAKI KÖVETELMÉNYEK, A KÖRKERESŐ SZOFTVER SPECIFIKÁCIÓJA, KÖLTSÉGVETÉS A) Műszaki követelmények A körkereső szoftvernek (a továbbiakban Szoftver) az alábbi követelményeknek kell megfelelnie
Hogyan lesz adatbányából aranybánya?
Hogyan lesz adatbányából aranybánya? Szolgáltatások kapacitástervezése a Budapest Banknál Németh Balázs Budapest Bank Fehér Péter - Corvinno Visontai Balázs - KFKI Tartalom 1. Szolgáltatás életciklus 2.
Integráció az adatok szintjén
Tartalom Legacy rendszerek integrációja Legacy rendszerek jellemzői Integrációs lehetőségek Integráció az adatok szintjén Mit jelent adat szintű integráció? Hogyan valósítható meg Master Data Management
Segesdi Dániel. OpenNebula. Virtualizációs technológiák és alkalmazásaik BMEVIMIAV89. 2011 ősz
Segesdi Dániel OpenNebula Virtualizációs technológiák és alkalmazásaik BMEVIMIAV89 2011 ősz OpenNebula Előszó A feladatom az OpenNebula nyílt forráskódú cloud management eszköz megismerése, mely egységes
API tervezése mobil környezetbe. gyakorlat
API tervezése mobil környezetbe gyakorlat Feladat Szenzoradatokat gyűjtő rendszer Mobil klienssel Webes adminisztrációs felület API felhasználói Szenzor node Egyirányú adatküldés Kis számítási kapacitás
Hiperkonvergens infrastruktúra. Brenner Zoltán rendszermérnök
Hiperkonvergens infrastruktúra Brenner Zoltán rendszermérnök Bevezetés Hyperconverged Infrastructure Software Defined Software Defined Datacenter HyperScale Enterprise Server SAN A hiperkonvergens inftrastruktúra,
E mail titkosítás az üzleti életben ma már követelmény! Ön szerint ki tudja elolvasni bizalmas email leveleinket?
E mail titkosítás az üzleti életben ma már követelmény! Ön szerint ki tudja elolvasni bizalmas email leveleinket? Egy email szövegében elhelyezet információ annyira biztonságos, mintha ugyanazt az információt
Integrációs mellékhatások és gyógymódok a felhőben. Géczy Viktor Üzletfejlesztési igazgató
Integrációs mellékhatások és gyógymódok a felhőben Géczy Viktor Üzletfejlesztési igazgató Middleware projektek sikertelenségeihez vezethet Integrációs (interfész) tesztek HIÁNYA Tesztadatok? Emulátorok?