Big data amikor a probléma az adat mérete maga



Hasonló dokumentumok
Big Data: a több adatnál is több

Big Data. Benczúr András Big Data Lendület kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András

Entity Resolution azonosságfeloldás

Elosztott Hash Táblák. Jelasity Márk

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Big data áttekintés. Sidló Csaba. MTA Számítástechnikai és Automatizálási Kutatóintézet

MMK-Informatikai projekt ellenőr képzés 4

Elosztott adatbázis-kezelő formális elemzése

Riak. Pronounced REE-ahk. Elosztott adattároló eszköz. Molnár Péter

Big Data tömeges adatelemzés gyorsan

Számítógépes Hálózatok 2012

Big data áttekintés. Sidló Csaba. MTA Számítástechnikai és Automatizálási Kutatóintézet

Hálózatba kapcsolt erőforrás platformok és alkalmazásaik. Simon Csaba TMIT 2017

Component Soft és tovább

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei. Földi Tamás

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

MapReduce paradigma a CAP-tétel kontextusában. Adatb haladóknak. Balassi Márton Adatbázisok haladóknak 2012.

webalkalmazások fejlesztése elosztott alapon

Felhasználói réteg. Számítógépes Hálózatok Domain Name System (DNS) (RFC 821/822) Domain Name System

Adatbányászat és Perszonalizáció architektúra

Számítógépes Hálózatok

Takács Gábor mérnök informatikus, okl. mérnöktanár

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

Hadoop és használata az LPDS cloud-on

Üzleti intelligencia skálázható architektúrákon

Data Vault 2.0 és az Oracle DW/BD referencia architektúra. Gollnhofer Gábor Meta Consulting Kft.

Adatközpontok felügyelete

Amazon Web Services. Géhberger Dániel Szolgáltatások és alkalmazások március 28.

MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Információs Rendszerek Szakirány

DSD DSD. Egy országos méretű orvosi adatbázissal kapcsolatos informatikai kihívások. Kovács László Pataki Balázs Pataki Máté MTA SZTAKI DSD

Teszt topológia E1/1 E1/0 SW1 E1/0 E1/0 SW3 SW2. Kuris Ferenc - [HUN] Cisco Blog -

IT trendek és lehetőségek. Puskás Norbert

Számítógépek felépítése

ICT ÉS BP RENDSZEREK HATÉKONY TELJESÍTMÉNY SZIMULÁCIÓJA DR. MUKA LÁSZLÓ

Simon Balázs Dr. Goldschmidt Balázs Dr. Kondorosi Károly. BME, Irányítástechnika és Informatika Tanszék

Ami az Intel szerint is konvergens architektúra

Benczúr András.

Kézikönyv ABAS-TOOLS használata

SAS Enterprise BI Server

MPP Adattárház Teradata alapokon

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

egy szisztolikus példa

SAP Business One. Méretre szabás. Mosaic Business System Kft.; Support:

Big Data az adattárházban

Flynn féle osztályozás Single Isntruction Multiple Instruction Single Data SISD SIMD Multiple Data MISD MIMD

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek

Magic xpi 4.0 vadonatúj Architektúrája Gigaspaces alapokon

Felhők teljesítményelemzése felhő alapokon

"A tízezer mérföldes utazás is egyetlen lépéssel kezdődik."

Nagy adattömbökkel végzett FORRÓ TI BOR tudományos számítások lehetőségei. kisszámítógépes rendszerekben. Kutató Intézet

Csalásfelderítés hálózatokon keresztül. Innovatív BI konferencia, Budapest,

Csoportos üzenetszórás optimalizálása klaszter rendszerekben

Hasznos és kártevő rovarok monitorozása innovatív szenzorokkal (LIFE13 ENV/HU/001092)

Nem-relációs adatbáziskezelés. Gajdos Sándor május 8.

Analitikai megoldások IBM Power és FlashSystem alapokon. Mosolygó Ferenc - Avnet

Excel ODBC-ADO API. Tevékenységpontok: - DBMS telepítés. - ODBC driver telepítése. - DSN létrehozatala. -Excel-ben ADO bevonása

Hiperkonvergens infrastruktúra. Brenner Zoltán rendszermérnök

Párhuzamos programozási platformok

Készítette: Trosztel Mátyás Konzulens: Hajós Gergely

Elosztott rendszer architektúrák

Klotz Tamás earchitect Oracle

Weblog elemzés Hadoopon 1/39

Felhő rendszerek és felhő föderációk. Kacsuk Péter MTA SZTAKI

Utolsó módosítás:

Titkosítás NetWare környezetben

Végpont védelem könnyen és praktikusan

Üzemeltetési kihívások 2015

Az információs rendszerek adatai

Felhő technológia Trendek 2014 VMware Forum

BME-Ipar. Win-Win. Intelligens környezetek és e-technológiák. Dr. Charaf Hassan Fókuszban a Műegyetem és az ipar kapcsolata

Oracle Big Data koncepció. Stadler Gellért Vezető tanácsadó Oracle ConsulKng HTE 2015 Konferencia

Tartalomjegyzék. Köszönetnyilvánítás. 1. Az alapok 1

8. Fejezet Processzor (CPU) és memória: tervezés, implementáció, modern megoldások

8. Fejezet Processzor (CPU) és memória: tervezés, implementáció, modern megoldások

Operációs rendszerek Memóriakezelés 1.1

RDBMS fejlesztési irányok. Ferris Wheel (óriáskerék) Jim Gray törvényei. Elosztott adatbázisok problémái. Elosztott adatbázisok

Oracle Enterprise Manager: Az első teljesértékű felhő üzemeltetési megoldás

Teljesen elosztott adatfeldogozás és adatbányászat

Számítógépes Hálózatok Felhasználói réteg DNS, , http, P2P

Felhasználói réteg. Számítógépes Hálózatok Domain Name System (DNS) DNS. Domain Name System

Waberer s BI a BO-n túl. WABERER S INTERNATIONAL Nyrt. Szatmári Johanna, Tobak Tamás

Szárnyas Gábor (BME) diáinak felhasználásával.

Memóriák - tárak. Memória. Kapacitás Ár. Sebesség. Háttértár. (felejtő) (nem felejtő)

Hálózatba kapcsolt adatbázisok. Erős Levente, TMIT 2011.

A tanulmány Klaus Berberich és Srikanta Bedathur Computing n-gram Statistics in MapReduce cikkét dolgozza fel.

EGI-InSPIRE. Café Grid március 24. Szeberényi Imre 3/25/ EGI-InSPIRE RI

Bevezetés a párhuzamos programozási koncepciókba

Szoftveripar és üzleti modellek

Gráfalgoritmusok ismétlés ősz

Történet John Little (1970) (Management Science cikk)

Konszolidáció és költségcsökkentés a gyakorlatban. Az Országos Tisztifőorvosi Hivatal Oracle adatbázis konszolidációja

III. "JÖVŐ INTERNET" TECHNOLÓGIÁK: ELOSZTOTT ÉS FELHŐ SZOLGÁLTATÁSOK, TÁRGYAK INTERNETE DR. SIMON GYULA

A felhőről általában. Kacsuk Péter MTA SZTAKI

AliROOT szimulációk GPU alapokon

MIKOR ÉS KINEK ÉRI MEG A FELHŐ?...ÉS ÉRDEKEL-E EZ BÁRKIT? Soós Tamás CEO

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

Ismerkedjünk tovább a számítógéppel. Alaplap és a processzeor

Átírás:

Big data amikor a probléma az adat mérete maga Benczúr András MTA SZTAKI Informatika kutató laboratórium http://dms.sztaki.hu MTA 2012. május 16.

Big Data az új divatszó big data is when the size of the data itself becomes part of the problem big data is data that becomes large enough that it cannot be processed using conventional methods Google sorts 1PB in 33 minutes (07-09-2011) Amazon S3 store contains 762B objects (31-01-2012) New Relic: 20B+ application metrics/day (18-07-2011) Walmart monitors 100M entities in real time (12-09-2011) Source: The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective ICT-2011.4.4 Info day in Luxembourg on 26 September 2011

Big Data Rétegek Big Data Services Big analytics Fast data

Tudományos és üzleti relevancia VLDB 2011 (~100 papers): 6 MapReduce/Hadoop, 10 big data (+keynote), 11 NoSQL architektúra, 6 GPS/szenzor adat cikk tutorial, demo (Microsoft, SAP, IBM NoSQL eszközök) session: Big Data Analysis, MapReduce, Scalable Infrastructures SIGMOD 2011: 70 cikkből 10 új architektúrákról és analitikai alkalmazásukról Gartner 2011 trend No. 5: Next Generation Analytics significant changes to existing operational and business intelligence infrastructures The Economist 2010.02.27: Monstrous amounts of data Information is transforming traditional businesses News special issue on Big Data - április

Big data : miért pont most? A hardver egyre jobb és olcsóbb? De egyre több adatunk van éppen az IT fejlődés következtében Rossz hír a lineárisnál lassabb algoritmusoknak! Moore törvény (duplázódás 18 havonta) ma már magok száma és nem sebesség!

Az algoritmusok rövid története P, NP PRAM elméleti modellek SIMD, MIMD, message passing Thinking Machines: hypercube, CM-5: sok vektorproc Külső táras algortimusok Cray: vektorprocesszorok Map-reduce Google Multi-core Many-core Cloud Flash disk

Őstörténet: P, NP P: Gráfbejárás; Feszítőfa 15 5 NP: Steiner fa 1 2 15 2 1 2 2 1 25 1 2 1 1 5 1 1

Algoritmus-történelem: párhuzamos fák Iteratív minimum feszítőerdő építés Kezdetben minden csúcs egy fa; minden iterációban fák egyesülnek (Borůvka) Bentley: A parallel algorithm for constructing minimum spanning trees 1980 2 3 1 Harish et al. Fast Minimum Spanning Tree for Large Graphs on the GPU 2009 6 5 4 7 8

Kit érdekel ez még ma? Képszegmentálás Azonosságfeloldás name e-mail ID Mary Smith m.smith@mail-1.com 50071 Mary Doe mary@mail-2.com 50071 M. Doe mary@mail-2.com 79216 M. Smith m.smith@mail-1.com 34302 1 2 3

Gráfalgoritmusok és elosztott számítási paradigmák Distributed Key-Value Store: eloszott B-fa index Akár szekvenciális algoritmus pl. Project Voldemort MapReduce: map reduce műveletek Google; Apache Hadoop Bulk Synchronous Parallel: superstep: számítás kommunikáció barrier sync Google Pregel; Apache Hama, GraphLab

MapReduce gráfalgoritmusok Map: élsúlyok átadása a végpontoknak Reduce: minimum élsúly választás Iteráció, amíg 1 < komponens...

BSP példa: komponensek címkézése

Kísérletek: azonosság-feloldás Sidló, B, Garzó, Molnár, Infrastructures and bounds for distributed entity resolution. QDB 2011 15 öreg szerver, 4GB memory, 3GHz CPU biztosító ügyféladat (személyenként átlag 2 előfordulás)

Kísérletek: azonosság-feloldás 15 öreg szerver, 4GB memory, 3GHz CPU biztosító ügyféladat (személyenként átlag 2 előfordulás)

Kísérletek: azonosság-feloldás Összefüggő komponensek HAMA fázisok Hadoop fázisok Rendezés 15 öreg szerver, 4GB memory, 3GHz CPU biztosító ügyféladat (személyenként átlag 2 előfordulás)

Elosztott rendszerek Murphy törvénye Fox&Brewer CAP Tétel : C-A-P: kettőt választhatunk! C consistency A Availability AP: egy replika válaszolhat hibásan P Partition-resilience Végül konzisztenssé válhat eventual consistency

Konzisztens hash-elés objektumok n szerveren pozíció: ax+b mod n új szerver? pozíció: a x+b mod n+1?? szerver Minden objektum a legközelebbi szerverre kerül

Terhelésmegosztás, konzisztens hash a212: 10.10.10.1 10.10.10.4 10.10.10.3 10.10.10.2 a213: 10.10.10.3 10.10.10.4 10.10.10.2 10.10.10.1 a214: 10.10.10.1 10.10.10.2 10.10.10.3 10.10.10.4 a215: 10.10.10.2 10.10.10.1 10.10.10.4 10.10.10.3 Karger, Lehman, Leighton, Panigrahy, Levine, Lewin: Consistent hashing and random trees: distributed caching protocols for relieving hot spots on the World Wide Web. STOC 1997 Szerverek véletlen permutációja

Azonosság-feloldás: erősebb korlátok! Halmaz metszet kommunikációs bonyolultsága Θ(n) bit [Kalyanasundaram, Schintger 1992] Következmény: több szerveren elosztott adatok esetén Θ(n) kommunikáció eldönteni, hogy van-e duplikátum! Javasolt módszerek: Blocking [Whang, Menestrina, Koutrika, Theobald, Garcia-Molina. ER with Iterative Blocking, 2009, stb.] Legjobb esetben is minden adatot ki kell cserélni Kapcsolódó terület: Locality Sensitive Hashing nincs minimum, azaz koordináta egyezés LSH hasonló a Donoho Zero norm (nem-0 koordináták száma) negatív eredményekhez Sidló, B, Garzó, Molnár, Infrastructures and bounds for distributed entity resolution. QDB 2011

Big Data részterületei Összefoglalás Számítógép-architektúrák processzor tömbök, megfizethető nagyon sok magos eszközök Algoritmusok tervezési elvek a 90-es évekből Adatbázisok elosztott, oszlop-orientált, NoSQL Adatbányászat, Keresés, Gépi tanulás, Hálózatok az alkalmazási területek Algoritmikus gondolkodás és szoftvertervezés Korlátok, hibatűrés, adat és számítás-intenzív feladatok Sok kiforratlan alternatíva (pl. BSP)

Kérdések? Benczúr András Laborvezető, Informatika Kutató Labor http://datamining.sztaki.hu/ MTA SZTAKI benczur@sztaki.hu