Big Data: a több adatnál is több Sidló Csaba István MTA Számítástechnikai és Automatizálási Kutatóintézet Üzleti Intelligencia és Adattárházak Csoport sidlo@sztaki.mta.hu http://dms.sztaki.hu CIO Hungary konferencia, 2013. április 19.
MTA SZTAKI és Big Data Keresés és Adatbányászat, Üzleti Intelligencia és Adattárházak csoportok o Benczúr András, 2012 Big Data MTA Lendület Fiatal Kutatói Díj o kutatás fejlesztés, teljes innovációs lánc o kb. 30-40 tag, kutatók, fejlesztők, hallgatók o folyamatosan fejlődő infrastruktúra, 60+ gép, 170+ mag, 600+ TB tároló Big Data Üzleti Intelligencia Csoport o partner: Mérnöki és Üzleti Intelligencia Laboratórium, Dr. Viharos Zsolt János projektek valódi big data feladatokkal o logelemzés, webanalitika, webes keresés, spam detektálás, ajánlórendszerek, csalásfelderítés o smart city, mobilitás, internet of things http://dms.sztaki.hu http://bigdatabi.sztaki.hu
Big Data adatok 3 (vagy 4, 5) V-je: o Volume (mennyiség sok), o Velocity (sebesség gyorsan jön és megy), o Variety (változatosság sokéle forrás, típus) o + Value (érték feldolgozással értéknövekedés), Veracity (megbízhatóság változó adatminőség), Variability (változékonyság változó tartalom) big data is when the size of the data itself becomes part of the problem big data is data that becomes large enough that it cannot be processed using conventional methods
Mennyi? Google: 1PB rendezése 33 percben (2011.07.) Walmart: 250 gépes Hadoop cluster, napi több TB felhasználói aktivitás (2012.) Facebook: 30+ PB felhasználói adat (2012.06.) emberi genom dekódolás: o 1990: 10-15 év, $3 milliárd o most: EC2, MapReduce, $100 o 40-node, 320-core: < 3 óra, 10-node: 1 nap szélerőmű szenzor adatok: o 1 turbina, ms mintavétel, 20-30 szenzor, 60-100 szignál > 100GB adat / hó o farm: 10-100 turbina, régió: 5-50 farm
Big data piac kapcsolódó hardware, software és szolgáltatások bevételei 2012-ben: 11.4 milliárd USD, 59%-os növekmény 2011-hez képest növekvő befektetések: pl. Google, Facebook, Amazon, kormányzat IBM, Oracle, Microsoft, SAP, EMC, HP emelett felvásárolnak Web 2-es cégeken kívül beléptek: pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem, kiforrott termékek (pl. Hadoop) és szolgáltatások forrás: http://wikibon.org/wiki/v/big_data_vendor_revenue_and_market_forecast_2012-2017
Big data rétegek forrás: The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective, ICT- 2011.4.4 Info day Big Data services Big Analytics Fast Data
Big data kutatás első fontos big data konferencia: IEEE BigData 2013 hangsúlyos téma egyéb nagy konferenciákon, pl. VLDB, SIGMOD irányvonalak: o alapok számítási és egyéb elméleti modellek, adatminőség, szabványok, o infrastruktúra cloud, stream, osztott feldolgozás, open platformok, NoSQL, o adatkezelés adatintegráció, adattisztítás, crowdsourcing, adatbáziskezelés, o keresés és adatbányászat közösségi hálók, mobilitás adat, big data keresés, o biztonság és adatvédelem o alkalmazások forrás: http://www.ischool.drexel.edu/bigdata/bigdata2013/
Néhány kiemelt kutatási téma új elméleti és számítási modellek: o MapReduce, BSP, Storm topológiák mi a következő? mi jön a Hadoop / MapReduce után? o egyszerűség, gyorsaság vs. komplex műveletek pl. relációs SQL vs. NoSQL key-value stores o cluster, cloud, grid különböző környezetek hogyan támogassák a big data problémák megoldását? keresés és adatbányászat o nagyléptékű gráf adat feldolgozás és analitika o valósidejű adatbányászat, jól skálázódó gépi tanulás, ajánlórendszerek
Néhány kiemelt kutatási téma 2. big data vizualizáció benchmarking skálázható adat-management felhőkön o storage rendszerek: adat lokalitás elrejtése o pl. több adat center lokális számításokkal Amazon S3-on
Néhány big data trend Gartner 2011 trend No. 5: Next Generation Analytics: significant changes to existing operational and business intelligence infrastructures early adopters / post-innovators: Web2 vállalatok, mint Google, Facebook, Twitter and LinkedIn early majority gap: kutatás, kutatási eszközök vs. ipari alkalmazásra kész eszközök; Lucene kereső, Apache Hama stb. flash memória, SSD vs. hagyományos tároló-tömbök in memory vs. batch processing o pl. SAP Hana és Oracle Exadata X3 vs. Hadoop real time streaming feldolgozás o S4, Storm stb. NoSQL vs. NewSQL data science
Vállalati IT-napló feldolgozás hagyományos módszerek elhasalnak! Adattárház aggregáció? saját kísérletek: 30-100+ GB/nap 30-60 M esemény adatintenzív feladat szűk keresztmetszetek azonosítása, folyamat-optimalizáció csalások, visszaélések, támadások felderítése
Képek, szociális hálók, azonosságok kép szegmentáció (képkereséshez) számításintenzív feladatok entity resolution - azonosságfeloldás
Mobilitás, telekom, szélerőmű szenzor telekom adatok: CDR, OSS (operational support system) analitika: mozgás előrejelzés smart city : intelligens parkolás, forgalomirányítás stb. internet of things szélerőművek: szenzor adat adatfolyam http://www.d4d.orange.com számítás és adatintenzív feladatok
Webes feladat példák Hanzo Archives (UK): o Amazon EC2 cloud + S3 Internet Memory Foundation: o low-end szerverekkel PB-ok feldolgozása SZTAKI Web adat, pl. http://kopi.sztaki.hu plágiumkereső o saját kódok open source eszközök még nem elég kiforrottak o 50 régi szerver (mostani desktopoknál gyengébbek): 1 hét 3TB tömörített adathoz számítás és adatintenzív feladatok o hardware kb. $15,000; Amazon ár kb. $1000 lenne o Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal kis rész