2014. november 6. Big data áttekintés Sidló Csaba MTA Számítástechnikai és Automatizálási Kutatóintézet Üzleti Intelligencia és Adattárházak Csoport Big Data Üzleti Intelligencia Csoport sidlo@sztaki.mta.hu http://dms.sztaki.hu http://bigdatabi.sztaki.hu
MTA SZTAKI Informatika Kutatólabor teljes innovációs lánc, kutatástól alkalmazásokig o adatbányászat, gépi tanulás, keresőtechnológiák, üzleti intelligencia, adattárházak, szociális hálózatok, bioinformatika o Big Data : Web, közösségi média elemzés és keresés smart city, mobilitás szenzoradatok (pl. szélerőmű), log-adatok dedikált csoportok: Lendület Big Data, Big Data Üzleti Intelligencia (partner: SZTAKI EMI) Longneck data integration
Tartalom definíció megoldások, szállítók trendek, kutatási témák alkalmazás példák néhány kiemelt big data téma o számítási modellek, pl. Hadoop o osztott rendszerek problémái
source: https://secure.flickr.com/photos/t_gregorius/5839399412
Big Data Big Data
Big Data definíciók adatok 3 (vagy 4, 5) V-je: o volume (mennyiség sok), pl. a 12-es farm 42. szélerőművének generátora el fog romlani, karbantartást igényel! o velocity (sebesség gyorsan jön és megy), pl. az ügyfél vonalban van, ki ő, mi a története? o variety (változatosság sokféle forrás, típus) pl. milyen népszerű a héten a termékünk közösségi hálókon? o veracity (megbízhatóság változó adatminőség), value (érték feldolgozással értéknövekedés), variability (változékonyság változó tartalom) big data is data that becomes large enough that it cannot be processed using conventional methods elsődleges alkalmazók: analitika, üzleti intelligencia velocity variety big data volume
Volume: business email each year mennyi? Google index Youtube upload each year Facebook upload each year Wired magazin, 2013: 2012-ben 2.8 ZettaByte információ keletkezett (vagy duplikálódott) (giga tera peta exa zetta) sok százezer PetaByte méretű adatbázis forrás: http://www.wired.com/magazine/2013/04/bigdata/
Big data megoldások hagyományostól eltérő, jól skálázódó rendszerek: o több / gyorsabb / változatosabb adat jól megoldható marad a feladat, tervezhetően több számítási erőforrással Petabytes régi módszerek, új megoldások: o oszd meg és uralkodj: párhuzamosítás, sok gép, elosztott rendszerek o áttérés új architektúrákra: in-memory, SSD GPU SQL, NoSQL, NewSQL példa: új technológiák és hype
Numbers Everyone Should Know - a megoldások korlátai RAM L1 cache reference 0.5 ns L2 cache reference 7 ns Main memory reference 100 ns Read 1 MB sequentially from memory 250,000 ns Intra-process communication Mutex lock / unlock 100 ns Read 1 MB sequentially from network 10,000,000 ns Disk Disk seek 10,000,000 ns Read 1 MB sequentially from disk 30,000,000 ns Disk 10+TB RAM 100+ GB CPU L2 1+ MB L1 10+ KB GPU onboard memory Global 4-8 GB Block shared 10+ KB forrás: Jeff Dean, Google
Big data piac kapcsolódó hardware, software és szolgáltatások bevételei 2012-ben: 11.4 milliárd USD növekvő befektetések: pl. Google, Facebook, Amazon, kormányzat IBM, Oracle, Microsoft, SAP, EMC, HP, felvásárolnak forrás: http://wikibon.org/wiki/v/big_ Data_Vendor_Revenue_and _Market_Forecast_2012-2017
forrás, 2012.06: http://www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape/
forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation
rétegek: adatelérés, analitika, alkalmazások sok szereplő, erős verseny SQL vs. NoSQL vs. NewSQL kötegelt vs. streaming (real time) feldolgozás szolgáltatások, eszközök, eszközkombinációk, full stack-ek, SaS, open source stb. feladathoz megfelelő kombináció forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation
Big data rétegek forrás: The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective, ICT- 2011.4.4 Info day Big Data Services Big Analytic s Fast Data
SQL, NoSQL eszközkombinációk ábra: alkalmazók, eszközök, szolgáltatók; teljesség igénye nélküli gyűjtés! polyglot persistence hagyományos alkalmazások? o o Mo.? főleg Web 2.0 alkalmazók és fejlesztők! ld. hype cycle, crossing the chasm nagy szereplők: o saját eszközkészlet
Big data trendek szubjektív válogatás innovációs görbe: o early adopters / post-innovators: Web 2.0 (pl. Google, Facebook, Twitter, LinkedIn) o early majority (pl. pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem stb.) pezsgés: meetup-ok, konferenciák (tudományos is) real time, streaming (adatfolyam) feldolgozás: hatalmas igény flash memória, SSD vs. hagyományos tároló-tömbök in memory feldolgozás o pl. SAP Hana és Oracle Exadata X3 (vs. Hadoop) statisztika + informatika + üzlet data science ( the sexiest job in the 21st century, Harward Business Review) kép:http://en.wikipedia.org/wiki/diffusion_of_innovations
Big data kutatás első nagyobb big data konferencia: IEEE BigData 2013 hangsúlyos téma egyéb nagy konferenciákon, pl. VLDB, SIGMOD irányvonalak: o alapok elméleti modellek, szabványok, o infrastruktúra cloud, stream, osztott feldolgozás, open platformok, NoSQL, o adatkezelés adatintegráció, adattisztítás, crowdsourcing, adatbáziskezelés, o keresés és adatbányászat o biztonság és adatvédelem o alkalmazások forrás: http://www.ischool.drexel.edu/bigdata/bigdata2013/
Néhány kiemelt kutatási téma új elméleti és számítási modellek: o MapReduce, BSP, Storm topológiák mi a következő? mi jön a Hadoop / MapReduce után? o egyszerűség, gyorsaság vs. komplex műveletek pl. relációs SQL vs. NoSQL key-value stores o cluster, cloud, grid különböző környezetek hogyan támogassák a big data problémák megoldását? keresés és adatbányászat o nagyléptékű gráf adat feldolgozás és analitika o valósidejű adatbányászat, jól skálázódó gépi tanulás, ajánlórendszerek
Néhány kiemelt kutatási téma 2. big data vizualizáció benchmarking skálázható adat-management felhőkön o storage rendszerek: adat lokalitás elrejtése o pl. több adat center lokális számításokkal Amazon S3-on
Új üzleti intelligencia módszertanok data science o matematika, statisztika, informatika, hacker atitűd, tudományos megközelítés, iparági ismeretek o the sexiest job in the 21st century (Harward Business Review): keresett, drága szakemberek agile data, agilie BI o agilis fejlesztési elvek üzleti intelligencia célokra o agile data science hagyományos alkalmazások? önkiszolgáló analitika o könnyen kezelhető eszközök a teljes folyamatra, adateléréstől vizualizációig o támogassuk és hagyjuk kibontakozni az elemzőket és azokat, ahol az információigény jelentkezik adatvezéreltség
Adatbányászat és big data adatbányászat: hasznos (meglepő?) tudás kinyerése nagy adattömegből; eszközök: o algoritmusok (nagy méret) o adatbázisok (elrendezés, hozzáférés) o Mesterséges Intelligencia és Gépi Tanulás (modellek) o Statisztika (hipotézisvizsgálat) big data adatbányászat: minden még nagyobb; eszközök: o algoritmusok (elosztott, MapReduce, Cloud) o adatbázisok (elosztott, NoSQL) o okostelefonok, közösségi média (Facebook, Twitter, ) o Mesterséges Intelligencia és Gépi Tanulás ajánló rendszerek, hálózatok o Statisztika adat más célból gyűlik gyakran nincs mintavételezés adatgazdagítás helyett a hiányzó adatokat átugró módszerek
Emberi genom dekódolás / szekvenálás o 725 MB adat kb. o 1990: 10-15 év, $3 milliárd o most: EC2, MapReduce, $100; egész folyamat: <$1000 o 40-node, 320-core: < 3 óra, 10-node: 1 nap
CERN CERN Wigner adatközpont: 1 PB/sec 2x100GB 100-200e gép, 70 PB
Web web 2.0 cégek: úttörők o Google: 1PB rendezése 33 percben (2011.07.) miért nincs Európában F1 adatbázisuk? Kevés az áram! o Facebook: 30+ PB felhasználói adat (2012.06.), 180 PB/év adattárházban (2013.02.) o Twitter o Amazon kiskereskedelemből kinőve felhő szolgáltatások, megvehetjük az infrastruktúráját o web keresés, látogatottság elemzés, ajánlások, hirdetések, trend elemzés
Saját web feladat példák Hanzo Archives (UK): o Amazon EC2 cloud + S3 Internet Memory Foundation: o low-end szerverekkel PB-ok feldolgozása SZTAKI Web adat, pl. http://kopi.sztaki.hu plágiumkereső saját kódok open source eszközök még nem elég kiforrottak 50 régi szerver (mostani desktopoknál gyengébbek): 1 hét 3TB tömörített adathoz hardware kb. $15,000; Amazon ár kb. $1000 lenne Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal kis rész
Gráfvizualizáció YAGO entitások kapcsolatok
Twitter, SAP HANA: Meryl Streep Oscar, 2012
Twitter, SAP HANA: Meryl Streep Oscar, 2012
Twitter, SAP HANA: Meryl Streep Oscar, 2012 kép: http://mirror.co.uk
Twitter, SAP HANA: Meryl Streep Oscar, 2012
Twitter, SAP HANA: Meryl Streep Oscar, 2012 kép: http://bbc.com
Twitter, SAP HANA: Meryl Streep Oscar, 2012
Twitter, SAP HANA: Meryl Streep Oscar, 2012
Kiskereskedelem Walmart: 250 gépes Hadoop cluster, napi több TB felhasználói aktivitás (2012.) hagyományos adatbányászati / elemzési feladatok - nagy adathalmazon Ajánlórendszerek magyar pl. Gravity, Scarab Research collaborative filtering (hasonló felhasználók), tartalom alapú, session alapú nagyon kis késleltetés az elvárt!
R P 1 4 3.3 3 2.4-0.5 3.5 4 4 1.5 4 4.9 2 1.1 4 1,4 1,1 0,9 1,9 2,5-0,3 1,5 2,1 1,0 0.7 1.6 Q -1,0 0,8 1,6 1,8 0,0 Forrás: Tikk Domonkos, Gravity
Mobilitás mobilszolgáltatók: infrastruktúrából location adatok o 4,5 milliárd mobil kb. mostanában o minőségi mutatók valós idejű követése, liquid applications, smart city o real-time scalable distributed stream processing: 100 000 events / sec (several million people) itthon pl: t-mobil kísérleti rendszer, helyfüggő kedvezmények sms-ben
Forgalmi térkép, útvonaltervezés woophoo.com, ~2008 google.com, 2011
woophoo.com (~2008)
big data competition open to the scientific community o exploring the tremendous potential of telephone data o producing rich, diverse ideas Orange anonymised data set: Ivory Coast, December 2011 April 2012, ~ 5M users, 2.5 billion records o aggregate communication between cell towers o communication sub-graphs o mobility traces: privacy vs. fine resolution coarse (prefectures) with more users, fine resolution dataset with less users (sparse sample) http://perso.uclouvain.be/vincent.blondel/netmob/2013/
D4D saját példa vizualizáció Aggregated cell density predictions Sample of individual user predictions
Okos város D4D példák Songdo City, Santander, itthon: o HUGO útdíj, Futár o Székesfehérvár, Debrecen, Szeged, Szolnok AllAboard: a system for exploring urban mobility and optimizing public transport using cellphone data disease containment using calls matrix and mobility matrix Unique in the crowd: The privacy bounds of human mobility forrás: D4D challenge
4/6 villamos megállóinak detekciója telefon szenzoradatokból már a telefonon szűrni kell pontatlan, heterogén, sok, gyorsan keletkező adat
Szenzoradatok Internet of Things, Cyber Physical Systems: szenzor mindenhol szélerőművek: o 1 turbina, ms mintavétel, 20-30 szenzor, 60-100 szignál > 100GB /hó o farm: 10-100 turbina, régió: 5-50 farm kép: http://www.newscientist.com/
Temperatures -30 Model estimation error (%) [limit: +/- 17%] Non-conform situation detection - estimation of the gearbox bearing temperature by a neural network modell (Model validity: ambient temperature between 4 and 10 C) 110 130 100 Values_for_Model_INPUT_2 Gearbox bearing temperature_model_estimates Values_for_Model_INPUT_1 Gearbox bearing temperature_measured 120 110 90 Ambient temperature (for model vaildity) Error_% 100 80 70 90 80 70 60 60 50 50 40 40 30 20 30 20 10 0 10 0-10 -20 Time - a year
Sensors smart home, city, country, Road and parking slot sensors Mobile parking traces Public transport, Oyster cards Bike hire schemes Source: Internet of Things Comic Book, http://www.smartsantander.eu/images/iot_comic_book.pdf
even agriculture
Kép és hang megoldható? Keresem azt a képet, amin én (íme az arcképem) állok egy hegycsúcson! 1 db. MRI kép mérete: 2-5 GB o már csak hordozni is nehéz, pl. kórházról kórházra o évente mondjuk 1500 betegre: 3-7 TB rendszámfelismerés call center hívások o leiratok o NLP o sentiment analysis o entity recognition
Ügyféladatok: azonosságfeloldás nehéz feladat: O(n 2 ) Ügyfél rekordok csoportosítása valós személyek Hány természetes személy ügyfelünk van? Lehetséges felhasználások pl.: Call center, marketing lead-ek kezelése Kockázatelemzés, riasztás Kitiltott ügyfelek, új ügyfél kedvezmények
Mire alkalmazható? személyazonosság ügyfelek, adóalanyok internet szolgáltatás felhasználói (email, facebook stb.) nemzetbiztonság, terror-elhárítás termékek weboldalak (spam) helyek, POI-k összetett entitások: szervezetek, cégek, családok
Ügyfélkezelés CRM: külső adatforrások csatolása o pl. Twitter tweet-ek, Facebook call center teljesebb történet mire panaszkodott napok óta, mielőtt telefonált? jogilag kérdéses az adatgyűjtés! o beszélgetés leiratok hangulat (sentiment), kulcsszavak stb. keresés digitális marketing o tranzakciók felhasználása: vásárlások, beszélgetések, mindenféle kapcsolható esemény o lemorzsolódás előrejelzés, személyre szabott ajánlatok, o AdWords stb.
IT logok, alkalmazás naplók gyűjteni sokszor muszáj, elemezni nehéz pl. prezi.com: 150 GB / nap (2013) valós idejű tőzsdei kereskedés: pl. GusGus.hu: 400 TB + 170 GB / nap, Hadoop 5PB tár, 240 gép (2013) webanalitika, weblog: kiforrott megoldások kép: http://www.google.com/analytics/
IT-log feldolgozás adatfolyam hagyományos módszerek elhasalnak! Adattárház aggregáció? saját kísérletek: 30-100+ GB/nap 30-60 M esemény szűk keresztmetszetek azonosítása, folyamat-optimalizáció csalások, visszaélések, támadások felderítése adatintenzív feladat
Elosztott rendszerek Murphy törvénye 54 2013-09-17
NoSQL: CAP tétel és adatmodell CA: nincs partíció RDBMS (Oracle, PostgreSQL, MSSQL, DB2 ), Greenplum, Vertica, Membase, OrientDB, Neo4j, Consistency : minden node mindig ugyanazt az adatot látja C Avalilability : mindig van visszajelzés A P kettőt választhatsz! CP: nincs válasz, ha nincs egyetértés a replikákkal MongoDB, Redis, HBase, Hypertable, BigTable, AP: replika válaszolhat hibásan Dynamo, Project Voldemort, Riak, Tokyo Cabinet, Cassandra, CouchDB, OrientDB, A P Partition tolerance : kieshetnek node-ok, de a rendszer működik adatmodell: SQL key-value wide column dokumentumorientált gráf ACID vs. gyengített kritériumok, pl. BASE: Basically Available, Soft state, Eventual consistency ábra forrás: http://blog.nahurst.com/visual-guide-to-nosql-systems
Mi történik, ha szétesik a rendszer? Végül lehet konzisztens (eventual consistency) A kapcsolat helyreállása után lehet adatot cserélni CAP tétel bizonyítás Partition (P): a jobb oldalra beírt új értéket nem ismeri a bal oldal Ha azonnal kérdezünk a bal oldalon (availability), akkor hibás a válasz Vagy availability (A), vagy konzisztencia (C) 56 Big 2013-09-17 Data
Input (HDFS) Output (HDFS) Hadoop és MapReduce Hadoop: o open source, kiforrott ( enterprise ready ), sok helyen használt platform o sokan építenek rá terméket, szolgáltatást o viszonylag nagy késleltetés, kötegelt adatfeldolgozásban nyerő leginkább MapReduce: a Hadoop számítási modellje o amiben jó: elosztott rendezés o példa: Keressük meg a top 10 leggyakoribb szót az előadás diáin! map reduce map map map map reduce reduce reduce split: (k, v) sort by k merge: (k, [v, v2, v3, ])
A Big Data nem csodafegyver NoSQL By Perry Hoekstra Technical Consultant Perficient, Inc.
Sidló Csaba sidlo@sztaki.mta.hu http://dms.sztaki.hu http://bigdatabi.sztaki.hu