Big Data Benczúr András Big Data Lendület kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András benczur@sztaki.mta.hu http://datamining.sztaki.hu Big Data @ SZTAKI 2014. Október 17.
Big Data: volume, velocity, variety - V 3 big data is when the size of the data itself becomes part of the problem big data is data that becomes large enough that it cannot be processed using conventional methods Google sorts 1PB in 33 minutes (07-09-2011) Amazon S3 store contains 499B objects (19-07-2011) New Relic: 20B+ application metrics/day (18-07-2011) Walmart monitors 100M entities in real time (12-09-2011) Forrás: The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective ICT-2011.4.4 Info day in Luxembourg on 26 September 2011
Megvalósítás: új technológiai lehetőségek Technikai és kutatási kérdés: A nagy számú jelenleg lehetséges új technológia és megoldás jelölt közül melyik architektúra legalkalmasabb az adott üzleti probléma megoldására?
Elosztott rendszerek Murphy törvénye
Elosztott rendszerek Murphy törvénye Fox&Brewer CAP Tétel : C-A-P: kettőt választhatunk! C consistency Apache Flink A Availability AP: egy replika válaszolhat hibásan P Partition-resilience
Alkalmazások Big Data @ SZTAKI 2014. szeptember 17.
Temperatures -30 Model estimation error (%) [limit: +/- 17%] Big Data feladat: szenzor adatok Non-conform situation detection - estimation of the gearbox bearing temperature by a neural network modell (Model validity: ambient temperature between 4 and 10 C) 110 130 100 Values_for_Model_INPUT_2 Gearbox bearing temperature_model_estimates Values_for_Model_INPUT_1 Gearbox bearing temperature_measured 120 110 90 Ambient temperature (for model vaildity) Error_% 100 80 70 90 80 70 60 60 50 50 40 40 30 20 30 20 10 0 10 0-10 -20 Time - a year
Big Data feladat: nagyvállalati IT log Hagyományos megoldások: kudarc Aggregált adatok: adattárház? Tapasztalat: 30-115 GB/nap 3-60 millió esemény teljesítményprobléma, folyamat-optimalizálás rosszindulatú támadás, visszaélés-felderítés
Intelligens környezet mobilitási adatok Mobilitási adatok többcélú elemzése o Mobil szolgáltatás minősége, csomagvesztés előrejelzése o Személyre szabott profilépítés térben és időben Felhasználó és helyszín modellek építése és előrejelzés o Helyszín, útvonal predikció, valós idejű közlekedési előrejelzés Intelligens város alkalmazások o Többtényezős optimalizáció (ár, idő elektromos autók!) o Tömegközlekedés o Katasztrófahelyzetek, nagy rendezvények biztosítása Metropolisz adatmennyisége o Tárolásra nincs idő (volume) o Azonnali reakció (velocity) o Mozgás, események, tartalomfogyasztás, közösség (variety)
Mobilitás adatfolyam kísérlet (Orange D4D)
Virtuális neuro-kognitív labor VirCA-ra épülő együttműködés o SZTAKI 3D Internet Kontroll és Kommunikáció Labor (Baranyi) o MTA TTK Kognitív Idegtudomány és Pszichológia Intézete o BME Ergonómia, Pszichológia és TMIT tanszékek Big Data feladatok: 1. Részletes naplózás és visszakeresés 2. Események rekonstruálása 3. Analitika Gazdag, heterogén adatforrás: mozgás közbeni EEG, szemkövetés, FIRST projekt Smart City alprojektjéhez kapcsolódó kutatás
Közösségi média trendek Algoritmikus kihívás: o Sok millió releváns dokumentum o Interaktív válaszidő demo o ELTE Twitter gyűjtés első éve (2012) o 1.2Md Tweet, 700M angol nyelvű o Meryl Streep előfordul 50,000 üzenetben o Valós időben Leválogatni Előszedni a teljes szöveget Gyakori szavakat kiválasztani
HANA demo Twitter 2012: Meryl Streep
HANA demo Twitter 2012: Meryl Streep
HANA demo Twitter 2012: Meryl Streep
HANA demo Twitter 2012: Meryl Streep
HANA demo Twitter 2012: Meryl Streep
HANA demo Twitter 2012: Meryl Streep
HANA demo Twitter 2012: Meryl Streep
HANA demo Twitter 2012: Meryl Streep
HANA demo Twitter 2012: Meryl Streep
Közösségi média, ajánló rendszerek Ajánlás (retweet, hashtag) tartalom ÉS hálózat alapján Maidan: 286.984 tweets, 120.996 retweets, 87.498 users Euromaidan: 2.433.517 tweets, 1.788.604 retweets, 162.582 users Olympics: 735.849 tweets, 289.269 retweets, 250.569 users Putin: 879.711 tweets, 333.250 retweets, 227.320 users Berkin Elvan: 1.856.387 tweets, 1.261.590 retweets, 582.861 user MH17: elemzésre vár
Összefoglalás Big Data feladatok jellemzői Adat más célból gyűlik Elosztottan kell feldolgozni Valós idejűség gyakran igény, és lehetőség Szoftver-rendszerek zavarba ejtő választéka Alkalmazási területek Szenzorhálózatok, IT rendszerek Mobilitás, közlekedés, intelligens környezet Közösségi média Együttműködés FIRCC-hez kapcsolódó SZTAKI projekt SAP, Ericsson EU projektek
Köszönöm a figyelmet! Big Data @ SZTAKI 2014. szeptember 17.