BIG DATA A H I VATA L O S S TAT I S Z T I K Á B A N

Hasonló dokumentumok
Big Data az adattárházban

Component Soft és tovább

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / Mezei Ferenc üzletág-igazgató

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

MMK-Informatikai projekt ellenőr képzés 4

Big Data: a több adatnál is több

Big Data: lehetőségek és kihívások

BIG DATA ELEMZÉSEK LEHETŐSÉGEI

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Takács Gábor mérnök informatikus, okl. mérnöktanár

Városi differenciák vizsgálata big data környezetben

Megszületett a digitális minőségügyi szakember? XXIV. Nemzeti Minőségügyi Konferencia

Tudásalapú információ integráció

Validálás és bizonytalanságok a modellekben

A pedagógiai kutatás metodológiai alapjai. Dr. Nyéki Lajos 2015

PIACKUTATÁS (MARKETINGKUTATÁS)

Mit mond a XXI. század emberének a statisztika?

Informatikai trendek kiaknázási lehetőségei a közösségi közlekedésben

IKT trendek és tapasztalatok a BME szemszögéből

BME-Ipar. Win-Win. Intelligens környezetek és e-technológiák. Dr. Charaf Hassan Fókuszban a Műegyetem és az ipar kapcsolata

Big Data. Benczúr András Big Data Lendület kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András

Fehér könyv a nemzeti adatpolitikáról dr. Sántha György, ex-titkár...

Hivatalos statisztika és a Big Data

A Jövő Internet Nemzeti Kutatási Program bemutatása

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

OSINT. Avagy az internet egy hacker szemszögéből

Never-ending fight - A soha véget nem érő harc a Black Hat-hackerekkel

Kérdés Kinek a nevéhez fűződik a projektoktatást oktatási stratégiaként történő felfogása? Kép Válasz HIBAS Válasz HELYES Válasz HIBAS

Big Data technológiai megoldások fejlesztése közvetlen mezőgazdasági tevékenységekhez

Microsoft SQL Server telepítése

Takács Árpád K+F irányok

Témaválasztás, kutatási kérdések, kutatásmódszertan

Közösségi kezdeményezéseket megalapozó szükségletfeltárás módszertana. Domokos Tamás, módszertani igazgató

S atisztika 2. előadás

Jövő Internet Az innováció motorja a XXI. században

Az információs rendszerek adatai

Felhők teljesítményelemzése felhő alapokon

Big Data tömeges adatelemzés gyorsan

AZ IGAZI BIG DATA hogyan használják a világban és egyáltalán használják-e hazánkban?

Hogyan lesz adatbányából aranybánya?

Internet of Things és Ipar 4.0 az agrárszektorban. Tarcsi Ádám, ELTE Informatikai Kar

Gráfok mindenhol. x $ SZENDI-VARGA JÁNOS IOT SOCIAL NETWORKS FRAUD DETECTION MASTER DATA MANAGEMENT RECOMMENDATION ENGINES. Internet of Things

URBAN PLANNING IN THE AGE OF BIG DATA A NEW EMPIRIUM TELEPÜLÉSTERVEZÁS AZ ADATBŐSÉG KORÁBAN EGY ÚJ EMPÍRIUM

5G technológiák és felhasználási esetek

S atisztika 1. előadás

Okos Városok Globális helyzetkép, lehetőségek, várakozások. Digitális Város Konferencia 2016 szeptember, Győr

Adattárház és BigData Szimbiózisa. Baranyi Szabolcs IM Technical Sales

AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK

Kulcs véleményvezér kutatás Közösségi hálózatelemzés

Az információs rendszerek adatai

Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben

Korszerű oktatási környezet kialakítása az eenvplus projektben. Márkus Béla

Az információs kor területi kutatásának új forrásai: a big data

Informatika a valós világban: a számítógépek és környezetünk kapcsolódási lehetőségei

Cloud Computing a gyakorlatban. Szabó Gyula (GDF) Benczúr András (ELTE) Molnár Bálint (ELTE)

Ön a megfelelő mennyiségű és minőségű információk alapján hozza meg döntéseit? Stratis Kft. / Autonomy üzleti reggeli /

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting

ADATBÁNYÁSZAT AZ AUTÓIPARI TERMÉKEK FEJLESZTÉSÉBEN

Virtuális Obszervatórium. Gombos Gergő

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

A LAKOSSÁG MINT MUNKAERŐ A LAKOSSÁG MINT FOGYASZTÓ ALTERNATÍV ADATGYŰJTÉSI TECHNIKÁK ADATFORRADALOM IDEJÉRE

FİBB PONTOK PIACKUTATÁS (MARKETINGKUTATÁS) Kutatási terv október 20.

Webanalitika a mindennapokban

ekörnyezetvédelmi szolgáltatások az INSPIRE keretében Márkus Béla Giorgio Saio

Big Data az ellenőrzésben: Kihívás vagy lehetőség?

Újdonságok. Jancsich Ernő Ferenc

A pedagógia mint tudomány. Dr. Nyéki Lajos 2015

A nagy adathalmazokkal kapcsolatos kormányzati feladatok. vezetői tájékoztató anyag a big datá -ról

Önkiszolgáló BI Az üzleti proaktivítás eszköze. Budapest,

Copyright 2012, Oracle and/or its affiliates. All rights reserved.

Információs Rendszerek Szakirány

IBM SPSS Modeler 18.2 Újdonságok

IoT, ehealthcare, hol tart a világ, mire számíthatunk, mire készül az ELTE IK

A hivatalos statisztika modernizációja az adatforradalom korában

Big Data Industry 4.0 Quality

GENERÁCIÓK ÉS ONLINE PLATFORMOK MAGYARORSZÁGON

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Big Data elemzési módszerek

Hálózatsemlegesség - egységes internet szolgáltatás-leíró táblázat

Gyors sikerek adatbányászati módszerekkel

Experiential Living Lab for the Internet Of Things. ELLIOT Experiential Living Labs for the Internet Of Things

MELLÉKLET. a Bizottság végrehajtási rendeletéhez (EU)

Ember és robot együttműködése a gyártásban Ipar 4.0

Hálózatsemlegesség - egységes internet szolgáltatás-leíró táblázat

HÁLÓZATSEMLEGESSÉG - EGYSÉGES INTERNET SZOLGÁLTATÁS-LEÍRÓ TÁBLÁZAT

A VÁLTOZÓ VILÁG Tipping Points az információs- digitális- és média- forradalom

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

A programozás alapjai előadás. Amiről szólesz: A tárgy címe: A programozás alapjai

Az okos kereskedelem. SmartCommerce

Mely közösségi média hirdetéseket javasoljuk a kampányokba? Kéri Gábor Sales Director ThinkDigital Hungary

4. Modul: ROBOTPILÓTA. Ne legyél az Online Marketing rendszered rabszolgája! TERVEZZ!

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

Termeléshatékonyság mérés Ipar 4.0 megoldásokkal a nyomdaiparban

Toborzás a Linkedin és okosórák korában A toborzás, mint ügyfélkapcsolat kezelés

Európa e-gazdaságának fejlődése. Bakonyi Péter c. docens

II. rész: a rendszer felülvizsgálati stratégia kidolgozását támogató funkciói. Tóth László, Lenkeyné Biró Gyöngyvér, Kuczogi László

Internet és világháló

Multimédiás adatbázisok

Átírás:

BIG DATA A H I VATA L O S S TAT I S Z T I K Á B A N

ADATÁRADAT 2,5 exabyte (10 18 ) adatot állítunk elő minden áldott nap (ennek a kétszerese arra elég, hogy az emberiség által valaha kimondott összes szót tartalmazza) 2012-ben: az emberiség által valaha termelt adatok 90%-a az utóbbi két évben keletkezett. A Wal-Mart óránként 1 millió tranzakciót rögzít.

ADATÁRADAT De nem csak az adatok mennyisége növekszik, hanem főleg a social media és a mobiltelefonok szolgálatatásainak széleskörű terjedése miatt az adatok természete is változik. Ennek az információnak a nagyja olyan adatforma, amely digitálisan követhető vagy tárolható. Többniyre cselekedetek, választások vagy preferenciák, amelyet az emberek az életük során termelnek.

BIG DATA DEFINÍCIÓJA Wiki: a BIG DATA olyan nagy és komplex adathalmazok összessége, amelyeknek a kezelése hagyományos adatbáziskezelő eszközökkel nem lehetséges. Volume Variety Velocity Veracity Kép forrása: ISTAT

A 4 V Volume: nehéz meghatározni, hogy mennyire nagy, de abban mindenki egyetért, hogy amit ma soknak tartunk az holnapra mégtöbb lesz. Variety: különböző típusú adatok, különböző forrásból. Strukturált, félig strukturált és nem strukturált. Szenzorok, okos eszközök, social média terjedése számos formában termeljük az adatot, pl text, web data (hipertext), tweet-ek, érzékelők adatai, audio, video, klik, log fájlok stb

A 4 V Velocity: az élő adat az adatok létrejöttének, feldolgozásának és értelmezésének a sebessége folyamatosan gyorsul. A sebesség az adatok élő jellege miatt növekszik, és egyre elterjedtebb az adafolyamok integrációja az üzleti folyamatokba. Veracity: megbízhatóság. A jó minőségű adat nagy kihívás! A legjobb adattisztító eljárások sem képesek bizonyos adatok megjósolhatatlanságát kezelni.: pl időjárás, vagy a vevők vásárlási preferenciái.

TAXONÓMIA Emberi eredetű adat (social networks): az emberi tapasztalatok szubjektív recordjai, amelyeket korábba könyvekben, művészi akotásokban azt követően foto/audio/video-bann tároltak Folyamat eredetű adat: üzleti folyamatok adatai, magasan strukturált, hogyományos üzleti rendszerek termékei Gépi eredetű adat: számítógépes log file-ok, szenzorok és gépek digitális adatai. Ez a típus adja amgát a számítógépes feldolgozáshoz, mert jól strukturált, de a mennyisége és gyorsasága gyakran a hagyományos ezsközökön túl mutat (Internet of Things).

SOCIAL NETWORKS Napjaikban az emberi eredetű információ csaknem egészében digitláisan keletkezik és tárolódik a PC-től a social networkig. Ezek az adatok gyengén strukturáltak és gyakran ellenőrizetlenek. -Facebook, Twitter, -Blogs, comments -Személyes dokumentumok -Képek és videók: Instagram, Youtube, Pinterest -Internet keresések -Email -User-generated maps

Forrás: ISTAT

FOLYAMAT EREDETŰ ADATOK ÜZLETI FOLYAMATOK ADATAI Jól strukturált.adatok és meta adatok összessége. Általában RDBMS (relációs, klasszikus adatbázisok) adatai. Adminisztratív adatok. -Közhivatalok adatai -Orvosi rekordok -Vállalkozások üzleti adatai -Kereskedelmi tranzakciók adatai -Banki/részvény adatok -E-kereskedelem -Hitelkártyák

Forrás: ISTAT

INTERNET OF THINGS A fizikai világ eseményeit rögzítő és mérő érzékelők milliárdjai. Ahogy egyre több érzékelő kerül bevezetésre vagy aktiválásra, úgy nő az adatok volumene. Az általában feldolgozott adatok nagy része ilyen. Ez a típusú adat növekszik a leggyorsabban. -Háztartási eszközök érzékelői -Időjárás /szennyezettség érzékelők -Forgalmi érzékelők/webkamerák -Mobil szenzorok (tracking) (location) -Satellite képek -Autók

BIG DATA KEZELÉSE 1. Egyre növekvő számítástechnikai teljesítmény kell: MPP Massive paralell processing 2. Adatmennyiség redukáló szofvertechnológia: No SQL (not only SQL) 3. Adat disztribúció és párhuzamos feldolgozás (SETI) MapReduce/ Hadoop (open source software, külön fájl rendszere van) -Hortonworks Data Platform -R-Rstudio -Elastic Search

Forrás: ISTAT

BIG DATA A STATISZTIKÁBAN A hagyományos statisztika minőségének javítása: Hol tud javítani: -mintavételi keret létrehozása -jobb minták tervezése -jobb imputálás/kalibrálás -nem válaszolási arány csökkentése

HAGYOMÁNYOS MEGKÖZELÍTÉS -milyen információra van szükségünk / hipotézis kell! -az adatgyűjtés megtervezése -adatgyűjtés -adat előkészítése -adatelemzés -információ kinyerése / hipotézis igazolása vagy cáfolata

A HAGYOMÁNYOS MÓDSZER Felülről-lefelé paradigma Adattervezés: kezdettől fogva azon van a hangsúly, hogy az adat KÉSŐBB kerül elemzésre -célsokaság kiválasztása, units -változók, definíciók, osztályozás, kérdőívek -listák, regiszterek az alapsokaság elérésére -módszerek Elemzési célok (specifikus információra/hipotézisre van szükség) -modelépítés Becslés/előrejelzés adása

BIG DATA PARADIGMA -Az adat már ott van (mindenütt ott van) -Adatgyűjtés -Adat előkészítés -Adat feltárás (korrelációk keresése) -Az algoritmusok testreszabása -Új tudás felfedezése / az eredmények validálása

ALULRÓL FELFELÉ ÉPÍTKEZÉS Itt a hangsúly -a hozzáférhető adatok felfedezése, olyan információértékek keresése, amit még nem szedtek ki belőle -Big Adatba vetett bizalom Az adatot általában objektív adatnak veszzük, a felfedezett korrelációkat szintén. A data scientist elsősorban az érdekli, hogy mi történikk, sokkal kevésbé a miért vagy hogyan. -Skálázható algoritmusok választása (aggregálás kerülendő) -Heurisztikus (mintakereső) technológiák használata az előrejelzésekhez/becslésekhez

GONDOK A BIG DATÁVAL -reprezentativitás -ismeretlen a célpopuláció -nem tiszta a mintaegységek kiléte/miléte -pre processing errors (mint a mérési hiba) -social media (céltalan adatok/ robotok kiszűrése) Nem egyértelmű korrelációk - az okozat halála -hamis korrelációk

ADATFORRÁSOK Forrás: ISTAT

MIÉRT NEM MŰKÖDNEK A HAGYOMÁNYOS ELJÁRÁSOK A BIG DATA ESETÉBEN -a számítási komplexitás határai: Példa: inverz mátrix képzés (legkisebb négyzetek elve, maximum-likelihood via Newton-Raphson algoritmus) -a legtöbb hagyományos algoritmust nehéz párhuzamosítani (hogy egyszerre több processzor dolgozzon a részletein) (hadoop nem tudja ezt kezelni) -a hibás adatra / hibás szélsőrétékekre borzasztóan érzékenyek a hagyományos eljárások -pedig a big data zajos és strukturálatlan (óriási adatmennyiség, nem lehet editálni, imputálni, outliert kezelni)

KÖVETKEZTETÉSEK -a hivatalos statisztika jelen eljárásai (tervezett, modellre épülő mintavételi eljárások, regresszió elmélet, általános lineáris modellek, stb) hagyományos alapadatok specifikus tulajdonságain állnak vagy buknak -nevezetesen : magas minőségű, de kevés adat Ezek az eljárások: -nagyon érzékenyek a hibás adatokra és a szélsőértékekre (ezért kötelező a hagyományos eljárásoknál az ellenőrzés, adattisztítás) -tipikusan magas számítási komplexitással bírnak ezek az adatok (exponenciális viselkedés jellegzetes) Szintézis: a jelenlegi statsiztikai eljárásoknak semmi közük a big data-hoz Diagnózis: radikális paradigmaváltás kell a statisztikai metodológiában

KÖVETKEZTETÉSEK 2 Mit lehet tenni? 1. Robosztusabb eljárásokat használni, még akkor is, ha az némileg a pontosság rovására megy. 2. Ez a metódus közelítő és nem exact optimalizációs technikán alapuljon amelyek, képesek megbirkózni zajos objektív funkciókkal. 3. El kell fogadni a Big Data más típusú elemzéseket tesz lehetővé.

SANDBOX PROJEKT-2014 Shared Computing Enviroment Lényege: Big Data források stabil- és ismételhető módon hozzáférhetőek, relatív könnyen és hatékonyan elérhető és manipulálható. -a választott források, a hivatalos statsiztikák értékeléséhez általában használt minőségi kritériumoknak megfelelőek. -Létező, sokak által használt adatokkal megfeleltethetőek, HBS indikátorok, árstatisztika. -A különböző országok által használt platformok, módszerek, eszközök és adatbázisok megfeleltehetők legyenek. -Össznépi összjáték, (módszerek megoszthatók legyenek).

Forrás: ISTAT

Common Statistical Production Architecture Forrás: ISTAT

AZ OLASZ MELÓ 2013-2015: megállapodások kötése: NSI, Akadémia, Private Sector Adatforrás Online keresés Internet-scraped Data Mobiltelefon adatok Scanner data Domain LFS ICT, Árstatisztika Turizmus statisztika Árstatisztika Social Media Társadalomstatisztika (!) Képek: Közlekedési webkamerák Közlekedésstatisztika

A MIXED METHOD BIG DATA ÉRTELMEZÉSE ICT in enterprises : Kérdőív kiküldése: 1) web-scraping 2) Text mining Forrás: ISTAT

EURÓPAI PÉLDÁK Hollandia: Road sensors (Traffic loops) index of traffic intenstiy -főutakon elhaladó autók száma -230 millió record/nap -komplex adattisztítási eljárások Észtország: turizmus (mobiltelefon adatokkal) -turizmus inbound/outbond -transportation flows -mindennapi mobilitás -egyéni közösségi jellemzők (találkozóhelyek) UK: Twitter adatok -Geo located tweets

BIG DATA VIZUALIZÁCIÓ http://www.urbanmobs.fr/fr/france/