Mi a big data? ML? AI? DS? Az adatelemzés szintjei CRISP-DM módszertan. GUI Enterprise eszközök Programozási nyelvek

Hasonló dokumentumok
Üzleti intelligencia - eszközöktől a megoldásokig

Önkiszolgáló BI infrastruktúra az adatvezérelt teljesítménymenedzsmentben

STRATÉGIAI TERVEZÉS. Nem értem miért félnek az emberek az új gondolatoktól. Én a régiektől félek. John Cage, amerikai avantgarde zeneszerző

Adatbányászati, data science tevékenység projektmenedzsmentje

Adatbányászati, data science tevékenység

SZEMLÉLETES RÉSZINFORMÁCIÓK INTEGRÁCIÓS PROBLÉMÁINAK VIZSGÁLATA A VIRTUÁLIS VALÓSÁGOT TEREMTŐ SZIMULÁTOROK ALAPJÁN

Hasznos és kártevő rovarok monitorozása innovatív szenzorokkal (LIFE13 ENV/HU/001092)

NYOMÁSOS ÖNTÉS KÖZBEN ÉBREDŐ NYOMÁSVISZONYOK MÉRÉTECHNOLÓGIAI TERVEZÉSE DEVELOPMENT OF CAVITY PRESSURE MEASUREMENT FOR HIGH PRESURE DIE CASTING

Adatbányászat és Perszonalizáció architektúra

Csima Judit április 9.

Skills Development at the National University of Public Service

Brooklyn Credit Risk Monitoring System

FOSS4G-CEE Prágra, 2012 május. Márta Gergely Sándor Csaba

Felnőttképzés Európában

Az üzleti igények átültetése a gyakorlatba eszköz és módszertan: - ARIS és WebSphere megoldások együttes használata a folyamatmendzsmentben -

2014. üzleti évben futó pályázatok Bay Zoltán Közhasznú Nonprofit Kft.

Climate action, environment, resource efficiency and raw materials

FOLYÓIRATOK, ADATBÁZISOK

ADATBÁNYÁSZAT AZ AUTÓIPARI TERMÉKEK FEJLESZTÉSÉBEN

COOPERATION IN THE CEREAL SECTOR OF THE SOUTH PLAINS REGIONS STRÉN, BERTALAN. Keywords: cooperation, competitiveness, cereal sector, region, market.

BI modul a lízing üzletágban márc. 21. Előadó: Salamon András

Oracle adatkezelési megoldások helye az EA világában. Előadó: Tar Zoltán

MIKRON HSM 300 Száraz megmunkálás vagy minimál mennyiségû kenés

Soltész Gábor. Önéletrajz Budapest, Lechner Ödön fasor em 26. a.

Cloud computing. Cloud computing. Dr. Bakonyi Péter.

SAS szoftverek felhasználási lehetőségei a felsőoktatásban

Big Data az adattárházban

A Continental Automotive Hungary beszállítói stratégiája Beszállítók kiválasztása és fejlesztése helyben és globálisan

Cloud computing Dr. Bakonyi Péter.

hogyan válhat jövőképpé? Dr. Bársony Farkas Elnök, AmCham Hungary Ügyvezető igazgató, GE Hungary Kft. A Nemzeti Versenyképességi Tanács tagja

A modern e-learning lehetőségei a tűzoltók oktatásának fejlesztésében. Dicse Jenő üzletfejlesztési igazgató

ADATTÁRHÁZAK MINŐSÉGBIZTOSÍTÁSA

Characteristics and categorization of transportation organizations

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

OLYMPICS! SUMMER CAMP

A 2017-es év online trendjei az FMCG iparágban. Égly Csaba - Business Development Consultant Március 6.

Project manager fejlesztési pálya


Eladni könnyedén? Oracle Sales Cloud. Horváth Tünde Principal Sales Consultant március 23.

AZ IGAZI BIG DATA hogyan használják a világban és egyáltalán használják-e hazánkban?

Információs Rendszerek Szakirány

Component Soft és tovább

Decision where Process Based OpRisk Management. made the difference. Norbert Kozma Head of Operational Risk Control. Erste Bank Hungary

Önéletrajz. Személyi adatok. Szakmai tapasztalat. Időtartam szeptember. Főbb tevékenységek és feladatkörök

INTELLIGENT ENERGY EUROPE PROGRAMME BUILD UP SKILLS TRAINBUD. Quality label system

Self service reporting fogások, technikák és megoldások controllereknek, nem csak Excel alapon

*#Discount~ Kaspersky Internet Security - multidevice 2015 best software to buy for mac ]

Pénzügy, számvitel. Váradi Mónika

AZ ITS HUNGARY EGYESÜLET ÉVI

Data Integrátorok a gyakorlatban Oracle DI vs. Pentaho DI Fekszi Csaba Ügyvezető Vinnai Péter Adattárház fejlesztő február 20.

sorsz. Tárgykód Kurzuskód Tárgynév Nyelv Kurzus típus

TOURNAMENT DRAW ALL KYOKUSHIN KARATE WT - TOURNAMENT DRAW ALL KYOKUSHIN KARATE WT - TOURNAMENT DRAW

program 1. nap / 1st day (április 15. / 15 april)

Piackutatás, marketingelemzés, szegmentálás, megcélzás, pozicionálás

A szoftver tesztelés alapjai

Mi látjuk előre, amit Ön csak a promója után! Sales & Marketing, Üzletfejlesztési lehetőségek térinformatikával

USA Befektetési Útmutató

Oracle Enterprise Manager: Az első teljesértékű felhő üzemeltetési megoldás

MOL Bubi Challenge 2015

WP2: Deliverable 2.1

Gyors sikerek adatbányászati módszerekkel

ELIXIR-Magyarország: lehetőségek és kihívások: Bálint Bálint L, Debreceni Egyetem, ELIXIR-Magyarország oktatási koordinátor

A Margit híd pillérszobrának 3D-s digitális alakzatrekonstrukciója Nagy Zoltán 1 Túri Zoltán 2

Az Oracle Fusion szakértői szemmel

ÉLETCIKLUS SZEMLÉLET ÉS ÖKOINNOVÁCIÓ A NEMZETKÖZI GYAKORLATBAN. Buday-Malik Adrienn, , Miskolc

Szent László TISZK (SZLTISZK) Kocsis Ibolya

EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA

Papp Attila. BI - mindenkinek

Új hálózati megoldások Gbit xdsl technológiával

építészet & design ipari alkalmazás teherautó felépítmény

2. Local communities involved in landscape architecture in Óbuda

A tudás handrendbe állítása, azaz SPSS PES

A library for the user: new building, new organisation, new services

Az Információs és kommunikációs technológiák a HORIZONT 2020-ban

TANÍTSUNK-E PROGRAMOZÁST NEM INFORMATIKA SZAKOS HALLGATÓKNAK IS?

<Insert Picture Here> Közeli jövőkép az üzleti intelligenciáról

SAS Enterprise BI Server

Piaci körkép és szállítók

Adatbányászat és Perszonalizáció az Oracle9i-ben

HÁROM EGYETEM KÉT KONTINENS EGY TANTEREM:

4. Gyakorlat: Csoportházirend beállítások

Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben

2016. április 21. Hotel Aquincum

General information for the participants of the GTG Budapest, 2017 meeting

APP!MOBILE 2014 TÉVUTAK ÉS TÉVHITEK, AVAGY A MOBILITÁS NAGYVÁLLALATI KÖRNYEZETBEN

Innovative Drug Research Initiative: a Hungarian National Technological Platform. Adam Vas MD PhD Platform Leader

HALLGATÓI KÉRDŐÍV ÉS TESZT ÉRTÉKELÉSE

A webanalitika változó világa 4 felvonásban

A TÓGAZDASÁGI HALTERMELÉS SZERKEZETÉNEK ELEMZÉSE. SZATHMÁRI LÁSZLÓ d r.- TENK ANTAL dr. ÖSSZEFOGLALÁS

CONCERTO COMMUNITIES IN EU DEALING WITH OPTIMAL THERMAL AND ELECTRICAL EFFICIENCY OF BUILDINGS AND DISTRICTS, BASED ON MICROGRIDS. WP 5 Del 5.

Összegezés az ajánlatok elbírálásáról

COOPERATION AGREEMENT

Nemzeti szintű egészségbiztosítási adatvagyon big data elemzési lehetőségei

Mérnök informatikus (BSc) alapszak levelező tagozat (BIL) / BSc in Engineering Information Technology (Part Time)

Dr. Sasvári Péter Egyetemi docens

Ister-Granum EGTC. Istvan FERENCSIK Project manager. The Local Action Plans to improve project partners crossborder

Pentaho 4: Mindennapi BI egyszerűen. Fekszi Csaba Ügyvezető október 6.

Sex: Male Date of Birth: 02 August 1947 Citizenship: Hungarian

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

CHARACTERIZATION OF PEOPLE

Átírás:

Mi a big data? ML? AI? DS? Az adatelemzés szintjei CRISP-DM módszertan GUI Enterprise eszközök Programozási nyelvek

800-1300 800-2000 McKinsey Global Institute, 2011 Egy magyar fejvadászcég tapasztalatai

Nettó átlagkereset Nettó átlagos órabér Egy másfélórás, három részvevős meeting költsége (bruttó-bruttó) Ennyi adatot tudunk ebből a pénzből tárolni egy évig Mennyi adat is ez körülbelül? * Ha nem szeretnénk folyamatosan használni az adatot, akkor akár 368 GB

Analyzing the analyzers, O Reilly

Infrastruktúra Adattárolás Adatmozgatás Adatátalakítás Gépi tanulás Optimalizáció Folyamatok Kiértékelés Riporting Adatvezérelt döntések Stratégia

Üzleti érték feltárása és kommunikációja A Világ Termékek Hívások Fogyasztott energia Csalások Mi az a Data Product? egy alkalmazás, amely képes feldolgozni a nyers adatokat egy szoftver, amely automatikusan képes tanulni az adatokból egy mechanizmus, amely egy üzleti mértéket realtime értékel ki egy esemény előrejelzésére képes modell Data Product Adatok feltárása Tanulás az adatokból Gépi tanulás Regresszió Hálózatok és gráfok Klaszterezés Osztályozás Az adathalmaz Korreláció Kovariancia Dimenzionalitás Relevancia Hiányzó adatok Nyers adatok Tranzakciók Klikkek és weblogok Szenzoradatok Mobil adatok Social feeds Adatelőkészítés MapReduce ETL Adattisztítás Mintavételezés Select, join

Standard riportok Mi történt? Mikor történt? Statisztikai elemzés Miért történt? Ad-hoc riportok Hány darab? Milyen gyakran? Mikor? Forecasting Mi lesz, ha ez a trend folytatódik? Mennyi lesz? OLAP Hol van pontosan a probléma? Prediktív modellezés Mi fog történni legközelebb? Alertek Mikor kellene reagálni? Optimalizáció Hogyan lehetne ezt jobban csinálni?

Standard riportok Mi történt? Mikor történt?

Standard riportok Mi történt? Mikor történt? Ad-hoc riportok Hány darab? Milyen gyakran? Mikor?

Standard riportok Mi történt? Mikor történt? Ad-hoc riportok Hány darab? Milyen gyakran? Mikor? OLAP Hol van pontosan a probléma?

Standard riportok Mi történt? Mikor történt? Ad-hoc riportok Hány darab? Milyen gyakran? Mikor? OLAP Hol van pontosan a probléma? Alertek Mikor kellene reagálni?

Standard riportok Mi történt? Mikor történt? Statisztikai elemzés Miért történt? Ad-hoc riportok Hány darab? Milyen gyakran? Mikor? OLAP Hol van pontosan a probléma? Alertek Mikor kellene reagálni?

Standard riportok Mi történt? Mikor történt? Statisztikai elemzés Miért történt? Ad-hoc riportok Hány darab? Milyen gyakran? Mikor? Forecasting Mi lesz, ha ez a trend folytatódik? Mennyi lesz? OLAP Hol van pontosan a probléma? Alertek Mikor kellene reagálni?

Standard riportok Mi történt? Mikor történt? Statisztikai elemzés Miért történt? Ad-hoc riportok Hány darab? Milyen gyakran? Mikor? Forecasting Mi lesz, ha ez a trend folytatódik? Mennyi lesz? OLAP Hol van pontosan a probléma? Prediktív modellezés Mi fog történni legközelebb? Alertek Mikor kellene reagálni?

Standard riportok Mi történt? Mikor történt? Statisztikai elemzés Miért történt? Ad-hoc riportok Hány darab? Milyen gyakran? Mikor? Forecasting Mi lesz, ha ez a trend folytatódik? Mennyi lesz? OLAP Hol van pontosan a probléma? Prediktív modellezés Mi fog történni legközelebb? Alertek Mikor kellene reagálni? Optimalizáció Hogyan lehetne ezt jobban csinálni?

Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás 55 180 000 62 1 3???? MODELL Tulajdonságleíró változók input attribútumok Célváltozó Target Címke Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás 42 280 000 82 3 1 SIKERÜLT 88 90 000 44 0 0 NEM 22 180 000 32 0 1 SIKERÜLT 38 400 000 102 1 2 NEM

Feladat: Van egy tanító adathalmazom ahol ismerem a tulajdonságokat és ahol ismerem a címkéket (osztályt) És van egy új sor, ahol ismerem a tulajdonságokat és a modell mondja meg a címkét Klasszifikáció Címkézés Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás 55 180 000 62 1 3???? MODELL Tulajdonságleíró változók input attribútumok Célváltozó Target Címke Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás 42 280 000 82 3 1 SIKERÜLT 88 90 000 44 0 0 NEM 22 180 000 32 0 1 SIKERÜLT 38 400 000 102 1 2 NEM

Feladat: Van egy tanító adathalmazom ahol ismerem a tulajdonságokat és ahol ismerem a címkéket (osztályt) És van egy új sor, ahol ismerem a tulajdonságokat és a modell mondja meg a címkét Klasszifikáció Címkézés Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás 55 180 000 62 1 3???? Alapkérdés: Mennyire találtam el az osztályt? MODELL Milyen pontos volt az osztályozás? Tulajdonságleíró változók input attribútumok Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás 42 280 000 82 3 1 SIKERÜLT 88 90 000 44 0 0 NEM 22 180 000 32 0 1 SIKERÜLT 38 400 000 102 1 2 NEM Célváltozó Target Címke Pontosság (Accuracy) = Eltalált esetek / Összes eset

Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem 55 3257 62 1 3???? MODELL Tulajdonságleíró változók input attribútumok Célváltozó Target Mennyiség Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem 42 0432 82 3 1 280 000 88 0312 44 0 0 90 000 22 0101 32 0 1 180 000 38 4003 102 1 2 400 000

Feladat: Van egy tanító adathalmazom ahol ismerem a tulajdonságokat és ahol ismerem a mennyiséget És van egy új sor, ahol ismerem a tulajdonságokat modell mondja meg mekkora a mennyiség Felügyelt tanulási algoritmusok Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem 55 3257 62 1 3???? MODELL Tulajdonságleíró változók input attribútumok Célváltozó Target Mennyiség Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem 42 0432 82 3 1 280 000 88 0312 44 0 0 90 000 22 0101 32 0 1 180 000 38 4003 102 1 2 400 000

Feladat: Van egy tanító adathalmazom ahol ismerem a tulajdonságokat és ahol ismerem a mennyiséget És van egy új sor, ahol ismerem a tulajdonságokat modell mondja meg mekkora a mennyiség Felügyelt tanulási algoritmusok Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem 55 3257 62 1 3???? Alapkérdés: Mekkorát MODELL tévedtem? Átlagosan mekkora a hiba? Tulajdonságleíró változók input attribútumok Hiba (Error) = Tipp Valós érték Célváltozó Target Mennyiség Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem 42 0432 82 3 1 280 000 88 0312 44 0 0 90 000 22 0101 32 0 1 180 000 38 4003 102 1 2 400 000

Feladat 1. Churn feladat El fog-e vándorolni a konkurenciához az ügyfél? 2. Kinek érdemes kiküldeni egy hitelkártyát? 3. Hány percet fog az ügyfél a következő hónapban telefonálni? 4. 1 és 5 között milyen osztályzatot ad a filmre majd a felhasználó? 5. Többet fog-e jövőre költeni az ügyfél, mint 1 MFt?

MODELL Nem felügyelt tanulási algoritmusok Tulajdonságleíró változók input attribútumok Életkor Jövedelem Lakásméret Gyerekek Autók száma 42 280 000 82 3 1 88 90 000 44 0 0 22 180 000 32 0 1 38 400 000 102 1 2 Csoport A. klaszter A. klaszter B. klaszter B. klaszter

MODELL Feladat: Van egy tanító adathalmazom ahol ismerem a tulajdonságokat Kérdés, hogy milyen csoportokba rakható úgy, hogy csoporton belül hasonlóak. csoportok ne hasonlítsanak egymásra Nem felügyelt tanulási algoritmusok Tulajdonságleíró változók input attribútumok Életkor Jövedelem Lakásméret Gyerekek Autók száma 42 280 000 82 3 1 88 90 000 44 0 0 22 180 000 32 0 1 38 400 000 102 1 2 Csoport A. klaszter A. klaszter B. klaszter B. klaszter

Business understanding Deployment Data understanding Business evaluation Data preparation Modeling

Legyen az adatelemzési projekt egy kevésbé hozzáértő számára is megbízható és megismételhető Keretrendszer az eredmények létrehozására Projekttervezés és menedzsment Komfortfaktor

Nem szabadalmaztatott, független Felhasználási és alkalmazási területtől független Eszközfüggetlen Az üzleti célokat tartja szem előtt Valós projekttapasztalatokon alapul Nem vízesés-modell

Deployment Hogyan tudjuk felhasználni az eredményeket? Business understanding Mi a projekt üzleti célja? Hogyan lehet ezt megoldani adatelemzéssel? Evaluation Sikerült elérni a kitűzött célokat? Data understanding Honnan az adat? Milyen minőségű az adat? Modeling Modellezés Data preparation Adatmasszírozás

Forrás: http://www.kdnuggets.com

Forrás: http://www.kdnuggets.com

Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends

Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends

Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends

Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends

Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends

Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends

Forrás: Kaggle 2017 The State of Data Science & Machine Learning

Forrás: Kaggle 2017 The State of Data Science & Machine Learning Forrás: Kaggle 2017 The State of Data Science & Machine Learning

Forrás: Kaggle 2017 The State of Data Science & Machine Learning Forrás: Kaggle 2017 The State of Data Science & Machine Learning Forrás: az előadó tapasztalata & szubjektív véleménye

As experts, we organize and lecture at conferences of our Hungarian data analytics community and also take part in international scientific projects and data mining competitions. As educators, we teach our students to define real-world business problems and give their own effective data analysis solutions. As consultants, we provide innovative solutions from defining business challenges to deploying applications for our business partners.

Our goal is to determine the next trends of data analysis and to create new kinds of services which go beyond the classical solutions. On our corporate courses the primary consideration is that the provided knowledge is tailored to cover the needs of our professional partners. Corporate courses with our training partners meetup speeches to Hungarian data analytics community conference speeches Custom company training

Our analysts regularly enter and excel at international data mining competitions that add to our team s inspiration to invent and test the most novel processes and solutions Energy forecasting competition. Solar and wind forecasting tracks Predicting compounds' interference in biochemical pathways using only chemical structure data Implementing an agent that takes on pricing for an online shop Predicting probability of loan default for a Brazilian retail bank Some members of Dmlab team with consistent and stellar competition results in the top of the international competitors of Kaggle.

Dmlab aspires to become a venture-builder organization that build companies using their own ideas and resources Big data analytics company with the goal of lowering the barrier for using Hadoop systems. The Radoop package allows even non-technical people to access and analyse big data, but also provides scripting and advanced predictive analytics for experts. Most of the founders come from Dmlab RapidMiner (a leading data analytics company) acquired Radoop in 2014 Unviewable ads, non-human generated clicks, malevolent publishers and negligent middlemen - this is the reality of online advertising. With enbrite.ly s technology, actors of online advertiser market expose the facts, both good and bad, protecting their bottom line. The technology is based on research and development of Dmlab Enbrite.ly won the $500,000 cash prize for the best start-up at Slush 2014

Electric power consumption Load forecasting for wind and solar Decision support system for scoring of severity of rheumatics Breast cancer diagnosis based on image processing Predictive driver behaviour scoring system Waste diagnostics within production line Conversion booster in online shops based on user behaviour Indoor positioning

Founder senior partner Founder senior partner gaspar.csaba@dmlab.hu +36 (20) 823-4154 nagy.istvan@dmlab.hu +36 (70) 459-5669