Mi a big data? ML? AI? DS? Az adatelemzés szintjei CRISP-DM módszertan GUI Enterprise eszközök Programozási nyelvek
800-1300 800-2000 McKinsey Global Institute, 2011 Egy magyar fejvadászcég tapasztalatai
Nettó átlagkereset Nettó átlagos órabér Egy másfélórás, három részvevős meeting költsége (bruttó-bruttó) Ennyi adatot tudunk ebből a pénzből tárolni egy évig Mennyi adat is ez körülbelül? * Ha nem szeretnénk folyamatosan használni az adatot, akkor akár 368 GB
Analyzing the analyzers, O Reilly
Infrastruktúra Adattárolás Adatmozgatás Adatátalakítás Gépi tanulás Optimalizáció Folyamatok Kiértékelés Riporting Adatvezérelt döntések Stratégia
Üzleti érték feltárása és kommunikációja A Világ Termékek Hívások Fogyasztott energia Csalások Mi az a Data Product? egy alkalmazás, amely képes feldolgozni a nyers adatokat egy szoftver, amely automatikusan képes tanulni az adatokból egy mechanizmus, amely egy üzleti mértéket realtime értékel ki egy esemény előrejelzésére képes modell Data Product Adatok feltárása Tanulás az adatokból Gépi tanulás Regresszió Hálózatok és gráfok Klaszterezés Osztályozás Az adathalmaz Korreláció Kovariancia Dimenzionalitás Relevancia Hiányzó adatok Nyers adatok Tranzakciók Klikkek és weblogok Szenzoradatok Mobil adatok Social feeds Adatelőkészítés MapReduce ETL Adattisztítás Mintavételezés Select, join
Standard riportok Mi történt? Mikor történt? Statisztikai elemzés Miért történt? Ad-hoc riportok Hány darab? Milyen gyakran? Mikor? Forecasting Mi lesz, ha ez a trend folytatódik? Mennyi lesz? OLAP Hol van pontosan a probléma? Prediktív modellezés Mi fog történni legközelebb? Alertek Mikor kellene reagálni? Optimalizáció Hogyan lehetne ezt jobban csinálni?
Standard riportok Mi történt? Mikor történt?
Standard riportok Mi történt? Mikor történt? Ad-hoc riportok Hány darab? Milyen gyakran? Mikor?
Standard riportok Mi történt? Mikor történt? Ad-hoc riportok Hány darab? Milyen gyakran? Mikor? OLAP Hol van pontosan a probléma?
Standard riportok Mi történt? Mikor történt? Ad-hoc riportok Hány darab? Milyen gyakran? Mikor? OLAP Hol van pontosan a probléma? Alertek Mikor kellene reagálni?
Standard riportok Mi történt? Mikor történt? Statisztikai elemzés Miért történt? Ad-hoc riportok Hány darab? Milyen gyakran? Mikor? OLAP Hol van pontosan a probléma? Alertek Mikor kellene reagálni?
Standard riportok Mi történt? Mikor történt? Statisztikai elemzés Miért történt? Ad-hoc riportok Hány darab? Milyen gyakran? Mikor? Forecasting Mi lesz, ha ez a trend folytatódik? Mennyi lesz? OLAP Hol van pontosan a probléma? Alertek Mikor kellene reagálni?
Standard riportok Mi történt? Mikor történt? Statisztikai elemzés Miért történt? Ad-hoc riportok Hány darab? Milyen gyakran? Mikor? Forecasting Mi lesz, ha ez a trend folytatódik? Mennyi lesz? OLAP Hol van pontosan a probléma? Prediktív modellezés Mi fog történni legközelebb? Alertek Mikor kellene reagálni?
Standard riportok Mi történt? Mikor történt? Statisztikai elemzés Miért történt? Ad-hoc riportok Hány darab? Milyen gyakran? Mikor? Forecasting Mi lesz, ha ez a trend folytatódik? Mennyi lesz? OLAP Hol van pontosan a probléma? Prediktív modellezés Mi fog történni legközelebb? Alertek Mikor kellene reagálni? Optimalizáció Hogyan lehetne ezt jobban csinálni?
Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás 55 180 000 62 1 3???? MODELL Tulajdonságleíró változók input attribútumok Célváltozó Target Címke Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás 42 280 000 82 3 1 SIKERÜLT 88 90 000 44 0 0 NEM 22 180 000 32 0 1 SIKERÜLT 38 400 000 102 1 2 NEM
Feladat: Van egy tanító adathalmazom ahol ismerem a tulajdonságokat és ahol ismerem a címkéket (osztályt) És van egy új sor, ahol ismerem a tulajdonságokat és a modell mondja meg a címkét Klasszifikáció Címkézés Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás 55 180 000 62 1 3???? MODELL Tulajdonságleíró változók input attribútumok Célváltozó Target Címke Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás 42 280 000 82 3 1 SIKERÜLT 88 90 000 44 0 0 NEM 22 180 000 32 0 1 SIKERÜLT 38 400 000 102 1 2 NEM
Feladat: Van egy tanító adathalmazom ahol ismerem a tulajdonságokat és ahol ismerem a címkéket (osztályt) És van egy új sor, ahol ismerem a tulajdonságokat és a modell mondja meg a címkét Klasszifikáció Címkézés Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás 55 180 000 62 1 3???? Alapkérdés: Mennyire találtam el az osztályt? MODELL Milyen pontos volt az osztályozás? Tulajdonságleíró változók input attribútumok Életkor Jövedelem Lakásméret Gyerekek Autók száma Biztosítás 42 280 000 82 3 1 SIKERÜLT 88 90 000 44 0 0 NEM 22 180 000 32 0 1 SIKERÜLT 38 400 000 102 1 2 NEM Célváltozó Target Címke Pontosság (Accuracy) = Eltalált esetek / Összes eset
Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem 55 3257 62 1 3???? MODELL Tulajdonságleíró változók input attribútumok Célváltozó Target Mennyiség Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem 42 0432 82 3 1 280 000 88 0312 44 0 0 90 000 22 0101 32 0 1 180 000 38 4003 102 1 2 400 000
Feladat: Van egy tanító adathalmazom ahol ismerem a tulajdonságokat és ahol ismerem a mennyiséget És van egy új sor, ahol ismerem a tulajdonságokat modell mondja meg mekkora a mennyiség Felügyelt tanulási algoritmusok Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem 55 3257 62 1 3???? MODELL Tulajdonságleíró változók input attribútumok Célváltozó Target Mennyiség Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem 42 0432 82 3 1 280 000 88 0312 44 0 0 90 000 22 0101 32 0 1 180 000 38 4003 102 1 2 400 000
Feladat: Van egy tanító adathalmazom ahol ismerem a tulajdonságokat és ahol ismerem a mennyiséget És van egy új sor, ahol ismerem a tulajdonságokat modell mondja meg mekkora a mennyiség Felügyelt tanulási algoritmusok Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem 55 3257 62 1 3???? Alapkérdés: Mekkorát MODELL tévedtem? Átlagosan mekkora a hiba? Tulajdonságleíró változók input attribútumok Hiba (Error) = Tipp Valós érték Célváltozó Target Mennyiség Életkor Foglalkozás Lakásméret Gyerekek Autók száma Jövedelem 42 0432 82 3 1 280 000 88 0312 44 0 0 90 000 22 0101 32 0 1 180 000 38 4003 102 1 2 400 000
Feladat 1. Churn feladat El fog-e vándorolni a konkurenciához az ügyfél? 2. Kinek érdemes kiküldeni egy hitelkártyát? 3. Hány percet fog az ügyfél a következő hónapban telefonálni? 4. 1 és 5 között milyen osztályzatot ad a filmre majd a felhasználó? 5. Többet fog-e jövőre költeni az ügyfél, mint 1 MFt?
MODELL Nem felügyelt tanulási algoritmusok Tulajdonságleíró változók input attribútumok Életkor Jövedelem Lakásméret Gyerekek Autók száma 42 280 000 82 3 1 88 90 000 44 0 0 22 180 000 32 0 1 38 400 000 102 1 2 Csoport A. klaszter A. klaszter B. klaszter B. klaszter
MODELL Feladat: Van egy tanító adathalmazom ahol ismerem a tulajdonságokat Kérdés, hogy milyen csoportokba rakható úgy, hogy csoporton belül hasonlóak. csoportok ne hasonlítsanak egymásra Nem felügyelt tanulási algoritmusok Tulajdonságleíró változók input attribútumok Életkor Jövedelem Lakásméret Gyerekek Autók száma 42 280 000 82 3 1 88 90 000 44 0 0 22 180 000 32 0 1 38 400 000 102 1 2 Csoport A. klaszter A. klaszter B. klaszter B. klaszter
Business understanding Deployment Data understanding Business evaluation Data preparation Modeling
Legyen az adatelemzési projekt egy kevésbé hozzáértő számára is megbízható és megismételhető Keretrendszer az eredmények létrehozására Projekttervezés és menedzsment Komfortfaktor
Nem szabadalmaztatott, független Felhasználási és alkalmazási területtől független Eszközfüggetlen Az üzleti célokat tartja szem előtt Valós projekttapasztalatokon alapul Nem vízesés-modell
Deployment Hogyan tudjuk felhasználni az eredményeket? Business understanding Mi a projekt üzleti célja? Hogyan lehet ezt megoldani adatelemzéssel? Evaluation Sikerült elérni a kitűzött célokat? Data understanding Honnan az adat? Milyen minőségű az adat? Modeling Modellezés Data preparation Adatmasszírozás
Forrás: http://www.kdnuggets.com
Forrás: http://www.kdnuggets.com
Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends
Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends
Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends
Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends
Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends
Források: http://www.kaggle.com, http://www.kdnuggets.com, http://www.indeed.com/jobtrends
Forrás: Kaggle 2017 The State of Data Science & Machine Learning
Forrás: Kaggle 2017 The State of Data Science & Machine Learning Forrás: Kaggle 2017 The State of Data Science & Machine Learning
Forrás: Kaggle 2017 The State of Data Science & Machine Learning Forrás: Kaggle 2017 The State of Data Science & Machine Learning Forrás: az előadó tapasztalata & szubjektív véleménye
As experts, we organize and lecture at conferences of our Hungarian data analytics community and also take part in international scientific projects and data mining competitions. As educators, we teach our students to define real-world business problems and give their own effective data analysis solutions. As consultants, we provide innovative solutions from defining business challenges to deploying applications for our business partners.
Our goal is to determine the next trends of data analysis and to create new kinds of services which go beyond the classical solutions. On our corporate courses the primary consideration is that the provided knowledge is tailored to cover the needs of our professional partners. Corporate courses with our training partners meetup speeches to Hungarian data analytics community conference speeches Custom company training
Our analysts regularly enter and excel at international data mining competitions that add to our team s inspiration to invent and test the most novel processes and solutions Energy forecasting competition. Solar and wind forecasting tracks Predicting compounds' interference in biochemical pathways using only chemical structure data Implementing an agent that takes on pricing for an online shop Predicting probability of loan default for a Brazilian retail bank Some members of Dmlab team with consistent and stellar competition results in the top of the international competitors of Kaggle.
Dmlab aspires to become a venture-builder organization that build companies using their own ideas and resources Big data analytics company with the goal of lowering the barrier for using Hadoop systems. The Radoop package allows even non-technical people to access and analyse big data, but also provides scripting and advanced predictive analytics for experts. Most of the founders come from Dmlab RapidMiner (a leading data analytics company) acquired Radoop in 2014 Unviewable ads, non-human generated clicks, malevolent publishers and negligent middlemen - this is the reality of online advertising. With enbrite.ly s technology, actors of online advertiser market expose the facts, both good and bad, protecting their bottom line. The technology is based on research and development of Dmlab Enbrite.ly won the $500,000 cash prize for the best start-up at Slush 2014
Electric power consumption Load forecasting for wind and solar Decision support system for scoring of severity of rheumatics Breast cancer diagnosis based on image processing Predictive driver behaviour scoring system Waste diagnostics within production line Conversion booster in online shops based on user behaviour Indoor positioning
Founder senior partner Founder senior partner gaspar.csaba@dmlab.hu +36 (20) 823-4154 nagy.istvan@dmlab.hu +36 (70) 459-5669