Data Science & Clementine
BEMUTATKOZÁS Tompa Miklós Közgazdász Business Analytics MSc Clementine Magyarország vezető data science társasága IBM partner tompa_miklos@yahoo.com https://www.linkedin.com/in/miklos-tompa/ www.clementine.hu
AGENDA 1 Data Science 2 Céges Működés 3 Data Scientist 4 Eszköztár 5 Két Clementine megoldás
FEJLETT ANALITIKA A mai adatelemzést alakító 4 legnagyobb hatás: 1. A statisztika hivatalos elmélete 2. Számítógépek és kijelzők forradalma 3. Adatkészletek növekvő mérete, számos területről 4. Egyre szélesebb körben felmerülő igény mérésre, számszerűsítésre Pafka Szilárd, 2016, CEU Business Analytics Course, Data Science
FEJLETT ANALITIKA A mai adatelemzést alakító 4 legnagyobb hatás: 1. A statisztika hivatalos elmélete 2. Számítógépek és kijelzők forradalma 3. Adatkészletek növekvő mérete, számos területről 4. Egyre szélesebb körben felmerülő igény mérésre, számszerűsítésre Tukey & Wilk, 1965 Tukey, J.W., & Wilk, M.B. (1965). Data analysis and statistics: techniques and approaches Reprinted in The Collected Works of John W. Tukey, Vol. V, Graphics 1965-1985, 1-22 (1988) Pafka Szilárd, 2016, CEU Business Analytics Course, Data Science
STATISZTIKA VS DATA SCIENCE Hagyományos elemzés Mintán dolgozik Múltbéli adatok elemzése Leíró statisztika Strukturált adatok Relációs adatbázisok DWH Fejlett analitika Teljes populáción dolgozik Használja a leíró statisztikát Historikus adatokból következtet a új jellemzőkre Adatbányászat Strukturálatlan adatok Real time elemzések Data Lake Összefüggések leírása Hipotézis tesztelés Eloszlás vizsgálatok DataScience Machine Learning MI Hálózatelemzés Big Data
PREDIKCIÓ ÖSSZEFÜGGÉS KÉT VAGY TÖBB VÁÉTOZÓ KÖZÖTT Két jellemző: Egyik alapján következtetünk a másikra Sok jellemző Alapján megmondja A gyümölcs fajtáját
GÉPI TANULÁS, MACHINE LEARNING Egy adattábla több megfigyelést tartalmaz gyümölcsökről Több féle alma, dinnye, citrom, stb adatait tartalmazza, pl 1200 sor, minden gyümölcsből 200 db Illetve tartalmazza a gyümölcs nevét Az algoritmus feldolgozza az adattáblát, és előállítja a mellékelt modellt (az egyes gyümölcsökre leginkább jellemző tulajdonságokat válogatja össze lehet a felvett adatok közt pár szem zöld cseresznye is, de a többség piros) Ha megadjuk a táblázat adatait A modell besorolja, hogy az adatok alapján melyik ismert gyümölcsről lehet szó (Supervised learning)
CHURN LEMORZSOLÓDÁS MODELL BEMENETI ADATAI
MIRE JÓ EZ AZ EGÉSZ Kockázatkezelés Igénylési scorecard Értékvesztés előrejelzés CRM/Marketing Lemorzsolódás Keresztértékesítés Kereslet előrejelzés Képelemzés Orvosi felvételek Intelligens vezérlő egységek Űrkutatás Csalásfelderítés Entitás kinyerés Hálózatelemzés Mintázatok keresése Szövegelemzés Hangfeldolgozás, szöveganalitika Automatizált ügyfélszolgálat Hangvezérlés
CRISP-DM AZ ADATBÁNYÁSZAT MÓDSZERTANA 1. Szervezeti (üzleti) megértés A lépés lényege, hogy érteni kell annak a szervezetnek (leggyakrabban üzletnek) a tevékenységét, céljait, amely számára az adattudományt alkalmazzuk. Meg kell találni azokat a kérdéseket, célokat amelyek megoldására az adatbányászatot alkalmazzuk, és meg kell fogalmaznunk azokat az adattudomány nyelvén. Rendszerint magas szintű, általános kérdésekből indulunk ki (pl. hogyan lehetne hatékonyabb a gyártás menete? hogyan szervezhetnénk hatékonyabban a céges gépkocsiflottát? stb.), amelyeket egyre konkrétabb, specifikusabb részkérdésekre bontunk. 2. Adatmegértés Ebben az előkészítési fázisban tisztába kerülünk a rendelkezésre álló adatokkal: összegyűjtjük, minősítjük, értelmezzük őket. Önmagában az adatok ismerete még nem elég, különböző metainformációkat (pl. honnan, kitől származnak, milyen módszerrel gyűjtötték őket stb) is be kell gyűjtenünk, ami külön kutatást igényel. 3. Adatelőkészítés Az adatok számos formában érkezhetnek (táblázat, szöveg, kép, diagram stb.), külön nehézséget jelent a narratív szövegek (kommentek, hangfelvételek) és más, nem sorokba-oszlopokba rendezett információk kezelése. Az adatelőkészítés végére a nyers adatokból a modellezéshez szükséges tartalmú és formátumú adatkészleteknek kell összeállniuk. 4. Modellezés Az adatmodellezés során az összegyűjtött és előkészített adatokból előállítjuk az üzleti igény szerinti elemzést (pl: klaszterezés ügyfélszegmens kialakítása, predikció mely ügyfelek hagyják el a céget). 5. Kiértékelés Az adatok kiértékelése révén tudjuk megállapítani a modellünk értékét, használhatóságát és eldönteni, mit kezdhetünk az eredményekkel; ellenőrizzük, hogy az adatelemzés szempontjából megfelelő modell(ek) az üzleti célra is valóban alkalmas(ak)-e. 6. Alkalmazás Ez a lépés az eredmények konkrét felhasználása: a kidolgozott modell már létező rendszerekkel való integrációja. Cégen belüli szolgáltatáskén való futtatása, működtetése.
DATA SCIENCE A CÉGES MŰKÖDÉSBEN
SZERVEZETI KÉRDÉSEK - BEVEZETÉS A közelmúlt Datawarehouse-októl a data Science team-ekig Magányos harcosoktól az integrált csapatmunkáig A jövő Data Science varázslatból funkcióvá Járuljon hozzá a profithoz Tervezni, mérni, értékelni Illeszkedjen a vállalati folyamatokba Vállalati folyamatokba integrált megoldás Adatvezérelt szervezet
ADATVEZÉRELT SZERVEZET Adatvezérelt szervezet rendszeresen végzi az adatok gyűjtését, feldolgozását, felhasználását, hogy eredményeket hozzon létre, segítse új termékek kialakítását, a régiek továbbfejlesztését, és segítsen eligazodni a versenyző piacon. D.J. Patil Data scientist, Fehér Ház
ADATVEZÉRELT SZERVEZET Van adatminőségéért felelős személy a szervezetben (Chief Data Scientist - Chiefds) Az első lépéstől legyen jelen az adat a szervezetben (Process) Döntések hátterében mindig adat álljon (Decisions) Minden illetékes érje el az adatokat, minél több ember érjen el minél több adatot (Access) Az elemzői csapat munkáját mindenhol ismerjék a szervezetben (Understanding) Domain ismeret (Domain) Legyen erőforrás az adatbeszerzésre (Research) A működés proaktív és rendszeresen mérik az eredményeket (Measure) Tudásmegosztás (Share)
ELEMZŐI CSAPATOK A SZERVEZETBEN Részlegek a valóságban Pénzügy, kontrolling Működés (gyártás, kockázat, aktuáriusok) DS általában a kereskedelmi funkcióknál Hogyan működnek az elemzési funkciók? Centralizált működés Egy elemző osztály létezik és végez minden elemzési feladatot. Előny: koncentrált szaktudás, hátrány: domain ismeret hiánya Szórt működés Data Science nem egy szokványos működési vagy adminisztrációs funkció Kutatás-Fejlesztés Szoftver fejlesztés Projekt menedzsment Telepített működés Centre of Excellence
KI AZ A DATA SCIENTIST?
ADATBÁNYÁSZ, DATA SCIENTIST I think data-scientist is a sexed up term for a statistician, Nate Silver applied statistician
ADATBÁNYÁSZ, DATA SCIENTIST ÜZLETI LÁTÁSMÓD IS! I think data-scientist is a sexed up term for a statistician Nate Silver applied statistician Az üzleti motivációt fókuszban tartva kell az elemzéseket, modellezéseket végezni. A legpontosabb előrejelzés, válasz sem ér semmit, ha nem volt pontos a kérdés.
KI AZ A DATA SCIENTIST Egy integrált csapat sokféle szakembert tartalmaz: dizájn web fejlesztés, műszaki-mérnöki, termék marketing és adminisztráció területről. Ezek az emberek mind értik az adatokat és használják is feladatukhoz, és én ezért mindannyiójukat data scientistnek tartom. Ha nem tudsz kódolni, nem lehetsz data scientist. VS Szakértelem Elméletben (2011): Hacker Scripter Alakalmazás használó A gyakorlat (2016): multifunkciós elemző Vertikális vs Horizontális Data Scientist (Crunch 2016: Polyglot Data Scientist) Csapatok Hagyományos és fejlett analitikai funkciók Sehol nem működik a fent említett értelmezés! Emberi tulajdonságokat veszünk fel, nem technikai tudást hmmmm Szükség van üzleti érzékre/megközelítésre Szükség van szakmai, adatbányász tudásra
DATA SCIENCE ESZKÖZTÁR
ESZKÖZRENDSZER Open Source R, Python RapidMiner Platform SPSS Modeler SAS MS Azure Machine Learning Akiket divatos kihagyni SQL Excel Felhőben MS Azure Amazon Web Services IBM Watson Open Sources Ingyenes, stabil közösségi tudásbázis, számtalan felhasználási mód. Platform Megbízhatóság, integrálhatóság, csapatmunka támogatás, könnyű kezelhetőség, vertikálisan lefedik az adatbányászat teljes folyamatát. A régi harcosok A napi munkában továbbra is vezető az Excel és az SQL egyszerűbb feladatokra, kis adatbázisokra Felhő Felhőben igény szerint érhetők el a legfejlettebb machine learning rendszerek, a legizmosabb szupeszámítógépek
R
AZ IBM SPSS MODELER AZ ESZKÖZÖK KÖZÖTT Platformok Support, verzió követés, stabilitás Rendszer intergráció Production Üzleti, vizualizációs felületek IBM SPSS Modeler IBM teljes portfoliójával integrálható Opensource kapcsolat Csapat munka Vizuális interfész
IBM SPSS MODELER
IBM SPSS MODELER
KÉT CLEMENTINE MEGOLDÁS
ÜGYFÉLSZOLGÁLATI MINŐSÉGBIZTOSÍTÁS - OTP Contact Center CLEMVOICE keretrendszer Alkalmazás 1. Hívások E-mail Hangfeldolgozás Szöveganalitikai feldolgozás Minőségbiztosítási szempontok ellenőrzése Hangvétel elemzés Téma kategorizálás Egyéb területek számára fontos információk gyűjtése (pl. CRM, csalás, termékfejlesztés) 2. Hívásokból, szöveges adatokból kinyert információk (Strukturált adat) 3. Hívás és működési adatok Egyéb meta-adatok Riportok, további elemzési lehetőségek: Minőségbiztosítás Értékesítés, CRM Termékfejlesztés csalásfelderítés, stb. Chat
ENTITÁS KIVONATOLÁS, HÁLÓZATELEMZÉS BELÜGYMINISZTÉRIUM, TEK Különböző adatforrások, képi anyagok, hangfelvételek, adatbázisok, szövegfájlok feldolgozása. A különböző elemek (személyek, címek, cégek, ügyek) kivonatolása. Kapcsolatrendszer felállítása. Bűnszövetkezetek feltérképezése, központi szereplők, események azonosítása.
32
SZÖVEGELEMZÉS ÜGYFÉLSZOLGÁLATI MINŐSÉGBIZTOSÍTÁS
MŰKÖDÉSI LOGIKA 1. Lépés: Leiratozás CLEMVOICE adatbázis Részletes, hívásszintű analitikai eredmények Kereshető, szűrhető, tetszőleges szintre aggregálható Ad-hoc lekérdezések lehetősége Különböző bontású és részletességű, időszakos és állandó riportok 2. Lépés: Elemzés (Analitikai képességek)
1. LÉPÉS: HÍVÁSOK LEIRATOZÁSA Folyamatos nagyszótáras beszédfelismerés: eredménye a teljes beszélgetés nagy pontosságú leirata Minden elhangzott szó leiratozásra kerül pontos időpecséttel ellátva Szüneteket, hezitálásokat is tartalmazza A valós időnél gyorsabb 1 perc alatt 4 percnyi beszélgetés átírására képes Üzembe helyezés: testreszabást igényel (rátanul az ügyfélszolgálat nyelvére )
2. LÉPÉS: ELEMZÉS Iparág specifikus, az adott ügyfélszolgálatra szabott szótárak segítségével testreszabható képességek. Szándék (szeretne, akar, stb..) Nyelvi mintázat: szótári elemek együtt előfordulása meghatározott távolságon belül Lemondás (lemond, visszamond, megszüntetni, stb..) Lemondás + szándék = lemondási szándék Termék Termék (bármilyen más termék, szolgáltatás neve) Képesség (tagadó szerkezetben is) Pénzügyek (tetszőleges kapcsolatok leírhatók)..szeretném visszamondani a baleset és halál biztosításomat meg a férjemét is mert megbeszéltük és azt mondta hogy hát sajnos nem tudjuk fizetni.. Pénzügyek Képesség
2. LÉPÉS: ELEMZÉS Iparág specifikus, az adott ügyfélszolgálatra szabott szótárak segítségével testreszabható képességek. Szolgáltatás (pl. netbank, otp direct) Probléma (nem sikerült, kidobott, próbál, stb.) Negatív (negatív szavak, kifejezések) Művelet (belépés, befizetés, utalás) Időadat (napok óta) Nyelvi mintázat: szótári elemek együtt előfordulása meghatározott távolságon belül Probléma + művelet = Technikai probléma tisztelt bank, ma reggel kb. egy órán keresztül próbáltam belépni az internetes rendszerükbe. sajnos nem sikerült, mert mire a csekkbefizetés menühöz értem volna, addigra a rendszer kidobott. az lenne a kérdésem, hogy ez egyszeri eset volt most, vagy várhatóan ilyen használhatatlan lesz a netbank? Negatív + szolgáltatás = Negatív vélemény
TELEFONOS MINŐSÉGBIZTOSÍTÁS PROTOKOLL Utalási megbízások Szigorú protokoll Minden egyes ügyfélkontakt automatikus minősítése Warning! tehát kívánok uram (NÉV) vagyok miben tudok segíteni sil kezicsókolom szeretnék egy egyszeri átutalást akkor hát sil ö sil háromszázharminc forintot sil mai napon egyszeri alkalom igen sil számlaszámot kérném sil (SZÁMLASZÁM) sil de kedvezményezett sil (KEDVEZMÉNYEZETT) sil közleményben mi szerepeljen sil közös költség díjelmaradás sil visszaolvasom önnek megbízása igen sil mai napon kettöezertizenkettö január huszonötödikén egyszeri alkalommal sil háromszázharminc forintot utalunk (SZÁMLASZÁM ÉS KEDVEZMÉNYEZETT) számú számlájára sil közleményben közös költség elmaradás jóváhagyja ezt igen köszönöm sil megtörtént tudok még segíteni hogy mennyibe kerül nekem ez az átutalás sil ez az átutalás sil ez nyolcvanhárom forint sil került akkor sil száznyolcvan sil jó sil köszönöm szépen sil köszönjük a hívást kezit csókolom viszonthallás
KÉPESSÉGEK: CC KPI-OK MONITOROZÁSA Megoldódik-e az ügyfél problémája az első hívásban? 1% FCR + = 1% Ügyfél elégedettség + kevesebb visszahívás = kevesebb kiadás Általános módszer Analitikai megközelítés Hogyan? Kampányszerű Folyamatos, minden hívásra kiterjedő Az ügyfél véleményén alapszik A tényleges ügyintézésen alapszik Hibalehetőség (rossz gomb) Plusz hívásidő Modellbe épített szabályok, konzisztens működés Nincs felesleges hívásidő Utalás azonosítható a hívásban a korábbi ügyintézésre, vagy további teendőkre, például: ez már a második alkalom, hogy telefonálok hányszor kell még telefonálom sajnos nem tudok segíteni..
KÉPESSÉGEK: HANGVÉTEL MÉRÉSE Negatív, szavak kifejezések előfordulása pl. tele van a hócipőm, felháborítónak tartom Nem kapott tájékoztatást pl. semmilyen tájékoztatást azóta nem kaptam Nem kapott kivonatot/ smst/nem sikerült elintézni valamit pl. nem kaptam meg az e havi számlakivonatot PSZÁF, fogyasztóvédelem emlegetése pl. azonnal a PSZÁF-hoz fordulok jó napot kívánok (NÉV) vagyok miben segíthetek önnek jó napot kívánok (NÉV) vagyok törökszentmiklósról a törökszentmiklósi fiókból a (NÉV) szeretnék beszélni milyen ügyben szeretne az ügyintézövel beszélni édes drága jó istenem a hócipöm tele van magukkal meghalt egy rokonunk és a folyószámlájáról szeretnénk a bankkártyáját letiltani mert ellopták a kórházban A beszélgetések kis részében azonosíthatók csak negatív elemek
41 E-MAIL FELDOLGOZÁS Tisztelt Bank! Maguk a legjobb magyar bank! Választ igénylő levelek 20%-os javulás a panaszok feldolgozási idejében! További előnyök A sürgősen megválaszolandó emailek előrébb, míg a spamek hátrébb sorolódnak a feldolgozás során Jól skálázható Rövidebb feldolgozási idő Kompetenciák szerinti, specializált ügyintézés Tudásbázis, sablonok Spamek
ELŐADÁSOK BIG DATA ÉS DATA SCIENCE TÉMÁBAN https://www.slideshare.net/dominodatalab/nobullshit-data-science https://www.kdnuggets.com/2015/11/big-ram-big-data-size-datasets.html