Retro adatbányászat. Kovács Gyula Andego Tanácsadó Kft.



Hasonló dokumentumok
Fiktív cégek a hálóban

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Adatbányászat a felhőben

Fiktív cégek a hálóban

Big Data az adattárházban

Hálózati elemzések az üzleti életben. Kovács Gyula Sixtep Kft.

Innovatív trendek a BI területén

Gyors sikerek adatbányászati módszerekkel

Változások előtt hol áll a banki (adat)elemzés? Nándorfi György

A szak specializációi

Így kampányolunk mi. Hans Zoltán. Szolgáltatás Fejlesztés és Online Irányítás vezető. IBM-SPSS üzleti reggeli (Budapest)

A webanalitika változó világa 4 felvonásban

Gyors sikerek adatbányászati módszerekkel

Papp Attila. BI - mindenkinek

Adatbányászat az Oracle9i-ben. Fekete Zoltán vezető termékmenedzser

Önkiszolgáló BI Az üzleti proaktivítás eszköze. Budapest,

Az adatelemző felelőssége tapasztalatok a biztosítási analitikában

Projektvezetői döntések támogatása webbányászattal

BEVEZETÉS AZ ADATTÁRHÁZ AUTOMATIZÁLÁSBA

BIG DATA ELEMZÉSEK LEHETŐSÉGEI

Változó vásárlói szokások nyomon követése 2016 Szeptember SAP Forum. Komjáthy Csaba

Adatbányászat és Perszonalizáció az Oracle9i-ben

Palaczk Péter A marketing folyamatok adattárház alapú támogatása

Ön a megfelelő mennyiségű és minőségű információk alapján hozza meg döntéseit? Stratis Kft. / Autonomy üzleti reggeli /

Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter

Adatbányászat és Perszonalizáció architektúra

CRM fentről és lentről

Ügyfélkapcsolat menedzsment rendszerek nyílt forráskódú szoftverekkel. Herdon Miklós, Kaderják Gyula, Simon András

A tudás handrendbe állítása, azaz SPSS PES

Versenyelőnyszerzés az intelligens megoldások korában. Rehus Péter, SWG CEE, IS brand igazgató November 5.

DW/BI rendszerek kialakítása bevezetői szemszögből. Gollnhofer Gábor - Meta Consulting Kft.

Csalásfelderítés hálózatokon keresztül. Innovatív BI konferencia, Budapest,

Webanalitika a mindennapokban

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

Termelési és szolgáltatási döntések elemzése Vezetés és szervezés mesterszak

Mit mond a XXI. század emberének a statisztika?

Adatbányászati, data science tevékenység projektmenedzsmentje

Adatbányászati, data science tevékenység

ADATTÁRHÁZ MENEDZSMENT ÉS METAADAT KEZELÉS

Beszerzések adatalapú vizsgálata a 21. században

Prediktív analitikai megoldások bankok és biztosítók számára

Digitalizáció a vállalatirányításban - Milyen szerep jut a controllingnak? Budapest,

Hogyan lesz adatbányából aranybánya?

ADATTÁRHÁZ HATÉKONYSÁGNÖVELÉS, REDUNDANCIA CSÖKKENTÉS Frunza Zsolt ÜZLETI INTELLIGENCIA A JÖVŐ, AHOGY MI LÁTJUK

SAS szoftverek felhasználási lehetőségei a felsőoktatásban

Dr. Sasvári Péter Egyetemi docens

Projekt specifikus megvalósítás I. Merre tart az informatikai Hogyan érinti ez a megvalósítást Sándor Tamás

PREDIKTÍV ANALITIKÁVAL A KORAI ISKOLAELHAGYÓK SZÁMÁNAK CSÖKKENTÉSÉÉRT

AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK

Költségmegtakarítás járatoptimalizálással. Lukács Lajos Ügyvezető DSS Consulting Kft.

Self service reporting fogások, technikák és megoldások controllereknek, nem csak Excel alapon

Nyílt forráskód, mint üzleti előny. Szücs Imre VTMSZ - CMC Minősítési előadás Ha valamit érdemes csinálni, akkor azt megéri jól csinálni

Kővári Attila, BI projekt

ocrm rendszer bevezetése a QUAESTOR Csoportnál

Gazdasági informatika alapjai

Üzleti intelligencia - eszközöktől a megoldásokig

IRÁNYTŰ A SZABÁLYTENGERBEN

Új utak az értékesítésben avagy mikor váltja be az online értékesítés a hozzá fűzött reményeket?

ÉLET A FELHŐBEN - HATÉKONYSÁGNÖVELÉS CLOUD TECHNOLÓGIÁVAL. Baranyi Fanni Microsoft Online Szolgáltatások Értékesítési Szakértő

Tipikus konverziós utak - Banki esettanulmány. Media Hungary, május 10. Dunai Zsolt, CIB Bank

Alkalmazott Informatikai Nap Dyntell Business Intelligence

A Jövő Internet Nemzeti Kutatási Program bemutatása

Az üzleti intelligencia megoldások helye és szerepe a magyar vállalatok életében. Dr. Kovács László Dr. Sasvári Péter Miskolci Egyetem

Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben

társadalomtudományokban

E-CENTRAL SALES AUTOMATION. Tudj mindent ügyfeleidről!

Tudásalapú információ integráció

Átlátni és rendszerezni Az adatbányászat, a CRM és a piackutatás kapcsolata

TDK tájékoztató Gazdaságinformatika Intézeti Tanszék szeptember

Vajda Éva. Bevezetés a keresőmarketingbe

Merre megy a könyvvizsgálat a digitalizáció korában?

Toborzás a Linkedin és okosórák korában A toborzás, mint ügyfélkapcsolat kezelés

Gépi tanulás a gyakorlatban. Bevezetés

IPAR 4.0 MINTAGYÁR PROJEKT GINOP

AZ IGAZI BIG DATA hogyan használják a világban és egyáltalán használják-e hazánkban?

Component Soft és tovább

Intelligens partner rendszer virtuális kórházi osztály megvalósításához

CRM magyarosan? CRM bevezetési stratégiák és tapasztalatok a hazai bankszektorban

RapidAnalytics Enterprise Edition bevezetés a Telenor Magyarországnál. Szakács Balázs - Telenor Magyarország Szücs Imre United Consult

ADATTÁRHÁZAK MINŐSÉGBIZTOSÍTÁSA

Vezetői információs rendszerek

Bartimex Kft. Cégbemutató

Megszületett a digitális minőségügyi szakember? XXIV. Nemzeti Minőségügyi Konferencia

Waberer s BI a BO-n túl. WABERER S INTERNATIONAL Nyrt. Szatmári Johanna, Tobak Tamás

Soltész Gábor. Önéletrajz Budapest, Lechner Ödön fasor em 26. a.

hagyományos médiaperformancia és e-kereskedelem mit tanulhat az egyik a másiktól Nagy Barnabás Magyar Telekom

ETL keretrendszer tervezése és implementálása. Gollnhofer Gábor Meta4Consulting Europe Kft.

A hierarchikus adatbázis struktúra jellemzői

Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt.

Bemutatkozás. A cég története:

Az Indecs rendszer. Kockázat- és követeléskezelés nagyvállalati környezetben

TANTÁRGYI ADATLAP I. TANTÁRGYLEÍRÁS

Szabálykezelés a gyakorlatban

Rózsa Tünde. Debreceni Egyetem AGTC, Pannon Szoftver Kft SINCRO Kft. Forrás:

Dokumentum kompozíció

Vanyová Klára. 1. Bevezetés. 2. A rendszereket fejlesztő cégről. A hangbányászat lehetőségei a döntéstámogatásban 2

Több mint BI (Adatból üzleti információ)

A dashboardok felemelkedése. Mitró Péter

Képzés > Hatékonyság > Versenyelőny!

Átírás:

Retro adatbányászat Kovács Gyula Andego Tanácsadó Kft. Adattárház Fórum 2012

Magunkról 2010-ben alapították magánszemélyek (az alapítók több mint egy évtizedes BI tapasztalatokkal rendelkeznek) Andego Tanácsadó Kft. fő profilja: Intelligens applikációk kifejlesztése, és hozzá konzultáció eladása (CARculator, Sixtep hálózati szoftver) BI tanfolyamok megtartása (kiscsoportos tanfolyamok) CRM és BI témájú piackutatások lebonyolítása Partnerek IFUA Partners, MentorPartner, BI Consulting Kft. és SIXTEP Kft. Referenciák Lombard Lízing, MKB Euroleasing, OTP, Uniqa, Posta Biztosító, Signal Biztosító, PBA biztosítási alkusz, Vodafone, Sanofi-avensis

Tartalom Mi is az adatbányászat? Alapfogalmak Dara Mining és X mining kapcsolata Big Data és adatbányászat Hogyan készül egy adatbányászati modell? Milyen adatbázisokat építsünk? Egy esettanulmány

Az adatbányászat már nem trendi?

Az adatbányászat = adatfeldolgozás, adatelemzés és gondolkodás Bár általában adatok elemzésével kapcsolatban használják a fogalmat, az adatbányászat a mesterséges intelligenciához hasonlóan egy esernyő fogalom. Általában üzleti vagy valamilyen más szervezeti trend(ek) azonosításának igényével kapcsolják össze. 1. Az implicit, korábban ismeretlen és hasznos információk kinyerése különféle adatokból (W. Frawley and G. Piatetsky-Shapiro and C. Matheus, Knowledge Discovery in Databases: An Overview. AI Magazine, Fall 1992, pages 213-228.) 2. Hasznos információk hatalmas adatsorokból vagy adatbázisokból való kiszűrésének tudománya" (D. Hand, H. Mannila, P. Smyth: Principles of Data Mining. MIT Press, Cambridge, MA, 2001. ISBN 0-262-08290-X) 3. Egyesíti az adatbázis-kezelés, a statisztika és a mesterséges intelligencia kutatások eredményeit. 4. Az adatbányászat nagy mennyiségű adatok kutatása és elemzése rejtett minták és szabályok felfedezése érdekében. (Data Mining Techniques; By Michael J. A. Berry and Gordon S. Linoff, 2004 John Wiley & Sons)

2005 körül számos olyan változás történt, ami alapvetően változtatta meg az adatbányászatot CRM rendszerek megjelenése. A rendszerek inbound/outbound kampányok menedzselése egyben, és az adatbányászati modelleket ezen kampányokhoz kezdték használni (CRM modellek) -> Modell teljesítmények mérése éles környezetben (kampány menedzsment) Web analitika. Egyre több online intelligens alkalmazás jelent meg. A web adatok nagyon gyorsan amortizálódnak, az algoritmusokkal szembeni elvárás az öntanulás képessége (pl. ajánló rendszerek) -> Real-time technológia és Big Data megjelenése Nem strukturált adatok bányászata. A hagyományos adattárház adatok elemzése mellett megjelent a szöveg és hangbányászat. A szövegbányászat egyben a tartalom elemzés legfontosabb motorja -> Digitális lábnyomok egyre intenzívebb elemzése

Napjainkban adatbányászathoz sorolunk lassan mindent ami adatelemzés Nem strukturált adatok elemzése: Text mining Voice mining Hálózatelemzés Kampány menedzsment: Analítikus CRM Real-time decision Üzleti elemzés szerepe nő Business Analyses Data Mining Óriás adatok megjelenése: BIG Data Cloud Computing Hálózatok (közösségi oldalak > digitális lábnyomok) Adatbányászat demokráciája: Open source szoftverek térnyerése Mindenkinek van adata

X-Mining tényleg adatbányászat?

X-Mining tényleg adatbányászat? A szövegbányászat, hangbányászat, videóbányászat és részben a hálózatelemzés valójában a nem strukturált adatok strukturált formára hozását jelenti. Ennek köszönhetően az adatbányászat új adatokat tud beépíteni a modellekbe.

Big Data Big Money? A technologyreview-ban Peter Fader-rel (Wharton Egyetem) készült interjúban a Big Data szerepéről beszéltek. Ennek kivonata: A "More is better" elvvel kapcsolatban a kétségeit fogalmazta meg. Emlékeztette az olvasókat arra, hogy 15 éve hasonló várakozások előzték meg a CRM rendszereket, és a benne lévő elemzési lehetőségeket - azonban az idő nem igazolta ezeket a várakozásokat (vagy csak ritka esetekben) A legfontosabb kérdés az optimális adatmennyiség mérete. Fader szerint az elemzés lényege az adatokban lévő korlátok feltérképezése, és nem minden áron történő kiaknázása. Ugyancsak kitért arra, hogy az óriási adatok elemzése végén lehet hogy olyan összefüggésekhez jutunk, amiket az "adattudósok" már a 60-as években is tudtak. Az óriási adatok elemzése túlságosan technikai jellegű lett, éppen ezért Fader szerint az adattudósok inkább matematikusok/informatikusok, és kevésbé elemzők.

Egyáltalán hol vannak nagy adatok? Rexer Analytics felmérése szerint az elemzők 87%-a maximum 100 változót használ az elemzéseknél

Az elemzők számára nagyobb kihívás az adattisztítás mint az adatméret Az elemzők többsége vállalati adattárházakon dolgozik. Itt az adatminőség kérdése a legszignifikánsabb, az adatok mérete nem változott az elmúlt években radikálisan

Tartalom Mi is az adatbányászat? Alapfogalmak Dara Mining és X mining kapcsolata Big Data és adatbányászat Hogyan készül egy adatbányászati modell? Milyen adatbázisokat építsünk? Egy esettanulmány

Múltbeli adatok Adatbányászati modellezés - alapelv Az alapelv: minél több múltbeli adatot gyűjtsünk össze az adott ügyfélről, és ez alapján jelezzük előre jövőbeli viselkedését. Jövő Demográfiai/firmográfiai adatok Tranzakciós adatok (kommunikáció/pénzforgalom) CRM adatok ügyfél-vállalati interakciók Termék használati adatok Ügyfél Prediktív modell Lemondja a szerződését? Csődbe jut? Csalást fog elkövetni? Vásárolni fog az adott termékből? Stb.

Mit várhatunk el egy adatbányászati projekttől?

Néhány tipikus alkalmazás Churn előrejelzés. Elsődlegesen mobil szektorban, ezen belül is postpaid ügyfelekre. Ügyfél szegmentáció. Olyan viselkedés alapú szegmentáció, ami a hasonló szükségletű ügyfeleket detektálja. Elsődlegesen kampány célcsoport kijelölésnél használták. X-sell/upsell elemzések. Next best ajánlatok kiszámítása asszociációs szabályok segítségével Ügyfélérték számítás. Alapvetően kontrolling feladat, de a CLV számításnál szükséges az ügyfelek várható élettartamának kiszámítása Csalás detektálás. Bankkártya csalások detektálása Folyamat optimalizálás. Behajtási folyamatok optimalizálása (pl. mely adósokat nem kell átadni behajtó cégeknek)

Adatbányászati modell elemzés eredménye Hűségszerződés lejárt? Igen: 15% Nem: 3% Optimális díjcsomagban van Panaszkodot t az ügyfélszolgálaton? Igen: 10% Nem: 25% Igen: 7% Nem: 1%

Adatbányászat legfontosabb lépései Az adatbányászat nélkülözhetetlen része az adatbányászati szoftver. A legjobb szoftverek támogatják: 1. Adatfeldolgozás: az eredeti forrás adatok általában alkalmatlanok adatbányászati elemzésekre. A szoftver segítségével előállítható tanító és teszt adatbázis 2. Hagyományos elemzés (statisztikák és grafikonok): az elemző lépésről lépésre állítja elő a tanító adatbázist. Ehhez szükséges alapelemzések elkészítése 3. Modellezés: minden adatbányászati szoftver tartalmaz modellező/adatbányászati algoritmusokat. A tanító adatbázison ezek segítségével készítjük a modelleket (adatbányászati algoritmus modell) 4. Kiértékelés: a legtöbb szoftver tartalmaz olyan eljárásokat, amelyek segítségével könnyen eldönthető, hogy az adott modell mennyire pontos (mennyire használható)

Esettanulmány

Prediktív modellezés múltbeli tapasztalatok alkalmazása az előrejelzésre Alapelv: gyűjts össze minél több adatot a múltból, és ezt használd fel a jövő előrejelzésére! Múlt Jelen Előrejelzés jelen tudásunk alkalmazása Univerzális tudás: múltbeli adatok alapján feltárt összefüggések (függvényhalmaz) Univerzális tudás múltbeli adatok alapján Ügyféladat Demográfiai/firmográfiai adatok Viselkedés adatok (hívások, SMS, MMS, ) CRM adatok ügyfélvállalati interakciók Termék használati adatok DataMining modellek + Múltbeli adatok elátrolva adattárházakban (adatbázis) Friss ügyféladatok melyeken a modellek futtathatók Demográfiai/firmográfiai adatok Viselkedés adatok (hívások, SMS, MMS, ) CRM adatok ügyfélvállalati interakciók Termék használati adatok Ügyfélszintű előrejelzés: mi annak a valószíműsége, hogy egy adott esemény bekoövetkezik? (pl. Elvándorlás)

Feladat: cégek bedőlésének előrejelzése Forrás: Complex céginformációs adatbázis ~1.000 különböző tábla A legnagyobb táblákban 25-30M rekord Inkonzisztens adatbázis Elemzés lépései: Létrehozunk egy tanító adatbázist Alapelemzéseket készítünk Elemzési stratégia kialakítása Modellezés Kiértékelés

Hogyan hozzunk létre elemzési adatbázist? Múltbeli események Célváltozó: történik-e negatív esemény az adott céggel 2011.01 2011.06 2011.012 Az eredmény egy olyan függvény, mely később alkalmazható előrejelzésekre.

Milyen adataink vannak? Múltbeli események Célváltozó: történik-e negatív esemény az adott céggel 2011.01 2011.06 2011.012 Cím adatok (székhely, telephely, fióktelep) és ezek változása Tulajdonosi adatok Tisztségviselő adatok Bankszámla adatok... Mérleg adatok 2010-es vagy korábbi (évente egyszer frissül )

Tanító adatbázis ami bármikor reprodukálható 2011.06. végi állapot Változók Cégazonosító Volt-e székhely váltás (last 6M) Fő TEAOR kód Volt-e 2010-es mérleg adata Létszám változás (last 6M)... Cég1 1111 1 32 1 +3 Cég2 1112 0 78 1-2...

Tanító adatbázis célváltozó előállítása 2011.06. végi állapot Változók Cégazonosító Volt-e székhely váltás (last 6M) Fő TEAOR kód Volt-e 2010-es mérleg adata Létszám változás (last 6M)... Felszámol ásba kerül (next 6M) Cég1 1111 1 32 1 +3 Cég2 1112 0 78 1-2 1 0...

Alapelemzések ismerd meg az adatokat 2011. II félévben volt-e negatív Mindenki Nem volt Volt Ráta Soha nem adott be mérleget 205887 3179 1,52% Adott-be mérleget 2010-ről! 310575 840 0,27% Adott-be mérleget, de 2010-ről már nem! 108244 3581 3,20% Az alapelemzések segítenek: Adatminőség ellenőrzésében Releváns adatok detektálásában Modellezési koncepció kialakításában

Modellezés szakértői tudással Teljes sokaság (1,25%) I. Volt negatív esemény az elmúlt fél évben (5,89%%) Nem volt negatív esemény az elmúlt fél évben (1,05%%) II. Nem adott be mérleget 2010- ben (1,98%) III. Adott be mérleget 2010- ben (0,25%%) Jelen esetben az elemző úgy döntött, hogy 3 modellt épít 3 különböző szegmensre (már maga a szegmentálás egy modell)

(1,25%) Modellezés szakértői tudással I. Volt negatív esemény az elmúlt fél évben (5,89%%) Nem volt negatív esemény az elmúlt fél évben (1,05%%) II. Nem adott be mérleget 2010- ben (1,98%) III. Adott be mérleget 2010- ben (0,25%%)

Kiértékelés üzleti szemüvegen keresztül SCORE Darabszám Negatív esemény valószínűsége II. Félévben A 18348 5,9% B 55200 4,5% C 236061 1,5% D 134341 0,4% E 193627 0,1% A kapott score-ok alapján kialakíthatók szegmensek, melyek jól használhatók üzleti folyamatokban

Milyen adatokon tudunk adatbányászati modelleket építeni?

Adatleltár PREDIKCIÓ SZEGMENTÁCIÓ Szerződés kötés Demográfia Termék/ szolgáltatás Ügynök X XXX XX (termék affinitás) XX X - Aktív periódus Viselkedés adatok Számla fizetés Ügyfélszolgálati kapcsolat Kampány Felmondás XXX X (vagy több?) X (churn) X (attitűd) XX (churn) X (attitűd) XX (termék affinitás) X (attitűd) XX (churn) -

Hogyan használjuk az adatokat? DW Ömlesztve Az adattárházban lévő adatokat egy az egyben inputként adjuk az adatbányászati eljárásnak majd a modellezés ezen alapadatokon történik Adott vállalat összes ügyfeléről egységes információ halmaz. Feldolgozva Az adattárházban lévő adatokból attitűd jellegű képzett változót készítünk és ezen változókon történik a szegmentáció (pl. aki minden hónap 5-én csekken fizeti be a számlát az precíz, )

Az adatbányászati algoritmusok táblázatokat várnak Az összes data mining algoritmus táblázat formátumú adatokat tud kezelni azaz sorok és oszlopok strukturált formában (SQL táblák)

Milyen egy jó adatbányászati tanító adatbázis? Ügyfél-centrikus adatbázis (vagy termék centrikus, stb.): végső cél: 1 ügyfél 1 rekord struktúra létrehozása Az adatok zaj mentesek a dm algoritmusok egy része nem tudja kezelni a hiányzó értékeket A szélsőséges értékek deviancia mentes adatbázis Kategória változók támogatása jól interpretálható eredmények

Egy sor egy ügyfelet (emailt, káresetet, szerződést, ) ír le szabály Minden egyes sor egy- egy ügyfelet jelöl: 1. Egy múltbeli időpillanatban mit tudtunk róla? (input változók) 2. Mi történt vele utána? (célváltozó) Ügyfél

Az összegyűjtött adatokról miket kell tudnunk! Nagyon fontos, hogy az összegyűjtött változókat pozícionálni tudjuk: A modellezésnél mi a szerepe (input, output) Mit is ír le pontosan? Változó típusa mennyire tudja kezelni az algoritmus (pl. diszkrét értéket sok szegmentáló eljárás nem tud jól kezelni) Elérhetőség mennyire bonyolult előállítani (modell később alkalmazható legyen) Mennyire megbízható az adat Információ tartalom (szórás, korreláció a célváltozóval)

Összefoglalás Adatbányászat szerepe továbbra is jelentős amennyiben megfelelően használjuk Nem kell bonyolult modell elég ha használható Big Data ne akarjunk minden elemezni! X-Mining adatkinyerésre használjuk és utána elemezzünk