Adatbányászati, data science tevékenység projektmenedzsmentje

Hasonló dokumentumok
Adatbányászati, data science tevékenység

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Intelligens orvosi műszerek VIMIA023

Egyenlőtlenségi mérőszámok alkalmazása az adatbányászatban. Hajdu Ottó BCE: Statisztika Tanszék BME: Pénzügyek tanszék Budapest, 2011

Eredmények kiértékelése

Adatbányászati feladatgyűjtemény tehetséges hallgatók számára

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Mit mond a XXI. század emberének a statisztika?

1. ábra: Magyarországi cégek megoszlása és kockázatossága 10-es Rating kategóriák szerint. Cégek megoszlása. Fizetésképtelenné válás valószínűsége

4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás Döntési fák [Concepts Chapter 11]

Csima Judit február 19.

Gyors sikerek adatbányászati módszerekkel

ADATBÁNYÁSZAT AZ AUTÓIPARI TERMÉKEK FEJLESZTÉSÉBEN

Nagy adathalmazok labor

Diagnosztikus tesztek értékelése

Így kampányolunk mi. Hans Zoltán. Szolgáltatás Fejlesztés és Online Irányítás vezető. IBM-SPSS üzleti reggeli (Budapest)

Gyors sikerek adatbányászati módszerekkel

Retro adatbányászat. Kovács Gyula Andego Tanácsadó Kft.

Deep Learning a gyakorlatban Python és LUA alapon Felhasználói viselkedés modellezés

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Modellezési Kockázat. Kereskedelmi Banki Kockázatmodellezés. Molnár Márton Modellezési Vezető (Kockázatkezelés)

Szeleteljük fel úgy a tulajdonságteret, hogy az egyes szeletekbe lehetőleg egyfajta objektumok kerüljenek, de túl sok szelet se legyen.

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Adatbányászat az Oracle9i-ben. Fekete Zoltán vezető termékmenedzser

Szomszédság alapú ajánló rendszerek

Közösségi kezdeményezéseket megalapozó szükségletfeltárás módszertana. Domokos Tamás, módszertani igazgató

MÓDSZERTANI ESETTANULMÁNY. isk_4kat végzettségek négy katban. Frequency Percent Valid Percent. Valid 1 legfeljebb 8 osztály ,2 43,7 43,7

5. LECKE: TÁMASZVEKTOROK (SVM, Support Vector Machines)

IBM SPSS Modeler 18.2 Újdonságok

Logisztikus regresszió

A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek

Csima Judit február 26.

Csalásfelderítés hálózatokon keresztül. Innovatív BI konferencia, Budapest,

Adatbányászat: Osztályozás Alapfogalmak, döntési fák, kiértékelés

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Módszertani áttekintés

Fehér Tamás, Hofgesang Péter T-Systems Magyarország. Adócsalók a RADAR képernyőjén

Megerősítéses tanulás

MagyarBrands kutatás 2017

II. rész: a rendszer felülvizsgálati stratégia kidolgozását támogató funkciói. Tóth László, Lenkeyné Biró Gyöngyvér, Kuczogi László

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Nagy adathalmazok labor

IV.7 MÓDSZER KIDOLGOZÁSA FELHASZNÁLÓI ADATOK VÉDELMÉRE MOBIL ALKALMAZÁSOK ESETÉN

Az adatelemző felelőssége tapasztalatok a biztosítási analitikában

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Mi a big data? ML? AI? DS? Az adatelemzés szintjei CRISP-DM módszertan. GUI Enterprise eszközök Programozási nyelvek

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok


Copyright 2012, Oracle and/or its affiliates. All rights reserved.

Neurális hálózatok bemutató

Adatelemzés őszi félév ,26,27 1. Bevezetés 2. Osztályozás és klaszterezés feladata 3. Numpy és Ipython 4. Logisztikus regresszió

Adatbányászat: Osztályozás Alapfogalmak, döntési fák, kiértékelés

Loss Distribution Approach

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A tudás handrendbe állítása, azaz SPSS PES

Adatbányászat és Perszonalizáció architektúra

A 9001:2015 a kockázatközpontú megközelítést követi

Soltész Gábor. Önéletrajz Budapest, Lechner Ödön fasor em 26. a.

Véletlenszám generátorok és tesztelésük HORVÁTH BÁLINT

AZ IGAZI BIG DATA hogyan használják a világban és egyáltalán használják-e hazánkban?

Adatbányászat a felhőben

Vajda Éva. Bevezetés a keresőmarketingbe

E x μ x μ K I. és 1. osztály. pontokként), valamint a bayesi döntést megvalósító szeparáló görbét (kék egyenes)

Modellkiválasztás és struktúrák tanulása

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

A szak specializációi

Véletlenszám generátorok és tesztelésük. Tossenberger Tamás

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))

Tanulás tanuló gépek tanuló algoritmusok mesterséges neurális hálózatok

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás

OKM ISKOLAI EREDMÉNYEK

Az értékelés során következtetést fogalmazhatunk meg a

Intelligens adatelemzés

Logisztikus regresszió

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Nyílt forráskód, mint üzleti előny. Szücs Imre VTMSZ - CMC Minősítési előadás Ha valamit érdemes csinálni, akkor azt megéri jól csinálni

Nemzetközi díjas fejlesztés: hatékonyság- és ügyfélelégedettség-növelés az Oktatási Hivatal hatósági eljárásaiban

A hierarchikus adatbázis struktúra jellemzői

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

AZ INNOVÁCIÓS POTENCIÁL MÉRÉSE KIS- ÉS KÖZÉPVÁLLALKOZÁSOK SZÁMÁRA

Adatbányászati technikák (VISZM185) 2015 tavasz

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Hatékony iteratív fejlesztési módszertan a gyakorlatban a RUP fejlesztési módszertanra építve

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

TANULÁSI GÖRBÉK AZ ÉPÍTŐIPARBAN

Témaválasztás, kutatási kérdések, kutatásmódszertan

S atisztika 2. előadás

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Projekt siker és felelősség

Üzleti folyamatok rugalmasabb IT támogatása. Nick Gábor András szeptember 10.

CEBS Consultative Paper 10 (folytatás) Krekó Béla PSZÁF, szeptember 15.

társadalomtudományokban

TÁJÉKOZTATÓ PSIDIUM AKKREDITÁCIÓS KÉPZÉS PSIDIUM RENDSZERISMERETI KÉPZÉS DÖNTÉSTÁMOGATÓ MÓDSZEREK A HUMÁNERŐFORRÁS MENEDZSMENTBEN

A 2014.évi országos kompetenciamérés értékelése Kecskeméti Bolyai János Gimnázium

Big Data az adattárházban

Átírás:

Adatbányászati, data science tevékenység projektmenedzsmentje IPE képzés II. félév Körmendi György, Hans Zoltán Clementine Consulting 2018.03.08. L

Bemelegítés

Adatbányászat célja Szegmentálás Leíró modellek Előrejelző modellek Jellemző mintázatok feltárása Kapcsolatok feltárása Események előrejelzése Csoportok differenciált kezelése Összefüggések megértése Megelőzés 3

Adatbányászati, DS projektek Van ilyen? Ki végzi? Hol végzi? Mit csinál? Hogyan végzi? Mi az eredménye?

Adatbányászati projektek L Ki végzi? Adatbányász, adattudós, adatelemző (gyakran matematikus fizikus végzettségű) Általában NEM programozó Gyakran NEM üzleti szakértő (pl. marketinges, értékesítő, vagy ügyfélszolgálatos De általában masszív informatikai, és üzleti tudással IS rendelkezik

Adatbányászati, DS projektek Hol végzi? Általában belsős, ritkábban külsős Általában üzleti területhez tartozik, ritkábban IT

Adatbányászati, DS projektek Mit csinál? L Leíró statisztikákat gyárt(gyakoriság, eloszlások, kereszttáblák) Riportokat készít, diagramokat gyárt Prediktív modelleket készít, fejleszt Prediktív analitikai rendszert üzemeltet De persze többnyire (80%): Adatot tisztít, formáz, kérdez le Adatot gyurmáz (number crunching)

Adatbányászati, DS projektek L Hogyan végzi? Meglehetősen kötetlenül,nem szigorú lépésekben Gyakran egyedül, de legalábbis szeparálva Sok kreativitással Módszertanok CRISP-DM SEMMA

Módszertan

History of data analytics terminologies Data science Predictive Modeling Data mining Machine learning KDD (Knowledge Discovery from Databases) Statistics 1985 1990 1995 2000 2005 2010 2018

Alkalmazási területek Bárhol ahol: Van matematikailag megfelelő probléma Van hozzá adat És megéri.

Eszközök Platformok vs programnyelvek Open source vs fizetős /Rexer, 2015/

Eszközök /Gartner, 2018/

Eszközök

Adatbányászati, DS projektek L Mi az eredménye? Riportok, diagramok, előrejelzések célváltozó (pl. lemorzsolódók, vagy csalók) Gépi automaták lelke (pl. ajánlórendszerek, optimalizáló rendszerek )

Módszertan

Módszertan L CRoss-Industry Standard Process for Data Mining (CRISP-DM) Adatbányászati folyamatok iparágak közötti szabványa

CRISP-DM L Üzleti célok meghatározása Üzleti problémák és célok megfogalmazása Helyzet értékelés mi valósítható meg, és hogyan Feladat adatbányászati megfogalmazása Projekt terv elkészítése Adatok megismerése Adatok begyűjtése Adatok vizsgálata, megértése Adatminőség felmérése Adatok előkészítése Adatok kiválogatása Adattisztítás Adattranszformálás

CRISP-DM Modellezés Modellezési technika kiválasztása Tesztkörnyezet kialakítása (tanító, tesztelő, validáló minta) Modellek építése Generált modell értelmezése Kiértékelés Eredmények kiértékelése Eredmény összevetése az üzleti célokkal Folyamat áttekintése Következő adatbányászati lépés meghatározása Alkalmazás Alkalmazási terv elkészítése Monitoring terv A kész modellek átadása/telepítése Végső jelentések elkészítése L

Algoritmusok Sok ezer létezik Nagy családokba rendezhetők A legtöbb csak Pythonban, R-ben érhető el Üzleti életben csak néhányat használnak Feladat, adat specifikusak NINCS csodaalgoritmus Az általánosan elterjedtek általában elég jók

Megerősített tanulás Nem irányított tanítás Irányított, felügyelt tanítás

Irányított tanuló modellek összefoglalás Algoritmus Célváltozó Input Flag Kat. Folyt. Hiányzó értékek Regresszió x Folytonos eldobás v. használat Linear x Bármi Nem kezeli Log. Regr. x x Bármi Nem kezeli Discriminant x x Folytonos Nem kezeli Genlin x x x Bármi Nem kezeli SVM x x x Bármi Nem kezeli C5.0 x x Bármi kezeli C&RT x x x Bármi pótvágás CHAID x x x Bármi* becslés, külön kategória QUEST x x Bármi pótvágás Decision list x Bármi* külön kat. v. eldobás Neurális háló x x x Bármi Semleges érték Bayes háló x x Bármi* eldobás v. használat KNN x x x Bármi Nen kezeli *A folytonos változókat kategóriákra osztja.

Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt eljárásokat értékeljük, a célváltozó modellezési pontosságát Modellek két módon javíthatók: Több adattal, jobban előkészített adattal L Algoritmus megválasztásával (próbálgatás) Modell értékelési módszerek: Gains, Lift görbe Gini ROC AUC Szakmai kérdés, hogy hogyan történik de a projekt elején megadhatóak, elvárható a megadása!

Klasszifikáció - modellértékelés 1. A modell alapján minden esethez egy pontszámot rendelünk (score érték) 2. A rekordokat a pontszám alapján csökkenő sorba rendezzük 3. A lista elején több találatot várunk No Score Target CustID Age 1 0.97 Y 1746 2 0.95 N 1024 3 0.94 Y 2478 4 0.93 Y 3820 5 0.92 N 4897 99 0.11 N 2734 100 0.06 N 2422 3 találat a lista első 5%-ában Ha a mintában összesen 15 találat van, akkor a top 5%- kal a találatok 20%- át (3/15=0,2) találjuk meg.

Klasszifikáció - modellértékelés Gains chart Gains ~ CPH ~ Cumulative % Hits Nr of hits in top P% 100 Total Nr of hits Véletlen rendezés esetén a lista első 5%-ában a találatok 5%-a szerepel.

Klasszifikáció - modellértékelés Gains chart Gains ~ CPH ~ Cumulative % Hits Nr of hits in top P% 100 Total Nr of hits Véletlen rendezés esetén a lista első 5%-ában a találatok 5%-a szerepel. A modell alapján rendezett lista első 5%-ában a találatok 21%-a szerepel.

Klasszifikáció - modellértékelés Lift chart Lift Rate of Total hits in top P% rate of hits Lift(P%) Gain(P%) P

Klasszifikáció - modellértékelés ROC görbe Bináris célváltozó esetén a rangsorolás minőségének mérésére True positive / false positive Görbe alatti terület ~ modell jósága Egy véletlen pozitív példa milyen valószínűséggel van előrébb a rangsorban, mint egy véletlen negatív példa. Véletlen modell: 0.5 Tökéletes modell: 1 Jó: 0.8 fölött

Klasszifikáció - modellértékelés ROC görbe alakja Kiváló rangsorolás és szeparáció esete Megfelelő rangsorolás kevés konkáv résszel Gyenge rangsorolás: a középső tartományban a rangsorolás teljesen véletlenszerű A rangsorolás minősége egyenlő egy véletlen rangsorolás minőségével

Gini A Gini index a Gain görbe és az átló (véletlen modell) közötti terület normálva az elméleti legjobb modell és az átló közötti területtel (PSZÁF definíció) Elvárt érték: 0.27

Kolmogorov-Smirnov A KS mutató a várható defaultos- és nem defaultos ügyfelek scoring értékeinek eloszlásfüggvényei közötti maximális különbség Elvárt érték 0.25 Arány 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 Performance mutató Nem defaultos várható csökkenése Várható össz átengedési arány Defaultos várható csökkenése Default Nem Default Együtt 0.2 0.1 KS=max(F ndf (scoring)-f df (scoring)) 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 PD_Scoring cutt off 31

Klasszifikáció Cut-off 0 1 0 1 Training Testing 32

Klasszifikáció - modellértékelés Találati mátrix ~ misclassification matrix Actual class Pontosság: helyes osztályozás aránya Érzékenység ~ sensitivity (Recall): helyesen osztályozott pozitív minták aránya Yes No Yes Predicted class TP: True positive FP: False positive Másodfajú hiba Sajátosság ~ specificity: helyesen osztályozott negatív minták aránya Megbízhatóság ~ precision: helyesen pozitív osztályba sorolt minták aránya No FN: False negative TN: True negative TP TN N TP TP FN TP TP FP Első -fajú hiba TN TN FP

Szakmai hatékonyság Az adattudomány ugyan művészet, de mennyi idő egy műalkotás létrehozása? Kaggle.com Give me some credit Tiszta adatok Nagyon kevés változó Nagyon világos probléma Befektetett munka: 1,5 nap 34

A verseny eredménye (87 nap) X X X Best 0,869558 CC 0,866496 (-0,003062) Benchmark 0,864249 (-0,005309) A javulás pénz, tehát kérdés, hogy mekkora befektetést ér meg? (Nagyon ritkán igazán sokat. 35

Adatbányászati, DS projektek L Mikor hatékony egy projekt? A tipikus DS projekt eredményterméke a projekt egy már gyakran korai fázisától létrejön, és fejlődik, javul Ezért az értelmes kérdés, hogy mikor elég jó, mennyit (mennyi időt) érdemes invesztálni bele? Ez üzleti megtérülési modellel támoatható

Adatbányászati, DS projektek L Mikor jó egy projekt? Reprodukálható Összehasonlítható, mérhető Standard kimenet képes (PMML, SQL, stb.) Módosítható

Adatbányászati, DS projektek L Milyen dokumentáció várható? Programnyelv (R, Python) alapúnál fejlesztésekhez hasonlóan részletes (bár szinte sohasem készül) Fejlett GUI-nál, vizuális kódnál (pl. Modeler) egyszerűbb leírás is elég Architektúra ábra, leírás

Adatbányászati, DS projektek Mik a DS projektek specifikus jellemzői? A jó DS tevékenység igazából nem projekt(!) hanem folyamatszemléletű Erősen üzleti fókuszú Jellemzően 2 hét-2 hónap, (ha nem igényel extra adatelőkészítést) 70-80%-a adatmanipuláció, adattisztítás Általában 1-2 elemző végzi a fő tevékenységet (ezért sem igényel klasszikus menedzsmentet) Erősen integrált, eredménye beépül L

Kérdések? gykormendi@clementine.hu zhans@clementine.hu