Adatbányászati, data science tevékenység

Hasonló dokumentumok
Adatbányászati, data science tevékenység projektmenedzsmentje

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Intelligens orvosi műszerek VIMIA023

Egyenlőtlenségi mérőszámok alkalmazása az adatbányászatban. Hajdu Ottó BCE: Statisztika Tanszék BME: Pénzügyek tanszék Budapest, 2011

Eredmények kiértékelése

Adatbányászati feladatgyűjtemény tehetséges hallgatók számára

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Mit mond a XXI. század emberének a statisztika?

1. ábra: Magyarországi cégek megoszlása és kockázatossága 10-es Rating kategóriák szerint. Cégek megoszlása. Fizetésképtelenné válás valószínűsége

4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás Döntési fák [Concepts Chapter 11]

Csima Judit február 19.

Gyors sikerek adatbányászati módszerekkel

Így kampányolunk mi. Hans Zoltán. Szolgáltatás Fejlesztés és Online Irányítás vezető. IBM-SPSS üzleti reggeli (Budapest)

ADATBÁNYÁSZAT AZ AUTÓIPARI TERMÉKEK FEJLESZTÉSÉBEN

Nagy adathalmazok labor

Diagnosztikus tesztek értékelése

Gyors sikerek adatbányászati módszerekkel

Retro adatbányászat. Kovács Gyula Andego Tanácsadó Kft.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Deep Learning a gyakorlatban Python és LUA alapon Felhasználói viselkedés modellezés

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Modellezési Kockázat. Kereskedelmi Banki Kockázatmodellezés. Molnár Márton Modellezési Vezető (Kockázatkezelés)

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Szeleteljük fel úgy a tulajdonságteret, hogy az egyes szeletekbe lehetőleg egyfajta objektumok kerüljenek, de túl sok szelet se legyen.

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Adatbányászat az Oracle9i-ben. Fekete Zoltán vezető termékmenedzser

Szomszédság alapú ajánló rendszerek

Közösségi kezdeményezéseket megalapozó szükségletfeltárás módszertana. Domokos Tamás, módszertani igazgató

MÓDSZERTANI ESETTANULMÁNY. isk_4kat végzettségek négy katban. Frequency Percent Valid Percent. Valid 1 legfeljebb 8 osztály ,2 43,7 43,7

5. LECKE: TÁMASZVEKTOROK (SVM, Support Vector Machines)

Logisztikus regresszió

IBM SPSS Modeler 18.2 Újdonságok

A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek

Csima Judit február 26.

Adatbányászat: Osztályozás Alapfogalmak, döntési fák, kiértékelés

Copyright 2012, Oracle and/or its affiliates. All rights reserved.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

MagyarBrands kutatás 2017

Módszertani áttekintés

Fehér Tamás, Hofgesang Péter T-Systems Magyarország. Adócsalók a RADAR képernyőjén

Megerősítéses tanulás

II. rész: a rendszer felülvizsgálati stratégia kidolgozását támogató funkciói. Tóth László, Lenkeyné Biró Gyöngyvér, Kuczogi László

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

IV.7 MÓDSZER KIDOLGOZÁSA FELHASZNÁLÓI ADATOK VÉDELMÉRE MOBIL ALKALMAZÁSOK ESETÉN

Nagy adathalmazok labor

Az adatelemző felelőssége tapasztalatok a biztosítási analitikában

Csalásfelderítés hálózatokon keresztül. Innovatív BI konferencia, Budapest,

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás


Mi a big data? ML? AI? DS? Az adatelemzés szintjei CRISP-DM módszertan. GUI Enterprise eszközök Programozási nyelvek

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Neurális hálózatok bemutató

Adatelemzés őszi félév ,26,27 1. Bevezetés 2. Osztályozás és klaszterezés feladata 3. Numpy és Ipython 4. Logisztikus regresszió

Adatbányászat: Osztályozás Alapfogalmak, döntési fák, kiértékelés

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Loss Distribution Approach

A tudás handrendbe állítása, azaz SPSS PES

Véletlenszám generátorok és tesztelésük. Tossenberger Tamás

Adatbányászat és Perszonalizáció architektúra

A 9001:2015 a kockázatközpontú megközelítést követi

Soltész Gábor. Önéletrajz Budapest, Lechner Ödön fasor em 26. a.

Véletlenszám generátorok és tesztelésük HORVÁTH BÁLINT

AZ IGAZI BIG DATA hogyan használják a világban és egyáltalán használják-e hazánkban?

CEBS Consultative Paper 10 (folytatás) Krekó Béla PSZÁF, szeptember 15.

Adatbányászat a felhőben

Vajda Éva. Bevezetés a keresőmarketingbe

E x μ x μ K I. és 1. osztály. pontokként), valamint a bayesi döntést megvalósító szeparáló görbét (kék egyenes)

Modellkiválasztás és struktúrák tanulása

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

A szak specializációi

Tanulás tanuló gépek tanuló algoritmusok mesterséges neurális hálózatok

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))

OKM ISKOLAI EREDMÉNYEK

Az értékelés során következtetést fogalmazhatunk meg a

Logisztikus regresszió

Nyílt forráskód, mint üzleti előny. Szücs Imre VTMSZ - CMC Minősítési előadás Ha valamit érdemes csinálni, akkor azt megéri jól csinálni

Intelligens adatelemzés

Önértékelés IAIS alapon *

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Nemzetközi díjas fejlesztés: hatékonyság- és ügyfélelégedettség-növelés az Oktatási Hivatal hatósági eljárásaiban

A hierarchikus adatbázis struktúra jellemzői

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

AZ INNOVÁCIÓS POTENCIÁL MÉRÉSE KIS- ÉS KÖZÉPVÁLLALKOZÁSOK SZÁMÁRA

Adatbányászati technikák (VISZM185) 2015 tavasz

Hatékony iteratív fejlesztési módszertan a gyakorlatban a RUP fejlesztési módszertanra építve

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

TANULÁSI GÖRBÉK AZ ÉPÍTŐIPARBAN

Témaválasztás, kutatási kérdések, kutatásmódszertan

S atisztika 2. előadás

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Projekt siker és felelősség

Üzleti folyamatok rugalmasabb IT támogatása. Nick Gábor András szeptember 10.

társadalomtudományokban

TÁJÉKOZTATÓ PSIDIUM AKKREDITÁCIÓS KÉPZÉS PSIDIUM RENDSZERISMERETI KÉPZÉS DÖNTÉSTÁMOGATÓ MÓDSZEREK A HUMÁNERŐFORRÁS MENEDZSMENTBEN

IT Factory. Kiss László

Átírás:

Adatbányászati, data science tevékenység projektmenedzsmentje IPE képzés II. félév Körmendi György Clementine Consulting 2017. 03. 14.

Bemelegítés

Adatbányászat célja Szegmentálás Leíró modellek Előrejelző modellek Jellemző mintázatok feltárása Kapcsolatok feltárása Események előrejelzése Csoportok differenciált kezelése Összefüggések megértése Megelőzés 3

Adatbányászati, DS projektek Van ilyen? Ki végzi? Hol végzi? Mit csinál? Hogyan végzi? Mi az eredménye?

Adatbányászati projektek L Ki végzi? Adatbányász, adattudós, adatelemző (gyakran matematikus fizikus végzettségű) Általában NEM programozó Gyakran NEM üzleti szakértő (pl. marketinges, értékesítő, vagy ügyfélszolgálatos De általában masszív informatikai, és üzleti tudással IS rendelkezik

Adatbányászati, DS projektek Hol végzi? Általában belsős, ritkábban külsős Általában üzleti területhez tartozik, ritkábban IT

Adatbányászati, DS projektek Mit csinál? L Leíró statisztikákat gyárt(gyakoriság, eloszlások, kereszttáblák) Riportokat készít, diagramokat gyárt Prediktív modelleket készít, fejleszt Prediktív analitikai rendszert üzemeltet De persze többnyire (80%): Adatot tisztít, formáz, kérdez le Adatot gyurmáz (number crunching)

Adatbányászati, DS projektek L Hogyan végzi? Meglehetősen kötetlenül,nem szigorú lépésekben Gyakran egyedül, de legalábbis szeparálva Sok kreativitással Módszertanok CRISP-DM SEMMA

Módszertan

History of data analytics terminologies Data science Predictive Modeling Data mining Machine learning KDD (Knowledge Discovery from Databases) Statistics 1985 1990 1995 2000 2005 2010 2015

Alkalmazási területek Bárhol ahol: Van matematikailag megfelelő probléma Van hozzá adat És megéri.

Alkalmazási területek Bárhol ahol: Van matematikailag megfelelő probléma Van hozzá adat És megéri.

Alkalmazási területek Bárhol ahol: Van matematikailag megfelelő probléma Van hozzá adat És megéri.

Alkalmazási területek Bárhol ahol: Van matematikailag megfelelő probléma Van hozzá adat És megéri.

Eszközök Platformok vs programnyelvek Open source vs fizetős /Rexer, 2015/

Eszközök /Gartner, 2017/

Eszközök

Adatbányászati, DS projektek L Mi az eredménye? Riportok, diagramok, előrejelzések célváltozó (pl. lemorzsolódók, vagy csalók) Gépi automaták lelke (pl. ajánlórendszerek, optimalizáló rendszerek )

Módszertan

Módszertan L CRoss-Industry Standard Process for Data Mining (CRISP-DM) Adatbányászati folyamatok iparágak közötti szabványa

CRISP-DM L Üzleti célok meghatározása Üzleti problémák és célok megfogalmazása Helyzet értékelés mi valósítható meg, és hogyan Feladat adatbányászati megfogalmazása Projekt terv elkészítése Adatok megismerése Adatok begyűjtése Adatok vizsgálata, megértése Adatminőség felmérése Adatok előkészítése Adatok kiválogatása Adattisztítás Adattranszformálás

CRISP-DM Modellezés Modellezési technika kiválasztása Tesztkörnyezet kialakítása (tanító, tesztelő, validáló minta) Modellek építése Generált modell értelmezése Kiértékelés Eredmények kiértékelése Eredmény összevetése az üzleti célokkal Folyamat áttekintése Következő adatbányászati lépés meghatározása Alkalmazás Alkalmazási terv elkészítése Monitoring terv A kész modellek átadása/telepítése Végső jelentések elkészítése L

Algoritmusok Sok ezer létezik Nagy családokba rendezhetők A legtöbb csak Pythonban, R-ben érhető el Üzleti életben csak néhányat használnak Feladat, adat specifikusak NINCS csodaalgoritmus Az általánosan elterjedtek általában elég jók

Megerősített tanulás Nem irányított tanítás Irányított, felügyelt tanítás

Irányított tanuló modellek összefoglalás Algoritmus Célváltozó Input Flag Kat. Folyt. Hiányzó értékek Regresszió x Folytonos eldobás v. használat Linear x Bármi Nem kezeli Log. Regr. x x Bármi Nem kezeli Discriminant x x Folytonos Nem kezeli Genlin x x x Bármi Nem kezeli SVM x x x Bármi Nem kezeli C5.0 x x Bármi kezeli C&RT x x x Bármi pótvágás CHAID x x x Bármi* becslés, külön kategória QUEST x x Bármi pótvágás Decision list x Bármi* külön kat. v. eldobás Neurális háló x x x Bármi Semleges érték Bayes háló x x Bármi* eldobás v. használat KNN x x x Bármi Nen kezeli *A folytonos változókat kategóriákra osztja.

Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt eljárásokat értékeljük, a célváltozó modellezési pontosságát Modellek két módon javíthatók: Több adattal, jobban előkészített adattal L Algoritmus megválasztásával (próbálgatás) Modell értékelési módszerek: Gains, Lift görbe Gini ROC AUC Szakmai kérdés, hogy hogyan történik de a projekt elején megadhatóak, elvárható a megadása!

Klasszifikáció - modellértékelés 1. A modell alapján minden esethez egy pontszámot rendelünk (score érték) 2. A rekordokat a pontszám alapján csökkenő sorba rendezzük 3. A lista elején több találatot várunk No Score Target CustID Age 1 0.97 Y 1746 2 0.95 N 1024 3 0.94 Y 2478 4 0.93 Y 3820 5 0.92 N 4897 99 0.11 N 2734 100 0.06 N 2422 3 találat a lista első 5%-ában Ha a mintában összesen 15 találat van, akkor a top 5%- kal a találatok 20%- át (3/15=0,2) találjuk meg.

Klasszifikáció - modellértékelés Gains chart Gains ~ CPH ~ Cumulative % Hits Nr of hits in top P% Total Nr of hits 100 Véletlen rendezés esetén a lista első 5%-ában a találatok 5%-a szerepel.

Klasszifikáció - modellértékelés Gains chart Gains ~ CPH ~ Cumulative % Hits Nr of hits in top P% Total Nr of hits 100 Véletlen rendezés esetén a lista első 5%-ában a találatok 5%-a szerepel. A modell alapján rendezett lista első 5%-ában a találatok 21%-a szerepel.

Klasszifikáció - modellértékelés Lift chart Lift Rate of hits in top P% Total rate of hits Lift(P%) Gain(P%) P

Klasszifikáció - modellértékelés ROC görbe Bináris célváltozó esetén a rangsorolás minőségének mérésére True positive / false positive Görbe alatti terület ~ modell jósága Egy véletlen pozitív példa milyen valószínűséggel van előrébb a rangsorban, mint egy véletlen negatív példa. Véletlen modell: 0.5 Tökéletes modell: 1 Jó: 0.8 fölött

Klasszifikáció - modellértékelés ROC görbe alakja Kiváló rangsorolás és szeparáció esete Megfelelő rangsorolás kevés konkáv résszel Gyenge rangsorolás: a középső tartományban a rangsorolás teljesen véletlenszerű A rangsorolás minősége egyenlő egy véletlen rangsorolás minőségével

Gini A Gini index a Gain görbe és az átló (véletlen modell) közötti terület normálva az elméleti legjobb modell és az átló közötti területtel (PSZÁF definíció) Elvárt érték: 0.27

Arány cutt off Kolmogorov-Smirnov A KS mutató a várható defaultos- és nem defaultos ügyfelek scoring értékeinek eloszlásfüggvényei közötti maximális különbség Elvárt érték 0.25 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 Performance mutató Nem defaultos várható csökkenése Várható össz átengedési arány Defaultos várható csökkenése Default Nem Default Együtt 0.2 0.1 KS=max(F ndf (scoring)-f df (scoring)) 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 PD_Scoring 34

Klasszifikáció Cut-off 0 1 0 1 Training Testing 35

Klasszifikáció - modellértékelés Találati mátrix ~ misclassification matrix Actual class Pontosság: helyes osztályozás aránya Érzékenység ~ sensitivity (Recall): helyesen osztályozott pozitív minták aránya Yes No Yes Predicted class TP: True positive FP: False positive Másodfajú hiba Sajátosság ~ specificity: helyesen osztályozott negatív minták aránya Megbízhatóság ~ precision: helyesen pozitív osztályba sorolt minták aránya No FN: False negative TN: True negative TP TN N TP TP FN TP TP FP Első -fajú hiba TN TN FP

Szakmai hatékonyság Az adattudomány ugyan művészet, de mennyi idő egy műalkotás létrehozása? Kaggle.com Give me some credit Tiszta adatok Nagyon kevés változó Nagyon világos probléma Befektetett munka: 1,5 nap 37

A verseny eredménye (87 nap) X X X Best 0,869558 CC 0,866496 (-0,003062) Benchmark 0,864249 (-0,005309) A javulás pénz, tehát kérdés, hogy mekkora befektetést ér meg? (Nagyon ritkán igazán sokat. 38

Adatbányászati, DS projektek L Mikor hatékony egy projekt? A tipikus DS projekt eredményterméke a projekt egy már gyakran korai fázisától létrejön, és fejlődik, javul Ezért az értelmes kérdés, hogy mikor elég jó, mennyit (mennyi időt) érdemes invesztálni bele? Ez üzleti megtérülési modellel támoatható

Adatbányászati, DS projektek L Mikor jó egy projekt? Reprodukálható Összehasonlítható, mérhető Standard kimenet képes (PMML, SQL, stb.) Módosítható

Adatbányászati, DS projektek L Milyen dokumentáció várható? Programnyelv (R, Python) alapúnál fejlesztésekhez hasonlóan részletes (bár szinte sohasem készül) Fejlett GUI-nál, vizuális kódnál (pl. Modeler) egyszerűbb leírás is elég Architektúra ábra, leírás

Adatbányászati, DS projektek Mik a DS projektek specifikus jellemzői? A jó DS tevékenység igazából nem projekt(!) hanem folyamatszemléletű Erősen üzleti fókuszú Jellemzően 2 hét-2 hónap, (ha nem igényel extra adatelőkészítést) 70-80%-a adatmanipuláció, adattisztítás Általában 1-2 elemző végzi a fő tevékenységet (ezért sem igényel klasszikus menedzsmentet) Erősen integrált, eredménye beépül L

Adatbányászati, DS projektek Tétel: Mik az adatbányászati, data science projektek legfontosabb megkülönböztető jegyei? Milyen dokumentáció várható el? Hogyan mérhető a modellek teljesítőképessége, performanciája?

Kérdések? gykormendi@clementine.hu