Egyenlőtlenségi mérőszámok alkalmazása az adatbányászatban. Hajdu Ottó BCE: Statisztika Tanszék BME: Pénzügyek tanszék Budapest, 2011



Hasonló dokumentumok
Adatbányászati technikák (VISZM185) 2015 tavasz

Szeleteljük fel úgy a tulajdonságteret, hogy az egyes szeletekbe lehetőleg egyfajta objektumok kerüljenek, de túl sok szelet se legyen.

Adatbányászati, data science tevékenység projektmenedzsmentje

Adatbányászati, data science tevékenység

Esetelemzések az SPSS használatával

INVERZ FERTŐZÉSI PROBLÉMA

WIL-ZONE TANÁCSADÓ IRODA

Szepesvári Csaba ápr. 11

Széchenyi István Egyetem

1., Egy területen véletlenszerűen kihelyezet kvadrátokban megszámlálták az Eringium maritimum (tengerparti ördögszekér) egyedeit.

A klímamodellek alkalmazásának tapasztalatai a magyarországi gabona félék hozam előrejelzéseiben

1. A korrelációs együttható

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Az F# nyelv erőforrásanalízise

Esetelemzés az SPSS használatával

Módszertani áttekintés

Correlation & Linear Regression in SPSS

Több laboratórium összehasonlítása, körmérés

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

FATERMÉSI FOK MEGHATÁROZÁSA AZ EGÉSZÁLLOMÁNY ÁTLAGNÖVEDÉKE ALAPJÁN

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

Bevezetés s a piacgazdaságba. gba. Alapprobléma. Mikroökonómia: elkülönült piaci szereplık, egyéni érdekek alapvetı piaci törvények

ÚJ JAPÁN CSODA, VAGY AZ ÉRTÉKMÓDSZERTAN

EGÉSZSÉGRE GYAKOROLT HATÁSOK

Elektronikus dokumentációkezelés a minőségbiztosításban

Szabályozástechnika II.

Vállalatgazdaságtan. A termelés és szolgáltatás típusai. A vállalat tevékenységi rendszere. 8. előadás. Értékteremtő folyamatok

Webes alkalmazások fejlesztése 8. előadás. Webszolgáltatások megvalósítása (ASP.NET WebAPI)

Párhuzamos és Grid rendszerek. Hol tartunk? Klaszter. Megismerkedtünk az alapfogalmakkal,

Mesterséges Intelligencia MI

Regionális gazdaságtan gyakorlat

Gyakorlat: Sztochasztikus idősor-elemzés alapfogalmai II. Egységgyök-folyamatok és tesztek. Dr. Dombi Ákos

SZENT ISTVÁN EGYETEM GÖDÖLLŐ A MEZŐGAZDASÁGI VÁLLALATOK FIZETÉSKÉPTELENSÉGÉNEK ELŐREJELZÉSE ARUTYUNJAN ALEX

Statisztika, próbák Mérési hiba

Artificial Neural Networks 3. Department of Cybernetics, CTU Prague.

E dokumentum archivált tartalom, amely elavult, nem hatályos információkat is tartalmazhat.

Számítógépes Hálózatok. 6. gyakorlat

A DÖNTÉSELMÉLET ELEMEI

3. gyakorlat Saját adatok használata

Logisztikus regresszió október 27.

Szabályozástechnika I.

- az egyik kiemelked fontosságú állapotjelz a TD-ban

Bevezetés az ökonometriába

TANULÁSI GÖRBÉK AZ ÉPÍTŐIPARBAN

Weblog elemzés Hadoopon 1/39

Csima Judit április 9.

TANULÁSI GÖRBÉK AZ ÉPÍTŐIPARBAN

Statisztika II. feladatok

STATISZTIKA PRÓBAZH 2005

Statistical Dependence

PERUN HCI SYSTEM.

8. A paraméterek leírása

KOMMUNIKÁCIÓ, KÖZVÉLEMÉNY, MÉDIA

GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Számítógéppel irányított rendszerek elmélete. A rendszer- és irányításelmélet legfontosabb részterületei. Hangos Katalin. Budapest

BIOMETRIA_ANOVA_2 1 1

Felsôoktatásba jelentkezôk preferenciáinak térbeli és idôbeli szerkezete, teljesítményfüggése*

GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

KISTERV2_ANOVA_

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Dinamikus rendszerek paramétereinek BAYES BECSLÉSE. Hangos Katalin VE Számítástudomány Alkalmazása Tanszék

EÖTVÖS LORÁND TUDOMÁNYEGYETEM KLASSZIFIKÁCIÓ AZ ADATBÁNYÁSZATBAN

Mesterséges Intelligencia MI

Descriptive Statistics

Tulajdonságalapú tesztelés

Gyógyszerelési hibák direkt

Logisztikus regresszió

Közbeszerzési referens képzés Gazdasági és pénzügyi ismeretek modul 1. alkalom. A közgazdaságtan alapfogalmai Makro- és mikroökonómiai alapfogalmak

Bevezetés a programozásba 2

KÖZGAZDASÁGI ALAPISMERETEK (ELMÉLETI GAZDASÁGTAN)

A magyar kisvállalatok versenyképességének kompetencia alapú mérése és komplex vizsgálata

BME Grundfos Rosenberg Szakmai Nap nergetikai szabályozások hatása az épületekre és az iparra. Tisztelettel köszöntjük vendégeinket! május 3.

Modellkiválasztás és struktúrák tanulása

A stabil angina kivizsgálását befolyásoló tényezők a finanszírozási adatbázok alapján

Módszertani hozzájárulás a Szegénység

Nagy adathalmazok labor

DOKTORI (PhD) ÉRTEKEZÉS TÉZISEI KAPOSVÁRI EGYETEM

: az i -ik esélyhányados, i = 2, 3,..I

Fehérje-fehérje kölcsönhatások és kölcsönhatási hálózatok. Szilágyi András

Az adatmátrix, az adatok átalakítása

Gitárerősítő. Használati utasítás

KÖZVETLEN BRÜSSZELI FORRÁS PÁLYÁZATI TÁJÉKOZTATÓ

Átsorolást segítő listák

Műszerek tulajdonságai

Tájékoztató a évi költségvetési tervezethez

A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek

Correlation & Linear Regression in SPSS

LTI Rendszerek Dinamikus Analízise és Szabályozásának Alapjai

Visszacsatolt (mély) neurális hálózatok

Nagyméretű adathalmazok előfeldolgozása

Normál eloszlás. Gyakori statisztikák

A Német menedzsment reformok és a közigazgatási modernizáció a 90- es években -

Objektumorientált programozás C# nyelven

OTKA szakmai zárójelentés

D3D, DXUT primer. Grafikus játékok fejlesztése Szécsi László t01-system

UMTS HÁLÓZAT PROTOKOLLJAI. UMTS SZINKRONIZÁCIÓ ÉS

Valószínűségi modellek

Az adatelemzés alapfeladatai

ORACLE. SYS: rendszergazda SCOTT: demonstrációs adatbázis, táblái: EMP (dolgozó), DEPT (osztály) "közönséges" felhasználók

Üzemeltetési utasítás

Átírás:

Egyenlőtlenségi mérőszámok alkalmazása az adatbányászatban Hajdu Ottó BCE: Statisztika Tanszék BME: Pénzügyek tanszék Budapest, 2011

Adatbányászati feladatok 1. Ismert mintákon, példákon való tanulás (extracting Knowledge) 2. Exploratív, prediktív céllal, 3. A kutatási folyamat fő mozzanatai: 1. Adatelőkészítés: Tisztítás, transzformálás, redukció, 2. Asszociációs szabályok feltárása: (Mi-mivel gyakran?) 3. Klasszifikálás: (Ki milyen lesz?) 1. Döntési fák, 2. Bayes módszer, 3. Neurális hálózatok, 4. k legközelebbi szomszédok, 4. Predikció, regresszió: (Mi mennyi lesz?) 5. Klaszterezés: Partíciós, hierarchikus: (Ki-kivel lesz együtt?) Hajdu Ottó Módszertani napok, KSH, Budapest, 2011. 2

Sajátos Data Miningterminológia 1. Változó: Feature, Attribute, 2. Független változó: Input, 3. Függő változó: Target value, Training value, Class variable, 4. Előrejelzett érték: Output, 5. Reziduális érték: Error, 6. Megfigyelések: Samples, Patterns, Instances, Examples, 7. Becslés: Training, Learning, Adaptation, 8. Paraméterbecslések (koefficiensek): Synaptic Weights, 9. Tengelymetszet (intercept, constant): Bias, 10. Becslési kritérium: Error function, Cost function, 11. Interakció: Higher-order neurons, 12. Transzformáció: Functional link 13. Függő változó modellezése: Supervised learning, 14. Függő változó hiánya: Unsupervised learning, 15. Kategória kimenetű változó: Concept Hierarchy. Hajdu Ottó Módszertani napok, KSH, Budapest, 2011. 3

Klasszifikálás 1. Kategória-kimenetek egyikének az előrejelzése 2. Bináris eset: Igen(1), Nem(0): pl. Csőd(1), Működés(0) 3. Jóslás, predikció: 1. Klasszifikációs szabály: Rule 2. Döntés: Igen(1), Nem(0) 3. Korrekt(True) v.s. Inkorrekt(False) klasszifikációk: Klasszifikációs mátrix: Observed v.s. Predicted kategóriák gyakoriságai Observed Predicted 0 Predicted 1 Totális Korrekt % Korrekt % mutató 0 T0 F1 N0 T0 / N0 Specificity 1 F0 T1 N1 T1 / N1 Sensitivity Totális N Hajdu Ottó Módszertani napok, KSH, Budapest, 2011. 4

V á l l a l k o z á s A klasszifikációs Cut-szabály Observed: 5db 1 és 4db 0, C: cut-off érték C = 1.85.75.65.55.45.35.25.15 0 Pr(1:Csőd) Obs Előrejelzés.1 0 0 0 0 0 0 0 0 0 0 1.2 0 0 0 0 0 0 0 0 0 1 1.3 1 0 0 0 0 0 0 0 1 1 1.4 0 0 0 0 0 0 0 1 1 1 1.5 1 0 0 0 0 0 1 1 1 1 1.6 0 0 0 0 0 1 1 1 1 1 1.7 1 0 0 0 1 1 1 1 1 1 1.8 1 0 0 1 1 1 1 1 1 1 1.9 1 0 1 1 1 1 1 1 1 1 1 Korrekt 1 0 1 2 3 3 4 4 5 5 5 Inkorrekt 0 0 0 0 0 1 1 2 2 3 4 Hajdu Ottó Módszertani napok, KSH, Budapest, 2011. 5

Korrekt 1 ReceiverOperatingCurve(ROC) Cut-off-érték szelektálás Inkorrekt 0 Gini = 0.85 Cut Koordináták 1-Specificity Sensitivity 1.00 0.00 0.0 0.85 0.00 0.2 0.75 0.00 0.4 0.65 0.00 0.6 0.55 0.25 0.6 0.45 0.25 0.8 0.35 0.50 0.8 0.25 0.50 1.0 0.15 0.75 1.0 0.00 1.00 1.0 Hajdu Ottó Módszertani napok, KSH, Budapest, 2011. 6

Konkordancia -analízis monoton asszociációs mértékek Minél több a konkordáns (0_1) páros, annál hűbb a klasszifikációs szabály. Konkordáns: "+", Diszkordáns: "-", Tight: "=" Pr(Csőd) 0.3 0.5 0.7 0.8 0.9 Csődös 0.1 + + + + + 0.2 + + + + + 0.4 - + + + + 0.6 - - + + + Működő N =20 N + : konkordánsok, N - : diszkordánsok, N = : kötések száma, Összesen: N. Concordance Index= (N + + N = /2 ) / N = 17 / 20 =0.85 = Gini Sommer sd= (N + N - ) / N, = (17-3) / 20 = 0.70 Goodman-Kruskal sgamma = (N + N - ) / (N + + N - ), = (17-3) / (17+3) = 0.70 Kendall s Tau-a = (N + N - ) / (n(n-1)/2 ) = (17-3) / (9*8/2) = 0.39 Hajdu Ottó Módszertani napok, KSH, Budapest, 2011. 7

Zavaros Tiszta Klasszifikációs fák Gini zavarossága Node 0_ Gini Nem Igen p Predicted Predicted 0.86 0.14 Nem 0.86 Cost = 0 Cost = 0.2 Observed NN NI Igen 0.14 Cost = 1 Cost = 0 Observed IN II Gini Node0 = minden párosításban: Sum of ( p Obs * p Pred * Cost) = 0.86*0.14*0.2 + 0.14*0.86*1 = 0.144. Improvement node# = Prior# * ( Gini # Átlag(LeftGini, Right Gini) ) Prior0 = 1 Hajdu Ottó Módszertani napok, KSH, Budapest, 2011. 8

Gain chart Gains (Csődök) for Nodes Node-by-Node Node Csőd Response Cumulative Node Gain Node N N Csődarány % % 1 6 6 100 6 43 4 6 6 100 12 86 5 2 2 100 14 100 6 86 0 0 100 100 Lorenz görbe: A csődök koncentrációja a fontos terminál (levél) Node-ok birtokában Node elrendezés: A csődarány szerint, csökkenőleg: Fontossági rangsor Hajdu Ottó Módszertani napok, KSH, Budapest, 2011. 9

Entrópia hasítási kritérium Településtípus alapján Prop (%) 0.202 0.212 0.257 0.329 1.000 p = Munkanélküli Budapest Nagyváros Többi város Községek Total 0 0.968 0.926 0.905 0.879 0.914 1 0.029 0.070 0.085 0.103 0.077 2 0.003 0.004 0.009 0.016 0.009 3 0.0001 0.0002 0.001 0.002 0.0009 Total 1.00 1.00 1.00 1.00 1.00 - p * log(p) = Budapest Nagyváros Többi város Községek Total 0 0.031 0.071 0.090 0.114 0.083 1 0.103 0.187 0.210 0.235 0.197 2 0.016 0.021 0.041 0.066 0.042 3 0.001 0.001 0.007 0.012 0.007 Entrópia 0.15 0.28 0.35 0.43 0.33 Átlag 0.32 Javulás 0.01 Háztartások szegmentálása: Célváltozó (tiszta node): A munkanélküliek száma tekintetében Nem bináris vágás: Településtípus alapján, A javulás az átlagos Entrópia csökkenése: 0.01 Optimális vágás: a legnagyobb javulást adó ismérv (pl. iskola) mentén Hajdu Ottó Módszertani napok, KSH, Budapest, 2011. 10

Entrópia alapú diszkretizálás Háztartásfő -korcsoportok kialakítása a munkanélküliség tekintetében 1. Életkor 40 Alsó%, 2. Életkor > 40 Felső% 3. Információs nyereség: I(40): 4. I(40) = ( A% * Ent(A) + F% * Ent(F) ) / 100 5. Rekurzív módon ismétlendő, a leállási kritérium teljesüléséig =átlag max Hajdu Ottó Módszertani napok, KSH, Budapest, 2011. 11

Log likelihoodklasztertávolság 1. Induló klaszterek: Budapest, Nagyváros, Többi város, Községek 2. Láncmódszer: 3. Hierarchikusan, agglomeratív módon: 1. A két legközelebbi klaszter összevonandó 2. Az A és B klaszterek távolsága a munkanélküliek száma {0,1,2,3} tekintetében: 1. Metrika: Entrópia 2. Linkage Rule: Entrópia(A) + Entrópia(B) Entrópia(A*B) Entrópia Távolságmátrix Budapest Nagyváros Többi város Községek Budapest 0 Nagyváros Bp+Nv - Bp*Nv 0 Többi város Bp+Tv - Bp*Tv Nv+Tv - Nv*Tv 0 Községek Bp+Kö - Bp*Kö Nv+Kö - Nv*Kö Tv+Kö - Tv*Kö 0 Hajdu Ottó Módszertani napok, KSH, Budapest, 2011. 12

A közvetett hír információ tartalma: Cross-Entropy Naive Bayes metódus TEÁOR = #### A Hír ( a posteriori): 1) A klasszifikálandó X adósság érték 2) A csődindikátor gyakorisági eloszlásai: i) Működő, ii) Csődbement körben A Jóslás: Posterior(Csőd X ) = Csődbementek %-os aránya az X vállalkozások körében. A Jóslás információja: Cross_Entropy = Sum[ -Post* log( Prior / Post) ] Magasabb Sum érték preferált Hajdu Ottó Módszertani napok, KSH, Budapest, 2011. 13

A közvetett hír pontatlansága Cross - Entropy Error Function Neurális hálózatok BAR ügyfél adatok, Y: Default1 = 0: Jó adós, Default1 = 1: Rossz adós A Jóslás: Pred.Y X hír A Jóslás pontatlansága: Error (.) = (Sample, Pattern, Instance ) = Sum (-Y*log( Pred.Y / Y) Alacsonyabb érték preferált Hajdu Ottó Módszertani napok, KSH, Budapest, 2011. 14