Szeleteljük fel úgy a tulajdonságteret, hogy az egyes szeletekbe lehetőleg egyfajta objektumok kerüljenek, de túl sok szelet se legyen.

Hasonló dokumentumok
Egyenlőtlenségi mérőszámok alkalmazása az adatbányászatban. Hajdu Ottó BCE: Statisztika Tanszék BME: Pénzügyek tanszék Budapest, 2011

Csima Judit február 19.

Csima Judit február 26.

Bevezetés a Korreláció &

Szepesvári Csaba ápr. 11

Az információelmélet alapjai, biológiai alkalmazások. 1. A logaritmusfüggvény és azonosságai

Regresszió számítás az SPSSben

INVERZ FERTŐZÉSI PROBLÉMA

KIEGÉSZÍTŽ FELADATOK. Készlet Bud. Kap. Pápa Sopr. Veszp. Kecsk Pécs Szomb Igény

Esetelemzés az SPSS használatával

7. Régió alapú szegmentálás

A klímamodellek alkalmazásának tapasztalatai a magyarországi gabona félék hozam előrejelzéseiben

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Correlation & Linear Regression in SPSS

Sztochasztikus kapcsolatok

Correlation & Linear Regression in SPSS

IT biztonság és szerepe az információbiztonság területén

Városi környezet vizsgálata távérzékelési adatok osztályozásával

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Operációkutatás vizsga

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))

A statisztika alapjai - Bevezetés az SPSS-be -

A stabil angina kivizsgálását befolyásoló tényezők a finanszírozási adatbázok alapján

Assignment problem Hozzárendelési feladat (Szállítási feladat speciális esete)

Adatbányászati technikák (VISZM185) 2015 tavasz

Hallgatói preferencia rangsorok készítése a jelentkezések alapján

ORACLE. SYS: rendszergazda SCOTT: demonstrációs adatbázis, táblái: EMP (dolgozó), DEPT (osztály) "közönséges" felhasználók

Searching in an Unsorted Database

Eredmények kiértékelése

Széchenyi István Egyetem

Gyakorlat: Sztochasztikus idősor-elemzés alapfogalmai II. Egységgyök-folyamatok és tesztek. Dr. Dombi Ákos

Adatszerkezetek 2. Dr. Iványi Péter

(Independence, dependence, random variables)

Térinformatika. j informáci. ciós s rendszerek funkciói. Kereső nyelvek (Query Languages) Az adatok feldolgozását (leválogat

Gelle Kitti Algoritmusok és adatszerkezetek gyakorlat - 07 Hasítótáblák

Biológiai rendszerek modellellenőrzése bayesi megközelítésben

Vektorterek. Wettl Ferenc február 17. Wettl Ferenc Vektorterek február / 27

TEXTÚRA ANALÍZIS VIZSGÁLATOK LEHETŐSÉGEI A RADIOLÓGIÁBAN

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Bizonytalanság. Mesterséges intelligencia április 4.

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

Statistical Dependence

Reader /Writer InputStreamReader, OutputStreamWriter

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Nagy Gábor compalg.inf.elte.hu/ nagy

Fuzzy Rendszerek. 2. előadás Fuzzy következtető rendszerek. Ballagi Áron egyetemi adjunktus. Széchenyi István Egyetem, Automatizálási Tsz.

Klaszterezés, 2. rész

9. előadás. Programozás-elmélet. Programozási tételek Elemi prog. Sorozatszámítás Eldöntés Kiválasztás Lin. keresés Megszámolás Maximum.

Nagy adathalmazok labor

AS-i illesztő-tápegység Pick-to Light rendszerekhez. Kábel keresztmetszet

R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský

1: Bevezetés: Internet, rétegmodell Alapok: aszimptótika, gráfok. HálózatokII, 2007

Strukturált Generátorrendszerek Online Tanulása és Alk-ai

A könyv tartalomjegyzéke

Bozóki Sándor. MTA SZTAKI, Budapesti Corvinus Egyetem. Vitaliy Tsyganok

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Adatbányászat: Osztályozás Alapfogalmak, döntési fák, kiértékelés

Random Forests - Véletlen erdők

Többváltozós lineáris regressziós modell feltételeinek

INDULÓ ÉS TUDÁSORIENTÁLT NON PROFIT SZERVEZET ÖNNÖN TUDÁSMENEDZSELÉSE LÉVAI ANDRÁS 1

Fodor Gábor március 17. Fodor Gábor Osztályozás március / 39

SQLServer. Particionálás

Bevezetés az ökonometriába

PTE PMMIK Infrastruktúra és Mérnöki Geoinformatika Tanszék

Imperatív programozás

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Deep Learning a gyakorlatban Python és LUA alapon Felhasználói viselkedés modellezés

Problémás regressziók

Principal Component Analysis

Egy kvantitatív szemiotika felé? Takács Boglárka

Az INTRO projekt. Troposzféra modellek integritásvizsgálata. Rédey szeminárium Ambrus Bence

Szoftverminőségbiztosítás

The problem. Each unitary transform having eigenvector has eigenvalues in the form of. Phase ratio:

Csima Judit április 9.

Összetett programozási tételek Rendezések Keresések PT egymásra építése. 10. előadás. Programozás-elmélet. Programozás-elmélet 10.

GROVER-algoritmus. Sinkovicz Péter. ELTE, MSc II dec.15.

Statisztika II. feladatok

CSAPADÉK BEFOGADÓKÉPESSÉGÉNEK TÉRKÉPEZÉSE TÁVÉRZÉKELÉSI MÓDSZEREKKEL VÁROSI KÖRNYEZETBEN

IBM Brings Quantum Computing to the Cloud

BEVEZETÉS Az objektum fogalma

: az i -ik esélyhányados, i = 2, 3,..I

Esetelemzések az SPSS használatával

Számítógépes Hálózatok. 8. gyakorlat

EÖTVÖS LORÁND TUDOMÁNYEGYETEM KLASSZIFIKÁCIÓ AZ ADATBÁNYÁSZATBAN

A gravitációs modell felhasználása funkcionális távolságok becslésére

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

Occam 1. Készítette: Szabó Éva

Egy és többváltozós logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Algoritmuselmélet 6. előadás

Módszertani áttekintés

Információs rendszerek elméleti alapjai. Információelmélet

Adattípusok. Max. 2GByte

ROS Remote Operations Service

és élelmiszer-ipari termékek hozhatók forgalomba, amelyeket a vonatkozó jogszabá-

Adattípusok. Max. 2GByte

Diszkrét matematika 2.C szakirány

Átírás:

KEMOMETRIA VIII-1/27 /2013 ősz CART Classification and Regression Trees Osztályozó fák Szeleteljük fel úgy a tulajdonságteret, hogy az egyes szeletekbe lehetőleg egyfajta objektumok kerüljenek, de túl sok szelet se legyen.

KEMOMETRIA VIII-2/27 /2013 ősz A szeletelés (split) sorozatos és dichotómikus. Az m-dimenziós tulajdonságteret első lépésben két részre hasítjuk. A cél az, hogy az egyik szelet viszonylag legnagyobb arányban tartalmazzon egyfajta objektumot, a másik tartalmazza a maradékot.

KEMOMETRIA VIII-3/27 /2013 ősz Egyfajta objektum nagy arányban: kis diverzitás. Sokfajta objektum egyenletesen előfordulva: nagy diverzitás Diverzitás: valamely sokaság sokféleségének mértéke

KEMOMETRIA VIII-4/27 /2013 ősz A diverzitás mérése Adott G független esemény. P i : egy i-dik esemény bekövetkezésének valószínűsége. i = 1,,G P j : egy j-edik esemény bekövetkezésének valószínűsége. j = 1,,G P ij = P i.p j : az i-edik és j-edik esemény együttes bekövetkezésének valószínűsége.

KEMOMETRIA VIII-5/27 /2013 ősz A Gini index: G G Gini = 1 1 P i P j 1. i = j = i j 2. P n j j = = G i=1 n i n n j. Gini = 1 n 2 G G i= 1 j= 1 i j n i n j

KEMOMETRIA VIII-6/27 /2013 ősz A Gini indexhez P 1 P 2... P G P 1 0 P 1 P 2... P 1 P G 1 P 2 P 1 P 2 0... P 2 P G 2............ P G P 1 P G P 2 P G... 0 G 1 2 G = gini

KEMOMETRIA VIII-7/27 /2013 ősz MATLAB eljárás: X=x*x'; summa=sum(sum(x)); numerator=summa-trace(x); GI=numerator/(sum(x)^2);

KEMOMETRIA VIII-8/27 /2013 ősz Diverzitás esetek Diverzitás Eset Gini Minimális Egykomponensű 0 halmaz Közbülső Közbülső eset Maximális Egyenletes fajtaeloszlás 0 < Gini < (1 1/G) 1 1/G

KEMOMETRIA VIII-9/27 /2013 ősz Shannon entrópia H = G j= 1 P I j j = G j= 1 P j log 2 1 P j = G j= 1 P j log 2 P j vagy H = G j= 1 n n j log 2 n n j

KEMOMETRIA VIII-10/27 /2013 ősz Diverzitás Shannon entrópiája Diverzitás Eset Shannon H Minimális Egykomponensű 0 halmaz Közbülső Közbülső eset Maximális Egyenletes fajtaeloszlás 0 < H <-log 2 (1/G) log 2 G

KEMOMETRIA VIII-11/27 /2013 ősz Gini vs, Shannon 0.8 0.7 0.6 0.5 Gini index 0.4 0.3 0.2 0.1 0 0 0.5 1 1.5 2 2.5 Shannon entropy

KEMOMETRIA VIII-12/27 /2013 ősz Példa CART osztályozásra Herbicid tulajdonságú szerves vegyületek osztályozása Retrieving worksheet from file: D:\SCANWIN\DATA\OUR_DATA\BENZYL0.MTW Worksheet was saved on 11/16/2009

KEMOMETRIA VIII-13/27 /2013 ősz Input Predictors: Hydrph, Stermol1, Stermol2, Stermol3 Category: category Options: Prior: Proport., Loss Unit CrossValidation CV: LOO, Splitting Criterium: Gini. Graphs: tree, assignment, model validation

KEMOMETRIA VIII-14/27 /2013 ősz Output Classification and Regression Trees (CART) Category Variable: Category Gini Splitting Criterion Cross-validate FK with 66 validation groups

KEMOMETRIA VIII-15/27 /2013 ősz Class Prior N.obj Loss matrix 4 0.242 16 0.0 1.0 1.0 5 0.561 37 1.0 0.0 1.0 6 0.197 13 1.0 1.0 0.0 No-model Error Rate: 0.4394 No-model Risk: 0.4394

KEMOMETRIA VIII-16/27 /2013 ősz Model Selection Itt történik meg az optimális vágás-szám megállapítása keresztellenőrzött probálgatással

KEMOMETRIA VIII-17/27 /2013 ősz Id Split FK range Risk Xv Risk 1 12 0.0000-0.0101 0.0152 0.3182 2 9 0.0101-0.0189 0.0455 0.3182 3 5 0.0189-0.0227 0.1212 0.2879 4 3 0.0227-0.0303 0.1667 0.3333 5 2 0.0303-0.1061 0.1970 0.3182 6 1 0.1061-0.1364 0.3030 0.4091 7 0 0.1364-*** 0.4394 0.4394 Selected Tree Id:3 FK = 0.0208

KEMOMETRIA VIII-18/27 /2013 ősz A lehetséges 9 és 3 közé eső 5 vágás optimális. 5 vágásnál legkisebb a keresztellenőrzött félreosztályozás:

KEMOMETRIA VIII-19/27 /2013 ősz CART Model Selection 0.45 0.40 = fitted = xval 0.35 fitted / xval risk 0.30 0.25 0.20 0.15 0.10 0.05 0.00 1 2 3 4 5 6 7 tree id

KEMOMETRIA VIII-20/27 /2013 ősz Classification tree contains 5 nonterminal nodes Classification Tree Hydrphob 1.67 Hydrphob 1.40 Hydrphob 1.48 Stermol2 3.72 Hydrphob 3.78 4 5 4 5 assigned class 6 5

KEMOMETRIA VIII-21/27 /2013 ősz A látható szükséges logikai állítások: 4. osztály (Hydr < 1.4) vagy (1.48 < Hydr < 1.67) 5. osztály (1.40 < Hydr < 1.48) vagy (Hydr > 1.67 és Stermol2 < 3,72 ) vagy (Stermol2 > 3.72 és Hydr > 3.78) 6. osztály Stermol2 > 3.72 és 1.67 < Hydr < 3.78

KEMOMETRIA VIII-22/27 /2013 ősz A részletszámítások (Nonterminal nodes) Node Left Right Class Risk Variable Threshold (N.obs) (N.obs) (N.obs) Split on Split at 1 2 4 5 0.4394 ( 66) ( 15) (51) Hydrphob 1.6700 Stermol3 3.4750 Stermol2 1.9100 2-1 3 4 0.0455

KEMOMETRIA VIII-23/27 /2013 ősz ( 15) ( 8) ( 7) Hydrphob 1.4050 Stermol3 3.7300 Stermol1 1.9250 Stermol2 1.9300 Terminal Nodes Node N.obs Prob. Ass.Class Risk Class N.obs Prob. 1 8 0.1212 4 0.0000 4 8 1.000 5 0 0.000 6 0 0.000 2 3 0.0455 5 0.0000 4 0 0.000 5 3 1.000 6 0 0.000... 4 40 0.6061 5 0.1212

KEMOMETRIA VIII-24/27 /2013 ősz... 4 4 0.100 5 32 0.800 6 4 0.100 Misclassification Matrix True Total Assigned classes Class 4 5 6 4 16 12 4 0 0.750 0.250 0.000 5 37 0 37 0 0.000 1.000 0.000 6 13 0 4 9

KEMOMETRIA VIII-25/27 /2013 ősz 0.000 0.308 0.692 Error Rate: 0.1212

KEMOMETRIA VIII-26/27 /2013 ősz CART Class Assignments CART Xvalidated Class Assignments 6 6 true class 5 true class 5 4 4 4 5 assigned class 6 4 5 assigned class 6

KEMOMETRIA VIII-27/27 /2013 ősz