KEMOMETRIA VIII-1/27 /2013 ősz CART Classification and Regression Trees Osztályozó fák Szeleteljük fel úgy a tulajdonságteret, hogy az egyes szeletekbe lehetőleg egyfajta objektumok kerüljenek, de túl sok szelet se legyen.
KEMOMETRIA VIII-2/27 /2013 ősz A szeletelés (split) sorozatos és dichotómikus. Az m-dimenziós tulajdonságteret első lépésben két részre hasítjuk. A cél az, hogy az egyik szelet viszonylag legnagyobb arányban tartalmazzon egyfajta objektumot, a másik tartalmazza a maradékot.
KEMOMETRIA VIII-3/27 /2013 ősz Egyfajta objektum nagy arányban: kis diverzitás. Sokfajta objektum egyenletesen előfordulva: nagy diverzitás Diverzitás: valamely sokaság sokféleségének mértéke
KEMOMETRIA VIII-4/27 /2013 ősz A diverzitás mérése Adott G független esemény. P i : egy i-dik esemény bekövetkezésének valószínűsége. i = 1,,G P j : egy j-edik esemény bekövetkezésének valószínűsége. j = 1,,G P ij = P i.p j : az i-edik és j-edik esemény együttes bekövetkezésének valószínűsége.
KEMOMETRIA VIII-5/27 /2013 ősz A Gini index: G G Gini = 1 1 P i P j 1. i = j = i j 2. P n j j = = G i=1 n i n n j. Gini = 1 n 2 G G i= 1 j= 1 i j n i n j
KEMOMETRIA VIII-6/27 /2013 ősz A Gini indexhez P 1 P 2... P G P 1 0 P 1 P 2... P 1 P G 1 P 2 P 1 P 2 0... P 2 P G 2............ P G P 1 P G P 2 P G... 0 G 1 2 G = gini
KEMOMETRIA VIII-7/27 /2013 ősz MATLAB eljárás: X=x*x'; summa=sum(sum(x)); numerator=summa-trace(x); GI=numerator/(sum(x)^2);
KEMOMETRIA VIII-8/27 /2013 ősz Diverzitás esetek Diverzitás Eset Gini Minimális Egykomponensű 0 halmaz Közbülső Közbülső eset Maximális Egyenletes fajtaeloszlás 0 < Gini < (1 1/G) 1 1/G
KEMOMETRIA VIII-9/27 /2013 ősz Shannon entrópia H = G j= 1 P I j j = G j= 1 P j log 2 1 P j = G j= 1 P j log 2 P j vagy H = G j= 1 n n j log 2 n n j
KEMOMETRIA VIII-10/27 /2013 ősz Diverzitás Shannon entrópiája Diverzitás Eset Shannon H Minimális Egykomponensű 0 halmaz Közbülső Közbülső eset Maximális Egyenletes fajtaeloszlás 0 < H <-log 2 (1/G) log 2 G
KEMOMETRIA VIII-11/27 /2013 ősz Gini vs, Shannon 0.8 0.7 0.6 0.5 Gini index 0.4 0.3 0.2 0.1 0 0 0.5 1 1.5 2 2.5 Shannon entropy
KEMOMETRIA VIII-12/27 /2013 ősz Példa CART osztályozásra Herbicid tulajdonságú szerves vegyületek osztályozása Retrieving worksheet from file: D:\SCANWIN\DATA\OUR_DATA\BENZYL0.MTW Worksheet was saved on 11/16/2009
KEMOMETRIA VIII-13/27 /2013 ősz Input Predictors: Hydrph, Stermol1, Stermol2, Stermol3 Category: category Options: Prior: Proport., Loss Unit CrossValidation CV: LOO, Splitting Criterium: Gini. Graphs: tree, assignment, model validation
KEMOMETRIA VIII-14/27 /2013 ősz Output Classification and Regression Trees (CART) Category Variable: Category Gini Splitting Criterion Cross-validate FK with 66 validation groups
KEMOMETRIA VIII-15/27 /2013 ősz Class Prior N.obj Loss matrix 4 0.242 16 0.0 1.0 1.0 5 0.561 37 1.0 0.0 1.0 6 0.197 13 1.0 1.0 0.0 No-model Error Rate: 0.4394 No-model Risk: 0.4394
KEMOMETRIA VIII-16/27 /2013 ősz Model Selection Itt történik meg az optimális vágás-szám megállapítása keresztellenőrzött probálgatással
KEMOMETRIA VIII-17/27 /2013 ősz Id Split FK range Risk Xv Risk 1 12 0.0000-0.0101 0.0152 0.3182 2 9 0.0101-0.0189 0.0455 0.3182 3 5 0.0189-0.0227 0.1212 0.2879 4 3 0.0227-0.0303 0.1667 0.3333 5 2 0.0303-0.1061 0.1970 0.3182 6 1 0.1061-0.1364 0.3030 0.4091 7 0 0.1364-*** 0.4394 0.4394 Selected Tree Id:3 FK = 0.0208
KEMOMETRIA VIII-18/27 /2013 ősz A lehetséges 9 és 3 közé eső 5 vágás optimális. 5 vágásnál legkisebb a keresztellenőrzött félreosztályozás:
KEMOMETRIA VIII-19/27 /2013 ősz CART Model Selection 0.45 0.40 = fitted = xval 0.35 fitted / xval risk 0.30 0.25 0.20 0.15 0.10 0.05 0.00 1 2 3 4 5 6 7 tree id
KEMOMETRIA VIII-20/27 /2013 ősz Classification tree contains 5 nonterminal nodes Classification Tree Hydrphob 1.67 Hydrphob 1.40 Hydrphob 1.48 Stermol2 3.72 Hydrphob 3.78 4 5 4 5 assigned class 6 5
KEMOMETRIA VIII-21/27 /2013 ősz A látható szükséges logikai állítások: 4. osztály (Hydr < 1.4) vagy (1.48 < Hydr < 1.67) 5. osztály (1.40 < Hydr < 1.48) vagy (Hydr > 1.67 és Stermol2 < 3,72 ) vagy (Stermol2 > 3.72 és Hydr > 3.78) 6. osztály Stermol2 > 3.72 és 1.67 < Hydr < 3.78
KEMOMETRIA VIII-22/27 /2013 ősz A részletszámítások (Nonterminal nodes) Node Left Right Class Risk Variable Threshold (N.obs) (N.obs) (N.obs) Split on Split at 1 2 4 5 0.4394 ( 66) ( 15) (51) Hydrphob 1.6700 Stermol3 3.4750 Stermol2 1.9100 2-1 3 4 0.0455
KEMOMETRIA VIII-23/27 /2013 ősz ( 15) ( 8) ( 7) Hydrphob 1.4050 Stermol3 3.7300 Stermol1 1.9250 Stermol2 1.9300 Terminal Nodes Node N.obs Prob. Ass.Class Risk Class N.obs Prob. 1 8 0.1212 4 0.0000 4 8 1.000 5 0 0.000 6 0 0.000 2 3 0.0455 5 0.0000 4 0 0.000 5 3 1.000 6 0 0.000... 4 40 0.6061 5 0.1212
KEMOMETRIA VIII-24/27 /2013 ősz... 4 4 0.100 5 32 0.800 6 4 0.100 Misclassification Matrix True Total Assigned classes Class 4 5 6 4 16 12 4 0 0.750 0.250 0.000 5 37 0 37 0 0.000 1.000 0.000 6 13 0 4 9
KEMOMETRIA VIII-25/27 /2013 ősz 0.000 0.308 0.692 Error Rate: 0.1212
KEMOMETRIA VIII-26/27 /2013 ősz CART Class Assignments CART Xvalidated Class Assignments 6 6 true class 5 true class 5 4 4 4 5 assigned class 6 4 5 assigned class 6
KEMOMETRIA VIII-27/27 /2013 ősz