Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))



Hasonló dokumentumok
Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

[Biomatematika 2] Orvosi biometria

Biomatematika 2 Orvosi biometria

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Heckman modell. Szelekciós modellek alkalmazásai.

Mesterséges Intelligencia MI

Többváltozós lineáris regressziós modell feltételeinek

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Random Forests - Véletlen erdők

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Valószínűségi változók. Várható érték és szórás

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Adatmanipuláció, transzformáció, szelekció SPSS-ben

A CHAID ALAPÚ DÖNTÉSI FÁK JELLEMZŐI

Adatok statisztikai értékelésének főbb lehetőségei

DOKTORI (PhD) ÉRTEKEZÉS TÉZISEI

Asszociációs szabályok

KÖZELÍTŐ INFERENCIA II.

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

6. Előadás. Vereb György, DE OEC BSI, október 12.

Csima Judit április 9.

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

4.2. Tétel: Legyen gyenge rendezés az X halmazon. Legyen továbbá B X, amelyre

Bevezetés az SPSS program használatába

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Bevezetés az ökonometriába

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Logisztikus regresszió

Regresszió számítás az SPSSben

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Role of soil properties in water retention characteristics of main Hungarian soil types

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

6. előadás - Regressziószámítás II.

Logisztikus regresszió

A statisztika alapjai - Bevezetés az SPSS-be -

Segítség az outputok értelmezéséhez

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Algoritmuselmélet 2. előadás

Shannon és Huffman kód konstrukció tetszőleges. véges test felett

Számítógép hálózatok, osztott rendszerek 2009

KÖZELÍTŐ INFERENCIA II.

Regression games and applications TDK prezentáció

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Regresszió. Fő cél: jóslás Történhet:

Varianciaanalízis 4/24/12

Kiegészítő részelőadás 1. Az algoritmusok hatékonyságának mérése

Az első számjegyek Benford törvénye

Populációbecslések és monitoring

file:///d:/okt/ad/jegyzet/ad1/b+fa.html

13. Túlélési analízis. SURVIVAL ANALYSIS Nyári Tibor Ph.D., Boda Krisztina Ph.D.

Többváltozós lineáris regresszió 3.

Formális nyelvek és automaták vizsgához statisztikailag igazolt várható vizsgakérdések

Populációbecslések és monitoring

Bevezetés a Korreláció &

Függetlenségvizsgálat, Illeszkedésvizsgálat

Szeleteljük fel úgy a tulajdonságteret, hogy az egyes szeletekbe lehetőleg egyfajta objektumok kerüljenek, de túl sok szelet se legyen.

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

Általános algoritmustervezési módszerek

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Statisztika II előadáslapok. 2003/4. tanév, II. félév

1: Bevezetés: Internet, rétegmodell Alapok: aszimptótika, gráfok. HálózatokII, 2007

y ij = µ + α i + e ij

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Fodor Gábor március 17. Fodor Gábor Osztályozás március / 39

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Likelihood, deviancia, Akaike-féle információs kritérium

A többváltozós lineáris regresszió III. Főkomponens-analízis

Ugrólisták. RSL Insert Example. insert(22) with 3 flips. Runtime?

BME, Budapest. BME, Budapest, 2012.március 1.

Ismételt méréses multifaktoriális varianciaanaĺızis (repeated measures MANOVA) szeptember 19.

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Intelligens orvosi műszerek VIMIA023

(Independence, dependence, random variables)

Szomszédság alapú ajánló rendszerek

Az SPC (statisztikai folyamatszabályozás) ingadozásai

Magyar Emlőstani Évkönyv. Szerzői tájékoztató (2016. február 27.)

Turing-gép május 31. Turing-gép 1. 1

Mérési adatok illesztése, korreláció, regresszió

Kettőnél több csoport vizsgálata. Makara B. Gábor

HAJDU OTTÓ A relatív deprivációs szegénységi küszöb rétegspecifikus, kvantilis regressziós becslése

Adatszerkezetek 7a. Dr. IványiPéter

Kupacrendezés. Az s sorban lévő elemeket rendezzük a k kupac segítségével! k.empty. not s.isempty. e:=s.out k.insert(e) not k.

Diszkrét matematika 2.C szakirány

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Dr. Király István Igazságügyi szakértő Varga Zoltán Igazságügyi szakértő Dr. Marosán Miklós Igazságügyi szakértő

Véletlenszám generátorok és tesztelésük. Tossenberger Tamás

SZEGMENTÁLÁS DÖNTÉSI FA ALKALMAZÁSÁVAL SEGMENTATION USING A DECISION TREE

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

A JOHNSON NEYMAN-MÓDSZER BEMUTATÁSA ÉS ALKALMAZÁSA

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Átírás:

Döntési fák (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART )) Rekurzív osztályozó módszer, Klasszifikációs és regressziós fák folytonos, kategóriás, illetve túlélés adatok (célváltozó) prediktálására. Tudásunk struktúrálása és bemutatása úgy, hogy azt a kevésbé szakértő felhasználók is használhassák. Magyarázó változók: kategóriás és folytonos Általános szabály: A megfigyeléseinket két részre bontjuk egy magyarázó változó alapján (gyökér), majd a létrejött részhalmazokat tovább bontjuk valamely további (vagy ugyanazon) magyarázó változó alapján. Részletesebben: Első lépésként kiválasztunk egy X j kovariánst a lehetséges q db X 1,X 2,...,X q kovariáns közül, és megbecsülünk egy vágási pontot, amely a célváltozó értékeit két részre osztja. Rendezett magyarázó változó esetén a vágási pont egy olyan szám, amely alatti vagy vele egyenlő értékekhez tartozó megfigyelések lesznek az egyik, a felette lévő értékekhez tartozó megfigyelések pedig a másik csoportban.

Nominális változó esetén a lehetséges kategóriákat bontjuk két részre. Vágáskor a cél, hogy a homogenitás maximális legyen a csoporton belül a célváltozó alapján. Ezt az eljárást rekurzív módon megismételjük az így létrejött két megfigyelés csoportra. A rekurzió akkor áll le, ha valamilyen leállási kritérium teljesül. Ha a fa felépült, a fa végpontjait (leveleket) egyszerű statisztikákkal jellemezzük attól függően, hogy milyen típusú a célváltozó. Folytonos célváltozó esetén az átlagot (vagy mediánt), nominális változó esetén a kategóriák arányát adhatjuk meg. A megfigyelések becsült értéke egyszerűen ennek a statisztikának az értéke. Az általunk alkalmazott party [1] csomag ctree() függvénye esetén a vágási pontokat egy a célváltozó és a kovariánsok közötti asszociációs mérték alapján határozzuk meg. Ha már nem találunk szignifikáns összefüggést a célváltozó és a kovariánsok között, a rekurzió leáll. A rekurziót egyéb kritériumok alapján is leállíthatjuk: a fa mérete, a leveleken és a csomópontokban lévő megfigyelések száma alapján. A szignifikancia szint is szükség szerint állítható. Döntési fák jó tulajdonságai például, hogy automatikusan felismerik a lényeges változókat. Ezeket a gyökér közelében, míg

a kevésbé fontosakat a levelekhez közel tesztelik. Előfordulhat, hogy egyes magyarázó változók nem jelennek meg a fában, hiszen nem befolyásolják a döntést. Ezeket irrelevánsnak tekintjük. A gyakorlatban sokszor használunk bináris döntési fákat, melyek sajátossága, hogy minden csomópontnak két ága van. Ilyen a klasszifikációs és regressziós fák módszere is. Mivel tetszőleges nem bináris döntési fa könnyedén átalakítható binárissá, így sok algoritmus csak bináris döntési fát tud előállítani. A CART módszer egyik fontos tulajdonsága, hogy a klasszifikációs és regressziós fák szerkezete invariáns a független változók monoton transzformációjára. Automatikusan felismeri az interakciókat és a nemlinearitás sem probléma. Amint a klasszifikációs vagy a regressziós fa elkészült, alkalmassá válik új adatok klasszifikálására. A fa ágai mentén, minden egyes új megfigyelést a döntési fa megfelelő leveléhez kapcsolhatunk.

Véletlen erdők A véletlen erdők (random forest) egy olyan rekurzív osztályozó módszer, ami különösen alkalmas az ún. kis n nagy p problémák esetén, azaz olyankor, amikor kicsi a minta, de sok a változó (Strobl et al. 2009b: 339). Klasszifikációs és regressziós fák (döntési fák) egy olyan halmaza, amelyet az adatok egy véletlen részhalmazára építünk úgy, hogy a fa minden vágási pontján a változók egy véletlen részhalmazából választunk. Ilyen módon a véletlen erdők módszere jobban képes az egyes változók szerepének vizsgálatára, mivel az olyan egyszerűbb modellek esetén, amelyek az összes változót egyszerre vizsgálják, a nagyobb hatású változók elnyomhatják a kisebb hatásúak szerepét. Továbbá kimutatták, hogy a döntési fák együttese jobban képes prediktálni, mint az egyes fák. A módszer használatával becsülhető az egyes változók fontossága is oly módon, hogy a célváltozó értékeit véletlenszerűen permutálásával méri a különbséget a permutálás előtti és utáni becslési pontosság között. Ha a pontosság kicsit változik, akkor a változónak nincs komoly szerepe, ha nagyot változik, akkor igen. Ezeket a különbségeket kiátlagolva kapjuk meg az egyes változók fontosságát (variable importance measure).

Referenciák: R Development Core Team (2010). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.r-project.org/. Torsten Hothorn, Kurt Hornik and Achim Zeileis (2006). Unbiased Recursive Partitioning: A Conditional Inference Framework. Journal of Computational and Graphical Statistics, 15(3), 651--674. Brian S. Everitt and Torsten Hothorn (2010). HSAUR: A Handbook of Statistical Analyses Using R.Chapman & Hall/CRC Strobl, Carolin; Anne-Laure Boulesteix; Thomas Kneib; Thomas Augustin; and Achim Zeileis. 2008. Conditional variable importance for random forests. BMC Bioinformatics. 9: 307. Strobl, Carolin; Torsten Hothorn; and Achim Zeileis. 2009a. Party on! A new, conditional variableimportance measure for random forests available in party package. The R Journal. 1/2: 14-17. Strobl, Carolin; James Malley; and Gerhard Tutz. 2009b. An Introduction to Recursive Partitioning: Rational, Application, and Characteristics of Classification and Regression Trees, Bagging, and Random Forests. Psychological Methods. 14(4): 323-348. Strobl, Carolin; James Malley; and Gerhard Tutz. 2009c. Supplement to An Introduction to Recursive Partitioning: Rational, Application, and Characteristics of Classification and Regression Trees, Bagging, and Random Forests. <http://dx.doi.org/10.1037/a0016973.supp> accessed November 2010. Shih, S. (2011) : Random Forests for Classification Trees and Categorical Dependent Variables: an informal Quick Start R Guide http://www.stanford.edu/~stephsus/r-randomforest-guide.pdf