Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén



Hasonló dokumentumok
1. gyakorlat. Mesterséges Intelligencia 2.

Gépi tanulás Gregorics Tibor Mesterséges intelligencia

Valószínűségi változók. Várható érték és szórás

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

(Independence, dependence, random variables)

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

[f(x) = x] (d) B f(x) = x 2 ; g(x) =?; g(f(x)) = x 1 + x 4 [

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Mesterséges Intelligencia MI

2. A példahalmazban n = 3 negatív és p = 3 pozitív példa van, azaz a példahalmazt képviselő döntési fa információtartalma: I = I(1/2, 1/2) = 1 bit.

Random Forests - Véletlen erdők

Bizonytalanságok melletti következtetés

Relációk Függvények. A diákon megjelenő szövegek és képek csak a szerző (Kocsis Imre, DE MFK) engedélyével használhatók fel!

RE 1. Relációk Függvények. A diákon megjelenő szövegek és képek csak a szerző (Kocsis Imre, DE MFK) engedélyével használhatók fel!

VIII. INDUKTÍV TANULÁS

Parametrikus tervezés

Nagyméretű adathalmazok kezelése (BMEVISZM144) Reinhardt Gábor április 5.

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Asszociációs szabályok

Matematika A1a Analízis

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

TANULÁS. I. Logikai formulák tanulása. Tanulási módok. Miért m ködik jól az induktív tanulás? Induktív tanulás

R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský

egy szisztolikus példa

Differenciálszámítás. 8. előadás. Farkas István. DE ATC Gazdaságelemzési és Statisztikai Tanszék. Differenciálszámítás p. 1/1

Adatszerkezetek 7a. Dr. IványiPéter

Diszkrét matematika I.

A Föld középpontja felé szabadon eső test sebessége növekszik, azaz, a

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás

Programozási módszertan. A gépi tanulás alapmódszerei

Fourier transzformáció

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2007/2008

Gépi tanulás és Mintafelismerés

6. Függvények. Legyen függvény és nem üreshalmaz. A függvényt az f K-ra való kiterjesztésének

A valós számok halmaza

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Mindent olyan egyszerűvé kell tenni, amennyire csak lehet, de nem egyszerűbbé.

TARTALOMJEGYZÉK. TARTALOMJEGYZÉK...vii ELŐSZÓ... xiii BEVEZETÉS A lágy számításról A könyv célkitűzése és felépítése...

Nagy Gábor compalg.inf.elte.hu/ nagy

1. tétel. 1. Egy derékszögű háromszög egyik szöge 50, a szög melletti befogója 7 cm. Mekkora a háromszög átfogója? (4 pont)

NULLADIK MATEMATIKA ZÁRTHELYI

minden x D esetén, akkor x 0 -at a függvény maximumhelyének mondjuk, f(x 0 )-at pedig az (abszolút) maximumértékének.

Diszkrét matematika 2.C szakirány

f(x) vagy f(x) a (x x 0 )-t használjuk. lim melyekre Mivel itt ɛ > 0 tetszőlegesen kicsi, így a a = 0, a = a, ami ellentmondás, bizonyítva

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

i p i p 0 p 1 p 2... i p i

2014. szeptember 24. és 26. Dr. Vincze Szilvia

Biomatematika 2 Orvosi biometria

Gépi tanulás. Egyszerű döntés tanulása (döntési fák) (Részben Dobrowiecki Tadeusz fóliáinak átdolgozásával) Pataki Béla (Bolgár Bence)

Algoritmuselmélet 18. előadás

Hódmezővásárhelyi Városi Matematikaverseny április 14. A osztályosok feladatainak javítókulcsa

2018, Diszkrét matematika

Osztott jáva programok automatikus tesztelése. Matkó Imre BBTE, Kolozsvár Informatika szak, IV. Év 2007 január

A L Hospital-szabály, elaszticitás, monotonitás, konvexitás

Követelmény az 5. évfolyamon félévkor matematikából

Mindent olyan egyszerűvé kell tenni, amennyire csak lehet, de nem egyszerűbbé. (Albert Einstein) Halmazok 1

Térinformatikai algoritmusok Elemi algoritmusok

Készítette: Fegyverneki Sándor

2018, Diszkre t matematika. 10. elo ada s

Algoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8.

Függvények július 13. f(x) = 1 x+x 2 f() = 1 ()+() 2 f(f(x)) = 1 (1 x+x 2 )+(1 x+x 2 ) 2 Rendezés után kapjuk, hogy:

Az értékelés a következők szerint történik: 0-4 elégtelen 5-6 elégséges 7 közepes 8 jó 9-10 jeles. A szóbeli vizsga várható időpontja

Nagy HF u tmutato 2011/2012 II. fe le v

Nagyságrendek. Kiegészítő anyag az Algoritmuselmélet tárgyhoz. Friedl Katalin BME SZIT február 1.

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Komplex számok. A komplex számok algebrai alakja

Nagy Gábor compalg.inf.elte.hu/ nagy

Függvények 1. oldal Készítette: Ernyei Kitti. Függvények

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t

Diszkrét matematika 1. középszint

6. ELŐADÁS DIFFERENCIÁLSZÁMÍTÁS II. DIFFERENCIÁLÁSI SZABÁLYOK. BSc Matematika I. BGRMA1HNND, BGRMA1HNNC

0-49 pont: elégtelen, pont: elégséges, pont: közepes, pont: jó, pont: jeles

Véletlenszám generátorok és tesztelésük. Tossenberger Tamás

VIK A1 Matematika BOSCH, Hatvan, 5. Gyakorlati anyag

Programozási módszertan. Mohó algoritmusok

Exponenciális, logaritmikus függvények

Adatok statisztikai értékelésének főbb lehetőségei

[Biomatematika 2] Orvosi biometria

BIOMATEMATIKA ELŐADÁS

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Mesterséges Intelligencia MI

Osztályozó- és javítóvizsga témakörei MATEMATIKA tantárgyból 2016 / tanév

Térinformatikai algoritmusok Elemi algoritmusok

Ütemezési problémák. Kis Tamás 1. ELTE Problémamegoldó Szeminárium, ősz 1 MTA SZTAKI. valamint ELTE, Operációkutatási Tanszék

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

A szemantikus elemzés elmélete. Szemantikus elemzés (attribútum fordítási grammatikák) A szemantikus elemzés elmélete. A szemantikus elemzés elmélete

Regressziós vizsgálatok

Osztályozó- és javítóvizsga. Matematika tantárgyból

Az információelmélet alapjai, biológiai alkalmazások. 1. A logaritmusfüggvény és azonosságai

Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Számelmélet I.

Sorozatok határértéke SOROZAT FOGALMA, MEGADÁSA, ÁBRÁZOLÁSA; KORLÁTOS ÉS MONOTON SOROZATOK

Matematika I. NÉV:... FELADATOK:

Nagy Gábor compalg.inf.elte.hu/ nagy

Diszkrét matematika 2.C szakirány

11. Előadás. 11. előadás Bevezetés a lineáris programozásba

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

További forgalomirányítási és szervezési játékok. 1. Nematomi forgalomirányítási játék

NULLADIK MATEMATIKA ZÁRTHELYI

Átírás:

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Dombi József Szegedi Tudományegyetem

Bevezetés - ID3 (Iterative Dichotomiser 3) Az ID algoritmusok egy elemhalmaz felhasználásával elemek egy osztályozására alkalmas döntési fát (decision tree) hoznak létre. Az elemeknek előre meghatározott, közös attribútumaik vannak, minden elem attribútumainak értéke ismert.

Feladat magasság hajszín szemszín osztály 1. alacsony szőke kék + 2. magas szőke barna - 3. magas vörös kék + 4. alacsony sötét kék - 5. magas sötét kék - 6. magas szőke kék + 7. magas sötét barna - 8. alacsony szőke barna -

Megoldás

Az algoritmus Az algoritmus által létrehozott döntési fa bármely nem levél csomópontja egy attribútum alapján osztja szét az elemeket, az attribútum minden lehetséges értékéhez egy ágat rendelve. A fa leveleihez egy-egy osztályértéket rendelünk, amely az elem osztálya. Az algoritmus egy elemhalmazra eldönti a legalkalmasabb attribútumot, mely szerint az adott halmazt szétvágjuk, így rekurzívan felépíti a döntési fát.

Az algoritmus felépítése 1. Attribútum-kiválasztó szabály: a fa egy pontján meghatározzuk, hogy mely attribútummal érdemes a mintahalmazt felbontani. 2. Továbbontó szabály: rekurzívan tovább bontjuk a mintahalmazt, vagyis további fapontokat határozunk meg. 3. Befejező szabály: eldöntjük, hogy meddig kell bontani a mintahalmazt, vagyis mikor nevezünk el egy pontot levélnek. 4. Osztályozó szabály: minden levélhez egy osztályértéket rendelünk.

Variánsok Az ID3 eljárásnak számos változata van, például olyanok, melyek kezelik a mintahalmazban található zajt, vagy a hiányos attribútumértékeket is, például ID3-IV, GID3-IV, CID3, kombinált folytonos ID3 C4.5...

Alkalmazás Adottak páciensek, illetve vizsgálati eredményeik, szeretnénk eldönteni, hogy melyik páciens milyen betegségben szenved. Ekkor a fa csúcsait az egyes vizsgálatok fogják képezni, és az adott csúcsnak annyi gyereke lesz, ahány féle eredménye lehetséges a vizsgálatnak (pl. a vércukorszint lehet alacsony, normális és magas, a vércukorszint csomópontnak 3 gyereke lesz), A levelekben kétféle érték lehet: az adott betegségben szenved vagy nem.

Konstrukció A faépítés egy hierarchikus eljárás, hiszen az attribútumokon tulajdonképpen egy sorrendet állítunk fel. A minimális döntési fa készítése NP nehéz feladat, így heurisztikát kell alkalmazni. A döntési fák tanulása, entrópia: a döntési fa fogalomtanulás diszkrét értékkészletű jellemzőkre. Ockham-borotvája: A konzisztens hipotézisek közül a legegyszerűbb a legjobb. Heurisztika: a heurisztika alapja az entrópia.

Entrópia értelmezései Fizika: Boltzmann - A hőmozgást végző részecskék elmozdulásának valószínűsége alapján konstruált mennyiség az entrópia. Definiálható az idő iránya (hőhalál-elmélet). Informatika: Shannon nevéhez fűződik. Az információ mértékét jelenti, alakja E S = k p i log 2 p i

Az ID3 algoritmus tulajdonságai 1. Bármilyen ellentmondásmentes példahalmazhoz képes konzisztens hipotézist találni. 2. Az egyes csúcsokban az attribútumokat mohó módon választja (nem képes visszalépésre, nem garantált, hogy globálisan optimális fát talál). 3. Nem érzékeny a zajokra 4. Az ellentmondó példákat is képes kezelni! 5. A tanulás eredményeképp a fát IF-THEN szabályokká lehet alakítani

Kiterjesztések hiányzó attribútumok esetén Kiterjesztés osztályozásra A fa levelein +,- helyett osztálycímkék lesznek. Az entrópia több érték esetére is definiált. Kiterjesztés folytonos változókra Egy folytonos változó értékkészletét <, > feltételekkel intervallumokra bonthatjuk, így a folytonos változók elvileg kezelhetők. A tanulóalgoritmus többféle módosítást igényel (pl. az intervallumok automatikus kialakítására a példák alapján) Megjegyzés: Folytonos térben a módszer tengelyekkel párhuzamos téglalapok uniójával osztályoz.

Algoritmus A C k -k attribútumai: S k1, S k2... S knk tehát C k = {S k1... S knk } C 1 C 2... C m R a 1 a 2. a l. r l a N

Jelölések S összes példa száma (N) S + pozitív példák száma S negatív példák száma S + ki pozitív példák száma adott S kiértékre S ki negatív példák száma adott S kiértékre

Jelölések S k1 = S + k1 + S k1 x + k1 = S + k1 S + S k2 = S + k2 + S k2 x + k2 = S + k2 S +.. x k1 = S k1 S x k2 = S k2 S S knk = S + kn k + S kn k x + kn k = S+ kn k S + x kn k = S kn k S S = S + + S w + = S + S w = S S

Összefüggések S + = n k i=1 S + ki S = n k i=1 S ki n k i=1 x + ki = 1 w + + w = 1 wɛ[0, 1] n k i=1 x ki = 1 x + ki ɛ[0, 1], x ki ɛ[0, 1]

Entrópia és bizonytalansági mérték n E(x) = k x i ln(x i ) i=1 E(x) = 1 (xln(x) + (1 x)ln(1 x)) ln2 F(x) = 4x(1 x)

Entrópia és bizonytalansági mérték 1,0 0,8 0,6 0,4 0,2 0 0 0,2 0,4 0,6 0,8 1,0 x

Entrópia és bizonytalansági mérték I (S) = 1 ( S + ln2 S ln S + + S S S ln S ), S J(S) = 4 S + S ( 1 S + ) = 4 S + S S S 2

1. Számítás J(S k1 ) = 4 S + k1 S k1 S k1 2 J(S k2 ) = 4 S + k2 S k2 S k2 2. J(S knk ) = 4 S + kn k S kn k S knk 2

Átlagos bizonytalanság E(C k ) = S k1 S J(S k1) + S k2 S J(S k2) +... S kn k J(S knk ) S E(C k ) = 4 n k i=1 S ki S + ki S ki S S ki 2 = 4 S + + S n k i=1 S + ki S ki S + ki + S ki

Új összefüggések ahol c D E(C k ) = n k i=1 a konjunktív Dombi operátor. c D (w +, x ki ; w, x + ki ), E(C k ) = 4 S + S S + + S = 4w + w n k i=1 n k i=1 x + ki x ki S + x + ki + S x ki 1 + w + 1 x ki x ki 1 + w 1 x+ ki x + ki

1. Példa - adatbázis C 1 C 2 C 3 R 1 B 3 b + 2 A 3 a - 3 A 2 b + 4 B 1 b - 5 A 1 b - 6 A 3 b + 7 A 1 a - 8 B 3 a -

1. Példa - megoldás

Gyors számítási eljárás C 1 C 2 C 3 C 4 { }} { {}}{ 1 2 3 a b { }} { A B { }} { r + r 1 0 1 0 0 1 0 1 1 0 2 1 0 0 0 1 1 0 0 1 3 1 0 0 1 0 0 1 1 0 4 0 1 1 0 0 0 1 0 1 5 1 0 1 0 0 0 1 0 1 6 1 0 0 0 1 0 1 1 0 7 1 0 1 0 0 1 0 0 1 8 0 1 0 0 1 1 0 0 1 3 5

r + szorzás C 1 C 2 C 3 { }} { r + (1) r + (2) r + (3) { }} { r + (A) r + (B) { }} { r + (a) r + (b) 1 0 1 0 0 1 0 1 2 0 0 0 0 0 0 0 3 1 0 0 1 0 0 1 4 0 0 0 0 0 0 0 5 0 0 0 0 0 0 0 6 1 0 0 0 0 0 1 7 0 0 0 0 1 0 0 8 0 0 0 0 0 0 0 2 1 0 1 2 0 3 x + 2 3 1 3 0 3 1 3 2 3 0 3 3 3

r szorzás C 1 C 2 C 3 { }} { r (1) r (2) r (3) { }} { r (A) r (B) { }} { r (a) r (b) 1 0 0 0 0 0 0 0 2 1 0 0 0 1 1 0 3 0 0 0 0 0 0 0 4 0 1 1 0 0 0 1 5 1 0 1 0 0 0 1 6 0 0 0 0 0 0 0 7 1 0 1 0 0 1 0 8 0 1 0 0 1 1 0 3 2 3 0 2 3 2 x 3 5 2 5 3 5 0 5 2 5 3 5 2 5

C k = {α k 1, α k 2... α k k n } C lk = {α k l 1, α k l 2... α k l kn } 0 α k l i 1 n k i=1 α k l i = 1 C lk = (0.3, 0.7, 0) M S + ki = r l αl k i l=1 M S ki = r l (1 αl k i ) l=1

2. Példa - általánosítások Adatbázis: C 1 C 2 C 3 R { }} { { }} { { }} { A B 1 2 3 a b 1 0.4 0.6 0.1 0.1 0.8 0.0 1.0 1 2 0.6 0.4 0.3 0.3 0.4 1.0 0.0 0 3 0.7 0.3 0.0 1.0 0.0 0.0 1.0 1 4 0.3 0.7 0.9 0.1 0.0 0.0 1.0 0 5 0.8 0.2 0.8 0.2 0.0 0.0 1.0 0 6 0.8 0.2 0.2 0.2 0.6 0.0 1.0 1 7 0.7 0.3 0.4 0.3 0.3 1.0 0.0 0 8 0.1 0.9 0.0 0.0 1.0 1.0 0.0 0

Megoldás

Folytonos eset

Folytonos eset Definíció Legyen g a (x) > 0 egy egyenlőtlenség, ahol a a függvény paramétere. A felfújó erre az értékre δ (λ) (g a (x)) = λ a bizonytalansági paraméter. 1 1 + e λga(x),

Felfújt egyenes a 0 + a 1 x + a 2 y > 0 1,0 0,75 0,5 0,25 0,0 5,0-5,0-2,5 0,0 y 2,5 5,0-5,0-2,5 0,0 2,5 x

Felfújt kör ( (x a1 ) 2 + (y a 2 ) 2) 1 2 a 0 > 0 1-1 0 3 x 3

C 1 C 2 R 1 0.4 0.6 0.1 0.1 0.8 1 3 0.7 0.3 0.0 1.0 0.0 1 4 0.3 0.7 0.9 0.1 0.0 0 5 0.8 0.2 0.8 0.2 0.0 0 6 0.8 0.2 0.2 0.2 0.6 1

C 1 C 2 R a 1 x 1 y 1 r 1 a 2 x 2 y 2 r 2. a n x n y n r n

Köszönöm a figyelmet!!!!