Mesterséges Intelligencia MI

Hasonló dokumentumok
Mesterséges Intelligencia MI

Intelligens orvosi műszerek VIMIA023

Gépi tanulás. Egyszerű döntés tanulása (döntési fák) (Részben Dobrowiecki Tadeusz fóliáinak átdolgozásával) Pataki Béla (Bolgár Bence)

Intelligens orvosi műszerek VIMIA023

Mesterséges Intelligencia MI

Mesterséges Intelligencia MI

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

2. A példahalmazban n = 3 negatív és p = 3 pozitív példa van, azaz a példahalmazt képviselő döntési fa információtartalma: I = I(1/2, 1/2) = 1 bit.

1. gyakorlat. Mesterséges Intelligencia 2.

Mesterséges Intelligencia I. (I602, IB602)

Gépi tanulás Gregorics Tibor Mesterséges intelligencia

TANULÁS. I. Logikai formulák tanulása. Tanulási módok. Miért m ködik jól az induktív tanulás? Induktív tanulás

Programozási módszertan. A gépi tanulás alapmódszerei

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Adatbányászati feladatgyűjtemény tehetséges hallgatók számára

Mesterséges Intelligencia MI

[1000 ; 0] 7 [1000 ; 3000]

VIII. INDUKTÍV TANULÁS

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Diagnosztikus tesztek értékelése

Mesterséges Intelligencia MI

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

Mesterséges Intelligencia MI

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Mesterséges Intelligencia MI

Eredmények kiértékelése

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla

Intelligens orvosi műszerek (VIMIA023) Gyakorló feladatok, megoldással (2016 ősz)

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás

Az információelmélet alapjai, biológiai alkalmazások. 1. A logaritmusfüggvény és azonosságai

Adatok statisztikai értékelésének főbb lehetőségei

Bonyolult jelenség, aminek nincs jó modellje, sok empirikus adat, intelligens (ember)ágens képessége, hogy ilyen problémákkal mégis megbirkozzék.

Gépi tanulás a gyakorlatban. Lineáris regresszió

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Módszertani áttekintés

Gépi tanulás és Mintafelismerés

Biostatisztika VIII. Mátyus László. 19 October

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mesterséges Intelligencia MI

Nagy adathalmazok labor

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Logika és informatikai alkalmazásai

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Stratégiák tanulása az agyban

Mesterséges Intelligencia MI

Normális eloszlás tesztje

Logika és informatikai alkalmazásai

Mesterséges Intelligencia MI

Matematika A1a Analízis

GONDOLKODÁS ÉS NYELV

Példák jellemzőkre: - minden pixelérték egy jellemző pl. neurális hálózat esetében csak kis képekre, nem invariáns sem a megvilágításra, sem a geom.

Nagy adathalmazok labor

A mérési eredmény megadása

Algoritmusok Tervezése. Fuzzy rendszerek Dr. Bécsi Tamás

Mesterséges Intelligencia MI

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Bizonytalanságok melletti következtetés

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Hipotézis vizsgálatok

Turing-gép május 31. Turing-gép 1. 1

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Mesterséges Intelligencia MI

Mesterséges Intelligencia MI

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

1. Gauss-eloszlás, természetes szórás

Algoritmuselmélet. Bonyolultságelmélet. Katona Gyula Y.

Számításelmélet. Második előadás

Gépi tanulás a gyakorlatban. Bevezetés

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

A Termelésmenedzsment alapjai tárgy gyakorló feladatainak megoldása

Hatvány gyök logaritmus

Nagyságrendek. Kiegészítő anyag az Algoritmuselmélet tárgyhoz. Friedl Katalin BME SZIT február 1.

Megerősítéses tanulási módszerek és alkalmazásaik

HORVÁTH ZSÓFIA 1. Beadandó feladat (HOZSAAI.ELTE) ápr 7. 8-as csoport

Mesterséges Intelligencia (MI)

Dinamikus modellek szerkezete, SDG modellek

[Biomatematika 2] Orvosi biometria

Mesterséges intelligencia, szakértői rendszerek Ágensek, multi ágens rendszerek, tanuló ágensek p. 1/43

Csima Judit október 24.

Megerősítéses tanulás

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Mesterséges Intelligencia MI

Intelligens ágensek. Mesterséges intelligencia február 28.

Mesterséges intelligencia 3. laborgyakorlat

Kettőnél több csoport vizsgálata. Makara B. Gábor

Csak felvételi vizsga: csak záróvizsga: közös vizsga: Mérnökinformatikus szak BME Villamosmérnöki és Informatikai Kar május 27.

CARE. Biztonságos. otthonok idős embereknek CARE. Biztonságos otthonok idős embereknek Dr. Vajda Ferenc Egyetemi docens

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Digitális jelfeldolgozás

Döntéselmélet KOCKÁZAT ÉS BIZONYTALANSÁG

Mesterséges Intelligencia MI

V. Kétszemélyes játékok

A maximum likelihood becslésről

Intelligens orvosi műszerek VIMIA023

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

, , A

Átírás:

Mesterséges Intelligencia MI Egyszerű döntés. Tanuljuk meg! Dobrowiecki Tadeusz Eredics Péter, és mások BME I.E. 437, 463-28-99 dobrowiecki@mit.bme.hu, http://www.mit.bme.hu/general/staff/tade

?

Kétértékű függvény = osztályozás = bináris döntés cs t = f(m T, cs T, TB t-1 ) = igaz / hamis igazi állapot f(x) feltételezett állapot h(x) helyzet paciens beteg felismerjük kezeljük, helyesen tesszünk f(x) = I h(x) = I Igaz Pozitív, True Positive TP paciens egészséges felismerjük nem kezeljük, most is jól f(x) = H h(x) = H tesszünk, Igaz Negatív, True Negative TN paciens beteg nem ismerjük fel nem kezeljük, nem járunk el jól, Hamis Negatív, f(x) = I h(x) = H False Negative FN, ( elnézett támadás, 2. tip. hiba) paciens egészséges nem ismerjük fel kezeljük fölöslegesen, nem járunk el jól, Hamis Pozitív, f(x) = H h(x) = I False Positive FP, ( hamis riadó, 1. tip. hiba)

Néhány esetre kiprobáltuk betegek döntés: belül pozitív kívül - negatív egészségesek TP = 5, TN = 11, FP = 4, FN = 10 P = 15, N = 15 true positive rate (TPR) igaz pozitív arány, érzékenység felidézés (hit rate, recall, sensitivity) TPR = TP/P = TP / (TP+FN) false positive rate (FPR) hamis pozitív arány (false alarm rate, fall-out) FPR = FP/N = FP / (FP+TN) és sok más TPR = TP / (TP+FN) = 5/15 =.33 FPR = FP / (FP+TN) = 4/15 =.26 ACC = (TP+TN)/(P+N) = 1/2 =.5

Néhány esetre kiprobáltuk Melyik jobb? betegek betegek egészségesek TP = 10, TN = 9, FP = 6, FN = 5 egészségesek TP = 9, TN = 12, FP = 3, FN = 6

Hiba (confusion) matrix true positive rate (TPR) TPR = TP/P = TP / (TP+FN) false positive rate (FPR) FPR = FP/N = FP / (FP+TN) Döntés Populáció Beteg Egészséges Beteg TP FP Egészséges FN TN ROC: Vevő működési karakterisztika Receiver Operating Characteristic A.U.C Area Under Curve

Probléma: döntés, hogy milyen esettel állunk szemben egy numerikus paraméter értéke alapján. Cél: rájönni, mi teszt (optimális) küszöb értéke.

ROC: Vevő működési karakterisztika Receiver Operating Characteristic

Probléma: döntés, hogy egy adott étteremben várjunk-e asztalra. Cél: előállítani a döntés logikai definícióját. A probléma milyen tulajdonsága vagy attribútuma ismert? 1. Alternatíva: van-e a környéken más megfelelő étterem. (I/N) 2. Bár: van-e az étteremben kényelmes bár, ahol várhatunk. (I/N) 3. Pén/Szom: igaz pénteken- és szombatonként. (I/N) 4. Éhes: éhesek vagyunk-e. (I/N) 5. Kuncsaft: hányan vannak már benn (Senki, Néhány és Tele). 6. Ár: mennyire drága (Olcsó, Közepes, Drága) 7. Eső: esik-e kint (I/N) 8. Foglalás: foglalni kell-e előzetesen az asztalt (I/N) 9. Típus: az étterem típusa (Francia, Olasz, Thai v. Burger) 10. BecsültVár: a pincér által bemondott várakozási idő (0-10 perc, 10-30, 30-60, >60 perc) VárniFog = f(alternativa, Bár, Pén/Szom, Éhes, Kuncsaft, Ár, Eső, Foglalás, Típus, BecsültVár, )

Az eddigi kiruccanásaink tapasztalata Pl. Attribútumok Cél Altern Bár Pént Éhes Kuncs Ár Eső Fogl Típus Becs VárniFog --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- X 1 Igen Nem Nem Igen Néhány Drága Nem Igen Francia 0 10 Igen X 2 Igen Nem Nem Igen Tele Olcsó Nem Nem Thai 30 60 Nem X 3 Nem Igen Nem Nem Néhány Olcsó Nem Nem Burger 0 10 Igen X 4 Igen Nem Igen Igen Tele Olcsó Nem Nem Thai 10 30 Igen X 5 Igen Nem Igen Nem Tele Drága Nem Igen Francia >60 Nem X 6 Nem Igen Nem Igen Néhány Közep Igen Igen Olasz 0 10 Igen X 7 Nem Igen Nem Nem Senki Olcsó Igen Nem Burger 0 10 Nem X 8 Nem Nem Nem Igen Néhány Közep Igen Igen Thai 0 10 Igen X 9 Nem Igen Igen Nem Tele Olcsó Igen Nem Burger >60 Nem X 10 Igen Igen Igen Igen Tele Drága Nem Igen Olasz 10 30 Nem X 11 Nem Nem Nem Nem Senki Olcsó Nem Nem Thai 0 10 Nem X 12 Igen Igen Igen Igen Tele Olcsó Nem Nem Burger 30 60 Igen Mi benne a viselkedésünk mintája? Van-e egyáltalán egy konzisztens viselkedési mintánk? (9216 lehetséges példa)

Hogyan lehetne egy döntést (ágensfüggvényt) megvalósítani? (1) Analitikus tervezés: Begyűjteni az analitikus modelleket. Megtervezni analitikusan a konkrét mechanizmust és azt algoritmusként implementálni. (2) Megtervezni a tanulás mechanizmusát és azt algoritmusként implementálni, majd alkalmazásával megtanulni vele a döntés tényleges mechanizmusát és azt algoritmusként implementálni.

Tanuló ágens - cselekvő alrendszer (+) - tanuló alrendszer - kritikus (+) - problémagenerátor Milyen feladatok körében? a rendszerek, folyamatok fizikai, kémiai, szociális, stb. modellje olyan bonyolult, hogy kezelhetetlen vagy nem is ismert a feladatról nagy mennyiségű adat áll rendelkezésre a feladatok többsége emberi intelligenciával nagyon hatékonyan megoldható

Tanuló alrendszer tervezése: A cselekvő alrendszer (eddigi ágens) mely részeit kell javítani? (Érzékelés? TB? Következtetés? Cselekvés?...) Milyen tudás reprezentációt használnak ezek az alrendszerek? (Tábla? Logika? Valószínűség?...) Milyen a priori információ áll rendelkezésünkre? Milyen visszacsatolásra van lehetőség? (mi a helyes eredmény?) felügyelt tanulás egy komponensnek mind a bemenetét, mind a kimenetét észlelni tudjuk megerősítéses tanulás az ágens az általa végrehajtott tevékenység csak bizonyos értékelését kapja meg = jutalom, büntetés, megerősítés felügyelet nélküli tanulás semmilyen utalás sem áll rendelkezésünkre a helyes kimenetről (az észlelések közötti összefüggések tanulása)

A különböző feladatok közös magja A cselekvő alrendszer minden komponense = egy-egy függvény-kapcsolat, pl. cs t = f(m t-1, cs t-1, TB T ) Minden tanulás felfogható úgy, mint egy függvény valamilyen reprezentációjának a megtanulása. (Tiszta) Induktív felügyelt tanulás (induktív következtetés): tanulási példa: tanulás célja: h(x) = f(x), h(x') f(x'), (x, y = f(x)) adatpár, ahol f(x) ismeretlen f(x) értelmes közelítése (egy h(x) hipotézissel) x egy ismert példán x' a tanulás közben még nem látott eset (általánosító képesség) az f-re vonatkozó példák egy halmaza alapján (tanító halmaz), adjon meg egy olyan h függvényt (hipotézist), amely tulajdonságaiban közelíti az f-et (amit teszt halmazon verifikálunk).

A tanulási algoritmus teljesítménye A tanulási algoritmus akkor jó, ha jó hipotéziseket szolgáltat azon esetekre is, amelyeket nem látott előtte. Hogyan? 1. A példahalmazt bontsuk szét egy tanító és egy teszt halmazra. 2. A tanuló algoritmust a tanító halmazra alkalmazva állítsuk elő a h hipotézist. 3. Vizsgáljuk meg, hogy h a teszt halmaz milyen részét sorolja be jól. 4. Ismételjük a 2-4 lépéseket különböző tanító halmaz méretekre. Tanulási görbe (hibagörbe)

Elfogultság - A példáknak való megfelelésen túl (konzisztens ipotézisek) előnyben részesítjük az egyik vagy a másik hipotézist. Mivel mindig nagy számú lehetséges hipotézis létezik, az összes tanuló algoritmus mutat valamilyen elfogultságot. Miért? Tanulási zaj - Példa-1: (x, y1) Példa-2: (x, y2) és y1 =/= y2! (inkonzisztens példák) Túltanulás (túlzott illeszkedés, overfitting) és nem elegendő tanulás Avagy a lényegtelen, a hibák tanulása.

Kifejezőképesség és hatékonyság A legfontosabb döntés a tanuló ágens tervezője számára: mi legyen a kívánt függvény (és a hipotézisek) reprezentációja? (az elfogultsággal együtt, ez a tanuló algoritmus jellegét határozza meg, eldöntheti, hogy a probléma kezelhető-e). Kompromisszum: (cél: legyen tömör és jól általánosító) a kifejezőképesség képesség és a hatékonyság között. Kifejezőképesség: a kívánt függvény jól (egyáltalán) ábrázolható-e. Hatékonyság: a tanulási probléma kezelhető lesz-e egy adott reprezentációs nyelv választás esetén. (tanulási algoritmus tár-, idő-komplexitása)

Döntési fák tanulása döntési fa = egy logikai függvény bemenete: egy tulajdonsághalmazzal leírt objektum vagy szituáció kimenete: egy igen/nem döntés/cselekvés" belső csomópont = valamelyik tulajdonság tesztje él = a teszt lehetséges értéke levél = logikai érték, amelyet akkor kell kiadni, ha ezt a levelet elértük.

Legyen egy konkrét eset: Kuncsaft = Tele, és Éhes, és Étterem = Olasz VárniFog (Kuncsaft = Néhány) ((Kuncsaft = Tele) Éhes (Típus = Francia)) ((Kuncsaft = Tele) Éhes (Típus = Thai) P/Sz) ((Kuncsaft = Tele) Éhes (Típus = Burger))

Döntési fák kifejezőképessége teljes - minden (ítélet)logikai függvény felírható döntési faként. (az igazságtábla minden sora = a fa egy bejárása, de így az igazságtábla mérete = a fa mérete = exponenciális!) Döntési fák kialakítása példák alapján példa: (attribútumok értékei, cél predikátum értéke) példa besorolása: a cél predikátum értéke pozitív/negatív példa: a cél predikátum értéke igaz / hamis tanító halmaz: a teljes példa halmaz triviális fa, könnyű - mindegyik példához egy önálló bejárási út a levél a példa besorolását adja. fa egyszerűen memorizálja a példát, nem alakít ki jellegzetes mintákat a példákból nem általánosít (nem tud ismeretlen példákra extrapolálni) igazi fa - a jellegzetes minták kinyerése, a módszer képes nagyszámú esetet tömör formában leírni, és így az egyelőre ismeretlen példákra is általánosítani

Sz. Témába Vág Sok Reklám Sok Script Sok Link Sok Text Frissített Érdekes Lap X1 N N N I N N I X2 I I N N N I N X3 I N I I I N I X4 I N N N I I I X5 N N I N N I I X6 I I I N I N N X7 I I N I N I I X8 N N N N N N N TV SR TV SL SS F SR Nem Igen F F F Nem Igen Igen? Igen Nem??

A döntési fa építése általános jelenségek Van néhány pozitív és néhány negatív példánk, válasszuk azt az attribútumot, amelyik a legjobban szétválasztja őket. Ha az összes megmaradt eset pozitív, (vagy az összes negatív), akkor készen vagyunk: a válasz Igen vagy Nem.

A döntési fa építése általános jelenségek Ha nem maradt egyetlen példa sem, ez azt jelenti, hogy ilyen példát nem figyeltünk meg eddig (de a jövőben mégis jelentkezhet). Ilyenkor valamilyen alapértéket adunk vissza, amelyet a csomópont szülőjének többségi besorolási válaszából származtatunk. (induktív tanulás nem egy formális deduktív módszer, milyen veszély leselkedik itt ránk?)

A döntési fa építése általános jelenségek Nem maradt már teszteletlen attribútum, de maradtak még pozitív és negatív példák. Baj van. Ezeknek a példáknak pontosan megegyezik a leírása, de különböző a besorolásuk. Néhány adat tehát nem korrekt: a tanulási zaj torzítja az adatokat. Megoldás? Pl. a többségi szavazás használata.

Döntési fák kialakítása példák alapján A legkisebb döntési fa megtalálása - általánosságban nem megoldható Heurisztika: mohóság - egy meglehetősen egyszerű (jó) fa is jó lesz! Az alapötlet: először a legfontosabb attribútumot teszteljük. legfontosabb" = a legnagyobb eltérést okozza példák besorolásában Elvárás: kisszámú teszt alapján korrekt besoroláshoz jutunk: a bejárási utak rövidek lesznek, és így az egész fa kicsi (tömör) lesz. Az információelmélet felhasználása Olyan attribútumot válasszunk, amely a lehető legmesszebb megy a pontos besorolás biztosításában. A tökéletes attribútum a példákat két csoportra bontja, az egyikbe csak pozitív, a másikba csak negatív példák tartoznak. Ezzel be is lehetne fejezni a fa tanítását!

A Kuncsaft attribútum nem tökéletes, de elég jó. Egy nagymértékben haszontalan attribútum, mint pl. a Típus olyan példa halmazokat hoz létre, amelyek nagyjából ugyanolyan arányban tartalmaznak pozitív és negatív példákat, mint az eredeti halmazok.

Elég jó?" Nagymértékben haszontalan?" A mérték maximuma: a fenti értelemben tökéletes attribútumra minimuma: olyan attribútumra, aminek egyáltalán nincs értéke számunkra. Egy megfelelő mérték: az attribútum által adott információ várható értéke, információ átlagos tartalma, entrópia, Ha a lehetséges v k válaszok valószínűsége sége P(v k ), akkor az adott konkrét válasz információ tartalma: n 1 ),..., P( ν n )) = P( ν i ) log2 P( i ) i= 1 I( P( ν ν pl. szabályos pénzérme dobás? V P(v 1 ) P(v n ) v 1 v k v n

A döntési fa információ tartalma = a tanító halmazban található pozitív és negatív példák aránya Tanító halmaz p pozitív és n negatív példát tartalmaz: két válasz: v 1, v 2, valószínűségük: P(v 1 ) = p /(p+n), P(v 2 ) = n /(p+n), Ekkor a fa információ tartalmának becslése: I ( p n p p n n, ) = log 2 log 2 p + n p + n p + n p + n p + n p + n (Az étterem tanító halmaz: p = n, 1 bit információt képvisel) Hogyan válasszunk attribútumot? Mennyi információt ad egy attribútum tesztelése? Mennyi információra van még szükségünk az attribútum tesztelése után?

Bármelyik A attribútum az E tanító halmazt E 1,E 2,,E n részhalmazokra bontja az A tesztjére adott válaszoknak megfelelően, ha A tesztje n különböző választ ad. A p + n Nyereség(A) é 1 é k é n I(teljes fa) I(részfa k ) Maradék(A) = Σ k súly(részfa k ) I(részfa k ) p 1 + n 1 p k + n k p n + n n # példa(részfa k ) súly(részfa k ) = ----------------- # példa(fa)

Hogyan válasszunk attribútumot? ), ( ) ( 1 i i i i i i i i i n p n n p p I n p n p A Maradék + + + + = = ν bit információra van szükségünk a példa besorolásához. Az attribútum tesztjének információ nyeresége az eredeti információ igény és a teszt utáni új információ igény különbsége: ) ( ), ( ) ( A Maradék n p n n p p I A Nyereség + + =

Nézzük meg a Kuncsaft és a Típus attribútumokat I(0,1) = - 0 * ln 0 1 * ln 1 = - 0 * ln 0 =? ln x ( ) 1/x 0 * ln 0 = lim x 0 ---- = --- lim --- = lim --- = lim x 0 x = 0 1/x ( ) -1/x 2 I(0,1) =? 2 4 6 2 4 Nyereség ( Kuncsaft) = 1 [ I (0,1) + I (1,0) + I (, )] 12 12 12 6 6 0,541 bit 2 1 1 2 1 1 4 2 2 4 2 2 Nyereség ( Típus) = 1 [ I (, ) + I (, ) + I (, ) + I (, )] = 12 2 2 12 2 2 12 4 4 12 4 4 Több attributumra is kellene a számítás, de a Kuncsaft kimagasló 0 bit

(Kuncsaft = Tele) ágon még fennmaradó példák Példa Attribútumok Cél Altern Bár Pént Éhes Ár Eső Fogl Típus Becs VárniFog X 2 Igen Nem Nem Igen Olcsó Nem Nem Thai 30 60 Nem X 5 Igen Nem Igen Nem Drága Nem Igen Francia >60 Nem X 9 Nem Igen Igen Nem Olcsó Igen Nem Burger >60 Nem X 10 Igen Igen Igen Igen Drága Nem Igen Olasz 10 30 Nem X 4 Igen Nem Igen Igen Olcsó Nem Nem Thai 10 30 Igen X 12 Igen Igen Igen Igen Olcsó Nem Nem Burger 30 60 Igen Részfában: p 1 = 2, n 1 = 4, p 1 /(p 1 +n 1 ) = 1/3, n 1 /(p 1 +n 1 ) = 2/3

I = I(részfa) = I(2/6, 4/6) =.9183 Ny(Al) = I [5/6 I(2/5, 3/5) + 1/6 I(0, 1)] Al = Igen Al = Nem p2 = 2, p3 = 0 n2 = 3 n3 = 1 6 példa Ny(Al) = I [5/6 I(2/5, 3/5) + 1/6 I(0, 1)] =.92 -.81.11

Ny(Al) = I [5/6 I(2/5, 3/5) + 1/6 I(0,1)] =.92 -.81.11 Ny(Bár) = I [1/2 I(1/3, 2/3) + 1/2 I(1/3, 2/3)] =.92 -.92 = 0 Ny(Péntek) = I [5/6 I(2/5, 3/5) + 1/6 I(0,1)] =.92 -.81.11 Ny(Éhes) = I [4/6 I(1/2, 1/2) + 2/6 I(0,1)] =.92 -.66.25 Ny(Ár) = I [4/6 I(1/2, 1/2) + 2/6 I(0,1)] =.92 -.66.25 Ny(Eső) = I [5/6 I(2/5, 3/5) + 1/6 I(0,1)] =.92 -.81.11 Ny(Foglalt) = I [2/6 I(0,1) + 4/6 I(1/2,1/2)] =.92 -.66.25 Ny(Típus) = I [2/6 I(1/2, 1/2) + 1/6 I(0,1) + 2/6 I(1/2, 1/2) + 1/6 I(0,1)] =.92 -.66.25 Ny(Becs) = I [2/6 I(1/2, 1/2) + 2/6 I(0,1) + 2/6 I(1/2, 1/2)] =.92 -.66.25

(Éhes = Igen) ágon még fennmaradó példák Példa Attribútumok Cél Alt Bár Pént Ár Eső Fogl Típus Becs VárniFog X 2 Igen Nem Nem Olcsó Nem Nem Thai 30 60 Nem X 10 Igen Igen Igen Drága Nem Igen Olasz 10 30 Nem X 4 Igen Nem Igen Olcsó Nem Nem Thai 10 30 Igen X 12 Igen Igen Igen Olcsó Nem Nem Burger 30 60 Igen Részfában: p 1 = 2, n 1 = 2, p 1 /(p 1 +n 1 ) = 1/2, n 1 /(p 1 +n 1 ) = 1/2

Ny(Alt) = I [1/1 I(1/2, 1/2) + 0] = 1-1 = 0 Ny(Bár) = I [1/2 I(1/2, 1/2) + 1/2 I(1/2, 1/2)] = 1-1 = 0 Ny(Péntek) = I [1/4 I(0,1) + 3/4 I(1/3,2/3)] = 1 -.92.08 Ny(Ár) = I [1/4 I(0,1) + 3/4 I(1/3,2/3)] = 1 -.92.08 Ny(Eső) = I [1/1 I(1/2, 1/2) + 0] = 1-1 = 0 Ny(Foglalt) = I [1/4 I(0,1) + 3/4 I(1/3,2/3)] = 1 -.92.08 Ny(Típus) = I [1/4 I(0,1) + 1/4 I(0,1) + 1/2 I(1/2, 1/2)] =.5 Ny(Becs) = I [1/2 I(1/2, 1/2) + 1/2 I(1/2, 1/2)] = 1-1 = 0

(Típus = Thai) ágon még fennmaradó példák Példa Attribútumok Cél Alt Bár Pént Ár Eső Fogl Becs VárniFog X 2 Igen Nem Nem Olcsó Nem Nem 30 60 Nem X 4 Igen Nem Igen Olcsó Nem Nem 10 30 Igen A többi nem jellemző Részfában: p 1 = 1, n 1 = 1, p 1 /(p 1 +n 1 ) = 1/2, n 1 /(p 1 +n 1 ) = 1/2 És ez u.u. marad pl. a Bár = Nem, vagy Eső = Nem, vagy Ár = Olcsó, stb. mentén (azaz így tovább nem érdemes építeni)

Döntési fa nyesése: (1) Beállított max. mélység (2) Ismerjük fel a nem releváns attribútumot és az adott ágat ott fejezzük be Irreleváns attribútum: példahalmaz kettévágásánál a kapott részhalmazok azonos arányban tartalmaznak pozitív és negatív példát, mint az eredeti halmaz. Az információ nyereség ilyenkor közel 0. Az információ nyereség hiánya az irrelevancia jó jelzése. Milyen nagy (nem 0) legyen az információ nyereség, hogy egy attribútumot mégis felhasználjunk a példahalmaz megosztására? (a) Értékbeállítás (b) Statisztikai teszt: nincs jellegzetes minta = ún. nulla hipotézis. Ha az eltérés nagy (nagyobb, mint 0) nem valószínű, hogy az észlelt minta statisztikai ingadozásból következik lényeges minta van az adatokban.

Kis HF3 Eszköz: http://aispace.org/dtree/ Click here to start the tool using Java Web Start. Sorsolt feladat a példák a számított DF max. mélysége Beküldendő megoldás P, N,, TP/P, FP/N, azaz a számított DF helye a ROC diagramon Több információ a HF szerveren

https://en.wikipedia.org/wiki/confusion_matrix