Osztályozó algoritmusok vizsgálata

Osztályozó algortmusok vzsgálata Önálló laboratórum beszámoló Készítette: Kollár Nándor Konzulens: Kupcsk András 2009-2-4

Osztályozás A gép tanulás, adatfeldolgozás területének egyk ága az osztályozás, amely egyfajta felügyelt tanulás módszer. Az osztályozás célja, hogy egy adott adathalmazból, amelyben az adatokat n darab attrbútum és egy osztály (címke, cél attrbútum) jellemez, olyan modell felépítése, amely képes új adatok (amelyeknek smert mnden attrbútuma de smeretlen az osztálya) osztályának megbízható, pontos meghatározására. Ennek szemléltetésére lássuk az. táblázatot. Adottak tehát ( x, c ) ( x N, c N ) adatpontok, mndegyknek smert mnden N + attrbútuma és osztálya s. Kérdés, hogy egy új, smeretlen osztályba tartozó, ( x,?) pont osztályát hogyan tudjuk meghatározn? Ezzel a kérdéssel foglalkozk az osztályozás, és jelen dolgozatom s. ( x, c ) X X n x x (, c 2 2 x ) x 2 x n 2 c ( x N, c N ) N x N x N c ( x N +,?) N + n n C c x N + x? 2. Táblázat Az osztályozó algortmusoknak számtalan gyakorlat alkalmazás területe van: osztályozó algortmusokat használnak például dıjárás elırejelzésre a múltbel dıjárás adatokat felhasználva, kézírás lletve beszéd felsmerésére, pénzügy adatok elemzésére, tızsde elırejelzésre és még sok már egyéb területet lehetne említen. Számos, különbözı bonyolultságú algortmus fejlesztettek k, néhány ezek közül: Bayes hálók, neuráls hálok, support vektor gépek, K-legközelebb szomszéd algortmus, döntés fák. Az önálló laboratórum kereten belül utóbb két algortmussal smerkedtem meg lletve mplementáltam MATLAB környezetben. Az algortmusokat a konzulensemtıl kapott teszt adatbázson k s próbáltam. Az mplementált algortmusok teszteléséhez elkezdtem MATLAB környezetben egy keretrendszer írását. Ennek célja, hogy egyszerően lehessen új algortmust ntegráln, és teszteln. A vezérlést megkönnyítendı létrehoztam egy grafkus felületet, errıl látható egy screenshot az. ábrán.. ábra 2

Osztályozó algortmusok teljesítményének mérése Amkor elkészítünk egy adatbázs alapján osztályozó algortmusokat, szükségünk van valamlyen módszerre azok teljesítményének összehasonlításához. Ehhez a félév során három módszert smertem meg és mplementáltam a keretrendszerbe. Egyszerő módszer A legegyszerőbb módszer a rendelkezésre álló adatokból egy modell felépítése, majd ezen adatokat használja fel a teljesítmény mérése s. Ezt llusztrálja a 2. ábra. 2. ábra Az algortmust a rendelkezésre álló adathalmazzal tanítjuk és teszteljük s. Ekkor a teszt hba (és egyben a tanító hba s) az elhbázott sorok (azoknak a sorok, ahol a tényleges osztály és az algortmus által jósolt osztály különbözk) számának és az összes adatnak az arányaként N számítható: PM = c! = cm. N = Tanító és teszt halmaz módszere Ezzel a módszerrel az adathalmazt két részre bontjuk: egy tanító és egy teszt halmazra. A tanító halmazt használjuk fel a modell építésére, a teszt halmazt pedg a kalakított modell teljesítményének mérésére. A módszer a 3. ábrán látható. 3. ábra Ekkor két hbát defnálhatunk. A modell építése során fellépı hba a tanító halmazon tran elhbázott sorok aránya a tanítóhalmaz méretéhez vszonyítva: P M = c! = cm. A N = tesztelés során fellépı hba a tesz halmazon elhbázott sorok aránya a tanítóhalmaz méretéhez N vszonyítva: N test N + N+ P M = c! = cm. A módszer elınye, hogy az algortmus N N = N 3

teljesítményét meg tudjuk vzsgáln új adatokon s. Hátránya vszont, hogy pazarló, hszen csak az adatok egy részét használjuk tanításra. Kereszt valdácó A kereszt valdácót használva az adathalmazt k részre osztjuk. Ezután k lépésben alkalmazzuk a teszt és tanító halmazok módszerét: Mnden lépésben egy résszel, mnt teszt halmazzal A több k- résszel, mnt tanító halmazzal Ezt llusztrálja a 4. ábra. 4. ábra Kereszt valdácóval a teljesítmény mértéke: P = k M p k = ahol p az. körben a teszt halmazon a hba. Az módszer elınye, hogy kevésbé számít, hogyan választjuk szét az adatokat. Hátránya, hogy futásdeje hosszabb, mnt az elıbb módszeré, ugyans k lépésben végezzük a tanítást és tesztelést. A keretrendszerbe az smertetett három teljesítményértékelı módszerbıl lehet választan egy lenyíló lstából. K-legközelebb szomszéd (k-nearest negghbour) algortmus Az egyk osztályozó algortmus, amvel a félév során megsmerkedetem és mplementáltam, a k-legközelebb szomszéd algortmus volt. Ez egy egyszerő algortmus, amely nem épít modellt, egy új, smeretlen osztályú adatpontot a hozzá legközelebb k adatpont osztálya alapján egyszerő többség szavazással határozza meg. Amennyben k páros, és döntetlen áll fenn (két osztályból ugyananny példány van), véletlen választással döntünk. Az paramétere a k szám, lletve két pont távolságát meghatározó metódus. Néhány gyakor távolságfüggvény: Eukldesz távolság, Mahalanobs távolság, Hammng távolság. Az algortmus lépése: Knn(k, ujpont, adatbázs) Számoljuk k az újpont és a több pont (adatbázs) távolságát Rendezzük a távolságokat növekvı sorrendbe 4

Az új pont osztály a hozzá legközelebb k pont távolsága alapján többség szavazással dıl el Az algortmus MATLAB mplementácója: functon [y_tran_pred, y_test_pred] = KNN(k, data) o = sze(data.x, ); y_tran_pred = zeros(o, ); y_test_pred = zeros(o, ); % Elso oszlop : aktuals pont tavosaga a tobbtol % Masodk oszlop : a pontok osztálya dstance = zeros(o-, 2); % Az osszes pontra megvzsgaln... for = :o pont = data.x(,:); y_tran_pred(, ) = data.t(); m=repmat(pont, o-, ); dstance(:,) = eucldean(data.x([:-,+:o],:), m); %dstance(:,) = mahalanobs(data.x([:-,+:o],:), m); dstance(:,2) = data.t([:-,+:o],:); sorted=sortrows(dstance, ); y_test_pred(, ) = sgn(sum(sorted(:k,2))); f (y_test_pred(, )==0) % If k s even, we randomly chose y_test_pred(, )=; end end end % Eukldesz távolság functon [dst] = eucldean(x, y) dst = sqrt(sum((x-y).^2, 2)); end A mőködését egy orvos adatokat tartalmazó mntaadatbázson teszteltem s. Az 5. ábra mutatja a hba alakulását a k paraméter függvényében (-tıl 200-g, az adatbázs 262 rekordot tartalmazott), látható, hogy a legalacsonyabb hbát ezen az adatbázson k=20 környékén kapjuk, ekkor a hba 24,33%. A tesztelés során Eukldesz távolságot használtam. 5

0.45 0.4 0.35 0.3 0.25 0.2 0 20 40 60 80 00 20 40 60 80 200 5. ábra Döntés fák A másk algortmus család, amvel a félév során foglalkoztam, a döntés fák voltak. Ezek az algortmusok már modellen alapuló osztályozás módszerek, a modell egy fa, amelynek belsı csomópontja döntés pontok, levele pedg az osztályok. Döntés fák alkalmazásával bonyolult összefüggéseket egyszerő, elem döntések sorozatával tudunk levezetn. Egy fa felépítésére többféle algortmus létezk: ID3 (Ross Qunlan), C4.5 (Ross Qunlan) CART. Ezek közül az ID3 algortmust mplementáltam, ezért errıl írnék bıvebben. A 6. ábrán egy döntés fa látható annak eldöntésére, hogy menjünk-e tenszezn, vagy sem (forrás: []). Új adatpont esetén a gyökértıl ndulva a döntés pontokban a megfelelı rányt választva eljutunk egy levélbe, amely meghatározza az új pont osztályát. A fent említett algortmusok azzal foglalkoznak, hogy mlyen módon lehet egy lyen fát a rendelkezésre álló adatokból felépíten úgy, hogy a fa mérete ne legyen túl nagy, és jól általánosítsa az adatokból knyerhetı nformácót. Az ID3 algortmus 6. ábra 6

Az ID3 algortmus feltételez, hogy az attrbútumok és a cél attrbútum értékkészlete s dszkrét halmaz. Az algortmus alapötlete, hogy mnden lépésben egy olyan attrbútumot választ a még nem vzsgáltak közül, amelyk legjobban szétválasztja az adatokat az osztályra nézve. Az algortmus pszeudokódja: ID3(példák, cél_attrbútum, attrbútumok) Készíts egy gyökér csomópontot If ( e példák poztív), then RETURN gyökér(címke = +) If ( e példák negatív), then RETURN gyökér(címke = -) If (attrbútumok üres) then RETURN gyökér(címke = leggyakorbb cél_attrbútum érték a példákon) Else o A := Az attrbútumok közül az, amely legjobban szétválasztja a példákat. o Legyen a gyökér döntés attrbútuma A o For (A attrbútum mnden lehetséges v érékére) Adj egy új ágat a gyökér alá, amelyre A= v Legyen példákv a példák azon részhalmaza, melyekre az A attrbútum értéke egyenlı v If ( példák v üres) Then az új ág alá készíts egy új levél csomópontot, amelynek címkéje = leggyakorbb cél_attrbútum érték a példákon Else készíts egy új részfát ezen ág alá: ID3( példák v, cél_attrbútum, attrbútumok-{a}) End RETURN gyökér Az algortmus kulcs lépése az adatokat legjobban szétválasztó attrbútum kválasztása. Ezzel elérhetı, hogy a fa szntjenek száma ne legyen túl nagy. A megfelelı attrbútum kválasztásához az ID3 az nformácó nyereséget (nformaton gan) használja. Ennek megéréséhez elıször az entrópa fogalmát kell bevezetn. Egy S adathalmaz entrópája: C Entropy( S) = p log 2 p ahol C a cél attrbútum értékkészletének mérete, p pedg azon = rekordok aránya az adathalmaz méretéhez képest, ahol a cél attrbútum az. értéket vesz fel. Ezek alapján egy A attrbútum nformácó nyeresége: Sv Gan ( S, A) = Entropy( S) Entropy( Sv ) ahol v az A attrbútum egy értéke, S v az S S v A adathalmaz azon részhalmaza, ahol az A attrbútum v értéket vesz fel. Az algortmus mőködésére a ábrán látható döntés fa építésének egy lépével szemléletem (a példa forrása: []). Adottak a 3. táblázat adata. 7

3. Táblázat Elsı lépésben az algortmus kszámítja mnden egyes attrbútum (oszlop) nformácó nyereségét: Látható, hogy az. oszlopnak a legnagyobb az nformácó nyereség értéke, így elsı lépésben ezen oszlop értéke szernt készít az algortmus az elágazásokat (7. ábra). 7. ábra Így tehát az adatokat három részre bontottuk: egyk ágon napos, másk ágon felhıs, harmadk ágon esıs dı estere. A napos és esıs dı esetén az adathalmaz nem homogén az osztályra (tenszezzünk-e) nézve, így ezeken az ágakon az algortmus rekurzívan, a leszőkített 8

adathalmazzal tovább épít a fát, míg felhıs dı esetén már homogén az adathalmaz, így tt a fában egy levél csomóponthoz értünk, ahol a tenszezzünk-e kérdésre a válasz genlı lesz. Az algortmust mplementáltam, és a mnta adatbázson teszteltem s. A tesztelés során az egyszerő módszert használva, ugyanazon adatokon tanítva és tesztelve az algortmust a hba 2% körülre adódott. A teszt és tanító halmazok módszerével, lletve kereszt valdácóval a tanító halmazon továbbra s 2-4% körülre adódott a hba, míg a teszt halmazon 35-45% körül lett. A hba növekedésének egy magyarázata lehet, hogy az adathalmaz szétbontása során egyes attrbútumok lehetséges értéke kmaradnak a tanító halmazból. Ennek llusztrálására lássuk a 4. táblázatot. X C 9 9-6 2-4. Táblázat Az elsı 3 sorral, mnt tanító halmazzal, a többvel, mnt tesztadattal alkalmazzuk a teszt és tanító halmazok módszerét. Ekkor tegyük fel, az X attrbútum nformácó nyeresége a legnagyobb. Ennek az attrbútumnak az értékkészlete álljon az { 2,6,9} elemekbıl álló halmazból. Amkor ezen attrbútum szernt vágjuk szét az adathalmazt, létrehozunk új csomópontokat az X attrbútum értékenek megfelelıen. A tanító halmaz alapján vszont nem smert, hogy az X=2 attrbútum értékhez mlyen osztály tartozk, így az algortmus ehhez a csomóponthoz az osztályok közül a tanító halmazon leggyakorbb osztályt (azaz -et) rendel. Ezt ábrázolja a ábra. Látható, hogy a X=9 ágon nem homogén az adathalmaz, így ezen az ágon tovább épít az algortmus a fát, az X=6 ág a tanító halmazt tekntve, így ezen ágon egy levél csomóponthoz jutunk, ahol a cél attrbútum értéke, míg az X=2 ágon szntén egy levél csomóponthoz jutunk, az osztály a tanító halmazon a leggyakorbb osztály (tt az algortmus nem tud a tanító halmaz alapján ennél jobb becslést adn). Ez az eset láthatóan hbát eredményez a teszt halmazon, hszen ekkor az X=2 attrbútum értékő sorhoz C=- érték tartozk, am nem egyezk az algortmus által elıre jelzett C= értékkel. Ez a probléma kküszöbölhetı a C4.5 algortmus alkalmazásával. X X=9 X=6 X=2 8. ábra Boostng A félév során megsmerkedtem még a boostnggal (Robert E. Schapre) s, bár az algortmust dı hányában végül nem mplementáltam. A boostng tulajdonképpen egy meta-algortmus, tehát felhasznál más osztályozó algortmusokat. Alapötlete, hogy gyenge osztályozókat felhasználva egy olyan erıs osztályozót lehet készíten, amely képes megbízhatóan, nagy pontossággal meghatározn smeretlen példányok osztályát. A gyenge osztályozó 9

tulajdonképpen bármlyen osztályozó algortmus lehet, amely a véletlen választásnál (bnárs cél attrbútum esetén 50%-nál) jobb hatékonyságot ér el. Ezeket a gyenge osztályozókat megfelelıen kombnálva létrehozható egy olyan erıs osztályozó, amely: Pontos A tanítás során a hba nagyon gyorsan csökken Nem szenved az algortmus az overfttng jelenségétıl Az algortmus smertetett tulajdonsága matt kézenfekvı megoldás lenne a már mplementált ID3 algortmus hatékonyságát boostnggal növeln elkerülve így az ID3-nál s fellépı overfttng jelenségét, lletve gyorsítva a tanulást. Az overfttng jelenségét a ábrán szemléltetem. A tanítás során az dıvel (például neuráls hálózatok tanítás körenek száma) növekedésével a tanítás hba egyre csökken, míg a teszt hba egy darabg szntén csökken, majd növekedn kezd. Ennek oka az, hogy a tanítás körök növekedésével az algortmus elveszt általánosító képességét, és ahelyett, hogy az adatokba rejlı általános koncepcót knyerné, egyszerően csak memorzálja az adatokat, és új adat érkezése esetén nem képes megfelelıen besoroln. Kevés tanító lépés esetén pedg nylvánvalóan még nem tudja meghatározn az adatokban rejlı általános szabályokat. Így tehát a lépésszámnak van egy optmáls értéke, ahol a tanító hba és a teszt hba s vszonylag alacsony. Ez látható a 9. ábrán. 9. ábra Ez a jelenség boostng használatával elkerülhetı, amnt az a 0. ábrán s látható. Az alsó görbe a tanító hbát, a felsı pedg a tesz hbát ábrázolja. Látható, hogy a tanító hba nagyon gyorsan csökken, és jelen esetbe el s ér a nullát, míg a teszt hba szntén csökken, és ugyan nem ér el a nullát, de nem s kezd emelkedn, mnt a boostng alkalmazása nélkül. Tervek tovább félévekre 0. ábra 0

A következı félévben tervezem az elkezdett keretrendszer tovább fejlesztését. Tervezem tovább osztályozó algortmusok (C4.5, SVM) mplementálását és ntegrálását. Az ID3 algortmust felhasználva szeretném elkészíten a boostng algortmusok egy mplementácóját, az AdaBoost algortmust. Tovább tervem még a tanszéken folyó projektbe bekapcsolódn, amelynek célja a gumnyomás csökkenést detektálása egy hatékony és olcsó megoldás kfejlesztése. Ehhez egy lehetséges rány az osztályozó algortmusok használata, amely az autók olcsón mérhetı paramétere alapján egy gyors (például AdaBoostot) használó osztályozó algortmussal eldönt, hogy csökkent-e a gumnyomás, vagy sem. Egy lyen megoldással lehetségessé válk a hrtelen gumnyomás detektálása és jelzése nem csak csúcs kategórás, hanem a ks és közép kategórás személyautók esetén s.

Irodalomjegyzék: [] Tom M. Mtchell: Machne Learnng [2] Robert E. Schapre: The Boostng Approach to Machne Learnng [3] L. G. Valant: A Theory of the Learnable [4] Nls J. Nlsson: Introducton to machne learnng [5] Dr. Bodon Ferenc: Adatbányászat algortmusok 2