Gépi tanulás és Mintafelismerés jegyzet Csató Lehel Matematika-Informatika Tanszék BabesBolyai Tudományegyetem, Kolozsvár 2007 Aug. 20
2
1. fejezet Bevezet A mesterséges intelligencia azon módszereit, melyeket numerikus vagy enyhén strukturált 1 adatokra tudunk alkalmazni, gépi tanulásos módszereknek nevezzük. A gépi tanulás e meghatározás alapján egy szerteágazó tudományág, melynek a keretén belül sok módszerr l és ennek megfelel en sok alkalmazási területr l beszélhetünk. A módszerek közös jellemz je, hogy olyan algoritmusokat fejlesztenek ki, melyek egy bejöv nagy 2 adathalmazból a hasznos információkat tudják kinyerni. A fenti megfogalmazás kell en általános. Az adat jelenthet: mérési eredményeket egy rendszer ki- és bemenetér l. Ez a klasszikusnak is mondható regressziós feladat, ahol a cél egy berendezés melyr l mérési adatokat rögzítünk m ködési paramétereinek a becslése. égitestek jellemz it, ahol a cél egy automata osztályozó felépítése. mikrofonok által rögzített akusztikus jeleket. Ebben az esetben az információ az adatokban lev szöveg beszélt szöveg esetén vagy a hangmagasságok és ritmus zene feldolgozásánál. (referencia) egy DNS-spirálban az aminosavak egymásutánját. Ez a típusú adathalmaz a modern biológiában és a gyógyszerészettudományokban, az orvosi illetve bioinformatikában nagyon gyakori. A feldolgozás célja olyan aminosav-szekvenciák keresése, melyek géneket alkotnak, illetve azon vegyi anyagok meghatározása, melyek egy adott génszekvencia m ködését befolyásolják (segítik vagy gátolják). referencia. m holdas meggyeléseket. A tengerek felszínér l visszaver d napfény mérése információkat szolgáltat a felszínen keletkez mikro-hullámokról, ezek a hullámok pedig segítenek a szél becslésénél. Ez inverziós feladat ahol ismerjük a jelenségek zikai modelljét. Ki tudjuk számítani tehát a szél ismeretében a m hold által mért értékeket, azonban a fordított irányú következtetés sokkal nehezebb. referencia. 1 Enyhén strukturált (nagyon felületesen): az adatok komponensei (dimenziók) közötti kapcsolat nem túl bonyolult 2 Nagy adathalmaz pl. az internet azaz az interneten megtalálható összes dokumentum. Ebben a halmazban történ böngészés illetve az azt megel z lépések jó példák a gépi tanulás alkalmazásaira. 3
4 1. FEJEZET. BEVEZETŽ cm 190 180 170 160 4 14 3 69 5 12 18 13 10 17 16 2 7 15 11 150 140 8 1 50 60 70 80 90 100 110 kg 1.1. ábra. A testsúly és a magasság kapcsolata 18 bejegyzés alapján. Az X tengelyen a meggyelt súlyok, az Y tengelyen a magasság; a szaggatott vonal a súly-magasság kapcsolat becslése. Az adatok sokféleségéhez hasonlóan a módszer azaz az algoritmus is sokféle lehet. Jelenthet: osztályozó rendszert, ahol minden bemen adathoz címkét rendelünk, azaz besoroljuk egy kategóriába. Klasszikus példa a postai rendszerek által használt felismer, ahol a kézzel írott számjegyeknek kell meghatározzuk a tartalmát. referencia approximátort, mely bemeneti értékekhez tartozó folytonos értékeket rendel. Ekképp meg tudjuk becsülni korábbi betegek adatainak feldolgozása alapján például azt, hogy egy páciens milyen eséllyel fog egy nehéz szívm tétet túlélni. referencia prediktort, mely múltbeli meggyelések alapján képes egy becslést adni a meggyelt folyamat jöv beli alakulásáról. referencia 1. Példa. Testsúly és magasság kapcsolatát szeretnénk vizsgálni orvosi adatok alapján. Tegyük fel, hogy rendelkezésünkre áll 18 meggyelés, ahogyan azt a 1.1 ábrán látható. A cél, hogy a magasság és súly között egy lineáris kapcsolatot deniáljunk, azaz meghatározzuk az ^m i = α + βs i egyenlet optimális (α, β) paramétereit: mindegyik meggyelt adatra az m i magasság közel van az egyenlet alapján számított értékhez. A fenti feladatok amint láttuk feltételezik, hogy adatokat gy jtsünk és feltételezzünk egy modellt ami az adatokat generálta. Ezen fogalmakat tisztázzuk a következ kben. Jelen jegyzet nem önálló kutatás, a terjedelmes irodalomnak egy rövid összefoglalója, a teljesség igénye nélkül. 1.1. Deníciók, meghatározások Tegyük fel, hogy az adatokat tároltuk a D = {z 1,..., z N } halmazba. Az z i adatok lehetnek bármilyen típusúak. A korábbi példák esetéhez hasonlóan minden adatot tovább bontunk egy bemeneti és egy kimeneti értékre: z i = (x i, t i )
1.1. DEFINÍCIÓK, MEGHATÁROZÁSOK 5 ahol az x i R d a rendszer bemenete, a t i R a rendszer kimenete, d pedig a bemeneti adatok dimenziója. Feltételeztük tehát, hogy a bemeneti és a kimeneti adatok típusa valós. Továbbá feltételezzük, hogy létezik egy függvény, mely a kimen adatokat generálja, legyen ez a függvény f : R d R. A feltételezés fontos, merthogy a A következ kben feltételezzük, hogy