Evolúciósalgoritmusokalkalmazása azadatelemzésben SimonKároly Babes BolyaiTudományegyetem ksimon@cs.ubbcluj.com 1
Evolúciósszámítástechnikaimodellek Evolúciósszámítástechnika:biológiaiinspirációjúkeresésiés optimalizálásiparadigma Alapötlet:abiológiaireprodukció,természeteskiválasztódásés evolúciómodellezése lehetségesmegoldáspopulációkevolúciója Evolúciósszámítástechnika evolúciósszámítástechnikai modellek EvolúciósAlgoritmusok EvolúciósAlgoritmusok:GenetikusAlgoritmusok,Evolúciós Programozás,EvolúciósStratégiák,Genetikusprogramozás Evolúciósoptimalizálás:komplexoptimalizálásiproblémák megoldásaevolúciósalgoritmusoksegítségével 2
EvolúciósAlgoritmusok lehetségesmegoldáspopulációkevolúciója biológiaiinspirációjúkeresésioperátorok:kiválasztás,keresztezés, mutáció alehetségesmegoldásokegypopulációegyedei,mindenikegyeda keresésitéregy egypontjátkódolja az egyedeket egy probléma specifikus rátermettségi (fitness) függvénysegítségévelhasonlítjukössze apopulációfejlődéseegyadottleállításifeltételeléréséigtart a megoldás: az utolsó populáció, annak egy része, vagy a legnagyobbrátermettségiértékkelrendelkezőegyed 3
GenetikusAlgoritmusok azegyedeketkromoszómákkalkódoljuk Kódolásitípusok: bináris:akromoszómákbitsorozatok valós:probléma specifikuskódolás Keresésioperátorok: keresztezés(recombination):újegyedeklétrehozásaaszülők genetikaiinformációjánakkombinálásával mutáció:újegyedlétrehozásaegyegyedgénállományának véletlenszerűmegváltoztatásával kiválasztásakeresztezésre:apopulációbólmelyegyedeklesznek kiválasztvamintszülők kiválasztásacserére:melyegyedekkerülnekakövetkező generációba 4
GenetikusAlgoritmusok Akeresésifolyamat: mindeniterációnálegyújpopulációjönlétre generációk néhányegyedetrátermettségükalapjánkiválasztunkkeresztezésre. apárokbólszármaztatottegyedekegyközbeesőpopulációtalkotnak. amutációoperátormódosítjaezeketazutódokatésegyúj közbeesőpopulációjönlétre. azújgeneráció:aközbeesőpopuláció,ésazeredetipopulációból kiválasztottegyedek 5
Evolúciósoptimalizálás egycélfüggvényoptimalizálása komplexoptimalizálásiproblémák(np teljesproblémák, kombinatoriálisoptimalizálásiproblémák,nemkonvexvagynem deriválhatócélfüggvények,stb.) dinamikus,multi kriteriálisésmulti modálisoptimalizálás 6
Evolúciósmulti modálisoptimalizálás Multi modálisoptimalizálás: astandardgenetikus algoritmusokaglobálisoptimum felekonvergálnak sokvalósproblémaesetében többoptimálisvagyoptimálist közelítőmegoldáslétezik néhányesetbencélunklehet mindenoptimumpont meghatározása(lokális optimumok) speciálisevolúciósmodelleket alkalmazhatunk 7
Evolúciósmulti modálisoptimalizálás Klasszikusmodellek: alpopulációkalkalmazása megosztottrátermettségifüggvény példákklasszikusmodellekre:niching,crowding,migration, speciationstb. Hátrányok: túlkoraikonvergencia különbözőalpopulációkhoztartozóegyedekkeresztezése érvénytelenmegoldások optimumpontokközöttiegyedekkeresztezése fölösleges műveletek,magaskomplexitás Újevolúciósmulti modálisoptimalizálásieljárások: Roaming,GeneticChromodynamics,stb. 8
GeneticChromodynamics egyújkeresésiésoptimalizálásimetaheurisztikatöbboptimum pontmeghatározására alapötlet:stabilalpopulációkkialakulásánakelősegítése,ésezek fenntartása azalpopulációkkülönbözőoptimumpontokfelekonvergálnak jellemzők:változóméretűpopulációkhasználata, steppingstone keresésimechanizmus,rövidtávúkölcsönhatások, merging (egyesítési)operátor mikropopulációsmodelleketalkalmazhatunk bármilyenprobléma specifikuskodifikáláshasználatalehetséges 9
Alkalmazásazadatelemzésben:klaszterezés Központiproblémaazadatelemzéskereteinbelül: azobjektumoktermészetescsoportosulásánakmeghatározása Klaszterezés(Clustering): egyadathalmazelemeitcsoportokbasoroljukegymáshozvaló hasonlóságukalapján egycsoportotegyprototípusvektorhatározmeg,a klaszterközéppont. aklaszterezésfolyamánkétproblémátkellmegoldanunk: megkellhatároznunkacsoportokszámát megkelltalálnunkaközéppontokat Statikusklaszterezésieljárások: aklaszterekszámaelőremeghatározott Dinamikusklaszterezésieljárások: azeljárásmeghatározzaaklaszterekszámátis 10
GC alapúdinamikusklaszterezés mindenosztálytegyprototípushatározmeg,mindenprototípust egykromoszómakódol acélatermészetesklaszterközéppontokfelekonvergáló kromoszómákazonosítása akezdetipopulációtvéletlenszerűengeneráljuk akeresésifolyamatsoránalkalmazottkeresésioperátorok: kiválasztás,keresztezés,mutációésegybeolvasztás(merging) 11
Rátermettségifüggvény Gausstípusúrátermettségifüggvény: m f (L j ) = e xi L j 2 σ j2 i =1 Rátermettségtájkép (fitnesslandscape) 12
GCDC Kölcsönhatásitartomány: mindenegyedesetébenmeghatározunkegykölcsönhatási tartományt akölcsönhatásitartománysugaraegyedenkéntváltozhat Kiválasztás: mikropopulációsmodelltalkalmazunk Keresztezés: agénekkonvexrekombinációja Mutáció: agénekadditívperturbációja Túlélés: aleszármazottatösszehasonlítjukadominánsszülővel,ésa rátermettebbkerülbeakövetkezőgenerációba(directsurvival competition) 13
GCDC Egybeolvasztás(merging): azalpopulációkonbelülakromoszómákegyidőutánközel kerülnekegymáshoz amikorkétkromoszómaközöttitávolságegyadottküszöbértékalá csökken,azilletőegyedeketegybeolvasztjuk Leállásifeltétel: haegymeghatározottszámúlépésutánnincsenváltozása populációban,akeresésifolyamatleáll azutolsópopulációtképezőegyedeklesznekaklaszterek középpontjai meghatározzukapontokhovatartozását 14
GCDC Paraméterek: akölcsönhatásitartománysugara(interactionradius) azegybeolvasztásiküszöbérték(mergingdistance) amutációléptéke(mutationstepsize) arátermettségifüggvényσjparamétere Adaptációsmechanizmusok: akölcsönhatásitartományadaptációja összefüggésbevezetéseakölcsönhatásitartományméreteésaσj paraméterközött dinamikusrátermettségifüggvény dinamikus optimalizálás amutációléptékeésakölcsönhatásitartományméreteközötti összefüggés,azegybeolvasztásiküszöbértékautomatikus meghatározása csatoltcellás(link cell)eljárás arövidtávúkölcsönhatások kezelése,kisebbkomplexitás,újadaptációstechnikák 15
Példa PéldaaGCDCeljárás működésére:agcdc általmeghatározott prototípusok1,10,50 és150iterációután. 16
Alkalmazás:GeneExpressionAnalysis Génkifejeződés(génexpresszió):soklépcsősfolyamat,melynek soránagénbenrejlőinformáció(dns)megjelenikvalamilyen fehérjében,ésennekeredményekéntasejtszerkezete,funkciójajól mérhetőenmegváltozik Génexpressziósszintekmérése microarraytechnológia génexpressziósadatok(általábanvalósmátrixok:asorokkülönböző géneknek,azoszlopokkülönbözőfeltételeknekvagy időpillanatoknakfelelnekmeg) GénexpresszióAnalízis(GeneExpressionAnalysis): Cél:agénexpressziósadatokstatisztikaielemzése agének klaszterezéseazexpressziósszintekfüggvényében Motiváció:asejtekműködésénekmegértése,agénkifejeződési szintekváltozásánakmegfigyelésebetegségek,kezelésekidejealatt 17
AGCDCalkalmazás RCNSadathalmaz:112génkifejeződésiszintjeiapatkány központiidegrendszerénekkialakulásaalatt,9időpillanatban abiológiailagértelmezhetőfelosztás6osztályttartalmaz 18
Eredmények Elérteredmények: azosztályokszáma:9 17 közeliklaszterekegybeolvasztása 6klaszter: a3.és5.klaszter:ok az1.klaszterfelosztása3kisebbklaszterbe a2.,4.és6.klaszteregybeolvasztása Összehasonlítások: GCDC k means,linkage aklaszterezéspontosságánakmérése:tévesztésmátrix(recall, precision F measure) method F measure k means 5.9009 GCDC 6.1781 Linkage 8.1396 19