A KLASSZIKUS NELDER-MEAD ÉS EGY ÚJONNAN KIFEJLESZTETT OPTIMUMKERESİ ELJÁRÁS TELJESÍTMÉNYÉNEK ÖSSZEHASONLÍTÁSA Kıházi-Kis Ambrus Kecskeméti Fıiskola GAMF Kar Természet és Mőszaki Alaptudományi Intézet Fizika Szakcsoport BEVEZETÉS Nemlineáris optimalizálási problémák megoldására széleskörően alkalmazzák a direkt keresı eljárásokat. Ezek deklaráltan nem próbálnak közelítı gradienst számolni, ami legtisztábban úgy történhet, hogy a célfüggvény értékeinek csak a sorrendjét használják a keresés során. Ha a paraméterértékekbıl és a hozzájuk tartozó célfüggvény értékekbıl a célfüggvény analitikus jellemzıit is megpróbálják modellezni, akkor a keresıeljárásunkat deriválás-mentes keresıeljárásnak nevezzük. Az elızıekben emlegetett keresıeljárásokat azért szokásos és célszerő alkalmazni nagyon sok gyakorlati problémára, mert a gradienseket számoló, azt felhasználó eljárások esetenként nem is alkalmazhatóak, vagy az alkalmazásuk megkövetelte elıkészítı munka miatt inkább a problémákhoz egyszerően adaptálható nem analitikus módszerekhez folyamodnak. Az analitikus keresıeljárások, ha alkalmazhatóak rendszerint jelentısen gyorsabbak, mint a nemanalitikus eljárások, de az elıbbiek adaptálásához szükséges idı figyelembe vétele általában már a nemanalitikus eljárásokat teszi gyorsabbá. Dolgozatomban megvizsgálom a szakirodalomban található talán legsikeresebb direkt keresı eljárás, a Nelder és Mead által kifejlesztett szimplexek alkalmazásán alapuló eljárás [1,2], és a szakirodalom legújabb eredményei [3] alapján általam kidolgozott [4] keresıeljárás teljesítıképességét egy változtatható dimenziójú problémán. AZ OPTIMALIZÁLT PROBLÉMA Vékony dielektrikum-rétegek egymásra párologtatásával különlegesen viselkedı tükrök valósíthatók meg [5]. A rétegek vastagságának változtatásával egészen változatos reflexiós, transzmissziós tulajdonságú dielektrikumtükrök készíthetık. Lehet nagyon kis visszaverı képességő (antireflexiós rétegek), de nagyon nagy reflexióképességő tükröket is csinálni (lézerben használt tükrök). Sıt megvalósítható az is, hogy egy tükör az egyik hullámhossztartományon kicsi, a másikon pedig nagy reflexióval rendelkezzen. Megjegyzem még, hogy a reflexió fázistulajdonságainak elıírásával a femtoszekundumos optikában napjainkban nélkülözhetetlen fázismodulált tükrök valósíthatók meg. Sima üvegfelületre (hordozóra) párologtatnak általában két különbözı törésmutatójú anyagból készült rétegeket. Akkor kaphatók a leghatékonyabb tükrök, ha az alkalmazott rétegek anyagainak törésmutatói jelentısen eltérnek egymástól. A látható és a közeli
infravörös hullámhossztartományon például a Ti O2 /SiO 2 anyagpárt szokták alkalmazni. A 800 nm-es hullámhosszon ezek törésmutatói rendre 2,3503, illetve 1,448 értékőek. Egy gyakran alkalmazott hordozó törésmutatója ezen a hullámhosszon 1,515. A tükrök a hordozóra felvitt kis és nagy törésmutatójú rétegek szendvicsébıl áll. A tükör tulajdonságainak megtervezése a rétegek vastagságainak helyes megválasztását jelenti. Megjegyzem, hogy információhiány miatt a rétegek anyagának diszperziós tulajdonságait elhanyagoltam, ami a számolást modell-számolássá minısíti vissza. Ezt nem tekintem nagy problémának, mivel jelen munka célja alapvetıen a keresıeljárások tesztelése. Dolgozatomban széles (700-900 nm) hullámhossz-tartományban minél nagyobb reflexiójú tükör tervezési problémáját vizsgálom. Az egyes hullámhosszokon a rétegrendszerek reflexióját egy C++ programnyelven megírt eljárás segítségével számolom. Különbözı rétegszámú ( N ) elrendezés mellett optimalizáltam a tükör reflexióját. Kiindulópontként véletlen rétegvastagságokkal bíró rétegeket választottam: a rétegek vastagságát véletlenszerően választottam a 30 nm és a 300 + 400 n nm értékek között ( n itt a réteg törésmutatóját jelenti.). Az optimalizált paraméterek a tükör rétegeinek vastagsága ( N darab valós paraméter: d 1,..., d ). Az optimumkeresés célfüggvénye: ahol ( ) j N f 200 ( d1,, d N ) = ( 1 R( λ j ) j= 0 4 K, (1) R λ a rétegrendszer intenzitás-reflexiója [5] a = ( 700 j) λ nm ( j = 0,1,2, L, 200 ) j + hullámhosszokon. A célfüggvény egyszerően a reflexiónak az egységtıl számított eltérésének minimalizálására szolgál. A definiált célfüggvény akárhányszor differenciálható a paraméterek N dimenziós terében. A célfüggvény definiálásakor azért vettem az amplitúdó-reflexiójának az egységtıl vett eltérésének ilyen magas hatványát, hogy a célfüggvény segítségével jelentısen elnyomjuk az esetlegesen csak egy-két vizsgált hullámhosszon megjelenı reflexió csökkenést. VISZGÁLT OPTIMALIZÁLÁSI ELJÁRÁSOK Két eljárást vetettem össze. Az egyik a széles körben ismert és jól ismert problémái ellenére is a gyakorlatban széleskörően alkalmazott Nelder-Mead szimplex algoritmusa [1, 2]. Ebben az N dimenziós paramétertérben egy N + 1 csúcspontú kezdetben szabályos alakzat csúcspontjaiban megvizsgált függvényértékek összevetésével keresnek jobb célfüggvényértékeket adó paramétereket. Az eljárás lényegébıl adódóan a szimplex alakja a keresés során eltorzul, idomul a problémához: alapvetıen ezzel magyarázható (fıként alacsony dimenziós esetben megfigyelhetı) sikeressége. De ez az egyik oka esetleges kudarcának is: bizonyos esetekben a szimplex teljesen elfajulhat, ezért nem képes megtalálni a paraméterek javulásának irányát [3]. A másik vizsgált eljárást a szakirodalomban talált legújabb elméleti eredmények [3] alapján hoztam létre [4]. Direkt keresı eljárások elméleti tanulmányozása eredményeképpen definiáltak a keresıeljárásoknak egy eléggé bı halmazát, amely elemeinek bizonyíthatóan konvergens a viselkedésük egyenletesen folytonosan differenciálható célfüggvények esetén. A keresı eljárások ezen halmazát az angol nyelvő szakirodalomban Generating Set Search (GSS) eljárásnak szokás hívni. Magyar elnevezéséül a Pozitív bázison alapuló eljárás megnevezést választottam, mert az eljárás sikeressége a keresési irányok helyes
megválasztásán alapul, amit úgy biztosíthatunk, hogy a keresési irányok nem negatív együtthatókkal is kifejthessék a paramétertér tetszıleges vektorát [3]. A keresési irányok között szükségképpen megbúvó pozitív bázis biztosíthatja (többek között) az eljárás konvergenciáját, de az ezen felül ügyesen megválasztott keresési irányok gyorsíthatják fel úgy az eljárást, hogy az praktikusan alkalmazható legyen. Az általam megvalósított [4] és a jelen dolgozatban is vizsgált eljárás minimális pozitív bázist ( N dimenziós szimplexet) alkalmaz. Egy pont, mint középpont körül szabályos szimplexet véve annak csúcspontjaiban kiszámolom a célfüggvény értékét, ha jobbat találok, akkor a legjobb értéket adó pontba jutok, ellenkezı esetben pedig felére csökkentett lineáris mérető, új, véletlen beállítású szimplexszel próbálkozom. Az eljárás felgyorsítása érdekében használt felfedezı lépések értelme az, hogy az elızıekben sikeres elmozdulások finomításával, esetleg növelésével igyekszünk a lokális optimum közelébe. Egy lépés sikerességén felbuzdulva nem a sikeres új pont körül próbálkozom, hanem az új pontból az elızı sikeresnek bizonyult lépéssel elıállított új pont környezetében vizsgálom a szimplexszel a függvény viselkedését. Ha az elızı sikeres (az úgynevezett felfedezı) lépéssel elıállított új pont körül nem kapok jobb függvényértéket, akkor az utolsó sikeres pont körül még a szimplex segítségével keresek jobb függvényértéket adó pontot, csak ez utóbbi sikertelensége esetén csökkentem a keresı szimplex méretét. EREDMÉNYEK 1. Ábra. A talált optimumok rendezett sorozata ( N = 2 ). A Nelder-Mead eljárás és a továbbiakban Felfedezı algoritmusnak nevezett, általam kidolgozott eljárások teljesítményének összevetésérıl számolok be. Az elızıekben vázolt tükörtervezési problémát oldottam meg 2, 4, 8, illetve 16 rétegvastagság feltételezésével. A paramétertér dimenziója megegyezett a felvett rétegek számával. A két keresıeljárást párhuzamosan használtam: egy véletlenszerően választott kezdıpontból mindkettıt elindítottam, mind a két eljárás által talált optimumot és a szükséges függvény-kiértékelések számát feljegyeztem. Az 1.-4. ábrákon látható grafikonok két-két görbét ábrázolnak. Mindegyik görbe a megfelelı keresési eljárás által talált optimumok eloszlását adja. Ezeket egyszerően úgy nyertem, hogy az eljárás segítségével véletlen kezdıpontokból talált optimumok értékét növekvı sorrendbe rendeztem. A görbék vízszintes szakaszai olyan
értékekhez tartoznak, amiket az eljárás többször is megtalált. Nyilvánvalóan az az eljárás tekinthetı sikeresebbnek, amelyik görbéje alacsonyabb értékrıl indul és lassabban növekszik. 2. Ábra. A talált optimumok rendezett sorozata ( N = 4 ). 3. Ábra. A talált optimumok rendezett sorozata ( N = 8 ). Egységesen elmondható, hogy a Nelder-Mead eljárás minden esetben kevesebb függvénykiértékelés után leállt. Alacsony dimenzióban ( N = 2, 4 ) ez a kiértékelések közel feleannyi száma az optimum megtalálásához volt elegendı. Magasabb dimenzióban ( N = 8, 16 ) azonban ez az eljárás jellemzıen nem érte el az optimális pontot, amit a Felfedezı eljárás továbbra is megtalált. Nyolc és tizenhat dimenziós esetekben is leállt a Nelder-Mead eljárás a kiértékelések néhány ezres száma után, de mint azt a 3. és a 4. ábráról láthatjuk távol a lokális optimumtól. A klasszikus eljárásnak a dimenziószám növekedésével megmutatkozó egyre rosszabb teljesítményét a keresés lényegéhez tartozó szimplex torzulással magyarázhatjuk. Magasabb dimenzióban a szimplex torzulása egyre könnyebben válik patologikussá: a torzulás miatt az eljárás nem is kereshet a célfüggvény javulását ígérı irányokban.
A Felfedezı eljárás görbéje a 16 dimenziós esettıl eltekintve jól láthatóan lépcsıs szerkezető, ami azt jelenti, hogy az eljárás vissza-visszatalált a lokális optimumokba. A dimenziószám növekedésével növekszik a lokális optimumok száma (ahogyan az 1.-4. ábrákon is jól látható), ezért a 16 dimenziós esetben csupán ezek igen nagy száma miatt nem láthatunk lépcsıket. A két keresıeljárás teljesítıképessége közötti különbség a dimenziószám növekedésével növekszik. A 16 dimenziós esetben a két eljárás által talált optimumok nagysága között 100-as nagyságrendő szorzótényezıt figyelhetünk meg. Minden okunk meg van feltételezni azt, hogy ez a tendencia magasabb dimenziókban is folytatódik. 4. Ábra. A talált optimumok rendezett sorozata ( N = 16 ). 5. Ábra. A keresıeljárások leállásáig végrehajtott célfüggvény-kiértékelések száma ( N = 16 ). Ös Meg kell azonban jegyezni, hogy a felfedezı eljárás függvényértéke kiértékeléseinek a száma a tizenhat dimenziós esetben több tízezres, sıt szászezres értékeket is elér (5. ábra).
ÖSSZEGZÉS, KÖVETKEZTETÉSEK Az elméletileg megalapozott felfedezı eljárás magas dimenziószám esetén is megbízhatóan eljut egy lokális optimumba az általunk vizsgált jól viselkedı célfüggvény esetén. Éppen ennek fényében vált látványossá, hogy a dimenziószám növekedésével a klasszikus Nelder-Mead szimplex eljárás hogyan romlik el: alacsony dimenziószám ( N < 4 ) mellett még megbízhatóan eljut a lokális minimumba, de magasabb ( N > 8 ) dimenziók esetén ez már nem mondható el. N = 16 esetben már 100-as nagyságrendő szorzótényezı marad a megtalált és a tényleges optimum értéke között (lásd 4. ábra). A Felfedezı eljárás sikeressége a Pozitív bázisokon alapuló eljárások bizonyítottan [3] jó tulajdonságain alapul. A keresıeljárásokat nem csak ezen a jól skálázható dimenziójú problémán teszteltem. Hasonló teljesítmény-jellemzıkre találtam a lézerrezonátorok teljesítményének optimalizációja [7] és mérési eredmények és rétegrendszer jellemzıinek illesztése esetén is. Az eljárás azonban módosítható a Pozitív bázison alapuló eljárások definíciója [3] értelmében azért, hogy az eljárás kevesebb függvénykiértékelés árán találja meg a lokális optimumot. A továbbiak tervezem a célfüggvény lokális jellemzıinek (gradiens, görbület) modellezésének a beépítését is a keresıeljárásba annak konvergencia-sebességének növelése érdekében. IRODALOMJEGYZÉK 1. Press, W. H., Teukolsky, S. A., Vetterling, W. T., Flannery, B. P.: Numerical Recipies in C, The Art of Scientific Computing, Second Edition, Cambridge University Press, Cambridge, New York, Port-Chester, Melbourne, Sydney, 1992. 2. 7. J.A. Nelder, R.A. Mead, A simplex method for funtion minimization, Computer Journal, 7, 308-313 (1965). 3. Kolda, T.G., Lewis, R.M., Torczon, V.: Optimization by direct search: new perspective on some classical and mothern methods, SIAM Review, 45, 385-482, 2003. 4. Kıházi-Kis Ambrus: Praktikus direkt keresı eljárások, Felsıfokú alapképzésben matematikát, fizikát és informatikát oktatók XXXII konferenciája, Kecskemét, 2008. 5. Born, M., Wolf, E.: Principles of Optics, Pergamon Press, Oxford, 1965. 6. Ferencz Kárpát, Szipıcs Róbert, Recent development of laser optical coatings in Hungary, Optical Engineering, 32, 2525-2538, 1993. 7. Kıházi-Kis Ambrus: Longitudinálisan pumpált lézerek optimális pumpálása, AGTEDU 2008, Kecskemét, ugyanebben a kiadványban, 2008.