Csoportos üzenetszórás optimalizálása klaszter rendszerekben

Átírás

1 Csoportos üzenetszórás optimalizálása klaszter rendszerekben Kivonat Juhász Sándor, Csikvári András Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Automatizálási és Alkalmazott Informatikai Tanszék Budapest, Goldmann György tér 3. IV. em. A klaszterek, bár jelentős vetélytársai a hagyományos szuperszámítógépeknek, a kommunikációs alrendszerek sebessége területén még lemaradásban vannak, mivel a klaszterek csomópontjainak összekapcsolásánál használt általános célú kommunikációs elemek kisebb sávszélességet biztosítanak a drágább, speciálisan egy adott feladatra kifejlesztett társaiknál. Cikkünk a klaszter kommunikáció egy részterületével, a csoportos kommunikációs primitívek működésének gyorsításával foglalkozik. A különálló számítógépekből felépített klaszter rendszerekben a csomópontok együttműködésének megkönnyítésére különféle üzenetkezelő könyvtárak (pl. PVM, MPI) állnak rendelkezésre, melyek az üzenetküldés és fogadás mellett összetett csoport kommunikációs elemeket (ún. kommunikációs primitíveket) is biztosítanak a felettük működő programok számára. A kommunikációs primitívek hatékonyságát jelentősen befolyásolja a kommunikációs topológia (egy-több, fa, több-több), a szinkron vagy aszinkron végrehajtás, de akár a kommunikációs megoldás szimmetriája is. Cikkünkben az üzenetszórás (broadcast) primitív különféle klaszterekben gyakran használt implementációit vizsgáljuk meg alaposabban, majd bemutatunk egy, a hagyományostól lényegesen eltérő új algoritmust, mely az üzenetek részekre bontásával és szimmetria kialakításával tovább növeli a kommunikáció teljesítményét. Az újfajta algoritmus egy egy-mindenkinek (broadcast) típusú üzenetszórás primitívet definiál, mely az eddig ismert, különféle architektúrákban (lánc, hiperkocka, fa) megvalósítható O(n), O(dn /d ), O(log b n) komplexitású megoldásokkal szemben a klaszter architektúrában szoftveresen biztosítja a résztvevő csomópontok számától elvileg független, O() komplexitást, melyet eddig csak hardver támogatással lehetett elérni. A fent bemutatott megoldás alkalmazhatóságát mérésekkel illusztráljuk, melyek során az összehasonlítási alapot a számunkra elérhető leggyorsabb üzenetkezelő könyvtár implementáció (MPICH) saját üzenetszórás primitívje szolgáltatja. A cikkben leírt eredmények közvetlenül felhasználhatók a csoport kommunikációs primitívek teljesítményének növelésére, így közvetve hozzájárulnak a klaszter környezetben futó elosztott algoritmusok futási idejének javításhoz is.

2 I. Bevezető A szabványos hálózati elemekből és személyi számítógépekből felépített klaszterek a hagyományos szuperszámítógépeknél olcsóbb alternatívát kínálnak a nagy számítási igényű feladatok elvégzésére, ráadásul a szabványos, redundáns elemekből felépülő klaszterekben a hibatűrés és a léptékezés megoldása lényegesen egyszerűbb. Számos előnyük ellenére a klaszterek nem szorították ki teljesen az egyéb típusú, kivétel nélkül drágább számítási teljesítményt nyújtó megoldásokat (SMP, NUMA, MMP és vektor szuperszámítógépek). Ennek egyik oka [] a klaszterek kommunikációs alrendszerének relatív lassúsága, hiszen az általános célú kommunikációs elemek kisebb átbocsátó képességet biztosítanak drágább, speciálisan egy adott feladat elvégzésére kifejlesztett társaiknál, így a klasztereken futó az elosztott algoritmusok tervezésében kritikus szerephez jut a kommunikációs minta tervezése és a feldolgozás granularitás megfelelő nagyságának biztosítása [2]. A különálló számítógépekből felépített klaszter rendszerekben a csomópontok együttműködését szabványos hálózati kommunikációs közeg felett kell megszervezni. Ennek megkönnyítésére a különféle üzenetkezelő könyvtárak (pl. PVM [3], MPI [4][5]) az alapvető üzenetküldés és fogadás kommunikációs alapelemek mellett összetett csoport kommunikációs elemeket (ún. kommunikációs primitíveket) is biztosítanak a felettük működő programok számára. A kommunikációs primitívek hatékonyságát jelentősen befolyásolja a kommunikációs topológia (egytöbb, fa, tórusz, hiperkocka), a szinkron vagy aszinkron végrehajtás, de akár a kommunikációs megoldás szimmetriája is. A kommunikációs primitívek alapvető típusai az. ábrán láthatók. A különféle csoport kommunikációs funkciók megvalósítása az adott rendszerben jelentősen befolyásolja az adott könyvtárt használó alkalmazások teljesítményét. A kommunikáció maximális sebességét alapvetően meghatározzák az összekapcsoló hálózat olyan fizikai jellemzői, mint a késleltetés, a maximális sávszélesség, és a topológia. Számos kutatási eredmény [6][7][8] utal azonban arra, hogy a mai gyors hálózatok mellett a párhuzamos alkalmazások teljesítménye nem elsősorban a hardver, hanem sokkal inkább a szoftver korlátoktól függ. Különösen igaz ez a kisebb (6kB-nál rövidebb) üzenetekre, ahol a felhasználó alkalmazások között mérhető átviteli időnek csupán töredékét teszi ki a hálózati közegen való átjutás ideje. A mai tipikus klaszter adatok konfigurációk Fast Ethernet, Gigabit Ethernet, ATM vagy A A A 2 A 3 A B C D broadcast Myrinet [9] kapcsolatot használnak, és a csomópontok B B B 2 B 3 A B C D aktív hálózati kapcsolókon (switching hub) keresztül egy C C C 2 C 3 A B 2 C 2 D 2 ütközésmentes, virtuális crossbar rendszerben D D D 2 D 3 A B 3 C 3 D 3 kommunikálnak. A megbízható adatátvitel biztosításához a fizikai hálózat fölé különféle többrétegű hálózati A A A 2 A 3 scatter A B C D protokollokat (pl. TCP/IP) implementálnak. Az ilyen B B B 2 B 3 A B C D protokollok működtetése során a csomópontok számos C C C 2 C 3 gather A 2 B 2 C 2 D 2 protokollhoz kapcsoló üzenetet is kénytelenek küldeni, és D D D 2 D 3 A 3 B 3 C 3 D 3 szükség lehet az adatok többszöri másolására is a rétegek között. Az érintett rétegek, az adatmásolások és a A A B C D allgather kontextus váltások száma, az operációs rendszer különféle B A B C D időzítési és ütemezési mechanizmusai szintén közvetlenül C A B C D hozzájárulnak az overhead növekedéséhez []. Ha az D D D 2 D 3 A B C D adatcserében résztvevő csomópontok nem közvetlenül kapcsolódnak egymáshoz, akkor jelentős késleltetést A A A 2 A 3 A B C D alltoall okozhat az útvonalválasztó algoritmus és az érintett B B B 2 B 3 A B C D állomások is. Ilyen esetekben a célállomás C C C 2 C 3 A 2 B 2 C 2 D 2 visszajelzésének megérkezéséig számos másolatot kell D D D 2 D 3 A 3 B 3 C 3 D 3 fenntartani ugyanarról az adatról, mely a memória erőforrások fogyasztásával jár, és így tovább lassíthatja a. ábra. Csoport kommunikációs primitívek működést. taszkok

3 A fenti tulajdonságok egyértelműen meghatározzák a pont-pont kapcsolatokon keresztülmenő üzenetek sebességét. A különféle csoport kommunikációs primitívek megvalósítása elsősorban a pont-pont kapcsolatokra épül, azonban a belső struktúrájuktól függően lehetőség nyílhat bizonyos párhuzamosítások alkalmazására. A párhuzamosítások az egyszerű üzenetátvitel sebességétől függetlenül tovább gyorsíthatják a működést, illetve segítségével jobban kiegyenlíthetővé válik a terhelés. Elterjedten használják azt a módszert, hogy az üzenetek begyűjtését és szétosztását nem egy irányító szerepet játszó központi elem vezérli, hanem mellette több közbenső csomópont is részt vesz az adott művelet megszervezésében. A folyamatban résztvevő csomópontok gyűrű, fa, különféle dimenzió számú hiperkocka vagy más architektúrába rendeződhetnek. Az egyes kommunikációs primitívek eltérő természetük miatt különféle módon párhuzamosíthatók, melynek hatásfokát lényegesen befolyásolja a hardver összeköttetések típusa és topológiája. A csoport kommunikációs primitívek közül kiemelkedik az üzenetszórás (broadcast) funkció optimalizálásának fontossága, mivel ez, amellett, hogy önmagában is gyakran használják, más kommunikációs primitívek (allgather, alltoall, és az. ábrán nem szereplő, szinkronizálásra szolgáló barrier illetve az egyszerű feldolgozási művelettel összekapcsolt adatgyűjtést végrehajtó allreduce primitívek) alapvető építőkövéül is alkalmazható, így működésének optimalizálása egyszerre több funkciót is felgyorsít. Cikkünk az üzenetszórás (broadcast) primitív különféle megvalósításainak kérdéskörével foglalkozik, különös tekintettel a klaszter környezetben történő megvalósítás lehetőségeire. A tipikus klaszteres környezetben a csomópontok aktív hálózati eszközökön (switching hub) keresztül kapcsolódnak össze, így az ezek a kommunikáció szempontjából egy virtuális crossbar rendszert alkotnak. Ilyen összekapcsoló rendszer mellett a különféle kommunikációs megoldások és topológiák hatása bizonyos határok között hardver átalakítások nélkül is vizsgálható. Cikkünk első részében megvizsgáljuk az üzenetszórás primitív implementációjának különféle lehetőségeit, és bemutatunk egy, a hagyományostól lényegesen eltérő új algoritmust is, mely az üzenetek részekre bontásával és kommunikáció szimmetriájának kialakításával tovább növeli a kommunikáció teljesítményét. Az újfajta algoritmus egy olyan üzenetszórás típusú primitívet definiál, mely az eddig ismert, különféle architektúrákban (lánc, hiperkocka, fa) megvalósítható O(n), O(dn /d ), O(log b n) komplexitású megoldásokkal szemben a klaszter architektúrában szoftveresen biztosítja a résztvevő csomópontok számától elvileg független, O() komplexitást, melyet eddig ilyen környezetben csak hardver támogatás mellett lehetett elérni. A cikkünk második fejezetében bemutatjuk az üzenetszórás megvalósítására eddig használt módszereket, elemezzük a hardver támogatáson alapuló megoldások lehetőségeit és korlátjait, kitérve néhány egészen friss fejlesztés ismertetésére is. A harmadik fejezet a kutató csoportunk által kifejlesztett új megoldás ismertetését és elemzését tartalmazza, részletesen bemutatva, hogy a mindennapos klaszter környezetekben használt eszközökön hogyan valósítható meg szoftverből a csomópontok számától független üzenetszórási idő. A csomópontok számától való elvi függetlenség azonban még nem elegendő a gyakorlati felhasználáshoz, hanem az is fontos, hogy a gyakorlati jelentőséggel rendelkező paraméter tartományokban (csomópontszám, üzenetméret) az algoritmus valóban felülmúlja teljesítményben, skálázhatóságban és hordozhatóságban az eddigi megvalósításokat. A negyedik fejezetben az általunk kifejlesztett algoritmus alkalmazhatóságát egy teszt rendszerben elvégzett konkrét méréssorozat segítségével illusztráljuk. A mérésekhez az összehasonlítási alapot a számunkra elérhető leggyorsabb üzenetkezelő könyvtár implementáció (NT-MPICH v.3. []) saját üzenetszórás primitívje szolgáltatja. Végül cikkünk egy összefoglalással zárul, mely áttekinti a bemutatott algoritmus előnyeit és használhatóságának korlátait, összehasonlítva az általunk bemutatott módszert a széles körben használt egyéb szoftver megoldásokkal és a hardver alapú fejlesztésekkel is. Bemutatjuk az eredményeink gyakorlati felhasználásának lehetőségeit és kitérünk a közeljövő kutatási terveire is.

4 II. Az üzenetszórás megvalósításának különféle módszerei Az a megfelelő teljesítményű elosztott alkalmazások egyszerű elkészítéséhez elengedhetetlen a rugalmas, skálázható és nagy teljesítménnyel rendelkező kommunikáció primitívek használata. Ebben a fejezetben a különféle üzenetszórási módszereket a fent említett három szempont alapján jellemezzük és hasonlítjuk össze egymással. A rugalmasságot a megoldás implementációjának egyszerűségével, hordozhatóságával és a megbízhatóság (hibatűrés, sorrendben és csakis egyszer történő kézbesítés) megvalósíthatóságával mérjük. A nagyobb teljesítmény érdekében az üzenetkezelő könyvtárak (pl. MPI szabvány [4]) csak azt írják elő, hogy a kollektív hívások blokkolóak, vagyis a hívóra eső kommunikációs rész elvégzéséig a hívás nem térhet vissza, azt viszont már nem, hogy a teljes kollektív kommunikáció befejeződésig várnia kellene (kivétel az éppen a szinkronizálásra szolgáló barrier primitív). Az előbbi feltétel miatt a teljesítményt az algoritmus teljes futási ideje mellett a kezdeményező csomóponton mért minimális elvi késleltetéssel is jellemezzük. A teljes futási időt az üzenetméret és csomópontok számának függvényében megadott aszimptotikus komplexitás függvénnyel jellemezzük. Az aszimptotikus komplexitás számításánál a széles körben elterjedt, az üzenethossz függvényében lineáris modellt [2][6][7][2][3][4][5] alkalmazzuk, és feltételezve, hogy a küldéshez és a fogadáshoz a teljes hálózati sávszélesség rendelkezésre áll (teljesítmény felső korlátja). A skálázhatóság fogalma az algoritmus a teljesítményének a csomópontok számától függő változását jellemzi [2][6]. Ezt általánosságban jól leírja a teljesítmény jellemzésével kapcsolatban már említett komplexitás függvény, de emellett figyelembe kell venni a központi elemek jelenlétét is, mert ezek bizonyos körülmények között könnyen szűk keresztmetszetté válhatnak. II. Üzenetszórás szoftveres módszerei A különféle kommunikációs primitívek optimális megvalósíthatóságát erősen befolyásolja az alatta található hardver összekapcsolási topológia (közösen használt busz, hierarchikus busz, fa, gyűrű, hipertórusz, hiperkocka, crossbar). A klaszter architektúrák olcsó hardver felépítése a bennük használt szabványos feldolgozó és hálózati elemeknek köszönhető. A hálózati technológia mai fejlettségi szintjén a széles körben elterjedt, a nagy sávszélességű eszközök ( Mbit/s Fast Ethernet, Gigabit Ethernet) ára hasonló, sőt egyes esetekben alacsonyabb is a régi kisebb sávszélességű eszközöknél, és aktív hálózati kapcsolók (switching hub, router) sem növelik jelentősen a teljes hardver árát. A fenti okok miatt a mai klaszterekben szinte kizárólag nagy sávszélességű, teljesen kapcsolt kommunikációs hálózatot használnak, hiszen így az ütközések elkerülésével tovább növelhető a kritikus kommunikációs teljesítmény. A hálózati kapcsolókhoz egyesével közvetlenül kapcsolódó csomópontok lényegében egy virtuális crossbar topológia felett működnek, ahol az egyes csomópontok elérésének sebességében nincs lényeges különbség egészen addig, míg az aktív hálózati eszközök az aktuális forgalmat különösebb késleltetés nélkül képesek továbbítani (a nagy forgalom esetén a megnövekedő késleltetés oka a pufferekben való sorban állás, és a teli pufferek miatt eldobott csomagok lehetnek). A továbbiakban vizsgálódásunkat gyakorlati jelentősége miatt teljes egészében az ilyen virtuális crossbar topológiára korlátozzuk. A virtuális crossbar hálózat felett létező különféle üzenetszórási algoritmusokat a 2. ábrán foglaltuk össze. Ezek közül legegyszerűbb az egy pontból kiinduló üzenetszórás, ahol a forrás csomópont az összes partnerének maga küldi el a szétosztásra szánt üzenetet. A módszer előnye, hogy pontosan követi az üzenetszórás elvi koncepcióját (egy csomópont adatát mindenkihez eljuttatja), ezért könnyen érthető, könnyen implementálható és a hibakeresést is jelentősen leegyszerűsíti. Az egyszerű pont-pont kapcsolatok feletti implementáció a hibatűrés és a hordozhatóság megvalósítását is megkönnyíti. Egyszerűsége és rugalmassága miatt sok korai (99- es évek közepe) üzenetkezelő könyvár megvalósítás (MPICH [7], LAM/MPI [8]) implementálta így az üzenetszórást klaszter rendszerekben. Mivel akkoriban alacsony ára miatt széles körben alkalmazták az osztottan használt (Ethernet) busz hálózati topológiát, ez az implementáció előnyös

5 volt a hálózati ütközések elkerülése szempontjából is, mivel csak egy adó csomópont volt a rendszerben (és még egy kis forgalmú, aki éppen a nyugtákat küldte). a) egyetlen központból kiinduló üzenetszórás b) bináris fa topológiára épülő üzenetszórás c) hiperkocka topológiára épülő üzenetszórás a) n b) c) ábra. Különféle gyakori üzenetszórási topológiák áttekintése Az üzenetszórás primitív teljes lefutásának t c ideje p darab fogadó csomópont esetén, feltételezve, hogy az n méretű üzenet elküldési ideje n*t d, és a üzenetküldés késletetése a küldő csomóponton t : t ( n, p) = p( t + nt ) O( p) () c Ennek alapján látható, hogy az üzenetszórás ideje a csomópontok számának növelésével lineárisan nő. Ez a megoldás viszonylag kis teljesítményt biztosít, különösen, ha azt is figyelembe vesszük, hogy végig a forrás csomópont üzenetszóró függvénye vezérli a műveletet, ezért annak teljes befejeződéséig nem is térhet vissza. A feladatok egyoldalú elosztása (a forrás végig dolgozik, míg a többiek alig) és a fogadó csomópontok számával lineárisan növekvő futási idő a skálázhatóságot is jelentősen korlátozza. A futási idő lineáris komplexitása lényegesen csökkenthető a 2.b ábrán látható fa struktúra alkalmazásával. Ekkor kihasználva, hogy aki már megkapta az üzenetet az újabb forrásként szolgálhat, az eredeti forrás és a többi közvetítő csomópont csupán két szomszédjának küldi el az üzenetet, és üzenet teljes szétosztása az ábrán látható lépések szerint alakul. Ha egyetlen üzenet küldése teljesen leköti a fizikai sávszélességet, akkor a második küldését csak az első befejezése után érdemes indítani annak érdekében, hogy a következő szint egyik csomópontja minél előbb tovább küldhesse az üzenetet. Ha a csomópontokhoz előre rögzített azonosítókat rendelünk, akkor a saját sorszáma alapján minden csomópont tudja, hogy merre kell továbbítania az üzenetet. A csomópontokat úgy célszerű megszámozni, hogy a helyeket az elérhetőség sorrendjében töltjük fel. Ha a csomópontok előre elrendezése túlságosan rugalmatlan, akkor a hasznos üzenettel együtt minden köztes csomópont megkapja a célcsomópontok listáját (a forrásnál az összes többi csomópont), és az üzenet továbbküldésénél listájának felét balra, másik felét jobbra küldi tovább. Ha nem osztható a kettővel, akkor a gyorsabb (a 2.b ábrán a bal) ág felé eggyel több csomópontot küld. Ilyenkor az üzenetszórás ideje az () formulában használt jelölésekkel: d = 2 * log 2( p + 2) 2 * ( t + ntd ) O(log p) (2) tc( n, p) 2 A formulában a log 2 (p+2) tag a lényeges, mely jelzi, hogy ilyen elrendezés esetén szintenként 2 egységgel nő a küldés ideje. A szekvenciális küldéssel szemben a módszer előnye a jóval kisebb komplexitásában rejlik, ugyanakkor az első csomópont már két üzenet elküldése után szabaddá válik, és megkezdheti más feladatok elvégzését. A broadcast primitív ilyen módon történő implementálását tartalmazzák a mostani MPI ajánlások [4], és több újabb üzenetkezelő könyvtár, mint pl. a MagPIe [9] is. A széleskörű elterjedtség mögött az áll, hogy a nagyobb kiterjedésű hálózatok szintén fa struktúrájúak, és a topológiák illeszkedése nagyobb teret biztosít az alsó szinteken egyre növekvő számú üzenet küldés párhuzamosítására

6 A fizikailag is hiperkocka vagy hipertórusz összeköttetésben álló csomópontokra kidolgozott broadcast eljárások szintén alkalmazhatók virtuális crossbar összeköttetésű klaszter rendszerekben. Lényeges különbség azonban, hogy az üzenetek a különféle irányokba nem egyszerre, hanem csak egymás után indíthatók (2.c ábra). A módszer előnye, hogy a kezdő csomópont nem csupán 2, hanem a megvalósított hiperkocka dimenzió számával (d) megegyező párhuzamos ágat indít, így gyorsabb az algoritmus felfutása p függvényében. A klaszterekben előnyt jelenthet, hogy az algoritmus futása során a párhuzamosság mértékét korlátozza a hiperkocka keresztmetszete p (d-)/d, amit helyesen megválasztva a hálózati kapcsoló pufferei nem telítődnek. Természetesen a párhuzamosság mértékének korlátozása az aszimptotikus komplexitás csökkenésével is jár a fa struktúrához képest. Az algoritmus futási ideje az () formulában használt jelölésekkel, ha az első d- darab dimenzió méretét a n /d lefelé kerekítésével határozzuk meg: d / d d p + 2 *( t + ntd ) O( dp ) t ( n, p) = (3) c A 3. ábrán összehasonlítottuk a különféle üzenetszórási módszerek klaszteres implementációjának futási idejét. Bár a bináris fa aszimptotikusan (nagy p-kre) nyilvánvalóan gyorsabb, látható hogy az általánosan elterjedt, kisebb méretű klaszterekben akár a háromdimenziós kocka implementáció is gyorsabb lehet. Ennek ellenére ezt a topológiát klaszterekben egyáltalán nem használják, mert implementációja bonyolultabb, kevésbé skálázható, és a jelenleg használt hálózati kapcsolatok topológiája sem illeszkedik erre a sémára. Fontos megjegyezni, hogy a fa és a hiperkocka séma is rugalmatlanabb a központosított megoldásnál, mivel vagy előre ki kell jelölni a csomópontok helyét a topológiában, vagy az üzenettel együtt továbbítani kell, hogy merre kell tovább adni az üzenetet. Az első megoldás megnehezíti a dinamikusan változó, tetszőleges processz halmaznak történő üzenetszórást, míg a második többletadatok továbbításával jár, ami kis üzenetek esetén akár a hasznos üzenet méretét is meghaladhatja. lépésszám Központból vezérelt Bináris fa 3D kocka ábra. Különféle üzenetszórási módszerek klaszteres implementációjának futási ideje fogadó csomópontok száma

7 II.2 Üzenetszórás hardver támogatással Az előző megoldások követték az MPI szabvány [4] azon ajánlását, hogy a csoport kommunikációs primitívek implementációi az üzenetkezelő könyvtár pont-pont üzenet átviteli függvényeire épüljenek. Bár ez nem feltétlenül a leghatékonyabb megoldás, azonban nagyban elősegíti az összetett csoport primitívek gyors és hordozható implementálást (más hardver platform esetén csak a pont-pont kommunikációt kell újra megírni). Természetesen a nagyobb implementációs ráfordítás és a hordozhatóság feladása árán a teljesítmény tovább növelhető. A hagyományos Ethernet szabvány különféle sebességű változatai mellett az újonnan fejlesztett, kis (<μs) késleltetésű, nagy (több Gbps) sávszélességű, a klaszterekben is egyre elterjedtebben használt új hálózati szabványok (SCI [9], Quadrics [2], InfiniBand [22]) az üzenetszórás megvalósításához hardver támogatást is nyújtanak. Több új nagy teljesítményű MPI implementáció [23][24][25] is úgy ér el nagy skálázhatóságot és jelentős teljesítmény növekedést, hogy a hardver támogatást kihasználva a forrás csomópont egyetlen üzenetet küld, és annak szétosztásáról és célba juttatásáról már az aktív hálózati elemek gondoskodnak. Ezzel a módszerrel az üzenetszórás ideje a csomópontok számától elvileg függetlenné válik, így lényegesen jobb skálázhatóság és teljesítmény érhető el, mint az előzőleg bemutatott szoftveres, pont-pont kommunikációra épülő megoldások esetén. A hardver broadcast primitívre épülő megoldásnak a platform függőség és hordozhatóság megszűnése mellett egyéb hátrányai is vannak. A hardver broadcast használata esetén minden csomópont pontosan ugyanazt az üzenetet kapja, ezért a megbízhatóságot (hibatűrés, egyszeri és sorrendben történő továbbítás), a nagy üzenetek kezelését és a tetszőleges processzcsoport felé történő üzenetküldést a szoftver rétegekben kell megoldani [25]. A megbízhatóság kérdéskörével számos tanulmány foglalkozott [27][28][29][3]. A probléma lényege, hogy a megbízható, sorrendben történő üzenettovábbításhoz nem elegendő az üzenet elküldése, hanem elengedhetetlenül szükséges a fogadó csomópontok egyfajta visszajelzése (acknowledgement, nyugta) is. A visszajelzések eljuttatása a forrás csomópontba azonban hagyományos pont-pont kapcsolattal történik, vagyis a forrásnak fel kell készülnie az összes partnerétől érkező válaszok fogadására, melyek bár kis méretűek, de a csomópontok számával együtt lineáris növekvő mennyiségben érkeznek (ACK elárasztás problémája [3]). Szintén külön nehézséget jelent, hogy bármelyik csomópont visszajelzésének elmaradása vagy negatív visszajelzése esetén az összes többi csomópontot hátráltatva az adott csomagot újra kell küldeni. Emellett, mivel a hardver broadcast mindenkinek egyforma csomagot küld, így a kommunikációnak mindenhol egyszerre a leglassabb fogadó tempójában kell előrehaladnia. Egy ilyen protokoll implementálása olyan komoly nehézséget vagy teljesítmény csökkenést jelenthet, hogy bizonyos implementációk, mint pl. a QSW [24] saját MPICH [7] implementációja, a HP Alaska MPI implementációja, vagy Chen és társainak IP multicast-ra épülő [25] implementációja bízva a hálózati átvitel hibamentességében nem is támogatják a megbízható átvitelt. A probléma mértéke jelentősen csökkenthető, ha ritkább és időben később történő nyugtázás (lazy-acknowledgement) is megengedett, vagy ha a nyugta begyűjtést nem csak egyedül a forrás csomópont végzi, hanem a fogadók csoportokat alkotnak, és minden csoportban egy kitüntetett csomópont végzi a nyugták begyűjtést és továbbítást a forrás csomóponthoz (kétszintű fa) [29]. Ez a kitüntetetett csomópont a csoporton belül elvégezheti a hiányzó csomagok újraküldését is (természetesen, csak ha neki magának sikerült megkapnia azt), lényegesen skálázhatóbbá téve a megbízható kommunikációt is. A csoportok kialakítása természetesen többlet adminisztrációt igényel. Ezt a módszer például a [26] implementációban is használják. A hardver broadcast segítségével kiküldhető csomagok mérete korlátozott, ezért a nagy üzeneteket kisebb csomagok formájában kell továbbítani. Itt a gondot az okozza, hogy a nagy üzenetek fogadására nem feltétlenül elegendő mindenhol a közvetlenül rendelkezésre álló pufferek mérete, így valahogyan érzékelni kell a partnerek fogadóképességének mértékét pl. egy csúszó ablakos megoldással, és a teljes átvitel sebességét a leglassabb fogadó tempójához kell szinkronizálni. Ezek a módszerek is visszajelzést igényelnek a partnerektől, sőt minden egyes partner

8 folyamatos adminisztrálásának terhét is a forrásra rója, mely már szintén nem független a csomópontok számától. Az üzenetkezelő könyvtárakban a processzek tetszőleges kommunikációs csoportokat (MPI kommunikátorok) kialakíthatnak, azonban hardver broadcast megoldások a konkrét hálózati típustól függően különféle korlátozásokkal járnak (pl. Ethernet: csak egy teljes hálózati szegmens címezhető, vagy Quadrics: a gyors távoli DMA átvitel használatához a megcímzett processzeknek folyamatos virtuális címtartományba kell esniük). Ilyen esetekben néha különféle hardver és szoftver átkonfigurálásokkal és trükkökkel a probléma megoldható, de gyakran előfordul, hogy az összes broadcast üzeneteket minden csomópontnak le kell nyelnie, és saját hatáskörében (processzor idejében) kell eldöntenie, hogy az adott csomag tartalma őt is ténylegesen érinti-e. A hardver támogatást kihasználó megoldásokról általában elmondható, hogy a pont-pont kapcsolatra épülő változatoknál lényegesen jobb teljesítményt és skálázhatóságot képesek nyújtani, de a csomópontok számától független elvi komplexitás a gyakorlati megvalósításokban nem feltétlenül, illetve csak komoly kompromisszumok árán (korlátozott méretű üzenetek, nem megbízható implementáció) teljesíthető. A hardver támogatás használata jelentősen megnöveli az implementáció bonyolultságát, és kivétel nélkül a hordozhatóság teljes elveszítésével jár. II.3 A különféle módszerek összehasonlítása Az. táblázatban összefoglaltuk a fent bemutatott szoftver és hardver megoldások különféle tulajdonságait. A táblázat utolsó sorában a következő pontban bemutatásra kerülő szimmetrikus üzenetszóró algoritmusunk tulajdonságait is feltüntettük. Látható, hogy nincs olyan módszer, mely minden szempontból felülmúlná a többit, így az adott követelményektől (csomópontok száma, üzenetméret, hordozhatóság) függően kell az optimálisat kiválasztani. A következő pontban bemutatásra kerülő szimmetrikus algoritmus célja, hogy kis (néhányszor tíz) csomópont esetén, a gyakorlatban leggyakrabban használt üzenetméretek esetén [3] egy gyors csomópontok számától független, hordozható megoldást biztosítson. üzenetszórás típusa klaszteres implementálás bonyolultsága rugalmasság hordozhatóság (op. rendszer, hálózat típusok) megbízhatóság megvalósítása teljesítmény késleltetés a forrásnál teljes futási idő skálázhatóság (futási idő változás további hozzáadott csomópontokkal) központi egyszerű egyszerű egyszerű n üzenet O(n) rossz bináris fa közepes közepes egyszerű 2 üzenet O(log 2 n) jó hiperkocka összetettebb közepes egyszerű d üzenet O(dn /d ) jó hardver alapú bonyolult nincs bonyolult üzenet O() kitűnő szimmetrikus közepes közepes egyszerű üzenet O() korlátozott. táblázat. Különféle üzenetszórási módszerek összehasonlítása

9 III. Résztvevők számától független üzenetszórás A ma használatos üzenetkezelő könyvtárak, bár lehetőséget adnak az üzenet aszinkron módon történő kezelésre is, alapjaiban szinkron kommunikációs mintát követnek. A II. pontban bemutatott algoritmusok feltételezik, hogy a különféle üzenetek kommunikációs lépései kizárólag egymás után következhetnek, és nagy hangsúly helyeznek az alacsony kezdeti késleltetések biztosítására (az előző formulákban t -lal jelölve). A kezdeti késleltetés és különféle szoftverből származó veszteségek [6][7] kiválóan eltakarhatók a több párhuzamos üzenet egyidejű továbbításával [8]. A párhuzamos üzenetek küldésének alapvető feltétele az üzenetkezelés aszinkron módon történő megvalósítása. A fizikai sávszélesség túllépése azonban aszinkron üzenetkezeléssel sem lehetséges, és ráadásul önmagában az (),(2),(3) formulákból származtatott aszimptotikus komplexitást sem befolyásolja, legfeljebb a t késleltetés hatásának csökkentésében segíthet. Az általunk kidolgozott új algoritmus az aszinkron adatátvitel és az üzenet darabolás módszerének kombinációjával egy olyan szimmetrikus kommunikációs mintát alakít ki a csomópontok között, mely szoftveres módon teszi elvileg lehetővé a résztvevő csomópontok számától független komplexitású üzenetszórás megteremtését. Az algoritmus működése a következő: a forrás csomóponton adott a szétküldése szánt n byte hosszúságú üzenet, és a fogadó csomópontok címeinek p hosszúságú listája. A forrás csomópont az üzenetek p egyenlő részre osztja, a kerekítési hibák elkerülésére a következő képlet szerint: ( i ) * n i * n ( i ) * n i. darab címe : i. darab hossza : (4) p p p ahol i egy futóindex [,p] értelmezési tartománnyal. A forrás csomópont az i. üzenetdarabot az i. célcsomópontnak továbbítja, kiegészítve azt egy üzenetszórás típusjelzéssel, egy egyedi id azonosítóval, az eredeti üzenet n hosszával és a forráson kívüli összes célcsomópont címének listájával. Mind az i darab üzenettöredék elküldésével a forrás csomópont a ráeső feladatot elvégezte. A fogadó csomópontok feladata a rájuk eső üzenetrész fogadása a forrás csomóponttól, majd annak szétküldése az összes többi csomópontnak. Ennek érdekében a fogadó csomópontok az üzenetszórás típusú üzeneteket a következőképpen dolgozzák fel:. Ha egy új id azonosítóval rendelkező üzenet érkezik, akkor létrehoznak egy puffert az id azonosítóhoz tartozó üzenet darabok összeállítására, és a megérkezett darabot a helyére másolják. Az üzenetdarab helye a (4) formula alapján határozható meg, i, p és n ismeretében. A beérkező üzenet közvetlenül tartalmazza az n-et, és a p megegyezik a csomópont lista hosszával. Mivel minden üzenet küldője a kommunikációs alrendszerből lekérdezhető, ezt a címet a listában megkeresve az i érték is megkapható. 2. Ha a fogadó csomópont olyan id azonosítóval rendelkező üzenetszórás típusú üzeneteket kap, mellyel már előzőleg találkozott, akkor az id-hez tartozó pufferbe bemásolja az új darabot az előző pontban leírtak szerint. 3. Speciális eset, amikor az i. csomópont az i. üzenetet fogadja, mivel ez közvetlenül a forrás csomóponttól származik. Mivel a küldő csomópont nem szerepel a szétküldött csomópontlistában, ebből a fogadó csomópont tudni fogja, hogy ez az üzenet az ő darabja. Ezt a darabot úgy másolja be a helyére, hogy a csomópont listában a saját címét keresi meg, és ennek a helye alapján határozza meg a puffer címzéséhez szükséges i értéket. A másolás mellett a megkapott csomópontlistán is végighalad, és az összes többi csomópontnak változtatás nélkül szétküldve a kapott üzenetet. Mivel a többi csomópont számára a küldő már ez a csomópont lesz, a listabeli helye alapján azok is a helyére tudják illeszteni a kapott darabot. Az algoritmus leírása jól mutatja, hogy a darabok megkapásának sorrendje tetszőleges, arra semmiféle megkötést nem kell tenni. A célcsomópontokon az utolsó üzenetdarab fogadásával és helyére illesztésével helyre áll az eredeti üzenet, és így itt is befejeződik az üzenetszórási algoritmus.

10 a) b) 4. ábra. A szimmetrikus üzenetszórás algoritmus kommunikációs mintája a) a forrás csomópontban, b) egy célcsomópontban A leírásból és a 4. ábra rajza jól mutatja, hogy az üzenetszórás algoritmus végrehajtásában minden célcsomópont egyformán, teljesen szimmetrikus módon vesz részt. Az algoritmus futási ideje, aktív kapcsoló elemmel (switching hub) összekapcsolt csomópontok között ideális esetben a következőképpen alakul: ha a darabolásból és az extra információk továbbításából származó overhead-től eltekintünk, akkor a forrás csomópontnak lényegében minden esetben egy n hosszúságú üzenetet kell, a célcsomópontok számától függően darabolva továbbítania. Ha a párhuzamos üzenetküldés a kezdeti t késleltetés elteltével a kimeneti kapcsolat teljes fizika sávszélességét képes kihasználni, akkor az utolsó darab küldése a csomópontok számától függetlenül t +nt d idő alatt megtörténik. Mind a p célcsomópont az üzenetnek egy n/p méretű darabját kapja meg, melyet p- további csomópontnak kell tovább küldenie. Ez ideális sávszélesség kihasználás mellett t + (p-)nt d /p késleltetéssel jár. Az i. csomópont utoljára, nt d idő után kapja meg a saját szétküldendő üzenetét, így kommunikációjának befejezése: t ( p ) ntd n, p) = t + ntd + t + = 2t + ntd 2 O() (5) p p c( vagyis az algoritmus futási ideje a csomópontok számától aszimptotikusan független, bár a gyakorlatban használt kis értékeknél számíthatunk némi növekedésre, hiszen a végrehajtási idő hiperbolikusan közelíti a végső értéket. A kezdeti növekedést azonban ellensúlyozza, hogy az aszinkron üzenetküldés hatékonysága a párhuzamos üzenetek számával nő, ezért az elvileg gyorsabb kis célcsomópont számnál kevésbé számíthatunk a sávszélesség teljes kihasználására és t idők teljes átfedésére. Bár a p növelésével egyre több adminisztrációt (másolás, csomagképzés, protokollok csomagokhoz kapcsolódó overhead-je), elegendően nagy n (p*csomagméret) esetén ezek a hatások nem olyan jelentősek, hiszen a nagy üzeneteket amúgy is sok csomagra kell szétbontani, legfeljebb a darabolás határai néhány (p) helyen módosulnak. Ha a protokollt nem rögzített szerepű csomópontokkal, hanem üzenetszórásonként dinamikusan változó taszk halmazra implementáljuk, akkor kisebb n és nagyobb p értékek használata mellett figyelembe kell venni az adminisztrációs többletköltségeket is (a szimmetrikus protokoll üzenet darabonkénti overhead-je). Ha egy tipikus implementációban üzenet valós hossza (n) és az azonosító (id) 4 byte-on, egy csomópont címe pedig 8 byte-on továbbítható, és minden elküldött üzenetre alacsonyabb protokoll szinteken 6 byte extra adminisztráció esik, akkor p csomópont esetén a küldendő hossz növekedése: 2 n = p( p *8 + 6) = 32 p + 8p (6)

11 ez p=5 esetén 52, p= esetén 2, p=2 esetén 384, p= esetén 832 extra byte átvitelét jelenti az eredeti n-hez képest. Ez nyilván korlátozza a skálázhatóságot és a hatékonyan használható üzenet méreteket, azonban vegyük észre, hogy ha még 5%-os overhead esetén is az (5) formula alapján számított időt csak másfélszeresére növeli, vagyis 3nt d lesz, ami egy 3 mélységű fa t = melletti késleltetésének felel meg. Egy ilyen fa 4 cél csomópontot tartalmaz, míg a p=4 esetén Δn=2464, vagyis 5kB fölötti üzenetméret esetén a szimmetrikus algoritmus lesz előnyben. Ha t >, akkor a szimmetrikus algoritmus előnye tovább nő (hiszen ebben csak két egymásra épülő szint van), és szintén előnyt jelent, hogy a csoportok dinamikus kialakításhoz más algoritmusoknál is szükséges lehet a csomópont lista továbbítására, illetve ha a szerepek előre hozzárendelhetők a csomópontokhoz (pl. egyszer az inicializálás során), akkor a szimmetrikus algoritmus is mentesül a (6) képletben leírt adminisztrációs tehertől. A módszer használatának további korlátjai vannak. Semmilyen csomópontszám esetén nem érdemes túl kicsi üzenet méretek mellett alkalmazni, mivel a hálózati protokoll hatékonysága a keretméret (pl. Ethernet ~,5kB) alatti csomagméret esetén jelentősen csökken. Az ilyen esetekben a szimmetrikus módszer első fázisa a központi üzenetszórásban leírtak szerint akár a teljes üzenetet is kioszthatja ugyanannyi idő alatt, a második fázis használata csak az erőforrásokat pazarolná. A túl nagy csomópontszám és üzenetméret próbára teheti a hálózati kapcsoló kapacitását is, mely nem föltétlenül képes az összes portján föllépő maximális be- és kimenő terheléssel egyszerre megbirkózni. Mivel az algoritmus futása során mindenki mindenkinek folyamatosan adatokat továbbít, az esetleges ütközések elkerülésére a switchnek pufferelni kell, azonban memória erőforrásai nyilván végesek. A fenti korlátozások miatt, az algoritmustól gyakorlatban egyéb implementációkat felülmúló teljesítményt csak kis (néhányszor tíz csomópont) méretű klaszterekben, a néhány kb méret fölötti üzenettartományban várhatunk. A hatékonyan használható maximális üzenetméretet és csomópontszámot kapcsolóelem(ek) portszáma és minősége határozza meg. Mivel az algoritmus futása során minden csomópont egyenletesen termeli és nyeli az üzeneteket, ha a hálózati kapcsoló elbírja egyszerre minden portján a maximális forgalmat, akkor a hatékonyan küldhető üzenetek méretnek elvi korlátja nincs. Több hálózati kapcsoló együttes használata esetén közöttük a csomóponthoz kapcsolódó portoknál lényegesen nagyobb forgalom generálódik. Az algoritmus implementációjánál a fa és a hiperkocka típusú implementációhoz hasonlóan külön mechanizmussal (pl. szinkronizálás a következő üzenet előtt) gondoskodni kell csomópontok közötti üzenetsorrend betartásáról. Ha ugyanis az első csomópont végzett a feladatával, az nem jelenti, hogy mindenki megkapta az üzenetet, így elvileg egy újabb üzenet megelőzhetné a régebben feladottat. Az algoritmus, többi szoftveres implementációhoz hasonlóan, megbízható pont-pont alapú kommunikációkra épül, így az ideiglenes kommunikációs zavarokra nem érzékeny. A fa és hiperkocka topológiához hasonlóan, ha valamelyik csomópont meghibásodik, akkor elképzelhető, más csomópontok sem kapják meg az üzenetet. Az ilyen esetek kezeléséről külön mechanizmusokkal kell gondoskodni. Összefoglalva tehát, ebben a fejezetben bemutatásra került az üzenetszórásnak egy új szoftveres megvalósítási módszere, mely a többi szoftveres módszerekhez hasonlóan egyszerűen megvalósítható, hibatűrő, hordozható és rugalmasan konfigurálható, ugyanakkor futási ideje a hardverből támogatott módszerek O() komplexitásával vetekszik. További előny a kommunikáció szimmetriából fakadó automatikus terhelés elosztás. Az algoritmus fontos korlátja, hogy csak crossbar vagy virtuális crossbar összekapcsoló hálózat felett működik hatékonyan, és a hálózati kapcsoló elemek fizikai paraméterei jelentősen korlátozhatják skálázhatóságát és a hatékonyan alkalmazható üzenetméreteket is.

12 IV. Teljesítmény mérések IV. Alapelvek Az előző pontban bemutatott algoritmus megvalósíthatóságát és gyakorlati használhatóságát egy teszt implementáció elkészítésével demonstráltuk. Viszonyítási alapul a széles körben használt fa topológiájú üzenetszórást választottuk. Annak érdekében, hogy a mérések minél pontosabban tükrözzék algoritmus teljesítményét, az összehasonlító mérések során mind a hardver, mind a szoftver hardver környezetet változatlanul hagytuk. A mérésnek fontos részét képezi a mérési tartomány megválasztása. Vetter és Mueller az valós MPI alkalmazások kommunikációs mintájának tanulmányozásakor [3] során arra az eredményre jutottak, hogy az MPI kollektív kommunikációs műveletei tipikusan kis méretű üzenetekkel dolgoznak. Ennek fő magyarázata, hogy a klaszterekben olyan algoritmusokat célszerű alkalmazni, melyek minél inkább a minimálisra korlátozzák a számítási teljesítményhez képes viszonylag drága kommunikáció mennyiségét. Természetesen a kommunikációs minta, és az átviendő minimális adatmennyiség nem csupán a szándéknak, hanem az elvégzendő feladatnak is függvénye. A klaszterek teljesítmény tesztelésére széles körben használt NAS párhuzamos tesztkészlet (NPB) [32] úgy oldja meg a fenti problémát, hogy több különféle, kommunikációs mintájában lényegesen különböző számítási magot (kernel) használ a tesztek során, melyek öt különféle probléma méretre futtathatók. A klaszteres implementációban a különféle magok futása során használt üzenetméretek előfordulását a 2. táblázatban gyűjtöttük össze []. Látható, hogy egészen kicsi üzenetek is nagyszámban fordulnak elő, valamint az is, hogy az SP tesztkészlet kivételével minden esetben az üzenetek nagy része a kb alatti mérettartományba esik. mérettartomány IS (Integer Sorting) MG (Multi Grid) (byte) egész rendezés 3D skalár Poisson egyen-let megoldása CG (Conjugate Gradient) mátrix sajátérték becslés konjugált gradiens módszerrel SP (Scalar Pentadiagonal) egyenlet megoldás multiparticionálás módszerrel EP (Embassingly Parallel) véletlenszámokra épülő normál eloszlású számpárok LU (Lower Upper) egyenlet megoldás szukcesszív túlrelaxálás módszerével x< x < x < x < x < x táblázat. Az NPB tesztkészleteinek üzenetszáma különféle mérettartományokban A különféle okokból fellépő futási idő ingadozások kiegyenlítésére a későbbiekben bemutatandó mérési eredményének kialakításához a minden mérési pontban mérést végeztünk, és ezek számtani közepét vettük az adott pontban érvényes mérési eredménynek. A méréseknél az Intel Pentium processzorok RDTSC utasításán alapuló időmeghatározást [33] használtunk, melynek alapja a processzor egyik belső regiszterének kiolvasása, melynek minden órajel ciklusban eggyel növekszik az értéke. A processzor órajel frekvenciájának ismeretében kis költséggel és nagy pontossággal meghatározható a regiszter két lekérdezése között eltelt idő. Ezen a módszeren alapul a több programozási könyvtár időlekérdező függvénye, és egyes szerzők [23] méréseikben közvetlenül magát a gépi utasítást is használják. Méréseink során 5 darab egyforma, 2.26 GHz-es Pentium IV processzorral és 256 MB memóriával ellátott PC használtunk, melyekben Mbit-es, Ethernet hálózati protokoll szerint működő Intel 828DB PRO/ VE hálózati kártyák voltak. A csomópontok egy 3Com SuperStack 4226T típusú hálózatai kapcsolón (switching hub) keresztül voltak összekapcsolva. A mérések során a számítógépeken Windows XP operációs rendszer futott, és az MPICH Windows NT operációs rendszerre készült implementációját használtuk (NT-MPICH v.3. []).

13 IV.2 A fa topológiájú és a szimmetrikus üzenetszórás összehasonlítása A bemutatott szimmetrikus üzenetszórási módszerrel elérhető teljesítményt egy összehasonlító méréssorozattal demonstráltuk. Kétféle mérést végeztünk, egyikben az NT-MPICH könyvtár saját broadcast hívásának idejét mértük, mely fa topológián alapul, és a hívás a csomópontokon csak a teljes üzenetszórás befejeződése után tér vissza. A második méréssorozatban ugyanennek a könyvtárnak az aszinkron hívásait alkalmazva (MPI_Irecv, MPI_Isend) implementáltuk az említett szimmetrikus üzenetszórás algoritmust. Annak érdekében, hogy a teljes eltelt időt itt is a forrás csomóponton mérhessük, az összes fogadó csomópont egy rövid nyugtaüzenet küld a forrásnak akkor, amikor a darabokból összeállította a teljes üzenetet. Az időt a forrás csomóponton az algoritmus elindításától az utolsó nyugta megérkezéséig mérjük. Annak érdekében, hogy a gyakorlatban használt gyakori üzenetméreteket a teszt során minél inkább lefedjük, a tesztek során az üzenetméretet 2 byte-tól 52 kb-ig logaritmikus skálán változtattuk. Előzetes méréseink során kiderült, hogy mindkét esetben azonos csomópontszám esetén az üzenetküldési idő az üzenetmérettel együtt lineárisan változik a méréspontok között. Mivel a mérés több nagyságrendet felölel, a mérési eredmények ábrázolásához logaritmikus skála használata a célszerű, de a komplexitás könnyebb áttekintése érdekében 5. ábrán ugyanazokat az eredményeket lineáris skálázással is feltüntettük (a lineáris skálán a legnagyobb ábrázolt üzenet mérete mindkét módszer esetében 28 kb). Minden méréssorozatban a 2 és 4 között változott. a) b) futási idő [ms] c) d) futási idő [ms] S3 S S7 S4 S S6 S9 sorozat neve futási idő [ms] futási idő [ms] S9 S6 S3 S S7 S4 sorozat neve S sorozat neve üzenet méret [byte] S 2 S2 4 S3 8 S4 6 S5 32 S6 64 S7 28 S8 256 S9 52 S 24 S 248 S2 496 S3 892 S S S S7 374 S S S6 S3 S S7 S4 sorozat neve S ábra. A fa (a,c) és szimmetrikus (b,d) üzenetszórás algoritmus teljesítményének összehasonlítása különböző üzenetméretek és csomópontszámok esetén logaritmikus (a,b) és lineáris (c,d) skálán 5 3 S6 S3 S S7 sorozat S4 neve S

14 Bár a kétféle algoritmus két csomópont esetén egyenértékű, hiszen ilyenkor egyetlen pontpont kommunikációt kell mindkét esetben végrehajtani, ennek ellenére a 6 kb alatti üzenetméreteknél a fa topológiának 2 csomópont esetén jelentős az előnye, ami az aszinkron üzenetküldés megvalósításának relatív lassúságára utal. Az 5. ábra diagramjai szerint a szimmetrikus algoritmus viselkedése hűen követi az elvi várakozásokat. A 4kB (S2) és a 256kB (S8) közötti tartományban láthatóan a csomópontok számától függetlenül közel azonos futási időt produkál, azonban kis üzenetekre, ahol a jóval a maximális Ethernet csomagméret alatti üzenet darabok és a segédinformációk miatt nagy az algoritmus overhead-je, ott csomópontok számát növelve a futási időben is jelentős növekedés figyelhető meg. Nagyobb üzenetméreteknél (példánkban 52kB, S9) a switch telítődik, így az algoritmus elveszti a csomópontszámtól való függetlenségét, és a fa algoritmusnál lényegesen rosszabb eredményeket ad. Ezt a telítődést demonstrálják a 6. ábrán bemutatott futási idők. futási idő [ms] sorozat neve üzenet méret [byte] S 2 S S S S5 374 S S7 966 S S S S S S S S S S Mivel az 5. ábra alapján a kétféle topológia futási idejének összehasonlítása meglehetősen nehéz, ezért az algoritmus ajánlott működési tartományában (4 kb és 256 kb között) kiválasztottunk néhány üzenetméretet, és a 7. ábra grafikonján együtt is ábrázoltuk a két különféle módszerrel mért időeredményeket. A 7. ábrán látható, hogy a csomópontok számának növelésével az egyre mélyebb fa kialakításának költsége fokozatosan nő, és 5 csomópont esetén a szimmetrikus megoldással akár a felére is csökkenthető a futási idő ábra. Hálózati telítődés nagy üzenetek esetén S S4 S7 S6 S3 S sorozat neve a) futási idő [ms] b) fa fa 374 fa fa 6384 szimmetrikus szimmetrikus 374 szimmetrikus szimmetrikus futási idő [ms] ábra. A fa és szimmetrikus üzenetszórás teljesítményének összehasonlítása a szimmetrikus algoritmus ideális működési tartományában lineáris (a) és logaritmikus (b) skálán

15 IV.3 Az elvi futási idő becslés és a mérések összehasonlítása Látható, hogy szimmetrikus módszerrel megfelelő körülmények között akár %-os teljesítménynövekedés is elérhető a hagyományos fa struktúrához képest. A mérési eredmények azonban önmagukban az implementáció jóságáról kevés információt adnak, így érdemes azokat összevetni a módszerrel elvileg elérhető maximális teljesítménnyel. Az (5) és (6) formulák alapján az elvileg elérhető késleltetés, t értékét is figyelembe véve: 2 2p tc( n, p) = 2t + ( n+ 32 p+ 8p ) td (7) p A t és t d érték legegyszerűbben a különféle méretű üzenetek oda-vissza idejének méréséből (ún. ping-pong benchmark) határozhatók meg [4][5][34] lineáris regresszió segítségével. Az általunk használt MPI implementáció esetében ezek a konstansoknak az értéke: t =263 μs illetve t d =,87 μs. Az előzőekben bemutatott mérési eredmények és az elvileg elérhető teljesítmény összehasonlítása a 8. ábrán látható. Az eredmények meglehetősen jól közelítik az elvi görbéket, jelentős eltérés csak a 256 kb-os görbén látszik, ahol a telítődés nem csupán a nagy adatmennyiségnek, hanem a szerencsétlen időzítési hatásoknak is betudható, hiszen nagyobb csomópontszámnál ismét a várt eredményeket kapjuk. a) futási idő [ms] b) futási idő [ms] ábra. A szimmetrikus üzenetszórás elvi és mért teljesítményének összehasonlítása lineáris (a) és logaritmikus (b) skálán V. Összefoglalás 496 elvi 6384 elvi elvi 374 elvi elvi 496 mért 6384 mért mért 374 mért mért A klaszter rendszereken hatékonyan futtatható alkalmazások körének legfőbb korlátját a kommunikációs alrendszer szűk keresztmetszete jelenti, ezért számos tudományos és mérnöki erőfeszítés történik a csomópontok közötti kommunikáció felgyorsítására. Cikkünk ennek a kérdéskörnek egy részterületével foglalkozott, az önmagában és más csoport kommunikációs primitívek építőelemeként is gyakran használt, egy-mindeninek típusú üzenetszórás gyorsításának módszereit és problémáit ismertette. Mivel a mai klaszterekben a csomópontok aktív hálózati eszközökön (switching hub) keresztül kapcsolódnak össze, ezek a kommunikáció szempontjából egy virtuális crossbar rendszert alkotnak. Ezt kihasználva lehetőség nyílik a kommunikációs primitívek párhuzamosítást tartalmazó implementációira is. Az üzenetszórás primitív legelterjedtebb megvalósítása a bináris fa topológia, mely pont-pont kapcsolatokra építve lépésenként egyre több párhuzamos ágon adja tovább az információt, a célcsomópontok p számának függvényében O(log 2 p) komplexitású megoldást nyújtva az üzenetszórás megvalósítására. Ennél jobb, a résztvevő csomópontok számától elvileg független, O() komplexitást céloznak meg a hardver támogatást kihasználó megoldások, azonban ezekben

16 teljesítmény növekedéséért nagyobb implementációs ráfordítással és a hordozhatóság feladásával kell fizetni. Az implementációt bonyolítja, hogy a megbízhatóságot, a nagy üzenetek kezelését és a tetszőleges processz csoport felé történő üzenetküldést a szoftver rétegekben kell megoldani [25]. Cikkünkben ismertettünk egy új algoritmust, mely bizonyos korlátok között szoftverből biztosítja a csomópontok számától független üzenetszórási időt. A módszer rendelkezik a szoftver megoldások szokásos előnyeivel, azaz rugalmas, hordozható, egyszerűen implementálható, és a megbízhatóságot is automatikusan biztosítja azzal, hogy a pont-pont kommunikációs alapokra épül. Az üzenetek darabolása és a szimmetrikus aszinkron kommunikáció teljes terhelésmegosztást biztosít, és segítve a nagy teljesítmény és a skálázhatóság elérését, mely fontos előfeltétele a gyakorlati alkalmazhatóságnak. Az új szimmetrikus algoritmus alkalmazhatóságát egy konkrét tesztrendszerben elvégzett méréssorozat segítségével illusztráltuk. A mérések során megmutattuk, hogy az algoritmus teljesítménye jól közelíti az elvi várakozásokat, és az általunk ismert leggyorsabb referencia implementációhoz (NT-MPICH v.3.) képest a gyakorlatilag fontos üzenet és klaszter méretek egyes tartományaiban akár %-os teljesítmény növekedést is biztosíthat. Az algoritmus csak tejesen kapcsolt hálózatokban nyújt optimális teljesítményt, és hátránya hogy skálázhatóságát korlátozza a szűk keresztmetszetet jelentő hálózati kapcsoló teljesítménye, mely bizonyos forgalom fölött telítődik, ugrásszerűen rontva az algoritmus teljesítményét. Az algoritmust működési elvéből fakadóan nem érdemes túlságosan kis méretű (<4 kb) üzenetekre alkalmazni, mivel a hálózati protokoll hatékonysága a keretméretnél jóval kisebb üzenetekre lecsökken, és p 2 nagyságrendbe eső üzenetszám adminisztrációs terhe is összemérhetővé válhat a küldés fizikai idejével. A szimmetrikus algoritmus célja, hogy kis (néhányszor tíz) csomópont esetén, a gyakorlatban gyakran használt üzenetméretek mellett gyors, hordozható és a csomópontok számától független megoldást biztosítson. A megoldás közvetlenül vagy üzenetkezelő könyvtárak implementációiban használható fel a párhuzamos algoritmusok működésének gyorsítására. Kis és nagyon nagy üzenetek gyakori használata esetén a módszert egyéb megoldásokkal (központosított vagy fa topológiájú üzenetszórás) kombinálva érdemes használni. Az üzenetszórás csoportkommunikációs primitívet cikkünkben több szempontból is tüzetesen megvizsgáltuk, azonban az elvi eredmények alátámasztására csak egyetlen konkrét implementációt mutattunk be. Folyamatban van, és a jövőre vonatkozó terveink között is szerepel a szimmetrikus üzenetszórás más protokollon (UDP), más üzenetkezelő könyvtárakkal (PVM, egyéb MPI implementáció) és más operációs rendszerre (Linux) alapuló implementációjának elkészítése, valamint az elkészítettt különféle változatok teljesítményének elemzése és összehasonlítása is. Irodalomjegyzék [] G. F. Pfister: In Search of Clusters, Second Edition, Prentice Hall, Upper Saddle River, New Jersey, USA, 998. [2] I. T. Foster: Designing and Building Parallel Programs, Addison-Wesley Inc., USA, [3] A. Geist, A. Beguelin, J. Dongarra,W. Jiang, R. Manchek, V.S. Sunderam: Parallel Virtual Machine A User s Guide and Tutorial for Networked Parallel Computing, MTI Press, London, UK, 994 [4] M. Snir, S. Otto, S. Huss-Lederman, D. Walker, and J. Dongarra: MPI The Complete Reference, Volume - The MPI- Core, 2nd edition. The MIT Press, 998. [5] Message Passing Interface Forum ( MPI-2: Extensions to the messagepassing interface, July 997. [6] Martin et al.: Effects of Communication Latency. Overhead and Bandwidth in a Cluster Architecture, Proc. 24th Annual International Symposium on Computer Architecture, pp , Denver, 997. [7] G. Chiola, G. Ciaccio: Efficient Parallel Processing on Low-Cost Clusters with GAMMA Active Ports, Parallel Computing 26, Elsevier Science, 2, [8] S. Juhász, H. Charaf: Exploiting Fast Ethernet Performance in Multiplatform Cluster Environment, Proc. 9th Annual ACM Symposium on Applied Computing, Nicosia, Cyprus, 24. [9] N.J. Boden, D. Cohen, R.E. Felderman, A.E. Kulawik, C.L. Seitz, J.N. Seizovic, and W. Su. Myrinet: A Gigabitper-second Local Area Network. IEEE Micro, 5():29 36,February 995. [] M. Lobosco, V. S. Costa, C.L. de Amorim: Performance Evaluation of Fast Ethernet, Giganet and Myrinet on a Cluster, Proc. International Conference on Computational Science 22, pp , The Netherlands, 22.

Több megjelenítése