GPU alkalmazása az ALICE eseménygenerátorában

Hasonló dokumentumok
AliROOT szimulációk GPU alapokon

GPGPU programozás lehetőségei. Nagy Máté Ferenc Budapest ALICE ELTE TTK Fizika MSc 2011 e-science Café

Készítette: Trosztel Mátyás Konzulens: Hajós Gergely

Véletlenszám generátorok és tesztelésük HORVÁTH BÁLINT

OpenCL - The open standard for parallel programming of heterogeneous systems

OpenCL alapú eszközök verifikációja és validációja a gyakorlatban

Big Data. A CERN, mint a. egyik bölcsője... Barnaföldi Gergely Gábor. Berényi Dániel & Biró Gábor & Nagy-Egri Máté Ferenc & Andrew Lowe

Magas szintű optimalizálás

Ismerkedjünk tovább a számítógéppel. Alaplap és a processzeor

Ismétlés: Moore törvény. Tranzisztorok mérőszáma: n*százmillió, n*milliárd.

A Wigner FK részvétele a VIRGO projektben

Az NIIF új szuperszámítógép infrastruktúrája Új lehetőségek a kutatói hálózatban

Indul az LHC: a kísérletek

Számítógép-rendszerek fontos jellemzői (Hardver és Szoftver):

Bepillantás a gépházba

A CUDA előnyei: - Elszórt memória olvasás (az adatok a memória bármely területéről olvashatóak) PC-Vilag.hu CUDA, a jövő technológiája?!

Feladatlap: Számítógép összetevők keresése

Virtualizációs technológiák Linux alatt (teljesítményteszt)

Nehézion ütközések az európai Szupergyorsítóban

Töltött részecske multiplicitás analízise 14 TeV-es p+p ütközésekben

A Geant4 használatának alapjai

Számítógép felépítése

Lenovo Ideapad U M5007UHV

Grayteq. Grayteq DLP Teljesítmény Benchmark. Grayteq DLP Benchmark. Sealar Corporate Proprietary Commercial-in-confidence

Worldwide LHC Computing Grid

ALICE: az Univerzum ősanyaga földi laboratóriumban. CERN20, MTA Budapest, október 3.

GPU-k a gravitációs hullám kutatásban

A Webtől a. Gridig. A Gridről dióhéjban. Debreczeni Gergely (MTA KFKI RMKI) Debreczeni.Gergely@wigner.mta.hu

Az NIIF új szuperszámítógép infrastruktúrája Új lehet!ségek a kutatói hálózatban Debreceni Egyetem

Számítógépek felépítése

Párhuzamos és Grid rendszerek

Első sor az érdekes, IBM PC ra alapul: 16 bites feldolgozás, 8 bites I/O (olcsóbb megoldás). 16 kbyte RAM. Nem volt háttértár, 5 db ISA foglalat

Grafikus csővezeték 1 / 44

Videókártya - CUDA kompatibilitás: CUDA weboldal: Példaterületek:

GPGPU alapok. GPGPU alapok Grafikus kártyák evolúciója GPU programozás sajátosságai

elektronikus adattárolást memóriacím

Parciális rekonfiguráció Heterogén számítási rendszerek VIMIMA15

Asztali PC kínálatunk:

Ár: Ft Garancia: 2 Év

5-6. ea Created by mrjrm & Pogácsa, frissítette: Félix

Az LHC adatfeldolgozásának számítástechnikai háttere 10 percben. Hajdu Csaba KFKI RMKI

Eichhardt Iván GPGPU óra anyagai

NIIFI HPC Szolgáltatás

NOLLEX Nemzetközi Kft. Magyarországi kizárólagos disztribútor.

Ordering MCMC gyorsítása OpenCL környezetben

Eichhardt Iván GPGPU óra anyagai

Alapismeretek. Tanmenet

Az RMKI Grid-rendszere

Véletlenszám generátorok és tesztelésük. Tossenberger Tamás

GPU-Accelerated Collocation Pattern Discovery

OpenCL Kovács, György

Monte Carlo módszerek a statisztikus fizikában. Az Ising modell. 8. előadás

Apple számítógépek összehasonlító táblázata

A számítógép egységei

Alapja a véletlen minták kiértékelése. Sok szabadság fokú csatolt rendszerek

Alapismeretek. Tanmenet

Simon Balázs Dr. Goldschmidt Balázs Dr. Kondorosi Károly. BME, Irányítástechnika és Informatika Tanszék

ASUS X552WE-SX036H (X552WE-SX036H)

Nemlineáris optimalizálási problémák párhuzamos megoldása grafikus processzorok felhasználásával

Lenovo Ideapad G Q5000VHV

Az ALICE és a REGARD kollaborációk

április 24. INFO Savaria április 24. INFO Savaria április 24. INFO Savaria

Folytonos gravitációs hullámok keresése GPU-k segítségével

Teszt Az nvidia GeForce VGA kártyák gyakorlati teljesítménye a Dirt3-ban

GPGPU: Általános célú grafikus processzorok cgpu: computational GPU GPGPU = cgpu Adatpárhuzamos gyorsító: dedikált eszköz, ami eleve csak erre

Tibeko SZÁMÍTÓGÉPEK. Mindegyik termékünk számlával és garanciával!

Tibeko SZÁMÍTÓGÉPEK. Mindegyik termékünk számlával és garanciával!

Hordozható számítógép, noteszgép szó szerint: ölbevehető. Síkkijelzős, telepes, hordozható számítógép. (Informatikai fogalomtár)

Memóriák - tárak. Memória. Kapacitás Ár. Sebesség. Háttértár. (felejtő) (nem felejtő)

DELL Latitude E7450 (CA007LE7450EMEA_WIN-11) (CA007LE7450EMEA_WIN-11)

Tibeko SZÁMÍTÓGÉPEK. Mindegyik termékünk számlával és garanciával!

Közösség detektálás gráfokban

Informatika el adás: Hardver

Még gazdagabb játékélményt ígér a SIE új csúcskonzolja, a PlayStation 4 PRO

Lenovo Ideapad Z K601DCHV

Számítógépes alapismeretek

Bruttó ár: 0 Ft. Háttértár mérete: Háttértár típusa: Lemez meghajtó: Kijelző méret: LED háttérvilágítás, 16:9 képarány

Lenovo Ideapad G E301PAHV

Számítógép egységei. Szoftver (a fizikai eszközöket működtető programok összessége)

SVE1111M1E. a legnépszerűbb VAIO. Műszaki adatok SVE1111M1E. Termékek Áruházak Támogatás Közösség My Sony. Képek. Operációs rendszer.

Új módszerek és eszközök infokommunikációs hálózatok forgalmának vizsgálatához

ASUS Zenbook - UX305UA-FC037T

GPGPU. GPU-k felépítése. Valasek Gábor

A nagy hadron-ütköztető (LHC) és kísérletei

Hogyan kell 3D tartalmat megtekinteni egy BenQ kivetítőn? Minimális rendszerkövetelmények 3D tartalom lejátszásához BenQ kivetítőn:

Alapismeretek. Tanmenet

DELL Vostro MONET14SKL1605_011_UBU-11

SAT probléma kielégíthetőségének vizsgálata. masszív parallel. mesterséges neurális hálózat alkalmazásával

DELL Inspiron DLL Q2_38_BL_ (DLL Q2_38_BL_212279)

Informatika 11. el adás: Hardver

ELŐADÁS SZÁMÍTÓGÉP MŰKÖDÉSE FIZIKA ÉS INFORMATIKA

2. Számítógépek működési elve. Bevezetés az informatikába. Vezérlés elve. Külső programvezérlés... Memória. Belső programvezérlés

Autóipari beágyazott rendszerek. Komponens és rendszer integráció

Adatbázis és alkalmazás konszolidáció Oracle SPARC T4/5 alapon

Vastag GEM alapú trigger detektor fejlesztése az LHC ALICE kísérlethez

Intel Celeron G550 Intel HD Graphics kártyával (2,6 GHz, 2 MB gyorsítótár, 2 mag)

Digitális eszközök típusai

Újdonságok NCG CAM V10-ben

Dell Inspiron 580s: Részletes műszaki adatok

Parciális rekonfiguráció Heterogán számítási rendszerek VIMIMA15

Átírás:

GPU alkalmazása az ALICE eseménygenerátorában Nagy Máté Ferenc MTA KFKI RMKI ALICE csoport ELTE TTK Fizika MSc Témavezető: Dr. Barnaföldi Gergely Gábor MTA KFKI RMKI ALICE csoport Elméleti Fizikai Főosztály OTKA: PD73596 és NK77816

Vázlat 1. Az ALICE csoport és a GRID hálózat 2. Szimulációk és az AliROOT programcsomag 3. Monte-Carlo generátorok 4. OpenCL és GPU architektúra 5. TRandom4 benchmark eredmények 6. Proton-proton szimulációk

ALICE és a GRID ALICE egyike a 3 CERN LHC óriáskísérletnek. A detektorokból érkező adatok feldolgozásához szuperszámítógép parkra van szükség. Olcsóbb és kezelhetőbb a probléma elosztott rendszerrel. A kísérlet tagjainak kötelező hozzájárulni a GRID rendszerhez.

Szimulációk & AliROOT A használt szimulációs környezet az AliROOT. A szimulált eredményeket összevetjük a valós mérési eredményekkel. Ha a modellek jóslatai egyeznek a valósággal, elfogadjuk őket. Cél: GPU gyorsítás (Graphical Processing Unit). GPU-król később

Motiváció Pb-Pb ütközés kontra p-p esemény. Azonos eseményszám mellett több mint 100X annyi valószínűség alapú folyamat.

AliROOT 2,7GB-os keretrendszer, több eseménygenerátort is magába foglal. Mindenkori verziója tartalmazza az aktuális ALICE detektor geometriáját.

Monte-Carlo generátorok Monte-Carlo szimulációnak nevezünk minden olyan eljárást, amelyben egymástól függetlenül generált véletlen számok határozzák meg a rendszer fejlődését, kimenetét. Az ilyen fizikai szimulációk eseményeit előállító modult hívjuk MC generátornak. Pszeudo random véletlen számok előnyösek a szimuláció reprodukálása miatt. A nagy léptékű mintavételezés miatt a gyorsaság centrális fontosságú.

Teljesítmény [GFLOPS] CPU és GPU 6000 CPU-GPU fejlődés 5000 4000 3000 2000 AMD NVIDIA CPU 1000 0 Egység Phenom X6 1055 Radeon HD6990 GPU/CPU Kapacitás (SP) *GFLOPS+ 74,8 5099 68,168 Kapacitás (DP) *GFLOPS+ 74,8 1276 17,058 Fogyasztás *Watt+ 125 375 3 Kapacitás:fogyasztás [GFLOPS/Watt] 0,5984 13,597 22,722

GPU architektúra 2700 GFLOPS SP 500 GFLOPS DP 1600 shader processzor Dupla pontosság mellett 1/5 kapacitás 2 GB VRAM / GPU Óriási shader kapacitás, alacsony fogyasztás 512 shader processzor Dupla pontosság mellett 1/2 kapacitás 3-6 GB VRAM / GPU Óriási cache méretek, széles memória sín 1600 GFLOPS SP 650 GFLOPS DP

Nyílt szabványú, gyártó- és platformfüggetlen programozási nyelv. A videokártyán futó program kényelmes módon C nyelven Platform Context Device list OpenCL Buffer1 Buffer2 RAM Command Queue CPU Device Image1 írható. A szabvány az eddigi törekvésekkel ellentétben csak a legfontosabb párhuzamos végrehajtási rutinokat biztosítja. Azt hogy a párhuzamos program hogyan illeszkedik az adott hardverre, az a fordító feladata. HOST CU Command Queue CU CU Command Queue GPU Device VRAM Command Queue GPU Device VRAM Kernel1 Kernel2 Kernel3 Kernel4 Kernel5

gpu001 Intel Core-i7 2.66GHz, 12GB DDR3 1333MHz RAM 3 db Radeon 5970, 6GB GDDR5 VRAM (1GB/mag)

AliROOT gyorsítás Cél: GPU gyorsítás véletlenszám generátorhoz. A ROOT matematikai osztálya 3 alap generátort definiál. Ezekből a Mersenne- Twister algoritmust használó TRandom3 a legelterjedtebb. Definiáltam egy új modult (TRandom4) amely GPU gyorsítással végzi a random szám generálást.

TRandom4 A gyorsabb működés érdekében nem lehet egyesével számot generálni. Egy RAM-ban lévő buffert tölt fel véletlen számokkal (~500k #). Kérésnél a bufferből másolja ki az eredményt. Esetszétválasztás lassítja, aszerint hogy a bufferben maradt-e annyi szám, amennyit kért a program. RAM-ból másolás plussz művelet a CPU implementációhoz képest. OpenCL miatt akár CPU-n is képes generálni.

Eredmények - Hisztogram

Eredmények Auto-korreláció

Eredmények - DieHard Átfogóbb vizsgálata a PRNGnek: DieHarder Lelke: Kolmogorov-Smirnov teszt, eloszlások hasonlóságáról nyilatkozik. Eredeti DieHard tesztekből kettő ismerten hibásat kivéve és egy újat hozzávéve Trandom3-4 minden teszten átment! 1 Diehard Birthdays test 2 Diehard Overlapping Permutations test 3 Diehard 32x32 Binary Rank test 4 Diehard 6x8 Binary Rank test 5 Diehard Bitstream test 6 Diehard OPSO test 7 Diehard OQSO test 8 Diehard DNA test 9 Diehard Count the 1s (stream) test 10 Diehard Count the 1s (byte) test 11 Diehard Parking Lot test 12 Diehard Minimum Distance (2D Spheres) test 13 Diehard 3D Spheres (minimum distance) test 14 Diehard Squeeze test 15 Diehard Sums test 16 Diehard Runs test 17 Diehard Craps test 18 Marsaglia and Tsang GCD test

Ráta [db/ns] Eredmények - Sebesség 3 2,5 2 1,5 1 0,5 0 Generálási ráta TRandom3 TRandom4 TRandom4 kernel teljes kernel Vizsgált PRNG Teljes generálási sebesség bő kétszer lassabb. Ok a túlságosan nagy overhead a feladat méretéhez képest. Kernel idő kevesebb, mint tizenhatod része a CPU verziónak.

TRandom3 TRandom4 Proton-proton szimuláció Detektor geometria nélkül, ötvenezer szimulált esemény transzverz momentum (pt), rapiditás (y) és azimut szög (j) szerinti eloszlásai.

Összefoglaló Cél: GPU gyorsítás írása az AliROOT keretrendszerhez Eddigi eredmények: Nyílt forrású PRNG átalakítása Modul-szerű integráció a ROOT keretrendszerbe Generátor teljesítmény és eloszlás vizsgálata Szimuláción keresztüli igazolása a generátor helyes működésének Konklúzió: Visszafelé kompatibilis modul(ok) beépítése nem lehetetlen. Az eredmények ígéretesek, érdemes folytatni az ez irányú törekvéseket.

Köszönöm a figyelmet!