Nagy teljesítményűszuperszámítógépek a tudomány szolgálatában. Újfalussy Balázs MTA Wigner Fizikai Kutatóközpont

Hasonló dokumentumok
Digitális Technika I. (VEMIVI1112D)

Digitális Technika I. (VEMIVI1112D)

Az NIIF új szuperszámítógép infrastruktúrája Új lehetőségek a kutatói hálózatban

Digitális Technika I. (VEMIVI1112D)

Számítógépes alapismeretek

Az NIIF új szuperszámítógép infrastruktúrája Új lehet!ségek a kutatói hálózatban Debreceni Egyetem

Digitális Áramkörök (Villamosmérnök BSc / Mechatronikai mérnök MSc)

Ismétlés: Moore törvény. Tranzisztorok mérőszáma: n*százmillió, n*milliárd.

Új tehetséggondozó programok és kutatások

Bevezetés az informatikába 1.

Digitális Technika I. (VEMIVI1112D)

SZÁMÍTÓGÉPES ARCHITEKTÚRÁK

HP-SEE projekt eredményei

Számítógépek felépítése

Építsünk szuperszámítógépet szabad szoftverből!

NIIFI HPC Szolgáltatás

A számítógép egységei

egy szisztolikus példa

Párhuzamos programok futásának kiértékelése Scalasca profiler segítségével

Virtualizációs technológiák Linux alatt (teljesítményteszt)

Nagy mennyiségű adatok elemzése és előrejelzési felhasználása masszívan párhuzamosítható architektúrával

OpenCL - The open standard for parallel programming of heterogeneous systems

IBM innovációs mérföldkövek

Flynn féle osztályozás Single Isntruction Multiple Instruction Single Data SISD SIMD Multiple Data MISD MIMD

Miért van szükség szuperszámítógépre?

Matematika és Számítástudomány Tanszék

AliROOT szimulációk GPU alapokon

2. Számítógépek működési elve. Bevezetés az informatikába. Vezérlés elve. Külső programvezérlés... Memória. Belső programvezérlés

Négyprocesszoros közvetlen csatolású szerverek architektúrája:

Párhuzamos és Grid rendszerek

GPU alkalmazása az ALICE eseménygenerátorában

SZÁMÍTÓGÉPES ARCHITEKTÚRÁK A STRUKTURÁLT SZÁMÍTÓGÉP-FELÉPÍTÉS. Misák Sándor. 2. előadás DE TTK

Párhuzamos és Grid rendszerek. Hol tartunk? Klaszter. Megismerkedtünk az alapfogalmakkal,

Ami az Intel szerint is konvergens architektúra

Győri HPC kutatások és alkalmazások

A processzor hajtja végre a műveleteket. összeadás, szorzás, logikai műveletek (és, vagy, nem)

Processzusok (Processes), Szálak (Threads), Kommunikáció (IPC, Inter-Process Communication)

Digitális Áramkörök (Villamosmérnök BSc / Mechatronikai mérnök MSc)

IBM Power 550 Express szerver

Ár: Ft Garancia: 2 Év

VLIW processzorok (Működési elvük, jellemzőik, előnyeik, hátrányaik, kereskedelmi rendszerek)

Számítógép architektúra

Idegen atomok hatása a grafén vezet képességére

Grafikus csővezeték 1 / 44

Sugárzások kölcsönhatása az anyaggal

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

Szuperszámítógépektől a klaszterekig. Kacsuk Péter

ELŐADÁS SZÁMÍTÓGÉP MŰKÖDÉSE FIZIKA ÉS INFORMATIKA

Párhuzamos programozási platformok

DELL Inspiron DLL Q2_38_BL_ (DLL Q2_38_BL_212279)

Lenovo Ideapad YOGA QD009HHV (80QD009HHV)

A csillagközi anyag. Interstellar medium (ISM) Bonyolult dinamika. turbulens áramlások MHD

Párhuzamos programozási platformok

A mikroskálájú modellek turbulencia peremfeltételeiről

Windows alapú operációs rendszerek

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

A Webtől a. Gridig. A Gridről dióhéjban. Debreczeni Gergely (MTA KFKI RMKI) Debreczeni.Gergely@wigner.mta.hu

SZAKDOLGOZAT VIRÁG DÁVID

Koherens lézerspektroszkópia adalékolt optikai egykristályokban

Bevezetés a részecske fizikába

Fúziós plazmafizika ma Magyarországon

DELL Inspiron 5558 DLL_Q3_21_EL_204369

Rádl Attila december 11. Rádl Attila Spalláció december / 21

Fluktuáló terű transzverz Ising-lánc dinamikája

Processzorsebesség: 800 MHz Nyomtatónyelvek: HP PCL 5e, HP PCL 6, HP Postscript Level 3 emuláció, közvetlen PDF (v 1.7) nyomtatás Képernyő:

elektronikus adattárolást memóriacím

Teljesítmény: időegység alatt végrehajtott utasítások száma. Egységek: MIPS, GIPS, MFLOPS, GFLOPS, TFLOPS, PFLOPS. Mai nagyteljesítményű GPGPU k: 1-2

NIIF Intézet szolgáltatásai 2. (alapszolgáltatások, szuperszámítástechnika) Marlok Tamás Sebők Tamás

-2σ. 1. A végtelen kiterjedésű +σ és 2σ felületi töltéssűrűségű síklapok terében az ábrának megfelelően egy dipól helyezkedik el.

GPGPU programozás lehetőségei. Nagy Máté Ferenc Budapest ALICE ELTE TTK Fizika MSc 2011 e-science Café

Orvosi Biofizika I. 12. vizsgatétel. IsmétlésI. -Fény

Foton-visszhang alapú optikai kvantum-memóriák: koherens kontroll optikailag sűrű közegben

GPGPU-k és programozásuk Dezső, Sima Sándor, Szénási

Vázlatos tartalom. Szerkezet jellemzése és vizsgálata Szilárdtestek elektronszerkezete Rácsdinamika Transzportjelenségek Mágneses tulajdonságok

TÖMEGSPEKTROMÉTEREK SZEREPE A FÖLDTUDOMÁNYBAN. Palcsu László MTA Atommagkutató Intézet (Atomki) Környezet- és Földtudományi Laboratórium, Debrecen

Feladatlap: Számítógép összetevők keresése

Lenovo Ideapad YOGA R5002THV (80R5002THV)

DELL Latitude CA009L3550EMEA_WIN-11 (CA009L3550EMEA_WIN-11)

Szimuláció RICHARD M. KARP és AVI WIGDERSON. (Készítette: Domoszlai László)

Kémiai reakciók mechanizmusa számítógépes szimulációval

Feladatok (task) kezelése multiprogramozott operációs rendszerekben

SAT probléma kielégíthetőségének vizsgálata. masszív parallel. mesterséges neurális hálózat alkalmazásával

TestLine - Informatika gyakorló Minta feladatsor

Szuperszámítógép Felhasználói Tájékoztató

Magas szintű optimalizálás

TANÚSÍTVÁNY KARBANTARTÁS Jegyzıkönyv

Ejtési teszt modellezése a tervezés fázisában

Axion sötét anyag. Katz Sándor. ELTE Elméleti Fizikai Tanszék

Ember és robot együttműködése a gyártásban Ipar 4.0

Apple számítógépek összehasonlító táblázata

Processzusok (Processes), Szálak (Threads), Kommunikáció (IPC, Inter-Process Communication)

Vodafone ODI ETL eszközzel töltött adattárház Disaster Recovery megoldása. Rákosi Péter és Lányi Árpád

3. A kémiai kötés. Kémiai kölcsönhatás

Ez egy program. De ki tudja végrehajtani?

Számítógép architektúrák

Dedikált szerverhoszting katalógus november

Számítógépek felépítése, alapfogalmak

Memória játék. Felhasználói dokumentáció

Bevezetés. Többszálú, többmagos architektúrák és programozásuk Óbudai Egyetem, Neumann János Informatikai Kar

GPGPU: Általános célú grafikus processzorok cgpu: computational GPU GPGPU = cgpu Adatpárhuzamos gyorsító: dedikált eszköz, ami eleve csak erre

Átírás:

Nagy teljesítményűszuperszámítógépek a tudomány szolgálatában Újfalussy Balázs MTA Wigner Fizikai Kutatóközpont

Vázlat Mi is az a szuperszámítógép? A Dongara féle 500-as lista A lista fejlődése A modern szuperszámítógépek jellemzői Masszívan parallel szuperszámítógépek Parallel programozás Párhuzamos végrehajtású-e a fizika? A párhuzamos programozás nehézségei Képességi és mennyiségi számítástechnika Tudomány szuperszámítógépeken Jelenlegi fő projektek Klíma modellezés, robbanás (szupernóva robbanás, combustion) Anyagtudomány: a természet rövidlátó

Mi is az a Szuperszámítógép http://www.top500.org/ Szuperszámítógép az, ami rajta van a listán A világ elsőszuperszámítógépe a CDC6600. tervezője Seymour Cray

Hogyan mérjük egy számítógép teljesítményét? A LINPACK Benchmark Jack Dongara (University of Tennessee, Knoxville) http://www.netlib.org/benchmark/performance.ps http://www.netlib.org/utk/people/jackdongarra/papers/hpl.pdf Egy lineáris egyenletrendszer megoldó algoritmus és program műveletigénye 2 3 3 N D = n + 2n 2 Duplapontos lebegőpontos művelet, n ~ 100 vagy 1000 Mértékegysége Mflop/s, Gflops/s, Tflop/s (néha Mflops,Gflops, etc)

Hogyan mérjük egy számítógép teljesítményét? Elméleti csúcs: (theoretical peak performance): Egy órajelciklus alatt elvileg elvégezhető lebegőpontos műveletek (+,*) számából Pl. Cray Y-MP/8 órajele 6ns-os, ezalatt 1 vektorprocesszor 1 összeadástés 1 szorzást végez: 2muvelet 1ciklus 1 6 ns = 333Mflop / s A Cray Y-MP/8 elméletileg elérhetőlegnagyobb teljesítménye így 2667 Mflop/s Mért LINPACK sebesség: LINPACK bechmark A számolt műveletek ND számából és a végrehajtási időből származtatott Függhet az operációs rendszertől, fordítóprogramtól Mért valós sebesség: Valamilyen alkalmazás esetén a mért műveletek számából és a végrehajtási időből származtatott mennyiség Függ az alkalmazástól, a fordítóprogramtól, parallelizációtól

A Cray szupercomputerek 1960: CDC6600, CDC 6700 (Control Data Corporation) 1970: CDC8600 4 processzor, shared memory 1972: Cray Research Inc. 1976: Cray 1, Los Alamos, 8.8 milliódollár, 160 Mflops, 8 Mb 1985: Cray 2 az elsővektor-szuperszámítógép, fluorinert hűtés, 1.2 Gflops 1988: Cray Y-MP 2.3 Gflops, 4 processzor 1993: Cray T3D az első masszivan parallel (Cray) 1998: Cray T3E-1200E: 1.02 Tfops Cray Research SGI CRAY Inc.

A szuperszámítógépek fejlődése 1993: 7th Mannheim Supercomputer Seminar: TOP500 Lista első kiadása Év Computer Core-ok Linpack Elméleti Mért Valós 1993 Thinking Machines CM5 1024 59,70 131,00 19881 Gflop/s Cray Y-MP 1993-1995 Fujitsu 140 124,20 235,80 1994 Intel Paragon 3680 143,40 184,00 1996 Hitachi SR2201 1024 232,40 307,20 1997 Hitachi CP-PACS 2048 368,20 614,40 1997-2000 ASCI RED (Intel) 9632 1068-2379 3207,00 1998 1Tflop/s Cray T3E 2000-2001 ASCI WHITE (IBM) 8192 7226,00 12288,00 2002-2004 Earth Simulator (NEC) 5120 35860,00 40960,00 2008-2009 IBM Roadrunner 122400 1105,00 1456,70 20091.03 Pflop/s Cray XT5 2009-2010 Cray XT5 "Jaguar" 224162 1759,00 2331,00 2010.2011 Tianhe-1A 186368 2566,00 4701,00 2011-2012 K-computer (Fujitsu) 548352 8162,00 8773,60 2012 IBM Blue Gene "Sequoia" 1572864 16324,00 20132,70 2012 Cray XK7 "Titan" 552960 17590,00 27112,50 Exaflop?

A szuperszámítógépek fejlődése http://www.top500.org

1994 1993 2012 1996 1997-2000 2011 2000-2001 2009 1993-1995

Hol vannak szuperszámítógépek? Mire használják őket? http://www.top500.org

Projectek megoszlása a NERSC-i szuperszámítógép központban

A jelenlegi bajnok: a Titán Hibrid architektúra: 18 688 nodus 1 nodus: 16 core (AMD Opteron) + 32Gb RAM + 1 db NVIDIA Kepler K20 GPU (6Gb RAM) + Gemini interconnect Összesen 299,008 CPU core Elméleti csúcs 27.112 Pflop/s LINPACK csúcs 17.590 Pflops Teljesítményfelvétel 8.029 MW Alapterület: 404 m2

Futottak még. Elméleti csúcs helyezés név Core-ok száma hely Teljesítmény Tflops/s Áramfelvétel kw 2 Sequoya 1572864 USA (LLANL) 20132.7 7890.00 3 K-computer 705024 Japán 11280.4 12659.89 4 Mira 786432 USA 10066.3 3945 5 JUQUEEN 393216 Németotszág 5033.2 1970 6 SuperMUC 147456 Németotszág 3185 2897 3422.67 7 Stampede 204900 USA 2660.3 3959 NA 8 Tianhe-1A 186368 Kína 2566.0 4701 4040 LINPACK csúcs

Szoftver környezet Unix operációs rendszer (Linux variánsok) Parallel könyvtárak és környezet SMP MPI Hibrid architektúrákon akár egyszerre is Cuda Kötegelt feldolgozás Queue rendszer (PBS) jobnév Max idő Max memória Példa, kötegelt feldolgozású állomány Temporáris könyvtár, nagy tárterület Futás! HPSS

Tudomány a szuperszámítógépeken Biológia: Emberi bőrfelület modellezése (65 milliócpu óra), Biomassza (78), Biomolekuláris rendszerek (110) Kémia: Belső égés (100), QED (30), Funkcionális soktestprobléma (27) Számítástechnika: Exascale (21), PEAC (Performance Evaluation and Analysis Consortium) (45) Mérnöki tudományok: Robbanás (45), Véráramlás szimuláció(51), Áramlás (34) Földtudományok: Klima (60)(+Gaia), Földrengéskutatás (45),(100) Anyagtudomány: Nano-transzport (25), Mágneses anyagok (45), Nem-kovalens kötések (55), Energiaipari anyagok(45), Hidrogén és jég (45), Li-ion elemek (45), Véges hőmérsékletű mágneses anyagok (110) Fizika: Szupernóva (35), Plazma (30), Kozmológia (35),Szupernóva II (55), Magszerkezet (74), Rács QCD (140) Sok-e 65 milliócpu óra? Soros számítógépen igen! 65 milliócpu óra ~ 7420 év Ugyanakkor 500000 processzoron ~ 5.4 nap Képességi alkalmazások: a futáshoz szükség van a teljes számítógépre, vagy annak szignifikáns részére Mennyiségi alkalmazások : Minél több felhasználó(relative kis) igényeinek kielégítése

Éppen mit futtat? 2013.02.19 22:03 Cray XE6 Hopper 6384 Node 153216 core 1287 Tflop/s elméleti csúcs 211.5 TB memória (1.42Gb/core) 2.2MW www.nersc.gov

Nézzünk egy alkalmazást!

Többszörös szórás algoritmus Többszörös szórás elmélete (MST) J. Korringa, Physica 13, 392, (1947); W. Kohn, N. Rostoker, PR, 94, 1111,(1954) MST Green függvény MST-ben B. Gyorffy, and M. J. Stott, Band Structure Spectroscopy of Metals and Alloys, Ed. D.J. Fabian and L. M. Watson (Academic 1972) J. S. Faulkner and G. M. Stocks, PR B 21, 3222, (1980) t; Z(r ) > ;ε); J(r ) < ;ε) Green függvény egy adag szóróra n G( r, r'; ε ) τ nn = M 1 = nn LL' n nn n ' [ Z L ( r ; ε ) τ Z ( r ; ε )] M n nn' LL' 1 LL' LL' = t δ nn' Töltés- és Mágnesezettségsűrűség, Állapotsűrűség: L' n' G nn' LL' 1 n( r) = Im dεf ( ε µ ) TrG( r, r'; ε ) π 1 ~ m( r) = Im dεf ( ε µ ) σ TrG( r, r'; ε ) π 1 n( ε ) = Im drftrg( r, r; ε ) π R n r r n v( r) R n r n r n

i t j t n j k m Input: Compute: Receive: Send: Result: Atom i ( ) i v r r t -m atrix,,, j k m n t t t t i t ( ) i r ρ r i t i t i t m t k t n t 1 2 3 N-1 N i k j n m i k j n m i k j n m i k j n m i k j n m i k j n m i k j n m i k j n m Masszívan parallel O[N] LSMS megközelítés: a természet rövidlátó Közelítsük a teljes elektron sűrűséget helyileg meghatározott sűrűségekkel A i-edik rácshelyen közelítsük a végtelen rendszer tau mátrixát az n-edik szomszédok alkotta véges méretű rendszer tau mátrixával Lokálisan önkonzisztens többszörös szórás (LSMS) 1 1 1 1 1 11 ii ) ( ) ( ) ( ) ( ) ( = ε ε ε ε ε τ MM M M M t G G t L M O M L ii

LSMS - gyenge skálázás a processzorok számával LSMS: 1 atom 1 processzor, akkor gyengeskálázás: Ha több a processzor, akkor a rendszer is nagyobb IBM SP, NERSC IBM SP RS600 Power 3 375 Mhz 136 16-Processor nodes.

LSMS (erős)skálázás a processzorok számával Fe nanorészecske FeAl kristályban 16,000 Fe és Al atom elemi cellánként LSMS-2 (Full potential; Multi-atom/core) 4,000 Elapsed Time (sec) 3,500 3,000 2,500 2,000 25 atoms/cpu T 1 N CPU 20 atoms/cpu 16 atoms/cpu Elapsed Time (sec) Eltelt idő(sec) Inverse law with overhead Inverse law Spin-polarized calculation 10 atoms/cpu 1,500 5 self-consistent iterations LIZ = 59 8 atoms/cpu Lmax = 3 20 min. 1,000 500 1,000 1,500 2,000 T Core-ok száma Number of CPUs = overhead+ α N CPU 21

Alkalmazás: Sugárzási kaszkád Kaszkád: (rács)hiba lavina

Sugárzási kaszkád szimulációja klasszikus molekuladinamikával Fe 9826-atom 50 kev Kaszkád T = 100 K Vakanciák, Intersticiális atomok, Termalizált Intersticiális Vakancia

A mágneses állapot szimulációja: az LSMS munkában Fe: 50keV Kaszkád- 9286-atom/elemi cella Idő: 355 [0.04 ps] 24

A mágneses állapot szimulációja: az LSMS munkában Fe: 50keV Kaszkád- 9286-atom/elemi cella: Time Step -355 [0.04 ps] m-<m>

A mágneses állapot szimulációja: az LSMS munkában Fe: 50keV Cascade - 9286-atom/elemi cella Time Step: 1197 [0.21ps] m-<m> m-<m> m-<m>

Óriás szimulációk Rendezetlenség, fluktuációk nanoszerkezetekben Membrándiffúziómolekuláris leírása Anyagspecifikus turbulens égés Klímamodellek (elektromágneses) sugárzási transzport alkalmazás az asztrofizikában, lézer fúzióban, orvosi képalkotásban (részecske)sugárzási transzport energiaipari és technológiai alkalmazások

Összefoglalás A szuperszámítógépek nélkülözhetetlen eszközei az élvonalbeli tudományos kutatásnak Szuperszámítógépeken gyakorlat közeli szupertudomány A programok egyre jobban támogatják a masszívan parallel architektúrákat A szuperszámítógépek energiafogyasztása fokozatosan növekszik, külön erőmű kell hozzá 18 A cél a közeljövőben: 1 Exaflop/s ( 10 lebegőpontos művelet másodpercenként) Titán 20, 100, 200 petaflop/s, 1 exaflop/s (roadmap) Köszönöm a figyelmet Szupernóvarobbanás szimulációja Elektron hullámfüggvénye többtest szóródás esetén