Parciális rekonfiguráció Heterogén számítási rendszerek VIMIMA15

Hasonló dokumentumok
Parciális rekonfiguráció Heterogán számítási rendszerek VIMIMA15

Mikrorendszerek tervezése


2. Számítógépek működési elve. Bevezetés az informatikába. Vezérlés elve. Külső programvezérlés... Memória. Belső programvezérlés

Programmable Chip. System on a Chip. Lazányi János. Tartalom. A hagyományos technológia SoC / PSoC SoPC Fejlesztés menete Mi van az FPGA-ban?

Ismétlés: Moore törvény. Tranzisztorok mérőszáma: n*százmillió, n*milliárd.

Számítógépek felépítése

Párhuzamos programozási platformok

Felhő alapú hálózatok (VITMMA02) Hálózati megoldások a felhőben

Párhuzamos programozási platformok

OpenCL - The open standard for parallel programming of heterogeneous systems

Mikrorendszerek tervezése

Nyíregyházi Egyetem Matematika és Informatika Intézete. Input/Output

Software Defined technológiák használata Oracle adatbázis konszolidációhoz

Készítette: Trosztel Mátyás Konzulens: Hajós Gergely

Operációs rendszerek. Bemutatkozás

Digitális technika VIMIAA01 9. hét Fehér Béla BME MIT

Digitális technika VIMIAA01 9. hét

Számítógép felépítése

Csoportos üzenetszórás optimalizálása klaszter rendszerekben

A számítógép egységei

Bevitel-Kivitel. Eddig a számítógép agyáról volt szó. Szükség van eszközökre. Processzusok, memória, stb

Az NIIF új szuperszámítógép infrastruktúrája Új lehetőségek a kutatói hálózatban

Új kompakt X20 vezérlő integrált I/O pontokkal

Grafikus csővezeték 1 / 44

Digitális rendszerek. Digitális logika szintje

Új módszerek és eszközök infokommunikációs hálózatok forgalmának vizsgálatához

Felhő alapú hálózatok (VITMMA02) OpenStack Neutron Networking

A CUDA előnyei: - Elszórt memória olvasás (az adatok a memória bármely területéről olvashatóak) PC-Vilag.hu CUDA, a jövő technológiája?!

Párhuzamos és Grid rendszerek

SDN a különböző gyártói megközelítések tükrében

Everything Over Ethernet

Hogyan építsünk adatközpontot? Tarcsay György

9. Fejezet: Input/Output

elektronikus adattárolást memóriacím

Párhuzamos és Grid rendszerek

BEÁGYAZOTT RENDSZEREK TERVEZÉSE UDP csomag küldése és fogadása beágyazott rendszerrel példa

Apple számítógépek összehasonlító táblázata

IBM Power 550 Express szerver

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

NOLLEX Nemzetközi Kft. Magyarországi kizárólagos disztribútor.

FPGA áramkörök alkalmazásainak vizsgálata

Digitális technika (VIMIAA02) Laboratórium 1

Magas szintű optimalizálás

Ethernet/IP címzés - gyakorlat

Digitális technika (VIMIAA02) Laboratórium 1

Számítógépek felépítése, alapfogalmak

SZÁMÍTÓGÉP ARCHITEKTÚRÁK

Hálózati architektúrák és rendszerek. Nyilvános kapcsolt mobil hálózatok (celluláris hálózatok) 2. rész

Első sor az érdekes, IBM PC ra alapul: 16 bites feldolgozás, 8 bites I/O (olcsóbb megoldás). 16 kbyte RAM. Nem volt háttértár, 5 db ISA foglalat

ARM Cortex magú mikrovezérlők. mbed

A kibontakozó új hajtóerő a mesterséges intelligencia

Léteznek nagyon jó integrált szoftver termékek a feladatra. Ezek többnyire drágák, és az üzemeltetésük sem túl egyszerű.

BMD Rendszerkövetelmények

Bepillantás a gépházba

Flynn féle osztályozás Single Isntruction Multiple Instruction Single Data SISD SIMD Multiple Data MISD MIMD

Ismerkedjünk tovább a számítógéppel. Alaplap és a processzeor

T430 Szerver. Műszaki adatok

Bevitel-Kivitel. Bevitel-Kivitel és Perifériák. Algoritmusok és Alkalmazásaik Tanszék Budapest december 16.

Két típusú összeköttetés PVC Permanent Virtual Circuits Szolgáltató hozza létre Operátor manuálisan hozza létre a végpontok között (PVI,PCI)

Multiprotocol encapsulation (RFC1483) - IETF Classical IP over ATM (RFC1577) - IETF LAN Emulation (LANE) - ATM Forum Multiprotocol over ATM (MPOA) -

Az Invitel adatközponti virtualizációja IBM alapokon

A PET-adatgy informatikai háttereh. Nagy Ferenc Elektronikai osztály, ATOMKI

Újrakonfigurálható technológiák nagy teljesítményű alkalmazásai

Cisco megoldások VMware VDI környezetben. VMware Desktop Virtualizáció 2010 Március 17. Zeisel Tamás Konzultáns Rendszermérnök Cisco Magyarország

Feladatlap: Számítógép összetevők keresése

Mobil Peer-to-peer rendszerek

GPGPU. GPU-k felépítése. Valasek Gábor

GPU alkalmazása az ALICE eseménygenerátorában

A cloud szolgáltatási modell a közigazgatásban

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

Négyprocesszoros közvetlen csatolású szerverek architektúrája:

Szárazföldi autonóm mobil robotok vezérlőrendszerének kialakítási lehetőségei. Kucsera Péter ZMNE Doktorandusz

Virtualizációs technológiák Linux alatt (teljesítményteszt)

Újdonságok Nexus Platformon

Hálózatok. Alapismeretek. A hálózatok célja, építőelemei, alapfogalmak

Számítógépes alapismeretek

R320 Szerver. Műszaki adatok

GPGPU. Architektúra esettanulmány

9. Fejezet: Input/Output

Fejlesztés, működtetés, felügyelet Hatékony infrastruktúra IBM szoftverekkel

április 24. INFO Savaria április 24. INFO Savaria április 24. INFO Savaria

A konvergencia következményei. IKT trendek. Új generációs hálózatok. Bakonyi Péter c.docens. Konvergencia. Új generációs hálózatok( NGN )

FELHŐ és a MAINFRAME. Irmes Sándor

IT ADVISORY. Biztonság a felhőben. Gaidosch Tamás CISA, CISM, CISSP január 20.

Számítógép Architektúrák

Hálózatok építése és üzemeltetése

Architektúra, cache. Mirıl lesz szó? Mi a probléma? Teljesítmény. Cache elve. Megoldás. Egy rövid idıintervallum alatt a memóriahivatkozások a teljes

Mérés, Vezérlés. mérésadat rögzítés CMC - 99 CMC kis és nagytestvér

Utolsó módosítás:

Építsünk IP telefont!

Heterogén számítási rendszerek. Bevezető Szerver architektúrák Kommunikációs interfészek

8. Fejezet Processzor (CPU) és memória: tervezés, implementáció, modern megoldások

Ami az Intel szerint is konvergens architektúra

Intel Pentium G2120 Intel HD Graphics kártyával (3,1 GHz, 3 MB gyorsítótár, 2 mag)

Hitachi Flash Újdonságok. Szokol Zsolt Senior Solution Consultant 2016 március

Simon Balázs Dr. Goldschmidt Balázs Dr. Kondorosi Károly. BME, Irányítástechnika és Informatika Tanszék

Az NIIF új szuperszámítógép infrastruktúrája Új lehet!ségek a kutatói hálózatban Debreceni Egyetem

Történet John Little (1970) (Management Science cikk)

Mikrorendszerek tervezése

Átírás:

BUDAPESTI MŰSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM VILLAMOSMÉRNÖKI ÉS INFORMATIKAI KAR MÉRÉSTECHNIKA ÉS INFORMÁCIÓS RENDSZEREK TANSZÉK Parciális rekonfiguráció Heterogén számítási rendszerek VIMIMA15 Fehér Béla BME MIT

Felhőszolgáltatások igényei Nagyságrendi növekedés az adatforgalomban Magasabb követelmények a válaszidők, késleltetés (latency) csökkentésére Nagyobb feldolgozási sebességigény Alternatívák: CPU-GPU-FPGA-ASIC

Alternatívák és opciók Működési hatékonyság: Művelet/W, Művelet/$ Programozási hatékonyság: Erőforrás, Költség

Alternatívák és opciók Rendszerbeillesztés helye, módja, Kapcsolat a Host és a gyorsító között

Alternatívák és opciók Programozási és használati modell Adathozzáférési modell Közvetlen IO csatornán keresztül Megosztott virtuális memóriában Nem kell adat buffereket másolgatni Együttműködési modell Off-load: független működés Hibrid: az algoritmus részei megosztva működnek a host és a gyorsító erőforrásain

Intel megoldás Xeon + FPGA QPI interfésszel Külső kapcsolat QPI 6,4GT/s sebességgel Lokális memória, bufferelt adatkezelés AAL Acceleration Abstraction Layer

Intel megoldás Programozási interfész AFU Accelerator Functional Units CCI Core Cache Interface (másoknál CCIX) Egységes memória kezelés a teljes rendszerben

Intel megoldás Programozási interfész OpenCL esetén Egységes alkalmazói kód Hordozható CPU+FPGA generációk között

Intel UPI Újabb generációs CPU-k Skylake és utána UPI Ultra Path Interconnect Teljes 2D hálózat Cache-koherens kapcsolat Elsősorban a core-ok között De külső egységek is felfűzhetők Gyorsítók Speciális tároló egységek

Intel Skylake Xeon SP Intel Xeon SP-6138P processzor 20 core, 2 GHz Intel (Altera) Arria 10 GX 1150 FPGA 427k ALM, 65 Mbit RAM, 1518 FP add/mul, 1518 18x19 mul UPI: 20 lane; 10,4 GT/s HSSI: 100 Gb/s ETH 125 W CPU + 70 W FPGA

IBM CAPI CAPI Coherent Accelerator Processor Interface Szabványos PCIe fizikai kapcsolat, a POWER8/9 CPU biztosítja a rendszerbe illeszthetőséget

IBM Power9 24 Power9 core, 4 szál/core DDR4 memória 8 csatorna, 2666 MHz; 140 GB/s Gyorsító interfészek 48 lane PCIe Gen4 (16 Gb/s/lane) CAPI 2.0 Bluelink 25G OpenCAPI 3.0 NVIDIA NVLink 2.0 75 GB/s/irány (x2)

IBM CAPI A cél a gyorsító használatát előkészítő felesleges műveletek (pl. memória adatmásolás) kiiktatása Koherens memória elérés nélkül az eszközkezelő felelős a memória leképezéséért, változók, bemeneti adatok mozgatásáért Az adatok egyidőben több példányban léteznek Eredeti (OS) adatok a rendszermemóriában Átmeneti adatok az eszközkezelő pufferében Munka adatok a gyorsító lokális memóriájában Sok felesleges adminisztráció a driver-ben

IBM CAPI A CAPI megoldásban definiáltak egy POWER Service Layer-t (PSL) Ez a HW modul az FPGA-ban kerül kialakításra, közvetlenül a POWER8/9 CPU végrehajtó egységével/memória vezérlőjével áll kapcsolatban Nincs felesleges adatmozgatás, a gyorsító a változókat, bemeneti adatokat közvetlenül a rendszer memóriából éri el, és az eredményt oda írja vissza Az eszközkezelő a működés során nincs használva

IBM CAPI Az adatelőkészítés folyamata

IBM CAPI A működésben részt vevő funkcionális egységek

IBM CAPI CAIA Coherent Accelerator Interface Architecture Illeszkedik a CAPI Coherent Accelerator Processor Interface-hez A lényeg a PSL egység, amiben CACHE, MMU, és ISL (interrupt service layer) is van! Ezt az IBM biztosítja A CAIA egyidőben több Accelerator Functional Unit-ot (AFU) is tartalmazhat Valódi dinamikus rekonfiguráció lehetősége

Xilinx IBM CAPI interfész Kapcsolatot teremt a PSL és az AFU logika között Az FPGA-n belül a szabványos AXI interfészre épül A PSL 5 interfész csatornát használ: Vezérlő interfész Parancs interfész Válasz interfész Írási és olvasási adatpuffer interfészek MMIO interfész (a gyorsító regisztereinek kezelésére) Megjegyzés: az adatátvitelek történhetnek out-of-order módon

Xilinx IBM CAPI interfész Az interfészek egy-egy AXI Stream-re képződnek Kivéve MMIO, ami AXI-Lite

CAPI továbblépés CCIX Cache Coherent Interconnect for Accelerator Általános célú interfész specifikáció tetszőleges CPU + gyorsító közé Nyílt ipari szabvány kezdeményezés (AMD, ARM, Huawei, IBM, Mellanox, Xilinx) Nagy sávszélesség: 25Gb/s Bővítés memóriák (HMC, HBM) és tárolóeszközök (NVMe) felé Egyelőre kísérleti technológia

Microsoft Azure adatközpont Hagyományos számítógép modell Microsoft DataCenter Computer

Microsoft Azure adatközpont Előnyök, tulajdonságok Az FPGA minden csomagot feldolgoz, látja a forgalmat Egyszerű feladatokat teljesen ellát A csomagok a CPU-ba el sem jutnak Közvetlenül kezeli a rendszermemóriát A CPU szerepe csak a nagykomplexitású feladatok ellátása Jellemző feladatok Elosztott gépi taulás Software Defined Networking

Microsoft Azure adatközpont A Catapult projekt eddigi fejlődése

Microsoft Azure adatközpont A kialakított architektúra Teljesen flexibilis felépítés Lokális gyorsítóeszköz Távoli gyorsítóeszköz Hálózati/tárolási gyorsító ToR = Top-of-Rack kommunikációs hálózat

Microsoft Azure Bing keresés Lokális gyorsító alkalmazás A korábban már említett Intel CPU + FPGA megoldástól eltérően PCIe kapcsolat (a QPI foglalt) A rendszermemória elérés PCIe-en keresztül Bing keresésekhez, kiválasztás, sorbarendezés

Microsoft Azure Bing keresés

Microsoft Azure Bing keresés Lehet egyetlen FPGA teljes belső konfigurációja, vagy az erőforrások egy része Multicore, multithread processor Feature Extraction FSMs

Microsoft Azure adatközpont Távoli gyorsító alkalmazás A terhelések megvalósíthatósága nem mindig pontosan illeszkedik az FPGA méretéhez A kihasználatlan területek elvesztegetett FPGA erőforrások és / vagy elvesztegetett teljesítmény Opció 1. Csökkentett teljesítmény/erőforrásigény, hogy elférjen egy FPGA-ba Opció 2. Hozzáférés több szervertől hálózaton Megoldás: ToR hálózati hozzáférés (top-of-rack)

Microsoft Azure adatközpont FPGA-k közötti közvetlen hálózati kapcsolat Egy ToR alatt (6x8 = 48 FPGA) közvetlen nagysebességű L0 szintű kapcsolat Ezek felett L1 és L2 szintű hálózati eszközök vannak

Microsoft Azure adatközpont FPGA alapú konfigurálható felhő adatközpont

Microsoft Azure adatközpont Az FPGA-k belső felépítése Két komponens: Role, az alkalmazói logika, és a közös I/O és vezérlés Lokális memória 4GB Két 40Gb interfész PCIe IF DMA-val, közvetlen rendszer memória elérés Belső adatutak, belső hálózat

Microsoft Azure adatközpont Lightweight Transport Layer Protocol Engine UDP és IP protokollt használ a hálózaton belül Bonyolult belső egység, megbízható adatátvitellel

Microsoft Azure adatközpont Lightweight Transport Layer Protocol Engine UDP és IP protokollt használ a hálózaton belül Bonyolult belső egység, megbízható adatátvitellel Késleltetések L0 szinten, a ToR-on belül 2,88us (48 FPGA közvetlen elérése) L1 szinten 7,7us, ezzel kb. 1000 FPGA érhető el L2 szinten 16 us 20 us, kb. 100 000+ FPGA felé Valódi távoli és hálózati funkcionalitások

Microsoft Azure adatközpont Hardware-as-a-Service rendszer kialakítás Különböző szolgáltatások telepíthetők az FPGA-kra Egy-egy komponens egy vagy több FPGA-t használ Hierarchikus felügyelet RM Resource Manager SM Service Manager FM FPGA Manager

Microsoft Azure adatközpont Hardware-as-a-Service rendszer kialakítás Különböző szolgáltatások telepíthetők az FPGA-kra

Microsoft Azure adatközpont BrainWave: Extra méretű DNN (deep neural network) hálózat kiértékelés Elosztott működés, akár 1000 FPGA között Optimális adatszélesség Optimális kapcsolati háló kapacitásra, késleltetésre, átviteli sávszélességre

Microsoft Azure - BrainWave NPU: Neural Processing Unit 35 Tflops/s Egyszálú SIMD matrix-vektor, vektor-vektor On-chip memória használat (+DRAM) Egyedi adattípus

Microsoft Azure adatközpont Hálózati intelligens NIC felhő szolgáltatásokra Az Azure a jelenleg a leggyorsabb publikált hálózat 25Gb/s 25us késleltéssel Az FPGA minden csomagot kezel, a fejléc módosításával (sebessége gyakorlatilag a hálózati sebességgel azonos bare metal )

Összegzés Az adatközpontok területe egy intenzív fejlesztési ág Előtérbe került a heterogén számítási rendszerek használata Célok: Energiahatékonyság, adatátviteli sebesség, minimális válaszidő késleltetés Mindez felhasználóbarát fejlesztési technológiákkal Az FPGA-k használata fejlődik, egyre jobban beépülnek a rendszerekbe