Számítógép architektúrák. Korszerű architektúrák

Hasonló dokumentumok
Számítógép architektúrák. Korszerű architektúrák

Számítógép architektúrák Korszerű architektúrák Mai program Pentium P6 processzor (esettanulmány) Párhuzamosítások a CPU-n kívül

Számítógép architektúrák. A mai témák. A teljesítmény fokozás. A processzor teljesítmény növelése

A mai témák. Számítógép architektúrák. CISC és RISC. A teljesítmény fokozás. További előnyök. A RISC gondolat

Számítógép architektúrák. A processzor teljesítmény növelése

Ismétlés: Moore törvény. Tranzisztorok mérőszáma: n*százmillió, n*milliárd.

VLIW processzorok (Működési elvük, jellemzőik, előnyeik, hátrányaik, kereskedelmi rendszerek)

8. Fejezet Processzor (CPU) és memória: tervezés, implementáció, modern megoldások

SZÁMÍTÓGÉP ARCHITEKTÚRÁK

GPGPU: Általános célú grafikus processzorok cgpu: computational GPU GPGPU = cgpu Adatpárhuzamos gyorsító: dedikált eszköz, ami eleve csak erre

8. Fejezet Processzor (CPU) és memória: tervezés, implementáció, modern megoldások

Számítógépek felépítése

Hardver Ismeretek IA32 -> IA64

Számítógépek felépítése, alapfogalmak

Nagy adattömbökkel végzett FORRÓ TI BOR tudományos számítások lehetőségei. kisszámítógépes rendszerekben. Kutató Intézet

ARM processzorok felépítése

Számítógép architektúrák záróvizsga-kérdések február

Számítógépek felépítése, alapfogalmak

Számítógép Architektúrák

GPGPU. GPU-k felépítése. Valasek Gábor

A processzor hajtja végre a műveleteket. összeadás, szorzás, logikai műveletek (és, vagy, nem)

Grafikus csővezeték 1 / 44

Máté: Számítógép architektúrák

Feladatlap: Számítógép összetevők keresése

Bevitel-Kivitel. Eddig a számítógép agyáról volt szó. Szükség van eszközökre. Processzusok, memória, stb

Négyprocesszoros közvetlen csatolású szerverek architektúrája:

Multimédia hardver szabványok

5-6. ea Created by mrjrm & Pogácsa, frissítette: Félix

Operandus típusok Bevezetés: Az utasítás-feldolgozás menete

SzA19. Az elágazások vizsgálata

Utolsó módosítás:

A konferencia terem foglaltsága miatt a november 11-i előadást november 12-én 10h-tól tudom megtartani a konferencia teremben.

GPGPU-k és programozásuk Dezső, Sima Sándor, Szénási

Párhuzamos programozási platformok

Digitális Áramkörök (Villamosmérnök BSc / Mechatronikai mérnök MSc)

Számítógép Architektúrák

Újrakonfigurálható technológiák nagy teljesítményű alkalmazásai

Számítógép felépítése

SZÁMÍTÓGÉP ARCHITEKTÚRÁK

Nagy mennyiségű adatok elemzése és előrejelzési felhasználása masszívan párhuzamosítható architektúrával

Párhuzamos programozási platformok

A mikroszámítógép felépítése.

OpenCL - The open standard for parallel programming of heterogeneous systems

SZÁMÍTÓGÉPES ARCHITEKTÚRÁK

Digitális rendszerek. Digitális logika szintje

Számítógép Architektúrák I-II-III.

Teljesítmény: időegység alatt végrehajtott utasítások száma. Egységek: MIPS, GIPS, MFLOPS, GFLOPS, TFLOPS, PFLOPS. Mai nagyteljesítményű GPGPU k: 1-2

Készítette: Trosztel Mátyás Konzulens: Hajós Gergely

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Számítógép Architektúrák

Digitális Technika I. (VEMIVI1112D)

Bevezetés az informatikába

Flynn féle osztályozás Single Isntruction Multiple Instruction Single Data SISD SIMD Multiple Data MISD MIMD

Bepillantás a gépházba

GPGPU alapok. GPGPU alapok Grafikus kártyák evolúciója GPU programozás sajátosságai

Assembly. Iványi Péter

Számítógép architektúrák I. Várady Géza

Párhuzamos és Grid rendszerek

Számítógép Architektúrák

Máté: Számítógép architektúrák

FIR SZŰRŐK TELJESÍTMÉNYÉNEK JAVÍTÁSA C/C++-BAN

Memóriák - tárak. Memória. Kapacitás Ár. Sebesség. Háttértár. (felejtő) (nem felejtő)

2016/08/31 02:45 1/6 Hardver alapok

Architektúra, cache. Mirıl lesz szó? Mi a probléma? Teljesítmény. Cache elve. Megoldás. Egy rövid idıintervallum alatt a memóriahivatkozások a teljes

Programmable Chip. System on a Chip. Lazányi János. Tartalom. A hagyományos technológia SoC / PSoC SoPC Fejlesztés menete Mi van az FPGA-ban?

SZÁMÍTÓGÉPES ARCHITEKTÚRÁK A STRUKTURÁLT SZÁMÍTÓGÉP-FELÉPÍTÉS. Misák Sándor. 2. előadás DE TTK

Digitális Technika I. (VEMIVI1112D)

TANÚSÍTVÁNY KARBANTARTÁS Jegyzıkönyv

6. óra Mi van a számítógépházban? A számítógép: elektronikus berendezés. Tárolja az adatokat, feldolgozza és az adatok ki és bevitelére is képes.

3DMark 06 CPU. Magok / Szálak 8MB / MB /

Nyíregyházi Egyetem Matematika és Informatika Intézete. Input/Output

GPGPU. Architektúra esettanulmány

SZÁMÍTÓGÉP ARCHITEKTÚRÁK

Számítógépes alapismeretek

Mikrorendszerek tervezése

Módosított ábra: szaggatott nyíl: a fejlődési ív Az ábrából kimaradt a mobil szegmens (hordozható számítógépek). Y tengely: ár.

Apple számítógépek összehasonlító táblázata

Parciális rekonfiguráció Heterogén számítási rendszerek VIMIMA15

Digitális Technika I. (VEMIVI1112D)

MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Processzor (CPU - Central Processing Unit)

A számítógép felépítése A processzor és csatlakoztatása

Központi vezérlőegység

Az INTEL mikroprocesszorok architekturális fejlődésének bemutatása

Utolsó módosítás:

UNIX / Linux rendszeradminisztráció

Amazon Web Services. Géhberger Dániel Szolgáltatások és alkalmazások március 28.

IBM Power 550 Express szerver

7. Fejezet A processzor és a memória

Digitális rendszerek. Utasításarchitektúra szintje

Haladó Grafika EA. Inkrementális képszintézis GPU-n

Hibrid előadás: az ea másik felében a Morgen Stanley munkatársa kiegészítéseket fog hozzáfűzni a témához. Hagyományos és szerverrendszerek.

Első sor az érdekes, IBM PC ra alapul: 16 bites feldolgozás, 8 bites I/O (olcsóbb megoldás). 16 kbyte RAM. Nem volt háttértár, 5 db ISA foglalat

2. Számítógépek működési elve. Bevezetés az informatikába. Vezérlés elve. Külső programvezérlés... Memória. Belső programvezérlés

2017/12/16 21:33 1/7 Hardver alapok

SAP Business One. Áttekintés, gyakorlati ismertetı. Mosaic Business System Kft.; Support:

Operációs rendszerek III.

Utolsó módosítás:

Magas szintű optimalizálás

Gábor Dénes Főiskola Győr. Mikroszámítógépek. Előadás vázlat. 2004/2005 tanév 4. szemeszter. Készítette: Markó Imre 2006

Átírás:

Számítógép architektúrák Korszerű architektúrák

Mai program Pentium P6 processzor (esettanulmány) Párhuzamosítások a CPU-n kívül 2

Az Intel P6 család IA instrukciókat feldolgozó (x86, MMX, Katmai Iset), háromutas szuperskalár, sok fokozatos (12-14 stage) futószalagelvű processzorok Spekulatív végrehajtás, elágazás előrejelzés Pl. Pentium Pro Pentium II., Pentium II Xeon Pentium Celeron Pentium III., Pentium III Xeon Nézzük ezt IA-64: Intel Itanium architecture 3

Jellemzők Szuperskalár CISC processzor, RISC maggal Ciklusonként három RISC µ-operáció kibocsátására, öt RISC µ-operáció kiküldésére képes 20 bejegyzéses várakoztató állomása van A szigorúan soros konzisztenciát átrendező puffer (ROB) biztosítja A regiszterátnevezést is a ROB biztosítja 4

CISC processzor RISC maggal Az ilyen processzorokban a CISC instrukciókat RISC instrukciókká konvertálják A RISC mikro-instrukciókat (µops) egy RISC mag hajtja végre A µops-ok három operandusúak (triadikus jelleg): egy kimenő és két bemenő operandus a szokásos Egy CISC instrukció egy vagy több µops-sá is konvertálódhat Pl. a köv. CISC instrukció kettővé: SUB EAX, [EDI] // CISC MOV r1,[edi] SUB EAX,r1 // r1 [EDI] // EAX EAX r1 Bonyolult CISC instrukciók sok µops-sá 5

3 egység kommunikál közös instrukció mezőn keresztül System Bus L2 Cache Bus Interface Unit L1 ICache L1 DCache Fetch Load Store Fetch/ Decode Unit Dispatch/ Execute Unit Retire Unit Instruction Pool 6

3 egység kommunikál közös instrukció mezőn keresztül Rendszersín L2 Cache Sínkezelő egység L1 ICache L1 DCache Behozatal Betöltés Tárolás Behozó/ dekódoló egység Kiküldő/ végrehajtó egység Visszaíró egység Kibocsátás Várakoztatás Várakozó állomás Kiküldés Visszaírás 7

Dekód dolás From BIU ICache Instrukció Dekódolók (3x) A behozó és dekódoló egység Behozatal Kibocsátás Next_IP Branch Target Buffer Microcode Instruction Seqencer Reg. Alias Table Allocate ReOrder Buffer ReOrder Buffer: várakoztató puffer Next_IP: L1 ICache index. Az ID-be 16 byte-os egységekben IA instrukciókat hoznak be (behozatal, fetch) BTB elágazásjelző: merre olvasson előre (IP előtt 20-30 IA és 5 ugrás). ID elődekódolás választ: 3 dekóder (2 egyszerű, 1 komplex) az IA instrukciókat µops-okká alakítja (1 v. 4 µops-sá). Amit nem tudnak: a mikroutasítás sorvezérlő (MIS) alakít át (sok µops-sá). A µops-ok sorban átkerülnek a regiszterátnevezés leképző-táblába (RAT): a hamis függőségek feloldására (az IA regiszter hivatkozások fizikai regiszter hivatkozásokra képződnek). Ez az ún. instrukció kibocsátás. (kibocsátáshoz kötött operandus-behívás) 8

Kibocsátáshoz kötött operandus-behívás A kibocsátás és regiszterátnevezés során megtörténik a (bemenő) operanadusok behívása (kibocsátáshoz kötött operandus-behívás) Az átnevezett (bemenő operandust tartalmazó) regiszterek értéket kapnak (a megfelelő regiszterektől), A ROB-beli µops-okba beolvasódnak a regiszterértékek (regiszterfájl olvasás futószalag fázis) Létezik kiküldéshez kötött operandus-behívás politika is A kibocsátott µops-ok a várakozó állomásban (Reservation Station) várakoznak 9

A kiküldés (dispatching) Várakoz ztató álloomás (Reserva ation Station) Port 0 To/From Port 1 ROB Port 2 Port 3,4 Kiküldés FP Exec U Int Exec U MMX Exec U FP Exec U Int Exec U MMX Exec U Load U Loads Store U Stores A várakoztató állomás "kiegyenlítő tartály". Minden ALU számára közös (központi várakoztató állomás ) Bekerülnek a µops-ok, és ha minden operandusuk előállt (és megfelelő ALU rendelkezésre áll), a megfelelő porton a megfelelő ALU-ba kerülnek végrehajtásra. Onnan az eredményükkel együtt visszajutnak az I Poolba. RAT (Register Alias Table) ROB (ReOrder Buffer) Reservation Station Várakoztatás Ciklusonként max 5 µops kiküldése lehetséges, átlag 3 a tipikus. 10

A várakozató állomás elv A várakoztató állomás elv azt jelenti, hogy a VÁ várakoztatásra, utasításátrendezésre és regiszterátnevezésre szolgál egyidejűleg. Minden ALU számára közös a VÁ, ezért a Pentiumok ún. központi várakoztató állomás típusúak. 11

A kiküldési politika A kiküldés feladatai: A VÁ-ban pufferelt µops-ok közül a végrehajthatók kiválasztása (kiválasztási szabály: aminek minden forrásoperandusa már rendelkezésre áll: spekulatív politika, adatfolyam elvű a kiválasztás), A megfelelő ALU kiválasztás (melyik port) Döntés a kiküldési sorrendről (ha a küldhetőnél több µops létezik). (A Pentiumnál az Intel nem specifikálta pontosan, FIFO. ) Létezik sorrendben kiküldés, vagy részben sorrendben kiküldési politika is, de nem a Pentiumoknál. 12

A végrehajtó egységek (ALU-k) A kiküldött µops-ok valamely kapun (port) jutnak a VE-ek valamelyikébe Szokásos ALU-k: Fixpontos ALU (IU, legalább 2, egy-egy porton) Fixpontos osztó (IDIV), fixpontos eltoló (ISHF) Lebegőpontos összeadó (FADD), osztó (FDIV), szorzó (FMUL) MMX ALU (SIMD) Elágazás kezelő (JEU, elágazási cím számító) Címkiszámító adatbetöltéshez (load AU) Címkiszámító adat tároláshoz (store AU) Utóbbiakból a kiküldött µops-ok a Bus Interface Unit-ba kerülnek 13

A Bus Interface Unit (BIU) Az adat betöltő (load) és kiíró (store) µops-ok ide kerülnek A betöltéshez kell: memória cím, a szélesség és a céloperandus. Egyetlen µops-sá dekódolható. Spekulatíven végrehajtható. Kiíráshoz kell cím, szélesség és az adat. Két µops kell, egyik generálja az adatot, másik a címet és szélességet. Nem hajthatók végre spekulatíven. Ezeket nem zavarhatják load-ok, régi store-ok. 14

Memory Reorder Buffer (MRB) A BIU-ban van Memory Reorder Buffer: kiegyenlítő tartály (ROB-hoz hasonlít): Engedi, hogy load-ok előzzenek load-okat; Blokkol függő load-okat és store-okat; Újraütemezi a blokkoltakat, mikor a blokkoló feltételek (függőség, erőforrás hiány) megszűnnek. 15

A VÁ és a ROB frissítése A végrehajtó egységekből (ill. a BIU MRB-ből) a végrehajtott µops-ok visszakerülnek a várakozó állomásba (Reservation Station) Asszociatív kereséssel keres olyan µops-okat, melyek valamely forrás-operandusa az éppen végrehajtott cél- operandussal egyezik. Ezeket frissíti: az eredményt beírja a ROB-ba, érvényességi biteket beállítja. A frissítés kell a függőségek megszüntetésére, illetve a visszaírások előkészítésére. 16

A Retire Unit (Visszaíró) Reservation Station Visszavonás To/From DCache Bus Interface Unit Retirement Register File Instruction Pool Ez is nézi a µops-okat az VÁ-ban: olyanokat keres, amik már végrehajtódtak és kivehetők (can be removed). Nézi az eredeti sorrendet (ROB), és a RAT (Reg. Alias Table) leképzéseket, hogy helyes eredményt kapjunk, figyelemmel az interruptokra, trap-ekre, töréspontokra és a helytelen előrejelzésekre is. A visszavont µops-ok eredményeit beíratja az IA regiszterekbe, vagy az L1 Dcache-be (M/BIU segítségével). Ciklusonként 3 µops-ot tud visszavonni. A load/store-ok a BIU-n át jutnak vissza az VÁ.ba. 17

A konzisztencia A Pentiumoknál erős processzor konzisztenciát biztosítanak A ROB-ba beírt sorrend szerint, azaz az IA instrukció sorrendje szerint történik a visszaírás A memória konzisztencia nem erős. A kivételkezelés konzisztenciája erős. 18

Intel Pentium 4 NetBurst Micro-Architecture Hyper-Pipelined Technology (20-stage) 400 MHz System Bus (3,2 Gbytes/sec) Advanced Dynamic Execution 126 instrukció a spekulatív végrehajtás időablakában (P6-nál csak 42) 4K a Branch Target Buffer: részletesebb história az elágazásokról, ezekből jobb előrejelzési algoritmus, kb. 33%-kal kevesebb a téves előrejelzés a P6-hoz képest Rapid Execution Engine Az ALU-k a processzoron belül kétszeres frekvenciával dolgoznak ftp://download.intel.com/design/pentium4/papers/24943801.pdf 19

Intel Pentium 4 (folyt) NetBurst Micro-Architecture (folyt) Advanced Transfer Cache 256 KB L2 Cache, 256 bites interfésszel 48 GB/s érhető el (P6-nál ez csak 16GB/s volt) Execution Trace Cache Új L1 Icache: képes dekódolt µops-okat pufferelni (nem kell újra dekódolni) Az elágazások instrukciószekvenciái ugyanazon a cache vonalon: gyorsabb elérés. Streaming SIMD Extension 2 (SSE2) SIMD párhuzamosságok mind a fix, a lebegőpontos és MMX aritmetikában 144 új instrukció Hardware Prefetcher Konkurencia a memória elérés és a számítások között 20

Intel Desktop Processor Roadmap 2005. 2. félév 2006. 1. félév Intel Pentium Processor Extreme Edition 840 2x1MB L2 cache, 3.20 GHz, 800 MHz FSB Intel 955X Express Chipset Intel Pentium D Processor 840 2x1MB L2 cache, 3.20 GHz, 800 MHz FSB Intel 955X Express Chipset Intel 945G/P Express Chipsets Intel Pentium Processor Extreme Edition 840 or greater 2x1MB L2 cache, 3.20 GHz, 800 MHz FSB Intel 955X Express Chipset Intel Pentium D Processor 840 or greater 2x1MB L2 cache, 3.20 GHz, 800 MHz FSB Intel 955X Express Chipset Intel 945G/P Express Chipsets http://www.intel.com/products/roadmap/ 21

Intel Server Processor Roadmap 2005. 2. félév 2006. 1. félév Intel Xeon Processor 7000 sequence Dual-core processing, 64-bit 2x2M L2 cache, up to 3 GHz, 800 MHz FSB Intel E8501 Chipset (expected to be available in early 2006) / Enabled Chipsets Intel Xeon Processor MP 64-bit 8 MB il3 cache, 3.33 GHz, 667 MHz FSB Intel E8500 Chipset / Enabled Chipsets Intel Xeon Processor 7000 sequence Dual-core processing, 64-bit 2x2M L2 cache, up to 3 GHz, 800 MHz FSB Intel E8501 Chipset (expected to be available in early 2006) / Enabled Chipsets Intel Xeon Processor MP Intel Xeon Processor MP Family Next Generation 64-bit Intel E8500 Chipset / Enabled Chipsets http://www.intel.com/products/roadmap/ 22

Ivy Bridge 32KB + 32KB L1 Cache / mag 256 KB L2 Cache / mag 8MB L3 Cache (össz.) 3.5 GHz max órajel frek. (3.9 GHz Turbo Boost) 14 / 19 stage pipeline GPU integrálva! Intel Core i3/i5/i7 Hardware véletlenszám generátor VT-x Intel virtualizációs HW támogatás (később MSc...) AVX utasításkészlet (Advanced Vector extensions) Titkosítást elősegítő algortimusokhoz instrukciók (AES) pl. Xeon E7 8890v2 15 mag / 30 szál, 37.5 MB L3 Cache kezelhető memória: 1.5 TB 23

POWER 8 64KB + 32KB L1 Cache / mag 512 KB L2 Cache / mag 96 MB L3 Cache (össz.) L4 lehetőség (Centaur chipset) 5 GHz max órajel frek. IBM POWER 12 mag, magonként 8 szál 96 szál 1 TB memória CPU socketenként Külön felügyeleti microcontroller, amely dinamikus állít a CPU-ban 1764 fesz. szabályozót az energiahatékonyság érdekében 16 végrehajtó egység (execution unit) 2 fixed-point unit, 4 floating point unit 2 instruction fetch unit, 2 load-store unit 2 vmx unit, 1 cryptográfiai egység, 1 decimális lebegőpontos egység 1 condition register unit, 1 branch register unit 24

Párhuzamosítás a CPU-n kívül Fix feladat szétosztás Aritmetikai társprocesszorok, Grafikus, képfeldolgozó társprocesszorok, Hangfeldolgozó... stb. Változó feladatszétosztás: több processzor, mind általános célú... 25

Flynn osztályozásához alapfogalmak Egy processzor által feldolgozott instrukció folyam (IS, Instruction Stream) fogalma A memória és a processzor közötti adat folyam (DS, Data Stream) fogalma Mindkettőben lehet párhuzamosság 26

Lehetséges osztályok: Flynn osztályozása Single Instruction Single Data stream (SISD) A Neuman gép ilyen Single Instruction Multiple Data stream (SIMD) Adatpárhuzamos processzorok Multiple Instruction Single Data stream (MISD) Nem valósult meg, bár egyesek a futószalag elvű gépeket és a szisztolikus tömböket ebbe az osztályba sorolják Multiple Instruction Multiple Data stream (MIMD) Oszott memóriás rendszerek Saját erőforrásos, üzenetváltásos rendszerek 27

Az adatpárhuzamosság Az összes processzor (végrehajtó egység) (ugyanazt az algoritmust) különböző adatokon hajtja végre Gyakori feladatok Vezérlő Mátrixok és vektorok elemeinek feldolgozása Kép pixelpontok feldolgozása AB rekordok párhuzamos feldolgozása Hierarchikus fa- és piramisszerkezetű adatok feldolgozása egység Instruction Stream 1 Adatfolyam/ Data Stream 1 Végrehajtó egység 1 M 1 Végrehajtó egység n Data Stream n M n 28

Adatpárhuzamos architektúrák Asszociatív és neurális számítógépek Processzoron belül említettük az asszociatív memória kezelését. Az elven külső párhuzamosság is elképzelhető Az adatok minden elemét párhuzamosan összevetjük egy AB megfelelő elemeivel, és az egyezőség mértékét (egyezés jóságát), vagy az ettől függő eredményt kapjuk meg A neurális hálókról később tanulnak. Szisztolikus és irányított tömbök A bevitt adatokat átpumpálják egy műveletvégző rendszeren (a szív szisztolikus pumpálása analógiájára) Vektorelrendezésű architektúrák A klasszikus SIMD Finom, ill durva szemcsézettség 29

A MIMD lehet Közös erőforrású struktúrák (pl. többmagos proc.) osztoznak a memórián, eszközökön, részben v. teljesen saját erőforrású struktúrák (pl. transzputerek) processzoronkénti memória, esetleg eszközök, intenzív kommunikáció. A párhuzamosság granulátuma lehet durva szemcsés (pl. processzek egy-egy CPU-hoz kötődnek, ilyen volt a zeus), finom szemcsés (egy processz fonalai más CPU-kon). 30

Virtualizáció OS Virtualizáció (OS tárgyakban majd...) Látszólag egymástól független és izolált operációs rendszer fut egy fizikai hardware-n Hypervisor / VMM (Virtual Machine Monitor) Sok előny még akkor is ha csak 1 virtuális gép van 31

Cloud Computing Felhő (később részleteiben) Alapja a virtualizáció: Mindegy, hogy hol fut fizikailag Valójában csak egy szemlélet (üzleti modell...) SaaS, PaaS, IaaS Software as a Service (alkalmazásokhoz és adatbázisokhoz hozzáférés "on-demand software") Platform as a Service (számítási platform: operating system, programming-language execution environment, database, and web server) Infrastructure as a Service (a (virtuális) gép és más erőforrások (hely, adat, backup) a szolgáltatás) 32

Két fogalom Grid computing (Computational grid ; peer-to-peercomputing) (grid = villamos elosztó hálózat) Számítógépek összekapcsolása hálózaton keresztül, mely gépek ugyanazon probléma ugyanabban az időben történő megoldásán egységként dolgoznak Cluster computing (gépek klasztere) Személyi gépek, munkaállomások együttes használata úgy, hogy egy felhasználó számára egy egységként tűnjenek Single System Image. High Throughput Computing (minél többet) High Performance Computing (minél párhuzamosabban) 33

Nvidia Tesla Nvidia Tesla Társprocesszor PCI-Express Sok-sok mag, kisebb teljesítmény, és nem általános, mint a CPU Tesla K40 GPGPU 745 MHz 2880 mag (CUDA) ugyanaz a művelet, sok adaton 12 GB RAM 288GB/sec mem elérés 1.43 TFLOPS 34

Intel Xeon Phi Xeon Phi Társprocesszor a. PCI-Express b. CPU foglalatba helyezhető buta magok, de sok Pentium 1 CPU (P5) + 512-bit AVX HPC 61 db mag, 1.238 GHz 244 szál 16 GB RAM 1.2 TFLOPS Tianhe-2 (www.top500.org) 33+ PFLOPS 35

Xeon Phi 36

Tianhe-2 37

Számítógép architektúrák Korszerű architektúrák VÉGE