Ismétlés: Moore törvény. Tranzisztorok mérőszáma: n*százmillió, n*milliárd.



Hasonló dokumentumok
Négyprocesszoros közvetlen csatolású szerverek architektúrája:

Teljesítmény: időegység alatt végrehajtott utasítások száma. Egységek: MIPS, GIPS, MFLOPS, GFLOPS, TFLOPS, PFLOPS. Mai nagyteljesítményű GPGPU k: 1-2

VLIW processzorok (Működési elvük, jellemzőik, előnyeik, hátrányaik, kereskedelmi rendszerek)

Hibrid előadás: az ea másik felében a Morgen Stanley munkatársa kiegészítéseket fog hozzáfűzni a témához. Hagyományos és szerverrendszerek.

Digitális Technika I. (VEMIVI1112D)

GPGPU: Általános célú grafikus processzorok cgpu: computational GPU GPGPU = cgpu Adatpárhuzamos gyorsító: dedikált eszköz, ami eleve csak erre

Számítógépes alapismeretek

SAMSUNG Notebook és netbook katalógus 2011

GPGPU alapok. GPGPU alapok Grafikus kártyák evolúciója GPU programozás sajátosságai

Digitális Technika I. (VEMIVI1112D)

GPGPU-k és programozásuk Dezső, Sima Sándor, Szénási

Első sor az érdekes, IBM PC ra alapul: 16 bites feldolgozás, 8 bites I/O (olcsóbb megoldás). 16 kbyte RAM. Nem volt háttértár, 5 db ISA foglalat

Memóriák - tárak. Memória. Kapacitás Ár. Sebesség. Háttértár. (felejtő) (nem felejtő)

PCI Express szabvány

Intel Celeron G550 Intel HD Graphics kártyával (2,6 GHz, 2 MB gyorsítótár, 2 mag)

Megérkeztek a legújabb DELL Latitude E modellek. DELL NB Latitude E5500

Digitális Technika I. (VEMIVI1112D)

Dell Vostro 460. A figyelmeztetésekről VIGYÁZAT! A VIGYÁZAT jelzések esetleges tárgyi. Üzembe helyezés és információk a funkciókról

ELŐADÁS SZÁMÍTÓGÉP MŰKÖDÉSE FIZIKA ÉS INFORMATIKA

Számítógépek felépítése

Jó állapotú, használt számítógépek garanciával!

Feladatlap: Számítógép összetevők keresése

TEE Informatikai eszközök beszerzése az Eszterházy Károly Főiskola részére a TÁMOP C-11/1/KONV

Digitális Áramkörök (Villamosmérnök BSc / Mechatronikai mérnök MSc)

Számítógép Architektúrák

DELL Inspiron DLL Q2_38_BL_ (DLL Q2_38_BL_212279)

Digitális rendszerek. Digitális logika szintje

2 GB saját kapacitással rendelkezik, ez valószínűleg gyorsan megtelik, ezért opcionális kiegészítőként ajánlott hozzá egy 4 GB kapacitású kártya:

Ár: Ft Garancia: 2 Év

Cél: Halk gép. A gép: Eredeti hűtés:

Bevitel-Kivitel. Eddig a számítógép agyáról volt szó. Szükség van eszközökre. Processzusok, memória, stb

Tagállamok - Árubeszerzésre irányuló szerződés - Ajánlati felhívás - Tárgyalásos eljárás. HU-Siófok: Asztali számítógépek 2011/S

DELL Latitude CA009L3550EMEA_WIN-11 (CA009L3550EMEA_WIN-11)

A PC története. Informatika alapjai-9 Személyi számítógép (PC) 1/12. (Personal computer - From Wikipedia, the free encyclopedia)

Szabó Georgina- 20/ Urbán Zsolt- 20/

Jó állapotú, használt számítógépek garanciával!

Ajánlati felhívás "Informatikai eszközök beszerzése a kéményseprő ipari tevékenység ellátásához" tárgyban

DELL Latitude E7450 (CA007LE7450EMEA_WIN-11) (CA007LE7450EMEA_WIN-11)

A HP ProLiant szerverek következő generációja

Latitude E5440. A termék főbb jellemzői

GPGPU. GPU-k felépítése. Valasek Gábor

MEMÓRIA TECHNOLÓGIÁK. Számítógép-architektúrák 4. gyakorlat. Dr. Lencse Gábor. tudományos főmunkatárs BME Híradástechnikai Tanszék

Alaplap. Az alaplapról. Néhány processzorfoglalat. Slot. < Hardver

A PC története. Informatika alapjai-9 Személyi számítógép (PC) 1/15. (Personal computer - From Wikipedia, the free encyclopedia)

IBM Power 550 Express szerver

A mikroszámítógép felépítése.

TANÚSÍTVÁNY KARBANTARTÁS Jegyzıkönyv

ARM processzorok felépítése

Nagy adattömbökkel végzett FORRÓ TI BOR tudományos számítások lehetőségei. kisszámítógépes rendszerekben. Kutató Intézet

Bepillantás a gépházba

Siklós, Felszabadulás u. 65. Telefon / Fax : 72/ Web:

OpenCL Kovács, György

A számítógép felépítése A processzor és csatlakoztatása

Főbb jellemzők INTELLIO VIDEO SYSTEM 2 ADATLAP

Dell Precision Tower 7910 Kezelési kézikönyv

Apple számítógépek összehasonlító táblázata

Számítógép Architektúrák

VGN-TT21XN/B. Extrém stílus és hordozhatóság

Tibeko SZÁMÍTÓGÉPEK. Mindegyik termékünk számlával és garanciával!

Lenovo Ideapad YOGA QD009HHV (80QD009HHV)

DELL Inspiron 5558 DLL_Q3_21_EL_204369

Max. 2 DIMM bővítőhely Nem ECC kétcsatornás 1333 MHz DDR3 SDRAM, 1 8 GB

Programmable Chip. System on a Chip. Lazányi János. Tartalom. A hagyományos technológia SoC / PSoC SoPC Fejlesztés menete Mi van az FPGA-ban?

Tibeko SZÁMÍTÓGÉPEK. Mindegyik termékünk számlával és garanciával!

FPGA áramkörök alkalmazásainak vizsgálata

Inspiron sorozat. Nézetek. Műszaki adatok

Dr. Illés Zoltán

Apple Macintosh - A kezdetek és a jelen

Tájékoztató. Használható segédeszköz: -

Bevitel-Kivitel. Bevitel-Kivitel és Perifériák. Algoritmusok és Alkalmazásaik Tanszék Budapest december 16.

Villamos jelek mintavételezése, feldolgozása. Mérésadatgyűjtés, jelfeldolgozás 9. előadás

Ft Ft Ft AKÁR INGYENES SZÁLLÍTÁSSAL! 15, Ft USB 3.0

Toshiba Satellite P70-B-10U

GPGPU programozás lehetőségei. Nagy Máté Ferenc Budapest ALICE ELTE TTK Fizika MSc 2011 e-science Café

LAN és Wireless LAN eszközök megoszlása

Commitment Szolgáltató és Tanácsadó Kft. telefon: fax:

Alaplap. Slot. Bővítőkártyák. Csatolható tárolók. Portok. < Hardver

Parciális rekonfiguráció Heterogén számítási rendszerek VIMIMA15

Intel Pentium G2120 Intel HD Graphics kártyával (3,1 GHz, 3 MB gyorsítótár, 2 mag)

Lenovo Ideapad U M5007UHV

8. Fejezet Processzor (CPU) és memória: tervezés, implementáció, modern megoldások

Jó állapotú, használt számítógépek garanciával!

Ami az Intel szerint is konvergens architektúra

Számítógép architektúrák. Tartalom. A memória. A memória

A Számítógépek hardver elemei

Supermicro Cluster-In-a-Box

Tibeko SZÁMÍTÓGÉPEK. Mindegyik termékünk számlával és garanciával!

Samsung NX200: formatervezett tudás. Írta: Györkei Zoltán szeptember 06. kedd, 08:20

GPGPU. Architektúra esettanulmány

Mikroprocesszorok (Microprocessors, CPU-s)

Árajánlat. Bontási átvételi igazolás kiadását megelőző vizsgálathoz szükséges eszközök: Számítógép 1: Ft + ÁFA. Számítógép 2: 157.

AMD PROCESSZOROK KÉSZÍTETTE: NAGY ZOLTÁN MÁRK EHA KÓD: NAZKABF.SZE I. ÉVES PROGRAMTERVEZŐ-INFORMATIKUS,BSC

Intel Core i3-330um - 1.2GHz, 4GB/1066MHz, 640GBSATA, Intel GMA HD / 256MB, WIFI, Bluetooth, Webkamera, Windows 7 Professional 64bit, Táska + egér

Ikermaggal bıvített kimutatások

Máté: Számítógép architektúrák

I. A SZERZŐDÉS TÁRGYA: IT eszközök, hardverek és fénymásolók áruszállítása

Diplomamunka. Miskolci Egyetem. GPGPU technológia kriptográfiai alkalmazása. Készítette: Csikó Richárd VIJFZK mérnök informatikus

ASUS X552WE-SX036H (X552WE-SX036H)

Asztali PC kínálatunk:

8. Fejezet Processzor (CPU) és memória: tervezés, implementáció, modern megoldások

Átírás:

1

2

3

Ismétlés: Moore törvény. Tranzisztorok mérőszáma: n*százmillió, n*milliárd. 4

5

Moore törvényhez érdekesség: a várakozásokhoz képest folyamatosan alulteljesített, ezért többször is újra lett fogalmazva a törvény (1975 Projection vs. Microprocessor) 6

Csak egyféle értelmes felhasználása van a többlet-tranzisztoroknak: több CPU mag! Három ok van, amiért nincs más megoldás: 1. Szélesség növelés: általános célú alkalmazásoknál max 4-5x a kihasználható párhuzamosság 2. Magok okosítása: 1-2% -os gyorsítás elérhető csak el vele 3. Cache fejlesztés: csak ciklusoknál segít (ráadásul minél nagyobb a mérete, annál nagyobb az elérési idő is) 7

8

9

Homogén: általános célú magok többszörözése, heterogén: speciális, dedikált magok. A hagyományos többmagos és a sokmagos CPU k közti határvonal: ~8 mag. Ennek oka: a kapcsolódó hálózatok; az elvi működését 8 mag felett meg kell változtatni (mennyiségi változásból minőségi változásba vált át) Master/slave: 1 master, n slave. Add-on (csatolt, más néven co-processor): általános célú CPU + speciális mag (pl: GPU, kriptográfia, lebegőpontos műveletvégző, stb) Régebben ilyen volt a 386, lebegőpontos co-processor ral. Sokmagos CPU: kísérleti világban jellemző (később lesznek példák) HPC: High Performance Computing: számításigényes feladatok. Fontos rövidítés! Desktopok-szerverek: adatközpontokban Sokmagosak: kísérleti világban Master-Slave: működő rendszerek, speciális célokra Add-on: a jövő a csatolt processzoroké (speciális alkalmazásokra) 10

11

Ismétlés: Szerverek esetén beszélünk UP, DP, UP (Uni-, Dual-, Multiprocessor) típusokról. A hagyományos CPU k előfordulása: Mobil gépek (laptopok), desktopok, szerverek. 12

13

Netburst: Pentium 4 architektúra Core 2 szélessége: 4 (AMD: 3 => 1/3 al több). További előnye: behoztak több feldolgozó egységet (főleg MM) -> P4 hez képest nagy fejlődés. K8: 8. generáció. 64 bites rendszer magja! (2003; Athlon XP, Opteron) K10: jobb disszipációkezelés, 3 helyett 4 kapcsolódási pont. Első natív 4 magos CPU: Barcelona. (Intel: nem natív 4 magos, hanem 2*2 mag). A Barcelona fekete pont az AMD történelmében. Ezt korrigálták a Shanghai jal. (érdekesség: Barcelona UP változata: Budapest). Istambul: valósan 6 magos. 14

15

Az Intel 4 processzoros rendszereinek rendszerarchitektúrája: A dián a Core a processzort jelenti!!! Platform = CPU + chipset (processzor + lapkakészlet) A lényeg: kihozott egy lapkakészletet, 8500: érdekes memóriakezelés (következő dia) Ismétlés: FBDIMM: Full Buffered DIMM 16

Módosított dia: Az első ábra hibás volt: 4 helyett 2-3 DIMM foglalat/csatorna A fejlődés során a mennyiségi változás minőségi változásba alakult át. 1. ábra: FSB -re rácsatolták a 4 darab egymagos CPU t. NB: North Bridge. 2. ábra: magszám növelés; már az előzőnél is szűk keresztmetszet volt az FSB, most kvázi 8 CPU lenne rajta => 2 FSB kell hozzá, de a RAM is igényelte a változtatást. A transzferrátának van egy maximális értéke, a fő oka ennek: a jelterjedés. 66 MHz => 100 MHz (400 megatranszfer). Nehéz a jelek dekódolása (kevés az erre fordítható idő). További probléma: ha nem zárják le a vezetéket a hullám impedanciájával, reflexió is megjelenhet, a vételt lehetetlenné teszi. DIMM ek növelik az impedenciát. => a sebesség bekorlátozza a transzferrátát. A DIMM -ek száma is bekorlátozódik. Régebben volt 8-6-4, de 3-2-1 re csökkent! Megoldás: Párhuzamos buszok helyett soros buszok használata. Az átalakító, amit ehhez használnak: XMB. (ennek a neve nem fontos. Ismétlés: lábszámok: DDR: 240 pin, északi híd (3*4 cm): 480 pin a RAM hoz (+ FSB -hez, VGA hoz, déli hídhoz). Soros busz: ~80 pin, 4 csatorna is ráfér.) 3. ábra: minden CPU hoz külön FSB (eddigi 2 db => 4 db). FBDIMM: szabványos (ipari jellegű) megvalósítása a párhuzamos-soros átalakításnak! Az FBDIMM 2 előnye: a lábszám csökkentése (=> csatornák számának növekedése) és a DIMM ek (foglalatok) számának növekedése (1-2 => 6) a soros-párhuzamos átalakítás miatt. Kapacitás növekedés figyelhető meg a DIMM ek száma miatt. 17

Esettanulmány, elméleti ábra (rendszerarchitektúra). A következő dián a valós példa. 4 CPU külön FSB n keresztül kapcsolódik, 4 memória csatorna (8-8 DIMM: 512 Gb, 16 Gb / DIMM). PCI-E kimenet. MCH: északi híd. http://en.wikipedia.org/wiki/xeon#7200-series_.22tigerton.22 http://en.wikipedia.org/wiki/xeon#7300-series_.22tigerton.22 18

A különbség: 8-8 helyett a valóságban 6-6 DIMM (összesen 24) van beépítve, maximum 8 Gb / DIMM. 4 csatorna * 6 DIMM * 8 Gb = 192 Gb. Érdekesség (órán nem hangzott el): 7200 (DC) Tigerton ugyanaz, mint a 7300 (QD), csak minden lapkán az egyik mag gyárilag ki van kapcsolva (pl hibás magok esetén ez az eljárás), így lesz 4 -ből 2 magos CPU, és ebből tesznek 4- et egy alaplapra -> 4 socket, 2-2 mag => 4 db DC CPU 19

20

Opteron: K8 mag (2003). 64 bit és memóriavezérlő a CPU lapkán, soros buszok 21

- Direct Connected Architecture: Közvetlen kapcsolódás másik processzorhoz vagy memóriához. Például egy CPU 2 másikhoz kapcsolódik, plusz az I/O hoz. - Két csatornás RAM kapcsolat (vastagabb fekete vonal). Skálázódik a memóriacsatornák száma a CPU k számával (2 csatorna / CPU => 4 CPU esetén 8 csatorna). RAM vezérlő a lapkán - Soros busz megjelenése. Intel: Nehalem architektúra (Core i3, i5, i7): ugyanez, csak 3 helyett 4 link (AMD: K10). Jellemzően 3 memóriacsatorna. 64 bites architektúra. QPI (QuickPath Interconnect): a kapcsolóhálózat elnevezése. 22

23

24

- Kétirányú a kapcsolat, - Bitenként két vezeték kell (gyors sebességnél, előző óra anyaga), - Differenciál átvitel történik (néhány száz millivolt váltás), - Összes vonalszám: 80. Magyarázat: A sávszélesség (a processzor teljesítménye miatt) = busz sebessége * adatút szélessége A sebesség elérte a maximumot, a busz szélességét kell növelni, az optimum: 20. => *2 az átvitel miatt, *2 a két irány miatt => 80 vonal szükséges (+4 az órajelnek) 25

26

27

Tera-Scale: Teraflops teljesítményre képes rendszerek: 1000 GFLOPS felett. 2009 decemberben várható a megjelenése. 28

~16-32 mag (ismeretlen szám). x86 alapúak + 512 bites SIMD kiterjesztés (512 bitet tudnak egyidőben összeadni) 4 szál, MultiThreading. Koherens L2 cache: odafigyelnek rá, hogy mindig a legutolsó beírt értéket kapja meg, aki kéri. 512 Kb. Ringbus: a kapcsolóhálózat. 2 db bus, mindkét irányba 1-1 kommunikál. Minden mag forrás vagy nyelő, rendelkeznek egy-egy elosztó áramkörrel. 2 feladata: kiveszi, ami neki kell, és gondoskodik arról, hogy a másnak küldött csomagok a megfelelő helyre kerüljenek bele. RAM vezérlő is ezen keresztül kommunikál, és ha van speciális-dedikált egység, akkor azok is ezen keresztül kommunikálnak egymással. 29

Kialakítási alternatívák: - GPU orientált Larrabee alaplapja (publikálták, de nem lehet tudni, megjelenike) GPU k adattal való ellátása nehéz dolog: sávszélesség 256-512 bites. GDDR: 32 bitesek grafikai memóriák (kisebb, de gyorsabb) 8 csatorna, hogy ezt a sávszélességet produkálni tudják. DIMM: 64 bitesek egyéb, hagyományos (nagyobb, de lassabb). 30

Másik megvalósítási lehetőség: HPC célú. Kiérlelődött, kiforrott, működő rendszer. Minden mag mindenkivel kommunikálhat, memóriavezérlő on-die CSI: soros busz (AMD: HyperTransport), a QPI elődje (csak máshogy nevezték). http://www.intel.com/technology/quickpath/demo/demo.htm ICH (I/O Controller HUB): Déli híd 31

Csempézett processzor 32

Based on ideas of the NOC processor (Network-on-Chip): hundreds of processing elements with integrated on-die communication) FPMA: FP Multiply-Add 33

8*10 es kialakítás, csempénként 5 link A feldolgozó egység nem annyira fejlett (kapcsolóhálózatokkal játszanak.) 34

35

36

37

Eredetileg a PS3 gépekhez készült (2000), később kiépítették, mint egy blade - et. PS3 ba rengeteget adtak el (tízmilliós nagyságrend), blade be néhány tízezret => QS20-21-22: sokat nem hozott a PS3 hoz képest. 5-7 év fejlesztői munka nagyon sok! 38

VMX: az IBM nél így hívják a SIMD et. Power architektúra. Kétcsatornás memóriavezérlő. 64 bit. 512 k cache 8 db SPE (szolga) bonyolult felépítéssel. Szolgák felépítése: - Önműködésűek LS (Local Store); csak ebből képesek programot végrehajtani/adatot lehozni -> saját kis memóriájuk van, a mesternek kell felprogramoznia őket (beletenni a memóriájukba) - Működés: 1. Be kell tenni az adatot és a programot a lokális tárba 2. meg kell szólítani, induljon el 3. szolga szól, hogyha kész (signal, olyasmi, mint a megszakítás az I/O nál) vagy pedig beteszi egy postafiókba (nem a lokális tárba!), és a mester kiveszi belőle (adott idöközönként vizsgálja) - Mindent a mester szervez - Rambus XDRAM (QS21 ben már DDR) Mester: Teljesen közönséges CPU. DMA kapcsolat a szolga és a mester között. Nehéz programozni. 39

QS20: Rambus memória: a grafika miatt (sávszélesség), hiszen eredetileg PS3 hoz csinálták. QS21 nél ezt felváltotta a DDR. Minden műveletet szinkronizálni, menedzselni kell => nehéz programozás Felépítésen látszik: 512 L2, mester, szolga, RAM és I/O kapcsolat, kapcsolóhálózat. 40

EIB: 2-2 darab ringbus. 96 byte/ciklus (~0.1 kb) sávszélesség (16 byte / ringbus). Az ábrán látható még a kétcsatornás memória és az IO vezérlő. 41

42

43

SP: Single Precision, szimplapontos. Lényeg: 0.4 TF sebesség. 44

Roadrunner: 2008. 1 Petaflops teljesítmény. 2009 -ben hódította el a címet a Jaguar: 1.75 Teraflop sebességgel. A Roadrunner a második. http://en.wikipedia.org/wiki/top_500 45

46

7000 Dual-core Opteron (LS21 Blade) + 13000 Cell (QS22 Blade). ~4 MW teljesítményfelvétel 47

48

49

Shadereken keresztül történik a grafika megvalósítása. Shader modellek: szabványok. Fontos: Shader modell 4 (2006): univerzális, egységes shader modell. Azonos adattípusok, azonos utasításkezelési rendszer -> azonos hardver használata különböző shader modellekhez. Ettől kezdve jelentek meg olyan processzorok, amiben rengeteg lebegőpontos műveletvégző van. ATI a vezető, AMD felvásárolta. Intel fel akarta vásárolni az nvidiát, de az nem hódolt be. => AMD és nvidia a két nagy cég 50

Az ábra csalóka: grafikus kártya 1 TFLOPS ot tud, de ez szimplapontos lebegőpontos művelet! A GPGPU k 32 bitesre vannak kialakítva: Az SP elegendő a térbeli pontok megadásához. Tehát tudják a 32 bites FP t és a 24-32 bites FX et (3*8 bites RGB komponensek). Intel: 64 bitre van kialakítva 51

Sávszélesség: 10 és 100 Gb/s (CPU nál a felületet döntően a cache viszi el, míg a GPGPU ban lényegében az egészet a számítási teljesítményt támogató processzorok töltik ki (következő ábrák) 52

53

54

GeForce 280: 240 (szimplapontos LP) feldolgozó egység Nagyon széles RAM sávszélességet igényel 55

1 feldolgozó egység ábrája (a 240 egyike): Nem streaming processzor, hanem feldolgozó egység. Szimplapontos feldolgozó, van egy integer kiegészítő része, és egy regiszterkészletből dolgozik. 56

Módosított dia! AMD/ATI 9250 Konkurencia: AMD 9250 http://en.wikipedia.org/wiki/amd_firestream 800 FP feldolgozó (SPU, Stream Processor Unit), nagyon széles memóriavezérlés (8 vezérlő), 1 TFLOPS teljesítmény (0.2 TFLOPS duplapontos esetén). A most bejelentettek ennek a duplája: ATI 5800 as család, 2 tera nvidia: Fermi 2.7 tera A számadatok a SP FP re vonatkoznak! HPC k igénylik a 64 bitet, ezért erre ráálltak ezek a cégek -> a fixpontos teljesítménynek már a felére is képesek! 57

Jövő: rá kell tenni a lapkára a GPU t (mindkét cég belátta). 58

59

Intel Nehalem: 45-32 nm, 3 (DP) vagy 4 (DP-MP) csatornás ram. 60

Pentium 4, Core 2, Nehalem (pl. az ábrán: Havendale és Lynnfield), Westmere Kiemeltük: Havendale: Kétmagos CPU (Dual-Channel, PCIe, Graphics Core): bejelentették, majd vissza is vonták. 45 nm helyett 32 n hozták ki, Clarkdale lett az új neve. A négymagos Lynnfield kijött 45 nm en, ahogy eredetileg bejelentették. 61

62

Az irány, amerre halad a fejlődés: Sok master és sok slave (példa: Cell QS sorozat. Roadrunner Cell Blade is van benne) Sok cpu és sok dedikált mag (példa: nvidia: G200 sorozat. ATI/AMD 9250) 1 CPU 1 csatolt => több CPU - 1 csatolt => több CPU - több csatolt Jövő tehát: több mester több dedikált processzor 63

64