1
2
3
Ismétlés: Moore törvény. Tranzisztorok mérőszáma: n*százmillió, n*milliárd. 4
5
Moore törvényhez érdekesség: a várakozásokhoz képest folyamatosan alulteljesített, ezért többször is újra lett fogalmazva a törvény (1975 Projection vs. Microprocessor) 6
Csak egyféle értelmes felhasználása van a többlet-tranzisztoroknak: több CPU mag! Három ok van, amiért nincs más megoldás: 1. Szélesség növelés: általános célú alkalmazásoknál max 4-5x a kihasználható párhuzamosság 2. Magok okosítása: 1-2% -os gyorsítás elérhető csak el vele 3. Cache fejlesztés: csak ciklusoknál segít (ráadásul minél nagyobb a mérete, annál nagyobb az elérési idő is) 7
8
9
Homogén: általános célú magok többszörözése, heterogén: speciális, dedikált magok. A hagyományos többmagos és a sokmagos CPU k közti határvonal: ~8 mag. Ennek oka: a kapcsolódó hálózatok; az elvi működését 8 mag felett meg kell változtatni (mennyiségi változásból minőségi változásba vált át) Master/slave: 1 master, n slave. Add-on (csatolt, más néven co-processor): általános célú CPU + speciális mag (pl: GPU, kriptográfia, lebegőpontos műveletvégző, stb) Régebben ilyen volt a 386, lebegőpontos co-processor ral. Sokmagos CPU: kísérleti világban jellemző (később lesznek példák) HPC: High Performance Computing: számításigényes feladatok. Fontos rövidítés! Desktopok-szerverek: adatközpontokban Sokmagosak: kísérleti világban Master-Slave: működő rendszerek, speciális célokra Add-on: a jövő a csatolt processzoroké (speciális alkalmazásokra) 10
11
Ismétlés: Szerverek esetén beszélünk UP, DP, UP (Uni-, Dual-, Multiprocessor) típusokról. A hagyományos CPU k előfordulása: Mobil gépek (laptopok), desktopok, szerverek. 12
13
Netburst: Pentium 4 architektúra Core 2 szélessége: 4 (AMD: 3 => 1/3 al több). További előnye: behoztak több feldolgozó egységet (főleg MM) -> P4 hez képest nagy fejlődés. K8: 8. generáció. 64 bites rendszer magja! (2003; Athlon XP, Opteron) K10: jobb disszipációkezelés, 3 helyett 4 kapcsolódási pont. Első natív 4 magos CPU: Barcelona. (Intel: nem natív 4 magos, hanem 2*2 mag). A Barcelona fekete pont az AMD történelmében. Ezt korrigálták a Shanghai jal. (érdekesség: Barcelona UP változata: Budapest). Istambul: valósan 6 magos. 14
15
Az Intel 4 processzoros rendszereinek rendszerarchitektúrája: A dián a Core a processzort jelenti!!! Platform = CPU + chipset (processzor + lapkakészlet) A lényeg: kihozott egy lapkakészletet, 8500: érdekes memóriakezelés (következő dia) Ismétlés: FBDIMM: Full Buffered DIMM 16
Módosított dia: Az első ábra hibás volt: 4 helyett 2-3 DIMM foglalat/csatorna A fejlődés során a mennyiségi változás minőségi változásba alakult át. 1. ábra: FSB -re rácsatolták a 4 darab egymagos CPU t. NB: North Bridge. 2. ábra: magszám növelés; már az előzőnél is szűk keresztmetszet volt az FSB, most kvázi 8 CPU lenne rajta => 2 FSB kell hozzá, de a RAM is igényelte a változtatást. A transzferrátának van egy maximális értéke, a fő oka ennek: a jelterjedés. 66 MHz => 100 MHz (400 megatranszfer). Nehéz a jelek dekódolása (kevés az erre fordítható idő). További probléma: ha nem zárják le a vezetéket a hullám impedanciájával, reflexió is megjelenhet, a vételt lehetetlenné teszi. DIMM ek növelik az impedenciát. => a sebesség bekorlátozza a transzferrátát. A DIMM -ek száma is bekorlátozódik. Régebben volt 8-6-4, de 3-2-1 re csökkent! Megoldás: Párhuzamos buszok helyett soros buszok használata. Az átalakító, amit ehhez használnak: XMB. (ennek a neve nem fontos. Ismétlés: lábszámok: DDR: 240 pin, északi híd (3*4 cm): 480 pin a RAM hoz (+ FSB -hez, VGA hoz, déli hídhoz). Soros busz: ~80 pin, 4 csatorna is ráfér.) 3. ábra: minden CPU hoz külön FSB (eddigi 2 db => 4 db). FBDIMM: szabványos (ipari jellegű) megvalósítása a párhuzamos-soros átalakításnak! Az FBDIMM 2 előnye: a lábszám csökkentése (=> csatornák számának növekedése) és a DIMM ek (foglalatok) számának növekedése (1-2 => 6) a soros-párhuzamos átalakítás miatt. Kapacitás növekedés figyelhető meg a DIMM ek száma miatt. 17
Esettanulmány, elméleti ábra (rendszerarchitektúra). A következő dián a valós példa. 4 CPU külön FSB n keresztül kapcsolódik, 4 memória csatorna (8-8 DIMM: 512 Gb, 16 Gb / DIMM). PCI-E kimenet. MCH: északi híd. http://en.wikipedia.org/wiki/xeon#7200-series_.22tigerton.22 http://en.wikipedia.org/wiki/xeon#7300-series_.22tigerton.22 18
A különbség: 8-8 helyett a valóságban 6-6 DIMM (összesen 24) van beépítve, maximum 8 Gb / DIMM. 4 csatorna * 6 DIMM * 8 Gb = 192 Gb. Érdekesség (órán nem hangzott el): 7200 (DC) Tigerton ugyanaz, mint a 7300 (QD), csak minden lapkán az egyik mag gyárilag ki van kapcsolva (pl hibás magok esetén ez az eljárás), így lesz 4 -ből 2 magos CPU, és ebből tesznek 4- et egy alaplapra -> 4 socket, 2-2 mag => 4 db DC CPU 19
20
Opteron: K8 mag (2003). 64 bit és memóriavezérlő a CPU lapkán, soros buszok 21
- Direct Connected Architecture: Közvetlen kapcsolódás másik processzorhoz vagy memóriához. Például egy CPU 2 másikhoz kapcsolódik, plusz az I/O hoz. - Két csatornás RAM kapcsolat (vastagabb fekete vonal). Skálázódik a memóriacsatornák száma a CPU k számával (2 csatorna / CPU => 4 CPU esetén 8 csatorna). RAM vezérlő a lapkán - Soros busz megjelenése. Intel: Nehalem architektúra (Core i3, i5, i7): ugyanez, csak 3 helyett 4 link (AMD: K10). Jellemzően 3 memóriacsatorna. 64 bites architektúra. QPI (QuickPath Interconnect): a kapcsolóhálózat elnevezése. 22
23
24
- Kétirányú a kapcsolat, - Bitenként két vezeték kell (gyors sebességnél, előző óra anyaga), - Differenciál átvitel történik (néhány száz millivolt váltás), - Összes vonalszám: 80. Magyarázat: A sávszélesség (a processzor teljesítménye miatt) = busz sebessége * adatút szélessége A sebesség elérte a maximumot, a busz szélességét kell növelni, az optimum: 20. => *2 az átvitel miatt, *2 a két irány miatt => 80 vonal szükséges (+4 az órajelnek) 25
26
27
Tera-Scale: Teraflops teljesítményre képes rendszerek: 1000 GFLOPS felett. 2009 decemberben várható a megjelenése. 28
~16-32 mag (ismeretlen szám). x86 alapúak + 512 bites SIMD kiterjesztés (512 bitet tudnak egyidőben összeadni) 4 szál, MultiThreading. Koherens L2 cache: odafigyelnek rá, hogy mindig a legutolsó beírt értéket kapja meg, aki kéri. 512 Kb. Ringbus: a kapcsolóhálózat. 2 db bus, mindkét irányba 1-1 kommunikál. Minden mag forrás vagy nyelő, rendelkeznek egy-egy elosztó áramkörrel. 2 feladata: kiveszi, ami neki kell, és gondoskodik arról, hogy a másnak küldött csomagok a megfelelő helyre kerüljenek bele. RAM vezérlő is ezen keresztül kommunikál, és ha van speciális-dedikált egység, akkor azok is ezen keresztül kommunikálnak egymással. 29
Kialakítási alternatívák: - GPU orientált Larrabee alaplapja (publikálták, de nem lehet tudni, megjelenike) GPU k adattal való ellátása nehéz dolog: sávszélesség 256-512 bites. GDDR: 32 bitesek grafikai memóriák (kisebb, de gyorsabb) 8 csatorna, hogy ezt a sávszélességet produkálni tudják. DIMM: 64 bitesek egyéb, hagyományos (nagyobb, de lassabb). 30
Másik megvalósítási lehetőség: HPC célú. Kiérlelődött, kiforrott, működő rendszer. Minden mag mindenkivel kommunikálhat, memóriavezérlő on-die CSI: soros busz (AMD: HyperTransport), a QPI elődje (csak máshogy nevezték). http://www.intel.com/technology/quickpath/demo/demo.htm ICH (I/O Controller HUB): Déli híd 31
Csempézett processzor 32
Based on ideas of the NOC processor (Network-on-Chip): hundreds of processing elements with integrated on-die communication) FPMA: FP Multiply-Add 33
8*10 es kialakítás, csempénként 5 link A feldolgozó egység nem annyira fejlett (kapcsolóhálózatokkal játszanak.) 34
35
36
37
Eredetileg a PS3 gépekhez készült (2000), később kiépítették, mint egy blade - et. PS3 ba rengeteget adtak el (tízmilliós nagyságrend), blade be néhány tízezret => QS20-21-22: sokat nem hozott a PS3 hoz képest. 5-7 év fejlesztői munka nagyon sok! 38
VMX: az IBM nél így hívják a SIMD et. Power architektúra. Kétcsatornás memóriavezérlő. 64 bit. 512 k cache 8 db SPE (szolga) bonyolult felépítéssel. Szolgák felépítése: - Önműködésűek LS (Local Store); csak ebből képesek programot végrehajtani/adatot lehozni -> saját kis memóriájuk van, a mesternek kell felprogramoznia őket (beletenni a memóriájukba) - Működés: 1. Be kell tenni az adatot és a programot a lokális tárba 2. meg kell szólítani, induljon el 3. szolga szól, hogyha kész (signal, olyasmi, mint a megszakítás az I/O nál) vagy pedig beteszi egy postafiókba (nem a lokális tárba!), és a mester kiveszi belőle (adott idöközönként vizsgálja) - Mindent a mester szervez - Rambus XDRAM (QS21 ben már DDR) Mester: Teljesen közönséges CPU. DMA kapcsolat a szolga és a mester között. Nehéz programozni. 39
QS20: Rambus memória: a grafika miatt (sávszélesség), hiszen eredetileg PS3 hoz csinálták. QS21 nél ezt felváltotta a DDR. Minden műveletet szinkronizálni, menedzselni kell => nehéz programozás Felépítésen látszik: 512 L2, mester, szolga, RAM és I/O kapcsolat, kapcsolóhálózat. 40
EIB: 2-2 darab ringbus. 96 byte/ciklus (~0.1 kb) sávszélesség (16 byte / ringbus). Az ábrán látható még a kétcsatornás memória és az IO vezérlő. 41
42
43
SP: Single Precision, szimplapontos. Lényeg: 0.4 TF sebesség. 44
Roadrunner: 2008. 1 Petaflops teljesítmény. 2009 -ben hódította el a címet a Jaguar: 1.75 Teraflop sebességgel. A Roadrunner a második. http://en.wikipedia.org/wiki/top_500 45
46
7000 Dual-core Opteron (LS21 Blade) + 13000 Cell (QS22 Blade). ~4 MW teljesítményfelvétel 47
48
49
Shadereken keresztül történik a grafika megvalósítása. Shader modellek: szabványok. Fontos: Shader modell 4 (2006): univerzális, egységes shader modell. Azonos adattípusok, azonos utasításkezelési rendszer -> azonos hardver használata különböző shader modellekhez. Ettől kezdve jelentek meg olyan processzorok, amiben rengeteg lebegőpontos műveletvégző van. ATI a vezető, AMD felvásárolta. Intel fel akarta vásárolni az nvidiát, de az nem hódolt be. => AMD és nvidia a két nagy cég 50
Az ábra csalóka: grafikus kártya 1 TFLOPS ot tud, de ez szimplapontos lebegőpontos művelet! A GPGPU k 32 bitesre vannak kialakítva: Az SP elegendő a térbeli pontok megadásához. Tehát tudják a 32 bites FP t és a 24-32 bites FX et (3*8 bites RGB komponensek). Intel: 64 bitre van kialakítva 51
Sávszélesség: 10 és 100 Gb/s (CPU nál a felületet döntően a cache viszi el, míg a GPGPU ban lényegében az egészet a számítási teljesítményt támogató processzorok töltik ki (következő ábrák) 52
53
54
GeForce 280: 240 (szimplapontos LP) feldolgozó egység Nagyon széles RAM sávszélességet igényel 55
1 feldolgozó egység ábrája (a 240 egyike): Nem streaming processzor, hanem feldolgozó egység. Szimplapontos feldolgozó, van egy integer kiegészítő része, és egy regiszterkészletből dolgozik. 56
Módosított dia! AMD/ATI 9250 Konkurencia: AMD 9250 http://en.wikipedia.org/wiki/amd_firestream 800 FP feldolgozó (SPU, Stream Processor Unit), nagyon széles memóriavezérlés (8 vezérlő), 1 TFLOPS teljesítmény (0.2 TFLOPS duplapontos esetén). A most bejelentettek ennek a duplája: ATI 5800 as család, 2 tera nvidia: Fermi 2.7 tera A számadatok a SP FP re vonatkoznak! HPC k igénylik a 64 bitet, ezért erre ráálltak ezek a cégek -> a fixpontos teljesítménynek már a felére is képesek! 57
Jövő: rá kell tenni a lapkára a GPU t (mindkét cég belátta). 58
59
Intel Nehalem: 45-32 nm, 3 (DP) vagy 4 (DP-MP) csatornás ram. 60
Pentium 4, Core 2, Nehalem (pl. az ábrán: Havendale és Lynnfield), Westmere Kiemeltük: Havendale: Kétmagos CPU (Dual-Channel, PCIe, Graphics Core): bejelentették, majd vissza is vonták. 45 nm helyett 32 n hozták ki, Clarkdale lett az új neve. A négymagos Lynnfield kijött 45 nm en, ahogy eredetileg bejelentették. 61
62
Az irány, amerre halad a fejlődés: Sok master és sok slave (példa: Cell QS sorozat. Roadrunner Cell Blade is van benne) Sok cpu és sok dedikált mag (példa: nvidia: G200 sorozat. ATI/AMD 9250) 1 CPU 1 csatolt => több CPU - 1 csatolt => több CPU - több csatolt Jövő tehát: több mester több dedikált processzor 63
64