Hibrid előadás: az ea másik felében a Morgen Stanley munkatársa kiegészítéseket fog hozzáfűzni a témához. Hagyományos és szerverrendszerek. 1
2
3
2000 őszén bejelentés: Netburst architektúra meghírdetése: A jövő architektúrája. El fogja érni a 10 GHzt. Pentium 4 architektúrája. Willamette Northwood (többszálúság) Prescott (64 bit) A bejelentett 2 féle 4 Ghz-es modellt visszavonták. Az Intel piaci pozíciója meggyengült, az AMD erősödött (fő ok: 200x ben x86 és Opteron 2003-ban) 3 nagy fejlesztési irány. A harmadik: P4 logikája, koncepciója nem volt tartható. Előtte volt P3, erre alapult a Pentium M (mobil szegmens), amiben a disszipációkezelés volt a meghatározó 32 bites rendszer volt. Erre alapul a Core 2 rendszer. Tick-Tock modell: az ember vagy technológiát fejleszt, vagy architektúrát (már jóval az Intel kijelentése előtt is ismert volt ez az állítás) Core 2 mag: Merom. Penryn: statikus disszipáció csökkentése érdekében bevezették a Hafnium alapú High-K vezető réteget. Nehalem (2008): később kifejtve. 2010: Westmere 32 nm. Ennek a Tock verziója: Sandy Bridge 4
Azonos gyártási technológiát láthatunk a Tick és a Tock fázisban 5
Core 2 fő vonásai: lapka fotója. Szimmetrikus rendszer. P4 utáni nagy dobás (AMD miatt rá voltak kényszerülve) 1. Széles dinamikus végrehajtás, 4 -szeres belső szélességet jelent (AMD szélessége 3, a korábbi rendszereké is ennyi => 33% -os növelés) 2. Multimédia és 3D támogatás egyre fontosabb. SSE 4.1 utasításokhoz 128 bites feldolgozó egység. 3. Lebegőpontos MM támogatást 1997 ben kezdte el (PIII), SSE a Pentium 4 ben jelent meg (2000). Az utasításszintű architektúra folyamatosan bővül, itt a 4.1 es SSE. 4. Memóriamunkát gyorsító cache rendszer: - Smart memória hozzáférés: spekulatív LOAD ot bevezették (ha egy LOAD ot előre akarunk hozni, akkor biztosítani kell, hogy az őt író STORE nak már be kellett következnie. Akkor probléma, ha a LOAD ot előrehozzuk, pedig az eredetileg azt megelőző STORE a helyén marad. Meg kell vizsgálni, hogy a LOAD címe megvan-e a STORE queue ban. Ha megvan, akkor meg kell várni, amíg a STORE végrehajtódik, vagy: nem várjuk meg, amíg beíródik a memóriarekeszbe, hanem az adatot rögtön a LOAD hoz átmásoljuk). - Előlehívási rendszer fejlesztése (P4 nek 1 előlehívó L2, Core2 nek 8 előlehívója van). Előlehívás az L2 be történik. 5. Cache rendszer fejlesztése: Shared (közös használatú) cache bevezetése) korábban privát cache volt. 6
Szélesség: osztásra helyeztek hangsúlyt. Virtualizáció támogatásának elkezdése, napjaink egyik legfontosabb technológiája. OS erősebb támogatása. Memória: L2 cache méretének és hatékonyságának növelése, memória elérésének növelése Multimédia: SSE4 megjelenése Energiagazdálkodás: Disszipáció kezelés: 1. Deep Power Down: Ismétlés: dinamikus disszipáció egyenesen arányos fc-vel, négyzetesen a feszültséggel => feszültség csökkenésének hatása: az órajel bekorlátozását okozza Laptop: egy architektúrának olyan verziója, ami alacsonyabb munkaponton működik, és fejlettebb disszipációkezeléssel rendelkezik. Passzív processzorok használatával és fejlesztésével lehet több energia megtakarítást elérni (munkapont változtatásával). OS ütemezője veszi észre a CPU kihasználtságot, van egy bedrótozott algoritmusa, mikor mit csináljon. Korábban volt szó róla: Sorjában órajelet le lehet venni, óragenerátor leállítása, feszültség csökkentése (amíg a cache még megtartja az állapotát), L2 cache tartalmának lementése (1-2 Mb jelentős igényt vehet igénybe, és mivel CPU még csinálhat valamit, ezért fokozatosan (pl. negyedével) jellemzően a L3 ba lementődik), ha minden mag inaktívvá 7
Nehalem (pl. Core i3, i5, i7) Szimultán többszálúság bevezetése: minden mag egyidejűleg 2 szálat kezel. 2002 es technológia a HyperThreading, Pentium 4 (Northwood) nél már megjelent. Core2 nem volt többszálú, pedig később jelent meg! 8
Minden egyes ciklusban több szálból lehet választani végrehajtható utasításokat 9
A 3 szintes cache rendszerben a magok egyedi L2 vel rendelkeznek, de shared L3. 10
5 évvel később bevezették a Direkt Csatolt architektúrát (memóriavezérlő a CPU lapkán). 3 és 4 csatornával jelentek meg. CPU k számával skálázott memóriarendszer (4 CPU => 4* annyi memória, 4* akkora sávszélesség) 11
Busz Intel-féle elnevezése: QPI (AMD: HyperTransport), illetve először CSI volt Larrabee ben már megvalósításra került. 12
FSB nél 1,6 Gigatranszfer (400 MHz: valós órajel), dupla annyi, mint a QPI HT 3.0: Budapest-Shanghai környékén jelent meg 13
4 magos Nehalem Cache ek relatív mérete, memóriavezérlő. 2,5 cm^2 méretű, szokatlanul nagy. 731 millió tranzisztor (Fermi: 2.7 milliárd, ehhez képest nem sok) 8 megás L3, negyed megás L2 ---------------- Eddig tartott Sima Dezső előadása Ezután: Juhász Zoltán, Morgan Stanley Intel Developer Forum ról lesz szó. Érdekesség: szervereknél a fogyasztás ~5-10% -a megy csak el a számolási feladatokra, a fele hűtés, a többi winchester, memória, stb. Nehalem-be bekerült memóriavezérlő miatt megduplázhatták a memória mennyiségét egy rendszerben (24-ről 48 Gb-ra) Cache miss esetén nem tud mit csinálni a szuperskalár CPU. Fine-grained esetén minden ciklusban ki lehet választani, melyik szál fusson. Coarse-Grained: hasonló, csak megakadásnál váltunk szálat. Multiprocessing: adott VE k csak adott szálakat hajthat végre, de 1 cikluson belül több szálat is lehet legalább. Simultaneaus MT: egy cikluson belül többféle szálból is lehet műveletet választani (horizontális és vertikális réseket is jobban kitöltheti) 14
Legfontosabb szervertípusok (a piac nagy része) a DP szerverek. 15
P4 korszak. MCH: memory control hub (északi híd) FSB: 3.2 Ghz szűk keresztmetszet 2 csatorna RAM, 266 os sebesség mellett 2.1 Ghz / csatorna => 4.2 Ghz összesen. A memória képes blokkolni az FSB t. HI: karok (nagysebességű interfészek). Gigabites sebesség. Sávszélesség miatt sok sebből vérzik ez az architektúra. Másik nagy probléma: a déli hídnál. 2 PCI busznak felel meg => 266 MHz a sávszélesség összesen. Az adat önmagában elvisz 2*100-at. MbE + Video. => Szervernek nem jó 16
P4 következő generációja. Javulás: HI helyett PCI E x8 kimenetek (egyenként 4 gigabit sávszélesség). A fő probléma (FSB és 3.2 ghz) nem oldódott meg, a déli híd sem. 17
P4 alapú szerverek. Paxville ből csak egyféle volt. Kétmagos CPU, külön L2 vel, FSB mindkettőt ellátja. P4 miatt magonként 2 szál fut rajta. 18
Xeonoknál Noconának hívták a DP Prescottot. Itt jelentették be a 64 bites kiterjesztést ( -> 64 bites Xeon + Dual Processoros szükségletek) Irwindale: L2 cache t megemelték 2 Mb ra (desktopnál is volt szó róla korábban). 1 Mb növeléssel érték el. Paxwille: két db Irwindale magot egymás mellé tettek (nem integrálták). 19
Cedar Mill: 65 nm technológia. Irwindale mag zsugorítása! 20
Eddig volt a P4 világ, innentől Core 2 t nézzük. A szerver mag: Woodcrest (azt hogy Xeon 5100, azt nem kell tudni). Magonként 1 szál! Csak a Nehalemtől lesz többszálúság. Disszipációkezelés: Pentium M ből. Cache és FSB megnövelése. 266 MHz (266*4~1066 MT) AMD mondta: ez nem 4 mag, ez 2*2 mag! 21
Harpertown (nem kell tudni a nevet) Nagyobb cache (4-ről 6 megás cache) 22
2* annyi tranzisztor/mm^2: Moore 23
Összegzés Órajel: stabilizálódás. 2-3 ghz között állt be FSB: 667-800 ról 1333-1600 135-150 Watt is volt (Prescott 103W volt) Mindegyik 64 bites támogatással rendelkezik VT: vírus védelem ED: Több munkapont van definiálva, OS vezérli: ha kisebb a kihasználtság, lejjebb veszi a disszipáció csökkentése érdekében. 24
Nehalem világ. Ténylegesen 4 magos CPU megjelenése. - megmaradt 8 Mb, RAM vezérlő a lapkára került, - 2 soros link (korábban CSI nek nevezték, Larrabee nél) 6 magnál 8-ból 12 Mb cache lesz. 25
A fejlődésnek az ívét kell érezni : mi következik mi után. L3 cache a Nehalemben jelenik meg. Magok száma várhatóan duplázódik (ritkán van közbülső megoldás, pl 6 mag) Valószínűleg 64 k L1, negyed-fél megás L2, 10-12 megás L3 26
Módosított dia: baloldali ábra, DIMM ek száma 2-3. Baloldali: első Core 2. Memóriakapcsolat: tradícionális, 2 csatorna, 400 MT/s, 6.4 (ami megfelel az FSB nek) Jobb oldal: megemelték az FSB t, RAM túl lassú, soros kapcsolatú FB-DIMM eket bevezették -> több csatorna és több kapacitás. 27
Platformok: mag + lapkakészlet (északi-déli híd) Paxwille mag + 7520 as chipset. PCI-E nagyobb sávszélességű kapcsolat + DDR2 RAM 28
29
4 G sávszélesség / PCI-E 30
Blackford lapkakészlet: újdonság: FBDIMM. 31
2 FSB, FBDIMM, északi-déli kapcsolat: PCI-E (4 G, előtte 266 M) 32
Blackford chipset 33
Teljesítménynövelés: kb mindenhol 2-3x 34
65->45 nm Mai kínálat 35
5400: fejlődésből adódó Penryn 4 magos megoldás 5200: ha valamelyik mag rossz, eladják 2 magosként, amúgy ugyanaz. 36
Déli híd kapcsolat még tovább bővült. Magonként 3-4 csatornát enged meg. Soros QPI. 37
38
Újra a P4 el fogunk először foglalkozni. 39
Xeon MP: L3 8 Mb. 7100: 90-> 65 nm. L3: 16 Mb, 2*1 Mb L2. Teljesen egyedi fejlesztés, nem folytatódott. 40
Tigerton DC: 7200! Ugyanúgy ahogy az előbb, hibás mag esetén DC ként adják el. Tigerton Core 2 alapú Dunnington: két magonként közös L2 cache 3-3 Mb. Penryn alapú. 41
Nagy ellenség: disszipáció. 150 W. Érdekesség: Pár év alatt annyit kell költeni az áramfogyasztásra, mint maga a hardver. A világ áramfogyasztásának 2% -a a számítógépekből adódik, nagyon sok! 42
Nehalemnél elérjük a 8 magot, 4 csatornás memóriát (3 kevés), FBDIMM tudja csak garantálni. Linkek száma: 4 43
44
3xxx: UP 5xxx: DP 7xxx: MP 45
46
47
48
49
2*2 FSB kapcsolat, soros kapcsolatú external memory buffer, 4 csatorna 50
51
52
AMD tól származik az ábra: hol vannak a problémák. Publikálták. Kicsi a sávszélesség, kicsi a memória 53
Caneland: 4-6 mag 54
Önálló FSB minden CPU nak, FBDIMM. 55
4 csatorna, csatornánként 8 DIM (soros rendszer kibírja), chipen található a soros-párhuzamos átalakítás. Összesen 512 Gb is ráfér. 56
57
Viszonyítási alap: kétmagos 7100-as rendszer. 2-3x teljesítmény növekedéssel lehet számolni 58
59
60
61
AMD szerverei: Opteron. 64 bit. 2003-ban jelent meg, Direkt Csatolt Architektúra. Lapkán lévő RAM vezérlő. K8: 64 bites AMD (Desktop, Server, Mobile is) 100-1000: UP 200-2000: DP 800-8000: MP K7: Athlon. K8: 64 bit. Athlon 64 ~ Prescott. Barcelona: K10 mag. SCST: Single Core Single Thread Troy: zsugorítás. Italy, Santa Rosa: két mag, de csak egymás mellé tették, nem integrálták. Disszipációkezelés ügyes volt. High Efficiency: nagyobb órajel => nagyobb disszipáció Barcelona: 4 mag, de bukás egy kis hiba miatt. 2007ben jött ki a L3 a K10 ben (Intelnél ugyanekkor, a Penrynben!). Disszipációkezelés nagyon jó! Shanghai: 45 nm. L3: +1 Mb. K10 mag. Sokkal több tranzisztor, alacsonyabb fogyasztás!! HT 3.0 és 4 link. 62
MP világ: 4 db 3.0-ás HyperTransport link. 63
Intel csak 5 év múlva hozta be. 64
65
66
67
Erről nem volt szó az órán 68
69
4 CPU s megoldás AMD gyakran használ nvidia lapkakészletet is 70
Közvetlenül a CPU k mellett vannak a RAMok (Intelnél egyik oldalon CPU k, másik oldalon RAM ok -> nagyobb utat kell megtennie a jelnek) 71
72
K8 és K10 közötti eltérés: 4 mag 2 helyett. L3 megjelenése. 4 HT a 3 helyett. Vizsgakérdés lehet ilyesmi! 73
74
75
76
Ugyanaz, mint az előző ábra 77
Jelenlegi chipsetek nem támogatják még a 4 linket, csak a 3-at. Új platform kell hozzá 78
Nem volt szó órán róla 79
80
81
L3 nagyobb ( Tick verzió -> technológia váltás, nem architektúra váltás) 82
83
84
Legalább a fele (~60%) a cache 85
Általánosságban: a mindenkori leggyorsabb ~1000$ 86
Fiorano platform fogja támogatni az új vonásokat (4 link) 87
88
89
90
91
92
93