Teljesítmény: időegység alatt végrehajtott utasítások száma. Egységek: MIPS, GIPS, MFLOPS, GFLOPS, TFLOPS, PFLOPS. Mai nagyteljesítményű GPGPU k: 1-2



Hasonló dokumentumok
VLIW processzorok (Működési elvük, jellemzőik, előnyeik, hátrányaik, kereskedelmi rendszerek)

Ismétlés: Moore törvény. Tranzisztorok mérőszáma: n*százmillió, n*milliárd.

Négyprocesszoros közvetlen csatolású szerverek architektúrája:

Memóriák - tárak. Memória. Kapacitás Ár. Sebesség. Háttértár. (felejtő) (nem felejtő)

ELŐADÁS SZÁMÍTÓGÉP MŰKÖDÉSE FIZIKA ÉS INFORMATIKA

* 800 MHz/PC-3200/ATA-100. SPECint_base2000/f c Pentium III. Pentium * 800 MHz/PC-2667/ATA-100 * * * * *

Első sor az érdekes, IBM PC ra alapul: 16 bites feldolgozás, 8 bites I/O (olcsóbb megoldás). 16 kbyte RAM. Nem volt háttértár, 5 db ISA foglalat

MEMÓRIA TECHNOLÓGIÁK. Számítógép-architektúrák 4. gyakorlat. Dr. Lencse Gábor. tudományos főmunkatárs BME Híradástechnikai Tanszék

Dr. Illés Zoltán

Számítógépes alapismeretek

Számítógép Architektúrák

8. Fejezet Processzor (CPU) és memória: tervezés, implementáció, modern megoldások

8. Fejezet Processzor (CPU) és memória: tervezés, implementáció, modern megoldások

Ikermaggal bıvített kimutatások

Digitális Technika I. (VEMIVI1112D)

A mikroszámítógép felépítése.

Mikroprocesszorok (Microprocessors, CPU-s)

Digitális Technika I. (VEMIVI1112D)

Hibrid előadás: az ea másik felében a Morgen Stanley munkatársa kiegészítéseket fog hozzáfűzni a témához. Hagyományos és szerverrendszerek.

Cache, Cache és harmadszor is Cache

A PC története. Informatika alapjai-9 Személyi számítógép (PC) 1/12. (Personal computer - From Wikipedia, the free encyclopedia)

Az informatika fejlõdéstörténete

AMD PROCESSZOROK KÉSZÍTETTE: NAGY ZOLTÁN MÁRK EHA KÓD: NAZKABF.SZE I. ÉVES PROGRAMTERVEZŐ-INFORMATIKUS,BSC

A számítógép felépítése A processzor és csatlakoztatása

Módosított ábra: szaggatott nyíl: a fejlődési ív Az ábrából kimaradt a mobil szegmens (hordozható számítógépek). Y tengely: ár.

Számítógépek felépítése, alapfogalmak

SZÁMÍTÓGÉPES ARCHITEKTÚRÁK

Dr. Sima Dezső. Architektúrák III. Készítette: Kappel Krisztián. komment by Krysz, Felix (2010, 2009 ősz)

Digitális Technika I. (VEMIVI1112D)

ismerd meg! A PC vagyis a személyi számítógép

3. Az elektronikus számítógépek fejlődése napjainkig 1

Feladatlap: Számítógép összetevők keresése

Szupermikroprocesszorok és alkalmazásaik

Intel Celeron G550 Intel HD Graphics kártyával (2,6 GHz, 2 MB gyorsítótár, 2 mag)

Számítógép Architektúrák

Számítógép architektúrák. Tartalom. A memória. A memória

TANÚSÍTVÁNY KARBANTARTÁS Jegyzıkönyv

Tagállamok - Árubeszerzésre irányuló szerződés - Ajánlati felhívás - Tárgyalásos eljárás. HU-Siófok: Asztali számítógépek 2011/S

Apple Macintosh - A kezdetek és a jelen

Architektúra, cache. Mirıl lesz szó? Mi a probléma? Teljesítmény. Cache elve. Megoldás. Egy rövid idıintervallum alatt a memóriahivatkozások a teljes

LAN és Wireless LAN eszközök megoszlása

A PC története. Informatika alapjai-9 Személyi számítógép (PC) 1/15. (Personal computer - From Wikipedia, the free encyclopedia)

Számítógép Architektúrák

Nagy adattömbökkel végzett FORRÓ TI BOR tudományos számítások lehetőségei. kisszámítógépes rendszerekben. Kutató Intézet

ZAJCSILLAPÍTOTT SZÁMÍTÓGÉPHÁZ TERVEZÉSE

DIGITÁLIS ADATTÁRAK (MEMÓRIÁK)

Számítógép Architektúrák

Digitális Áramkörök (Villamosmérnök BSc / Mechatronikai mérnök MSc)

2016/06/23 07:47 1/13 Kérdések

FPGA áramkörök alkalmazásainak vizsgálata

Symantec Endpoint Protection

SZÁMÍTÓGÉP ARCHITEKTÚRÁK

Tájékoztató. Használható segédeszköz: -

Számítógép Architektúrák I-II-III.



SZÁMÍTÓGÉPES ARCHITEKTÚRÁK A STRUKTURÁLT SZÁMÍTÓGÉP-FELÉPÍTÉS. Misák Sándor. 2. előadás DE TTK

Multimédia hardver szabványok

Az INTEL D-2920 analóg mikroprocesszor alkalmazása

Bepillantás a gépházba

Tibeko SZÁMÍTÓGÉPEK. Mindegyik termékünk számlával és garanciával!

Digitális címke nyomtató és kiszerelő állomás

MV4 megfigyelővevő. Czigány Sándor, valószínűleg jóval több IC-ből fog állni, mint modern társai, és gyengébbek

erettsegizz.com Érettségi tételek

Cél: Halk gép. A gép: Eredeti hűtés:

Architektúra, memóriák

Használati utasítás MCC-10

Tibeko SZÁMÍTÓGÉPEK. Mindegyik termékünk számlával és garanciával!

Máté: Számítógép architektúrák

TISZAÚJVÁROS POLGÁRMESTERÉTŐL Tiszaújváros, Bethlen Gábor út / /

9. Áramlástechnikai gépek üzemtana

(1. és 2. kérdéshez van vet-en egy 20 oldalas pdf a Transzformátorokról, ide azt írtam le, amit én kiválasztanék belőle a zh-kérdéshez.

Mérő- és vezérlőberendezés megvalósítása ARM alapú mikrovezérlővel és Linux-szal

Visszatérítő nyomaték és visszatérítő kar

Fejezetek az Információ-Technológia Kultúrtörténetéből. Elektronikus kalkulátorok, személyi számítógépek története

CellCom. Szoftver leírás

A stabil üzemű berendezések tápfeszültségét a hálózati feszültségből a hálózati tápegység állítja elő (1.ábra).

Közlekedés gépjárművek elektronikája, diagnosztikája. Mikroprocesszoros technika. Memóriák, címek, alapáramkörök. A programozás alapjai

Jó állapotú, használt számítógépek garanciával!

= szinkronozó nyomatékkal egyenlő.

(A DRAM-okkal kapcsolatban a bank megnyitása, bank aktiválása, banksor megnyitása vagy a lap megnyitása kifejezések szinonímák, ugyanazt jelentik.

Ajánlat kelte: november 18. Ajánlattevő: FTK Kft. Cím: 3531 Miskolc, Vászonfehérítő 32.

Fábián Zoltán Hálózatok elmélet

GPGPU: Általános célú grafikus processzorok cgpu: computational GPU GPGPU = cgpu Adatpárhuzamos gyorsító: dedikált eszköz, ami eleve csak erre

Feladatok GEFIT021B. 3 km

ThinkCentre Hardverelemek beszerelése és cseréje

Commitment Szolgáltató és Tanácsadó Kft. telefon: fax:

prímfaktoriz mfaktorizáció szló BME Villamosmérn és s Informatikai Kar

Máté: Számítógép architektúrák

RENDKÍVÜLI HARDVER ÉS SZOFTVER VÁSÁRLÁSI AKCIÓ

Xenta Adatátviteli termékek

Jó állapotú, használt számítógépek garanciával!

Számítógép fajtái. 1) személyi számítógép ( PC, Apple Macintosh) - asztali (desktop) - hordozható (laptop, notebook, palmtop)

Ricoh Latex Pro L4100 sorozat

E7-DTSZ konfigurációs leírás

Bevitel-Kivitel. Eddig a számítógép agyáról volt szó. Szükség van eszközökre. Processzusok, memória, stb

Kvantumkriptográfia III.

I 2 C, SPI, I 2 S, USB, PWM, UART, IrDA

Samsung NX200: formatervezett tudás. Írta: Györkei Zoltán szeptember 06. kedd, 08:20

Fábián Zoltán Hálózatok elmélet

Átírás:

2009. 10. 21. 1

2

Teljesítmény: időegység alatt végrehajtott utasítások száma. Egységek: MIPS, GIPS, MFLOPS, GFLOPS, TFLOPS, PFLOPS. Mai nagyteljesítményű GPGPU k: 1-2 PFLOPS. (Los Alamosban 1 PFLOPS os szuperszámítógép található. Új rekord: Jaguar, 1.7 PF). Pai: Performance(absolute-instruction), Pao: Performance(absolute-operation), Pr: Performance(relative), tv: vizsgált rendszer futási ideje - Abszolút teljesítmény: SIMD miatt az utasításszámról át kell térni a műveletszámra. Műveletek számának meghatározása: Performance Counter (kibocsátott utasítások, elágazási utasítások, cache miss t kiváltott utasítások, stb.). Csak külön szoftveren keresztül érhető el, nem publikus. A Performance Counter alkalmazásfüggő is, pl. a lebegőpontos utasítások lassabbak. - Relatív teljesítmény: benchmark programcsomag. Különféle műveletekre a futási időt összehasonlítja egy referenciarendszer értékeivel. Azért van alul a vizsgált rendszer ideje, hogy a tört minél nagyobb lehessen (mert a rendszer valószínűleg gyorsabb a referenciánál.. A tört így nagyobb lesz 1 nél. Segíti az eladást). Ez a gyorsítás mértani közepe. 3

Ez az ábra a gyorsítás mértani közepével kapcsolatos, arra egy példa. A jelölt függőleges vonal jelzi a gyök eredményét. Oszlopok: 1. Kiválasztott program 2. Referencia idő 3. Előírt beállításokkal 4. Normál futtatás (extra beállításokkal) 4

Általános célú alkalmazások esetében az OPI ~ 1! Nem beszélünk itt a SIMD ről. A végrehajtott utasításokat külön kell nézni, mert a kibocsátott utasítások közül van, ami becsült; ha rossz a becslés, rollback kell (eldobás, visszavonás) 5

2000 es évek környékén az Intel processzorok teljesítménynövekedése megállt. Egészen addig kb. 100 szoros növekedés / 10 év, ezt a meredekséget kell tudni! Órajel frekvenciája ~ 5 MHz től 5 GHz- ig terjed 6

PA-RISC: HP POWER: IBM Power PC: Motorola,IBM, Apple 7

8

Általános célú alkalmazás esetén: Pa=fc*IPCeff -> hatékonyság: IPCeff = Pa / fc. Kibocsátott utasításszám nagyobb lehet, mint a végrehajtott: pl spekulatívan lehívott utasítások miatt. 9

Intel 2. Generációs szuperskalároknál (-1995, Pentium Pro) elérték a technológia korlátait, az általános célú programoknál nem maradt több kimeríthető párhuzamosság. Y tengely: hatékonyság (teljesítmény / frekvencia) 10

Y tengely: teljesítmény A teljesítménynöveléshez az órajel és a hatékonyság növelése milyen arányban fogja előidézni. 1993 ig kb ugyanakkora mértékben nő mindkettő, utána az órajel jobban, az IPC kevésbé. Pentium megjelenése. 1997: 2 utasítás kibocsájtás / óraciklus hatékonyság. (A diát 97 -ben vetítették, érdekes időpontban: ezen a napon volt az Intel és HP bejelentése: az IA-64 (x64) lesz az Új világ (Itanium, Merced)) 11

A hatékonyság növekedése kb. 10x/10 év, az órafrekvencia is ennyi ->100x. 12

1. Első generációs futószalag processzor: 386 Második generációs futószalag processzor: 486 2. Első generációs szuperskalár processzor: Pentium Második generációs szuperskalár processzor: Pentium Pro Két-és-feledik generációs szuperskalár processzor: Pentium II Harmadik generációs szuperskalár processzor: Pentium III 13

A szélesség növekedés csak egy pontig volt kihasználható. Általános célú programoknál ~4-5x gyorsítás érhető el. DEC laborjában készült a mérés, 1990 ben. 14

~1993-5: Első nagy válság: Pentium Pro, 2. gen szuperskalár 15

16

A teljesítménynövelést igényli a piac. Az órafrekvenciát kéne növelni ~100x ra! Ismétlésként: IPC az 1 órajel alatt végrehajtott utasítások száma (hatékonyság). Az első esetben az órajelet növelik, az IPC konstans. Az órajel növelés káros hatásaira később térünk ki, ez elméletileg helyes irány, ebből indulunk ki. EPIC: Explicitly parallel instruction computing. Ezzel az IPC-re akartak fejleszteni. Intel+HP fejlesztés, Itanium-Merced. 17

1. Csíkszélesség csökkentése (a jelnek kevesebb utat kell megtennie, kevesebb idő, nagyobb órajel) 2. A leghosszabb futószalag logikai hosszának (egymás után lévő NAND kapuk száma) csökkentése. Ezt úgy tudjuk elérni, ha a fokozatokat kisebb egységekre. FIGYELEM! A futószalag fokozatainak logikai hosszát kell csökkenteni (F D E Wb -> F1 F2 F2 D1 D2 E1 E2 ), nem pedig a futószalag hosszát! Így érhető el például a Northwood mag 20, és a Prescott mag 31 fokozata. 18

Moore törvények a gyakorlatban. Két egymást követő technológia esetén a vonalvastagság ~0.7x re módosul. Ha egy négyzet oldalhossza 0.7, a négyzet területe 0.49~0.5. Ebből következik, hogy a technológiaváltás esetén a tranzisztorok száma egységnyi területen megduplázódhat. A technológiák körülbelül kétévente váltják egymást (a rajz ~10 évet ölel fel, ebben 5 technológia van feltüntetve, így jön ki az érték). Ismétlés: Moore törvénye (1.): 1965 ben fogalmazta meg, hogy az egységnyi területen elhelyezkedő tranzisztorok száma évente duplázódik. Moore törvénye (2.): 10 évvel később felülbírálta ezt, másfél évre. Moore törvénye ( 3 ): Napjainkban 2 éves periódussal számolunk Intel -nek hatalmas gyártási kapacitása és piaci volt, ezért is járhatott nagyon elől a fejlesztésekben is. 19

Zárójelben: a fokozatok száma. Emlékeztetőül: a fokozatok számának növelése a fokozatok logikai hosszának csökkentése. Pentium Pro ban kezdték el ezt alkalmazni. AMD lassabban növelte a fokozatok számát, az órajellel is lemaradtak, ezért áttértek az elnevezési konvenciók megváltoztatására: az Intelhez viszonyítva jelölték a termékeket (pl. 3000+). Fokozatok logikai hossza: FO4, hány NAND kapun kell keresztülmennie egy jelnek. Körülbelül 15 nél megállt. 20

Y tengely: logikai hossz egy fokozaton belül. F1F2F3D1D2E1E2E3 15 nél stabilizálódott. 21

Fc korábban 10x -re nőtt / év (mert IPC is ugyanígy gyorsult). PII környékén (1997) az fc növekedése 100x ra nőtt / 10 év (a csíkszélesség és a fokozatok logikai hosszának csökkentése által). 10 év alatt ez a fejlesztési irány is bedugult. 1. Nagy válság: amikor a hatékonyságot nem tudták tovább növelni 2. Nagy válság: amikor az órajel frekvenciáját nem tudták tovább növelni FONTOS! 22

Y tengely: fc (MHz) DEC Alpha és Intel Pentium viszonya. 90 es évek vége felé a DEC processzorai voltak a legjobbak teljesítményben. A gyors frekvencianövelésnek köszönhetően Intel az élre tört (1999) -> RISC processzorok kiszorultak. 23

A DEC Alpha processzorok RISCek voltak, az Intel előretörésével kiszorult a piacról. 24

Y tengely: teljesítmény és relatív teljesítmény. A két gyártó (kék: DEC, piros: Intel) közti teljesítmény százalékos különbsége szinte folyamatosan csökken, a végén az Intel processzorának teljesítménye felülmúlja a DEC ét. 25

RISC: Load-Store architektúra, CISC: Operandusként megjelenhet a memória is, komplexebb utasítások. A RISC törvényszerűen bedugult; az alacsonyabb frekvenciájú CISC et sokkal nagyobb ütemben tudták észrevehetően fejleszteni, mint a RISC et, aminek eleve magas a frekvenciája. 5 év alatt lényegében kiszorultak a RISC ek (kivéve SPARC és IBM), csak a bizalmi pozíciókban (bank és szerver szegmens) maradtak meg. IBM növelte az órajel frekvenciáját 5 GHz ig. 26

Hatékonysági korlát ~ visszaesés! Ábrák felrajzolása (a következő oldalon lévő rajzok+magyarázatok) Disszipációs korlát : STOP tábla a frekvencia növelésének (P4 Prescott: 103 W leadás 1 cm^2 en.. Ez a maximum léghűtéssel) Párhuzamos buszok: lecserélni sorosakra (Intel Nehalem, AMD K8 mag: Opteron és Athlon XP). A párhuzamos busz ilyen magas frekvenciát nem bír el. Skew: különböző hosszúságú vezetékeken a jelterjedési idő eltér. Ma minden busz soros. 27

Beillesztett dia! 1. ábra: A hatékonyság nem csak hogy stagnált(10. dia), elkezdett csökkenni: 2. ábra: ha ugyanazon processzornak növelem a frekvenciáját, a hatékonysága valójában adott órajel felett lezuhan (a RAM nem tudja követni a CPU sebességét) 3. ábra: Mivel a memória látja el utasításokkal és adatokkal a processzort, a memória jelenti a szűk keresztmetszetet. Ez egy adott architektúrára vonatkozik. 4. ábra: a memória technológiai újításaival a hatékonyság mindig növekszik egy kicsit, utána újra csökken az architektúra fejlesztése miatt -> körülbelül konstans 28

Lemarad a memória sebessége a CPUhoz képest 29

Késleltetési idő: elérési idő. Nagyobb frekvencián a kapacitás bekorlátozódik. Több csatorna: több DIMM. Memória két fő jellemzője: késleltetés (elérési idő) és sávszélesség. 30

Beillesztett dia! AMD K8(2003): Opteron és Athlon-64 Direct Connect: nincs FSB, közvetlen kapcsolat a memóriával (3 db). A csatornákra egy-egy újabb processzort is rá lehet kötni (összesen 4 CPU köthető össze, ahol mindegyik processzor minden másikkal tud kommunikálni) A memóriavezérlő a CPU lapkán található. Az Intel ezt a Nehalemmel (2008, pl. Core i7) vezette be. 31

Ehelyett volt egy másik dia vetítve, RAMok típusai, fa-struktúrában. A második generációs szuperskalárok mellett jelentek meg a szinkron RAM ok, nagyjából 4 évente duplázódott a sebesség 3 korszak: - DRAM ( 70) FP ( 74) FPM ( 83) EDO ( 95): aszinkron (93: Pentium, 66 MHz. RAM sebesség: 66 MHz) - SDRAM ( 96, 200Mhz) DDR ( 00, 400 MHz) DDR2 ( 04, 800 MHz) DDR3 ( 07, 1600 MHz): szinkron (ez a kettő párhuzamos. 4 évente duplázódott a sebessége a RAMoknak) 2. generációs szuperskalároknál jelenik meg Szinkron: nem vár visszajelzést, tudja, hogy megkapják az adatot. - DRDRAM ( 99) XDR ( 06) FBDIMM ( 06, Fully buffered DIMM DIMM párhuzamos marad -> kell egy konverter a kettő közé): soros kapcsolat Párh. DIMM lábainak száma: ~240, sorosé: ~harmada. Fizikai korlátokat jelent a lábszám, csatornák száma max 2 párhuzamos esetén, soros esetén ~ 4-6 -> kapacitás, a sávszélesség meg tud nőni. A soros kapcsolat biztosabb. Nagyobb frekvencián a kapacitás korlátozódik (DIMMek száma (2-3)). FBDIMM esetén akár 256 Gbyte is lehet egy alaplapon. DDR: kb 240 lábbal rendelkezik. Soros kapcsolatu RAMok nem elterjedtek, nem a PC kben használják. DRDRAM ot Rambus DRAM nak, RDRAM nak is szokták még nevezni. 32

2 fajta elérési idő: chip(memóriakártyán) szintű és memória(rendszer)szintű elérési idők. A rendszerszintű elérési idő jóval nagyobb (chipek a kártyán -> BUS -> Északi híd FSB -> CPU). Rendszerszintű elérési idő: a memóriaegység elérési ideje. Az ábra a chip szintű elérési időt mutatja. Első IBM PC ~5 (4,7) Mhz -el ment->200 ms. 26 év alatt csak 1/10 ére csökkent az elérési idő. 33

Rendszerszintű elérési idő lassan csökkent, kb harmadára 25 év alatt 1000x órajel frekvencianövekedés mellett, nagy probléma. RDRAM (Rambus DRAM, Direct Rambus DRAM, DRDRAM): Dupla hosszú elérési idejű, de nagy sávszélességű rendszerről van szó (ezt mutatja a csúcs, 120 és 210). Intelnél többmillió dolláros befektetés 34

2008. 10. 28 RAM lemaradását mutatja az ábra. RDRAM: Rambus DRAM (DRDRAM). Egyre több ciklust kell várni, hogy az adatok megérkezzenek (akár 1000 t is). Vízszintes vonal: a CPU és a RAM azonos frekvencián működtek. Az Intel a P4 et először RDRAM mal hozta be(2000). Ezt a világ nem fogadta jól, mert ezek hosszú elérési idejűek; 2002 környékén SDRAM -okra tértek át. 35

Relatív sávszélesség: RAM Olvasási sebesség / frekvencia. Először 66/66=1. Utána: 0.5, PC-100 esetén 100/500=0.2 stb. FPM: Fast Page Mode RAM PC-800D: RDRAM, Rambus A relatív sávszélesség 0.2-0.3 -nál beállt, jobbat nem tudtak elérni. Manapság feljebb lehetne húzni vonalakat, y=0.5 fölé és x=2.5 körül 3.0 GHz-nél órafrekvencia leállt, de a RAM fejlődése nem. 36

Pentium: 66 MHz (FSB) FSB növekedése körülbelül megfelelt a memória sebességnövekedésével, mert azonos fizikai korlátokkal (átviteli vezetékek fizikai jellemzői áthallások, zajok, lezárások..) rendelkeznek. 0.2 környékén stabilizálódott ez is. Ma már nem korlát az FSB. 2003 -ban AMD -nél eltűnt az FSB mert a RAM vezérlő bekerült a CPUba, 2008ban az Intel Nehalembe is bekerült. 37

Willamette: 42 millió tranzisztor Northwood: 55 millió tranzisztor HyperThreading megjelenése (DEC Alphától vették át, a fejlesztőikkel együtt. Eleinte titkos) Prescott: 125 millió tranzisztor 64 bit megjelenése (Eleinte titkos) A cache igényli a legtöbb tranzisztort. L1 cache jellemző mérete: 32-64 K, elérési idő: jellemzően 2-3 ciklus. Ha nagyobb lenne a cache, lassabban lehetne elérni. L2: 1 Mb környékén. Prescott: 64 bit. Ezt sem jelentették be, csak aktiválták a későbbiekben. Gyanús volt: 55 millió tranzisztor helyett 125 millió tranzisztor, ebből jöttek rá, hogy valamit eltitkolhatnak. Prescott esetén 7ből 23 lett az L2 elérési ideje(kapacitás miatt), L3: az L2 kétháromszorosa (40-60 ciklus) => A memória lassúságának kompenzálására bevezetett cache sebességével is gondok vannak! 38

Hatékonyság mérése SPECint_base2000/fc. X tengely: frekvenciaskála! INTEL Dir: Direct connected, saját busz, nem FSB -re kötött L2. On-die: chipre integrált L2. PC-133 : RAM sebesség ATA-100, SCSI-U2W : háttértár típusa, sebessége Pentium II nagy újdonsága: fixpontos SIMD Pentium III nagy újdonsága: 1999 -ben jött ki multimédia támogatással: lebegőpontos SIMD (3D grafika, 3. generációs szuperskalár) Coppermine ugrása az on-die miatt, de rögtön csökken, ha nő a frekvencia. Pentium 4: 1,4-1,5 GHz en jött ki, 400 Megatranszfer / s. FSB: 100, 4 egység / ciklus. Northwood: ugrás a cache duplázódása (256 -> 512) miatt. Prescott mag: 1M L2. HT = Hyper Threading. Northwood ban jelent meg. Irwindale: L3 cache megjelenése, ezzel 0.6 lett a hatékonyság. Összegzés: A hatékonyság meredeken zuhan, ha növeljük az órajel frekvenciáját. A Pentium 4 hatékonysága minden újdonság ellenére elmaradt a PIII tól, a Hyper Threading általános célú alkalmazásokban alig hoz valamit. 39

AMD Athlon: ~ Pentium 3 nak felel meg Athlon XP: P4 környékén vezették be, az elnevezés megváltoztatása is itt jelenik meg: konkurenciához viszonyítva (pl. AMD Athlon XP 1500+). Palomino mag, 2001 ben jelent meg. Athlon 64: 2003 -ban behozták a 64 bitet, az on-chip memóriavezérlést és a CPUk összekapcsolását lehetővé tevő buszokat (Direct Connection..). Athlon 64: desktop neve, Opteron: szerver változat. Korábban vezették be a DDRt (200 MHz FSB). On-die L2 esetén a hatékonyság drasztikusan esett. Oka: rossz tervezés: L2 sávszélessége túl kicsi volt (Itt nem a sávszélességet ölték meg (Rambus DRAM), hanem pont fordítva). Ezt helyretették, ezután ugyanolyan vonalak az ábrán, mint az Intelnél. Hatékonyságban az Athlon 64 megkétszerezte az akkori Intel P4 ét. (teljesítmény megegyezett, de az AMD feleakkora órajelen tudta hozni ezt az eredményt. IPCeff=Pa/fc ) Barton vitte fel 0.5 környékére 32 biten a hatékonyságot, 64 bites Opteronnal felvitték 0.6ra. ->2 világ: Intel: nagy frekvencián megy, de alacsony teljesítmény AMD: alacsony frekvencián megy, de nagy teljesítmény 40

Azonos rendszer esetén a hatékonyság a frekvencia emelésével leesik. Az architektúra fejlesztésével (L2 méret, FSB, sávszélesség növelés, ) nő. => A hatékonyság fűrészfogas mintázatot mutat 41

2 fűrészfog. Intel és AMD összehasonlítása, hatékonyság szempontjából Görbék: teljesítmény (SPECint_base2000) Intel azért volt sikeres, mert az emberek csak az órajelet nézték. Pentium M: Mobil. PIII -ra alapozott. Core2: Pentium M-re alapozott! Energia, fogyasztáscsökkenés (mivel a mobil gépekben laptopok ezek igen fontosak. P4nek a hőhalál okozta a kegyelemdöfést 103 Watt, Prescott mag. A 2.2 GHz es AMD teljesítménye körülbelül megegyezik az Intel 3.4 GHz es modelljével. AMD: hatékonyabb, de kisebb frekvencia Intel: gyorsabb, de kevésbé hatékony 42

Intel Core2(2006): Pentium M re alapozott, amit a PIII ból fejlesztettek ki (disszipációcsökkentési politika, mobil szegmens) 43

Fontos! 44

Kapacitást fel kell tölteni, ezt órajelnél lehet, és ki is kell sütni (ellenálláson). Van egy tápfeszültség, U (órán: V ). Van egy szórt kapacitás, C. Q töltés jelenik meg a kapacitáson. Levezetés: Q= C*U = I*Δt. Δt =Δt/2 (1óraciklus alatt történik meg a feltöltés és a kisülés is -> fél-fél órajel). Δt = 1/fc. Q = C*U = I* (deltat / 2) C*U = I/(fc*2) C*U*fc*2 = I D = P = U*I = C*U^2*fc*2 A feszültséget csökkenteni kell, hisz ettől négyzetesen függ! Pentiumban 5 V a feszültség, később 3.3V. Manapság 1V. A korlát az órafrekvencia, mert kisebb feszültség kisebbet pumpál, lassabban tölti fel a tranzisztort, a felfutó görbe túlságosan elnyúlna, ezért nem lehet a végtelenségig csökkenteni a feszültséget. Statikus disszipáció csak zárt kapuk esetén. Szivárgási áram * feszültség. Dinamikus: feltölt-kisüt. Csak a nyitott tranzisztoroknál jelenik meg. FONTOS: a kettő összege a disszipáció. 45

Fajlagos disszipáció: négyzetcentiméterenként hány Wattot kell disszipálni. Intelnél ténylegesen kb 1 cm^2 a terület, ezeket az adatokat így könnyebb értelmezni. 20W felett már kell hűtés. Prescott: 103 Wattot kell elvezetni 1 négyzetcentiméteren, a léghűtésnek ez a fizikai hatása. Y tengely logaritmus-skála! P5: Pentium P6: Pentium Pro Klamath: Pentium II Katmai, Coppermine: Pentium III Utánanézni! 46

Hőfal Intel a jövőkép átformálásra kényszerül 47

2004 májusában a P4 család 2000-ben bejelentett 2 tagját (4 GHz) visszavonták, a disszipáció miatt. A P4 családot 2010 ig tervezték előre, 10 GHz es frekvenciát jósoltak akkoriban neki, de ezt is vissza kellett vonni. 48

Statikus és dinamikus disszipáció aránya egymáshoz képest. Vörös: dinamikus Zöld és narancs: statikus. Kék: csíkszélesség. Kb 2005 táján hőfal!! Arányok: 1995: 2. generációs szuperskalároknál: 10^-5-6.. Nem számít. 2000: ~10% -> elhanyagolható Prescott: ~ugyanakkora (1:1)! Dinamikus szinte ugyanakkora maradt, mert a tápfeszültséget folyamatosan csökkentették -> nem emelkedett meg drasztikusan.. Statikus: szigetelőréteg egyre vékonyabb -> Ileak egyre nagyobb. Megoldás: jobb szigetelés kell, High-k dielektikum. Erről ad képet a következő dia. Órafrekvenciát lekorlátozza a disszipáció, más módot kell találni a teljesítménynövelésre. 49

Fémkapu szerepe: növeli a térerőt, gyorsítja az elektronok áramlását. Fontos a két számadat! SiO2: szilícium-dioxid 50

Jelenlegi technológia 51

Az összes gyártó találkozott a hőfal problémájával. 52

Két út van: 1. Aktív állapot teljesítmény kezelése 2. Passzív állapot elősegítése 53

Beillesztett dia! Intel: Pentium 3 és AMD: K6-2 Aktív processzorok tekintetében az úgynevezett működési pont (P-state) fc/vcc (utóbbi: tápfesz) OSPM (OS Power Manager): ütemező tolja lejjebb a munkapontot, rű hárul a feladat. Pl. AMD K6-2, Intel PIII (2000 óta) Több maggal akkor lehetne ezt megoldani, ha minden maghoz külön tápfeszültség - Vcc lenne. PLL: 1 órajel minden maghoz.? Phenom: Vcc1 Vcc2. Intel Nehalemben is be lett vezetve. Képes rá a CPU, de mégsem használják. Oka: Vista. Aktív szálat? Power Planes (homogén tápfesz sík helyett 2-3-4-5 sík, ahány mag van?). Megvalósítás: Digitálisan változtatható tápfeszültségre van szükség, ennek vezérlése: VID (Voltage Identification) kód (n:0) 50 mv -> 125 mv ig lehet kérni (5-6-7 biten kérek, és kapok VCC t tőle). Ellátás bus-ból indul, van egy FID (3-5 bit), Fc változtatása: CPU fc je az FSB ből indult ki. Váltási arány: FID kód (3 bit környéke), szorzófaktor. P4: 400 megatranszfer/s (100 Mhz busz, 4x es adatátvitellel). Nem a transzfer a lényeg, hanem a frekvencia. ffsb * szorzó -> Fcl. Gond: PLL beállási ideje. Régen 100 usec, ma 10 usec. Alapeljárás: a váltás (p-state) alvó állapotban történik. Ez időt vesz igénybe (deltat~n*100 usec). Lassabban kell csökkenteni a feszültséget, lépcsőzetesen, fokozatosan, apró lépésekben (pl 25 vagy 12,5 mv). Frekvenciaváltásnál nem lehet ilyet, ott altatni kell, frekvenciaváltásnál a kiesési idő: ~10 usec. -> két fázisban oldódik meg, fesz és frekv váltás. Frekvencia váltás alatt nem lehet dolgozni, feszültség váltás alatt igen. deltat idő ~100 usec. Váltásnál példa: 1. CPU? lekapcsolása 2. frekvencia váltás 3. feszültségváltás (pl. 1.7 -ről 0.9 re) 4. visszakapcsoljuk a CPU t. Lépcsőzetesen csökkentenek / növelnek. Növelés: először feszültségnövelés és utána frekvencianövelés, csökkentésnél fordítva. Passzív állapot: Ha a CPU nincs terhelve, altatás kezdődik. C (alvó) állapotok: minél alacsonyabb pontba kerül a disszipáció, minél tovább tartott az altatás, annál nehezebb lesz a P0 állapotba való visszatérés. Az órajel lekapcsolása: C1: óra le, generátor megy. C2: PLL leáll. C3: Vcc le, amíg az L2 cache (legérzékenyebb pont) még életben van (retenció). C4: L2 kimentése (~1 Mb) L3 ba C5: Vcc tovább csökkentése. (nem az egész L2 t egyszerre, hanem pl negyedenként, több lépésben, hosszabb procedúra). C6: magok állapotának lementése SRAM ba (Ci => SRAM ba. SRAM táplálása külön tápról. Penrynn pl, 2 áramforrás) Összegezve: manapság nagyobb figyelem fordítódik a hőtermelődésre, mint bármi másra!!! Másik megoldás: kapcsoló tranzisztorokat tettek a CPU ba. 54

Ábrán a távolság ~10 cm. 8 bájtos átvitel (64 bites busz szélesség) Egyik ok: Késleltetési időkülönbség: skew. Fellép adott távolság megtétele után egy vezetéken. Mivel kapuzott szinkron áramkörök, ez problémát okozhat. Ha eléri az órafrekvencia ütemét, nem kezelhető. EZ okozza a frekvenciakorlátot. Másik ok: Buszok terhelése nem azonos, kapacitáskülönbség. Nagyobb kapacitású lassabban töltődik fel. Harmadik ok: zaj és áthallás jelenhet meg, ez feszültségként jelenik meg, félreérthetővé válik. A vezetékek hossza NEM azonos. (következő dia) 55

Prescott alapú alaplap, ami érdekes: a vezetékek hosszainak mesterséges és szándékos meghosszabbítása (kompenzálás a tervezés során). Nem az igazi megoldás, ami az igazi: soros buszok. 56

Jelek megvalósítása lehet: Egyik módszer: 0 és +5 V például (szennyezés problémát okozhat) Másik módszer: pl. 2.5 és 7.5 V (itt 5V a viszonyítási érték). Jobb megoldás, de lehetne még jobb is. Harmadik módszer: Nem a földhöz mért feszültségről beszélünk. 2 darab vezeték kell hozzá. Szimmetrikus jelátalakítás. Nagyon gyors(néhányszáz ma amplítúdó miatt), zavarérzéketlen (mert mindkét vezetékre hat, és ez kiesik). Lassú busz pl: USB (sokkal kevesebb vezeték kell hozzá, mintha párhuzamos lenne => olcsó) Példa a párhuzamos-soros technológiabeli különbségre (pl merevlemez csatlakozó): Párhuzamos: ATA nagyobb helyet foglal, lassabb Soros busz: SATA kisebb helyet igényel, gyorsabb 57

Beillesztett dia! 58

59

Első ágat lezártuk. Esetleges mellékút a második ág. 60

(83-)87-88: VLIW processzorok. Bukás oka: gyökeresen új ISA kell(új alkalmazásokkal), nem volt támogatása. 61

1989-90: Elbocsátott fejlesztők az IBMhez és a HPhoz vándoroltak. 32 bites x86 -> 64 bites IA-64 volt a terv. EPIC: ugyanaz, mint a VLIW + szuperskalárok jó dolgai (elágazásbecslés, cache kezelés, stb). 99 re ígérték be Merced névvel. Két évet késett. 62

Itanium: teljes bukás. 63

Fajlagos teljesítmény. MT: megatranszfer. Itanium frekvenciája ~800 Mhz (FSB: 133 MHz), P4: 1.5 Ghz. Fajlagos teljesítménye a P4 nek: 0,4. Itanium 2 későn jött ki, keveset tudott -> csőd volt. Többprocesszoros rendszer, megbízhatóság. 64

IA-64 helyett az x86 64 bites kiterjesztésére lett igaz a korábbi előrejelzés. 65

Először azt hitték, 1 év alatt 10 milliárd dollár lesz a bevétel. Később két évet adtak a 10 milliárdnak, és ahogy telt az idő, egyre többet. Lila görbe: amikor behozták. 3 évet adtak. A valóság még rosszabb lett. 66

8 processzoros, speciális rendszerekbe szorult ki. Semmi esélye nem volt, mert az általános célú alkalmazásoknál az elérhető maximális párhuzamosság ~4-5. Nem bukott meg, csak a piacon feljebb szorult. Bezárult a fejlődés: 1 magos gépek vége. 67

68

69

Varázsütésre jelentek meg. 70