Dr. Sima Dezső. Architektúrák III. Készítette: Kappel Krisztián. komment by Krysz, Felix (2010, 2009 ősz)

Átírás

1 Dr. Sima Dezső Architektúrák III. Készítette: Kappel Krisztián komment by Krysz, Felix (2010, 2009 ősz)

2 Az ILP feldolgozás fejlődése 2010 őszi félév Felépítés: - 2 -

3 Szaggatott nyíl: a fejlődési ív. Az ábrából kimaradt a mobil szegmens (hordozható számítógépek). Y tengely: ár. A valuepc-hez hasonló idővonalat kell elképzelni hozzá. Túlnyomórészt szerverek, desktopok, olcsó PC-k, mobil gépek. Manapság az eladásra jellemző arány: ~70% a mobil és ~30% a desktop. Szerverek fajtái: MP (multi processor), DP (dual processor), UP (uni processor). 1.számítógép 1946 ENIAC külső programvezérlésű gép volt. Ennek a fejlesztésébe Neumann nem szólhatott bele. Szuperszámítógép: Egy adott időben a legnagyobb fejlettségű gép. Mai szuperszámítógép: lebegőpontos művelet/sec (petaflops). A régi, híres gépeket tudni kell időben elhelyezni! Mainframe: középnagyságúak, első sorozatban gyártott gép UNIVAC fixpontos + decimális + karakteres, gazdasági célokra. Tárolás: ferritgyűrűs tár

4 1960 IBM 360-asa meghatározta a későbbi fejlődést. Mind az ötféle formátumot támogatta. - Univerzális gép - gépcsalád koncepciót valósít meg (egy egész sor CPU t mutattak be, különböző teljesítmény/ár arányban) - szabványosított I/O rendszer Elsöpört mindent! (Millió dolláros gépekről beszélünk) IBM 370: Virtuális memória (~tár) bevezetése (memória volt a szűk keresztmetszet). Minicomputer: Megjelenés 60-as évek közepe, kis teljesítményű gépek, ára egy éves jövedelemmel egyezett. Microcomputer: Intel 4004-es ~400 dolláros kit, forrasztgatás után működőképes es teljesítménynövekedés: 10 évenként százszoros!! Megjelenésének technológiai okai voltak (1960- tranzisztorgyártás, IC) Tranzisztor: Először évente duplázódik a száma, 1975-től 1,5 évente napjainkban 2 évente. Ez a Moore törvény alapja. Vonalvastagság -> Csíkszélesség 0,7x-s re csökken -> következő generációs csíkszélesség (kb. két évente). Ezzel csökkent a hőtermelés és fogyasztás is (ami dinamikus disszipációt csökkenti, ezáltal az nem növekszik *lásd később..+) 1974: Személyi számítógép Személyi ajándékként volt elképzelve, személyi használatra. UP szerverek: egy processzoros DP szerverek: két processzoros MP szerverek: 4 vagy több processzoros 81: IBM PC megjelenése (Apple, Commodore már korábban megjelentette a gépeit). Elterjedése: 1. A piac meghódítása 2. Mindent publikáltak => Klónok megjelenése, minden eszköz IBM kompatibilis lett. SOC -> System On Chip (kb. 50$) közepes szintű mikroprocesszor. Disszipáció csökkentése: Dinamikus feszültség és frekvencia skálázás DVFS 1. meghatározzák a szükséges teljesítményt 2. frekvencia hozzáillesztése a teljesítményhez 3. az órafrekvencia fenntartásához minimális feszültség kell Ez egészül ki az AVS-el (Adaptive Voltage Scaling) Worst Case jellegű meghatározás Process Voltage Temperature Gyártás után kell csinálni, minden IC-re. Beépítünk a processzorba egy sebességmérőt, ami minimális tápfeszültséget állít be. Csökkentjük a tápot, amíg az órajel engedi

5 Y tengely: teljesítmény érték. Logaritmus skála (1,10,100,1000, ) X tengely: idő skála (1,2,3,4,5, ). 10 év alatt ~100x teljesítménynövekedés ig. SPEC: teljesítménymérési módszer eljárásból fakadó számérték. Abszolút teljesítmény: hány utasítást dolgoz fel másodpercenként. Fc és IPC függő. 8088:Az Intel 8086-ból redukálták vissza (16 helyett 8 bites I/O adatbusz!, a 16 bites regiszterek megmaradtak! feldolgozás). Az IBM PC alap processzora. Az I/O határozza meg leginkább a számítógép árát. IBM PC azért 8 bites I/O-val rendelkezik, hogy olcsóbb legyen. (8086: már ehhez is lehetett csatolni co-processort - matematikai lebegőpontos társprocesszor) Növekedési ráta: 100x/ 10 év Végén megtorpanás P4-nél! 80286: protected mode megjelenése 386(1985): 32 bites architektúra. SX: 16 bites adatbusz és 32 bites regiszterek, DX: bit. Cache még nem a CPU-ban volt benne, 1. generációs futószalag. Virtuális mód megjelenése. 486(1988): DX: integrált, működőképes lebegőpontos co-processzor. SX: ugyanez le volt tiltva (később bele sem tették már) 2. Generációs futószalag (CPU-ban cache, + elágazásbecslés). (1.5 generációs: van cache, nincs elágazásbecslés. Intel nem gyártott ilyet). DX2, DX4: nem az Intel gyártotta, hanem a Cyrix és az AMD, nem referenciamodellek. EDORAM. On-die(CPU lapkára rákerült) L1. L2 külön, rendszerbuszon. Pentium(1993): 64 bit szélességű adatbusz. A feldolgozás 32 biten történik. SDRAM itt jelent meg ( MHz). Első generációs (keskeny) szuperskalár (2-3 RISC utasítás/óraciklus). A buszfrekvencia lassabban fejlődött, mint az órafrekvencia. Az AMD ekkoriban fejlesztette ki a DDR elvet: Double Data Rate. Mindkét élen adat: FSB: pl. 100 Mhz -> 400 megatranszfer, Intel a Pentium 4-ben már használta a DDR-t és a DDR2-t:

6 megatranszfer. A DDR technológia tehát nem csak a memóriához köthető Pentium 66 Mhz ig órajel = FSB. Utána: szorzók megjelenése. A 100 MHz-es Pentium esetében pl. még 66 MHz-es FSB volt. A PC-66MHz-es SDRAM óta Pentium 66 MHz-es processzorhoz hozzá lehetett illeszteni. L1 cache: külön Instruction és külön Data. Pentium MMX(1995): az első generációs szuperskalár processzor ISA kiterjesztése. 133->233 MHz L1 cache: külön Instruction és külön Data. Pentium Pro(1996): Széles szuperskalár (~4 RISC utasítás / óraciklus), általános célú alkalmazásban körülbelül ennyi utasítás párhuzamosítható pufferelt kibocsájtás esetén. Direkt kibocsátásnál: ~2). Eddig az IPC10x-növekedés, órajel szintén => 100xösszesen. Utána az IPC stagnált (elérték a 4 es szélességet), az órajelnek kellett 100x ra nőni. Dedikált buszon csatlakozik az L2 Pentium II(1997): 2,5. generációs szuperskalár processzor. Gyakorlatilag a Pentium Pro kiegészítése a MMX kiterjesztéssel, és néhány egyéb fejlesztés. 233 MHz en jött ki az első. Az FSB kezdetben 66, később 100 MHz => PC-66és PC-100SDRAM. Az Intel Celeron itt jelent meg kisebb cache-el (66 MHz) és a Celeron A (100 MHz) Dedikált buszon csatlakozik az L2, de volt olyan mag, ahol már a CPU lapkájára bekerült. Aktív hűtés megjelenése. Pentium III(1999):450 MHz-től 1.3 GHz. 2 féle tokozás: Slot-1és FCPGA. On-dieL2 cache (CPU lapkáján). Pentium IV: 3 különböző magja jelent meg. 1.Willamette 2. Northwood 3. Prescott Northwood: Behozta a többszálúságot. Prescott: behozta a 64 bitet, itt történt a torpanás! 90 nanométeres technológia A Pentium D 3,8 GHz (DualCore) kétféle magja a Prescott és a CedarMill volt. Kétmagos változatokban jelent meg az L3. Nőtt a szivárgási áram (nem lineárisan, exponenciálisan nő!!) -> statikus disszipáció Hőkatasztrófa következett be. Megjelent a Core 2 (2006), a P3 vonal ment tovább. 97-ben jelentette be az Intel, hogy a 32 bites processzort leváltja a 64 bites, de nem jött be (X86 - > IA 64) AMD: ISA-t 32-ről kibővítette 64 bitesre (nagyobb utasításkészlet kellett) 2000 Intel Tick-Tock modellt követ: Az egymást követő processzorok vagy architektúrális, vagy technológiai újításokon mennek keresztül, egyszerre a kettő túl kockázatos. A Tick jelenti a technológiaváltást architektúrához nyúlás nélkül, a Tock pedig az architektúrális váltást

7 Abszolút teljesítmény: Eredményesen végrehajtott utasítások száma / sec P m = f c *IPC eff f c : ciklus órafrekvencia IPC eff : utasítás / ciklus effektív: hasznosult utasítás kibocsátás (elágazás miatt) Eredményesen végrehajtott műveletek száma / sec (SIMD Single Instruction Multiple Data) P m = f c *IPC eff *OPI OPI: Műveletek száma / utasítás Mérésük a Performance Counter (pl. lehívott, végrehajtott utasítások, elágazási utasítások) segítségével történik, minden CPU-nak ezen keresztül mérhető a teljesítménye. Egyszerű felhasználó nem tudja kezelni. Teljesítmény az alkalmazásfüggő (pl. lebegőpontos műveletek hosszabbak) -> nehezen mérhető Relatív teljesítmény: Egy benchmark programcsomag (banki tranzakciók pl.) valamely referenciarendszeren és a vizsgált rendszeren mért futási időnek összevetése az alábbi értelmezéssel (mértani közép). P r n t t 1 ref 1v t t nref nv Le kell mértani a tekintett rendszeren a futási időket. Azért van alul a vizsgált rendszer ideje, hogy a tört minél nagyobb lehessen (mert a rendszer valószínűleg gyorsabb a referenciánál. A tört így nagyobb lesz 1-nél. Segíti az eladást). Amit kapunk, az a gyorsítás mértani közepe. Spec benchmarkok a legismertebbek 1989-től kezdve (Pl. SPECint92, SPECint_base2000, SPEC_fp) 2 féle benchmark érték: - base (kisebb érték) : alapbeállítások, computer nincs rá optimalizálva - 7 -

8 - másik a szabadon továbbtuningolt Időben párhuzamos feldolgozás: Utasítás szempontjából minden órajelben képes utasítást végrehajtani. Itt a futószalag is behozott szűk keresztmetszetet, ezt feloldották. Párhuzamos utasításkibocsájtás: Előállnak függőségek!! Statikus függőségkezelés: architektúrát tekintve legegyszerűbb, ha a compiler-re bízzuk a függőségkezelést. VLIW esetén ez elvárás. Cache elérési idejétől függ L1: 2-3 ciklus L2: 10 ciklus L3: 30 ciklus. Amit a compiler egyszerre kibocsát, az legyen független. VLIW feldogozás elve: feldolgozó egység. Ez határozza meg a VLIW hosszát (az utasításszó mezőinek számát) -> bit hosszúak (32 bit * FE) is lehetnek. Annyi utasítás lehetséges a VLIW-ben, ahány feldolgozó egység található a processzorban. Emlékeztető: Ha van ~100 féle utasítás, akkor 8 bit hosszú a műveleti kód. Ha ~32 regiszterünk van, azt 5 biten lehet megcímezni. Amennyiben regiszter-regiszter architektúráról van szó, akkor 8 (MK) + 3(forrás,forrás,cél)*5 => 32 bit hosszú egy mező (utasítás) a VLIW ben - 8 -

9 Dinamikus függőség kezelés: Új technológia => szűk keresztmetszetek => ezek feloldása, majd a technológia határához elérkezünk => új technológia => A kibocsátott utasítások közt lehetnek olyanok, amelyek egymástól függenek, a függőségkezelés a CPU ra hárul. Compiler segítheti a párhuzamos feldolgozást, például utasítás sorrend megváltoztatásával (a legdurvább függőség a LOAD nál lép fel. A compiler minél előrébb helyezi el, hogy a kívánt adat megérkezzen, mikor szükség lesz rá. Az időigénye akár többszáz óraciklus is lehet). Továbbfejlesztési lehetőségek: Vektoros, azaz: több utasítás / művelet (SIMD). Multimédia, grafika, matematikai számítások esetén nyújt segítséget. Tehát csak dedikált alkalmazásokra tudunk hatékonyságot növelni, általános célúaknál már nem! Milyen szóhosszal kell számolnunk? 1 mező 1 feldolgozási egység 1 mező vezérléséhez 16 v 32 bit kell, ennyi kell egy utasításhoz (LOAD, STORE) jellemző szóhossz 32, ha van 6 feldolgozó egység, akkor 186! - 9 -

10 Komplexitás determinálja a sorrendet. Futószalag => Szuperskalár => kiterjesztés. Az utasítások több műveletet kezdeményeznek. Csak akkor előny, ha azt az alkalmazás támogatja (pl. multimédia, grafika, matematika) => dedikált alkalmazások. CPI: Cycles per Instruction (IPC reciproka), EPIC: a VLIW új neve, Intel Itanium processzor

11 Teljesítmény: órajel (f c ) * hatékonyság (IPC eff )

12 A spekuláció alapvető az elágazás kezelésben és a LOAD oknál (sokáig tart az adatok beolvasása a memóriából). η: Spekulatívan végrehajtott utasítások hatékonysága = Jó utasítások száma / összes utasítás száma. ~ A lebegőpontos osztás n*10 ciklusig is eltarthat. Fénysebesség: 30 cm/ns; az elektronok a szilíciumlapkán: 20 cm/ns! Amíg a fény 6cm-t halad a gép összead két 64 bites számot. 1 GHz 1 ns óraciklus. Alapvető, hogy mennyi a csíkszélesség! A kisebb méretek (csíkszélesség) gyorsulást idéznek elő. Egy futószalag fokozata: puffer -> logika -> puffer. Logikai hossz: hány NAND kapun kell keresztülmenni. FO4: Fan-out: egy NAND kapu késleltetési ideje Növelték a fokozatok számát -> csökken a logikai hossza az egyes fokozatoknak. Korábban volt 100 FO4is, ma ~10-15 FO4. Prescottmag: 30 fokozatot is elérték. A spekulatív elágazásbecslés miatt a rossz irányba lehívott utasítások száma ilyen mértékben túlságosan nagy veszteséget okoz (túl nagy a buborék). Eredmény: napjainkban ~15 fokozat jellemző. Mikroarchitektúra: manapság ez a döntő, ettől függ az órafrekvencia sebessége. Napjainkban a hatékonyság növelése csak pár százalék különbséget okozhat

13 Az utasítás-szintű párhuzamosság fejlődésének jellemzése: -100x növekedés 10 évenként (utóbbi időben stagnálás) - Oka: 3 különböző párhuzamosság megjelenés (időbeli, térbeli párhuzamos utasítás kibocsájtás, utasításon belüli - több művelet/utasítás) => a feldolgozási szélesség növekedése - Teljesítmény = órafrekvencia * ciklusonkénti eredményesen végrehajtott utasítások száma Pai = Fc * IPCeff Szuperskalár elvvel lezárult a fejlődés, ISA kiterjesztése SIMD fixpontos ábrázolás -> multimédia, 3 alapszín, 3x8 bit lebegőpontos ábrázolás -> grafika, ábrázolás alapja a háromszögek térbeli csúcspontok, 32 bites GPGPU Első időben szimpla pontos feldolgozás -> tudományos terület ILP processzorok teljesítménypotenciálja, soros futószalag, VLIW, SIMD, adatpárhuzamos utasítások. Az időben párhuzamos feldolgozás: 1. utasítás előrehívás 2. lebegőpontos műveletek 3. teljes utasítás párhuzamosítása

14 Pipelined EUs: A lebegőpontos utasítások végrehajtásánál az Execute fokozatok párhuzamosítása (a kitevők azonos alakra hozása, mantissza, ) Jellemzően tudományos célú gépeken alkalmazzák. 2 db bites fixpontos szám összeadása 0,5-1 óraciklust igényel. Ez ~ 0,3 ns idő (megj.: ez alatt a fény ~10 cm t halad). Ilyen rövid időtartamnál erre nincs szükség. Lebegőpontos osztás a legrosszabb műveletek egyike, ugyanis kivonásokra vezethető vissza. A lebegőpontos összeadás ~0.3 ns időt vesz igénybe. Pipelined processors: Futószalag. Minden óraciklusban be tud fogadni egy új utasítást. Az ábrán láthatóak a futószalag bevezetéseinek lépései, a futószalag tehát fokozatosan jelent meg 80-as évek közepétől a 80-as évek végéig minden gyártó áttért a futószalag technológiára (80386-tól). Intel/AMD: x86 (ez a domináns: az eladott processzorok 80-90%-a). Motorola: M68000 (CISC), MIPSR: RISC

15 Minden technológia magával hordozza a végzetét a szűk keresztmetszetet. Operatív tár sávszélessége: szekvenciális -> futószalagos feldolgozás. Szekvenciálisnál lehet közte 30 ciklus, míg újra kell, futószalagosnál minden órajelre új utasítás. Az operatív tár túlterhelődik, 100-szoros idő kell a válaszhoz, nagyobb sávszélesség igény -> cache bevezetését elősegítette motiválta. L1 szinten 32/64k a cache méret -> optimum az elérési idő és a cache hiány közt

16 Futószalag cache nélkül: (I. generációs futószalag processzor) Futószalag cache használatával: (II. generációs futószalag processzor) Volt olyan gyártó, amelyik előbb vezette be a cachet, mint a futószalagot (pl. Motorola, MIPS R) A zárójelek értelmezése: Ha egy változó van, akkor univerzális cache, ha kettő, akkor Instruction/Data cache (kilobyte). A cache a szekvenciális feldolgozást kifejezetten hátráltatja! Csak a ciklusokat támogatja, azokat is csak akkor, ha azok beleférnek a cache-be. Ebből következik, hogy minél nagyobb a cache, annál jobb, DE: ekkor az elérési idő is megnő - > optimumra van szükség. Ez kb.: 64K, 3 óraciklus. L1: jellemzően 64 Kb (3 óraciklus) megj.: AMD-nél 32 Kb is. L2: fél-2 Mb (10-15 ciklus) L3: 6-12 Mb (30 ciklus is akár)

17 Ha ugrani kell, akkor bázisregiszter címet kell számolni, 3 utasítás elvész -> ennyi buborék keletkezik a 4 fokozatú futószalagon (n fokozatú futószalagnál n-1 vész el). Ezért nagyon fontos az előrejelzés becslés. FDEW -> feltételezett futószalag működés, feltétlen elágazással is probléma van.. Az ugrás folyamata a következő: 1. Az ugrási irány becslése 2. Az utasításlehívást folytatjuk a becslés alapján ( ábrán piros nyíl irány, piros pontból) 3. Ellenőrizzük a becslés helyességét 4. A valós irányban folytatjuk (jóváhagyjuk vagy eldobjuk) a végrehajtást Feltétlen elágazásnál is fellép, de nem olyan jelentős. Execute fokozatnál vizsgálja a Flaget. Ciklusoknál nagyon jó a becslés (ha a ciklusváltozó n, a becslés n-1 szer jó lesz) Nem-szuperskalár processzoroknál a fix (rögzített, mindig ugrunk ) elágazásbecslés jellemző, az első generációs szuperskalároknál a statikus a jellemző. Statikus elágazásbecslés esetén a feltétel kiértékelésekor Displacement vizsgálat történik: Ha D<0, ugrik, ha nagyobb, akkor soros folytatás. Kód alapján történik a becslés, ezért primitív elágazásbecslési technika, a jobb rendszerek a múlt alapján becsültek. Dinamikus esetén elágazástörténetre alapoz, előzőekben ugrott, vagy nem

18 Ismétlés: Az elágazási utasítások alapblokkokra osztják fel a kódot. Az alapblokkok általában 3-4 adatmanipuláló utasítást tartalmaznak tól jelenik meg az elágazásbecslés. (II. generációs futószalag processzor) Minden gyártó bevezette. 1989: futószalag technika kimerülése

19 Cache megjelenése azért előzte meg az elágazásbecslést, mert azt egyszerűbb volt megvalósítani (komplexitás ~ tranzisztorok száma). A másfeledik generáció azokra a processzorokra vonatkozik, amelyeknek már volt cache-e, de még nem volt bennük elágazásbecslés

20 Független utasításoknak kell lennie egymástól valamint a félkész utasítástól, amit a rendszer épp feldolgoz. VLIW elv -> Ez a legegyszerűbb megoldása tárból -> regiszterbe -> tárba (LOAD/STORE elv) regiszterből -> regiszterbe -> regiszterbe 32 bites számítást tesz lehetővé EPIC: a VLIW mai neve (Explicitly Parallel Instruction Computer). Az ábrán például 6 utasítás található egy VLIW -ben. Gyakorlatilag: az utasítások továbbra is 32 bitesek, de maga a hosszú utasításszó (VLIW) akár 10-20x 32 bit hosszú is lehet

21 A compiler ma is kezel függőségeket, pl. az összes LOAD utasítást előrébb hozza, hogy a lassú, RAM-ból való betöltés eredménye már kéznél legyen, ha szükség van rá -> dinamikus függőségkezelésnél is van szerepe. Szuperskalárok esetén a szekvenciális konzisztenciát meg kell őrizni! ROB segítségével

22 VLIW processzorok: Sok feldolgozó egység van a processzorban, ezek dedikáltak. Statikus függőségkezelés / párhuzamos optimalizálás -> komplex fordítót igényel. Nagyon compilerfüggő, technikafüggő, előkészítés fázis, szimulációs kísérletek, prototípusok, commerse rendszer -> kibocsájtható Cydrome (Cydra ), Multiflow (Trace ), Commerse implementációk Várt előnyök: - kevésbe komplex processzor - korábbi megjelenés - nagyobb pörgési sebesség, vagy LP Hátrányok: - gyökeresen új ISA, új fordítók - op. rendszerek, alkalmazások újraírása - kritikus tömeg elérése - VLIW utasítások részlegesen kitöltöttek (Például nincs mindig 30 utasítás, amivel ki lehetne tölteni => részlegesen lesz kitöltve, hézagos lesz. Ez vezet a rossz sávszél kihasználáshoz) - kevés a pénz - rossz tárhely és sávszélesség kihasználás - rendszer nem tudja fenntartani önmagát Mindkét cég csődöt jelentett, a fejlesztők két céghez mentek át -> HP, IBM (amik akkor gyengébbek voltak még) és az EPIC processzorok kezdeményezői lettek. HP nál kezdeményezték az VLIW processzorok továbbfejlesztését, mert ez a jövő. A partner az Intel lett

23 HP lett a fősodrásban, az IBM mellékvágányra futott. Fontos: TRACE, CYDRA, és azok elődei (prototípusok). ELI-512: a szám a VLIW hosszát jelöli. 16*32 bit

24 EPIC processzorok: Ma 80%-át uralják a piacnak! Intel nélkül esélytelenek -> együttműködési szerződést kötöttek 1994-ben, Explicity Paralell Instruction Computer 1997-ben egy konferencián már EPIC néven szerepel, a VLIW már el volt használva. X86-osok 32 bitesek voltak, meg fog halni a 32 bit, jövő a 64 biteseké, IA -> Intel Architecture között RISC-et felülmúlják a CISC-ek, ezek lettek a leggyorsabb processzorok. A RISC vállalatok sorra mentek tönkre ebben az időszakban, kiszorultak a piacról (Cisc vonalból is kettő maradt csak meg (Intel + AMD). IBM Power maradt még egy ideig ami RISC-es re ígérték az elsőt Merced néven (Mercedes). 2 évet késett. Átkeresztelték Itanium-ra. A Merced (2001) 600 MHz en működött, miközben a 2000-ben kijött Pentium 4 már 1.5 GHz-en, 400 (FSB: 100 Mhz, 4 transzfer/órajel) megatranszferrel, az Intel a saját konkurense lett. A Merced nagy csalódás volt, botrányos helyzet, ez volt az Intel fekete korszaka AMD más úton indult el -> RISC 86 architektúrát kiegészítették x86-64-el (kompatibilis volt a korábbi változattal) Direct Connection, RAM vezérlő a lapkán, soros buszok. -Opteron: Szerverre -Athlon64: DesktopraMicrosoft megtámogatta, az Intelnek muszáj volt utánoznia bites szerverek jöttek ki, memóriavezérlés került a chipre, FSB-t kidobták, É-híd, memória, VLIW csatlakozott. Tipikus processzor: 2001 Intel-64 Itanium Itanium 4c ennél tovább nem támogatja az Intel, ezzel vége lett Szuperskalár feldolgozás: újítás, dinamikus függőség, nem jelent változást az ISA-ban

25 Kompatibilis ISA: A korábbi fejlesztésekkel kompatibilis! Nem igényel változtatást a korábban megírt programokban. A függőségeket a processzor kezeli. Működés: Sok EU (Executing Unit) Utasítás cache-ből pufferbe tölti az utasításokat, 2-3 utasítást egyszerre lehív, paralel dekódolja, függőséget vizsgál, direkt kibocsátás (soros az első függőig, az ablakot kiüríti, újratölti): a függetleneket bocsátja ki (nem pufferelt). Probléma: A függőségek -> átlagos kibocsátás utasítás alig haladja meg a 2db-ot, max ennyi az elvárható párhuzamosság, direkt kibocsátási korlátja, kibocsátási szűk keresztmetszet, szélesség = 2, általános célú programoknál. Processzor mag: Statikus elágazásbecslés, utasításkódot tekintjük gyorsítótár: Egyportos blokkolható L1, adat gyorsítótár, processzor buszon keresztül csatolt off chip L2 gyorsítótár (korábbi rendszerekben FSB-n keresztül). <- első generációsig második generációsig ->

26 Harmadik generációs szuperskalár: L2 a CPU-ban. Példák: Két nagy cég: IBM és DEC, az előbbi a piacvezető. Az IBM nyeresége megegyezett a DEC forgalmával!

27 RISC: A legelső szuperskalár processzor egy beágyazott rendszerben volt található az Intel által gyártva, nincs nagy jelentősége. M, HP, SPARC, MIPS, AM: meglévő rendszereket szuperskalárosítottak, fejlesztették tovább. IBM, DEC, PowerPC: új rendszerek, erre a célra készítve. IBM Power: az igazi kommersz, első szuperskalár Mindegyik kimúlt, kivéve: Power CISC: Eltolódás tapasztalható megjelenések tekintetében (~3 év). Intel a vezető gyártó, Motorola egy ideig vetélytárs, AMD kezd megjelenni a piacon. Cyrix-ből lett később a VIA. Az Intel és az AMD maradt meg a piacon. A családokat nem kell tudni, de kommentálni kell, ha a képet mutatják. CISC: a memóriában bitfolyamként látszódnak az utasítások, nincs eleje, sem vége. Ezek az utasítások komplexebbek is (megjelenik a memória, mint operandus). Az összes rendszer néhány év alatt ( 90-95) szuperskalárrá változott

28 Kibocsájtási szűk keresztmetszet: a kibocsájtás (Issue) az első függő utasításig történik. A függőségek miatt nem tudunk annyit kibocsátani, amekkora az utasítás-ablak mérete. Megoldás: pufferekbe tesszük a kibocsátott utasításokat, és ott vizsgáljuk meg a függőségeket

29 Alpha 21064: a legtisztább RISC, a Pentium mintapéldánya, 1. generáció Statikus utasításelosztás -> programban lévő utasítások előfordulási száma. Pentium: a legtisztább CISC Dinamikus utasításelosztás -> végrehajtott utasítások gyakorisága. Compilerek, általános alkalmazások: minden 5. utasítás jellemzően elágazás! FX utasítások a dominánsak! Memóriaműveletek: Load + Store = 30%+10% = 0,4. Direkt (nem pufferelt) kibocsájtás esetén kb. 2 utasítás / óraciklus => általános célú alkalmazásoknál 2-3-nál nagyobb szélességben nincs értelme gondolkodni

30 Adat-cache portok számolásához az előző dián található memóriaműveletekből vettük a 0.4 értéket (FX műveletek), ez tehát a memóriához nyúlást jelképezi. FX itt azért van duplázva, mert ezeket a végrehajtó egységeket terhelik a Load/Store címszámítások is. A címszámítást tehát rejtett, fixpontos regiszterek segítségével végezzük el. EU: Execution Unit (végrehajtó egység, VE). Összesen tehát 5-6 VE szükséges! Csak a függetleneket bocsátja ki a rendszer -> megoldás : pufferelés Pufferelés: Többféle puffer létezik: 1. végrehajtó egység elé helyezzük, egységenkénti puffer 2. Típusonkénti lebegő vagy fixpontos 3. köztes megoldás A kiküldés véges, a puffer nem végtelen méretű! Az adatok nem maximum szélességűek, vizsgálni kell, hogy ráér e az utasítás. Scoreboard -> regiszter 1-et flag tiltja, amíg számolnak vele, operandusok mellett elérhetőségi bitek jelennek meg kibocsátott utasításokban a célregiszterben. Egy bit jelzi, hogy számítás van

31 Shelvingbuffer: várakoztató állomás. A kibocsátási szűk keresztmetszet megszűnt. Ezzel nem biztos, hogy gyorsul a rendszer; amennyiben volt szűkebb keresztmetszet is, maradhat ugyanolyan sebességű, mint korábban. A kibocsátás 2 fázisú: 1.Pufferbe kerül - dispatch, kiküldés. 2.Pufferből VE-be kerül - Issue, kibocsátás. Komplikációk: ha a puffer megtelik, vagy az adatút szélessége kicsi (ha egy típusúak az utasítások), akkor nem lehet 4 utasítást egyszerre kibocsátani. Megoldási módok az adatutak szélességére: 1.Minden adatút worst case: legjobb teljesítmény (mert a legrosszabbra készülnek, 4 széles legyen minden) 2.Fixpontosnak pl. 2-szeres szélességű, lebegőpontok egyszeres (statisztikai közép: 2 vagy 3 (nem nagy a veszteség, és olcsó)) Második generációs (széles) szuperskalárok: Kibocsátási szűk keresztmetszet feloldása és egyes alrendszerek szélességének adekvát növelése. Átbocsátási képességet a legszűkebb keresztmetszet határozza meg. Azt a sínt, amely a processzort köti össze az északi híddal, Front Side Bus (FSB)-nek nevezzük (régebben: rendszerbusz)

32 Nagyobb felelősség hárul az elágazásbecslésre, 60% pontosság volt, váltottak dinamikus becslésre (történtektől függ a becslés). Sok utasítást kell kiküldeni egyszerre -> lassú -> elődekódolás! (pl. megállapítja az utasításcsoportot, kiszűri az elágazásokat, akár a címet is kiszámítja. L2 -> elődekódolás -> L1) 2-es kibocsátás függőségek miatt, ennek az arányát csökkenteni kell Regiszter átnevezés!!! - RAW: utasítás másik eredményére vár (Read After Write) - WAR: ne írja át csak olvasás után (Write After Read) - WAW: csak megfelelő sorrendben írja át (Write After Write) A WAR és a WAW függőségek oka regiszter átnevezéssel megszűntethető, átnevező bufferrel (archi II). ROB (ReOrder Buffer) szekvenciális konzisztencia Konzisztens a szekvenciális rendszerekkel. Működési elve: Utasításokat hajt végre és részben az operatív tárba részben a regiszterekbe ment. A beírásokat nem szabad a beírás sorrendjében tárolni (Neumann elvű rendszer szekvenciális feldolgozás), kell egy rendteremtő: ROB

33 ROB (ismétlés): Körpuffer, melynek van: - Kezdeti mutató: az első üres helyre mutat - Végmutató: a kiírandó bejegyzésre mutat Működése: - A kibocsátás sorrendben történik, így a kibocsátás sorrendjében folyamatosan töltjük fel a körpuffert, a kezdeti mutatónak megfelelően - A processzor követi a kiküldést - Végrehajtás alatt van-e - Befejeződött-e a végrehajtása - A kiírási feltétel - (Kiírás: az adott architekturális regiszterbe vagy a memóriába írjuk ki az eredményt) - Az adott utasítás végrehajtása befejeződött - Minden, ezt megelőző utasítás kiírásra került Megjegyzés: a RISC szerű utasítások eredményét nem lehet kiírni, csak az eredeti CISC utasítás eredményét A kiírt bejegyzés helyét a CPU felszabadítja Elérhető párhuzam: 4-6 utasítás / ciklus - Fixpontos: bármilyen széles a processzor 4-6 utasítás - lebegőpontos: több párhuzamosság van bennük, 10 vagy 20x-os is lehet, kibocsátási párhuzamosság kimerült

34 Kétműveletes utasítások: 90-es években. Jellemzően lebegőpontos műveletek. Kicsi a hatékonysága. 3 operandus, két művelet. Ismétlés: SIMD: Single Instruction Multiple Data. Egy utasításban több művelet => vektorutasítások. MM: Multimédia, képfeldolgozás, jellemzően FX feldolgozás (2D, pixelek tárolási módja, stb.). FP: lebegőpontos (3Dgrafika: térpontok miatt) Első rendszerek: 64 bit, napjainkban: 128 bit hosszú lehet egy vektorutasítás. Nemsokára 256 bit hosszú lesz. 64 biten 2/4/8/16/32 db utasítás eltárolása lehetséges. LP: szimplapontos: 32, duplapontos: 64 bit. Pentium II: A lebegőpontos regisztertárba rakták be a multimédiát, MMX (Multi Media extension). Adatpárhuzamosság: Egy utasításban több művelet pl.: 2 operandusú művelet. FMA (Fused Multiple Add) SIMD utasításoknál 20-30% sebességnövekedés SIMT Thread, Többszálúság, mátrixutasítások (8x8 jellemzően), GPGPU, több dimenziós tömbök feldolgozása

35 A kiterjesztés fejlődése: I.Intel: MMX (FXSIMD) ben, PII II.AMD: 3DNow! (FX, FPis + extra SIMD regiszterblokk), 1999-ben, K6-2+ III.Intel: SSE(FX, FP, SIMD regiszter), 2000-ben, P4 IV.AMD: 3DNow! Professional (innentől rákényszerültek, hogy lemásolják az Intelt) Egy ritka alkalom, hogy az Intel az AMD t másolja: (Ismétlés) Előzmények: - RISC processzorok egyszerűek, de gyorsak, a CISC-ek pedig lassabbak, de hatékonyabbak (pl. Alpha: 300 MHz, Pentium: 166 MHz) - CISC elhúzott teljesítményben (a magas órajelen járó RISC et nehéz továbbgyorsítani észlelhető mértékben). 5 év alatt a RISC kiszorult ( ) - Intel és HP 1997ben bejelentik a Merced-et. Azt jósolták, az IA-32(CISC) t felváltja az IA- 64(EPIC) ben bemutatták, bukás. - AMD: bevezette a korábbi fejlesztésekkel kompatibilis, x86-64 et:2000: 64 bites ISAbejelentés2003: Opteron - Athlon 64 megjelenése. Direkt csatolt: a CPU tartalmazza a memóriavezérlőt, és vannak soros linkjei: hypertransport bus, 3 db van belőle, és I/O vagy CPU köthető mindegyikre => akár 4 CPU is összeköthető, MP rendszer kialakítható belőle. Az AMD elnyerte a Microsoft együttműködését (x86-64támogatású OS). Az Intel az IA-64 el szintén ezt akarta elérni, de a Microsoft nem tett eleget ennek, így rákényszerültek az AMD ISAjára

36 Szaggatott vonal választja el a generációkat. Intel vonalat célszerű megtanulni! (melyik hányadik generáció). DEC Alpha 1. generáció és a DEC Alpha volt a leggyorsabb vonal. 1997: FX-SIMD megjelenése, az átállás éve. AGP busz megjelenése. Előtte: 2,5. generáció Utána: 3. generáció Amelyek nincsenek színezve, azok nem támogatják a SIMD et. Órán nem beszéltünk az SSE3-ról. Intel P4magok: Willamette (2000) Northwood (2002): HyperThreading, 55 millió tranzisztor Prescott (2004): már benne volt a 64 bit, de még nem publikálták. 110 millió tranzisztor (a 64 bit re való áttérés növelte meg ennyire)

37 Kiváltott szűk keresztmetszet: Rendszerarchitektúra On - chip L2: Lehet káros a cache, ha egy adatra egyszer van szükség, pl.: videó lejátszás, streaming adatfeldolgozás. Ilyenkor ki-be kell mozgatni az adatokat. Viszont ez sokszor kikapcsolható. AGP busz Futószalag hossz növekedése -> Igény jobb becslésre, egyre több hardver lesz, de a kihasználtság csökken. Branch prediction accuracy: Elágazásbecslés pontosságának javítása. ILP processzorok fejlődésének korszaka lezárult!

38 Természetes fejlődési vonal: Bonyolultság lépésről lépésre növekszik, szuperskalár az több futószalag lényegében. Radikális fejlődési vonal: Új utasításszintű architektúra, gyökeresen új (eddigit el kell felejteni). Ez általában nem lesz sikeres, most se lett az

39 Az, hogy melyik újítás mikor lépett be, az a rendelkezésre álló hardver komplexitásától függött!

40 Nem blokkoló cache: olyan cache, amely cache miss esetén, az adat memóriából történő betöltése közben is ki tud elégíteni igényeket. FONTOS ábra!! Teljesítmény mit igényel? - lineárisan memória sávszélesség növekedése - hardver komplexitás

41 - 41 -

42 Egy szálban nincs párhuzamosság -> vegyünk többet. Ez egy magasabb párhuzamossági szint (szemcse)

43 Többmagos processzor: BruteForce, nyers erő. Továbblépés. Szélesség növelése: 4 helyett 8- as kibocsátás. Többszálas processzor-mag: Ügyességen alapuló megoldás. Meg tudja különböztetni a szálakat. Több bemeneti tölcsér. Minden fájlnak külön adattere (regisztertere) van. Durván szemcsézett rendszer: Egy szál fut, amíg nem akad el Közepesen szemcsézett rendszer: Minden ciklusban egy szálat választ és azt futtatja Szimultán többszálú: Ciklusonként több szálból

44 - 44 -

45 Korszakváltás a processzorok fejlődésében 2010 őszi félév Felépítés:

46 Korszakváltás: Egy év alatt lezárult, Intel átvált többmagosra. IBM-nél jelent meg először. Alapvető indíték: Teljesítmény növelés Több mint két évtizede - közel napjainkig - a processzorok teljesítménye megdöbbentően gyors ütemben folyamatosan emelkedett, amint ezt a világpiacon vezető piaci részesedésű Intel x86 család fixpontos teljesítményének változását bemutató 1. ábra illusztrálja. E szerint több mint két évtizeden át az Intel x86 processzorok fixpontos teljesítménye 10 évente mintegy megszázszorozódott. Ugyanakkor az elmúlt néhány évben jól kivehetővé vált egy új fejlődési szakasz, melyben a processzor teljesítmények növekedési üteme lényegesen lelassult és a növekedési görbe mindinkább egy telítődési görbéhez kezdett hasonlítani. De mi is játszódott le az elmúlt években, milyen okok idézték elő ezt a gyökeres változást? Az okok meghatározásához jó kiindulásul szolgál a processzorok abszolút műveleti teljesítményének vizsgálata. Általános célú alkalmazások esetében az OPI ~ 1! Nem beszélünk itt a SIMD-ről. A végrehajtott utasításokat külön kell nézni, mert a kibocsátott utasítások közül van, ami becsült; ha rossz a becslés, rollback kell (eldobás, visszavonás)

47 62000 es évek környékén az Intel processzorok teljesítménynövekedése megállt. Egészen addig kb. 100 szoros növekedés /10 év, ezt a meredekséget kell tudni!

48 Általános célú alkalmazás esetén: P a = f c * IPC eff -> hatékonyság: IPC eff = P a / f c (Adott frekvencián való teljesítmény) Kibocsátott utasításszám nagyobb lehet, mint a végrehajtott: pl. spekulatívan lehívott utasítások miatt

49 Intel 2. Generációs szuperskalároknál (-1995, Pentium Pro) elérték a technológia korlátait, az általános célú programoknál nem maradt több kimeríthető párhuzamosság. Y tengely: hatékonyság (teljesítmény / frekvencia)

50 Y tengely: teljesítmény A teljesítménynöveléshez az óra jel és a hatékonyság növelése milyen arányban fogja előidézni ig kb. ugyanakkora mértékben nő mindkettő, utána az órajel jobban, az IPC kevésbé. Pentium megjelenése. 1997:2 utasítás kibocsájtás / óraciklus hatékonyság. (A diát 97-ben vetítették, érdekes időpontban: ezen a napon volt az Intel és HP bejelentése: az IA- 64(x64) lesz az Új világ (Itanium, Merced))

51 1. Elsőgenerációs futószalag processzor: 386 Második generációs futószalag processzor: Elsőgenerációs szuperskalár processzor: Pentium Második generációs szuperskalár processzor: Pentium Pro Két-és feledik generációs szuperskalár processzor: Pentium II Harmadik generációs szuperskalár processzor: Pentium III A szélesség növekedés csak egy pontig volt kihasználható. Általános célú programoknál ~4-5xgyorsítás érhető el. DEC laborjában készült a mérés, 1990-ben

52 - 52 -

53 A teljesítménynövelést igényli a piac. Az órafrekvenciát kéne növelni ~100x-ra! 1.Csíkszélesség csökkentése (a jelnek kevesebb utat kell megtennie, kevesebb idő, nagyobb órajel, a jelek a lapkán 2/3ad fénysebességgel haladnak) Egy chip mérete kb. 1x1 cm, de felmegy 2x3-ig is akár ezért jelentős a vonalvastagság. 2.A leghosszabb futószalag logikai hosszának (egymás után lévő NAND kapuk száma) csökkentése. Ezt úgy tudjuk elérni, ha a fokozatokat kisebb egységekre. A futószalag fokozatainak logikai hosszát kell csökkenteni (F D E Wb -> F1 F2 F2D1 D2 E1 E2 ), nem pedig a futószalag hosszát! Így érhető el például a Northwood mag 20, és a Prescott mag 31 fokozata

54 Futószalag rendszer felépítési elve: (FONTOS!!) F04: Fen out of 4 Moore törvények a gyakorlatban. váltószám: Egymás utáni technológia hányszoros váltószámú Hány évre van szükség, hogy ezt a technológiát produkálja? kb. 2 évente Két egymást követő technológia esetén a vonalvastagság ~0.7x re módosul. Ha egy négyzet oldalhossza 0.7, a négyzet területe 0.49~

55 Ebből következik, hogy a technológiaváltás esetén a tranzisztorok száma egységnyi területen megduplázódhat. A technológiák körülbelül kétévente váltják egymást (a rajz ~10 évet ölel fel, ebben 5 technológia van feltüntetve, így jön ki az érték). Intelnek hatalmas gyártási kapacitása és piaci volt, ezért is járhatott nagyon elől a fejlesztésekben is. Egy kézen meg lehetett számolni hány cégnek vannak gyártósorai. Zárójelben: a fokozatok száma. Emlékeztetőül: a fokozatok számának növelése a fokozatok logikai hosszának csökkentése. Intel célja a fokozatnöveléssel? Vásárlásnál alapvető szempont a sebesség volt és ennek akkor ez volt az alapja. Hátrány, hogy a disszipáció nőtt -> Korea -> lassabb tempó, de két mag. Összegzés: Hatékonyság 1-ben maradt, órafrekvenciát kellett növelni a sebesség növekedéséhez!

56 Y tengely: logikai hossz egy fokozaton belül. F1F2F3D1D2E1E2E3 15-nél stabilizálódott

57 Fc korábban 10x-renőtt/ év (mert IPC is ugyanígy gyorsult). PII környékén (1997) az fc növekedése 100x-ra nőtt / 10év (a csíkszélesség és a fokozatok logikai hosszának csökkentése által). 10 év alatt ez a fejlesztési irány is bedugult. 1.Nagy válság: amikor a hatékonyságot nem tudták tovább növelni 2.Nagy válság: amikor az órajel frekvenciáját nem tudták tovább növelni. FONTOS! Y tengely: fc (MHz) DEC Alpha és Intel Pentium viszonya. 90 es évek vége felé a DEC processzorai voltak a legjobbak teljesítményben. A gyors frekvencianövelésnek köszönhetően Intel az élre tört (1999) -> RISC processzorok kiszorultak

58 Y tengely: teljesítmény és relatív teljesítmény. A két gyártó (kék: DEC, piros: Intel) közti teljesítmény százalékos különbsége szinte folyamatosan csökken, a végén az Intel processzorának teljesítménye felülmúlja a DEC ét. 2. generációs szuperskalárok megjelenítésétől számítva 5 éven belül a CISC-ek kerültek előtérbe. Akkortájt 32 bites processzorok voltak, EPIC architektúra típus fog megjelenni, ez volt a jövő IA64 előtt, a RISC piac tönkrement egyszerűen. HP megszűnt a saját konkurens csatornáját (PA), IBM és a Sun túlélte, váltottak teljesen más koncepcióra, más piacra, mint eddig. RISC: Load-Store architektúra, CISC: Operandusként megjelenhet a memória is, komplexebb utasítások. IBM növelte az órajel frekvenciáját 5 GHz-ig

59 Hatékonysági korlát ~ visszaesés! Ábrák felrajzolása (a következőoldalon lévő rajzok+magyarázatok) Disszipációs korlát: STOP tábla a frekvencia növelésének (P4Prescott: 103 W leadás 1 cm^2 en.. Ez a maximum léghűtéssel) Párhuzamos buszok: lecserélni sorosakra (Intel Nehalem, AMD K8mag: Opteron és Athlon XP). A párhuzamos busz ilyen magas frekvenciát nem bír el. Skew: különböző hosszúságú vezetékeken a jelterjedési idő eltér. Ma minden busz soros. Lemarad a memória sebessége a CPU-hoz képest! Sebességolló (különbség) megnyilvánulásai: - memória késleltetési ideje (elérési ideje) - memória átviteli rátája - L2 cache tárak elérési ideje - processzor busz átviteli rátája Nagyobb frekvencián a kapacitás bekorlátozódik. Több csatorna: több DIMM. Memória két fő jellemzője: késleltetés (elérési idő) és sávszélesség

60 Beillesztett dia! (by Felix) FSB sávszélessége korlátozhatja a memóriát. Először 4 processzornak kellett osztoznia egy FSB-n. Direct Connect: nincs FSB, közvetlen kapcsolat a memóriával (3 db). A csatornákra egy-egy újabb processzort is rá lehet kötni (összesen 4 CPU köthető össze, ahol mindegyik processzor minden másikkal tud kommunikálni) A memóriavezérlő a CPU lapkán található. Az Intel ezt a Nehalemmel (2008, pl. Corei7) vezette be. AMD K8 (2003): Opteron és Athlon-64 Egyre nagyobb erőfeszítések, egyre kevesebb teljesítmény növekedés -> megoldás több magos processzorok

61 aszinkron rendszer jellemzői: Rendszer egy feladatot kap, ha kész akkor visszajelez. 2 jel kell hozzá megbízó és visszaigazoló (acknowledgement) szinkron rendszer: Megbízom, megbízom.. nem várok visszajelzést, olyan időtávon bízom meg, amelyen feltételezem, hogy végre tudja hajtani, worst case szemlélet! A második generációs szuperskalárok mellett jelentek meg a szinkron RAM- ok, nagyjából 4 évente duplázódott a sebesség 3 korszak: -DRAM: 1970 körül jelentek kb. a mikroprocesszorokkal egyidőben. FP( 74) FPM( 83) EDO( 95): aszinkron (93: Pentium, 66 MHz. RAM sebesség: 66 MHz) -SDRAM ( 96, 200Mhz) DDR( 00, 400 MHz) DDR2( 04, 800 MHz) DDR3( 07, 1600 MHz): szinkron (ez a kettő párhuzamos. 4 évente duplázódott a sebessége a RAM-oknak) 2. generációs szuperskalároknál jelenik meg. Szinkron: nem vár visszajelzést, tudja, hogy megkapják az adatot. -DRDRAM ( 99) : dupla sávszél az SDRAM-hoz képest Merre menjünk tovább? Intel Pentium 4 fejlesztése: 2000 Arra tettek, hogy a DRDRAM-ok fognak bejönni, hibáztak. Ez volt a rossz irány hiába a nagy sávszél, nagy az elérési idő is, 2 éven belül váltania kellett Párh. DIMM lábainak száma: ~240, sorosé: ~harmada. Fizikai korlátokat jelent a lábszám, csatornák száma max2 párhuzamos esetén, soros esetén ~ 4-6 -> kapacitás, a sávszélesség meg tud nőni. A soros kapcsolat biztosabb. Nagyobb frekvencián a kapacitás korlátozódik (DIMM-ek száma (2-3)). FBDIMM esetén akár 256 Gbyte is lehet egy alaplapon. DDR: kb. 240 lábbal rendelkezik. Soros kapcsolatú RAM-ok nem elterjedtek, nem a PC-kben használják

62 2 fajta elérési idő: chip (memóriakártyán) szintű és memória (rendszer)szintű elérési idők. A rendszerszintű elérési idő jóval nagyobb (chipek a kártyán -> BUS -> Északi híd FSB-> CPU). Rendszerszintű elérési idő: a memóriaegység elérési ideje. Az ábra a chip szintű elérési időt mutatja. Első IBM PC ~5 (4,7) Mhz-el ment -> 200 ms. 26 év alatt csak 1/10-ére csökkent az elérési idő

63 Rendszerszintű elérési idő lassan csökkent, kb. harmadára 25év alatt 1000xórajel frekvencianövekedés mellett, nagy probléma. RDRAM (Rambu sdram, DirectRambus DRAM, DRDRAM): Dupla hosszú elérési idejű, de nagy sávszélességű rendszerről van szó (ezt mutatja a csúcs, 120 és 210). Intelnél több millió dolláros befektetés. 28RAM lemaradását mutatja az ábra. RDRAM: Rambus DRAM (DRDRAM).Egyre több ciklust kell várni, hogy az adatok megérkezzenek (akár 1000 t is). Vízszintes vonal: a CPU és a RAM azonos frekvencián működtek. Az Intel a P4 et először RDRAM-mal hozta be (2000). Ezt a világ nem fogadta jól, mert ezek hosszú elérési idejűek; 2002 környékén SDRAM-okra tértek át

64 Relatív sávszélesség: RAM Olvasási sebesség / frekvencia. Először 66/66=1. Utána: 0.5, PC-100esetén 100/500=0.2 stb. FPM: Fast Page Mode RAM PC-800D: RDRAM, Rambus A relatív sávszélesség nál beállt, jobbat nem tudtak elérni. Manapság feljebb lehetne húzni vonalakat, y=0.5 fölé és x=2.5 körül 3.0 GHz-nél óra frekvencia leállt, de a RAM fejlődése nem

65 Pentium: 66 MHz (FSB) FSB növekedése körülbelül megfelelt a memória sebességnövekedésével, mert azonos fizikai korlátokkal (átviteli vezetékek fizikai jellemzői áthallások, zajok, lezárások..) rendelkeznek. 0.2 környékén stabilizálódott ez is. Ma már nem korlát az FSB ban AMD-nél eltűnt az FSB mert a RAM vezérlő bekerült a CPU-ba, 2008banaz Intel Nehalembe is bekerült

66 Willamette: 42millió tranzisztor Northwood: 55 millió tranzisztor - Hyper Threading megjelenése (DEC Alphától vették át, a fejlesztőikkel együtt. Eleinte titkos) Prescott: 125 millió tranzisztor 64 bit megjelenése (Eleinte titkos) A cache igényli a legtöbb tranzisztort. L1 cache jellemző mérete: K,elérési idő: jellemzően 2-3 ciklus. Ha nagyobb lenne a cache, lassabban lehetne elérni. L2: 1 Mb környékén. Prescott: 64 bit. Ezt sem jelentették be, csak aktiválták a későbbiekben. Gyanús volt: 55 millió tranzisztor helyett 125 millió tranzisztor, ebből jöttek rá, hogy valamit eltitkolhatnak. Prescott esetén 7-ből 23 lett az L2 elérési ideje (kapacitás miatt), L3: az L2 két-háromszorosa (40-60 ciklus) => A memória lassúságának kompenzálására bevezetett cache sebességével is gondok vannak!

67 Hatékonyság mérése SPECint_base2000/f c. X tengely: frekvenciaskála! A hatékonyságot az L2 cache növeli, viszont a frekvencia miatt csökken. INTEL Dir: Directconnected, saját busz, nem FSB-rekötött L2. On-die: chipre integrált L2. PC-133 : RAM sebesség ATA-100, SCSI-U2W : háttértár típusa, sebessége Pentium II nagy újdonsága: fixpontos SIMD Pentium III nagy újdonsága: 1999-ben jött ki multimédia támogatással: lebegőpontos SIMD (3Dgrafika, 3. generációs szuperskalár) Coppermine ugrása az on-die miatt, de rögtön csökken, ha nő a frekvencia. Pentium 4: 1,4-1,5 GHz en jött ki, 400 Megatranszfer / s. FSB: 100, 4 egység / ciklus Northwood: ugrás a cache duplázódása (256 -> 512) miatt. Prescottmag: 1ML2. HT= HyperThreading. Northwood-ban jelent meg. Irwindale: L3cache megjelenése, ezzel 0.6 lett a hatékonyság. Összegzés: A hatékonyság meredeken zuhan, ha növeljük az órajel frekvenciáját. A Pentium 4 hatékonysága minden újdonság ellenére elmaradt a PIII tól, a HyperThreading általános célú alkalmazásokban alig hoz valamit

68 AMD Athlon: ~ Pentium 3-nak felel meg Athlon XP: P4 környékén vezették be, az elnevezés megváltoztatása is itt jelenik meg: konkurenciához viszonyítva(pl. AMD Athlon XP1500+). Palomino mag, 2001-ben jelent meg. Athlon64: 2003-ban behozták a 64 bitet, az on-chip memória vezérlést és a CPU-k összekapcsolását lehetővé tevő buszokat (DirectConnection..). Athlon 64: desktop neve, Opteron: szerver változat. Korábban vezették be a DDR-t (200 MHz FSB).On-dieL2 esetén a hatékonyság drasztikusan esett. Oka: rossz tervezés: L2 sávszélessége túl kicsi volt (Itt nem a sávszélességet ölték meg (Rambus DRAM), hanem pont fordítva). Ezt helyre tették, ezután ugyanolyan vonalak az ábrán, mint az Intelnél. Hatékonyságban az Athlon 64 megkétszerezte az akkori Intel P4 ét.(teljesítmény megegyezett, de az AMD feleakkora órajelen tudta hozni ezt az eredményt.( IPCeff = Pa/fc ) Barton vitte fel 0.5 környékére 32 biten a hatékonyságot, 64 bites Opteronnal felvitték 0.6ra. ->2 világ: Intel: nagy frekvencián megy, de alacsony teljesítmény AMD: alacsony frekvencián megy, de nagy teljesítmény

69 Azonos rendszer esetén a hatékonyság a frekvencia emelésével leesik. Az architektúra fejlesztésével (L2 méret, FSB, sávszélesség növelés, ) nő. => A hatékonyság fűrészfogas mintázatot mutat Intel: Növeljük a frekvenciát, hatékonyság mindegy AMD: Hatékonyság is növekedett, de ekkor nem ez volt a vásárlási szempont Intelnek bejött, de Prescottal koppantak, mert nagy frekvencia magával hozta a disszipációt ( disszipációs fal). A2.2 GHz-es AMD teljesítménye körülbelül megegyezik az Intel 3.4 GHz-es modelljével

70 Intel Core2 (2006):Pentium M-re alapozott, amit a PIII-ból fejlesztettek ki (disszipáció csökkentési politika, mobil szegmens)

71 Ez a kedvenc témám Sima Szóval FONTOS!!! Chip - aktív tranzisztorok -> dinamikus disszipáció - passzív tranzisztorok -> statikus disszipáció Kapacitást fel kell tölteni, ezt órajelnél lehet, és ki is kell sütni (ellenálláson). Van egy tápfeszültség, U (órán: V ). Van egy szórt kapacitás, C. Q töltés jelenik meg a kapacitáson. Levezetés: Q= C*U = I*Δt. Δt =Δt/2 (1óraciklusalatt történik meg a feltöltés és a kisülés is -> fél-fél órajel). Δt = 1/fc Q = C*U = I* (deltat / 2)C*U = I/(fc*2)C*U*fc*2 = ID = P = U*I = C*U^2*fc*2 A feszültséget csökkenteni kell, hisz ettől négyzetesen függ! Pentiumban 5 V a feszültség, később 3.3V. Manapság 1V. A korlát az órafrekvencia, mert kisebb feszültség kisebbet pumpál, lassabban tölti fel a tranzisztort, a felfutó görbe túlságosan elnyúlna, ezért nem lehet a végtelenségig csökkenteni a feszültséget. Statikus disszipáció csak zárt kapuk esetén. Szivárgási áram * feszültség. Dinamikus: feltölt-kisüt. Csak a nyitott tranzisztoroknál jelenik meg. FONTOS: a kettő összege a disszipáció. Észre kell venni a terhelést, meghatározni mekkora frekvencia kell ehhez, kell egy hardver amit be lehet állítani teljesítményre, frekvenciára. Vizsgálják, hogy adott U feszültségen mennyit tud a chip, folyamatosan csökkentik, amíg az éppen elvárt f c -t tudja

72 Fajlagos disszipáció: négyzetcentiméterenként hány Wattot kell disszipálni. Intelnél ténylegesen kb. 1 cm^2 a terület, ezeket az adatokat így könnyebb értelmezni. 20Wfelett már kell hűtés. Prescott: 103 Wattot kell eldisszipálni 1 négyzetcentiméteren, a léghűtésnek ez a fizikai hatása. Y tengely logaritmus-skála! P5: Pentium, P6: Pentium Pro, Klamath: Pentium II, Katmai, Coppermine: Pentium III

73 2004 májusában a P4család 2000-ben bejelentett 2 tagját (4 GHz) visszavonták, a disszipáció miatt. A P4 családot 2010-ig tervezték előre, 10 GHz es frekvenciát jósoltak akkoriban neki, de ezt is vissza kellett vonni

74 Statikus és dinamikus disszipáció aránya. Y tengely a disszipáció (din + statikus) logaritmikus skála (1:100) Vörös: dinamikus, 1-estől picit nő (Oka: tápfeszültség csökkent a háttérben) Zöld és narancs: szivárgási áram Kék: csíkszélesség, csökkent nagyban, ez az oka a szivárgási áram. Kb táján hőfal!! Arányok: 1995:2. generációs szuperskalároknál: 1:10000, elhanyagolható méretű volt a 90es évek végéig. DE! nagymértékben nőtt a statikus disszipáció, 2005 körül azonos értéket vett fel dinamikussal (Prescottnál). Dinamikus szinte ugyanakkora maradt, mert a tápfeszültséget folyamatosan csökkentették -> nem emelkedett meg drasztikusan.. Statikus: szigetelőréteg egyre vékonyabb -> I leak egyre nagyobb. Megoldás: jobb szigetelés kell, High-k dielektikum. Erről ad képet a következő dia. Órafrekvenciát lekorlátozza a disszipáció, más módot kell találni a teljesítménynövelésre

75 Fémkapu szerepe: növeli a térerőt, gyorsítja az elektronok áramlását. Fontos a két számadat! SiO2: szilícium-dioxid Jelenlegi technológia. Magas k alapú szigetelő alkalmazása csökkentette a disszipációt, szivárgási áram kezelése fémkapukkal kiegészítve gyorsította a tranzisztort

76 Két út van: 1.Aktív állapot teljesítmény kezelése 2.Passzív állapot elősegítése Ábrán a távolság ~10 cm. 8 bájtos átvitel (64 bites busz szélesség, 64 vezeték) Egyik ok: Késleltetési időkülönbség: skew. Fellép adott távolság megtétele után egy vezetéken. Mivel kapuzott szinkron áramkörök, ez problémát okozhat. Ha eléri az órafrekvencia ütemét, nem kezelhető. Ez okozza a frekvenciakorlátot. Másik ok: Buszok terhelése nem azonos, kapacitáskülönbség. Nagyobb kapacitású lassabban töltődik fel. Harmadik ok: zaj és áthallás jelenhet meg, ez feszültségként jelenik meg, félreérthetővé válik. A vezetékek hossza NEM azonos. Prescott alapú alaplap, ami érdekes: a vezetékek hosszainak mesterséges és szándékos meghosszabbítása (kompenzálás a tervezés során). Nem az igazi megoldás, ami az igazi: soros buszok

77 Jelek megvalósítása lehet: - Egyik módszer: 0 és +5 V például (szennyezés problémát okozhat) - Másik módszer: pl. 2.5 és 7.5 V (itt 5Va viszonyítási érték). Jobb megoldás, de lehetne még jobb is. - Harmadik módszer: Nem a földhöz mért feszültségről beszélünk.2 darab vezeték kell hozzá. Szimmetrikus jelátalakítás. Nagyon gyors (Néhányszáz ma amplítúdó miatt), zavarérzéketlen (mert mindkét vezetékre hat, és ez kiesik). Lassú busz pl: USB (sokkal kevesebb vezeték kell hozzá, mintha párhuzamos lenne => olcsó) Példa a párhuzamos-soros technológiabeli különbségre (pl. merevlemez csatlakozó): Párhuzamos: ATA nagyobb helyet foglal, lassabb Soros busz: SATA kisebb helyet igényel, gyorsabb. Növekvő frekvenciákon csökkenő teljesítménynövekedés

78 Első ágat lezártuk. Esetleges mellékút a második ág. (83-)87-88: VLIW processzorok. Bukás oka: gyökeresen új ISA kell(új alkalmazásokkal), nem volt támogatása

79 :Elbocsátott fejlesztők az IBM-hez és a HP-hoz vándoroltak.32 bites x86-> 64 bites IA- 64volt a terv. EPIC: ugyanaz, mint a VLIW + szuperskalárok előnyei (elágazásbecslés, cache kezelés, stb..). 99-re ígérték be Merced névvel. Két évet késett, csőd volt, rá egy évre föltupírozták, majd növelték a frekvenciát ban Monte Chito 2 magos 2010-ben Tuqvilla 4 magos Itanium Itanium: teljes bukás, megdöbbentően gyenge hatékonyságú, alacsony teljesítményű

80 Fajlagos teljesítmény. MT: megatranszfer. Itanium frekvenciája~800 Mhz (FSB: 133 MHz), P4: 1.5 Ghz. Fajlagos teljesítménye a P4-nek: 0,4. Itanium2 későn jött ki, keveset tudott -> csőd volt. Többprocesszoros rendszer, megbízhatóság. IA-64helyett az x8664 bites kiterjesztésére lett igaz a korábbi előrejelzés

81 Először azt hitték, 1 év alatt 10 milliárd dollár lesz a bevétel. Később két évet adtak a 10 milliárdnak, és ahogy telt az idő, egyre többet. Lila görbe: amikor behozták. 3 évet adtak. A valóság még rosszabb lett. 8 processzoros, speciális rendszerekbe szorult ki. Semmi esélye nem volt, mert az általános célú alkalmazásoknál az elérhető maximális párhuzamosság ~4-5. Nem bukott meg, csak a piacon feljebb szorult. Bezárult a fejlődés: 1 magos gépek vége

82 Eleinte nem így volt, 3 különböző piac: - futószalag szélesítése, többlet tranzisztorok - Core Enhancements, elágazásbecslés - cache, Lvl2, Lvl3 cache megjelenése Osztályai: - homogén rendszerek a, konvencionális homogének:felépítésben megfelelnek a korábbi rendszerekhez b, 8 mag felett a régi technikák nem használhatók. Chipen implementált kapcsolóhálónak másnak kell lennie, gyűrűs rendszer, sokmagos rendszereknek hívjuk (ez több mint a többmagos rendszer ) - heterogén rendszerek: master/slave: van mester processzor és szolga processzorok, a mester processzor vezényel, ő osztja ki a feladatokat, utasítás feldolgozás a feladata, ő ütemez, szinkronizálja a végrehajtást. Vannak gyorsítók, CPU-processzor, GPU-gyorsító (gyorsító lehet többféle a GPU az a grafikus). A CPU kapja meg az utasításfolyamot, ha oylan feladat van amit nála valamelyik gyorsitó gyorsabban old meg, akkor azt arra küldi

83 Rendszerek státusza: szerverekben már elértük a 8 magot, váltás lesz, az ennél több magos rendszerek csak kísérleti rendszerek, még nem tudunk vele mit kezdeni, még kutatás folyik. Gyorsítóval csatolt rendszerek: 2-6 processzortól használatosak a GPU-k, elsőként nem csatolt processzorként, hanem kártyákon jelentek meg (NVIDIA, AMD-Ati). Összegezve: Általános célú alkalmazásokban az utasításszinten rendelkezésre álló párhuzamosság a második generációs szuperskalárok megjelenésével már a 90-es évek derekán kimerült. Az ezt követő közel egy évtizedben a processzor teljesítmények fokozásának színtere az órafrekvenciák intenzív növelése lett, de az elmúlt néhány évben bizonyossá vált hogy ez az út az órafrekvenciák növekedésével egyre világosabban kirajzolódó három korlát miatt tovább már nem járható. A hatékonyság növelését célzó hardver többletráfordítások egyre csökkenő mértékben térülnek meg, a fokozódó disszipáció mértéke túllépi a léghűtéssel kezelhető tartományt és a párhuzamos buszok egyes bitvezetékei között fellépő futási idő különbségek (skew) egyre inkább megközelítik a ciklusidőt és így bekorlátozzák a buszfrekvenciát. Más megfogalmazásban: a processzorteljesítményeknek az órafrekvenciák intenzív növelésére alapozott stratégiája az elmúlt években hatékonysági, disszipációs és buszfrekvencia növelési korlátokba ütközött. E változások hatására a fejlesztések színtere az utasítás szintről a szálszintre tevődött át, az órafrekvenciák növelése érdekében alkalmazott hosszú futószalagokra (20-30 fokozat) alapozó processzorokat szükségszerűen felváltják a közepes (10-15) fokozatszámú, alacsonyabb órafrekvenciájú, lassabb de hatékonyabb mikroarchitektúrájú többmagos processzorok, míg a párhuzamos processzorbuszokat a sebességkorlátok elérése miatt, ill. a párhuzamos periféria buszokat a ráfordítás csökkentése érdekében kiszorítják a gyors, egyszerűen skálázható soros buszok

84 Többmagos/sokmagos processzorok 2010 őszi félév Felépítés:

85 Ismétlés: Moore törvény. Tranzisztorok mérőszáma: n*százmillió, n*milliárd

86 Moore törvényhez érdekesség: a várakozásokhoz képest folyamatosan alulteljesített, ezért többször is újra lett fogalmazva a törvény (1975 Projection vs. Microprocessor)

87 Csak egyféle értelmes felhasználása van a többlet-tranzisztoroknak: több CPU mag! Három ok van, amiért nincs más megoldás: 1.Szélesség növelés: általános célú alkalmazásoknál max. 4-5x a kihasználható párhuzamosság 2.Magok okosítása: 1-2%-os gyorsítás elérhető csak el vele 3.Cache fejlesztés: csak ciklusoknál segít (ráadásul minél nagyobb a mérete, annál nagyobb az elérési idő is)

88 Kérdés: Kell-e ez a sok mag? Minek kell, melyik alkalmazásnak? 2 mag van most általába, minek stb.? Ha nem kéne több az Intel meghalna -> ki kell találniuk alkalmazásokat, amelyekhez szükség van sokmagos processzorra

89 Homogén: általános célú magok többszörözése, heterogén: speciális, dedikált magok. A hagyományos többmagos és a sokmagos CPU k közti határvonal: ~8 mag. Ennek oka: a kapcsolódó hálózatok; az elvi működését 8 mag felett meg kell változtatni (mennyiségi változásból minőségi változásba vált át) - Conventional MC processors: korábban megismert egymagos világ továbbépítése - Manycore: Másik logika, itt lehet experimentálni, publikálni, egyetemeknek jó Heterogén: - Master/slave: 1 master, n slave. (végét járja) - Add-on(csatolt, más néven co-processor): általános célú CPU + speciális mag (pl: GPU, kriptográfia, lebegőpontos műveletvégző, stb). Régebben ilyen volt a 386, lebegőpontos co-processor ral. Van egy főfolyam (utasítás feldolgozó) és van egy sereg specialista, ha valaki gyorsabban meg tudja oldani a feladatot akkor oda megy a feladat. Nem kell teljesen szinkronizálni csak régiónként -> hatékonyabb Sokmagos CPU: kísérleti világban jellemző (később lesznek példák). HPC (High Performance Computing): számításigényes feladatok. Fontos rövidítés! Desktopok-szerverek: adatközpontokban Sokmagosak: kísérleti világban Master-Slave: működő rendszerek, speciális célokra Add-on: a jövő a csatolt processzoroké (speciális alkalmazásokra)

90 Ismétlés: Szerverek esetén beszélünk UP, DP, UP (Uni-, Dual-, Multiprocessor) típusokról. A hagyományos CPU k előfordulása: Mobil gépek (laptopok), desktopok, szerverek

91 Intel többmagos MP szerver processzorai: P4-től kezdődően 2 évente 2 családot publikálnak. P4 teljesen más fejlesztés, kitűnik a sorból. 3.oszlopban 1. rész: Hány magot tartalmaznak. p4: 2X1 magos: olcsóbb, de kevésbé hatékony. 3.oszlopban 2. rész: cache architektúra Penryn: 2 magonként közös L2 cache Nehalem (ejtsd: Nehálem): L2-t emelik 24 MB-ra Következő processzornak 7600-asnak kell lennie eszerint a logika szerint

92 Core2 szélessége: 4 (AMD: 3 => 1/3 al több). További előnye: behoztak több feldolgozó egységet (főleg MM) -> P4 hez képest nagy fejlődés. A dián a Core a processzort jelenti!!! Platform = CPU + chipset (processzor + lapkakészlet)

93 NB: North Bridge A fejlődés során a mennyiségi változás minőségi változásba alakult át. 2005: FSB-re rácsatolták a 4 darab egymagos CPU t. NB: NorthBridge. 2006: magszám növelés; sávszél növelés, már az előzőnél is szűk keresztmetszet volt az FSB, most kvázi 8 CPU lenne rajta => 2 FSB kell hozzá, de a RAM is igényelte ehhez a változtatást. A transzferrátának van egy maximális értéke, a fő oka ennek: a jelterjedés. 66 MHz => 100 MHz (400 megatranszfer). Nehéz a jelek dekódolása (kevés az erre fordítható idő). További probléma: ha nem zárják le a vezetéket a hullám impedanciájával, reflexió is megjelenhet, a vételt lehetetlenné teszi. DIMM-ek növelik az impedenciát. => a sebesség bekorlátozza a transzferrátát. A DIMM-ek száma is bekorlátozódik. Régebben volt 8-6-4, de re csökkent! Megoldás: Párhuzamos buszok helyett soros buszok használata. Az átalakító, amit ehhez használnak: XMB. (ennek a neve nem fontos. Ismétlés: lábszámok: DDR: 240 pin, északi híd (3*4 cm): 480 pin a RAM hoz (+ FSB-hez, VGA hoz, déli hídhoz). Soros busz: ~80 pin, 4 csatorna is ráfér.) 2007: minden CPU hoz külön FSB (eddigi 2 db => 4 db). FBDIMM (Fully Buffered DIMM) : szabványos (ipari jellegű) megvalósítása a párhuzamos-soros átalakításnak! Az FBDIMM2 előnye: a lábszám csökkentése (=> csatornák számának növekedése) és a DIMM ek(foglalatok) számának növekedése (1-2 => 6) a soros-párhuzamos átalakítás miatt. Kapacitásnövekedés figyelhető meg a DIMM-ek száma miatt. Következő lépés: felejtsük el a párhuzamos FSB-ket

94 Esettanulmány, elméleti ábra (rendszerarchitektúra). A következő dián a valós példa. 4 CPU külön FSB n keresztül kapcsolódik, 4 memória csatorna (8-8 DIMM: 512 Gb, 16 Gb/ DIMM). PCI-E kimenet. MCH: északi híd. -

95 A különbség: 8-8 helyett a valóságban 6-6 DIMM(összesen 24) van beépítve, maximum 8 Gb/ DIMM. 4 csatorna * 6 DIMM* 8 Gb= 192 Gb. P4: első magnak nem volt SMT-je, többinek igen Core 2 elhagyta az SMT-t (mert siettek vele) Nehalem újra behozta. Integrált memóriavezérlés, QPI

96 - Kétirányú a kapcsolat, - Bitenként két vezeték kell (gyors sebességnél), - Differenciál átvitel történik (néhány száz mv váltás), - Összes vonalszám: 80. Magyarázat: A sávszélesség (a processzor teljesítménye miatt) = busz sebessége * adatút szélessége. A sebesség elérte a maximumot, a busz szélességét kell növelni, az optimum: 20. => *2 az átvitel miatt, *2 a két irány miatt => 80 vonal szükséges (+4 az órajelnek) Egy processzornak van 4 linkje, ezen keresztül tudnak kapcsolódni egymással. Külön memóriavezérlőt tartalmaz -> könnyen skálázható a memóriakezelés

97 8 magos kialakítás, 16 szálat képesek kezelni, 2 integrált memóriacsatorna

98 3 dolgot szükséges kiemelni: - AVX - Tartalmaz egy grafikai motort - kapcsolóhálózat gyűrűs ( csille sorok, ebből vesszük ki az adatokat Turbo Boost: Ha van 4 magom, akkor van annak egy maximum disszipációja ami belefér adott teljesítményhez, ha viszont csak egy mag aktív akkor annak lehet emelni a frekvenciáját, anélkül h a disszipáció túl nagy lenne. Ez a végállomás ma!

99 2003-ban indult el az ág. HT: Hyper Transport cht: coherent Hyper Transport

100 AMD platform AMD késlekedett, infrastruktúra késleltetve követte a processzorokat. Opteron: K8mag (2003). 64 bit és memóriavezérlő a CPU lapkán, soros buszok

101 - Direct Connected Architecture: Közvetlen kapcsolódás másik processzorhoz vagy memóriához. Például egy CPU 2 másikhoz kapcsolódik, plusz az I/O hoz. - Két csatornás RAM kapcsolat (vastagabb fekete vonal). Skálázódik a memóriacsatornák száma a CPU k számával (2 csatorna / CPU => 4 CPU esetén 8 csatorna). RAM vezérlő a lapkán. - Soros busz megjelenése. Intel: Nehalem architektúra (Corei3, i5, i7): ugyanez, csak 3 helyett 4 link (AMD: K10). Jellemzően 3 memóriacsatorna. 64 bites architektúra. QPI (Quick Path Interconnect): a kapcsolóhálózat elnevezése

102

103 Nagyon gyorsan változik a világ, nem tudni meddig halad a magszám

104 + Single Chip Cloud Computing 2009 decemberében visszavonták 2009-ben visszavonták. Oka: 1-2 Tera teljesítményű volt, de kijöttek új processzorok, amik ennél nagyobbal jöttek ki

105 - x86 alapúak bites SIMD kiterjesztés (512 bitet tudnak egyidőben összeadni) - 4 szál, Multi Threading. - Koherens L2 cache: odafigyelnek rá, hogy mindig a legutolsó beírt értéket kapja meg, aki kéri. 512 Kb. Ringbus: a kapcsolóhálózat. 2 db bus, mindkét irányba 1-1 kommunikál. Minden mag forrás vagy nyelő, rendelkeznek egy-egy elosztó áramkörrel. 2 feladata: kiveszi, ami neki kell, és gondoskodik arról, hogy a másnak küldött csomagok a megfelelő helyre kerüljenek bele. RAM vezérlő is ezen keresztül kommunikál, és ha van speciális-dedikált egység, akkor azok is ezen keresztül kommunikálnak egymással

106 Kialakítási alternatívák: - GPU orientált Larrabee alaplapja (publikálták, de nem lehet tudni, megjelenik-e) GPU-k adattal való ellátása nehéz dolog: sávszélesség bites. GDDR: 32 bitesek grafikai memóriák (kisebb, de gyorsabb) 8 csatorna, hogy ezt a sávszélességet produkálni tudják. DIMM: 64 bitesek egyéb, hagyományos (nagyobb, de lassabb). - HPC célú. Kiérlelődött, kiforrott, működő rendszer. Minden mag mindenkivel kommunikálhat, memóriavezérlő on-die. CSI: soros busz (AMD: HyperTransport), a QPI elődje (csak máshogy nevezték). ICH (I/O ControllerHUB): Déli híd

107 Csempézett, 80 magos processzor 8*10 es kialakítás, csempénként 5 link (router)

108 3 Kbyte utasításmemória (hol a nagy memória??) -> NINCS memória controller, memória kicsi, disztributált. 2 lebegőpontos egység 32 bites, és ez minden, nagyon egyszerű rendszer. A feldolgozó egység nem annyira fejlett (kapcsolóhálózatokkal játszanak.)

109 256 utasítás áll rendelkezésre Semmi osztás, korlátozott elágaztatás, semmi compiler ( Itt a hardver, nesze játssz vele ), kis utasításkészlet. Csak egy néhány speciális feladatra használható, semmi szoftvertámogatás

110

111 Tanulság: Talán érdemes sok tranzisztor egy részét On-die memóriaként alkalmazni, ezzel kiküszöbölhető sok holt idő - Vigyázni kell a kommunikációra (message passing), gyors kell

112 2009 decemberében jelentették be, feltételezve mert a Larabee-t akkor vonták vissza. Felkínálták egyetemeknek, hogy használják. Fejlesztés Németországban és Indiában. 48 mag, üzenet közvetítések Ha shared memory akkor cache tartalmának koherensnek kell lennie egymással! 24 csempe, van memória controller, 1,3 milliárd tranzisztor

113 6 oszlop, 4 sor rács, rácsok közt routerek Csempében két magot találunk: P54C Pentium mag (mint Larabee-ben) 16 Kb adat és utasítás cache CC : Cache Controller 8Kb üzenet puffer

114 Ez már egy használható rendszer

115 Nem használnak cache koherenciát, helyette más van

116 Ki kell emelni itt a disszipációt: Külön kell frekvencia sziget és feszültség sziget, hogy tudjuk szabályozni őket külön, el tudjanak válni a többitől. Ennél a rendszernél 8 feszültség sziget van és csempénként más frekvencia. (FONTOS)

117 Működéséről: van egy közösen használt off-chip memória magonként L1, L2, van saját üzenet buffer Kommunikáció: Berakja saját pufferébe amit küldeni szeretne, átviszi a másik pufferébe, az kicsomagolja és elolvassa

118

119 Eredetileg a PS3 gépekhez készült (2000), később kiépítették, mint egy blade-et. PS3-ba rengeteget adtak el (tízmilliós nagyságrend), blade-be néhány tízezret => QS : sokat nem hozott a PS3 hoz képest.5-7 év fejlesztői munka nagyon sok!

120 VMX: az IBM-nél így hívják a SIMD et. Power architektúra. EIB az egy ringbus. Kétcsatornás memóriavezérlő. 64 bit. 512 k cache 8 db SPE(szolga) bonyolult felépítéssel. Szolgák felépítése: - Önműködésűek LS (Local Store): csak ebből képesek programot végrehajtani/adatot lehozni -> saját kis memóriájuk van, a mesternek kell felprogramoznia őket (beletenni a memóriájukba) - Működés: 1. Be kell tenni az adatot és a programot a lokális tárba 2. meg kell szólítani, induljon el 3. szolga szól, hogyha kész (signal, olyasmi, mint a megszakítás az I/O nál) vagy pedig beteszi egy postafiókba (nem a lokális tárba!), és a mester kiveszi belőle (adott idöközönként vizsgálja) - Mindent a mester szervez - Rambus XDRAM (QS21-ben már DDR) Mester: Teljesen közönséges CPU. DMA kapcsolat a szolga és a mester között. Nehéz programozni

121 QS20: Rambus memória: a grafika miatt (sávszélesség), hiszen eredetileg PS3 hoz csinálták. QS21-nél ezt felváltotta a DDR. Minden műveletet szinkronizálni, menedzselni kell => nehéz programozás Felépítésen látszik: 512 L2, mester, szolga, RAM és I/O kapcsolat, kapcsolóhálózat

122 EIB: 2-2 darab ringbus. 96 byte/ciklus (~0.1 kb) sávszélesség (16 byte / ringbus). Az ábrán látható még a kétcsatornás memória és az IO vezérlő

123 Egyidejűleg több paralell kapcsolat lehet. SP: SinglePrecision, szimplapontos. Lényeg: 0.4 TF sebesség. Roadrunner: Peta flops teljesítmény. Ennek volt a Cell egy alkotóeleme ben hódította el a címet a Jaguar: 1.75 Teraflop sebességgel. A Roadrunner a második

124 7000 Dual-core Opteron (LS21Blade) Cell (QS22Blade). ~4 MW teljesítményfelvétel

125 Shadereken keresztül történik a grafika megvalósítása. Shadermodellek: szabványok. Fontos: Shadermodell 4 (2006): univerzális, egységes shader modell. Azonos adattípusok, azonos utasításkezelési rendszer -> azonos hardver használata különböző shadermodellekhez. Ettől kezdve jelentek meg olyan processzorok, amiben rengeteg lebegőpontos műveletvégző van. ATI a vezető, AMD felvásárolta. Intel fel akarta vásárolni az nvidiát, de az nem hódolt be. => AMD és nvidiaa két nagy cég

126 Az ábra csalóka: grafikus kártya 1 TFLOPS-ot tud, de ez szimplapontos lebegőpontos művelet! A GPGPU k 32 bitesre vannak kialakítva: Az SP elegendő a térbeli pontok megadásához. Tehát tudják a 32 bites FP t és a bites FX et (3*8 bites RGB komponensek). Intel: 64 bitre van kialakítva tól kezdve nagyon sok ALU került a processzorokba. (lásd később)

127 Sávszélesség: 10 és 100 Gb/s (CPU nála felületet döntően a cache viszi el, míg a GPGPU ban lényegében az egészet a számítási teljesítményt támogató processzorok töltik ki (következő ábrák). Nem egészen jó ábra, de jól néz ki ( Móricka ábra ) Cache több, mint a felét elfoglalta a CPU-nak. GPU-ban a cache szerepe kisebb, ha a memória nem érhető el, akkor többszálúsággal oldja meg

128 Most kezd elterjedni, mert a szoftverháttere most kezd kirajzolódni. 16 magja van, magonként 32 ALU-ja. Mindegyik ALU 32 bites, támogatja a duplapontos lebegőpontos műveletet, és az ezzel való számolás a szimplapontos fele!

129

130 Közösen használt L2 cache. Grafikai memória, gyors, 32 bites. Jövő: rá kell tenni a lapkára a GPU t (mindkét cég belátta)

131 Intel Nehalem: nm, 3 (DP) vagy 4 (DP-MP) csatornás ram

132 Pentium 4, Core2, Nehalem (pl. az ábrán: Havendale és Lynnfield), Westmere Kiemeltük: Havendale: Kétmagos CPU (Dual-Channel, PCIe, GraphicsCore): bejelentették, majd vissza is vonták. 45 nm helyett 32 n hozták ki, Clarkdale lett az új neve. A négymagos Lynnfield kijött 45 nm en, ahogy eredetileg bejelentették

133 Arra várunk, hogy a grafikus kártya rákerüljön a procira

134 Az irány, amerre halad a fejlődés: Sok master és sok slave (példa: CellQS sorozat. Roadrunner Cell Blade is van benne) Sok CPU és sok dedikált mag (példa: nvidia: G200sorozat. ATI/AMD 9250) 1 CPU 1 csatolt => több CPU -1 csatolt => több CPU - több csatolt Jövő tehát: több mester több dedikált processzor

135 GPGPU - Data Paralell Accelerators 2010 őszi félév

136 GPGPU: Általános célú grafikus processzorok cgpu: computational GPU GPGPU = cgpu Az ábrázolás háromszögekre épül (n millió), van felülete és élei. Ha le akarjuk íni, akkor mind a 3 rendszerben le kell írni plusz kiegészítő információkat kell hozzáadni. 3D képponthoz szimplapontos lebegőpontos ábrázolás kell. Vertex shaders: Pixel shaderre lett egyszerűsítve, a képpontokat keverik, így leképeződik 2D-re. Fixpontos ábrázolás: 3*8 bit elég (3 szín, 100 árnyalat *8bit elég ábrázolni+, ember ennyit észlel)

137 A 11-es DirectX verzió mára már valósággá vált! 2-es modellben: Háromszög csúcsaihoz lebegőpontos formátum Árnyalatok: Fixpontos formátum Külön formátum, ezekhez külön regiszer készlet és utasítások kellettek: nem túl hatékony. 3-as modellben : Egységesítették a kettőt (FP32 mindkettő) 4-es modellben: Egységes pontosság, egységes utasítás, egységes regiszterek, két ISA egybeolvad - > hardverben azonos eszközöket lehetett használni -> új lehetőség

138 GPGPU-t használják HPC számításra. Csúcs feldolgozó teljesítmény: Gigaflops. Szimplapontos teljesítményre vonatkozik az ábra. Intel rendszerek és NVIDIA GPGPU-k összehasonlítása környékén SM4 nek köszönhetően begyorsult, a csúcsteljesítmény ban1 TF. Manapság 2,7 Tflops (Fermi)! Sok ALU miatt nagy számítási sebesség, ehhez nagy sávszél kell. Ami hátrány az az adatlapátolás a memória és a GPGPU között

139 Lebegőpontos teljesítmény. Mindre jellemző a szeres szorzó (szimplapontos és duplapontos között). Fermi felviszi ezt 0.5 re, tehát 1.3 TFLOPS duplapontos teljesítményre képes. Csak adatpárhuzamosságra vonatkozik ez a teljesítmény (mátrixokkal való műveletvégzésnél) Támogatni kell a RAM oldaláról is: memória sávszélesség: Gbyte / s (Intel processzoroknál: Gb/s). Nagyon széles adatutakkal érik ezt el: pl. 32 bites csatornából 6-8 db (a szokásos 1*64 bittel szemben). Nagy teljesítmény indoka: a cache-eket igyekeznek mellőzni (masszívan többszálú működésűek). A hagyományos architektúrában a cache-ek segítségével csökkentik a hatékony átlagos elérési időt. Itt nagyon sok szállal működnek, és ha egy szál a RAMhoz fordul, elveszem az erőforrásokat, azt átadom egy másik szálnak, stb, és így meg tudom várni, amíg előáll az adat

140 SIMD: Egy utasítással több művelet, egy dimenziós adatpárhuzam. Először fixpontos műveletek, majd lebegőpontos (2.gen szuperskalár 1995). Ehhez kell ISA kiterjesztés és egy hardver. SIMT (T Thread): Egy utasítás többszálú, SIMT nem szabvány elnevezés, találkozhatunk vele másképp is. Két vagy több dimenziós tömbökbe adatpárhuzam kiterjesztése. Kell tudni szinkronizálni a szálakat -> barrier( sorompó szinkron), a szálak megvárják egymást. Ehhez kell ISA kiterjesztés és API-k

141 Adatpárhuzamos végrehajtás, legalább kétdimenziós végrehajtási lehetőséggel. Logikailag Pl8*4 vagy 8*8 adatelemen (tömb) hajtunk végre egy feladatot, fizikai háttérrel. SIMT magok: GPGPU alapvető építőelemei, végrehajtás közben ezekre kell leképezni a (jellemzően 2D) mátrixokat. Alapjául szolgálnak az ALU-k, ezek szimplapontos lebegőpontosak ALU is lehet benne, ezek lineáris elrendezésűek -> a mátrixokat végrehajtás szintjén le kell képezni. SIMT mag gyártófüggő elnevezései

142 Minden mag 1-1 regiszterfájlt kap a működéshez, és abból hozza az adatokat, és abba viszi az adatokat. 3 nyíl oka, hogy ha 3 operandusú művelet van azt is át tudja vinni (Fused Multiply Add). A*B+C nagyon jellemző mátrixoknál

143 Futószalag jellegű végrehajtás (Azt várom el tőle, hogy minden órajelre új utasítást dolgozzon fel). ~2-4 óraciklus után megvan az adat (Fermi: 2, régebbieknél 4) Fényforrások kiszámolásához kell sin, cos, tg műveleteket, ezeket támogatják. Masszív többszálúság: Célja, hogy a cache-ket a többszálúság kiváltsa, alapvetően a megállított szálak esetén a vezérlést új szálak kapják

144 A szálváltásnak null ciklusúnak kell lennie (nem veszíthetünk időt). Kontextus váltásnál mikor nem kell mentés? Ha másik regisztertérben dolgoznak! Van egy sereg ALU, mindnek van regisztere. Minden szálhoz rendelődik egy regiszter tér

145 Induljunk el egy vektorból. Van egy programunk, nézzük meg az alapelemeket. Ha az adatelem 0 akkor ref1 = Ka különben felső ág. Sok adatelem esetén szükségszerűen mindkét ágat végig kell járni! Vagyis amelyre nem teljesül a feltétel azok pihennek, egy ponton viszont bevárják egymást. Első 3 ciklusban azoké akiknél a feltétel teljesül, a többi NOP, utána fordítva

146 Az összes többi utasítást csak ezután hajtja végre (minden ALU-ban) -> szinkronizáció

147 Bal oldalt utasításfolyam, ezt két kódszegmensre bontjuk. Van egy CPU és van egy GPGPU. A CPU az az eszköz, amelyik az utasításfolyamot elvben (valószínűszeg sorosan, egy maggal) végrehajtja, és amikor adatpárhuzamos részhez érünk ( Kernel ), ami blokkokból épül fel (pl. 1 blokk szál), akkor megszólítja a GPGPU-t, adattranszfert végrehajt, és a GPGPU végzi el a műveletet, esetleg adatokat visszaad a CPU-nak. Ezután megy tovább a soros végrehajtás. Hátrány: adattranszferek lassítják. Töltési idő a szűk keresztmetszet

148 Alapvető megvalósítás: GPGPU szintű, gyorsító szintű GPGPU: öszvér, a grafika és a HPC között. Programozható, API-kat kell tudni, tesztelni kell tudni. AMD megvásárolta az ATI-t. NVIDIA nem ment bele abba, hogy az Intel része legyen. Data paralell acc.: kijelző nélküli nagyobb memóriával rendelkező célhardver. Tesla és FireStream családok

149 Nvidia élete nehéz a piacon, de megkapaszkodik. NVIDIA: G80 volt az első használható GPGPU. G80 (az első igazán használható GPGPU) és G92 közt nincs nagy különbség, G200 már van architektúrális változás, utána Fermi (zsugorítás és architektúrális változtatás is történt). AMD: technológiában előrehaladottabb (triviális, mivel jóval nagyobb cég). RV870: 2009 ősszel

150 Kiemelendő 3 dolog: - Komplexitás (tranzisztorszám): G80 700millió, GT200: duplázódik, Fermi: szintén. ~ tranzisztor! - ALU-k száma: G80 ~100, GT200 ~200, Fermi ~500 - Memória adat sávszélessége: bit (32 bit széles, n db csatorna) AMD R500: beépített rendszer, XBOX-ba készült. Nem tekinthető GPGPU-nak (~50 ALU), de egy állomás afelé. R600: ALU-k száma Szoftvertámogatás: CUDA v1, v2 (egymástól lényegesen eltér a kettő! ) NVidia sajátja. Brook+: saját programozási rendszere az AMD-nek. OpenCL szabvány: AMD, NVIDIA, Intel is támogatja, elmúlt 1-1,5 évben érett meg. Mivel szabvány rendszer ezért bonyolult, nehezen programozható, CUDA-t könnyebb

151 2 dolgot kell kiemelni: - Chip felület: 576 mm^2 (~2*3 centi.. Intel CPU: ~1 cm^2) - Frekvencia ~1 Ghz hatékonyan (tényleges számítási frekvencia: 1 GHz felett: 100 ALU 1.2 GHz, elvben 3 utasítás => 346 GFLOPS. Ugyanígy kapjuk meg az ~1 TFLOPS ot is) Elvben : 2 FX, plusz 1: minden 8. ciklusban FP.GDDR5 kicsit gyorsabb, mint a GDDR3. Jellemzően PCI expressen keresztül csatlakoznak Teljesítmény kiszámolható: művelet*frekvencia*alu szám pl GTS: 3*1,2*96 Ringbus <-> Crossbar - Most Crossbar tűnik jövőnek Alap frekvencia Nvidiánál magasabb, de kevesebb ALU, AMD fordítva!

152 Nagyon hasonló az előzőhöz, több mag van, kisebb frekvenciával (1 Ghz helyett 700 Mhz körül) Itt is megvan a több kártya használati lehetősége, csak máshogy hívják. Árak: AMD nagyobb, megengedheti az olcsóbb árat, uralja is a piacot. Intel a nagy teljesítményre törekszik

153 Adatpárhuzamos gyorsítók Két féle implementáció: - kártyás (jelen) - szilicium lapra integrált (jövő) Mindkét gyártó bejelentette, hogy 1 lapkán lesz CPU és GPU (Intel: Nehalem). Mindkettő visszamondta, azt mondják, hogy a 32 nanos technológiával hozzák ki (a nagy tranzisztorszám miatt). Következő évben (2011) fog kijönni

154 Kártya alapú megvalósítás: Kártya, desktop, szerver. (NVIDIA: C-D-S) Kártya (C): PCI-e x16 oson keresztül. Desktop (D): 2 kártya, adapteren keresztül Szerver (S): 4 kártyás, 2 adapter, 2 slot, 2 kábel kell Tesla 1 kártyás rendszer, nagyon egyszerű. 1 processzor, 1 Frame Buffer, 1 host interface

155 2 GPU kell hozzá, PCI Express kapcsoló, adapterkártyán keresztüli csatlakozás a CPU-hoz

156

157 Server: 2 * 2 kártya Az előző kétkártyás megoldást tükrözték, kizárólag mennyiségi változás. nvidia: S sorozat AMD: 9200-as sorozat Kétkábeles csatlakoztatás

158 memória, kapacitás, teljesítmény : kártya -> D -> S 2-szeres különbség! A GFlops, szerintem itt TFlops akar lenni Card: fél Tflops teljesítmény, tranzisztorszám kb. egymásnak megfelelnek az Nvidiával

159 teljesítményfelvétel elég nagy -> erős táp kell A kártyák néhány 100$-ba kerültek, ezek pedig több ezer $!! Céljuk: Nagy számításigényű feladatok, állami intézetekben, bankokban, biztosítóknál pl

160 2,7 TFLOPS a szimplapontos! 20%-a a duplapontos, de így is fél TFLOPS. 544 GFLOPS duplapontos viszont elmarad a Fermitől. ECC: Fermi tudja, ATI nemtudja

161 Egyszerű felépítés. 16 ALU / mag, 5 feldolgozó egység / ALU -> 1600 feldolgozó egység! Felül van egy command processzor, követi egy szál-diszpécser. Alul egy 8 csatornás memória, ezek 32 bitesek. Összesen 256 bit

162 Stream Processor = ALU Újdonság: Idle Board Power: disszipáció csökkentéssel elkezdtek foglalkozni, disszipáció csökkentési technika, így a fogyasztás is csökken ban fele minden paraméter kb

163 Ez a jelen!

164 Jövő: Financial Analysis Date-n mutatják be, hogy mi várható, ebből tudunk következtetni. Y tengely: árszint, X tengely: idő október 12.: kis árszintes, alacsonyabb teljesítményű kártyát harangoztak be november 18.: magasabb árú, nagyobb teljesítményűt Igyekeznek egy olyan családot kialakítani, ahol pénztárcától függően választhat az ember, hogy melyiket szeretné. 2 GPU-ja van (paraméterek * 2), de ennek ára van -> nagyobb lesz, be kell férnie a gépbe

165

166 5800-ast követni fogják alcsaládok > 6990 pl. Iszonyú nagy a verseny, igen gyakran hozzák ki az újakat. 1-2 éven belül új családsorok

167 Teljesítményben sorban egymást követik a családok. Középső oszloptól DX11-et támogatják!

168 1 hét különbséggel jelenti be

169 16 mag, minden magban 32 ALU, 384 bit memória. Itt: core = ALU!!!

170 Egy ALU: - két végrehajtó egység - egy lebegőpontos, egy szimpla 32 bites - 2 órára van ehhez szükség -> fele a duplapontos teljesítmény Előző rendszerbe 3 magra jutott egy cache, most 1-re. L2 cache háromszorosára nőtt, L1-et is növelték. Egyre több tranzisztor, ezért nagyobb a cache

171 Kernel hívja meg a GPU-t. CPU memóriájából be kell tölteni GPU-ba az adatokat és vissza

172 Hiba: 2001 az 2010! GF : GeForce kártya családneve GF110 : Úgy tűnik átveszi a teljesítmény koronát. ATI - Nvidia versenyben a 480-as még alulmarad, 580-tól várják el a fordítást

173

174 Integrált CPU / GPU : Ez jelenthet diszkrétet is: tokon belül de lehet sziliciumlapkára integrált is 2010 november 9.-én jelentik be. Liano: legjobb teljesítmény (DX11) Stars: Régi mag Két új mag: - Bobcat: Új mag, kisebb teljesítmény - Bulldozer : nagyobb teljesítmény

175 Régi mag, de kész. (paramétereket nem kell tudni) Ami érdekes itt az a Mainstream

176 4 magos, alul GPU. Nem lehet tudni, hogy Bulldozer, vagy Stars Opteron 6-12 maggal nő magra. Bulldozer architektúra

177 Lehív Dekódol Integer scheduler: ütemezők FP ütemező 2 db FX mag, megosztott L2 cache

178 Ez az előző ábra részletesebben. BTB : Branch Target Buffer az elágazás-kezeléshez. Icache : Utasítás cache Két szálú processzor, a szálak alig zavarják egymást (erős szálak)

179 Kék: Start Sárga: Prototípus Piros: Kijövetel Kb. 2 év telik el közte

180 Integrált CPU és GPU. i5: Diszkrét integráció: egy tokban vannak, de két Si lapka. 45 nm-es a GPU

181 1-2,5 Ghz Támogatják a Turbo Boost Technológiát: ha nem használunk egy magot, növeli a frekvenciát. Tervezési disszipációs értéket 2 magra határozzák meg erős meghajtás mellett. Ha egyik mag nincs meghajtva, akkor fel lehet növelni a másik frekvenciáját, túlzott disszipáció nélkül. i3-as többet fogyaszt, mint a jobb i7 -> fejlettebb disszipáció kezelés

182 1 év múlva jön ki Full integráció, 1 Si tartalmazza a magokat. Sandy Bridge -> Gyűrűs kapcsolóhálózat (amely először Cellbe jelent meg, majd Larabee-be is betették)

183

184 Alaplapok 2010 őszi félév Felépítés:

185 Első megjelent IBM PC-k, 71-ben jelent meg az első PC, 10 év kellett, hogy megjelenjen az IBM PC. Alap IBM PC: 1981, processzora 8088, 4,77 Mhz, 16 Kb memória, ami be volt forrasztva az alaplapra. Két évet kellett várni míg megjelent az XT 10 MB-os merevlemezzel (1985-ben 1,5M Ft-ért adták el az intézetnek ez mai viszonyításban olyan 30 MFt). ROM: Basic nyelvet tartalmaz

186 Első Compaq: 1982, hasonló volt mint az IBM PC (lemásolták, nem volt nehéz, mivel bárki megszerezhette az IBM dokumentációját). Klónozás jellemző a korszakra, ez az IBM piaci árát leszorította, viszont az alkalmazói programok erre íródtak, ez nagy előny volt nekik. Compaq 286 behozta a lapkakészletet -> alaplap méretének csökkenése -> Baby AT Ezt az IBM vette át tőlük

187 y tengely : méret AT, LPX, Baby AT : ez a 3 típus a kezdeti alaplaptípusok Majd bejön az ATX (gazdaságosság, célirányosság), ezzel egy időben jelentek meg a 2. generációs szuperskalárok, de nincs köztük logikai kapcsolat. NLX, ATX, micro ATX : 2. nagy alaplapcsalád BTX, micro BTX, pico BTX: alaplapcsalád kezdeményezés. Oka: Prescott, ezt készítette elő, disszipáció javítása, hűtési rendszer fejlezstése. De mivel jöttek a többmagos processzorok, ahol nem volt nagy disszipáció ezért feleslegessé vált

188 AT: ISA 92- PCI busz EISA : Extended ISA 32 bit, de működést nem módosította PCI: Intelnek volt szerepe benne 90-es évek végén HUB architektúra

189 PCI: két vezérlő közt helyezkedik el ISA: kompatibilitás miatt van meg PIII környékén: HUB, egészen amíg északi híd integrálódik 1 bájtos memória -> 4 bájtos memória Pentium után jelent meg a 21 bájtos

190 ISA -> PCI -> ATA PII multimédia támogatású -> AGP II. generációs szuperskalár, ATX busz -> ATA, USB, AGP, LPC, AC 97 soros buszok világa: SATA, PCI-E (nem kell tudni az adatokat, csak áttekintés) form factor : alaplap

191 A memória még egy felület, nem kártya. Jellemző CPU: 286 KBD: Keyboard csatlakozó, PC: tápkapcsolat Nagy felület van a vezérlőnek, mert nincs lapkakészlet

192 - CPU: 386 L2 cache 1 bájt széles SIMMek -> memória kártyák

193 . Későbbi Baby AT Megjelent a PCI buszrendszer 8 bites ISA-ra már nem volt szükség memória: 4 bájtos kártyák CPU: 486, Pentium

194 Itt még rendszer és periféria-vezérlő volt, nem É, D híd. Jellemző : Riser Card: lap közepén, ezáltal kisebb lesz az alaplap mérete

195 . gazdaságos, célirányos!! IO szabványosítva : emeletes kialakítású rendszer (következő dia) 1 hűtő rendszer (ventillátoros) Egymás mellé kell tenni a processzort és a tápot és együtt hűteni. Legalább 6 slot legyen (ISA, PCI)

196

197 Méretek összehasonlítva. ATX sokat élt. Kezdeti PCI alapú rendszerek, késői PCI alapú rendszerek AGP megjelenése (MM támogatás PII-höz) Port alapú rendszerek PIII-tól (ÉH, DH) Soros rendszerek