TUDOMÁNYOS ADATBÁZISOK. Dobos László ELTE Komplex Rendszerek Fizikája Tanszék



Hasonló dokumentumok
TUDOMÁNYOS ADATBÁZISOK MA ÉS A JÖVŐBEN. X64 ALAPÚ KISZOLGÁLÓ RENDSZEREK Tudomány Adatbázisok, 1. előadás, (c) 2010

TUDOMÁNYOS ADATBÁZISOK TERVEZÉSE ÉS ÉPÍTÉSE

TUDOMÁNYOS ADATBÁZISOK TERVEZÉSE ÉS ÉPÍTÉSE

Adattároló rendszerek fogalmai. Merevlemez. Adattároló egységek. Diszk = szalag = Merevlemezek paraméterei ADAT MEMÓRIA DISZK RANDOM IO

2. Számítógépek működési elve. Bevezetés az informatikába. Vezérlés elve. Külső programvezérlés... Memória. Belső programvezérlés

A számítógép egységei

6. óra Mi van a számítógépházban? A számítógép: elektronikus berendezés. Tárolja az adatokat, feldolgozza és az adatok ki és bevitelére is képes.

Dedikált szerverhoszting katalógus november

Software Defined technológiák használata Oracle adatbázis konszolidációhoz

Számítógép felépítése

Feladatlap: Számítógép összetevők keresése

Digitális rendszerek. Digitális logika szintje

Bepillantás a gépházba

Magas szintű optimalizálás

Ismerkedjünk tovább a számítógéppel. Alaplap és a processzeor

Mágneses háttértárak

Virtuális Obszervatórium. Gombos Gergő

Redundáns rendszert akarunk Gyors rendszert akarunk Nagy kapacitást akarunk több diszket összekapcsolni

R320 Szerver. Műszaki adatok

Négyprocesszoros közvetlen csatolású szerverek architektúrája:

Az Invitel adatközponti virtualizációja IBM alapokon

Alapprobléma RAID. Alapfogalmak. RAID - redundancia. RAID gyorsabb adatelérés

Számítógépek felépítése

Bevitel-Kivitel. Eddig a számítógép agyáról volt szó. Szükség van eszközökre. Processzusok, memória, stb

Költséghatékony high-end adattároló megoldások Vitéz Gábor, Avaxio Kft.

elektronikus adattárolást memóriacím

Fábián Zoltán Hálózatok elmélet

A processzor hajtja végre a műveleteket. összeadás, szorzás, logikai műveletek (és, vagy, nem)

Apple számítógépek összehasonlító táblázata

Memóriák - tárak. Memória. Kapacitás Ár. Sebesség. Háttértár. (felejtő) (nem felejtő)

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

Web harvesztelés. Automatikus módszerekkel

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

Új kompakt X20 vezérlő integrált I/O pontokkal

Az NIIF új szuperszámítógép infrastruktúrája Új lehetőségek a kutatói hálózatban

Számítógép egységei. Szoftver (a fizikai eszközöket működtető programok összessége)

RÉSZLETES ÁRAJÁNLAT. Nettó egységár. Megajánlott termék gyártmánya és típusa. Mennyiség egysége (db) Nettó összár. Mennyiség

Informatika el adás: Hardver

A számítógépek felépítése. A számítógép felépítése

Operációs Rendszerek MSc

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

Számítógépes alapismeretek

Mikrorendszerek tervezése

SAP Business One. Áttekintés, gyakorlati ismertetı. Mosaic Business System Kft.; Support:

NetWare 6 technikai áttekintés 2. rész

ELŐADÁS SZÁMÍTÓGÉP MŰKÖDÉSE FIZIKA ÉS INFORMATIKA

Dell Inspiron 580s: Részletes műszaki adatok

A TOSHIBA ÚJ SZILÁRDTEST-MEGHAJTÓJA A RUGALMAS VÁLLALATI TÁROLÁSI MEGOLDÁSOKAT SZOLGÁLJA

DELL Inspiron DLL Q2_38_BL_ (DLL Q2_38_BL_212279)

Optimalizáció ESX-től View-ig. Pintér Kornél ügyfélszolgála3 mérnök

Készítette: Trosztel Mátyás Konzulens: Hajós Gergely

Számítógép felépítése

Bevitel-Kivitel. Bevitel-Kivitel és Perifériák. Algoritmusok és Alkalmazásaik Tanszék Budapest december 16.

11. Haladó ismeretek: személyi számítógépek

Ismétlés: Moore törvény. Tranzisztorok mérőszáma: n*százmillió, n*milliárd.

Y márci

A háttértárak a program- és adattárolás eszközei.

StoreWay FDA 1500/2500/2900 középkategóriás moduláris tárolórendszer

Lenovo ThinkPad E550-20DF0092HV

2016/06/23 07:47 1/13 Kérdések

IT infrastruktúra egy modern egyetemi könyvtárban

Tájékoztató. Használható segédeszköz: -

Ajánlat kelte: november 18. Ajánlattevő: FTK Kft. Cím: 3531 Miskolc, Vászonfehérítő 32.

Merevlemezek tegnap, ma, holnap

VGN-TT21XN/B. Extrém stílus és hordozhatóság

T430 Szerver. Műszaki adatok

BMD Rendszerkövetelmények

A számítógép felépítése

TestLine - zsoltix83tesztje-01 Minta feladatsor

Számítógép Architektúrák

Párhuzamos és Grid rendszerek

Technikai tájékoztató - kérdések és válaszok TSD-QA (2012/05)

Adatbáziskezelő-szerver. Relációs adatbázis-kezelők SQL. Házi feladat. Relációs adatszerkezet

Hardver összetevők ellenőrzése Linux alatt. Hardverguruk előnyben...

Adatbázis rendszerek Gy: Az adattárolás fejlődése

TestLine - zsoltix83tesztje-01 Minta feladatsor

ADATBÁZIS-KEZELÉS - BEVEZETŐ - Tarcsi Ádám, ade@inf.elte.hu

DELL Inspiron 5558 DLL_Q3_21_EL_204369

Operációs rendszerek III.

TANÚSÍTVÁNY KARBANTARTÁS Jegyzıkönyv

Operációs rendszerek MINB240. Bevitel-Kivitel. 6. előadás Input és Output. Perifériák csoportosításá, használat szerint

ADATTÁROLÁS: LÁGY- ÉS MEREVLEMEZEK KOVÁCS MÁTÉ

A számítógép fő részei

ÁLTALÁNOS SZERZŐDÉSI FELTÉTELEK

Dell Inspiron 560s: Részletes muszaki adatok

T320 Szerver. Műszaki adatok

Nyíregyházi Egyetem Matematika és Informatika Intézete. Input/Output

Számítógép fajtái. 1) személyi számítógép ( PC, Apple Macintosh) - asztali (desktop) - hordozható (laptop, notebook, palmtop)

Ajánlott adatbázis-szerver konfiguráció a Novitax szoftverekhez

MS Windows XP Professional SP2 telepítés virtuális gépre.

SZÁMÍTÓGÉPES ALAPISMERETEK

Non-stop hozzáférés az üzleti információkhoz bárhol, bármikor és bármilyen eszközzel

Lenovo Ideapad G E301PAHV

Utolsó módosítás:

Intel Pentium G2120 Intel HD Graphics kártyával (3,1 GHz, 3 MB gyorsítótár, 2 mag)

A személyi számítógép felépítése

Latitude E5440. A termék főbb jellemzői

CRA - Cisco Remote Access

Alapismeretek. Tanmenet

NIIF szolgáltatások a múzeumok számára

Átírás:

TUDOMÁNYOS ADATBÁZISOK TERVEZÉSE ÉS ÉPÍTÉSE Dobos László ELTE Komplex Rendszerek Fizikája Tanszék

2 Tematika 1. A negyedik paradigma 2. Amdahl-törvénye és az Amdahl-szám 3. x64 alapú nagyteljesítményű hardverek 4. Adattároló-rendszerek 5. Hálózatok 6. Relációs adatbázis-kezelők 7. Adatok tárolása adatbázis szerverekben 8. Indexek 9. Tranzakciók 10. Biztonsági mentés, replikáció 11. Alapvető fizikai operátorok 12. Lekérdezés-optimalizálás 13. Adatbetöltés 14. Metaadatok 15. Többdimenziós adatok kezelése 16. A gömbfelszín indexelése 17. Adatbázisok particionálása, adatbázis-klaszterek 18. Különböző adatmodellek relációs leképezése 19. Nem strukturált adatok kezelése 20. Oszlop alapú adatbázisok 21. Tömb alapú adatbázisok

3

4 A tudományos módszer fejlıdése Kísérlet Elmélet

5 A tudományos módszer fejlıdése Kísérlet Szimuláció Elmélet

6 A tudományos módszer fejlıdése Kísérlet Adatbányászat Elmélet Szimuláció

7 Modern kísérletek Automatizált adatgyűjtő rendszerek Távcsövek, kamerák (CCD) Részecskegyorsítók Génszekvenálók Műholdak Szenzor hálózatok Internetes mérőprogramok Nagy adatmennyiség Ma tipikus: 10 TB Nemsokára: 1 PB Adatok automatikus filterezése méréskor Adatokra on-line van szükség diszken tárolva bármikor elérhető Tipikus számítási problémák: Nyers adatok feldolgozása Statisztika nagy mintán Idősor analízis Kilógó adatpontok keresése Interaktív felhasználói interfész

8 Asztrofizika Égtérképek: az égbolt szisztematikus térképe asztrostatisztikai célokra Tejút szerkezete galaxisok evolúciója kozmológia Több hullámhossz tartomány: rádió, infravörös, optikai, UV, röntgen, gamma Hullámhosszak összevetése alapvető feladat Gravitációs hullám mérések: LIGO, Virgo, LISA idősor analízis Sötét anyag szimulációk Millenium, Bolshoi, Indra Múlt: Palomar Digitized Sky Survey digitalizált üveglemezek Tegnap: SDSS o(10 TB) Sloan Digital Sky Survey SkyServer [Szalay et al.] 350 millió detektált objektum 1.5 millió spektrum Kis része időtartományban is Ma: PanSTARRS o(100 TB) Időtartomány: Naprendszer, változócsillagok, kvazárok Évtized végére: LSST o(1 PB)

9 Részecskefizika Részecskegyorsítók Tevatron, RHIC, LCH Több millió esemény / sec Eseményeket szűrése adatgyűjtéskor Off-line analízis, adatbányászat Objektum-orientált adatbázisok Skimming Mechanika Turbulens áramlások Biológia és orvostudomány DNS szekvenciák Fehérje hálózatok Szenzor hálózatok: ökológiai mérések Rákkutatás: betegség lefolyási mintázatok CT, MR, PET képekből nyert adatbázisok Földtan, meteorológia és oceonográfia Térinformatikai adatbázisok, térképek Műholdadatok feldolgozása Szeizmológia Villámlás térképek Tengeri áramlások

Forrás: Wikipedia Processzorok teljesítménye 10

Forrás: Wikipedia GMR: giant magnetoresistance PMR: perpendicular magnetic recording Diszkek tárolókapacitása PMR technológia GMR technológia 11

12 Adatbázisok exponenciális növekedése 1,E+07 1,E+06 1,E+05 1,E+04 1,E+03 1,E+02 1,E+01 1,E+00 SDSS - 2000 PanSTARRS - 2010 LSST - 2020 Camera pixels (Mpix) Detected celestial objects (M) DB Size (GB)

13 Tudományos adatbázisok Hardver teljesítményének exponenciális növekedése adatgyűjtés exponenciális növekedése Adatok elférnek a diszken, de Lassú diszk Lassú hálózat Lassú algoritmusok Tudományos célú adattárházak (szerverközpontok) Minden méretskálán MB PB Sokdimenziós A világon szétszórva Hálózat lassú Vigyük a számolást az adathoz, ne az adatot a számoláshoz o(n)-nél lassabb algoritmusok idővel használhatatlanná válnak Párhuzamosítás

14 Tudományos adatbázisok az ELTÉ-n Asztrofizika: Sloan Digital Sky Survey SkyServer (7 TB) SDSS képek (8TB) SDSS spektroszkópiai adatok Internet tomográfia (Vattay G., Csabai I.) Twitter Biológia, génadatok (Csabai István) Meteorológiai idősor adatok (Jánosi Imre)

15

Kiegyensúlyozott rendszerek esetére 16

17 Párhuzamosítás szükségessége o(n)-nél lassabb algoritmusok idővel használhatatlanná válnak Párhuzamosítás

18 Párhuzamosítható probléma 1 = P + S P: párhuzamosítható rész Akár nagyon sok szálon párhuzamosítható Gyakorlatilag 0 idő alatt végrehajtható S-hez képest S: szekvenciális rész

19 Gyorsulási törvény 1 gyorsulás = S + N P N: szálak száma Ha N, akkor gyorsulás S 1 A maximális gyorsulást a probléma kizárólag szekvenciálisan végrehajtható része határozza meg.

20 Amdahl-szám 1bit IO / sec A = 1utasítás / sec Tipikus diszkrendszer: 4 150 MB/s = 4,8 Gb/s Tipikus szerver: 8 2,5 GHz = 20 GHz Tipikus Amdahl-szám: A = 0,24 Blue Gene: A = 0,013 Beowulf: A = 0,08 Cloud VM: A = 0,08 Desktop: A = 0,2 Graywulf: A = 0,5 Atom+Ion+SSD: A = 1,25

21

22 Nagyteljesítményő hardverek x64 alapú architektúrák Processzor(ok) rendszerbusz memória Gyorsítótár Párhuzamosítás Grafikus processzorok felhasználása Tárolórendszerek Diszk, SSD tárolók RAID technológia Gyorsítótár Adatbuszok Hálózat Lokális (ethernet, InfiniBand) Dedikált kapcsolat Internet Számítási klaszterek, felhők, adatbázis klaszterek

23 x64 szerver processzorok ma Szerverprocesszorok: 2-2.6 GHz mag órajel Intel Xeon E7, 5000, E3 4-16 mag chipenként AMD Opteron 32 nm technológia x64 utasításkészlet és címzés 192 GB memória kezelése 1066-1866 MHz mem busz 2-3 szintű memória cache (L1 L2 L3) Több processzor támogatása (2-4-8- foglalat) Virtualizáció HyperThreading (Intel) 50-80 GFLOP/sec/mag 80-130W fogyasztás

24 Gyorsítótár (cache) Gyors processzor, lassú memória (háttértár) [latency] Starving: éhezés, a processzor tudna gyorsabban dolgozni, de nem jön az adat A processzor és a memória közé egy kis méretű, de gyors memóriát iktatunk: gyorsítótár [cache] A gyakran használt memóriaterületek bekerülnek a gyorsítótárba

25 Cache változatok Processzor és memória között Néhány MB, több szintű RAID kártyán 256-512 MB, RAID5-höz fontos Diszk meghajtóban 16-32 MB Random elérést gyorsítja IO alrendszer és processzor között központi memória egy részéből leválasztva szoftveres megoldással

26 Cache algoritmusok Olvasáskor egy egész memória blokk kerül be a cache-be Mikor kell a cache-ben levő dolgokat üríteni? Főbb problémák: Több processzor esetén, ha nem közös a cache, íráskor szinkronizálni kell (snoop filter) A memória szétszórt részeiről olvasunk Háttértár cache-nél, ha áramkimaradás van Írási algoritmus (Write policy) Write back: az írás csak a cache-be történik, a cache vezérlő megjegyzi, hogy az adott blokk módosult, és csak akkor írja át a háttérmemóriába, ha a blokk kiöregszik a cache-ből Write through: az írás a cache-be és a háttérmemóriába is megtörténik, lassú az írás, de nincsen gond a több processzoros rendszerekkel, háttértárolókkal

Mai modern CPU cache vázlata CPU 1 CPU 2 Core 1 Core 2 Core 1 Core 2 L1 cache L1 cache L1 cache L1 cache L2 cache L2 cache Snoop filter L3 cache RAM 27

28 Többprocesszoros architektúrák Multi-core: egy chip-en több processzor mag Közös L2 (L3) cache Multi-processor: Külön tokban (egyenként lehet multi-core) Lehet közös L3 cache (alaplapon) Modern OS igény: Linux kernel 2.6: 64 core Windows 2008 Server R2, Windows 7: 256 core Párhuzamosan megírt program SQL Server 2008 R2: 256 core Scale-up: mennyivel fut gyorsabban erősebb vason Scale-out: mennyivel fut gyorsabban több processzoron

29 Párhuzamos végrehajtás Párhuzamos futtatás egységei: Process = folyamat: Folyamatonként önálló memória terület process-ek között kommunikáció kontrollált Thread = szál: Egy processen belül több szál OS kernel egyik feladata: szálak ütemezése: Processzor magok között Időszeletekben Processek automatikusan konkurensen futnak, a threadeket a programozónak kell létre hoznia

30 NUMA Non-Uniform memory access A memóriabankok külön processzorfoglalatokhoz tartoznak A keresztben olvasás lassabb Intel QPI (Quick Path Interconnect) AMD HyperTransport A processzor-cache-t koherensen kell tartani Kép: vmfootprints.org

31 Grafikus processzorok Sok, o(1000), párhuzamos aritmetikai egység Elsődleges célterület: 3D vizualizáció GPGPU: általános célú GP felhasználás Cuda, stb. Még mindig speciális programot igényelnek Tudományos könyvtárak léteznek Konvergálnak a CPU-val: GPU-k: egyre komplexebb utasítások CPU-k: egyre több mag Egyedül az x64 architektúrával kompatibilisek Az adatfeldolgozási rendszerbe könnyen integrálhatóak

32 Buszrendszer Mai szerverekben: PCI-E (express) Soros busz, 1, 2, 4, 8, 16 sebességgel Maximum 16 GB/s adatátvitel Szerverekben használt bővítőkártyák: RAID vagy egyéb diszkvezérlő Hálózati adapter Videokártya (GPGPU céllal, sokszor videó kiment nélkül Tesla, Fermi) Ez az opció csak x64 architektúrákban elérhető! DSP kártyák

33

34 Adattároló rendszerek fogalmai On-line: bármikor elérhető Off-line: humán beavatkozás igényel (pl. szalag) Szekvenciális: bájtfolytonosan írható/olvasható Random elérésű: bárhonnan írhatunk/olvashatunk DAS: directly attached storage Közvetlenül a rendszerbuszra kapcsolva Gyors, kis távolságra vihető el, drága NAS: network attached storage Hálózaton érhető el (lassú) Nagy távolságra vihető el, drága

35 Adattároló egységek Merevlemez Tömeggyártás, olcsó Gyors szekvenciális adatelérés Random adatelérés, de az lassú Érzékeny mechanika Nagy fogyasztás Félvezető tárolók (SSD) Ma még drága Nagyon gyors random Írási problémák Alacsonyabb fogyasztás Memória: Drága, de már TB elérhető Nagyon gyors, random Szalagos egységek Jó ár/kapacitás arány A meghajtók ma már nagyon drágák Soros adatelérés Archiválásra, biztonsági mentésre, adattovábbításra Optikai tárolók Kis kapacitás, reménytelen

36 Merevlemez Adatrögzítés módja: Az információt ferromágneses réteg tárolja Kiolvasás a GMR elv szerint Felépítése: Egy vagy több lemez közös tengelyen Motor Olvasófejek közös tengelyen Elektronika Forrás: Wikipedia

37 Merevlemezek paraméterei Fizikai méret: Szerverekben 2.5, 3.5 Lemezek száma tipikusan 1-2-3 Kapacitás: 500 GB 4000 GB Limitáló tényező: bitsűrűség A mai technológia 30 TB-ig kiterjeszthető Sebesség 60-150 MB/s szekvenciális olvasás (a lemez szélén) 4.5-15 ms random elérési idő Limitáló tényező: fordulatszám: max. 5400 15000 rpm Interfész SATA II 3 Gb/s rövid kábel, gépen belül SAS 6 Gb/s közepes távolság, szekrényen belül FibreChannel gigabit, optikai, drága, nagy távolság Cache méret: 16-32-128 MB Raid Edition: speciálisan szervergépekbe szánt változat Jobb mechanikai kialakítás Nagyobb cache Speciális firmware

38 Diszk = szalag = Memória: gyors, drága Diszk: olcsó, de lassú 100-150 MB/s ADAT MEMÓRIA DISZK RANDOM IO SZEKVENCIÁLIS IO 1 TB-os diszk beolvasása: szekvenciális olvasáskor: 4,5 óra random olvasáskor: 15-150 nap SSD?

39 Merevlemezek meghibásodása Vezérlő áramkör Teljes lemezt elérhetetlen Áramkör cserével a meghajtó még talán olvashatóvá tehető (egyszerűbb) Lemez fizikai meghibásodása Általában ponthibák A vezérlő logika legtöbbször automatikusan képes javítani, ha a hiba lokális A javítás időbe telik (másodpercek át kell másolni mindent egy hibátlan helyre) Bit rotting Ellenőrzőösszeg (checksum)

40 Merevlemezek meghibásodása 2. Mechanikai meghibásodás Motor, csapágy, fejmozgató mechanika Az adatok mechanikai javítás után még olvashatóvá tehetők (bonyolult) S.M.A.R.T. Self-Monitoring, Analysis, and Reporting Technology Információt nyújt a meghajtó fizikai állapotáról Működési statisztika, hőmérséklet, hibás szektor arány stb. Az előre várható hibákból eredő adatvesztések elkerülését segíti

41 SSD-k paraméterei Flash memória Félvezetőből kialakított háttértároló, nincsen mozgó alkatrész Alacsony fogyasztás Nagy sebesség Tipikusan 150-200 MB/s, de nem konzisztens 0 ms random elérési idő Egyelőre nem túl nagy méret: 250-500 GB / egység Problémák az írással: A flash memória íráskor öregszik Egyszerre csak komplett blokkok írhatók Nagyon drága Strapabírásuk nem igazán ismert

42 Interfészek, protokollok SATA: serial advanced technology attachement Asztali és laptop gépekhez fejlesztve 1.5-6 Gb/s soros adatátvitel 1 m hosszú kábel diszkenként egy kábel SCSI: Small Computer System Interface Munkaállomásokhoz és szerverekhez 1.2-5 Gb/s párhuzamos adatátvitel 12 m hosszú kábel több eszköz sorban felfűzve drága SAS: Serial Attached SCSI SATA hardver + SCSI protokoll 3-6 Gb/s soros adatátvitel 10 m hosszú kábelek Multiplexer, backplane támogatás SATA lemezekkel kompatibilis (olcsó) Fiber Channel Optikai link, főleg NAS (network attached storage) megoldásokhoz, drága iscsi SCSI protokoll hálózaton keresztül NAS