Tudományos adatbázisok tervezése és építése 1. előadás TUDOMÁNYOS ADATBÁZISOK MA ÉS A JÖVŐBEN X64 ALAPÚ KISZOLGÁLÓ RENDSZEREK Tudomány Adatbázisok, 1. előadás, (c) 2010 2010.02.15. 1 Dobos László
A tudományos módszer fejlődése Kísérlet Elmélet 2
A tudományos módszer fejlődése Kísérlet Szimuláció Elmélet 3
A tudományos módszer fejlődése Kísérlet Adatbányászat Elmélet Szimuláció 4
Modern kísérletek Automatizált adatgyűjtő rendszerek Távcsövek, kamerák (CCD technológia) Részecskegyorsítók (1M esemény/sec) Műholdak Szenzor hálózatok (olcsó, wireless egységek) Internetes mérőprogramok Hatalmas adatmennyiség Adatok automatikus filterezése méréskor Adatok jelentős részére on-line van szükség (diszken tárolva, bármikor elérhetően, szemben a szalagon tárolt archívumokkal) Tipikus számítási problémák: Statisztika nagy mintán Idősor analízis Kilógó adatpontok keresése Gyakran interaktív web interfész 5
Asztrofizika Égtérképek: az égbolt szisztematikus fényképezése asztrostatisztikai célokra Tejút szerkezete, galaxisok evolúciója, kozmológia Múlt: Palomar Digitized Sky Survey digitalizált üveglemezek Ma: Sloan Digital Sky Survey SkyServer[Szalay et al.] 11000 négyzetfok 5 színszűrős fotometria, 23 mag mélység 350 millió detektált objektum 1.5 millió spektrum Egy kis része időtartományban is o(10 TB) Holnap: PanSTARRS időtartomány: Naprendszer, változócsillagok, kvazárok o(100 TB) Később: LSST o(1 PB) Több hullámhossz tartomány: rádió, infravörös, optikai, UV, röntgen, gamma Ezek összevetése egy alapvető feladat Gravitációs hullám mérések: LIGO, Virgo, LISA: idősor analízis Sötét anyag szimulációk: Millenium 2010.02.15. Tudomány Adatbázisok, (c) 2010 Dobos László 6
Részecskefizika Részecskegyorsítók Tevatron, RHIC, LCH Másodpercenként több millió esemény Az eseményeket on-line kell szűrni Off-line analízis, adatbányászat Objektum-orientált adatbázisok Skimming 7
Biológia és orvostudomány DNS szekvenciák Fehérje hálózatok Szenzor hálózatok: ökológiai mérések Rákkutatás: betegség lefolyási mintázatok CT, MR, PET képekből nyert adatbázisok 8
Földtan, meteorológia és oceonográfia Térinformatikai adatbázisok, térképek Műhold adatok feldolgozása Szeizmológia Villámlás térképek Tengeri áramlások 9
Adatbázisok exponenciális növekedése 1000 Adatbázis méret 100 10 Adatbázis méret (TB) 1 SDSS (2007) PanStarrs (2015) LSST (2020) 10
Diszkek tárolókapacitása Forrás: Wikipedia PMR technológia GMR technológia 11
Processzorok teljesítménye Forrás: Wikipedia 12
Tudomány az exponenciális korban A hardver teljesítményének exponenciális növekedése lehetővé teszi az adatgyűjtés exponenciális növekedését Az exponenciálisan növekedő adatmennyiséget képesek vagyunk diszken tárolni Lassú hálózat Lassú algoritmusok o(n)-néllassabb algoritmusok idővel használhatatlanná válnak 13
Tudományos adatbázisok az ELTÉ-n Asztrofizika: SloanDigital SkySurvey SkyServer(4.5 TB) SDSS képek (8TB) SDSS spektroszkópiai adatok Internet tomográfia (Vattay G., Csabai I.) Biológia (Csabai István) Meteorológiai idősor adatok (Jánosi Imre) 14
Nagyteljesítményű hardverek x64 alapú architektúrák Processzor(ok) rendszerbusz memória Gyorsítótár Párhuzamosítás Grafikus processzorok felhasználása Tároló rendszerek Diszk, SSD tárolók RAID technológia Gyorsítótár Adatbuszok Hálózat Lokális (ethernet, InfiniBand) Dedikált kapcsolat Internet Számítási klaszterek, felhők, adatbázis klaszterek 15
x64 szerver processzorok ma Intel Xeon Dunnington(Core2) 5000-es sorozat, 2-4 mag Nehalem(Core i7) 7000-es sorozat, 2-6 mag AMD Opteron 2-6 mag Tipikus tulajdonságok: 2-2.6 GHzmag órajel x64 utasításkészlet és címtartomány 64GB memória kezelése 1066 Front SideBus 3 szintű memória cache Multiprocessor támogatás (2-4-8 stb.) Virtualizáció 50 GFLOP/sec/core 80-130W fogyasztás 16
Gyorsítótár(cache) Gyors processzor, lassú memória (háttértár) [latency] Starving: éhezés, a processzor tudna gyorsabban dolgozni, de nem jön az adat A processzor és a memória közé egy kis méretű, de gyors memóriát iktatunk A gyakran használt memóriaterületek bekerülnek a gyorsítótárba Írási algoritmus (Write policy) Writeback: az írás csak a cache-be történik, a cache vezérlő megjegyzi, hogy az adott blokk módosult, és csak akkor írja át a háttérmemóriába, ha a blokk kiöregszik a cacheből Writethrough: az írás a cache-be és a háttérmemóriába is megtörténik, lassú az írás, de nincsen gond a több processzoros rendszerekkel, háttértárolókkal Problémák: Több processzor esetén, ha nem közös a cache, íráskor szinkronizálni kell (snoop filter) A memória szétszórt részeiről olvasunk Háttértár cache-nél, ha áramkimaradás van 17
Mai modern CPU architektúra vázlata CPU 1 CPU 2 Core1 Core2 Core1 Core2 L1 cache L1 cache L1 cache L1 cache L2 cache L2 cache L3 cache RAM Snoop filter 18
Többprocesszoros architektúrák Multi-core: egy chip-en több processzor mag Közös L2 cache Multi-processor: Külön tokban (egyenként lehet multi-core) Közös L3 cache (alaplapon) Modern OS igény: Linux kernel 2.6: 64 core Windows 2008 Server R2, Windows 7: 256 core Párhuzamosan megírt program SQL Server 2008 R2: 256 core 19
Párhuzamos végrehajtás Párhuzamos futtatás egységei: Process= folyamat: Folyamatonként önálló memória terület process-ek között kommunikáció kontrollált Thread= szál: Egy processen belül több szál OS kernel egyik feladata: szálak ütemezése: Processzor magok között Időszeletekben Process-ekautomatikusan konkurensen futnak, a thread-eket a programozónak kell létre hoznia 20
Grafikus processzorok Sok, o(1000), párhuzamos aritmetikai egység Elsődleges célterület: 3D vizualizáció GPGPU: általános célú GP felhasználás Cuda, stb. Még mindig speciális programot igényelnek Tudományos könyvtárak léteznek Konvergálnak a CPU-val: GPU-k: egyre komplexebb utasítások CPU-k: egyre több mag Egyedül az x64 architektúrával kompatibilisek Az adatfeldolgozási rendszerbe könnyen integrálhatóak 21
Buszrendszer Mai szerverekben: PCI-E (express) Soros busz, 1, 2, 4, 8, 16 sebességgel Maximum 16 GB/s adatátvitel Szerverekben használt bővítőkártyák: RAID vezérlő Hálózati adapter Videó vezérlő (GPGPU céllal, sokszor videó kiment nélkül Tesla) Ez az opció csak x64 architektúrákban elérhető! DSP kártyák 22