Virtuális Obszervatórium. Gombos Gergő

Hasonló dokumentumok
WEB2GRID: Desktop Grid a Web 2.0 szolgálatában

ADATBÁZIS-KEZELÉS - BEVEZETŐ - Tarcsi Ádám, ade@inf.elte.hu

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

ADATBÁZISOK gyakorlat: SQL 2. rész SELECT

LOGISZTIKAI ADATBÁZIS RENDSZEREK JOIN, AGGREGÁCIÓ

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.




Valós idejű megoldások: Realtime ODS és Database In-Memory tapasztalatok


Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter

Adatbázisok. 9. gyakorlat SQL: SELECT október október 26. Adatbázisok 1 / 14

Amit mindig is tudni akartál a Real Application Testing-ről. Földi Tamás Starschema Kft.

webalkalmazások fejlesztése elosztott alapon


LINUX LDAP címtár. Mi a címtár?

Worldwide LHC Computing Grid

Tudásalapú információ integráció

API tervezése mobil környezetbe. gyakorlat

Innovatív trendek a BI területén

ÜZLETI I TELLIGE CIA - VIZUALIZÁCIÓ

Web-fejlesztés NGM_IN002_1

Adatbázis-lekérdezés. Az SQL nyelv. Makány György

INFORMATIKAI ALAPISMERETEK

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

AZ UNIVERZUM FELTÉRKÉPEZÉSE A SLOAN DIGITÁLIS

Adatbázisok I. Az SQL nyelv

DBPedia feladatok. elérés:

Adatbányászat és Perszonalizáció architektúra

Muppet: Gyors adatok MapReduce stílusú feldolgozása. Muppet: MapReduce-Style Processing of Fast Data

Folyamatok rugalmas irányítása. FourCorm Kft.

Microsoft SQL Server telepítése

Átfogó megoldás a számlafolyamatok felgyorsításához ELO DocXtractor. Laczkó Kristóf ELO Digital Office Kft. Bálint András Prognax Kft.

Mobil Peer-to-peer rendszerek

MIKOVINY SÁMUEL TÉRINFORMATIKAI EMLÉKVERSENY

Adatbáziskezelő-szerver. Relációs adatbázis-kezelők SQL. Házi feladat. Relációs adatszerkezet

Gráf adatbázisok NoSql, neo4j. Gombos Gergő

Bevezetés a párhuzamos programozási koncepciókba

Adatbázisok. 8. gyakorlat. SQL: CREATE TABLE, aktualizálás (INSERT, UPDATE, DELETE), SELECT október október 26. Adatbázisok 1 / 17

Tartalomjegyzék. Tartalomjegyzék 1. Az SQL nyelv 1 Az SQL DDL alapjai 2

INFORMATIKA ÁGAZATI ALKALMAZÁSAI. Az Agrármérnöki MSc szak tananyagfejlesztése TÁMOP /1/A

NETinv. Új generációs informatikai és kommunikációs megoldások

LOGISZTIKAI ADATBÁZIS RENDSZEREK EXCEL ALAPOK

Adatbázisok I A relációs algebra

Téradatokkal kapcsolatos elemzések és fejlesztések a FÖMI Térinformatikai Igazgatóságán

TUDOMÁNYOS ADATBÁZISOK MA ÉS A JÖVŐBEN. X64 ALAPÚ KISZOLGÁLÓ RENDSZEREK Tudomány Adatbázisok, 1. előadás, (c) 2010

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Képi információk hatékony feldolgozása széles társadalmi rétegeket érintő egészségügyi problémákban

Költséghatékony high-end adattároló megoldások Vitéz Gábor, Avaxio Kft.

Weblog elemzés Hadoopon 1/39

Takács Gábor mérnök informatikus, okl. mérnöktanár

Metadirectory koncepció kivitelezése

LOGISZTIKAI ADATBÁZIS RENDSZEREK UNIÓ, ALLEKÉRDEZÉSEK

Adatbázisok elleni fenyegetések rendszerezése. Fleiner Rita BMF/NIK Robothadviselés 2009


Hálózati operációs rendszerek II.


AB1 ZH mintafeladatok. 6. Minősítse az állításokat! I-igaz, H-hamis

Félreértések elkerülése érdekében kérdezze meg rendszergazdáját, üzemeltetőjét!

MapReduce paradigma a CAP-tétel kontextusában. Adatb haladóknak. Balassi Márton Adatbázisok haladóknak 2012.

API-MÁGIA MILLIÓ SORNYI ADAT ÚJRARENDEZÉSE. Előadó: Jaksa Zsombor, drungli.com

GDi Esri Magyarország Felhasználói Konferencia Timár Gábor: Konkurens adatfeldolgozás ArcGIS rendszerben

HunGrid Grid technológiák hozzáférési lehetőségei az intézetben

ProofIT Informatikai Kft Budapest, Petzvál J. 4/a

CMDB architektúra megjelenítése SAMU-val Rugalmas megoldás. ITSMF Bekk Nándor Magyar Telekom / IT szolgáltatás menedzsment központ


Adatbázisok-1 előadás Előadó: dr. Hajas Csilla

SQLServer. SQLServer konfigurációk

Analitikai megoldások IBM Power és FlashSystem alapokon. Mosolygó Ferenc - Avnet

Az adatbázisrendszerek világa

A könyv tartalomjegyzéke

MMK-Informatikai projekt ellenőr képzés 4

SAMSUNG SSM-8000 szoftvercsomag







Szolgáltatási szint és performancia menedzsment a PerformanceVisor alkalmazással. HOUG konferencia, 2007 április 19.

Hozzávalók keresése és csatolása

Informatikai alapismeretek Földtudományi BSC számára

A PAKSI ATOMERŐMŰ KÖRNYEZETELLENŐRZŐ LABORATÓRIUMA MINTAVÉTELI ADATBÁZISÁNAK KORSZERŰSÍTÉSE

Adatbázis használat I. 2. gyakorlat

A gyakorlat során MySQL adatbázis szerver és a böngészőben futó phpmyadmin használata javasolt. A gyakorlat során a következőket fogjuk gyakorolni:


Adatbázisok elmélete

Csima Judit szeptember 6.

Multimédiás adatbázisok

LEKÉRDEZÉSEK SQL-BEN. A relációs algebra A SELECT utasítás Összesítés és csoportosítás Speciális feltételek


IKT trendek és tapasztalatok a BME szemszögéből

A ClusterGrid bróker rendszere. Stefán Péter Szalai Ferenc Vitéz Gábor

Elosztott könyvtári rendszerek megvalósítása a Z39.50 és az OAI protokoll használatával


Nyílt forráskódú tapasztalatok a FÖMI Térinformatikai Igazgatóságán

Másolatképzési technikák és azok felhasználási lehetőségei


Adatbáziskezelı-szerver SQL. Relációs adatbázis-kezelık. Relációs adatszerkezet. Házi feladat

Átírás:

Virtuális Obszervatórium Gombos Gergő

Áttekintés Motiváció, probléma felvetés Megoldások Virtuális obszervatóriumok NMVO Twitter VO Gombos Gergő Virtuális Obszervatórium 2

Motiváció Tudományos módszer fejlődése Gombos Gergő Virtuális Obszervatórium 3

Motiváció Gombos Gergő Virtuális Obszervatórium 4

Motiváció Gombos Gergő Virtuális Obszervatórium 5

Probléma Kicsiben működik, nagyban nehézkes Nagy mennyiségű mérési adatok Távcsövek Részecskegyorsítók Szenzor hálózatok Méretek ~PB méretű Gombos Gergő Virtuális Obszervatórium 6

Probléma Adatok elérése Tárolás lemezen (lassú) Felhasználói interfész Hogyan tudjuk elérni hatékonyan? Gombos Gergő Virtuális Obszervatórium 7

Feladat Olyan rendszert építsünk, amely Képes nagy mennyiségű adatok tárolására, elemzésére. Lehetőséget biztosít a felhasználóknak saját elemzések elvégzésére. Gombos Gergő Virtuális Obszervatórium 8

Egyszerű megoldás DB Kliens --- DB szerver Relációs adatbázis, SQL Felhasználók hozzáférnek Szinkron megoldás Probléma: Ha olyan lekérdezés amelyre nincs megfelelő index, hosszú idő a válasz. Kiéhezteti a többi klienst. Gombos Gergő Virtuális Obszervatórium 9

Egyszerű megoldás Alkalmazás Kliens --- DB szerver Szinkron működés Alkalmazás szintjén egyszerűsödik Probléma: Válaszidő még mindig lassú, timeout. Klienst le kell tölteni. Nem érhető el mindig. Gombos Gergő Virtuális Obszervatórium 10

Egyszerű megoldás Kliens --- Alkalmazás szerver --- DB szerver Csökkenti a terhelést a DB-n Szinkron megoldás Probléma: Lassú válasz, timeout. Gombos Gergő Virtuális Obszervatórium 11

Szinkron működés Szerver terhelés nagy Gombos Gergő Virtuális Obszervatórium 12

Egyszerű javított megoldás Aszinkron Ticket-rendszer Eredmény később Sorba állítja a kéréseket. Gombos Gergő Virtuális Obszervatórium 13

Egyszerű javított megoldás Gombos Gergő Virtuális Obszervatórium 14

Szinkron megoldás Gombos Gergő Virtuális Obszervatórium 15

Aszinkron megoldás Gombos Gergő Virtuális Obszervatórium 16

Aszinkron megoldás Gombos Gergő Virtuális Obszervatórium 17

Mi a VO? Olyan rendszer, ahol a digitális gyűjtött mérési adatokat tároljuk, elemezzük. A rendszer fő szempontja nem a válaszidő, hanem a bonyolult elemzések elvégzésének lehetősége. Gombos Gergő Virtuális Obszervatórium 18

VO célok Nagy adattömegek kezelése Nagy számításigény kielégítése Hatékony keresés, elemzés Kollaboráció kutatókkal Eredmények megosztása Gombos Gergő Virtuális Obszervatórium 19

Technológiák a VO-hoz Hardver Tár- és számítási kapacitás, hálózat Adatbázis-technológiák Adatmodellek, adatbázis-tervezés Indexelés hatékony kereséshez Adatelemzés, adatbányászat Párhuzamos, elosztott rendszerek Párhuzamos feldolgozás Grid technológiák MapReduce technika Felhasználói felület, vizualizáció Webes portálfelület Vizualizációs technikák Gombos Gergő Virtuális Obszervatórium 20

VO feladatok Adat regisztráció Metadata alapú adatforrás rögzítés Adat elérés Regisztrációval vagy a nélkül Adat összekapcsolás Különböző adatbázisok összekapcsolása Adat manipulálás Adatbányászat, adat elemzés Gombos Gergő Virtuális Obszervatórium 21

Miért Obszervatórium? Galileo Galilei Edwin Hubble Gombos Gergő Virtuális Obszervatórium 22

Miért Obszervatórium? SDSS (Sloan Digital Sky Survey) 2.5 m teleszkóp >100 TB Teleszkóp Detektorok -> Digitális adatok -> Számítógépes programok Gombos Gergő Virtuális Obszervatórium 23

VO-k SkyServer Csillagászati adatok http://skyserver.sdss.org NMVO Főleg hálózati adatok, de van twitter, csillagászat http://nm.vo.elte.hu/casjobs/casjobs.aspx (Twitter Casjobs) Twitter adatok http://oktnb16.inf.elte.hu/casjobs Gombos Gergő Virtuális Obszervatórium 24

NMVO Gombos Gergő Virtuális Obszervatórium 25

NMVO Gyors és lassú lekérdezési sor MyDB, saját adatbázis az eredményeknek Több adatbázis kapcsolat Plot Query plan Schema browser Csoport kezelés Gombos Gergő Virtuális Obszervatórium 26

Twitter VO Cél: Twitter adatok gyűjtése, tárolása elemzés céljából Gombos Gergő Virtuális Obszervatórium 27

Twitter VO Gombos Gergő Virtuális Obszervatórium 28

Collector Sample API Napi ~12GB JSON adat Backup gyűjtő (ciklikus) Éles gyűjtő Gombos Gergő Virtuális Obszervatórium 29

Storage Táblák Tweet User Hashtag User Mention Media URL Retweet Gombos Gergő Virtuális Obszervatórium 30

Loader Problémák: Hálózat, I/O Speciális karakterek: مرحبا Д 你好こんにちは Betöltés 1 nap (~12GB) ~6 óra Gombos Gergő Virtuális Obszervatórium 31

Merge Retweet-ben megtalálható az eredeti tweet is Nem lánc lesz a retweetekből az ős tweet-t tartalmazza Szükséges a merge: 1. Diff táblába töltünk, és az inaktív táblába mergelünk 2. Merge segítő indexek szükségesek. Gombos Gergő Virtuális Obszervatórium 32

Loader Hot table Webes elérés Cold table Betöltéshez Duplikátumok eltávolítása T M P H O T C O L D Gombos Gergő Virtuális Obszervatórium 33

Csere előtt Merge TMP COLD Sorok mergelése Merge indexek eltávolítása Query indexek készítése T M P H O T T M P C O L D Gombos Gergő Virtuális Obszervatórium 34

Csere Átnevezés COLD HOT Átnevezés HOT COLD T M P C O L D H O T Gombos Gergő Virtuális Obszervatórium 35

Csere után Merge TMP -> COLD (megint) Query indexek eltávolítása Merge indexek készítése Sorok mergelése T M P T M P C O L D H O T Gombos Gergő Virtuális Obszervatórium 36

Csere véglegesítése Temp tábla eltávolítása T M P C O L D H O T Gombos Gergő Virtuális Obszervatórium 37

Job Manager Ütemező csomagok DBMS_JOB DBMS_SCHEDULER Gombos Gergő Virtuális Obszervatórium 39

Web UI Gombos Gergő Virtuális Obszervatórium 40

Web UI Gombos Gergő Virtuális Obszervatórium 41

Feladatok (NMVO) http://nm.vo.elte.hu/casjobs Hány tweet volt 2012. december 24-én? Hányban szerepet az XMAS szó ezek közül? Hányban szerepelt a http://www.youtube.com/watch?v=z8vfp48las8? Hány magyar nyelvű tweet volt? Melyik tweetet retweetelték a legtöbbször aznap? Hányan retweeteltek aznap? (Ki,kit) retweetelt gráfnak hány csúcsa, hány éle van? Gombos Gergő Virtuális Obszervatórium 42

Feladatok (Twitter Casjobs) Táblák: vzoli.tweetcj, gognaai.followers 1. Hány tweet volt 2012-12-24 napon? (count) 2. Melyik a legrégebbi tweet? (min) 3. Irassuk ki a legkorábbi tweetet (order by, rownum) 4. Legtöbbet retweetelt tweet kiiratása (max) 5. Nyelvenként hány tweet van? (group by) 6. Hány tweetben szerepelt Obama? (like) Gombos Gergő Virtuális Obszervatórium 43

Feladatok (Twitter Casjobs) Táblák: vzoli.tweetcj, gognaai.followers 4. Nyelvenként hány tweet van? (group by) 5. Hány magyar tweet volt? (where) 6. Hány tweetben szerepelt Obama? (like) 7. Írjuk ki a 1021951981-es user követői, milyen nyelven tweetelnek. (join, distinct) 8. Rajzoljuk grafikonon a nyelvek eloszlását! 9. Rajzoljuk térképen az első ezer olyan tweet-et amelynek nem null a lat, lon koordinátája! Gombos Gergő Virtuális Obszervatórium 44