SOKDIMENZIÓS TUDOMÁNYOS ADATHALMAZOK HATÉKONY KEZELÉSE

Hasonló dokumentumok
Fotometrikus vöröseltolódás-becslési módszerek továbbfejlesztése

Hátralevı órák. Néhány fontos probléma. Többdimenziós adatbázisok. k dimenziós térbeli indexek

Kozmológiai n-test-szimulációk

GPU-Accelerated Collocation Pattern Discovery

R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský

IBM SPSS Modeler 18.2 Újdonságok

Bevezetés a programozásba. 5. Előadás: Tömbök

Adaptív dinamikus szegmentálás idősorok indexeléséhez

EMBER AZ UNIVERZUMBAN UNIVERZUM AZ EMBERBEN

A gamma-kitörések vizsgálata. a Fermi mesterséges holddal

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Kémiai reakciók mechanizmusa számítógépes szimulációval

Flynn féle osztályozás Single Isntruction Multiple Instruction Single Data SISD SIMD Multiple Data MISD MIMD

Automaták. bemenet: pénz, kiválasztó gombok stb. állapot: standby, pénz van behelyezve stb. kimenet: cola, sprite, visszajáró

Statisztikai módszerek a skálafüggetlen hálózatok

Az univerzum nagyskálás szerkezete adatok, modellek, módszerek

Térinformatikai adatszerkezetek

Előrenéző és paraméter tanuló algoritmusok on-line klaszterezési problémákra

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Adatbáziskezelő-szerver. Relációs adatbázis-kezelők SQL. Házi feladat. Relációs adatszerkezet

KOMPLEX JENESÉGEK MEGÉRTÉSE NAGY FELMÉRÉSEK SEGÍTSÉGÉVEL

"A tízezer mérföldes utazás is egyetlen lépéssel kezdődik."

Mérnök informatikus (BSc) alapszak levelező tagozat (BIL) / BSc in Engineering Information Technology (Part Time)

Fotometrikus vöröseltolódás becslés továbbfejlesztése

Adatbáziskezelı-szerver SQL. Relációs adatbázis-kezelık. Relációs adatszerkezet. Házi feladat

Pacemaker készülékek szoftverének verifikációja. Hesz Gábor

Keresés és rendezés. A programozás alapjai I. Hálózati Rendszerek és Szolgáltatások Tanszék Farkas Balázs, Fiala Péter, Vitéz András, Zsóka Zoltán

Grid felhasználás: alkalmazott matematika

Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek

Galaxisfelmérések: az Univerzum térképei. Bevezetés a csillagászatba május 12.

A hierarchikus adatbázis struktúra jellemzői

KLIENS-SZERVER ALAPÚ ERLANG PROGRAMOK TRANSZFORMÁCIÓJA ERLANG OTP SÉMÁRA

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Adatszerkezetek. Nevezetes algoritmusok (Keresések, rendezések)

Seacon Access and Role Management

Többfelhasználós és internetes térkép kezelés, megjelenítés

2014/2015. tavaszi félév

Mobil Peer-to-peer rendszerek

Tartalom Keresés és rendezés. Vektoralgoritmusok. 1. fejezet. Keresés adatvektorban. A programozás alapjai I.

webalkalmazások fejlesztése elosztott alapon

Gráfalgoritmusok és hatékony adatszerkezetek szemléltetése

Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz

Free Viewpoint Television: új perspektíva a 3D videó továbbításban

Gépi tanulás és Mintafelismerés

Nem klaszterezett index. Klaszterezett index. Beágyazott oszlopok. Index kitöltési faktor. Indexek tulajdonságai

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Summer of LabVIEW The Sunny Side of System Design

Csempe átíró nyelvtanok

GEOSTATISZTIKA. Földtudományi mérnöki MSc, geofizikus-mérnöki szakirány. 2018/2019 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

Munkabeszámoló. Sinkovicz Péter. Témavezető: Szirmai Gergely. Kvantumoptikai és Kvantuminformatikai Osztály. Lendület program

Számítógéppel segített modellezés és szimuláció a természettudományokban

Strukturált Generátorrendszerek Online Tanulása és Alk-ai

Wavelet transzformáció

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

HAWK-3. Az OMSZ saját fejlesztésű időjárási megjelenítő rendszere

Hajder Levente 2018/2019. II. félév

OpenCL alapú eszközök verifikációja és validációja a gyakorlatban

TUDOMÁNYOS ADATBÁZISOK MA ÉS A JÖVŐBEN. X64 ALAPÚ KISZOLGÁLÓ RENDSZEREK Tudomány Adatbázisok, 1. előadás, (c) 2010

SZOFTVEREK A SORBANÁLLÁSI ELMÉLET OKTATÁSÁBAN

Programozás alapjai 9. előadás. Wagner György Általános Informatikai Tanszék

Adatelemzési eljárások az idegrendszer kutatásban Somogyvári Zoltán

SZENZORFÚZIÓS ELJÁRÁSOK KIDOLGOZÁSA AUTONÓM JÁRMŰVEK PÁLYAKÖVETÉSÉRE ÉS IRÁNYÍTÁSÁRA

Számítógép-rendszerek fontos jellemzői (Hardver és Szoftver):

Idősorok elemzése. Salánki Ágnes

galaxispopulációk vizsgálata a Sloan Digital Sky Survey alapján

10. előadás Speciális többágú fák

Nem klaszterezett index. Beágyazott oszlopok. Klaszterezett index. Indexek tulajdonságai. Index kitöltési faktor

Microsoft SQL Server telepítése

Principal Component Analysis

Osztott algoritmusok

Gépi tanulás a gyakorlatban. Lineáris regresszió

A PÁLYÁZAT LEFOLYÁSA, SZEMÉLYI, TARTALMI VÁLTOZÁSAI

A Feldspar fordító, illetve Feldspar programok tesztelése

EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA

Túl szűk vagy éppen túl tágas terek 3D-szkennelése a Geodézia Zrt.-nél Stenzel Sándor - Geodézia Zrt. MFTTT 31. Vándorgyűlés, Szekszárd




Egyirányban láncolt lista

A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS

Előfeltétel: legalább elégséges jegy Diszkrét matematika II. (GEMAK122B) tárgyból

Földi radaradattal támogatott csapadékmező-rekonstrukció és vízgazdálkodási alkalmazásai

Térbeli struktúra elemzés szél keltette tavi áramlásokban. Szanyi Sándor BME VIT. MTA-MMT konferencia Budapest, június 21.

Mérnök informatikus (BSc) alapszak levelező tagozat (BIL) / BSc in Engineering Information Technology (Part Time)

DSI működésre. tervezve. Hogyan fog kinézni a jövő informatikai infrastruktúrája? Egész szoftverrendszerek egy

Algoritmusok és adatszerkezetek 2.

Processzusok (Processes), Szálak (Threads), Kommunikáció (IPC, Inter-Process Communication)

Multimédiás adatbázisok

Történet John Little (1970) (Management Science cikk)

Tudáshálózatok kialakulása és regionális fejlődés egy integrált modell alkalmazásának tapasztalatai a magyar régiók esetében Sebestyén Tamás,

GÉPI ÉS EMBERI POZICIONÁLÁSI, ÉRINTÉSI MŰVELETEK DINAMIKÁJA

Kvantumszimmetriák. Böhm Gabriella. Szeged. Wigner Fizikai Kutatóközpont, Budapest november 16.

FET Info Day. Brüsszel, jan. 20.

ADAT-INTENZÍV MEGKÖZELÍTÉS A MODERN TERMÉSZETTUDOMÁNYOKBAN

Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben

MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Véletlen sorozatok ellenőrzésének módszerei. dolgozat

Álraszteres térstatisztikai műveletek a területi kutatásokban

Everything Over Ethernet

Átírás:

SOKDIMENZIÓS TUDOMÁNYOS ADATHALMAZOK HATÉKONY KEZELÉSE SZALAI-GINDL JÁNOS MÁRK TÉMAVEZETŐK: DR. CSABAI ISTVÁN ÉS DR. DOBOS LÁSZLÓ KOMPLEX RENDSZEREK FIZIKÁJA TANSZÉK EÖTVÖS LORÁND TUDOMÁNYEGYETEM

MOTIVÁCIÓ A csillagászati adatok mennyisége felvet informatikai problémákat Hogyan lehet sokdimenziós térbeli adatokat hatékonyan kezelni? Informatikai kihívások: számítógépek memória és háttértár címtere egydimenziós logikailag többdimenziós adatok fizikailag egy dimenzióra képezése csak szekvenciális olvasás megfelelő térfelosztás, indexelés tipikus kérdésekre rengeteg adat, elosztott környezet Fiatal Csillagász és Asztrofizikus Kutatók Találkozója - FIKUT2014

TÖBBDIMENZIÓS ASZTRONÓMIAI ADATOK Többdimenziós adatokra példák: az objektumok rektaszcenzió, deklináció és a vöröseltolódás értékeik alapján SDSS DB-ben az objektumok öt különböző színszűrőkhöz tartozó magnitúdóik adják az ötdimenziós tér egy pontját kozmológiai szimulációk részecskéi hétdimenziósak: a hagyományos térgeometriai dimenziók (3), sebesség dimenziók (3) és az idő (1)

GALAXISSPEKTRUMOK DIMENZIÓREDUKCIÓJA PCA =,,,, = = Σ (,,, ) = Fiatal Csillagász és Asztrofizikus Kutatók Találkozója - FIKUT2014

KOZMOLÓGIAI SZIMULÁCIÓK Nagy kozmológiai N-test szimulációk Futtatás különböző kezdeti értékkel A megfigyelt és szimulációs adatok összehasonlítása A szimulációk rengeteg adatot generálnak

KOZMOLÓGIAI SZIMULÁCIÓK Példa: az INDRA szimulációk (512 darab) Különböző kezdeti értékekkel, de azonos paraméterekkel 64 snapshot/szimuláció Snapshotonként több, mint 1 milliárd részecske Összesen 35 ezer milliárd részecskét követnek nyomon, ez 1.15 petabájtnyi mennyiséget jelent

FOTOMETRIKUS VÖRÖSELTOLÓDÁS BECSLÉS Az előbb említett színtér fontos: az SDSS DB-ben kb. 300 millió galaxis közül, csak kb. 1,8 milliónak van meg a vöröseltolódása Becslés egy olyan galaxisra, amelynek ez a paraméterértéke ismeretlen: a színtérben hozzá közeli galaxisokkal (tanítóhalmaz), amelyekre ez ismert

FOTOMETRIKUS VÖRÖSELTOLÓDÁS BECSLÉS Lineáris regressziós modell alkalmazásával: vöröseltolódás = a1 + a2*u + a3*g + a4*r + a5*i + a6*z (u, g, r, i, z a színtér koordinátaértékei) tanítóhalmaz behangolja a1-t,,a6-t, ezután már csak be kell helyettesíteni a galaxis fotometriai adatait DB használata hasznos, mert: a sok galaxis nem fér el a memóriában legközelebbi szomszédok kereséséhez támogatást nyújt

INDEXSTRUKTÚRÁK HASZNÁLATA Ahhoz, hogy gyorsan megtaláljunk egy pontot az adathalmazban, vagy megtaláljuk egy pont közeli szomszédjait, fel kell osztani a paraméterteret cellákra Cellákból sokkal kevesebb van, ezért azok között gyors a keresés Ezek után már csak a cellán belül kell keresni Előbbi példa alapján is fontos (legközelebbi szomszédok) Másik példa: szimulációknál adott részecske környezetét megkeresni egy adott tartományban Fiatal Csillagász és Asztrofizikus Kutatók Találkozója - FIKUT2014

KD-FA ÉPÍTÉSE A kd-fa építése egy hierarchikus térfelosztó algoritmus: meghatározzuk az adatpontokat befoglaló k dimenziós téglatestet megkeressük a pontok első koordináta szerinti mediánját, és azon a ponton a téglatestet felosztjuk két részre folytatjuk rekurzívan külön-külön a két résztéglatestre, mediánt pedig mindig a következő koordináta szerint vesszük (ha el fogytak elölről kezdjük) Fiatal Csillagász és Asztrofizikus Kutatók Találkozója - FIKUT2014

RENGETEG PONT SOK SZERVER Hagyományos módszer: adatok fájlokban elemző csomagok memóriában elférő adathalmazokon Már vannak CPU-k, amelyekkel 1-1,5 terabájt memória elérhető Többprocesszoros rendszerekkel még több Nagyon drágák, optimalizált memória használat nagyon komplex DB használat egyik előnye: elrejti ezeket

RENGETEG PONT SOK SZERVER Scale-out architektúra: elosztott környezet Szűk keresztmetszet: szerverek közötti hálózati sebesség Elengedhetetlen szempontok: lapelérések számának és szerverek közti várható kommunikáció időköltségének minimalizálása szerverek közti terheléselosztás kedvező legyen

TÖMEGES ADATBETÖLTÉS Tudományos adatok ritkán frissülnek, de abban a fázisban feltehető, hogy a forrásrendszerekből rengeteg nyersadat fog jönni Elosztott környezetre történő tömeges adatbetöltés (bulk loading) vizsgálata Adatlokalitás megőrzésére törekvés

TÉRFELOSZTÁS, CSEMPÉZÉS Térbeli adateloszlása tetszőlegesen ferde lehet Hisztogram készítés (minden dim. mentén n részre) cellasúlyok Cellák csempékbe fogása úgy, hogy: a csempesúlyok nagyjából egyformák legyenek lehetőleg annyi csempe legyen, ahány szerver 16 11 14 6 14 7 13 11 9 15 0 20 5 4 9 6 = 160 = 4 = 40 = 4

TÉRFELOSZTÁS, CSEMPÉZÉS Hierarchikus csempézésre létezik hatékony algoritmus, amely az alábbi feladatot megoldja Optimalizációs feladat: c : pontok száma s : szerverek száma = Keressük azt a hierarchikus csempézést, melyre a csempék súlyai maximum, és a lehető legkevesebb csempét használjuk! Jó eset, ha a megoldás csempéinek száma (m) megegyezik s-sel 16 11 14 6 14 7 13 11 9 15 0 20 5 = 160 = 4 = 40 = 4 4 9 6

TÉRFELOSZTÁS, CSEMPÉZÉS Jelölje a csempe súlyokat w i (ahol: i=1..m) Mivel = =, ezért igaz, hogy, továbbá, ha =, akkor = minden csempére. Cellázás finomsága? Mennyi legyen az n? Alsóbecslés n-re:, ha d dimenziós térben vagyunk. Miért nem kd-fát építünk a hisztogramra? 0 7 0 5 8 10 4 12 15 4 19 27 6 17 21 13 = 168 = 5 = 33,6 = 8

h1 2. 3. h1 + h2 + h3 = 0 6 3 9 0 2 1 0 8 MÓDSZER Processing c1 Central Server h2 1. 4. Chunking Processing c2 h3 Processing c3

KÖSZÖNETNYILVÁNÍTÁS Munkánkat az OTKA-103244 pályázat támogatta.

HIVATKOZÁSI JEGYZÉK Bell, G., Hey, T., Szalay, A. (2009). Beyond the data deluge. Science, 323(5919), 1297-1298. Budavári, T., Dobos, L., & Szalay, A. S.: SkyQuery: Federating Astronomy Archives; Computing in Science and Engineering Volume 15 Issue 3, May 2013 Pages 12-20. Crankshaw, D., Burns, R., Falck, B., Budavári, T., Szalay, A. S., & Wang, J. (2013, July). Inverted indices for particle tracking in petascale cosmological simulations. In Proc. of the 25th Int. Conf. on Sci. and Stat. DB. Mgmt. (p. 25). ACM. Csabai, I., Trencseni, M., Herczegh, G., Dobos, L., Józsa, P., Purger, N., Budavari, T., & Szalay, A. (2012). Spatial indexing of large multidimensional databases. arxiv preprint arxiv:1209.6490. Muthukrishnan, S., Poosala, V., & Suel, T. (1999). On rectangular partitionings in two dimensions: Algorithms, complexity and applications. In Database Theory ICDT 99 (pp. 236-256). Springer Berlin Heidelberg. Smolin, L. (2013). Time reborn: From the crisis in physics to the future of the universe. Houghton Mifflin Harcourt. Szalay, A. S. & Blakeley, J. A. 2009. Gray's Laws: Database-Centric Computing in Science. The Fourth Paradigm Data Intensive Scientific Discovery. In Microsoft Research http://research.microsoft.com/en-us/collaboration/fourthparadigm/ http://www.ivoa.net/ http://www.lsst.org/lsst/ http://skyserver.sdss.org/ Felhasználtunk képeket FreeDigitalPhotos.net oldalról sheelamohan munkájából, továbbá az Observatoire de Genève oldaláról

Köszönöm a figyelmet!