SOKDIMENZIÓS TUDOMÁNYOS ADATHALMAZOK HATÉKONY KEZELÉSE

SOKDIMENZIÓS TUDOMÁNYOS ADATHALMAZOK HATÉKONY KEZELÉSE SZALAI-GINDL JÁNOS MÁRK TÉMAVEZETŐK: DR. CSABAI ISTVÁN ÉS DR. DOBOS LÁSZLÓ KOMPLEX RENDSZEREK FIZIKÁJA TANSZÉK EÖTVÖS LORÁND TUDOMÁNYEGYETEM

MOTIVÁCIÓ A csillagászati adatok mennyisége felvet informatikai problémákat Hogyan lehet sokdimenziós térbeli adatokat hatékonyan kezelni? Informatikai kihívások: számítógépek memória és háttértár címtere egydimenziós logikailag többdimenziós adatok fizikailag egy dimenzióra képezése csak szekvenciális olvasás megfelelő térfelosztás, indexelés tipikus kérdésekre rengeteg adat, elosztott környezet Fiatal Csillagász és Asztrofizikus Kutatók Találkozója - FIKUT2014

TÖBBDIMENZIÓS ASZTRONÓMIAI ADATOK Többdimenziós adatokra példák: az objektumok rektaszcenzió, deklináció és a vöröseltolódás értékeik alapján SDSS DB-ben az objektumok öt különböző színszűrőkhöz tartozó magnitúdóik adják az ötdimenziós tér egy pontját kozmológiai szimulációk részecskéi hétdimenziósak: a hagyományos térgeometriai dimenziók (3), sebesség dimenziók (3) és az idő (1)

GALAXISSPEKTRUMOK DIMENZIÓREDUKCIÓJA PCA =,,,, = = Σ (,,, ) = Fiatal Csillagász és Asztrofizikus Kutatók Találkozója - FIKUT2014

KOZMOLÓGIAI SZIMULÁCIÓK Nagy kozmológiai N-test szimulációk Futtatás különböző kezdeti értékkel A megfigyelt és szimulációs adatok összehasonlítása A szimulációk rengeteg adatot generálnak

KOZMOLÓGIAI SZIMULÁCIÓK Példa: az INDRA szimulációk (512 darab) Különböző kezdeti értékekkel, de azonos paraméterekkel 64 snapshot/szimuláció Snapshotonként több, mint 1 milliárd részecske Összesen 35 ezer milliárd részecskét követnek nyomon, ez 1.15 petabájtnyi mennyiséget jelent

FOTOMETRIKUS VÖRÖSELTOLÓDÁS BECSLÉS Az előbb említett színtér fontos: az SDSS DB-ben kb. 300 millió galaxis közül, csak kb. 1,8 milliónak van meg a vöröseltolódása Becslés egy olyan galaxisra, amelynek ez a paraméterértéke ismeretlen: a színtérben hozzá közeli galaxisokkal (tanítóhalmaz), amelyekre ez ismert

FOTOMETRIKUS VÖRÖSELTOLÓDÁS BECSLÉS Lineáris regressziós modell alkalmazásával: vöröseltolódás = a1 + a2*u + a3*g + a4*r + a5*i + a6*z (u, g, r, i, z a színtér koordinátaértékei) tanítóhalmaz behangolja a1-t,,a6-t, ezután már csak be kell helyettesíteni a galaxis fotometriai adatait DB használata hasznos, mert: a sok galaxis nem fér el a memóriában legközelebbi szomszédok kereséséhez támogatást nyújt

INDEXSTRUKTÚRÁK HASZNÁLATA Ahhoz, hogy gyorsan megtaláljunk egy pontot az adathalmazban, vagy megtaláljuk egy pont közeli szomszédjait, fel kell osztani a paraméterteret cellákra Cellákból sokkal kevesebb van, ezért azok között gyors a keresés Ezek után már csak a cellán belül kell keresni Előbbi példa alapján is fontos (legközelebbi szomszédok) Másik példa: szimulációknál adott részecske környezetét megkeresni egy adott tartományban Fiatal Csillagász és Asztrofizikus Kutatók Találkozója - FIKUT2014

KD-FA ÉPÍTÉSE A kd-fa építése egy hierarchikus térfelosztó algoritmus: meghatározzuk az adatpontokat befoglaló k dimenziós téglatestet megkeressük a pontok első koordináta szerinti mediánját, és azon a ponton a téglatestet felosztjuk két részre folytatjuk rekurzívan külön-külön a két résztéglatestre, mediánt pedig mindig a következő koordináta szerint vesszük (ha el fogytak elölről kezdjük) Fiatal Csillagász és Asztrofizikus Kutatók Találkozója - FIKUT2014

RENGETEG PONT SOK SZERVER Hagyományos módszer: adatok fájlokban elemző csomagok memóriában elférő adathalmazokon Már vannak CPU-k, amelyekkel 1-1,5 terabájt memória elérhető Többprocesszoros rendszerekkel még több Nagyon drágák, optimalizált memória használat nagyon komplex DB használat egyik előnye: elrejti ezeket

RENGETEG PONT SOK SZERVER Scale-out architektúra: elosztott környezet Szűk keresztmetszet: szerverek közötti hálózati sebesség Elengedhetetlen szempontok: lapelérések számának és szerverek közti várható kommunikáció időköltségének minimalizálása szerverek közti terheléselosztás kedvező legyen

TÖMEGES ADATBETÖLTÉS Tudományos adatok ritkán frissülnek, de abban a fázisban feltehető, hogy a forrásrendszerekből rengeteg nyersadat fog jönni Elosztott környezetre történő tömeges adatbetöltés (bulk loading) vizsgálata Adatlokalitás megőrzésére törekvés

TÉRFELOSZTÁS, CSEMPÉZÉS Térbeli adateloszlása tetszőlegesen ferde lehet Hisztogram készítés (minden dim. mentén n részre) cellasúlyok Cellák csempékbe fogása úgy, hogy: a csempesúlyok nagyjából egyformák legyenek lehetőleg annyi csempe legyen, ahány szerver 16 11 14 6 14 7 13 11 9 15 0 20 5 4 9 6 = 160 = 4 = 40 = 4

TÉRFELOSZTÁS, CSEMPÉZÉS Hierarchikus csempézésre létezik hatékony algoritmus, amely az alábbi feladatot megoldja Optimalizációs feladat: c : pontok száma s : szerverek száma = Keressük azt a hierarchikus csempézést, melyre a csempék súlyai maximum, és a lehető legkevesebb csempét használjuk! Jó eset, ha a megoldás csempéinek száma (m) megegyezik s-sel 16 11 14 6 14 7 13 11 9 15 0 20 5 = 160 = 4 = 40 = 4 4 9 6

TÉRFELOSZTÁS, CSEMPÉZÉS Jelölje a csempe súlyokat w i (ahol: i=1..m) Mivel = =, ezért igaz, hogy, továbbá, ha =, akkor = minden csempére. Cellázás finomsága? Mennyi legyen az n? Alsóbecslés n-re:, ha d dimenziós térben vagyunk. Miért nem kd-fát építünk a hisztogramra? 0 7 0 5 8 10 4 12 15 4 19 27 6 17 21 13 = 168 = 5 = 33,6 = 8

h1 2. 3. h1 + h2 + h3 = 0 6 3 9 0 2 1 0 8 MÓDSZER Processing c1 Central Server h2 1. 4. Chunking Processing c2 h3 Processing c3

KÖSZÖNETNYILVÁNÍTÁS Munkánkat az OTKA-103244 pályázat támogatta.

HIVATKOZÁSI JEGYZÉK Bell, G., Hey, T., Szalay, A. (2009). Beyond the data deluge. Science, 323(5919), 1297-1298. Budavári, T., Dobos, L., & Szalay, A. S.: SkyQuery: Federating Astronomy Archives; Computing in Science and Engineering Volume 15 Issue 3, May 2013 Pages 12-20. Crankshaw, D., Burns, R., Falck, B., Budavári, T., Szalay, A. S., & Wang, J. (2013, July). Inverted indices for particle tracking in petascale cosmological simulations. In Proc. of the 25th Int. Conf. on Sci. and Stat. DB. Mgmt. (p. 25). ACM. Csabai, I., Trencseni, M., Herczegh, G., Dobos, L., Józsa, P., Purger, N., Budavari, T., & Szalay, A. (2012). Spatial indexing of large multidimensional databases. arxiv preprint arxiv:1209.6490. Muthukrishnan, S., Poosala, V., & Suel, T. (1999). On rectangular partitionings in two dimensions: Algorithms, complexity and applications. In Database Theory ICDT 99 (pp. 236-256). Springer Berlin Heidelberg. Smolin, L. (2013). Time reborn: From the crisis in physics to the future of the universe. Houghton Mifflin Harcourt. Szalay, A. S. & Blakeley, J. A. 2009. Gray's Laws: Database-Centric Computing in Science. The Fourth Paradigm Data Intensive Scientific Discovery. In Microsoft Research http://research.microsoft.com/en-us/collaboration/fourthparadigm/ http://www.ivoa.net/ http://www.lsst.org/lsst/ http://skyserver.sdss.org/ Felhasználtunk képeket FreeDigitalPhotos.net oldalról sheelamohan munkájából, továbbá az Observatoire de Genève oldaláról

Köszönöm a figyelmet!