Bioinformatikai és orvosbiológiai Grid alkalmazások az Egyesült Királyságban M. Kozlovszky MTA SZTAKI m.kozlovszky@sztaki.hu www.eu-egee.org egee EGEE and glite are registered trademarks
NGS Grid infrastruktúra National Grid Service (NGS) UK akadémiai kutatói grid hálózat 4 főbb site CCLRC Rutherford Appleton Laboratory University of Manchester University of Oxford White Rose Grid (University of Leeds) További site-ok University it of Bristol Cardiff University Lancaster University University of Westminster University of Glasgow (ScotGrid)
Enabling Enabling Grids Grids for for E-sciencE E-sciencE User requests National Grid Service (NGS) DataSets info Information Service Köztesréteg Data Management Author. &Authen. querie s Workload Management Site X Pub lication Sites Resources Indexin ng Computing Resources Storage Resources Dynamic evolution Logging, real lti time monitoring i 3 EGEE-II EGEE-II INFSO-RI-031688 INFSO-RI-031688 3
W-Grass Westminster Grid Application Support Service University of Westminster, London, UK http://wgrass.wmin.ac.uk ac Célja a nagy erőforrásigényű alkalmazások gridesítésének támogatása Felhasználói igények és technológiai megoldások közelítése Alkalmazások analízise Tudásátadás, oktatás Használt Grid infrastruktúrák: Szerviz Grid-ek Enabling Grids for e-science (EGEE) National Grid Service (NGS) Open Science Grid (OSG) TeraGrid (TG) BOINC alapú Desktop Gid Gridek NGS Portal (P-GRADE Portal alapú) https://grid2-portal.cpc.wmin.ac.uk:8080/gridsphere/gridsphere
Referencia alkalmazások (szerviz grid-ek) Enabling Grids for E-sciencE Video Rendering elosztott renderelő alkalmazás - Centre for Parallel Computing, UoW In silico modelling Autodock-al - Department of Molecular & Applied Biosciences, UoW Traffic Grides e-learning portal transport és logisztika oktatáshoz Logistics and Supply Chain Management MSc tárgyhoz, UoW DASP - Digital Alias-free Signal Processing, optimális nemhomogén mintavételezési frekvencia számoláshoz- Centre for System Analysis Research Group, UoW CHARMM Makromolekula szimulációk (energia minimalizáció & molekula dinamika) - Johns Hopkins University Patient readmission analysis with R - Health and Social Care Modelling Group, UoW GAMESS-UK - ab initio molekula elektromos struktúra elemző alkalmazás MultiBayes - DNS szekvencia analizáló program, School of Animal and Microbial Sciences, University of Reading
Referencia alkalmazások (DG) Protein Molekula Szimulátor - Department of Molecular & Applied Biosciences, UoW 3D Video Rendering elosztott videó renderelő alkalmazás - Centre for Parallel Computing, UoW Patient readmission analysis with R - DG verzió
Autodock alkalmazás Autodock alkalmazás Dokkolási eseményekhez használható szoftver szimulációs eszközöket tartalmaz (in silico) Kis molekulák, gyógyszer alkotóelemek receptorokhoz, vagy ismert 3D szerkezethez e e e történő ő kapcsolódásához o Felhasználási területek Röntgen kristallográfia Struktúra alapú gyógyszertervezés Kémiai mechanizmusok vizsgálata Fehérje-fehérje dokkolás Szabad szoftver Erősen számolásigényes feladat Ligand torzulás, dokkolási energia paraméterek, stb. 1 dokkoláshoz kb.: 100 iteráció (~5 millió ellenőrzéssel) 50 CPU óra Bővebb információ autodock-ról: http://autodock.scripps.edu/
Autodock gridesítés Partner: Department of Molecular & Applied Biosciences at the University of Westminster Felhasznált megoldás Script-ek, automatikus paraméter vizsgálat megvalósítással A két program gridesítése AutoGrid futtatás AutoDock futtatás Megtakarítás több ezer autodock szimuláció: hónapokban mérhető További információ:http://wgrass.wmin.ac.uk/index.php/w-grass:autodock i f á ió
Charmm CHARMM (Chemistry at HARvard Macromolecular Mechanics) Atom molekula dinamikai (MD) szimulátor Érdekes molekulákhoz használják (fehérjék, aminosavak, stb.) Mozgásegyenletek megoldása a feladat (Newton törvények) Atomi koordinátákkal dolgozik Energia minimalizáció, molekula dinamika Verziói vannak soros és párhuzamos futtatáshoz, különböző számítógép platformokra Bővebb információ Charm-ról:http://www.charmm.org/
Charmm működés leírás Többfázisú egymásra épülő fázisok Felfűtés, egyenlősítés, futtatási fázis, analízis fázis A kapott adatokat később a Charmm analízis szoftvereivel lehet tovább elemezni Nagy molekulastruktúrák l ktú az érdekesek k A szimuláció néhány ns időtartományt kezel (max. ms tartomány) Általában ms feletti időtartományokra van szükség
Charmm alkalmazás gridesítése Enabling Grids for E-sciencE Partner: Johns Hopkins University Téma: Molecular Dynamics Study of Water Penetration in Staphylococcal Nuclease Gridesítés megoldása P-GRADE Portal felületen Nagy erőforrásigény Megoldás multi-grid használat (egyidejűleg) National Grid Service (NGS) TeraGrid (TG) Open Science Grid (OSG). Szekvenciális feladatok, munkafolyamat gráfba rendezve, többszörös párhuzamos futtatás
R programcsomag R = nyelv és programcsomag Statisztikai feladatok (lineáris, nem lineáris modellezés, idősoranalízis, klaszterezés, stb.), grafikai feladatok GNU projekt Hasonlít az S nyelvhez Bővebb információ: http://www.r-project.org/
R környezet gridesítése Népegészségügyi téma Szerviz és Desktop Grid verzió Partner: Health and Social Care Modelling Group Téma: Patient t readmission i analysis with R Szerviz Grid / Desktop Grid Input: Hospital Episode Statistics adatbázis (HES) Adatmennyiség: 7 év 04/1997-03/2004 (~80 millió esemény) Statisztikai elemzése az adatbázisnak A pontossághoz: nx1000 iteráció Párhuzamos működés
Információk További információk: http://wgrass.wmin.ac.uk/index.php/w-grass:autodock http://wgrass.wmin.ac.uk/index.php/w-grass:charmm http://wgrass.wmin.ac.uk/index.php/w-grass:r http://wgrass.wmin.ac.uk/index.php/desktop_grid:autodockwmin ac php/desktop http://wgrass.wmin.ac.uk/index.php/desktop_grid:r P-GRADE Portal honlap http://portal.p-grade.hu t h LPDS honlap http://www.lpds.sztaki.hu p Köszönöm a figyelmet! Kérdések?
Plusz slide-ok: MultiBayes Feladat: Phylogenetikai fa készítés DNS szekvenciákból Monte Carlo Markov láncokat készít fajokra lebontva Soros változata a programnak: binárist futtat, dinamikus linkelést használ a program Input file-ban megkapja a paramétereket 3 output file-t készít az eredményekből (nagy file-ok) A szolgáltatás GEMLCA Grid szolgáltatásként érhető el (tehát nem binárist használ)