CancerGrid - Grid alkalmazása rákellenes hatóanyagok keresésének felgyorsítására Kovács József smith@sztaki.hu MTA SZTAKI Networkshop, Debrecen 2010
Tartalom A CancerGrid projekt Főbb adatai/célja Rövid vegyészeti háttere Számítási alkalmazások / algoritmusok Összetett alkalmazások SZTAKI Desktop Grid guse portál CancerGrid infrastruktúra
A CancerGrid projekt Alapadatok Cím EU Framework Program 6 (FP-6, 2006-2010) Life sciences, genomics and biotechnology for health FP6-2005-LIFESCTHTALTH-7 Proposal No.: 37559 Grid Aided Computer System For Rapid Anti-Cancer Drug Design Projekt időtartam 2007 Január 1, 2010 Június 31 Költségvetés Teljes: 3,847,425 EUR Támogatás: 2,804,075 EUR Elérhetőség www.cancergrid.eu
A CancerGrid konzorcium TargetEx, Inc., Hungary (coordinator) [chemistry] AMRI Hungary, Inc., Hungary [chemistry] Inte:Ligand, Austria [chemoinformatics] Tallinn University of Technology, Estonia [chemoinformatics] University of Helsinki, Finland [biotechnology] GKI Economic Research, Hungary [economics] SZTAKI, Hungary [computer science] University of Jerusalem, Israel [chemoinformatics] DAC, Italy [biotechnology] University of Bari, Italy [chemistry] University of Pompeu Fabra, Spain [chemoinformatics]
A CancerGrid projekt fő céljai 1. fókuszált, rákellenes molekulákat nagy eséllyel tartalmazó kémiai könyvtárak kifejlesztése, 2. a betegséggel összefüggő citotoxicitás előrejelzésére alkalmas modellek kialakítása, a kináz/hdac/mmp és egyéb enzim inhibíciós folyamatok és receptor antagonizmusok modellezése a HTS eredmények felhasználásával, illetve 3. olyan Grid-technológián alapuló számítógépes rendszer kifejlesztése, amelynek segítségével felgyorsítható és automatizálható a gyógyszertervezés in silico fázisa. Ez a rendszer remélhetőleg alkalmas lesz más célfehérjemolekulákra épülő gyógyszerkutatási projektek kémiai könyvtártervezésének felgyorsítására is.
Gyógyszerkutatás
Molekulatervezés Struktúra Tulajdonság N N O N N OH Tulajdonság-becslés Struktúratervezés Biológiai IC 50; LD 50 Fizikokémai logp; pk a ; TPSA Kémiai LogK; % yield
Kvantitatív szerkezet-hatás összefüggések QSAR (Quantitative Structure-Activity Relationship) módszer, szerves vegyületek, gyógyszermolekulák kémiai szerkezete és biológiai, toxikológiai vagy farmakológiai hatásai közötti kvantitatív összefüggéseket vizsgálja és lehetővé teszi egy szerkezetileg rokon molekula hatékonyságának matematikai és statisztikai módszerekkel való előrejelzését. A molekulák biológiai hatékonyságát assay-kel (biológiai próbákkal) mérik amelyekben meghatározzák a gátlási szintet bizonyos jeltovábbítási vagy metabolikus folyamatokban. A gyógyszerkutatásban gyakran használnak QSAR módszereket olyan szerkezetek azonosításához amelyeknek jó gátló hatásuk van bizonyos specifikus biológiai célpontokon viszont alacsony a toxicitásuk (nem-specifikus aktivitásuk). A 3D-QSAR három dimenziós szerkezet-hatás összefüggések vizsgálatával foglalkozik. Ilyenkor a molekulák 3D szerkezetét (konformációját) vizsgálják. Forrás: hu.wikipedia.org/wiki/kvantitatív_szerkezet-hatás_összefüggések
QSAR modellépítés és tulajdonság-becslés O OH Mért tulajdonság adatok (IC 50, LD 50, logp, stb.) N N N N O OH 2D-3D struktúra konvertálás (molekula mechanika) QSAR modell építése (BMLR, PLS, PCR, ANN) Becslési algoritmus 3D struktúra optimalizálása (kvantumkémia) Molekuláris deszkriptorok számítása Becsült tulajdonság adatok (IC 50, LD 50, logp, stb.)
A deszkriptor osztályok áttekintése Kvantumkémiai Számítás időigénye Topológiai Geometriai Elektrosztatikai Konstitúciós Információ tartalom
Alkalmazások CancerGrid-ben A projekt infrastruktúrájában jelenleg elérhető biokémiai alkalmazások Cmol3d 2D/3D molekula konverter Konformer generátor és kiválasztó algoritmus Mopac (quantum chemical calculation software) Qvantum kémiai számításokat végző eszköz MDC (molecule descriptor calculation) Deszkriptor számoló eszköz (Codessa programcsaládból) Fmt (matrix forming application) Deszkriptor mátrix készítő eszköz MDA (model building and prediction) QSAR model készítő eszköz
Segéd alkalmazások A projekt infrastruktúrájában jelenleg elérhető egyéb kiegészítő eszközök: File konverterek XML SD XML XML MOL MOL PROP DESC Adatbázis beszúró/kiolvasó eszközök DBread molekula property deszkriptor DBwrite konformer deszkriptor model deszkriptor
Összetett alkalmazások (workflowk) a CancerGrid projektben Deszkriptor számítás Tulajdonság előrejelzés Model építés Virtual Screening
Desktop Grid, mint végrehajtó rendszer Cél: szabad erőforrások kihasználása
SZTAKI Desktop Grid: BOINC projekt http://szdg.lpds.sztaki.hu/szdg
SZTAKI Desktop Grid: BOINC kiterjesztések SZTAKI Desktop Grid egy BOINC alapú rendszer kiegészítése különböző fejlesztési irányokba: BOINC server debian csomagolása Alkalmazás programozói interfész: DC-API Integráció különböző job menedzserekkel: pl.: Condor Különböző nem DG típusú alkalmazások támogatása: pl.: Java, MPI BOINC projektek teljesítményének egyesítése: hierarhikus DG-k Alkalmazások portolásának könnyítése: genwrapper Biztonsági fejlesztések: jogosítványok bevezetése, sandboxing Feladat (job) generálás könnyítése: 3GBridge Többségük letölthető a www.desktopgrid.hu címről, a többi fejlesztés alatti, kérhető innen desktopgrid@lpds.sztaki.hu
Alkalmazás a DesktopGriden Speciális előkészületet igényel, a BOINC API-t kell használnia Fájlkezeléshez Indítás után Init(), minden kilépési pontnál finish() függvények Eseményfigyelés állapotlementéshez Alkalmazás csak egy binárisból állhat, nem indíthat továbbiakat BOINC kliens Alkalmazás
Alkalmazás a DG-en GenWrapper-el alkalmazás fejlesztőnek nem kell ismernie a BOINC alkalmazások fejlesztési metodológiáját meglévő szekvenciális alkalmazásokat módosítás nélkül tudja futtatni egy shell szkript segítségével az alkalmazás több binárisból is állhat, egy bináris indíthat másikat is Főbb technikai paraméterek: Cross-platform: Windows, Linux, Mac OS X Flexibilis: POSIX Shell környezetet biztosít beépítve tartalmazza az összes főbb UNIX shell parancsot (pl.: sed, grep, awk, unzip, gzip, tar) Alkalmazások indítása shell szkripből történik Indítás előtt/ után tetszőleges előkészítő/ takarító függvények lehetnek olyan alkalmazást is be tudunk így illeszteni, amely forrásához nem ferünk hozzá BOINC kliens GenWrapper Szkript myprg $* Alkalmazás
Workflowk a guse/ws-pgrade rendszerben Külön alkalmazás-logika és adat Cross & dot product adatpárosítás 50 20 40 Generátor komponens: 1 inputból sok output készítése Kollektor components: sok inputból 1 output készítése Bármely komponens lehet generátor v. kollektor. Feltételes végrehajtás Beágyazás Rekurzió 1000 5000 5000 1 40 1 7042 tasks
guse Aciklikus workflow Feladat dedikált gépre Feladat glite VO-ba Feladat Globus 2 VO-ba Feladat Globus 4 VO-ba Feladat Desktop Grid-be Web service hívás Adatbázis manipuláció (R / W) File kliens gépről File GridFTP-ről File LFC katalógusból Szöveg Adatbázis lekérdezés eredménye
Portál DG jobs Local jobs workflowk kezelése 3G Bridge Job 1 Job 2 Job N Local Resource molekulák vizsgálata BOINC server WU 1 WU 2 WU N Portal Storage BOINC client GenWrapper for batch execution WU X Legacy WU Y Application Legacy Application Portál és DesktopGrid szerver molecule database DG kliensek a partnerektől Molekulaadatbázis szerver
A CancerGrid portál kezelőfelülete Workflow futtatás Workflow fejlesztés& konfiguráció Algoritmusok konfiguráció A CancerGrid portal által integrált komponensek Molekula adatbázis böngésző Struktúra megjelenítő
Molekula adatbázis kezelő felület
Példányosítás
Workflow konfiguráció
Workflowk listája
Job példány állapot (Részletes nézet)
guse alkalmazás monitor
Kliens monitor
A rendszer számokban Statisztika kb. 70 gép van csatlakoztatva a rendszerhez kliensként, új gépek beállítása az útóbbi időszakban folyamatos Mindössze 1 központi szerver, amelyet üzemeltetni kell (a kliensek nem igényelnek felügyeletet!) 13 algoritmus került beépítésre 4 workflow elérhető a rendszerben jelenleg 5-6 konzorciumi partner használta ezidáig különböző célokra Teljesítmény Pl. deszkriptor számítás 30.000 vegyületre (10 konformerrel) mindössze 5 nap alatt (ez a következő algoritmusok futását jelenti: CMOL3D, MOPAC és MDC). 1 PC-vel ez kb. 1 évig tartana Megjegyzés: Vannak gyorsabb algoritmusok, de a jelenleg használt számításintenzív algoritmusok sokkal hatékonyabban használják ki a Grid-et. A konformerek csökkentésével és a gépek növelésével a teljesítmény könnyen akár 100-szorosára is nőhet, azaz lehetőség van milliós számú molekulák 1 hét alatti feldolgozására. Jelenleg ez az irány
Konklúzió A CancerGrid projektben kifejlesztésre került egy zárt desktopgrid rendszer, melyet egy portálon keresztül hajtunk meg összetett alkalmazásokkal Tehát elkészült egy keretrendszer mely áll egy böngészőből elérhető portálból egy hozzáillesztett desktop grid szerverből alkalmazások desktop grides integrációját segítő eszközökből A keretrendszert a konzorciumi tagok segítségével kiegészítettük alkalmazásokkal/algoritmusokkal erőforrásokkal összetett (workflow) alkalmazásokkal tetszőleges kezelő felülettel Maga a keretrendszer tetszőleges igényekre szabható
További technikai információk a desktopgrid@lpds.sztaki.hu címen vagy a www.desktopgrid.hu oldalon Acknowledgement: CancerGrid EU FP6 project (FP6-2005-LIFESCTHTALTH-7) http://www.cancergrid.eu