Dokkolás: mit, hogyan, mivel? Grolmusz Vince egy. tan. ELTE Matematikai Intézet & Uratim Kft. Iván Gábor és Szabadka Zoltán
Áttekintés 1. (Bevezetés) 2. A receptorfehérje és a ligand modellezése 3. A kötési energia modellezése 4. Optimalizálás a ligand konformációs terében 5. A dokkolóalgoritmus értékelése 6. Dokkolás PC-kből álló klaszteren 7. (Összefoglalás) 2010.12.11. 2
Áttekintés 1. (Bevezetés) 2. A receptorfehérje és a ligand modellezése 3. A kötési energia modellezése 4. Optimalizálás a ligand konformációs terében 5. A dokkolóalgoritmus értékelése 6. Dokkolás PC-kből álló klaszteren 7. (Összefoglalás) 2010.12.11. 3
Bevezetés: In silico gyógyszerkutatás Virtuális gyógyszerkutatás: labor helyett számítógéppel. Ma még nem megy: Modellek (fehérje szerk.) nem pontosak; Módszerek: közelítőek, így pontatlanok Arra jó, hogy ötleteket adjon, illetve hogy szűkítse a vizsgálandó molekulák számát. 2010.12.11. 4
Honnan szedjük a célpontokat? Konzultálunk biológusokkal, mit érdemes támadni (ezek többnyire fehérjék); 23 000 fehérjét kódoló humán gén van, ennél több fehérje. 200-300 ma használt célpont van (!) Keresünk a fehérjehálózatban fontos célpontot (következő előadáson). 2010.12.11. 5
Célpont struktúrája: Fehérje 3D struktúra Legjobb forrás: A PDB (Protein Data Bank) Annotált változatok: PDBSum Wiki változat: wikipdb.org PDB javító, elemző program: decomp.pitgroup.org 2010.12.11. 6
Honnan szedjük a kismolekulákat? Jó lenne: valódi drogkönyvtárakból. Baj van: Nagy gyáraknak van ilyen; Kicsik azt állítják, hogy van nekik ilyen, de Miért nehéz fizikailag fenntartani több százezer molekulát? 2010.12.11. 7
Virtuális (in silico) könyvtárak Miért jó? Nem romlik meg, Könnyen megosztható Nem kell fizikailag megvenni, csak azt, ami jó. A leghíresebb ilyen a ZINC (UCSF, Shoichet Lab); 13 millió megvásárolható molekulát tartalmaz 2010.12.11. 8
A ZINC egy oldala 2010.12.11. 9
Bevezetés: a dokkolási feladat Adott: egy fehérje és egy kismolekula (ligand) háromdimenziós térszerkezete. Szeretnénk számítógépes szimulációval modellezni a fehérje és a ligand vizes oldatbeli kölcsönhatását: (1) megjósolni a fehérje-ligand komplex képződése során keletkező szabadenergia-változást, és (2) megjósolni a fehérje-ligand komplex térszerkezetét. Két alapvető részfeladat: Scoring : A ligand adott konformációjához egy energiaérték rendelése (a fehérjét merevnek fogjuk tekinteni) Dokkolás: A fenti energiafüggvény minimalizálása a ligand konformációinak terében 2010.12.11. 10
Áttekintés 1. (Bevezetés) 2. A receptorfehérje és a ligand modellezése 3. A kötési energia modellezése 4. Optimalizálás a ligand konformációs terében 5. A dokkolóalgoritmus értékelése 6. Dokkolás PC-kből álló klaszteren 7. (Összefoglalás) 2010.12.11. 11
A receptor és a ligand modellezése Receptoratomok attribútumai: Atom típusa: { H, C, N, O, S, P } Receptoratom koordinátái: 3D vektor Partial charge O és H atomokhoz további paraméterek az energiafüggvény hidrogénhíd-kötéseket modellező tagjához (nemkötő elektronpárok elhelyezkedése stb.) Ligand: Atomtípusok: { H, C, N, O, S, P, F, Cl, Br, I} Ligandatom koordinátái Kötések típusa: { forgatható, nem forgatható }; (hányszoros; aromás-e; ) forgatható kötések = amelyek legalább egy nehézatomot forgatnak, és mindkét végpontjuk legalább 2-fokú ponthoz (atomhoz) csatlakozik 2010.12.11. 12
Áttekintés 1. (Bevezetés) 2. A receptorfehérje és a ligand modellezése 3. A kötési energia modellezése 4. Optimalizálás a ligand konformációs terében 5. A dokkolóalgoritmus értékelése 6. Dokkolás PC-kből álló klaszteren 7. (Összefoglalás) 2010.12.11. 13
A dokkoláshoz használt energiafüggvény 2010.12.11. 14
A dokkoláshoz használt energiafüggvény 1.: Lennard-Jones potenciál Szumma: a fehérje és a ligand összes lehetséges nehézatompárjára (persze úgyis csak az egymáshoz aránylag közeliek számítanak) Szénatomhoz kapcsolódó H-atomok: külön atomtípusként Az L-J potenciál r ij -től, azaz a két atom távolságától függ Az A és B együtthatók értéke a két atomhoz tartozó van der Waals sugaraktól függ Kb.: hol legyen az L-J potenciálfv. minimumhelye 2010.12.11. 15
A dokkoláshoz használt energiafüggvény 2.: Hidrogénhíd-kötések Nagy elektronegativitású poláris atom ( = akceptor) és hidrogén, vagy más poláris atom ( = donor) között jön létre Erőssége nemcsak a résztvevő atomok távolságától, de a hidrogénhidat alkotó funkciós csoportok térbeli helyzetétől is függ Szögfüggő tényező A Lennard-Jones potenciálhoz hasonló függvény, annál gyorsabban konvergál a nullához + -ben. 2010.12.11. 16
A dokkoláshoz használt energiafüggvény 3.: Elektrosztatikus kölcsönhatás q i, q j : partial charge : olyan pontszerű töltések, amelyeket az egyes atomok pozíciójában elhelyezve a keletkező elektrosztatikus tér jól közelíti a valósat Az oldószernek az elektrosztatikus potenciált befolyásoló hatása távolságfüggő dielektromos állandó bevezetésével vétetik figyelembe (ε), bővebben itt nem részletezzük 2010.12.11. 17
A dokkoláshoz használt energiafüggvény 4.: Torziós energia-tag A fehérjéhez való kötés során a kismolekula a fehérje-ligand komplex részévé válik, ezáltal a forgatható kötések általi szabadsági fokai elvesznek; a ligand egy jól definiált konformációban stabilizálódik A ligand entrópiája emiatt csökken; a csökkenés mértéke arányos a ligand adott energiaszinten lehetséges mikroállapotai számának logaritmusával Minden forgatható kötés háromféle stabil állapotban létezhet az entrópiaveszteség éppen a forgatható kötések számával arányos (az arányossági tényezőt pedig már belevettük a modellbe, azt itt nem kell még egyszer szerepeltetni) 2010.12.11. 18
A dokkoláshoz használt energiafüggvény 5.: Vízmolekulák aggregált figyelembe vétele Az oldatbeli szabadenergiaváltozást modellezi (anélkül, hogy minden egyes vízmolekulával egyenként számolnunk kellene) Szumma: a fehérje összes nehézatomjából és a ligand összes szénatomjából álló atompárra V i : fragmental volume (minden fehérjeatomhoz eltároltuk), S j : solvation parameter (minden ligandatomhoz rendelkezésre áll) A szummázás során a két fenti tényező szorzatát az aktuális atompár távolságának Gauss-függvényével súlyozzuk. 2010.12.11. 19
A dokkoláshoz használt energiafüggvény 6.: A ligand belső energiája A ligand kovalens kötésekkel meghatározott geometriája a dokkolás során nem változik, így az alábbi szumma csak a ligand kovalensen nem kötő atompárjaira vonatkozik A ligand belső energiáját a molekulán belüli van der Waals kölcsönhatások összegével modellezzük: E i ( L) = i, j L A r ij 12 ij B r ij k ij 2010.12.11. 20
Az energiafüggvény előzetes számítása háromdimenziós rácson Mivel a fehérjét merevnek fogjuk majd tekinteni, elegendő lesz az alábbi 3D-s potenciálfüggvényeket egy 3D-s rács (grid) rácspontjaiban kiszámítanunk: E t P (x) : egyetlen ligandatomnak a teljes fehérjével való interakciójának energiája (minden lehetséges ligandatomtípusra kiszámoljuk ez kb. 10 atomtípus) Q P (x) : elektrosztatikus potenciál a fehérje környezetében A fenti mennyiségek használatával az energiafüggvény az alábbi alakba írható: E( P, L) = j L ( ) t EP ( x j ) + q jqp ( x j ) + Etor Ntor j 2010.12.11. 21
Az energiafüggvény előzetes számítása háromdimenziós rácson A rácson mintavételezett értékekből a függvényeket harmadrendű B-spline approximációval közelítjük (később részletesebben), ennek előnyei: Egy adott helyen (=ligandkonformációban) való kiértékeléshez csak kb. 100 szorzás több tízezer helyett Az energiafüggvényt ezzel egyszersmind kétszer folytonosan differenciálhatóvá tesszük Ezen kívül figyelembe kell venni a ligand belső energiáját is (már utaltunk rá, van der Waals-jellegű): E i ( L) = i, j L A r ij 12 ij B r ij k ij 2010.12.11. 22
A 3D rács (grid ) rácspontjai közötti függvényértékek approximálása 2010.12.11. 23
B-spline approximáció 2010.12.11. 24
B-spline approximáció Az f függvényt egyenletes lépésközzel mintavételezzük, és a mintavételezési pontok között a bázisfüggvények segítségével (jobb oldali ábra ) approximáljuk Mivel az l lépésköz állandó, az (egyelőre egydimenziós) f függvényünket egyenletesen mintavételezzük; ekkor uniform B- spline approximációról beszélünk. A B-spline-nal approximált függvény: 2010.12.11. 25
Harmadrendű uniform B-spline approximáció 2010.12.11. 26
Áttekintés 1. (Bevezetés) 2. A receptorfehérje és a ligand modellezése 3. A kötési energia modellezése 4. Optimalizálás a ligand konformációs terében 5. A dokkolóalgoritmus értékelése 6. Dokkolás PC-kből álló klaszteren 7. (Összefoglalás) 2010.12.11. 27
A ligand konformációs terének paraméterezése A célfüggvény független változói (n+6 dimenziós*): x 0, y 0, z 0 φ 0, ψ 0, θ 0 φ 1, φ 2,, φ n A ligand helyvektora A ligand orientációját jellemző szögek A ligand forgatható kötései menti torziós szögek F( x) = Eˆ( P, L( x)) + E i ( L( x)) i E ( L) = i, j L A rij ij 12 B ij 6 ij r *: A továbbiakban a függvény dimenziószámát n -nel jelöljük. 2010.12.11. 28
Egy lokális optimalizáló algoritmus általános struktúrája Bemenet: a függvény és a tér egy pontja Ciklus: Leállási feltétel: Választunk egy irányt Az aktuális pontból ebben az irányban végzünk egy 1D-s minimalizálást Az új pont az így megtalált minimum lesz Amíg a gradiensvektor normája elég kicsi nem lesz 2010.12.11. 29
Egy lokális optimalizáló algoritmus általános struktúrája Bemenet: a függvény és a tér egy pontja (a kiindulópont) Inicializálás: Ciklus: Leállási feltétel: p x g p g 0 = g 0 = f x k + 1 k + 1 k + 1 = x k = f = g k + 1 + α p k ( x k + 1 k k ) + β p 1 < f 1 f ( x) k + ε + ( 0 ) k 2010.12.11. 30
Lokális optimalizálás konjugált gradiens módszer(ek)kel Konjugált gradiens módszer (CGM): speciális lokális optimalizáló algoritmus, melynél az irányparamétert (β) az alábbiak szerint számoljuk ki (~korábbi irányt minden n+1-edik lépésben elfelejtjük): Tétel (Fletcher, Rieves): ha az optimalizálásban részt vevő függvényünk kvadratikus, és a lépésköz paraméterét (α) úgy választjuk meg, hogy a keresési irányok páronként ortogonálisak legyenek, akkor a CGM algoritmus legfeljebb n Lépésben megtalálja a lokális optimumot. ( Lépés = n db lépés ) Jelentősége: A B-spline-okkal approximált energiafüggvényünk kétszer folytonosan differenciálható a minimum környezetében Taylor-sorba fejthető az algoritmusunk gyorsan konvergál majd a lokális optimumhoz. 2010.12.11. 31
A globális optimum megtalálásához használt heurisztikák Multi-Start (MS): véletlenszerűen sorsolt (mondjuk 1000 darab) ligandkonformációkkal indítjuk a lokális optimalizálást, és végeredményként a legkisebb energiájú megtalált lokális optimumot jelenítjük meg. Kompetitív Multi-Start (CMS): A MS kiegészítése az alábbi heurisztikákkal: Csak néhány lépést engedünk meg lefutni a lokális optimalizálásokból Az aktuális konformációkat rendezzük energia szerint, és csak a legkisebb energiájú 10 %-ukat tartjuk meg Erre a 10%-ra tovább futtatjuk a lokális optimalizálást 10- szer több lépésben Ha már csak egy konformáció marad, megállunk 2010.12.11. 32
Áttekintés 1. (Bevezetés) 2. A receptorfehérje és a ligand modellezése 3. A kötési energia modellezése 4. Optimalizálás a ligand konformációs terében 5. A dokkolóalgoritmus értékelése 6. Dokkolás PC-kből álló klaszteren 7. (Összefoglalás) 2010.12.11. 33
A dokkolóprogram értékelése II.: A teszthalmaz validálása A fehérje-ligand komplex teszthalmazban szereplő konformációja A fehérje-ligand komplex valós konformációja: homodimer fehérje 2010.12.11. 34
Áttekintés 1. (Bevezetés) 2. A receptorfehérje és a ligand modellezése 3. A kötési energia modellezése 4. Optimalizálás a ligand konformációs terében 5. A dokkolóalgoritmus értékelése 6. Dokkolás PC-kből álló klaszteren 7. (Összefoglalás) 2010.12.11. 35
Az in-silico screening munkafolyamat 3D fehérje-térszerkezet (PDB formátumban) Fehérje előkészítése Receptor specification file Dokkolóalgoritmus B-spline approx. Globális keresés Lokális optimalizálás ZINC kismolekulaadatbázis (2-5 millió ligand) Energiaszámítás Legjobb 1000 ligand 3D energia-rács (grid) Oldhatóság jóslása Inhibitor-jelöltek 2010.12.11. 36
A dokkolóprogram párhuzamos futtatása I. Egy kismolekula dokkolása: néhány perc A jelenleg használt kismolekula-adatbázis (ZINC7.purchasable) mérete: kb. 2.5 millió kismolekula A dokkolóprogramot párhuzamosan futtatjuk egy tetszőleges számú és földrajzi helyű PC-t tartalmazó klaszteren: Előre kiszámoljuk:.pdb.rsf grid Egyetlen központi szerver vezérli a dokkolást: grid és feladatok kiosztása, eredmények begyűjtése, dokkoló PC-k állapotának figyelése Utófeldolgozás: energia újraszámolása az eredeti energiafüggvénnyel, a legjobb k találat konformációjának legyártása.pdb formátumban 2010.12.11. 37
A dokkolóprogram párhuzamos futtatása II. A dokkolást felügyelő gép (datamine.cs.elte.hu): MySQL adatbázisban nyilvántartja A teljes ZINC7 adatbázist A dokkolásra előkészített gépek IP címét, processzormagok számát, állapotát Dokkolási eredményeket A dokkolást befolyásoló paraméterek (nem teljes lista): Lokális optimalizáláshoz sorsolt kezdőpozíciók száma Véletlen kezdőpozíciók sorsolásához használt véletlenszámgenerátort inicializáló szám (seed) (elméletben legalábbis) reprodukálható eredmények Mely ligandok szerepeljenek a dokkolásban Mely gépek dokkoljanak Az energiafüggvény együtthatói ( stb.) 2010.12.11. 38
2010.12.11. 39
Néhány eredmény Találatok az MTB Phosphoribosyl Isomerase enzimén (PDB kód: 2bnt) Találat az MTB dutp diphosphatase enzimjén 2010.12.11. 40
Áttekintés 1. (Bevezetés) 2. A receptorfehérje és a ligand modellezése 3. A kötési energia modellezése 4. Optimalizálás a ligand konformációs terében 5. A dokkolóalgoritmus értékelése 6. Dokkolás PC-kből álló klaszteren 7. (Összefoglalás) 2010.12.11. 41
További gondok: Hardver elavul Megvannak a jó molekula-találatok a ZINC-ből. Ezt meg kell rendelni. Lehet, hogy nem tudnak szállítani; Szállítanak, de nem azt, vagy nem elég jó tisztaságban; Nem árt, ha van szintetikus kémiai háttér, és analitika is. 2010.12.11. 42
Ha komoly molekuláink vannak: Jó minőségben, aránylag nagy mennyiségben gyártani kell; Elsődleges farmakológiai, hatásvizsgálatok: pár tíz mg; Pre-klinika: akár pár kg kell! Itt már nem virtuális világ van 2010.12.11. 43
Köszönöm a figyelmet!