8. A fehérjék térszerkezetének jóslása A probléma bonyolultsága Általánosságban: találjuk meg egy tetszõleges szekvencia azon konformációját, amely a szabadentalpia globális minimumát adja. Egyszerû modellekben kimutatható: a feladat ún. NP nehéz, vagyis a megoldásához szükséges idõ a (fehérje)mérettel nempolinomiális függvény szerint (hanem annál gyorsabban) növekszik. (Vagyis bizonyos mérethatár fölött nem megoldható.) Gyakorlatban: a valódi fehérjék szekvenciái nagyon specifikusak (evolúció során kiválogatódtak); a predikcióhoz felhasználhatjuk a már ismert térszerkezeteket mint tudásbázist A gyakorlatban tehát a probléma kezelhetõ. CASP ok CASP: Critical Assessment of Methods of Protein Structure Prediction (fehérjeszerkezet jóslási módszerek kritikai felülvizsgálata): kétévenként megrendezett "verseny" a predikcióval foglalkozó kutatócsoportok között CASP1 (1994), CASP2 (1996), CASP3 (1998), CASP4 (2000). CAFASP1 (1998), CAFASP2 (2000): FA=Fully Automated: teljesen automatikus módszerek ellenõrzése Forgatókönyv: Röntgenes és NMR es csoportoktól begyûjtik azon fehérjék szekvenciáit, melyek szerkezete várhatóan rövidesen ismertté válik a kutatócsoportok néhány hónap alatt ezekre predikciókat küldenek be decemberben (mikor már megvanak a kísérleti szerkezetek) összeülnek és megbeszélik az eredményt; a legsikeresebb jósok elõadást tartanak; a Proteins c. folyóirat különszámot ad ki (ált. a következõ év októbere táján, a CASP4 eredményeit még nem közölték). Három fõ módszer Homológiamodellezés (komparatív modellezés): ha a szekvenciánkhoz van ismert térszerkezetû, a szekvenciánkkal számottevõ szekvenciaazonosságot (> 20%) mutató homológ, akkor annak térszerkezete alapján építhetjük fel a mi szekvenciánk jósolt térszerkezetét. Gombolyfelismerés (fold recognition): alacsony szekvenciaazonosság mellett meg kell találni, van e az ismert térszerkezetek között a szekvenciánkkal kompatibilis gomboly, s melyik az. Ha találtunk ilyet, akkor homológiamodellezéssel szerkezet is építhetõ. 1
Ab initio predikció: nincs számottevõ szekvenciaazonosság ismert térszerkezetû fehérjével, s nincs kompatibilis gomboly sem, tehát a szekvenciánkhoz tartozó gomboly ismeretlen. A térszerkezet predikció ilyenkor fizikai elvek felhasználásával történhet. Emlékeztetõ: A fold ("gomboly") fogalma Példa: Fold: Egy fehérje nagybani, durva szerkezete, a polipeptidlánc gerincének durván vett térbeli lefutása. Magában foglalja a másodlagos szerkezeti elemek körülbelüli, relatív elhelyezkedését és összeköttetéseik sorrendjét. A folding (felgombolyodás) szóból. Magyarul gombolynak mondhatnánk. A hasonló szerkezetû fehérjéknek ugyanaz a foldja, vagyis a gombolya. A fold tehát egy fehérjecsaládot határoz meg, szerkezeti hasonlóság alapján. Különbözõ fajokból származó trióz foszfát izomerázok (TIM) és hasonló fehérjék egymásra illesztett szerkezete (alfa szénatomokból álló váz). A fehérjecsalád fold ja, azaz "gombolya", az ún. TIM barrel fold A predikció várható sikeressége A szekvencia adatbázis gyorsabban növekszik, mint a térszerkezeti adatbázis Térszerkezet jobban konzerválódott, mint a szekvencia: két fehérje 30% os szekvenciaazonossága esetén térszerkezetük nagyon hasonló. 20 30% között (szürkületi zóna) a hasonlóság kérdésessé válik, de még 10% alatti szekvenciaazonosság esetén is elõfordulhat Térszerkezet jóslás legjobban használható módszerei: Homológiamodellezés: ha az ismeretlen térszerkezetû fehérje szekvenciája >20 25% azonosságot mutat egy már ismert térszerkezetûével, akkor jó közelítõ modell építhetõ "Gombolyfelismerõ" (fold recognition) eljárások: az esetek egy részében kisebb szekvenciaazonosság esetén is azonosítják a "gombolyt", ezután pedig a homológiamodellezés már alkalmazható a megtalált hasonló térszerkezet felhasználásával. Adott szekvencia mekkora valószínûséggel modellezhetõ a fenti eljárásokkal? Attól függ, honnan vesszük a szekvenciát: (HoMo: homológiamodellezés, FoRc: fold recognition [gombolyfelismerés], UFo: unknown fold [ismeretlen gomboly], UFo+FoRC: határeset) PDB erõsen redundáns: a benne lévõ szerkezetek 58% a modellezhetõ lenne más ismert szerkezetek alapján 2
SWISS PROT szekvenciaadatbázis szintén torz: a benne lévõ szekvenciák kb. 30% ára lehetne homológiamodellezéssel modellt építeni Újonnan megszekvenált genomok fehérjéi: csak kb. 10% ra lenne építhetõ homológiamodell; kb. 40% felismerhetõ lenne gombolyfelismeréssel, a többi 50% teljesen új szerkezet Szerkezeti genomika: célja, hogy a genomban kódolt fehérjék közül kiválogassa azokat a fehérjéket, amelyek szerkezetét kísérletesen (röntgen, NMR) meghatározva az összes többi fehérje homológiamodellezhetõvé válik Homológiamodellezés A homológiamodellek rendkívül hasznosak kísérletek tervezéséhez, hipotézisek felállításához, stb. Hagyományos módszer: lánctöredékek összeszerelése Kiindulás: referenciafehérjék (más néven: templátok vagy anyaszerkezetek): a modellezendõ fehérje szekvenciájával jelentõs azonosságot mutató fehérjék ismert szerkezete "Új" fehérje (más néven: célfehérje): a modellezendõ fehérje, melynek csak a szekvenciája ismert A három fehérjét egymásra illesztjük, így kitûnik, melyek a szerkezetileg konzerválódott régiók (SCR ek) és a variábilis régiók (VR ek). A három fehérje szekvenciáját a térszerkezetek fedése alapján összerendezzük, majd hozzárendezzük az új fehérje szekvenciáját: 3
Az új fehérje felépítése: az SCR eket bármelyik referenciafehérjébõl átvehetjük: A VR eket egyenként megvizsgáljuk. A referenciafehérjék megfelelõ VR jei közül kiválasztjuk a legilleszkedõbbeket. Ha nincs megfelelõ, akkor adatbázisban keresünk odaillõ hurkot. Így elõáll a durva modell, mely darabokból van összeszerelve. Energiaminimalizálással finomítható. Oldalláncok modellezése: az oldalláncokat ki kell cserélni a célfehérjének megfelelõre. Konformációjuk beállítása: a templátfehérjékbõl átvenni, amennyire lehet, ill. különféle optimalizálási eljárások (pl. rotamerkonformációkkal) 4
Hurkok modellezése: ha a templátfehérjék között nincs megfelelõ, akkor hurokadatbázisban keresünk megfelelõt, vagy valamilyen konformációkeresõ eljárást alkalmazunk A modell pontossága: az SCR ek közepén a legpontosabb, a hurkokban a legpontatlanabb A térbeli kényszerek kielégítésén alapuló módszer MODELLER program (Andrej Sali) A templátszerkezetekbõl térbeli kényszereket vezet le a célszerkezetre vonatkozóan (pl. atompárok távolsága, atomhármasok szöge, stb.) A kényszereket egy célfüggvénybe egyesíti, majd random kiinduló szerkezetbõl kiindulva szimulált hõkezeléssel optimalizálja Jó minõségû szerkezeteket állít elõ, kevés sztereokémiai hiba Homológiamodellezés a CASP3 on Alkalmazott módszerek: a fenti módszerek kombinációi, speciális algoritmusokkal bõvítve, sok helyen emberi beavatkozással Sikeresség: X: szekvenciaazonosság a templáttal, Y: rmsd a valódi szerkezettõl rmsd: root mean square deviation, két szerkezet egymástól való különbözõségének mértéke, tkp. az egymásnak megfelelõ atomok közötti távolságok négyzetes közepe. Látható: kb. 30% szekvenciaazonosság fölött igen jó modell építhetõ A nagyobb, templát nélküli hurkok és az oldalláncok modellezése nem kielégítõ pontosságú Legkritikusabb tényezõ: a szekvencia szerkezet összerendezés. Az összerendezést nagyon gondosan kell elkészíteni, pl. figyelembe véve a templátszerkezetekben konzerválódott H kötéseket, kontaktusokat, stb. Az elkészült modellt megvizsgálva az összerendezésen javítani lehet, s annak alapján jobb modellt építeni Gombolyfelismerés Távoli homológok (<25% szekvenciaazonosság) gyakran azonos gombollyal rendelkeznek. A feladat ennek felismerése Két dolog kell hozzá: Egy "gombolykönyvtár", ami az ismert térszerkezeteket (gombolyokat) tartalmazza valamilyen formában. Egy összehasonlító módszer, amellyel meg tudjuk állapítani, hogy egy adott szekvencia mennyire illeszthetõ, húzható rá egy adott térszerkezetre A módszer: a szekvenciánkat egyenként az összes gombollyal összehasonlítjuk, hogy megtaláljuk, van e köztük olyan, amit a szekvenciánk felvehet. Általános eljárás: felfûzés (threading): az ismeretlen szerkezetû fehérje szekvenciáját valamiképpen "fel kell fûzni" az ismert térszerkezetekre, és valamilyen potenciálfüggvénnyel értékelni kell a szekvencia és a szerkezet illeszkedését Korábbi eljárások: az oldalláncok környezetét vették alapul (környezet polaritása, eltemetettség, másodlagos szerkezet, stb.) Újabb eljárások: a párpotenciálokon van a hangsúly (az ismert térszerkezetekben található aminosav aminosav kontaktusok alapján levezetett potenciálfüggvények) 5
Felfûzés a CASP3 on A hat legeredményesebb csoport módszerei: Három csoport (Jones, Sippl, Bryant) párpotenciálokon alapuló pontozófüggvényt alkalmazott, kiegészítésekkel: Jones csoportja és Sippl csoportja (ProFIT program): a potenciálfüggvény az aminosavpárok szekvenciabeli és térbeli távolságától is függ; továbbá a jósolt másodlagos szerkezetet is figyelembe veszik Bryant: a kontaktpotenciálokon felül az ismert térszerkezetekben talált, konzerválódott hidrofób magok ismeretére is támaszkodott K. Karplus: tisztán szekvencia alapú módszer, ún. rejtett Markov modell Nishikawa, Koretke csoportjai: sokféle módszer kombinációját alkalmazták, ezek alapján konszenzus Eredmények: A legjobb gombolyfelismerési predikciók. X: a fehérje hossza; Y: az 5 angströmnél kisebb rmsd vel (a valódi szerkezettõl való eltérés) prediktált aminosavak száma Látható: az eredmény vegyes. Néhány fehérjére jó a predikció, a többségre elég rossz, némelyikre csapnivaló A felfûzési módszerek egyelõre nem kielégítõek (egyetlen módszer sem képes az esetek >40% ában helyes eredményt adni) Távoli homológiák felismerése Ha szekvenciahasonlóság alapján a szekvenciánkhoz nem találunk ismert térszerkezetû homológot, akkor segíthet egy olyan módszer, amely távoli homológokat is megtalál, s ezek között lehet egy olyan, ismert térszerkezetû homológ, amelyet fel tudunk használni a térszerkezet jósláshoz. A gombolyfelismerés is tkp. távoli homológiát detektál (felismeri a rokonságot két fehérje között az alacsony szekvenciabeli hasonlóság ellenére). A probléma másik megközelítése: tisztán a szekvenciák alapján dolgozunk PSI BLAST program (Position Specific Iterated Basic Local Alignment Search Tool): a BLAST összerendezés keresõ program kiterjesztése: Elõbb egy hagyományos BLAST kereséssel kigyûjti egy szekvencia homológjait, ezekbõl többszörös összerendezést készít A többszörös összerendezésbõl elkészít egy szekvenciaprofilt A szekvenciaprofillal újból keresést végez a szekvenciaadatbázison Ezáltal távolabbi homológokat is megtalál A PSI BLAST a felfûzési módszerekkel összemérhetõ hatásfokkal találja meg a távoli homológokat, így a gombolyfelismerés versenytársa lehet. Ab initio térszerkezetjóslás CASP3 A célszerkezetek: 6
Az alkalmazott módszerek Nincs standard eljárás. Sokféle, egyedi módszer: Skolnick és mtsai: többszörös szekvenciaösszerendezésekbõl kényszerfeltételeket vezettek le a másodlagos és harmadlagos szerkezetre [kontaktusok] nézve. Ezután rácsmodellként szimulálták a fehérje felgombolyodását; 1000 szimuláció közül a legalacsonyabb energiát eredményezõt tekintették végleges modellnek Scheraga és mtsai: "egyesített atom" modellben (csak alfa szénatomok) konformációkeresés, majd "összes atom" modellben finomítás Osguthorpe: egyszerûsített fehérjemodell, molekuladinamikai szimulált hõkezelés Levitt és mtsai: tetraéderes rácsmodellként generálták az összes lehetséges konformációt, majd a legalacsonyabb energiájúakat alapul véve, másodlagosszerkezet jóslást is felhasználva, áttértek "összes atom" modellekre, ezeket egy komplex pontozófüggvénnyel értékelték Mosberg és mtsai: másodlagosszerkezet jóslás után manuálisan illesztgették össze a másodlagos szerkezet elemeit, hogy eltemetõdjenek a hidrofób felszínek Baker és mtsai: 3 9 aminosav hosszúságú fragmentumokra kerestek modelleket az ismert szerkezetek adatbázisában, majd ezeket összeillesztették, egy energiafüggvénnyel értékelték, majd a szemre legjobban kinézõ mellett döntöttek Eredmények Több csoportnak sikerült >30 aminosavas fragmentumokat jó közelítéssel jósolni (< 4 angström rmsd) Az alfa és az alfa béta típusú fehérjék architektúráját többnyire jól megközelítették 7
A tudás alapú (ismert szerkezetek adatbázisára támaszkodó) módszerek jobban teljesítettek, mint a fizikai alapú módszerek Egészében véve komoly elõrelépés van a CASP2 höz képest CAFASP1 Teljesen automatikus gombolyfelismerési módszerek tesztje Eredmény: jóval gyengébben mûködnek, mint emberi beavatkozással További kilátások CASP4: már lezajlott, de még nem közölték az eredményeket. Nagyobb szabású predikciós projektek kezdõdtek a szerkezeti genomikai programok kapcsán Már van MODBASE modelladatbázis, mely folyamatosan bõvül. A kísérletes szerkezetek meghatározásával párhuzamosan ellenõrizhetõk a modellek 8