Bioinformatika 2 11. előadás Prof. Poppe László BME Szerves Kémia és Technológia Tsz. Bioinformatika proteomika Előadás és gyakorlat 2018.11.22.
Szerkezeti genomika, proteomika, biológia A biológia forradalma (új kutatási módszerek, új szemlélet): teljes genomok biomolekulák szerkezetmeghatározása bioinformatika nagy áteresztőképességű eljárások a biológiai minták jellemzésére (microarray technikák) Hajtóerők: Genomszekvenálási projektek (>2000 teljes genom ismert, továbbiak vannak folyamatban) Automatizált szerkezethozzárendelési projektek (Protein Structure Initiative, PSI) Genomok előtti korszak ("klasszikus bioinformatika"): a bioinformatika főként a homológián alapuló módszereket alkalmazta (BLAST, PSI BLAST, felfűzés, stb.) Genomok utáni korszak: egész sor új, nem homológián alapuló eljárás! Új bioinformatika. 2 2018.11.22.
Szerkezeti genomika, proteomika, biológia ÚJ TUDOMÁNYÁGAK Genomika Genom: egy adott faj teljes gén, ill. DNS készlete. Genomika: a genom megismerése, ill. vizsgálata: a teljes genetikai információ felhasználása (nem csak egyes gének vagy géncsoportok tanulmányozása) Funkcionális genomika: funkció hozzárendelése a génekhez genomikai módszerekkel (kísérleti és számítógépes [in silico] eljárások) Szerkezeti genomika: a genomban kódolt fehérjék térszerkezetének kiderítése (számítógépes és kísérleti) és ezek felhasználása (pl. a funkcionális genomikában) 3 További biológiai információkkal kapcsolatos fogalmak és tudományágak Proteom: egy sejtben (és annak adott állapotában) található, ill. expresszált fehérjék összessége Proteomika: a proteom vizsgálata (főleg kísérleti) Transzkriptom, transzkriptomika: az mrns állomány, ill. vizsgálata Metabolom, metabolomika: az anyagcserehálózat, ill. vizsgálata Az "omikák forradalma" egyéb összetett biológiai rendszerek vizsgálatai 2018.11.22.
A posztgenomikus kor A "posztgenomika" kifejezés ma már széles körben használatos, de nem teljes az egyetértés, hogy mit jelent ez a kifejezés. A legtágabb értelemben a posztgenomika az élettudományok időbeli és technológiai változására utal. A "posztgenomikus kor" az emberi genom szekvenálásának befejezése utáni időszakaként definiálható, amelyben a teljes genomok technológiája a biológiai kutatások közös platformjává vált számos tudományos és társadalmi téren. A kifejezés nemcsak a mai genomkutatást írja le, hanem szélesebb értelemben a biológiai kutatásokat a genomikus technológiákat alkalmazó és a genomiális ismeretekre támaszkodó főbb genomikai projektek befejezése után. 4 2018.11.22.
Szerkezeti genomika, proteomika, biológia 5 2018.11.22.
A biológiai funkció A funkció klasszikus jelentése: a molekuláris funkció (pl. milyen reakciót katalizál vagy milyen más molekulát köt az adott fehérje) A funkció bővített ("posztgenomi ) jelentése: a kontextuális v. celluláris funkció (hol helyezkedik el az adott fehérje a sejt kölcsönhatásainak hálózatában) 6 2018.11.22.
Szerkezeti genomika 7 Genomok előtti korszak 2018.11.22. Genomok utáni korszak
Szerkezeti genomika Posztgenomiális bioinformatikai módszerek: Tisztán számítógépes: Filogenetikai profilok Rosetta kő módszer Szomszédos gének Kísérleti, de számítógépesen kiértékelt: Korrelált génexpresszió 8 2018.11.22.
Huynen MA, Bork P, Proc Natl Acad Sci U S A. 1998, 95(11), 5849-5856. Pellegrini M, et al, Proc Natl Acad Sci U S A. 1999, 96(8), 4285-4288. Szerkezeti genomika Filogenetikai profilok Filogenetikai profil: adott gének előfordulásának vizsgálata különböző organizmusokban (teljes genomok ismerete szükséges). Az azonos vagy nagyon hasonló (illetve a teljesen vagy majdnem komplementer) filogenetikai profil a gének között funkcionális kapcsolatot valószínűsíti (ez azt jelenti, hogy az adott gének mindenhol együtt fordulnak elő). Minél több teljes genom áll rendelkezésre az elemzéshez, annál megbízhatóbb az eredmény. DE: bizonyos evolúciós jelenségek megzavarják az elemzést: - Génfunkciók redundanciája (több gén ugyazzal a funkcióval); - Gén felváltása egy másik génnel, ami nem ortológja az eredeti gén ortológjainak; - Horizontális géntranszfer (mikroorganizmusok közötti DNS transzfer); 9 2018.11.22. - Gének elvesztése egyes organizmusokban
Enright AJ, et al., Nature 1999, 402(6757), 86-90. Marcotte EM, et al., Nature 1999, 402(6757), 83-86. Yanai I, et al., Proc Natl Acad Sci U S A. 2001, 98(14), 7940-7945. Szerkezeti genomika Rosetta-kő módszer Domén-fúziók módszere Egy adott szervezet két elkülönült fehérjéje más szervezetben fúziós fehérjeként (egyetlen polipeptidláncként) fordulhat elő. Ha két fehérje fúziós fehérjeként is előfordul, akkor közöttük valószínűleg funkcionális kapcsolat van (a közeli funkciójú fehérjék fúziója egyes szervezetekben azért fordulhat elő, mert közelségük előnyös a funkció szempontjából.) A fúziós fehérjék egyfajta Rosetta kövek: a bennük lévő, ismert funkciójú domén alapján a másik, ismeretlen funkciójú domén funkciójára lehet következtetni. DE: vannak "promiszkuita" domének, amelyek nagyon sok más fehérjével fuzionálnak A rosette-i kő (ismert még rosetta kő néven is) egy ősi szöveg három fordítását nyújtotta a 10 2018.11.22. kutatóknak: egyiptomi démotikus írással, görög nyelven és egyiptomi hieroglifákkal. Mivel a görög nyelv jól ismert, e kő volt a kulcs a hieroglifák megfejtéséhez.
DeRisi JL, et al., Science 1997, 278(5338), 680-686. Wu LF, et al., Nat Genet. 2002, 31(3), 255-265. Szerkezeti genomika Szomszédos gének Ha két gén az organizmusok nagy részében egymás mellett található a kromoszómán, akkor valószínûsíthetően funkcionális kapcsolat van közöttük. Prokariótáknál gyakoriak az operonok (több, rokon funkciójú gén egymás után található, egy közös promoter alatt). Eukariótáknál az operonok ritkábbak, de a génszomszédság mégis jellemző. DE: a szomszédság nem mindig jelent funkcionális kapcsolatot 11 2018.11.22.
Szerkezeti genomika, proteomika, biológia A szerkezeti genomika céljai - A genomban kódolt összes fehérje térszerkezetének meghatározása - A funkciók azonosítása a térszerkezeti információk felhasználásával (ebben az értelemben a funkcionális genomika illetve a szerkezeti biológia része) A térszerkezetek meghatározása - Klasszikus megközelítés: az adott fehérje funkciójának azonosítása, majd a térszerkezet kísérleti (röntgenkrisztallográfia / NMR) meghatározása - Szerkezeti genomikai megközelítés: először a térszerkezet (lehetőleg az összes fehérjé) meghatározása, majd a funkció (épp a térszerkezet segítségével is) vizsgálata 12 2018.11.22.
DNS microchip Szerkezeti genomika Korrelált génexpresszió Az azonos körülmények között mindig együtt, azonos mintázat szerint expresszálódó gének között funkcionális kapcsolat valószínűsíthető -> microarray adatok elemzése, kiértékelése Pl.: (a) Élesztősejtek szinkronizálása (azonos sejtciklus) - Két ciklus során tízpercenként mintavétel, az mrns állományból cdns készítése, majd a minták hibridizálása az összes (6000) élesztő gént tartalmazó microchip-en -> minden gén expressziós szintjének meghatározása - (b) Az expressziós szintben jelentős ingadozást mutató gének (6000-ből 409) klaszterezése (csoportosítás) az idõbeli expressziós mintázataik korrelációi szerint (piros: nagy expresszió, kék: kis expresszió). A fastruktúra (dendrogram) ezt a hierarchikus csoportosítást mutatja. - Időbeli expressziós viselkedésük (d) szerint a 409 gént 5 nagy csoportba sorolták (c) 13 2018.11.22. Egyszerű klaszterezés Hierarchikus klaszterezés
Szerkezeti genomika Kombinált módszerek A tisztán számítógépes (in silico) funkcionális genomikai módszerek és a kísérleti adatokon nyugvó korrelált génexpressziós adatok kombinálása a legeredményesebb. 14 2018.11.22.
Kísérleti szerkezeti genomika, biológia A fehérjeszerkezetek sokfélesége - A különböző fold ("tekeredés") becslések szerint néhány 1 000 és néhány 10 000 között van. - A PDB jelenleg kb. 130 000 szerkezetet tartalmaz, de ezek szerkezetileg erősen redundánsak, kb. 1500 tekeredést képviselnek. Az újonnan meghatározott szerkezetek többsége is már ismert tekeredésű. - A teljes genomokban lévõ gének által kódolt fehérjéknek csak kb. 15 25% a mutat homológiát már ismert térszerkezetû fehérjével. Kísérleti szerkezeti genomika - Szerkezeti genomika célja: a genomokból kiválasztani azokat a célfehérjéket, amelyeknek a térszerkezetét kísérletileg meghatározva az összes többi fehérje homológiamodellezési távolságon belül lesz (kb. 20% szekvenciaazonosság), így minden fehérje szerkezete homológiamodellezéssel megjósolható lesz. - Szisztematikus szerkezetazonosító projektek folynak, pl. Protein Structure Initiative: http://www.nigms.nih.gov/initiatives/psi 15 2018.11.22. DE: Nem expresszálható fehérjék, membránfehérjék, nehezen kristályosítható fehérjék problémát jelentenek.
Szerkezeti genomika, biológia Kötőhelyi szekvencia mintázatok Adott helyi szerkezetnek megfelelő szekvencia mintázatok azonosítása: 16 Pl. Számos ATP- ill. GTP-kötő protein (pl. ATP szintáz, miozin nehéz lánc, helikázok, timidin kináz, G-protein alfa alegység, stb.) tartalmazza a következő konszenzus szekvenciát: [A or G]XXXXGK[S or T]. Ez a szekvencia egy mozgékony hurkot alkot a kérdéses fehérje alfa-helikális és béta-redő doménjei között, a fehérje általános tekeredésétől függetlenül. Ld. (a) GTP a H-Ras szignál protein (PDB 1qra) P hurkában; (b) ATP egy protein kináz (PDB 1aq2) P hurkában. 2018.11.22.
Szerkezeti genomika, biológia Konvergens és divergens evolúció 17 2018.11.22. A homológia sokszor nehezen azonosítható csak a szekvencia alapján, mivel a szekvencia sokkal gyorsabban változhat, mint a 3D szerkezet, emiatt a konvergens ill. divergens evolúciót néha nehéz megkülönböztetni. Egyes esetekben, térbeli egyezőség figyelhető meg a funkcionális helyen, míg a funkcionálisan fontos aminosavak csak kis ill. semmilyen szekvencia azonosságot mutatnak. Ilyenkor a konvergens és divergens evolúció megkülönböztetése nehéz lehet. Például, a benzoilformát dekarboxiláz (BFD) és a piruvát dekarboxiláz (PDC) csak kb. 21% szekvencia azonosságot mutatnak, de gyakorlatilag azonos tekeredésűek. A katalítikus aminosavoldalláncok a 3D szerkezetben térben konzerválódtak, de szekvenciában nem. Lehetséges, hogy a két fehérje függetlenül fejlődött és konvergált az alfaketosav dekarboxilezésének hasonló kémiai megoldása révén. A tekeredésükben megfigyelhető nagy hasonlóság azt is jelentheti azonban, hogy közös ősfehérjéből származnak és a funkciójuk divergált. A szekvenciaazonosság alacsony foka itt nem teszi lehetővé e két lehetőség megkülönböztetését.
HAL Szerkezeti genomika, biológia Szerkezeti családok PAL TAL 18 2018.11.22. A szerkezeti szuper-családok tagjai gyakran rokon biokémiai funkciójúak Egy szuper-család nem szigorű definíció szerint olyan hasonló 3D szerkezetű homológ proteinek készlete, melyek hasonló, de nem feltétlenül azonos biokémiai funkciójúak. Majdnem minden szuper-család mutat valamelyest funkcionális diverzitást, amely helyi szekvencia különbségekből és/vagy domén kicserélődésből ered. Az enzim szuper-családokon belül például gyakori a szubsztrát diverzitás, míg a reakció kémiája erősen konzerválódott (ld. MIO tartalmú ammónia-liázok: HAL, PAL, TAL). Sok enzim szupercsaládban a katalítikus csoportok szekvenciabéli helyzete tagról tagra eltérő lehet, annak ellenére, hogy a fehérjén belül azonos funkciójúak. E variációk esetenként megnehezithetik vagy akár lehetetlenné is teszik egy fehérje egyedül szekvencia összerendelésen alapuló, adott szuper-családba sorolását. Bár a szuper-család egyes tagjai szekvenciájukban is hasonlóak lehetnek, a szerkezeti és funkcionális hasonlóság az aminek alapján egy fehérje egy adott szuper-családba sorolható. Minden szuper-családon belül vannak családok, amely tagjai között közeli funkcionális rokonság és szignifikáns szekvencia azonosság (>50%) áll fenn.
Szerkezeti genomika, biológia Konvergens evolúció Kimotripszin A szerin proteázok négy szuper-családja a konvergens evolúció példája A szerin proteázok több szerkezeti szuper-családba tartoznak, melyek jelentősen eltérnek szekvenciájukban és általános tekeredésükben, azonban igen hasonlóak a katalítikus triád aminosavainak (Ser His Glu/Asp) aktív centrumbeli relatív helyzetében. Szubtilizin Mindegyik szerin proteáz szuper-család sok taggal rendelkezik, de a szuper-családok közt sem szekvencia, sem szerkezeti hasonlóság nem áll fenn. Az egyes szuper-családokban a katalítikus triád aminosavainak szekvenciabeli sorrendje eltérő lehet, míg a tercier szerkezetbeli elhelyezkedésük igen hasonló. Feltehetően a hasonló aktív hely kialakulása a konvergens evolúció eredménye, míg asz egyes szuper-családokon belül a divergens evolúció eredményezett kölönböző proteázokat, melyek igen hasonló szerkezetűek, ám eltérő szubsztrát-specifitással rendelkeznek. 19 2018.11.22. A szerin proteázok két szuper-családjának reprezentánsai
Christianson,CV, et al., J Am Chem Soc. 2007, 129, 15744-15745. Szerkezeti genomika, biológia Aktív hely azonosítása szubsztát analogonokkal A tirozin aminomutáz inhíbitorral kristályosított szerkezete példája az aktív hely kísérleti meghatározásának 20 2018.11.22.
Szerkezeti genomika, biológia Aktív hely azonosítása oldószer kristályba épülésével 21 Szubtilizin szekezete 100% acetonitrilben A szerves oldószer (zöld) csak néhány helyre köt a fehérje felszínén, beleértve az aktív helyet is (kb. az ábra bal közepe). A piros gömbök vizek, melyek még a vízzel elegyedó oldószer 100% koncentrációja ellenére is kötve merednek (ezek a fehérje aktív szerkezetének elemi részeként foghatóak fel szerkezeti vizek). 2018.11.22. Termotilizin szekezete különböző oldószerekkel A termolizin kötőhelyei különböző oldószerekkel nedvesített kristályok szerkezete alapján. A különböző oldőszerek által elfoglalt hasonló hely jól azonosítja a kötőhelyet. Az aktív centrum kötött cink (szürke) és kálcium (fekete) ionokat is tartalmaz.
Röther D, et al., Eur. J. Biochem. 2001, 268, 6011 6019. Szerkezeti genomika, biológia Aktív hely vizsgálata pontmutációkkal Pl.: a hisztidin ammónia-liáz (HAL) enzim aktív hely aminosavainak pontmutációi alapján következtetni lehet az egyes aminosavak katílítikus fontosságára 22 2018.11.22.
Bioinformatika a a biotechnológiában A posztgenomiális korban a biotechnológia széleskörűen felhasználja a bioinformatika eszköztárát a teljes genomok elemzésétől (kultiválható szervezetek) a metagenomiális módszerekig (genomiális információ a nem kultiválható szervezetekből). Az új termékek új biotechnológiai módszereket, új funkciókkal bíró fehérjéket és organizmusokat igényelnek. Ez túlmutat az egy fehérje egy funkció elemzésen és a az egész sejtes módszereken alapouló biokémiai eljárásokon és komplex, új megközelítési módszereket igényel. 23 2018.11.22.
Metabolizmus mérnökség A metabolizmus mérnökség a sejtek genetikai és szabályozási folyamatainak módosítása, optimalizálása adott, a sejtek által termelt termék termelésének növelése céljából. A metabolizmus mérnökség végső célja az, hogy ezeket az organizmusokat költséghatékony módon, ipari méretben értékes anyagok előállítására használja fel. Jellemző példák közé tartozik a sör, bor, sajt, gyógyszerek mosószerek és egyéb biotechnológiai termékek előállítása. Az metabolizmus mérnökség által alkalmazott stratégiák: (1) a bioszintézisút sebességkorlátozó enzimét kódoló gén megnövelt expressziója, (2) a versengő anyagcsere-útvonalak gátlása, (3) heterológ génexpresszió és (4) enzimnérnökség. 24 2018.11.22.
Expasy Tools: http://www.expasy.org Proteomikai programgyűjtemény - ExPASy 25 2018.11.22.
Expasy Tools: http://www.expasy.org/proteomics ExPASy proteomikai programok 26 2018.11.22.
Expasy Tools: http://www.expasy. org/proteomics/protein_sequences_and_identification ExPASy protein szekvencia 27 2018.11.22.
Expasy Tools: http://www.expasy. org/proteomics/similarity_search_alignment ExPASy szekvencia keresés / illesztés 28 2018.11.22.
Expasy Tools: http://www.expasy. org/proteomics/protein_structure ExPASy protein szerkezet 29 2018.11.22.
Expasy Tools: http://www.expasy. org/proteomics/families patterns_and_profiles ExPASy protein szerkezeti családok 30 2018.11.22.
GQuery: http://www.ncbi.nlm.nih.gov/gquery Bioinformatikai programgyűjtemény - GQuery 31 2018.11.22.
GQuery: http://www.ncbi.nlm.nih.gov/gquery Bioinformatikai programgyűjtemény - GQuery 32 2018.11.22.
GQuery: http://www.ncbi.nlm.nih.gov/gene NCBI - Gene 33 2018.11.22.
NCBI Structure: http://www.ncbi.nlm.nih.gov/structure NCBI - Structure 34 2018.11.22.
Genome: http://www.ncbi.nlm.nih.gov/genome NCBI - Genome 35 2018.11.22.
Genome: http://www.ncbi.nlm.nih.gov/genome/167 NCBI Genome (E. coli) 36 2018.11.22.
GOLD: https://gold.jgi.doe.gov/ GOLD Genome project database 37 2018.11.22.
NCBI Taxonomy: http://www.ncbi.nlm.nih.gov/taxonomy NCBI - Taxonomy 38 2018.11.22.
NCBI Taxonomy: http://www.ncbi.nlm.nih.gov/taxonomy NCBI - Taxonomy 39 2018.11.22.
NCBI: http://www.ncbi.nlm.nih.gov/biosystems NCBI - BioSystems 40 2018.11.22.