BIOINFORMATIKA
Mi a bioinformatika? Bioinformatika: számítógépes módszerek kidolgozása és alkalmazása a biológiai információ kezelésére és elemzésére.
A bioinformatika céljai Adatbázisok létrehozása és karbantartása. Az adatok megszervezése, rendezése oly módon, hogy a kutatók könnyedén hozzáférhessenek a meglévő információhoz, és hozzátehessenek újat. Eszközök, módszerek kifejlesztése az adatok elemzésére. Az adatok haszontalanok, amíg nem elemeztük őket. Az eszközök és módszerek alkalmazása az adatok elemzésére, és az eredmények értelmezése a biológia szempontjából.
A biológiai információ típusai és elemzési módszerei Az adatok forrása Az adathalmaz mérete Bioinformatikai témák Nyers DNS szekvenciák Fehérjeszekvenciák Makromolekuláris szerkezetek 102 millió szekvencia 102 milliárd nukleotid 7 millió 342 ezer szekvencia 2 milliárd 392 millió aminosav 56 ezer szerkezet A kódoló és nem kódoló régiók elkülönítése Az intronok és exonok azonosítása A géntermékek predikciója Igazságügyi elemzések Szekvenciaösszehasonlítási algoritmusok Többszörös szekvenciaillesztõ algoritmusok Konzerválódott szekvenciamotívumok azonosítása Másodlagos és harmadlagos szerkezet jóslása 3D szerkezeteket illesztõ algoritmusok Fehérjegeometriai mérések Felszín, térfogat és alak számítása Intermolekuláris kölcsönhatások Molekulaszimulációk (energiafüggvény, molekuláris mozgások, dokkolás)
A biológiai információ típusai és elemzési módszerei 2. Az adatok forrása Az adathalmaz mérete Bioinformatikai témák Genomok Génexpressziós adatok Egyéb: szakirodalom 2100 vírus, 1100 baktérium, 1800 eukarióta (teljes genom, organellum, kromoszóma) legnagyobb: kb. 20 időpont az élesztõ kb. 6000 génjénél (2002) ~ 18 millió szakcikk Az ismétlõdések jellemzése Szerkezetek hozzárendelése génekhez Filogenetikai analízis Genomi méretű felmérések (fehérjetartalom jellemzése, anyagcsere útvonalak) Kapcsoltság elemzése egyes betegségek és gének összefüggésének vizsgálatához Az expressziós mintázatok korrelációjának vizsgálata Az expressziós adatok összekapcsolása a szekvencia, szerkezeti és biokémiai adatokkal Elektronikus könyvtárak az automatizált irodalomkutatáshoz Tudásadatbázisok irodalmi adatokból
Mintázatfelismerés és predikció Két alapvető művelet a bioinformatikában Mintázatfelismerés: a hasonlóságok megtalálása A már ismert, hasonló funkciójú/szerkezetû fehérjéket megvizsgálva megkeresünk valamely, a funkcióra/szerkezetre jellemzõ, konzerválódott sajátosságot Ezt használjuk fel új szekvenciák funkciójának/szerkezetének azonosítására Feltétel: az új szekvencia olyan fehérjéhez tartozzon, amihez hasonlót már "láttunk" Predikció: A funkció vagy a térszerkezet megjóslása, hasonlóság alapján vagy másképpen A bioinformatika "Szent Grálja": a szekvenciából megjósolni a térszerkezetet
Molekuláris biológiai szerverek és adatbázisok ENTREZ: http://www.ncbi.nlm.nih.gov/entrez GenBank: http://www.ncbi.nlm.nih.gov/genbank Genomes: http://www.ncbi.nlm.nih.gov/genomes Protein Data Bank: http://www.rcsb.org/pdb/ EMBL: http://www.embl-heidelberg.de/ EXPASY: http://www.expasy.org/
Félévközi beadandó feladat Feladat Program 1. Adott fehérjeszekvencia kikeresése EXPASY UniProt 2. Fizikai-kémia alaptulajdonságok meghatározása (MW, pi, E 280 ) EXPASY ProtParam 3. Rokon fehérjeszekvenciák keresése EXPASY BLAST 4. Többszörös szekvencia-összerendezés, mintázatok azonosítása (a 30-90% homológiatartományban található 10 kiválasztott fehérjével szekvencia-összerendezés) 5. Másodlagos szerkezetjóslás http://npsa-pbil.ibcp.fr 6. Térszerkezet megjelenítése feltekeredési mintázat térkitöltéses modell BLAST ClustalW NPSA CONSENSUS MLRC, PHD, Predator Entrez PDB JMol FirstGlance
Másodlagos adatbázisok Szekvencia-mintázat adatbázisok, az elsődleges (szekvencia) adatbázisokból származtatják őket. PROSITE, emotif: egy motívum PRINTS, BLOCKS: több motívum Mire jók? Segítenek felismerni egy új fehérje funkcióját kis mértékű homológia esetén is. (közös őstől származó, ortológ fehérjék)
Másodlagos szerkezetjóslás Módszer Elv Pontosság (%) 1. generációs pl. Chou-Fasman, GOR I, GOR II 2. generációs Nagano, GOR III-IV, PF 3. generációs NSSP, LPAG, PHD Konszenzus Az egyes aminosavtípusok előfordulásának valószínűseége a különböző másodlagos szerkezeti elemekben. Fizikai-kémiai tulajdonságok, aminosavpárok ill. tripletek statisztikai adatai Többszörös összerendeződések, neuronhálózat Több más módszer alapján konszenzus 55-57 60-62 68-72 73-75
Fehérjék térszerkezetének jóslása Homológia-modellezés Gombolyfelismerés Ab initio szerkezetjóslás
Homológia-modellezés Számottevő (>20%) szekvencia azonosságot mutató ismert szerkezetű fehérjék (referenciafehérjék) térszerkezete alapján. Lépések: - Térszerkezetek szuperpozíciója - Szerkezetileg konzerválódott régiók (SCR) azonosítása - Aminosavszekvenicák összerendezése - Az SCR-ek alapján az új fehérje vázának felépítése - A variábilis régiók modellezése
Homológia-modellezés Térszerkezetek szuperpozíciója
Homológia-modellezés Az új fehérje vázszerkezetének felépítése Az SCR-eket bármelyik referencia fehérjéből átvehetjük.
Homológia-modellezés A variábilis régiók modellezése Durva modell A templátfehérjék ill. hurok-adatbázisok alapján. (oldalláncok cseréje) További finomítás: energiaminimalizáció
Gombolyfelismerés: Távoli homológok (<25% szekvencia azonosság) gyakran azonos gombollyal rendelkeznek. A feladat ennek felismerése. Gombolykönyvtár az ismert térszerkezetek alapján A szekvenciánkat egyenként az összes gombollyal összehasonlítjuk, hogy megtaláljuk, van-e köztük olyan, amit a szekvenciánk felvehet. Ab initio modellezés: Kis fehérjék esetén bíztató próbálkozások, de általános esetben egyelőre nem ad kielégítő eredményt.
Dokkolás Kismolekula (ligandum, szubsztrát, koenzim, stb.) kötődési helyének megtalálása egy fehérje (receptor) felszínén Két fehérje egymáshoz való kötődési helyének megtalálása Módszer: az egyik molekula mozgatása és forgatása a másik felszínén, eközben az illeszkedés értékelése. Eredményesség: Kismolekula fehérjére dokkolásakor jó eredmények érhetőek el, de bonyolultabb esetekben (pl. nagy fehérje, nagy és flexibilis szubsztrát) csak kísérleti adatok ismeretében érhető el megfelelő eredmény Fehérje-fehérje dokkolás: gyenge eredmények
Genomika Genom: egy élőlény v. sejt teljes gén, ill. DNS-állománya. Genomika: a genom megismerése, ill. tanulmányozása, azaz a teljes genetikai információ felhasználása, szemben az egyes, kiválasztott gének vagy géncsoportok tanulmányozásával Funkcionális genomika: a génekhez a funkció hozzárendelése genomikai módszerekkel (számítógépes és kísérleti) Szerkezeti genomika: a genomban kódolt fehérjék térszerkezetének kiderítése (számítógépes és kísérleti módszerekkel), és ezek felhasználása (pl. a funkcionális genomikában)
Génfunkció: Funcionális genomika
Módszerek a funkcionális genomikában Filogenetikai profilok Az azonos, v. nagyon hasonló filogenetikai profillal rendelkező gének között funkcionális kapcsolat valószínűsíthető Rosetta-kő módszer Ha két fehérje megtalálható fúziós fehérjeként is, akkor közöttük funkcionális kapcsolat valószínűsíthető. Génszomszédság Ha két gén az organizmusok nagy részében egymás mellett található a kromoszómán, akkor valószínűsíthetően funkcionális kapcsolat van közöttük. Korrelált génexpresszió Az azonos mintázat szerint expresszálódó gének között funkcionális kapcsolat valószínűsíthető. (microarray technológiák)
Szerkezeti genomika A fehérjeszerkezetek sokfélesége: A PDB-ben kb. 52 000 szerkezet van, de erősen redundáns, kb. 3000 gombolyt képviselnek. Az újonnan meghatározott szerkezetek többsége is már ismert gombolyhoz tartozik. Teljes genomokban lévő gének által kódolt fehérjéknek csak kb. 15-25%-a mutat homológiát már ismert térszerkezetű fehérjével. Szerkezeti genomika célja: a genomokból kiválasztani azokat a célfehérjéket, amelyeknek a térszerkezetét kísérletileg meghatározva az összes többi fehérje homológia-modellezési távolságon belül lesz (kb. 20% szekvencia azonosság), így minden fehérje szerkezete homológia-modellezéssel megjósolható lesz. A membránfehérjék, nehezen kristályosítható fehérjék problémát jelentenek.