Bioinformatika és genom analízis az orvostudományban (AOGENBIG_1M) Miklós István SOTE, 2008. szeptember 11. A mai eladás Mi a bioinformatika? Kik a bioinformatikusok? A bioinformatika oktatása a világban és Magyarországon A bioinformatika története A bioinformatikai gondolkodás A kurzus ismertetése Magamról Els definíció: Mi a bioinformatika? Bioinformatika = + informatika, azaz bioinformatika minden olyan biológiai kutatás, amely számítógép segítségével történik Problémák: Ma már mindenhol elterjedt a számítógépek használata, így gyakorlatilag minden biológiai kutatás bioinformatika lenne Miért külön tudományág? Miért nincs pl. hisztoinformatika? Pontosítjuk a definíciót A biológiában, és ezen belül különösképpen a biokémiában olyan mérték" adatmennyiség keletkezik, amelynek a feldolgozása, értelmezése, tárolása számítógépek nélkül lehetetlen lenne. Ezen feladatokat végzi el a bioinformatika Tény: A csillagászatban sokkal több mérési adat keletkezik, mint a biológiában. Kérdés: Miért nincs asztroinformatika? : pl.: Kepler törvények, Maxwell egyenletek : pl: Centrális dogma? : pl.: Kepler törvények, Maxwell egyenletek : pl: Centrális dogma?
: pl.: Kepler törvények, Maxwell egyenletek : pl: Centrális dogma? : pl.: Kepler törvények, Maxwell egyenletek : pl: Centrális dogma? : pl.: Kepler törvények, Maxwell egyenletek : pl: Centrális dogma? : pl.: Kepler törvények, Maxwell egyenletek : pl: Centrális dogma? Szabályozás Szabályozás : pl.: Kepler törvények, Maxwell egyenletek : pl: Centrális dogma? : pl.: Kepler törvények, Maxwell egyenletek : pl: Centrális dogma? Szabályozás Peptid Szabályozás ` Peptid + Epigenetika glikolizáció, stb.
Az adatok valós számokkal mérhetek Diszkrét, kombinatorikus adatok (zömével...) : Égitestek tömege, fényessége, sugárzás hullámhossza, stb. : Dönt többségében szekvenciális adatok Kisebb mértékben gráfok (biokémiai útvonalak, kölcsönhatásgráfok, leszármazási viszonyok) Egyre növekv mértékben valós számokkal leírható adatok, pl. expressziós mintázat. Az entitások közötti kölcsönhatások világosak Kismérték" perturbáció nem okoz dramatikus eltérést Klasszikus példa: Sarlós-sejtes vérszegénység: 1 VHLTP E EKSAVTALWGKVNVDEVGGE 26 V Sok kölcsönhatás nem ismert A kölcsönhatások bonyolultak, kis változás is okozhat nagy eltérést Mi tehát a bioinformatika? Kik a bioinformatikusok? A modern biokémia korszakában olyan mennyiség" és a hagyományos adatoktól eltér minség" adat keletkezik, amelynek a feldolgozására, értelmezésére és tárolására új matematikai, statisztikai, algoritmikai és számítástechnikai eljárásokat kellett kidolgozni. Ez a bioinformatika. It is hard for me to say confidently that, after fifty more years of explosive growth of computer science, there will still be a lot of fascinating unsolved problems at peoples' fingertips, that it won't be pretty much working on refinements of well-explored things. Maybe all of the simple stuff and the really great stuff has been discovered. It may not be true, but I can't predict an unending growth. I can't be as confident about computer science as I can about biology. Biology easily has 500 years of exciting problems to work on, it's at that level. Donald E. Knuth Bioinformatikus technikus A felhasználó Tudja a szoftvereket használni Értse, hogy mit csinál Legyen tisztában a módszerek korlátaival Interpretálni tudja a biológusok elvárásait az informatikusoknak Önállóan nem felsfokú végzettség, de lassan minden (biológus) felsfokú végzettséghez kell. Bioinformatikus mérnök Az új metódusok kidolgozója Írjon szoftvereket Gyártson algoritmusokat Legyen tisztában a matematikai modellek biológiai hátterével Legyen nyitott a biológusok új igényeire Önálló felsfokú végzettség, de alapkutatás alapja, kollaborációk nélkül haszontalan. A világban: A bioinformatika oktatása Bioinformatikus technikus képzések: Nagyon elterjedt Zömében egységes tananyag Biológus igényeknek megfelelen Bioinformatikus mérnök képzések: Spóradikus (persze világméretben ez is sok iskolát jelent) Minden iskola saját témára helyezi a hangsúlyt Általában informatikusok, matematikusok, statisztikusok Magyarországon: A bioinformatika oktatása Bioinformatikus technikus képzések, hivatalos kurzusok: Debrecen Szeged (Pongor S.,... ) Budapest, Pázmány P. (Závodszky P.,... ) Budapest, ELTE + Szent István egyetem (Pónyi T., Barta E., Tóth G.) SOTE: ez a kurzus stb... Bioinformatikus mérnök képzések, speciálkollégiumok: ELTE, i Fizika TSz. (hálózatok) ELTE, Növényrendszertani TSz. (evolúciógenetikai aspektusok, sztochasztikus modellek, Monte Carlo módszerek)???
A bioinformatika története A bioinformatika története 1941,Sturtevant, Novitski: The homologies of chromosome elements in the genus Drosophila. 1953: Watson-Crick, DNS szerkezete, 1965: Pauling, Molecules as Documents of Evolutionary History 1969: Jukes-Cantor modell 1970: Needleman-Wunch, biológiai szekvenciaillesztés 1973, 1975: Sankoff: többszörös szekvenciaillesztés 1978: Nussinov algoritmusa RNS térszerkezetekre 1984: Hogeweg and Hesper, The alignment of sets of sequences and the construction of phyletic trees: an integrated method. ; 1987: Profile szekvenciaillesztés, 1988: Clustal 1992: Sztochasztikus modellek, HMMs 1993: Fodor et al. DNS chip 1999: Barabási-Albert modell Wolfe KH, Li WH. (2003). Molecular evolution meets the genomics revolution. Nat Genet. 2003 Mar; 33 Suppl:255-65. A bioinformatikai gondolkodás I. Legegyszer"bb példa: keresés egy telefonkönyvben A bioinformatikai gondolkodás I. Szekvenciaillesztés Naív algoritmus Sorban haladunk... Aba Ágnes Aba Béla Aba Ferencné... Gyors algoritmus Intervallumfelez A-M vagy N-Z? A-F vagy G-M? Stb. 1 1 1 1 1 1 1 3 5 7 9 11 1 5 13 25 41 61 1 7 25 63 129 231 1 9 41 129 321 671 A lehetségek száma drámaian n A bioinformatikai gondolkodás I. Naív algoritmus: Megnézi az összes lehetséget. Szofisztikált algoritmus: Az optimális megoldást valamilyen cseles úton találja meg (az okos algoritmus sem nézi meg az összes nevet a telefonkönyben) Az algoritmusok futási idejét a bemen adatok függvényeként is megadhatjuk Gyors algoritmusok: O(n): Kétszer annyi adatot kétszer annyi id alatt elemez. O(n 2 ): Kétszer annyi datot négyszer annyi id alatt elemez. Lassú algoritmusok: O(2 n ): Eggyel növelve a bemen adat mennyiségét, a futási id kétszeresére n. A bioinformatikai gondolkodás I. Heurisztikus algoritmusok: Gyorsabb, mint a nem heurisztikus algoritmus. Nem garantált, hogy az optimális megoldást kapjuk meg, de általában értelmes megoldást kapunk. Példák: BLAST: Kb. O(n) futási id O(n 2 ) helyett (1000 aminosavból álló szekvenciák esetén ezerszer gyorsabb) Többszörös szekvenviaillesztés: Bizonyítottan nincs optimális gyors algoritmus Iteratív szekvenciaillesztés: Clustal, T-COFFEE, stb. Ez így inkább érthet, mint precíz megfogalmazás...
A bioinformatikai gondolkodás I. Mit kell egy bioinformatikus technikusnak (is) tudnia egy algoritmusról? Mennyi az algoritmus futási ideje Meg tudja becsülni hogyan változik a futási id az adatmennyiség növelésével Az algoritmus egzakt vagy heurisztikus megoldást jelent-e? Általában az algoritmikai problémákról tudni kell, hogy: Lehetségek száma " futási id Vannak olyan problémák, amelyek egzakt megoldására nem lehet gyors algoritmust megadni, csak heurisztikus algoritmust A bioinformatikai gondolkodás II. Egy marslakó embereket akar tanulmányozni. Kér egy modellt egy divatterveztl és egy gyógyszerkutatótól... A divattervez egy viaszbábut küld, a gyógyszerkutató egy egeret. A két modellben csak a bajszuk a közös... Miért nem fog semmit sem megtudni az emberekrl a marslakó? A bioinformatikai gondolkodás II. Egy marslakó embereket akar tanulmányozni. Kér egy modellt egy divatterveztl és egy gyógyszerkutatótól... A divattervez egy viaszbábut küld, a gyógyszerkutató egy egeret. A két modellben csak a bajszuk a közös... Miért nem fog semmit sem megtudni az emberekrl a marslakó? Mert nem tudja, hogy a modell a valóság mely aszpektusát modellezi A bioinformatikai gondolkodás II. Példa: Szekvenciaillesztés: 1 MRRLLICLMLTVLAGCAQQQQPPKDDSLYRDLGQRAGIQRIVEGMLMNVARDDRIVERFK 2 MLSTAHRDIIKATVPILETGGEALTTHFYRIMLN--DYPQVRP--LFNQANQANGAQPRA ::... :. : : :. :: :.:..: A mutációk egymástól függetlenek Nincs letális mutáció Nincsenek tiltott motívumok Nincsenek térbeli kölcsönhatások, korrelációk Nyílván ezen állítások egyike sem igaz, de ezt kell feltételezni ahhoz, hogy gyors algoritmusunk legyen. A bioinformatikai gondolkodás II. Minden modell rossz, de némelyik használható... Az örökké fejld tudomány és a bioinformatika kapcsolata Model Predikció Tesztelés A bioinformatikában a körforgás minden egyes lépésére önálló tudományág épül i megfigyel ések Tudásábrázolás Adatbázisok Predikciók Adatbányászat
A bioinformatikai gondolkodás III. A bioinformatikai gondolkodás III. A Rosetta-k Törvények három nyelven. Központi hipotézis: a struktúra konzervatívabb, mint a szekvencia Amikor megtalálták, csak az ógörög és az egyiptomi alfabetikus írás volt ismert, a hielográfiák nem. A hielografikus írást a különböz írások összehasonlításával fejtették meg. si szekvencia struktúrafügg evolúció A változásokból következtetünk a struktúrára modern szekvencia A bioinformatikai gondolkodás III. Központi hipotézis: a struktúra konzervatívabb, mint a szekvencia A bioinformatikai gondolkodás III. Központi hipotézis: a struktúra konzervatívabb, mint a szekvencia si szekvencia struktúrafügg evolúció modern szekvencia si szekvencia struktúrafügg evolúció modern szekvencia A változásokból következtetünk a struktúrára A változásokból következtetünk a struktúrára Egy szekvencia: Egy szekvencia: Két szekvencia: DEFYTHISPSQALISCAMPLETELYIHIDDENYWAE A bioinformatikai gondolkodás III. Központi hipotézis: a struktúra konzervatívabb, mint a szekvencia A bioinformatikai gondolkodás IV. Korunk paradigmaváltása Több tényez együtthatása si szekvencia struktúrafügg evolúció A változásokból következtetünk a struktúrára modern szekvencia D NS chip Lehetvé vált egyszerre sok gén expressziójának vizsgálata Barabási-Albert modell, scale-free gráfok Matematikusok érdekldnek a hálózatok iránt Egy szekvencia: Két szekvencia, elemezve DEFYTHISPSQALISCAMPLETELYIHIDDENYWAE Els genomprojectek befejezése, rájöttünk, hogy (majdnem) semmit sem értünk Igény új gyógyszertargetek iránt -> fel kell fedezni az ismeretlen fehérjéket
A bioinformatikai gondolkodás IV. Korunk paradigmaváltása A bioinformatikai gondolkodás IV. Korunk paradigmaváltása Hagyományos megközelítés: Hipotézis, prekoncepció Hagyományos megközelítés: Hipotézis, prekoncepció tudásanyag hagyomány divat grant-climate Kisérlet, eredmények tudásanyag hagyomány divat grant-climate Kisérlet, eredmények Genomikai megközelítés: Génvadászat prekoncepció-mentes A bioinformatikai gondolkodás IV. Korunk paradigmaváltása A kurzus tematikája http://ramet.elte.hu/~miklosi/bioinformatika/2005sote/ Tudományos eljárás prekoncepciók alapján 1. Állapot (egészséges) 2. Állapot (daganatos) Molekula A Molekula B Molekula C Molekula D Molekula E Molekula X Molekula A Molekula B Molekula C Molekula D Molekula E Molekula X Tudományos eljárás prekoncepciók nélkül: génhalászat 1. egészséges 2. daganatos (eltérés) Információkeresés az adatbázisokban I. Információkeresés az adatbázisokban II. Szekvencia-összehasonlítások. Hasonlósági keresések szekvencia-adatbázisokban Molekuláris filogenetikai elemzések Single Nucleotide Polymorphism Struktúrák predikciója biológiai szekvenciákban Genom szint" mutációk Hálózatok Génexpressziós elemzések. Betegséggének. Pathogének Genetikai adat- etikai, jogi aspektusok miklosi@ramet.elte.hu Algoritmuselmész: Magamról Lunter G.A., Miklós, I., Song, Y.S. & Hein, J. (2003) An efficient algorithm for statistical multiple alignment on arbitrary phylogenetic trees J. Comp. Biol. 10(6):869-889. Miklós, I. (2002) An improved algorithm for statistical alignment of sequences related by a star tree. Bul Math. Biol. 64(4):771-779. Sztochasztikus modellez, statisztikus: Miklós, I., Lunter, G. A. & Holmes, I. (2004) A 'long indel' model for evolutionary sequence alignment. Mol. Biol. Evol., 21(3):529-540. Miklós, I., Ittzés, P. & Hein, J. (2005) ParIS Genome Rearrangement Server Bioinformatics, 21(6):817-820. Lunter, G.A., Miklós, I., Drummond, A., Jensen, J.L., & Hein, J. (2005) Bayesian Coestimation of Phylogeny and Sequence Alignment BMC Bioinformatics, 6:83. RNS térszerkezetelemz: Meyer, I.M. & Miklós, I. (2004) Co-transcriptional folding is encoded within RNA genes. BMC Molecular Biology, 5:10 Miklós, I., Meyer, I.M. & Nagy, B. (2005) Moments of the Boltzmann distribution for RNA secondary structures Bul. Math. Biol., 67(5):1031-1047. Köszönetnyílvánítás Patthy László: Pevzner (2004) bioinformatics cikk, bioinformatikus technikus vs. mérnök Simon István: Asztroinformatika vs. Bioinformatika Richard Durbin: Komparatív bioinformatika Falus András: Korunk paradigmaváltása a bioinformatikában
Ajánlott olvasmányok Pevzner, P (2004) Educating biologists in the 21st century: bioinformatics scientists versus bioinformatics technicians. Bioinformatics 20(14):2159-2161. Wolfe, K. H. & Li, W-H. (2003) Molecular evolution meets the genomic revolution. Nature Genetics 33:255-265.