Bioinformatika 2 1. előadás

1. előadás Prof. Poppe László BME Szerves Kémia és Technológia Tsz. Bioinformatika proteomika Előadás és gyakorlat

Bioinformatika Mi az? Bioinformatika: Tágabb értelemben: biológiai információ tárolása, értelmezése és elemzése számítógépes módszerek felhasználásával. Szűkebb értelemben: biológiai szekvenciaadatok illetve térszerkezeti adatok kezelése és elemzése.

Bioinformatika Mi az? Bioinformatika Részletesebb definíció - Oxford English Dictionary: (Molecular) bio informatics: bioinformatics is conceptualising biology in terms of molecules (in the sense of physical chemistry) and applying "informatics techniques" (derived from disciplines such as applied maths, computer science and statistics) to understand and organise the information associated with these molecules, on a large scale. In short, bioinformatics is a management information system for molecular biology and has many practical applications. A bioinformatika a biológia (fizikai kémiai értelemben vett) molekulák segítségével történő értelmezése és (az alkalmazott matematikából, számítógépes tudományból, statisztikából származó) "informatikai módszerek" felhasználása az e molekulákkal kapcsolatos információ nagy léptékben történő megértésére és rendszerezésére. A bioinformatika röviden a molekuláris biológia sok gyakorlati alkalmazással bíró információkezelési rendszere.

Bioinformatika Mi az? Bioinformatika Számításos biológia Részletesebb definíciók - definition Committee, National Institute of Mental Health : Bioinformatics: Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data,including those to acquire, store, organize, archive, analyze, or visualize such data. Bioinformatika: Számítógépes eszközök és módszerek kutatása, fejlesztése és alkalmazása biológiai, orvosi, viselkedéstudományi és orvosi adatok kinyerése, tárolása, rendszerezése, archiválása, elemzése ill. megjelenítése céljából Computational Biology: The development and application of data-analytical and theoretical methods, mathematical modeling and computational simulation techniques to the study of biological, behavioral, and social systems. Számításos biológia: Adatelemzési és elméleti módszerek fejlesztése és alkalmazása, matematikai modellezés és számítógépes szimulációs eljárások biológiai, viselkedéstudományi és szociális rendszerek tanulmányozására.

Rövid tematika A bioinformatika definíciója és története Szekvencia analízis nukleotid és fehérjeszekvenciák, az ezek közti összefüggések, páronkénti és többszörös összerendelés, filogenetikai analízis A szekunder szerkezet előrejelzése szekvencia alapján Domén analízis, funkció előrejelzése szekvencia alapján A genetikai és szerkezeti adatok összefüggése a molekuláris funkcióval és a metabolizmusban betöltött szereppel A fehérjék térszerkezetével összefüggő kérdések. A térszerkezet létrejöttéért felelős kölcsönhatások. A fehérjék szerkezeti osztályai. A térszerkezet meghatározás módszerei (proteinkrisztallográfia, NMR) A fehérjék 3D szerkezetének modellezésére alkalmas módszerek. Homológia modellezés alapmódszerei: templát alalpú és ab initio modellezési módszerek Fehérjék kölcsönhatása kis molekulákkal és biológiai makromolekulákkal, fehérjeszerkezetek dinamikája Proteomikai kérdésekkel összefüggő adatbázisok (nukleotid és fehérje szekvencia, szerkezeti adatbázisok, funkcionális adatbázisok) Bioinformatikai programok és programrendszerek proteomikai alkalmazásokhoz (önálló és Web alapú alkalmazások) Bioinformatika néhány gyakorlati alkalmazása

Bioinformatika Előzmények 1951 - Pauling & Corey: az alfa-hélix és beta-redő szerkezete 1953 - Watson & Crick: DNS kettős spirál (hélix) szerkezete (Franklin & Wilkins röntgenszerkezete alapján). 1954 - Perutz's csoport: nehéz atom módszer a protein krisztallográfia fázisproblémájára 1955 - F. Sanger: Az első protein szekvencia (bovine insulin). 1958 J. Kilby (Texas Instr.): Az első integrált áramkör / ARPA (Advanced Research Projects Agency, USA) megalakul 1962 - Pauling elmélete a molekuláris evolúcióról 1965 - Margaret Dayhoff : Atlas of Protein Sequences 1969 - ARPANET: az UCSB (Stanford) és az UCLA (University of Utah) számítógépeinek összekötése. 1970 - Needleman-Wunsch algoritmus: szekvencia összhasonlításra. 1971 - Ray Tomlinson (BBN): az e-mail 1972 - Paul Berg és csoportja: az első rekombináns DNS molekula 1973 - A Brookhaven Protein DataBank (PDB) bejelentése / Robert Metcalfe (Harvard University) - Ethernet. 1974 - Vint Cerf & Robert Khan: az "internet" és a Transmission Control Protocol (TCP). 1975 - Microsoft Co. (Bill Gates & Paul Allen) / 2D elektroforézis (P. H. O'Farrell) 1976 - Unix-To-Unix Copy Protocol (UUCP) - Bell Labs / Southern Blot technika (E. M. Southern). 1977 - A Brookhaven PDB teljes leírása / DNS szekvenálás (A. Maxam, W. Gilbert & F. Sanger) és szoftver (Staden) 1978 Az első Usenet kapcsolat (T. Truscott, J. Ellis & S. Bellovin).

Bioinformatika Kezdetek 1980 - Az első teljes gén szekvencia (FX174-5386 bázis pár / 9 protein) / Többdimenziós NMR protein szerkezet meghatározásra (Kumar, A.; Ernst, R.R.; Wüthrich, K.). 1981 - A Smith-Waterman algoritmus (szekvencia összerendelés) / IBM - Personal Computer (PC) / A szekvencia motívum koncepció (Doolittle) 1982 - Genetics Computer Group (GCG) - Wisconsin Suite molekuláris biológiai eszközök / GenBank Release 3 / Lambda fág genome szekvenálása 1983 - Compact Disk (CD) / Szekvencia adatbázis kereső algoritmus (Wilbur-Lipman) / DNS klón (cosmid) könyvtárak / PCR (Polymerase Chain Reaction) a DNS analízis lehetővé válik 1984 - Jon Postel: Domain Name System (DNS) / Macintosh (Apple Computer) 1985 - A FASTP/FASTN algoritmus / A Human Genome Initiative lehetőségének felvetése 1986 - A Human Genome Initiative kezdete / A "Genomics" elnevezés / A SWISS-PROT adatbázis megalapítása 1987 - Mesterséges élesztő kromoszóma (YAC) / Az E. coli feltérképezése / Perl (Practical Extraction Report Language) / NIH NIGMS - genome projektek finanszírozásának kezdete 1988 - National Center for Biotechnology Information (NCBI) megalakulása / EMBnet network az adatbázisok terjesztésére / A Human Genome Intiative elindul / A FASTA algoritmus (Pearson and Lupman) 1989 - Oxford Molceular Group,Ltd.(OMG) megalakul. Termékeik: Anaconds, Asp, Cameleon (molekula modellezés, drug design, protein design).

Bioinformatika Kibontakozás 1990 - A BLAST program (Altschul, et.al.) / (M. Levitt, C. Lee): Look & SegMod (molecular modeling and protein design) / HGP terv - USA Congress (15 éves projekt kezdete) 1991 - Genf (CERN) - World Wide Web / Expressed sequence tags (ESTs) / Humán kromoszóma térkép adattár (GDB) megalakulása 1992 - Humán genom - Kisfelbontású genetikai térkép 1993 - IMAGE konzorcium összehangolt cdna génszekvenálás és térképezés / LBNL - új transposonsegített kromoszóma-szekvenálás / GRAIL Internetes szekvencia-interpretáló szolgáltatás (ORNL) 1994 - Netscape Co (Navigator) / PRINTS database: protein motivumok (Attwood & Beck) / EMBL European Bioinformatics Institute / Másod-generációs DNS klón könyvtárak az összes humán kromoszómáról 1995 - Az első bakteriális (Haemophilus influenzea) genom (1.8) szekvenálása ( Fleischmann et al) / A legkisebb baktérium (Mycoplasma genitalium) szekvenálása - az önálló léthez szükséges legkevesebb gén 1996 - A sütőélesztő (Sacharomyces cerevisiae 12.1 Mb) genom / A Prosite adatbázis (Bairoch, et.al) / Affymetrix az első kereskedelmi DNS chip 1997 - Az E. coli (4.7 Mbp) genom / National Human Genome Research Institute (NHGRI) 1998 - A Swiss Institute of Bioinformatics megalakulása 1999 - Az első teljes humán kromoszóma szekvencia

Bioinformatika Közelmúlt 2000 - Bakteriális (Pseudomonas aeruginosa, 6.3 Mbp), növényi (A. thaliana, 100 Mb) és rovar (Drosophila melanogaster, 180 Mbp) genom szekvenálása / További humán kromoszómák szekvenálása 2001 - A Humán genom (3000 Mbp) közlése / Több humán kromoszóma komplett szekvenálása a Human Genome Project magas minőségi követelményei szerint 2002 - Structural Bioinformatics és GeneFormatics egyesülnek / Mouse Genome Sequencing Consortium az egér genom nyers szekvenciája 2003 - A Human Genome Project befejezése: 2003 április 2004 - Rat Genome Sequencing Consortium: a barna norvég patkány (Rattus norvegicus) genom 2008-1000 Genomes Project indulása Egyéni variációk a humán genomban (Cél: az összes 1% feletti genetikai variáció) / Personalized medicine igazi kezdete 2013 - The Nobel Prize in Chemistry 2013 (M. Karplus, M. Levitt, A. Warshel, megosztva) for the development of multiscale models for complex chemical systems / QM/MM módszerek 2016-1000 Genomes Project: a humán genom több mint 30.000 x lefedettsége. Jelenleg nincs olyan bioinformatikai eszköz mellyel a teljes adattömegben keresni lehetne.

Aminosavak Osztályzás - Színkódok Neutrális-Apoláris 3-betűs 1-betűs Glicin Gly G L-Alanin Ala A L-Valin Val V L-Izoleucin Ile I L-Leucin Leu L L-Fenilalanin Phe F L-Prolin Pro P Neutrális-Poláris 3-betűs 1-betűs L-Szerin Ser S L-Treonin Thr T L-Tirozin Tyr Y L-Triptofán Trp W L-Aszparagin Asn N L-Glutamin Gln Q L-Cisztein Cys C L-Metionin Met M Savas 3-betűs 1-betűs L-Aszparaginsav Asp D L-Glutaminsav Glu E Bázikus 3-betűs 1-betűs L-Lizine Lys K L-Arginin Arg R L-Hisztidin His H

Fehérjék Szerkezet - Feltekeredés Protein szerkezet - A fehérjék szerkezeti szintjei Primer szerkezet Szekunder szerkezet Tercier szerkezet Kvaterner szerkezet ( hajtogatás-mentes állapot) ( -hélix, -redő) (domének, alegységek) (több fehérjelánc) Intra- és intermolekuláris diszulfid kötések

Fehérjék Primer és szekunder szerkezet Primer szerkezet MNKKEWEEKYVKPLLERSPERKKEFKTSSGIVVDRLYTPEDVEIDYENKL GYPGVYPFTRGVYPTMYRGRLWTMRQYAGFGTAEETNRRYRYLLEQGQTG LSVAFDLPTQIGYDSDHPMALGEVGKVGVAIDTIEDMEILFNGIPLGKVS TSMTINSTCAQILSMYVAVAEKQGVERANLRGTVQNDMLKEYIARGTYIF PPEPSLRLATDIIMFCAKEMPKWNSISISGYHMEEAGATPVQEVAFTLAD GITYVEKVIERGMDVDSFAPRLSFFFAAGNNFLEEIAKFRAARRLWARIM KERFNAKNPRSMMLRFHVQTAGCTLTAQQPENNIVRVALQALAAVLGGCQ SLHTNSFDEALCLPTEKAVRIALRTQQIIAEESGVADVVDPLGGSYYIEW LTDRIEEEAMKYIEKIDEMGGMIKAIESGYVQREIQKSAYEKQKAIDEGE ITVVGVNKYQIEEEIQIELLRVDKAVVEKQIRRLQEFRKNRDAKKVEEAL RLRKAAEKEDENLMPYVLDAVKARATLGEMTDALRDVFGEFRAPEIF (tk. az aminosav sorrend) Szekunder szerkezet DNS aminosav sorrend feltekeredés

Fehérjék Tercier és kvaterner szerkezet Tercier szerkezet Kvaterner szerkezet Tercier és kvaterner szerkezet aktív konformáció Enzimek (katalítikus fehérjék): pozitív katalízis (a szubsztrát illeszkedik az aktív hely katalítikus részeihez) negatív katalízis (a szubsztrát védelme, biológiai védőcsoport )

Fehérjék Az enzimek aktív centruma A karboxipeptidáz A enzim aktív centruma; (a) az aktív centrum sematikus megjelenítése; (b) a fehérje aktív centruma a Cbz-Gly-Phe szubsztráttal (abban a helyzetben ahogy az aktív centrumban feltehetóen elhelyezkedik).

A fehérje expressziót követő folyamatok Proteinek feltekeredése és lebomlása

A genetikai kód A DNS szerkezete

Gén expresszió A központi dogma

Gén expresszió Transzkripció

A szabványos genetikai kód A protein - DNS irányban a kód redundáns

Gén expresszió Transzkripció transzláció folyamata

Gén expresszió A transzláció folyamata

Gén expresszió Olvasási keretek A start-stop kódok fontossága

Gén multiplikáció DNS in vitro multiplikációja PCR segítségével Primerek (nagy felesleg) és dntp-k (dezoxinukleotid trifoszfátok) egyszálú DNS A PCR ciklus: 1. - DNS szétválás (~90 o C) 2. - Komplementer szál szintézis (~70 o C) hőstabil polimerázzal Eredmény: exponenciális sokszorozódás

Gén multiplikáció Gének klónozása és multiplikációja Desired gene Cleaved plasmid Wild type host cell Plasmid with the desired gene Recombinant cell

A bioinformatika céljai Adatbázisok készítése és fenntartása. Az adatok elrendezése szervezése úgy, hogy a kutatók a meglévő információt könnyen elérjék és hozzáadhassanak újat. Eljárások, módszerek kidolgozása adatok elemzésére. Az adatok elemzés nélkül haszontalanok. A kidolgozott eszközök és módszerek alkalmazása az adatok elemzésére, és az eredmények biológiai értelmezése.

A biológiai információ típusai és a bioinformatikai módszerek Az adatok forrása Az adathalmaz mérete Bioinformatikai témák Nyers DNS szekvenciák Fehérjeszekvenciák Makromolekuláris szerkezetek (protein, DNS, RNS) ~196 millió szekvencia - 217 milliárd bázis (gén) [GenBank] [+360 millió szekvencia, 1.637 milliárd bázis (WGS: whole genom shotgun)] dátum: 2016.08. 65,8 millió szekvencia (UniProtKB) (egyenként kb. 300 aminosav) (0,55 millió Swiss-Prot + 65,38 millió TrEMBL) dátum: 2016.09. ~122 ezer szerkezet (egyenként kb. 1000 atom koordinátái) (RCSB PDB) dátum: 2016.09. Kódoló és nem kódoló régiók Intronok és exonok Géntermékek predikciója Igazságügyi elemzések Szekvenciaösszehasonlítás Többszörös szekvenciaillesztés Konzerválódott szekvenciamotívumok 3D szerkezet illesztések Fehérjegeometriai mérések Felszín, térfogat alak számítás Intermolekuláris kölcsönhatás Molekulaszimulációk (energiafüggvény, molekuláris mozgások, dokkolás)

A biológiai információ típusai és a bioinformatikai módszerek Az adatok forrása Az adathalmaz mérete Bioinformatikai témák Genomok Génexpressziós adatok Egyéb: Szakirodalom Anyagcsere útvonalak ~83 ezer teljes genom (egyenként 1,6 millió - 3 milliárd bázis) (NCBI Genome) [~132 ezer közzétett nyers genom] (NCBI WGS) dátum: 2016.09. ~73 ezer génexpressziós adatsor (NCBI GEO) dátum: 2016.09. (egyik legnagyobb: ~20 időpont az élesztő ~6000 génjénél) ~23 millió szakcikk (Medline) ~43 milllió referencia (CAplus) 495 anyagcsere térkép ~460 000 hivatkozással (KEGG) dátum: 2016.09. Ismétlődések jellemzése Szerkezet - gén hozzárendelés Filogenetikai analízis Genom méretű felmérések (pl. anyagcsere útvonalak ) Betegségek és gének összefüggésének vizsgálata Expressziós mintázatok korrelációja Expresszió kapcsolata szerkezeti és biokémiai adatokkal Elektronikus könyvtárak / automatikus irodalmazás Tudásadatbázisok Reakcióút szimulációk

Adatcsoportosítás hasonlóságok alapján Valós biológiai hasonlóságok alapján az információ nagy része csoportokba rendezhető ismétlődő szekvenciarészletek a genomban a gének funkció szerint csoportosíthatóak (pl. enzimhatás vagy anyagcsere útvonalak) különböző fehérjéknek gyakran hasonló a szekvenciájuk az alapvető fehérjeszerkezetek száma korlátos (becslések szerint maximum ~10 000) A biológiai rendszerek véges számú alkotórészből állnak

Mintázatfelismerés és predikció A bioinformatika két alapvető művelete a mintafelismerés és a predikció Mintafelismerés: a hasonlóságok megtalálása A már ismert, hasonló funkciójú/szerkezetû fehérjéket megvizsgálva megkeresünk valamely, a funkcióra/szerkezetre jellemző, konzerválódott sajátosságot Ezt használjuk fel új szekvenciák funkciójának/szerkezetének azonosítására Feltétel: az új szekvencia olyan fehérjéhez tartozzon, amihez hasonlót már "láttunk" Predikció: A funkció vagy a térszerkezet megjóslása, hasonlóság alapján vagy ab initio módon A bioinformatika alapóhaja - szekvenciából megjósolt térszerkezet

Szekvenciából jósolt térszerkezet problémája MNKKEWEEKYVKPLLERSPERKKEFKTSSGIVVDRLYTPEDVEIDYENKL GYPGVYPFTRGVYPTMYRGRLWTMRQYAGFGTAEETNRRYRYLLEQGQTG LSVAFDLPTQIGYDSDHPMALGEVGKVGVAIDTIEDMEILFNGIPLGKVS TSMTINSTCAQILSMYVAVAEKQGVERANLRGTVQNDMLKEYIARGTYIF PPEPSLRLATDIIMFCAKEMPKWNSISISGYHMEEAGATPVQEVAFTLAD GITYVEKVIERGMDVDSFAPRLSFFFAAGNNFLEEIAKFRAARRLWARIM KERFNAKNPRSMMLRFHVQTAGCTLTAQQPENNIVRVALQALAAVLGGCQ SLHTNSFDEALCLPTEKAVRIALRTQQIIAEESGVADVVDPLGGSYYIEW LTDRIEEEAMKYIEKIDEMGGMIKAIESGYVQREIQKSAYEKQKAIDEGE ITVVGVNKYQIEEEIQIELLRVDKAVVEKQIRRLQEFRKNRDAKKVEEAL RLRKAAEKEDENLMPYVLDAVKARATLGEMTDALRDVFGEFRAPEIF Felgombolyodás: az aminosavsorrend meghatározza a térszerkezetet, de máig sem értjük pontosan hogyan Csak a másodlagos szerkezet jósolható korlátozott megbízhatósággal Ez így marad még a közeli jövőben is

A 2D 3D adatok különbözősége Az ismert fehérjeszekvenciák és az ismert fehérje térszerkezetek száma jelentősen eltérő arányban nő Nagy információs deficit fontos szerep jut a bioinformatikának Kb. 2000 több szekvencia, mint 3D szerkezet Kb. 175 000 000 ismert szekvencia, kb. 100 000 egyedi térszerkezet Az arány fokozatosan nő (genom programok) [10 másodpercenként egy új szekvencia, míg napi ~10 új szerkezetet]

GOLD: http://www.genomesonline.org Genom projektek Genom szekvenálás BAC to BAC szekvenálás whole genom shotgun szekvenálás Kész genomok (~83 000); futó genom projektek (~56 000): Élesztő Caenorhabditis elegans (féreg) Drosophila melanogaster (muslica) Arabidopsis thaliana (lúdfű) Ember Jelenleg elkészült genom projektek: ~74 000 prokarióta ~3 500 eukarióta ~900 archeon ~5 700 vírus ~243 000 metagenom adatkészlet (+ >10 000 fut)

Szekvenciaanalízis A bioinformatika legfontosabb eljárása: új (ismeretlen szerkezetû/funkciójú fehérjéhez tartozó) szekvenciához hasonló keresáse a már ismert szerkezetű / funkciójú fehérjék szekvenciái között. Szekvenciák összerendezése (vagy illesztése) (alignment): Szekvenciaazonosság: az összerendezésben az azonos aminosavpárok százalékos aránya A szekvenciaazonosság csökkenésével a funkció/szerkezet átvihetősége csökken

Szekvenciaanalízis

M. J. Foster: Micron 2002, 33, 365-384. Szekvencia egyezés fokának jelentősége A szekvencia egyezés foka: <30 %: nem megfelelő modellek 30-60 %: megfelelő modellek, amelyek megbízhatatlan régiókkal rendelkeznek >60 %: igen jó minőségű modellek, amelyeknél C átlagos eltérése a kísérleti értéktől kisebb, mint 1Å A fibroblasz növekedési faktor modelljének (a patkány GF keratinocita szerkezete alapján, 40% egyezés) összehasonlítása kísérleti szerkezetével (röntgen).

A homológia típusai A homológia két típusa Ortológia: két gén ortológ, ha két különbözõ fajban találhatóak, és egy közös ős génből származnak, mely a két faj közös ősében volt jelen. Ugyanazt a funkciót szolgálják, a két fajban. Példa: karboxil észteráz (ill. génje) az emberben és a sertésben. Paralógia: két gén paralóg, ha ugyanabban az organizmusban találhatóak, és egy közös ős génből génduplikáció és azt követő divergens evolúció útján alakultak ki. Többnyire különböző, de egymással összefüggésben lévő funkciójuk van. Példa: a hisztidin bioszintézis enzimei (ill. ezek génjei) emberben (nagyon hasonló szerkezetûek, de más más reakciót katalizálnak).

M. J. Foster: Micron 2002, 33, 365-384. Az illesztési (threading) probléma Szerkezet: konzervált régiók változó régiók Illesztési (alignment) módszerek Szerkezeti finomítás túlfinomítás (over-refinement) A szerkezet minőségének értékelése (PROCHECK / WhatIf...) 1CPC 2FAL Nagyfokú szerkezeti hasonlóság kis mértékű szekvencia egyezés esetében is megfigyelhető Összehasonlítás a C-fikociamin (1CPC) és a tengeri nyúl mioglobin (2FAL) megfelelő régiói között

Bioinformatikai webhelyek EMBL (EMBL-EBI, stb) NCBI (Medline, GenBank, stb.) Expasy (UniProtKB/Swiss-Prot, stb.)

Bioinformatikai adatbázisok http://www.oxfordjournals.org/our_journals/nar/database/c/ A Nucleic Acids Research évi adatbázis összesítője (2016): Nucleotide Sequence Databases RNA sequence databases Protein sequence databases Structure Databases Genomics Databases (non-vertebrate) Metabolic and Signaling Pathways Human and other Vertebrate Genomes Human Genes and Diseases Microarray Data and other Gene Expression Databases Proteomics Resources Other Molecular Biology Databases Organelle databases Plant databases Immunological databases Cell biology