Bioinformatika 2 1. előadás

Hasonló dokumentumok
Bioinformatika 2 1. előad

Bevezetés a bioinformatikába. Harangi János DE, TEK, TTK Biokémiai Tanszék

Bioinformatika 2 6. előadás

MEDICINÁLIS ALAPISMERETEK AZ ÉLŐ SZERVEZETEK KÉMIAI ÉPÍTŐKÖVEI AZ AMINOSAVAK ÉS FEHÉRJÉK 1. kulcsszó cím: Aminosavak

Bioinformatika 2 2. előadás

Orvosi Genomtudomány 2014 Medical Genomics Április 8 Május 22 8th April 22nd May

Több oxigéntartalmú funkciós csoportot tartalmazó vegyületek

INFORMATIKA EMELT SZINT%

Human genome project

Bioinformatika előad

3. Sejtalkotó molekulák III.

Bioinformatika és genomanalízis az orvostudományban. Biológiai adatbázisok. Cserző Miklós 2018

Bioinformatika előadás

A fehérjék hierarchikus szerkezete

Bioinformatika 2 4. előadás

A tárgy címe: Bioinformatika

Bioinformatika 2 5. előadás

A sejtek élete. 5. Robotoló törpék és óriások Az aminosavak és fehérjék R C NH 2. C COOH 5.1. A fehérjeépítőaminosavak általános

3. Sejtalkotó molekulák III. Fehérjék, enzimműködés, fehérjeszintézis (transzkripció, transzláció, poszt szintetikus módosítások)

Aminosavak általános képlete NH 2. Csoportosítás: R oldallánc szerkezete alapján: Semleges. Esszenciális aminosavak

Fehérje expressziós rendszerek. Gyógyszerészi Biotechnológia

Juhász Angéla MTA ATK MI Alkalmazott Genomikai Osztály SZEKVENCIA ADATBÁZISOK

A genetikai lelet értelmezése monogénes betegségekben

Fehérjeszerkezet, és tekeredés

BIOINFORMATIKA Ungvári Ildikó

Bioinformatika előadás

A fehérjék hierarchikus szerkezete

Genomadatbázisok Ld. Entrez Genome: Összes ismert genom, hierarchikus szervezésben (kromoszóma, térképek, gének, stb.)

A DNS szerkezete. Genom kromoszóma gén DNS genotípus - allél. Pontos méretek Watson genomja. J. D. Watson F. H. C. Crick. 2 nm C G.

DNS-szekvencia meghatározás

(11) Lajstromszám: E (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA

4. FEHÉRJÉK. 2. Vázanyagok. Az izmok alkotórésze (pl.: a miozin). Inak, izületek, csontok szerves komponensei, az ún. vázfehérjék (szkleroproteinek).

Bioinformatika előadás

10. Genomika 2. Microarrayek és típusaik

Miben különbözünk az egértől? Szabályozás a molekuláris biológiában

Bakteriális identifikáció 16S rrns gén szekvencia alapján

TDK lehetőségek az MTA TTK Enzimológiai Intézetben

Cserző Miklós Bioinformatika és genomanalízis az orvostudományban. Integrált biológiai adatbázisok

Gerinces és növényi ortológ promóter adatbázisok fejlesztése és elemzése. Eötvös Loránd Tudományegyetem Természettudományi Kar Biológia Doktori Iskola

Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis

A bioinformatika gyökerei

TEMATIKA Biokémia és molekuláris biológia IB kurzus (bb5t1301)

12/4/2014. Genetika 7-8 ea. DNS szerkezete, replikáció és a rekombináció Hershey & Chase 1953!!!


NMR a peptid- és fehérje-kutatásban

A tejfehérje és a fehérjeellátás

A MOLEKULÁRIS BIOLÓGIA ISMERETÁBRÁZOLÁSI PROBLÉMÁI

FEHÉRJÉK A MÁGNESEKBEN. Bodor Andrea ELTE, Szerkezeti Kémiai és Biológiai Laboratórium. Alkímia Ma, Budapest,

Bioinformatika 2 9. előadás

TAKARMÁNYOZÁSTAN. Az Agrármérnöki MSc szak tananyagfejlesztése TÁMOP /1/A

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Bevezetés. Cserző Miklós 2018

Hamar Péter. RNS világ. Lánczos Kornél Gimnázium, Székesfehérvár, október

19.Budapest Nephrologiai Iskola/19th Budapest Nephrology School angol 44 6 napos rosivall@net.sote.hu

ÚJ GENERÁCIÓS SZEKVENÁLÁS

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Biomassza alapú bioalkohol előállítási technológia fejlesztése metagenomikai eljárással

transzláció DNS RNS Fehérje A fehérjék jelenléte nélkülözhetetlen minden sejt számára: enzimek, szerkezeti fehérjék, transzportfehérjék

A fehérjék hierarchikus szerkezete. Szerkezeti hierarchia. A fehérjék építőkövei az aminosavak. Fehérjék felosztása

2. Ismert térszerkezetű transzmembrán fehérjék adatbázisa: a PDBTM adatbázis. 3. A transzmembrán fehérje topológiai adatbázis, a TOPDB szerver

A HUMÁN GENOM PROJEKT Sasvári-Székely Mária* Semmelweis Egyetem, Orvosi Vegytani, Molekuláris Biológiai és Pathobiokémiai Intézet

A géntechnológiát megalapozó felfedezések

Phenotype. Genotype. It is like any other experiment! What is a bioinformatics experiment? Remember the Goal. Infectious Disease Paradigm

ADATBÁNYÁSZAT I. ÉS OMICS

2. Aminosavak - Treonin

Molekuláris genetikai vizsgáló. módszerek az immundefektusok. diagnosztikájában

Gyakorlati bioinformatika

ELTE Doktori Iskola Evolúciógenetika, evolúciós ökológia, konzervációbiológia program Programvezető: Dr. Szathmáry Eörs, akadémikus, egyetemi tanár

Genetika. Tartárgyi adatlap: tantárgy adatai

Bioinformatika 2 10.el

3. Aminosavak gyártása

A genomikai oktatás helyzete a Debreceni Egyetemen

Az aminosav anyagcsere orvosi vonatkozásai Csősz Éva

Fehérjék rövid bevezetés

Mérnök informatikus (BSc) alapszak levelező tagozat (BIL) / BSc in Engineering Information Technology (Part Time)

15. Fehérjeszintézis: transzláció. Fehérje lebontás (proteolízis)

,:/ " \ OH OH OH / \ O / H / H HO-CH, O, CH CH - OH ,\ / "CH - ~(H CH,-OH \OH. ,-\ ce/luló z 5zer.~ezere

13. RNS szintézis és splicing

Szénhidrátkémiai kutatások bioinformatikai esetek. Dr. Harangi János DE, TTK, Biokémiai Tanszék

Biológus MSc. Molekuláris biológiai alapismeretek

Hálózati modellek alkalmazása a molekuláris biológia néhány problémájára. Doktori (PhD) értekezés tézisei. Ágoston Vilmos

SOLiD Technology. library preparation & Sequencing Chemistry (sequencing by ligation!) Imaging and analysis. Application specific sample preparation

8. A fehérjék térszerkezetének jóslása

Szerződéses kutatások/contract research

Bioinformatika előad

Az evolúció revolúciója. Forradalmian gyors módszerek új fehérjék előállítására

ALKÍMIA MA Az anyagról mai szemmel, a régiek megszállottságával.

Transzláció. Szintetikus folyamatok Energiájának 90%-a

Bevezetés a rendszerbiológiába

Human Genome Project, évvel a tervezett befezés előtt The race is over, victory for Craig Venter. The genome is mapped* - now what?

Dobzhansky: In Biology nothing makes sense except in the light of Evolution.

7. Fehérjeszekvenciák és térszerkezetek analízise.

NÖVÉNYGENETIKA. Az Agrármérnöki MSc szak tananyagfejlesztése TÁMOP /1/A

Molekuláris biológiai módszerek alkalmazása a biológiai környezeti kármentesítésben

Táplálkozási ismeretek. Fehérjék. fehérjéinek és egyéb. amelyeket

A replikáció mechanizmusa

Poligénes v. kantitatív öröklődés

A minimális sejt. Avagy hogyan alkalmazzuk a biológia több területét egy kérdés megválaszolására

Szerkesztette: Vizkievicz András

TÉMAKÖRÖK. Ősi RNS világ BEVEZETÉS. RNS-ek tradicionális szerepben

Átírás:

1. előadás Prof. Poppe László BME Szerves Kémia és Technológia Tsz. Bioinformatika proteomika Előadás és gyakorlat

Bioinformatika Mi az? Bioinformatika: Tágabb értelemben: biológiai információ tárolása, értelmezése és elemzése számítógépes módszerek felhasználásával. Szűkebb értelemben: biológiai szekvenciaadatok illetve térszerkezeti adatok kezelése és elemzése.

Bioinformatika Mi az? Bioinformatika Részletesebb definíció - Oxford English Dictionary: (Molecular) bio informatics: bioinformatics is conceptualising biology in terms of molecules (in the sense of physical chemistry) and applying "informatics techniques" (derived from disciplines such as applied maths, computer science and statistics) to understand and organise the information associated with these molecules, on a large scale. In short, bioinformatics is a management information system for molecular biology and has many practical applications. A bioinformatika a biológia (fizikai kémiai értelemben vett) molekulák segítségével történő értelmezése és (az alkalmazott matematikából, számítógépes tudományból, statisztikából származó) "informatikai módszerek" felhasználása az e molekulákkal kapcsolatos információ nagy léptékben történő megértésére és rendszerezésére. A bioinformatika röviden a molekuláris biológia sok gyakorlati alkalmazással bíró információkezelési rendszere.

Bioinformatika Mi az? Bioinformatika Számításos biológia Részletesebb definíciók - definition Committee, National Institute of Mental Health : Bioinformatics: Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data,including those to acquire, store, organize, archive, analyze, or visualize such data. Bioinformatika: Számítógépes eszközök és módszerek kutatása, fejlesztése és alkalmazása biológiai, orvosi, viselkedéstudományi és orvosi adatok kinyerése, tárolása, rendszerezése, archiválása, elemzése ill. megjelenítése céljából Computational Biology: The development and application of data-analytical and theoretical methods, mathematical modeling and computational simulation techniques to the study of biological, behavioral, and social systems. Számításos biológia: Adatelemzési és elméleti módszerek fejlesztése és alkalmazása, matematikai modellezés és számítógépes szimulációs eljárások biológiai, viselkedéstudományi és szociális rendszerek tanulmányozására.

Rövid tematika A bioinformatika definíciója és története Szekvencia analízis nukleotid és fehérjeszekvenciák, az ezek közti összefüggések, páronkénti és többszörös összerendelés, filogenetikai analízis A szekunder szerkezet előrejelzése szekvencia alapján Domén analízis, funkció előrejelzése szekvencia alapján A genetikai és szerkezeti adatok összefüggése a molekuláris funkcióval és a metabolizmusban betöltött szereppel A fehérjék térszerkezetével összefüggő kérdések. A térszerkezet létrejöttéért felelős kölcsönhatások. A fehérjék szerkezeti osztályai. A térszerkezet meghatározás módszerei (proteinkrisztallográfia, NMR) A fehérjék 3D szerkezetének modellezésére alkalmas módszerek. Homológia modellezés alapmódszerei: templát alalpú és ab initio modellezési módszerek Fehérjék kölcsönhatása kis molekulákkal és biológiai makromolekulákkal, fehérjeszerkezetek dinamikája Proteomikai kérdésekkel összefüggő adatbázisok (nukleotid és fehérje szekvencia, szerkezeti adatbázisok, funkcionális adatbázisok) Bioinformatikai programok és programrendszerek proteomikai alkalmazásokhoz (önálló és Web alapú alkalmazások) Bioinformatika néhány gyakorlati alkalmazása

Bioinformatika Előzmények 1951 - Pauling & Corey: az alfa-hélix és beta-redő szerkezete 1953 - Watson & Crick: DNS kettős spirál (hélix) szerkezete (Franklin & Wilkins röntgenszerkezete alapján). 1954 - Perutz's csoport: nehéz atom módszer a protein krisztallográfia fázisproblémájára 1955 - F. Sanger: Az első protein szekvencia (bovine insulin). 1958 J. Kilby (Texas Instr.): Az első integrált áramkör / ARPA (Advanced Research Projects Agency, USA) megalakul 1962 - Pauling elmélete a molekuláris evolúcióról 1965 - Margaret Dayhoff : Atlas of Protein Sequences 1969 - ARPANET: az UCSB (Stanford) és az UCLA (University of Utah) számítógépeinek összekötése. 1970 - Needleman-Wunsch algoritmus: szekvencia összhasonlításra. 1971 - Ray Tomlinson (BBN): az e-mail 1972 - Paul Berg és csoportja: az első rekombináns DNS molekula 1973 - A Brookhaven Protein DataBank (PDB) bejelentése / Robert Metcalfe (Harvard University) - Ethernet. 1974 - Vint Cerf & Robert Khan: az "internet" és a Transmission Control Protocol (TCP). 1975 - Microsoft Co. (Bill Gates & Paul Allen) / 2D elektroforézis (P. H. O'Farrell) 1976 - Unix-To-Unix Copy Protocol (UUCP) - Bell Labs / Southern Blot technika (E. M. Southern). 1977 - A Brookhaven PDB teljes leírása / DNS szekvenálás (A. Maxam, W. Gilbert & F. Sanger) és szoftver (Staden) 1978 Az első Usenet kapcsolat (T. Truscott, J. Ellis & S. Bellovin).

Bioinformatika Kezdetek 1980 - Az első teljes gén szekvencia (FX174-5386 bázis pár / 9 protein) / Többdimenziós NMR protein szerkezet meghatározásra (Kumar, A.; Ernst, R.R.; Wüthrich, K.). 1981 - A Smith-Waterman algoritmus (szekvencia összerendelés) / IBM - Personal Computer (PC) / A szekvencia motívum koncepció (Doolittle) 1982 - Genetics Computer Group (GCG) - Wisconsin Suite molekuláris biológiai eszközök / GenBank Release 3 / Lambda fág genome szekvenálása 1983 - Compact Disk (CD) / Szekvencia adatbázis kereső algoritmus (Wilbur-Lipman) / DNS klón (cosmid) könyvtárak / PCR (Polymerase Chain Reaction) a DNS analízis lehetővé válik 1984 - Jon Postel: Domain Name System (DNS) / Macintosh (Apple Computer) 1985 - A FASTP/FASTN algoritmus / A Human Genome Initiative lehetőségének felvetése 1986 - A Human Genome Initiative kezdete / A "Genomics" elnevezés / A SWISS-PROT adatbázis megalapítása 1987 - Mesterséges élesztő kromoszóma (YAC) / Az E. coli feltérképezése / Perl (Practical Extraction Report Language) / NIH NIGMS - genome projektek finanszírozásának kezdete 1988 - National Center for Biotechnology Information (NCBI) megalakulása / EMBnet network az adatbázisok terjesztésére / A Human Genome Intiative elindul / A FASTA algoritmus (Pearson and Lupman) 1989 - Oxford Molceular Group,Ltd.(OMG) megalakul. Termékeik: Anaconds, Asp, Cameleon (molekula modellezés, drug design, protein design).

Bioinformatika Kibontakozás 1990 - A BLAST program (Altschul, et.al.) / (M. Levitt, C. Lee): Look & SegMod (molecular modeling and protein design) / HGP terv - USA Congress (15 éves projekt kezdete) 1991 - Genf (CERN) - World Wide Web / Expressed sequence tags (ESTs) / Humán kromoszóma térkép adattár (GDB) megalakulása 1992 - Humán genom - Kisfelbontású genetikai térkép 1993 - IMAGE konzorcium összehangolt cdna génszekvenálás és térképezés / LBNL - új transposonsegített kromoszóma-szekvenálás / GRAIL Internetes szekvencia-interpretáló szolgáltatás (ORNL) 1994 - Netscape Co (Navigator) / PRINTS database: protein motivumok (Attwood & Beck) / EMBL European Bioinformatics Institute / Másod-generációs DNS klón könyvtárak az összes humán kromoszómáról 1995 - Az első bakteriális (Haemophilus influenzea) genom (1.8) szekvenálása ( Fleischmann et al) / A legkisebb baktérium (Mycoplasma genitalium) szekvenálása - az önálló léthez szükséges legkevesebb gén 1996 - A sütőélesztő (Sacharomyces cerevisiae 12.1 Mb) genom / A Prosite adatbázis (Bairoch, et.al) / Affymetrix az első kereskedelmi DNS chip 1997 - Az E. coli (4.7 Mbp) genom / National Human Genome Research Institute (NHGRI) 1998 - A Swiss Institute of Bioinformatics megalakulása 1999 - Az első teljes humán kromoszóma szekvencia

Bioinformatika Közelmúlt 2000 - Bakteriális (Pseudomonas aeruginosa, 6.3 Mbp), növényi (A. thaliana, 100 Mb) és rovar (Drosophila melanogaster, 180 Mbp) genom szekvenálása / További humán kromoszómák szekvenálása 2001 - A Humán genom (3000 Mbp) közlése / Több humán kromoszóma komplett szekvenálása a Human Genome Project magas minőségi követelményei szerint 2002 - Structural Bioinformatics és GeneFormatics egyesülnek / Mouse Genome Sequencing Consortium az egér genom nyers szekvenciája 2003 - A Human Genome Project befejezése: 2003 április 2004 - Rat Genome Sequencing Consortium: a barna norvég patkány (Rattus norvegicus) genom 2008-1000 Genomes Project indulása Egyéni variációk a humán genomban (Cél: az összes 1% feletti genetikai variáció) / Personalized medicine igazi kezdete 2013 - The Nobel Prize in Chemistry 2013 (M. Karplus, M. Levitt, A. Warshel, megosztva) for the development of multiscale models for complex chemical systems / QM/MM módszerek 2016-1000 Genomes Project: a humán genom több mint 30.000 x lefedettsége. Jelenleg nincs olyan bioinformatikai eszköz mellyel a teljes adattömegben keresni lehetne.

Aminosavak Osztályzás - Színkódok Neutrális-Apoláris 3-betűs 1-betűs Glicin Gly G L-Alanin Ala A L-Valin Val V L-Izoleucin Ile I L-Leucin Leu L L-Fenilalanin Phe F L-Prolin Pro P Neutrális-Poláris 3-betűs 1-betűs L-Szerin Ser S L-Treonin Thr T L-Tirozin Tyr Y L-Triptofán Trp W L-Aszparagin Asn N L-Glutamin Gln Q L-Cisztein Cys C L-Metionin Met M Savas 3-betűs 1-betűs L-Aszparaginsav Asp D L-Glutaminsav Glu E Bázikus 3-betűs 1-betűs L-Lizine Lys K L-Arginin Arg R L-Hisztidin His H

Fehérjék Szerkezet - Feltekeredés Protein szerkezet - A fehérjék szerkezeti szintjei Primer szerkezet Szekunder szerkezet Tercier szerkezet Kvaterner szerkezet ( hajtogatás-mentes állapot) ( -hélix, -redő) (domének, alegységek) (több fehérjelánc) Intra- és intermolekuláris diszulfid kötések

Fehérjék Primer és szekunder szerkezet Primer szerkezet MNKKEWEEKYVKPLLERSPERKKEFKTSSGIVVDRLYTPEDVEIDYENKL GYPGVYPFTRGVYPTMYRGRLWTMRQYAGFGTAEETNRRYRYLLEQGQTG LSVAFDLPTQIGYDSDHPMALGEVGKVGVAIDTIEDMEILFNGIPLGKVS TSMTINSTCAQILSMYVAVAEKQGVERANLRGTVQNDMLKEYIARGTYIF PPEPSLRLATDIIMFCAKEMPKWNSISISGYHMEEAGATPVQEVAFTLAD GITYVEKVIERGMDVDSFAPRLSFFFAAGNNFLEEIAKFRAARRLWARIM KERFNAKNPRSMMLRFHVQTAGCTLTAQQPENNIVRVALQALAAVLGGCQ SLHTNSFDEALCLPTEKAVRIALRTQQIIAEESGVADVVDPLGGSYYIEW LTDRIEEEAMKYIEKIDEMGGMIKAIESGYVQREIQKSAYEKQKAIDEGE ITVVGVNKYQIEEEIQIELLRVDKAVVEKQIRRLQEFRKNRDAKKVEEAL RLRKAAEKEDENLMPYVLDAVKARATLGEMTDALRDVFGEFRAPEIF (tk. az aminosav sorrend) Szekunder szerkezet DNS aminosav sorrend feltekeredés

Fehérjék Tercier és kvaterner szerkezet Tercier szerkezet Kvaterner szerkezet Tercier és kvaterner szerkezet aktív konformáció Enzimek (katalítikus fehérjék): pozitív katalízis (a szubsztrát illeszkedik az aktív hely katalítikus részeihez) negatív katalízis (a szubsztrát védelme, biológiai védőcsoport )

Fehérjék Az enzimek aktív centruma A karboxipeptidáz A enzim aktív centruma; (a) az aktív centrum sematikus megjelenítése; (b) a fehérje aktív centruma a Cbz-Gly-Phe szubsztráttal (abban a helyzetben ahogy az aktív centrumban feltehetóen elhelyezkedik).

A fehérje expressziót követő folyamatok Proteinek feltekeredése és lebomlása

A genetikai kód A DNS szerkezete

A genetikai kód A DNS szerkezete

Gén expresszió A központi dogma

Gén expresszió Transzkripció

A szabványos genetikai kód A protein - DNS irányban a kód redundáns

Gén expresszió Transzkripció transzláció folyamata

Gén expresszió A transzláció folyamata

Gén expresszió Olvasási keretek A start-stop kódok fontossága

Gén multiplikáció DNS in vitro multiplikációja PCR segítségével Primerek (nagy felesleg) és dntp-k (dezoxinukleotid trifoszfátok) egyszálú DNS A PCR ciklus: 1. - DNS szétválás (~90 o C) 2. - Komplementer szál szintézis (~70 o C) hőstabil polimerázzal Eredmény: exponenciális sokszorozódás

Gén multiplikáció Gének klónozása és multiplikációja Desired gene Cleaved plasmid Wild type host cell Plasmid with the desired gene Recombinant cell

A bioinformatika céljai Adatbázisok készítése és fenntartása. Az adatok elrendezése szervezése úgy, hogy a kutatók a meglévő információt könnyen elérjék és hozzáadhassanak újat. Eljárások, módszerek kidolgozása adatok elemzésére. Az adatok elemzés nélkül haszontalanok. A kidolgozott eszközök és módszerek alkalmazása az adatok elemzésére, és az eredmények biológiai értelmezése.

A biológiai információ típusai és a bioinformatikai módszerek Az adatok forrása Az adathalmaz mérete Bioinformatikai témák Nyers DNS szekvenciák Fehérjeszekvenciák Makromolekuláris szerkezetek (protein, DNS, RNS) ~196 millió szekvencia - 217 milliárd bázis (gén) [GenBank] [+360 millió szekvencia, 1.637 milliárd bázis (WGS: whole genom shotgun)] dátum: 2016.08. 65,8 millió szekvencia (UniProtKB) (egyenként kb. 300 aminosav) (0,55 millió Swiss-Prot + 65,38 millió TrEMBL) dátum: 2016.09. ~122 ezer szerkezet (egyenként kb. 1000 atom koordinátái) (RCSB PDB) dátum: 2016.09. Kódoló és nem kódoló régiók Intronok és exonok Géntermékek predikciója Igazságügyi elemzések Szekvenciaösszehasonlítás Többszörös szekvenciaillesztés Konzerválódott szekvenciamotívumok 3D szerkezet illesztések Fehérjegeometriai mérések Felszín, térfogat alak számítás Intermolekuláris kölcsönhatás Molekulaszimulációk (energiafüggvény, molekuláris mozgások, dokkolás)

A biológiai információ típusai és a bioinformatikai módszerek Az adatok forrása Az adathalmaz mérete Bioinformatikai témák Genomok Génexpressziós adatok Egyéb: Szakirodalom Anyagcsere útvonalak ~83 ezer teljes genom (egyenként 1,6 millió - 3 milliárd bázis) (NCBI Genome) [~132 ezer közzétett nyers genom] (NCBI WGS) dátum: 2016.09. ~73 ezer génexpressziós adatsor (NCBI GEO) dátum: 2016.09. (egyik legnagyobb: ~20 időpont az élesztő ~6000 génjénél) ~23 millió szakcikk (Medline) ~43 milllió referencia (CAplus) 495 anyagcsere térkép ~460 000 hivatkozással (KEGG) dátum: 2016.09. Ismétlődések jellemzése Szerkezet - gén hozzárendelés Filogenetikai analízis Genom méretű felmérések (pl. anyagcsere útvonalak ) Betegségek és gének összefüggésének vizsgálata Expressziós mintázatok korrelációja Expresszió kapcsolata szerkezeti és biokémiai adatokkal Elektronikus könyvtárak / automatikus irodalmazás Tudásadatbázisok Reakcióút szimulációk

Adatcsoportosítás hasonlóságok alapján Valós biológiai hasonlóságok alapján az információ nagy része csoportokba rendezhető ismétlődő szekvenciarészletek a genomban a gének funkció szerint csoportosíthatóak (pl. enzimhatás vagy anyagcsere útvonalak) különböző fehérjéknek gyakran hasonló a szekvenciájuk az alapvető fehérjeszerkezetek száma korlátos (becslések szerint maximum ~10 000) A biológiai rendszerek véges számú alkotórészből állnak

Mintázatfelismerés és predikció A bioinformatika két alapvető művelete a mintafelismerés és a predikció Mintafelismerés: a hasonlóságok megtalálása A már ismert, hasonló funkciójú/szerkezetû fehérjéket megvizsgálva megkeresünk valamely, a funkcióra/szerkezetre jellemző, konzerválódott sajátosságot Ezt használjuk fel új szekvenciák funkciójának/szerkezetének azonosítására Feltétel: az új szekvencia olyan fehérjéhez tartozzon, amihez hasonlót már "láttunk" Predikció: A funkció vagy a térszerkezet megjóslása, hasonlóság alapján vagy ab initio módon A bioinformatika alapóhaja - szekvenciából megjósolt térszerkezet

Szekvenciából jósolt térszerkezet problémája MNKKEWEEKYVKPLLERSPERKKEFKTSSGIVVDRLYTPEDVEIDYENKL GYPGVYPFTRGVYPTMYRGRLWTMRQYAGFGTAEETNRRYRYLLEQGQTG LSVAFDLPTQIGYDSDHPMALGEVGKVGVAIDTIEDMEILFNGIPLGKVS TSMTINSTCAQILSMYVAVAEKQGVERANLRGTVQNDMLKEYIARGTYIF PPEPSLRLATDIIMFCAKEMPKWNSISISGYHMEEAGATPVQEVAFTLAD GITYVEKVIERGMDVDSFAPRLSFFFAAGNNFLEEIAKFRAARRLWARIM KERFNAKNPRSMMLRFHVQTAGCTLTAQQPENNIVRVALQALAAVLGGCQ SLHTNSFDEALCLPTEKAVRIALRTQQIIAEESGVADVVDPLGGSYYIEW LTDRIEEEAMKYIEKIDEMGGMIKAIESGYVQREIQKSAYEKQKAIDEGE ITVVGVNKYQIEEEIQIELLRVDKAVVEKQIRRLQEFRKNRDAKKVEEAL RLRKAAEKEDENLMPYVLDAVKARATLGEMTDALRDVFGEFRAPEIF Felgombolyodás: az aminosavsorrend meghatározza a térszerkezetet, de máig sem értjük pontosan hogyan Csak a másodlagos szerkezet jósolható korlátozott megbízhatósággal Ez így marad még a közeli jövőben is

A 2D 3D adatok különbözősége Az ismert fehérjeszekvenciák és az ismert fehérje térszerkezetek száma jelentősen eltérő arányban nő Nagy információs deficit fontos szerep jut a bioinformatikának Kb. 2000 több szekvencia, mint 3D szerkezet Kb. 175 000 000 ismert szekvencia, kb. 100 000 egyedi térszerkezet Az arány fokozatosan nő (genom programok) [10 másodpercenként egy új szekvencia, míg napi ~10 új szerkezetet]

GOLD: http://www.genomesonline.org Genom projektek Genom szekvenálás BAC to BAC szekvenálás whole genom shotgun szekvenálás Kész genomok (~83 000); futó genom projektek (~56 000): Élesztő Caenorhabditis elegans (féreg) Drosophila melanogaster (muslica) Arabidopsis thaliana (lúdfű) Ember Jelenleg elkészült genom projektek: ~74 000 prokarióta ~3 500 eukarióta ~900 archeon ~5 700 vírus ~243 000 metagenom adatkészlet (+ >10 000 fut)

Szekvenciaanalízis A bioinformatika legfontosabb eljárása: új (ismeretlen szerkezetû/funkciójú fehérjéhez tartozó) szekvenciához hasonló keresáse a már ismert szerkezetű / funkciójú fehérjék szekvenciái között. Szekvenciák összerendezése (vagy illesztése) (alignment): Szekvenciaazonosság: az összerendezésben az azonos aminosavpárok százalékos aránya A szekvenciaazonosság csökkenésével a funkció/szerkezet átvihetősége csökken

Szekvenciaanalízis

M. J. Foster: Micron 2002, 33, 365-384. Szekvencia egyezés fokának jelentősége A szekvencia egyezés foka: <30 %: nem megfelelő modellek 30-60 %: megfelelő modellek, amelyek megbízhatatlan régiókkal rendelkeznek >60 %: igen jó minőségű modellek, amelyeknél C átlagos eltérése a kísérleti értéktől kisebb, mint 1Å A fibroblasz növekedési faktor modelljének (a patkány GF keratinocita szerkezete alapján, 40% egyezés) összehasonlítása kísérleti szerkezetével (röntgen).

A homológia típusai A homológia két típusa Ortológia: két gén ortológ, ha két különbözõ fajban találhatóak, és egy közös ős génből származnak, mely a két faj közös ősében volt jelen. Ugyanazt a funkciót szolgálják, a két fajban. Példa: karboxil észteráz (ill. génje) az emberben és a sertésben. Paralógia: két gén paralóg, ha ugyanabban az organizmusban találhatóak, és egy közös ős génből génduplikáció és azt követő divergens evolúció útján alakultak ki. Többnyire különböző, de egymással összefüggésben lévő funkciójuk van. Példa: a hisztidin bioszintézis enzimei (ill. ezek génjei) emberben (nagyon hasonló szerkezetûek, de más más reakciót katalizálnak).

M. J. Foster: Micron 2002, 33, 365-384. Az illesztési (threading) probléma Szerkezet: konzervált régiók változó régiók Illesztési (alignment) módszerek Szerkezeti finomítás túlfinomítás (over-refinement) A szerkezet minőségének értékelése (PROCHECK / WhatIf...) 1CPC 2FAL Nagyfokú szerkezeti hasonlóság kis mértékű szekvencia egyezés esetében is megfigyelhető Összehasonlítás a C-fikociamin (1CPC) és a tengeri nyúl mioglobin (2FAL) megfelelő régiói között

Bioinformatikai webhelyek EMBL (EMBL-EBI, stb) NCBI (Medline, GenBank, stb.) Expasy (UniProtKB/Swiss-Prot, stb.)

Bioinformatikai adatbázisok http://www.oxfordjournals.org/our_journals/nar/database/c/ A Nucleic Acids Research évi adatbázis összesítője (2016): Nucleotide Sequence Databases RNA sequence databases Protein sequence databases Structure Databases Genomics Databases (non-vertebrate) Metabolic and Signaling Pathways Human and other Vertebrate Genomes Human Genes and Diseases Microarray Data and other Gene Expression Databases Proteomics Resources Other Molecular Biology Databases Organelle databases Plant databases Immunological databases Cell biology