Molekuláris biológiai adatbázisok és adatbázis keresések Barta Endre Tóth Gábor MBK Bioinformatikai Csoport
Adatbázisok: megvalósítás Szöveges adatbázis általában szekvenciális, néha indexelt megfelelő programmal indexelt bináris formába alakítható (pl. EMBOSS/dbiflat, BLAST/formatdb) flatfile emberi olvasásra is alkalmas XML (extensibe Markup Language; DTD: Document Type Definition) adattárolás és adatmegjelenítés különválik számítógépes programmal dolgozandó fel Bináris ASN.1 ( Abstract Syntax Notation 1 ) adatcsere szabvány Relációs adatbázis keresztreferenciák, logikai kapcsolatok kezelése többszörös indexelhetőség bonyolult lekérdezések lehetősége gyors hozzáférés az adatokhoz adatbáziskezelő program Molecular phylogenetics 2
XML formátum (példa) Molecular phylogenetics 3
Relációs adatbázisok szerkezete Tábla 1 Mező 1 Mező 2 Mező n Tábla 2 Mező 3 Mező 4 Mező n Egy DNS adatbanknál egyszerű, de egy nagyobb adatbanknál sokkal bonyolultabb struktúra Molecular phylogenetics 4
Kereszthivatkozások (táblák összekapcsolása) Tábla 1 (GenBank) Mező 1 (LOCUS) Mező n taxid pl. 3702 Több rekord is mutathat ugyanarra a fajra Tábla 2 (Taxonomy) Mező 1 (taxid, pl. 3702) Mező n (fajnév) Arabidopsis thaliana Molecular phylogenetics 5
Szekvencia adatbázis szerkezete Tábla (pl. GenBank) Rekord 1 (Annotáció) szöveges keresés Mező 1 (pl. Locus) Mező 2 (pl. Definition) Stb. (Szekvencia) hasonlóság keresés Mező n (pl. cgagcatgcatctagtagcagcgtactac) Molecular phylogenetics 6
Szöveges keresés adatbázisokban Flatfile-ban keresés egy szóra, szórészletre A találat sorát (pl. UNIX grep) és környezetét látjuk csak, holott mi az egész rekordra lennénk kíváncsiak Megoldás: adatbázismotorok SQL (Simple Query Language), pl. MS Access, Oracle, MySQL stb. ENSEMBL, UCSC (MySQL) EMBL, InterPro (Oracle) Saját motor ACEDB SRS (icarus) Molecular phylogenetics 7
Keresés alapfilozófiája SQL: SELECT * (összes olyan rekord) FROM tábla (pl. GenBank) WHERE mező1 CONTAINS/SIMILAR/IDENTICAL (LIKE) valami AND SORT BY DISPLAY stb. Ezeket össze lehet fűzni Pl. keressük az összes burgonya szekvenciát SELECT * FROM GenBank WHERE OS= Solanum tuberosum Molecular phylogenetics 8
Dinamikus weboldalak Megadjuk, hogy mit akarunk keresni Kiválasztjuk, hogy miben A szerver ezt átalakítja pl. egy SQL paranccsá (sokszor ezt meg is lehet nézni) Az SQL parancsot végrehajtja egy vagy több adatbázison (ezek lehetnek különböző szervereken) A kapott eredményt on-the-fly átalakítja és megjeleníti a kliens böngészőn Molecular phylogenetics 9
Keresési stratégiák Megfelelő kulcsszavak kiválasztása Szélesebbtől a szűkebb fele 2 legfontosabb hiba: Túl sok találat Túl kevés találat Általában mindegy hogy kisbetű vagy nagybetű Kifejezéseket idézőjelbe Logikai kifejezések használata a AND b = akkor, ha mindkettő megvan az adott rekordban a OR b = bármelyikben megvan a BUT(AND)NOT b = a benne van, de b nincs http://www.altavista.com/help/adv_search/syntax Molecular phylogenetics 10
Molekuláris biológiai adatbázisok típusai Elsődleges adatbázisok DNS (RNS) adatbázisok (International Nucleotide Sequence Database Collaboration) EMBL (European Bioinformatics Institute, EBI) GenBank (National Center for Biotechnology Information, NCBI) DDBJ (DNA DataBank of Japan) (pl. térszerkezeti adatbázisok) Másodlagos v. származtatott adatbázisok Fehérje adatbankok Motívum adatbankok Egyéb (nem szekvencia) adatbázisok (Nucleic Acids Res. januári első száma) Molecular phylogenetics 11
Molecular phylogenetics 12
Molecular phylogenetics 13
Elsődleges adatbázisok Mi a közös a 3 elsődleges adatbankban? International Nucleotide Sequence Database Collaboration adatcsere naponta taxonómia projekt azonos accession number közös feature table Elég eggyel foglalkozni, főbb adatokban nincs különbség Eltérő adatbázis-szerkezet/formátum formátumkonverzió: pl. readseq (UNIX), seqret (EMBOSS), ForCon (Windows) Molecular phylogenetics 14
Adatbázisok története Honnan jönnek az adatok? Irodalomban közölt adatok kézi bevitele Papíron beküldött szekvenciák (pl. GCG-ben Submission form ) Floppy Csak akkor fogadták el a cikket, ha a benne lévő szekvenciát már beküldték valamelyik adatbankba, innentől adatbankok szinkronizálása Internet (WWW, e-mail) egyedileg a kutatók által nagyobb adagokban a szekvenáló központokból Molecular phylogenetics 15
Adatbázisok és a tárolókapacitás növekedése (MBK vs. EMBL) 1990: MicroVax szerver 2x 160 Mbyte HDD 50 Mbp 1993: SUN SparcServer 1000 8x 512 Mbyte HDD 150 Mbp 1997: SUN Ultra Enterprise II 4x 9 Gbyte HDD 1 Gbp 2002: SUN Fire V480 8x 180Gbyte HDD 38 Gbp Szekvencia + annotáció + index: ~140 Gbyte (2004) Molecular phylogenetics 16
Molecular phylogenetics 17
Adatbázisok exponenciális növekedése EMBL: rekordok száma (millió) EMBL: nukleotidok száma (gigabázis) Molecular phylogenetics 18
Adatbázisok szerkezete Úgynevezett flatfile formátum EMBL: 64,8 Gb 38,3 millió rekord (2004.04.15.) (WGS szekcióval együtt) GenBank Release 140 (2004. február) 32,6 millió szekvencia 37,9 milliárd nukleotid (37,9 gigabázis) ~127 Gbyte (indexekkel együtt ~143 GByte) Szekciók/divíziók Rendszertani kategóriák alapján De inkább ahogy történelmileg alakult Rekordok (vagy entry -k) Mezők Annotáció Szekvencia Molecular phylogenetics 19
EMBL szekciók Eredeti felosztás: Pl. 1989-ben vírusok, prokarióták, eukarióták stb. Release 18, february 1989 Division Entries Nucleotides ---------------- ------- ----------- Artificial 509 195102 Chloroplast 278 636203 Genetic elements 92 102768 Mitochondrial 584 661670 Prokaryotic 2576 415673 Viral/Phage 2443 3722036 Eukaryotic 13417 15100242 Unclassified 46 70092 Unannotated 2993 3346044 ---------------- ------- ----------- Total 22938 27249830 Nagy mennyiségű szekvenálás újabb szekciók bevezetése (pl. EST, HTG, GSS stb.), valamint egyes szekciók felosztása vált szükségessé Molecular phylogenetics 20
Főbb EMBL szekciók I. EST: expressed sequence tag (cdns részl. szekv.) STS: sequence tagged site (PCR) GSS: genome survey sequences (random genomi) HTG: high throughput genomic (unfinished) WGS: whole genome shotgun PLN: növények FUN: gombák PRO: prokarióta ORG: organellum VRL: vírus PHG: bakteriofág PAT: szabadalommal védett SYN: szintetikus Molecular phylogenetics 21
Főbb EMBL szekciók II. HUM: humán MUS: egér ROD: egyéb rágcsáló MAM: egyéb emlős VRT: egyéb gerinces INV: gerinctelen Molecular phylogenetics 22
Különböző EMBL szekciók mérete EMBL Release 78 EST HTG Molecular phylogenetics 23
EMBL: megoszlás fajok szerint (első 10) Nukleotidok száma: ecetmuslica egyéb kutya csimpánz ember patkány egér Molecular phylogenetics 24
Egy EMBL rekord (részlet) ID HSCYCLOX standard; mrna; HUM; 3387 BP. XX AC M90100; XX SV M90100.1 XX DT 30-MAR-1992 (Rel. 31, Created) DT 04-MAR-2000 (Rel. 63, Last updated, Version 7) XX DE Homo sapiens cyclooxygenase-2 (Cox-2) mrna, complete cds. XX KW cyclooxygenase-2; prostaglandin synthase. XX OS Homo sapiens (human) OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; OC Eutheria; Primates; Catarrhini; Hominidae; Homo. XX RN [1] RP 1-3387 RX MEDLINE; 92366465. RX PUBMED; 1380156. RA Hla T., Neilson K.; RT "Human cyclooxygenase-2 cdna"; RL Proc. Natl. Acad. Sci. U.S.A. 89(16):7384-7388(1992). XX DR GOA; P35354. DR SWISS-PROT; P35354; PGH2_HUMAN. XX FH Key Location/Qualifiers FH FT source 1..3387 FT /db_xref="taxon:9606" FT /mol_type="mrna" FT /organism="homo sapiens" FT /cell_type="endothelial" FT /tissue_type="umbilical vein" Molecular phylogenetics 25
Egy EMBL rekord (folytatás) FT 5'UTR 1..97 FT /gene="cox-2" FT CDS 98..1912 FT /codon_start=1 FT /db_xref="goa:p35354" FT /db_xref="swiss-prot:p35354" FT /gene="cox-2" FT /EC_number="1.14.99.1" FT /product="cyclooxygenase-2" FT /protein_id="aaa58433.1" FT /translation="mlaralllcavlalshtanpccshpcqnrgvcmsvgfdqykcdct FT RTGFYGENCSTPEFLTRIKLFLKPTPNTVHYILTHFKGFWNVVNNIPFLRNAIMSYVLT FT... FT KGLMGNVICSPAYWKPSTFGGEVGFQIINTASIQSLICNNVKGCPFTSFSVPDPELIKT FT VTINASSSRSGLDDINPTVLLKERSTEL" FT sig_peptide 98..148 FT /gene="cox-2" FT mat_peptide 149..1909 FT /gene="cox-2" FT /EC_number="1.14.99.1" FT /product="cyclooxygenase-2" FT 3'UTR 1913..3387 FT /gene="cox-2" FT polya_signal 3369..3374 FT /gene="cox-2" XX SQ Sequence 3387 BP; 1010 A; 712 C; 633 G; 1032 T; 0 other; gtccaggaac tcctcagcag cgcctccttc agctccacag ccagacgccc tcagacagca 60 aagcctaccc ccgcgccgcg ccctgcccgc cgctgcgatg ctcgcccgcg ccctgctgct 120... tacctgaact tttgcaagtt ttcaggtaaa cctcagctca ggactgctat ttagctcctc 3360 ttaagaagat taaaaaaaaa aaaaaag 3387 // Molecular phylogenetics 26
Főbb mezők az EMBL adatbankban ID egyedi azonosító, (entryname dataclass; molecule; division; sequencelength BP.) AC accession number, változatlan, erre kell hivatkozni SV szekvencia verzió DT létrehozás, módosítás ideje DE description, a szekvencia rövid leírása KW kulcsszavak O? teljes taxonómiai besorolás R? referenciák DR adatbázis keresztreferenciák CC megjegyzések FT feature table: a szekvencia egy-egy részének a tulajdonsága XX üres, csak térkitöltő SQ szekvencia // rekord vége Molecular phylogenetics 27
Annotáció: EMBL vs. GenBank EMBL: ID egyedi azonosító AC egyedi azonosító! = GenBank ACCESSION SV entry verzió (volt: NI) DE rövid leírás OS faj OC taxonómiai besorolás FT feature table : tulajdonság/pozíció FT CDS kódoló szekvencia (PID) GenBank: LOCUS kihalóban? formátum miatt marad ACCESSION egyedi! = EMBL AC VERSION entry verzió * GI = EMBL NI DEFINITION rövid leírás SOURCE faj triviális neve ORGANISM faj, taxonómia FEATURES feature table tulajdonság/pozíció CDS kódoló szekvencia /protein_id /db_xref tr. fehérje GI No. * Accession.Version GI: NCBI belső azonosító (ld. BLAST DB) Molecular phylogenetics 28
Egy GenBank rekord (részlet) LOCUS HUMCYCLOX 3387 bp mrna linear PRI 31-DEC-1994 DEFINITION Homo sapiens cyclooxygenase-2 (Cox-2) mrna, complete cds. ACCESSION M90100 VERSION M90100.1 GI:181253 KEYWORDS cyclooxygenase-2; prostaglandin synthase. SOURCE Homo sapiens (human) ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 3387) AUTHORS Hla,T. and Neilson,K. TITLE Human cyclooxygenase-2 cdna JOURNAL Proc. Natl. Acad. Sci. U.S.A. 89 (16), 7384-7388 (1992) MEDLINE 92366465 PUBMED 1380156 COMMENT Original source text: Homo sapiens umbilical vein cdna to mrna. FEATURES Location/Qualifiers source 1..3387 /organism="homo sapiens" /mol_type="mrna" /db_xref="taxon:9606" /cell_type="endothelial" /tissue_type="umbilical vein" gene 1..3387 /gene="cox-2" 5'UTR 1..97 /gene="cox-2" Molecular phylogenetics 29
Egy GenBank rekord (folytatás) CDS 98..1912 /gene="cox-2" /EC_number="1.14.99.1" /codon_start=1 /product="cyclooxygenase-2" /protein_id="aaa58433.1" /db_xref="gi:181254" /translation="mlaralllcavlalshtanpccshpcqnrgvcmsvgfdqykcdc TRTGFYGENCSTPEFLTRIKLFLKPTPNTVHYILTHFKGFWNVVNNIPFLRNAIMSYV... VEVGAPFSLKGLMGNVICSPAYWKPSTFGGEVGFQIINTASIQSLICNNVKGCPFTSF SVPDPELIKTVTINASSSRSGLDDINPTVLLKERSTEL" sig_peptide 98..148 /gene="cox-2" mat_peptide 149..1909 /gene="cox-2" /product="cyclooxygenase-2" /EC_number="1.14.99.1" 3'UTR 1913..3387 /gene="cox-2" polya_signal 3369..3374 /gene="cox-2" BASE COUNT 1010 a 712 c 633 g 1032 t ORIGIN 1 gtccaggaac tcctcagcag cgcctccttc agctccacag ccagacgccc tcagacagca 61 aagcctaccc ccgcgccgcg ccctgcccgc cgctgcgatg ctcgcccgcg ccctgctgct... 3301 tacctgaact tttgcaagtt ttcaggtaaa cctcagctca ggactgctat ttagctcctc 3361 ttaagaagat taaaaaaaaa aaaaaag // Molecular phylogenetics 30
EMBL adatbázis fejlődése EMBL Sequence Version Archive http://www.ebi.ac.uk/cgi-bin/sva/sva.pl Nem csak az adatok, hanem az adatbázis szerkezete is folyamatosan változik elsősorban a feature table új keresztreferenciák más adatbázisokkal Molecular phylogenetics 31
Szekvencia-beküldés az adatbankokba EMBL: WEBin (http://www.ebi.ac.uk/submission/webin.html) GenBank: BankIt (http://www.ncbi.nlm.nih.gov/bankit/index.html) EMBL/GenBank: Sequin (lokálisan futó PC-s program) (ftp://ftp.ebi.ac.uk/pub/software/sequin/) Molecular phylogenetics 32
WEBIN Molecular phylogenetics 33
Molecular phylogenetics 34
Fehérjeszekvencia adatbázisok I. Swiss-Prot Kollaborációban készíti a SIB és az EBI Protein tudásbázis (ExPASy = Expert Protein Analysis System) Legjobban annotált adatbázis (kézi annotáció) Jó keresztreferenciák Non-profit kutatóknak ingyenes EMBL-hez hasonló adatbázis-szerkezet Szekvenciák lassú megjelenése TrEMBL Translated EMBL Automatikusan annotált SP-TrEMBL és REM-TrEMBL Molecular phylogenetics 35
Fehérjeszekvencia adatbázisok II. PIR (Protein Identification Resource) PIR-PSD Formátum: NBRF/PIR Kézi annotáció Keresztreferenciák (SWISS-PROT jobb!) Szupercsalád-besorolás 4 szekció: PIR1, PIR2, PIR3, PIR4 (legjobban annotált: PIR1) Megszűnik beolvadt az UniProt adatbázisba Genpept Lefordított GenBank CDS-ek (NCBI) Mint TrEMBL Molecular phylogenetics 36
Fehérjeszekvencia adatbázisok III. Universal Protein Resource (UniProt) Az EBI/SIB Swiss-Prot + TrEMBL és a PIR-PSD egyesítésével létrehozott adatbank EBI + SIB + PIR UniProt Consortium (2002) Három adatbázisréteg: UniProt Archive (UniParc) az összes publikus fehérjeszekvencia (nem redundáns) UniProt Knowledgebase (UniProt) megbízhatóan, konzisztensen és gazdagon annotált központi fehérjeszekvencia-adatbázis UniProt Non-redundant Reference (UniRef) kondenzált szekvenciakészlet UniProt tudásbázis: két rész kézzel annotált rekordok: Swiss-Prot (2004 végéig licenszköteles) számítógéppel elemzett rekordok (kézi annotáció előtt): TrEMBL UniRef UniRef100 (=UniProt), UniRef90, UniRef50 Molecular phylogenetics 37
Egy UniProt (Swiss-Prot) rekord ID AHA1_HUMAN STANDARD; PRT; 338 AA. AC O95433; Q96IL6; Q9P060; DT 16-OCT-2001 (Rel. 40, Created) DT 16-OCT-2001 (Rel. 40, Last sequence update) DT 15-SEP-2003 (Rel. 42, Last annotation update) DE Activator of 90 kda heat shock protein ATPase homolog 1 (AHA1) (p38) DE (HSPC322). GN AHSA1 OR C14ORF3. OS Homo sapiens (Human). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606; RN [1] RP SEQUENCE FROM N.A. RA Michaud J., Chrast R., Rossier C., Papassavas M.P., Antonarakis S.E., RA Scott H.S.; RT "Isolation of a novel gene underexpressed in Down syndrome."; RL Submitted (JUN-1999) to the EMBL/GenBank/DDBJ databases. DR EMBL; AF111168; AAD09623.1; -. DR EMBL; AJ243310; CAB45684.1; -. DR EMBL; AF164791; AAF80755.1; -. DR EMBL; BC000321; AAH00321.1; -. DR EMBL; BC007398; AAH07398.1; ALT_INIT. DR EMBL; AF161440; AAF29000.1; -. DR PIR; JC7769; JC7769. DR Genew; HGNC:1189; AHSA1. DR InterPro; IPR007821; DUF704. DR Pfam; PF05146; DUF704; 1. FT CONFLICT 67 68 EA -> CL (IN REF. 4). SQ SEQUENCE 338 AA; 38274 MW; E6B686DDD8D7D729 CRC64; MAKWGEGDPR WIVEERADAT NVNNWHWTER DASNWSTDKL KTLFLAVQVQ NEEGKCEVTE VSKLDGEASI NNRKGKLIFF YEWSVKLNWT GTSKSGVQYK GHVEIPNLSD ENSVDEVEIS VSLAKDEPDT NLVALMKEEG VKLLREAMGI YISTLKTEFT QGMILPTMNG ESVDPVGQPA LKTEERKAKP APSKTQARPV GVKIPTCKIT LKETFLTSPE ELYRVFTTQE LVQAFTHAPA TLEADRGGKF HMVDGNVSGE FTDLVPEKHI VMKWRFKSWP EGHFATITLT FIDKNGETEL CMEGRGIPAP EEERTRQGWQ RYYFEGIKQT FGYGARLF // Molecular phylogenetics 38
Nem redundáns adatbázisok NCBI NRDB egyesített GenPept, PDB szekvenciák, SWISS-PROT, PIR nem azonos (!) fehérjék (polimorfizmus és szekvenálási hibák miatt redundáns) nr: indexelt BLAST formátumban letölthető OWL (http://www.bioinf.man.ac.uk/dbbrowser/owl/) összetett, nem redundáns fehérje adatbázis egyetlen aminosavban eltérő szekvenciák közül csak 1 marad prioritási sorrend: SWISS-PROT, PIR1-PIR4, GenPept, NRL-3D NCBI UniGene egyedi gének átfedő EST-k klaszterezésével 10 állat: pl. humán, egér, patkány, szarvasmarha, béka, zebrahal 7 növény: pl. rizs, búza, árpa, kukorica TIGR TC (Tentative Consensus) klaszterezett és összefűzött EST-szekvenciák Molecular phylogenetics 39
Molecular phylogenetics 40
http://www.tigr.org/ Molecular phylogenetics 41
Molecular phylogenetics 42
Fehérje-mintázat, -motívum és profil-adatbázisok ADATBÁZIS VERZIÓ REKORDOK Swiss-Prot 42.5 138922 PRINTS 37.0 1850 TrEMBL Pfam PROSITE patterns 25.5 11.0 18.10 1013263 7255 1659 INTERPRO adatbázis 2003. dec. PROSITE preprofiles N/A 131 ProDom 2002.1 1021 InterPro 7.1 10403 Smart 3.4 654 TIGRFAMs 3.0 1977 PIR SuperFamily 2.3 219 SUPERFAMILY 1.63 552 Molecular phylogenetics 43
Az INTERPRO adatbázis generálása Molecular phylogenetics 44
PROSITE adatbank Protein családok és domének adatbázisa Biológiailag szignifikáns: Helyek Mintázatok Profilok Ezek alapján lehet eldönteni, hogy egy adott fehérje milyen csoportba tartozik http://www.expasy.ch/prosite/ Molecular phylogenetics 45
Pfam (Protein families database of alignments and HMMs) Gyűjteménye a: Többszörös illesztéseknek, és a Hidden Markov modelleknek A legtöbb protein domént tartalmazza Pfam-A: Kurátorok által annotált domének Pfam-B: Automatikusan generált domének Fehérjék doménszerkezetének vizsgálata http://www.sanger.ac.uk/software/pfam/in dex.shtml Molecular phylogenetics 46
PRINTS adatbázis Protein fingerprint -ek gyűjteménye fingerprint = konzerválódott motívumok csoportja UNIPROT-ból nyerik ki http://www.bioinf.man.ac.uk/dbbrowser/p RINTS/ Molecular phylogenetics 47
PRODOM protein domén adatbázis Automatikus keresése a homológ doméneknek Módszer: rekurzív PSI-BLAST http://prodes.toulouse.inra.fr/prodom/curr ent/html/home.php Molecular phylogenetics 48
SMART (Simple Modular Architecture Research Tool) Genetikailag mozgó domének vizsgálata Domén felépítés vizsgálata Több mint 500 domén részletes annotációja http://smart.embl-heidelberg.de/ Molecular phylogenetics 49
TIGRFAM Protein családok gyűjteménye Többszörös illesztések Funkcionálisan rokon fehérjék azonosítása http://www.tigr.org/tigrfams/index.sht ml Molecular phylogenetics 50
PIR SuperFamily (PIRSF) Klasszifikációs rendszer A fehérjék teljes aminosav sorrendjének az evolúciós elemzésén alapul A családok tagjai monofiletikusak és homeomorfak http://pir.georgetown.edu/iproclass/ Molecular phylogenetics 51
SUPERFAMILY Ismert szerkezetű fehérjék Hidden Markov Model profilok A SCOP adatbázisban alkalmazott szerkezeti osztályozáson alapul http://supfam.mrclmb.cam.ac.uk/superfamily/ Molecular phylogenetics 52
Evolúciós adatbázisok I., Tree of Life Biológusok közös erőfeszítése egy teljes törzsfa kialakítására http://tolweb.org/tree/ Molecular phylogenetics 53
Evolúciós adatbázisok I., Treebase Filogenetikai kapcsolatok adatbázisa Adatokat a kutatók küldik be http://www.treebase.org/ treebase/index.html Molecular phylogenetics 54
3-D fehérjetérszerkezeti adatbázisok PDB (Protein Data Bank) Research Collaboratory for Structural Bioinformatics, USA http://www.rcsb.org/pdb/ kísérletesen meghatározott szerkezetek (röntgendiffrakció, NMR, MRI) MMDB NCBI: http://www.ncbi.nlm.nih.gov/structure/mmdb/mmdb.shtml fehérje és nukleinsav; PDB egy része (elméleti modellek nélkül) EBI-MSD (~PDB) SCOP CATH EBI: http://www.ebi.ac.uk/pdb/ 3-D szerkezetek hierarchikus osztályozása 4 szint: osztályok, gombolyok, szupercsaládok, családok) Molecular phylogenetics 55
Genomi adatbázisok I. NCBI 159 baktérium- és archeon genom (néhány fajból több törzs) 7 gomba, 10 egyéb eukarióta COGs (Clusters of Orthologous Groups) http://www.ncbi.nlm.nih.gov/cog/ teljes eubaktérium és archeon, valamint élesztő genomok (jelenleg 43 teljes genom, 30 fő filogenetikai vonalból) ortológ gének csoportjai (fehérje-blast alapján) legalább 3 fajban előforduló nagyon hasonló fehérjék COGnitor program felhasználás: funkciópredikció egy adott genomból hiányzó konzervált COG - annotálatlan gén detektálása Molecular phylogenetics 56
Molecular phylogenetics 57
Molecular phylogenetics 58
Molecular phylogenetics 59
Genomi adatbázisok II. ENSEMBL http://www.ensembl.org/ (Sanger Institute, EBI) integrált genom annotációs rendszer automatikus genomannotációs csövezeték genom böngésző szabad szoftver (MySQL motor) eredetileg humán annotációra fejlesztették most: humán, (csimpánz), egér, patkány, (tyúk), zebrahal, fugu, moszkító, ecetmuslica, C. elegans, C. briggsae Molecular phylogenetics 60
http://www.ensembl.org/ Molecular phylogenetics 61
Kontig nézet Molecular phylogenetics 62
UCSC genom böngésző http://genome.ucsc.edu/ ENSEMBL amerikai alternatívája Néha frissebb az annotáció Kevesebb szervezet Új géncsalád böngésző Molecular phylogenetics 63
UCSC Genome Browser (példa) Molecular phylogenetics 64
Gén-ontológia (GO) The Gene Ontology Consortium http://www.geneontology.org/ bármely élő szervezetben megtalálható géntermék leírására hierarchikus besorolás egységes terminológia 3-féle ontológia: molekuláris funkció biológiai folyamat sejtalkotórész online: pl. Mouse Genome Initiative GO Browser http://www.informatics.jax.org/go/ GOA Molecular phylogenetics 65
Molecular phylogenetics 66
Molecular phylogenetics 67
NCBI adatbázisok LocusLink / RefSeq / Entrez Gene LocusLink: kiindulópont egy genetikai lókusz (pl. gén) egyedi azonosító: LocusID kapcsolt információ: pl. fenotípus, térképpozíció, homológ gének RefSeq: egyedi gének (nem redundáns) mrns és fehérje szekvenciák humán, egér, patkány, szarvasmarha, zebrahal, ecetmuslica Taxonomy taxonómiai adatbázis OMIM (Online Mendelian Inheritance in Man) humán gének és genetikai betegségek PubMed (bibliográfiai adatbázis) magában foglalja a MEDLINE adatbázist azonosító: PMID (PubMed identifier), MUID (MEDLINE unique identifier) http://www.ncbi.nlm.nih.org/ Molecular phylogenetics 68
Keresés az annotációkban I. NCBI Bármilyen adatbázisrekord (Annotáció) szöveges keresés Mező 1 (pl. Locus) Mező 2 (pl. Definition) Stb. (Szekvencia) hasonlóság keresés Mező n (pl. cgagcatgcatctagtagcagcgtactac) Molecular phylogenetics 69
Integrált információkeresés I. NCBI Entrez NCBI (National Center of Biotechnology Information, Bethesda, USA) http://www.ncbi.nlm.nih.gov/entrez/ >20 részadatbázis Molecular phylogenetics 70
Molecular phylogenetics 71
Molecular phylogenetics 72
Molecular phylogenetics 73
Molecular phylogenetics 74
Molecular phylogenetics 75
Molecular phylogenetics 76
Molecular phylogenetics 77
Molecular phylogenetics 78
Molecular phylogenetics 79
Molecular phylogenetics 80
Keresés az annotációkban II. SRS Bármilyen adatbázisrekord (Annotáció) szöveges keresés Mező 1 (pl. Locus) Mező 2 (pl. Definition) Stb. (Szekvencia) hasonlóság keresés Mező n (pl. cgagcatgcatctagtagcagcgtactac) Molecular phylogenetics 81
Sequence Retrieval System (SRS) Adatbázis indexelő és kereső rendszer Thure Etzold kezdte el fejleszteni a 90-es évek elején Heidelbergben az EMBL-ben 1996-tól az EBI-ben 1999-től a Lion Biosciences-ben közösen az EBIvel 5.1-es verzió szabad (de a legújabb adatbázisokkal már nehéz használni) 6.0-ás verziótól akadémiai liszenszet lehet kérni 7.0-ás verziótól EMBOSS integrálva van http://srs.ebi.ac.uk/ és helyileg: http://bioinfosv/srs6/ Molecular phylogenetics 82
Mire jó az SRS? Keresés mindenfajta adatbázis annotációban Szekvenciák letöltése egy faj, vagy egy adott taxonómiai egységhez tartozó szekvenciák egy adott annotált tulajdonsághoz tartozó szekvenciák (pl. intronok, domének) adott szekvenciákhoz tartozó referenciák keresése legmegfelelőbb adatbázis keresése Molecular phylogenetics 83
Segítség az SRS használatához Lehet keresni a dokumentációban (természetesen az is egy adatbázis) Meglehet nézni on-line vagy le lehet tölteni PDF formátumban a teljes dokumentációt Legfontosabb az SRS User Guide SRS-t lehet Linux alá is telepíteni, ilyenkor az SRS Administrators Guide ad segítséget Természetesen minden oldalról van link Molecular phylogenetics 84
Mit lehet keresni az SRS segítségével? Az összes adatbázis összes mezőjében bármilyen szöveget ID, Elérési szám (accession number) Definíció Organizmus Szekvenciához kapcsolódó referencia Feature (pl. domén, kötőhely stb.) Molecular phylogenetics 85
Hogyan működik az SRS? Az adatbázis felbontása rekordokra és mezőkre ID TRBG361 standard; mrna; PLN; 1859 BP. AC X56734; S46826; SV X56734.1 DT 12-SEP-1991 (Rel. 29, Created) DT 15-MAR-1999 (Rel. 59, Last updated, Version 9) DE Trifolium repens mrna for noncyanogenic beta-glucosidase KW beta-glucosidase. Molecular phylogenetics 86
Adatbázis felbontása rekordokra és mezőkre Molecular phylogenetics 87
Indexelés Molecular phylogenetics 88
SRS kezdőoldal http://srs.ebi.ac.uk/ Molecular phylogenetics 89
Keresés a szekvenciákban Bármilyen adatbázisrekord (Annotáció) szöveges keresés Mező 1 (pl. Locus) Mező 2 (pl. Definition) Stb. (Szekvencia) hasonlóság keresés Mező n (pl. cgagcatgcatctagtagcagcgtactac) Molecular phylogenetics 90
Hasonlósági keresések adatbázisokban Optimális illesztéssel: nagyon időigényes, csak célhardveren Sokprocesszoros számítógép vagy számítógép-klaszter, párhuzamos processzálás Erre a célra fejlesztett chip Heurisztikus algoritmusok használata Bizonyos elhanyagolásokkal, gyakran tapasztalati úton beállított algoritmusok, paraméterek és statisztika Sok tesztfuttatással igazolt használhatóság Sebességnövekedés bizonyos fokú érzékenységvesztés árán FASTA (W. Pearson fejlesztette) BLAST (az NCBI-nál fejlesztik; S. Altschul), PSI-BLAST Molecular phylogenetics 91
FASTA FASTA2 és FASTA3 (Lipman és Pearson, 1985; Pearson és Lipman, 1988; Pearson, 2000) FASTA3 programcsomag (ftp://ftp.virginia.edu/pub/fasta) Rövid (10 nukleotidnyi) keresőszekvenciák is használhatók A keresés időigénye nagyban függ az alkalmazott k-tuple értéktől Molecular phylogenetics 92
FASTA algoritmus (1) a kereső ( query ) és az adatbázisszekvencia között közös szavak (ktuple) keresése (2) az azonos átlón található szavak összefűzése és pontozása a helyettesítési mátrix-szal database sequence database sequence query sequence query sequence 10 legjobb szegmens: Init1 score Molecular phylogenetics 93
FASTA algoritmus (3) eltérő, de egy bizonyos eltoláson belüli átlók egyesítése és pontozása (helyettesítési mátrix + hézagbüntetések) (4) optimális lokális illesztés egy sávban (S-W alg.) database sequence database sequence query sequence: Initn score query sequence: Opt score Molecular phylogenetics 94
A FASTA3 csomag programjai Molecular phylogenetics 95
Mikor melyik programot használjuk? Molecular phylogenetics 96
FASTA a weben WWW: http://www.ebi.ac.uk/fasta33/ (EBI) http://bioweb.pasteur.fr/seqanal/interfaces/fasta.html (Institut Pasteur) Molecular phylogenetics 97
BLAST BLAST (http://www.ncbi.nlm.nih.gov/blast/) a leggyorsabb, helyben is futtatható (pl. blastp Linux PC-n is hamar lefut) gyors, lokális illesztéseket végez szekvenciaillesztésre optimalizált, nem motívumkeresésre statisztikai módszerek alkalmazásával becsüli a találatok szignifikanciáját NCBI-BLAST két verziója: 1.0-1.4 (régi, nem enged hézagokat), 2.0-2.2 (új, hézagokat enged: gapped BLAST ) WU-BLAST 2.0 Warren Gish (Washington University) implementációja (hézagokat enged) Molecular phylogenetics 98
BLAST algoritmus (Altschul et al., 1990, 1997) (1) W hosszúságú szavakból szomszédos szó lista generálása L hosszúságú kereső szekvencia Maximum L-W+1 szó (w~3 fehérjékre) Mátrix használata (PAM vagy BLOSUM, stb.) szó-lista T (threshold) pontértékű szavakból (2) Szavak adatbázis: tökéletes egyezések keresése adatbázis-szekvenciák tökéletes egyezések (3) Találatok kiterjesztése és a legjobb lokális illesztés megkeresése: HSP-k S pontértékkel kereső szekv.: adatbázis szekv.: EGDCVFDGMIGSDQGSL E C+ +G G+D GS+ EAGCLQNGQRGTDVGSV X G S D Q G S L R F D G F D V E C D G T D V G S V M D E I P N D F E C 6 1 6-2 6 4 2-1-3 2-4-4 1-3-3-4-5 Molecular phylogenetics 99
BLAST algoritmus és statisztika A keresés lépései: W hosszúságú szavak ( word ) keresése találatok pontozása szubsztitúciós mátrix használatával nagy pontértékű találatok kiválasztása: HSP-k ( High scoring Segment Pairs ) HSP-k kiterjesztése mindkét irányban (szubsztitúciós mátrix használatával), amíg a szekvencia el nem fogy, vagy az egyezés már nem szignifikáns végeredmény: MSP-k ( Maximal scoring Segment Pairs ) Statisztikai szignifikanciabecslés: E érték: hasonló vagy nagyobb pontértékű találat véletlen előfordulásának várható száma; minél kisebb, annál jobb. Molecular phylogenetics 100
BLAST programok NCBI BLAST lokális futtatásánál a p opcióval kell megadni, pl.: blastall p blastp Molecular phylogenetics 101
NCBI BLAST Paraméterek: W (-W opció): blastn alapértelmezés: 11 (kompromisszum: szinte minden véletlen illeszkedést kizár, de divergált homológokét is) szűrés (-F opció): kis komplexitású régiók N-ekre vagy X-ekre cserélése a keresőszekvenciában; alapértelmezés: igen (T); blastn: DUST, többi: SEG és/vagy XNU; pontosabban is specifikálható (pl. szűrés csak a szó-lista létrehozásánál) opció: nem (F) szubsztitúciós mátrix (-M opció): BLOSUM45, BLOSUM62, BLOSUM80, PAM30, PAM70 E-határérték ( expected score threshold ) (-e opció); alapértelmezés: 10 blastn: egyező (M) és nem egyező (N) nukleotidok pontszámának aránya; alapértelmezés: M = 5, N = -4 ( M/N = 1.25; ~47 nukleotid PAM); minél nagyobb az arány, annál távolabbi szekvenciákat talál meg Molecular phylogenetics 102
BLAST programok WWW: NCBI-BLAST: http://www.ncbi.nlm.nih.gov/blast (NCBI) http://www.ebi.ac.uk/blastall/ (EBI) WU-BLAST: http://www.ebi.ac.uk/blast2/ (EBI) http://bioweb.pasteur.fr/seqanal/interfaces/wublast2.html (Institute Pasteur) (és sok más helyen, gyakran speciális adatbázisokkal, pl. fajok szerint) Lokálisan futtatható: blastall FASTA formátumú adatbázis formázása és indexelése: formatdb -i nr -o T BLAST keresés: blastall -p blastp -d nr -i query.fasta o \ out.query Molecular phylogenetics 103
Potenciális műtermékek, fals pozitívok Forrásai: Kis komplexitású régiók Repetitív elemek Figyelmeztető találatok (pl. Alu szekvencia) Vektor-szennyezés Megoldás: keresőszekvencia maszkolása, szűrése Kis összetételi komplexitású régiók: BLAST-ba beépítve: seg ill. xnu (aminosav), dust (nukleotid) kis komplexitású régiók, mikroszatellitek maszkolása Mikroszatellitek (SSR): Sputnik (http://abajian.net/sputnik/) mikroszatellitek (SSR) azonosítása; Windows, UNIX TRF (Tandem Repeat Finder) mikroszatellitek (SSR) azonosítása; Windows, UNIX Molecular phylogenetics 104
Kis komplexitású régiók szűrése SEG (fehérjékre) HILCDEVNEGDEENEDFLPS HILCXXXXXXXXXXXXFLPS DUST (nukleinsavakra) GCTCAAAAAATAAAAACACG GCTCNNNNNNNNNNNNCACG Molecular phylogenetics 105