Molekuláris biológiai adatbázisok és adatbázis keresések. Barta Endre Tóth Gábor MBK Bioinformatikai Csoport



Hasonló dokumentumok
A tárgy címe: Bioinformatika

Bioinformatika és genomanalízis az orvostudományban. Biológiai adatbázisok. Cserző Miklós 2018

Cserző Miklós Bioinformatika és genomanalízis az orvostudományban. Integrált biológiai adatbázisok

Bioinformatika 2 4. előadás

Juhász Angéla MTA ATK MI Alkalmazott Genomikai Osztály SZEKVENCIA ADATBÁZISOK

Gerinces és növényi ortológ promóter adatbázisok fejlesztése és elemzése. Eötvös Loránd Tudományegyetem Természettudományi Kar Biológia Doktori Iskola

ADATBÁZIS-KEZELÉS - BEVEZETŐ - Tarcsi Ádám, ade@inf.elte.hu

NÖVÉNYI GENOMIKA JÓRI BALÁZS

Gyakorlati bioinformatika

Bevezetés a bioinformatikába

Adatbázis, adatbázis-kezelő

A bakteriális kommunikáció és kooperáció génjeinek elhelyezkedése ismert genomokban.

SQLServer. SQLServer konfigurációk

Adatbázis-lekérdezés. Az SQL nyelv. Makány György

Human genome project

Bioinformatics: Blending. Biology and Computer Science

MS ACCESS 2010 ADATBÁZIS-KEZELÉS ELMÉLET SZE INFORMATIKAI KÉPZÉS 1

Bakteriális identifikáció 16S rrns gén szekvencia alapján

A MOLEKULÁRIS BIOLÓGIA ISMERETÁBRÁZOLÁSI PROBLÉMÁI

MŰSZAKI KÖVETELMÉNYEK, A KÖRKERESŐ SZOFTVER SPECIFIKÁCIÓJA, KÖLTSÉGVETÉS. A) Műszaki követelmények

Adatbázis-kezelés. Harmadik előadás

Bioinformatika 2 2. előadás

DNS-szekvencia meghatározás

8. Gyakorlat SQL. DDL (Data Definition Language) adatdefiníciós nyelv utasításai:

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Szekvenciaelemzés. Cserző Miklós 2017

BGF. 4. Mi tartozik az adatmodellek szerkezeti elemei

Adatbázisok* tulajdonságai

Nyíregyházi Egyetem Matematika és Informatika Intézete. Fájl rendszer

ESZTERHÁZY KÁROLY FŐISKOLA, EGER. Beszámoló könyvtári szakmai gyakorlatról

Informatikai alapismeretek Földtudományi BSC számára

Biomassza alapú bioalkohol előállítási technológia fejlesztése metagenomikai eljárással

Adatmodellezés. 1. Fogalmi modell

Adatbáziskezelı-szerver SQL. Relációs adatbázis-kezelık. Relációs adatszerkezet. Házi feladat

Adatbázisok. 8. gyakorlat. SQL: CREATE TABLE, aktualizálás (INSERT, UPDATE, DELETE), SELECT október október 26. Adatbázisok 1 / 17

A fehérjék térszerkezetének jóslása

Web harvesztelés. Automatikus módszerekkel

BIOINFORMATIKA Ungvári Ildikó

Genomadatbázisok Ld. Entrez Genome: Összes ismert genom, hierarchikus szervezésben (kromoszóma, térképek, gének, stb.)

Molekuláris evolúció második gyakorlat

Adatbázis rendszerek 7. előadás State of the art

Tartalomjegyzék. Tartalomjegyzék 1. Az SQL nyelv 1 Az SQL DDL alapjai 2

B I T M A N B I v: T M A N

Bevezetés a bioinformatikába. Harangi János DE, TEK, TTK Biokémiai Tanszék

Genetikai panel kialakítása a hazai tejhasznú szarvasmarha állományok hasznos élettartamának növelésére

Multimédiás adatbázisok

Manuscript Title: Identification of a thermostable fungal lytic polysaccharide monooxygenase and

PHP-MySQL. Adatbázisok gyakorlat

Célkitűzések Az Oracle10 g felépítésének, használatának alapszíntű megismerése

Adatbáziskezelő-szerver. Relációs adatbázis-kezelők SQL. Házi feladat. Relációs adatszerkezet

Szekvencia összehasonlítások II. Bioinformatika és genom analízis az orvostudományban (AOGENBIG_1M)

Bioinformatika előadás

Közoktatási Statisztika Tájékoztató 2012/2013. Használati útmutató

A WEBOPAC (online elektronikus katalógus) használata. 1. Keresés az adatbázisban (összetett):

Proteomika alapfogalmak, módszerek, példák a proteomika alkalmazására

A HUMÁN GENOM PROJEKT Sasvári-Székely Mária* Semmelweis Egyetem, Orvosi Vegytani, Molekuláris Biológiai és Pathobiokémiai Intézet

8. A fehérjék térszerkezetének jóslása

Adatbázis-kezelés ODBC driverrel

AB1 ZH mintafeladatok. 6. Minősítse az állításokat! I-igaz, H-hamis

<Insert Picture Here> Migráció MS Access-ről Oracle Application Express-re

Szolgáltatási csomagok I-SZERVIZ Kft. érvényes szeptember 1-től

Adatbázis Rendszerek I. 10. SQL alapok (DML esettanulmány)

1. oldal, összesen: 29 oldal

XML alapú adatbázis-kezelés. (Katona Endre diái alapján)

Adatbázis kezelés Delphiben. SQL lekérdezések

A szürke háttérrel jelölt fejezet/alfejezet szövege a CD-mellékleten található. A CD-melléklet használata. 1. Elméleti áttekintés 1

Microsoft SQL Server telepítése

BEVEZETÉS Az objektum fogalma

Adatbányászat és Perszonalizáció architektúra

Modul 3B: 1. rész Az ingyenes, világméretű adatbázisának használata

Human Genome Project, évvel a tervezett befezés előtt The race is over, victory for Craig Venter. The genome is mapped* - now what?

Webapp (in)security. Gyakori hibákról és azok kivédéséről fejlesztőknek és üzemeltetőknek egyaránt. Veres-Szentkirályi András

CLUSTALW Multiple Sequence Alignment

Summer of LabVIEW The Sunny Side of System Design

Az indexelés újdonságai Oracle Database 12c R1 és 12c R2

A relációs adatbáziskezelés szabványos nyelve Két fő csoportba sorolhatók az utasításai

MySQL kontra MongoDB programozás. SQL és NoSQL megközelítés egy konkrét példán keresztül

SQL ALAPOK. Bevezetés A MYSQL szintaxisa Táblák, adatok kezelésének alapjai

Az SQL*Plus használata

(11) Lajstromszám: E (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA

Programozási technikák Pál László. Sapientia EMTE, Csíkszereda, 2009/2010

Web-fejlesztés NGM_IN002_1

mintasepcifikus mikrokapilláris elektroforézis Lab-on-Chip elektroforézis / elektrokinetikus elven DNS, RNS, mirns 12, fehérje 10, sejtes minta 6

5. Másodlagos adatbázisok

A gyakorlat során MySQL adatbázis szerver és a böngészőben futó phpmyadmin használata javasolt. A gyakorlat során a következőket fogjuk gyakorolni:

2011. január április 10. IPK Gatersleben (Németország) május 17. Kruppa Klaudia

LOGalyze Telepítési és Frissítési Dokumentáció Verzió 3.0

SZOFTVEREK A SORBANÁLLÁSI ELMÉLET OKTATÁSÁBAN

Adatbázisok-1 előadás Előadó: dr. Hajas Csilla

LOGISZTIKAI ADATBÁZIS RENDSZEREK BEVEZETÉS

BEVEZETÉS AZ INTERNET ÉS A WORLD WIDE WEB VILÁGÁBA. Kvaszingerné Prantner Csilla, EKF

Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban

Nem kódoló RNS-ekből potenciálisan keletkező de novo fehérjék azonosítása és elemzése DIPLOMAMUNKA

2 Access 2016 zsebkönyv

KÖNYVTÁRI KATALÓGUS HASZNÁLATI ÚTMUTATÓ

Adatbázis Rendszerek II. 5. PLSQL Csomagok 16/1B IT MAN

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)

Selling Platform Telepítési útmutató Gyakori hibák és megoldások

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t

ELTE, IK, Információs Rendszerek Tanszék

Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata:

Átírás:

Molekuláris biológiai adatbázisok és adatbázis keresések Barta Endre Tóth Gábor MBK Bioinformatikai Csoport

Adatbázisok: megvalósítás Szöveges adatbázis általában szekvenciális, néha indexelt megfelelő programmal indexelt bináris formába alakítható (pl. EMBOSS/dbiflat, BLAST/formatdb) flatfile emberi olvasásra is alkalmas XML (extensibe Markup Language; DTD: Document Type Definition) adattárolás és adatmegjelenítés különválik számítógépes programmal dolgozandó fel Bináris ASN.1 ( Abstract Syntax Notation 1 ) adatcsere szabvány Relációs adatbázis keresztreferenciák, logikai kapcsolatok kezelése többszörös indexelhetőség bonyolult lekérdezések lehetősége gyors hozzáférés az adatokhoz adatbáziskezelő program Molecular phylogenetics 2

XML formátum (példa) Molecular phylogenetics 3

Relációs adatbázisok szerkezete Tábla 1 Mező 1 Mező 2 Mező n Tábla 2 Mező 3 Mező 4 Mező n Egy DNS adatbanknál egyszerű, de egy nagyobb adatbanknál sokkal bonyolultabb struktúra Molecular phylogenetics 4

Kereszthivatkozások (táblák összekapcsolása) Tábla 1 (GenBank) Mező 1 (LOCUS) Mező n taxid pl. 3702 Több rekord is mutathat ugyanarra a fajra Tábla 2 (Taxonomy) Mező 1 (taxid, pl. 3702) Mező n (fajnév) Arabidopsis thaliana Molecular phylogenetics 5

Szekvencia adatbázis szerkezete Tábla (pl. GenBank) Rekord 1 (Annotáció) szöveges keresés Mező 1 (pl. Locus) Mező 2 (pl. Definition) Stb. (Szekvencia) hasonlóság keresés Mező n (pl. cgagcatgcatctagtagcagcgtactac) Molecular phylogenetics 6

Szöveges keresés adatbázisokban Flatfile-ban keresés egy szóra, szórészletre A találat sorát (pl. UNIX grep) és környezetét látjuk csak, holott mi az egész rekordra lennénk kíváncsiak Megoldás: adatbázismotorok SQL (Simple Query Language), pl. MS Access, Oracle, MySQL stb. ENSEMBL, UCSC (MySQL) EMBL, InterPro (Oracle) Saját motor ACEDB SRS (icarus) Molecular phylogenetics 7

Keresés alapfilozófiája SQL: SELECT * (összes olyan rekord) FROM tábla (pl. GenBank) WHERE mező1 CONTAINS/SIMILAR/IDENTICAL (LIKE) valami AND SORT BY DISPLAY stb. Ezeket össze lehet fűzni Pl. keressük az összes burgonya szekvenciát SELECT * FROM GenBank WHERE OS= Solanum tuberosum Molecular phylogenetics 8

Dinamikus weboldalak Megadjuk, hogy mit akarunk keresni Kiválasztjuk, hogy miben A szerver ezt átalakítja pl. egy SQL paranccsá (sokszor ezt meg is lehet nézni) Az SQL parancsot végrehajtja egy vagy több adatbázison (ezek lehetnek különböző szervereken) A kapott eredményt on-the-fly átalakítja és megjeleníti a kliens böngészőn Molecular phylogenetics 9

Keresési stratégiák Megfelelő kulcsszavak kiválasztása Szélesebbtől a szűkebb fele 2 legfontosabb hiba: Túl sok találat Túl kevés találat Általában mindegy hogy kisbetű vagy nagybetű Kifejezéseket idézőjelbe Logikai kifejezések használata a AND b = akkor, ha mindkettő megvan az adott rekordban a OR b = bármelyikben megvan a BUT(AND)NOT b = a benne van, de b nincs http://www.altavista.com/help/adv_search/syntax Molecular phylogenetics 10

Molekuláris biológiai adatbázisok típusai Elsődleges adatbázisok DNS (RNS) adatbázisok (International Nucleotide Sequence Database Collaboration) EMBL (European Bioinformatics Institute, EBI) GenBank (National Center for Biotechnology Information, NCBI) DDBJ (DNA DataBank of Japan) (pl. térszerkezeti adatbázisok) Másodlagos v. származtatott adatbázisok Fehérje adatbankok Motívum adatbankok Egyéb (nem szekvencia) adatbázisok (Nucleic Acids Res. januári első száma) Molecular phylogenetics 11

Molecular phylogenetics 12

Molecular phylogenetics 13

Elsődleges adatbázisok Mi a közös a 3 elsődleges adatbankban? International Nucleotide Sequence Database Collaboration adatcsere naponta taxonómia projekt azonos accession number közös feature table Elég eggyel foglalkozni, főbb adatokban nincs különbség Eltérő adatbázis-szerkezet/formátum formátumkonverzió: pl. readseq (UNIX), seqret (EMBOSS), ForCon (Windows) Molecular phylogenetics 14

Adatbázisok története Honnan jönnek az adatok? Irodalomban közölt adatok kézi bevitele Papíron beküldött szekvenciák (pl. GCG-ben Submission form ) Floppy Csak akkor fogadták el a cikket, ha a benne lévő szekvenciát már beküldték valamelyik adatbankba, innentől adatbankok szinkronizálása Internet (WWW, e-mail) egyedileg a kutatók által nagyobb adagokban a szekvenáló központokból Molecular phylogenetics 15

Adatbázisok és a tárolókapacitás növekedése (MBK vs. EMBL) 1990: MicroVax szerver 2x 160 Mbyte HDD 50 Mbp 1993: SUN SparcServer 1000 8x 512 Mbyte HDD 150 Mbp 1997: SUN Ultra Enterprise II 4x 9 Gbyte HDD 1 Gbp 2002: SUN Fire V480 8x 180Gbyte HDD 38 Gbp Szekvencia + annotáció + index: ~140 Gbyte (2004) Molecular phylogenetics 16

Molecular phylogenetics 17

Adatbázisok exponenciális növekedése EMBL: rekordok száma (millió) EMBL: nukleotidok száma (gigabázis) Molecular phylogenetics 18

Adatbázisok szerkezete Úgynevezett flatfile formátum EMBL: 64,8 Gb 38,3 millió rekord (2004.04.15.) (WGS szekcióval együtt) GenBank Release 140 (2004. február) 32,6 millió szekvencia 37,9 milliárd nukleotid (37,9 gigabázis) ~127 Gbyte (indexekkel együtt ~143 GByte) Szekciók/divíziók Rendszertani kategóriák alapján De inkább ahogy történelmileg alakult Rekordok (vagy entry -k) Mezők Annotáció Szekvencia Molecular phylogenetics 19

EMBL szekciók Eredeti felosztás: Pl. 1989-ben vírusok, prokarióták, eukarióták stb. Release 18, february 1989 Division Entries Nucleotides ---------------- ------- ----------- Artificial 509 195102 Chloroplast 278 636203 Genetic elements 92 102768 Mitochondrial 584 661670 Prokaryotic 2576 415673 Viral/Phage 2443 3722036 Eukaryotic 13417 15100242 Unclassified 46 70092 Unannotated 2993 3346044 ---------------- ------- ----------- Total 22938 27249830 Nagy mennyiségű szekvenálás újabb szekciók bevezetése (pl. EST, HTG, GSS stb.), valamint egyes szekciók felosztása vált szükségessé Molecular phylogenetics 20

Főbb EMBL szekciók I. EST: expressed sequence tag (cdns részl. szekv.) STS: sequence tagged site (PCR) GSS: genome survey sequences (random genomi) HTG: high throughput genomic (unfinished) WGS: whole genome shotgun PLN: növények FUN: gombák PRO: prokarióta ORG: organellum VRL: vírus PHG: bakteriofág PAT: szabadalommal védett SYN: szintetikus Molecular phylogenetics 21

Főbb EMBL szekciók II. HUM: humán MUS: egér ROD: egyéb rágcsáló MAM: egyéb emlős VRT: egyéb gerinces INV: gerinctelen Molecular phylogenetics 22

Különböző EMBL szekciók mérete EMBL Release 78 EST HTG Molecular phylogenetics 23

EMBL: megoszlás fajok szerint (első 10) Nukleotidok száma: ecetmuslica egyéb kutya csimpánz ember patkány egér Molecular phylogenetics 24

Egy EMBL rekord (részlet) ID HSCYCLOX standard; mrna; HUM; 3387 BP. XX AC M90100; XX SV M90100.1 XX DT 30-MAR-1992 (Rel. 31, Created) DT 04-MAR-2000 (Rel. 63, Last updated, Version 7) XX DE Homo sapiens cyclooxygenase-2 (Cox-2) mrna, complete cds. XX KW cyclooxygenase-2; prostaglandin synthase. XX OS Homo sapiens (human) OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; OC Eutheria; Primates; Catarrhini; Hominidae; Homo. XX RN [1] RP 1-3387 RX MEDLINE; 92366465. RX PUBMED; 1380156. RA Hla T., Neilson K.; RT "Human cyclooxygenase-2 cdna"; RL Proc. Natl. Acad. Sci. U.S.A. 89(16):7384-7388(1992). XX DR GOA; P35354. DR SWISS-PROT; P35354; PGH2_HUMAN. XX FH Key Location/Qualifiers FH FT source 1..3387 FT /db_xref="taxon:9606" FT /mol_type="mrna" FT /organism="homo sapiens" FT /cell_type="endothelial" FT /tissue_type="umbilical vein" Molecular phylogenetics 25

Egy EMBL rekord (folytatás) FT 5'UTR 1..97 FT /gene="cox-2" FT CDS 98..1912 FT /codon_start=1 FT /db_xref="goa:p35354" FT /db_xref="swiss-prot:p35354" FT /gene="cox-2" FT /EC_number="1.14.99.1" FT /product="cyclooxygenase-2" FT /protein_id="aaa58433.1" FT /translation="mlaralllcavlalshtanpccshpcqnrgvcmsvgfdqykcdct FT RTGFYGENCSTPEFLTRIKLFLKPTPNTVHYILTHFKGFWNVVNNIPFLRNAIMSYVLT FT... FT KGLMGNVICSPAYWKPSTFGGEVGFQIINTASIQSLICNNVKGCPFTSFSVPDPELIKT FT VTINASSSRSGLDDINPTVLLKERSTEL" FT sig_peptide 98..148 FT /gene="cox-2" FT mat_peptide 149..1909 FT /gene="cox-2" FT /EC_number="1.14.99.1" FT /product="cyclooxygenase-2" FT 3'UTR 1913..3387 FT /gene="cox-2" FT polya_signal 3369..3374 FT /gene="cox-2" XX SQ Sequence 3387 BP; 1010 A; 712 C; 633 G; 1032 T; 0 other; gtccaggaac tcctcagcag cgcctccttc agctccacag ccagacgccc tcagacagca 60 aagcctaccc ccgcgccgcg ccctgcccgc cgctgcgatg ctcgcccgcg ccctgctgct 120... tacctgaact tttgcaagtt ttcaggtaaa cctcagctca ggactgctat ttagctcctc 3360 ttaagaagat taaaaaaaaa aaaaaag 3387 // Molecular phylogenetics 26

Főbb mezők az EMBL adatbankban ID egyedi azonosító, (entryname dataclass; molecule; division; sequencelength BP.) AC accession number, változatlan, erre kell hivatkozni SV szekvencia verzió DT létrehozás, módosítás ideje DE description, a szekvencia rövid leírása KW kulcsszavak O? teljes taxonómiai besorolás R? referenciák DR adatbázis keresztreferenciák CC megjegyzések FT feature table: a szekvencia egy-egy részének a tulajdonsága XX üres, csak térkitöltő SQ szekvencia // rekord vége Molecular phylogenetics 27

Annotáció: EMBL vs. GenBank EMBL: ID egyedi azonosító AC egyedi azonosító! = GenBank ACCESSION SV entry verzió (volt: NI) DE rövid leírás OS faj OC taxonómiai besorolás FT feature table : tulajdonság/pozíció FT CDS kódoló szekvencia (PID) GenBank: LOCUS kihalóban? formátum miatt marad ACCESSION egyedi! = EMBL AC VERSION entry verzió * GI = EMBL NI DEFINITION rövid leírás SOURCE faj triviális neve ORGANISM faj, taxonómia FEATURES feature table tulajdonság/pozíció CDS kódoló szekvencia /protein_id /db_xref tr. fehérje GI No. * Accession.Version GI: NCBI belső azonosító (ld. BLAST DB) Molecular phylogenetics 28

Egy GenBank rekord (részlet) LOCUS HUMCYCLOX 3387 bp mrna linear PRI 31-DEC-1994 DEFINITION Homo sapiens cyclooxygenase-2 (Cox-2) mrna, complete cds. ACCESSION M90100 VERSION M90100.1 GI:181253 KEYWORDS cyclooxygenase-2; prostaglandin synthase. SOURCE Homo sapiens (human) ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 3387) AUTHORS Hla,T. and Neilson,K. TITLE Human cyclooxygenase-2 cdna JOURNAL Proc. Natl. Acad. Sci. U.S.A. 89 (16), 7384-7388 (1992) MEDLINE 92366465 PUBMED 1380156 COMMENT Original source text: Homo sapiens umbilical vein cdna to mrna. FEATURES Location/Qualifiers source 1..3387 /organism="homo sapiens" /mol_type="mrna" /db_xref="taxon:9606" /cell_type="endothelial" /tissue_type="umbilical vein" gene 1..3387 /gene="cox-2" 5'UTR 1..97 /gene="cox-2" Molecular phylogenetics 29

Egy GenBank rekord (folytatás) CDS 98..1912 /gene="cox-2" /EC_number="1.14.99.1" /codon_start=1 /product="cyclooxygenase-2" /protein_id="aaa58433.1" /db_xref="gi:181254" /translation="mlaralllcavlalshtanpccshpcqnrgvcmsvgfdqykcdc TRTGFYGENCSTPEFLTRIKLFLKPTPNTVHYILTHFKGFWNVVNNIPFLRNAIMSYV... VEVGAPFSLKGLMGNVICSPAYWKPSTFGGEVGFQIINTASIQSLICNNVKGCPFTSF SVPDPELIKTVTINASSSRSGLDDINPTVLLKERSTEL" sig_peptide 98..148 /gene="cox-2" mat_peptide 149..1909 /gene="cox-2" /product="cyclooxygenase-2" /EC_number="1.14.99.1" 3'UTR 1913..3387 /gene="cox-2" polya_signal 3369..3374 /gene="cox-2" BASE COUNT 1010 a 712 c 633 g 1032 t ORIGIN 1 gtccaggaac tcctcagcag cgcctccttc agctccacag ccagacgccc tcagacagca 61 aagcctaccc ccgcgccgcg ccctgcccgc cgctgcgatg ctcgcccgcg ccctgctgct... 3301 tacctgaact tttgcaagtt ttcaggtaaa cctcagctca ggactgctat ttagctcctc 3361 ttaagaagat taaaaaaaaa aaaaaag // Molecular phylogenetics 30

EMBL adatbázis fejlődése EMBL Sequence Version Archive http://www.ebi.ac.uk/cgi-bin/sva/sva.pl Nem csak az adatok, hanem az adatbázis szerkezete is folyamatosan változik elsősorban a feature table új keresztreferenciák más adatbázisokkal Molecular phylogenetics 31

Szekvencia-beküldés az adatbankokba EMBL: WEBin (http://www.ebi.ac.uk/submission/webin.html) GenBank: BankIt (http://www.ncbi.nlm.nih.gov/bankit/index.html) EMBL/GenBank: Sequin (lokálisan futó PC-s program) (ftp://ftp.ebi.ac.uk/pub/software/sequin/) Molecular phylogenetics 32

WEBIN Molecular phylogenetics 33

Molecular phylogenetics 34

Fehérjeszekvencia adatbázisok I. Swiss-Prot Kollaborációban készíti a SIB és az EBI Protein tudásbázis (ExPASy = Expert Protein Analysis System) Legjobban annotált adatbázis (kézi annotáció) Jó keresztreferenciák Non-profit kutatóknak ingyenes EMBL-hez hasonló adatbázis-szerkezet Szekvenciák lassú megjelenése TrEMBL Translated EMBL Automatikusan annotált SP-TrEMBL és REM-TrEMBL Molecular phylogenetics 35

Fehérjeszekvencia adatbázisok II. PIR (Protein Identification Resource) PIR-PSD Formátum: NBRF/PIR Kézi annotáció Keresztreferenciák (SWISS-PROT jobb!) Szupercsalád-besorolás 4 szekció: PIR1, PIR2, PIR3, PIR4 (legjobban annotált: PIR1) Megszűnik beolvadt az UniProt adatbázisba Genpept Lefordított GenBank CDS-ek (NCBI) Mint TrEMBL Molecular phylogenetics 36

Fehérjeszekvencia adatbázisok III. Universal Protein Resource (UniProt) Az EBI/SIB Swiss-Prot + TrEMBL és a PIR-PSD egyesítésével létrehozott adatbank EBI + SIB + PIR UniProt Consortium (2002) Három adatbázisréteg: UniProt Archive (UniParc) az összes publikus fehérjeszekvencia (nem redundáns) UniProt Knowledgebase (UniProt) megbízhatóan, konzisztensen és gazdagon annotált központi fehérjeszekvencia-adatbázis UniProt Non-redundant Reference (UniRef) kondenzált szekvenciakészlet UniProt tudásbázis: két rész kézzel annotált rekordok: Swiss-Prot (2004 végéig licenszköteles) számítógéppel elemzett rekordok (kézi annotáció előtt): TrEMBL UniRef UniRef100 (=UniProt), UniRef90, UniRef50 Molecular phylogenetics 37

Egy UniProt (Swiss-Prot) rekord ID AHA1_HUMAN STANDARD; PRT; 338 AA. AC O95433; Q96IL6; Q9P060; DT 16-OCT-2001 (Rel. 40, Created) DT 16-OCT-2001 (Rel. 40, Last sequence update) DT 15-SEP-2003 (Rel. 42, Last annotation update) DE Activator of 90 kda heat shock protein ATPase homolog 1 (AHA1) (p38) DE (HSPC322). GN AHSA1 OR C14ORF3. OS Homo sapiens (Human). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606; RN [1] RP SEQUENCE FROM N.A. RA Michaud J., Chrast R., Rossier C., Papassavas M.P., Antonarakis S.E., RA Scott H.S.; RT "Isolation of a novel gene underexpressed in Down syndrome."; RL Submitted (JUN-1999) to the EMBL/GenBank/DDBJ databases. DR EMBL; AF111168; AAD09623.1; -. DR EMBL; AJ243310; CAB45684.1; -. DR EMBL; AF164791; AAF80755.1; -. DR EMBL; BC000321; AAH00321.1; -. DR EMBL; BC007398; AAH07398.1; ALT_INIT. DR EMBL; AF161440; AAF29000.1; -. DR PIR; JC7769; JC7769. DR Genew; HGNC:1189; AHSA1. DR InterPro; IPR007821; DUF704. DR Pfam; PF05146; DUF704; 1. FT CONFLICT 67 68 EA -> CL (IN REF. 4). SQ SEQUENCE 338 AA; 38274 MW; E6B686DDD8D7D729 CRC64; MAKWGEGDPR WIVEERADAT NVNNWHWTER DASNWSTDKL KTLFLAVQVQ NEEGKCEVTE VSKLDGEASI NNRKGKLIFF YEWSVKLNWT GTSKSGVQYK GHVEIPNLSD ENSVDEVEIS VSLAKDEPDT NLVALMKEEG VKLLREAMGI YISTLKTEFT QGMILPTMNG ESVDPVGQPA LKTEERKAKP APSKTQARPV GVKIPTCKIT LKETFLTSPE ELYRVFTTQE LVQAFTHAPA TLEADRGGKF HMVDGNVSGE FTDLVPEKHI VMKWRFKSWP EGHFATITLT FIDKNGETEL CMEGRGIPAP EEERTRQGWQ RYYFEGIKQT FGYGARLF // Molecular phylogenetics 38

Nem redundáns adatbázisok NCBI NRDB egyesített GenPept, PDB szekvenciák, SWISS-PROT, PIR nem azonos (!) fehérjék (polimorfizmus és szekvenálási hibák miatt redundáns) nr: indexelt BLAST formátumban letölthető OWL (http://www.bioinf.man.ac.uk/dbbrowser/owl/) összetett, nem redundáns fehérje adatbázis egyetlen aminosavban eltérő szekvenciák közül csak 1 marad prioritási sorrend: SWISS-PROT, PIR1-PIR4, GenPept, NRL-3D NCBI UniGene egyedi gének átfedő EST-k klaszterezésével 10 állat: pl. humán, egér, patkány, szarvasmarha, béka, zebrahal 7 növény: pl. rizs, búza, árpa, kukorica TIGR TC (Tentative Consensus) klaszterezett és összefűzött EST-szekvenciák Molecular phylogenetics 39

Molecular phylogenetics 40

http://www.tigr.org/ Molecular phylogenetics 41

Molecular phylogenetics 42

Fehérje-mintázat, -motívum és profil-adatbázisok ADATBÁZIS VERZIÓ REKORDOK Swiss-Prot 42.5 138922 PRINTS 37.0 1850 TrEMBL Pfam PROSITE patterns 25.5 11.0 18.10 1013263 7255 1659 INTERPRO adatbázis 2003. dec. PROSITE preprofiles N/A 131 ProDom 2002.1 1021 InterPro 7.1 10403 Smart 3.4 654 TIGRFAMs 3.0 1977 PIR SuperFamily 2.3 219 SUPERFAMILY 1.63 552 Molecular phylogenetics 43

Az INTERPRO adatbázis generálása Molecular phylogenetics 44

PROSITE adatbank Protein családok és domének adatbázisa Biológiailag szignifikáns: Helyek Mintázatok Profilok Ezek alapján lehet eldönteni, hogy egy adott fehérje milyen csoportba tartozik http://www.expasy.ch/prosite/ Molecular phylogenetics 45

Pfam (Protein families database of alignments and HMMs) Gyűjteménye a: Többszörös illesztéseknek, és a Hidden Markov modelleknek A legtöbb protein domént tartalmazza Pfam-A: Kurátorok által annotált domének Pfam-B: Automatikusan generált domének Fehérjék doménszerkezetének vizsgálata http://www.sanger.ac.uk/software/pfam/in dex.shtml Molecular phylogenetics 46

PRINTS adatbázis Protein fingerprint -ek gyűjteménye fingerprint = konzerválódott motívumok csoportja UNIPROT-ból nyerik ki http://www.bioinf.man.ac.uk/dbbrowser/p RINTS/ Molecular phylogenetics 47

PRODOM protein domén adatbázis Automatikus keresése a homológ doméneknek Módszer: rekurzív PSI-BLAST http://prodes.toulouse.inra.fr/prodom/curr ent/html/home.php Molecular phylogenetics 48

SMART (Simple Modular Architecture Research Tool) Genetikailag mozgó domének vizsgálata Domén felépítés vizsgálata Több mint 500 domén részletes annotációja http://smart.embl-heidelberg.de/ Molecular phylogenetics 49

TIGRFAM Protein családok gyűjteménye Többszörös illesztések Funkcionálisan rokon fehérjék azonosítása http://www.tigr.org/tigrfams/index.sht ml Molecular phylogenetics 50

PIR SuperFamily (PIRSF) Klasszifikációs rendszer A fehérjék teljes aminosav sorrendjének az evolúciós elemzésén alapul A családok tagjai monofiletikusak és homeomorfak http://pir.georgetown.edu/iproclass/ Molecular phylogenetics 51

SUPERFAMILY Ismert szerkezetű fehérjék Hidden Markov Model profilok A SCOP adatbázisban alkalmazott szerkezeti osztályozáson alapul http://supfam.mrclmb.cam.ac.uk/superfamily/ Molecular phylogenetics 52

Evolúciós adatbázisok I., Tree of Life Biológusok közös erőfeszítése egy teljes törzsfa kialakítására http://tolweb.org/tree/ Molecular phylogenetics 53

Evolúciós adatbázisok I., Treebase Filogenetikai kapcsolatok adatbázisa Adatokat a kutatók küldik be http://www.treebase.org/ treebase/index.html Molecular phylogenetics 54

3-D fehérjetérszerkezeti adatbázisok PDB (Protein Data Bank) Research Collaboratory for Structural Bioinformatics, USA http://www.rcsb.org/pdb/ kísérletesen meghatározott szerkezetek (röntgendiffrakció, NMR, MRI) MMDB NCBI: http://www.ncbi.nlm.nih.gov/structure/mmdb/mmdb.shtml fehérje és nukleinsav; PDB egy része (elméleti modellek nélkül) EBI-MSD (~PDB) SCOP CATH EBI: http://www.ebi.ac.uk/pdb/ 3-D szerkezetek hierarchikus osztályozása 4 szint: osztályok, gombolyok, szupercsaládok, családok) Molecular phylogenetics 55

Genomi adatbázisok I. NCBI 159 baktérium- és archeon genom (néhány fajból több törzs) 7 gomba, 10 egyéb eukarióta COGs (Clusters of Orthologous Groups) http://www.ncbi.nlm.nih.gov/cog/ teljes eubaktérium és archeon, valamint élesztő genomok (jelenleg 43 teljes genom, 30 fő filogenetikai vonalból) ortológ gének csoportjai (fehérje-blast alapján) legalább 3 fajban előforduló nagyon hasonló fehérjék COGnitor program felhasználás: funkciópredikció egy adott genomból hiányzó konzervált COG - annotálatlan gén detektálása Molecular phylogenetics 56

Molecular phylogenetics 57

Molecular phylogenetics 58

Molecular phylogenetics 59

Genomi adatbázisok II. ENSEMBL http://www.ensembl.org/ (Sanger Institute, EBI) integrált genom annotációs rendszer automatikus genomannotációs csövezeték genom böngésző szabad szoftver (MySQL motor) eredetileg humán annotációra fejlesztették most: humán, (csimpánz), egér, patkány, (tyúk), zebrahal, fugu, moszkító, ecetmuslica, C. elegans, C. briggsae Molecular phylogenetics 60

http://www.ensembl.org/ Molecular phylogenetics 61

Kontig nézet Molecular phylogenetics 62

UCSC genom böngésző http://genome.ucsc.edu/ ENSEMBL amerikai alternatívája Néha frissebb az annotáció Kevesebb szervezet Új géncsalád böngésző Molecular phylogenetics 63

UCSC Genome Browser (példa) Molecular phylogenetics 64

Gén-ontológia (GO) The Gene Ontology Consortium http://www.geneontology.org/ bármely élő szervezetben megtalálható géntermék leírására hierarchikus besorolás egységes terminológia 3-féle ontológia: molekuláris funkció biológiai folyamat sejtalkotórész online: pl. Mouse Genome Initiative GO Browser http://www.informatics.jax.org/go/ GOA Molecular phylogenetics 65

Molecular phylogenetics 66

Molecular phylogenetics 67

NCBI adatbázisok LocusLink / RefSeq / Entrez Gene LocusLink: kiindulópont egy genetikai lókusz (pl. gén) egyedi azonosító: LocusID kapcsolt információ: pl. fenotípus, térképpozíció, homológ gének RefSeq: egyedi gének (nem redundáns) mrns és fehérje szekvenciák humán, egér, patkány, szarvasmarha, zebrahal, ecetmuslica Taxonomy taxonómiai adatbázis OMIM (Online Mendelian Inheritance in Man) humán gének és genetikai betegségek PubMed (bibliográfiai adatbázis) magában foglalja a MEDLINE adatbázist azonosító: PMID (PubMed identifier), MUID (MEDLINE unique identifier) http://www.ncbi.nlm.nih.org/ Molecular phylogenetics 68

Keresés az annotációkban I. NCBI Bármilyen adatbázisrekord (Annotáció) szöveges keresés Mező 1 (pl. Locus) Mező 2 (pl. Definition) Stb. (Szekvencia) hasonlóság keresés Mező n (pl. cgagcatgcatctagtagcagcgtactac) Molecular phylogenetics 69

Integrált információkeresés I. NCBI Entrez NCBI (National Center of Biotechnology Information, Bethesda, USA) http://www.ncbi.nlm.nih.gov/entrez/ >20 részadatbázis Molecular phylogenetics 70

Molecular phylogenetics 71

Molecular phylogenetics 72

Molecular phylogenetics 73

Molecular phylogenetics 74

Molecular phylogenetics 75

Molecular phylogenetics 76

Molecular phylogenetics 77

Molecular phylogenetics 78

Molecular phylogenetics 79

Molecular phylogenetics 80

Keresés az annotációkban II. SRS Bármilyen adatbázisrekord (Annotáció) szöveges keresés Mező 1 (pl. Locus) Mező 2 (pl. Definition) Stb. (Szekvencia) hasonlóság keresés Mező n (pl. cgagcatgcatctagtagcagcgtactac) Molecular phylogenetics 81

Sequence Retrieval System (SRS) Adatbázis indexelő és kereső rendszer Thure Etzold kezdte el fejleszteni a 90-es évek elején Heidelbergben az EMBL-ben 1996-tól az EBI-ben 1999-től a Lion Biosciences-ben közösen az EBIvel 5.1-es verzió szabad (de a legújabb adatbázisokkal már nehéz használni) 6.0-ás verziótól akadémiai liszenszet lehet kérni 7.0-ás verziótól EMBOSS integrálva van http://srs.ebi.ac.uk/ és helyileg: http://bioinfosv/srs6/ Molecular phylogenetics 82

Mire jó az SRS? Keresés mindenfajta adatbázis annotációban Szekvenciák letöltése egy faj, vagy egy adott taxonómiai egységhez tartozó szekvenciák egy adott annotált tulajdonsághoz tartozó szekvenciák (pl. intronok, domének) adott szekvenciákhoz tartozó referenciák keresése legmegfelelőbb adatbázis keresése Molecular phylogenetics 83

Segítség az SRS használatához Lehet keresni a dokumentációban (természetesen az is egy adatbázis) Meglehet nézni on-line vagy le lehet tölteni PDF formátumban a teljes dokumentációt Legfontosabb az SRS User Guide SRS-t lehet Linux alá is telepíteni, ilyenkor az SRS Administrators Guide ad segítséget Természetesen minden oldalról van link Molecular phylogenetics 84

Mit lehet keresni az SRS segítségével? Az összes adatbázis összes mezőjében bármilyen szöveget ID, Elérési szám (accession number) Definíció Organizmus Szekvenciához kapcsolódó referencia Feature (pl. domén, kötőhely stb.) Molecular phylogenetics 85

Hogyan működik az SRS? Az adatbázis felbontása rekordokra és mezőkre ID TRBG361 standard; mrna; PLN; 1859 BP. AC X56734; S46826; SV X56734.1 DT 12-SEP-1991 (Rel. 29, Created) DT 15-MAR-1999 (Rel. 59, Last updated, Version 9) DE Trifolium repens mrna for noncyanogenic beta-glucosidase KW beta-glucosidase. Molecular phylogenetics 86

Adatbázis felbontása rekordokra és mezőkre Molecular phylogenetics 87

Indexelés Molecular phylogenetics 88

SRS kezdőoldal http://srs.ebi.ac.uk/ Molecular phylogenetics 89

Keresés a szekvenciákban Bármilyen adatbázisrekord (Annotáció) szöveges keresés Mező 1 (pl. Locus) Mező 2 (pl. Definition) Stb. (Szekvencia) hasonlóság keresés Mező n (pl. cgagcatgcatctagtagcagcgtactac) Molecular phylogenetics 90

Hasonlósági keresések adatbázisokban Optimális illesztéssel: nagyon időigényes, csak célhardveren Sokprocesszoros számítógép vagy számítógép-klaszter, párhuzamos processzálás Erre a célra fejlesztett chip Heurisztikus algoritmusok használata Bizonyos elhanyagolásokkal, gyakran tapasztalati úton beállított algoritmusok, paraméterek és statisztika Sok tesztfuttatással igazolt használhatóság Sebességnövekedés bizonyos fokú érzékenységvesztés árán FASTA (W. Pearson fejlesztette) BLAST (az NCBI-nál fejlesztik; S. Altschul), PSI-BLAST Molecular phylogenetics 91

FASTA FASTA2 és FASTA3 (Lipman és Pearson, 1985; Pearson és Lipman, 1988; Pearson, 2000) FASTA3 programcsomag (ftp://ftp.virginia.edu/pub/fasta) Rövid (10 nukleotidnyi) keresőszekvenciák is használhatók A keresés időigénye nagyban függ az alkalmazott k-tuple értéktől Molecular phylogenetics 92

FASTA algoritmus (1) a kereső ( query ) és az adatbázisszekvencia között közös szavak (ktuple) keresése (2) az azonos átlón található szavak összefűzése és pontozása a helyettesítési mátrix-szal database sequence database sequence query sequence query sequence 10 legjobb szegmens: Init1 score Molecular phylogenetics 93

FASTA algoritmus (3) eltérő, de egy bizonyos eltoláson belüli átlók egyesítése és pontozása (helyettesítési mátrix + hézagbüntetések) (4) optimális lokális illesztés egy sávban (S-W alg.) database sequence database sequence query sequence: Initn score query sequence: Opt score Molecular phylogenetics 94

A FASTA3 csomag programjai Molecular phylogenetics 95

Mikor melyik programot használjuk? Molecular phylogenetics 96

FASTA a weben WWW: http://www.ebi.ac.uk/fasta33/ (EBI) http://bioweb.pasteur.fr/seqanal/interfaces/fasta.html (Institut Pasteur) Molecular phylogenetics 97

BLAST BLAST (http://www.ncbi.nlm.nih.gov/blast/) a leggyorsabb, helyben is futtatható (pl. blastp Linux PC-n is hamar lefut) gyors, lokális illesztéseket végez szekvenciaillesztésre optimalizált, nem motívumkeresésre statisztikai módszerek alkalmazásával becsüli a találatok szignifikanciáját NCBI-BLAST két verziója: 1.0-1.4 (régi, nem enged hézagokat), 2.0-2.2 (új, hézagokat enged: gapped BLAST ) WU-BLAST 2.0 Warren Gish (Washington University) implementációja (hézagokat enged) Molecular phylogenetics 98

BLAST algoritmus (Altschul et al., 1990, 1997) (1) W hosszúságú szavakból szomszédos szó lista generálása L hosszúságú kereső szekvencia Maximum L-W+1 szó (w~3 fehérjékre) Mátrix használata (PAM vagy BLOSUM, stb.) szó-lista T (threshold) pontértékű szavakból (2) Szavak adatbázis: tökéletes egyezések keresése adatbázis-szekvenciák tökéletes egyezések (3) Találatok kiterjesztése és a legjobb lokális illesztés megkeresése: HSP-k S pontértékkel kereső szekv.: adatbázis szekv.: EGDCVFDGMIGSDQGSL E C+ +G G+D GS+ EAGCLQNGQRGTDVGSV X G S D Q G S L R F D G F D V E C D G T D V G S V M D E I P N D F E C 6 1 6-2 6 4 2-1-3 2-4-4 1-3-3-4-5 Molecular phylogenetics 99

BLAST algoritmus és statisztika A keresés lépései: W hosszúságú szavak ( word ) keresése találatok pontozása szubsztitúciós mátrix használatával nagy pontértékű találatok kiválasztása: HSP-k ( High scoring Segment Pairs ) HSP-k kiterjesztése mindkét irányban (szubsztitúciós mátrix használatával), amíg a szekvencia el nem fogy, vagy az egyezés már nem szignifikáns végeredmény: MSP-k ( Maximal scoring Segment Pairs ) Statisztikai szignifikanciabecslés: E érték: hasonló vagy nagyobb pontértékű találat véletlen előfordulásának várható száma; minél kisebb, annál jobb. Molecular phylogenetics 100

BLAST programok NCBI BLAST lokális futtatásánál a p opcióval kell megadni, pl.: blastall p blastp Molecular phylogenetics 101

NCBI BLAST Paraméterek: W (-W opció): blastn alapértelmezés: 11 (kompromisszum: szinte minden véletlen illeszkedést kizár, de divergált homológokét is) szűrés (-F opció): kis komplexitású régiók N-ekre vagy X-ekre cserélése a keresőszekvenciában; alapértelmezés: igen (T); blastn: DUST, többi: SEG és/vagy XNU; pontosabban is specifikálható (pl. szűrés csak a szó-lista létrehozásánál) opció: nem (F) szubsztitúciós mátrix (-M opció): BLOSUM45, BLOSUM62, BLOSUM80, PAM30, PAM70 E-határérték ( expected score threshold ) (-e opció); alapértelmezés: 10 blastn: egyező (M) és nem egyező (N) nukleotidok pontszámának aránya; alapértelmezés: M = 5, N = -4 ( M/N = 1.25; ~47 nukleotid PAM); minél nagyobb az arány, annál távolabbi szekvenciákat talál meg Molecular phylogenetics 102

BLAST programok WWW: NCBI-BLAST: http://www.ncbi.nlm.nih.gov/blast (NCBI) http://www.ebi.ac.uk/blastall/ (EBI) WU-BLAST: http://www.ebi.ac.uk/blast2/ (EBI) http://bioweb.pasteur.fr/seqanal/interfaces/wublast2.html (Institute Pasteur) (és sok más helyen, gyakran speciális adatbázisokkal, pl. fajok szerint) Lokálisan futtatható: blastall FASTA formátumú adatbázis formázása és indexelése: formatdb -i nr -o T BLAST keresés: blastall -p blastp -d nr -i query.fasta o \ out.query Molecular phylogenetics 103

Potenciális műtermékek, fals pozitívok Forrásai: Kis komplexitású régiók Repetitív elemek Figyelmeztető találatok (pl. Alu szekvencia) Vektor-szennyezés Megoldás: keresőszekvencia maszkolása, szűrése Kis összetételi komplexitású régiók: BLAST-ba beépítve: seg ill. xnu (aminosav), dust (nukleotid) kis komplexitású régiók, mikroszatellitek maszkolása Mikroszatellitek (SSR): Sputnik (http://abajian.net/sputnik/) mikroszatellitek (SSR) azonosítása; Windows, UNIX TRF (Tandem Repeat Finder) mikroszatellitek (SSR) azonosítása; Windows, UNIX Molecular phylogenetics 104

Kis komplexitású régiók szűrése SEG (fehérjékre) HILCDEVNEGDEENEDFLPS HILCXXXXXXXXXXXXFLPS DUST (nukleinsavakra) GCTCAAAAAATAAAAACACG GCTCNNNNNNNNNNNNCACG Molecular phylogenetics 105