Molekuláris biológiai adatbázisok és adatbázis keresések. Barta Endre Tóth Gábor MBK Bioinformatikai Csoport
|
|
- Mátyás Rácz
- 8 évvel ezelőtt
- Látták:
Átírás
1 Molekuláris biológiai adatbázisok és adatbázis keresések Barta Endre Tóth Gábor MBK Bioinformatikai Csoport
2 Adatbázisok: megvalósítás Szöveges adatbázis általában szekvenciális, néha indexelt megfelelő programmal indexelt bináris formába alakítható (pl. EMBOSS/dbiflat, BLAST/formatdb) flatfile emberi olvasásra is alkalmas XML (extensibe Markup Language; DTD: Document Type Definition) adattárolás és adatmegjelenítés különválik számítógépes programmal dolgozandó fel Bináris ASN.1 ( Abstract Syntax Notation 1 ) adatcsere szabvány Relációs adatbázis keresztreferenciák, logikai kapcsolatok kezelése többszörös indexelhetőség bonyolult lekérdezések lehetősége gyors hozzáférés az adatokhoz adatbáziskezelő program Molecular phylogenetics 2
3 XML formátum (példa) Molecular phylogenetics 3
4 Relációs adatbázisok szerkezete Tábla 1 Mező 1 Mező 2 Mező n Tábla 2 Mező 3 Mező 4 Mező n Egy DNS adatbanknál egyszerű, de egy nagyobb adatbanknál sokkal bonyolultabb struktúra Molecular phylogenetics 4
5 Kereszthivatkozások (táblák összekapcsolása) Tábla 1 (GenBank) Mező 1 (LOCUS) Mező n taxid pl Több rekord is mutathat ugyanarra a fajra Tábla 2 (Taxonomy) Mező 1 (taxid, pl. 3702) Mező n (fajnév) Arabidopsis thaliana Molecular phylogenetics 5
6 Szekvencia adatbázis szerkezete Tábla (pl. GenBank) Rekord 1 (Annotáció) szöveges keresés Mező 1 (pl. Locus) Mező 2 (pl. Definition) Stb. (Szekvencia) hasonlóság keresés Mező n (pl. cgagcatgcatctagtagcagcgtactac) Molecular phylogenetics 6
7 Szöveges keresés adatbázisokban Flatfile-ban keresés egy szóra, szórészletre A találat sorát (pl. UNIX grep) és környezetét látjuk csak, holott mi az egész rekordra lennénk kíváncsiak Megoldás: adatbázismotorok SQL (Simple Query Language), pl. MS Access, Oracle, MySQL stb. ENSEMBL, UCSC (MySQL) EMBL, InterPro (Oracle) Saját motor ACEDB SRS (icarus) Molecular phylogenetics 7
8 Keresés alapfilozófiája SQL: SELECT * (összes olyan rekord) FROM tábla (pl. GenBank) WHERE mező1 CONTAINS/SIMILAR/IDENTICAL (LIKE) valami AND SORT BY DISPLAY stb. Ezeket össze lehet fűzni Pl. keressük az összes burgonya szekvenciát SELECT * FROM GenBank WHERE OS= Solanum tuberosum Molecular phylogenetics 8
9 Dinamikus weboldalak Megadjuk, hogy mit akarunk keresni Kiválasztjuk, hogy miben A szerver ezt átalakítja pl. egy SQL paranccsá (sokszor ezt meg is lehet nézni) Az SQL parancsot végrehajtja egy vagy több adatbázison (ezek lehetnek különböző szervereken) A kapott eredményt on-the-fly átalakítja és megjeleníti a kliens böngészőn Molecular phylogenetics 9
10 Keresési stratégiák Megfelelő kulcsszavak kiválasztása Szélesebbtől a szűkebb fele 2 legfontosabb hiba: Túl sok találat Túl kevés találat Általában mindegy hogy kisbetű vagy nagybetű Kifejezéseket idézőjelbe Logikai kifejezések használata a AND b = akkor, ha mindkettő megvan az adott rekordban a OR b = bármelyikben megvan a BUT(AND)NOT b = a benne van, de b nincs Molecular phylogenetics 10
11 Molekuláris biológiai adatbázisok típusai Elsődleges adatbázisok DNS (RNS) adatbázisok (International Nucleotide Sequence Database Collaboration) EMBL (European Bioinformatics Institute, EBI) GenBank (National Center for Biotechnology Information, NCBI) DDBJ (DNA DataBank of Japan) (pl. térszerkezeti adatbázisok) Másodlagos v. származtatott adatbázisok Fehérje adatbankok Motívum adatbankok Egyéb (nem szekvencia) adatbázisok (Nucleic Acids Res. januári első száma) Molecular phylogenetics 11
12 Molecular phylogenetics 12
13 Molecular phylogenetics 13
14 Elsődleges adatbázisok Mi a közös a 3 elsődleges adatbankban? International Nucleotide Sequence Database Collaboration adatcsere naponta taxonómia projekt azonos accession number közös feature table Elég eggyel foglalkozni, főbb adatokban nincs különbség Eltérő adatbázis-szerkezet/formátum formátumkonverzió: pl. readseq (UNIX), seqret (EMBOSS), ForCon (Windows) Molecular phylogenetics 14
15 Adatbázisok története Honnan jönnek az adatok? Irodalomban közölt adatok kézi bevitele Papíron beküldött szekvenciák (pl. GCG-ben Submission form ) Floppy Csak akkor fogadták el a cikket, ha a benne lévő szekvenciát már beküldték valamelyik adatbankba, innentől adatbankok szinkronizálása Internet (WWW, ) egyedileg a kutatók által nagyobb adagokban a szekvenáló központokból Molecular phylogenetics 15
16 Adatbázisok és a tárolókapacitás növekedése (MBK vs. EMBL) 1990: MicroVax szerver 2x 160 Mbyte HDD 50 Mbp 1993: SUN SparcServer x 512 Mbyte HDD 150 Mbp 1997: SUN Ultra Enterprise II 4x 9 Gbyte HDD 1 Gbp 2002: SUN Fire V480 8x 180Gbyte HDD 38 Gbp Szekvencia + annotáció + index: ~140 Gbyte (2004) Molecular phylogenetics 16
17 Molecular phylogenetics 17
18 Adatbázisok exponenciális növekedése EMBL: rekordok száma (millió) EMBL: nukleotidok száma (gigabázis) Molecular phylogenetics 18
19 Adatbázisok szerkezete Úgynevezett flatfile formátum EMBL: 64,8 Gb 38,3 millió rekord ( ) (WGS szekcióval együtt) GenBank Release 140 (2004. február) 32,6 millió szekvencia 37,9 milliárd nukleotid (37,9 gigabázis) ~127 Gbyte (indexekkel együtt ~143 GByte) Szekciók/divíziók Rendszertani kategóriák alapján De inkább ahogy történelmileg alakult Rekordok (vagy entry -k) Mezők Annotáció Szekvencia Molecular phylogenetics 19
20 EMBL szekciók Eredeti felosztás: Pl ben vírusok, prokarióták, eukarióták stb. Release 18, february 1989 Division Entries Nucleotides Artificial Chloroplast Genetic elements Mitochondrial Prokaryotic Viral/Phage Eukaryotic Unclassified Unannotated Total Nagy mennyiségű szekvenálás újabb szekciók bevezetése (pl. EST, HTG, GSS stb.), valamint egyes szekciók felosztása vált szükségessé Molecular phylogenetics 20
21 Főbb EMBL szekciók I. EST: expressed sequence tag (cdns részl. szekv.) STS: sequence tagged site (PCR) GSS: genome survey sequences (random genomi) HTG: high throughput genomic (unfinished) WGS: whole genome shotgun PLN: növények FUN: gombák PRO: prokarióta ORG: organellum VRL: vírus PHG: bakteriofág PAT: szabadalommal védett SYN: szintetikus Molecular phylogenetics 21
22 Főbb EMBL szekciók II. HUM: humán MUS: egér ROD: egyéb rágcsáló MAM: egyéb emlős VRT: egyéb gerinces INV: gerinctelen Molecular phylogenetics 22
23 Különböző EMBL szekciók mérete EMBL Release 78 EST HTG Molecular phylogenetics 23
24 EMBL: megoszlás fajok szerint (első 10) Nukleotidok száma: ecetmuslica egyéb kutya csimpánz ember patkány egér Molecular phylogenetics 24
25 Egy EMBL rekord (részlet) ID HSCYCLOX standard; mrna; HUM; 3387 BP. XX AC M90100; XX SV M XX DT 30-MAR-1992 (Rel. 31, Created) DT 04-MAR-2000 (Rel. 63, Last updated, Version 7) XX DE Homo sapiens cyclooxygenase-2 (Cox-2) mrna, complete cds. XX KW cyclooxygenase-2; prostaglandin synthase. XX OS Homo sapiens (human) OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; OC Eutheria; Primates; Catarrhini; Hominidae; Homo. XX RN [1] RP RX MEDLINE; RX PUBMED; RA Hla T., Neilson K.; RT "Human cyclooxygenase-2 cdna"; RL Proc. Natl. Acad. Sci. U.S.A. 89(16): (1992). XX DR GOA; P DR SWISS-PROT; P35354; PGH2_HUMAN. XX FH Key Location/Qualifiers FH FT source FT /db_xref="taxon:9606" FT /mol_type="mrna" FT /organism="homo sapiens" FT /cell_type="endothelial" FT /tissue_type="umbilical vein" Molecular phylogenetics 25
26 Egy EMBL rekord (folytatás) FT 5'UTR FT /gene="cox-2" FT CDS FT /codon_start=1 FT /db_xref="goa:p35354" FT /db_xref="swiss-prot:p35354" FT /gene="cox-2" FT /EC_number=" " FT /product="cyclooxygenase-2" FT /protein_id="aaa " FT /translation="mlaralllcavlalshtanpccshpcqnrgvcmsvgfdqykcdct FT RTGFYGENCSTPEFLTRIKLFLKPTPNTVHYILTHFKGFWNVVNNIPFLRNAIMSYVLT FT... FT KGLMGNVICSPAYWKPSTFGGEVGFQIINTASIQSLICNNVKGCPFTSFSVPDPELIKT FT VTINASSSRSGLDDINPTVLLKERSTEL" FT sig_peptide FT /gene="cox-2" FT mat_peptide FT /gene="cox-2" FT /EC_number=" " FT /product="cyclooxygenase-2" FT 3'UTR FT /gene="cox-2" FT polya_signal FT /gene="cox-2" XX SQ Sequence 3387 BP; 1010 A; 712 C; 633 G; 1032 T; 0 other; gtccaggaac tcctcagcag cgcctccttc agctccacag ccagacgccc tcagacagca 60 aagcctaccc ccgcgccgcg ccctgcccgc cgctgcgatg ctcgcccgcg ccctgctgct tacctgaact tttgcaagtt ttcaggtaaa cctcagctca ggactgctat ttagctcctc 3360 ttaagaagat taaaaaaaaa aaaaaag 3387 // Molecular phylogenetics 26
27 Főbb mezők az EMBL adatbankban ID egyedi azonosító, (entryname dataclass; molecule; division; sequencelength BP.) AC accession number, változatlan, erre kell hivatkozni SV szekvencia verzió DT létrehozás, módosítás ideje DE description, a szekvencia rövid leírása KW kulcsszavak O? teljes taxonómiai besorolás R? referenciák DR adatbázis keresztreferenciák CC megjegyzések FT feature table: a szekvencia egy-egy részének a tulajdonsága XX üres, csak térkitöltő SQ szekvencia // rekord vége Molecular phylogenetics 27
28 Annotáció: EMBL vs. GenBank EMBL: ID egyedi azonosító AC egyedi azonosító! = GenBank ACCESSION SV entry verzió (volt: NI) DE rövid leírás OS faj OC taxonómiai besorolás FT feature table : tulajdonság/pozíció FT CDS kódoló szekvencia (PID) GenBank: LOCUS kihalóban? formátum miatt marad ACCESSION egyedi! = EMBL AC VERSION entry verzió * GI = EMBL NI DEFINITION rövid leírás SOURCE faj triviális neve ORGANISM faj, taxonómia FEATURES feature table tulajdonság/pozíció CDS kódoló szekvencia /protein_id /db_xref tr. fehérje GI No. * Accession.Version GI: NCBI belső azonosító (ld. BLAST DB) Molecular phylogenetics 28
29 Egy GenBank rekord (részlet) LOCUS HUMCYCLOX 3387 bp mrna linear PRI 31-DEC-1994 DEFINITION Homo sapiens cyclooxygenase-2 (Cox-2) mrna, complete cds. ACCESSION M90100 VERSION M GI: KEYWORDS cyclooxygenase-2; prostaglandin synthase. SOURCE Homo sapiens (human) ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 3387) AUTHORS Hla,T. and Neilson,K. TITLE Human cyclooxygenase-2 cdna JOURNAL Proc. Natl. Acad. Sci. U.S.A. 89 (16), (1992) MEDLINE PUBMED COMMENT Original source text: Homo sapiens umbilical vein cdna to mrna. FEATURES Location/Qualifiers source /organism="homo sapiens" /mol_type="mrna" /db_xref="taxon:9606" /cell_type="endothelial" /tissue_type="umbilical vein" gene /gene="cox-2" 5'UTR /gene="cox-2" Molecular phylogenetics 29
30 Egy GenBank rekord (folytatás) CDS /gene="cox-2" /EC_number=" " /codon_start=1 /product="cyclooxygenase-2" /protein_id="aaa " /db_xref="gi:181254" /translation="mlaralllcavlalshtanpccshpcqnrgvcmsvgfdqykcdc TRTGFYGENCSTPEFLTRIKLFLKPTPNTVHYILTHFKGFWNVVNNIPFLRNAIMSYV... VEVGAPFSLKGLMGNVICSPAYWKPSTFGGEVGFQIINTASIQSLICNNVKGCPFTSF SVPDPELIKTVTINASSSRSGLDDINPTVLLKERSTEL" sig_peptide /gene="cox-2" mat_peptide /gene="cox-2" /product="cyclooxygenase-2" /EC_number=" " 3'UTR /gene="cox-2" polya_signal /gene="cox-2" BASE COUNT 1010 a 712 c 633 g 1032 t ORIGIN 1 gtccaggaac tcctcagcag cgcctccttc agctccacag ccagacgccc tcagacagca 61 aagcctaccc ccgcgccgcg ccctgcccgc cgctgcgatg ctcgcccgcg ccctgctgct tacctgaact tttgcaagtt ttcaggtaaa cctcagctca ggactgctat ttagctcctc 3361 ttaagaagat taaaaaaaaa aaaaaag // Molecular phylogenetics 30
31 EMBL adatbázis fejlődése EMBL Sequence Version Archive Nem csak az adatok, hanem az adatbázis szerkezete is folyamatosan változik elsősorban a feature table új keresztreferenciák más adatbázisokkal Molecular phylogenetics 31
32 Szekvencia-beküldés az adatbankokba EMBL: WEBin ( GenBank: BankIt ( EMBL/GenBank: Sequin (lokálisan futó PC-s program) (ftp://ftp.ebi.ac.uk/pub/software/sequin/) Molecular phylogenetics 32
33 WEBIN Molecular phylogenetics 33
34 Molecular phylogenetics 34
35 Fehérjeszekvencia adatbázisok I. Swiss-Prot Kollaborációban készíti a SIB és az EBI Protein tudásbázis (ExPASy = Expert Protein Analysis System) Legjobban annotált adatbázis (kézi annotáció) Jó keresztreferenciák Non-profit kutatóknak ingyenes EMBL-hez hasonló adatbázis-szerkezet Szekvenciák lassú megjelenése TrEMBL Translated EMBL Automatikusan annotált SP-TrEMBL és REM-TrEMBL Molecular phylogenetics 35
36 Fehérjeszekvencia adatbázisok II. PIR (Protein Identification Resource) PIR-PSD Formátum: NBRF/PIR Kézi annotáció Keresztreferenciák (SWISS-PROT jobb!) Szupercsalád-besorolás 4 szekció: PIR1, PIR2, PIR3, PIR4 (legjobban annotált: PIR1) Megszűnik beolvadt az UniProt adatbázisba Genpept Lefordított GenBank CDS-ek (NCBI) Mint TrEMBL Molecular phylogenetics 36
37 Fehérjeszekvencia adatbázisok III. Universal Protein Resource (UniProt) Az EBI/SIB Swiss-Prot + TrEMBL és a PIR-PSD egyesítésével létrehozott adatbank EBI + SIB + PIR UniProt Consortium (2002) Három adatbázisréteg: UniProt Archive (UniParc) az összes publikus fehérjeszekvencia (nem redundáns) UniProt Knowledgebase (UniProt) megbízhatóan, konzisztensen és gazdagon annotált központi fehérjeszekvencia-adatbázis UniProt Non-redundant Reference (UniRef) kondenzált szekvenciakészlet UniProt tudásbázis: két rész kézzel annotált rekordok: Swiss-Prot (2004 végéig licenszköteles) számítógéppel elemzett rekordok (kézi annotáció előtt): TrEMBL UniRef UniRef100 (=UniProt), UniRef90, UniRef50 Molecular phylogenetics 37
38 Egy UniProt (Swiss-Prot) rekord ID AHA1_HUMAN STANDARD; PRT; 338 AA. AC O95433; Q96IL6; Q9P060; DT 16-OCT-2001 (Rel. 40, Created) DT 16-OCT-2001 (Rel. 40, Last sequence update) DT 15-SEP-2003 (Rel. 42, Last annotation update) DE Activator of 90 kda heat shock protein ATPase homolog 1 (AHA1) (p38) DE (HSPC322). GN AHSA1 OR C14ORF3. OS Homo sapiens (Human). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606; RN [1] RP SEQUENCE FROM N.A. RA Michaud J., Chrast R., Rossier C., Papassavas M.P., Antonarakis S.E., RA Scott H.S.; RT "Isolation of a novel gene underexpressed in Down syndrome."; RL Submitted (JUN-1999) to the EMBL/GenBank/DDBJ databases. DR EMBL; AF111168; AAD ; -. DR EMBL; AJ243310; CAB ; -. DR EMBL; AF164791; AAF ; -. DR EMBL; BC000321; AAH ; -. DR EMBL; BC007398; AAH ; ALT_INIT. DR EMBL; AF161440; AAF ; -. DR PIR; JC7769; JC7769. DR Genew; HGNC:1189; AHSA1. DR InterPro; IPR007821; DUF704. DR Pfam; PF05146; DUF704; 1. FT CONFLICT EA -> CL (IN REF. 4). SQ SEQUENCE 338 AA; MW; E6B686DDD8D7D729 CRC64; MAKWGEGDPR WIVEERADAT NVNNWHWTER DASNWSTDKL KTLFLAVQVQ NEEGKCEVTE VSKLDGEASI NNRKGKLIFF YEWSVKLNWT GTSKSGVQYK GHVEIPNLSD ENSVDEVEIS VSLAKDEPDT NLVALMKEEG VKLLREAMGI YISTLKTEFT QGMILPTMNG ESVDPVGQPA LKTEERKAKP APSKTQARPV GVKIPTCKIT LKETFLTSPE ELYRVFTTQE LVQAFTHAPA TLEADRGGKF HMVDGNVSGE FTDLVPEKHI VMKWRFKSWP EGHFATITLT FIDKNGETEL CMEGRGIPAP EEERTRQGWQ RYYFEGIKQT FGYGARLF // Molecular phylogenetics 38
39 Nem redundáns adatbázisok NCBI NRDB egyesített GenPept, PDB szekvenciák, SWISS-PROT, PIR nem azonos (!) fehérjék (polimorfizmus és szekvenálási hibák miatt redundáns) nr: indexelt BLAST formátumban letölthető OWL ( összetett, nem redundáns fehérje adatbázis egyetlen aminosavban eltérő szekvenciák közül csak 1 marad prioritási sorrend: SWISS-PROT, PIR1-PIR4, GenPept, NRL-3D NCBI UniGene egyedi gének átfedő EST-k klaszterezésével 10 állat: pl. humán, egér, patkány, szarvasmarha, béka, zebrahal 7 növény: pl. rizs, búza, árpa, kukorica TIGR TC (Tentative Consensus) klaszterezett és összefűzött EST-szekvenciák Molecular phylogenetics 39
40 Molecular phylogenetics 40
41 Molecular phylogenetics 41
42 Molecular phylogenetics 42
43 Fehérje-mintázat, -motívum és profil-adatbázisok ADATBÁZIS VERZIÓ REKORDOK Swiss-Prot PRINTS TrEMBL Pfam PROSITE patterns INTERPRO adatbázis dec. PROSITE preprofiles N/A 131 ProDom InterPro Smart TIGRFAMs PIR SuperFamily SUPERFAMILY Molecular phylogenetics 43
44 Az INTERPRO adatbázis generálása Molecular phylogenetics 44
45 PROSITE adatbank Protein családok és domének adatbázisa Biológiailag szignifikáns: Helyek Mintázatok Profilok Ezek alapján lehet eldönteni, hogy egy adott fehérje milyen csoportba tartozik Molecular phylogenetics 45
46 Pfam (Protein families database of alignments and HMMs) Gyűjteménye a: Többszörös illesztéseknek, és a Hidden Markov modelleknek A legtöbb protein domént tartalmazza Pfam-A: Kurátorok által annotált domének Pfam-B: Automatikusan generált domének Fehérjék doménszerkezetének vizsgálata dex.shtml Molecular phylogenetics 46
47 PRINTS adatbázis Protein fingerprint -ek gyűjteménye fingerprint = konzerválódott motívumok csoportja UNIPROT-ból nyerik ki RINTS/ Molecular phylogenetics 47
48 PRODOM protein domén adatbázis Automatikus keresése a homológ doméneknek Módszer: rekurzív PSI-BLAST ent/html/home.php Molecular phylogenetics 48
49 SMART (Simple Modular Architecture Research Tool) Genetikailag mozgó domének vizsgálata Domén felépítés vizsgálata Több mint 500 domén részletes annotációja Molecular phylogenetics 49
50 TIGRFAM Protein családok gyűjteménye Többszörös illesztések Funkcionálisan rokon fehérjék azonosítása ml Molecular phylogenetics 50
51 PIR SuperFamily (PIRSF) Klasszifikációs rendszer A fehérjék teljes aminosav sorrendjének az evolúciós elemzésén alapul A családok tagjai monofiletikusak és homeomorfak Molecular phylogenetics 51
52 SUPERFAMILY Ismert szerkezetű fehérjék Hidden Markov Model profilok A SCOP adatbázisban alkalmazott szerkezeti osztályozáson alapul Molecular phylogenetics 52
53 Evolúciós adatbázisok I., Tree of Life Biológusok közös erőfeszítése egy teljes törzsfa kialakítására Molecular phylogenetics 53
54 Evolúciós adatbázisok I., Treebase Filogenetikai kapcsolatok adatbázisa Adatokat a kutatók küldik be treebase/index.html Molecular phylogenetics 54
55 3-D fehérjetérszerkezeti adatbázisok PDB (Protein Data Bank) Research Collaboratory for Structural Bioinformatics, USA kísérletesen meghatározott szerkezetek (röntgendiffrakció, NMR, MRI) MMDB NCBI: fehérje és nukleinsav; PDB egy része (elméleti modellek nélkül) EBI-MSD (~PDB) SCOP CATH EBI: 3-D szerkezetek hierarchikus osztályozása 4 szint: osztályok, gombolyok, szupercsaládok, családok) Molecular phylogenetics 55
56 Genomi adatbázisok I. NCBI 159 baktérium- és archeon genom (néhány fajból több törzs) 7 gomba, 10 egyéb eukarióta COGs (Clusters of Orthologous Groups) teljes eubaktérium és archeon, valamint élesztő genomok (jelenleg 43 teljes genom, 30 fő filogenetikai vonalból) ortológ gének csoportjai (fehérje-blast alapján) legalább 3 fajban előforduló nagyon hasonló fehérjék COGnitor program felhasználás: funkciópredikció egy adott genomból hiányzó konzervált COG - annotálatlan gén detektálása Molecular phylogenetics 56
57 Molecular phylogenetics 57
58 Molecular phylogenetics 58
59 Molecular phylogenetics 59
60 Genomi adatbázisok II. ENSEMBL (Sanger Institute, EBI) integrált genom annotációs rendszer automatikus genomannotációs csövezeték genom böngésző szabad szoftver (MySQL motor) eredetileg humán annotációra fejlesztették most: humán, (csimpánz), egér, patkány, (tyúk), zebrahal, fugu, moszkító, ecetmuslica, C. elegans, C. briggsae Molecular phylogenetics 60
61 Molecular phylogenetics 61
62 Kontig nézet Molecular phylogenetics 62
63 UCSC genom böngésző ENSEMBL amerikai alternatívája Néha frissebb az annotáció Kevesebb szervezet Új géncsalád böngésző Molecular phylogenetics 63
64 UCSC Genome Browser (példa) Molecular phylogenetics 64
65 Gén-ontológia (GO) The Gene Ontology Consortium bármely élő szervezetben megtalálható géntermék leírására hierarchikus besorolás egységes terminológia 3-féle ontológia: molekuláris funkció biológiai folyamat sejtalkotórész online: pl. Mouse Genome Initiative GO Browser GOA Molecular phylogenetics 65
66 Molecular phylogenetics 66
67 Molecular phylogenetics 67
68 NCBI adatbázisok LocusLink / RefSeq / Entrez Gene LocusLink: kiindulópont egy genetikai lókusz (pl. gén) egyedi azonosító: LocusID kapcsolt információ: pl. fenotípus, térképpozíció, homológ gének RefSeq: egyedi gének (nem redundáns) mrns és fehérje szekvenciák humán, egér, patkány, szarvasmarha, zebrahal, ecetmuslica Taxonomy taxonómiai adatbázis OMIM (Online Mendelian Inheritance in Man) humán gének és genetikai betegségek PubMed (bibliográfiai adatbázis) magában foglalja a MEDLINE adatbázist azonosító: PMID (PubMed identifier), MUID (MEDLINE unique identifier) Molecular phylogenetics 68
69 Keresés az annotációkban I. NCBI Bármilyen adatbázisrekord (Annotáció) szöveges keresés Mező 1 (pl. Locus) Mező 2 (pl. Definition) Stb. (Szekvencia) hasonlóság keresés Mező n (pl. cgagcatgcatctagtagcagcgtactac) Molecular phylogenetics 69
70 Integrált információkeresés I. NCBI Entrez NCBI (National Center of Biotechnology Information, Bethesda, USA) >20 részadatbázis Molecular phylogenetics 70
71 Molecular phylogenetics 71
72 Molecular phylogenetics 72
73 Molecular phylogenetics 73
74 Molecular phylogenetics 74
75 Molecular phylogenetics 75
76 Molecular phylogenetics 76
77 Molecular phylogenetics 77
78 Molecular phylogenetics 78
79 Molecular phylogenetics 79
80 Molecular phylogenetics 80
81 Keresés az annotációkban II. SRS Bármilyen adatbázisrekord (Annotáció) szöveges keresés Mező 1 (pl. Locus) Mező 2 (pl. Definition) Stb. (Szekvencia) hasonlóság keresés Mező n (pl. cgagcatgcatctagtagcagcgtactac) Molecular phylogenetics 81
82 Sequence Retrieval System (SRS) Adatbázis indexelő és kereső rendszer Thure Etzold kezdte el fejleszteni a 90-es évek elején Heidelbergben az EMBL-ben 1996-tól az EBI-ben 1999-től a Lion Biosciences-ben közösen az EBIvel 5.1-es verzió szabad (de a legújabb adatbázisokkal már nehéz használni) 6.0-ás verziótól akadémiai liszenszet lehet kérni 7.0-ás verziótól EMBOSS integrálva van és helyileg: Molecular phylogenetics 82
83 Mire jó az SRS? Keresés mindenfajta adatbázis annotációban Szekvenciák letöltése egy faj, vagy egy adott taxonómiai egységhez tartozó szekvenciák egy adott annotált tulajdonsághoz tartozó szekvenciák (pl. intronok, domének) adott szekvenciákhoz tartozó referenciák keresése legmegfelelőbb adatbázis keresése Molecular phylogenetics 83
84 Segítség az SRS használatához Lehet keresni a dokumentációban (természetesen az is egy adatbázis) Meglehet nézni on-line vagy le lehet tölteni PDF formátumban a teljes dokumentációt Legfontosabb az SRS User Guide SRS-t lehet Linux alá is telepíteni, ilyenkor az SRS Administrators Guide ad segítséget Természetesen minden oldalról van link Molecular phylogenetics 84
85 Mit lehet keresni az SRS segítségével? Az összes adatbázis összes mezőjében bármilyen szöveget ID, Elérési szám (accession number) Definíció Organizmus Szekvenciához kapcsolódó referencia Feature (pl. domén, kötőhely stb.) Molecular phylogenetics 85
86 Hogyan működik az SRS? Az adatbázis felbontása rekordokra és mezőkre ID TRBG361 standard; mrna; PLN; 1859 BP. AC X56734; S46826; SV X DT 12-SEP-1991 (Rel. 29, Created) DT 15-MAR-1999 (Rel. 59, Last updated, Version 9) DE Trifolium repens mrna for noncyanogenic beta-glucosidase KW beta-glucosidase. Molecular phylogenetics 86
87 Adatbázis felbontása rekordokra és mezőkre Molecular phylogenetics 87
88 Indexelés Molecular phylogenetics 88
89 SRS kezdőoldal Molecular phylogenetics 89
90 Keresés a szekvenciákban Bármilyen adatbázisrekord (Annotáció) szöveges keresés Mező 1 (pl. Locus) Mező 2 (pl. Definition) Stb. (Szekvencia) hasonlóság keresés Mező n (pl. cgagcatgcatctagtagcagcgtactac) Molecular phylogenetics 90
91 Hasonlósági keresések adatbázisokban Optimális illesztéssel: nagyon időigényes, csak célhardveren Sokprocesszoros számítógép vagy számítógép-klaszter, párhuzamos processzálás Erre a célra fejlesztett chip Heurisztikus algoritmusok használata Bizonyos elhanyagolásokkal, gyakran tapasztalati úton beállított algoritmusok, paraméterek és statisztika Sok tesztfuttatással igazolt használhatóság Sebességnövekedés bizonyos fokú érzékenységvesztés árán FASTA (W. Pearson fejlesztette) BLAST (az NCBI-nál fejlesztik; S. Altschul), PSI-BLAST Molecular phylogenetics 91
92 FASTA FASTA2 és FASTA3 (Lipman és Pearson, 1985; Pearson és Lipman, 1988; Pearson, 2000) FASTA3 programcsomag (ftp://ftp.virginia.edu/pub/fasta) Rövid (10 nukleotidnyi) keresőszekvenciák is használhatók A keresés időigénye nagyban függ az alkalmazott k-tuple értéktől Molecular phylogenetics 92
93 FASTA algoritmus (1) a kereső ( query ) és az adatbázisszekvencia között közös szavak (ktuple) keresése (2) az azonos átlón található szavak összefűzése és pontozása a helyettesítési mátrix-szal database sequence database sequence query sequence query sequence 10 legjobb szegmens: Init1 score Molecular phylogenetics 93
94 FASTA algoritmus (3) eltérő, de egy bizonyos eltoláson belüli átlók egyesítése és pontozása (helyettesítési mátrix + hézagbüntetések) (4) optimális lokális illesztés egy sávban (S-W alg.) database sequence database sequence query sequence: Initn score query sequence: Opt score Molecular phylogenetics 94
95 A FASTA3 csomag programjai Molecular phylogenetics 95
96 Mikor melyik programot használjuk? Molecular phylogenetics 96
97 FASTA a weben WWW: (EBI) (Institut Pasteur) Molecular phylogenetics 97
98 BLAST BLAST ( a leggyorsabb, helyben is futtatható (pl. blastp Linux PC-n is hamar lefut) gyors, lokális illesztéseket végez szekvenciaillesztésre optimalizált, nem motívumkeresésre statisztikai módszerek alkalmazásával becsüli a találatok szignifikanciáját NCBI-BLAST két verziója: (régi, nem enged hézagokat), (új, hézagokat enged: gapped BLAST ) WU-BLAST 2.0 Warren Gish (Washington University) implementációja (hézagokat enged) Molecular phylogenetics 98
99 BLAST algoritmus (Altschul et al., 1990, 1997) (1) W hosszúságú szavakból szomszédos szó lista generálása L hosszúságú kereső szekvencia Maximum L-W+1 szó (w~3 fehérjékre) Mátrix használata (PAM vagy BLOSUM, stb.) szó-lista T (threshold) pontértékű szavakból (2) Szavak adatbázis: tökéletes egyezések keresése adatbázis-szekvenciák tökéletes egyezések (3) Találatok kiterjesztése és a legjobb lokális illesztés megkeresése: HSP-k S pontértékkel kereső szekv.: adatbázis szekv.: EGDCVFDGMIGSDQGSL E C+ +G G+D GS+ EAGCLQNGQRGTDVGSV X G S D Q G S L R F D G F D V E C D G T D V G S V M D E I P N D F E C Molecular phylogenetics 99
100 BLAST algoritmus és statisztika A keresés lépései: W hosszúságú szavak ( word ) keresése találatok pontozása szubsztitúciós mátrix használatával nagy pontértékű találatok kiválasztása: HSP-k ( High scoring Segment Pairs ) HSP-k kiterjesztése mindkét irányban (szubsztitúciós mátrix használatával), amíg a szekvencia el nem fogy, vagy az egyezés már nem szignifikáns végeredmény: MSP-k ( Maximal scoring Segment Pairs ) Statisztikai szignifikanciabecslés: E érték: hasonló vagy nagyobb pontértékű találat véletlen előfordulásának várható száma; minél kisebb, annál jobb. Molecular phylogenetics 100
101 BLAST programok NCBI BLAST lokális futtatásánál a p opcióval kell megadni, pl.: blastall p blastp Molecular phylogenetics 101
102 NCBI BLAST Paraméterek: W (-W opció): blastn alapértelmezés: 11 (kompromisszum: szinte minden véletlen illeszkedést kizár, de divergált homológokét is) szűrés (-F opció): kis komplexitású régiók N-ekre vagy X-ekre cserélése a keresőszekvenciában; alapértelmezés: igen (T); blastn: DUST, többi: SEG és/vagy XNU; pontosabban is specifikálható (pl. szűrés csak a szó-lista létrehozásánál) opció: nem (F) szubsztitúciós mátrix (-M opció): BLOSUM45, BLOSUM62, BLOSUM80, PAM30, PAM70 E-határérték ( expected score threshold ) (-e opció); alapértelmezés: 10 blastn: egyező (M) és nem egyező (N) nukleotidok pontszámának aránya; alapértelmezés: M = 5, N = -4 ( M/N = 1.25; ~47 nukleotid PAM); minél nagyobb az arány, annál távolabbi szekvenciákat talál meg Molecular phylogenetics 102
103 BLAST programok WWW: NCBI-BLAST: (NCBI) (EBI) WU-BLAST: (EBI) (Institute Pasteur) (és sok más helyen, gyakran speciális adatbázisokkal, pl. fajok szerint) Lokálisan futtatható: blastall FASTA formátumú adatbázis formázása és indexelése: formatdb -i nr -o T BLAST keresés: blastall -p blastp -d nr -i query.fasta o \ out.query Molecular phylogenetics 103
104 Potenciális műtermékek, fals pozitívok Forrásai: Kis komplexitású régiók Repetitív elemek Figyelmeztető találatok (pl. Alu szekvencia) Vektor-szennyezés Megoldás: keresőszekvencia maszkolása, szűrése Kis összetételi komplexitású régiók: BLAST-ba beépítve: seg ill. xnu (aminosav), dust (nukleotid) kis komplexitású régiók, mikroszatellitek maszkolása Mikroszatellitek (SSR): Sputnik ( mikroszatellitek (SSR) azonosítása; Windows, UNIX TRF (Tandem Repeat Finder) mikroszatellitek (SSR) azonosítása; Windows, UNIX Molecular phylogenetics 104
105 Kis komplexitású régiók szűrése SEG (fehérjékre) HILCDEVNEGDEENEDFLPS HILCXXXXXXXXXXXXFLPS DUST (nukleinsavakra) GCTCAAAAAATAAAAACACG GCTCNNNNNNNNNNNNCACG Molecular phylogenetics 105
A tárgy címe: Bioinformatika
A tárgy címe: Bioinformatika Kötelezően választható tárgy IV. és V. évfolyamos biológus hallgatók számára; heti 2+3 óra Előkövetelmény: Biokémia főkollégium; genetika főkollégium; alapszintű számítógépes
RészletesebbenBioinformatika és genomanalízis az orvostudományban. Biológiai adatbázisok. Cserző Miklós 2018
Bioinformatika és genomanalízis az orvostudományban Biológiai adatbázisok Cserző Miklós 2018 A mai előadás Mi az adatbázis A biológia kapcsolata az adatbázisokkal Az adatbázisok típusai Adatbázis formátumok,
RészletesebbenCserző Miklós Bioinformatika és genomanalízis az orvostudományban. Integrált biológiai adatbázisok
Bioinformatika és genomanalízis az orvostudományban Integrált biológiai adatbázisok Cserző Miklós 2018 A mai előadás A genom annotálás jelentősége Genome Reference Consortium Gene Ontology Az ensembl pipeline
RészletesebbenBioinformatika 2 4. előadás
4. előadás Prof. Poppe László BME Szerves Kémia és Technológia Tsz. Bioinformatika proteomika Előadás és gyakorlat 2018.09.24. Biológiai adatbázisok Felhasználó Keresõprogram BLAST Biológiai adatbázisok
RészletesebbenJuhász Angéla MTA ATK MI Alkalmazott Genomikai Osztály SZEKVENCIA ADATBÁZISOK
Juhász Angéla MTA ATK MI Alkalmazott Genomikai Osztály SZEKVENCIA ADATBÁZISOK Fehérjét kódol? Tulajdonságai? -Hol lokalizálódik? -Oldható? -3D szerkezete? -Accession #? -Annotációja elérhető? Már benne
RészletesebbenGerinces és növényi ortológ promóter adatbázisok fejlesztése és elemzése. Eötvös Loránd Tudományegyetem Természettudományi Kar Biológia Doktori Iskola
Doktori értekezés tézisei Gerinces és növényi ortológ promóter adatbázisok fejlesztése és elemzése Sebestyén Endre Eötvös Loránd Tudományegyetem Természettudományi Kar Biológia Doktori Iskola Vezetője:
RészletesebbenADATBÁZIS-KEZELÉS - BEVEZETŐ - Tarcsi Ádám, ade@inf.elte.hu
ADATBÁZIS-KEZELÉS - BEVEZETŐ - Tarcsi Ádám, ade@inf.elte.hu Számonkérés 2 Papíros (90 perces) zh az utolsó gyakorlaton. Segédanyag nem használható Tematika 1. félév 3 Óra Dátum Gyakorlat 1. 2010.09.28.
RészletesebbenNÖVÉNYI GENOMIKA JÓRI BALÁZS
NÖVÉNYI GENOMIKA JÓRI BALÁZS Eötvös Loránd Tudományegyetem, Növényélettani és Molekuláris Növénybiológia Tanszék, 1117 Budapest, Pázmány P. sétány 1/c. Elfogadva: 2004. december 29. Bot. Közlem. 91(1 2):
RészletesebbenGyakorlati bioinformatika
Gyakorlati bioinformatika Szekvenciaillesztés PhD kurzus 2. Szekvenciaillesztés Bagossi Péter Fajtái: - egyszer ill. többszörös illesztés - globális ill. lokális illesztés Alkalmazása: - adatbázisokban
RészletesebbenBevezetés a bioinformatikába
Bevezetésabioinformatikába 2009 2010őszifélév,biológiaBSC,levelezőképzés BálintBalázs (balintb@brc.hu) http://biotech.szbk.u szeged.hu/ Információakurzusról I.elméletialapok(azévvégivizsgaanyaga) II.azelméletirészheztartozógyakorlatimunka(nemszámonkért)
RészletesebbenAdatbázis, adatbázis-kezelő
Adatbázisok I. rész Adatbázis, adatbázis-kezelő Adatbázis: Nagy adathalmaz Közvetlenül elérhető háttértárolón (pl. merevlemez) Jól szervezett Osztott Adatbázis-kezelő szoftver hozzáadás, lekérdezés, módosítás,
RészletesebbenA bakteriális kommunikáció és kooperáció génjeinek elhelyezkedése ismert genomokban.
A bakteriális kommunikáció és kooperáció génjeinek elhelyezkedése ismert genomokban. Az AHL szabályzórendszer génjei. Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai Kar Multidiszciplináris
RészletesebbenSQLServer. SQLServer konfigurációk
SQLServer 2. téma DBMS installáció SQLServer konfigurációk 1 SQLServer konfigurációk SQLServer konfigurációk Enterprise Edition Standart Edition Workgroup Edition Developer Edition Express Edition 2 Enterprise
RészletesebbenAdatbázis-lekérdezés. Az SQL nyelv. Makány György
Adatbázis-lekérdezés Az SQL nyelv Makány György SQL (Structured Query Language=struktúrált lekérdező nyelv): relációs adatbázisok adatainak visszakeresésére, frissítésére, kezelésére szolgáló nyelv. Születési
RészletesebbenHuman genome project
Human genome project Pataki Bálint Ármin 2017.03.14. Pataki Bálint Ármin Human genome project 2017.03.14. 1 / 14 Agenda 1 Biológiai bevezető 2 A human genome project lefolyása 3 Alkalmazások, kitekintés
RészletesebbenBioinformatics: Blending. Biology and Computer Science
Bioinformatics: Blending Biology and Computer Science MDNMSITNTPTSNDACLSIVHSLMCHRQ GGESETFAKRAIESLVKKLKEKKDELDSL ITAITTNGAHPSKCVTIQRTLDGRLQVAG RKGFPHVIYARLWRWPDLHKNELKHVK YCQYAFDLKCDSVCVNPYHYERVVSPGI DLSGLTLQSNAPSSMMVKDEYVHDFEG
RészletesebbenMS ACCESS 2010 ADATBÁZIS-KEZELÉS ELMÉLET SZE INFORMATIKAI KÉPZÉS 1
SZE INFORMATIKAI KÉPZÉS 1 ADATBÁZIS-KEZELÉS MS ACCESS 2010 A feladat megoldása során a Microsoft Office Access 2010 használata a javasolt. Ebben a feladatban a következőket fogjuk gyakorolni: Adatok importálása
RészletesebbenBakteriális identifikáció 16S rrns gén szekvencia alapján
Bakteriális identifikáció 16S rrns gén szekvencia alapján MOHR ANITA SIPOS RITA, SZÁNTÓ-EGÉSZ RÉKA, MICSINAI ADRIENN 2100 Gödöllő, Szent-Györgyi Albert út 4. info@biomi.hu, www.biomi.hu TÖRZS AZONOSÍTÁS
RészletesebbenA MOLEKULÁRIS BIOLÓGIA ISMERETÁBRÁZOLÁSI PROBLÉMÁI
Magyar Tudomány 2005/4 A MOLEKULÁRIS BIOLÓGIA ISMERETÁBRÁZOLÁSI PROBLÉMÁI Pongor Sándor a biológiai tudomány doktora, MTA Biológiai Központ, Szeged International Centre of Genetic Engineering and Biotechnology,
RészletesebbenMŰSZAKI KÖVETELMÉNYEK, A KÖRKERESŐ SZOFTVER SPECIFIKÁCIÓJA, KÖLTSÉGVETÉS. A) Műszaki követelmények
1. sz. melléklet MŰSZAKI KÖVETELMÉNYEK, A KÖRKERESŐ SZOFTVER SPECIFIKÁCIÓJA, KÖLTSÉGVETÉS A) Műszaki követelmények A körkereső szoftvernek (a továbbiakban Szoftver) az alábbi követelményeknek kell megfelelnie
RészletesebbenAdatbázis-kezelés. Harmadik előadás
Adatbázis-kezelés Harmadik előadás 39 Műveletek csoportosítása DDL adat definiálás Objektum létrehozás CREATE Objektum törlés DROP Objektum módosítás ALTER DML adat módosítás Rekord felvitel INSERT Rekord
RészletesebbenBioinformatika 2 2. előadás
2. előadás Prof. Poppe László BME Szerves Kémia és Technológia Tsz. Bioinformatika proteomika Előadás és gyakorlat 2018.09.10. N.M. Luscombe, D. Greenbaum, M. Gerstein: International Medical Informatics
RészletesebbenDNS-szekvencia meghatározás
DNS-szekvencia meghatározás Gilbert 1980 (1958) Sanger 3-1 A DNS-polimerázok jellemzői 5'-3' polimeráz aktivitás 5'-3' exonukleáz 3'-5' exonukleáz aktivitás Az új szál szintéziséhez kell: templát DNS primer
Részletesebben8. Gyakorlat SQL. DDL (Data Definition Language) adatdefiníciós nyelv utasításai:
8. Gyakorlat SQL SQL: Structured Query Language; a relációs adatbáziskezelők szabványos, strukturált lekérdező nyelve SQL szabványok: SQL86, SQL89, SQL92, SQL99, SQL3 Az SQL utasításokat mindig pontosvessző
RészletesebbenSemmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Szekvenciaelemzés. Cserző Miklós 2017
Bioinformatika és genomanalízis az orvostudományban Szekvenciaelemzés Cserző Miklós 2017 A mai előadás Szekvencia analízis statisztikus szempontból Annotálás homológia alapján Az annotálás szempontjai
RészletesebbenBGF. 4. Mi tartozik az adatmodellek szerkezeti elemei
1. Mi az elsődleges következménye a gyenge logikai redundanciának? inkonzisztencia veszélye felesleges tárfoglalás feltételes függés 2. Az olyan tulajdonság az egyeden belül, amelynek bármely előfordulása
RészletesebbenAdatbázisok* tulajdonságai
Gazdasági folyamatok térbeli elemzése 4. előadás 2010. 10. 05. Adatbázisok* tulajdonságai Rendezett, logikailag összefüggő és meghatározott szempont szerint tárolt adatok és/vagy információk halmaza Az
RészletesebbenNyíregyházi Egyetem Matematika és Informatika Intézete. Fájl rendszer
1 Fájl rendszer Terminológia Fájl és könyvtár (mappa) koncepció Elérési módok Fájlattribútumok Fájlműveletek, fájlszerkezetek ----------------------------------------- Könyvtár szerkezet -----------------------------------------
RészletesebbenESZTERHÁZY KÁROLY FŐISKOLA, EGER. Beszámoló könyvtári szakmai gyakorlatról
ESZTERHÁZY KÁROLY FŐISKOLA, EGER Beszámoló könyvtári szakmai gyakorlatról Digitálisarchívum-fejlesztő szak Humán Informatika Tanszék Média Informatika Intézet Zádori Zsuzsanna Netpun kód: U5AT4N A szakmai
RészletesebbenInformatikai alapismeretek Földtudományi BSC számára
Informatikai alapismeretek Földtudományi BSC számára 2010-2011 Őszi félév Heizlerné Bakonyi Viktória HBV@ludens.elte.hu Titkosítás,hitelesítés Szimmetrikus DES 56 bites kulcs (kb. 1000 év) felcserél, helyettesít
RészletesebbenBiomassza alapú bioalkohol előállítási technológia fejlesztése metagenomikai eljárással
Biomassza alapú bioalkohol előállítási technológia fejlesztése metagenomikai eljárással Kovács Zoltán ügyvezető DEKUT Debreceni Kutatásfejlesztési Közhasznú Nonprofit Kft. Problémadefiníció Első generációs
RészletesebbenAdatmodellezés. 1. Fogalmi modell
Adatmodellezés MODELL: a bonyolult (és időben változó) valóság leegyszerűsített mása, egy adott vizsgálat céljából. A modellben többnyire a vizsgálat szempontjából releváns jellemzőket (tulajdonságokat)
RészletesebbenAdatbáziskezelı-szerver SQL. Relációs adatbázis-kezelık. Relációs adatszerkezet. Házi feladat 2012.03.05.
1 2 Adatbáziskezelı-szerver Általában dedikált szerver Optimalizált háttértár konfiguráció Csak OS + adatbázis-kezelő szoftver Teljes memória az adatbázisoké Fő funkciók: Adatok rendezett tárolása a háttértárolón
RészletesebbenAdatbázisok. 8. gyakorlat. SQL: CREATE TABLE, aktualizálás (INSERT, UPDATE, DELETE), SELECT október október 26. Adatbázisok 1 / 17
Adatbázisok 8. gyakorlat SQL: CREATE TABLE, aktualizálás (INSERT, UPDATE, DELETE), SELECT 2015. október 26. 2015. október 26. Adatbázisok 1 / 17 SQL nyelv Structured Query Language Struktúrált lekérdez
RészletesebbenA fehérjék térszerkezetének jóslása
A fehérjék térszerkezetének jóslása 1. A probléma bonyolultsága 2. A predikció szintjei 3. 1D predikciók (másodlagos szerkezet, hozzáférhetõség, transzmembrán hélixek 4. 2D predikciók (oldallánc kontaktusok,
RészletesebbenWeb harvesztelés. Automatikus módszerekkel
Országos Széchényi Könyvtár Miről lesz szó? Mi is az a web harvesztelés? Mire és hol használjuk? Miért hasznos? Saját megvalósításaink Mi a web harvesztelés? Interneten található weboldalak begyűjtése,
RészletesebbenBIOINFORMATIKA Ungvári Ildikó
1 BIOINFORMATIKA Ungvári Ildikó Az elmúlt évtizedekben a molekuláris biológiai, genomikai technológiák robbanásszerű fejlődése a biológiai adatok mennyiségének exponenciális növekedéséhez vezetett. Ebben
RészletesebbenGenomadatbázisok Ld. Entrez Genome: Összes ismert genom, hierarchikus szervezésben (kromoszóma, térképek, gének, stb.)
Genomika Új korszak, paradigmaváltás, forradalom: a teljes genomok ismeretében a biológia adatokban gazdag tudománnyá válik. Új kutatási módszerek, új szemlélet. Hajtóerõk: Genomszekvenálási projektek
RészletesebbenMolekuláris evolúció második gyakorlat
Molekuláris evolúció második gyakorlat Szekvenciák illesztése (alignment készítés) Szekvenciák szerkesztése Programok: ClustalX (http://evolution.genetics.washington.edu/phylip/software.html) GeneDoc (http://www.psc.edu/biomed/genedoc/)
RészletesebbenAdatbázis rendszerek 7. előadás State of the art
Adatbázis rendszerek 7. előadás State of the art Molnár Bence Szerkesztette: Koppányi Zoltán Osztott adatbázisok Osztott rendszerek Mi is ez? Mi teszi lehetővé? Nagy sebességű hálózat Egyre olcsóbb, és
RészletesebbenTartalomjegyzék. Tartalomjegyzék 1. Az SQL nyelv 1 Az SQL DDL alapjai 2
Tartalomjegyzék Tartalomjegyzék 1 Az SQL nyelv 1 Az SQL DDL alapjai 2 Adatbázis parancsok 2 Táblaparancsok 2 A táblázat létrehozása 2 A táblázat módosítása 3 A tábla törlése 3 Indextábla létrehozása 3
RészletesebbenB I T M A N B I v: T 2015.03.01 M A N
Adatbázis Rendszerek MSc 2. Gy: MySQL Táblák, adatok B I v: T 2015.03.01 M A N 1/41 Témakörök SQL alapok DDL utasítások DML utasítások DQL utasítások DCL utasítások 2/41 Az SQL jellemzése Az SQL a relációs
RészletesebbenBevezetés a bioinformatikába. Harangi János DE, TEK, TTK Biokémiai Tanszék
Bevezetés a bioinformatikába Harangi János DE, TEK, TTK Biokémiai Tanszék Bioinformatika Interdiszciplináris tudomány, amely magába foglalja a biológiai adatok gyűjtésének,feldolgozásának, tárolásának,
RészletesebbenGenetikai panel kialakítása a hazai tejhasznú szarvasmarha állományok hasznos élettartamának növelésére
Genetikai panel kialakítása a hazai tejhasznú szarvasmarha állományok hasznos élettartamának növelésére Dr. Czeglédi Levente Dr. Béri Béla Kutatás-fejlesztés támogatása a megújuló energiaforrások és agrár
RészletesebbenMultimédiás adatbázisok
Multimédiás adatbázisok Multimédiás adatbázis kezelő Olyan adatbázis kezelő, mely támogatja multimédiás adatok (dokumentum, kép, hang, videó) tárolását, módosítását és visszakeresését Minimális elvárás
RészletesebbenManuscript Title: Identification of a thermostable fungal lytic polysaccharide monooxygenase and
1 2 3 4 5 Journal name: Applied Microbiology and Biotechnology Manuscript Title: Identification of a thermostable fungal lytic polysaccharide monooxygenase and evaluation of its effect on lignocellulosic
RészletesebbenPHP-MySQL. Adatbázisok gyakorlat
PHP-MySQL Adatbázisok gyakorlat Weboldalak és adatbázisok Az eddigiek során megismertük, hogyan lehet a PHP segítségével dinamikus weblapokat készíteni. A dinamikus weboldalak az esetek többségében valamilyen
RészletesebbenCélkitűzések Az Oracle10 g felépítésének, használatának alapszíntű megismerése
BEVEZETÉS Célkitűzések Az Oracle10g felépítésének, használatának alapszíntű megismerése A relációs adatbázis-kezelés elméleti és gyakorlati vonatkozásainak áttekintése Az SQL, PL/SQL nyelvek használatának
RészletesebbenAdatbáziskezelő-szerver. Relációs adatbázis-kezelők SQL. Házi feladat. Relációs adatszerkezet
1 2 Adatbáziskezelő-szerver Általában dedikált szerver Optimalizált háttértár konfiguráció Csak OS + adatbázis-kezelő szoftver Teljes memória az adatbázisoké Fő funkciók: Adatok rendezett tárolása a háttértárolón
RészletesebbenSzekvencia összehasonlítások II. Bioinformatika és genom analízis az orvostudományban (AOGENBIG_1M)
Szekvencia összehasonlítások II. Bioinformatika és genom analízis az orvostudományban (AOGENBIG_1M) Miklós István SOTE, 21. október 28. DNS-szekvenciák összeszerelése Ún. shot-gun szekvenálással lehet
RészletesebbenBioinformatika előadás
Bioinformatika 2 11. előadás Prof. Poppe László BME Szerves Kémia és Technológia Tsz. Bioinformatika proteomika Előadás és gyakorlat 2016.11.28. Bioinformatics Szerkezeti genomika, proteomika, biológia
RészletesebbenKözoktatási Statisztika Tájékoztató 2012/2013. Használati útmutató
Közoktatási Statisztika Tájékoztató 2012/2013 Tartalomjegyzék 1. Technikai információk... 2 2. Publikus felület... 2 2.1 Bejelentkezés... 2 2.2 Összesítés... 3 2.2.1 Statisztikai tábla megtekintése...
RészletesebbenA WEBOPAC (online elektronikus katalógus) használata. 1. Keresés az adatbázisban (összetett):
A WEBOPAC (online elektronikus katalógus) használata A Corvina Integrált Könyvtári Rendszer webpac rendszere alkalmas arra, hogy a távoli felhasználók is tájékozódjanak az adott könyvtár adatbázisában.
RészletesebbenProteomika alapfogalmak, módszerek, példák a proteomika alkalmazására
Proteomika alapfogalmak, módszerek, példák a proteomika alkalmazására Alapfogalmak és omikák : Genomika Teljes humán genom szekvenciájának meghatározása: 2001. február Genom: Winkler, 1920; GENes and chromosomes
RészletesebbenA HUMÁN GENOM PROJEKT Sasvári-Székely Mária* Semmelweis Egyetem, Orvosi Vegytani, Molekuláris Biológiai és Pathobiokémiai Intézet
A HUMÁN GENOM PROJEKT Sasvári-Székely Mária* Semmelweis Egyetem, Orvosi Vegytani, Molekuláris Biológiai és Pathobiokémiai Intézet *Levelezési cím: Dr. Sasvári-Székely Mária, Semmelweis Egyetem, Orvosi
Részletesebben8. A fehérjék térszerkezetének jóslása
8. A fehérjék térszerkezetének jóslása A probléma bonyolultsága Általánosságban: találjuk meg egy tetszõleges szekvencia azon konformációját, amely a szabadentalpia globális minimumát adja. Egyszerû modellekben
RészletesebbenAdatbázis-kezelés ODBC driverrel
ADATBÁZIS-KEZELÉS ODBC DRIVERREL... 1 ODBC: OPEN DATABASE CONNECTIVITY (NYÍLT ADATBÁZIS KAPCSOLÁS)... 1 AZ ODBC FELÉPÍTÉSE... 2 ADATBÁZIS REGISZTRÁCIÓ... 2 PROJEKT LÉTREHOZÁSA... 3 A GENERÁLT PROJEKT FELÉPÍTÉSE...
RészletesebbenAB1 ZH mintafeladatok. 6. Minősítse az állításokat! I-igaz, H-hamis
AB1 ZH mintafeladatok 1. Töltse ki, és egészítse ki! Matematikai formalizmus arra, hogy hogyan építhetünk új relációkat a régi relációkból. Az adatoknak egy jól strukturált halmaza, amelyből információ
Részletesebben<Insert Picture Here> Migráció MS Access-ről Oracle Application Express-re
Migráció MS Access-ről Oracle Application Express-re Sárecz Lajos Oracle Hungary Izsák Tamás Független szakértő Program Miért migráljunk Microsoft Access-ről? Mi az az Oracle Application
RészletesebbenSzolgáltatási csomagok I-SZERVIZ Kft. érvényes 2008. szeptember 1-től
Szolgáltatási csomagok I-SZERVIZ Kft. érvényes 2008. szeptember 1-től HomeWeb csomagok Ha Ön szeretné családjával megosztani fotóit, vagy valamilyen családi eseményt szeretne egyszerű weboldalon megmutatni
RészletesebbenAdatbázis Rendszerek I. 10. SQL alapok (DML esettanulmány)
Adatbázis Rendszerek I. 10. SQL alapok (DML esettanulmány) 23/1 B IT v: 2018.10.31 MAN DML adatokon műveletet végző utasítások DML Data Manipulation Language Rekordok (sorok) beszúrása (felvitele) Mezők
Részletesebben1. oldal, összesen: 29 oldal
1. oldal, összesen: 29 oldal Bevezetõ AXEL PRO Nyomtatványkitöltõ Program Az AXEL PRO Nyomtatványkitöltõ egy olyan innovatív, professzionális nyomtatványkitöltõ és dokumentum-szerkesztõ program, mellyel
RészletesebbenXML alapú adatbázis-kezelés. (Katona Endre diái alapján)
XML alapú adatbázis-kezelés Adatstruktúrák: Digitális kép, hang: teljesen strukturálatlan A web (linkek): részben strukturált Relációs: teljesen strukturált Motiváció: (Katona Endre diái alapján) Ismeretlen
RészletesebbenAdatbázis kezelés Delphiben. SQL lekérdezések
Adatbázis kezelés Delphiben. SQL lekérdezések Structured Query Language adatbázisok kezelésére szolgáló lekérdező nyelv Szabályok: Utasítások tetszés szerint tördelhetők Utasítások végét pontosvessző zárja
RészletesebbenA szürke háttérrel jelölt fejezet/alfejezet szövege a CD-mellékleten található. A CD-melléklet használata. 1. Elméleti áttekintés 1
A szürke háttérrel jelölt fejezet/alfejezet szövege a CD-mellékleten található meg. A CD-melléklet használata Bevezetés xi xiii 1. Elméleti áttekintés 1 1.1. Adatmodellezés 3 1.2. Táblák, oszlopok és sorok
RészletesebbenMicrosoft SQL Server telepítése
Microsoft SQL Server telepítése Az SQL Server a Microsoft adatbázis kiszolgáló megoldása Windows operációs rendszerekre. Az SQL Server 1.0 verziója 1989-ben jelent meg, amelyet tizenegy további verzió
RészletesebbenBEVEZETÉS Az objektum fogalma
BEVEZETÉS Az objektum fogalma Program (1) Adat (2) Objektum Kiadványszerkesztés Word Táblázatkezelés Excel CAD AutoCad Adatbáziskezelés Access 1 Program (1) Adat (2) Objektum Adatmodell (2) A valós világ
RészletesebbenAdatbányászat és Perszonalizáció architektúra
Adatbányászat és Perszonalizáció architektúra Oracle9i Teljes e-üzleti intelligencia infrastruktúra Oracle9i Database Integrált üzleti intelligencia szerver Data Warehouse ETL OLAP Data Mining M e t a
RészletesebbenModul 3B: 1. rész Az ingyenes, világméretű adatbázisának használata
Modul 3B: 1. rész Az esp@cenet ingyenes, világméretű adatbázisának használata Gyors és könnyű szabadalomkutatás ESZH 1 Tematika Mi is az esp@cenet? Az adatbázis főbb funkciói Szabadalomcsaládok Az adatbázis
RészletesebbenHuman Genome Project, 1990-2005 5 évvel a tervezett befezés előtt The race is over, victory for Craig Venter. The genome is mapped* - now what?
2000 június 26 Új út kezdete, vagy egy út vége? Human Genome Project, 1990-2005 5 évvel a tervezett befezés előtt The race is over, victory for Craig Venter. The genome is mapped* - now what? 2000 június
RészletesebbenWebapp (in)security. Gyakori hibákról és azok kivédéséről fejlesztőknek és üzemeltetőknek egyaránt. Veres-Szentkirályi András
Webapp (in)security Gyakori hibákról és azok kivédéséről fejlesztőknek és üzemeltetőknek egyaránt Veres-Szentkirályi András Rövid áttekintés Webalkalmazások fejlesztése során elkövetett leggyakoribb hibák
RészletesebbenCLUSTALW Multiple Sequence Alignment
Version 3.2 CLUSTALW Multiple Sequence Alignment Selected Sequences) FETA_GORGO FETA_HORSE FETA_HUMAN FETA_MOUSE FETA_PANTR FETA_RAT Import Alignments) Return Help Report Bugs Fasta label *) Workbench
RészletesebbenSummer of LabVIEW The Sunny Side of System Design
Summer of LabVIEW The Sunny Side of System Design 30th June - 18th July 1 Adatbázis kapcsolatok, adattárolás és a LabVIEW Ványi Zoltán Hungary Kft. Agenda az előadás tematikája Bevezető - bemutatkozás
RészletesebbenAz indexelés újdonságai Oracle Database 12c R1 és 12c R2
Az indexelés újdonságai Oracle Database 12c R1 és 12c R2 Szabó Rozalinda Oracle adattárház szakértő, oktató szabo.rozalinda@gmail.com Index tömörítés fejlődése 8.1.3-as verziótól: Basic (Prefixes) index
RészletesebbenA relációs adatbáziskezelés szabványos nyelve Két fő csoportba sorolhatók az utasításai
8. gyakorlat Structured Query Language Struktúrált lekérdező nyelv A relációs adatbáziskezelés szabványos nyelve Két fő csoportba sorolhatók az utasításai DDL (Data Definition Language) adatstruktúra definiáló
RészletesebbenMySQL kontra MongoDB programozás. SQL és NoSQL megközelítés egy konkrét példán keresztül
MySQL kontra MongoDB programozás SQL és NoSQL megközelítés egy konkrét példán keresztül Kardos Sándor sandor@component.hu Miről lesz szó? Miért érdemes őket összehasonlítani? MySQL általános jellemzői
RészletesebbenSQL ALAPOK. Bevezetés A MYSQL szintaxisa Táblák, adatok kezelésének alapjai
SQL ALAPOK Bevezetés A MYSQL szintaxisa Táblák, adatok kezelésének alapjai BEVEZETÉS SQL: Structured Query Language Strukturált Lekérdező Nyelv Szabvány határozza meg, azonban számos nyelvjárása létezik
RészletesebbenAz SQL*Plus használata
Az SQL*Plus használata Célkitűzés Bejelentkezés az SQL*Plus-ba SQL utasítások szerkesztése Az eredmény formázása SQL*Plus utasításokkal Szkriptfájlok használata Az SQL és az SQL*Plus kapcsolata SQL*Plus
Részletesebben(11) Lajstromszám: E 008 370 (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA
!HU000008370T2! (19) HU (11) Lajstromszám: E 008 370 (13) T2 MAGYAR KÖZTÁRSASÁG Szellemi Tulajdon Nemzeti Hivatala EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA (21) Magyar ügyszám: E 06 750224 (22) A bejelentés
RészletesebbenProgramozási technikák Pál László. Sapientia EMTE, Csíkszereda, 2009/2010
Programozási technikák Pál László Sapientia EMTE, Csíkszereda, 2009/2010 12. ELŐADÁS Adatbázis-kezelés Delphiben 2 Adatmegjelenítés lekérdezés segítségével A táblákhoz hasonlóan a lekérdezések is az adatbázis
RészletesebbenWeb-fejlesztés NGM_IN002_1
Web-fejlesztés NGM_IN002_1 Szindikálás, aggregálás - RSS, Atom Tartalom betáplálás Gyakran frissül! webszájtok Új felhasználói igények el!fizetési igény az új tartalomra a tartalom újrafelhasználása eltér!
Részletesebbenmintasepcifikus mikrokapilláris elektroforézis Lab-on-Chip elektroforézis / elektrokinetikus elven DNS, RNS, mirns 12, fehérje 10, sejtes minta 6
Agilent 2100 Bioanalyzer mikrokapilláris gélelektroforézis rendszer G2943CA 2100 Bioanalyzer system forgalmazó: Kromat Kft. 1112 Budapest Péterhegyi u. 98. t:36 (1) 248-2110 www.kromat.hu bio@kromat.hu
Részletesebben5. Másodlagos adatbázisok
5. Másodlagos adatbázisok 1. Alapfogalmak 2. Reguláris kifejezések, "aláírások" (PROSITE) 3. "Ujjlenyomatok" (PRINTS) 4. "Blokkok" (BLOCKS) 5. "Profilok": Prosite, Pfam 6. "Fuzzy" reguláris kifejezések:
RészletesebbenA gyakorlat során MySQL adatbázis szerver és a böngészőben futó phpmyadmin használata javasolt. A gyakorlat során a következőket fogjuk gyakorolni:
1 Adatbázis kezelés 3. gyakorlat A gyakorlat során MySQL adatbázis szerver és a böngészőben futó phpmyadmin használata javasolt. A gyakorlat során a következőket fogjuk gyakorolni: Tábla kapcsolatok létrehozása,
Részletesebben2011. január április 10. IPK Gatersleben (Németország) május 17. Kruppa Klaudia
2011. január 10. 2011. április 10. IPK Gatersleben (Németország) Gatersleben (G-life) Country State District Town Administration Germany Saxony-Anhalt Salzlandkreis Seeland Basic statistics Area 16.00
RészletesebbenLOGalyze Telepítési és Frissítési Dokumentáció Verzió 3.0
LOGalyze Telepítési és Frissítési Dokumentáció Verzió 3.0 Dokumentum verzió: 3.0/1 Utolsó módosítás: 2009. március 5. 2 LOGalyze Telepítési és Frissítési Dokumentáció LOGalyze 3.0 Telepítési és Frissítési
RészletesebbenSZOFTVEREK A SORBANÁLLÁSI ELMÉLET OKTATÁSÁBAN
SZOFTVEREK A SORBANÁLLÁSI ELMÉLET OKTATÁSÁBAN Almási Béla, almasi@math.klte.hu Sztrik János, jsztrik@math.klte.hu KLTE Matematikai és Informatikai Intézet Abstract This paper gives a short review on software
RészletesebbenAdatbázisok-1 előadás Előadó: dr. Hajas Csilla
Adatbázisok-1 előadás Előadó: dr. Hajas Csilla Áttekintés az I.zh-ig Áttekintés az 1ZH-ig // Adatbázisok-1 elıadás // Ullman (Stanford) tananyaga alapján // Hajas Csilla (ELTE IK) 1 Hol tartunk? Mit tanultunk
RészletesebbenLOGISZTIKAI ADATBÁZIS RENDSZEREK BEVEZETÉS
LOGISZTIKAI ADATBÁZIS RENDSZEREK BEVEZETÉS Lénárt Balázs tanársegéd TANTERV, SZOFTVER, IRODALOM Hét Dátum Előadó Előadások Időpont: szerda 8:30-10:00, helye: LFSZÁMG Dátum Gyakvezető 1. 9. 11. Tokodi Adatbázis
RészletesebbenBEVEZETÉS AZ INTERNET ÉS A WORLD WIDE WEB VILÁGÁBA. Kvaszingerné Prantner Csilla, EKF
BEVEZETÉS AZ INTERNET ÉS A WORLD WIDE WEB VILÁGÁBA Kvaszingerné Prantner Csilla, EKF Az Internet 2 A hálózatok összekapcsolt, hálózatba szervezett rendszere, amely behálózza a világot. Részévé vált életünknek.
RészletesebbenHasználati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban
Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban Nagy Attila Mátyás 2016.12.07. Áttekintés Bevezetés Megközelítés Pilot tanulmányok
RészletesebbenNem kódoló RNS-ekből potenciálisan keletkező de novo fehérjék azonosítása és elemzése DIPLOMAMUNKA
Nem kódoló RNS-ekből potenciálisan keletkező de novo fehérjék azonosítása és elemzése DIPLOMAMUNKA Készítette: Kiss-Tóth Annamária Infobionika MSc Témavezető: dr. Gáspári Zoltán Pázmány Péter Katolikus
Részletesebben2 Access 2016 zsebkönyv
2 Access 2016 zsebkönyv BBS-INFO Kiadó, 2016. 4 Access 2016 zsebkönyv Bártfai Barnabás, 2016. Minden jog fenntartva! A könyv vagy annak oldalainak másolása, sokszorosítása csak a szerző írásbeli hozzájárulásával
RészletesebbenKÖNYVTÁRI KATALÓGUS HASZNÁLATI ÚTMUTATÓ
KÖNYVTÁRI KATALÓGUS HASZNÁLATI ÚTMUTATÓ Mi az OPAC? Az OPAC az Online Public Access Catalogue rövidítése. Jelentése olyan számítógépes katalógus, mely nyilvános, bárki számára közvetlenül, általában ingyen
RészletesebbenAdatbázis Rendszerek II. 5. PLSQL Csomagok 16/1B IT MAN
Adatbázis Rendszerek II. 5. PLSQL Csomagok 16/1B IT MAN B IT v: 2016.03.03 MAN Csomagok A DBMS csomagok a PL/SQL alkalmazások fejlesztését segítik, bennük tároljuk a létrehozott programok kódjait. A specifikációs
RészletesebbenFejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)
Networkshop, 2008 Márc. 17 19., Dunaújváros Holl Erdődi: Fejlett kereső... 1 Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS) Holl András Erdődi Péter MTA Konkoly Thege Miklós
RészletesebbenSelling Platform Telepítési útmutató Gyakori hibák és megoldások
Selling Platform Telepítési útmutató Gyakori hibák és megoldások 265ced1609a17cf1a5979880a2ad364653895ae8 Index _ Amadeus szoftvertelepítő 3 _ Rendszerkövetelmények 3 Támogatott operációs rendszerek 3
RészletesebbenEllenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t
Ellenőrző kérdések 2. Kis dolgozat kérdései 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t 37. Ha t szintű indexet használunk,
RészletesebbenELTE, IK, Információs Rendszerek Tanszék
ELTE, IK, Információs Rendszerek Tanszék (Készült Ács Zoltán diái alapján) Hálózati forgalom elemzés Különböző célok miatt szükség lehet a hálózati forgalom megfigyelésére egy adott alhálózaton: szoftverek
RészletesebbenAz adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata:
ADATSZERVEZÉS Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata: fájlrendszerek (a konvencionális módszer) és adatbázis rendszerek (a haladóbb
Részletesebben