SEQUENCIAMENTO E BANCO DE DADOS BIOLÓGICOS. Gabriel Dequigiovanni Departamento de Genética

Hasonló dokumentumok
Escalas métricas em metal RL

Bioinformatics: Blending. Biology and Computer Science

Human genome project

ÚJ GENERÁCIÓS SZEKVENÁLÁS

Rack Station RS409, RS409+, RS409RP+ Guia de Instalação Rápida

CABO VERDE ILHA DO SAL

Juhász Angéla MTA ATK MI Alkalmazott Genomikai Osztály SZEKVENCIA ADATBÁZISOK

MASSEY FERGUSON MASSEY FERGUSON TABELA 2019 MODELOS ATUAIS OUTROS MODELOS / 40 / MODELO DE PALA te7 te8 te9 te10 te20 te30 te40.

Utazás Általános. Általános - Alapvető, létfontosságú dolgok. Általános - Beszélgetés. Segítségkérés

Instruções de segurança importantes Antes de utilizar este equipamento, cumpra as seguintes advertências:

Mapping Sequencing Reads to a Reference Genome

A HUMÁN GENOM PROJEKT Sasvári-Székely Mária* Semmelweis Egyetem, Orvosi Vegytani, Molekuláris Biológiai és Pathobiokémiai Intézet

Genetika. Tartárgyi adatlap: tantárgy adatai

DNS molekulák elválasztása agaróz gélelektroforézissel és kapilláris elektroforézissel

Utazás Általános. Általános - Alapvető, létfontosságú dolgok. Általános - Beszélgetés. Segítségkérés

SOLiD Technology. library preparation & Sequencing Chemistry (sequencing by ligation!) Imaging and analysis. Application specific sample preparation



















A bioinformatika gyökerei

Számelmélet. Oszthatóság

A genetikai vizsgálatok jelene, jövője a Ritka Betegségek vonatkozásában

Forensic SNP Genotyping using Nanopore MinION Sequencing

bab.la Kifejezések: Személyes Jókívánságok magyar-portugál

PORTUGÁL NYELV EMELT SZINTŰ ÍRÁSBELI VIZSGA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Orvosi Genomtudomány 2014 Medical Genomics Április 8 Május 22 8th April 22nd May


Muito formal, o destinatário tem um título especial que deve ser usado no lugar do seu primeiro nome

Jelentkezés Ajánlólevél / Referencialevél

Tecnologias XML. Extensible Stylesheet Language

Computación cuántica. Pol Forn Díaz

A mutáns fenotípushoz szorosan kapcsolt markerek (1N1R és U212D) segítségével BAC (Bacterial Artifical Chromosome) klónokat azonosítottunk egy másik

Human Genome Project, évvel a tervezett befezés előtt The race is over, victory for Craig Venter. The genome is mapped* - now what?

Személyes Jókívánságok

Személyes Jókívánságok

Molekuláris genetikai vizsgáló. módszerek az immundefektusok. diagnosztikájában

É ú ö ö ü ü ö ö ö ü ö ö ö ü ü ü ü

É Ő ü Ö ö ö ö ű ö ö ü ü ö ü ü Ö ü ö ö ö

É Ö É É Ú ü É Ü É ü Ü ü

Előadások témája: Elsősorban a DNS, a gének és genomok molekuláris biológiája. Tételsorok mindenkinek a honlapon:

Á Á Ö Ö Ü É Ö É É Á Ú É É É É Á Á Ö Ö Ő

Bevezetés a bioinformatikába

100% BIO Natur/Bio kozmetikumok és testápolás

Proteomkutatás egy új tudományág születése

Horizontal gene transfer drives adaptive colonization of apple trees by the fungal pathogen Valsa mali. Zhiyuan Yin, Baitao Zhu, Hao Feng, Lili Huang*

í é ü í Í é í é ö ö í é é é ö é é é í ö é ö é é é ö ü í Ó é í í ö ö ü é í é ü í ö é é é í é ö é é é í é é é Ő Ó Ő í Ó é í í ö ö ü é í é ö ö í ú é ü ö

Mr. Adam Smith Smith's Plastics 8 Crossfield Road Selly Oak Birmingham West Midlands B29 1WQ

NÖVÉNYI GENOMIKA JÓRI BALÁZS

Supplemental Table S1. Overview of MYB transcription factor genes analyzed for expression in red and pink tomato fruit.

Markerless Escherichia coli rrn Deletion Strains for Genetic Determination of Ribosomal Binding Sites

PORTUGÁL NYELV EMELT SZINTŰ ÍRÁSBELI VIZSGA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

CURRICULUM VITAE FODOR ISTVÁN

Supporting Information

RNS szekvenálás a gyakorlatban január 29. február 2.

MIT TEHET A FIZIKUS A RÁKKUTATÁSÉRT? Pipek Orsolya ELTE TTK Komplex rendszerek fizikája tanszék. Atomoktól a csillagokig, Budapest, február 23.

Santa Anna, 119 B Cerdanyola del Vallès Barcelona - Spain Tel Fax

ELIXIR-Magyarország: lehetőségek és kihívások: Bálint Bálint L, Debreceni Egyetem, ELIXIR-Magyarország oktatási koordinátor

PORTUGÁL NYELV JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Genetikai panel kialakítása a hazai tejhasznú szarvasmarha állományok hasznos élettartamának növelésére

Dr. Ottó Szabolcs Országos Onkológiai Intézet

LIVRO DE REGRAS um jogo para 3 a 8 participantes

Crash Course in Omics Terminology, Concepts & Data Types

Trinucleotide Repeat Diseases: CRISPR Cas9 PacBio no PCR Sequencing MFMER slide-1

ü ő Á Á ö ö ő ő ő ö ü Á ő ü ü ü ü ü ő ü ö ü ő ö ő ú ú ö ő ö ő ő ö ö ő ö ő

ó ő ü ú ú ó ó ü ú ú ő ő ó ó ü ó ú ü ő ó ü Ü ó ó ó ó ő ó ó ő ó ő ó ó ó ő ő ó ó ő ó ú ó ó ó Ú ő ó ő ó ő ó ő ő ó ő ő ó ó ő ő

ő ü ö ő ü ö ő ő ó ó ö í ö ő ö ő ő ő ö ö ö ö ó ö ő ö ő Ö ü ö ó ö ú ó ő Ö í ö í ö ü ö ö ó ő ő ö ő ü ő ő í ő ü ö í ö ö ö ő ö ő ó ő í ú ö ő ő í ő ü ó ó ő

ű ö ő ó ő ő ű ö ő ü ó ö ő ő ő ó ő ő Á ó ő ő ó ó ő ú ő ő ó ó ó ő ö ő ó ó ó ö ö ö

ő ü ö ö ó ő ú ü ö ü ü ö ő ö ö ö ő ö ő ó ö ö ő ö ö ő ó ó ő ő ü ő ő ő ü ő ő ü ő ő ó ö É Ö Ü Á Á ö ö ő ö ü ó ö ü ő ő ó ö ö ö ü ö ö ö ő ö ü ő ü ö ö ő ö ü

MÓDOSÍTÁS: HU Egyesülve a sokféleségben HU 2008/0260(COD) Véleménytervezet Michèle Rivasi (PE v01-00)

É É Í ú ú Ü ú ú ű

ö ö ú ú ó ö ü ú ó ű ő ú ü ú ó ó ó ó ó ö ű ő É ő ó ö ő Á ó ö ö ó ó ú ő ö ű ó ű ö ő ő Á ó ó ö ü ó ó ö ö ó ó ö ö ó ó ó


Ó ö ü í ü ö ü ü ü ö ü ö ö í ü ü ü ü ö ö í ö ü ö É ü ü ü É ö ü ö ö ü ü ö ü í ü ö í

Molekuláris biológiai módszerek m. hibridizációs s technikák

Ventosas flotantes SBS


Alapfogalmak. A bevezető előadáson elhangzottakhoz a tankönyv alábbi fejezetei tartoznak: 1. Bevezetés a sejtbiológiába

Gerinces és növényi ortológ promóter adatbázisok fejlesztése és elemzése. Eötvös Loránd Tudományegyetem Természettudományi Kar Biológia Doktori Iskola


VIII. Magyar Sejtanalitikai Konferencia Fény a kutatásban és a diagnosztikában

8. A fehérjék térszerkezetének jóslása

3o Környezetismeret felmérők

Mestský úrad Rožňava '4.



Átírás:

SEQUENCIAMENTO E BANCO DE DADOS BIOLÓGICOS Gabriel Dequigiovanni Departamento de Genética gabriel.dequi@gmail.com

1866 Gregor Mendel Leis da Hereditariedade 1903 Walter Sutton Cromossomos, unidades hereditárias 1913 Thomas Morgan Cromossomos, arranjos lineares 1944 DNA material genético em todos os seres vivos - Avery, McCarty, McLeaod, Griffith s 1945 Um gene codifica uma proteína, Beadle, Tatum 1953 Dupla hélice do DNA (Watson & Crick) 1960s Elucidação do código genético 1977 Sequenciamento do DNA (Fred Sanger) 1983 PCR Kary Mullis 1995 Primeiro genoma de bactéria sequenciado (Haemophilus influenza) 1998 1999 Primeiro cromossomo humano sequenciado (cromossomo 22) 2000 Genomas Drosophia / Arabidopsis / Xylella 2001 Genomas humano e camundongo 2003 99% genoma humano 2004 Metagenômica (Environmental genomics) 2005 Sequenciar um genoma de procarioto por US$1 000. 2007 DNA de James Watson sequenciado 2009 Sequenciar seu próprio genoma por US$ 50 000.

LOUSA

Animação! http:/www.dnalc.org/ddnalc/resources/sangerseq.html

LASER

Detecção a laser

Animação! http:/www.dnalc.org/ddnalc/resources/cycseq.html

3730 Applied Biosystems ~1.000.000 bases/dia ABI 3700 Applied Biosystems - ~150.000 bases/dia

454 Roche ~100 M bases/7,5 h SOLiD Applied Biosystems ~3 000 M bases/corrida/ 6 dias (3 bilhões) Solexa Illumina ~2 000 M bases/corrida /6,5 dia (2 bilhões)

NGS (Next-Generation Sequencing) Plataformas modernas para sequenciamento HiSeq 2500 Illumina Ion Torrent Life Technologies 454 Roche

NGS (Next-Generation Sequencing) Transição para NGS De uma pequena quantidade de sequências maiores para muitas sequências pequenas massively parallel sequencing Maior capacidade geral de sequenciamento Aumento da complexidade computacional Sequências curtas Resulta em bilhões de bases sequenciadas em centenas de milhões de fragmentos

Um único equipamento de nova geração faz o mesmo trabalho que 30 mil sequenciadores do modelo usado em 2000! Por outro lado, essas milhões de bases lidas estão em fragmentos muito pequenos que, para a montagem de um genoma completo, têm de ser concatenados como em um quebra-cabeça gigantesco.

ETAPAS DO SEQUENCIAMENTO DE DNA Preparação do DNA Reação de sequenciamento Eletroforese capilar Análise computacional

FRAGMENTOS DE DNA SEQUENCIADOS FRAGMENTOS COMPLETOS

Biblioteca de insertos pequenos Montagem dos fragmentos Fechamento dos gaps Análise

E porque não usamos só o PAC BIO?

BIOINFORMÁTICA A bioinformática consiste no desenvolvimento de métodos computacionais, matemáticos e estatísticos para organizar e analisar informações biológicas em grande escala e de maneira integrada. Organização e Armazenamento - Bancos de Dados Biológicos Visualização e Análise - Ferramentas computacionais - Compreensão do significado biológico

Você toparia?

Neanthertal James Watson Desmond Mpilo Tutu (1931-) arcebispo e ativista dos direitos humanos. Nobel da paz em 1994. Craig Venter

430.000 anos

2019

Arroz Soja Arabdopsis Milho Tomate Poplar Genome Sequenced and Published; Model Crop for Biofuels

BANCO DE DADOS BIOLÓGICOS Nucleotídeos : International Collaboration NCBI(EUA), EMBL(Europa), DDBJ (Japão) Organismo-específico http://flybase.org/ http://poultry.mph.msu.edu/ http://www.maizegdb.org/ http://rice.plantbiology.msu.edu/ http://www.yeastgenome.org/ http://soybeangenome.siu.edu/ http://www.ornl.gov/sci/techresources/human_genome/ho me.shtml

Sequenciamento de genomas: BANCOS DE DADOS MUNDIAIS Japan CIB/NIG INSDC > 300,000 species; whole genome of over 1,500 organisms. http://www.insdc.org/ USA NCBI/NLM Europe EBI/EMBL Public Collections of DNA and RNA Sequences: Alcançou 100 Gigabases!!!! (August, 2005) Public Collections of DNA and RNA Sequences: Alcançou 300 Gigabases!!!! (August, 2011) -199,575,971 entries

BANCOS DE DADOS MUNDIAIS Atualizações diárias Troca de informações

National Center for Biotechnology Information (NCBI) http://www.ncbi.nlm.nih.gov/

FERRAMENTAS ENTREZ: ferramenta de busca do banco de dados do NCBI PubMed: artigos científicos Taxonomy Browser: classificação taxonômica de organismos

ESTRUTURA DO GENBANK http://www.ncbi.nlm.nih.gov/database/index.html

Só o NCBI não seria suficiente? Porque existe outros bancos?

Homo sapiens BRCA1 http://www.ncbi.nlm.nih.gov/database/index.html

https://www.ncbi.nlm.nih.gov/nuccore/ah003701.2

Formato FASTA: formato universalmente aceito para ser processado Identificador >gi 226347322 gb FJ830553.1 Anabaena planctonica CENA210 ribulose-1,5- bisphosphate carboxylase/oxygenase large subunit (rbcl) gene, partial cds CCGGCGAAATTAAAGGTCACTACCTCAACGTTACCGCTCCTACCTGCGAAGAAATGTTGAAACGGGCTGA GTACGCTAAAGAACTCAAAATGCCCATCATCATGCACGACTACCTAACCGCAGGTTTCACCGCTAACACC ACATTGGCTCGTTGGTGTCGTGATAACGGTATTTTATTGCACATTCACCGTGCTATGCACGCTGTAATTG ACCGTCAAAAAAATCACGGTATCCACTTCCGCGTATTAGCTAAAGCCCTCCGCTTGTCCGGTGGTGATCA CATCCACACTGGTACAGTTGTTGGTAAGTTAGAAGGTGAACGCGGTATTACCATGGGCTTCGTTGACTTA TTACGTGAAAACTACGTTGAGCAAGACAAGTCTCGCGGTATTTACTTTACCCAAGATTGGGCGTCTCTAC CTGGTGTAATGGCCGTTGCTTCTGGTGGTATCCACGTATGGCATATGCCCGCGTTGGTTGAGATCTTCGG TGATGACTCCGTATTACAATTCGGTGGTGGTACACTCGGACATCCTTGGGGTAACGCTCCTGGTGCTACA GCTAACCGCGTAGCTCTAAAAGCAGTTGTTCAAGCTCGTAACGAAGGCCGTAACTTAGCTCGTGAAGGTA ACGATATTATCCGCGAAGCTGCTAAGTGGTCTCCTGAGTTGGCTGTTGCTTGCGAACTG >gi 226347323 gb ACO50079.1 ribulose-1,5-bisphosphate carboxylase/oxygenase large subunit [Anabaena planctonica CENA210] GEIKGHYLNVTAPTCEEMLKRAEYAKELKMPIIMHDYLTAGFTANTTLARWCRDNGILLHIHRAMHAVID RQKNHGIHFRVLAKALRLSGGDHIHTGTVVGKLEGERGITMGFVDLLRENYVEQDKSRGIYFTQDWASLP GVMAVASGGIHVWHMPALVEIFGDDSVLQFGGGTLGHPWGNAPGATANRVALKAVVQARNEGRNLAREGN DIIREAAKWSPELAVACEL

BUSCA EM BLAST BLAST: Basic Local Alignment Search Tool Por sequência de nucleotídeos ou de aminoácidos (proteínas) Comparação de sequências a fim de identificar similaridade de DNA ou proteína para inferir origem, função, filogenia Realiza comparações entre pares de sequências, buscando regiões com similaridade local Alinhamento local (segmentos) é a base da busca por BLAST Usa algoritmos para gerar alinhamento de sequências

BUSCA EM BLAST

BUSCA EM BLAST Mais utilizados blastn e blastp!!

BUSCA EM BLAST Algoritmos em Blast: Não avaliam homologia A análise de sequências objetiva encontrar similaridades importantes que permitam inferir sobre homologia Medem similaridade e identidade de seqüências Exemplos: Órgãos homólogos asas de morcego e mãos de humanos (mesma origem) Órgãos similares asas de morcego e asas de borboleta (mesma função)

BUSCA EM BLAST Identidade x Similaridade x Homologia Identidade = ocorrência do mesmo nucleotídeo ou aminoácido na mesma posição nas seqüências alinhadas Similaridade = considera combinações próximas e avaliada por medidas de diferença/igualdade Homologia = dividem mesma ancestralidade, com significado evolutivo Homologia => conceito central de Evolução

BUSCA EM BLAST Nossa sequência query (consulta), O resultado da busca em BLAST pode ser um ou mais hits em sequências-sujeito (subject) Os melhores resultados de escores são relatados, usar valor E valor E <0.01 Quanto menor o e-value, mais significativo o alinhamento!!!

Nucleotídeos GGCTCTTTAGCTTCTTAGGACAGCACTTCCTGATT TTGTTTTCAACTTCTAATCCTTTGAGTGTTTTTCA TTCTGCAGATGCTGAGTTTGTGTGTGAACGGACAC TGAAATATTTTCTAGGTGCGGGAGGAAAATGGGTA GTTAGCTATTTCTGTAAGTATAATACTATTTCTCC CCTCCTCCCTTTAACACCTCAGAATTGCATTTTTA CACCTAACGTTTAACACCTAAGGTTTTTGCTGATG CTGAGTCTGAGTTACCAAAAGGTCTTTAATTGTAA TACTAAACTACTTTTATCTTTAATATCACTTTGTT CAGATAAGCTGGTGATGCTGGGAAAATGGGTCTC Z96068.1

Proteína >EAX11622.1 lactase [Homo sapiens] MELSWHVVFIALLSFSCWGSDWESDRNFISTAGPLTNDLLHNLSGLLGDQSSNFVAGDKDMYVCHQPLPT FLPEYFSSLHASQITHYKVFLSWAQLLPAGSTQNPDEKTVQCYRRLLKALKTARLQPMVILHHQTLPAST LRRTEAFADLFADYATFAFHSFGDLVGIWFTFSDLEEVIKELPHQESRASQLQTLSDAHRKAYEIYHESY AFQGGKLSVVLRAEDIPELLLEPPISALAQDTVDFLSLDLSYECQNEASLRQKLSKLQTIEPKVKVFIFN LKLPDCPSTMKNPASLLFSLFEAINKDQVLTIGFDINEFLSCSSSSKKSMSCSLTGSLALQPDQQQDHET TDSSPASAYQRVWEAFANQSRAERDAFLQDTFPEGFLWGASTGAFNVEGGWAEGGRGVSIWDPRRPLNTT EGQATLEVASDSYHKVASDVALLCGLRAQVYKFSISWSRIFPMGHGSSPSLPGVAYYNKLIDRLQDAGIE PMATLFHWDLPQALQDHGGWQNESVVDAFLDYAAFCFSTFGDRVKLWVTFHEPWVMSYAGYGTGQHPPGI SDPGVASFKVAHLVLKAHARTWHHYNSHHRPQQQGHVGIVLNSDWAEPLSPERPEDLRASERFLHFMLGW FAHPVFVDGDYPATLRTQIQQMNRQCSHPVAQLPEFTEAEKQLLKGSADFLGLSHYTSRLISNAPQNTCI PSYDTIGGFSQHVNHVWPQTSSSWIRVVPWGIRRLLQFVSLEYTRGKVPIYLAGNGMPIGESENLFDDSL RVDYFNQYINEVLKAIKEDSVDVRSYIARSLIDGFEGPSGYSQRFGLHHVNFSDSSKSRTPRKSAYFFTS IIEKNGFLTKGAKRLLPPNTVNLPSKVRAFTFPSEVPSKAKVVWEKFSSQPKFERDLFYHGTFRDDFLWG VSSSAYQIEGAWDADGKGPSIWDNFTHTPGSNVKDNATGDIACDSYHQLDADLNMLRALKVKAYRFSISW SRIFPTGRNSSINSHGVDYYNRLINGLVASNIFPMVTLFHWDLPQALQDIGGWENPALIDLFDSYADFCF QTFGDRVKFWMTFNEPMYLAWLGYGSGEFPPGVKDPGWAPYRIAHAVIKAHARVYHTYDEKYRQEQKGVI SLSLSTHWAEPKSPGVPRDVEAADRMLQFSLGWFAHPIFRNGDYPDTMKWKVGNRSELQHLATSRLPSFT EEEKRFIRATADVFCLNTYYSRIVQHKTPRLNPPSYEDDQEMAEEEDPSWPSTAMNRAAPWGTRRLLNWI KEEYGDIPIYITENGVGLTNPNTEDTDRIFYHKTYINEALKAYRLDGIDLRGYVAWSLMDNFEWLNGYTV KFGLYHVDFNNTNRPRTARASARYYTEVITNNGMPLAREDEFLYGRFPEGFIWSAASAAYQIEGAWRADG KGLSIWDTFSHTPLRVENDAIGDVACDSYHKIAEDLVTLQNLGVSHYRFSISWSRILPDGTTRYINEAGL NYYVRLIDTLLAASIQPQVTIYHWDLPQTLQDVGGWENETIVQRFKEYADVLFQRLGDKVKFWITLNEPF VIAYQGYGYGTAAPGVSNRPGTAPYIVGHNLIKAHAEAWHLYNDVYRASQGGVISITISSDWAEPRDPSN QEDVEAARRYVQFMGGWFAHPIFKNGDYNEVMKTRIRDRSLAAGLNKSRLPEFTESEKRRINGTYDFFGF NHYTTVLAYNLNYATAISSFDADRGVASIADRSWPDSGSFWLKMTPFGFRRILNWLKEEYNDPPIYVTEN GVSQREETDLNDTARIYYLRTYINEALKAVQDKVDLRGYTVWSAMDNFEWATGFSERFGLHFVNYSDPSL PRIPKASAKFYASVVRCNGFPDPATGPHACLHQPDAGPTISPVRQEEVQFLGLMLGTTEAQTALYVLFSL VLLGVCGLAFLSYKYCKRSKQGKTQRSQQELSPVSSF EAX11622.1

BLASTn

BLASTp

Colar a sequência que deseja analisar

Barra = Identidade

BUSCA EM BLAST PROTEÍNAS FORMATO FASTA >gi 47933334 gb AAQ63935.1 cellulose synthase [Pinus radiata] MEARTNTAAGSNKRNVRVSVRDDGELGPKPPQHINSHICQICGEDV GLAADGEFFVACNECAFPVCRPCYEYEWKDGNQSCPQCKTRYKWH KGSPQVDGDKEDECADDLDHDFNSTQGNRNEKQQIAEAMLHWQM AYGRGEDVGPSRSESQELPQLQVPLITNGQAISGELPAGSSEYRRIA APPTGGGSGKRVHPLPFPDSTQTGQVRA >LINHA DO NOME MÁXIMA DE 80 CARACTERES POR LINHA

AY751548.1 L03637.1 AJ005984.1 NM_001246552.1 G24983.1 BK000460 NM_001045493.1 NM_001114949.1 BC037526.1 AB081072.1 AY136463.1 BC009121.1 AB052957.1