Barta Endre: Funkcionális genomika

Hasonló dokumentumok
SOLiD Technology. library preparation & Sequencing Chemistry (sequencing by ligation!) Imaging and analysis. Application specific sample preparation

RNS szekvenálás a gyakorlatban január 29. február 2.

Mapping Sequencing Reads to a Reference Genome

discosnp demo - Peterlongo Pierre 1 DISCOSNP++: Live demo

Supplementary Figure 1

Supplementary materials to: Whole-mount single molecule FISH method for zebrafish embryo

Phenotype. Genotype. It is like any other experiment! What is a bioinformatics experiment? Remember the Goal. Infectious Disease Paradigm

Nan Wang, Qingming Dong, Jingjing Li, Rohit K. Jangra, Meiyun Fan, Allan R. Brasier, Stanley M. Lemon, Lawrence M. Pfeffer, Kui Li

Flowering time. Col C24 Cvi C24xCol C24xCvi ColxCvi

Gerinces és növényi ortológ promóter adatbázisok fejlesztése és elemzése. Eötvös Loránd Tudományegyetem Természettudományi Kar Biológia Doktori Iskola

Supporting Information

Cserző Miklós Bioinformatika és genomanalízis az orvostudományban. Integrált biológiai adatbázisok

Forensic SNP Genotyping using Nanopore MinION Sequencing

Trinucleotide Repeat Diseases: CRISPR Cas9 PacBio no PCR Sequencing MFMER slide-1

ADATBÁNYÁSZAT I. ÉS OMICS

Genomadatbázisok Ld. Entrez Genome: Összes ismert genom, hierarchikus szervezésben (kromoszóma, térképek, gének, stb.)

Juhász Angéla MTA ATK MI Alkalmazott Genomikai Osztály SZEKVENCIA ADATBÁZISOK

13. RNS szintézis és splicing

10. Genomika 2. Microarrayek és típusaik

Statistical Inference

Bioinformatics: Blending. Biology and Computer Science

Supporting Information

Orvosi Genomtudomány 2014 Medical Genomics Április 8 Május 22 8th April 22nd May

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Expressziós microarray. Dr. Győrffy Balázs

Expression analysis of PIN genes in root tips and nodules of Lotus japonicus

Genome 373: Hidden Markov Models I. Doug Fowler

Limitations and challenges of genetic barcode quantification

Crash Course in Omics Terminology, Concepts & Data Types

TÉMAKÖRÖK. Ősi RNS világ BEVEZETÉS. RNS-ek tradicionális szerepben

Correlation & Linear Regression in SPSS

Performance Modeling of Intelligent Car Parking Systems

A genomikai oktatás helyzete a Debreceni Egyetemen

Klaszterezés, 2. rész

Biomassza alapú bioalkohol előállítási technológia fejlesztése metagenomikai eljárással

A HUMÁN GENOM PROJEKT Sasvári-Székely Mária* Semmelweis Egyetem, Orvosi Vegytani, Molekuláris Biológiai és Pathobiokémiai Intézet

Create & validate a signature

Miben különbözünk az egértől? Szabályozás a molekuláris biológiában

Crash Course in Omics Terminology, Concepts & Data Types

Markerless Escherichia coli rrn Deletion Strains for Genetic Determination of Ribosomal Binding Sites

Választási modellek 3

GENOMIKA TÖBBFÉLE MAKROMOLEKULA VIZSGÁLATA EGYIDŐBEN

Biológus MSc. Molekuláris biológiai alapismeretek

Molekuláris genetikai vizsgáló. módszerek az immundefektusok. diagnosztikájában

Crash Course in Omics Terminology, Concepts & Data Types

Széchenyi István Egyetem

Új temékek az UD-GenoMed Kft. kínálatában!

A tárgy címe: Bioinformatika

Cluster Analysis. Potyó László

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Modular Optimization of Hemicellulose-utilizing Pathway in. Corynebacterium glutamicum for Consolidated Bioprocessing of

ÚJ GENERÁCIÓS SZEKVENÁLÁS

Supplementary Table 1. Cystometric parameters in sham-operated wild type and Trpv4 -/- rats during saline infusion and

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

AZ ALACSONY HŐMÉRSÉKLET HATÁSÁRA BEKÖVETKEZŐ REDOX ÉS GÉNEXPRESSZIÓS VÁLTOZÁSOK GABONAFÉLÉKBEN

Gyakorlati bioinformatika

A modern e-learning lehetőségei a tűzoltók oktatásának fejlesztésében. Dicse Jenő üzletfejlesztési igazgató

Operációs rendszerek. UNIX fájlrendszer

Génkifejeződési vizsgálatok. Kocsy Gábor

Humán genom variációk single nucleotide polymorphism (SNP)

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Bevezetés. Cserző Miklós 2018

FÖLDRAJZ ANGOL NYELVEN GEOGRAPHY

Fehérje expressziós rendszerek. Gyógyszerészi Biotechnológia

Ph.D. értekezés tézisei. Póka Nándor. Biokémia, Biofizika, Molekuláris és sejtbiológia doktori program

Human genome project

Új temékek az UD- GenoMed Kft. kínálatában!

Egy új DNS motívum típus in silico jellemzése és szerepe a génszabályozásban Zárójelentés - OTKA # PD73575, BIOIN Cserző Miklós

Az orvosi biotechnológiai mesterképzés megfeleltetése az Európai Unió új társadalmi kihívásainak a Pécsi Tudományegyetemen és a Debreceni Egyetemen

Using the CW-Net in a user defined IP network

A genetikai vizsgálatok jelene, jövője a Ritka Betegségek vonatkozásában

DNS-szekvencia meghatározás

Eladni könnyedén? Oracle Sales Cloud. Horváth Tünde Principal Sales Consultant március 23.

A PSEUDORABIES VÍRUS TRANSZKRIPTOMIKAI ELEMZÉSE NAGY ÁTERESZTŐKÉPESSÉGŰ MÓDSZEREKKEL

Tutorial 1 The Central Dogma of molecular biology

11. Gyakorlat: Certificate Authority (CA), FTP site-ok

Genetikai panel kialakítása a hazai tejhasznú szarvasmarha állományok hasznos élettartamának növelésére

Energetika az építész kezében

Molekuláris biológiai eljárások alkalmazása a GMO analitikában és az élelmiszerbiztonság területén

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

kpis(ppk20) kpis(ppk46)

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

CLUSTALW Multiple Sequence Alignment

Diagnosztikai célú molekuláris biológiai vizsgálatok

FÖLDRAJZ ANGOL NYELVEN

A Multi Locus Sequence Typing (MLST) alkalmazhatósága az élelmiszermikrobiológiában

BIOINFORMATIKA Ungvári Ildikó

VIII. Magyar Sejtanalitikai Konferencia Fény a kutatásban és a diagnosztikában

GENERATÍV TEST (VIRÁGOS NÖVÉNYEK)

Csatlakozás a BME eduroam hálózatához Setting up the BUTE eduroam network

Welcome! EuPathDB Workshop Crash Course in Omics Terminology, Concepts & Data Types

A funkcionális genomikai eszköztár szerepe az onkológiai kutatásokban

A HULLATÉK-ANALÍZIS ÉS A GYOMORTARTALOM ELEMZÉS ÖSSZE- HASONLÍTÁSA VÖRÖS RÓKA TÁPLÁLKOZÁS VIZSGÁLATA SORÁN

Bakteriális identifikáció 16S rrns gén szekvencia alapján

Weblog elemzés Hadoopon 1/39

Bioinformatika és genomanalízis az orvostudományban. Biológiai adatbázisok. Cserző Miklós 2018

Összefoglalás első fejezete

Supplemental Table S1. Overview of MYB transcription factor genes analyzed for expression in red and pink tomato fruit.

A cell-based screening system for RNA Polymerase I inhibitors

Átírás:

Barta Endre: Funkcionális genomika Barta Endre Debreceni Egyetem, ÁOK, BMBI, Klinikai Genomikai Központ NAIK MBK, Mezőgazdasági Genomikai és Bioinformatikai Csoport barta.endre@unideb.hu barta@naik.abc.hu

Témák Bioinformatika, genomika, funkcionális genomika meghatározása, rövid története Transzkripció meghatározása Funkcionális genomikai módszerek Microarray RNA-seq ChIP-seq GRO-seq ChIA-PET Barta Endre 12/6/16 2

Bioinformatikai részterületei Szekvencia analízis DNS szekvencia analízis Fehérje szekvencia analízis Összehasonlító szekvencia analízis(komparatív genomika) Génexpresszió, génszabályozás vizsgálata Genomika, genom annotáció Variáció vizsgálat (pl. GWAS) Funkcionális genomika Struktúrális bioinformatika Filogenetika (komputeres evolúcióbiológia) Biológiai adatbázisok fejlesztése Komputeres biológia (computational biology) = bioinformatikában használt algoritmusok fejlesztése, implementálása

Genomika, funkcionális genomika Genomika: A teljes örökítő anyag (magi, mitokondriális és ha van a kloroplasztisz DNS) szekvenálása, a szekvencia annotálása, elemzése Funkcionális genomika: A gének összességének, vagy egy-egy csoportjának a vizsgálata nagy áteresztőképességű kísérletekkel, amelyek vagy a genomszekvencia alapján lettek megtervezve (microarray, SNP), vagy szekvenálást használnak (ChIP-seq, RNA-seq stb.) A genotípus és a fenotípus közti összefűggések keresése genom szinten http://genomika.blog.hu/

Genomika története 90-es évek: genomprogramok beindulása, az első egyszerűbb modellszervezetek megszekvenálása (E. coli, élesztő, ecetmuslica, laboratóriumi fonálféreg, A. thaliana stb.), humán genomprojekt elindulása 2001: A draft humán genomszekvencia publikálása 2001-: További modellszervezetek (egér, patkány, csimpánz, fugu stb.), evolúciós szempontból fontos fajok (Ciona intestinalis, zebradánió, közönséges oposszum és vagy 20-25 egyéb emlős faj) és a mezőgazdaságilag legfontosabb fajok (rizs, kukorica, marha, csirke, sertés stb.) megszekvenálása hagyományos (Sanger) módszerrel 2005- Az újgenerációs szekvenálási módszerek megjelenése, egyre több faj és fajta genomszekvenálása 2007-2008 Első újgenerációs szekvenáláson alapuló funkcionális genomikai módszerek megjelenése 2010- Grandiózus genomszekvenálási projektek meghirdetése (humán 1000 genomprojekt, 100 Solanaceae projekt, Ezer, majd egymillió növényi és állati genom projekt stb.)

Funkcionális genomikai NGS technológiák ChIP-seq (ChIP-chip) DNS-fehérje kölcsönhatások genomszintű vizsgálata RNA-seq mrns-ek genomszintű vizsgálata GRO-seq transzkripció genomszintű vizsgálata ChIA-PET DNS hurkok vizsgálata A DNS-t vagy az RNS-t feldarabolják, majd a kis darabokból tag -eket szekvenálnak, és azokat illesztik a referencia genomhoz Az RNA-seq-et lehet használni referencia genom nélkül is, akkor a transzkriptomot rakjuk össze de novo Barta Endre 12/6/16 6

Különböző Omikák http://jdr.sagepub.com/content/90/5/561

Újgenerációs illumina szekvenáló könyvtárak készítése

A transzkripció leegyszerűsítve Három lépéses folyamat: 1. TF kötődik atfbs-hez (DNA) 2. TF katalízálja a polymerase II complex felépülését 3. A mrns szintézíse a transzkripciós kezdőpontról(tss) TF TFBS Pol-II TATA TSS

Eukarióta transzkripció ChIP-seq RNA-seq GROseq ChIA-PET

Mit vizsgálunk transzkiptomikában? Promóterek elhelyezkedése Transzkripciós starthely (TSS) elhelyezkedése Transzkripciós faktor kötőhelyek (TFBS) elhelyezkedése A transzkripció elindulásának a biológiai folyamata Legfontosabb kérdés: Hol, mikor, miért, mennyi mrns keletkezik egy gén melyik részéről (alternatív kivágódás/splicing) Mindez hol és hogyan van kódolva a DNS-ben 11

Microarray vagy DNS csip Hibridizáción alapszik Robot, csip vagy tintasugaras nyomtató technológia felhasználásával egy kísérletben akár 40000 hibridizációt lehet elvégezni Fő ereje a génexpresszió genom szintű vizsgálata (transzkriptomika) Különböző vizsgálatok, chip-ek: Expressziós (próbák mrns-hez) Exon array Promóter array Kromoszóma array SNP array Szekvenálás (complete genomics) Bioinformatikai kihívások: A csipekre felkerülő oligok (cdns-ek) megtervezése A kapott durva adatok feldolgozása, értelmezése 12 Transzkriptomika

A szkenner által szolgáltatott ábra 14 Transzkriptomika

Élesztő spóraképzéshez kapcsolódó négy gén vizsgálata Northern hibridizációval és microarray technológiával 15 Transzkriptomika

Két minta expressziós szintjének összehasonlítása Expressziós szint (2. minta) magas alacsony Expressziós szint (1. minta) 16 Transzkriptomika

Különböző génexpresszió a különböző szövet és sejt típusokban Brain Fibroblast Astrocyte Astrocyte 17 Transzkriptomika

Leíró statisztika: klaszterezés A klaszterező algoritmusok hasznos segítséget jelentenek az adatok megjelenítésében Lehet a géneket ( features ), a mintákat vagy mindkettőt klaszterezni Az általánosan alkalmazott módszer a hierarchikus klaszterezés, amely a filogenetikában használatos neighbor joining módszerhez hasonlít Az eredmény egy fa, amely tartalmaz ágakat és végpontokat 18 Transzkriptomika

Kétirányú klaszterezése a géneknek (ytengely), és a sejtvonalaknak (x-tengely) (Alizadeh et al., 2000)

GEO at the NCBI 20 Transzkriptomika

Array Express at EMBL 21 Transzkriptomika

Trancriptome analysis with RNA-seq Total RNA, rrna depleted or mrna isolation Fragmentation cdna synthesis Library preparation Sequencing one or both ends of the fragments Mortazavi et al Nat. Meth 2008. 22 Wang et al Nat. Rew. Genet 2009.

Samples of interest RNA sequencing Isolate RNAs Generate cdna, fragment, size select, add linkers Condition 1 (normal colon) Condition 2 (colon tumor) Sequence ends Map to genome, transcriptome, and predicted exon junctions Downstream analysis 100s of millions of paired reads 10s of billions bases of sequence

RNA Illumina Tru-Seq library prep Size selection step 2 days for 8 samples Adaptor ligation and standard library preparation 5ug of total RNA ~$100 per sample Not strand-specific

Mire lehet az RNA-seq-et használni Teljes transzkriptom analízis Új transzkriptek (átíródó régiók) meghatározása Splice variánsok meghatározása Expressziós profil meghatározása (egyes transzkriptek abundanciájának a mérése) Genetikai polimorfizmusok meghatározása: SNPs, micro-indels CNVs

RNA-seq analízis pipeline Bowtie illesztő (tophat) + cufflinks + CummeRbound Ez a leggyakrabban használt csomag TRINITYRNASEQ de novo transzkriptóm összerakáshoz Nagy a memóriaigénye (90GB<: HPC a Pécsi Akkor hasznos, ha nincs referencia genom (és/vagy transzkriptóm) Normalizált számlálása a transzkriptekre eső read-eknek-> génexpresszió (probléma: egy génhez több transzkript is tartozhat) A kivágódási (splice) helyeket átfogó read-ek -> exon junctions -> alternatív splicing Alternatív promóterek Eredmény: A differenciáltan kifejeződő gének listája expressziós értékekkel, új transzkriptek listája (új splice formák) 26

RNA-Seq: Overview

RNA-seq: Assembly vs Mapping Reference-based RNA-seq Ref. Genome or Transcriptome RNA-seq reads De novo RNA-seq contig1 contig2

RNA-seq analysis pipeline Reads / tags (fastq format) TopHat Spliced read mapper (built on bowtie) Transcripts, splice variants (bed) Cufflinks Cuffdiff Transcript assembly, differential expression, differential regulation intersectbed, awk, sed Expression levels (fpkm), fold changes CummeRbund Exploration, analysis and visualization bed, fpkm table masigpro R, limma Chipster edger, limma Differential promoter usage Different splicing variants (junctions) Clusters, Heatmaps, Expression profiles, Plots, Gene lists, bed files Clusters, Heatmaps, Expression profiles, Plots, Gene lists, bed files

Software Short reads aligners Stampy, BWA, Novoalign, Bowtie (tophat), Data preprocessing (reads statistics, adapter clipping, formats conversion, read counters) Fastx toolkit fastqc Htseq MISO samtools Expression studies Cufflinks package RSEQtools R packages (DESeq, edger, bayseq, DEGseq, Genominator) Alternative splicing Cufflinks Augustus Commercial software Partek CLCBio

Bowtie-based TopHat: finds/maps to possible splicing junctions. Important to assemble transcripts later (cufflinks) TopHat: Spliced Reads Kim et al. Genome Biology 2013, 14:R36 http://genomebiology.com/2013/14/4/r36 METHOD Open Access TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions Daehwan Kim 1,2,3*, Geo Pertea 3, Cole Trapnell 5,6, Harold Pimentel 7, Ryan Kelley 8 and Steven L Salzberg 3,4

Cufflinks package http://cufflinks.cbcb.umd.edu/ Cufflinks: Expression values calculation Transcripts de novo assembly Cuffcompare: Transcripts comparison (de novo/genome annotation) Cuffdiff: Differential expression analysis

Cufflinks: transcript assembly Assembly: Reports the most parsimonious set of transcripts (transfrags) that explain splicing junctions found by TopHat Isoform A Isoform B Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks Cole Trapnell 1,2, Adam Roberts 3, Loyal Goff 1,2,4, Geo Pertea 5,6, Daehwan Kim 5,7, David R Kelley 1,2, Harold Pimentel 3, Steven L Salzberg 5,6, John L Rinn 1,2 & Lior Pachter 3,8,9

Cufflinks: transcript abundance Quantification: Cufflinks implements a linear statistical model to estimate an assignment of abundance to each transcript that explains the observed reads with maximum likelihood. Likelihood Isoform A Isoform B kelihood Differential analysis of gene regulation at transcript resolution with RNA-seq Cole Trapnell 1,2,6, David G Hendrickson 1,2,6, Martin Sauvageau 1,2, Loyal Goff 1 3, John L Rinn 1,2,7 & Lior Pachter 4,5,7 100% Isoform A 100% Isoform B

Cufflinks: abundance output Cufflinks reports abundances as Fragments Per Kilobase of exon model per Million mapped fragments (FPKM) C: Number of read pairs (fragments) from transcript N: Total number of mapped read pairs in library L: number of exonic bases for transcript Normalizes for transcript length and lib. size

Cuffdiff: differential transcript expression Cudiff Tests for differential expression of a cufflinks assembly Differential analysis of gene regulation at transcript resolution with RNA-seq Cole Trapnell 1,2,6, David G Hendrickson 1,2,6, Martin Sauvageau 1,2, Loyal Goff 1 3, John L Rinn 1,2,7 & Lior Pachter 4,5,7

Cufflinks: Alternative splicing trans_id bundle_id chr left right FPKM FMI frac FPKM_conf_lo FPKM_conf_hi coverage length effective_length status ENST00000503254 31391 chr1 465693 688071 787.12 1 1 731.009 843.232 124.849 1509 440.26 OK ENST00000458203 31391 chr1 470906 471368 0 0 0 0 0 0 462 440.005 OK ENST00000417636 31391 chr1 521368 523833 0 0 0 0 0 0 842 842 OK ENST00000423796 31391 chr1 523008 530148 0 0 0 0 0 0 607 607 OK ENST00000450696 31391 chr1 523047 529954 0 0 0 0 0 0 402 402 OK ENST00000440196 31391 chr1 529832 530595 0 0 0 0 0 0 437 437 OK ENST00000357876 31391 chr1 529838 532878 0 0 0 0 0 0 498 498 OK ENST00000440200 31391 chr1 536815 655580 2.53932 1 1 0 5.72637 0.185236 413 413 OK ENST00000441245 31391 chr1 637315 655530 0 0 0 0 0 0 629 629 OK ENST00000419394 31391 chr1 639064 655574 0 0 0 0 0 0 480 480 OK ENST00000448605 31391 chr1 639064 655580 0 0 0 0 0 0 274 274 OK ENST00000414688 31391 chr1 646721 655580 0 0 0 0 0 0 750 750 OK ENST00000447954 31391 chr1 655437 659930 0 0 0 0 0 0 336 336 OK ENST00000440782 31391 chr1 657464 660287 0 0 0 0 0 0 2823 2823 OK ENST00000452176 31391 chr1 562756 564390 0 0 0 0 0 0 802 802 OK ENST00000416931 31391 chr1 564441 564813 96.9279 1 1 77.2375 116.618 21.1488 372 372 OK ENST00000485393 31391 chr1 564878 564950 0 0 0 0 0 0 72 72 OK ENST00000482877 31391 chr1 564951 565019 0 0 0 0 0 0 68 68 OK

R/bioconductor Packages Based on raw read counts per gene/transcript/genome feature (mirna) Differential expression analysis DESeq http://www-huber.embl.de/users/anders/deseq/ Negative binomial distribution bayseq http://www.bioconductor.org/help/biocviews/release/bioc/html/bayseq.html Bayesian approach Choice of Poisson and negative binomial distribution edger DEGSeq Genominator

Differential Gene Expression SYMBOL logfc PValue FDR counts.c1 counts.c2 counts.kd1 counts.kd2 HNRNPC &5.26 9.19E&55 5.71E&50 12611 12404 244 443 FAIM2 &4.82 8.02E&29 2.49E&24 191 194 11 3 AC019178 &6.57 2.14E&28 4.42E&24 100 104 1 1 SSC5D &2.95 2.39E&27 3.71E&23 2274 2123 318 276 GGT5 &3.03 1.03E&26 1.28E&22 838 803 93 117 EXOC3L4 &3.07 9.19E&21 9.51E&17 359 344 53 34 FOXS1 &4.02 1.69E&19 1.49E&15 113 92 5 8 AQP5 &3.73 2.82E&19 2.18E&15 106 113 9 8 SLC27A3 &2.39 6.97E&18 4.81E&14 736 637 144 129 TIMP4 &3.29 1.21E&17 7.52E&14 126 120 14 12 Downstream Analyses Pathways/Gene Set (e.g. GOSeq) Regulatory Networks Machine Learning / Classifiers C1 C2 KD1 KD2 SCRN1 IL3RA ENSG00000261560 LOC284837 QRICH2 CNN2 ZNF684 ENSG00000188818 PADI3 COL14A1 TSPAN1 PRMT3 PLXNB3 FAIM2 EXOC3L4 ENSG00000257771 TLE6 SPINK4 VIT ENSG00000267372 NDUFA4L2 CA9 SLC27A3 SLC23A1 CAMP SSC5D PLAU TIMP4 TNFRSF1A KCNK3 PLEKHA6 BAI2 INHA CFD ENSG00000204253 BIRC7 AQP5 ANPEP COL16A1 ACAD10 CLCNKB ENSG00000268912 EVA1A HNRNPC SRCRB4D FOXS1 NFATC4 MAP1A GGT5 ZNF132 1 0.5 0 0.5 1 KO C KD

Visualization: Genome Viewers Web based: Gbrowse (http://gmod.org/wiki/gbrowse) UCSC Genome Browser (http://genome.ucsc.edu/) Standalone Integrated Genome Viewer (http://www.broadinstitute.org/software/igv/)

IGV: Differential Expression Visualization

Validation (qualitative) 33 of 192 assays shown. Overall validation rate = 85%

Comparing Microarray and RNA-Seq Wang, Zhong, Mark Gerstein, and Michael Snyder. "RNA-Seq: a revolutionary tool for transcriptomics." Nature Reviews Genetics 10.1 (2009): 57-63.

Mi az a ChIP-szekvenálás? DNS-Fehérje kölcsönhatások vizsgálata kromatin immunoprecipitációval és NGS szekvenálással A génregulációban kulcsszerepe van a kromatin szerkezetének, a transzkripciós faktorok kötődésének A módszer a kromatin vagy a transzkripciós faktorok DNS-hez kötésén, majd specifikus antitesttel történő kicsapásán alapul. A ChIP-szekvenálás egy új forradalmi technológia, amellyel fehérje-dns interakciókat lehet térképezni genomszinten. ChIP-Seq A kromatin immunoprecipitáció (ChIP) kombinálása az újgenerációs szekvenálással

Egy Keresztkötés DNS-törés Kromatin sejt ImmunoPrecipitáció (ChIP) Sejtmag Hídképzés Együttes kötés Hídképzés Szekvenálás és Térképzés 45

ChIP-seq (újgenerációs szekvenálás kromatin immunoprecipitáció után) High-throughput sequencing Map sequence tags to genome Release DNA

ChIP-Seq analysis pipeline Reads / tags (fastq format) Functional annotation of binding and modification loci PeakAnnotator findpeaks bedgraphs (bed) motif logos metahistograms / metagenes Hypergeometric Optimization of Motif EnRichment Homer maketagdirectory makeucscfile findmotifsgenome annotatepeaks BWA Alignment files (bam) bam Differential Binding Analysis of ChIP- Seq peak data DiffBind edger, limma + GRO-Seq tags bed Clusters, Heatmaps, Plots, Profiles, Venn diagrams Peak lists, bed files Burrows-Wheeler Alignment Tool MACS2 bed bed + etr-s (GRO-Seq) bash, bedtools awk, mergebed intersectbed, awk, sed Overlaps, Peak lists, bed files Model Based Analysis for ChIP-Seq data rpkm-like table intersectbed, awk, sed bed Chipster edger, limma Clusters, Heatmaps, Profiles, Plots, Peak lists, bed files Barta E: Command line analysis of ChIP-seq results. EMBNET JOURNAL 17:(1) pp. 13-17. (2011)

A fehérjék DNS-kötése

Finding peaks The number of peaks depends on the methods used and the cutoff values applied. More reads doesn t mean necessarily more peaks Different methods give only 60-80% similar peaks! Different programs: HOMER, MACS, FindPeaks, PeakFinds etc. 49

MACS

HOMER

List of HOMER utilities Endre Barta 12/6/16 52

Annotation of the peaks (annotatepeaks.pl) Genomic localization Closest TSS Motif occurrences Enrichment in different ontologies Method: Generate a list of genes and compare the list statistically with the list of genes present in a given ontology Barta Endre 12/6/16 53

De novo motif finding with HOMER How findmotifsgenome.pl works: 1. Verify peak/bed file 2. Extract sequences from the genome corresponding to the regions in the input file, filtering sequences that are >70% "N 3. Calculate GC/CpG content of peak sequences. 4. Preparse the genomic sequences of the selected size to serve as background sequences 5. Randomly select background regions for motif discovery. 6. Auto normalization of sequence bias. 7. Check enrichment of known motifs 8. de novo motif finding Barta Endre 12/6/16 54

HOMER denovo motif finding result } RXR peaks overlapping with GRO-seq paired peaks } Enrichment = % of Targets / % of Background } The P-value depends on the size of the sample (not comparable between different samples) } Best match (HOMER has its own motif library coming from the JASPAR database and from ChIPseq analyses) does not mean perfect match! 2012.05.16. 55

HOMER known motif enrichment analysis Enrichment = % of targets sequences with Motif / % of Background sequences with motif 2012.05.16. 56

Downstream analysis Comparing different samples Overlapping regions (intersectbed) Occupancy analysis (diffbind) Generating profiles Re-analyze peak subsets for motif occurrences

RXR binding is accompanied by p300 recruitment and the release of PU.1 p300 sites overlapping with RXR PU.1 sites overlapping with RXR 0.5 BMDM_C_p300 BMDM_LG_p300 1.5 BMDM_C_PU1 BMDM_LG_PU1 0.4 Normalized read count 0.3 0.2 Normalized read count 1.0 0.5 0.1 0.0-1000 -500 0 500 1000 Distance from the center of RXR peak (bp) 0.0-1000 -500 0 500 1000 Distance from the center of RXR peak (bp)

intersectbed Switches: - -a peakfile1.bed -b peakfile2.bed ((-abam => -bed)) - -u - -v - -c (count b on a) 1 1 0 1 1 0 - -wo (fusing beds in a double bed table) - -f (minimum overlap %) -u -f 0.6 - -r (reciprocal overlap) -u -f 0.6 -r - -s (strand specific match) 59

Peak overlaps in BMDM A listfile Unit (peak) Group A-30917 PU.1 A-30918 PU.1 A-30919 PU.1 A-30920 PU.1 A-30921 PU.1 A-30922 PU.1 A-30923 PU.1 A-1 RXR A-2 RXR A-3 RXR A-4 RXR A-5 RXR A-6 RXR A-7 RXR...... PU.1 VennMaster 27055 2811 New list file format automatically from beds: 1254 861 324 196 RXR 280 p300 filename ê Peak (position; merge) Group chr2:14108549-14108910 PU1peaks chr2:14113626-14114054 PU1peaks chr2:14125966-14126214 PU1peaks chr2:14128322-14128869 PU1peaks chr2:14150196-14150481 PU1peaks chr2:14150692-14151155 PU1peaks chr2:14155587-14155954 PU1peaks 60

DiffBind R package

GRO-seq Global Run-On (Massive) Sequencing GRO-Seq detects all transcribing RNAs (coding RNAs, ncrnas, enhancer/e-transcripts) in the nuclei from the 5 to the 3 end (strand specific) Theoretically, one tag (read) in the GRO-seq data represents one RNA polymerase molecule RNA polymerase I synthesizes pre-rrna RNA polymerase II synthesizes precursors of mrnas most snrna and mirna RNA polymerase III synthesizes trnas, rrna5s and other small RNAs RNA plymerases IV and V are in plants, but no GRO-seq from plants so far Core et al. Science, 2008

Global Run-On sequencing (GRO-seq) Methodology Core et al. Science, 2008

Egy Sejtmag Elkötelezett Globális sejt magi izolálás polimerázok Run-On esszé Sejtmag Promóter mrns Enhanszer AAAAA gén térképezés 64

GRO-seq analízis pipeline Alapvetően hasonló megközelítés mind az RNA-seq analízisnél 1. A read-ek számolása transzkripteken Az intronokon is lesznek read-ek! A génen lévő enhenszerek (ott külön transzkripció van) torzíthatják az eredményt Hosszú géneknél befolyásolhatja az eredményt a transzkripció sebessége 2. Új transzkriptek keresése (mivel minden transzkripciót mutat) Lehetnek kódoló gének, génváltozatok Lehetnek nem-kódoló RNS-ek (ncrna, lncrna) Enhenszer transzkripció 65

GRO-Seq reads in IGV (visualization) Chr9: 62,190 kb 62,230kb ncrna? TSS(Transcription Start Site) Peaks/waves also show RNA polymerase II velocity

GRO-seq analysis pipeline Reads / tags (fastq format) maketagdirectory findpeaks makeucscfile (bed) (bedgraph) Alignment files (bam) bed bed (bam) BWA Homer PeakSplitter mergebed, awk, intersectbed, sed bam bed Burrows-Wheeler Alignment Tool Hypergeometric Optimization of Motif EnRichment Subdivision into discrete signal peaks Building transcripts Finding enhancers rpkm-like table, bed Functional annotation of binding and modification loci PeakAnnotator intersectbed, awk, sed Overlaps, Peak lists, bed files + ChIP peaks DiffBind edger, limma Clusters, Heatmaps, Plots, Profiles, Venn diagrams Peak lists, bed files Differential Binding Analysis of transcript and etranscript data Chipster edger, limma Clusters, Heatmaps, Profiles, Plots, Peak lists, bed files

Globális magi Run-On esszé Analízis Annotáció Enhanszer transzkripció Promóter / TSS régió A divergens transzkripciós helyek predikciója Transzkript predikció 68

Globális magi Run-On esszé Analízis 129kb Annotáció RefSeq TSS 3 túlnyúló vég átfedés X A divergens helyek predikciója Intronikus enhanszerek TSS Intergenikus enhanszerek Transzkript predikció 69

Defining transcribed regions overlappin g etranscripti on Not active New transcript Paused, active 3 extended transcriptio n Not paused, Paused, activenon- active Paused, not active 70

Transcription activation in real time 30 min 60 min 120 min ~160 kb / h 10,000 bp/min 160 bp/sec

GRO-seq, RNA-seq and ChIP-seq shows the transcription start site (TSS) GRO-seq: divergent transcription ChIP-seq: H3K4me3

Gének közös promóterrel 73

Az egér makrofág naszcens transzkriptóm Egér genom 11.4 % 100 % 2,707.7 Mb 10.7 % Transzkript lefedettség a pozitív szálon Transzkript lefedettség a negatív szálon 11 % awk -F"\t" '{if ($6 == "+") sum += $3-$2} END{print sum}' /molbio/projects/ogrochip/annotation/gro/alltrs.bed 309567469 ~ 11.43 % awk -F"\t" '{if ($6 == "-") sum += $3-$2} END{print sum}' /molbio/projects/ogrochip/annotation/gro/alltrs.bed 290324671 ~ 10.72 % mergebed -i /molbio/projects/ogrochip/annotation/gro/alltrs.bed awk -F"\t" '{sum += $3-$2} END{print sum}' 556424718 ~ 20.55 % Transzkripció mindkét szálon: ~ 0.8 % 74

Mi a közös a három funkcionális genomikai módszerben bioinformatikai szempontból Mind a genomi DNS-t (ChIP-seq), mind az RNS-t (RNA-seq), mind a naszcens RNS-t (GRO-seq) 100-300 bp-os darabokra fragmentáljuk A könyvtárkészítés után hasonló DNS fragmenteket kapunk, amelyeket szekvenáló linkerek, primerek határolnak Egy (ChIP-seq, GRO-seq) vagy mindkét végét (RNA-seq) ezeknek a fragmenteknek megszekvenáljuk A következő lépés mindig a referencia genomra illesztés (kivéve RNA-seq de novo assembly) A ChIP-seq és GRO-seq esetében a cél csak a megszekvenált rövid read-ek pontos genomi localizációjának a meghatározása (elég 30-50 bp-t meghatározni) Az RNA-seq esetében kiványcsiak lehetünk a különböző splicing variánsokra, ezért célszerű hosszabb szekvenciákat leolvasni a fragmentumok mindkét oldaláról

NGS szoftverek az ngsdeb (Klinikai Genomikai Központ) szerveren Programs used for ChIP-seq, GRO-seq and RNA-seq analysis Other programs used for sequence analysis HOMER SAMTOOLS BOWTIE ChIPSEEQER BEDTOOLS BAMTOOLS TOPHAT TRINITYRNASEQ BWA MEME MACS FASTX-TOOLKIT Head Node: 2x6 core, 144GB RAM, 20 Tbyte PICARD disk 6x computing nodes: 2x6 core, 48GB RAM 600GB disk VCF-TOOLS VCFUTILS TABIX EMBOSS BLAST BLAST+ CBUST LASTZ MULTIZ BLAT WEEDER DIALIGN SRMA CLUSTALW GLAM2 76

ChIA-PET protocol Wet-lab portion of protocol Dry-lab portion of protocol Linker filtering Guoliang Li et. al Genome Biology PET mapping to reference genome PET clustering 77

Analysis pipeline Download data (SRA/ ENCODE) Filter data (300kbp < interactions) Assign CTCF motifs to interactions CTCF peak CT CF INTERACTION 1 INTERACTION 2 CT CF Interaction analysis: Visualization Meta analysis Heatmap analysis Annotation etc CT CF CT CF P-value: 1e-1653 T: 46.02 % B: 2.86% CT CF INTERACTION 3 CT CF 78

Köszönöm a figyelmet!