discosnp demo - Peterlongo Pierre 1 DISCOSNP++: Live demo

Hasonló dokumentumok
Mapping Sequencing Reads to a Reference Genome

Supplementary Figure 1

Forensic SNP Genotyping using Nanopore MinION Sequencing

Correlation & Linear Regression in SPSS

On The Number Of Slim Semimodular Lattices

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

SOPHOS simple + secure. A dobozba rejtett biztonság UTM 9. Kókai Gábor - Sophos Advanced Engineer Balogh Viktor - Sophos Architect SOPHOS

Széchenyi István Egyetem

Correlation & Linear Regression in SPSS

}w!"#$%&'()+,-./012345<ya

István Micsinai Csaba Molnár: Analysing Parliamentary Data in Hungarian

Klaszterezés, 2. rész

THS710A, THS720A, THS730A & THS720P TekScope Reference

Dependency preservation

Csima Judit április 9.

Word and Polygon List for Obtuse Triangular Billiards II

Tulajdonságalapú tesztelés

Kiegészítők telepítése Installing Addons

USER MANUAL Guest user

Create & validate a signature

Angol Középfokú Nyelvvizsgázók Bibliája: Nyelvtani összefoglalás, 30 kidolgozott szóbeli tétel, esszé és minta levelek + rendhagyó igék jelentéssel

Újraszabni Európa egészségügyét II. rész

VI. Az iskolában. Mit csinálsz az iskolában? Írok, olvasok, rajzolok, tornázom és énekelek. Mettől meddig vagy az iskolában? 7 óra 20 perctől egyig.

Energia automatizálás

Budapest By Vince Kiado, Klösz György

Sebastián Sáez Senior Trade Economist INTERNATIONAL TRADE DEPARTMENT WORLD BANK

Laborgyakorlat: Virtuális memória beállítások testreszabása

Genome 373: Hidden Markov Models I. Doug Fowler

FÖLDRAJZ ANGOL NYELVEN

Construction of a cube given with its centre and a sideline

16F628A megszakítás kezelése

Ültetési és öntözési javaslatok. Planting and watering instructions

FAMILY STRUCTURES THROUGH THE LIFE CYCLE

WHAT WE DO BEFORE THE EXCHANGE MIT CSINÁLTUNK A KÖZÖS MUNKA ELŐTT COSA ABBIAMO FATTO PRIMA DELLO SCAMBIO

BIZTONSÁGI ADATLAP. 1. Az anyag/keverék és a vállalat/vállalkozás azonosítása PV4421 FL-PGC1A PEPTIDE, 100 UM

Proxer 7 Manager szoftver felhasználói leírás

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

A BÜKKI KARSZTVÍZSZINT ÉSZLELŐ RENDSZER KERETÉBEN GYŰJTÖTT HIDROMETEOROLÓGIAI ADATOK ELEMZÉSE

Kezelési Útmutató DVR 411M Digitális rögzítő. (Cserélhető HDD-vel)

Effect of the different parameters to the surface roughness in freeform surface milling

Ellenőrző lista. 2. Hálózati útvonal beállítások, kapcsolatok, névfeloldások ellenőrzése: WebEC és BKPR URL-k kliensről történő ellenőrzése.

A rendıri korrupció háttere

Tudományos Ismeretterjesztő Társulat

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

Meteorológiai ensemble elırejelzések hidrológiai célú alkalmazásai

(NGB_TA024_1) MÉRÉSI JEGYZŐKÖNYV

T Á J É K O Z T A T Ó. A 1108INT számú nyomtatvány a webcímen a Letöltések Nyomtatványkitöltő programok fülön érhető el.

11. Gyakorlat: Certificate Authority (CA), FTP site-ok

20 éves a Térinformatika Tanszék

Tudományos Ismeretterjesztő Társulat

Választási modellek 3

INDEXSTRUKTÚRÁK III.

Kúpos illesztőszeg DIN 1 A 1 A 4 ISO 2339 UNI. Kúpos illesztőszeg. 1) This size is not DIN standardised. NB

LabVIEW Academy. 6. óra state machine

Márkaépítés a YouTube-on

i1400 Image Processing Guide A-61623_zh-tw

CLUSTALW Multiple Sequence Alignment

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

3. Gyakorlat ellenőrzés nélküli osztályozás

Prémium WordPress havi jelentés

Lopocsi Istvánné MINTA DOLGOZATOK FELTÉTELES MONDATOK. (1 st, 2 nd, 3 rd CONDITIONAL) + ANSWER KEY PRESENT PERFECT + ANSWER KEY

Adatbázis-kezelés ODBC driverrel

3. MINTAFELADATSOR KÖZÉPSZINT. Az írásbeli vizsga időtartama: 30 perc. III. Hallott szöveg értése

1. Gyakorlat: Telepítés: Windows Server 2008 R2 Enterprise, Core, Windows 7

Supporting Information

Using the CW-Net in a user defined IP network

Számítógépes Hálózatok GY 8.hét

Alkalmazás-shop (Internet-kapcsolat szükséges)

Több app. Egy kódbázis

SQL/PSM kurzorok rész

KN-CP50. MANUAL (p. 2) Digital compass. ANLEITUNG (s. 4) Digitaler Kompass. GEBRUIKSAANWIJZING (p. 10) Digitaal kompas

7 th Iron Smelting Symposium 2010, Holland

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

APB mini PLC és SH-300 univerzális kijelző Általános használati útmutató

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

SOLiD Technology. library preparation & Sequencing Chemistry (sequencing by ligation!) Imaging and analysis. Application specific sample preparation

4. Gyakorlat: Csoportházirend beállítások

2. lépés: openssh szerver telepítés sudo apt-get install openssh-server

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

IKR Agrár Kft. biztonsági elemzése Füzesabony Területi Központ

openbve járműkészítés Leírás a sound.cfg fájlhoz használható parancsokról

Java-ról Kotlinra. Ekler Péter AutSoft BME AUT. AutSoft

Rákospalota, Kossuth utca Angyalföld kocsiszín

Nagios NSCA Indirect Monitoring, Passive Check

Ensemble Kalman Filters Part 1: The basics

Imperatív programozás

1. Ismerkedés a Hyper-V-vel, virtuális gépek telepítése és konfigurálása

YouTube képzés. Valu Róbert Digital Consultant Google Magyarország

Négy Csatornás Digitális Képrögzítő

Hasznos és kártevő rovarok monitorozása innovatív szenzorokkal (LIFE13 ENV/HU/001092)

Pótalkatrész Katalógus Kuplungmatika

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Hypothesis Testing. Petra Petrovics.

Think customer Hatékony ügyfélszolgálat és megvalósítási módszertan. WorkShop

Statistical Inference

GYVITELTECHNIKAI M SZER SZ

Utolsó módosítás:

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

168 AV6 TÍPUS AV6 TYPE. Vezeték. max hossz Rail max length. Cikkszám Code. Alkatrészek Components

Átírás:

discosnp demo - Peterlongo Pierre 1 DISCOSNP++: Live demo

Download and install

discosnp demo - Peterlongo Pierre 3 Download web page: github.com/gatb/discosnp Chose latest release (2.2.10 today)

discosnp demo - Peterlongo Pierre 4 Install Uncompress the downloaded file: tar xvzf DiscoSNP.-v2.2.10-Source.tar.gz cd DiscoSNP++-v2.2.10-Source/ Compile all tools: sh INSTALL *** Test: OK

First tests

discosnp demo - Peterlongo Pierre 6 Tests from the README Test1 README File indicates:./run_discosnp++.sh -r test/fof.txt T Let s look what s in test/fof.txt: more test/fof.txt reads_sequence1.fasta.gz reads_sequence2.fasta.gz./run_discosnp++.sh -r test/fof.txt T fasta of predicted variant is "discores_k_31_c_auto_d_100_p_1_b_0_coherent.fa" Ghost VCF file (1-based) is "discores_k_31_c_auto_d_100_p_1_b_0_coherent.vcf"

discosnp demo - Peterlongo Pierre 7 Tests from the README Test1 (head of the) generated fasta file: >SNP_higher_path_3 P_1:30_C/G high nb_pol_1 left_unitig_length_86 right_unitig_length_261 left_contig_length_166 right_contig_length_761 C1_124 C2_0 Q1_0 Q2_0 G1_0/0:10,378,2484 G2_1/1:2684,408,10 rank_1 cggaattgctatagcccttgaacgctacatgcacgataccaagttatgtatggaccgggtcatcaataggttatagccttgtagttaacatgtagcccggccctattagtacagtag tgccttcatcggcattctgtttattaagttttttctacagcaaaacgatcaagtgcacttccacagagcgcggtagagactcatccacccggcagctctgtaatagggactaaaaaa gtgatgataatcatgagtgccgcgttatggtggtgtcggatcagagcggtcttacgaccagtcgtatgccttctcgagttccgtccggttaagcgtgacagtcccagtgaacccaca aaccgtgatggctgtccttggagtcatacgcaagaaggatggtctccagacaccggcgcaccagttttcacgccgaaagcataaacgacgagcacatatgagagtgttagaactgga cgtgcggtttctctgcgaagaacacctcgagctgttgcgttgttgcgctgcctagatgcagtgtcgcacatatcacttttgcttcaacgactgccgctttcgctgtatccctagaca gtcaacagtaagcgctttttgtaggcaggggctccccctgtgactaactgcgccaaaacatcttcggatccccttgtccaatctaactcaccgaattcttacattttagaccctaat atcacatcattagagattaattgccactgccaaaattctgtccacaagcgttttagttcgccccagtaaagttgtctataacgactaccaaatccgcatgttacgggacttcttatt aattcttttttcgtgaggagcagcggatcttaatggatggccgcaggtggtatggaagctaatagcgcgggtgagagggtaatcagccgtgtccaccaacacaacgctatcgggcga ttctataagattccgcattgcgtctacttataagatgtctcaacggtatccg >SNP_lower_path_3 P_1:30_C/G high nb_pol_1 left_unitig_length_86 right_unitig_length_261 left_contig_length_166 right_contig_length_761 C1_0 C2_134 Q1_0 Q2_0 G1_0/0:10,378,2484 G2_1/1:2684,408,10 rank_1 cggaattgctatagcccttgaacgctacatgcacgataccaagttatgtatggaccgggtcatcaataggttatagccttgtagttaacatgtagcccggccctattagtacagtag tgccttcatcggcattctgtttattaagttttttctacagcaaaacgatcaagtgcacttccacagagcgcggtagagagtcatccacccggcagctctgtaatagggactaaaaaa gtgatgataatcatgagtgccgcgttatggtggtgtcggatcagagcggtcttacgaccagtcgtatgccttctcgagttccgtccggttaagcgtgacagtcccagtgaacccaca aaccgtgatggctgtccttggagtcatacgcaagaaggatggtctccagacaccggcgcaccagttttcacgccgaaagcataaacgacgagcacatatgagagtgttagaactgga cgtgcggtttctctgcgaagaacacctcgagctgttgcgttgttgcgctgcctagatgcagtgtcgcacatatcacttttgcttcaacgactgccgctttcgctgtatccctagaca gtcaacagtaagcgctttttgtaggcaggggctccccctgtgactaactgcgccaaaacatcttcggatccccttgtccaatctaactcaccgaattcttacattttagaccctaat atcacatcattagagattaattgccactgccaaaattctgtccacaagcgttttagttcgccccagtaaagttgtctataacgactaccaaatccgcatgttacgggacttcttatt aattcttttttcgtgaggagcagcggatcttaatggatggccgcaggtggtatggaagctaatagcgcgggtgagagggtaatcagccgtgtccaccaacacaacgctatcgggcga ttctataagattccgcattgcgtctacttataagatgtctcaacggtatccg

discosnp demo - Peterlongo Pierre 8 Tests from the README Test1 (head of the) generated fasta file: >SNP_higher_path_3 P_1:30_C/G high nb_pol_1 left_unitig_length_86 right_unitig_length_261 left_contig_length_166 right_contig_length_761 C1_124 C2_0 Q1_0 Q2_0 G1_0/0:10,378,2484 G2_1/1:2684,408,10 rank_1 cggaattgctatagcccttgaacgctacatgcacgataccaagttatgtatggaccgggtcatcaataggttatagccttgtagttaacatgtagcccggccctattagtacagtag tgccttcatcggcattctgtttattaagttttttctacagcaaaacgatcaagtgcacttccacagagcgcggtagagactcatccacccggcagctctgtaatagggactaaaaaa gtgatgataatcatgagtgccgcgttatggtggtgtcggatcagagcggtcttacgaccagtcgtatgccttctcgagttccgtccggttaagcgtgacagtcccagtgaacccaca aaccgtgatggctgtccttggagtcatacgcaagaaggatggtctccagacaccggcgcaccagttttcacgccgaaagcataaacgacgagcacatatgagagtgttagaactgga cgtgcggtttctctgcgaagaacacctcgagctgttgcgttgttgcgctgcctagatgcagtgtcgcacatatcacttttgcttcaacgactgccgctttcgctgtatccctagaca gtcaacagtaagcgctttttgtaggcaggggctccccctgtgactaactgcgccaaaacatcttcggatccccttgtccaatctaactcaccgaattcttacattttagaccctaat atcacatcattagagattaattgccactgccaaaattctgtccacaagcgttttagttcgccccagtaaagttgtctataacgactaccaaatccgcatgttacgggacttcttatt C1, C2,, see read_files_correspondance.txt : C_1 test/reads_sequence1.fasta.gz C_2 test/reads_sequence2.fasta.gz aattcttttttcgtgaggagcagcggatcttaatggatggccgcaggtggtatggaagctaatagcgcgggtgagagggtaatcagccgtgtccaccaacacaacgctatcgggcga ttctataagattccgcattgcgtctacttataagatgtctcaacggtatccg >SNP_lower_path_3 P_1:30_C/G high nb_pol_1 left_unitig_length_86 right_unitig_length_261 left_contig_length_166 right_contig_length_761 C1_0 C2_134 Q1_0 Q2_0 G1_0/0:10,378,2484 G2_1/1:2684,408,10 rank_1 cggaattgctatagcccttgaacgctacatgcacgataccaagttatgtatggaccgggtcatcaataggttatagccttgtagttaacatgtagcccggccctattagtacagtag tgccttcatcggcattctgtttattaagttttttctacagcaaaacgatcaagtgcacttccacagagcgcggtagagagtcatccacccggcagctctgtaatagggactaaaaaa gtgatgataatcatgagtgccgcgttatggtggtgtcggatcagagcggtcttacgaccagtcgtatgccttctcgagttccgtccggttaagcgtgacagtcccagtgaacccaca aaccgtgatggctgtccttggagtcatacgcaagaaggatggtctccagacaccggcgcaccagttttcacgccgaaagcataaacgacgagcacatatgagagtgttagaactgga cgtgcggtttctctgcgaagaacacctcgagctgttgcgttgttgcgctgcctagatgcagtgtcgcacatatcacttttgcttcaacgactgccgctttcgctgtatccctagaca gtcaacagtaagcgctttttgtaggcaggggctccccctgtgactaactgcgccaaaacatcttcggatccccttgtccaatctaactcaccgaattcttacattttagaccctaat atcacatcattagagattaattgccactgccaaaattctgtccacaagcgttttagttcgccccagtaaagttgtctataacgactaccaaatccgcatgttacgggacttcttatt aattcttttttcgtgaggagcagcggatcttaatggatggccgcaggtggtatggaagctaatagcgcgggtgagagggtaatcagccgtgtccaccaacacaacgctatcgggcga ttctataagattccgcattgcgtctacttataagatgtctcaacggtatccg

discosnp demo - Peterlongo Pierre 9 Tests from the README Test1 (head of the) generated VCF file: #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT G1 G2 SNP_higher_path_3 196 3 C G.. Ty=SNP;Rk=1;UL=86;UR=261;CL=166;CR=761;Genome=.;Sd=. GT:DP:PL:AD:HQ 0/0:124:10,378,2484:124,0:0,0 1/1:134:2684,408,10:0,134:0,0

discosnp demo - Peterlongo Pierre 10 Tests from the README Test2./run_discoSnp++.sh -r test/fof.txt T G test/ reference_genome.fa fasta of predicted variant is "discores_k_31_c_auto_d_100_p_1_b_0_coherent.fa" VCF file (1-based) is "discores_k_31_c_auto_d_100_p_1_b_0_coherent.vcf" Must have BWA installed An IGV ready VCF file (sorted by position, only mapped variants, 0- based) is "discores_k_31_c_auto_d_100_p_1_b_0_coherent_for_igv.vcf"

discosnp demo - Peterlongo Pierre 11 Tests from the README Test2./run_discoSnp++.sh -r test/fof.txt T G test/reference_genome.fa fasta of predicted variant is "discores_k_31_c_auto_d_100_p_1_b_0_coherent.fa" VCF file (1-based) is "discores_k_31_c_auto_d_100_p_1_b_0_coherent.vcf" An IGV ready VCF file (sorted by position, only mapped variants, 0- based) is "discores_k_31_c_auto_d_100_p_1_b_0_coherent_for_igv.vcf"

discosnp demo - Peterlongo Pierre 12 Tests from the README Test2 (head of the) generated VCF file: #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT G1 G2 chromosome 117 3 C G. PASS Ty=SNP;Rk=1;UL=86;UR=261;CL=166;CR=761;Genome=C;Sd=1 GT:DP:PL:AD:HQ 0/0:124:10,378,2484:124,0:0,0 1/1:134:2684,408,10:0,134:0,0

discosnp demo - Peterlongo Pierre 13 Tests from the README Test2 Two VCF files coherent.vcf = all predicted variants, sorted by rank coherent_for_igv.vcf = mapped variants, sorted by mapping pos.

Main options

discosnp demo - Peterlongo Pierre 15./run_discoSnp++.sh h (overview) bubble predictions -r <string> read_file_of_files (mandatory) -k <int> kmer size -c <list of int> solidity threshold(s) -b <int> branching strategy (0,1 or 2) -D <int> max size of searched indels -P <int> max nb close SNPs in a bubble -l remove low complexity bubbles -t or T extend bubbles to unitigs or contigs -g reuse a previously created graph VCF creation -G <string> file of reference genome -R add the reference genome to the graph Many other cosmetic options

discosnp demo - Peterlongo Pierre 16 File of files (fof) read set data set Each line of the called fof is a read set Example of two read sets : fof.txt: dataset_reads1.fa dataset_reads2.fa Example of one read set composed of two data sets: fof.txt: fof_two_sets.txt fof_two_sets.txt: dataset_reads1.fa dataset_reads2.fa Example of two read sets each composed of two datasets fof.txt: fof_two_sets_1.txt fof_two_sets_2.txt fof_two_sets_1.txt: dataset_reads1_1.fa dataset_reads1_2.fa fof_two_sets_2.txt: dataset_reads2_1.fa dataset_reads2_2.fa

Larger test

discosnp demo - Peterlongo Pierre 18 Data & validator www.irisa.fr/symbiose/people/ppeterlongo/demo_disco/validator_5m.zip Data: First 5M nucleotides from human chromosome1 Simulated individuals Uses 1000 genome project variant predictions Simulated reads 40x 100 bp reads 0.1% error rate Validator compares predictions to known simulated variants: Simulated variants discosnp++ predictions FN TP FP

discosnp demo - Peterlongo Pierre 19 First test Create the file of file: ls humch1_0*> fof Run disco:../run_discosnp++.sh -r fof -G humch1_first_5m.fasta Validate results:./validator_vcf.sh discores_k_31_c_auto_d_100_p_1_b_0_coherent_for_igv.vcf

discosnp demo - Peterlongo Pierre 20 First test -- Validation The validation creates (among others) 3 files: discores_k_31_c_auto_d_100_p_1_b_0_coherent.log: ------------------------------- SNP 7372 SNP in the reference. Among them 4861 are correctly predicted 5674 SNP were predicted. Among them 4861 are correctly mapped SNP precision 85.67 SNP recall 65.94 Simulated variants 2511 4861 813 discosnp++ predictions ------------------------------- INDEL 550 INDEL in the reference. Among them 339 are correctly predicted 433 INDEL were predicted. Among them 339 are correctly mapped INDEL precision 78.29 INDEL recall 61.64

discosnp demo - Peterlongo Pierre 21 First test -- Validation The validation creates (among others) 3 files: discores_k_31_c_auto_d_100_p_1_b_0_coherent.png:

discosnp demo - Peterlongo Pierre 22 First test -- Validation The validation creates (among others) 3 files: discores_k_31_c_auto_d_100_p_1_b_0_coherent_stat.png:

discosnp demo - Peterlongo Pierre 23 Play with parameters b (branching strategy) Don t forget the g option! the graph does not depend on this parameter. -g avoids to reconstruct the graph unless it s necessary

discosnp demo - Peterlongo Pierre 24 Play with parameters b (branching strategy) b=0 SNP precision 85.71 SNP recall 65.97 INDEL precision 80.62 INDEL recall 61.27 D=10, k=31, (c=3) b=1 SNP precision 79.71 SNP recall 77.54 INDEL precision 59.92 INDEL recall 79.09 b=2 SNP precision 14.21 SNP recall 83.99 INDEL precision 18.63 INDEL recall 81.27

discosnp demo - Peterlongo Pierre 25 Play with parameters k k=21 (c=7) SNP precision 75.29 SNP recall 73.03 INDEL precision 33.51 INDEL recall 68.73 D=10, b=1 k=31 (c=3) SNP precision 79.71 SNP recall 77.54 INDEL precision 59.92 INDEL recall 79.09 k=61 (c=3) SNP precision 72.64 SNP recall 26.90 INDEL precision 61.18 INDEL recall 26.36

discosnp demo - Peterlongo Pierre 26 Play with parameters c (solidity threshold) c=1 SNP precision 0.57 SNP recall 25.65 INDEL precision 15.49 INDEL recall 39.27 D=10, b=1, k=31 c=3 (auto) SNP precision 79.71 SNP recall 77.54 INDEL precision 59.92 INDEL recall 79.09 c=5 SNP precision 79.71 SNP recall 72.88 INDEL precision 58.12 INDEL recall 75.45

discosnp demo - Peterlongo Pierre 27 Play with parameters P (nb close SNPs) P=1 (default) SNP precision 79.71 SNP recall 77.54 INDEL precision 59.92 INDEL recall 79.09 P=3 SNP precision 72.52 SNP recall 88.55 INDEL precision 60.33 INDEL recall 79.64 D=10, b=1, k=31, c auto (=3) P=10 SNP precision 65.45 SNP recall 88.85 INDEL precision 59.92 INDEL recall 79.09

Limitations

discosnp demo - Peterlongo Pierre 29 Dangerous parameters Large P Long enumeration of divergent paths Large D Long enumeration of divergent paths Small c Lot of spurious kmers. Long enumeration of non coherent paths b 2 branching strategy Enumeration of numerous paths