SEARCH
技术服务021-34781616

热门搜索关键词:转录组基因组甲基化酵母文库蛋白芯片

021-34781616

当前位置首页 » 新闻资讯 » 技术&解读&应用 » 「干货集市」三代基因组组装学习笔记1(文献阅读)

「干货集市」三代基因组组装学习笔记1(文献阅读)

返回列表 来源: 查看手机网址
扫一扫!「干货集市」三代基因组组装学习笔记1(文献阅读)扫一扫!
浏览:- 发布日期:2017-12-08 15:12:22【

摘自:2017-Best Practices for Whole Genome Sequencing Using the Sequel System

对于动植物基因组最新的Sequel试剂一个cell可以产生5~8G数据,在打断建库的时候建议是SMRTbell libraries (>30 kb) 。Read lengths averaging 10-15 kb can be routinely achieved, with the longest reads >60 kb. Furthermore, 50% of useable bases are in reads greater than 20 kb.

摘自:2016-Long-read sequence assembly of the gorilla genome

建立文库范围(20- 30 kbp inserts) 在打断成35 kbp背景下,运行时间为6个小时

使用RSII共测序了236 SMRT cells,83.7倍的数据。平均subread length 12.9 kbp

摘自:2015-Long-read sequencing and de novo assembly of a Chinese genome

平均测序深度7Kb, resulting in 5,843 contigs (N50 1⁄4 8.3 Mb),覆盖倍数为103X,使用的组装软件为修订后的FALCON(https://github.com/WGLab/EnhancedFALCON)

其中两个关键参数如下:

# The length cutoff used for seed reads used for initial mappinglength_cutoff = 6000

# The length cutoff used for seed reads usef for pre-assemblylength_cutoff_pr = 12000

摘自:2016-De novo assembly and phasing of a Korean human genome

拼接使用FALCON and Quiver 3,128 contigs with a contig N50 length of 17.9 Mb,平均测序长度为7K。

结合来自软件官方的建议:length_cutoff这个值可以设置的小一点例如接近平均长度,length_cutoff_pr这个值可以进行多多尝试几个值。

在这篇文章中length_cutoff选择的是10KB。如下图:Extended Data Figure 2

pa_concurrent_jobs控制的是一次向集群提交的任务数目。

pa_DBsplit_option对于大的基因组for large genomes, you should use -s400 (400Mb sequence per block),这个数值增大可以减少任务数,一般的可以设置为200,或者50.

pa_HPCdaligner_option控制的参数原先是dal已经被B取代,

--max_diff一般设置为平均覆盖度的2倍过滤那些两端差异覆盖大较大的reads因为这可能是重复序列

--min_cov一般设置为5是安全的

--max_cov一般为平均测序深度的3倍

摘自:2015-Single-molecule sequencing of the desiccation- tolerant grass Oropetiumthomaeum

如果拼接的基因组较小,HGAP的组装结果要好于Falcon.

三代测序可承诺指标:

摘自:2017-Improving and correcting the contiguity of long-read genome assemblies of three plant species using optical mapping and chromosome conformation capture data

测序试剂P6-C4,平均subread-length分别为:8.5 kb, 6.9 kb and 7.9 kb

本文共测序三个物种平均测序深度为:86x, 47x and 54x。本文分别使用了2种拼接方法:Falcon (v0.3.0) and PBcR (with Celera Assembler 8.3rc2) 。

首先对三代数据进行质控使用SMRT Analysis software (v2.3) 删除长度小于500或者是quality (QV) 小于80的subread.

文章中使用的一些脚本:https://github.com/wen-biao/OM-HiC-scaffolding

摘自:2015-BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs

评估基因组拼接的完整性使用的是BUSCO

摘自:2017-A High-Quality Genome Assembly of SMRT Sequences Reveals Long-Range Haplotype Structure in the Diploid Mosquito Aedesaegypti

测序建库20-30Kb,开机运行时间为6个小时,测序覆盖度110X,使用拼接软FALCON-Unzip,测序使用RSII

摘自:2017-Long-read assembly of the Aedesaegypti genome reveals the nature of heritable adaptive immunity sequences

测序深度76X,测序数据平均长度15.5 kb,subread平均长度为13.2kb,使用FALCON与Quiver进行基因组拼接。总共测序116个cell,其中84 cell >15Kb; 32 Cell>17Kb.

摘自:2017-High-quality, highly contiguous re-assembly of the pig genome

测序层数65X,使用Quiver对测序数据进行错误校正,Falcon进行拼接。再借助65X的数据使用PBJelly补洞。对组装结果纠错使用Arrow(基于65X),Pilon(40x PE Illumina)。

摘自:2017-The genome of Chenopodium quinoa

藜麦P6_C4试剂测序,数据平均长度12,444bp,平均软件使用的是(https://github.com/PacificBiosciences/smrtmake) ,read过滤使用的参数是filter='MinReadScore=0.80,MinSRL=500,MinRL=100' ,拼接软件使用的是Celera Assembler,polish最后使用的是quiver。

欧易生物

技术热线:021-34781616 咨询热线:4006-4008-26

上海市闵行区新骏环路138号5幢3层
service@oebiotech.com
欧易生物
欧易生物微信公众号
沪ICP备-050455 网站地图  Copyright © 2016 上海欧易生物医学科技有限公司 保留所有权利