欧易生物

热门搜索关键词:转录组基因组甲基化酵母文库蛋白芯片

021-34781616

当前位置首页 » 新闻资讯 » 技术&解读&应用 » 测序儿女多奇志,不爱红妆爱组装

测序儿女多奇志,不爱红妆爱组装

返回列表 来源: 查看手机网址
扫一扫!测序儿女多奇志,不爱红妆爱组装扫一扫!
浏览:- 发布日期:2017-09-11 09:36:38【

在信息科技欠发达的早期,科学家们发明了引物步移技术,以上一段读长末尾已知序列为参考,设计下一段测序引物,通过步步为营的方式获得整段序列。为了提高工作效率,生物领域的科研工作者们采用了类似计算机领域的分治法思想,将整个基因组分割成多个小的片段,分别测序这些片段后,再将已知片段拼接。

分割的方式有多种,有的通过限制性内切酶,特定切断基因组中某些位点的双链;还有的通过物理打断的方式,例如超声波震荡,能够将基因组打碎成较小的片段。由于碱基种类只有四种,随着片段长度变小,重复序列变多,如何特异地获得整个序列,吸引了大批数学家。

兰德与沃特曼推导出,序列组装时基因组中每个碱基被测序到的次数服从泊松分布,通过片段读长、覆盖率与分辨率能够估计拼接片段大小,他们发现通过十乘的测序深度,可以获得整个片段信息。2乌科宁及其他实验室研究了组装时的计算复杂度,公式化为最短共有超串问题,即寻找一段最短字符串,使所有读长都是它的字串。3这种秉承奥卡姆剃刀原理的思想被业界所接受,然而最优解的寻找十分麻烦,需要检测指数增长的可能解。

目前常见求解方法有贪婪算法图论算法

贪婪算法通过连接最优匹配的两条读长获得新的读长,这种局部最优的方式能够在每次连接尽量逼近真实,比较有名的软件phrap4,TIGR Assembler 5与CAP6。

图论算法将字符串中的不同读长的连接问题转化成不同的顶点与路线,主要包括重叠布层一致图与德布鲁因图。假设每条读长为一个顶点,如果两条读长间有重叠,则通过两点之间的有向边表示,建立好所有读长间的重叠图后,开始寻找有向图的中最优读长的路径。理论上,可以通过动态规划的方式寻找重叠图的最优解,但会消耗较大计算空间与时间。

科学家们又提出德布鲁因法,先将所有读长打断成重叠的特定长度的字符串,已有读长的字符串为各自顶点,如果字符串为相邻读长重叠,则不同顶点间连接一条有向边,组装问题转化为欧拉路径问题,即寻找图中每条边仅一次访问的路径。这种并行的方式,随着二代测序的发展有了极大的推广,比较有名的软件包括AbySS7、ALLPATHS-LG8、SOAPdenovo9与Velvet10。

基因组的组装受很多因素影响,包括测序方式、数据质量、覆盖偏好与组装算法。组装通常包括以下步骤:读长质量错误矫正、长片段序列拼接、骨架拼接及缺口填补。由于当下流行的二代测序仪读长数倍短于一代测序手段,组装过程中长片段序列拼接最难11,而且整个组装质量的好坏受重复序列影响较大。

随着Oxford Nanopore,Helicos与PacBio公司的努力,单分子测序技术有了较大的发展,其中后两者测序读长有了显著的提升。以PacBio为例,其读长可以一万碱基以上,而且胸腺嘧啶胞嘧啶碱基覆盖较为均一。

与其他组装方式一样,PacBio也包括质量矫正、 序列组装、序列评估与组装优化等步骤。质量矫正除了通过三代测序数据外,可以通过Illumina的二代测序数据,其常用软件包括PBcR / PacBioToCA 12、LSC / LSCplus 13、LoRDEC14 、Proovread15 、ECTools 16与Jabba 17。

而常用PacBio组装软件包括HGAP18,19、Canu20、Falcon21与Miniasm22,其中HGAP只能组装小于两百兆的基因组,所列其他软件能够组装大基因组。

目前,二代测序三代测序的结合,有效地互补了优势,近些年发布了不少高质量的发现,而随着测序技术的进一步发展,将来人类对自然的认识,会更加的直接与清晰。

参考文献

1,Simpson Jared T & Pop Mihai, 2015, Annu. Rev. Genom. Hum. Genet.

2,Lander Eric & Waterman Michael S.,1988,Genomics

3,Maier D,1978,J. ACM4,http://www.phrap.org/phredphrap/phrap.html 5,Sutton GG et. al.,1995,Genome Sci. Technol.6,Huang X & Madan A,1999,Genome Res7,Simpson JT,et. al.,2009,Genome Res8,Gnerre, S. et al.,2011,Proc. Natl. Acad. Sci. USA9,Li, R. et al. ,2010,Genome Res.10,Zerbino, D.R. & Birney, E.,2008,Genome Res.11,Wei Fan & Ruiqiang Li Two,201212 ,.Konstantin Berlin et. al.,2015,Nat. Biotech.13 R. Hu et. al.,2016,BMC Bioinformatics14 L. Salmela & E. Rivals,2014,Bioinformatics15 Hackl T et. al. ,2014,Bioinformatics16https://github.com/jgurtowski/ectools 17 Giles Miclott et. al.,2015 WABI18https://github.com/PacificBiosciences/Bioinformatics-Training/wiki/HGAP 19 Chen-Shan Chin et. al.,2013,Nat. Method20 S. Koren et. al.,2017,Genome Research21 C. Chin et. al.,2016,Nat. Method22 Heng Li, 2016, Bioinformatics