常见问题
1.对于细菌基因组de novo测序,数据量有什么要求?
建议三代测序 100x 以上。同时建议同时进行二代测序 100x,以评估数据中杂菌的污染、及对组装结果进行校正。
2.细菌基因组de novo测序,是否可以组装出质粒?
在细菌内部包含部分质粒的,因此对于细菌基因组的de novo组装可以获得部分质粒的序列。但由于三代测序建库的长度选择、数据分析的参数设定等原因,不能保证组装出所有的质粒序列。
3.对于细菌基因组测序,三代和二代测序相比有何优势?
1)三代测序相比二代测序而言,其优势在于读长长,GC含量影响小,而劣势是测序成本偏高,错误率较高。
2)对于细菌基因组测序来说,三代测序的长读长可以解决细菌中的重复序列问题,也避免了异常GC菌株的测序不均匀问题。
3)由于细菌基因组较小,需要的测序量不大,对于较为精细的细菌完成图来说,三代成本甚至低于二代结合一代的策略。然而,在需要组装完整性较低的细菌框架图层面,二代测序仍能保持一定成本优势。
4.为什么选择三代测序平台?优缺点是什么?
受测序片段长度的限制,细菌基因组序列通常需要利用软件算法将大量测序片段拼接起来,而细菌基因组中重复序列的存在,则会大大增加拼接的复杂度。细菌重复序列的大小从几百bp到7 Kb不等,细菌框架图的插入片段,只能解决少量的重复片段问题,因此组装结果更加碎片化;而三代测序采用了10Kb文库,平均读长也达到10Kb以上,由于序列够长,避免了细菌基因组中重复序列的影响,因此能够获得0gap的完整组装结果。
优点:
1.读长长,大约在几十kb甚至100 kb
2.数据可实时读取
3.通量高
4.起始DNA在测序过程中不被破坏
5.样品制备简单
6.可直接测序RNA
缺点:错误率目前相比较高(1-4%),且是随机错误,而不是聚集在读取的两端。
Q5.在有杂菌污染的情况下,为什么得不到好的组装结果呢?
不同物种会有非常多的同源序列,高度相似序列会对组装软件产生干扰,而软件为保证组装的准确性,只能将可疑的部分切断成不同的碎片序列组装软件在组装过程中,是将测序数据看作来自同一个基因组的前提下进行组装的;如果有外源DNA污染,其中不同来源的DNA中会有不同程度的相似性序列和非相似性序列,这些复杂的关系会对组装软件产生干扰,而软件为保证组装的准确性,只能将可疑的部分切断成不同的碎片序列,导致最终组装结果只能获得碎片化的序列,而失去了组装本身想要达到的效果;
如果能够找到足够近缘的参考基因组用于污染分离,也可以对上述的结果进行一定程度的改善。然而,由于外源DNA本身可能携带一定的相似序列,并且目标基因组和参考基因组间会存在潜在的差异,进而导致分离的结果会产生一定的假阳性和假阴性。
综上所述,即使是在污染分离后进行组装,也是无法达到纯DNA的组装标准的。