随着测序技术的飞速发展,越来越多的物种基因组被揭秘。目前,基因组研究可谓热火朝天。了解一个物种就要从拿到它的基因组序列开始做起,拥有了一个物种的基因组,才能更好的制定后续研究方案。因此基因组测序现在已经成为生物学研究的一个重要手段。
然而,基因组的杂合度和重复序列对后续基因组组装有很大的影响,高杂合的基因组往往无法合并姊妹染色体,导致组装的结果偏大,而重复序列在组装中会被折叠,使组装中出现缺口、错误,导致组装的结果偏小。不同的生物体的基因组之间杂合率和重复序列含量差异巨大,因此在进行基因组测序前往往需要对基因组的特征进行调研,基因组survey便应运而生。
如何 survey分析?
提到基因组Survey分析就不得不提K-mer分布频率分析,这是目前最常用的基因组Survey方法。所谓K-mer分布频率分析,是先对物种进行二代测序,在测序数据的基础上,通过K-mer的相关分析,获取该物种基因组的大小、杂合度、重复序列比例等特征。
所谓K-mer,是指从一段连续的测序序列中迭代地选取长度为K个碱基的序列。即当一条reads的长度为L时,经过迭代选取会产生L-K+1个K-mer。如图1所示,第一行为测序获得的reads序列,长度L=9,当设定K=4时,可获得从第二行至第七行的6个K-mer序列。因此,当基因组测序产生的reads总数为n时,则基因组的K-mer总数Nk-mer=(L-K+1)* n。
图1 | K-mer示例图
我们一般选用17-mer来估算基因组大小,因为ATCG四种不同的碱基组成长度为17的核苷酸有4^17(17,179,869,184),足以覆盖一般物种的基因组大小。如果K-mer设置过大,则导致内存占用过多,设置过小,则不能保证K-mer在基因组中的独特性。基因组估计值可以用下面公式得到:
图2 | 基因组大小计算公式
Survey数据分析图
Survey数据分析包括对二代测序原始数据进行质控、检测数据是否存在污染、K-mer分析、基因组特征评估等。完成数据分析后会得到survey数据分析图。下面简单介绍一下survey分析图是如何解读的。
1.简单基因组的survey分析图:
在理想状态下,k-mer曲线服从泊松分布,即只会出现一个明显的主峰,若只有一个主峰,为纯合体或单倍体。因此,当基因组中不存在杂合区和重复序列,或者杂合度较低、重复序列在整个基因组中占比较少时,通常会看到如下图所示的K-mer频率分布图。
图3 | 简单纯合基因组的survey分析图
2.重复序列较多的基因组的survey分析图
基因组复制事件会使基因组中产生大量的重复序列,重复序列的存在使得基因组中某一个K-mer序列增多,即K-mer的出现频率增加。若存在一个主峰和一个次峰,且次峰的位置是主峰位置的2倍,说明一部分片段出现的期望值是大部分的两倍,这些片段为重复片段,次峰为重复峰,如图四所示。
图4 | 重复序列较多的基因组的survey分析图
3. 杂合度较高的基因组的survey分析图
在高杂合基因组中,序列中的杂合位点会使得K-mer分成两个部分,序列中某些碱基的覆盖深度也会相应减半。因此,与纯合序列相比,杂合片段中K-mer的覆盖深度会下降50%,说明部分片段出现的期望值是大部分的1/2,当序列有杂合时,包含杂合位点的K-mer 因为分成了两部分,所以出现频率变为一半,次峰为杂合峰。最终在K-mer曲线上表现为:在主峰前对应横坐标的1/2处出现一个小峰,且基因组的杂合度越高,该峰越明显。
图5 | 杂合度较高的基因组的survey分析图
总结
在利用二代数据进行基因组Survey时,借助K-mer分析能够初步获得基因组大小、重复序列比例、杂合度等信息。当然,在实际应用过程中,由于物种本身的特性,所得到的图形并不总是尽善尽美,还需要根据具体情况做进一步分析。
以上就是本文的主要内容啦,谢谢观看。
长按扫码咨询欧易生物技术工程师
猜你想看
1、干货分享 | 细胞通讯网络分析新成员,CellChat来报到!
4、叮叮叮~新知识已到达! 教你用scMetabolism做单细胞代谢分析
End本文系欧易生物原创