项目文章

低深度重测序LcWGS干货系列


基因型填充的含义

基因型填充是一个根据参考面板(reference panel)中的单倍型和基因型预测和填充缺失基因型的过程。基因型填充是基于这样的假设,即两个个体,即使明显无关,在其基因组中共享来自遥远共同祖先的short panel。因此,可以通过包含大量标记的panel来推断一个样本中未观察到的基因型。大多数当代插补工具采用隐马尔可夫模型框架,从reference panel中估计单倍型推断基因型(r2显示出高度连锁不平衡)。

 

其实,简单来讲就是,根据样品中已知位点分型信息去reference panel(样品量足够大、品种足够多的包含各种组合可能的单倍型数据库)中匹配最相似的来填充样品中缺失基因型,其示意图如下:

图片说明:S1和S2代表样品,口 表缺失基因型,A、T、C、G代表已知基因型


 

基因型填充的意义


目前高通量SNP检测方法主要包括全基因组重测序(WGS)、SNP芯片、简化基因组测序等。其中全基因组重测序理论上能检测基因组范围的所有变异位点,但是测序成本高昂;SNP芯片检测标记数量有限、只能检测已有突变,目前商业化的SNP芯片只包含部分物种;简化基因组测序技术相较于SNP芯片,检测位点更多且不受物种限制,但只能检测基因组2%左右的变异位点。

 

有的同学说了,现在测序这么便宜,测个重测序还测不起么。一个两个、十个二十个当然测得起,但是对于全基因组关联分析(GWAS)和基因组选择(GS)应用而言,测序样本量一般都是几千甚至几万。这样的话,即使是基因组较小的水稻,那也是一笔不小的费用。

 

那么有什么省钱的方法么?当然有了,如果将SNP芯片、简化基因组测序等检测变异位点较少的技术,利用reference panel填充的方式达到WGS检测的位点数目不就好了么。这样,既省了钱又能拿到百万级、千万级的变异位点。

 

基因型填充方法

小编目前知道的填充方法有两种。

一种是基于任何技术得到的变异位点Variant Call Format (VCF)文件,基于reference panel对VCF进行填充,最终填充到位点数与reference panel相同。

 

另一种是基于低深度重测序(LcWGS)的方法,即同WGS一样对样品构建文库,但是测序只测1X甚至更低。分析上则利用比对后的bam文件以及reference panel对样品直接分型,最终获得与reference panel相同的位点数。

 

有同学问了,这两种方式哪种更好呢?小编认为第二种更有优势,原因有以下几点:

  1. VCF文件比bam信息含量更少;VCF只包含了突变位点,本次测序的群体中没有突变的位点被屏蔽或过滤掉,但这不意味着在其他群体中没有突变;

  2. bam文件中存储的reads,在R1和R2之间存在一定的相位信息,这些相位信息是极其重要的;

  3. LcWGS比其他技术得到的reads对基因组覆盖范围更广,这样与reference panel中有重叠的点会更多。

 

不同技术之间的比较

全基因组重测序、SNP芯片、简化基因组测序和低深度重测序技术比较如下:

 

reference pane

有同学说,你光说填充多好多好,没有panel怎么办呢?别急,华中农业大学构建了13种动物和12种植物的reference panel,并且数据库公开(感谢大佬),快去看看自己研究的物种在不在里边吧。现将网址附上:

 

动物   http://gong_lab.hzau.edu.cn/Animal_ImputeDB/#!/


 

植物   http://gong_lab.hzau.edu.cn/Plant_imputeDB/#!/

 


对于没有reference panel的物种,大家也不要急,有两种方法可供大家使用。一是可以参照华中农大文章的方法搜索已有的数据或自行测序,进行reference panel构建;二是可以省去构建reference panel步骤,参照STITCH等软件方法,通过大样本量低深度数据直接进行填充。

 

下节预告

下节将讲述填充准确性及分析方法,欢迎大家订阅。

 

参考文献

[1]Yang W , Yang Y , Zhao C , et al. Animal-ImputeDB: a comprehensive database with multiple animal reference panels for genotype imputation[J]. Nucleic Acids Research, 2019(D1):D1.

[2]Gao Y , Yang Z , Yang W , et al. Plant-ImputeDB: an integrated multiple plant reference panel database for genotype imputation[J]. Nucleic Acids Research, 2020.

[3]Peterson B K , Weber J N , Kay E H , et al. Double Digest RADseq: An Inexpensive Method for De Novo SNP Discovery and Genotyping in Model and Non-Model Species[J]. Plos One, 2012, 7:e37135.

[4]Mott, Richard, Flint, et al. Rapid genotype imputation from sequence without reference panels[J]. Nature Genetics, 2016.

 

 

 
 

近期活动

 

《报名开启 | 2021“单细胞与空间多组学技术应用”主题学术研讨会》(点击标题来报名参加吧~)

上一页:16S+代谢案例:FMT+低发酵性纤维改善代谢综合征患者胰岛素敏感性下一页:文献解读 | 复旦大学樊嘉院士团队通过单细胞测序描绘早期复发性肝癌肿瘤微环境特征