欧易生物

热门搜索关键词:转录组基因组甲基化酵母文库蛋白芯片

021-34781616

当前位置首页 » 新闻资讯 » 技术&解读&应用 » 「干货集市」RNA测序数据分析的标准化方法综合评估

「干货集市」RNA测序数据分析的标准化方法综合评估

返回列表 来源: 查看手机网址
扫一扫!「干货集市」RNA测序数据分析的标准化方法综合评估扫一扫!
浏览:- 发布日期:2017-12-08 16:08:48【

序言

“A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis”发表于2013 的《Briefings in Bioinformatics

》 杂志上,这篇文献对TC,UQ,Med,DESeq,TMM,Q,RPKM等七种的数据标准化方法进行了综合评估,最终得出了结论--这七种方法中DESeq 和 TMM两种数据标准化方法是最可靠的。

介绍

目前转录组测序有不同的测序技术和方案,但他们都有相似的测序技术和方案:

(i)对short reads进行预处理(例如为了去除低质量序列等)并且map到参考基因组上;

(ii)估计基因的表达水平;

(iii)对测序数据标准化;

(iv)使用标准化数据来判定差异表达的生物学特征。

这篇文献专注于第三步--数据标准化。

所用数据

这是评估几种标准化方法所使用真实数据,包含物种、类型、基因数、库大小、测序仪等信息

标准化方法评估


这是小鼠数据标准化后的log2(counts+ 1)数值的箱线图。从图中可以看出TC和RPKM这两中标准化方法不能有效地消除组间差异。

这是七种数据标准化后方法后的数据的组内方差箱线图。明显看出Q方法得出的标准化数据组内差异较大。

这是七种标准化方法对人的测序数据标准化后,其管家基因在其组间的平均变异系数。众所周知,管家基因在各个细胞中的表达水平应该极为相似,从图中也可以判断出DESeq和TMM的标准化结果比其他5种更加可靠。

这是七种标准化方法最后的分析结果的一致性树状图。可以看出几种方法结果的相似情况。

这是使用模拟数据得出的七种方法结果的假阳性率分布情况图。图中每种方法的七条柱子分别是0%至30%不同比例的差异表达基因情况下的假阳性概率。

这是最终对七种标准化数据的评估结果。-代表不理想,+代表满意,++代表非常满意。可见,TMM和DESeq两种标准化方法在这七种中脱颖而出。

结论

1.在差异分析的背景下,RNA-seq数据的标准化是必不可少的。

2.总计数和RPKM两种标准化方法仍然被广泛使用,但明确是无效的,应该在差异分析的背景下被明确放弃。

3.只有DESeq和TMM标准化方法对不同的文库大小和不同的文库组成的标准化结果是可靠的,都是真正的RNA-seq数据标准化的典型。

参考文献

Dillies M A, Rau A, Aubert J, et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis[J]. Briefings in Bioinformatics, 2013, 14(6):671.