欧易生物

热门搜索关键词:转录组基因组甲基化酵母文库蛋白芯片

021-34781616

当前位置首页 » 新闻资讯 » 技术&解读&应用 » 对多组RNA测序数据的差异表达分析的方法评估

对多组RNA测序数据的差异表达分析的方法评估

返回列表 来源: 查看手机网址
扫一扫!对多组RNA测序数据的差异表达分析的方法评估扫一扫!
浏览:- 发布日期:2017-12-08 15:43:06【

序言

“Evaluation of methods for differential expression analysis on multi-group RNA-seq count data”于2015发表于《Bmc Bioinformatics》 杂志上,与目前大部分的差异表达分析流程不同,这篇文献不是比较两组测序数据,而是专注于三组数据之间的差异分析,并对比了9个R包中的12种流程,并得出结论——TCC包中基于DEGES的流程能有效地对三组数据进行差异分析,其中有少量生物学重复(2-6组生物学重复)的使用edgeR的DEGES流程(EEE-E),没有生物学重复的使用DESeq2的DEGES流程(SSS-S)。

介绍

一般来说,差异基因分析由两个步骤组成(数据标准化X和差异基因识别Y),每个R包都有自己的X-Y分析流程。其中数据标准化的目的是使所有样本间的非差异基因counts相似,然后得到p-values值来筛选出差异基因。

于是就提出了DEGES流程(the DEG elimination strategy),即在使用X-Y流程筛选出差异基因之后,去除这些差异基因重新对数据进行标准化,并根据再次标准化后的数据再次筛选差异基因。这个流程可以多次迭代,也就是X-(Y-X)n-Y流程,这篇文章中的评估中,n都取3。

DEGES流程的实现,就需要使用TCC这个R包。这个R包同时可以调用edgeR、DESeq和DESeq2的X-Y的步骤,其中edgeR-(edgeR-edgeR)3-edgeR(简称为EEE-E)流程就是X-(Y-X)n-Y的流程都使用edgeR包的函数,同理类推:DESeq-(DESeq-DESeq)3-DESeq(DDD-D)和DESeq2-(DESeq2-DESeq2)3-DESeq2(SSS-S)。同时TCC包可以用不同包的X-Y进行组合(X-(Y-X)n-Z),就有了DED-E等分析流程。

流程评估

表一是12种不同流程对不同条件下的100组模拟数据基因差异表达分析的评估。每组模拟数据有10000种基因,这里每组的生物学重复数量为3,下面的PDGE=5%和PDGE=25%分别代表在10000个基因的占比为5%或25%,其中PG1、PG2、PG3就是要进行差异分析的三组数据,后面的(33%、33%、33%)就是这些差异基因在三个组间的占比。而表中各个流程得到的数据是AUC值(The area under the curve),本文不详细展开,大家只需要知道这个数值越接近100,说明对应流程的差异表达分析流程越有效。

从该表能明显得出EEE-E的流程是在生物学重复为3时最有效的。同时在文献的附件中,有给出生物学重复为6时,EEE-E仍然是最有效的选择,但在生物学重复为9时,EBSeq包的效果却最好。

表二和表一相同,只不过是添加了TCC包组合不同流程的X-Y的结果。根据表二可以得出EEE-E和DED-E效果都不错,且相差不大,但是由于EEE-E是edgeR包的自然延伸,也就更加适用。同时还可以看出,这一系列流程中最后的得出差异基因的Y步骤对于流程的效果影响最大。

表三是没有生物学重复的情况下12种流程的效果比较,得出EDE-S和SSS-S是最有效的,但是SSS-S是DESeq2的自然延伸,也就更加适用。

结论

1. TCC包实施的DEGES方法可以有效地应用于多组数据(三组数据)的差异表达分析。且三种基于DEGES的流程(EEE-E,DDD-D和SSS-S)的AUC值总体上高于相应的基于非DEGES的流程:EE(edgeR),DD(DESeq)和SS(DESeq2)。

2. 在基于DEGES的X-YX-Z差异基因识别流程中,Z对于获得良好的差异基因识别结果是至关重要的。对于流程XYX-Z中的Z,当分别分析具有和不具有重复的三组数据时,分别使用E(EdgeR提供;表2得出)和S(DESeq2提供;表3得出)给出较高的AUC值。

3. 要分析有生物学重复的三组数据,建议使用TCC包中EEE-E流程;要分析没有生物学重复的三组数据,建议使用TCC包中SSS-S流程。

参考文献

Tang M, Sun J, Shimizu K, et al. Evaluation of methods for differential expression analysis on multi-group RNA-seq count data[J]. Bmc Bioinformatics, 2015, 16(1):360.