转录组建库起始量及不同建库试剂盒的系统比较-欧易生物

前言

随着二代测序技术的发展，转录组测序的应用越来越广泛。RNA seq是一个开放的平台，因为它不依赖基因组注释或预先定义的物种特异性探针进行转录检测，因此允许检测已知和新的转录本，包括突变体和稀有转录本以及基因的融合及可变剪切等信息。

随着技术的成熟，RNA-seq技术正越来越多地用于临床应用。例如，最近的乳腺癌指南支持使用基于mRNA测序结果的预后分析结合其他临床病理因素一起协助治疗。这些分析还可以提供一系列人类疾病如发育障碍，神经退行性疾病和癌症等相关的由可变剪切或结构变异导致的转录本变化。因此，RNA-seq很可能在不久的将来从一种发现工具过渡到一种具有临床应用价值的诊断工具，如患者分层、诊断和个性化治疗。

但是由于多种因素的影响，生产高质量的文库和数据就成为一项具有挑战性的任务。例如实验过程中rRNA的去除，FFPE样本抽提的RNA质量较差，流式分选细胞和少量组织的RNA量很低等因素都会影响后续的实验结果。当使用上述样本进行建库时，生产高质量的RNA-seq文库和高质量测序结果会存在一定的困难。

本文系统比较了三种RNA建库试剂盒（TruSeq，SMARTer和Ultra-Low SMARTer）及不同的RNA起始量的建库及测序情况，并做了系统的比较。

表1 | 三种试剂盒比较

PC：PCR循环数。对于超低量RNA建库试剂盒，第一位数字是LD-PCR（第一步）的循环数，第二位数字是PCR（第二步）的循环数。
所使用的RNA为人RNA，
A组：Human Universal Reference Total RNA；
B组：RNA from a pool of normal human brain tissues；
C组：=75% A+25% B；
D组：=25% A+75% B。

实验结果

数据质量

（1）数据产出

图1 | 各个文库的数据产出

从上图可知，在预期数据产出一致的情况下，RiboZ_sstotSmarter _10ng的数据产出是最少的。其次是RiboZ_sstotSmarter_100ng，其它几种文库的数据产出数据差异不大。

（2）基因组比对率

图2 | 基因组比对率

从上图可知无论使用多少RNA起始实验，sstotSmarter建库的基因组比对率普遍偏低。其它几种文库的基因组比对率都很高。

（3）dup率

图3 | 文库dup率

从图3可知，dup率最高的是RiboZ_sstotSmarter_10ng的文库，其dup值高达90%多，其次是RiboZ_sstotSmarter_10ng，平均dup值在60%以上。

（4）文库插入片段长度

图4 | 文库插入片段长度

从图4可知，文库片段插入长度在各个试剂盒间差异不大

（5）检测到的元件比例

图5 | 检测到的元件比例

从图5可知，不同的方法所建的文库检测到的基因间区、外显子区和内含子区的占比并不一致。其中mRNA建库方法检测到的外显子区比例远高于全转录组的方式。全转录组由于建库方式的影响，在测序数据中会有较高的基因间区和内含子区的比例。

基因检出数

图6 | 检出基因数

对不同组的数据截取不同的数据量进行分析，发现不同的建库方式对基因检出的数量影响相对小，而测序深度明显影响了基因检出的数量。

图7 | 不同类型基因检出比例

通过图7可知，两种建库方式检出最多的都是蛋白编码区，其中全转建库的非编码RNA的占比高于mRNA的建库方式。随着数据量的增加，在mRNA测序中，非编码RNA的检出占比有所升高，在两种建库方式中，假基因的检出占比较为恒定。由于A图是1μg起始，B图是100ng起始，从以上结果可知，RNA的起始量对各类RNA的检出影响不大。

基因覆盖区

图8 | 基因覆盖

随机取1000个基因进行gene body覆盖情况统计发现，1μg总RNA起始的mRNA建库数据出现了明显的3‘偏好，这是由polyA富集方式导致的。链特异性的全转建库数据则不会出现明显的3’偏好。对于低起始量（100ng and 10ng）的建库方式中，覆盖范围更加随机。

差异基因检出数

图9 | 差异基因检出数

A和B两组样本分别使用不同的建库试剂盒进行建库并测序，分析数据结果发现在A样本和B样本之间的差异基因随着测序深度的增加而增加，例如当随机抽取2X2M数据时，差异基因数有11059个，当数据增加到2X15M时，差异基因数量最多可达到17855个。所有建库方式中，只有RiboZ_sstotSmarter_10ng建库方式在增加数据量的情况下其差异基因不随之增加。RNA起始量的减少，在使用TruSeq建库方案时并不会引起明显的差异基因检出的下降，而Smarter建库的差异基因检出明显少于TruSeq的建库方案。

表2 差异基因检出数

表2中Set1是mRNATruseq_1ug建库方式A组和B组的差异基因个数为16983个，以这个差异列表为标准，将其他建库方式的A和B组的差异基因与对照的差异基因进行比对发现，mRNATruseq_1μg的数据结果和ssmRNAseq_1μg的差异结果重叠是最高的，达到91%，和ssmRNATruseq_100ng的差异结果重叠仅次于1μg起始，为89%。而通过去核糖体RNA方式建库（ssTotalRNATruseq_1μg和ssTotalRNATruseq_100ng）的数据结果则与对照差异基因的重叠分别为79%和84%，值得一提的是ssTotalRNATruseq_100ng建库结果和对照的差异基因的重叠高于1μg起始的数据结果。更换建库方式后的差异基因重叠则比较少，尤其RiboZ_ssTOtalSmarter_10ng，和对照只有26%的重叠了。

不同建库方法的结果聚类

图10 不同建库方法的聚类结果展示

图10 展示了本文的四个样本A、B、C和D采用不同建库方案的聚类结果。其中A组：Human Universal Reference Total RNA；B：RNA from a pool of normal human brain tissues；: C=75% A+25% B；D=25% A+75% B。从上图可见，建库方式和样本起始量对结果聚类虽然都有影响，但是样本的分组还是由RNA表达特点决定：AC组和BD组。这说明这两组RNA的数据确实存在较大差异。在两个小组内部，不同的建库方式再各自进行分组。这说明不同的建库方式对数据有直接影响。即使是不同的去rRNA的试剂盒也会影响样本的分组。

结论
综合全文结果来看：不同的RNA起始量，不同的试剂盒对数据结果都会有影响，影响程度大小不一。在设计课题时，仔细根据自己的实验目的选择合适的实验方法，而且同一个项目的实验流程保持一致也是获得可靠结果的重要因素。

引用文献

Marie-Ange Palestineomares，Cyril Dalmasso，Eric Bonnet., et,al., Systermatic analysis of TruSeq, SMARTer and SMARTer Ultra-Low RNA-seq kits for standard, low and ultra-low quantity samples, Scientific Repors, (2019)9:7550 | https://doi.org/10.1038/s41598-019-43983-0

新闻中心

产品动态

转录组建库起始量及不同建库试剂盒的系统比较