项目文章

欧易生物单细胞拟时序分析又一利器—Diffusion Map

目前在分析单细胞的高维表达数据时,都会通过降维聚类将复杂多维的数据转变到低维空间,以便我们进行可视化和进一步挖掘。常见的方法有基于线性分析来聚类区分,如主成分分析(PCA),独立成分分析(ICA)和线性判别分析 (LDA)等,还有根据特征信息来进行分群,例如 t分布-随机邻近嵌入(t-SNE),统一  流形逼近和投影 (UMAP)等。这些方法大多是区分离散亚群或者检测胞间临近关系,通常都没有保留细胞间的连续分化轨迹,当我们的研究对象为连续分化的细胞群,反而不希望出现明显区分的细胞簇。

那如何在区分细胞间差异的同时,又能最大限度保留其连续性呢?基于此研究目的,Laleh Haghverdi 团队提出基于内在扩散样动力学识别细胞分化轨迹的方法,并在Bioinformatics上发布了DiffusionMap软件。下面就让欧宝带您了解一下这款软件吧!

 

1.DiffusionMap算法简介

DiffusionMap (扩散映射)是一款R软件,通过高斯模型和马尔科夫模型,把单细胞(scRNA)表达矩阵的非线性结构映射为连续性结构,并关联至对应细胞分组。数据计算主要包括以下几步:

图1 | DiffusionMap 示意图

A.由四种不同细胞类型组成的 n × G 单细胞表达矩阵。矩阵右侧的最后一列代表每个细胞的类型;

B.在G维基因空间中,由高斯函数表示每个细胞。由于高斯波干扰,具有相对高概率密度的连续路径在数据流形上形成扩散路径;

C.计算 n × n 的细胞间马尔可夫转移概率矩阵;

D.马尔可夫转移矩阵的前两个特征向量(DC1和DC2)数据嵌入,它们对应了数据流形的最大扩散系数。DiffusionMap显示了四种细胞类型中细胞的连续流动趋势。

此外,团队也针对单细胞数据常见的零值、缺失值和采样密度异质性情况,对软件的计算模型和高斯kenralwidth 筛选进行了优化,确保在数据的遍历扩散过程是连续型的同时细胞之间的扩散距离仍然有较高的灵敏度。


此外,团队也针对单细胞数据常见的零值、缺失值和采样密度异质性情况,对软件的计算模型和高斯kenralwidth 筛选进行了优化,确保在数据的遍历扩散过程是连续型的同时细胞之间的扩散距离仍然有较高的灵敏度。
 

2.分析方法

2.1 DiffusionMap降维聚类

欧宝们已经将软件适配公司的分析流程,可以直接从上游单细胞数据提取表达信息(data)和元数据进行DiffusionMap降维聚类。分析中计算细胞距离使用欧式距离公式,主成分分析则采用PCA算法。

由图2和图3可以看出,测试数据中胚胎干细胞和诱导多能干细胞发育趋势比较接近,与远端的神经上皮细胞有明显的区别;3D交互降维聚类图可以自行旋转调整到合适的角度截图保存。这里也可以按照clusters 或者group等分组信息来展示。

图2 | DiffusionMap2D 和3D降维聚类图

图3 | DiffusionMap3D交互降维聚类图

2.2 特征向量提取和数据整合

降维聚类图的DC1-DC3,即为马尔可夫转移矩阵的特征值(类似于PC1,PC2,对整体数据的贡献度)。我们提取前三维特征值,根据特征值的排序预测每个细胞的发育状态。表1中pseudotime1 即为DC1中细胞排序得到的分化顺序,图4展示了不同分组不同维度的细胞分布情况。

图4 | Diffusion DC1-DC2 细胞排序

2.3 指定root展示

最后,可以根据先验信息来识别细胞流趋势的起点,指定数据中细胞分化起点并可视化展示不同条件下的发育变化。图5三个红点为root细胞中筛选的特征细胞,细胞由黑至黄逐渐的分化;图6的分组山脊图可以看出,胚胎干细胞大部分处于DPT趋势的初始阶段,iPS细胞则更多处于前中期,这也与部分研究认为iPS细胞保留了部分来源细胞特征的结果相符。

图5 | DPT 细胞流趋势轨迹

图6 | DPT趋势中不同分组的细胞分布

经过多种数据集的测试,DiffusionMap 在同源细胞不同的分化谱系中都有较好的表现。它可以通过扩散映射将空间距离转换为状态转移的概率,对不同分化路径中的细胞进行降维和排序,确定分化细胞的随机转移方向,进而预测细胞的发育轨迹并检测稀有种群。

参考文献:

[1]Laleh Haghverdi, Florian Buettner, Fabian J. Theis, Diffusion maps for high-dimensional single-cell analysis of differentiation data. Bioinformatics(2015)https://doi.org/10.1093/bioinformatics/btv325

[2]Coifman,R.R. , et al. Geometric diffusions as a tool for harmonic analysis and structure definition of data: Diffusion maps. National Academy of Sciences 21(2005).

[3]Kingman, J.F.C. Markov transition probabilities. Z. Wahrscheinlichkeitstheorie verw Gebiete 10, 87–101 (1968).

[4]Kang L, Gao S. Pluripotency of induced pluripotent stem cells. J Anim Sci Biotechnol. 2012 Feb 28;3(1):5. doi: 10.1186/2049-1891-3-5. PMID: 22958434; PMCID: PMC3415130.

详细技术请访问欧易生物官网

百度搜索欧易生物(oebiotech)

了解更多多组学技术

(单细胞测序)

上一页:拾贰月 | 欧易生物助力用户发文76篇!下一页:scCancer:单细胞肿瘤研究必备神器