项目文章

Cox 比例风险分析

在一些癌症研究中,科研人员最关心的莫过于某些临床指标或药物处理能否显著延长生存周期。那如何从错综复杂的生理、病理数据中筛选到我们关注的生存状况信息呢?目前,大多数文章都会使用Cox比例风险模型,或者KM生存曲线来进行生存分析。今天我们就来看一下著名的Cox 比例风险模型。

 

Cox 比例风险模型介绍

Cox 比例风险模型(cox proportional-hazards model)简称Cox 模型,是英国统计学家 D.R.Cox(1972)提出的一种半参数回归模型[1],可以用来预测一个或多个不同变量在某一时间对死亡率的影响。它同时适用于数值变量和类别变量,可以同时评估几种风险因素对生存时间的影响,检验特定因素如何影响特定时间点特定事件(例如,感染,死亡)的发生率,因此广泛应用于生物医学的统计和分析。

 

在生存分析文献中,预测变量(或因子)通常称为协变量,发生率被称为风险率。Cox 模型核心是由h(t)表示的危险函数,可理解为在时间 t 死亡的风险,其模型算法[2]如下:

 

h(t)=h0(t)×exp(b1x1+b2x2+...+bpxp)

  • t 表示生存时间

  • h(t)是由一组 p 个协变量(x1,x2,...,xp)确定的危险函数

  • (b1,b2,...,bp)为自变量的偏回归系数

  • h0 称为基准风险,表示所有x都为0时的个体在t时刻瞬时的风险率/死亡率

exp(bi)为自变量bi的风险比,临床上将 HR>1 的自变量称之为坏预后因子,风险增加;HR<1 的自变量称之为好预后因子,风险降低;HR = 1表示无效因子。生存函数也称为积累生存函数/概率(Cumulative Survival Function)或生存率,记作 S(t),表示观察对象生存时间越过时间点 t 的概率,t=0 时生存函数取值为 1,随时间延长生存函数逐渐减小。以生存时间为横轴、生存函数为纵轴连成的曲线即为生存曲线(survival curve)。

 

简而言之,Cox模型是根据多种特征(即协变量xi),在一个随时间变化的基准风险函数基础上建立的多元线性回归模型,可以用来评估具有特定特征值的患者在某一时刻的瞬时风险概率。

 

分析结果

1) 我们先对输入建立Cox模型

输入文件格式见表1,第一列为序号,第二、第三列分别为生存时间(time)和生存状态(status,1/2),这三列为固定信息;表格后面每一列均为独立的预测变量。

表1  输入文件表格示例

 

然后根据模型计算得到的P值和风险率,将结果可视化为森林图和箱线图,示例如下:

图1 Cox模型 森林图

 

图2 Cox模型 箱线图

注:森林图中N为有效值样本数目,即剔除了因素的空值;箱线图上标注数值为该因素的P值。

 

2) 通过Cox模型找到感兴趣的危险因子

我们可以建立P<0.01每个因素的独立生存模型曲线,示例如下:

图3 性别因素 生存曲线

 

每个因素的Cox模型分析结果,示例如下表2,Type 指预测变量,HR (95% CI for HR) 指因素风险比例;不同因素独立的模型结果和总模型会有细微差异。

表2  Multi_Cox表格示例

 

数据深度挖掘和分析本身就是一项基础科研。PubMed显示,从2016年至今,每年都有6000篇以上文献涉及到Cox比例风险模型的分析。作为病患生存时间分析的利器,Cox模型也越发广泛的应用在社科研究中,例如工程失败时间,初次犯罪率统计等时间相关的分析中。

 

对此分析感兴趣的老师,欢迎联系我们哦!

 

参考文献

1. Cox DR (1972). Regression models and life tables (with discussion). J R Statist Soc B 34: 187&ndash;220

2. MJ Bradburn, TG Clark, SB Love and DG Altman. Survival Analysis Part II: Multivariate data analysis &ndash; an introduction to concepts and methods. British Journal of Cancer (2003) 89, 431 &ndash; 436

上一页:项目文章 | Genome Biol.:MeRIP-seq揭示水稻与病毒互作过程中m6A修饰的动态变化下一页:项目文章 | 欧易单细胞测序助力解析主动脉缩窄模型小鼠心脏CD72阳性巨噬细胞功能