疾病分析统计数据库
Tel : 400-6010-180
Statistics
Buckley-James模型在生存分析中的应用
Buckley-James模型在生存分析中的应用
中山大学公共卫生学院统计教研室 陈兵 骆福添
【摘要】 目的 探讨Buckley-James模型在生存分析中的应用。方法介绍Buckley-James模型的计算、发展以及程序的实现,用一实例比较了Buckley-James模型和Cox模型。结果在不符合比例风险的前提下,Buckley-James模型的结果要比Cox模型准确。结论Buckley-James模型有着很好的统计学特性,它是Cox模型在不满足比例风险假定时的主要替代模型之一。
【关键词】 Buckley-James模型 Cox模型 比例风险 生存分析
中图分类号:R195. 1 文献标识码:A 文章编号: 1006-5253(2006)02-0138-03
Application ofBuckley-Jam es model in survival analysis CHEN Bing, LUO Fu-tian. SUN YAT-SEN University, Guang-zhou,510080
【Abstract】 Objective To explore the application ofBuckley-Jamesmodel in survivalanalysis.M ethods We introduce the algorithm, development and the computerprogram ofBuckley-Jamesmodel and compare itwith Coxmodel through a real example.Results The results ofBuckley-Jamesmodel ismore reliable than Coxmodelwhen dissatisfying the proportionalhazard assume.Conclusion Buckley-Jamesmodel showed good statisticalproperties underusual regularity conditions, andwas used as an alternative to the popularCoxmodelwhen dissatisfying the proportional hazard assume.
【Key words】 Buckley-Jamesmodel Coxmodel Survival analysis Proportional hazard
Cox比例风险模型是生存分析中常用的多元分析方法之一[1, 2],它假设任意两个对象死亡风险比与这两个对象的预后因素呈指数关系,并且不随追踪时间变化而变化。但少数情况下该假设不能得到满足,这时Cox模型不再适用。1979年Buckley和James[3]提出了对于右删失数据的线性回归模型,简称BJ模型。它的估计方法是普通最小二乘法的一种扩展方法。20世纪80年代Weissfeld和Schneider[4], Heller和Simo-noff[5]等通过模拟研究,比较了BJ模型和其他一些回归模型,结果都显示BJ模型的统计学特性要优于其它模型,比如,Atikin(1981)[6],Koul e.t al(1981)[7],Leurgans(1987)[8]等。BJ模型是Cox模型的主要替代模型。特别地,Heller和Simonoff[5]讨论了如何在BJ模型和Cox模型中做出恰当的选择。通过比较,他们认为到底选择哪一种方法要根据数据的删失比例、回归的效率、删失数据和完整数据的分布形式。*
1 Buckley-James模型[3]
模型假定时间T,或者其单调变换(如对数变换),和协变向量X线性相关。因此,当Ti是n个非删失的生存时间,Xi是协变向量,我们可以拟合以下的线性回归方程:
Ti=α+β′Xi+εi i=1,…,n (1)
其中εi为误差,其均数为0、方差为σ2,εi独立同分布,具有分布函数F。当存在删失的情况下,个体观察值是(Mi,δi,Xi),其中Mi=min(Yi,Ci), Yi是实际失效时间或者其单调变换,Ci是删失时间或者其单调变换,δi为删失指数,δi=1(Yi≤Ci)时,Mi为完整数据。式(1)的普通最小二乘方法不适用于Mi,Buckley和James定义了一个伪随机变量Y*i,
Y*i=Miδi+E(Yi|Yi>Mi)(1-δi) (2)
用Y*i代替Mi,然后用最小二乘法求α^和β^。要做到这一点我们必须要估计删失的生存时间变量Mi的期望E(Yi|Yi>Mi)。我们用下式估计:
y*i=Miδi+(β′xi+∑εj>εiωjεi 1-F^(εi))(1-δi) (3)
F^是残差ε的分布函数的KM估计值。ωj是F^的跳跃值,通过这种方法我们不需要依赖残差分布的假定。如果我们可以观察到Y*i,那么β^合理的估计应该是:
β^=(X-x)′y*(β^)(X-x)′(X-x) (4)
X是协变量矩阵,x是协变量均值向量,x=n-1∑ixij(i=1,…,n)。Y*i是β^的函数,而β^又是Y*i的函数,所以只能通过迭代求解。
2 Buckley-James模型的程序实现[9]
2001年Stare等编写了BJ模型的S-Plus程序,运用这一程序用户可以完成对该模型的系数估计、诊断、统计推断、图形的拟合等。这为BJ模型在实际中应用打下了坚实的基础。
为了阐明BJ模型的程序实现,我们用经典的斯坦福心脏移植患者生存数据[10]作为例子,这项研究开始于1967年10月,1984年2月结束,期间有184名患者接受了心脏移植手术,并对其随访观察。数据中包括生存时间、结局、患者的年龄、心脏捐献者和病人的组织排斥反应得分,这里我们要将生存时间取以10为底的对数。
我们首先拟合生存时间对年龄及排斥反应得分的线性模型,结果见表1:
表1 年龄及排斥反应得分的线性模型拟合结果
很显然,排斥反应得分离有统计学意义还差很远,所以在这里我们只关注年龄这个变量。因为对于生存数据来说,一般的散点图或残差图并不能提供太多的信息,所以并不能验证该数据是否适用于线性模型。我们可以通过S-plus程序给出BJ模型散点图,见图1、2。图1是原始数据的散点图(圆圈代表删失数据,黑点代表完整数据),在图2中,删失的点被上移到其期望位置,竖线代表移动的路径。
图1 原始数据散点图
图2 期望散点图
期望散点图提示年龄和生存时间的趋势不是线性的,接下来我们来拟合年龄的二项式模型,结果见表2。
表2 年龄的二项式模型拟合结果
其中年龄和年龄2的检验都有统计学意义。图3
是通过该二项式模型绘制出的生存时间预测图,其中y轴为生存时间的对数。
图3 二项式模型的生存时间预测图
该图形的趋势与期望散点图中的趋势更加吻合。最后我们可以绘制列线图(图4)来对BJ模型作一个综合的描述,运用列线图我们可以通过年龄和排斥反应得分预测生存时间的对数或生存时间。在图中首先通过年龄(age)和排斥反应得分(t5)的取值分别得到一个得分(points),再将两个得分相加得到一个总的得分(total points),根据总得分我们就可以预测其生存时间了。
图4 预测列线图
图5 乘积极限法估计生存率
3 实例分析
90例胃癌病人按随机化分配为单纯化疗组与联合治疗组(化疗+放疗) ,每组各45例病人的生存时间见表3。数据来源于余松林编著《临床随访资料的统计分析方法》[11]。
经乘积极限法估计出两组病人的生存率见图5。
从图中可见两组的生存率在800天时有交叉,提示不符合比例风险假定[12,13]。如拟合比例风险模型得到治疗因素的回归系数β=0.267(标准误0.233) , P = 0.2531,两组治疗生存率的差异无统计学意义。对该资料拟合BJ模型,拟合的回归方程为:生存时间=812-153.3×组别,回归系数β=-153.3(标准误)
表3 90例胃癌病人接受不同疗法的生存时间/天(点击查看)
化疗组(1组):1 63 105 129 182 216 250 262 301 301 342 354 356 358 380 381+383 383 388 394 408 460 489 499 524 529+535 562 675 676 748
748 778 786 797 945+955 968 1180+1245 1271 1277+1397+1512+1519+
化疗+放疗组(2组):17 42 44 48 60 72 74 95 103 108 122 144 167 170 183 185 193 195 197 208 234 235 254 307 315 401 445 464 484 528 542
567 577 580 795 855 882+892+1013+1033+1306+1335+1366 1452+1472+
注:右上角有“+”者为截尾时间。
为67.94),P=0.024,两组治疗的差异有统计学意义,说明2组(联合治疗组)的预测生存时间要比1组(化疗组)的时间要短,即化疗组优于联合治疗组。由此可见在不满足比例风险假定时Cox模型的结果会有很大的偏倚,甚至会出现错误的结论。
4 讨论
BJ模型与Cox模型所需计算量相当,效果的好坏应取决于线性模型与比例风险模型哪一个对实际资料更恰当。与Cox模型相比较BJ模型有如下的优点:首先,没有比例风险的假设前提;其次,线性回归结构简单直观,参数估计值也更易于理解;最后, BJ模型可以直接对生存时间进行预测,而Cox模型拟合的结果不能用于直接的预测,如果需要预测就必须要估计基准风险函数,而基准风险函数的估计是非常困难的。不过,如果资料满足比例风险模型的假定,Cox模型的结果则比线性模型丰富。例如, Cox模型可直接描绘出与自变量相联系的相对危险度、生存函数等。
参考文献
[1] 赵耐青,高峻.多结局Cox模型在医学中的应用和Stata实现[J].中国医院统计, 2004, 11(4): 305-308.
[2] 谭慭莘,田考聪.数学模型在人群疾病预测研究中的应用[J].中国医院统计, 2005, 12(1): 83-85.
[3] Buckley, J., James, I. Linear regressionwith censored data[J]. Biometrika, 1979, 66: 429-436.
[4] Weissfeld, L, A. , Schneider, H. Inferencesbased on theBuckley-James procedure[ J]. Communications in Statistics, 1987, 16: 177-187.
[5] Heller, G. , Simonoff, J, S. Prediction in censored survivaldata: a comparison ofproportionalhazardsand linearregressionmodels[ J].Biometrics, 1992, 48: 101-115.
[6] Aitkin,M, A. note on the regression analysis of censored data[J].Technometrics, 1981, 23: 161-163.
[7] Kou,l H. et a.l Regression analysiswith randomly censored data[J].Ann. Statist, 1981, 8: 1276.
[8] Leurgans, S. Linearmodels, random censoring and synthetic data[J]. Biometrika, 1987, 74: 301-309.
[9] Stare, J.,Harrel,l F,E.,Heinz,l H. BJ: an S-Plus program to fit linear regressionmodels to censored data using the Buckley-Jamesmethod[J].ComputMethodsProgramsBiomed, 2001, 64(1): 45-52.
[10] Miller, R. G.,Halpern, J. Regression with censored data[ J]. Biometrika, 1982, 69: 521-31.
[11] 余松林.临床随访资料的统计分析方法[M].北京:人民卫生出版社, 1991: 130-136.
[12] 余红梅,何大卫.检查Cox模型比例风险假定的几种图示法[J].中国卫生统计, 2000, 17(4): 215-218.
[13] 柳青.中国医学统计百科全书·多元统计分册[M].北京:人民卫生出版社, 2004: 248-250.