1、随访资料生存分析的统计学基础 丁香园循证版周支瑞整理 传统的生存率计算方法 表 1 某地 1974 1981年胃癌根治术后随访记录 年份 例数 生存年数 1 2 3 4 5 6 7 8 1974 29 28 25 23 19 18 17 17 17 1975 26 24 19 18 18 18 16 16 1976 24 21 19 16 14 14 13 1977 32 27 23 21 18 16 1978 25 23 20 16 16 1979 36 31 29 26 1980 25 23 19 1981 46 36 合计 243 213 154 120 85 66 46 33 17 1
2、974年 1981年共手术 243例, 1974年手术 29例,术后 1年内死亡 1例,活满1年的 28例,到 1982年末,活满 8年的 17例。以次类推。 观察满 1年的 243例,活满 1年的 213例: 1年生存率 = 213100 8 7 . 6 5 %243 观察满 2年的病例 243 - 46 = 197例 , 活 满 2年的共 154例: 2年生存率 = 154 100 7 8 . 1 7 %197 6年生存率 =58.23% 7年生存率 =60.00% 8年生存率 =58.62% 1.n年生存率有时出现后一年大于前一年的现象 。 2.某 时点生存率不能反映整个生存过程,比较时
3、可能出现不正确的结论 。 存在的问题 分析 生存资料的统计方法称为生存 分析, (survival analysis),它 是将 事件的结局 和 发生这种 结局 所经历的时间 两个因素综合起来 分析的 一种统计方法。它能够处理截尾数据 ,并 对整个生存过程进行分析或 比较 生存分析的概念: 生存 分析的应用: 1 临床治疗方案或处理措施的效果评价。 如恶性肿瘤手术或化疗后 (转移或死亡前 )生存时间、肾移植术后生存时间、心脏起搏器的保留时间、种植牙的保留时间等。 2 疾病危险因素分析和疾病预后的影响因素分析。如肺癌发病危险因素分析、肾移植手术效果的影响因素分析等。 3 特殊人群卫生保健措施的效
4、果评价。 如中老年糖尿病预防效果评价、青少年控制吸烟的健康教育干预试验效果评价、食管癌高发区干预措施的效果评价、不同种类宫内节育器的节育效果评价 (宫内保留时间或有效避孕时间 )、某疫苗接种效果评价 (观察抗体滴度了解免疫力持续时间或某病发病率 )等。 生存分析的几个概念: 一、 终点 事件 终点 事件 (terminal event)又称 失效 事件 (failure event)或“ 死亡 ”事件 (death event) ,泛指标志某种措施失败或失效的事件,反映治疗效果特征的事件,是根据研究目的确定的。如乳腺癌术后死亡、白血病化疗后复发、肾移植术后的肾衰等,均可作为“死亡”事件。 二、
5、 生存时 间 生存时 间 (survival time)也是一个广义概念,泛指所关心的某现象的持续时间,即随访观察持续的时间,常用符号 t表示。 表 2. 6例乳腺癌患者术后随访记录 患者 编号 观察记录 生存天数 t 开始日期 终止日期 结局 (死 =1,生 =0) 原因 1 02-09-03 02-12-29 0 死于肺癌 118 2 02-09-10 02-12-08 1 转移死亡 90 3 02-09-14 02-12-31 0 研究终止 108 4 02-08-25 02-11-29 0 失 访 96 5 02-10-01 02-11-28 0 死于车祸 59 6 02-10-04
6、02-12-28 1 复发死亡 86 生存时间 分为两种类型: 1 完全 数据 (complete data):指从观察起点到发生 “死亡”事件 所经历的时间。提供了观察对象确切的生存时间。 2 截尾 数据 (censored data):亦称截尾值(censored value)或终检值。指从观察起点到发生 非“死亡”事件 所经历的时间。 截尾 原因大致有三种情况: 1. 失访 :未继续就诊、拒绝访问或搬迁而失去联系。 2. 死于与研究疾病 无关 的原因:由于其他原因死亡。 3. 研究 终止 :研究结束时终点事件尚未发生。 截 尾数据不能提供完全的信息,真实的生存时间未知,只知道比观察到的截
7、尾时间长,常用符号“”表示。 生存资料的特点: 1. 有生存结局、生存时间 2. 有不确定数据(截尾数据) 3. 分布呈指数分布、 Weibull分布、对数正态分布、对数 logistic分布等 三、 死亡 概率 死亡 概率 (probability of death)表示单位时间段开始存活的个体,在该段时间内死亡的可能性。符号 q表示。 q 某 年 内 死 亡 人 数某 年 年 初 人 口 数四、 生存 概率 生存 概率 (probability of survival)表示单位时间段开始存活的个体,到该段时间结束时仍存活的可能性。符号 p表示。 p 某 年 活 满 一 年 人 数某 年 年
8、 初 人 口 数1pq五、 生存率 生存率 (survival rate, survival function)表示观察对象经历 tk个 单位时间段后仍存活的可能性。 0 ( ) 1St( ) ( ) kkk tS t P T t 时 刻 仍 存 活 的 例 数观 察 总 例 数。若 无截尾数据 ,则 若 有截尾数据 ,须分时段计算生存概率。假定观察对象在各个时段的生存事件独立,应用概率乘法定理: 12( ) ( ) . . . .k k kS t P T t p p p pi某时段的生存概率,故生存率又称累积生存概率 (cumulative probabilityof survival)。
9、图 1 生存概率与生存率示意图 0 2 3 1 第 1年生存概率 第 2年生存概率 第 3年生存概率 1年生存率 2年生存率 3年生存率 六、 生存曲线 生存曲线 (survival curve): 生存时 间为横轴,将 各时点 所对应的生存率连接在一起的曲线图。 图 2 生存曲线 统计描述 :计算生存率、绘制生存率曲线、 计算中位生存时间等。 统计推断 :估计总体生存率的可信区间、 生存率曲线的比较。 生存分析主要内容: 影响因素、预测 生存分析基本方法: 1. 非参数法 : 特点是不论资料是什么样的分布类型,只根据样本提供的顺序统计量对生存率进行估计,常用 乘积极限法 和 寿命表法 。 2
10、. 参数法 : 特点是假定生存时间服从于特定的参数分布,根据已知分布的特点对影响生存的时间进行分析,常用 指数分布 法、Weibull分布 法、 对数正态回归分析 法和 对数 logistic回归分析法 。 3. 半参数法 :介于参数法和非参数法之间,一般属多因素分析方法,用于探讨生存过程的主要影响因素,其经典方法是 Cox比例风险回归模型。 随访研究的几个问题: 一、随访内容 1 开始随访的时间 :入 (出 )院时间、确诊时间、开始治疗时间等可作为随访开始的时间。如乳腺癌的乳腺切除术后第一天或出院日、白血病化疗后缓解出院日等,也可规定开始治疗日为随访开始时间 。 2 随访的结局 和 终止随访
11、的时间 随访 的结局可能有以下几种: (2) 失 访 :拒绝随访、失去联系或中途退出等。终止随访时间为最后一次访问时间。 (1) “死亡 ”:泛指处理措施失败的事件。如肿瘤化疗后的复发、肾移植因肾衰或与之有关的原因而死亡等。终止随访时间为“死亡”时间。 (3) 死于与研究疾病 无关 的原因 : 终止随访时间为死亡时间。 (4) 研究 终止 。研究终止时观察对象仍然存活。终止随访时间为研究终止时间。 3 影响生存的有关因素 :如患者年龄、病情、病程、术前健康等情况,以便分析这些因素对生存率的影响。 二、随访方式 1 全部观察对象同时接受处理措施,观察到最后一例出现结果或事先规定的随访截止时间。
12、0 30 60 90 120 150 1800.01.02.03.04.05.06.07.0+36 99 160图 3 随访资料常见形式示意图 2 观察对象在不同时间接受处理措施,完成 一定数量随访病例或按事先规定的时间停止随访。 图 4 随访资料常见形式示意图 生存率的估计与生存曲线: 一、乘积极限法 乘积 极限法 (product-limit estimate)又称 Kaplan- Meier法,适用于 未分组 生存资料的分析。 例 16-1 14例膀胱肿瘤 3.0cm患者和 16例膀胱肿瘤 3.0患者的生存时间 ( 月 ) 如下 , 试估计两组各时点生存率及其标准误 、 各时点总体生存率
13、的 95%可信区间 、 中位生存时间 , 并绘制生存曲线 。 肿瘤3.0cm 14 19 26 28 29 32 36 40 42 44+ 45 53 + 54 59 + 肿瘤3.0cm 6 7 9 10 11 12 13 20 23 25 27 30 34 37 43 50 表 3 肿瘤 3.0cm组生存率及标准误的计算 生存时间 t 死亡数 dt 期初病例数 nt 截尾数 ct 死亡概率 qt 生存概率 pt 生存率 S(t) 生存率标准误 SES(t) 14 1 14 0 1/14=0.0714 0.9286 0.9268 0.0688 19 1 13 0 1/13=0.0769 0.9
14、231 0.8572 0.0935 26 1 12 0 1/12=0.0833 0.9167 0.7858 0.1097 28 1 11 0 1/11=0.0909 0.9091 0.7144 0.1207 29 1 10 0 1/10=0.1000 0.9000 0.6429 0.1281 32 1 9 0 1/9=0.1111 0.8889 0.5715 0.1323 36 1 8 0 1/8=0.1250 0.8750 0.5001 0.1336 40 1 7 0 1/7=0.1429 0.8571 0.4286 0.1323 42 1 6 0 1/6=0.1667 0.8333 0.3
15、571 0.1281 44 0 5 1 0/5=0.0000 1.0000 0.3571 0.1281 45 1 4 0 1/4=0.2500 0.7500 0.2678 0.1233 53 0 3 1 0/3=0.0000 1.0000 0.2678 0.1233 54 1 2 0 1/2=0.5000 0.5000 0.1339 0.1130 59 0 1 1 0/1=0.0000 1.0000 0.1339 0.1130 生存率的计算 1 生存时间 t:由小到大排列,遇非截尾和截尾值相同,截尾值排后。 2 死亡数 dt:与生存时间 t对应。注意:截尾值对应的个体未发生“死亡”事件,故死亡数为 0。 3 期初病例数 nt,表示恰好在该时刻以前的病例数。如n29为 10,表示恰好在 29月时点前有 10人存活。 4 死亡概率 qt,表示 t月前的观察对象恰好在 t月时点死亡的概率。