1、19 生存分析,生存分析的目的,1. 估计:根据样本生存资料估计总体生存率及其他有关指标(如中位生存期)等。 2. 比较:对不同组生存率进行比较。 3. 影响因素分析:为探索和了解影响生存时间长短的因素,或平衡某些因素后,研究某个或某些因素对生存的影响。 4. 预测:对具有不同因素、不同水平的个体进行生存预测。,第一节 生存时间资料的特点 第二节 小样本生存率的kaplan-Meier估计 第三节 大样本生存率的寿命表法估计 第四节 生存曲线比较的假设检验,第一节 生存时间资料的特点 一、数据结构 二、统计描述指标 三、资料要求,一、数据结构,在临床医学中, 对病人疗效考查: 治疗结局? 生存
2、时间?,“ 生存时间”的概念开始事件 终点事件 生物生存 死亡,生存时间,电脑开始使用正常 出现故障,疾病产生 治愈,疾病治愈 复发,阴性 阳性,生存时间的三个要点,一、起始事件 二、 终点事件 三、生存时间,医学例子:起始事件 随访时间 终点事件,疾病确诊 死亡,治疗开始 死亡,治疗开始 痊愈,接触危险物 出现反应,治愈出院 复发,广义的“生存时间”也可为医疗费用(元)、 医疗设备使用次数、车辆行驶总里程(公里)等,随访(follow-up)资料的记录,生存资料一般通过随访收集, 记录的项目: (起始与终止)随访事件 生存时间(开始观察日期与终止观察日期)(年、月、天、小时、分、秒等) 分组
3、变量(处理方法) 和其它协变量(性别、年龄、职业、文化程度等),01,167,生存时间资料的特点,2个效应变量(1)生存时间(天数),(2)结局(死亡与否、是否阳性等) 删失(截尾)数据:在规定的观察期内,对某些观察对象由于某种原因未能观察到死亡结局,并不知道确切的生存时间,称为生存时间的删失数据(censored data)。如表12-1中的1号和 3号病人未观察到底,不知他们究竟能活多长时间。产生结尾原因:(1)迁移 (2)死于其他原因 (3)因其他客观原因中途退出 (4)研究结束时终点事件尚未发生 分布类型复杂:生存时间分布不服从正态分布,常常呈正偏态分布、Weibull分布、Gamma
4、分布或更为复杂的分布,因此要用特殊的统计方法。,2个效应变量(1)生存时间(天数),(2)结局(死亡与否、是否阳性等)错误1:忽略生存时间,采用Logistic回归分析死亡率 错误2:忽略结局,采用t检验、线性回归分析生存时间,得不到确切的生存时间,但它们提供的生存时间长于观察期的时间,这种数据为不完全数据。或截尾数据、删失数据或终检值。(如有确切的生存时间,则这种数据称为完全数据。) 两种错误的做法: 错误1:丢弃截尾数据,只考虑确切数据。(损失了信息) 错误2:将截尾数据当作确切数据处理。(低估了生存时间的平均水平)。,截尾(删失)数据或终检值(censored data),两种错误的做法
5、: 错误1:采用平均生存时间而不是采用中位生存时间来表示生存时间的平均水平。 错误2:采用常规t检验或方差分析进行组间比较。(应采用log-rank检验比较几组生存时间 ),正偏态(positive skewness)数据,二、生存分析的统计描述指标,1.死亡概率、生存概率 2. 生存率及其标准误 3. 半数生存期(中位数) 及四分位数间距,例1 手术治疗60例肺癌病人,术后每年死亡10例,无删失。试求基本生存分析指标。N=60;,1 . 死亡率、死亡概率、生存概率 (1) 死亡率 (mortality rate,death rate)表示某单位时间内的死亡强度。年平均人口数=(年初人口数+年
6、末人 口数)/2,(2) 死亡概率 ( mortality probability )是指单位时段开始时存活的个体到该时段结束时死亡的可能性,即死于某时段tt+n内的概率。 d/n0 年内有删失,分母用校正人口数:校正人口数= 年初人口数删失例数 / 2n0c/2,(3) 生存概率 ( survival probability )指某单位时段开始时存活的个体到该时段结束时仍存活的可能性的大小。 (n0-d)/n0 分子为年末尚存人数,若年内有删失,分母用校正人口数。,生存率 (survival rate)( 累积生存概率 cumulative probability of survival )
7、指病人经历t个单位时间后仍存活的概率。生存概率指单个时段的概率,生存率指从0t多个时段的积累概率。,2. 生存率及其标准误,生存率与生存概率仅一字之差,含义却是不同的。生存概率是针对单位时间而言的,生存率是针对某个较长时间段的,它是生存概率的累积结果。如评价肿瘤预后常用的5年生存率,是指第1年存活、第2年也存活,直至第5年仍存活的累积概率,而这5年间每1年有不同的生存概率。,如数据中无删失,生存率可用下式计算如果有删失数据,则需分时段计算不同单位时间的生存概率Pi(i=1,2,t),然后利用概率乘法原理将Pi相乘得到t时刻生存率。S ( t ) = P (T tk ) = p1 p2 pk,例
8、如 手术治疗50例肺癌病人,术后1,2,3年的死亡数分别为10,10,10例,无截尾数据。试求各年的 生存概率和3年生存率。解:各年生存概率 p1 = ( 50 10 ) / 50,p2 = ( 40 10 ) / 40, p3 = ( 30 10 ) / 303 年生存率 S(3) = P(T 3) (n0-d)/N = ( 50 30 ) / 50 = 0.4000或 S(3) = p1 p2 p3 = 0.4000,生存率的标准误生存率置信区间,生存曲线以生存时间为横轴,生存率为纵轴绘制的曲线,(a)研究终止在475天 (b) 研究终止在474天 图12-3 乘积极限法生存曲线(阶梯形)
9、及其半数生存期(Md=158天),图12-4 寿命表法生存曲线(折线)及其半数生存期(Md=1.7年),生存曲线给我们的信息,阶梯状;每一级阶梯代表一个死亡时间点 (在截尾时间点无阶梯);如果最大时间点是截尾则生存曲线不与曲线相交(见下图),否则与横轴相交。,Death,Censored,Median Survival,1.8 Years,生存曲线给我们的信息,3. 半数生存期及四分位数间距 半数生存期 也称中位生存期(median survival time), 即生存时间中位数,表示恰好有50%的个体活过此时间,即生存率为时对应的生存时间(集中趋势指标)。其数值可借助生存曲线进行粗略的图表
10、法估计,或用线性内插法求解精确的数值。删失数据超过样本量的50%时,无法估计中位生存时间。此时较为实际的做法是使用生存时间超过一给定时间长度的概率(如3年生存率或5年生存率),生存期的四分位数间距tt, 反映离散程度大小,三、资料的基本要求,1. 死亡例数(或死亡比例)不宜太少,否 则宜出现偏性; 2. 截尾原因无偏性; 3. 生存时间尽可能记录精确,生存率估计常用的两种方法:1. 乘积极限法,即kaplan-Meier法 (小样本时)2. 寿命表法 (大样本时),第二节 小样本生存率的kaplan-Meier估计,乘积极限法(product-limit method)又称Kaplan-Mei
11、er 法,由Kaplan和Meier于1958年提出 ,主要针对小样本资料,也可用于大样本,是一种非参数方法。基本思想:将生存时间由小到大依次排列,在每个死亡点上,计算其期初人数、死亡人数、死亡概率、生存概率和生存率。,11名接受“手术+化疗”治疗的乳腺癌患者的生存时间:10,14,15,16+,19,19,20,20+,24,26,28,(a)研究终止在475天 (b) 研究终止在474天 图12-3 乘积极限法生存曲线(阶梯形)及其半数生存期(Md=158天),0,0,第三节 大样本生存率的寿命表法估计寿命表法(life-table method)的应用早于KaplanMeier法,它是KaplanMeier法的近似方法(频数表法),图12-4 寿命表法生存曲线(折线)及其半数生存期(Md=1.7年),寿命表法只估计时段右端点的生存率,省略了时段内的生存率估计,第四节 生存曲线比较的假设检验Log rank(时序) 检验(也称为Cox-Mantel检验) Breslow检验(也称Breslow广义Wilcoxon检验 ),21例乳腺癌患者两种疗法的生存时间(月),期初人数,