1、数理医药学杂志 2011年第24卷第1期 文章编号:10044337(2011)01007503 中图分类号:R311 文献标识码:A 纵向数据的实验设计及统计分析理论 色 严 (南方医科大学公共卫生与热带医学学院生物统计学系 广州510515) doi:103969jissn1004-43372011O1030 纵向数据(1ongitudinal data)是指对每个个体在不同时间 进行重复观测而得到的由横断面数据(crosssectional data)和 时间序列(time-series)融合在一起的数据。与横断面数据相 比,纵向数据分析的最大优势在于可以更好的分析出个体随 时间的变化趋
2、势,而不是仅仅比较个体间在基线数据上的差 异性。 近年来,纵向数据分析在统计学方法研究领域越来越受 到各国学者的重视,并成为统计学界研究的热点问题之一,在 医学研究领域(如医药药效研究)、心理学研究领域(如心理发 展研究)等有着广阔的应用前景。为此,本研究将对纵向数据 的实验设计,统计分析做进一步综述,为纵向数据的获取和分 析方法提供有效的信息。 1实验设计 11减少实验成本 如前所述,纵向数据分析的最大优势在于它可以区分解 释变量与反应变量之间横向及纵向的关系。因此研究中存在 的一个问题即须对个体进行重复观测,从而导致实验成本的 增加。对于这个问题,不妨通过提高纵向研究推断的精准性 来解决L
3、 。 通常情况下,纵向数据分析的模型被写为: 一 +bxo+eij i-1,m 一1, (1) 其中,i代表观测个体, 代表观测次数, 表示y随 的 变化率,且为待估参数。(1)式可以等价写为: ,一 +bx 1+b(x 一五1)+P (2) (2)式的一个隐含约束条件为基线数据z 与随时间变化 的序列-z ,一 对 ,的影响相同。这个条件在应用时显然过 强,为此不妨将(2)式做出以下改进: ,一6c+良 l+bL( -X 1)+e (3) 其中艮代表基线数据对反应变量yfJ的影响,即横断面作 用下的回归系数;代表随时间变化的序列对反应变量 ,的 影响,即纵向作用下的回归系数。由(2)式及(3
4、)式,通过最小 二乘法,可得到: 统计分析 r-, n(x 1一 1)( -x) E(6)一bL+三L 一(bc-bL) ( 一 i =1 其中3一C1一 _, =三 。因此根据(1)式求得的回 |II|IHI 归系数实际是对纵向作用下回归系数。 的有偏估计。偏性 不存在当且仅当横向作用与纵向作用的回归系数相等,即屉 一或z 与 正交。故当解释变量随时间变化,而且个体间 解释变量的基线数据不同时,宜采用模型(3)式分析。 D 定义 一 丛 ,则 表示了推测的精准度,即 越小, Vat(:bc D 说明Var(bL)越小,从而证明对个体进行重复测量所得到的 信息量越大,间接说明了纵向数据分析的估
5、计效能越高。理 论证明e与观测个体自身解释变量z )的变异呈相反关系, 个体解释变量z 变异越大, 越小,则对回归系数的估计效 能越高。如解释变量,27 为第i个个体第 次观测的年龄,则 重复观测的观测值若第一个样本为1,2,3,第二个样本为1, 2,4。由于第一个样本解释变量的变异小于第二个样本,因此 通过第二个样本所得到的回归系数的估计效能较高。从而, 在有限的实验条件下,可以通过增大各观测个体解释变量的 变异达到减少实验成本的目的。 12样本量的计算 为使统计推断达到一定的势,需要确定最小的样本量。 而纵向数据分析的样本量取决于以下6个因素: 犯第一类错误概率a,通常取005; 最小显著
6、差异(smallest meaningful difference)d 即 在原假设情况下,当关心的参数偏离d时,则以高概率拒绝原 假设; 势P,原假设错误的情况下拒绝原假设的可能性,通 常取为090; 反应变量 的方差口 ,表示反应变量变化中无法被解 释那部分的一种度量,也就是随机误差项的方差; 收稿日期:20100823 作者简介:庄严(1982一),博士在读,讲师,从事生物统计学教学与科研工作。 基金项目:南方医科大学公共卫生与热带医学学院院长基金(GW200828) 75 Journal of Mathematical Medicine Vo124 No1 201l 每个个体重复观测的
7、次数 对于一个实验,若总的 实验费用一定,则样本量和重复观测次数是相互制约的,前者 大,那么后者小;或是相反情况。根据实际情况,实验者可以 自己选定适合的方式; 重复数据间的相关性相关矩阵的形式可以通过先前 的研究估计,或是通过合理的猜测确定。 对纵向数据做统计推断,问题分为两类:推断不同处理 组的差异性;估计不同处理组反应变量随时间变化的平均 差异。前者是总体性的推断,后者是推断随时间变化的差异 性。根据推断问题的不同,样本量的确定也有所不同,但都与 重复数据的相关系数有关。 假设 表示标准正态分布中第P分位点,当一类错误为 a,最小显著差异为d,随机误差项的方差为 ,重复观次数测 为”,且
8、相关性为Corr(Yo,Yo)一r 时,使得势为P的最小 样本量为: 问题I 一 a 一 问题 ,其中 &( ,一 一2( +zl ) s 1+(n-1)r 类似可将样本量计算公式推广到相关系数为 阶自回归形式 的情况。 通过以上的计算公式,可以总结出一个经验法则:r0。 对于I类问题,重复观测的数据相关性越大,所需的样本量就 越小;对于类问题,重复观测的数据相关性越大,所需的样 本量越大。法则似乎与我们的直观想法正好相反,事实上,第 一种情况下,每个观测个体对回归系数估计的贡献是的线性 组合,而y的方差随着相关系数的增加而递减,因此p增大, 所需的样本量就减少。第二种情况下,回归系数是反应变
9、量 y的期望,反应变量y的方差随着P的增大而增大,因此p增 大,所需的样本量就增大。 2统计分析 21探索性分析 探索性分析(exploratory data analysis)由美国统计学家 John WTukey于上世纪6O年代首先提出,旨在将数据通过 图像或曲线拟合方式形象化表出,以期反映出令人意想不到 的数据关系问题_2。探索性分析只是统计分析过程的一个基 础,之后需要经过验证性分析,给出充足的理由拒绝或是不拒 绝原假设。通常情况下,纵向数据的探索性分析应遵循以下4 个准则:尽可能多的显示原始数据信息而不是对数据进行 概括性的总体描述;突lJ显示具有潜在科学研究价值的数 据集;能够区分
10、数据问的横向或是纵向关系;易识别出 离群个体或离群点。 (1)图形描述 大多数的纵向数据分析强调反应变量与解释变量及时间 之间的关系,而散点图正是反映这种关系的一个基础工具。 一方面,通过连接重复测量的散点可以显示个体随时间变化 76 的趋势;但另一方面,当样本量较大且重复观测次数较多时, 连接所有个体的散点将会使图象变得复杂、混乱。 为了解决这一问题,可以采用对比的方法,即将每个个体 数据用较细的灰色曲线描出,而具有代表性的数据集用深色 粗线描出 。;或者仅连接那些具有代表性个体的散点 ;而最 简单的方法就是从观测个体中随机抽样,再将样本散点连接 成线。如果选择随机抽样再连接成线的方式,则会
11、出现两个 弊端,一是随机抽得的样本有可能无法很好的代表数据的特 征;二是这样得到的图形未必会显示出离群的个体。为此,不 妨选择另一种方法:将个体曲线根据感兴趣的模型体现出的 特点进行排序,然后选出某些特殊分位点对应的个体,最后将 这些个体的散点连接成线。而次序统计量的选择可以是平均 指标,个体随时间的变异指标等,如中位数、中位数的绝对 偏 。 (2)曲线拟合 核估计(kernel estimation)、平滑样条曲线(smoothing splines)、局部加权回归分析(1ocally weighted linear regres sion)是常用的3种曲线拟合估计方法_6,且3种方法给出的
12、 结果近似。 核估计的步骤如下: 首先确定以时间t 为中心的区间(window),并求得区 U 间内所有点对应的反应变量的均值,m(t )。区间越窄,核估 计包含的信息越多;区间越宽,核估计曲线越平滑。 U 求得所有时间点处的m(t )。 依照上面步骤,最终得到一组平滑曲线的平滑点,最后将 平滑点连接成线,就得到核估计曲线。核估计曲线是一簇曲 线,不同的区间宽度其曲线可能不同。 而平滑样条曲线是应用较为广泛的一种非参数方法7。 定义 J()一Ey -s(t )。+z05() 其中s()是使得上式最小的二次可导函数。等式右侧的第一 项量化了 (f)相对 的精度;第二项积分项是对曲率的一种 度量,
13、常数 决定了曲线的光滑程度, 越小,曲线越粗糙。但 是平滑样条曲线可以用核估计曲线来近似,只要使核估计的 区间宽度与g() 。 成比例即可,其中g( )为时刻t邻域里 散点的概率密度。 最后,局部加权回归法是核估计的一种推广,属于非参数 的回归方法,它较后者更为稳健,对离群点较不敏感。应用这 种方法在计算两个变量关系时,没有现成的公式可被套用,但 拟合的曲线可以很好的描述变量间关系细微变化。基本步骤 如下: 首先确定以 为中心的一个区间内部参加回归的散 点的个数q。q越大,拟合曲线越平滑,但对变量的细微变化 也越不敏感;q越小,曲线虽对变化敏感,但拟合会变得较为 粗糙。 定义区间内所有点的权重
14、。权重由权重函数确定,任 意点的权重是权重函数的高度。之前的研究通常是将越靠近 数理医药学杂志 2011年第24卷第1期 区间中部的散点加权越大。 对所有区间的散点进行直线拟合。与计算加权平均不 同,这里是应用最小二乘法实现的。如有离群点,则离群点的 权重减小,曲线重新拟合。以上三步迭代运行。这就使得拟 合曲线对离群点的敏感度大大降低。 点对应拟合直线上的值即为拟合值。 (3)小结 3种方法中,核估计方法为基础方法,平滑样条曲线法可 通过核估计来逼近;局部加权回归是核估计方法的推广,其最 大优点在于对离群点不敏感,是较为稳健的一种拟合方法。 对纵向数据进行探索性分析时,建议采用稳健的平滑方法,
15、这 有利于避免拟合结果对某些特殊观测值的过分依赖。 22验证性分析 通过各国学者的不断努力,纵向数据的验证性分析方法 研究已经取得了较大成果。无论是针对连续性的计量资料, 或是计数资料及二分类资料,现阶段都有比较成熟的理论来 解决。同时,新的问题又接踵而来。如含有缺失数据的纵向 数据如何分析;随机过程中,解释变量也是随时问而变化并且 影响反应变量,这类的纵向数据又如何分析新的问题也推 动了方法学的不断发展。 (1)线性模型(general linear model,GLM) 基于F检验的方差分析(analysis of variance,ANOVA) 是分析连续性计量资料纵向数据的最简单的方法
16、,如果重复 观测 次,则需要进行 次独立分析,这种方法在很多教材上 都有详细介绍sJ。但方差分析有两个主要缺点:当处理效 果随着时间而改变,方差分析无法解决有关这种处理效果的 问题;通过n此分析得到的推断实际并不是独立的,如何将 这 个推断相互结合也是不清楚的。对于第个问题,可以 应用前相关模型(ante-dependence models)来解决_g ;但第 个问题至今还没有学者给出较优的方法解决。 伴随相关误差项的线性模型1 是另外一种处理纵向数据 的线性模型。令观测个体 =1,2, ,观测次数j一1,2, ,解释变量个数为P时,传统的线性模型可以表示为: 7=b1z 4-4-bpx +
17、J, N(O, ) 而伴随相关误差项的线性模型中,误差项不是独立同分布的, 对于相同个体不同时间的误差项是相关的。 最后利用最小二乘估计或最大似然估计对模型中的参数 进行估计。 类似的模型可以应用于观测时间较短但数据完整的纵向 数据资料,它避免了对协方差结构中参数的条件限制,同时可 以对反应变量的均值问题做出推断。 (2)广义线性模型(generalized linear model,GI Ms) 对于二分类资料或计数资料的纵向数据分析问题可以通 过广义线性模型来解决。广义线性模型包括边际模型,随机 效应模型及选择模型。 边际模型中的回归参数是对群体的平均度量,既可用于 二分类资料,也可用于计
18、数资料;随机效应模型的回归参数是 对混杂个体中解释变量对反应变量影响的度量,常用于计数 资料;而选择模型广义线性模型的一个推广,它给出的是反应 变量的条件分布,常用于有序分类资料。 3小结 随着纵向数据分析理论的不断完善,其应用领域也在不 断扩大。然而,纵向数据分析方法的研究仍在继续,而且从参 数分析领域扩展到了非参数领域,从而衍生出了非线性回归 模型,非线性随机效应模型等讨论,推动了多元纵向数据分析 的发展。 参考文献 1 Peter JDiggle,Kungyee Liang,Scott L ZegerAnalysis of Longitudinal DataOxford Universi
19、ty Press,Oxford,2002 2 Tukey,JWExploratory data analysisAddisonWesley,Read ing,Massachusetts,1977 3 Tufte,E REnvisioning informationGraphics Press,Cheshire, Connecticut,1990 4 Jones,L C and Rice,JADisplaying the important features of large collections of similar curvesThe American Statistician, 1992
20、,46,14045 5 Mosteller, and Tukye,JWData analysis and regression:a second course in statisticsAddisonWesley,Reading,Massaehu setts,1977 6 Hastie, Jand Tibshirani,RJGeneralized additive models Chapman and Hal1。New York,1990 7 Silvemmn,13w_Spline smoothing:the equivalent varible kernal methodAnnals of Statistics,1984,898916 8 Snedecor,Gw_and Cochran,wGStatistical methodsIowa State University Press,Ames,Iowa,1989 9 Kenward,L GA method for comparing profiles of repeated measurementsApplied Statistics,1987,296308 77