1、Meta-Analysis 的统计方法(二) 系统综述与Meta-Analysis讲习班 王洪源 北京大学公共卫生学院 流行病学与卫生统计学系偏性的问题 主要考虑出版偏性 统计可以解决随机误差的问题 统计解决系统误差的问题偏性的问题 是否存在偏性? 如何面对偏性? 在用样本信息推断总体参数时,是存在 抽样误差的,并且抽样误差的大小与样 本量的大小有关。 统计学用抽样分布的理论来描述样本统 计量的变化规律。从一个均数为1.5,标准差为0.7的正 态总体中进行随机抽样,样本量分别为 20,50,100,200,300,500,1000,不 同的样本量均进行20次抽样,共得到140个 样本。 分别计
2、算每个样本的均数,标准差和 标准误。 以样本的均数为横坐标,以样本量为 纵坐标作散点图从均数为1.5,标准差为0.7的正态总体的140次随机抽样结果 由于抽样过程存在抽样误差,样本量较 大时抽样误差较小。 所以从图中可以看出所有的点以样本量 较大时的均数为轴,左右是基本对称的。 用方差分析的方法对不同的样本所对应 的总体均数是否相等进行检验,方差分 析的结果为F=0.862,P=0.878。 说明140个样本对应的总体均数是相同的。 用这140个样本的信息来估计总体的均数 和标准差, =1.501, =0.699。这样做的 结果是提高了估计的精度。理想状态下SND与Precision的关系 S
3、ND 用样本均数 除以相应的标准误 Precision 标准误的 倒数 SND与Precision呈 直线关系,且该回 归直线的延长线是 通过原点的。理想状态 我们把不同作者对相同问题进行的 研究可以看作从同一总体中进行抽样得 到的一个随机样本,如果他们都是按照 相同的设计得到的研究结果,并且我们 可以找到每一项研究的结果,这样就可 以根据上面的原理得到一个更为可靠的 结果。实际情况 不同作者: 所使用的设计方案会有一定的差别, 选择的实验对象有所不同, 研究结果不一定都能发表到专业杂志上。 因此实际能够得到的资料可能是不完整的,甚 至是有偏性的,如阳性结果的文章,以及和目前大 家普遍能够接受
4、的观点一致的文章可能更容易发表 在专业杂志上。 重复发表。 认为修改数据。MEAN 1.8 1.7 1.6 1.5 1.4 N 1200 1000 800 600 400 200 0 有出版偏性的散点图Trim and Fill (剪切-添补法) 基本思路Trim and Fill (剪切-添补法) The trim and fill algorithm is based on a formalization of the qualitative(定性的) approach using the funnel plot.理想状态下收集的数据实际收集的数据(不全)Trim and Fill (剪切
5、-添补法) we trim off the asymmetric outlying part of the funnel after estimating how many studies are in the asymmetric part.剪切后的数据减去的部分Trim and Fill (剪切-添补法) We then use the symmetric remainder to estimate the true center of the funnel and then replace the trimmed studies and their missing counterpart
6、s around the center.镜像填补填补(调整)后的数据Trim and Fill (剪切-添补法) The final estimate of the true mean, and also its variance, are then based on the filled funnel plot.利用调整后的数据进行估计Trim and Fill (剪切-添补法) 基本原理 有n个研究 每个研究的效应值为 这类研究的效应值为定义随机效应模型 研究间随机效应 研究内效应 如果 ,则实际上表示固定 效应。 如果只收集到n个研究,有K 0 个研 究没有找到,我们需要估计总体的 效应
7、值。 假定总体效应值已知ii XY = i X 0 i X 按照 编秩次: 如果 为正秩次 如果 为负秩次 0 i X 计算: 为Xi的符号秩次Define the “trimmed” rank test statistic for the observed n values as Let denote the length of the rightmost run of ranks 通过它们估计K0 -13 -10 -7 -6 -2 -1 3 4 5 8 9 11 12 14 -6 -2 -1 3 4 5 8 9 11 12 14 -6 -2 -1 3 4 5 7 8 9 10 11定义三个
8、估计量三个估计量的均数和方差可以看出 在总体效应值已知时,通过收集 到研究的信息就可以估计出未收集 到的研究数K0。 但是我们实际遇到的情况是不 知道总体效应值,因此要同时估计 出总体效应值、和未收集到的研究 数K0。迭代算法 先计算效应值的估计值,再计算出 K0的估计值。 去掉相应的研究。 再用剩余的研究估计新的效应值的 估计值,再计算出新的K0的估计值。 再去掉相应的研究。 直到新的K0的估计值与上一次迭代 计算出K0的估计值相等;且新的效 应值的估计值与上一次迭代计算效 应值的估计值。Meta analysis on STATA SJ-4-2 pr0012 . . . . . . . S
9、ubmenu and dialogs for meta-analysis commands STB-38 sbe16 . . . . . . . . . . . . . . . . . . . . . . . . . Meta-analysis SJ-3-4 sbe19_5 . . . . . . . . . . Tests for publication bias in meta-analysis STB-56 sbe20.1 . Assessing heterogeneity in meta-annl.: the Galbraith plot STB-42 sbe22 . . . . .
10、. . . . . . . . . . . . . . . Cumulative meta analysis STB-42 sbe23 . . . . . . . . . . . . . . . . . . . . Meta-analysis regression STB-45 sbe24.1 . . . . . . . . metan - an alternative meta-analysis command STB-56 sbe26.1 . Assessing the influence of a single study in meta-analysis STB-56 sbe28.1
11、. . . . . . . . . . . . . . . . . . . Meta-analysis of p-values STB-61 sbe39.2 . Nonpar. trim & fill anal. of publication bias in meta-anals SJ-4-2 st0061 . . . . . . . . . . . . . . . . Funnel plots in meta-analysis (Stata Journal , Stata Technical Bulletin )STATAEggers publication bias plotstandar
12、dized effect precision 0 5 10 15 0 5 10Meta-Regression异质性问题 同质性评价需回答两个问题: 是否存在异质性? 如何解释和处理异质性? 如何识别:Q 如果不同研究之间存在异质性如何处 理。如果不同研究之间存在异质性可 采取以下措施: 1 如果能得到每个研究的原始数据, 可以探讨影响因素分析。 2亚组分析。 3敏感性分析。通过比较了解异质性 的来源。如果不同研究之间存在异质性可 采取以下措施: 4选用随机效应模型进行Meta分析。 5选用M e t a回归以及混合模型进行分 析,利用回归模型控制混杂因素,以消 除异质性。 6若异质性过于明显,
13、则应放弃进行 Meta分析,只对结果进行一般性的统计 描述。不要盲目使用随机效应模型! 应首先考虑探讨异质性的来源,如 能够找出异质性的来源,则对今后 的工作有指导意义!计算合并的效应值 固定效应模型的合并效应值 : (各研究的效应值相等) 其方差为: ii i Wd d W = 2 1 d i S W = 计算合并的效应值 随机效应模型的合并效应值 : (各研究的效应值不等) DerSimonian and Laird方法 其方差为: * * i i i DL Wd d W = 2 * 1 d DL i S W = DerSimonian and Laird方法中权重 的计算方法 其中为固定
14、效应模型时效应值的方差,D为随 机效应部分的方差。 其中为固定效应模型时各研究的权重,Q为齐 性检验时的统计量。 * i W * 2 1 i d W SD = + 2 (1 ) max , 0 i i i Qk D W W W = 意味着什么?试验组与对照组舒张压改善值的比较计算各研究的效应值、方差和权重 E C dXX = 22 (1 )(1 ) 2 EECC EC NSNS S NN + = + 22 11 () d E C SS NN =+ 2 1 d w S =研究结果的效应值、方差和权重对各研究结果的效应值进行齐性检验 H 0 :各研究的效应值相等。 H 1 :各研究的效应值不相等。
15、 由于齐性检验的检验效能较低所以 通常将检验水准定为 =0.10。 计算统计量Q Q=29.694, df =15, p= 0.013。 Q服从自由度为M1的 2 分布。 2 () ii QW dd = 研究结果的效应值、方差和权重Meta-analysis - Pooled 95% CI Asymptotic No. of Method Est Lower Upper z_value p_value studies - Fixed 1.959 1.289 2.630 5.726 0.000 16 Random 2.362 1.246 3.477 4.148 0.000 - Test for
16、heterogeneity: Q= 29.694 on 15 degrees of freedom (p= 0.013)探讨异质性原因需要的准备工作 一定数量的文献 摘录原始文献的特征 文献来源特征 研究设计特征 研究对象的特征 分析方法的特征Meta-Regression Meta-Regression 不是使用的普通的多元回 归模型。 Meta-Analysis 的数据是一次抽样的统计 量,而不是原始个体数据。Meta-Regression的模型 多水平模型(multilevel modol) MLM 分层线性模型(Hierarchical Linear Models) HLM 混合模型
17、( MIXED Models)特点: 不同的变量对结果的影响是不对等 学校数据 班、校 个人之间有差异 地区消费数据 地区平均的物件水平 个人收入两水平模型两水平模型两水平模型两水平模型 由于同一单位内的个体存在组内相关,因 此不能用普通的分析方法,参数估计的方 法可以使用约束最大似然估计(REML)。Meta-Analysis数据特征 合并数据、同一研究内的平均水平 没有个体数据 Level-1 研究内个体水平 Level- 2 研究水平trials of BCG vaccine against tuberculosis By Colditzet合并效应值 Meta-analysis (ex
18、ponential form) | Pooled 95% CI Asymptotic No. of Method | Est Lower Upper z_value p_value studies -+- Fixed | 0.650 0.601 0.704 -10.625 0.000 13 Random | 0.490 0.345 0.695 -3.995 0.000 Test for heterogeneity: Q= 152.233 on 12 degrees of freedom (p= 0.000)纬度与lg(RR)的关系 -2 -1.5 -1 -0.5 0 0.5 1 01 02 0
19、3 04 05 06 0 logrr 线性 (logrr)Meta-analysis regression No of studies = 13 tau2 method reml tau2 estimate = .1364 Successive values of tau2 differ by less than 10-4 : convergence achieved - | Coef. Std. Err. z P|z| 95% Conf. Interval -+- startyr | -.00497 .01628 -0.31 0.760 -.03688 .02694 latitude | -
20、.027048 .01182 -2.29 0.022 -.05021 -.00388 _cons | 9.8909 32.02516 0.31 0.75 -52.87717 72.65914 -Meta-analysis regression No of studies = 13 tau2 method ml tau2 estimate = .28 Successive values of tau2 differ by less than 10-4 :convergence achieved - | Coef. Std. Err. z P|z| 95% Conf. Interval -+- _cons | -.7111991 .1718968 -4.14 0.000 -1.048111 -.3742876 -example For a trial beginning in 1950, at latitude 50 o , the estimated log risk ratio is given by: Log risk ratio = 9891 000497 1950 00270 50 = 11505 risk ratio = exp(11505) = 0316利用多元分析的原始文献数据 要小心谢谢各位