如何阅读医学论文(六) 汇总其他论文的论文(系统性文献综述和汇总分析).pdf-道客多多

资源描述

1、教育与争鸣如何阅读医学论文 (六 )汇总其他论文的论文 (系统性文献综述和汇总分析 )How to read a paperPapers that summarise other papers (systematic reviews and meta2analyses)Trisha Greenhalgh您还记得学生时常写的文章吗 ? 那时 ,您要查阅大量书目和杂志 ,以期找到相关的章节把它摘出来。如果看到的内容与您正在构想的理论不符 ,您就会把它舍弃。这多多少少就是杂志中文献综述 (对原始研究的总结概括 )所用的方法 ,而这种方法在对原始研究进行挑选、确定和分析时是不系统的 ,即非标准化的、非

2、客观的。系统性综述则与之相反 ,它在对原始的研究进行总结概括时 ,要明确说明综述的目的、材料和方法 ,而且还用明确的、可重复的方法进行文献综述 (图 1) 。框图 1 列出了系统性综述的一些优点。在进行系统性综述时 ,不仅是对有关文献的检索和搜寻要全面、客观 ,而且还要有舍弃“有缺陷”文章的明确标准 ,这些标准不应受研究结果的影响。最经得起时间考验的有用的系统性综述 ,如由 CochraneCollaboration 做的有名的综述 ,要定期更新 ,以把最新的研究证据包括进来 1 ,2。既便不是大多数 ,但仍有很多医学综述文章采用叙述或杂志用文章的形式撰写的。 Paul Knipschild

3、教授曾描述了诺贝尔生物化学奖获得者 Linus Pauling 是如何选择性地摘录医学文献 ,以“证明”他提出的“维生素 C帮助你活得更长 ,感觉更好”的本文要点一篇系统的综述是用明确的可重复的方法对原始研究进行概括总结汇总分析是用数学方法对两个或更多的研究假说、研究方法相同的原始研究结果进行综合尽管汇总分析可能提高结果的精度 ,但重要的是 ,要保证综述的方法准确可靠理论 3 ,4。 Knipschild 及其同事系统地检索了有关支持和反对这一假设的文献 ,他们发现尽管有一两个实验非常肯定地表明维生素 C可能对普通的感冒有预防作用 ,但是 ,有更多的研究没有显示维生素 C 有任何益处。有些专家

4、多年致力于某个研究领域 ,知道所从事的研究“应该”得到什么样结果 ,因此 ,在他们工作的领域里专家对文献的综述就不如非专家那样客观 5 ,6。如果我们能指望专家的意见与独立的、系统的文献综述结果一致 ,这个问题也许就无关紧要 ,可是实际的情况往往并非如此 7。58英国医学杂志中文版 2000 年 5 月第 3 卷第 2 期本文是系列文章之六 ,第 1 5篇见本刊 1999年第1 4 期及 2 0 0 0年第 1期 ,其他文章将陆续刊出。Unit forEvidence2BasedPractice and Policy ,Department ofPrimary Care andPopulati

5、onSciences , UniversityCollege LondonMedical School/Royal Free HospitalSchool of Medicine ,WhittingtonHospital , LondonN19 5NFTrisha Greenhalgh ,senivr lecturerp. greenhalgh ucl. ac. uk 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.图 1 对随机对照试验进行系统性综述的方法系统性文献综述的优点 3用明确的 (规定的

6、) 方法减少了研究入选或除外所带来的偏差由于应用了一些有效的方法使结论更加可靠、准确医疗卫生人员、研究人员及政策制定者能很快地利用综述所提供的大量信息缩短了将研究成果应用于有效诊断和治疗实践的时间可以用正规系统的方法对不同研究的结果进行比较 ,来确定研究结果有多大的普遍意义 ,以及各个研究结果的一致性 (无异质性 )可以发现造成这些研究异质性 (不同研究的结果不一致 )的原因 ,并有可能针对特殊的亚人群提出新的研究假说定量的系统性综述方法 (汇总分析 ) 对多个研究的结果进行全面概括 ,从而提高了总结果的精度对系统性综述的评价问题 1 :您是否确定了综述所要阐述的重要临床问题 ?综述作者首先必

7、须精确定义系统性综述所要阐述的问题 ,他才能对每一篇可能有关的文献做出判断 :是将它放到综述中 ,还是将其判为“与本题无关”而剔除。例如 ,在进行文献综述时 ,“抗凝剂是否能预防心房纤颤病人的中风”这一临床问题应被精确定义为这样一个目的 :“在非风湿性心房纤颤患者中 ,应用华法林类 (warfarin2type) 抗凝剂预防继发中风 (既往有过中风或短暂脑缺血发作 )的效果及安全性评价 :与安慰剂做比较 8”。问题 2 :您是否全面地检索了有关的数据库 ,并且查找了其他可能的重要信息来源 ?即使对美国国立卫生研究院医学文献联机检索系统 (Medline)做了最充分的检索 ,也会遗漏一些重要的论

8、文 ,所以综述作者还必需寻找其他的信息来源 9。浏览文献中的参考文献往往能找到在最初查询时未查到的有用文章 10 ,此外对一些主流医学以外的问题 ,如物理疗法或替代医学等 ,检索“灰色文献” (框图 2) 可能特别重要 11。最后要指出的是 ,如果要对结果进行统计综合 (汇总分析 ) ,也许还需要向原作者索要所发表文章中未包括的个体病人原始数据。系统性文献综述资料来源一览表医学文献联机检索系统 (Medline)Cochrane 临床对照试验记录系统其他的医学及与医学有关的资料库外文文献“灰色文献” (研究生论文、内部报告、未列入数据库选择范围的杂志、制药工业资料 )原始资料中列出的参考文献

9、(以及文献中的参考文献等 )本领域专家了解的其他未发表的资料 (通过私人交流查询 )已发表的研究报告的原始资料 (通过私人交流获得 )问题 3. 是否对研究方法的质量作了评估 ,并相应地对实验给予了不同的权重 ?系统性综述作者的工作之一是拟定一套进行综述的标准 ,它包括基本的 (适用于所有的研究领域 )和特定的 (只适用于某个特定的研究领域 )质量评估标准。人们可以根据这些标准对每个试验研究进行评价 (框图 3) 。但是由于在评估一项试验研究“真实的”方法学质量时没有金标准 12 ,而且综合的质量评分在实际应用中既不真实有效也不可靠 ,所以在68 英国医学杂志中文版 2000 年 5 月第 3

10、卷第 2 期教育与争鸣 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.进行质量评分时应格外小心 13 ,14。 Cochrane 的各专业小组正在制定适用于不同专题的评分方法 15 ,以对所综述的研究进行质量评分。对系统性综述中各项试验研究赋予权重等级应对每一试验研究的下列方面进行评估方法学质量研究设计和实施在多大程度上控制了系统误差 (偏差 )精确性 (精度 ) 随机误差可能性大小的测量指标 (通常以结果的可信区间宽度来表示 )外部真实性 (可外推性 ) 研究结果有多大的普遍意义 ,还是适用

11、于特定的靶人群问题 4 :文献综述的方法是如何影响综述的结果或结论的 ?Carl Counsell 及其同事“证实”了摇骰子的结果与急性中风治疗效果之间的完全虚假的联系 16。他们描述了一系列人为的摇骰子实验 ,在实验中红色、白色和绿色骰子分别代表急性中风的不同疗法。总体上看 ,这些“实验”并未显示此 3 种疗法具有显著的疗效。随后 ,模拟汇总分析过程中一些看似非常合理的做法 ,例如 ,由于发表偏差而把一些“阴性”实验排除在外 ,亚组分析时把红骰子所表示的治疗方法的数据剔除 (因为从一些结果的回顾分析来看 ,红骰子疗法似乎有害 ) ;还有一些甚至是随意的做法 ,例如以“方法的质量问题”为由剔除

12、一些研究等等 ,这样模拟以后 ,就使这些 (原本无效的 ) 疗法显示了很好的治疗急性中风的效果。如果这些模拟的结果确实是医学研究中遇到的问题 ,那么你将怎样发现这些不易识别的偏差呢 ?你或许需要通过“假设 ,结果会怎样 (What ifs)”这种自问式的方法进行分析。例如 ,假设文献综述的作者改变了入选的标准 ,结果会怎样 ? 假设他们把未发表的研究排除在外 ,结果会怎样 ? 假设对这些研究进行“质量加权”时方法不一 ,结果会怎样 ?假设分析中包括 (或排除 ) 了方法学质量较低的研究 ,结果会怎样 ? 假定一项临床试验中所有失访的病人已经死亡 (或已治愈 )了 ,结果会怎样 ?这种“假设 ,

13、结果会怎样”的分析解释被称为敏感性分析。如果你发现把这些综述的资料从不同的方面分析解释后 ,得到的结果与综述的总结果差异不大或无差别 ,你就可以认为综述的结论是比较可靠的。但是 ,当随着任何“假设”条件的变化 ,主要结果也发生改变时 ,你下结论时就要非常慎重 ,你也不要轻易地就依照这样的结论来改变你的临床工作实践。问题 5 :是否把定量结果作了合理的解释 ,是否适当地考虑了将问题夸大所带来的影响 ?任何定量的结果 ,无论它多么精确、准确、“有显著意义” ,或是说是多么无可争议 ,最终还是要看它能否回答综述所要阐明的全部问题 (这个问题可能极简单或极泛泛 ) 。无论这个结果怎样 ,有显著意义或没

14、有 ,临床医生都要确定是否应该根据这样的定量结果去改变对个体病人的治疗。在进行系统性综述时 ,还有一个特别重要的问题要加以考虑 ,那就是综述中所收集的临床试验研究的外部真实性 (可外推性 )或者说这些研究的实际意义。非统计学家的汇总分析对非统计学专业的学者来说 ,阅读一篇好的汇总分析文章常常比阅读此汇总分析采用的大量原始研究论文更易于理解。汇总分析除了要对定量资料进行汇总之外 ,还要对有关信息进行归纳列表 ,例如根据入选的标准、样本大小、试验前病人的基线特征、失访率以及在主要试验终点和次要试验终点时的研究结果等等。尽管这些表格看上去常常令人生畏 ,但是它们却使你摆脱了查阅每篇论文的方法学的麻烦

15、 ,而且不需要将一个作者的列表结果与另一个作者的圆图或柱形图结果进行比较。目前 ,人们趋向于用比较标准的形式来表示汇总分析的结果 ,例如 ,用 Meta View 计算机软件分析。图 2 是汇总分析结果的一个图示 (俗称“森林图” ) ,它显示的是由 8 个随机对照试验汇总的比值比。这些随机对照试验是比较冠脉侧枝搭桥术与经皮冠脉血管成形术两种方法对严重心绞痛的治疗效果 17。这个汇总分析的基本 (主要 )结局变量是 1 年内死亡或心脏病发作。与 8 个试验研究对应的每条水平线代表随机分配到实施冠脉成形术组或冠脉侧枝搭桥术组的病人1 年内死亡或心脏病发作的相对危险度的比较。每条线中间的“小点”是

16、两组结果差异的点值估计 (搭桥术而不是成形术挽救生命效益的最佳点值估计 ) 。每条线的长度代表此估计值的 95 %可信限区间。图形中央的黑色竖线称为“无效线” ,其意义相当于78英国医学杂志中文版 2000 年 5 月第 3 卷第 2 期教育与争鸣 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.图 2 8个冠脉侧枝搭桥术与经皮冠脉血管成形术疗效比较的随机对照试验的汇总比数比 (MetaView 格式显示 ) 。此图复制得到了作者许可 17。相对危险度为 1. 0。如果结果 (水平线 ) 的可信区间穿

17、过了无效线(垂直线 ) ,可能会有两种解释 ,或是两种疗法的效果无显著差异 ,或样本量太小 ,以致人们不能肯定地确定真正的结果所在的位置。与侧枝搭桥术比较 ,每一研究得到的冠脉血管成形术的相对危险度的点估计值在 0. 5 到 5. 0 之间 ,某些研究的可信区间太大了 ,以致无法完全显示在图中。位于所有水平线下面的小菱形点代表这 8 个试验资料汇总的结果 (与侧枝搭桥手术比较 ,冠脉血管成形术总合相对危险度为 1. 08) ,这一新汇总后的相对危险度的可信区间 (0. 79 1. 50)明显变窄了。因为菱形点与无效线有明显的重叠 ,所以我们可以认为就基本的试验终点 (第 1 年内死亡或心脏病发

18、作 ) 来说 ,这两种疗法分不出谁好谁坏。在这个例子中 ,虽然 8 个试验研究中的每个试验都表明两种疗法的疗效无显著差异 ,然而没有一个研究的样本量大到使人们能肯定这样的阴性结果的程度。应该注意的是 ,就这个小小的菱形点并不说明你可以干脆就给每个心绞痛病人都做冠脉血管成形术 ,而不做冠脉侧枝搭桥手术了。这个结果的意义是极其有限的 ,它只说明汇总分析中所包含的研究里 ,不论病人被随机给予了两种疗法中的哪一种 ,他们发生主要试验结局 (在 1 年内死亡或心机梗死 ) 的可能性相同。如果你读一下 Pocock 及其同事写的文章 17 ,你会发现在不同手术治疗组间的心绞痛患病率及初次治疗后再进行手术治

19、疗的需求是有重大差异的。对异质性 ( heterogeneity) 的解释在汇总分析中 ,同质性 ( homo2geneity)指的是每一试验结果与其他任一试验结果在数学上是相互兼容的。若试验结果以图 2 和图 3 显示的格式表示出来 ,人们一眼就能对同质性作个估计。从图 2 可以看出 ,每个试验结果的可信限的下限均低于其他每一个试验结果的可信限的上限 (也就是说所有水平线区域在某种程度上均有重叠 ) ,在统计学上就可以认为这些试验是同质的。与之相反 ,图 3 显示某些水平线并不完全重叠 ,以此便可认为这些试验是异质的。对异质性做确切的检验 ,要做统计前处理 ,比起拿尺子在森林图上量一量稍复杂

20、一些。因为该检验要证实的问题是各试验间的结果变异是否比由机会造成的变异大 ,所以最常用的统计学方法是卡方检验。就这个方法 Thompson 提出这样的经验之谈 18 :一般情况下 ,若卡方值与自由度相等 (在上面的例子中汇总分析中的试验次数减 1) ,就可认为统计学上不存在异质性 ,所以 ,若 8 个试验的卡方值等于 7 ,则可认为这 8 个试验在统计学上不是异质的。值得注意的是 ,统计学上的异质性分析仅仅是数学分析 ,图 3 采取降低胆固醇的措施后心脏病危险性降低。此图复制得到了 Chalmers 和 Altman 的许可 1888 英国医学杂志中文版 2000 年 5 月第 3 卷第 2

21、期教育与争鸣 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.是统计学家的事。然而 ,对异质性的解释 (发现和说明临床意义的异质性 )则是一个分析和说明的过程 ,它还需要一定的想象 ,需要常识 ,还要有临床实践能力和科研经验。图 3 显示了 10 项降低胆固醇措施的试验结果。此结果以每降低血清胆固醇 0. 6mmol/ L 可使心脏病危险性降低的百分比来表示。即使人们不知道卡方值为 127 ,通过表示结果的95 %可信区间的水平线也能明显地看出 ,这些试验有很高的异质性。把试验数据中研究对象的年龄加

22、以调整后 ,异质性检验的卡方值减少为 45。换句话来说 ,对这些试验结果的“不一致”性在很大程度上可以这样来理解 :你在 45 岁时使用有效措施降低血胆固醇水平以预防心脏病 ,要比你在 85 岁时才接受这项措施的效果好得多。临床异质性实际上是 Hans Eysenck 教授不赞成汇总分析的理由。他曾经对汇总分析作过激烈而风趣的批评 19。在研究领域里 ,有人愿意把各种现象组合起来 ,也有人总愿把组合的现象分解来看 ,Eysenck 属于后者。把不同原因、不同时间 ,不同地点和不同人群中进行的各个研究结果放在一起的做法 ,违背了他对质量的理解。Eysenck 对汇总分析有所保留的观点被一项声名狼

23、藉的汇总分析所证实 ,这个分析 (错误地 ) 显示静脉给镁对心脏病患者有益。其后一项有 58 000人参加的大型临床实验 ( ISIS24) 并未发现静脉给镁对心脏病患者有任何益处 ,而人们则把汇总分析的错误结论解释为论文发表偏差、在小规模的试验中存在方法学缺陷以及临床异质性的影响等等 20 ,21。Iain Chalmers教授为此章节的撰写提出了不少建议 ,特此感谢。(单广良译廖苏苏校 )参考文献BMJ 1997 ;315 :67225英国医学杂志中文版邮购及订阅办法本刊常年为读者办理杂志的邮购 ,您可随时通过邮局汇款至中华医学会杂志社出版发行部 (北京东四西大街 42 号 ,100

24、710) ,每册 6 元 (1998 年及 1999 年出版的期刊每册 5 元 ) ,含寄费 ,款到寄书。请您务必在汇款单附言栏内注明所需杂志的名称、年、期号、册数以及是否需要正式发票。您也可以通过当地邮局订阅本刊 ,邮发代号 822932。本刊自 1998 年 5 月创刊以来 ,已出版 8 期 ,现有部分库存。有意购买者可与中华医学会杂志社出版发行部联系 ,地址如上述 ,联系电话 : (010) 65251918。本刊编辑部98英国医学杂志中文版 2000 年 5 月第 3 卷第 2 期教育与争鸣 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.

展开阅读全文