GRADE指南--证据质量分级.pdf-道客多多

资源描述

1、中国循证医学杂志 2011, 11(4): 451455 451 2011 中国循证医学杂志编辑部 CJEBM 论著方法学研究 GRADE指南： . 证据质量分级 GRADE Guidelines: 3. Rating the Quality of Evidence Howard Balshem * ，Mark Helfanda，Holger J. Schunemann，Andrew D. Oxman，Regina Kunz，Jan Brozek，Gunn E. Vist，Yngve Falck-Ytter，Joerg Meerpohl，Susan Norris， Gordon H. G

2、uyatt，代表GRADE工作组 # 摘要本文介绍证据质量分级的 GRADE 方法。GRADE 将证据质量分为高、中、低和极低四个级别。该分级应用于证据群，而非针对个别研究。系统评价中，质量反映了我们认为效应估计值正确的把握度。对推荐意见而言，质量反映了我们认为效应估计值足以支持某特定推荐的把握度。随机对照试验初定为高质量证据，观察性研究初定为低质量证据。GRADE 中所使用的质量一词不只是意味着偏倚风险，还可能受研究结果的不精确性、不一致性和间接性，及发表偏倚的影响。此外，若干因素可增加我们对效应估计值的把握度。GRADE 提供了一种系统方法来思考并

3、报告各因素。GRADE 将评估证据质量的过程与给出推荐建议的过程分开。推荐强度的判断不仅依赖于证据质量。关键词质量评价；证据群；不精确性；间接性；不一致性；发表偏倚 1 引言在本系列前两篇文章中我们介绍了 GRADE，概述了 GRADE 方法用于作出推荐的全过程及该过程的最终产出证据概要表和结果总结表（ SoFs 表），描述了构建问题和确定结果的过程 1,2 。这是第三篇文章，我们将介绍证据质量分级的 GRADE 方法。目的是提供该方法的一个概念性介绍。更详细并附实例的说明将在那些有关可能导致降低或提原文见 J Clin Epidemiol, 201

4、1, 64(4): 401-406. # GRADE 系统由 GRADE 工作组开发。所列作者撰写并修订了该文章。在 Journal of Clinical Epidemiology 杂志的网站上有该系列文章所有贡献者的名录。 * 通讯作者， Email: balshemhohsu.edu 要点 GRADE 提供了一种评估质量的框架以鼓励对作出的判断给出透明而明确的解释。 GRADE 将作为系统评价的一部分的质量评价与作为指南制定的一部分的质量评级区分开来。 GRADE 最理想的运用要求系统评价备选策略对所有病人重要结果的影响。决策者、临床医生和病人们有必要了解研究的局限

5、性、不精确性、不一致性、间接性以及发表偏倚的相关信息，以理解并相信质量评估及效应量的估计值。高证据质量因素的后续文章中提到 3-7 。 2 证据质量不包括什么论及证据质量，证据与意见及证据质量与推荐强度常常引起困惑。因此，我们从解释证据质量不包括什么开始。 3 意见不是证据缺乏高质量证据时，临床医生必须寻找较低质量证据以指导其决策。在这种情况下，当指南制定者将 “专家意见” 作为一类证据时，困惑就出现了。形成推荐总是需要专家们的意见，专家意见基于诊治病人的经验，对生物学及其机制的理解，以及对临床前期、早期临床研究及随机对照试验与观察性研究

6、结果的知识与理解。指南制定者应该总是让专家参与来帮助理解证据，同时他们必须揭示并说明专家意见的证据基础，对该证据进行质量分级，而不是对来自于证据及其解释之后的专家意见进行分级。现举一个实例来阐明证据与专家意见的区别：假设参加医学生及住院医生的小组讨论，某内分泌学家解释了糖尿病严格控制血糖的理由，他的两种断言及其所引用的支持证据见表 1。对意见 1，他引用的证据完全是他的个人临床经验。对意见 2，他引用了自己的经验并参考了临床研究证据（仅仅是一句概括性说明）。似乎有理由认为意见 1 可能在一定程度上基于Chin J Evid-based Med 20

7、11, 11(4): 451-455 452 CJEBM 2011 Editorial Board of Chin J Evid-based Med Methodology 仔细的观察。如果述说乏力、多尿或其他症状的病人几天后回来说他们好些了，则开始进行治疗是最可能的解释。而没有述说的病人几天后回来说她有多么好的现象特别令人难忘。遗憾的是，对这些观察存在很多其他可能的解释。该内分泌专家对病人报告有利情况的程度这一印象可能不准确，他可能会忘了病情没有得到好转的病人，或病人的明显好转是由于疾病的自然史或安慰剂效应，问题出在临床医生方面或病人想取悦医生的愿望。

8、最起码地，如果没有用一个严格设计的结构化方法收集数据，我们可以认为该内分泌专家对自己临床经验的报告（而不是他自己对那一经验进行解释后而得出的意见）是来源于无对照病例系列的证据，并将其划归为极低质量。意见 1 的证据中所蕴含的定义不清的研究设计是一个前后对照研究，意见 2 则为一个包含严重问题患者的平行对照研究。如果该医生的记忆是准确的（在他的临床实践中，严格控制血糖的病人确实获得了更好的结局），原因可能在于：病人成功控制血糖反映出其基础疾病的差异，而基础疾病与可能患的并发症高度相关。这种未经辨识的预后不平衡及内分泌专家对事件记忆不可靠、不精确而

9、造成偏倚的可能性会使我们再次把他的观察结果判定为极低质量证据。 4 某特定质量的证据并不一定意味着特定强度的推荐第二个困惑是区分质量评级与作出推荐。本系列后面的文章将详细讨论 GRADE 方法用于确定推荐的方向与强度。在此，我们将强调把对证据群的质量评估过程从作出推荐的过程中明确地分离出来的重要性，而这些推荐部分是基于那些质量评估。虽然较之较低质量证据，较高质量证据更可能对应强推荐，但某特定质量等级的证据并不意味着特定强度的推荐。有时低或极低质量的证据仍可得出强推荐。例如，考虑用阿司匹林或对乙酰氨基酚治疗患水痘儿童的决策。观察性研究已观察到使用阿司

10、匹林与瑞氏综合症存在关联 8-11 。由于阿司匹林与对乙酰氨基酚的镇痛和退热作用相似，有关阿司匹林潜在危害的低质量证据并未妨碍对对乙酰氨基酚作出强推荐。同样地，高质量证据并不一定意味着强推荐。例如，对首次出现没有明显刺激因素的深静脉血栓形成（ DVT ），在抗凝第一个月后患者必须决定是否继续长期服用华法林。高质量随机对照试验表明，继续服用华法林会减少血栓复发的风险，但将以增加出血风险和不便作为代价 12-15 。由于不同价值观与偏好的患者可能作出不同的选择，指南委员会对患者是否应继续或终止使用华法林可能会提供弱推荐，尽管存在高质量证据。 5 什

11、么是证据质量呢？ GRADE 将系统评价中的质量评价部分与指南制定过程中的质量评级区分开来。因此，我们提供了证据质量的两种定义。 GRADE 最佳的运用要求系统评价备选管理方案对所有病人重要结局的影响 1 。系统评价中的证据质量分级反映的是我们认为效应估计值正确的把握程度。形成推荐时，质量分级反映的是我们对效应估计值足以支持某决策或推荐的把握程度。不同定义的原因在于制作系统评价不包括作出严格推荐所需的过程。特别是，除非系统评价小组中包括这样的成员，他们将使用该系统评价作为指南制定的一部分，否则系统评价员通常不会去权衡遵照推荐的有利或不利结果。利益相关者

12、更适合去作出这些判断。如上述 DVT 的例子，系统评价可提供有症状的血栓栓塞及出血的可靠效应量估计值及其可信区间，及与这两个事件相关的病死率，但系统评价员不能提供关于华法林治疗的获益是否值得冒其风险的可靠判断。这样的判断还必须考虑价值观、费用及利益相关者的有关投入。另一方面，一个指南（或应用系统评价证据的临床医生）作出抗凝决策时必须评估证据质量。考虑到这方面的权衡，指南委员会必须决定是否推荐抗凝（及推荐强度），这种决策需基于对有症状的血栓栓塞风险的影响及其效应估计的可信程度，及相应严重出血风险估计及其可信程度。虽然质量评估表 1 专家意

13、见 vs. 证据专家意见证据严格控制血糖可以使病人感觉好多了（意见 1 ） “在我临床实践的 20 年里，我开始治疗新诊断糖尿病患者多次。我几乎总能看到这些病人开始治疗约一周后复诊，其中绝大多数说感觉比以前好多了。甚至有个病人，她没有任何需抱怨的，也无相关症状，也回来说她的精力比以前好多了，尤其是在下午，并对自己总体感觉好得多而感到惊讶。 ” 严格控制血糖可以减少进展为肾脏疾病、神经疾病及失明的长期风险（意见 2 ） “我严格控制每位病人血糖，我认为他们都应得到最好的治疗，在这方面我有很多的经验。我有很多治疗了 10 年的病人

14、，有的甚至几十年，他们血糖水平很高且坚持按医嘱服药。这些病人也很少有并发症。另一方面，也有很多控制血糖很糟的病人早期就已出现并发症。另外，很多研究显示严格控制血糖可降低并发症发生风险。 ”中国循证医学杂志 2011, 11(4): 451455 453 2011 中国循证医学杂志编辑部 CJEBM 论著方法学研究的过程一样，系统评价员及指南制定者将有区别地使用这套标准。在本系列第五篇文章中我们将着重讨论这种标准运用上的不同，该文将涉及证据质量分级的精确性评估 5 。 6 GRADE中的质量不仅意味着偏倚风险临床流行病学文献中使用的 “质量” 通常是指

15、对单个研究内在效度（如，偏倚风险）的判断。要作出分级，对对照试验而言，评价员考虑这样一些特征如随机、隐蔽分组、盲法及意向治疗分析的运用。对观察性研究，他们考虑恰当地测量暴露与结局及适当控制混杂。对对照试验和观察性研究他们都要考虑失访的问题，及设计、实施与分析中影响偏倚风险的其他因素。 GRADE 判断不是针对单个研究而是针对证据群， GRADE 中的 “质量” 不仅意味着偏倚风险。证据群（如许多设计与实施良好的试验）可能与低偏倚风险相联系，但我们对效应评估的信心可能会因其他因素而降低（不精确、不一致、间接性及发表偏倚）。尤其与

16、观察性研究有关的另一些因素，包括效应量大小与量效关系的存在可能使我们提高质量评级。 GRADE 特别使用的术语 “质量” 与 “偏倚风险” （ GRADE 之前版本称为 “研究局限性” ）要求作者们在系统评价或指南中描述其发现并进行推论时谨慎使用。实施良好的研究可能作为被定为低质量证据群的一部分，因为这些研究仅为所关心的问题提供了间接或不精确的证据。尽管临床流行病学家和其他人已经赋予了 “质量” （通常是偏倚风险）一词其它意思，但我们相信此处更多地是指通常和非专业上对 “质量” 这个词的理解。 7 GRADE将证据群的质量分为四类尽管证据质量是连续的， GRA

17、DE 方法最终将证据群的质量分为高、中、低和极低四类。这四类质量各自的 GRADE 含义见表 2，并将当前定义与之前的定义作了比较 16 。之前的定义侧重证据等级对将来研究的意义（质量越低，则将来的研究越有可能改变我们对效应估计的信心及效应估计值本身）。之前定义的特征受到批评，我们认为是合理的，因为很多情况下我们不可能期待将来会有较高质量的证据。但我们也认为，当有理由相信将可获得新的有力证据时，之前的质量分级特征不失为是一种替代的方法。 8 形成质量分级当我们谈到质量评价时，指的是对所有研究每一重要结果的总体评价。正如本系列前一篇探讨构

18、表 2 证据四个等级的含义质量等级当前定义早前定义高我们非常确信真实的效应值接近效应估计值进一步研究非常不可能改变我们对效应估计值的确信程度中对效应估计值我们有中等程度的信心：真实值有可能接近估计值，但仍存在二者大不相同的可能性进一步研究有可能对我们对效应估计值的确信程度造成重要影响，且可能改变该估计值低我们对效应估计值的确信程度有限：真实值可能与估计值大不相同进一步研究很有可能对我们对效应估计值的确信程度造成重要影响，且很可能改变该估计值极低我们对效应估计值几乎没有信心：真实值很可能与估计值大不相同任何效应估计值都是非常不确定的表 3 G

19、RADE 证据质量分级方法概要研究设计证据集群的初始质量如果符合以下条件，降级如果符合以下条件，升级证据集群的质量等级随机试验观察性研究高低偏倚风险 1 严重 2 非常严重不一致性 1 严重 2 非常严重间接性 1 严重 2 非常严重不精确 1 严重 2 非常严重发表偏倚 1 可能 2 非常可能效应量大 +1 大 +2 非常大剂量反应 +1 梯度量效证据所有可能的剩余混杂因素 +1 降低所展示的效应 +1 如未观察到效应意味着是一种假效应高（ 4 个 “ + ” ： + ）中（ 3 个 “ + ” ： + ）低（ 2 个 “ + ” ： + ）极

20、低（ 1 个 “ + ” ： + ）Chin J Evid-based Med 2011, 11(4): 451-455 454 CJEBM 2011 Editorial Board of Chin J Evid-based Med Methodology 建问题的文章中所讨论的 2 ，评价证据质量之前系统评价员和指南制定者应确定所有可能的病人重要结果，包括有益的、有害的及费用。然后，评价员才评价每一重要结果的证据质量。表 3 总结了证据质量分级的 GRADE 方法，该方法始于研究设计（试验或观察性研究），然后列出 5 个可能降低证据质量的理由及 3 个可能提高

21、质量的原因。本系列后续文章将会详细地解释这些标准每一条的意思及怎样使用。此处，我们仅讨论了为什么特别确定这些标准作为评估证据群质量的重要指标。 9 应用GRADE质量定义的理由为了对决策者、临床医生及患者有用，系统评价必须不仅要提供对每个结果的效应估计，而且要提供判断这些效应估计值是否可能正确所需要的信息。系统评价中与研究相关的哪些信息会影响到我们认为效应估计正确这一信心？为回答这一问题，兹举一个实例。假设你被告知最近一个 Cochrane 系统评价报告：对慢性疼痛患者，与安慰剂相比，局部运用水杨酸治疗达临床治愈需要治疗的患者数（ NNT ）

22、为 6， 95% CI（ 4， 13 ）。你还将去寻找哪些附加信息以帮助你决定是否相信这一估计及怎样应用该结果？最明显的问题可能是：合并了多少个研究得出这一估计值？这些研究包括多少例患者？效应估计值的可信区间有多宽？这些研究是随机对照试验吗？这些研究有重要的局限性吗？如盲法缺失或对比组间失访差异巨大或有差异？这些问题迄今与 GRADE 分类中的不精确及偏倚风险有关。还有其他重要问题：是否有证据表明还开展了更多的研究探讨该疗法，而其中有些无法被评价员所获得？如果是这样，该系统评价结果有多大可能反映了这种疗法的全部经验？试验结果类似或差别很大？是在合适的时间测量结

23、果吗？或研究持续时间太短以致不太适当吗？干预措施涉及身体的哪些部位（由此我们能确信地将这些结果应用于哪些部位）？后面这些问题指的是 GRADE 分类中的发表偏倚、不一致性和间接性。没有这些问题的答案（或起码的相关信息），就不可能确定对所报告的 NNT 和可信区间的把握度。 GRADE 确定了 5 类因素偏倚风险、不精确、不一致、间接性及发表偏倚，因为它们几乎涉及到了影响证据质量的所有问题。此外，对任何给定的问题，上述每一类别的相关信息可能对判断估计值正确的可能性很有必要。这些类别是 GRADE 成员通过基于实例的过程达成的分类，成员们筛选了

24、与评估研究质量相关的广泛的影响话题与因素。所有潜在因素都被考虑到了，并通过反复地讨论与评审，仔细审查所关注问题并聚焦应对措施，从而在这 5 类上达成了共识。就质量而言， GRADE 方法意味着每个系统评价都应提供每一类的相关信息（特定情况下还应包括任何其他相关问题）。决策者，无论是指南制定者或临床医生，均发现很难利用那些没有提供此类信息的系统评价。好的系统评价和临床实践指南一般都运用明确的标准着重评价了偏倚风险（研究局限性）。但评估重点通常是对每个研究的所有结果而不是对所有研究的每一个重要结果。常常未评估其他因素，这些因素决定了在多大程度上可

25、相信效应估计值。采用 GRADE 之前，系统评价报告标准尚未清晰阐明应如何报告此类信息。GRADE 为系统评价和临床实践指南提供了一种结构，以确保其以一贯、系统的方式去探讨与某特定问题相关的所有结果证据质量评价的关键问题。 10 结论最后，我们提醒要防止将标准机械地应用于提高或降低证据质量级别。尽管 GRADE 建议最初分开考虑降低证据质量的 5 类因素和提高证据质量的 3 类因素，然后对每一情况作出是否提高或降低质量的决定，但证据整体质量的最终评价是一种连续性的把握度，包括对有效性、精确性、一致性和结果适用性的把握度。从根本上讲，评估证据质量

26、是一个主观的过程， GRADE 不应被视为下述几种情况：不需要作判断，或使判断的重要性变得最小，或暗示质量能够被客观地确定。正如我们在本系列所有文章中一再强调的那样，无论是对证据质量还是对推荐强度，应用 GRADE 不能保证评估的一致性。存在这样的情况，即合格的评价员间对证据的解释存在不同意见，而这种分歧是坦率而合理的。此时， GRADE 的优点在于，它提供了一种框架以指导参与者经历该评估的各个关键环节，同时提供了一种分析与沟通的方法以鼓励对相关判断作出透明而明确的解释。参考文献1 Guyatt GH, Oxman AD, Kunz R, et a

27、l. GRADE guidelines: Intro- duction - GRADE evidence pro les and summary of ndings tables. J Clin Epidemiol, 2011, 64: 383-394. 2 Guyatt GH, Oxman AD, Kunz R, et al. GRADE guidelines: 2. Fram-中国循证医学杂志 2011, 11(4): 451455 455 2011 中国循证医学杂志编辑部 CJEBM 论著方法学研究 ing the question and deciding on importan

28、t outcomes. J Clin Epide- miol, 2011, 64: 395-400.3 Guyatt GH, Oxman AD, Vist GE, et al. GRADE guidelines: 4. Rating the quality of evidencedstudy limitations (risk of bias). J Clin Epide- miol, 2011, 64: 407-415.4 Guyatt GH, Oxman AD, Montori V, et al. GRAD Eguidelines: 5. Rating the quality of evi

29、dence publication bias. J Clin Epidemiol, In press.5 Guyatt GH, Oxman AD, Kunz R, et al. GRAD Eguidelines: 6.Rating the quality of evidence-imprecision (random error). J Clin Epide- miol, In press.6 Guyatt GH, Oxman AD, Kunz R, et al. GRADE guidelines: 7. Rating the quality of evidence-inconsistency

30、. J Clin Epidemiol, In press.7 Guyatt GH, Oxman AD, Kunz R, et al. GRADE guidelines: 8. Rating the quality of evidence-indirectness. J Clin Epidemiol, In press.8 Waldman RJ, Hall WN, McGee H, et al. Aspirin as a risk factor in Reyes syndrome. JAMA, 1982, 247: 3089-3094.9 Starko KM, Ray CG, Dominguez

31、 LB, et al. Reyes syndrome and sa- licylate use. Pediatrics, 1980, 66: 859-864. 10 Halpin TJ, Holtzhauer FJ, Campbell RJ, et al. Reyes syndrome and medication use. JAMA, 1982, 248: 687-691. 11 Hurwitz ES, Barrett MJ, Bregman D, et al. Public health service study of Reyes syndrome and medications: re

32、port of the main study. JAMA, 1987, 257: 1905-1911. 12 Kearon C, Gent M, Hirsh J, et al. A comparison of three months of anticoagulation with extended anticoagulation for a rst episode of idiopathic venous thromboembolism. N Engl J Med, 1999, 340: 901. 13 Campbell IA, Bentley DP, Prescott RJ, et al.

33、 Anticoagulation for three versus six months in patients with deep vein thrombosis or pulmonary embolism, or both: randomised trial. BMJ, 2007, 334: 674. 14 Kearon C, Ginsberg JS, Anderson DR, et al. Comparison of 1 month with 3 months of anticoagulation for a first episode of venous thromboembolism

34、 associated with a transient risk factor. J romb Haemost, 2004, 2: 743-749. 15 Agnelli G, Prandoni P, Santamaria MG, et al. ree months versus one year of oral anticoagulant therapy for idiopathic deep venous thrombosis. N Engl J Med, 2001, 345: 165. 16 Guyatt GH, Oxman AD, Vist GE, et al. GRADE: an emerging con- sensus on rating quality of evidence and strength of recommenda- tions. BMJ, 2008, 336: 924-926. 李幼平总审校杨晓妍审校高霑译收稿日期：2011325 修回日期：2011 328 本文编辑：蔡羽嘉

展开阅读全文