收藏 分享(赏)

GRADE指南--证据质量分级.pdf

上传人:weiwoduzun 文档编号:4138930 上传时间:2018-12-11 格式:PDF 页数:5 大小:982.29KB
下载 相关 举报
GRADE指南--证据质量分级.pdf_第1页
第1页 / 共5页
GRADE指南--证据质量分级.pdf_第2页
第2页 / 共5页
GRADE指南--证据质量分级.pdf_第3页
第3页 / 共5页
GRADE指南--证据质量分级.pdf_第4页
第4页 / 共5页
GRADE指南--证据质量分级.pdf_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、中国循证医学杂志 2011, 11(4): 451455 451 2011 中国循证医学杂志编辑部 CJEBM 论 著 方法学研究 GRADE指南: . 证据质量分级 GRADE Guidelines: 3. Rating the Quality of Evidence Howard Balshem * ,Mark Helfanda,Holger J. Schunemann,Andrew D. Oxman,Regina Kunz,Jan Brozek,Gunn E. Vist,Yngve Falck-Ytter,Joerg Meerpohl,Susan Norris, Gordon H. G

2、uyatt,代表GRADE工作组 # 摘要 本文介绍证据质量分级的 GRADE 方法。GRADE 将证据质量分为高、 中、 低和极低四个级别。 该分级 应用于证据群, 而非针对个别研究。 系统评价中, 质量反映了我们认为效应估计值正确的把握度。 对推荐意见而 言, 质量反映了我们认为效应估计值足以支持某特定推荐的把握度。 随机对照试验初定为高质量证据, 观察性研 究初定为低质量证据。GRADE 中所使用的质量一词不只是意味着偏倚风险, 还可能受研究结果的不精确性、 不 一致性和间接性, 及发表偏倚的影响。 此外, 若干因素可增加我们对效应估计值的把握度。GRADE 提供了一种系 统方法来思考并

3、报告各因素。GRADE 将评估证据质量的过程与给出推荐建议的过程分开。 推荐强度的判断不仅 依赖于证据质量。 关键词 质量评价; 证据群; 不精确性; 间接性; 不一致性; 发表偏倚 1 引言 在本系列前两篇文章中我们介绍了 GRADE, 概述了 GRADE 方法用于作出推荐的全过程及该过 程的最终产出证据概要表和结果总结表 ( SoFs 表) , 描述了构建问题和确定结果的过程 1,2 。这 是 第三篇文章, 我们将介绍证据质量分级的 GRADE 方法。 目的是提供该方法的一个概念性介绍。 更详 细并附实例的说明将在那些有关可能导致降低或提 原文见 J Clin Epidemiol, 201

4、1, 64(4): 401-406. # GRADE 系统由 GRADE 工作组开发。 所列作者撰写并修订了该文 章。 在 Journal of Clinical Epidemiology 杂志的网站上有该系列文章所 有贡献者的名录。 * 通讯作者, Email: balshemhohsu.edu 要点 GRADE 提供了一种评估质量的框架以鼓励 对作出的判断给出透明而明确的解释。 GRADE 将作为系统评价的一部分的质量评价 与作为指南制定的一部分的质量评级区分开 来。 GRADE 最理想的运用要求系统评价备选策 略对所有病人重要结果的影响。 决策者、 临床医生和病人们有必要了解研究 的局限

5、性、 不精确性、 不一致性、 间接性以 及发表偏倚的相关信息, 以理解并相信质量 评估及效应量的估计值。 高证据质量因素的后续文章中提到 3-7 。 2 证据质量不包括什么 论及证据质量, 证据与意见及证据质量与推荐 强度常常引起困惑。 因此, 我们从解释证据质量不 包括什么开始。 3 意见不是证据 缺乏高质量证据时, 临床医生必须寻找较低质 量证据以指导其决策。 在这种情况下, 当指南制定 者将 “专家意见” 作为一类证据时, 困惑就出现了。 形成推荐总是需要专家们的意见, 专家意见基于诊 治病人的经验, 对生物学及其机制的理解, 以及对 临床前期、 早期临床研究及随机对照试验与观察性 研究

6、结果的知识与理解。 指南制定者应该总是让专 家参与来帮助理解证据, 同时他们必须揭示并说明 专家意见的证据基础, 对该证据进行质量分级, 而 不是对来自于证据及其解释之后的专家意见进行 分级。 现举一个实例来阐明证据与专家意见的区别: 假设参加医学生及住院医生的小组讨论, 某内分泌 学家解释了糖尿病严格控制血糖的理由, 他的两种 断言及其所引用的支持证据见表 1。 对意见 1,他 引 用的证据完全是他的个人临床经验。 对意见 2,他 引用了自己的经验并参考了临床研究证据 (仅仅是 一句概括性说明) 。 似乎有理由认为意见 1 可能在一定程度上基于Chin J Evid-based Med 20

7、11, 11(4): 451-455 452 CJEBM 2011 Editorial Board of Chin J Evid-based Med Methodology 仔细的观察。 如果述说乏力、 多尿或其他症状的病 人几天后回来说他们好些了, 则开始进行治疗是最 可能的解释。 而没有述说的病人几天后回来说她有 多么好的现象特别令人难忘。 遗憾的是, 对这些观 察存在很多其他可能的解释。 该内分泌专家对病人 报告有利情况的程度这一印象可能不准确, 他可能 会忘了病情没有得到好转的病人, 或病人的明显好 转是由于疾病的自然史或安慰剂效应, 问题出在临 床医生方面或病人想取悦医生的愿望。

8、最起码地, 如果没有用一个严格设计的结构化方法收集数据, 我们可以认为该内分泌专家对自己临床经验的报告 (而不是他自己对那一经验进行解释后而得出的意 见) 是来源于无对照病例系列的证据, 并将其划归 为极低质量。 意见 1 的证据中所蕴含的定义不清的研究设计 是一个前后对照研究, 意见 2 则为一个包含严重问 题患者的平行对照研究。 如果该医生的记忆是准确 的 (在他的临床实践中, 严格控制血糖的病人确实 获得了更好的结局) , 原因可能在于: 病人成功控 制血糖反映出其基础疾病的差异, 而基础疾病与可 能患的并发症高度相关。 这种未经辨识的预后不平 衡及内分泌专家对事件记忆不可靠、 不精确而

9、造成 偏倚的可能性会使我们再次把他的观察结果判定为 极低质量证据。 4 某特定质量的证据并不一定意味着特定 强度的推荐 第二个困惑是区分质量评级与作出推荐。 本系 列后面的文章将详细讨论 GRADE 方法用于确定推 荐的方向与强度。 在此, 我们将强调把对证据群的 质量评估过程从作出推荐的过程中明确地分离出来 的重要性, 而这些推荐部分是基于那些质量评估。 虽然较之较低质量证据, 较高质量证据更可能对应 强推荐, 但某特定质量等级的证据并不意味着特定 强度的推荐。 有时低或极低质量的证据仍可得出强 推荐。 例如, 考虑用阿司匹林或对乙酰氨基酚治疗患 水痘儿童的决策。 观察性研究已观察到使用阿司

10、匹 林与瑞氏综合症存在关联 8-11 。 由于阿司匹林与对 乙酰氨基酚的镇痛和退热作用相似, 有关阿司匹林 潜在危害的低质量证据并未妨碍对对乙酰氨基酚作 出强推荐。 同样地, 高质量证据并不一定意味着强推荐。 例如, 对首次出现没有明显刺激因素的深静脉血栓 形成 ( DVT ) , 在抗凝第一个月后患者必须决定是否 继续长期服用华法林。 高质量随机对照试验表明, 继续服用华法林会减少血栓复发的风险, 但将以增 加出血风险和不便作为代价 12-15 。 由于不同价值观 与偏好的患者可能作出不同的选择, 指南委员会对 患者是否应继续或终止使用华法林可能会提供弱推 荐, 尽管存在高质量证据。 5 什

11、么是证据质量呢? GRADE 将系统评价中的质量评价部分与指南 制定过程中的质量评级区分开来。 因此, 我们提供 了证据质量的两种定义。 GRADE 最佳的运用要求系统评价备选管理方 案对所有病人重要结局的影响 1 。 系统评价中的证 据质量分级反映的是我们认为效应估计值正确的把 握程度。 形成推荐时, 质量分级反映的是我们对效 应估计值足以支持某决策或推荐的把握程度。 不同定义的原因在于制作系统评价不包括作出 严格推荐所需的过程。 特别是, 除非系统评价小组 中包括这样的成员, 他们将使用该系统评价作为指 南制定的一部分, 否则系统评价员通常不会去权衡 遵照推荐的有利或不利结果。 利益相关者

12、更适合去 作出这些判断。 如上述 DVT 的例子, 系统评价可 提供有症状的血栓栓塞及出血的可靠效应量估计值 及其可信区间, 及与这两个事件相关的病死率, 但 系统评价员不能提供关于华法林治疗的获益是否值 得冒其风险的可靠判断。 这样的判断还必须考虑价 值观、 费用及利益相关者的有关投入。 另一方面, 一个指南 (或应用系统评价证据的 临床医生) 作出抗凝决策时必须评估证据质量。 考 虑到这方面的权衡, 指南委员会必须决定是否推荐 抗凝 (及推荐强度) , 这种决策需基于对有症状的血 栓栓塞风险的影响及其效应估计的可信程度, 及相 应严重出血风险估计及其可信程度。 虽然质量评估 表 1 专家意

13、见 vs. 证据 专家意见 证据 严格控制血糖 可以使病人感 觉好多了 ( 意 见 1 ) “在我临床实践的 20 年里, 我开始治疗新诊断糖 尿病患者多次。 我几乎总能看到这些病人开始治 疗约一周后复诊, 其中绝大多数说感觉比以前好 多了。 甚至有个病人, 她没有任何需抱怨的, 也无 相关症状, 也回来说她的精力比以前好多了, 尤 其是在下午, 并对自己总体感觉好得多而感到惊 讶。 ” 严格控制血糖 可以减少进展 为肾脏疾病、 神经疾病及失 明的长期风险 (意 见 2 ) “我严格控制每位病人血糖, 我认为他们都应得到 最好的治疗, 在这方面我有很多的经验。 我有很 多治疗了 10 年的病人

14、, 有的甚至几十年, 他们血 糖水平很高且坚持按医嘱服药。 这些病人也很少 有并发症。 另一方面, 也有很多控制血糖很糟的 病人早期就已出现并发症。 另外, 很多研究显示 严格控制血糖可降低并发症发生风险。 ”中国循证医学杂志 2011, 11(4): 451455 453 2011 中国循证医学杂志编辑部 CJEBM 论 著 方法学研究 的过程一样, 系统评价员及指南制定者将有区别地 使用这套标准。 在本系列第五篇文章中我们将着重 讨论这种标准运用上的不同, 该文将涉及证据质量 分级的精确性评估 5 。 6 GRADE中的质量不仅意味着偏倚风险 临床流行病学文献中使用的 “质量” 通常是指

15、 对单个研究内在效度 (如, 偏倚风险) 的判断。 要作 出分级, 对对照试验而言, 评价员考虑这样一些特 征如随机、 隐蔽分组、 盲法及意向治疗分析的运用。 对观察性研究, 他们考虑恰当地测量暴露与结局及 适当控制混杂。 对对照试验和观察性研究他们都要 考虑失访的问题, 及设计、 实施与分析中影响偏倚 风险的其他因素。 GRADE 判断不是针对单个研究而是针对证据 群, GRADE 中的 “质量” 不仅意味着偏倚风险。 证 据群 (如许多设计与实施良好的试验) 可能与低偏 倚风险相联系, 但我们对效应评估的信心可能会因 其他因素而降低 ( 不精确、 不一致、 间接性及发表 偏倚) 。 尤其与

16、观察性研究有关的另一些因素, 包 括效应量大小与量效关系的存在可能使我们提高质 量评级。 GRADE 特别使用的术语 “质量” 与 “偏倚风险” ( GRADE 之前版本称为 “研究局限性” ) 要求作者们 在系统评价或指南中描述其发现并进行推论时谨慎 使用。 实施良好的研究可能作为被定为低质量证据 群的一部分, 因为这些研究仅为所关心的问题提供 了间接或不精确的证据。 尽管临床流行病学家和其 他人已经赋予了 “质量” (通常是偏倚风险) 一词其 它意思, 但我们相信此处更多地是指通常和非专业 上对 “质量” 这个词的理解。 7 GRADE将证据群的质量分为四类 尽管证据质量是连续的, GRA

17、DE 方法最终将 证据群的质量分为高、 中、 低和极低四类。 这四类 质量各自的 GRADE 含义见表 2, 并将当前定义与 之前的定义作了比较 16 。 之前的定义侧重证据等级 对将来研究的意义 (质量越低, 则将来的研究越有 可能改变我们对效应估计的信心及效应估计值本 身) 。 之前定义的特征受到批评, 我们认为是合理 的, 因为很多情况下我们不可能期待将来会有较高 质量的证据。 但我们也认为, 当有理由相信将可获 得新的有力证据时, 之前的质量分级特征不失为是 一种替代的方法。 8 形成质量分级 当我们谈到质量评价时, 指的是对所有研究每 一重要结果的总体评价。 正如本系列前一篇探讨构

18、表 2 证据四个等级的含义 质量等级 当前定义 早前定义 高 我们非常确信真实的效应值接近效应估计值 进一步研究非常不可能改变我们对效应估计值的确信程度 中 对效应估计值我们有中等程度的信心: 真实值有可能接近 估计值, 但仍存在二者大不相同的可能性 进一步研究有可能对我们对效应估计值的确信程度造成重要影 响, 且可能改变该估计值 低 我们对效应估计值的确信程度有限: 真实值可能与估计值 大不相同 进一步研究很有可能对我们对效应估计值的确信程度造成重要影 响, 且很可能改变该估计值 极低 我们对效应估计值几乎没有信心: 真实值很可能与估计值 大不相同 任何效应估计值都是非常不确定的 表 3 G

19、RADE 证据质量分级方法概要 研究设计 证据集群的初始质量 如果符合以下条件, 降级 如果符合以下条件, 升级 证据集群的质量等级 随机试验 观察性研究 高 低 偏倚风险 1 严重 2 非常严重 不一致性 1 严重 2 非常严重 间接性 1 严重 2 非常严重 不精确 1 严重 2 非常严重 发表偏倚 1 可能 2 非常可能 效应量大 +1 大 +2 非常大 剂量反应 +1 梯度量效证据 所有可能的剩余混杂因素 +1 降低所展 示的效应 +1 如未观察到效应意味着是一种假效应 高( 4 个 “ + ” : + ) 中( 3 个 “ + ” : + ) 低( 2 个 “ + ” : + ) 极

20、低 ( 1 个 “ + ” : + )Chin J Evid-based Med 2011, 11(4): 451-455 454 CJEBM 2011 Editorial Board of Chin J Evid-based Med Methodology 建问题的文章中所讨论的 2 , 评价证据质量之前系 统评价员和指南制定者应确定所有可能的病人重要 结果, 包括有益的、 有害的及费用。 然后, 评价员才 评价每一重要结果的证据质量。 表 3 总结了证据质量分级的 GRADE 方法, 该 方法始于研究设计 (试验或观察性研究) , 然后列出 5 个可能降低证据质量的理由及 3 个可能提高

21、质量 的原因。 本系列后续文章将会详细地解释这些标准 每一条的意思及怎样使用。 此处, 我们仅讨论了为 什么特别确定这些标准作为评估证据群质量的重要 指标。 9 应用GRADE质量定义的理由 为了对决策者、 临床医生及患者有用, 系统评 价必须不仅要提供对每个结果的效应估计, 而且要 提供判断这些效应估计值是否可能正确所需要的信 息。 系统评价中与研究相关的哪些信息会影响到我 们认为效应估计正确这一信心? 为回答这一问题, 兹举一个实例。 假设你被告 知最近一个 Cochrane 系统评价报告: 对慢性疼痛 患者, 与安慰剂相比, 局部运用水杨酸治疗达临床 治愈需要治疗的患者数 ( NNT )

22、为 6, 95% CI( 4, 13 ) 。 你还将去寻找哪些附加信息以帮助你决定是 否相信这一估计及怎样应用该结果? 最明显的问题可能是: 合并了多少个研究得出 这一估计值?这些研究包括多少例患者?效应估计 值的可信区间有多宽?这些研究是随机对照试验 吗?这些研究有重要的局限性吗?如盲法缺失或对 比组间失访差异巨大或有差异?这些问题迄今与 GRADE 分类中的不精确及偏倚风险有关。 还有其他重要问题: 是否有证据表明还开展了 更多的研究探讨该疗法, 而其中有些无法被评价员 所获得?如果是这样, 该系统评价结果有多大可能 反映了这种疗法的全部经验?试验结果类似或差别 很大?是在合适的时间测量结

23、果吗?或研究持续时 间太短以致不太适当吗?干预措施涉及身体的哪些 部位 (由此我们能确信地将这些结果应用于哪些部 位) ?后面这些问题指的是 GRADE 分类中的发表 偏倚、 不一致性和间接性。 没有这些问题的答案 ( 或 起码的相关信息) , 就不可能确定对所报告的 NNT 和可信区间的把握度。 GRADE 确定了 5 类因素偏倚风险、 不精 确、 不一致、 间接性及发表偏倚, 因为它们几乎涉 及到了影响证据质量的所有问题。 此外, 对任何给 定的问题, 上述每一类别的相关信息可能对判断估 计值正确的可能性很有必要。 这些类别是 GRADE 成员通过基于实例的过程达成的分类, 成员们筛选 了

24、与评估研究质量相关的广泛的影响话题与因素。 所有潜在因素都被考虑到了, 并通过反复地讨论与 评审, 仔细审查所关注问题并聚焦应对措施, 从而 在这 5 类上达成了共识。 就质量而言, GRADE 方法意味着每个系统评 价都应提供每一类的相关信息 (特定情况下还应包 括任何其他相关问题) 。 决策者, 无论是指南制定 者或临床医生, 均发现很难利用那些没有提供此类 信息的系统评价。 好的系统评价和临床实践指南一 般都运用明确的标准着重评价了偏倚风险 (研究局 限性) 。 但评估重点通常是对每个研究的所有结果 而不是对所有研究的每一个重要结果。 常常未评估 其他因素, 这些因素决定了在多大程度上可

25、相信效 应估计值。 采用 GRADE 之前, 系统评价报告标准 尚未清晰阐明应如何报告此类信息。GRADE 为系 统评价和临床实践指南提供了一种结构, 以确保其 以一贯、 系统的方式去探讨与某特定问题相关的所 有结果证据质量评价的关键问题。 10 结论 最后, 我们提醒要防止将标准机械地应用于提 高或降低证据质量级别。 尽管 GRADE 建议最初分 开考虑降低证据质量的 5 类因素和提高证据质量 的 3 类因素, 然后对每一情况作出是否提高或降低 质量的决定, 但证据整体质量的最终评价是一种连 续性的把握度, 包括对有效性、 精确性、 一致性和 结果适用性的把握度。 从根本上讲, 评估证据质量

26、 是一个主观的过程, GRADE 不应被视为下述几种 情况: 不需要作判断, 或使判断的重要性变得最小, 或暗示质量能够被客观地确定。 正如我们在本系列所有文章中一再强调的 那样, 无论是对证据质量还是对推荐强度, 应用 GRADE 不能保证评估的一致性。 存在这样的情况, 即合格的评价员间对证据的解释存在不同意见, 而 这种分歧是坦率而合理的。 此时, GRADE 的优点在 于, 它提供了一种框架以指导参与者经历该评估的 各个关键环节, 同时提供了一种分析与沟通的方法 以鼓励对相关判断作出透明而明确的解释。 参 考 文 献1 Guyatt GH, Oxman AD, Kunz R, et a

27、l. GRADE guidelines: Intro- duction - GRADE evidence pro les and summary of ndings tables. J Clin Epidemiol, 2011, 64: 383-394. 2 Guyatt GH, Oxman AD, Kunz R, et al. GRADE guidelines: 2. Fram-中国循证医学杂志 2011, 11(4): 451455 455 2011 中国循证医学杂志编辑部 CJEBM 论 著 方法学研究 ing the question and deciding on importan

28、t outcomes. J Clin Epide- miol, 2011, 64: 395-400.3 Guyatt GH, Oxman AD, Vist GE, et al. GRADE guidelines: 4. Rating the quality of evidencedstudy limitations (risk of bias). J Clin Epide- miol, 2011, 64: 407-415.4 Guyatt GH, Oxman AD, Montori V, et al. GRAD Eguidelines: 5. Rating the quality of evi

29、dence publication bias. J Clin Epidemiol, In press.5 Guyatt GH, Oxman AD, Kunz R, et al. GRAD Eguidelines: 6.Rating the quality of evidence-imprecision (random error). J Clin Epide- miol, In press.6 Guyatt GH, Oxman AD, Kunz R, et al. GRADE guidelines: 7. Rating the quality of evidence-inconsistency

30、. J Clin Epidemiol, In press.7 Guyatt GH, Oxman AD, Kunz R, et al. GRADE guidelines: 8. Rating the quality of evidence-indirectness. J Clin Epidemiol, In press.8 Waldman RJ, Hall WN, McGee H, et al. Aspirin as a risk factor in Reyes syndrome. JAMA, 1982, 247: 3089-3094.9 Starko KM, Ray CG, Dominguez

31、 LB, et al. Reyes syndrome and sa- licylate use. Pediatrics, 1980, 66: 859-864. 10 Halpin TJ, Holtzhauer FJ, Campbell RJ, et al. Reyes syndrome and medication use. JAMA, 1982, 248: 687-691. 11 Hurwitz ES, Barrett MJ, Bregman D, et al. Public health service study of Reyes syndrome and medications: re

32、port of the main study. JAMA, 1987, 257: 1905-1911. 12 Kearon C, Gent M, Hirsh J, et al. A comparison of three months of anticoagulation with extended anticoagulation for a rst episode of idiopathic venous thromboembolism. N Engl J Med, 1999, 340: 901. 13 Campbell IA, Bentley DP, Prescott RJ, et al.

33、 Anticoagulation for three versus six months in patients with deep vein thrombosis or pulmonary embolism, or both: randomised trial. BMJ, 2007, 334: 674. 14 Kearon C, Ginsberg JS, Anderson DR, et al. Comparison of 1 month with 3 months of anticoagulation for a first episode of venous thromboembolism

34、 associated with a transient risk factor. J romb Haemost, 2004, 2: 743-749. 15 Agnelli G, Prandoni P, Santamaria MG, et al. ree months versus one year of oral anticoagulant therapy for idiopathic deep venous thrombosis. N Engl J Med, 2001, 345: 165. 16 Guyatt GH, Oxman AD, Vist GE, et al. GRADE: an emerging con- sensus on rating quality of evidence and strength of recommenda- tions. BMJ, 2008, 336: 924-926. 李幼平 总审校 杨晓妍 审校 高霑 译 收稿日期:2011325 修回日期:2011 328 本文编辑:蔡羽嘉

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 实用文档 > 简明教程

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报