1、护士进修杂志2O1O年1月第25卷第1期 如何进行内容效度的检验 刘可 (中山大学护理学院,广东广州510089) 关键词 内容效度 测量方法 测量工具 Key words Content validity Testing methods Measurement tools 中图分类号:R471 文献标识码:A 文章编号:10026975(2010)01003703 我国的护理研究正处在迅速发展的阶段。由于 研究工具会直接影响研究的结果,因此,研究者越来 越重视测量工具的质量。许多情况下,研究者会发 现现有的测量工具不能满足研究的需要,因此,研究 者必须自行设计测量工具。我国的很多研究都使用
2、了自行设计的测量工具,但是,某些工具并没有经过 系统科学的心理测量学的检验。评价测量工具,尤 其是心理社会学测量工具的标准之一就是效度的检 验。目前,最为护理界接受和最常使用的方法是检 验工具的内容效度。虽然,有部分研究者也进行了 内容效度的检验,但在检验过程中仍有一些不规范 的做法。本文详细介绍如何进行内容效度的检验, 重点是内容效度指数的计算方法。 内容效度(content validity)是指测量工具中的 条目样本能恰当地反映所要测量的概念的程度1。 测量工具的效化主要包括两个阶段l2。 1发展阶段 主要通过研究变量的概念化、维度分析和条目 的发展来保证效度。 11确定维度 概念化和维
3、度分析阶段。也就是根 据研究概念的理论定义,根据充分的理论回顾和相关 研究的回顾,确定该研究概念应包括哪几个维度。 12发展条目 产生条目阶段。同样,根据充分的 理论回顾和相关研究的回顾(尤其是该概念的质性 研究),以及个人的实践经验等,确定每个维度包括 哪些条目。这些适合于测量该维度的条目组成了条 目池。最终测量工具的条目确定还要通过一系列的 统计分析方法、随机选择、专家评定等过程。所以一 般在发展阶段要设计比较多一些的条目以供筛选。 13架构工具在此阶段主要是进行语言文字的 作者简介:刘可(1972一),女,硕士,副教授,护理学博士 在读,研究方向:社区护理,儿科疾病护理 37 斟酌,顺序
4、的排列,格式的设计等。工具的使用说明 (指导语)也应仔细设计。 2 评判阶段 通常采用专家评定的方法来说明内容效度。 21选择专家 评判专家必须具备一定的条件。 根据这些专家有什么特征,具备怎样的素质进行仔 细的挑选。专家的选择直接影响内容效度的评定结 果,所以要十分慎重。 首先,这些专家必须是具备了该研究领域的丰 富经验,可以是临床或理论方面的专家。可以通过 看这些专家在相关领域发表了专业论文,参加了高 等级的专业学术会议,进行过该领域开创性研究等 来反映他们所具备的经验和素质。研究概念涉及不 同学科时,还需要不同学科的专家进行评判。Davis 提出专家组不仅需要研究概念的内容方面的专家,
5、还需要有工具结构形式方面的专家帮助进行工具设 计构建方面的评判,从而指导用什么测量指标、测量 水平、统计方法等方面的问题l_3。例如,在设计脑卒 中病人的自我护理能力的测量工具时,就需要有自 我护理概念理论方面的专家,脑卒中病人护理方面 的专家以及工具构建专家等来进行评判;在设计住 院患儿的焦虑的测量工具时,就需要有焦虑概念理 论方面的专家,儿童心理问题专家,儿童护理方面的 专家等以及工具构建专家来进行评判。 那么,需要多少专家才足够呢?Davis认为专 家组应至少2名内容专家,1名工具构建专家。专 家总数不能少于3人。最好5人以上3。专家数目 超过10人则意义不大_4。有时,目标研究人群的临
6、 床经验也很重要,例如在设计脑卒中病人的照顾者 的照顾负担的研究工具时,这些照顾者的意见和建 议也非常重要。因此,Grant和Davis建议测量工 具还必须经过目标研究人群的检验3 。 22专家评判评判的过程必须按照标准的形式 38 和过程严格执行。 221专家所需的资料标准的内容效度评价应发 给每个专家介绍信,研究介绍,以及内容评定问卷_5。 介绍信说明为什么会被选为专家,设计这份测 量工具的目的和意义,需要专家做些什么。 研究介绍部分应提供给专家研究的主要内容, 包括有关研究概念的定义,研究概念包含的维度,研 究假设以及测量目的l3,从而让专家了解必要的理 论背景以提供全面的评价。还应告知
7、测量的模式是 常模参照测量还是标准参照测量。可以先告知专家 条目的组织构建,即哪些条目是测量哪个概念的,也 可以请专家来选择哪些条目是测量哪个概念,从而 检验这样的组织构建是否合理。工具如何计分也应 给予解释说明,结构专家才能判定是否格式适合于 测量的水平。例如,相关性检验的研究工具就不能 用两分制的格式。 内容评定问卷包括评价表的填写说明和各条目 评价表。条目评价表常用的是4分制的相关性评 定。专家组成员根据每个条目与研究概念的关联性 分别评分:1代表“无相关”,2代表“弱相关”,3代 表“较强相关”,4代表“强相关 朝(例1)。 222评判的内容 即评价内容效度。专家评价 该工具是否包含了
8、恰当的条目和维度来反映概念, 包括维度是否全面、准确,条目的内容是否与研究概 念相符,条目的形式是否合适,语言是否清晰等,以 及条目的数目是否能完整、全面地反映研究概念的 内涵(即条目数是否足够)。如果专家认为某条目与 测量概念不符或不能反映测量概念的内容,还应该 就此给出修改意见(例1)。除了对各条目进行评价 之外,还应对整个工具的全面性进行评价,对是否应 增加条目或删除条目提出意见和建议。除了评价问 卷,必要时,工具设计者还应和专家进行直接交流, 探讨有关的问题【4。 例1:CVI评价表 研究目的:(略) 概念定义:中国护士“工作满意度”是指XXX (略) 量表的说明:中国护士“工作满意度
9、”共有4O个 条目,3个维度,分别是XXX其中,条目115是询 问护士对于XX维度的满意程度,1625是询问护 士对于xx维度的满意程度。(略) 评价问卷的填写说明: 请用以下的14级评分方法评价这份量表的 各个条目与中国护士的“工作满意度”概念的相关 性,并在意见栏中给出宝贵意见和建议。 1=无相关;2:弱相关;3一较强相关;4一强 相关 护士进修杂志2010年1月第25卷第1期 23内容效度的计算 231评定者间一致度 评定者间一致性(Inter- ater agreement)专家评分一致的条目数(都评为 1或2的条目加上都评为3或4的条目)除以条目 总数。评定者间一致性不应低于07。发
10、生这样的 情况时,应和专家一起回顾研究概念的定义,如果认 为定义不够准确,应修改。如果还低,就应和专家检 查评定量表的使用,确保量表的使用是正确的3。 232 内容效度指数(content validity index, CVI) 内容效度指数是最常用的方法,包括条目 水平的CVI(itemlevel CVI,ICVI)和量表水平的 CVI(scalelevel CVI,SCVI) 。 I-CVI:专家组成员根据每个条目与研究概念 的关联性分别评分。评分为3或4的专家数除 以专家总数即是IcVI(例2)。然而,ICVI反映 的是评定者间一致程度,会受到机会的影响。当 两名专家对某一条目评定时,
11、会有25的机会评 定结果一致,即机会一致率(Chance agreement)。 因此,Lynn提出,当专家数目少于或等于5名 时,必须所有专家的意见都一致,才能保证内容 效度。也就是说,FCVI必须是100。当专家人 数增加时,此标准可以减低,但1一CVI必须达到 078以上。根据每个条目的ICVI就可以决定 是保留、修改还是舍弃该条目_2。 SCVI:所有专家评为3或4的条目的比例, 即被所有专家都评为3或4的条目除以条目总 数Is(例2),S-CVI至少应达到080。这种方法 计算的CVI实际上是全体专家意见一致的情况, 全体一致率(SCVIUA,Universal agreement)
12、。 在这种定义下,显而易见,专家的数目越多,所有 专家一致同意的条目就会越少,也就是说, ScviuA会越低。同样,由于机会导致的不一 致的评定结果的机率会增加。因此,Polit&Beck 提出了S-CVIAve(average,均值S-CVI),的计算 方法:S-CVIAve即评定为3或4的条目的比例 的平均值。可以有三种计算方法(例2):每个专 家评定为3或4的条目的比例的平均值;所有I CVI的平均值;所有被评定为3或4的条目数除 以评定次数。三种方法计算出来的结果是一致 的,由于第二种方法针对的是条目的情况而不是 专家的情况,所以建议使用这种方法计算。S- CVIAve应达到090以上
13、_1j。 护士进修杂志2010年1月第25卷第1期 例2:评分情况以及CVI计算方法 39 条目 专家1 专家2 专家3 专家4 专家5 专家6 一致同意的人数 083 083 083 083 083 083 100 10O 100 100 是:专家评定为“相关”(3或4) 否:专家评定为“无相关”(1或2) S-CVIUA: 410040(只有条目7,8,9,10被所有的专家评定为“相关”(3或4) cV1Ave的三种计算方法: (1)每个专家评定为3或4的条目的比例的平均值: 平均ICVI(083+083+083+083+083+083+1OO+l_O0+100+1oo)lOo9o (2)
14、所有I-CVI的平均值:(09O+090+090+09O+090+090)6090 (3)所有被评定为3或4的条目数除以评定次数:5460090 (表格中6名专家分别评判1o个条目,共评定6O次,其中评定为“是”的有54次) 233 Kappa Kappa也可以用来计算内容效度, 并且Kappa考虑了机会一致率(Chance agree ment),Polit因此提出了用修订的Kappa统计方法 来计算I-CVI。有兴趣者可参考相应文献嘲。 3修改、再测试和预试验 根据CVI的得分情况,再比较专家的意见来决 定是保留、修改还是舍弃条目。尤其要注意专家意 见特别相悖的条目。有时,可以在工具中掺杂
15、个别 不是测量该概念的条目,测试一下专家是否排除了 这些“无相关的条目”。如果专家没有鉴别出这些 “无相关的条目”,这位专家的评价就不应该采纳。 除非仅有个别条目做了不大的改动,否则根据专家 意见修改过的工具还应该按照此程序进行评定。两 轮测试,第二轮的测试可以选择少一些的专家(35 人),可以是原来专家组的人,也可以是另外选择。 根据第二轮的测试结果计算S:CVI。经过两轮测试 和修改的工具如果达到了CVI的要求,就可以在目 标人群进行预实验,进行信度或其他效度的检验 。 内容效度的专家评价是测量工具内容的保证, 所以要求有严谨的对概念的分析理解,选择好的条 目,选择好的专家,给专家清晰的介
16、绍等才能做 到 。研究结束后,还应告知这些专家工具的使用 结果和研究结果以促进该领域的研究进展。 内容效度的检验是护理界常用的工具检验方 法,以上主要介绍了专家评定内容效度的方法,其他 评定工具效度的方法还包括结构效度、效标关联效 度等,以及目标人群的CVI测试等。总之,科学研 究的结果的真实性和科学性来自严谨的测量,而测 量工具的好坏直接影响研究资料的真实和准确。科 研论文应报告研究测量工具的信度效度情况,在自 行设计测量工具,并用CVI方法的科研论文中,还 应详细报告测量工具的内容效度评价过程,包括介 绍专家的选择情况(专家的专业素质、数量等),并说 明是ICVI还是s-CVI,所有1一C
17、VI的得分范围,以 及SCVI的计算方法等。这样,才是我们进行护理 研究的科学的态度和方法。 参 考 文 献 1Polit,DF,Beck,CTthe content validity index:are you sure you know whatS being reported?critique and recommenda tionsJResearch in NursingHealth,2006。29,489497 E2LynnMR Determinafion and quantification of content validify JNursing Research,1986,35
18、(6):382385 I-3Davis,LL1992Instrument review:getting the most from a panel of expertsJApplied Nursing Research。1992,5(4): 194一l97 4Polit,DF,Beck,CT,Owen,SVIs the CVI an acceptable indicator of content validity?Appraisal and recommendations JResearch in Nursing&Health,2007,30,459467 5Grant,JS,Davis,LI
19、,Selection and use of content experts for instrument developmentJResearch in Nursing&Health, 1997,2O,269274 E6 Waltz,CFStrickland,O,&Lenz,EMeasurement in nursing and health researchM3rd ed2005New York: Springer Publishing Co2069 (收稿日期:20090814) 是是是是是否是是是是 口: 是是是是否是是是是是 是是是否是是是是是是 鲥 比 是是否是是是是是是是一一 的 或 是否是是是是是是是是 相 勾 定 号C 否是是是是是是是是是 个 每