1、 心理学报 2016, Vol. 48, No.4, 435 Acta Psychologica Sinica DOI: 10.3724/SP.J.1041.2016.00435 收稿日期: 2015 -03 -03 * 国家自然科学基金(31271116, 31400909)和教育部人文社会科学研究青年基金项目(13YJC190029)资助。 通讯作者: 温忠麟, E-mail: 435 从效应量应有的性质看中介效应量的合理性 *温忠麟 1范息涛 2叶宝娟 3陈宇帅 1( 1 华南师范大学心理应用研究中心/心理学院, 广州 510631) ( 2 澳门大学, 澳门) ( 3 江西师范大学心
2、理学院, 南昌 330022) 摘 要 效应量的作用有两个方面, 一是弥补了统计检验的不足, 二是使得效应有可比性。 结合统计显著性 和效应量, 才能得出适当的统计结论。效应量应当具有一些基本性质, 包括与测量单位无关、单调性、不受 样本容量的影响。 国际上流行的中介效应量 平方就是因为缺乏单调性而引发质疑和研究, 从而被彻底终结 了其作为中介效应量的合法性。R 平方型中介效应量同样有缺乏单调性的问题。文末讨论了如何报告中介 效应量以及有待研究的问题。 关键词 中介效应; 间接效应; 效应量; 平方 分类号 B841 国际上对心理学和其他社科领域的方法研究 有重要影响的期刊 Psycholog
3、ical Methods (2014 年 影响因子 7.34)发表了 Preacher 和 Kelley (2011)的论 文讨论中介效应量, 经过一番评长论短, 对当时已 有的中介效应量都有不满, 最终推荐的是他们新提 出的 2 作为中介效应量。从此 2 在国际上流行开 来, 不仅有论著介绍(Athay, 2012; 方杰, 张敏强, 邱 皓政, 2012; Field, 2013), 而且有许多实际应用(例如, Koletzko, Herrmann, Labelle, Lawlor-Savage, Campbell, Faris, Rivera 接着讨论效应量应当具 有哪些基本性质; 然后
4、根据这些性质检视包括 2 在内的主要中介效应量的合理性; 最后, 讨论了如 何报告中介效应量以及有待研究的问题。 1 效应与效应量 1.1 显著性检验不能满足需要 尽管争论不断, 零假设显著性检验(NHST)仍 然是大多数统计分析不可或缺的重要环节, 至少 “显著性”的结果能告诉我们, 效应(effect)不太可能 是由样本的抽样误差而产生的, 提高了对研究假设 (即备择假设 H 1 )的信心(温忠麟, 吴艳, 2010)。 不过, 单单一个“显著性”的结果, 所得结论是很弱的。以 通常的两组差异检验为例, 差异显著说明“差异在 统计上可以分辨出来”, 但并没有指出差异有多大 (温忠麟, 侯杰
5、泰, 2008)。再以相关分析为例, 相关 显著说明“相关系数不是零”, 但并没有指出相关有 多高。 这就不难理解, 诸如检验测验信度系数(如重 测信度)的显著性那样的统计分析是没有意义的, 因为人们感兴趣的是“信度有多高”, 而不是“信度 是否为零”。 为了弥补显著性检验的不足, 在统计分析结果 中报告效应量(effect size)受到重视(Fan Thompson, 2007; Wilkinson, 1999), 不仅多数 国际期刊要求报告效应量, 国内不少重要期刊也要 求报告效应量。 436 心 理 学 报 48 卷 1.2 效应通常缺少可比性 研究者不满足于效应显著与否, 还想知道效
6、应 有多大。 每种统计分析都会有一个或多个我们感兴 趣的量, 称为效应。例如, 通常的两组差异分析, 效应是两组均值差异; 在一元回归分析中, 效应是 回归系数, 反映了当自变量变化一个单位时, 因变 量变化了多少个单位; 方差分析中, 感兴趣的效应 可能包括因素的主效应和交互效应, 通常由效应平 方和来衡量。 任何一个效应本身就是一个数量, 如果涉及的 变量有公认的量尺和测量单位, 如长度测量使用米 尺、抽烟数量以每天抽烟支数计算, 则效应本身就 是现成的效应量。例如, “男女身高均值差异为 0.1 米”、“男员工比女员工平均每天多抽 2.5 支烟”, 意 义就相当明确, 同类的不同研究之间
7、也有可比性。而 且, 这个基于原始测量单位的效应量与其他变换后 的各种效应量相比, 不仅简单, 而且更加容易理解。 在物理测量中, 通常都有公认的测量单位, 就 算测量单位不同, 也可以彼此等值转换(如 1 米 = 100 厘米)。然而, 心理测量通常不像物理测量那样 有通行世界的公制单位, 不同的测量之间也难以等 值转换。因为不同的研究可能使用不同的量表, 有 不同的测量单位, 所以基于原始测量单位的效应缺 少可比性。例如, 研究一项英语培训方法的效果, 有研究者用雅思(IELTS)测试成绩, 发现培训后平 均增加了 1.2 分; 另有研究者用托福(TOEFL)测试 成绩, 发现培训后平均增
8、加了 9.5 分。这时, 既不 知道 IELTS 提高 1.2 分或者 TOEFL 提高 9.5 分算是 效应高还是低, 也不知道两个研究者的培训效应谁 的较高。 这时, 需要一种与测量单位无关(scale-free) 的指标效应量, 来衡量效应的大小。 1.3 常见效应量 这里我们回顾一下常见统计方法的效应量, 方 便后面引用。在两组差异分析中, 最常用的效应量 是 Cohen (1988, p.67)的 d: 12 pooled yy d (1) 其中 22 1122 pooled 12 (1 )(1 ) nsns nn (2) 而 , ii ny 和 2 i s 分别是第 i (i =
9、1, 2)组的样本容量、样 本均值和样本方差。 在一元回归分析中, 最常用的效应量是复相关 系数平方(squared multiple correlation coefficient) 2 R (Cohen, Cohen, West, Olejnik 否则还不能下结论, 应当增加被试提高检验力, 重新做统计分析。一般地说, 对于中等以上的效应 量, 只要样本容量足够大(因而检验力足够高), 效 应都会显著。 再看效应显著的情形: (1)如果效应量小, 除非有理由说明小的效应 量也会引起严重后果, 否则通常都认为没有实际意 义。 就是说, 效应量小的时候, 显著也没有实际意义。 (2)如果效应量
10、达中上大小, 已经有理据做出 结论, 效应在统计上和实际上都有意义。 效应量多大算小、中或大, 要看具体的效应量 是什么, 在不同的研究领域通常会有约定俗成的大 致标准。例如 Cohen (1969)提出, d = 0.2、d = 0.5 和 d = 0.8 分别对应于小、 中、 大的效应量, 是心理 学科很多人引用的标准。 不同研究可能考虑的效应 量可参考郑昊敏、温忠麟和吴艳(2011)的文章。有 关检验力与效应量、样本容量的关系, 可参考吴艳 和温忠麟(2011)的文章。 表 1 总结了如何根据检验的统计显著性与效应 量得出统计结论。不论检验结果是否显著, 计算和 报告效应量总是需要的,
11、结合显著性和效应量才能 得到适当的统计结论。 但并不是任何时候都要考虑 检验力。当检验结果是显著时, 不用考虑检验力高 低, 因为此时可能犯的错误是第一类错误。只有当 4 期 温忠麟 等: 从效应量应有的性质看中介效应量的合理性 437 表 1 根据统计显著性和效应量作出统计结论 效应量 检验结果 小 中 大 不显著 效应既无统计意义也无实际意义, 可 以认为没有效应 考察检验力, 如果检验力高, 认为效 应由抽样误差引起; 否则应当增大样 本容量以提高检验力 效应量大却不显著, 通常是检验力 低所致, 应当增大样本容量以提高 检验力 显著 虽然效应显著, 但微不足道。除了某 些小效应量也可能
12、有大影响的情形, 通常都可以认为没有实际意义 有理据做出结论: 效应在统计上和实际 上都有意义 有充分理据做出结论:效应在统计 上和实际上都有意义 注:此表参考 Fan 和 Konold (2010)的图 1 以及吴艳和温忠麟(2011)的图 2 整理修改得到。 检验结果是不显著时, 才需要考虑检验力(相当于 报告第二类错误率)。不过, 如果效应量小, 通常都 没有必要看检验力高低, 可以直接作出没有效应的 结论; 如果效应量中上, 检验不显著会令人怀疑是 检验力不够高所致, 文章投稿难以被接受, 此时适 当增加样本容量, 通常都会得到显著结果。所以, 虽然研究者需要有检验力的概念, 知道增加
13、样本容 量是提高检验力的途径, 但是可以说在文章中是不 必报告检验力的。 3 效应量应当有的性质 一个统计量应当具有哪些性质才能成为一个 效应量呢?目前似乎未见有文献做专门的讨论, 尽 管 Kelley 和 Preacher (2012)在极其宽泛的效应量定 义下, 提到了好的效应量应当有的性质(也见 Preacher 方程(10)的系数 a 为自变量 X 对中介变量 M 的 效应; 方程(11)的系数 b 是在控制了自变量 X 的影 响后, 中介变量 M 对因变量 Y 的效应; 系数 c 是在 控制了中介变量 M 的影响后, 自变量 X 对因变量 Y 的直接效应; 1 e 3 e 是回归残差
14、。对于这样的简单 中介模型, 中介效应等于间接效应(indirect effect), 即等于系数乘积 ab, 它与总效应和直接效应有下 面关系(MacKinnon, Warsi, MacKinnon, 2008; MacKinnon Preacher m (b)是给定 c 和 a 后系数 b 的最大值。因而, 在给定 c 后, m (a)与 b 有关, 而 m (b)与 a 有关, 结果是 m (a)m (b)与 a 和 b 都有关, 说明 m (ab) = m (a)m (b)是不成立的。 随着 ab 的上升, m (a)m (b)可能上升也可能下降, 导致 2440 心 理 学 报 48
15、 卷 没有单调性。 Wen 和 Fan 给出一个简单的数据例子, 用来说明为什么 2 没有单调性。 5.4 2 的定义不当 既然 m (ab) = m (a)m (b)不成立, 那么 m (ab) 该如何计算?Wen 和 Fan (2015)用初等代数证明了 m (ab)其实是无穷大(可以理解为比任何一个正整 数都大), 这一点肯定出乎 Preacher 和 Kelley (2011) 的意外。因为任何数除以无穷大等于 0, 所以 2 的 定义本身就有问题, 就是说, 在定义中将 m (ab)用 来做分母是不对的。 6 R 2 型中介效应量的问题 前面的讨论说明, Preacher 和 Kel
16、ley (2011)提 出的 2 该彻底停用了。 我们只好回头看看其他中介 效应量。检视文献上出现的中介效应量, 除了传统 的中介效应量 M P 外, 值得考虑的是 2 R 型中介效应 量, 其他一些定义复杂、计算繁琐、解释困难的中 介效应量则不拟涉及。 受到回归分析中常见效应量 2 R 的启示, MacKinnon (2008)提出了 3 个 2 R 型中介效应量 ( 2 4.5 R , 2 4.6 R 和 2 4.7 R ): 2222 4.5 , () YM Y MX YX RrRr (16) 222 4.6 . MXY MX Rrr (17) 22 2 . 4.7 2 . MXY MX
17、 YM X rr R R (18) 其中 YM r 表示 Y 与 M 的相关系数(平方后就是 Y 的 方差被 M 解释的比例), 2 , YM X R 表示 Y 对 X 和 M 的 回归(11)得到的 2 R (即 Y 的方差被 X 和 M 解释的比 例), . YM X r 表示在消除了 X 影响后 Y 与 M 的偏相关 (partial correlation)系数。De Heus (2012) 提出了改 良版的 2 4.6 R , 将偏相关系数 . YM X r 用部分相关(part correlation)系数 (.) YMX r 代替: 222 DH ( . ) MXYMX Rrr
18、(19) 但是, 上面几个 2 R 型中介效应量全部都没有单调性 (Lachowicz, 2015; Wen Preacher & Kelley, 2011)。 最近, Lachowicz (2015)将 2 4.5 R (也记为 2 med R , Fairchild, Mackinnon, Taborga, & Taylor, 2009)中的 YM r (M 对 Y 的总效应)换成 YM ra c (总效应 YM r 减去 M 对 Y 的虚假效应 ac , 实际上就等于 M 对 Y 的直 接效应 b), 变成 2* 2 2 2 med , () () YM Y MX YX Rra cRr
19、(20) 由此得到了另一个版本的 2 4.6 R (相当于 2 4.6 R 的相关 系数用图 1 中的标准化回归系数代替): 2* 2 2 2 2 med . MX YM X Ra b (21) 与前面几个 2 R 型中介效应量不同的是, 这个几经 周折推导出来的 2* med R 有单调性。这是很明显的, 因 为它就是中介效应 ab 的平方, 中介效应(绝对值)越 大, 2* med R 越大。 而与前面几个 2 R 型中介效应量相同 的是, 2* med R 也不能理解为方差被解释的比例 (Lachowicz, 2015)。 在一元回归分析中, 将标准化回归系数(就是 相关系数 r )平方
20、后(就是 2 R )作为效应量, 就是因 变量的方差被解释的比例, 有明确的统计意义并且 方便推广到多个自变量的情形。 但现在将中介效应 进行平方, 解释上已经成问题, 推广到多重中介模 型更加难以解释, 还不如直接使用标准化的中介效 应大小容易解释和推广。 7 同时报告多个指标对中介效应做 出评价 究竟应当如何报告中介效应量呢?传统的中 介效应量 M P 有单调性, 但如果仅仅报告 M P 其实反 映不出来中介效应的大小。例如, 如果一个研究的 总效应 c = 0.6, 另一个研究的总效应 c = 0.3, 那么 同样都是 0.5 M P , 前一个研究的中介效应比后一 个研究的强多了。 所
21、以, 单单看一个 M P , 研究之间 缺少可比性。另一个常见的中介效应量 M R 没有单 调性, 所以不建议用作中介效应量, 但作为一个统 计结果还是可以报告的, 让读者了解间接效应与直 接效应的相对大小。 可以说没有一个现有的中介效应量能令人满 意, 或者说, 没有哪个单个的中介效应量能担当衡 量中介效应大小的作用。 那该如何报告中介效应量 呢?Wen 和 Fan (2015)的建议是同时报告多个统计 量。首先应当同时报告总效应的原始估计(如果有 意义)和标准化估计(与测量单位无关)。 前者反映了 当 X 变化一个单位时, Y 将变化多少个单位。后者 反映了当 X 变化一个标准差时, Y
22、将变化多少个标 准差。然后报告间接效应 ab 和直接效应 c 的原始 估计和标准化估计。当 ab 和 c 符号一致时, 报告 M P 是有意义的, 说明了中介效应占总效应的比例。 例如, 如果 c = 0.5, 间接效应 ab = 0.2, 直接效应 c = 0.3 (都是标准化估计), 可以做如下解释:当 X4 期 温忠麟 等: 从效应量应有的性质看中介效应量的合理性 441 变化一个标准差时, Y 将变化 0.5 个标准差, 其中 0.2 是 X 通过中介变量 M 对 Y 起作用, 而余下的 0.3 则是 X 直接对 Y 起作用。中介效应占了总效应的 40% (= 0.2/0.5)。上述这
23、些统计量, 不仅容易计算, 而且容易解释。总之, 只要 ab 和 c 符号一致(此时 ab 不超过总效应 c), 事情就好办, 在有了标准化估 计的 ab 和中介效应量 M P 后, 中介效应的绝对大小 和相对大小都已经明确了。 对于不一致的中介模型( ab 和 c 符号相反), 标 准化估计的 ab 是没有界的, M P 也没有界。此时, 无论看着标准化估计的 ab 还是中介效应量 M P , 对 中介效应大小可能都没有谱, 不知道多少算大, 多 少算小。或许通过同类研究的元分析, 可以提供中 介效应大小幅度的一个参照系(Wen & Fan, 2015)。 除了报告标准化估计的 ab 和 M
24、 P 外, 是否还有 什么指标可用来作为中介效应量呢?如果有, 是否 也可以作为不一致的中介模型的中介效应量?都 是有待研究的问题。 参 考 文 献 Alwin, D. F., & Hauser, R. M. (1975). The decomposition of effects in path analysis. American Sociological Review, 40, 3747. Athay, M. M. (2012). Satisfaction with Life Scale (SWLS) in caregivers of clinically-referred youth:
25、 Psychometric properties and mediation analysis. Administration and Policy in Mental Health and Mental Health Services Research, 39, 4150. Baron, R. M., & Kenny, D. A. (1986). The moderator mediator variable distinction in social psychological research: Conceptual, strategic, and statistical conside
26、rations. Journal of Personality and Social Psychology, 51, 1173 1182. Cohen, J. (1965). Some statistical issues in psychological research. In B. B. Wolman (Ed.), Handbook of clinical psychology. New York: McGraw-Hill. Cohen, J. (1969). Statistical power analysis for the behavioral sciences. New York
27、: Academic Press. Cohen, J. (1973). Eta-squared and partial eta-squared in fixed factor ANOVA designs. Educational and Psychological Measurement, 33, 107112. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). New York: Erlbaum. Cohen, J., Cohen, P., West, S. G., & Ai
28、ken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences (3rd ed.). Mahwah, New Jersey: Lawrence Erlbaum Associates, Inc. De Heus, P. (2012). R squared effect-size measures and overlap between direct and indirect effect in mediation analysis. Behavior Research
29、Methods, 44, 213221. Fairchild, A. J., Mackinnon, D. P., Taborga, M. P., & Taylor, A. B. (2009). R 2effect-size measures for mediation analysis. Behavior Research Methods, 41, 486498. Fan, X., & Konold, T. R. (2010). Statistical significance versus effect size. In P. Peterson, E. Baker, and B. McGaw
30、 (Eds.), International encyclopedia of education (3rd ed., Vol. 7, pp. 444450). Oxford: Elsevier. Fang, J., Zhang, M. Q., & Chiou, H. J. (2012). Mediation analysis and effect size measurement: Retrospect and prospect. Psychological Development and Education, 28, 105111. 方杰, 张敏强, 邱皓政. (2012). 中介效应的检验
31、方法和效 果量测量: 回顾与展望. 心理发展与教育, 28, 105111. Field, A. (2013). Discovering statistics using IBM SPSS statistics (pp. 408419). London: SAGE. Judd, C. M., & Kenny, D. A. (1981). Process analysis: Estimating mediation in treatment evaluations. Evaluation Review, 5, 602619. Kelley, K., & Preacher, K. J. (2012
32、). On effect size. Psychological Methods, 17, 137152. Koletzko, S. H., Herrmann, M., & Brandsttter, V. (2015). Unconflicted goal striving: Goal ambivalence as a mediator between goal self-concordance and well-being. Personality and Social Psychology Bulletin, 41, 140156. Labelle, L. E., Lawlor-Savag
33、e, L., Campbell, T. S., Faris, P., & Carlson, L. E. (2015). Does self-report mindfulness mediate the effect of Mindfulness-Based Stress Reduction (MBSR) on spirituality and posttraumatic growth in cancer patients?. The Journal of Positive Psychology, 10, 153166. Lachowicz, M. (2015). A novel measure
34、 of effect size for mediation analysis (Unpublished masters thesis). Vanderbilt University. MacKinnon, D. P. (2008). Introduction to statistical mediation analysis. Mahwah, NJ: Erlbaum. MacKinnon, D. P., & Dwyer, J. H. (1993). Estimating mediated effects in prevention studies. Evaluation Review, 17,
35、 144158. MacKinnon, D. P., Krull, J. L., & Lockwood, C. M. (2000). Equivalence of the mediation, confounding and suppression effect. Prevention Science, 1, 173181. MacKinnon, D. P., Warsi, G., & Dwyer, J. H. (1995). A simulation study of mediated effect measures. Multivariate Behavioral Research, 30
36、, 4162. Olejnik, S., & Algina, J. (2000). Measures of effect size for comparative studies: Applications, interpretations, and limitations. Contemporary Educational Psychology, 25, 241 286. Preacher, K J., & Kelley, K. (2011). Effect size measures for mediation models: Quantitative strategies for com
37、municating indirect effects. Psychological Methods, 16, 93115. Rivera, P. M., & Fincham, F. (2015). Forgiveness as a mediator of the intergenerational transmission of violence. Journal of Interpersonal Violence, 30, 895910. Sobel, M. E. (1982). Asymptotic confidence intervals for indirect effects in
38、 structural equation models. In S. Leinhardt (Ed.), Sociological methodology (pp. 290312). Washington, DC: American Sociological Association. Thompson, B. (2007). Effect sizes, confidence intervals, and confidence intervals for effect sizes. Psychology in the Schools, 44, 423432. Wen, Z., & Fan, X.
39、(2015). Monotonicity of effect sizes: Questioning kappa-squared as mediation effect size measure. Psychological Methods, 20, 193203. Wen, Z., & Hau, K.-T. (2008). Cutoff values for testing: How great the difference between the true and the false makes them distinguishable? Acta Psychologica Sinica, 40, 119124. 温忠麟, 侯杰泰. (2008). 检验的临界值: 真伪差距多大才 能辨别? 心理学报, 40, 119124. Wen, Z., & Wu, Y. (2010). Misuses and misunderstandings in statistics by psychologists. Journal of South China Normal