1、* 作者感谢康奈尔大学摩根 ( Stephen Morgan) 教授 、牛津大学斯奈德斯 ( Tom Snijders) 教授和赫斯特罗姆 ( Peter Hedstrm) 教授 、香港科技大学吴晓刚教授 、中山大学梁玉成副教授 、浙江省社会科学院范晓光助理研究员的讨论 、批评和建议 , 同时感谢匿名评审专家和编辑部提出的修改意见以及 CGSS 2003 和 CHIPS 2002 数据团队 。文责自负 。 圣杯 ( grail) 系指耶稣受难时用来盛放鲜血的圣餐杯 。在凯尔特神话中 , 追寻圣杯是一个神圣而伟大的主题 , “有能者居之 ”, 其过程则充满艰险 , 传说有无数骑士为了寻求圣杯而踏
2、上了不归之路 。 关于社会科学定量分析中的反事实因果框架可参见摩根和温肖普的文章 ( Morgan Winship, 2007) 。谢宇 ( 2006) 曾经以大学教育为例来说明反事实因果的含义 。比如 , 在分析大学教育对个体的收入是否有因果效应时 , 对一个上大学的学生 , 我们不可能获得他不上大学情况下的数据 。因此 , 社会学定量分析中只能用平均干预效应来替代 , 也即估算一组大学生 ( 干预组 ) 与一组非大学生 ( 控制组 ) 之间的平均收入差异 。逻辑、想象和诠释:工具变量在社会科学因果推断中的应用*陈云松提要 : 工具变量 ( instrumental variable) 是社
3、会科学定量分析中解决内生性问题的重要手段 , 是基于调查数据进行因果推断的前沿方法 。本文在简要介绍工具变量的定义 、原理及估算方法的基础上 , 对实证分析中较为常见的五类工具变量进行回顾梳理 , 为今后研究寻找工具变量提供了参考 。同时 ,对工具变量估计量的权重性特征进行了阐述 , 并结合实例展示了使用工具变量进行因果推断的基本步骤和要点 。最后 , 就工具变量方法的潜力和局限性进行了剖析 。关键词 : 工具变量 内生性 定量分析 因果推断一 、导言 : 因果推断的圣杯在反事实因果的框架之下 ,基于调查数据的社会学定量分析要进行因果推断 , 难度极大 。其主要原因在于 , 社会学家一旦要证明
4、某个他们所感兴趣的 “因 ”会带来一定的 “果 ”, 就必须面对一个永恒挑战 :“内生性 ”问题 ( endogeneity) 。也即 : 如果某个潜在的 、无法观测的干291扰项 , 既影响 “因 ”, 又影响 “果 ”, 那么 , 利用最小二乘法模型 ( 简称 OLS模型 ) 进行回归分析所得到的估计量就会是有偏误的 , 而不具有因果推断力 。在实证分析中 , 无论是经典的教育回报研究 ( Card, 1999) , 还是我国学界非常关注的关系网 、社会资本研究 ( Mouw, 2003, 2006; 陈云松 、范晓光 , 2010, 2011) , 内生性问题都极为重要且亟待解决 。解决
5、内生性问题的常见方法 , 主要包括工具变量 ( instrumental var-iable, 简称 IV) 、固定效应模型 ( fixed effects model, 简称 FE) 、倾向值匹配 ( propensity score matching, 简称 PSM) 、实验以及准实验 ( experimentsand quasi-experiments) 等等 。近年来 , 其中不少方法已经逐步在我国社会学界得到评述和应用 ( 梁玉成 , 2010; 陈云松 、范晓光 , 2010, 2011; 陈云松 , 2012; 胡安宁 , 2012; 魏万青 , 2012) 。在反事实因果分析框
6、架下 , 实验或准实验方法最切近要义 。但社会科学的很多研究主题和领域决定了无法使用实验方法 , 而其他方法也都具有较大的局限性 。如固定效应模型只能消除时间固定的干扰项 , 倾向值匹配方法则完全依赖于 “可观测因素被忽略 ”的假说 。相比较而言 , 对基于调查数据的定量分析 , 工具变量方法具有独特优势 。不过 , 工具变量方法在社会学分析中的运用 , 目前却远远不如它在计量经济学和政治学定量分析中那么广受青睐 ( 政治学和计量经济学研究中工具变量方法的使用参见Sovey Green, 2011; Angrist et al , 1996; Angrist Krueger, 2001) 。但
7、是 , 近 10 年来社会学界对于工具变量的态度 , 正在由不熟悉 、犹豫不决向着逐步接纳而转型 。10 年前 , 康奈尔大学的摩根有感于工具变量方法得不到社会学家青睐而专门写成一篇 社会学家该不该用工具变量 的文章 ( Morgan, 2002) 。整整 10 年后 , 美国 社会学年鉴 ( Annual Review of Sociology) 专门刊出了博伦关于工具变量在社会学分析中应用的综述 ( Bollen, 2012) 。这篇重要论文从技术角度详细回顾了 2000 2009 年间在美国三大顶级社会学刊物 ( American SociologicalReview, American
8、 Journal of Sociology, 以及 Social Forces) 刊发的 57 篇采用工具变量方法的论文 。毫无疑问 , 工具变量方法逐步被社会学界关注和接纳的过程 , 充分展示了社会学定量分析方法的演进以及与其他391论 文 逻辑 、想象和诠释 : 工具变量在社会科学因果推断中的应用 在社会资本和社会网研究中对内生性问题关注最早的仍是计量经济学界 ( 参见 Manski,1993, 2000; Moffitt, 2001; Durlauf, 2002; Durlauf Fafchamps, 2004; Bramoull et al ,2007) 。学科在方法论上的进一步融合
9、。那么 , 何以说工具变量是定量分析中因果推断的 “圣杯 ”? 这是因为 , 好的工具变量非常难以寻觅 , 寻找它的逻辑和数据挖掘过程充满艰辛 、难以驾驭 , 甚至往往需要研究者的灵感 。但它在模型上的简洁性 ,它对社会科学想象力 、逻辑力和诠释力的要求 , 既为定量分析提供了因果推断的重要武器 , 也让分析的过程充满趣味和奇思妙想 。本文将以尽量浅显的语言 , 总结回顾工具变量的原理 、来源 、分类和特性 , 并结合具体分析案例 , 勾勒工具变量方法的实施步骤和诠释要点 。本文是当前社会学文献中首次对工具变量进行梳理和分类的尝试 , 也是目前我国社会学定量分析领域第一次对工具变量的全面介绍
10、、评述和案例展示 。二 、工具变量的原理 : 模型之外的力量工具变量的原理最早由菲利普 莱特 ( Philip G Wright) 在上世纪20 年代末提出 ( Stock Trebbi, 2003) , 这里仅作扼要介绍和基本的模型推演 。首先 , 我们给出一个典型的线性回归模型 :y = 0+ 1x1+ X + ( 1)这里 y 为因变量 , 也即 “果 ”; x1为自变量 , 或者解释变量 , 也即“因 ”。大写的 X 为外生控制项向量 ( 也即一组假定为外生的其他控制变量 , 例如年龄 、性别等等 ) , 则为误差项 。如果 与 x1不相关 , 那么我们可以利用 OLS 模型对方程进行
11、无偏估计 。然而 , 如果一个重要变量 x2被模型 ( 1) 遗漏了 , 且 x1和 x2也相关 , 那么对 1的 OLS 估计值就必然是有偏的 。此时 , x1被称作 “内生 ”的解释变量 , 这也就是著名的 “内生性 ”问题 。要解决这一内生性问题 , 我们需要引入更多信息来进行无偏估计 。工具变量的方法就是引入一个外生变量 Z, 且 Z 必须满足以下两个条件 : 与 不相关 , 但与 x1相关 。或者说 , Z 仅仅通过影响 x1来影响 y。这样 , 根据工具变量的必备条件 , 我们可以得到 :Cov( Z, x1) 0; Cov( Z, ) = 0 ( 2)由方程 ( 1) 我们可以推
12、导出 :Cov( Z, y) = 1Cov( Z, x1) + Cov( Z, X) + Cov( Z, ) 。再根据方程 ( 2) 和 X 是外生向量的假设 , 我们得到 Cov( Z, y)491社会学研究 20126= 1Cov ( Z, x1) , 也即 :1= Cov( Z, y) /Cov( Z, x1)故此 , 我们可以对 1进行无偏估计 :1=ni =1( Zi珔Z) ( yi珋y)ni =1( Zi珔Z) ( x1i x1)( 3)方程 ( 3) 里的1, 也就是工具变量估计量 。如果用上述公式还不能直观清晰地表达工具变量的原理 , 那么我们可以用下面的示意图来做一简要说明
13、。在图 1 中 , 模型的范围用虚线框来表示 。工具变量 Z 处于模型之外 ( 也即在虚线框之外 ) , 因此是完全外生的 。此时 , 工具变量 Z 只能通过影响自变量 x1而间接影响因变量 y。如果工具变量 Z 和自变量 x1密切相关 , 那么 , 只要工具变量 Z 有了增量变化 , 就必然会对自变量 x1产生一个来自模型之外的冲击 。如果自变量 x1和因变量 y 之间真的存在因果关系 , 那么 Z 对 x1带来的冲击也就势必传递到 y。这样 , 在一系列的假说之下 , 只要 Z 对y 的间接冲击能够被统计证明是显著的 , 我们就可以推断出 x1对 y 必然有因果关系 。利用对 Z 与 x1
14、相关的估算 , 以及 Z 与 y 的间接相关的估算 , 理论上我们就可以推导出 x1和 y 之间真实关系的大小 1。因此 , 图 1 非常清晰地展示了工具变量的原理 : 利用来自模型之外的外生差异进行无偏估计 。较为常见的工具变量估算方法是两阶段最小二乘法 ( two-stageleast-squares, 也即 2SLS) 。在回归的第一阶段 , 内生的因变量 x1放在模型左侧 , 而右侧则为原模型中全部 X 以及工具变量 Z。然后对每一个 x1进行预测赋值 。在第二阶段 , 模型左侧是因变量 y, 右侧则为 X和 x1的第一阶段预测值 。工具变量估计量肯定是一致的 ( 参数估计的一致性指当
15、样本容量趋向无穷大时 , 参数估计趋近于参数真值 , 也就是收敛于参数真值 ) 。不过其估计方差也比相应的 OLS 估计方差要大 。工具变量 Z 和自变量 x1之间的关系越紧密 , 则估计方差越小 。要确保工具变量分析结果稳健可信 , 我们必须首先检验工具变量的合法性 , 同时还要观察工具变量模型和一般的单方程模型 ( 如 OLS或 Probit 模型 ) 之间的分析结果有无系统差异 。这里 , 有几个至关重要591论 文 逻辑 、想象和诠释 : 工具变量在社会科学因果推断中的应用 当然 , 模型内的干扰项和主解释变量以及因变量之间的关系也可能是逆向的 。图 1 模型之外的力量 : 工具变量原
16、理的统计量的判别是必不可少的 。( 1) Z 和 x1必须是强相关 。否则 , 就会带来弱工具变量问题 , 导致估计量有偏 。在使用二阶段估计法时( 2SLS) , 一般我们可以依赖 F 统计量来判断两者之间的关系强弱 。一般而言 , 如果 F 统计量大于经验值 10, 则不存在弱工具变量问题 ( Stock Yogo, 2005) 。( 2) 工具变量的外生性是无法用统计方法直接验证的 。不过当我们同时使用多个工具变量时 ( 也即模型被过度识别时overidentified) , 则可以进行沙根检验 ( Sargan Test) ; 此外 , 有一些研究会把工具变量直接加入主模型进行偏系数的
17、显著性检验 , 不过严格意义上这一做法并不具有有效性 。( 3) 豪斯曼内生性检验 ( Hausman Testof Endogeneity) , 用以检测 OLS 模型和工具变量模型之间是否存在系统差异 。如果有 , 则应采纳工具变量估计量 。( 4) 瓦尔德内生性检验( Wald Test of Endogeneity) , 用以检测单方程 Probit 模型与 IV-Probit 模型之间是否存在系统差异 。如果有 , 则应采纳 IV-Probit 模型估计量 。三 、工具变量的寻觅 : 逻辑和想象本部分将对一些经典和较具说服力的工具变量分析案例进行分类总结 。梳理这些工具变量 , 比一
18、般性的文献综述更重要 , 这是因为 , 合格的工具变量非常难以寻找 。因此 , 前人对某一类工具变量的使用 , 在很大程度上对我们今后寻找工具变量能够带来重要启发甚至灵感 : 严691社会学研究 20126密的逻辑和辽远的想象力 , 是寻找到好的工具变量的必要条件 。( 一 ) 来自 “分析上层 ”的工具变量 : 集聚数据经济学和社会学中一个非常热门的研究课题是同侪效应 ( peereffect) 。其假说是 , 个人的经济社会结果 , 往往会受到所在集体的某个特征要素的影响 。比如 , 一个人的成绩 、收入 、社会地位等等 , 会受到他所在的学校 、班级 、邻里的特征的影响 。但要验证这一假
19、说 , 我们就必须解决个人异质性导致的内生性问题 。这是因为 , 很多无法观测到的个人 、家庭因素 , 会同时和个人结果与我们关心的集体要素相关 ( 特别是 , 个体往往根据自己的某项特质和偏好来选择学校 、选择班级 、选择邻居 ) 。为解决这一内生性问题 , 经济学家和社会学家常常把州 、县或大都会地区层面的集聚数据 ( aggregation data) 作为学校 、班级和邻里等层面解释变量的工具变量 ( 文献回溯参见 Card Krueger, 1996) 。例如 , 埃文斯等 ( Evans et al , 1992) 试图验证学校中的贫困生比例对学生怀孕或辍学行为是否有显著影响 。他
20、们运用大都会地区的失业率 、家庭收入中位数和贫困率作为学校中贫困学生比例的工具变量 。其理由是 : 以都会为单位的失业率和贫困率必然和辖区内学校的贫困生比例有关 , 但又不直接影响学生的怀孕或辍学等行为 。邦托利阿等( Bentolila et al , 2010) 使用联邦就业率作为工具变量来分析 “使用社会关系 ”对个人收入是否具有作用 。联邦就业率与收入没有直接关系 。但就业率高 , 则在联邦内使用关系求职的必要性就低 。不过 , 使用集聚层数据作为工具变量 , 往往会引入噪音 , 甚至增加遗漏偏误 因为我们无法保证高级区划层面上的特征值是完全外生的 ( Grogger,1996; Ha
21、nushek et al , 1996; Moffitt, 1995; Rivkin, 2001) 。因此 , 这类工具变量的应用案例 , 在近年来的研究中有减少的趋势 。( 二 ) 来自 “自然界 ”的工具变量 : 物候天象河流 、地震 、降雨 、自然灾害等自然现象在一定地域范围内具有高度的随机 、外生特性 , 因此可以被假设为与个人和群体的异质性无关 ,791论 文 逻辑 、想象和诠释 : 工具变量在社会科学因果推断中的应用 在面板数据分析中 , 一个标准化的方法是 : 解释变量的若干期滞后的线性组合 ( laggedterms) 可以用来做工具变量 。但这需要一定的假设 。限于篇幅 ,
22、且该方法不需要 “寻找 ”工具变量 , 本文不做介绍 。同时 , 它们又能够影响一些社会过程 。例如 , 霍克斯比 ( Hoxby, 2000)在一篇经典研究中 , 采用区域内河流数量作为该区域学校数量的工具变量 , 以此来验证学区内的学校竞争是否可以提高教学质量 。区域内学校数量之所以是内生的 , 是因为它可能是该区域长期历史积累下的某种特征的结果 。而使用河流数作为工具变量则具有很强的说服力 :河流数量越多 , 就会因交通问题导致更多学校的设立 ; 但河流数是天然形成的 , 本身和教学质量无直接关系 。再如 , 卡尔特和克莱泽 ( Culter Glaeser, 1997) 把贯穿大都市的
23、河流数量作为邻里区隔 ( segregation)的工具变量 , 以分析区隔程度对居住者的影响 。该工具变量的合法性与上例工具变量异曲同工 : 河流越多 , 导致的邻里区隔程度必然越大 ,而河流数量和作为社会结果的居住者的收入无关 。除了河流 , 其他诸如地震 、灾害 、降雨量甚至化学污染等自然现象 ,都曾被具有社会科学想象力的研究者所使用 。例如 , 在班级效应 ( classeffect) 研究中 , 西波隆和罗索利亚 ( Cipollone Rosolia, 2007) 以地震导致的男性免征兵政策作为高中班级性别构成的工具变量 , 以分析意大利学生中班级性别构成对女生成绩的影响 。地震作
24、为一种天象 , 显然是随机和外生的 。在国际移民研究中 , 孟希 ( Munshi, 2003) 则使用墨西哥移民来源地区的降水量作为移民数量的工具变量 , 证明了同乡的移民越多 , 他们在美国打工的收入会越高 。移民来源社区的降雨量作为工具变量的理由是 : 墨西哥某社区的降水量和美国的劳动力市场显然没有任何关联 ; 但降水量和社区的农业收入有关 , 并通过影响农业预期收入而影响到移民美国的决策 。在社会资本和网络效应研究中 , 陈云松 ( 2012) 以中国农民工来源村庄的自然灾害强度作为本村外出打工者数量的工具变量 , 证明了同村打工网的规模直接影响农民工在城市的收入 。使用自然灾害作为工
25、具变量的合法性在于 : 灾害越重 , 外出打工的村民就越多 ; 而在控制了地区间应对灾害的能力和来源省份之后 , 发生在村庄领域内的自然灾害可以被认为是外生的 。( 三 ) 来自 “生理现象 ”的工具变量 : 生老病死人类的生老病死既是社会现象 , 也是生理上的自然现象 。出生日期 、季度 、性别 、死亡率等 , 虽仅仅是有机体的自然历程 , 但既具有随机性 , 又往往和特定的经济社会过程相关 。因此 , 无论在宏观还是微观社会科学层面 , 它们都曾被巧妙地作为工具变量运用在因果推断之中 。891社会学研究 20126比如 , 在制度经济学研究中 , 我们关心的是制度对一国的人均收入有无影响
26、。但制度往往是内生的 , 或者说是选择性的 ( 例如 , 好的制度也许总在人均收入高的国家或地区产生 ) 。只有找到制度的工具变量 , 才能让人信服地证明制度的力量 。阿西莫格鲁等在一项经典研究 ( Ace-moglu et al , 2001) 中 , 把殖民地时代一个国家的自然死亡率作为该国当今制度的工具变量 。其理由非常巧妙 : 如果该地区当年的死亡率高 ,那么欧洲殖民者就相对不愿定居下来 , 从而在当地建立起更具掠夺性的 “坏 ”制度 。由于制度的 “路径依赖 ”, 殖民时代的制度显然和现在的制度关系密切 。因此 , 历史上的死亡率作为工具变量 , 应该和当今制度紧密相关 , 而一百年
27、前的死亡率作为一种自然生理现象 , 又和目前的人均收入没有直接关系 。在微观层面的研究中 , 个人的出生时段曾多次被作为工具变量使用 。在教育回报研究中 , 安古瑞斯特和克鲁格 ( Angrist Krueger,1991) 把被访者出生的季度作为教育的工具变量 。其理由是 : 上半年出生的孩子退学的可能性大于下半年出生的孩子 ( 美国 义务教育法 规定不满 16 周岁不得退学 ) , 因此后者平均受教育时间更长 。除了个体的 “生日 ”, 人类的生育结果也往往作为一种随机现象而被当作工具变量使用 。例如 , 安古瑞斯特和伊凡斯 ( Angrist Evans, 1998) 试图分析家庭中的孩
28、子数是否影响母亲的就业 。由于生育孩子数量是可以被选择的 , 因此解释变量显然是内生的 。为解决这一问题 , 他们巧妙地挖掘了人类生育行为中偏好有儿有女的特征 , 将子女 “老大 ”和 “老二 ”的性别组合情况作为工具变量 。理由是 : 头两胎如果是双子或双女 , 那么生育第三胎的可能性大大增加 , 进而增加子女数 。而子女性别是完全随机的 。莫林和莫斯基翁 ( Maurin Moschion, 2009) 考察了法国邻里中其他母亲的就业如何影响单个母亲的就业 。为了消解内生性问题 ,他们用邻里平均的头两个子女的性别组合作为邻里母亲就业的工具变量 。理由是 , 邻里平均的头两个子女的性别组合
29、, 会影响到邻里内母亲的平均就业情况 , 而邻里的下一代性别结构是随机的 , 和单个母亲的就业决定没有直接关系 。前文提及的邦托利阿等人 ( Bentolila et al ,2010) 的研究 , 在使用联邦就业率作为 “使用社会关系 ”的工具变量的同时 , 还使用年长的兄姊数目作为工具变量 。他们的理由是 , 兄弟姐妹数是随机的自然现象 , 因为家庭育儿数字在法国是随机的 。但兄弟姐妹越多 , 则社会关系越多 , 托人帮助求职的可能性也就越大 。991论 文 逻辑 、想象和诠释 : 工具变量在社会科学因果推断中的应用( 四 ) 来自 “社会空间 ”的工具变量 : 距离和价格社会空间的载体
30、, 包括具象性的城市 、乡村 , 和非具象性的市场空间等 , 和人类的行为与社会结果息息相关 , 但往往又在特定分析层面上具有独立性 、随机性 。这类经典的工具变量分析案例 , 出现在教育回报研究中 。卡德 ( Card, 1995) 使用被访者的家到最近的大学的距离作为教育的工具变量 , 以此来分析教育是否能增加个人的收入和地位 。我们知道 , 教育作为解释变量之所以是内生的 , 是因为人们会选择上或不上大学 。而从家到大学的距离 , 会影响到是否上大学这个理性选择 。但这一距离 , 作为城市空间的要素 , 显然又与个体的社会经济结果没有直接关系 。当然 , 地理空间上的距离对于上学意愿的影
31、响可能是微弱的 ,或者只影响到一部分人 。这也就引出工具变量研究中的两个重要概念 弱工具变量和局部干预效应问题 。这些在本文的下节将做说明 。在制度分析的研究中 , 豪尔和琼斯 ( Hall Jones, 1999) 则非常具有想象力地用各国到赤道的距离作为工具变量 。理由是 , 到赤道的距离大致反映了各国受西方制度影响的深浅程度 , 而这一距离显然是外生的 。此外 , 除了城市距离这样具体的社会空间要素 , 市场作为社会经济活动的空间 , 其要素也往往和社会学家关心的现象紧密相关 , 却又不直接干扰个体的某些具体社会特征 。钱楠筠 ( Qian, 2008) 巧妙地用茶叶的价格作为中国家庭中
32、男性收入和女性收入之比的工具变量 , 证明了家庭收入的性别结构最终影响了中国家庭男女出生性别比例 ( 传统上我们相信家庭的总收入影响男女出生比例 ) 。用茶叶价格作为工具变量 , 是因为茶叶产业链的特性决定了从业人员以女性为主 , 茶叶价格提高就意味着女性在家庭中的经济地位提高 , 从而导致家庭女性胎儿被流产的几率降低 。而茶叶的价格显然和家庭男女出生性别比例没有其他任何的因果逻辑联系 。( 五 ) 来自 “实验 ”的工具变量 : 自然实验和虚拟实验实验是一种外来的人为干预 。它一方面对我们关心的解释变量带来冲击 , 同时又会置身模型之外 。能够给我们提供工具变量的实验 , 既有政策干预 、改
33、革创新这样的社会实验 , 又有假想的虚拟实验 。不少研究采用外生性政策干预所带来的自然实验来挖掘适当的工具变量 。这方面 , 工具变量的重要权威安古瑞斯特有着极为经典的越南老兵系列研究 。在越南战争期间 , 美国青年服兵役采取基于生日的抽签形式来002社会学研究 20126决定 。获得抽签号之后 , 小于一定 “阈值 ”就去参加体检服兵役 , 大于阈值的则可免于兵役 。抽签号的产生如同彩票一样是完全随机的 , 但又直接影响到是否服兵役这一重要的社会过程 。利用各人获得的抽签号作为工作变量 , 安古瑞斯特等人从 80 年代末到今天的 20 多年间 , 做出了一系列经典研究 , 分析服兵役是否会对
34、当年的参战者 、今天退伍老兵产生在收入 、后续教育及健康等方面的影响 ( 参见 Angrist, 1990,1993; Angrist et al , 1996; Angrist et al , 2010) 。因为服兵役必然会减少教育年限 , 安古瑞斯特甚至尝试把抽签号作为教育的工具变量以分析教育回报 ( Angrist Krueger, 1992) 。在同侪效应研究中也可以使用自然实验方法 。例如 , 布泽和卡乔拉 ( Boozer Cacciola, 2001) 试图证明班级平均成绩对个体学业成绩具有同侪效应 。他们把班级中曾经参与过 “小班实验 ”的人数比例作为班级平均成绩的工具变量 。
35、其理由是 : 小班实验是随机设计的 , 学校之前从各个班级随机抽人去组成小班 , 因此外生性可以保证 。而小班教学提高了这部分学生的成绩 , 故此对班级整体也必然有影响 。类似方法还可参见博沃尔斯和菲南 ( Bobonis Finan, 2008) 对墨西哥教育的研究 。他们把村庄中参与 Progresa 项目 ( 国家给生活困难的母亲以补助 ) 的比例作为村庄儿童平均就学的工具变量 , 以此来分析乡村同龄人的入学率是否影响个体的入学决定 。实际上 , 这一系列的工具变量思路来自于早前安古瑞斯特和拉维关于以色列班级规模效应的经典研究 ( Angrist Lavy, 1999) : 小班是否有利
36、于学生提高成绩 。他们采用的工具变量是所谓迈蒙尼德 ( Maimonides) 规则下的本地招生人数 。根据迈蒙尼德规则 , 凡是班级人数超过 40 的就会被分裂为两个小班 。因此 , 招生人数和班级规模之间就存在一个紧密的非线性关系 。更宏观社会空间层次的 “自然实验 ”则是历史过程或大规模的社会运动 。方颖 、赵扬 ( 2011) 为估算各地区产权保护制度对经济增长的贡献 , 采用的工具变量是 1919 年中国不同城市基督教初级教会小学注册人数在当地人口中的比例 。因为这一比例代表了该地区历史上受西方影响的程度 : 入读教会小学的人口比例越大 , 该地区受西方影响越102论 文 逻辑 、想
37、象和诠释 : 工具变量在社会科学因果推断中的应用该工具变量后来引发了弱工具变量的争论 。此外 , 抽签当兵者可能会更加关注健康 , 从而使得工具变量和因变量直接相关 , 导致工具变量估计量有偏 。不过 , 该研究引起了较大争议 。因为抽签号大于阀值的人会钻政策的空子而采用接受教育来逃避战争 , 由此造成抽签号不再外生 。大 , 也就越有可能在今天建立起较好的产权保护制度 。而教会小学建立的初衷在于布道 , 这一变量和当年以及现在各地区的经济水平并不直接相关 。在社会网分析中 , 章元 、陆铭 ( 2009) 在分析农民工的家庭网 、亲友网和收入之间的关系时 , 用农民工祖辈的社会背景及是否来自
38、革命老区作为工具变量 。其理由是 , 祖辈社会背景和是否来自老区会影响到农民工的社会网络规模 , 但这些历史因素和今天农民工在异地的收入没有其他直接联系 。虚拟实验则是一种非常有趣的工具变量方法 , 其原理有点接近于匹配方法 。巴耶尔和罗斯 ( Bayer Ross, 2009) 在研究就业是否存在邻里同侪效应时 , 为解决被访者个体异质性和自选择问题 , 他们用与被访者具有相同个人特征 ( 也即方程 1 中的 X 中的一组控制变量 ) 的其他被访者的平均邻里特征来作为被访者邻里特征的工具变量 。其理由是 , 相似个体选择相似的邻里 , 那么基于类似者的平均邻里特征 ( 也即工具变量 ) 应该
39、与被访者的邻里特征相关 。而同时他们利用了控制变量是外生的这一标准假设 : 既然个体的可观测特征与未被观察因子无关 ( 也即方程中的 X 事先假定是外生的 ) , 那么基于 X 的一组外生变量而生成的工具变量也就必然与个人异质性无关 。孔特雷拉斯等 ( Cont-reras et al , 2007) 采取类似的方法 , 发现邻里的非农就业对玻利维亚妇女获得非农工作具有正面影响 。四 、工具变量估计量的诠释 : 局部干预效应问题把模型外的变量 Z 引入模型时 , 既为模型的识别增加了有效信息 ,但同时也带来了噪音 。其中一个最为重要的问题是 : 我们并不知道工具变量和解释变量之间相关的具体形式
40、和特征 。特别是 , 工具变量和解释变量之间的相关性 , 在样本中是均匀还是不均匀分布的呢 ? 如果工具变量对样本人群的影响分布并不均匀 , 那么工具变量估计量应该更多地反映了部分样本上的因果效应 。这就引出了工具变量分析中一个非常重要的解释框架 所谓的 “局部平均干预效应 ”问题 ( local average treatment202社会学研究 20126effect, 简称为 LATE。参见 Imbens Angrist, 1994; Angrist et al , 1996) 。这一问题之所以重要 , 是因为社会也好 、区域也好 、城市也好 、人群也好 , 群体往往具有内在的差异性 。
41、这种差异性导致样本对于外生冲击的反应步调并不一致 。这样 , 工具变量估计量在很多情况下只是基于诸多局部样本估计量的加权平均值 。理解了这一权重特性 , 我们就能更好地对工具变量的分析结果进行合理的社会学解释 , 而不仅仅是提供一堆表格和纯技术性的统计量 。本文以前面提及的陈云松 ( 2012) 为例来做个说明 。该研究试图证明农民工收入和同村打工网规模之间存在因果效应 , 数据来自CHIPS 2002 共 22 个省的农户调查 。作者把赫克曼二阶段模型 ( 此处简称为 Heckit 模型 ) 和工具变量模型相结合 , 利用 IV-Heckit 模型进行识别 , 以最大限度地消除回归分析中的内
42、生性偏误 。其中 , 农民工来源村庄的自然灾害强度被作为工具变量来识别收入模型 。本文把从 OLS模型 , Heckit 模型和 IV-Heckit 模型分别得出的网络效应估计量概括在表 1 中 。表 1 OLS, Heckit 和 IV-Heckit 模型估算结果 ( N =2361)OLS Heckit IV-Heckit同村打工网规模 ( ln) . 125. 263. 628( . 0349) ( . 076) ( . 232)工具变量第一阶段回归 F 统计量 17. 42豪斯曼内生性检验 P =0. 007注 : ( 1) 括号内是标准误差 。( 2) * p 0. 1, p 0.
43、05, p 0. 01。表 1 中 , 第三列的估计值来自 Heckit 模型 , 也即考虑了可能的样本选择问题 外出打工本身就是一个选择性的过程 。第四列的 IV-Heckit 模型是基于赫克曼二阶段法的工具变量模型 , 能够同时解决样本选择问题和一般的内生性问题 。不难发现 , IV-Heckit 模型给出了一个比 Heckit 模型更大的网络效应估计值 : 后者是 0. 263, 而前者达0. 628。如何解释 IV-Heckit 估计值大于 Heckit 估计值呢 ? 一个现成的302论 文 逻辑 、想象和诠释 : 工具变量在社会科学因果推断中的应用 注意 , 在 LATE 框架下诠释
44、工具变量估计值 , 需要的一个前提是自然灾害和网络之间的关系是单调的 。解释是 , 遗漏变量和网络大小正相关 , 但与个人收入负相关 。但这样的解释是 “空对空 ”的揣测 , 没有社会学意义 。而如果考虑到自然灾害促使农民做出外出打工决定的 “压力 ”不是均质的 , 那么就可以在 LATE的框架下给出比较合理和直观的解释 。因此 , 该文做了进一步的诠释 :由于能力 、地缘 、历史习俗等因素 , 不同村庄的农民 , 在做出外出打工决定时 , 对自然灾害的敏感度可能是不一样的 。例如 , 能力弱的村民或者平均能力较弱的村庄 , 对自然灾害造成的损失更加担忧 , 也就更容易被自然灾害 “拉动 ”而
45、外出打工 。这样 , “弱能力村庄 ”外出打工网的规模 , 就更容易受自然灾害影响 。当我们用自然灾害作为工具变量来估算同村打工网的工资效应时 , IV-Heckit 模型的估计值所体现的就不是基于样本的总体平均效应 , 而是一个加权平均值 。其中 , 来自 “弱能力村庄 ”的农民工会具有更大的权重 。这一加权平均值 , 就是前面所谓的 LATE。而理论和实证研究都表明 , 能力弱的农民工 , 对基于村庄的同乡网依赖更多 , 从村庄网获得的边际效益也更大 。也就是说 , 同村打工网的网络效应 , 在来自 “弱能力村庄 ”的农民工群体中更强 。既然IV-Heckit 模型更多地反映了 “弱能力村
46、庄 ”中的网络效应 , 它给出的估计值自然就要比 Heckit 模型大 。五 、工具变量分析实例 : 社会网 、选择性交友与求职这一节我们通过采取虚拟实验来构建工具变量的实证分析案例 ,来展示一个标准的工具变量分析过程 。通过实例展示 , 我们强调工具变量分析不仅仅能对因果推断做出贡献 , 更能够通过对工具变量估计量和一般 OLS/Probit 估计量进行比较分析 , 使我们对社会机制及其过程产生深刻的理解和认识 。解释和比较分析工具变量结果的过程 , 就是促使我们深入剖析社会机制的过程 。此项研究系国内社会学界一直比较关心的社会资本或社会网络课题 , 其直接目的在于检验一项经典假说 : 社会
47、资本是否真有利于一个人找到工作 ( 参见 Lin, 1999) 。在研究中 , 社会资本的操作化定义是密友圈子的平均教育程度 , 因变量的操作化定义则是是否有工作 。由于交友的过程往往是选择性的 ( 经典的理论就是人以群分 , 参见 McPhersonet al , 2001) , 因此朋友的平均教育程度可能是一个内生变量 。这样 ,402社会学研究 20126一般的单方程模型就不能够证明社会资本的因果效用 。本研究数据来自 2003 年中国综合社会调查 ( CGSS 2003) 。该问卷中设计了被访者的核心讨论网以及被访者自身一系列人口学指标的相关调查 。利用这些数据 , 我们进行工具变量分
48、析 , 分 “建立模型 ”、“寻找工具变量 ”、“数据分析 ”、“诠释比较 ”四个步骤 。1 第一步 : 建立模型我们首先建立一个被访者是否找到工作的预测模型 。考虑求职是二分变量 , 我们采用 Probit 模型 , 写方程如下 :P( yi= 1) = ( 0+ 1Si+ 2Xi) ( 4)其中 yi=1 表示被访者 i 找到工作 , Si表示社会资本 , 也即被访者i 的朋友的平均教育程度 , Xi是一系列的外生个人特征变量 , 如性别 、年龄等 。方程 ( 4) 实际可以写作另外的形式 :Si=0+1Zi+2Xiyi= 1ify*i 0 ( 5)其中 y*i是一个潜在变量 , 也即如果
49、 y*i0 则 yi=1。而工具变量模型 ( IV-Probit) 可以用下面的方程组来表示 :y*i= 0+ 1Si+ 2Xi+ i, yi= 1 y*i 0 ( 6)Si= 0+ 1Zi+ 2Xi+ ( 7)这里 , Zi就是工具变量 , 是随机误差项 。这里 , Cov( Zi, i) =0, Cov( , i) =0, 且 Cov( Zi, Si) 0。步骤要点 : 必须清楚地说明对模型进行无偏估计所需要的全部假设 。同时 , 第一阶段回归方程里 ( 也即方程 7) , 要把第二阶段方程 ( 也即主方程 6) 的全部外生变量都要放入 , 哪怕直觉上这些外生变量和方程左侧的内生变量没有关系 。2 第二步 : 寻找工具变量一般而言 , 我们都是从调查数据中寻找可能的工具变量 。这是因为 , 凭空想象出一个有效的工具变量是非常难的 。而运用逆向思维 , 从数据能提供的一系列变量里进行逐一排查和联想 , 则可能寻找到可用的工具变量 。不过 ,