1、倾向值匹配研究(Propensity Matched Study),对于个体i,其未来收入yi可能有两种状态,取决于是否参加此项目,即:,yi,=,y1i,y0i,若Di=1,若Di=0,其中,y0i表示个体i未参加项目的未来收入,而y1i表示个体i参加项目的未来收入,(y1i- y0i )即个体i参加该项目的因果效应,由于无法同时观测到y0i和y1i,产生了一种“数据缺失”的问题,处理效应:在经济学中,我们常常希望评估某项目或政策实施后的效应,如政策推出的各种项目,此类研究被称之为项目效应评估,也被称之为处理效应,项目参与者的全体构成控制组或对照组,而未参加项目者则构成控制组或对照组。 即y
2、1i-y0i,选择难题:由于个体通常会根据其参加项目的预期收益E(y1i-y0i)而自我选择是否参加项目,导致对平均处理效应的估计带来困难,平均处理效应(ATE) E( y1i-y0i ):表示从总体中随机抽取某个体的期望处理效应,无论该个体是否参与项目,参与者平均处理效应(ATT) E( y1i-y0i |Di=1),非参与者平均处理效应(ATU) E( y1i-y0i |Di=0),E(y1i| Di=1 )- E(y0i| Di=0 ),E(y1i| Di=1 )- E(y0i| Di=1 ),+ E(y0i| Di=1 )- E(y0i| Di=0 ),参与者与未参与者的平均差异,AT
3、T,选择偏差,=,依可测变量选择:如果个体i对Di的选择完全取决于可观测的xi,两大假定:可忽略性:给定xi,则(y0i,y1i)独立于Di均值可忽略性:在给定xi的情况下, y0i和y1i都均值独立于Di,匹配估计量的基本思路:找到属于控制组的某个体j使得其与属于处理组的个体i的可测变量取值尽可能相似,即xi xj,基于可忽略性假设,则个体i与个体j进入处理组的概率相近,具有可比性,故可将yj作为y0i的估计量,倾向值是在 1983 年由学者 Rubin 和 Rosenbaum 首次给出了明确的定义:指在一系列可观察到的协变量条件下,任意一个研究对象被分配到试验组或者对照组的概率。,在一般的
4、实证研究中,由于存在很多其他变量混淆自变量和因变量之间的关系,研究者很难直接探索二者之间的净效果( net effects)。这些混淆变量的影响通常被称为选择性误差( selectionbias) , 而通过倾向值匹配的方式来控制和消除选择性误差,定义:,目标:,马氏距离: 考虑xi与xj之间的相似度或距离(均为k维向量),其中二次型矩阵 为x的样本协方差矩阵的逆矩阵,它的作用相当于权重矩阵,使用马氏距离进行匹配被称之为马氏匹配。,倾向得分(p-score): 个体i的倾向得分为,在给定的情况下,个体i进入处理组的条件概率,即p( xi ) P(Di=1|x= xi ),或者间记p(x) 使用
5、倾向得分作为距离函数进行匹配被称之为倾向得分匹配。,马氏匹配的缺点在于个体i与j的马氏距离最近,但绝对距离可能依然很远 使用倾向得分来度量个体之间的距离好处在于,它不仅是一维变量,而且取值介于0,1之间,即使两者距离很远仍有可能使p( xi ) = p( xj),理论依据:如果可忽略性假定成立,则只需给定p(x)的情况下,( y0i,y1i)独立于Di,(由于D为虚拟变量,故只需证明PD=1|y0,y1,p(x)与y0,y1无关即可),倾向得分定理,重叠假定:对于x的任何可能取值,都有0p(x)1,倾向值匹配(Propensity Matching)步骤,(1)首先要对数据进行数据质量核查,鉴
6、别数据类型,考察数据的完整性和逻辑性,然后根据数据类型和样本量大小来选择相应的倾向得分的分析方法。,(2)选择纳入模型的协变量。 针对试验目的,根据研究者的临床经验筛选混杂因素,并结合倾向得分变量选择的要求,选择合适合理的混杂因素。 然后以处理因素为应变量,混杂因素为自变量来构建模型。根据模型获得倾向得分的估计值。 估计倾向得分可选的模型包括 logistic 回归、Probit 回归、判别分析等,其中最常用的是 logistic 回归模型。,(3)根据数据结构类型和选定的模型来计算每一个试验对象的倾向得分,倾向得分在 01 之间,表示试验对象被分配到试验组或者对照组的概率。,(4)选择合适的
7、倾向得分应用方法。 PS 分层法、PS 匹配法和 PS 协变量校正法等。 以倾向得分匹配法为例,在估计出试验对象倾向得分之后,需要选择合适的算法计算出组间倾向得分之间的距离,也就是近似程度。,(5)根据每个试验对象的倾向得分值,通过选择好的匹配算法进行组间匹配, 匹配结束后得出匹配数据集。,6)在匹配前后,进行组间均衡性检验。 组间基线的均衡性优劣是评价倾向得分方法在实际应用中控制选择性偏倚及混杂效应的较好的指标。 传统上常用的均衡性检验方法是假设检验,但假设检验法存在先天不足,针对此问题 1986 年由 Flury 和 Reidwyl 提出了标准化差异法,给出了明确的定义和计算方法 。,匹配
8、后的处理组均值与控制组均值较接近,这个过程称之为数据均衡,但这两者的差距与计量单位有关,故一般针对x的每一个分量x考虑如下标准距离或者说是标准偏差:,一般要求次标准化差距不超过10%,如果超过则应回到第二步和第三步重新估计倾向得分,或者改变具体的匹配方法。,(7)对匹配后的数据集,选择合适的统计学分析方法来估计处理效应。 由于匹配后试验组和对照组之间的协变量均已均衡,数据可以看作是近似随机化的,如果选择了合适的统计学方法则可以得出真实可信的处理效应。经过匹配,每一个试验组个体都能在对照组找到一个或多个与之匹配的对照个体,所以我们在统计学处理时,也可以考虑类似配对设计的统计方法来进行分析。,一般
9、来说有六种方法:k近邻匹配限制倾向得分的绝对距离|pi-pj|,一般建议 0.25卡尺内最近邻匹配核匹配局部线性回归匹配样条匹配,近邻匹配法,整体匹配法,也叫卡尺匹配或者半径匹配,(贪婪匹配),K近邻匹配即寻找倾向得分最近的k个不同组个体,说明:,卡尺内最近邻匹配即给定卡尺范围内寻找最近匹配,核匹配下其权重为,其中h为指定带宽,K(.)为核函数,近邻匹配法匹配的结果为最近的部分个体,然后进行简单算术平均,两者的区别:,整体匹配法下每位个体的匹配结果为不同组的全部个体(通常是去电共同取值范围之外的个体),只是根据个体距离不同给予不同的权重(近者大,远者小,超出一定范围权重为0),(8)对数据进行
10、敏感性分析。 在一次试验中,好的匹配方法产生不完整的匹配集是不可避免的,哪怕采用最大化匹配也不能消除匹配的不精确。因此,如何在匹配的精度和完整度之间进行选择,值得探讨。由于匹配数据的不完整导致严重的偏倚要远远高于由于精度不够导致的偏倚。所以选择一种合适的匹配算法是十分重要的,因为它影响到处理效应的估计。比较数据集在匹配前后的精确度和完整度,以此来评价不同的匹配算法的优劣是至关重要的。,PSM的局限性:PSM通常要求比较大的样本容量以得到高质量的匹配PSM要求处理组与控制组的倾向得分有较大的共同取值范围;否则,将丢失较多观测值,导致剩下的样本不具有代表性PSM只控制了可测变量的影响,如果存在依不
11、可测变量选择,仍会带来隐性偏差,倾向得分匹配举例培训对工资的效应,政策背景:国家支持工作示范项目(National Supported Work,NSW)研究目的:检验接受该项目(培训)与不接受该项目(培训)对工资的影响基本思想:分析接受培训组(处理组,treatment group)接受培训行为与不接受培训行为在工资表现上的差异。但是,现实可以观测到的是处理组接受培训的事实,而处理组没有接受培训会怎样是不可能观测到的,这种状态也成为反事实,倾向得分匹配举例培训对工资的效应,在倾向得分匹配方法(Propensity Score Matching)中,根据处理指示变量将样本分为两个组,一是处理组
12、,在本例中就是在NSW实施后接受培训的组;二是对照组(comparison group),在本例中就是在NSW实施后不接受培训的组。在处理组和对照组样本通过一定的方式匹配后,在其他条件完全相同的情况下,通过接受培训的组(处理组)与不接受培训的组(对照组)在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。,倾向得分匹配举例培训对工资的效应,本例选自Cameron&Trivedi微观计量经济学:方法与应用(中译本,上海财经大学出版社,2010)pp794-800 所有数据及程序均来自于本书的配套网站(http:/cameron.econ.ucdavis.edu/mmabook/mmapr
13、ograms.html)。,见附件nswpsid.dta,倾向得分匹配举例培训对工资的效应,其中倾向得分匹配法的stata实现过程如下:总的讲来分为两大部分:一是为倾向打分,二是运用得分进行样本匹配并比较。,一、倾向打分,第一步:设定宏变量breps表示重复抽样200次 . global breps 200 第二步,设定宏变量XDW02,表示变量AGE AGESQ EDUC EDUCSQ MARR NODEGREE BLACK HISP RE74 RE75 RE74SQ U74 U75 U74HISP . global XDW02 AGE AGESQ EDUC EDUCSQ MARR NODE
14、GREE BLACK HISP RE74 RE75 RE74SQ U74 U75 U74HISP 第三步,通过logit模型进行倾向打分 . pscoreTREAT $XDW02, pscore(myscore) comsup blockid(myblock) numblo(5) level(0.005) logit 【注释】$表示引用宏变量。 【注意】一定要把处理指示变量放在最前面,倾向得分匹配举例培训对工资的效应,二、运用得分进行样本匹配比较,方法一:Nearest neighbor matching(random version) 最邻近方法 首先,产生随机数种子 . set seed
15、10101 然后 . attndRE78 TREAT $XDW02, comsup bootreps($breps) dots logit,通过stata结果窗口可看到有三张表格:第一张表格,*ATT(ATET)表示已处理的平均处理效应(average treatment effect on the treated) * Analytical standard errors,【说明】注意变量排列次序,RE78正是我们所关心的变量,放在最前面; 其次是处理指示变量,最后是其他变量。,倾向得分匹配举例培训对工资的效应,第三张表格,第一张表与第三张表的差别在于标准差的估计,第一张表使用的是解析标准
16、差,第三张表使用自助法得到标准差。当然t统计量也随之发生变化。,倾向得分匹配举例培训对工资的效应,方法二:Radius matching(半径匹配法),set seed 10101 attrRE78 TREAT $XDW02, comsup boot reps($breps) dots logit radius(0.001),【说明】选项radius( ),括号内填写半径值,例如0.1,0.5,0.00001等,本 例的半径值为0.001。同样也需要注意变量排列次序问题,RE78正是我们所关心的变量,放在最前面;其次是处理指示变量,最后是其他变量。,通过stata结果窗口可看到有三张表格,表格
17、结构与最邻近方法类似。,倾向得分匹配举例培训对工资的效应,方法三: Stratification Matching(分成匹配法),. set seed 10101 . attsRE78 TREAT, pscore(myscore) blockid(myblock) comsup boot reps($breps) dots,方法四:Kernel Matching(核匹配方法). set seed 10101 . attkRE78 TREAT $XDW02, comsup boot reps($breps) dots logit,偏差校正匹配估计量(bias-corrected matching
18、 estimator),由于在倾向得分匹配第一阶段估计倾向得分时存在不确定性,Abadie and Imbens(2002,2004,2006,2011)又重新回到更简单的马氏距离,进行有放回且允许并列(ties)的k近邻匹配,针对非精确匹配一般存在偏差,提出了偏差校正的方法,通过回归的方法估计偏差,然后得到偏差校正匹配估计量。,偏差校正匹配估计量在stata中的命令基本句式为 Nnmatch y D x1 x2 x3,metric(maha) tc(att) m(k) robust(#) biasadj(bias |varlist) pop,其中metric(maha)表示使用马氏距离,选择
19、项tc(att)表示估计ATT,选择项tc(atc)表示估计ATU,默认值为tc(ate),即估计ATE,选择项robust表示计算异方差稳健的标准误,其中#须为正整数,一般可让#=k,选择项biasadj(bias)表示根据原来的协变量进行偏差校正,也可用biasadj(varlist)来指定用于偏差校正的变量名单,选择项pop表示估计“总体平均处理效应”。,具体例子可见ldw_exper.dta,双重差分倾向得分匹配,前面几种匹配估计量均依赖可忽略假定,即可测变量选择,对于观测数据,如果怀疑存在依不可测变量选择,大致有以下几种处理办法:尽量使用更多的相关可测变量,以满足可忽略假定若处理变量
20、的不可观测变量不随时间而变,而且有面板数据,则可使用双重差分倾向得分匹配估计量使用断点回归法,特别是模糊断点回归使用工具变量法(但最大的局限在于很难找到有效的工具变量)根据依可测变量选择的影响来估计依不可测变量选择的影响。,双重差分PSM由Heckman等(1997,1998)提出假设有两期面板数据,记实验前的时期为t ,实验后的时期为t,在时期t,实验还未发生,故所有个体的潜在结果均可记为y0t。在时期t,实验已经发生,故可能有两种潜在结果,分别记为y1t(如果参与实验)和y0t(如果未参与实验)。,双重差分PSM成立的前提为以下均值可忽略假定: E(y0t-y0t |x,D=1)=E(y0
21、t-y0t |x,D=0) 如果假定成立,则可一致地估计ATT:,其中:SP为共同取值范围的集合,I1=i:Di=1(处理组的集合), I0=i:Di=0(控制组的集合),N1为集合I1 SP所包含的的处理组个体数,w(i,j)对应于配对(i,j)的权重。,双重差分PSM法的步骤如下:根据处理变量Di与协变量xi估计倾向得分。对于处理组的每个个体i,确定与其匹配的全部控制组个体(即确定集合Sp)对于处理组的每个个体i,计算其结果变量的前后变化(y1ti-y0ti)对于处理组的每个个体i,计算与其匹配的全部控制组个体的前后变化( y0tj-y0tj )针对(y1ti-y0ti)和( y0tj-y
22、0tj ),进行倾向得分核匹配或局部线性回归匹配,即得到一致估计的ATT,说明:双重差分PSM法的优点在于它可以控制不可观测但不随时间变化的组间差异,比如处理组与控制组分别来自两个不同的区域,或处理组与控制组使用了不同的调查问卷。,双重差分PSM在stata中的基本句式为diff outcome_var,treat(varname) period(varname) id(varname) kenel ktype(kernel) cov(varlist) report logit support test,其中outcome_var为结果变量,必选项treat(varname)用来指定处理变量,
23、必选项period(varname)用来指定实验期虚拟变量(实验期=1.非实验期=0)。必选项id(varname)用于指定个体ID(这是进行匹配的前提)。必选项kenel表示进行基于倾向得分的核匹配(命令diff不提供其他匹配方法),选择项ktype(kernel)用于指定核函数,默认为二次核。必选项cov(varlist) 用于指定用于估计倾向得分的协变量,选择项report表示汇报对倾向得分的估计结果,选择项logit表示使用logit估计倾向得分,默认为probit,选择项support表示仅使用共同取值范围内的观测值进行匹配,选择项test表示检验在倾向得分匹配后,各变量在实验组与控
24、制组的分布是否平衡。,见附件cardkrueger1994.dta,倾向值匹配研究最新进展,一般化加速回归模型(GBM),最佳匹配,目前的最新进展包括:,一般化加速回归模型(GBM),GBM是一个一般性的、自动的、数据自适应的算法,它通过回归树的方式拟合多个模型,然后合并每个模型得到的预测。正因为这样,GBM可被用于以大量的干预前协变量来拟合非线性表面并预测干预分配。,尽管将最佳匹配用于倾向值分析不过大约10年的历史,但这一应用发展十分迅速并且成果丰富,主要因为:将网络流理论用于最佳匹配以及使得这一应用可行的快速计算机软件的可得性。,最佳匹配,核心思想:,所有的贪婪匹配算法有一个共同特点:每一种方法都将一项大的决策问题区分成一系列可被最优地加以处理的更小、更简单的决策。每一次都只进行一项决策,且进行后面的决策并不考虑前面已经做出的决策,从这一意义上来说,贪婪匹配并不是最优地,