收藏 分享(赏)

双重差分模型介绍及其应用_叶芳.pdf

上传人:HR专家 文档编号:7049305 上传时间:2019-05-04 格式:PDF 页数:4 大小:222.29KB
下载 相关 举报
双重差分模型介绍及其应用_叶芳.pdf_第1页
第1页 / 共4页
双重差分模型介绍及其应用_叶芳.pdf_第2页
第2页 / 共4页
双重差分模型介绍及其应用_叶芳.pdf_第3页
第3页 / 共4页
双重差分模型介绍及其应用_叶芳.pdf_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、通信作者 : 王燕 E-mail: wangyan bjmu edu cn双重差分模型介绍及其应用北京大学公共卫生学院 ( 100191) 叶 芳 王 燕双重差分模型 ( difference-in-difference, DID) 近年来多用于计量经济学中对于公共政策或项目实施效果的定量评估 。通常大范围的公共政策有别于普通科研性研究 ,难以保证对于政策实施组和对照组在样本分配上的完全随机 。非随机分配政策实施组和对照组的试验称为自然试验 ( natural trial) , 此类试验存在较显著的特点 ,即不同组间样本在政策实施前可能存在事前差异 , 仅通过单一前后对比或横向对比的分析方法会

2、忽略这种差异 , 继而导致对政策实施效果的有偏估计 。DID 模型正是基于自然试验得到的数据 , 通过建模来有效控制研究对象间的事前差异 , 将政策影响的真正结果有效分离出来 。医疗卫生领域常用于差异比较的统计方法1“前后 ”差异比较 是将研究对象干预后结局变量的值 At1减去干预前的值 At0, 所得之差即为干预效果 d, 如下式 : d = At1 At0( 1)该方法简单明了 , 可操作性强 , 然而 , 由于研究对象干预期间有可能受到其他因素的影响 , 如特殊事件 、宏观因素影响等 , 简单的 “前后 ”差异比较法并不能分离出这些影响 , 可能得到干预效果的有偏估计 。2“有无 ”差异

3、比较 它考虑到了干预效果中可能掺杂其他因素的影响 , 因而通过设立对照组来消除这种影响 。干预效果的实际影响 d 即为干预实施后干预组结局变量的值 Btreat减去对照组结局变量的值Bcontrol, 如下式 : d = Btreat Bcontrol( 2)该方法的使用需建立在一个重要的假设基础之上 , 即干预实施前干预组和对照组之间需考察的结局变量没有差异 。在小范围 、通过随机分组得到的研究对象可满足这一假设 , 而对于大规模 、规定区域分组的干预措施 , 则很难满足该假设或为了满足假设而导致很高的成本 。3 协方差分析 通过对干预以外的影响因素采取数理统计方法进行控制 , 使这些因素尽

4、量保持一致 , 同时结合方差分析的方法 , 对某一控制变量进行分组 , 以提高研究的精确性和准确性 。按照此方法 , 将干预前结局变量的值作为控制因素之一 , 而将干预后的值作为应变量 , 即可解决干预前干预组和对照组业已存在的差异问题 。协方差分析通过分离干预组和对照组可消除其他影响因素 , 并考虑到干预实施前存在的应变量的事前差异 , 可在理论上保证分析结果的真实可靠性 , 然而过多 、过于严格的应用条件使得协方差分析在实际工作中并不能得到广泛使用 。DID 模型介绍在干预效果评价方面 , DID 模型通过将 “前后差异 ”和 “有无差异 ”有效结合 , 一定程度上控制了某些除干预因素以外

5、其他因素的影响 ; 同时在模型中加入其他可能影响结局变量的协变量 , 又进一步控制了干预组和对照组中存在的某些 “疑似 ”影响因素 , 来补充“自然试验 ”在样本分配上不能完全随机这一缺陷 , 因而得到对干预效果的真实评估 ; 另外 , 构造模型所需满足的条件较少 , 又成为该模型在计量经济学界广为应用的原因之一 。1 DID 模型构造在使用 DID 模型之前 , 要确保数据满足三个假设 ; ( 1) 在干预组项目的开展对对照组的相关研究变量不产生任何影响 , 即项目实施仅造成干预组相关研究变量的改变 。例如 , 对一项营养干预项目进行效果评价 , 干预组内的所有 5 岁以下儿童均可得到免费的

6、营养支持 , 而对照组无 。若有部分对照组研究对象通过各种办法也获得了该项免费营养支持 , 则违反了本模型的第一项假设 , 造成干预效果的低估 。( 2) 项目开展期间 , 宏观环境 ( 除项目实施以外的因素 ) 对干预组和对照组的影响相同1。( 3) 干预组和对照组的某些重要特征分布稳定 , 不随时间变化 , 即在整个项目开展期间保持稳定 。DID 模型的核心是构造双重差分估计量 ( DID es-timator) , 通过对单纯前后比较 ( 干预前 vs 干预后 ) 和单纯截面比较 ( 干预组 vs 对照组 ) 的结合 , 得到如下公 式 : dID= 珔Ytreatment 珔Ycont

7、rol= (珔Ytreatment, t1珔Ytreatment, t0) (珔Ycontrol, t1珔Ycontrol, t0) ( 3)其中 , d 就是双重差分估计量 , Y 为研究的结局变量 , 右侧脚标中 treatment 和 control 分布代表干预组和对照组 , t0 和 t1 分别代表干预前和干预后 。构造了差分估计量之后 , 就要根据不同的数据类型和不同的结局变量 Y, 分别选用相应的参数检验方法来进行建模 。131中国卫生统计 2013 年 2 月第 30 卷第 1 期2 不同数据类型的基本 DID 模型对于不同的数据类型 , DID 模型的双重差分估计量的估算方法

8、有所不同 。( 1) 适用于独立混合横截面数据 ( independentpooled cross-sectional data/repeated cross-sectional da-ta) 的 DID 模型独立混合横截面数据是在不同时点从同一个的大总体内部分别进行随机抽样 , 将所得的数据混合起来的一种数据集 。该类数据的特点为每一条数据都是独立的观测值 。通过将不同时点的多个观测值结合起来 , 从而可以加大样本量以获得更精密的估计量和更具功效的检验统计量 ; 也可加入新的变量 时间( 即干预前后 ) , 以便判断干预前后的差别 。对于总体一致 、范围较大 、涉及不同时间点的调查研究 ,

9、多收集此类数据2。这类数据的 DID 模型基本形式为 :Yit= b0+ b1Tit+ b2Ait+ b3TitAit+ eit( 4)在 ( 4) 式中 , Y 为被解释变量 ( dependent) , T 和 A是分别代表时间和分组的虚拟变量 ( dummy varia-ble) 。TA 即为时间和分组虚拟变量的交互作用 。在回归分析中 , 被解释变量不仅受到一些定量变量的影响 ( 如年龄 、收入 、体重等等 ) , 还受到一些定性变量的影响 ( 如性别 、婚姻关系 、是否患病等等 ) , 这些定性变量称之为虚拟变量 。e 代表残差 。角标 i 代表每一个个体 , 角标 t 代表不同时间

10、点 。i = 0 和 1 时分别代表对照组和干预组 , t =0 和 1 时分别代表基线和随访 。当个体 i 属于干预组时 , 被解释变量 Y 在随访和基线期间的差 VYi( 1)为 :Yi( 1)=Yi1Yi0= ( b0+ b1+ b2+ b3) ( b0+ b2)= b1+ b3( 5)同样 , 当个体 i 属于对照组时 , 被解释变量 Y 在随访和基线期间的差 Yi( 0)为 :Yi( 0)=Yi1Yi0= ( b0+ b1) b0= b1( 6)那么 , 干预的实际效果 , 即干预组和对照组在随访前后被解释变量的差 Yi为 :Yi=Yi( 1)Yi( 0)= ( b1+ b3) b1

11、= b3( 7)因此 , b3就是我们最感兴趣的双重差分估计量 。由于混合独立横截面的一大特点 : 数据集都是由独立抽取的观测值构成的 , 因此可以满足残差项与分组解释变量完全独立 , 即 :E( eit|Ait) =0 ( 8)在确定 满 足 条 件 ( 8) 以及满足回归方程要求的“LINE”条件 ( 线性 、独立 、正态分布 、方差齐 ) 后 , 该模型可采用普通最小二乘 ( OLS) 来进行回归 , 并得到无偏的估计量 。若在实际情况中得到的数据不满足以上“LINE”条件 , 则需要对数据进行进一步转化 、分层以及使用广义最小二乘等方法来进行模型的构造 。( 2) 适用于综列数据 (

12、panel data/longitudinal da-ta) 的 DID 模型综列数据同时兼有横截面数据和时间序列数据的特点 , 要求在不同时点调查相同的研究对象 。它与独立混合横截面数据最大的不同在于 , 不同时点的观测值并不是独立分布的 。这类数据的特点在于 : 由于研究的个体相同 , 一些不随时间改变的不可观测的因素 ( 如个人特质等 ) 对不同时点的观测值会产生影响 , 可以通过控制这些影响从而得到较为真实的结果 ; 由于综列数据要求随访相同的研究对象 , 使得数据收集工作的难度明显增加 , 不太适用于大规模的调查研究2。多数情况下 , 我们无法保证与个体自身有关的因素与分组变量完全无

13、关 , 这样就不能保证 ( 8) 式 , 即残差独立于分组变量 。为了解决该问题 , 需将这些因素从残差 eit中分离出来 。于是我们引入变量 ai, 称为固定效应 ( fixed effect) , 代表不同个体的自身相关因素 。因为它不随时间变化 , 因此右下角脚标为 i。即有 :Yit= b0+ b1Tit+ b2Ait+ b3TitAit+ ai+ eit ( 9)相比 ( 4) 式 ,( 9) 式增加了新变量 ai。这样就在一定程度上保证了残差项独立于解释变量这个条件 。对于普通的较大范围的调查 , 很难收集到所有与 ai有关的信息 , 无法得到这个参数的某个无偏估计系数或关系式 ,

14、因此通常进行差分来移除 ai而不影响对双重差分估计量的无偏估计 , 即Yi( t( 1) t( 0) )= b1T + b3( TG) +eit( 10)由于 DT 为固定不变的参数 , 用 d0来代表截距 b1T, 因此将 ( 10) 式略微修改并进一步简化就成为 :Yi= d0+ b3D( TG) +eit( 11)经过差分和简化后 , 就可以通过普通最小二乘法来对综列数据进行回归了 。以上分析仅针对最简单的两时期综列数据进行分析 , 通过差分来移除固定效应 。而综列数据同样具有时间序列的性质 , 对于多于两期的综列数据而言 , 还应考虑到滞后性等问题 , 需要结合时间序列数据的特点 ,进

15、一步通过计量经济学方法对其进行分析 。3 一般化 DID 模型由于一般大规模的人群调查存在较大的变异性问题 , 仅在模型中纳入虚拟变量 “分组 ( A) ”、“时间( T) ”是远远不够的 。为了提高解释系数 R2, 需要加入其他可能影响被解释变量的因素 , 即控制除分组 、时间变量以外的其他变量 。对于结局变量是一些偏态分布的连续性变量 , 可通过非线性处理 ( 如取自然对数 )后再行建模 , 而进一步提高模型的拟合度 。DID 模型的国内外应用现状1 DID 发展历史1985 年普林斯顿大学的 Ashenfelter 和 Card 的一231 Chinese Journal of Heal

16、th Statistics, Feb 2013, Vol30, No1篇项目评价的文章3, 第一次引入了 DID 模型 。随后的十多年间 , 该模型在计量经济学界以及社会学界被广泛应用 。2001 年 6 月哈佛大学公共卫生学院学者 Yip W与 Eggleston K 对中国海南省的医疗报销付费制度改革进行了分析4。同年 12 月 , 杜克大学卫生政策研究中心学者 Conover C J 等人 , 对美国保险制度 Medicaid对于妇幼健康结局的影响进行了研究5。这两篇文章将 DID 模型引入医学和公共卫生领域 , 随后带动了一批学者使用该模型进行相关研究 。我国学者周黎安 、陈烨借鉴 D

17、ID 模型的思路 , 运用全国 591 个县市级数据对我国农村税费改革政策的效果进行系统的评价6, 这也是国内医疗卫生领域首次运用该模型对政策效果进行评价 。2 DID 模型的国外应用现状通过对 pubmed 进行检索 , 从 2001 年至 2011 年11 月共检索到 124 篇文献应用到 DID 模型对医疗卫生相关领域数据进行分析 , DID 模型的应用呈递增趋势 ( 图 1) 。图 1 各年间用到 DID 模型的文章数量在已发表的 124 篇文章中 , 一半以上的文章将DID 用于政策评价 , 其他的研究分类包括干预评价和事件影响 。政策评价是对影响范围较广的政府宏观政策的效果评价7

18、9; 干预评价是对规模较小 、由研究组织或机构对某些地区或人群进行干预的效果评价10 12; 事件影响是指某些重大突发事件对个人或群体的心理或生理健康影响的评价13 14。在这些文献中 , 74%的文章作者或机构来自美国 ,其次为英国 , 占 6%。与这些国家相比 , 中国学者在这方面的研究还有一定差距 , 仅占 2%。3 DID 模型的国内应用现状通过国内数据库 CNKI、维普以及万方对双重差分模型进行筛选 , 并选择医药卫生方向 , 仅搜到 3 篇文献6, 15 16。DID 模型研究趋势展望由于简单的 DID 模型是建立在解释变量完全外生的假设之上的 , 导致 “内生性 ”和 “自相关

19、”问题被忽视 , 一些计量经济学者又进一步对原模型提出了修正的思想 。“内生性 ”是指随机误差项与自变量存在相关关系 , 它可导致 DID 模型得出有偏估计 。对于内生性问题 , 可采用 Hausman 检验或 probit 模型来判断是否存在此种情况 。如果是 , 可应用工具变量 ( instrumen-tal variable) 法进行两阶段最小二乘回归 ( 2SLS)17 18。“自相关 ”指对于不同的样本值 , 随机误差项之间不再是完全 相 互 独 立 的 , 而存在某种相关性 。可 采 用Wooldridges test 来检验是否存在此种情况19。若存在 , 则需要选择可行广义最小

20、二乘法 ( FGLS)2。最普遍的 DID 模型适用于被解释变量为连续性变量的一般线性方程 , 而根据不同的分析目的 , 对于广义线性方程 ( 如 probit 模型 、logit 模型 、tobit 模型等 ) ,DID 模型也可以应用 。下式列出了基于 probit 模型的DID 模型 :P( Y =1) = f( b0+ b1Tit+ b2Ait+ b3TitAit+ ai+ eit) ( 12)同时 , 对于双重差分估计量的计算方法也不同于一般线性方程 。Puhani20与 Ai C21对于其计算方法提出了不同的观点 。综上所述 , 在进行人群调查前 , 较理想的情况是按照流行病学方法

21、 , 将干预组和对照组之间除干预以外的其他因素进行匹配 , 使不同组间的研究对象可比 。而在某些情况下 , 研究对象是已经给定的人群 , 无法进行匹配以消除各组之间不同质的情况 。同样 , 在另一类情况中 , 我们已经对某些因素进行了匹配 , 但由于匹配不足 , 导致不同组间研究对象仍不可比 。对于以上所提到的两类情况 , DID 模型通过将干预效果构造为关键变量 ( 双重差分估计量 ) 和控制其他协变量来消除这些客观影响 , 以得到对于结果的无偏估计 。同时 ,通过该模型还可得到干预效果的定量结果 , 弥补了单纯统计性检验仅能得到定性结果的不足 。以上这些都使得 DID 模型成为人群调查中一

22、种较好的辅助方法 。因此 , 在医疗 、公共卫生领域中 , DID 模型将得到越来越广泛的应用 。参 考 文 献1 Heckman, James J“Comment”In Empirical Foundations of HouseholdTaxation, ed Martin Feldstein and James Poterba Chicago: NBER andUniversity of Chicago Press, 19962 Wooldridge Jeffery M Introductory econometrics: a modern approachSouth-Western C

23、ollege Pub( 2nd edition) , 20023 Ashenfelter O, Card D“Using the longitudinal structure of earnings toestimate the effect of training programs, ”Review of Economics andStatistics, 1985, 67: 648-6604 Yip W, Eggleston K Provider payment reform in China: the case ofhospital reimbursement in Hainan prov

24、ince Health Econ, 2001, 10( 4) :325-3395 Conover CJ, Rankin PJ, Sloan FA Effects of tennessee medicaid man-aged care on obstetrical care and birth outcomes J Health Polit PolicyLaw, 2001, 26( 6) : 1291-3246 周黎安 , 陈烨 中国农村税费改革的政策效果 : 基于双重差分模型的331中国卫生统计 2013 年 2 月第 30 卷第 1 期估计 经济研究 , 2005( 8) : 44-537

25、Parente ST, Evans WN, Schoenman J A, et al Health care use and ex-penditures of medicare HMO disenrollees Health Care Financ Rev,2005, 26( 3) : 31-438 Nolan A An extension in eligibility for free primary care and avoidablehospitalisations: a natural experimentSoc Sci Med, 2011, 73( 7) : 978-9859 Sub

26、ramanian S Impact of medicaid copayments on patients with canc-er: lessons for medicaid expansion under health reform Med Care,2011, 49( 9) : 842-84710 Alderman H, Ndiaye B, Linnemayr S, et al Effectiveness of a communi-ty-based intervention to improve nutrition in young children in Senegal:a differ

27、ence in difference analysis Public Health Nutr, 2009, 12( 5) :667-67311 Busch AB, Frank RG, Lehman AF, et al Schizophrenia, co-occurringsubstance use disorders and quality of care: the differential effect of amanaged behavioral health care carve-out Adm Policy Ment Health,2006, 33( 3) : 388-39712 Wa

28、rd MA, Xu Y Pharmacist-provided telephonic medication therapymanagement in an MAPD plan Am J Manag Care, 2011, 17 ( 10) :e399-e40913 Dano AM Road injuries and long-run effects on income and employ-ment Health Econ, 2005, 14( 9) : 955-97014 Torche F The effect of maternal stress on birth outcomes: ex

29、ploiting anatural experiment Demography, 201115 杨菊华 城乡差分与内外之别 : 流动人口社会保障研究 人口研究 ,2011( 5) : 8-2516 杨练 , 毛正中 非吸烟孕妇被动吸烟干预措施效果评价 中国慢性病预防与控制 , 2010( 3) : 226-22817 Bertrand M, Duflo E, 2002 Mullainathan S How much should we trustDifferences-in-Differences estimates? NBER Working Paper No884118 http: / /

30、www hks harvard edu/fs/aabadie/didp pdf19 Drykker DM Testing for serial correlation in linear panel-data modelsThe Stata Journal, 2003, 3( 2) : 168-17720 Puhani The treatment effect, the cross difference, and the interactionterm in nonlinear“Difference-in-Differences”models IZA DiscussionPaper 2008,

31、 No347821 Ai C, Norton EC Interaction terms in logit and probit models Econom-ics Letters, 2003, 80: 123-129( 责任编辑 : 丁海龙 )( 上接第 126 页 )率 。因此 , 应对编码人员进行教育与培训 , 使其准确把握分类原则 , 掌握手术操作发展的动态信息和病案编码的新理论 、新方法 , 增强对编码员的责任心教育 , 杜绝依赖病案首页和 ICD 字典库的编码习惯 , 养成阅读病案的良好作风 。同时应尽可能让具备 ICD 技能认证合格者从事 ICD 编码工作 , 并争取培养更多的具备

32、资质的编码人员 。( 2) 医院应不断对临床医师进行 ICD 分类知识的普及 , 定期对新毕业分配的医生 、进修生 、实习生进行岗前培训 , 让临床医师了解 ICD 知识 , 掌握 ICD-10对手术操作名称书写的具体要求 , 正确书写手术操作名称 , 更好地配合 、支持 ICD-10 编码工作 , 从而保障ICD 编码质量 。( 3) 编码员要有高度的责任心 , 严谨的敬业精神 。工作中遇到疑难编码要认真地阅读病案 、分析病情和查阅资料 、请教临床医生 , 最终目的是给疾病一个正确的编码 , 保证病案统计的质量 。( 4) 及时更新 ICD 字典库 , 保持 ICD 编码信息的及时传达和补充

33、 , 按省卫生厅和市卫生局指定的 国际疾病编码 实用手册执行 , 与国际标准接轨 , 保证医院编码库的正确性和准确性 , 定期组织专业骨干对医院 ICD 编码质量进行检查和评估 , 并将反馈结果及时传达给院领导和病案管理委员会 , 提高 ICD-10 编码质量 , 保证临床路径和单病种控制的顺利开展 。参 考 文 献1 徐长妍 , 于双成 , 刘春萍 提高 ICD 分类质量保障 DRCG 科学实施 医学与社会 , 2008, 21( 11) : 47-492 徐长妍 , 刘春萍 , 马鸿雁 , 等 长春市医疗保险定点医院诊疗项目编码标准化研究 中国病案 , 2011, 21( 10) : 34-353 田金响 损伤 、中毒的外因编码准确性的影响因素及对策 中国病案 ,2004, 5( 6) : 39-404 汪满仙 以多处损伤为主要诊断编码的体会 中国病案 , 2005, 6( 5) : 40-415 刘爱民 , 毛嘉文 国际疾病分类应用指导手册 北京 : 中国协和医科大学出版社 , 2001: 386 张华 应用 ICD-10 解决疑难编码 中国病案 , 2006, 7( 12) : 26( 责任编辑 : 刘 壮 )431 Chinese Journal of Health Statistics, Feb 2013, Vol30, No1

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报