1、计量经济学基础与 STATA 应用基本概念【经典假设】1、 模型为线性;(多项式、对数、倒数、对数倒数、含有时间趋势)2、 X 为变量;3、 残差序列(条件)均值为 0;4、 残差序列(条件)方差齐性,即同方差;5、 残差序列之间无自相关性;6、 残差序列与解释变量不相关;7、 解释变量之间不存在完全的线性关系;8、 残差序列服从正态分布。【残差正态性检验】1、 残差直方图:histogram e, norm freq2、 利用偏度系数和峰度系数:sktest3、 正态概率图:问题检验与解决【多重共线性】完全多重共线性:参数无法唯一确定,方差无穷大。不完全多重共线性:方差增大诊断方法:1、 模
2、型判定系数 R 方值高而具有显著的 t 值得变量少2、 解释变量之间有高度的两两相关3、 检查偏相关4、 辅助回归5、 病态指数6、 方差膨胀因子(VIF)补救方法:1、 利用先验信息2、 横截面数据与时间序列数据并用3、 剔除变量(有可能出现模型的设定偏误)4、 变量替换(一阶差分:可能使得残差存在一定的相关性、比率:可能使得残差不再同方差)5、 补充新的数据6、 在多项式回归中降低共线性【异方差】原因:1、 按照边错边改边学习模型,人们在学习的过程中,其行为误差随着时间的延长而减少;2、 数据采集技术的改进3、 异常值出现4、 回归模型的设定不正确,如遗漏重要变量5、 回归元的分布呈偏态,
3、如收入6、 不正确的数据变换或函数变换7、 横截面数据中更为常见问题:系数依旧无偏,估计方差增大,t 值变小,从而导致本来显著地回归系数变成了统计不显著诊断方法:1、 图解法:残差平方对 y 预测值或某一解释变量2、 帕克检验:先用 OLS 产生残差,再用残差平方对 X 回归,系数显著就有异方差;3、 格莱泽检验:先用 OLS 产生残差,用残差的绝对值对 X 的各种变换回归;4、 戈德菲尔德-匡特检验:先将 X 的观测值按升序排列,略去居中的 c 个观测,将前后分成两组分别回归得到各自的残差平方和,做 F 检验5、 布劳殊-培干- 戈弗雷检验(BPG 检验):先回归得到残差平方和,计算残差平方
4、和的均值,构造 pi=ui2/均值,用 pi 对全部或部分 X 做回归,得到 ESS,做卡方检验:estat hettest6、 怀特检验(White 检验):回归得到残差平方和,用残差平方和对 X 和 X 方和 X 交叉项做回归,得到 R 方,对 nR2 做卡方检验:estat imtest,white7、 寇因克-巴塞特检验(KB 检验):残差平方和对预测 Y 平方做回归解决:当方差已知,WLS当方差未知,误差方差正比于 X2,两边除以 X误差方差正比于 X,两边除以根号 X误差方差正比于 Y 均值的平方,两边除以 Y 均值进行对数转换。注意:一个好的模型,绝不会因为异方差性的原因而被抛弃
5、。只有在问题严重的时候,误差方差不相等的问题才值得去修正。当模型参数的最大方差(OLS 估计)比最小方差(GLS估计)的 10 倍还大时,问题才是严重的。【自相关】Cov(ui, uj) !=0来源:1、 惯性:如 GDP、价格指数2、 设定偏误,应含而未含变量,不正确的函数形式3、 蛛网现象:如供给价格的反应要滞后一个时期,今年种植的作物受去年流行的价格影响4、 滞后效应:5、 数据的编造问题:OLS 估计量仍是无偏线性的,方差估计错误诊断方法:1、 图解法:残差对时间,残差对残差滞后2、 游程检验:runtest3、 德宾-沃森检验(DW 检验): 0-dl(拒绝正自相关) ,dl-du(
6、无决定域) ,du-2-(4-du)(不拒绝) 、(4-du)-(4-dl) (无决定域) 、(4-dl)-4(拒绝负自相关):dwstat4、 布劳殊-戈弗雷检验:BG 检验(LM 检验)解决:如果 AR(1), 已知:在 t-1 期乘以 ,再用 t 期减掉 未知:需估计,一般 =1-d/2 或直接做 ut 对 ut-1 回归。修正 OLS 标准误的尼威-韦斯特方法:只对大样本有效,对小样本可能不适合。如果样本足够大,同时存在自相关和异方差的情况,由此方法得到的修正标准误被称为 HAC(hetero- and auto corr-consistent)(Newey-West standard
7、 errors):newey y x , lag(1) 【模型设定偏误】选取解释变量的偏误:遗漏相关变量(如果遗漏变量与进入变量相关,估计量在小样本下有偏,大样本下不一致,方差有偏;如果遗漏变量与进入变量无关,估计量无偏一致,但常数项估计有偏,随机项方差估计有偏导致系数方差估计有偏) ,多选无关变量(参数估计量无偏一致,误差方差估计正确,但参数估计量的方差大于正确情况,从而使对参数进行统计推断的精度下降)模型函数形式不正确或不恰当的偏误测量误差的偏误(因变量存在测量误差的后果是参数估计量的标准误变大,参数估计及其方差仍无偏;解释变量存在测量误差使得解释变量与误差项相关,OLS 估计有偏非一致)
8、随机误差项设定形式不正确的偏误(有偏) 。诊断方法:1、 检验模型是否有无关变量:对显著性检验,t 或 F2、 对遗漏变量和错误函数形式检验:残差图示(或 XY 图) 、拉姆齐(Ramsey )reset 检验(regression specification error test):estat ovtest3、 德宾-沃森检验:不断增加变量,查看 dw 统计量变化【信息准则】AIC SIC(越低的模型就越好,模型拟合度无显著差异的前提下)【虚拟变量】如果一个模型中的解释变量全部都是虚拟变量:方差分析模型(ANOVA)如果解释变量中既有定量变量又有虚拟变量:协方差分析模型(ANCOVA)Cho
9、w test: Structural change=()/(1+22)【定性响应回归模型】线性概率模型(LPM):ui 非正态但 OLS 点估计仍无偏; ui 异方差,模型两边除以根号p(1-p)即权重为 Yhat(1-Yhat)对数单位模型(Logit 模型): 同样存在异方差,两边同乘以根=ln(1)=+号 weight(wight=Ni*Pihat(1-Pihat))注意估计的系数要变成 exp(coe)概率单位模型(Probit 模型): =+=122/2对 Probit 模型解释: =(+)=()=(+)LPM LOGIT PROBIT 三者系数间关系 0.6250.25, 不含 截
10、距0.25+0.5, 含 截距Tobit 模型:以购买住房为例,对因变量不仅想知道有或是没有,还要清楚一个消费者相对于其收入花在购房上的金额。出现一个问题:如果一个消费者不买住房就得不到这类消费者的住房支出数据。假设有两组消费者,一组 n1,有关于他们的解释变量和因变量(购房上的费用)的信息;另一组 n2,关于他们的信息只有解释变量的信息没有因变量的信息,截取样本。截取回归模型,限值回归模型。【面板数据】FD 一阶差分法对两时期面板数据作政策分析:reg ychange xchangeFE 固定效应估计:基于除时间均值变量的混合 OLS 估计量被称为固定效应估计量或组内估计量。当 T=2 时,
11、FE 和 FD 的估计值及其全部检验统计量都完全一样当 T 大于等于 3 时,FE 和 FD 的估计量都是无偏一致的,但有所不同。当 uit 无序列相关时,固定效应法比一阶差分法更有效。如果 uit 是一个随机游走(即很强的正序列相关) ,那么一阶差分法更好。当 T 很大时,尤其当 N 还不是很大时,使用固定效应估计量必须保持警惕。而一阶差分仍可用。RE 随机效应模型: =0+1+FE 和 FD 都认为 ai 与一个或多个 Xi 相关。但在随机效应模型里,ai 是零均值的(因为加入常数项) ,ai 与任何一个解释变量在任何时期都无关。由于固定效应容许 ai 与 Xi 任意相关,而随机效应则不然
12、,估计其他条件不变效应,FE 更好。若关键解释变量不随时间变化,就不能用 FE 估计其对 Y 的影响。相当常见的是,研究者同事使用 FE 和 RE 然后规范地检验时变解释变量系数的统计显著差别。决定使用 FE 还是 RE 的关键在于,能否合理地假定 ai 与所有 Xi 都无关。BP 检验考察使用随机效应还是混合 OLS 估计。BP 检验的零假设是对所有 i,ai=0 。P 值越小,越拒绝原假设,得到随机效应模型优于混合 OLS 估计的结论。Hausman 检验的原假设是 RE 和 FE 没有本质差异(即可以使用 RE) 。如果原假设被拒绝,结论就是随机效应模型不合适。Xtreg,fe esti
13、mates store fixedxtreg,rehausman fixed【工具变量法】 =0+1+(,)0假定有一个可观测的变量 z,满足: (,)=0(,)0该工具变量与所替代的解释变量高度相关;工具变量与模型的随机干扰项不相关;选取的工具变量与模型中其他解释变量不相关。Ivreg y (x=iv)内生性检验:首先采用 OLS 估计怀疑内生性的变量的约简型方程,预测残差,然后将残差添加至原模型中做 OLS 估计,判断残差参数的显著程度,若显著则有内生性。检验过度识别约束:检验工具变量与误差项不相关,如果有不止一个 IV,就能有效地检验他们中的一部分是否与结构误差不相关。过度识别约束的数目
14、就是额外的工具变量数目。1、 用 2SLS 估计结构方程,得到 2SLS 残差;2、 将残差对所有外生变量回归,得到 R 方;3、 在所有 IV 都与残差不相关的虚拟假设下,nR 方服从卡方 q 分布,q 为模型之外工具变量减去内生解释变量数目。如果超过显著水平临界值,就拒绝原假设,可推断至少部分 IV 不是外生的。【联立方程模型】 变量:内生变量:它的参数由方程组的联立解得到,在联立方程模型中,既做因变量,又可以作为解释变量外生变量:本身不受模型系统的影响前定变量:外生变量和滞后内生变量识别:内生变量个数 M,给定方程中内生变量个数 m,前定变量个数 K,给定方程中前定变量个数 k阶条件:必
15、要非充分条件,K-k=m-1 恰好识别,大于(过度识别)秩条件:充分必要条件,若方程能被识别,则必须从其他方程所含而该方程未含的主变量的系数矩阵中找到至少一个非零的(M-1,M-1)行列式,即秩为 M-1。如果模型中不存在联立性问题,OLS 估计量是一致有效的,而是用 2SLS 或 IV 将给出一致非有效的估计量。Hausman 联立性问题检验:1、 作 Y1 对 X1 和 X2 的回归,得到 Y1 的估计值 Y1hat 和残差 uhat;2、 作 Y2 对 Y1hat 和 uhat 的回归并对 uhat 的系数做 t 检验,如果显著,就不拒绝联立性的假设。递归模型可以用 OLS,如 1=10+111+122+12=20+211+211+222+23=30+311+322+311+322+3恰好识别方程的估计:间接最小二乘法(ILS):算出简化式,用 OLS过度识别方程的估计:2SLS