收藏 分享(赏)

本科生金融计量经济学讲义.pdf

上传人:HR专家 文档编号:6263710 上传时间:2019-04-03 格式:PDF 页数:35 大小:1.26MB
下载 相关 举报
本科生金融计量经济学讲义.pdf_第1页
第1页 / 共35页
本科生金融计量经济学讲义.pdf_第2页
第2页 / 共35页
本科生金融计量经济学讲义.pdf_第3页
第3页 / 共35页
本科生金融计量经济学讲义.pdf_第4页
第4页 / 共35页
本科生金融计量经济学讲义.pdf_第5页
第5页 / 共35页
点击查看更多>>
资源描述

1、北京大学光华管理学院 金融计量经济学讲义 1 第 四 章 异常情况下的多元回归分析 在前面一章的讨论中给出了最小二乘估计是最优无偏估计所需要满足的六个假设条件,这六个假设条件都是从统计角度给出的,是一种理想状况的条件;在实际的模型应用中,我们所获得的数据通常很难同时满足这些条件;有时是非常明显地偏离了所需要的条件,这时我们就不得不考虑结果的可信度和模型给出结果的现实价值了。 正因为这方面的考虑,本章将集中讨论面对这些假设条件不成立或偏离时,如何调整或改造我们前面的 OLS 估计方法,从而使模型给出的结果得到修正或在一定程度上得到改善。我们将对 6 个假设条件不成立的情形分别进行讨论, 按照模型

2、假设条件对结果影响程度的大小, 从第六个假设条件到第一个假设条件逆向逐步展开。 4 1包含虚拟变量的回归分析 4 2异方差 (Heteroscedasticity) 4 3 模型的多重共线性问题 在回归模型中,假设 4 限定了自变量之间不存在完全共线性。 假设 4 并不是不允许自变量之间存在相关性,而只是限制不能完全相关 。模型中容许自变量之间存在相关性,当相关性太高时将给 OLS 估计和估计的方差带来问题。当一个或几个自变量之间具有比较高的相关性时,称为多重共线性( multicollinearity)。假设 4 可以从两个方面来看,一个是从 OLS估计的方差:)1()( 22jjj RSS

3、TVar , kj ,2,1 。如果使用向量的形式,假设 4 可以表示为由自变量构成的矩阵 XX是可逆的,或是满秩的。多重共线性是 2jR 比较接近 1 或 XX虽然可逆,但由于其部分主子式取值比较小,使得逆矩阵 1)( XX 的对应主子式数值非常大,它们虽然没有否定假设 4,但作为分母的数非常小。它没有一个明确的意义和界限。尽管多重 共线性问题没有明确的定义,在应用中人们仍然提出了一些可供参考的评判指标和处理方式。 4 3 1 多重共线性的影响 由于一个或几个自变量之间具有比较高的相关性而产生多重共线性时, OLS 模型估计的方差将比较大,尽管此时的 OLS 估计仍然是无偏的,但由于估计的标

4、准差比较大,很难给出估计系数偏效应的合理估计,估计可以偏离真实值很远。因为比较大的标准差,使得 t统计量不容易达到显著水平,也很难给出对估计系数的推断。而且对结果的影响可能是成对的,数据的极小变动就可能使估计的结果发生比较大的改变。容易高估 (overestimates)或低估 (underestimates)该变量所具有的真实偏效应。一种比较直接的考察模型是否存在共线性的方法是看 OLS 估计的标准差,是否有一些系数的估计标准差比较大。比较正规的处理方法是考察自变量的方差 -协方差矩阵。 4 3 2 多重共线性的判断 当两个变量之间或多个变量之间存在太高的相关性时,由于共线性问题使得模型的参

5、数估计具有比较大的标准差,从而不能有效地给出变量的偏效应。应用中,很少有自变量之间不存在相关性的问题,只要变量之间存在相关性就会增大参数估计的标准差,因此,共线性的问题实际上是一个程 度的问题。如何来判断模型中是否存在共线性的问题?研究者已经提北京大学光华管理学院 金融计量经济学讲义 2 出了很多种表明共线性是否存在的判别指标。但所有的判别指标基本上都是围绕着 2jR 和1)( XX 而给出的,下面是一些常用的判别共线性的方法。 1)当模型中存在共线性的问题时,数据很小的变化可能就会带来估计系数比较大的变动。 2)模型的系数具有非预期的符号,或者是有不成比例的系数。都是模型可能存在共线性的信号

6、。 3)一个模型有相对比较高的 R 方,但具体变量的 t 统计量显著程度不高,是模型存在多重共线性的一个信号;或者是模型的检验统计量 F 比较显著,但具体变量的 t 统计量都不显著或显著程度较低。 4)自变量两两之间的相关系数 ij 也是考察一个回归模型是否存在共线性的重要指标,因此在有的文献中,给出了自变量之间的相关系数矩阵。然而仅根据一组或几组变量之间存在比较高的相关性来判断回归模型是否有共线性问题还需注意以下两点。首先,有些数据集,特别是在包含时间序列数据的模型中,一些变量组之间存在强相关,同样还能保证合理区分具体的自变量的偏效应。其次,简单的两两相关系数矩阵不 能反映多个变量联合后存在

7、的共线性问题。 5)在过去些年,文献中提出了多种对回归模型中是否存在多重共线性的问题进行检验的方法,但没有一种方法是得到广泛接受的。 自变量的特征根也是判断共线性的重要指标。比较常用的一种是 Belsley et al (1980)提出的条件数 (condition number),条件数是矩阵)( XX 的最大特征根与最小特征根的比值的平方根,即: minmax (4 28) 一般来说,条件数大于 20 或 30 被认为是存在共线性的特征。还有把矩阵 )( XX 进行方差分解来判断具体某个自变量的共线性程度的方差因子( variance inflation factors (VIF))或单一

8、变量的容忍度( tolerances for individual variables)。事实上,容忍度就是 1- 2jR , VIF就是 )1/(1 2jR 。这在大部分的计量软件中都有报告。当这一自变量与其他自变量无关时,即 2jR =0, VIF=1 为最小值;当这一自变量与其他自变量相关性增加时, 2jR 逐渐接近 1,此时 VIF 将趋向无穷大。前面我们已经知道, VIF 所反映的只是 OLS 估计的方差的一部分。OLS 估计的方差大小还与 jSST 有关。 当样本量比较大时,模型可以承受的 VIF 值就比较大,反之则不然。 因此对共线性指标的使用还需要根据具体的情况。 例 4 18

9、,在 CEO 年薪的例子中,采用 2007 年的数据,只考虑公司的盈利和股东持股情况回归模型 为: fir s th o lde a c h e a r nin c o m ea s s e tth r e e c e o 231.0106.0ln029.0ln292.0835.2)l o g ( ( 0.181) ( 0.024) ( 0.012) ( 0.020) ( 0.072) th ird h o ldo n d h o ld 566.0se c190.0 ( 0.148) (0.378) n=1054, SSR =560.04, 2R =0.274。 各变量的 VIF 分别为: 1

10、.73, 1.61, 1.26, 1.26, 1.37; 最 大的特征为: 0.809,最小的特征根为 0.001;由此可以计算出模型的条件系数为 65.896。北京大学光华管理学院 金融计量经济学讲义 3 模型存在比较严重的共线性问题。 4 3 3 多重共线性的处理方式 对共线性模型的处理方式有多种,比较简单直接的方法是直接从模型中删除产生问题的变量,例如在上一节中 VIF 比较大的自变量,但这又涉及到模型设定的问题。当模型可能存在共线性问题的时候, OLS 估计给出的仍然是无偏估计,但最优的说法已经不太合适了。一种改进模型的可能方式是寻找稍微有偏的估计方法,但估计的方差可以更小。这类估计会

11、有更小的均方误差,但估计的分布通常 依赖于未知参数,因此又带来了统计推断的问题,需要在可以推断的前提下来权衡无偏估计和有偏估计。 文献中有两种专门针对可能存在共线性时标准差估计太大的处理方法:岭回归估计(Ridge regression estimator)和主成分 (principal components)分析方法。下面我们 分别对两种方法给出一个 简单介绍 。 A) 岭回归估计方法。 岭回归估计方法实际上就是在普通的 OLS 估计上再加上一个对角阵而使分母离开零点。估计可以表示为: YXrDXXr )( 1 (4 29) 其中 D 为由矩阵 )( XX 的对角线上的元素组成的对角阵, r

12、 为任意选取的一个刻度。在应用中通常选取 r 使得它的微小变化不会带来估计参数的改变,即一个能使估计稳定的值。例如从 0.01 开始,逐渐增加到估计参数稳定。虽然岭回归估计是有偏的,但可以验证其估计的方差: 112 )()()( rDXXXXrDXXV a r r (4 30) 要比 OLS 估计的方差小。 B). 主成份分析方法 主成份分析方法实际上就是对自变量进行重新组织,使用自变量的组合来作为新的 自变量。构造组合的方法是通过自变量的方差协方差矩阵。 主成分分析的基本思想就是在不损失太多信息的前提下用尽量少的变量来反映协方差矩阵;在因素选择中就是通过降维用 k 个因素来反映 N 种资产的

13、收益。把主要的成分作为因素,第一个主成分就是所有资产线性组合中具有最大方差的组合,第二个主成分就是所有资产的线性组合中与第一个主成分正交且具有最大方差的组合,依此类推。 第一个样本主成分为 tRw1 , 1w 为下列优化问题的 N 维向量解: 11 1 wwMaxw , 约束条件为: 1 11 ww ( 4 31) 为样本收益的协方差矩阵, 1w 就是 的最大特征根所对应的特征向量。把 1w 标准化使其和为 1 即: )/( 11*1 wlww ,第一个因素即为 tRw*1 。第二个因素为把上述优化中的 1w换为 2w ,再附加一个约束条件 0 2*1 ww 所得到的解向量。依此类推可以得到其

14、它主成分:*jw , j=3,k 。 另一种主成分分析方法是由 Connor 等在 1986 年提出的,他们建议使用资产横截面的中心化收益的 T T 矩阵的前 K 个最大的特征向量来代替 N N 样本协方差矩阵的主成分。这一方法的一个好处就是它可以表达时变的风险回 报因素;另一方面它还有简化计算的作用。当市场中资产的数目或种类比较多时,资产数目 N通常要比样本观测量 T大得多,使用这一北京大学光华管理学院 金融计量经济学讲义 4 方法可以把处理高阶的 N N矩阵变成为处理阶数较低的 T T矩阵。 4 4有关模型设定和数据的问题 前一节讨论了 GM 假设不成立时的一些处理方法,误差项存在异方差时

15、是模型设定不当的一种表现。存在异方差不会导致估计有偏,但会影响估计的有效性。通过适当的调整可以给出置信区间、 t 检验和 F 检验,甚至可以通过 WLS 得到更为有效的估计。因此存在异方差并不是模型设定不适当的主要问题。下面我们将要讨论模型设定 不适当的一个重要问题:干扰项与其中的一个或多个自变量有关,即假设 3 不成立。当 不论什么原因与自变量jx 相关时,我们称 jx 为一个内生的变量,并讨论三种可能产生内生变量的原因。 4 4 1 函数形式设定不当( Functional form misspecification) 当建立模型时没有正确考虑自变量和因变量之间的关系时,就可能会使回归模型

16、产生函数形式设定不当。例如,在小时工资的例子中,模型应该为: 23210 e x pe x p)l o g ( erere d u cw a g e , 如果工龄的平方项 2exper 没有包含在模型中,我们就遇到了函数形式设定不当的问题。这将会导致估计 210 , 和 有偏。因此设定的 exper 与 log(wage)之间关系不正确,将导致对教育收益系数 1 的估计有偏,偏差与 3 的大小和 educ, exper 和 2exper 之间的相关系数有关。而对 2 的估计更糟,因为工龄与收益 之间的关系为 erexp2 32 。但在设定不当模型中,这个影响只有 2 。再看另一个例子: e d

17、 u cfe m a lefe m a leerere d u cw a g e 5423210 e x pe x p)l o g ( 其中的 female 为虚拟变量。我们如果在模型中去掉了交叉项,也将面临函数形式设定不当的问题。一般来说,因为受教育的收益与性别有关,我们将不能得到模型中任何一个参数的无偏估计。 缺失或删除变量不是函数形式设定不当的唯一原因。在刚才的例子中,假如这是真实的模型,满足 GM 假设 14,如果我们没有使用 log(wage),而是直接使 用 wage 作为因变量,我们也无法得到各自变量偏效应的无偏或一致估计。模型中的函数形式设定不当确实会有严重的影响,前面讨论过的

18、 F 统计量可以用来检验函数形式设定不当的问题。可以把任何一个有显著性的自变量的平方项都加入到模型中,用 F 统计量来检验它们的整体是否有显著性;把有显著性的都加入到模型中。但加入显著性的平方项也会带来其它的渐近函数形式问题。例如本来是应该采用对数的模型,使用水平再加上平方项就会给出一个近似,反过来也如此。这就使人们很难准确地回答模型函数形式设定是否适当。好在绝大多数场合使用变量的对数或加入平 方项就足以反映经济变量之间的非线性关系。 4 4 2 函数形式设定不当的检验方法 RESET 对函数形式设定不当的问题有很多检验方法,我们下面介绍的是 Ramsey(1969)提出的回归设定误差检验 (

19、regression specification error test RESET)。 RESET 的想法很简单,假定初始模型为: kk xxy 110 ,怀疑假设 3 是否成立,可能有变量的平方项需要加入模型。如果满足假设 3,则任何一个自变量的二次项加入模型之后都不会显著;反之,北京大学光华管理学院 金融计量经济学讲义 5 则有变量的平方项加入后会出 现显著。一种最简单的想法是对每个变量的平方项是否应该加如模型都进行考察,这会相当的繁琐。还有一种方法是同时加入所有的平方项来进行整体的F 检验,如果自变量的数目比较多也会造成自由度快速上升,检验的功效下降。 RESET 通过 OLS 拟合值的

20、多项式来检查函数形式设定是否适当。没有一个确定的标准来决定应该加入多少项,通常是考虑二次和三次项。假定 y 为用 OLS 得到的拟合值,考虑一个加项的模型: uyyxxy kk 3221110 (4 32) 模型中没有包含拟合值,我们并不关心这个模型的估计参数,而是用它来检查原来的模型中函数形式设定是否适当。注意到 2y 和 3y 实际上是 jx 的非线性函数。此时的零假设为初始模型设定适当,为此 RESET 是用 F 统计量来检验加项模型中 0,0: 210 H 。 F 统计量显著说明模型有函数形式设定不当的问题。当样本量足够大时, F 统计量在零假设下服从 3,2 knF 。也可以给出相应

21、的 LM 检验,甚至还可以采用前一节的方法给出异方差稳健的检验。 RESET 的一个不足之处是它只能给出不适当的检验结果,并不能给出如何改进模型的方向。它似乎也可以用来检验缺失变量和异方差,但对缺失变量的检验功效很差,当模型设定适当的时候对异方差的检验没有功效。因此它只是一个检验函数形式设定不当的工具而不能误用。 例 4 19,在 硕士起 薪的例子中,得到了 2007-2009 三年毕业的 154 位同学的年薪,本科成绩,本科院校,计量成绩,工作单位性质等数据,分别使用拟合值来检验是否需要加入平方项和交叉项。 9746.08684.02009306.02008088.0383.9ln u n

22、d e ru n d e ryys a la r y (1.009) (0.122) (0.127) (0.132) (0.127) ce c o n o m e tr iG P Aa g e n d 01.0597.0044.0 (0.110) (0.244) (0.009) N=177, R=0.275, adjR=0.24, sum=50.4046。 9233.38971.22009314.12008384.0325.20ln u n d e ru n d e ryys a la r y ( 20.071) ( 0.557) ( 1.850) ( 4.191) ( 4.559) 2ln1

23、36.0045.0588.2484.1 a r ylsace c o n o m e tr iG P Aa g e n d (2.641) (3.655) (0.064) (0.250) N=177, R=0.277, adjR=0.236, sum=50.2998。 可以从 t 统计量看出平方项和交叉项在这一模型中没有显著作用,也可以使用 F 统计量检验: 35.01 )18(1772998.50 )2998.504046.50)1(2) 1 q knSSR SSRSSRF u u。 得到的结果仍然是平方项和交叉项没有显著影响。 检验互不包含的备择假设。另一类检验函数形式设定不当的方法是考察

24、自变量是应该使用水平还是使用对数。我们 可以对两个模型作对称检验: )l o g ()l o g (, 2211022110 xxyxxy 或 (4 33) 我们在前面已经看到过,这是互不包含 (nonnested models)模型,不能直接使用标准的 F检验。 北京大学光华管理学院 金融计量经济学讲义 6 有两种方式可以用来改造这一问题。第一种是构造一个包含全部自变量的完全模型,原来的两个模型分别作为限制模型来进行检验。这一问题的完全模型为: uxxxxy )l o g ()l o g ( 441322110 (4 34) 我们可以使用零假设 0,0: 430 H 来检验前一模型,也可以用

25、 0,0: 210 H 来检验后一模型。 第二种检验方法是基于这样的看法:如果前一模型是对的,则用后一模型得到的拟合值在前一模型中应该不显著。因此要检验前一模型时,我们用 OLS 估计后一模型并得到拟合值 )lo g ()lo g ( 22110 iii xxy ,再用 t 统计量检验模型中 y 的系数: uyxxy 122110 (4 35) 如果 t 统计量显著就拒绝前一模型。类似的方式也可以对后一模型进行检验。 例 4 20,在 CEO 年薪 2007 年数据 的例子中, 水平和对数模型与 使用拟合值来检验 是水平变量合适还是对数 形式 合适 。 首先使用所有的水平变量和对数变量得到完全

26、模型估计为: in c o m ea ss e tin c o m ea ss e tth re e c e o 228.090.7ln036.0ln296.0243.6ln (0.426) (0.024) (0.012) (11.00) (0.906) N=1054, R=0.242, adjR=0.239, sum=587.05。 直接从系数的 t 检验可以看出,直接的水平变量两个都不显著。接下来分别使用水平 和对数变量得到拟合值,再代入另一个模型看拟合值是否有显著影响。 yin c o m ea s s e tth r e e c e o 311.0644.068.1070.7ln (0

27、.435) (1.11) (0.936) (0.022) N=1054, R=0.184, adjR=0.181, sum=631.89。 yin c o m ea s s e tth r e e c e o 194.0ln036.0ln296.0823.8ln (2.449) (0.024) (0.012) (0.193) N=1054, R=0.242, adjR=0.239, sum=587.06。 从上面的结果可以看出使用对数的拟合值代入水平变量模型中 t 统计量为 14.14,而使用水平值的拟合值代入对数模型后得到的系数 t 统计量仅为 1.00。因此我们可能得出在这一问题中使用取对

28、数后的资产规模和销售收入更合适。 这两种方法可以用来检验任何一对具有相同因变量的不相容模型。这类检验也存在一些问题。首先,不一定有一个明确的结果,可能两个模型同时被拒绝,也可能两个都不能拒绝。在后一情形我们可以使用调整 R 方来选择,如果出现前一种情形就需要重新构建模型。在实际中要注意,如果两个模型中 我们所要关注的主要变量没有太大差异,则用任何一种形式都没有问题。其次,拒绝了任何一个模型并不表示另一个模型就是对的。当因变量不同时,对不相容两个模型的比较和检验就非常困难。 4 4 3 对不可观测的自变量使用代理变量 在多元回归分析中最难处理的问题是由于数据缺失而没有在模型中包含关键的变量。在工

29、资与教育的例子中,人的先天能力对工资显然有影响,所以我们在模型中应该包含先天能力才能得到教育和工龄的正确分析结果。因为当教育与先天能力有关时,模型中不包含刻划先天能力的变量将使 OLS 估计的系数有偏。假定这一问题的真实 模型为: a b ilere d u cw a g e 3210 e x p)l o g ( (4 36) 北京大学光华管理学院 金融计量经济学讲义 7 因为先天能力不能被观测到,所以我们就无法知道 3 。如何才能解决这一问题,或者从一定程度上减缓由于缺失变量带来的偏差呢?一种办法就是对缺失变量使用代理变量( proxy variable)。代理变量就是与我们在分析中想控制的

30、不可观测变量有关的变量。在工资的例子中,一个对先天能力进行替代的可能变量就是智商或 IQ。因为智商并不能完全代表人的先天能力,一个人的先天能力还有情商、体质、乐 感、美感等。所以 IQ 只是与先天能力有关的一个代理变量,代理变量也只需要与原来的变量有关即可。 上述的问题正好可以用 3 个自变量的一个模型来说明,考虑模型: *3322110 xxxy (4 37) 假定 21, xxy 的数据可以得到,在工资的例子中就是 log(wage), educ 和 exper 数据可以得到。解释变量 *3x 是不可观测的,但它有一替代变量 3x ,称 为代理变量 3x 。接下来的问题是我们对 3x 有什

31、么要求呢?一个基本的要求是它与 *3x 有关系,可以通过一个简单的回归模型来刻划: 3330*3 uxx (4 38) 其中 3u 是一个误差项,因为 *3x 和 3x 不是完全相关的,参数 3 刻划了 *3x 和 3x 之间的关系。通常我们可以认为 *3x 和 3x 之间是正相关的,即 03 ,如果 03 ,则 3x 不适合作为 *3x 的代理变量。截距 0 可正可负,它可以容许 *3x 和 3x 之间有不同的度量尺度。在教育的例子中,截距项可以容许样本中 IQ 作为代理变量与社会总体的平均 IQ 水平不同。我们怎样才能利用代理变量 3x 来得到 1 和 2 的无偏估计呢?实际中就是认为 *

32、3x 和 3x 是一样的来实施回归。因此用 321 , xxx 对 y 回归,称为缺失变量问题的插入式解。如果 3x 确实与 *3x有关,这将会得出有益的结果。然而,由于 *3x 和 3x 并不是一回事,我们有必要检查这样做是否能得到 1 和 2 的一致估计。 要使 1 和 2 在插入式解之下得到一致估计,需要对 和 3u 做出假设: ( 1)首先需要干扰项 和 *321 , xxx 不相关,这是对初始模型的标准假设,此外还要求 和 3x 不相关。这后一假设表示当 31,xx 和 *3x 都在模型中时,3x与真实模型不相干或偏效应为 0。这 与它的定义是相符的,它只是个代理,对 y 有直接影响

33、的是 *3x 而不是 3x 。因此假定 321 , xxx 和 *3x 都与 不相关是不矛盾的。 ( 2) 3u 与 321 , xxx 不相关,假设 1x 和 2x 与 3u 不相关也要求 3x 是一个好的代理变量,使用条件期望的表达会更清楚地看到: 3303*3321*3 )|(),|( xxxExxxxE (4 39) 第一个等式表明当控制了 3x 之后, *3x 的期望值不依赖于 1x 和 2x 。这是非常重要的一点,也就是说考虑了 3x 的偏效应之后, 21,xx 与 *3x 不相关(或者说剥离了 3x 之后)。在工资例子中 IQ 是能力的代理变量,所以有: IQIQa b ilEI

34、Qere d u ca b ilE 30)|(),e x p,|( 。因此人的先天能力的平均水平只会随 IQ 而改变,不会随着受教育程度和工龄增加或升职有关。这是不是合理呢?也许不完全如此,但大致应该如此吧。为此有必要在回归模型中包含 IQ北京大学光华管理学院 金融计量经济学讲义 8 来考虑教育收益。 我们下面来考虑在这些假设下插入式解的结果。如果我们把代理变量关系式插入到原来的模型中,有: )( 3330322110 uxxxy 333332211030 )( uxxx (4 40) 对干扰项组合给一个简单记号: 33ue ,它依赖于初始模型和代理变量模型的干扰项。因为 3u和 的期望都是零

35、,并且与 321 , xxx 都无关,所以 e 的期望也是零,而且也与 321 , xxx无关。重新记这一方程为: exxxy 3322110 (41) 其中 0300 是新模型的截距项, 333 是代理变量 3x 的斜率参数。通过对新模型使用 OLS 估计,我们可以得到 3210 , 和 的无偏估计;最重要的是我们因此而得到了1 和 2 的无偏估计。当然在有的情况下,我们对 3 的估计可能比 3 的估计还感兴趣。例如在工资的例子中, 3 度量的是每一个 IQ 点对工资的影响。 例 4 20,利用 IQ 作为先天能力的代理变量。数据来源于 1980 年对 935 个人的调查,有每月的收入、教育

36、程度和其它一些特征变量。使用 IQ 作为缺失的先天能力的代理变量。我们最初关注的问题是教育的回报。表中给出的是估计的结果。第一列是没有包含代理变量IQ 的估计结果,估计的教育回报为 6.5%。如果我们认为缺失的先天能力变量与教育是正相关的,则可以认为这样估计的结果应该是偏高。当加入了 IQ 之后,教育回报下降到 5.4%,这与我 们前面所假设的缺失变量影响是相符的。从第二列我们可以看到, IQ 对收入的影响为正且统计显著。在其它条件相同时, IQ 增加 10 个点预计会增加 3.6%的每月收入。在美国人口中 IQ 的标准差为 15,因此一个标准差的 IQ 增加将预计会提高 5.4%的收入,这相

37、当于增加一年的教育。从第二列我们还可以看到,虽然控制了先天能力后教育的收益有所下降,但它的影响仍然是非常大的。从第一和第二两列可以看到加入 IQ 变量后模型的 R方从 0.253增加到 0.263,工资变化的大部分被第二列中的变量所解释;考虑了 IQ、教育等之后,白人和黑人之间仍然 有 14.3%的收入差,非常显著。在第三列中加入教育和 IQ 的交叉项之后,IQ 和交叉项的系数都不显著,说明没有交叉项影响。因此第二列给出的模型就是最好的选择。当然我们不会满足于只使用一个代理变量,还可以考虑其它的代理变量或多个代理变量。 表 4 2 使用 IQ 作为代理变量的回归结果 自变量 (1) (2) (

38、3) 自变量 (1) (2) (3) Educ 0.065 (0.006) 0.054 (0.007) 0.018 (0.041) Urban 0.184 (0.027) 0.182 (0.027) 0.184 (0.027) Exper 0.014 (0.003) 0.014 (0.003) 0.014 (0.003) Black -0.188 (0.038) -0.143 (0.039) -0.147 (0.040) Tenure 0.012 (0.002) 0.011 (0.002) 0.011 (0.002) IQ 0.0036 (0.0010) -0.0009 (0.0052) Ma

39、rried 0.199 (0.039) 0.200 (0.039) 0.201 (0.039) Educ*IQ 0.00034 (0.00038) South -0.091 (0.026) -0.080 (0.026) -0.080 (0.026) Intercept 5.395 (0.113) 5.176 (0.128) 5.648 (0.546) Observation 935 935 935 R-Squared 0.253 0.263 0.263 如果代理变量不满足所需要的假设,我们也很容易考察因为代理变量而带来的偏差。假定不可观测变量不仅与代理变量相关,而且还与其它的自变量有关,即:

40、北京大学光华管理学院 金融计量经济学讲义 9 33322110*3 uxxxx (4 42) 其中 3213 x,xxu 和与 都无关且期望为 0,前面是假设 21 和 都为 0。把这一方程插入初始模型中可以得到: 3333322321131030 )()()( uxxxy (4 43) 由此我们可以得到 23221311 )l i m (,)l i m ( pp 。在前一例子中,0, 3*31 abilxeducx ,如果先天能力和教育的偏相关为正, 01 ,则估计有正的偏差。因此,如果 IQ 不是一个好的代理变量,我们所得到的估计将会是向上偏。但我们有理由相信这个偏离会比缺失先天能力变量时

41、的偏差要小。代理变量也可以通过二元变量的形式出现。 4 4 4 也可以使用滞后的因变量作为代理变量 在有些应用中,我们至少有一个大致的想法知道哪些不可观测的因素需要控制,这就方便去选取合适的代理变量。但在有的场合,我们只是怀疑某个或某几个自变量可能与缺失的变量有关,不知道如何去寻找代理变量。此时我们可以考虑使用因变量过去时期的取值作为控制变量,这对策略分析是比较有用的。虽然在横截面数据中使用 过去的因变量增加了数据需求,但在没有其它方式可用的时候,使用历史的因素来考虑因变量当前的变化不失为一种简便可行的方法。例如在 CEO 年薪的例子中,有一些公司一直就可能付比较高的工资,有许多不可观测到的因

42、素同时会影响到过去的和现在的年薪,考虑一个简单的对 CEO 年薪进行解释的模型: 13210 s a la r yin dR O Es a la r y (4 44) 其中: 1, salarysalry为年薪 为上一年或几年前的年薪,我们目前所关注的是 ROE和行业因素。为什么要包含 1salary 在模型中?我们预计 03 ,因为有很多原因会使一些公司开出比较高的年薪。例如,股东与管理层的关系比较密切或股东比较迫切提升公司的管理水平,公司的结构比较复杂而难以管理等。因为这些无法观测的因素影响 CEO 的年薪,而且又与 ROE 和行业都有关。如果我们只简单地使用横截面数据可能很难得到所关注参

43、数的无偏估计,也不能正确衡量因果关系。如果加入了 1salary 到模型中,我们至少可以看到两个公司过去有相同的收入和相同的行业, 1 就能更合理地刻划因为公司业绩提升而带来的 CEO 收入增加量。 例 4 21, 在 CEO 年薪的例子中,如果只考虑公司的规模、盈利能力,大股东的分散程度,我们可以得到回归模型为: 5_609.0337.0ln037.0ln198.0355.8ln h e r fin d a h le a c h e a r nin c o m ea s s e tth r e e c e o ( 0.335) ( 0.017) ( 0.010) ( 0.046) ( 0.2

44、06) n=1051, 2R =0.229。 如果使用上一年的 CEO年薪来反映一些公司潜在的不可观测因素影响,得到估计模型为: 1729.0093.0145.0ln016.0ln048.0392.2ln C E Oh e r fin de a r nin c o m ea s s e tceo( 0.282) ( 0.012) ( 0.007) ( 0.031) ( 0.140) (0.021) n=1017, 2R =0.657。 在控制了上一年的 CEO 年薪后,其他变量的系数都出现了比较大的下降,特别是大股东的分散程度影响变得很弱了,而模型的解释程度大幅的提高了,这一定程度说明我们前面

45、北京大学光华管理学院 金融计量经济学讲义 10 模型中所考虑的几个变量只是影响 CEO 年薪的一部分因素,还有很多因素没有在模型中得到考虑。 在应用中使用因变量的过去观 测值来控制不可观测变量的影响是不完善的,但它至少能帮我们给出一些策略变量在各种情况下,影响程度更小的估计。加入因变量的滞后值不是使用两年数据来控制不可观测变量的唯一方式。使用面板数据能给出更多的处理方式。 4 4 5 在变量的度量有误差时 OLS 估计的性质 在应用中有时会面临所收集到的数据并没有真实反映经济行为。当我们在回归模型中使用了一个度量不准确的变量时,模型中就包含了度量误差。下面我们将讨论存在度量误差时如何给出 OL

46、S 估计。在一定的假设之下, OLS 估计将是一致的,但在假设不成立时就会不一致,为此有时需要 给出渐近偏差的大小。 度量误差问题从统计结构上比较类似于缺失变量而使用代理变量的问题,但在概念上是不一样的。在代理变量的情形,我们寻找的是一个与不可观测变量有关的度量;而在度量误差问题中,我们没有观测到的度量有严格的定义和数量标准,只是所记录的数据有误差。例如对年收入的报告是对实际年收入的一个度量。但 IQ 只是一个人先天能力的代理变量,代理变量和度量误差问题的另一个重要差别是:在度量误差问题中的自变量通常就是我们所要关注的变量;而代理变量问题中的缺失变量通常不是我们所要关注的变量,它的偏效应不是研究的目标,只 是它会对其它自变量有影响。要注意的是度量误差成为一个问题只有当计量学家收集的数据出现误差而影响了个人、单位或公司的决策。 4 4 6 因变量有度量误差问题: 我们首先考

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报