1、第九章 面板数据模型,第一节 面板数据和面板数据模型,混合数据(pooled data)是将横截面数据和时间序列数据结合在一起的数据。我们在第一章中曾介绍,横截面数据模型使用同一时点不同个体(entity)的观测值,数据可来自不同地区、公司、人员或其它个体;时间序列数据则是跨越不同时期的同一地区、同一公司、同一个人或其它同一个体的数据。横截面时间序列混合数据则包含不同横截面个体不同时期的数据,或者说,混合数据包含既跨越时间又跨越空间的数据。,如果混合数据包含的观测值来自同一批地区、公司、人员或其它横截面个体的不同时期数据,则此类混合数据称为面板数据(panel data)。面板数据通常比非面板
2、混合数据更有用,这是因为面板数据中的地区、公司、人员等横截面个体在各时期中一直保持不变,这使得我们更易于对随着时间的推移所发生的变动进行比较。我们将基于面板数据的回归模型称为面板数据模型(panel data model)。面板数据模型正在得到日益广泛的应用,文献也很多。限于篇幅,我们在这里只能做一个入门性的介绍。需要深入研究的读者,请参阅有关参考文献。,Baltagi, B. H.(2001),Econometric Analysis of Panel data, (Wiley: Chichester)Hsiao C. (2003), Analysis of Panel Data, 2nd
3、Edition, (Cambridge University Press) 影印版由北京大学出版社出版,2005,本章中,我们将用一个贯穿始终的例子来说明估计面板数据模型的各种方法。我们的数据来自以下4个产业:产业1:钢铁; 产业2:橡胶、塑料;产业3:石制品、陶瓷制品和玻璃制品; 产业4:纺织模型中用到的变量是:Yit = i产业第t年出口额,单位:百万美元,不变价EMPit = i产业第t年就业人数,单位:千人OTMit = i产业第t年平均每周加班小时数,我们收集了上述4个产业这3个变量19802000各年的数据。事实上,对于这3个变量中的每一个,都有84个观测值(4个产业乘以21年)。
4、由于在每个时期(每一年)都是这4个产业,因此这些混合数据是面板数据,如表91所示。我们可以通过分别运行4个回归来分析这些数据,每个产业一个回归:,使用表91的数据估计(9.1)(9.4),由于每个产业有21年的数据,因此每个回归中观测值个数都是21。这种分别对4个产业进行回归的缺点在于可能错失包含在混合数据集中的那种一个产业影响另一个产业的信息。换句话说,一个产业的数据中可能包含有对于估计其它某个产业的回归系数有价值的信息,而这种分别估计每个产业方程的做法无法利用这些信息,这意味着估计值不够准确。如果我们能够将4个产业的数据结合在一起,我们的样本规模就会增大,从而可以使用所有可获得的信息估计系
5、数。,因此,我们需要讨论那些允许我们使用混合数据的全部信息的估计技术,将跨时间跨空间的数据结合在一起,而不是分别进行时间序列和横截面数据的回归。要做到这一点,最简单的方法是,假定截距和斜率对于所有产业和所有时期都是一样的,进行下面的回归:,这里每个变量的观测值个数都是84。我们用表91中全部数据估计此方程,结果如下:,这种方法的致命缺陷是,估计出来的系数只有在我们前面关于截距和斜率对于所有产业和所有时期都是同样的值的假设成立的情况下才有用,实际情况当然不是如此,比如说,很难想象每个时期中每个产业的就业人数与其出口额之间的关系都相同,增加1000名工人对不同产业出口额的影响应当是不同的。因此,采
6、用模型(9.5)是不合适的,我们下面讨论可用于面板数据模型的其它估计方法。,第二节 表面不相关回归表面不相关回归(Seemingly unrelated regression,SUR)是一组似乎不相关但实际上相关的回归方程。表面不相关回归方程看上去不相关是因为它们类似于方程(9.1) (9.4)。在前面说到可以分别对它们运行四个回归时,我们事实上有一个冒失而错误的假设:各产业互不相干,因而我们可以分别估计每一个回归方程。回到方程(9.1) (9.4):,在表面不相关回归中,各个回归之间实际上确实有关联。表面不相关回归容许各个回归方程的扰动项之间存在跨方程相关,如上面四个方程中的诸u在任何一个时
7、期中不必相互独立,即不同方程的扰动项之间可以存在同期相关。这样,SUR估计程序就可以使用扰动项的相关来改善估计值。,各个回归之间任何的相关都是有价值的信息,它可能是告诉我们某时期中发生了某些不止影响一个产业的变化或事件,这一变化并没有被任何一个自变量捕捉到,而只能反映在扰动项中。SUR程序用此信息来改善系数估计值。,大多数计量经济分析软件都有运行SUR的命令,表面不相关回归步骤如下:1用OLS法分别估计每个方程,计算和保存回归中得到的残差; 2用这些残差来估计扰动项方差和不同回归方程扰动项之间的协方差; 3上一步估计的扰动项方差和协方差被用于执行广义最小二乘法,得到各方程系数的估计值。,表面不
8、相关回归得到的估计值是一致估计值。在下面两种情况下,表面不相关回归与分别运行OLS回归结果相同: (1)若各方程的扰动项之间的协方差都等于0;(2)若各方程的自变量都相同,并且每个自变量的每个观测值亦相同。例如,在方程(9.1) (9.4)中都加上一个自变量货币供给,该变量在任何一年的观测值都相同,与所研究是哪个产业无关。如果所有的自变量都是如此,表面不相关回归与普通最小二乘回归结果相同。用SUR方法和表91中的数据估计方程(9.1) (9.4),结果如下:,初看上去,这些结果似乎是分别回归的结果,但它们不是。跨产业扰动项协方差的估计值被SUR程序用来改善估计值,如前面所说的那样,这是为什么说
9、表面不相关回归实际上是由相关的回归组成。在我们的例子中,SUR结果与四个方程的OLS结果差不多。然而,在很多情况下,表面不相关回归显著改善用最小二乘法得到得估计值。,第三节 固定影响模型固定影响模型(Fixed effects model)将横截面个体之间的差异解释为截距不同,而斜率系数相同。它处理地区、公司、人员或其它横截面个体之间差异的思路是允许截距变动,不同的横截面个体(如我们例子中的不同产业)的截距是不同的,但每个产业的截距在各个时期则保持不变。在固定影响模型的假定下,面板数据中所有横截面数据和时间序列数据都可用于同一个回归。固定影响模型类似于上一节中所有数据简单结合在一起的混合模型(
10、9.5)式,不同的是,这里横截面中每一个体有它自己的截距:,固定影响模型通过使用虚拟变量的方法来解决截距变动问题。对于我们的例子,有4个产业部门,我们应当设3个虚拟变量,因为设3个就可以区分4个产业的截距,并且,如果设4个虚拟变量的话,我们会掉进所谓“虚拟变量陷阱”,而造成完全的多重共线性。在固定影响模型中,我们有另一种避开虚拟变量陷阱的方法,就是在模型中去掉常数项 ,然后为每个产业设一个虚拟变量:D11 观测值来自产业1;0 其它产业 D21 观测值来自产业2;0 其它产业D31 观测值来自产业3;0 其它产业D41 观测值来自产业4;0 其它产业,可写出本章例子的固定影响模型如下:4个产业
11、的截距项分别为产业1:3 产业2:4 产业3:5 产业4:6回归结果如下:,从结果中看到R2很高,对于固定影响模型来说,通常如此。这是因为各截距项虚拟变量捕捉了横截面个体之间的差异。固定影响模型的高R2会造成一种虚假的表象,但实际并不象R2的值所展示的那么好。回归结果中没有给出各虚拟变量系数的t值或标准误差,这是因为EViews软件不报告固定影响模型中虚拟变量的t值或标准误差。,我们可以利用回归结果来检验4个产业的截距是否相同,原假设和备择假设是:检验的具体做法与我们在第四章中介绍的涉及多个系数的联合假设检验类似,即首先进行约束回归和无约束回归,然后用得到的两个残差平方和计算F检验量,进行检验
12、。,本例中约束回归就是回归(9.5)式:(9.5)式中只有一个截距项,这与本例原假设(各产业截距相等)是一样的。而无约束回归就是固定影响模型(9.6)式:因为它允许不同产业的截距取不同值。,约束回归和无约束回归的残差平方和可从(9.5)式和(9.6)式的回归结果中查出,分别为2,675,700,466和790,590,705。约束的数目为3而不是4,这是因为在原假设中,任何一个虚拟变量的系数,如 ,可取任意值,但其它3个则必须取和 相同的值,这表明有3个约束。无约束回归的残差平方和的自由度并非n-k-1,而是n-k,这是因为无约束回归模型中没有常数项。本例中F检验量计算如下:,查表,5显著性水
13、平下,F(3,78) =2.77, 因为F61.99 Fc2.77,故拒绝原假设H0。结论:4个产业的截距不全相等。,由于使用虚拟变量,固定影响模型(9.6)式亦称为最小二乘虚拟变量模型(LSDV模型)。固定影响模型可通过再加上斜率虚拟变量的办法推广到一般情形。然而,既包含截距虚拟变量又包含斜率虚拟变量的模型几乎等同于各产业分别回归的方法。二者的区别是,加上斜率虚拟变量的固定影响模型中,扰动项方差对于整个样本必须是相同的,因为是一个回归方程。而分别回归,则每个回归的扰动项方差可以不同,即每个产业或每个横截面个体的扰动项方差可以不同。,第四节 随机影响模型随机影响模型(random effect
14、s model)像固定影响模型一样,通过允许截距变动来处理横截面个体之间的差异,但变动的数量是随机的。如果横截面个体是随机地被选择出来以代表一个较大的总体,则采用随机影响模型比较合适。不同的横截面个体的不同截距被认为是从一个正态分布总体中随机抽取的。,固定影响模型假定不同产业截距间的差异是确定的,而不是随机的,它假定截距的不同是因为各产业有一些不同的特性。随机影响模型则假定我们例子中的每一个产业是从一个总体中抽取的,截距之间的差异是因为随机变差引起的。随机影响模型通常用于诸横截面个体是某个总体的一个样本的情况,例如,家计调查得到的面板数据。随机影响模型将所有数据放在一起回归,初看上去很像常规的
15、OLS回归:,这里没有截距虚拟变量,这使得它的自由度要大于固定影响模型。应注意的是,上式中截距项 与OLS回归中的截距项不同,这里 代表的是截距的均值,真实的截距随产业或其它横截面个体而变,产业间截距的差异反映在扰动项u中。扰动项u有两个分量,其中一个满足OLS关于扰动项的假设条件,另一个分量代表每个产业的截距与截距均值 之间的差异,这个分量不随时间而变,但对于每个产业都不同。由于扰动项的这个分量不随时间而变,因此随机影响模型中的扰动项u将不满足OLS关于各期扰动项互不相关的假设条件,这意味着OLS不能使用。,很多计量经济软件让你能够方便地运行随机影响模 型,步骤如下:对整个横截面时间序列混合
16、样本执行OLS回归;用第一步得到的残差估计扰动项的方差和协方差;用第二步得到的方差协方差估计值执行GLS回归,给出随机影响模型的GLS估计值;某些软件使用第三步的结果,估计每个横截面个体的截距与截距均值的差异。,将随机影响方法应用于我们的产业模型,回归模型为:此式看上去像是(5)式中OLS回归,所有产业的截距都相同。可是,这里各产业都有自己的截距,截距的均值和真值间的差异包含在扰动项u中。正如上面所说,这意味着扰动项u不满足OLS假设。按前述四步回归,结果如下:,将随机影响和固定影响的结果比较一下,发现两组自变量系数的估计值差别很小,并且都在1显著性水平显著,说明在本例的情况下,使用两种方法均
17、可。但在其他情况下,就可能有较大差别。,有些计量经济程序还给出让你能够求出每个产业截距的信息。本例中每个产业截距与常数项(均值)的差异如下:产业1: 5178.14 产业2: 4748.35产业3: 3361.66 产业4:6564.83由此可知,钢铁产业截距与 之差为5178.14。这表明,钢铁产业截距的估计值为22,831.07+5178.14 = 17,652.93,小结混合数据是将横截面数据与时间序列数据结合在一起的数据。使用混合数据的优点在于,与仅进行横截面数据回归或时间序列数据回归相比,我们的样本规模会增大,从而可以使用所有可获得的信息估计系数。使用混合数据进行回归的一种方法是将所
18、有来自不同时期和不同横截面个体的数据简单地结合在一起。这种方法实际上假定截距和斜率对于所有时期和所有横截面个体都是一样的,其缺点是有可能忽略存在于各时期或各横截面个体之间的重要区别。表面不相关回归是一组似乎不相关但实际上相关的回归。表面不相关回归容许各个回归方程的扰动项之间存在跨方程相关,并且使用这种相关来改善估计值。如果分别进行这些回归的话,这种相关就会被忽略。,固定影响模型处理横截面个体之间差异的思路是允许截距变动,不同的横截面个体的截距不同,但每个产业的截距在各个时期则保持不变。固定影响方法将横截面个体之间差异解释为由截距所造成,而斜率系数保持不变。 在固定影响模型的假定下,面板数据中所有横截面数据和时间序列数据都可用于同一个回归。固定影响方法通过使用虚拟变量的方法来解决截距变动问题。我们可以用一个F检验来检验固定影响模型中代表每个横截面个体的截距是否相同。随机影响模型像固定影响模型一样,通过允许截距变动来处理横截面个体之间的差异,但变动的数量是随机的。如果横截面数据中的每一种类是随机地被选择出来以代表一个较大的总体,则采用随机影响模型比较合适。,