1、第十讲 经典面板数据模型一、面板数据( panel data)一维数据:时间序列数据(cross section data):变量在时间维度上的数据截面数据(time series data) :变量在截面空间维度上的数据) 。二维数据: 面板数据(同时在时间和截面空间上取得的,也称时间序列截面数据(time series and cross section data)或混合数据(pool data) 。面板数据=截面数据+时间序列数据。面板数据用双下标变量表示。例如yi t, i = 1, 2, , N; t = 1, 2, , TN 表示面板数据中含有 N 个个体。 T 表示时间序列的最大
2、长度。若固定 t 不变, yi ., ( i = 1, 2, , N)是随机变量在横截面上的N 个数据;若固定 i 不变, y. t, (t = 1, 2, , T)是纵剖面上的 一 个时间序列(个体) 。平衡面板数据(balanced panel data) 。非平衡面板数据(unbalanced panel data) 。例 1998-2002 年中国东北、华北、华东 15 个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表 1。人均消费和收入两个面板数据都是平衡面板数据,各有 15 个个体。表 1.中国部分省级地区的居民数据(不变价格,元)居民家庭人均消费 (y) 居民家庭人均收
3、入(x)地区 1998 1999 2000 2001 2002 1998 1999 2000 2001 2002 AH(安徽) 3777 3990 4204 4495 4784 4770 5179 5257 5641 6093 BJ(北京) 6807 7454 8206 8654 10473 8273 9128 10000 11230 12692 FJ(福建) 5197 5315 5523 6094 6665 6505 6922 7279 8423 9236 HB(河北) 3897 4104 4362 4457 5120 5167 5469 5678 5955 6747 HLJ(黑龙江) 32
4、90 3597 3891 4159 4494 4251 4747 4998 5383 6144 JL(吉林) 3478 3736 4078 4282 4999 4241 4571 4878 5272 6292 JS(江苏) 4919 5077 5318 5489 6091 6054 6624 6793 7317 8244 JX(江西) 3234 3532 3613 3914 4545 4209 4788 5088 5534 6329 LN(辽宁) 3918 4047 4360 4654 5402 4650 4968 5363 5797 6597 NMG(内蒙古) 3128 3476 3877
5、4171 4850 4384 4780 5063 5503 6039 SD(山东) 4169 4547 5012 5160 5636 5413 5850 6477 6976 7668 SH(上海) 6866 8126 8652 9336 10412 8773 10770 11432 12883 13184 SX(山西) 3314 3507 3794 4131 4788 4157 4360 4547 5402 6336 TJ(天津) 5499 5917 6146 6904 7221 7146 7735 8173 8852 9375 ZJ(浙江) 6237 6601 6951 7968 8792
6、7860 8530 9187 10486 11822 二、面板数据模型及其作用1.经典面板数据模型建立在古典假定基础上的线性面板数据模型.2.非经典面板数据模型(1)非平稳时间序列问题的面板数据模型(面板数据协整模型)(2)非线性面板数据模型(如面板数据 logit 模型, 面板数据计数模型模型)(3)其他模型(如面板数据分位数回归模型)3.面板数据模型作用(1)描述个体行为差异。 (2)Panel Data 能够提供更多信息、更多变化性、更少共线性、更多自由度和更高效率。反观时间序列经常受多重共线性的困扰。(3)Panel Data 能够更好地研究动态调节,横截面分布看上去相对稳定但却隐藏了
7、许多变化,Panel Data 由于包含较长时间,能够弄清诸如经济政策变化对经济状况的影响等问题。(4)Panel Data 能更好地识别和度量纯时间序列和纯横截面数据所不能发现的影响因素。(5)相对于纯横截面和纯时间序列数据而言,Panel Data能够构造和检验更复杂的行为模型。(6)通常,Panel Data 可以收集到更准确的微观单位(个人、企业、家庭)的情况。由此得到的总体数据可以消去测量误差的影响。尽管 Panel Data 研究的理论和应用发展很快,但目前仍然存在一些问题需要解决。例如,变量设计和收集数据困难;存在测量误差;存在选择性困难;时间序列较短;等等。4.目前有关 Pan
8、el Data 的学术专著主要有:1Analysis of panel data / Cheng Hsiao. 1986. 2Econometric analysis of panel data / Badi H.Baltagi. 1995.3The Econometrics of panel data : a handbook of the theory with applications / Matyas t = 1, 2, , T 和 不随 i,t 变化。称模型为混合估计模型。数据形式变为:地区 年份 Y X1998 4770 37771999 5179 39902000 5257 42
9、042001 5641 4495安徽省2002 6093 4784 1998 7860 62371999 8530 6601浙江省 2000 9187 69512001 10486 79682002 11822 8792例以表 1 中 15 个地区 1996 和 2002 年数据建立关于消费的混合估计模型,得结果如下:输出结果 1Dependent Variable: Y?Method: Pooled Least SquaresIncluded observations: 5Number of cross-sections used: 15Total panel (balanced) obse
10、rvations: 75Variable Coefficient Std. Error t-Statistic Prob. C 73.81960 84.48351 0.873775 0.3851X? 0.761465 0.011710 65.02895 0.0000R-squared 0.983030 Mean dependent var 5291.773Adjusted R-squared0.982798 S.D. dependent var 1745.640S.E. of regression 228.9535 Sum squared resid 3826637.F-statistic 4
11、228.764 Durbin-Watson stat 0.864366Prob(F-statistic) 0.00000073.820.76it ityx15个省级地区的人均支出平均约占收入的76%,自发消费为73.82。(二)变截距模型(variable intercept model)即自变量对因变量的效应(斜率)随个体或时间的变化而变化,而截距项却在不同的个体或时间上有所不同,此时可以建立变截距模型。按照样本数据性质的不同,具体分为固定效应模型和随机效应模型。1.固定效应模型(fixed effects regression model)在面板数据散点图中,如果对于不同的截面或不同的时间
12、序列,模型的截距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数,称此种模型为固定效应模型。3 种类型:1.个体固定效应模型2.时刻固定效应模型3.时刻个体固定效应模型下面只以个体固定效应模型为例进行介绍。个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么就应该建立个体固定效应模型。012it itiityxzu其中,Z i 是不随时间变化的潜在变量,不可观察,但与 x 相联系。上式可以变化为: 01221()it itiitiititiitityxzuzxu由于 与每一个个体中一个确实存
13、在(但不可观测)的变i量有关,所以称为个体固定效应模型。等价于每一个个体有一个方程: y1t =1 +x1t +u1t, i = 1(对于第 1 个个体,或时间序列),y2t =2 +x2t +u2 t, i = 2(对于第 2 个个体,或时间序列),yN t =N +xN t +u N t, i = N(对于第 N 个个体,或时间序列),t = 1, 2, , T其中it, i = 1, 2, , N; t = 1, 2, , T,表示随机误差项。 yit, xit, i = 1, 2, , N; t = 1, 2, , T 分别表示被解释变量和解释变量。引入虚拟变量Wi = 其 他个 个
14、体如 果 属 于 第 。,,0 ,.211 Nii写为:yit = 1 xit +1 W1 +2 W2 + +N WN +uit, ( t = 1, 2, , T ) 如果满足如下 4 个假定条件,上述面板数据模型可以用 OLS 方法估计:(1)E(u it|xi1, xi2, , xiT, i) = 0。以 xi1, xi2, , xiT, i 为条件的 uit 的期望等于零。(2)x it,和 uit 不相关。(3)不同解释变量之间不存在完全共线性。(4)Cov(u it, uis|xit,xis, i) = 0, t s。在固定效应模型中随机误差项 uit 在时间上是非自相关的。数据结构
15、:地区年份 Y X DAH DZJ1998 4770 3777 1 0 01999 5179 3990 1 0 02000 5257 4204 1 0 02001 5641 4495 1 0 0安徽省2002 6093 4784 1 0 0 0 0 01998 7860 6237 0 0 11999 8530 6601 0 0 12000 9187 6951 0 0 1浙江省 2001 10486 7968 0 0 12002 11822 8792 0 0 1对模型进行 OLS 估计,全部参数估计量都是无偏的和一致的。模型的自由度是 N TN K (k 是解释变量个数)例:表 1 的固定效应模
16、型 EViews 估计结果:输出结果 2Dependent Variable: Y?Method: Pooled Least SquaresDate: 02/14/06 Time: 17:18Sample: 1998 2002Included observations: 5Number of cross-sections used: 15Total panel (balanced) observations: 75Variable Coefficient Std. Error t-Statistic Prob. X? 0.704120 0.019598 35.92806 0.0000Fixed
17、 EffectsAH-C 456.2010BJ-C 1091.289FJ-C 356.0866HB-C 301.8503HLJ-C 291.9486JL-C 558.2303JS-C 445.4530JX-C 113.4984LN-C 621.1425NMG-C 271.5059SD-C 344.3550SH-C 645.5164SX-C 414.0827TJ-C 524.0437ZJ-C 566.4419R-squared 0.993390 Mean dependent var 5291.773Adjusted R-squared 0.991709 S.D. dependent var 17
18、45.640S.E. of regression 158.9451 Sum squared resid 1490550.Durbin-Watson stat 2.100731= 安徽 + x1t = 456.2 + 0.704 x1t ty1= 北京 + x2t = 1091.3 + 0.704 x2t t2= 浙江 + x15t = 566.4 + 0.704 x15t ty15北京、上海、浙江是消费函数截距(自发消费)最大的 3 个地区。相对于既定的面板数据样本来说,是否有必要建立个体固定效应模型可以通过约束条件的 F 检验完成。约束条件的 F 检验在同一样本数据下,记无约束样本回归方程为
19、YX e+记无约束样本回归方程的残差平方和为 RSS 无记有约束样本回归方程为 Y*X e+有约束样本回归方程残差平方和为 RSS 约 ,可以证明 RSS 约 RSS 无 。这意味着,通常情况下,对模型施加约束条件会降低模型的解释能力。但是,如果约束条件为真,则受约束回归模型与无约束回归模型具有相同的解释能力 ,RSS 约 与 RSS 无 的差异变小。于是我们可以构造如下统计量:(RS-S)(df-f)F无 无约 约 无 无其中,df 约 、df 无 分别为受约束回归 模型与无约束回归模型的残差自由度(即样本容量减去待估计参数个数)。根据数理统计学知识,当约 束条件为真时,(,)Fdf-fdf
20、无 无约可以利用这个统计量检验约束条件是否成立。不变系数模型和变截距模型哪一个是受约束模型?原假设 H0:不同个体的模型截距项相同(建立混合估计模型) 。备择假设 H1:不同个体的模型截距项不同(建立个体固定效应模型) 。F 统计量定义为:F=()/(1)()RSNTKNTKRS混 固 固 ()/()/(SNTk混 固固其中 RSS 混 ,RSS 固 分别表示约束模型(混合估 计模型)和非约束模型(个体固定效应模型)的残差平方和。非约束模型比约束模型多了 N-1 个被估参数。在原假设 H0 下,F 服从自由度为(N-1,NT-N-k)的 F 分布。接上例,已知 RSS 混 = 3866659,
21、RSS 固 = 1490550,k1F= = 6.718(386591405)/(1)/(7F0.05(14, 59) = 1.899因为 F= 6.718 F0.05(14, 59) = 1.899,所以,拒绝原假设。结论是应该建立个体固定效应模型。注:如果确知对于不同的时间截面,模型的截距显著不同,但是对于不同的时间序列(个体)截距是相同的,那么应该建立时刻固定效应模型;如果确知对于不同的截面、不同的时间序列(个体)模型的截距都显著地不相同,那么应该建立时刻个体效应模型,时刻个体固定效应模型就是对于不同的时间截面(时刻点) 、不同个体的时间序列都有不同截距的模型。2.随机效应模型(rand
22、om effects model )在固定效应模型中采用虚拟变量的原因是解释变量的信息不够完整(无法观测) 。也可以通过对误差项的分解来描述这种信息的缺失。yit = + xit + uit 其中误差项在时间上和截面上都是相关的,用 3 个分量表示如下:uit = ui + vt + wit 其中 ui N(0, u2)表示截面随机误差分量;v t N(0, v2)表示时间随机误差分量;w it N(0, w2)表示混和随机误差分量。同时还假定 ui,v t,w it 之间互不相关,各自分别不存在截面自相关、时间自相关和混和自相关。上述模型称为随机效应模型。为了容易理解,假定模型中只存在个体随
23、机误差项 ui,不存在时间随机误差分量(v t) ,即yit = + xit + (ui +wit) = + xit +uit = ( + ui) + xit + wit=i+ xit + wit(为均值截距,u i 为个体截距与均值截距的差异)这种随机效应模型又称为误差分量模型(error component model) 。截面随机误差项 ui 是属于第 i 个体的随机波动分量,与时间变化无关。随机误差项 ui, wit 与 X 无关,且满足如下条件:E(ui) = E(wit) = 0,E(w it 2) = w2, E(ui 2)= u2,E(wit uj) =0(包括所有的 i, t
24、, j) , E(wit wjs) =0( i j, t s) , E(ui uj) =0, i j如果不考虑其他因素,u j 也可以用 OLS 进行估计。方法如下 :地区年份 Y X Yxe ui 的估计1998 4770 37771999 5179 39902000 5257 42042001 5641 4495安徽省2002 6093 4784ah 浙江省1998 7860 6237 zje1999 8530 66012000 9187 69512001 10486 79682002 11822 8792(). ()ahahahzj zjzjYexex但由于cov(u it, uis)E
25、(u ituis)E(u i +wit)(ui +wis)var (u i)0,即存在误差项的系列相关,所以随机效应模型一般采用广义最小二乘法(GLS )估计参数,如果随机误差分量服从已知分布(如正态分布) ,模型的参数还可以用极大似然法估计。仍以表 1 为例,随机效应模型估计结果如下:= + 安徽 + x1t = (261.565 -28.01)+ 0.734x1t tyu= + 北京 + x2t = (261.565+439.65)+ 0.734x2t t2 1= + 浙江 + x15t = (261.565+15.21) + 0.734 x15t ty15u1(注意:随机效应模型中应该含
26、有公共截距项)检验个体随机效应的原假设与检验统计量是H0:var(u i)=u2 = 0。 (混合估计模型,即不存在个体效应ui)H1:var(u i)u2 0。 (个体随机效应模型,即存在效应 ui)LM= )1(2TN22RS1随混其中 RSS 随 表示由个体随机效应模型计算的残差平方和。RSS 混表示由混合估计模型计算的残差平方和。统计量 LM 服从 1 个自由度的 2 分布。以例 1 为例,用个体随机效应模型和混合模型计算的统计量的值是LM = =847.211526221954071386F0.05 (1) = 3.84因为 F= 847.21 F0.05 (1) = 3.84,所以拒绝原假设,结论是应该建立个体随机效应模型。3.随机效应的检验:WuHausman Test随机效应模型和固定效应模型都是变截距的模型,究竟哪一个更好些?不好一概而论,因为各有优缺点。至于在实际应用中具体采用哪一种,需要通过检验。最常用的是 Wu-Hausman 检验。WU-Hausman 检验原理:如果 cov(i,x i)0,随机效应模型(GLS )产生斜率系数的一致有效估计量,而固定效应模型(OLS)产生 一致但无效估计量,所以应该采用随机效应模型; 如果 cov(i, xi) 0,随机效应模型斜率系数的估计量非一致,而固定效应模型产生一致有效估计量,所以应该采用固定效应模型。