1、面板数据模型 1.面板数据模型概述 1.1 面板数据的含义,面板数据(panel data)也称也称平行数据,或时间序列截面数据(time series and cross section data)或混合数据(pool data),是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。面板数据从横截面上看,是由若干个体在某一时刻构成的截面观测值,从纵剖面上看是一个时间序列。,经济分析中的平行(面板)数据问题在经济分析中,尤其是通过建立计量经济学模型所进行的经济分析中,经常发现,只利用截面数据或者只利用时间序列数据不能满足分析的目的的需要。 例如,如果分析成本问题,只利用
2、截面数据,即选择同一截面上不同规模的企业数据作为样本观测值,可以分析成本和企业规模的关系,但不能分析技术进步对成本的影响;只利用时间序列数据,即选择同一企业在不同时间上的数据作为样本观测值,可以分析成本和技术进步的关系,但是不能分析企业规模对成本的影响。如果采用平行(面板)数据,即在不同时间上选择不同规模的企业数据作为样本观测值,既可以分析成本与技术进步的关系,也可以分析成本与企业规模的关系。,再例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成
3、。共有330个观测值。对于面板数据来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。,1.2 面板数据模型的基本类型 面板数据模型是线性回归模型,其模型为:(i=1,2,n; t=1,2,.T) (13.1)式中yit为被解释变量y的第i个截面个体在第t期的观测值;it 是待估的第i个截面个体在第t期的截距;kit是边际值,是待估的第k个解释变量对应第i个截面个体在第t期的系数;uit为随
4、机扰动项。 n是截面个体个数,T是每个截面个体时序样本容量,p是解释变量个数,将式13.1改写为矩阵形式:yit=it+xTitit+uit (i=1,2,n;t=1,2,T) (13.2) 式中xTit=(x1it x2itxpit)为解释变量行向量;Tit=(1it 2itpit)为待估系数行向量。,1.变系数面板数据模型若式(13.2)满足参数时间齐性,即截面参数不随时间而变化,则式(13.2)可改写为模型():yit=i+iTxit+uit 模型(I)即为变系数(Variable Coefficient)面板数据模型。 2.变截距面板数据模型若式(13.2)满足斜率参数齐性(相同),但
5、截距不同。即12n, 1=2=n.则式(13.2)可改写为模型():yit=i+Txit+uit模型()为变截距(Variable Intercept)面板数据模型(最常用的一种形式)。 3.常系数面板数据模型若式(13.2)满足截距和斜率齐性,即1=2=n, 1=2=n.则式(13.2)可改写为模型():yit=+Txit+uit称模型()为常系数面板数据模型。,2.模型的单位根检验面板数据模型要求面板变量是平稳的,若非平稳应是一阶单整,否则是伪回归。故在建立模型之前要对面板变量进行单位根检验,3.模型的识别模型的识别包括效应模型的确定和具体模型的确定。效应模型包括确定效应(Fixed-ef
6、fects)和随机效应(Random-effects)模型。变系数面板数据模型和变截距面板数据模型才有确定效应(Fixed-effects)和随机效应(Random-effects)模型之分,并对应不同的参数估计方法。,3.1确定效应模型和随机效应模型检验(1)确定效应模型是指把当做未知的常数;随机效应模型是指把当做随机变量。(2)适用于确定效应模型的情况:只关心变量的情况 ,依据样本特征进行推论。比如,在对不 同省市城镇居民平均消费支出与可支配收入的关系研究中,如果我们只关注样本截面个体的对比研究,关心有关省市居民消费支出,进行消费支出比较,不关心总体情况,我们就可以从研究目的的角度出发选择
7、确定效应模型。适用于随机效应模型的情况:,关心总体的情况,把样本当做总体的抽样,依 样本特征推论总体,(3)检验效应模型的方法检验效应模型的方法一般用豪斯曼(Hausman)检验法,豪斯曼(Hausman)检验法,Hausman效应模型检验的原假设和备择假设:H0:适于建立随机效应模型;H1:适于建立确定效应模型。设确定效应模型的参数为 随机效应模型的参数为 。若 与 都是一致估计量,两者差异很小,则样本适于随机效应模型;若 是一致估计量,而 不是,两者差异很大,则样本适于建立确定效应模型。,所以若两种估计结果差异很小,接受H0,说明建立随机效应回归模型是合理的,否则应建立确定效应模型。Hau
8、seman检验统计量H为:,式中,p为模型中解释变量的个数。在H0成立时,检验统计量H服从自由度为p的 分布。,3.2模型具体形式的识别模型具体形式的识别就是确定系数和的具体形式,这可用模型识别检验方法来确定。模型识别检验方法是用协方差构造的F统计量进行模型识别,首先建立三种面板数据模型:变系数模型()、变截距模型()、和常系数模型()。主要检验如下两个假设:H02: 12n,1=2=n;H03: 1=2=n,1=2=n。若接受假设H03,则样本数据符合常系数模型(),无需进一步检验。若拒绝假设H03,则需检验H02.如果接受H02,则样本数据符合变截距 模型(),反之拒绝H 02,则应认为样本数据符合变系数模型()。,模型识别的具体方法:根据协方差检验,构造假设检验使用的F统计量。F统计量的计算:(1)计算残差平方和。(Eviews的输出结果里面的Sum Squared resid的结果)(2)计算H03对应的F3统计量。若计算的统计量F3的值不小于给定显著水平的临界值,拒绝假设F3,继续检验H02 。反之则接受H03,认为样本数据特征适于建模型(),即应建立常系数模型。(3)计算H02对应的F2统计量。若计算的统计量F2的值不小于给定显著水平的临界值,拒绝假设H02,则样本数据适于变系数模型() ;反之接受H02,则样本数据适于建立变截距模型()。,