1、面板数据分析方法步骤全解面板数据的分析方法或许我们已经了解许多了,但是到底有没有一个基本的步骤呢?那些步骤是必须的?这些都是我们在研究的过程中需要考虑的,而且又是很实在的问题。面板单位根检验如何进行?协整检验呢?什么情况下要进行模型的修正?面板模型回归形式的选择?如何更有效的进行回归?诸如此类的问题我们应该如何去分析并一一解决?以下是我近期对面板数据研究后做出的一个简要总结,和大家分享一下,也希望大家都进来讨论讨论。步骤一:分析数据的平稳性(单位根检验)按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有
2、直接的关联,此时,对这些数据进行回归,尽管有较高的 R 平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression) 。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,
3、从而为进一步的单位根检验的检验模式做准备。单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过 Levin et al. (2002)的改进,提出了检验面板单位根的 LLC 法。 Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于 25250 之间,截面数介于 10250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单
4、位根的 IPS 法,但Breitung(2000) 发现 IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了 ADF-Fisher 和 PP-Fisher 面板单位根检验方法。由上述综述可知,可以使用 LLC、IPS、Breintung、ADF-Fisher 和 PP-Fisher5 种方法进行面板单位根检验。其中 LLC-T 、 BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指 Levin, Lin & Chu t* 统计量、Breitung t 统计量、lm Pesaran & Shin
5、 W 统计量、ADF- Fisher Chi-square 统计量、PP-Fisher Chi-square 统计量、Hadri Z 统计量,并且 Levin, Lin & Chu t* 统计量、Breitung t 统计量的原假设为存在普通的单位根过程,lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square 统计量、PP-Fisher Chi-square 统计量的原假设为存在有效的单位根过程, Hadri Z 统计量的检验原假设为不存在普通的单位根过程。有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验LLC(Levin-Lin-Ch
6、u)检验和不同根单位根检验 Fisher-ADF 检验(注:对普通序列(非面板序列)的单位根检验方法则常用 ADF 检验) ,如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的,反之则不平稳。如果我们以 T(trend)代表序列含趋势项,以 I(intercept)代表序列含截距项,T&I 代表两项都含,N(none)代表两项都不含,那么我们可以基于前面时序图得出的结论,在单位根检验中选择相应检验模式。但基于时序图得出的结论毕竟是粗略的,严格来说,那些检验结构均需一一检验。具体操作可以参照李子奈的说法:ADF 检验是通过三个模型来完成,首先从含有截距和趋势项的模型开始,再检验只含截
7、距项的模型,最后检验二者都不含的模型。并且认为,只有三个模型的检验结果都不能拒绝原假设时,我们才认为时间序列是非平稳的,而只要其中有一个模型的检验结果拒绝了零假设,就可认为时间序列是平稳的。此外,单位根检验一般是先从水平(level)序列开始检验起,如果存在单位根,则对该序列进行一阶差分后继续检验,若仍存在单位根,则进行二阶甚至高阶差分后检验,直至序列平稳为止。我们记 I(0)为零阶单整,I(1)为一阶单整,依次类推,I(N)为 N 阶单整。步骤二:协整检验或模型修正情况一:如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓
8、的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。因此协整的要求或前提是同阶单整。但也有如下的宽限说法:如果变量个数多于两个,即解释变量个数多于一个,被解释变量的单整阶数不能高于任何一个解释变量的单整阶数。另当解释变量的单整阶数高于被解释变量的单整阶数时,则必须至少有两个解释变量的单整阶数高于被解释变量的单整阶数。如果只含有两个解释变量,则两个变量的单整阶数应该相同。也就是说,单整阶数不同的两个或以上的非平稳序列如果一起进行协整检验,必然有某些低阶单整的,即波动相对高阶序列的波动甚微弱(有可能波动幅度也不同)的序列,对协整结果的影响
9、不大,因此包不包含的重要性不大。而相对处于最高阶序列,由于其波动较大,对回归残差的平稳性带来极大的影响,所以如果协整是包含有某些高阶单整序列的话(但如果所有变量都是阶数相同的高阶,此时也被称作同阶单整,这样的话另当别论) ,一定不能将其纳入协整检验。协整检验方法的文献综述:(1)Kao(1999)、Kao and Chiang(2000)利用推广的 DF 和 ADF 检验提出了检验面板协整的方法,这种方法零假设是没有协整关系,并且利用静态面板回归的残差来构建统计量。(2)Pedron(1999)在零假设是在动态多元面板回归中没有协整关系的条件下给出了七种基于残差的面板协整检验方法。和 Kao
10、的方法不同的是,Pedroni 的检验方法允许异质面板的存在。(3)Larsson et al(2001)发展了基于 Johansen(1995)向量自回归的似然检验的面板协整检验方法,这种检验的方法是检验变量存在共同的协整的秩。我们主要采用的是 Pedroni、Kao、Johansen 的方法。通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的。因此可以在此基础上直接对原方程进行回归,此时的回归结果是较精确的。这时,我们或许还想进一步对面板数据做格兰杰因果检验(因果检验的前提是变量协整) 。但如果变量之间不是协整(即非同阶单整)的话,是不能进行格兰杰因果检验的,不过
11、此时可以先对数据进行处理。引用张晓峒的原话, “如果 y 和 x 不同阶,不能做格兰杰因果检验,但可通过差分序列或其他处理得到同阶单整序列,并且要看它们此时有无经济意义。 ”下面简要介绍一下因果检验的含义:这里的因果关系是从统计角度而言的,即是通过概率或者分布函数的角度体现出来的:在所有其它事件的发生情况固定不变的条件下,如果一个事件 X 的发生与不发生对于另一个事件 Y 的发生的概率(如果通过事件定义了随机变量那么也可以说分布函数)有影响,并且这两个事件在时间上又有先后顺序(A 前 B 后) ,那么我们便可以说 X 是 Y 的原因。考虑最简单的形式,Granger 检验是运用 F-统计量来检
12、验X 的滞后值是否显著影响 Y(在统计的意义下,且已经综合考虑了 Y 的滞后值;如果影响不显著,那么称 X 不是 Y 的“Granger 原因” (Granger cause) ;如果影响显著,那么称 X 是Y 的“Granger 原因” 。同样,这也可以用于检验 Y 是 X 的“原因” ,检验 Y 的滞后值是否影响 X(已经考虑了 X 的滞后对 X 自身的影响) 。Eviews 好像没有在 POOL 窗口中提供 Granger causality test,而只有 unit root test和 cointegration test。说明 Eviews 是无法对面板数据序列做格兰杰检验的,格
13、兰杰检验只能针对序列组做。也就是说格兰杰因果检验在 Eviews 中是针对普通的序列对(pairwise)而言的。你如果想对面板数据中的某些合成序列做因果检验的话,不妨先导出相关序列到一个组中(POOL 窗口中的 Proc/Make Group),再来试试。情况二:如果基于单位根检验的结果发现变量之间是非同阶单整的,即面板数据中有些序列平稳而有些序列不平稳,此时不能进行协整检验与直接对原序列进行回归。但此时也不要着急,我们可以在保持变量经济意义的前提下,对我们前面提出的模型进行修正,以消除数据不平稳对回归造成的不利影响。如差分某些序列,将基于时间频度的绝对数据变成时间频度下的变动数据或增长率数
14、据。此时的研究转向新的模型,但要保证模型具有经济意义。因此一般不要对原序列进行二阶差分,因为对变动数据或增长率数据再进行差分,我们不好对其冠以经济解释。难道你称其为变动率的变动率?步骤三:面板模型的选择与回归面板数据模型的选择通常有三种形式:一种是混合估计模型(Pooled Regression Model) 。如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。一种是固定效应模型(Fixed Effects Regression Model) 。如果对于不同的截面或不同的时间序列,模型
15、的截距不同,则可以采用在模型中添加虚拟变量的方法估计回归参数。一种是随机效应模型(Random Effects Regression Model) 。如果固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,并且这两个随机误差项都服从正态分布,则固定效应模型就变成了随机效应模型。在面板数据模型形式的选择方法上,我们经常采用 F 检验决定选用混合模型还是固定效应模型,然后用 Hausman 检验确定应该建立随机效应模型还是固定效应模型。检验完毕后,我们也就知道该选用哪种模型了,然后我们就开始回归:在回归的时候,权数可以选择按截面加权(cross-section weights)的
16、方式,对于横截面个数大于时序个数的情况更应如此,表示允许不同的截面存在异方差现象。估计方法采用PCSE(Panel Corrected Standard Errors,面板校正标准误)方法。Beck 和 Katz(1995)引入的 PCSE 估计方法是面板数据模型估计方法的一个创新,可以有效的处理复杂的面板误差结构,如同步相关,异方差,序列相关等,在样本量不够大时尤为有用。(1)建立混合数据库(Pool)对象。首先建立工作文件。在打开工作文件窗口的基础上,点击 EViwes 主功能菜单上的 Objects键,选 New Object 功能,从而打开 New Object(新对象)选择窗。在 T
17、ype of Object 选择区选择 Pool(合并数据库),并在 Name of Object 选择区为混合数据库起名Pool01(初始显示为 Untitled)。(2)定义序列名并输入数据。在新建的混合数据库(Pool)窗口的工具栏中点击 Sheet 键(第 2 种路径是,点击 View 键,选 Spreadsheet (stacked data)功能),从而打开 Series List(列写序列名)窗口,定义时间序列变量 Y?和 X.点击 OK 键,从而打开混合数据库(Pool)窗口,(点击 Edit+-键,使 EViwes 处于可编辑状态)输入数据。补充:点击 Order+-键,还可
18、以变换为以时间为序的阵列式排列。工作文件也可以以合并数据(Pool data)和非合并数据的形式用复制和粘贴的方法建立。(3)估计模型点击 Estimation 键,随后弹出 Pooled Estimation(混合估计)对话窗。用 EViwes 可以估计固定效应模型(包括个体固定效应模型、时刻固定效应模型和时刻个体固定效应模型3 种)、随机效应模型、带有 AR(1)参数的模型、截面不同回归系数也不同的面板数据模型。用 EViwes 可以选择普通最小二乘法、加权最小二乘法(以截面模型的方差为权)、似不相关回归法估计模型参数。补充:在这一块内容里面,eviews6.0 和 eviews5.1 的
19、界面还是存在明显差异的,前者的界面是左右排列,后者的界面是上下排列,而且里面的选项形式也不太一样。5.1 软件里面通过选择截距项来确定模型的类型,而 6.0 的里面是通过选择 estimation method来选择模型的类型 固定效应模型在面板数据散点图中,如果对于不同的截面或不同的时间序列,模型的截距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数,称此种模型为固定效应模型(fixed effects regression model)。固定效应模型分为 3 种类型,即个体固定效应模型(entity fixed effects regression model)、时刻固定效应模型(
20、time fixed effects regression model)和时刻个体固定效应模型( time and entity fixed effects regression model)。 个体固定效应模型。个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么就应该建立个体固定效应模型。 时刻固定效应模型。时刻固定效应模型就是对于不同的截面(时刻点)有不同截距的模型。如果确知对于不同的截面,模型的截距显著不同,但是对于不同的时间序列(个体)截距是相同的,那么应该建立时刻固定效应模型。 时刻个体
21、固定效应模型。时刻个体固定效应模型就是对于不同的截面(时刻点)、不同的时间序列(个体)都有不同截距的模型。如果确知对于不同的截面、不同的时间序列(个体)模型的截距都显著地不相同,那么应该建立时刻个体效应模型。 随机效应模型在固定效应模型中采用虚拟变量的原因是解释被解释变量的信息不够完整。也可以通过对误差项的分解来描述这种信息的缺失。yit = a+ b1 xit + eit其中误差项在时间上和截面上都是相关的,用 3 个分量表示如下:eit = ui + vt + wit其中 uiN(0, su2)表示截面随机误差分量; vtN(0, sv2)表示时间随机误差分量;witN(0, sw2)表示
22、混和随机误差分量。同时还假定 ui, vt, wit 之间互不相关,各自分别不存在截面自相关、时间自相关和混和自相关。上述模型称为随机效应模型。随机效应模型和固定效应模型比较,相当于把固定效应模型中的截距项看成两个随机变量。一个是截面随机误差项( ui),一个是时间随机误差项( vt)。如果这两个随机误差项都服从正态分布,对模型估计时就能够节省自由度,因为此条件下只需要估计两个随机误差项的均值和方差。假定固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,而且对均值的离差分别是 ui 和 vt,固定效应模型就变成了随机效应模型。补充:如果仅以样本自身效应为条件进行研究,宜选择固定效应模型;如果欲以样本对总体效应进行推论,则应采用随机效应模型。qfdist(0.95,k1,k2) =1.87fdist(1.87,k1,k2) =0.05