1、1,第十章 Panel Data模型,在进行经济分析时经常会遇到时间序列和横截面两者相结合的数据。例如,在企业投资需求分析中,我们会遇到多个企业的若干指标的月度或季度时间序列;在城镇居民消费分析中,我们会遇到不同省市地区的反映居民消费和居民收入的年度时间序列。本章将前述的企业或地区等统称为截面,这种具有三维(截面、时期、变量)信息的数据结构称为面板数据(panel data)。有的书中也称为平行数据。本章将利用面板数据的计量模型简称为Panel Data 模型。,2,经典线性计量经济学模型在分析时只利用了面板数据中的某些二维数据信息,例如使用若干经济指标的时间序列建模或利用横截面数据建模。然而
2、,在实际经济分析中,这种仅利用二维信息的模型在很多时候往往不能满足人们分析问题的需要。例如,在生产函数分析中,仅利用横截面数据只能对规模经济进行分析,仅利用混有规模经济和技术革新信息的时间序列数据只有在假设规模收益不变的条件下才能实现技术革新的分析,而利用面板数据可以同时分析企业的规模经济(选择同一时期的不同规模的企业数据作为样本观测值)和技术革新(选择同一企业的不同时期的数据作为样本观测值),可以实现规模经济和技术革新的综合分析。,3,面板数据含有横截面、时期和变量三维信息,利用面板数据模型可以构造和检验比以往单独使用横截面数据或时间序列数据更为真实的行为方程,可以进行更加深入的分析。正是基
3、于实际经济分析的需要,作为非经典计量经济学问题,同时利用横截面和时间序列数据的模型已经成为近年来计量经济学理论方法的重要发展之一。,4,EViews对Panel Data模型的估计是通过含有Pool对象的工作文件和具有面板结构的工作文件来实现的。处理面板数据的EViews对象称为Pool。通过Pool对象可以实现对各种变截距、变系数时间序列模型的估计,但Pool对象侧重分析“窄而长”的数据,即截面成员较少,而时期较长的侧重时间序列分析的数据。对于截面成员较多,时期较少的“宽而短”的侧重截面分析的数据,一般通过具有面板结构的工作文件(Panel workfile)进行分析。利用面板结构的工作文件
4、可以实现变截距Panel Data模型以及动态Panel Data模型的估计。,10.1 Pool对象,5,10.1.1 含有Pool对象的工作文件Pool对象在EViews中扮演着两种角色。首先,Pool对象中包含了一系列的标识名。这些标识名描述了工作文件中的面板数据的数据结构。在这个角色中,Pool对象在管理和处理面板数据上的功能与组对象有些相似。其次,利用Pool对象中的过程可以实现对各种Panel Data模型的估计及对估计结果的检验和处理。在这个角色中,Pool对象与方程对象有些相似,6,Pool对象的核心是建立表示截面成员的名称表。为明显起见,名称要相对较短。例如,国家作为截面成员
5、时,可以使用USA代表美国,CAN代表加拿大,UK代表英国。定义了Pool的截面成员名称就等于告诉了EViews,模型的数据结构。在上面的例子中,EViews会自动把这个Pool理解成对每个国家使用单独的时间序列。必须注意,Pool对象本身不包含序列或数据。一个Pool对象只是对基本数据结构的一种描述。因此,删除一个Pool并不会同时删除它所使用的序列,但修改Pool使用的原序列会同时改变Pool中的数据。,7,1. 创建Pool对象,在本章中,使用的是一个研究投资需求的例子,包括了五家企业和三个变量的20个年度观测值的时间序列:例10.4 研究企业投资需求模型 5家企业: 3个变量:GM:通
6、用汽车公司 I :总投资CH:克莱斯勒公司 M :前一年企业的市场价值GE:通用电器公司 (反映企业的预期利润) WE:西屋公司 K :前一年末工厂存货和设备的价值US:美国钢铁公司 (反映企业必要重置投资期望值)创建Pool对象,选择Objects/New Object/Pool并在编辑窗口中输入截面成员的识别名称:,8,对截面成员的识别名称没有特别要求,但必须能使用这些识别名称建立合法的EViews序列名称。此处推荐在每个识别名中使用“_”字符,它不是必须的,但把它作为序列名的一部分,可以很容易找到识别名称。,9,2. Pool序列命名在Pool中使用序列的关键是序列命名:使用基本名和截面
7、识别名称组合命名。截面识别名称可以放在序列名中的任意位置,只要保持一致即可。例如,现有一个Pool对象含有识别名 JPN, USA,UK,想建立每个截面成员的GDP的时间序列,我们就使用“GDP”作为序列的基本名。可以把识别名称放在基本名的后面,此时序列名为GDPJPN,GDPUSA,GDPUK;或者把识别名称放在基本名的前面,此时序列名为JPNGDP,USAGDP,UKGDP。把识别名称放在序列名的前面,中间或后面并没什么关系,只要易于识别就行了。但是必须注意要保持一致,不能这样命名序列:JPNGDP,GDPUSA,UKGDP1,因为EViews无法在Pool对象中识别这些序列。,10,3.
8、 Pool序列概念一旦选定的序列名和Pool中的截面成员识别名称相对应,就可以利用这些序列使用Pool了。其中关键是要理解Pool序列的概念。一个Pool序列实际就是一组序列, 序列名是由基本名和所有截面识别名构成的。Pool序列名使用基本名和“?”占位符,其中“?”代表截面识别名。如果序列名为GDPJPN,GDPUSA,GDPUK,相应的Pool序列为GDP?。如果序列名为JPNGDP,USAGDP,UKGDP,相应的Pool序列为 ?GDP。当使用一个Pool序列名时,EViews认为将准备使用Pool序列中的所有序列。EViews会自动循环查找所有截面识别名称并用识别名称替代“?”。然后
9、会按指令使用这些替代后的名称了。Pool序列必须通过Pool对象来定义,因为如果没有截面识别名称,占位符“?”就没有意义。,11,4. 观察或编辑Pool定义要显示Pool中的截面成员识别名称,单击工具条的Define按钮,或选择View/Cross-Section Identifiers。如果需要,也可以对识别名称列进行编辑。5. Pool序列数据Pool中使用的数据都存在普通EViews序列中。这些序列可以按通常方式使用:可以列表显示,图形显示,产生新序列,或用于估计。也可以使用Pool对象来处理各单独序列。,12,10.1.2 输入Pool数据有很多种输入数据的方法,在介绍各种方法之前,
10、首先要理解面板数据的结构,区别堆积数据和非堆积数据形式。面板数据的数据信息用三维表示:时期,截面成员,变量。例如:1950年,通用汽车公司,投资数据。使用三维数据比较困难,一般要转化成二维数据。有几种常用的方法。1. 非堆积数据存在工作文件的数据都是这种非堆积数据,在这种形式中,给定截面成员、给定变量的观测值放在一起,但和其他变量、其他截面成员的数据分开。例如,假定我们的数据文件为下面的形式:,13,其中基本名 I 代表企业总投资、M 代表前一年企业的市场价值、K 代表前一年末工厂存货和设备的价值。每个企业都有单独的 I、M、K 数据。EViews会自动按附录A中 介绍的标准输入程序读取非堆积
11、数据。并把每个截面变量看作一个单独序列。注意要按照上述的Pool命名规则命名。,14,确认后EViews会打开新建序列的堆积式数据表。我们看到的是按截面成员堆积的序列,Pool序列名在每列表头,截面成员/年代识别符标识每行:,2. 堆积数据选择View/Spreadsheet(stacked data),EViews会要求输入序列名列表,15,Pool数据排列成堆积形式,一个变量的所有数据放在一起,和其他变量的数据分开。大多数情况下,不同截面成员的数据从上到下依次堆积,每一列代表一个变量:,16,我们称上表数据是以截面成员堆积的,单击Order+/-实现堆积方式转换,也可以按日期堆积数据:,每
12、一列代表一个变量,每一列内数据都是按年排列的。如果数据按年排列,要确保各年内截面成员的排列顺序要一致。,17,3. 手工输入/剪切和粘贴可以通过手工输入数据,也可以使用剪切和粘贴工具输入:(1) 通过确定工作文件样本来指定堆积数据表中要包含哪些时间序列观测值。(2) 打开Pool,选择View/Spreadsheet(stacked data),EViews会要求输入序列名列表,可以输入普通序列名或Pool序列名。如果是已有序列,EViews会显示序列数据;如果这个序列不存在,EViews会使用已说明的Pool序列的截面成员识别名称建立新序列或序列组。,18,(3) 打开Pool序列的堆积式数
13、据表。需要的话还可以单击Order+/-按钮进行按截面成员堆积和按日期堆积之间的转换。(4) 单击Edit+/-按钮打开数据编辑模式输入数据。如果有一个Pool包含识别名_CM,_CH,_GE,_WE,_US,通过输入:I? M? K?,指示EViews来创建如下序列:I_CM,I_CH,I_GE,I_WE,I_US;M_CM,M_CH,M_GE,M_WE,M_US;K_CM,K_CH,K_GE,K_WE,K_US:,19,4. 文件输入可以使用Pool对象从文件输入堆积数据到各单独序列。当文件数据按截面成员或时期堆积成时,EViews要求:(1) 堆积数据是平衡的(2) 截面成员在文件中和在
14、Pool中的排列顺序相同。平衡的意思是,如果按截面成员堆积数据,每个截面成员应包括正好相同的时期;如果按日期堆积数据,每个日期应包含相同数量的截面成员观测值,并按相同顺序排列。特别要指出的是,基础数据并不一定是平衡的,只要在输入文件中有表示即可。如果观测值中有缺失数据,一定要保证文件中给这些缺失值留有位置。要使用Pool对象从文件读取数据,先打开Pool,然后选择Procs/Import Pool Data(ASCII,.XLS,.WK?),要使用与Pool对象对应的输入程序。,20,21,通过附录A的学习,大家对这个对话框应该比较熟悉,填写说明如下:注明Pool序列是按行还是按列排列,数据是
15、按截面成员堆积还是按日期堆积。在编辑框输入序列的名称。这些序列名应该是普通序列名或者是Pool名。填入样本信息,起始格位置和表单名(可选项)。如果输入序列用Pool序列名,EViews会用截面成员识别名创建和命名序列。如果用普通序列名,EViews会创建单个序列。EViews会使用样本信息读入文件到说明变量中。如果输入的是普通序列名,EViews会把多个数据值输入到序列中,直到从文件中读入的最后一组数据。,22,10.1.3 输出Pool数据按照和上面数据输入相反的程序可进行数据输出。由于EViews可以输入输出非堆积数据,按截面成员堆积和按日期堆积数据,因此可以利用EViews按照需要调整数
16、据结构。,23,10.1.4 使用Pool数据每个截面成员的基础序列都是普通序列,因此EViews中对各单个截面成员序列适用的工具都可使用。另外,EViews还有专门适用于Pool数据的专用工具。可以使用EViews对与一特定变量对应的所有序列进行类似操作。1. 检查数据用数据表形式查看堆积数据。选择View/Spreadsheet (stacked data),然后列出要显示的序列。序列名包括普通序列名和Pool序列名。2. 描述数据可以使用Pool对象计算序列的描述统计量。在Pool工具栏选择View/Descriptive Statistics,EViews会打开如下对话框:,24,在编
17、辑框内输入计算描述统计量的序列。EViews可以计算序列的平均值,中位数,最小值,最大值,标准差,偏度,峰度,和Jarque-Bera统计量。下一步选择样本选项:,25,(1)Individual(单独的): 利用所有的有效观测值。即使某一变量的观测值是针对某一截面成员的,也计算在内。(2)Common(截面共同的): 使用的有效观测值必须是某一截面成员的数据,在同一期对所有变量都有数值。而不管同期其他截面成员的变量是否有值。(3)Balanced(平衡的): 使用的有效观测值必须是对所有截面成员,所有变量在同一期都有数值。,26,最后还必须选择与计算方法相对应的数据结构:(1)堆积数据(St
18、acked data): 计算表中每一变量所有截面成员,所有时期的统计量。如果忽略数据的pool性质,得到的就是变量的描述统计量。(2)去掉均值的堆积数据(Stacked-means removed): 计算除去截面平均值之后的描述统计量值。(3)截面成员变量(Cross-section specific): 计算每个截面变量所有时期的描述统计量。是通过对各单独序列计算统计量而得到的。(4)时期变量(Time period specific): 计算时期特性描述统计量。对每一时期,使用pool中所有截面成员的变量数据计算的统计量。注意,后面两种方法可能产生很多输出结果。截面成员描述计算会对每一
19、变量/截面成员组合产生一系列结果。如果有三个Pool变量,20个截面成员,EViews就会计算60个序列的描述统计量。,27,3. 生成数据(1) 可以使用PoolGenr(panelgenr)程序生成或者修改Pool序列。点击Pool工具栏的Poolgenr并输入要生成的方程式,使用正确的Pool名称。例如上面的例子,输入:r?=I?/I_US, 相当于输入下面五个命令:r_CM = I_CM/I_US r_CH = I_CH/I_USr_GE = I_GE/I_US r_WE = I_WE/I_USr_US = I_US/I_USPoolGenr按照输入的方程在各截面成员间进行循环计算,生
20、成新的序列或修改已有序列。,28,(2) 可联合使用PoolGenr和Genr生成新的变量。例如,要生成一个虚拟变量,在美国钢铁(US)时取1,其他企业时取0,先选择PoolGenr,然后输入:dum?=0,从而初始化所有虚拟变量序列为0。然后,把US值设置为1,在主菜单选择Genr,然后输入:dum_US=1。,29,(3) 还可以利用数据的内在循环特性进行给定时期的截面成员间的计算。例如,建立一普通序列IS,在主菜单选择Genr,然后输入:IS=0,即初始值设为0,然后选PoolGenr并输入:IS=IS+I?相当于对普通序列从Genr输入下列计算:IS=I_GM+I_CH+I_GE+I_
21、WE+I_US这个例子用来说明内在循环这个概念。,30,4. 生成Pool组如果希望使用EViews的组对象工具处理一系列Pool序列,选择Procs/Make Group输入普通序列和Pool序列名称,EViews就会生成一个包含这些序列的未命名组对象。5. 删除和存取数据Pool可用来删除和存取序列。只需选择Procs/Delete pool series,Procs/Store pool series(DB),Procs/Fetch pool series(DB),输入普通序列和Pool序列名称即可。,31,10.1.5 Pool对象估计的模型形式设有因变量 yit 与k1维解释变量向量
22、xit(x1,it , x2,it , , xk,it) ,满足线性关系i =1, 2, , N , t =1, 2, T (10.1.1) 式(10.1.1)是考虑 k 个经济指标在 N 个截面成员及 T 个时间点上的变动关系。其中 N 表示截面成员的个数,T 表示每个截面成员的观测时期总数,参数 it 表示模型的常数项,it 表示对应于解释变量向量 xit 的 k1 维系数向量,k 表示解释变量个数。随机误差项 uit 相互独立,且满足零均值、等方差为 u2 的假设。,32,在式(10.1.1)描述的模型中,自由度(NT)远远小于参数个数,这使得模型无法估计。为了实现模型的估计,可以分别建
23、立以下两类模型:从截面成员角度考虑,建立含有 N 个截面成员方程的Panel Data模型;在时间点上截面,建立含有 T 个时期方程的Panel Data模型。,33,1含有N个截面成员方程的Panel Data模型Panel Data模型简化为如下形式:i =1, 2, N (10.1.2),其中:yi是T 1维被解释变量向量,xi是T k维解释变量矩阵,yi 和 xi 的各分量是截面成员的经济指标时间序列,例如若截面成员代表各不同地区,则yi 和xi 代表 i 地区的消费和收入、物价等指标的经济时间序列。截距项i 和k1维系数向量i ,其取值受不同截面的影响。ui是T 1维扰动项向量,满足
24、均值为零、方差为u2的假设。,34,式(10.1.2)写成矩阵的回归形式为:(10.1.3)式(10.1.3)含有N个截面方程。,35,2含有T个时期方程的Panel Data模型Panel Data 模型简化为如下形式:t =1, 2, , T (10.1.4) 其中:yt 是N 1维被解释变量向量,xt 是N k维解释变量矩阵,yt 和 xt 的各分量是对应于某个时间点 t 的各截面成员的经济指标序列 ,例如2003年各不同地区的消费和收入、物价等的经济指标序列。截距项t 和k 1维系数向量 t ,其取值受不同时期的影响。vt 是N 1维扰动项向量,满足均值为零、方差为v2的假设。,36,
25、式(10.1.4)写成矩阵的回归形式为:(10.1.5)式(10.1.5)含有T个时期方程。,37,由于含有 N 个截面成员方程的式(10.1.2)和含有 T个时期方程的式(10.1.4)两种形式的模型在估计方法上类似,因此本章主要讨论含有 N 个截面成员方程的Panel Data模型的估计方法。,38,10.1.6 如何估计Pool方程,单击Pool工具栏的Estimate选项打开如下对话框:,39,1. 因变量在因变量对话框中输入Pool变量或Pool变量表达式。2. 样本在下面的编辑窗口中输入样本说明。样本的缺省值是各截面成员中的最大样本值。如果得不到某时期截面成员的解释变量或因变量的值
26、,那么此观测值会被排除掉。复选框Balanced Sample说明在各截面成员间进行数据排除。只要某一时期数据对任何一个截面成员无效,此时期就被排除。这种排除保证得到的样本区间对所有截面成员都是有效的。如果某截面成员的所有观测值都没有,那么Pool在进行估计时就排除这个截面成员。同时EViews会在输出中告诉漏掉的截面成员。,40,3. 解释变量在三个编辑框中输入解释变量。(1) Common :此栏中输入的变量对所有截面成员有相同的系数,并用一般名称或Pool名称输出结果。(2) Cross-section specific :此栏中输入的变量对Pool中每个截面成员的系数不同。EViews
27、会对每个截面成员估计不同的系数,并使用截面成员识别名后跟一般序列名,中间用“”连接进行标签。(3) Period specific :此栏中输入的变量对Pool中每个时期的系数不同。EViews会对每个时期估计不同的系数,并使用变量名后跟时期,中间用“”连接进行标签。,41,如果在截面系数编辑框中输入pool变量M?和K?,会输出M?和K?的估计系数。如果在截面系数编辑框中输入这两个变量,会输出如下形式的系数:_GM-M_GM,_CH-M_CH,_GE-M_GE,_WE-M_WE,_US-M_US和_GM-K_GM,_CH-K_CH,_GE-K_GE,_WE-K_WE,_US-K_US,等等。
28、如果在时期系数编辑框中输入pool变量M?和K?,会输出M?和K?的各时期的估计系数:C_1935, C_1936 , , K?_1935,K?_1936, , M?_1935,M?_1936 , , 等等。注意,使用截面成员特定系数法估计模型会生成很多系数,等于Pool中截面成员数和所列变量数的乘积。,42,模型(10.1.2)常用的有如下三种情形:不变系数模型: (10.1.6)变截距模型: (10.1.7)变参数模型: (10.1.8)对于不变系数模型,在横截面上无个体影响、无结构变化,则普通最小二乘法估计给出了 和 的一致有效估计。相当于将多个时期的截面数据放在一起作为样本数据。对于变
29、截距模型,在横截面上个体影响不同,个体影响表现为模型中被忽略的反映个体差异的变量的影响,又分为固定影响和随机影响两种情况。对于变参数模型,除了存在个体影响外,在横截面上还存在变化的经济结构,因而结构参数在不同横截面上是不同的。,10.2 模型形式设定检验,43,在对Panel Data模型进行估计时,使用的样本数据包含了截面、时期、变量3个方向上的信息。如果模型形式设定不正确,估计结果将与所要模拟的经济现实偏离甚远。因此,建立Panel Data模型的第一步便是检验被解释变量 yit 的参数 i 和 i 是否对所有截面样本点或时期都是一样的,即检验样本数据究竟符合上面哪种Panel Data模
30、型形式,从而避免模型设定的偏差,改进参数估计的有效性。,44,经常使用的检验是协方差分析检验,主要检验如下两个假设:H1: H2: 可见如果接受假设 H2 则可以认为样本数据符合模型(10.1.6),即模型为不变参数模型,无需进行进一步的检验。如果拒绝假设H2,则需检验假设H1。如果接受H1,则认为样本数据符合模型(10.1.7) ,即模型为变截距模型,反之拒绝 H1 ,则认为样本数据符合模型(10.1.8),即模型为变参数模型。,45,下面介绍假设检验的 F 统计量的计算方法。首先计算变参数模型的残差平方和,记为 S1 ;变截距模型的残差平方和记为 S2 ;不变参数模型的残差平方和记为 S3
31、 。计算 F2 统计量 (10.2.7)在假设 H2 下检验统计量 F2 服从相应自由度下的F分布。若计算所得到的统计量 F2 的值不小于给定置信度下的相应临界值,则拒绝假设 H2,继续检验假设 H1。反之,接受 H2则认为样本数据符合不变参数模型。,46,在假设H1下检验统计量F1也服从相应自由度下的F分布,即(10.2.8)若计算所得到的统计量F1的值不小于给定置信度下的相应临界值,则拒绝假设H1。如果接受H1,则认为样本数据符合变截距模型,反之拒绝H1 ,则认为样本数据符合变参数模型。,47,建立一个研究五家企业投资需求状况的Panel Data模型:i =1 , 2 , , 5 其中:
32、企业标识数字从1 5,分别对应通用汽车(GM)、克莱斯勒(CH)、通用电气(GE)、西屋(WE)和美国钢铁(US)。被解释变量I = (I1, I2, I3, I4, I5) 分别是5家企业的总投资。解释变量为M = (M1, M2, M3, M4, M5) 分别是5家企业前一年企业市场价值(反映企业的预期利润);K = (K1, K2, K3, K4, K5) 分别是5家企业前一年末工厂存货及设备价值(反映企业必要重置投资期望值)。(1) 首先分别计算3种形式的模型:变参数模型、变截距模型和不变参数模型:,例10.1 企业投资需求模型类型的设定检验,48,变参数模型:,49,变截距模型:,5
33、0,不变参数模型:,51,例10.1中系数 和 取何种形式可以利用模型形式设定检验方法来确定。(1) 首先分别计算3种形式的模型:变参数模型、变截距模型和不变参数模型,在每个模型的回归统计量里可以得到相应的残差平方和S1=339121.5、S2 = 444288.4 和S3 = 1570884。(2) 按(10.2.7)式和(10.2.8)式计算F统计量,其中N=5、k=2、T=20,得到的两个F统计量分别为:F1=(S2-S1)/8)/(S1 /85) = 3.29 F2=(S3-S1)/12)/(S1 /85) = 25.73利用函数 qfdist(d,k1,k2) 得到F分布的临界值,其
34、中d 是临界点,k1和k2是自由度。在给定5%的显著性水平下(d=0.95),得到相应的临界值为:F2, (12, 85) = 1.87 F1, (8, 85) =2.049由于 F21.87,所以拒绝H2;又由于 F12.049,所以也拒绝H1。因此,例10.1的模型应采用变系数的形式。,52,Panel Data模型估计方法使用Panel Data模型数据结构信息,有很多种方法进行方程估计。可以估计固定截距模型,随机截距模型,或者模型变量对各截面成员的系数不同,以及估计单独的AR项系数。也可以为各个截面成员分别估计一个方程。EViews的Pool对象估计模型使用的方法有:最小二乘法,估计截
35、面权重的加权最小二乘法或似乎不相关回归。这些方法的使用都不改变原数据的排序。下面将介绍怎样使用Pool和系统估计更一般和复杂的模型,包括二阶段最小二乘估计和非线性模型,以及有复杂截面系数限制的模型。,53,下面讨论Pool模型的计算方法。设有N个观测值互相堆积。为讨论方便,把堆积方程表示为:, i =1, 2, , N (10.3.1) 其中 yi 是第 i 个截面成员的T1维因变量向量,xi 是第 i 个截面成员的Tk 维解释变量矩阵。i 是第 i 个截面成员的k1维未知参数向量,ui 是第 i 个截面成员的T1维扰动项向量。用分块矩阵形式表示如下:,54,并且方程的残差协方差矩阵为:基本说
36、明把Pool说明作为联立方程系统并使用系统最小二乘法估计模型。,55,不变参数模型(所有截面截距相同、系数相同)当残差同期不相关,并且时期和截面同方差时,,注 设A = (aij)nm , B = (bij)pq ,定义A与B的克罗内克积(简称叉积) 为显然,AB是npmq阶矩阵,是分块矩阵,其第 (i , j) 块是aijB。,56,对堆积数据模型使用普通最小二乘法估计系数和协方差。相当于不变参数模型:i =j ,i =j ,在横截面上无个体影响、无结构变化,则普通最小二乘法估计给出了 和 的一致有效估计。相当于将多个时期的截面数据放在一起作为样本数据。其中 yi 和 xi 分别是各截面的因
37、变量向量和解释变量矩阵。,57,以例10.1为例:,58,所有的截面的系数相等,和将5个公司的数据接到一起,用OLS的估计结果相同。,59,10.3 变截距模型 10.3.1 固定影响变截距模型 (1) 固定影响 (Fixed Effects) (变截距模型:i j,i =j )固定影响估计量通过为每个截面成员估计不同常数项使i 不同。模型对应的向量形式如下:(10.3.2) 其中:yi, e, ui是T1维向量,xi是T k维矩阵,即, , ,,60,EViews将每个变量减去平均值,并用转换后的数据,通过最小二乘估计来计算固定影响。 (10.3.3) 其中 ,xit (x1,it, x2,
38、it , , xk,it) 固定影响本身不是直接估计的,计算公式为 , i =1, 2, , N (10.3.4),61,(2) 引进总体均值截距项的固定影响变截距模型如果引进总体均值截距项(m),可以将模型(10.3.1)写成如下的等价形式:i =1, 2, , N (10.3.10) 在该形式下,模型(10.3.1)中的反映个体影响的跨成员方程变化的截距项被分解成在各截面成员方程中都相等的总体均值截距项(m)和跨成员方程变化的表示截面对总体均值偏离的截面截距项(i*)。截面截距项i* 表示的是截面成员 i 对总体平均状态的偏离,所有偏离之和应该为零,即(10.3.11),62,在该约束下,
39、可以得到模型(10.3.10)中的各参数的最优线性无偏估计(10.3.12)(10.3.13)(10.3.14) 其中: ,xit (x1,it, x2,it, xk,it),。EViews计算固定影响是包含总体均值截距项的变截距模型。,63,例10.2 城镇居民消费的固定影响变截距模型(1),根据Keynes的绝对收入假说,利用29个省市的居民收入、消费数据建立城镇居民的消费模型,对各省市的居民消费结构进行对比分析。模型中的被解释变量CS为城镇居民人均全年消费,解释变量为城镇居民人均全年可支配收入YD(单位:元),变量均为年度数据,样本区间为1991 1994年。利用上节所介绍的模型形式设定
40、检验方法(N = 29,k = 1,T = 4),由式(10.2.7)和式(10.2.8)计算得到的两个F统计量分别为:F2 = 2.8 F1 = 1.17 查F分布表,在给定5%的显著性水平下,得到相应的临界值为: F(56,58) =1.55 F(28,58) =1.67由于 F2 1.55,所以拒绝H2;又由于 F1 1.67,所以接受H1。因此,模型采用变截距形式。因为主要是做省市之间的对比分析,所以在本例中建立的是城镇居民消费的固定影响变截距模型。,64,65,使用OLS方法对模型进行估计,估计结果如下:t = (8.4) (112.9) 从估计结果可以看出,对于本例中的29个省市来
41、说,虽然它们的城镇居民消费倾向相同,但是1991年1994年间其城镇居民的自发消费存在显著的差异,其中广东的城镇居民自发消费最高,其次为辽宁,而城镇居民自发消费最低的是新疆,其次是山东。,66,(3) 包含时期截距的固定影响变截距模型,模型(10.3.1)还可以推广为包含时期截距的形式,即模型形式为:i =1, 2, N ,t =1, 2, T (10.3.15) 其中:t 为时期截距,反映时期特有的影响。类似地,通过引进相应的截面成员和时期虚拟变量,利用普通最小二乘法可以得到各参数的OLS估计。总体均值、截面截距项、时期截距项:,67,例10.3 城镇居民消费的固定影响变截距模型(2),68
42、,69,3. 固定影响变截距模型的广义最小二乘估计(1) 截面加权(截面成员截面异方差情形的GLS估计 )利用OLS的不变参数估计,我们得到例10.4美国5个公司的方程残差的方差i2 ,具有截面异方差性。 残差的方差,70,当残差具有截面异方差性和同步不相关时最好进行截面加权回归:EViews进行可行广义最小二乘(FGLS)。首先从一阶段Pool最小二乘回归,得到方差 i2 的估计值 si2,计算公式为: , i =1, 2, , N (10.3.24) 其中 是OLS的拟合值。,71,截面成员方程截面异方差的协方差矩阵的估计为,然后,用得到的样本方差估计作为各截面成员的权重,即加权矩阵为N
43、IT,利用加权最小二乘方法得到相应的GLS估计。类似地,可以得到含有T个时期方程情形下的时期异方差的GLS估计。,72,其次系数值 由标准GLS估计量估计,是有效估计量。,73,74,(2) 同期相关协方差情形的SUR估计 当残差具有截面异方差性和同步相关性时,SUR加权最小二乘是可行的GLS估计量:其中 是同步相关的对称阵:(10.3.28) 一般项 ,在所有的 t 时为常数。,75,EViews估计SUR模型时使用的 ij 是由一阶段Pool最小二乘回归得到:i, j =1, 2, , N (10.3.30) 其中: 和 可由式(10.3.3)和式(10.3.4)得到。计算后,再进行广义最
44、小二乘估计(GLS),此时 的SUR估计为: (10.3.31) 其中:, , ,76,此时 的SUR估计为:,77,78,10.3.2 随机影响变截距模型 (Random Effects)随机影响模型假设it 项是共同系数 和不随时间改变的截面说明随机变量 vi 的和, vi 和残差 ui 是不相关的。, i =1, 2, , N (10.3.34) 为了分析方便,可以将模型(10.3.34)写成如下形式:(10.3.43) 其中: , = ( , ) ,wi = vi + ui。,79,EViews按下列步骤估计随机影响模型:(1) 使用固定影响模型的残差估计 ui 的方差: (10.3.
45、52) 使用包含总体均值截距项的变截距模型的残差估计 vi 的方差,(10.3.52),80,(2) 由于,有了成分方差 和 的估计,可以求出模型(10.3.42)中参数 的GLS估计量:(10.3.49) 其中: 。,81,个体随机影响 vi 相应的估计为i =1, 2, , N (10.3.56) 其中: (10.3.57),82,83,84,10.3.3 Hausman检验,Hausman(1978)等学者认为应该总是把个体影响处理为随机的,即随机影响模型优于固定影响模型,其主要原因为:固定影响模型将个体影响设定为跨截面变化的常数使得分析过于简单,并且从实践的角度看,在估计固定影响模型时
46、将损失较多的自由度,特别是对“宽而短”的面板数据。但相对于固定影响模型,随机影响模型也存在明显的不足:在随机影响模型中是假设随机变化的个体影响与模型中的解释变量不相关,而在实际建模过程中这一假设很有可能由于模型中省略了一些变量而不满足,从而导致估计结果出现不一致性。,85,对于如何检验模型中个体影响与解释变量之间是否相关,Hausman(1978)提出了一种严格的统计检验方法Hausman检验。该检验的原假设是:随机影响模型中个体影响与解释变量不相关,检验过程中所构造的统计量(W)形式如下:(10.3.66) 其中b为固定影响模型中回归系数的估计结果, 为随机影响模型中回归系数的估计结果。 为
47、两类模型中回归系数估计结果之差的方差,即(10.3.67)Hausman证明在原假设下,式(10.3.66)给出的统计量W 服从自由度为 k 的 2 分布,k 为模型中解释变量的个数。,86,Hausman检验的操作EViews中可以实现检验模型中个体影响与解释变量之间是否相关的Hausman检验。为了实现Hausman检验,必须首先估计一个随机效应模型。然后,选择View/Fixed/Random Effects Testing/Correlated Random Effects - Hausman Test,EViews将自动估计相应的固定效应模型,计算检验统计量,显示检验结果和辅助回归结
48、果。,87,例10.4 城镇居民消费行为的区域差异分析,本例按照国家有关部门的划分标准将29个省市自治区划分为三个区域东部、中部和西部,其中:东部区域(11个)包括:北京市、天津市、河北省、辽宁省、上海市、江苏省、浙江省、福建省、山东省、广东省和海南省;中部区域(8个)包括:山西省、吉林省、黑龙江省、安徽省、江西省、河南省、湖北省和湖南省;西部区域(10个)包括:内蒙古自治区、四川省、广西自治区、贵州省、云南省、陕西省、甘肃省、青海省、宁夏自治区和新疆自治区。利用29个省市的居民收入、消费数据,分别建立东部、中部和西部的城镇居民的消费模型。各模型中的被解释变量为城镇居民人均全年消费CS,解释变量为城镇居民人均全年可支配收入YD,样本区间为1991 1994年。东部、中部和西部的城镇居民消费模型形式设定检验的结果由表10.4给出。,