收藏 分享(赏)

面板数据模型.doc

上传人:eukav 文档编号:7065532 上传时间:2019-05-04 格式:DOC 页数:6 大小:67KB
下载 相关 举报
面板数据模型.doc_第1页
第1页 / 共6页
面板数据模型.doc_第2页
第2页 / 共6页
面板数据模型.doc_第3页
第3页 / 共6页
面板数据模型.doc_第4页
第4页 / 共6页
面板数据模型.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、面板数据回归模型我们在第一章里简要讨论了实证分析一般可用的几个数据类型,即时间序列数据,截面数据和面板数据。时间序列数据是一个或多个变量在一段时期内排列起来的统计数据(例如连续几个季度或几年的 GDP)。截面数据是一个或多个变量在同一时点所选定的不同空间的观测数据(例如给定一年里美国 50 个州的犯罪率)。面板数据是同一个截面单元(例如一个家庭或一个公司或一个国家)在一段时间内的调查数据。总之,面板数据是时间序列和截面数据相结合的数据。表 1.1 给出了 1990 年及 1991 年美国 50 个州鸡蛋产量和价格。每一年的鸡蛋产量和价格是截面数据样本。每个州的鸡蛋产量和价格是时间序列数据。因此

2、,我们一共有 50X2=100 个鸡蛋产量及价格的观测值。面板数据又叫合并数据(时间序列和截面观测值的合并),结合时间序列和截面的数据,微观面板数据,纵向数据(时间变量或者对象组的研究),事件史分析(例如连续时间条件下主体随着时间的推移运动),队列分析(例如某商学院 1965 年毕业生的职业生涯)。尽管有着细微的不同,这些名称基本上都意味着数据在截面单位上的时间运动。因此,我们将使用一般意义上的长期面板数据来代替以上数据。我们把基于这种数据的回归模型叫做面板数据回归模型。面板数据模型越来越多的被应用在经济研究中。以下是一些著名的面板数据集:1. 收支动态长期追踪调查(PSID )在美国密歇根大

3、学社会研究所进行。该调查始于 1968 年,该研究所每年收集 5000 个家庭的社会经济状况和人口变化情况。2.美国商务部人口普查局进行了一项类似 PSID 的叫做收入与项目参与(SIPP)的调查,受访者每天接受四次关于经济状况的调查。除此以外,还有很多其他的政府部门发起的调查。最初,模型的研究很艰难。面板数据回归模型的课题非常宽泛,所射击队数学和统计问题也非常复杂。我们只希望触及一些基本的引用细节的面板数据回归模型。但是我们被告知,有些引用的技术性很强。幸运的是,一些用户友好的软件例如 Limdep, PcGive, SAS, STATA, Shazam 和 Eviews 等帮助我们建立起面

4、板数据回归模型。面板数据相对于截面数据和时间序列数据的优点是什么?Baltagi 列出了面板数据的如下优点:1.由于面板数据涉及个人,企业,州,国家等,久而久之,势必会在这些单位里产生异质性。短期内我们将证明面板数据的估计方法能明确的将这种异质性考虑到单个特定变量中去。我们用一般意义上的长期个体数据概括例如个人,家庭,州和国家这些微观单位。2.通过截面数据和时间序列数据的结合,面板数据是信息量更大,变化更多,变量间的共线性更少,更大的自由度和更高的效率。3.通过反复研究截面数据,面板数据更适合研究动态变化。失业,职业流动和劳动力流动等问题从由面板数据研究更为合适。4.面板数据能更好的检测和衡量

5、那些在纯截面数据或者纯时间序列数据中很难被观察到的影响因素。例如,如果我们将最低工资的连续增长包括在联邦和/或国家的最低工资中,那么最低工资对就业和收入的影响就能被更好的研究。5.面板数据是我们能够学习更复杂的行为模式。举例来说,面板数据比纯截面数据和纯时间序列数据更好地处理如经济规模和技术变革现象。6.如果我们将个人和企业算入广泛的总量,通过使上千个单位能获得数据,面板数据能最大限度的减少偏见。总之,面板数据在方法上能使实证分析更加丰富,这是用截面数据或时间序列数据没法做到的。但这并不说明使用面板数据模型没有问题,在我们介绍一些理论和讨论一个例子后,我们将来说明这些问题。16.2 面板数据:

6、案例分析我们来讨论一个具体的例子。我们研究表 16.1 的数据,这些数据取自由 Y. Grunfeld 提出的著名投资理论研究。Grunfeld 感兴趣的是如何找出建立在公司实际价值(X 2)和实际资本存量(X 3)上的总投资(Y)。尽管最初的研究对象包括了好几各企业,为了说明问题我们选取了通用电气(GE),通用汽车(GM),美国钢铁(US)和西屋电气四家公司的数据。我们能找到每家公司上述三个变量 1935 到 1954 年的数据。因此,共有四个截面单位和 20 个时间段,我们共有 80 个观测值。先验地,我们认为 Y 与 X2,X 3 是正相关的。原则上,我们可以对每个公司建立一个时间序列回

7、归模型,或者对每年的数据建立 20 个截面回归模型。但是在后一种情况下,我们不得不考虑自由度的问题。 表 16.1 19351954 年四个公司的调查数据观测值 I F1 C1 观测值 I F1 C1GE US19351936193719381939194019411942194319441945194633.10 45.00 77.20 44.60 48.10 74.40 113.00 91.90 61.30 56.80 93.60 159.90 1170.60 2015.80 2803.30 2039.70 2256.20 2132.20 1834.10 1588.00 1749.40 1

8、687.20 2007.70 2208.30 97.80 104.40 118.00 156.20 172.60 186.60 220.90 287.80 319.90 321.30 319.60 346.00 193519361937193819391940194119421943194419451946209.90 355.30 469.90 262.30 230.40 361.60 472.80 445.60 361.60 288.20 258.70 420.30 1362.40 1807.10 2673.30 1801.90 1957.30 2202.90 2380.50 2168.6

9、0 1985.10 1813.90 1850.20 2067.70 53.80 50.50 118.10 260.20 312.70 254.20 261.40 298.70 301.80 279.10 213.80 232.60 续表16.119471948194919501951195219531954147.20 146.30 98.30 93.50 135.20 157.30 179.50 189.60 1656.70 1604.40 1431.80 1610.50 1819.40 2079.70 2371.60 2759.90 456.40 543.40 618.30 647.40

10、671.30 726.10 800.30 888.90 19471948194919501951195219531954420.50 494.50 405.10 418.80 588.20 645.20 641.00 459.30 1796.70 1625.80 1667.00 1677.40 2289.50 2159.40 2031.30 2115.50 246.80 306.90 351.10 357.80 341.10 444.20 623.60 669.70 GM WEST193519361937193819391940194119421943194419451946194719481

11、94919501951195219531954317.60 391.80 410.60 257.70 330.80 461.20 512.00 448.00 499.60 547.50 561.20 688.10 568.90 529.20 555.10 642.90 755.90 891.20 1304.40 1486.70 3078.50 4661.70 5387.10 2792.20 4313.20 4643.90 4551.20 3244.10 4053.70 4379.30 4840.90 4900.00 3526.50 3245.70 3700.20 3755.60 4833.00

12、 4924.90 6241.70 5593.60 2.80 52.60 156.90 209.20 203.40 207.20 255.20 303.70 264.10 201.60 265.00 402.20 761.50 922.40 1020.10 1099.00 1207.70 1430.50 1777.30 2226.30 1935193619371938193919401941194219431944194519461947194819491950195119521953195412.93 25.90 35.05 22.89 18.84 28.57 48.51 43.34 37.0

13、2 37.81 39.27 53.46 55.56 49.56 32.04 32.24 54.38 71.78 90.08 68.60 191.50 516.00 729.00 560.40 519.90 628.50 537.10 561.20 617.20 626.70 737.20 760.50 581.40 662.30 583.80 635.20 732.80 864.10 1193.50 1188.90 1.80 0.80 7.40 18.10 23.50 26.50 36.20 60.80 84.40 91.20 92.40 86.00 111.10 130.60 141.80

14、136.70 129.70 145.50 174.80 213.50 联合所有这些 80 各观测值,我们可以得出 Grunfeld 投资函数:Y it= 1 + 2X2it + 3X3it + u it (16.2.1 )i=1,2 , 3,4t=1,2,20i表示第i个横截面数据,t表示第t个时间段。按照定义,i表示横截面数据的标识符,t表示时间的标识符。据推测,在N个横截面数据中会有一个最大值,一个时间段的最大值。如果每一个横截面数据有相同的时间序列观测,那么这样的面板称之为平衡板。在此例中有一个平衡板,因为样本中每一个人公司都有20个观测值。若观测值个数不同于每一个面板数,我们称该面板为

15、非平衡面板。在本章里我们将大量地关注平衡面板。起初,我们假定Xs是非随机的,误差项遵循古典假设,即,E(uit) N(0, 2). 请仔细注意双重和三重下标符号,这应该是不言自明的。怎样估计(16.2.1)?答案如下。16.3 面板数据估计的回归模型:固定效应方法(16.2.1)的估计取决于我们对截距作的假设,斜率系数和误差项U it.有以下几种可能:1.假设截距和斜率系数在时间上和空间上都是不变的,误差项随着时间和个体的变化而变化的。2.斜率系数是不变的但截距随个体是变化的。3.斜率系数是不变的但截距随着时间和个体变化而变化的。4.所有系数(包括截距和斜率系数)随着个体变化而变化。5.截距和

16、斜率系数随着个体和时间变化而变化。正如你所看到的,在面板数据估计的回归模型里,每一个个案的介绍将逐渐复杂,就像(16.2.1)式。当然,如果在模型中增加更多的回归量,这种复杂性会增加,因为可能存在的回归变量之间的共线性。为了深度涵盖上述每个类别,要求一本单独的书,不过市场上已经有一些这样的书了。接下来,我们将涵盖各种可能性的一些主要特点,特别是前四个。我们的讨论是非技术的。1. 所有系数在时间和个体上是不变的最简单的,也可能是幼稚的想法就是忽视汇总数据的空间和时间维度,只估计通常的OLS回归。也就是说,各家公司的20个观测值一个堆栈在另一个上面,从而产生所有80个观测值中的各个模型的变量。OL

17、S结果如下Y= 63.3041 + 0.1101X2 + 0.3034X3se = (29.6124) (0.0137) (0.0493)t = (2.1376) (8.0188) (6.1545) (16.3.1)R2 = 0.7565 DurbinWatson = 0.2187n = 80 df = 77如果要检测混合回归的结果,采用常规标准,将会发现所有系数在统计意义上是显著的,斜率系数是正的,R 2值也是相当高的。正如预期,Y关于X2和X3是正相关的。“唯一”美中不足的是DurbinWatson统计值很低,这表明数据间可能存在自相关。当然,我们知道,低的DurbinWatson值也可能

18、由于格式错误。例如,估计模型假设认为GE、GM、US和Westinghouse的截距是相同的,它还假设所有四家公司的两个变量X的斜率系数均相同。显然,这些都是非常受限制的假设,因此,尽管它简单,混合回归方程(16.2.1)可能扭曲了Y和四家公司X之间的真正关系。我们需要做的就是找到某种考虑到四家公司所特有的性质的方法。到底怎样做将在下节介绍。2. 斜率系数不变但截距随个体变化:固定效应或最小二乘虚拟变量(LSDV)回归模型一种考虑到了各家公司或各横截面单元“个性”的方法就是让各家公司截距变化但仍假设公司的斜率系数是不变的。看到这,我们可以得出模型(16.2.1):Y it = 1i + 2X2

19、it + 3X3it + u it (16.3.2)注意到截距项的下标i表明四家公司的截距都不相同;不同可能由于各家公司的特殊点,像管理风格或管理原理。在文献中,模型(16.3.2)被称为固定效应(回归)模型(FEM)。之所以称为“固定效应”是因为尽管个体(指四家公司)的截距可能不同,每个个体截距不随时间变化;也就是说,它是时间不变的。注意到如果将截距写成1it,表明各公司或个体的截距是随时间变化的,即是时变的。可以指出,在(16.3.2)式中FEM给出假定的回归量的(斜率)系数不随个体或时间变化。(固定效应)截距在公司之间到底是怎样允许变化的?我们可以简单地做到这一点,用将在第九章学习的虚拟

20、变量技术,特别是微分虚拟截距。因此,可以将(16.3.2)写成:Y it = 1 + 2D2i + 3D3i + 4D4i + 2X2it + 3X3it + u it (16.3.3)当D 2i = 1时观测值属于GM,否则为0;D 3i = 1时观测值属于US,否则为0;D 4i = 1时观测值属于WEST,否则为0.既然有四家公司,但我们只用了三个虚拟变量,以避免掉进虚拟变量陷阱(即,完全共线性的情况)。这里没有GE的虚拟变量。换句话说, 1代表GE截距, 2, 3和 4微分截距系数 ,告诉我们GM,US和WEST的截距有多少不同于GE的截距。总之,GE称为对照的公司。当然,你可以自由的选择任意的一个公司作为对照公司。顺便说一句,如果你想得到没加公司明确的截距值,你可以引进提供的四个虚拟变量运行过原点回归,也就是说,降低到(16.3.3)式的截距;如果你不这样做,你就会落入虚拟变量陷阱。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报