1、2010 级研究生计量经济学结课作业 管理学院 专业管理科学与工程 姓名康在龙 学号 103135318 成绩 第一题:在常见的回归分析中,回归模型中的解释变量均属数量变量,但在许多实际回归模型中,解释变量不仅会受到诸如收入、年龄、温度、产量等数量变量的影响,还会受到性别、地区、时期、种族、观念、政府特定的政策等难以量化或受季节性因素影响的变量的影响,有时还需要在模型分析中排除数据中的异常值,或者人们所研究的经济过程存在结构性变化。一般而言,在这种情况下,仅依据数量变量借助最小二乘法拟合的回归方程难以准确地反映解释变量与被解释变量之间实际存在的关系,所得的回归方程常出现拟合不足的情形,此时若引
2、入虚拟变量,将会使回归模型表达式更为准确,在应用方式上更加灵活,适应范围也更加广泛,从而较好地解决上述问题。影响粮食产量的因素非常多,且比较复杂,既有数量变量,也有属性变量,在本文中,笔者将运用计量经济学的方法对虚拟变量中的临时虚拟变量在粮食产出单方程计量经济学模型中的基本应用,提出一些研究性意见。一、临时虚拟虚拟变量是将非数量的品质因素影响加以量化描述的一种假设的变量,是对事物属性变化的一种虚拟的量化反应,在回归分析中,一些社会经济和自然现象的变化,如政治或经济政策的改变、自然条件的变化及文化风俗等等,都会对回归模型的建立和准确的预测带来影响。如果我们将虚拟变量的出现和不出现加以变量化的约定
3、,在一个回归模型中反映其出现和发展的轨迹,这样就可以提高回归模型预测的准确性。临时虚拟变量,也称突发虚拟变量,是虚拟变量的一种。为了更好的对模型进行估算,经常需要在回归模型中排除一些由突发事件产生的异常值,及由异常值对模型所造成的影响,例如自然灾害、战争、罢工等。以下面这个引入一个临时虚拟变量的多元回归模型为例:Y= + 1 X + 2 D+ 上式中,D 为临时虚拟变量,该变量在发生异常值的时刻(年份、月份)取值为 1 ,其他时刻取值为零,也就是说在没有异常值发生的时刻,该虚拟变量不对模型造成任何影响。一般地,发生几个异常值,就在模型中引入几个虚拟变量。临时虚拟变量对于回归模型中异常值的处理来
4、说是非常有效果的,但是在引入之前,对于引入的理由必须做出清晰的解释,即,如果没有充分的理由,不能单纯地为了提高模型的适应性,而滥用虚拟变量。通常情况下,影响粮食产量的因素很多,既有自然因素,比如降水、气温等,又有人为因素,如农业机械化程度、施肥量等。其中既有数量变量,也有属性变量。选取这些对粮食生产有影响的因素为解释变量,粮食产量为被解释变量,建立多元线形回归模型,对解释变量与被解释变量之间存在的关系进行回归分析。由于粮食生产过程的特殊性,人们用于进行回归分析的数据中必然存在大量异常值,并且这些异常值对于回归分析的估算过程和估计出来的模型的拟合度等,常常会造成很大的影响。为了消除这些影响,可以
5、借助往模型中引入临时虚拟变量的方法。以自然灾害为例,一般地,发生自然灾害的当年,往往会有粮食产量低于往年产量的现象发生,在人们所积累数据中,体现为异常值,其造成的影响在其后各年份逐渐减弱,直至影响消失。随着科学技术的进步,有时异常值可能只是出现在自然灾害发生的当年。但在上述任何情况下,这样的异常值,都会对人们所进行的回归分析造成比较显着的干扰。因此在建立的回归模型中有根 据地引入临时虚拟变量,有助于排除干扰、增加回归估计的准确度和可信度。建立模型过程中,往往引入临时虚拟变量,在发生自然灾害及自然灾害造成显着影响,即出现异常值的年份其取值 1 ,其他年份取值为 0 。在此基础上,进一步利用 OL
6、S 估计,得到受干扰比较小的估计方程。二、实际应用以日本水稻生产为例,挑选对水稻产量影响最大的因素种植面积为主要考察点,一般地,水稻种植面积与水稻产量之间存在很强的正相关关系。根据日本农林水产省作物统计中资料显示,由于受 1993 年冻灾的影响,日本水稻收成指数降为战后最低水平,出现了前所未有的歉收,若对 19851995 年 11 年间日本水稻生产(数据如表1 )进行回归估计,分析水稻产量与种植面积之间的关系。以种植面积为横轴、水稻产量为纵轴,根据以上数据画出散点分布图,可以直观看到 1993 年,日本水稻种植面积与前后年份没有显着差异,但由于冻灾的发生,当年水稻产量明显低于前后各年。首先不
7、引入临时虚拟变量,以水稻种植面积为解释变量,设为 X ,水稻产量为被解释变量,设为 Y ,建立回归模型 Y= + X+ 利用已知数据,对其进行 O L S 估计,得到模型的估计式:Y=-48.224+0.71521X 且,决定系数 R2=0.3255,可见模型的拟合优度较差,很难用来对现实的粮食生产进行预测。与以上模型进行对比,建立水稻生产模型:Y= + 1 X + 2 D+ 其中,因为 1993 年出现的水稻产量异常值,引入临时虚拟变量 D ,设 1993 年为 D = 1,其他年份 D=0 ,对以上的多元回归模型进行 OLS 估计,得:Y=-40.292+0.69033X-28.748D
8、并且,得到自由度调整后的决定系数为 0.8675 ,可见,不但拟合度提高很多,而且计算得tx=4.782,tD=-6.550,即估算出来的回归系数除常数项外均在 1% 的水平显着。这样,对于遭受冻灾的 1993 年,通过向模型中引入临时虚拟变量,消除了异常值的影响。值得说明的是,在以上这个例子中,若去除歉收的 1993 年数据,所得到的结果与引入临时虚拟变量的模型估算结果相比较可以看出,除了自由度调整后的决定系数以外,常数项与回归系数以及相应的 t 值均相同。也就是说,引入临时虚拟变量的估算结果与去除异常值的估算结果、回归系数及 t 值相等。因此,对于发生异常值的年份 1993 年来说,理论值
9、与实际发生值相一致。另外,就模型而言,可以看到其中虚拟变 D 的回归系数为-28.748 ,也就是说,1993 年所发生的冻灾对于当年水稻产量造成的影响,即减产的数量,同样可以根据模型进行推测。假设当年没有发生冻灾,则可以根据上述模型,令 D 值为 0 ,推算出相应的水稻应收量。另外,也可以视-28.748 为自然灾害影响边际倾向,即为发生自然灾害年份的粮食生产量与平时年份产量的单位差值。根据以上所阐述的思路,我们对黑龙江省粮食产量波动与粮食作物播种面积变动趋势进行考察,可以发现,由于土地供给的资源约束、粮食供求变化、粮农素质提高以及农业结构调整等政策性原因,黑龙江省在播种面积微调过程中,粮食
10、产量波动性明显。这恰好与以上所述的日本水稻生产的例子情况吻合。前些年,黑龙江省粮食播种面积有增无减,但粮食产量却连年滑坡,黑龙江省 1999 年粮食播种面积为 8098.50 千公顷,粮食产量为 3074.60 万吨;2003 年播种面积小幅增长为 8114.70 千公顷,而粮食产量仅为2512.30 万吨,创造了 1994 年以来粮食产量最低记录,根据本文所进行的分析可以发现由于诸多属性变量因素的影响,造成了类似于这样的异常值的出现,而大量异常值的长期存在,在形式表现为黑龙江省粮食播种面积与粮食产量正相关性正在减弱。究其本质可以找到造成这一结果的原因,并且通过在粮食产出模型中引入临时虚拟变量
11、,可以消除异常值对于未来粮食产量预测的影响。另外,在黑龙江省粮食综合生产能力影响因素排序中自然灾害对粮食产量影响作用显着,自然灾害成灾率的关联排序在第二位。黑龙江省 1999 年粮食产量为 3074.60 万吨。播种面积为 8098.50 千公顷,2000 年粮食产量减少到 2545 万吨,播种面积为 8088.90 千公顷,可见粮食产量下跌不是播种面积调整结果,而是自然灾害导致粮食产量锐减,2000 年黑龙江省自然灾害是当年影响因素中的主导力量。当年受灾面积 3483 千公顷,成灾面积为 2299 千公顷,成灾率为 66 ,直接导致了粮食大幅度减产。根据本文所述引入临时虚拟变量的回归模型,可
12、以为自然灾害发生的当年所造成的粮食减产损失的定量评估提供科学依据。三、结束语本文通过日本水稻生产的例子,阐述了在粮食产出多元回归模型当中,如何应用临时虚拟变量来消除主要由于自然灾害等原因引起的粮食产量出现的异常值及其影响的问题,尽管影响粮食产量的因素很多,但其中大量存在的容易造成异常值的因素的处理,一直是人们在进行相关粮食产出模型分析时感到棘手的问题之一。除了本文所述的问题与方法以外,还可以通过在模型中引入虚拟变量来解决诸如季节因素、国家政策、区域差别以及劳动力素质等对粮食产出分析所造成的影响。依据本模型的解释能力、预测性能和所使用的方法,可以对各地各年度粮食产出进行很好的预测,尤其是对于低温
13、冻害等自然灾害发生频繁的黑龙江省粮食产出分析更有一定的参考价值。可以利用在模型中引入临时虚拟变量的方法着重分析黑龙江省冻灾与粮食生产形势,为全省粮食产量预报及灾后经济损失评估提供良好的科学依据。第二题:解答:(1)作如下局部调整假设:Yt-Yt-1=(Yt *-Yt-1), 01则原模型变换为:Yt= 0+1Xt+(1- )Y t-1+t在 Eviews 软件中,该模型的 OLS 模型结果如下图表所示:那么有如下的回归结果:Yt=-14.53+0.6480Xt+0.2415Yt-1(-2.98) (6.26) (1.97)R=0.9857 =0.9841 F=621.38 D.W.=1.676
14、2R尽管D.W. 值大于 5%显著性水平下相应的临界值d U=1.43,但是由于模型中含有被解释变量的滞后期作为被解释变量,故不能就此判断模型不具有序列相关性。但LM检验显示如下图表所示的结果:F-statistic 1.564717 Probability 0.227918Obs*R-squared 1.769974 Probability 0.183385故表明该模型确实不存在一阶序列相关。(2)对原模型两边取对数得出:lnY*t=ln 0+ 1lnX1+ t并作出如下局部调整假设:lnYt-lnYt-1=(lnY t*-lnYt-1), 01两式整理得出如下回归模型:lnYt=ln 0+
15、 1lnX t+(1-)lnY t-1+ tOLS回归结果为ln Yt=-1.1345+0.9837lnXt+0.1867lnYt-1(-5.24) (7.33) (1.75)R=0.9912 =0.9903 F=1023.78 D.W.=1.9792R同样地,由于模型中含有被解释变量的滞后期作为解释变量,故不能就此判断模型不具有序列相关性。但 LM 检验显示如下图表所示的结果:F-statistic 0.001606 Probability 0.968498Obs*R-squared 0.001984 Probability 0.964472可见,模型不存在一阶序列相关性。虽然这里的模型比(
16、1)模型的拟合度要高,但不能就此认为这里的模型就是一定优于(1)中的模型,因为两者有着不同的被解释变量。为了使二者可比,进行如下的 Box-Cox 变换:首先,计算被解释变量 Yt 的样本几何均值,再利用得到的样本几何均值去除以原来被解释变量 Yt,得到被解释变量的新序列 Yt,并用它替代原来的序列 Yt,分别估计双对数线性模型与线性模型:Yt=-0.1577+0.0070Xt+0。2415Y t-1(-2.98) (6.26) (1.97)R=0.9857 =0.9841 ,F=621.38 RSS1=0.0885572RlnYt=-4.8139+0.9837lnXt+0.1867lnYt-1(-7.21) (7.33) (1.75)R=0.9912 =0.9903 , F=1023.78 RSS2=0.0540932R计算下面服从自由度为 1 的 分布的统计量: 4.5093./857.ln*2/ln2/121 S该计算值大于 5%的显著水平下自由度为 1 的 分布的临界值 0.05(1)=3.84,由此可以判断(2)中的模型优于(1)中的模型