1、1ARIMA模型在广东省 GDP预测中的应用2摘要在国民经济发展的过程中,国内生产总值(GDP)无疑是衡量一个国家综合国力的重要指标国内生产总值(Gross Domestic Product)是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。这个指标把国民经济全部活动的产出成果概括在一个极为简明的统计数字之中,为评价和衡量国家经济状况、经济增长趋势及社会财富的经济表现提供了一个最为综合的尺度,可以说,它是影响经济生活乃至社会生活的最重要的经济指标。对其进行的分析预测具有重要的理论与现实意义。而一个国家的国内生产总
2、值又是由各省生产总值所构成的,因此研究各省生产总值对研究国内生产总值以及各省乃至全国经济都起着重要作用。时间序列是指同一种现象在不同时间上的相继观察值排列而成的一组数字序列。时间序列预测方法则是通过时间序列的历史数据揭示现象随时间变化的规律,将这种规律延伸到未来,从而对该现象的未来做出预测。传统的时间序列分析方法在经济中的应用,主要是确定性的时间序列分析方法,包括指数平滑法、移动平均法、时间序列的分解等等。随着社会的发展,许多不确定因素在经济生活中的影响越来越大,必须引起人们的重视。1970年,Box和Jenkins提出了以随机理论为基础的时间序列分析方法,使时间序列分析理论上升到了一个新的高
3、度,预测的精度大大提高。时间序列分析的基本模型有:ARMA模型和ARIMA模型。本文以广东省1978年至2009年三十二年来省内生产总值为基础,SAS软件对数据进行时间序列分析,建立时间序列模型,并对模型进行检验,综合各种条件最终确定较适合模型。最后利用所建模型对吉林省未来10年的省内生产总值做出预测。关键词:时间序列:GDP; ARMA 模型;ARIMA 模型ARIMA 模型在广东省 GDP 预测中的应用 .1第一章引言 411 分析预测 GDP年度数据的原因 .412 时间序列分析法简述 .4313 本文的主要工作 .4二.时间序列分析基本方法 42.1、平稳时间序列的定义 52.2平稳性
4、检验 .52.3纯随机性 .52.4 AR模型 62.5M模型 62.6 模型 727 I模型 72.8 ),(qp模型的识别 8三实例分析 93.1原始数据的平稳性分析 .93.2原始数据的平稳化处理 .103.2.一阶差分 113.2.2 二阶差分 113.3.3三阶差分: .123.3 ARIMA(p,q)模型的建立与检验. 133.3.1 p,q确定 .133.3.2参数检验及残差检验 .143.3.2 模型确定 143.4 序列预测 153.4.1拟合、预测图 .153.4.2 短期预测及预测效果. 15四,结论 154第一章引言11分析预测GDP年度数据的原因国内生产总值(GDP)
5、是指一个国家或地区所有常住单位在一定时期内生产活动的最终成果。这个指标把国民经济全部活动的产出成果概括在一个极为简明的统计数字之中,为评价和衡量国家经济状况、经济增长趋势及社会财富的经济表现提供了一个最为综合的尺度,可以说,它是影响经济生活乃至社会生活的最重要的经济指标。对其进行的分析预测具有重要的理论与现实意义。而一个国家的国内生产总值又是由各省生产总值所构成的,因此研究各省生产总值对研究国内生产总值以及各省乃至全国经济都起着重要作用。本文以吉林省为例,利用时间序列分析方法,建立吉林GDP时间序列模型,分析经济增长的内在特征。并对未来十年吉林经济发展做出预测,为政府制定经济发展战略提供依据。
6、12 时间序列分析法简述客观现象都是处在不断发展变化之中,对现象发展变化的规律,不仅要从内部结构、相互关联去认识,而且还应随时间演变的过程去研究,这就需要运用时间序列分析方法。时间序列分析是一种广泛应用的数量分析方法,它主要用于描述和探索现象随时间发展变化的数量规律。时间序列是指同一种现象在不同时间上的相继观察值排列而成的一组数字序列。时间序列预测方法则是通过时间序列的历史数据揭示现象随时间变化的规律,将这种规律延伸到未来,从而对该现象的未来做出预测。传统的时间序列分析方法在经济中的应用,主要是确定性的时间序列分析方法,包括指数平滑法、滑动平均法、时间序列的分解等等。随着社会的发展,许多不确定
7、因素在经济生活中的影响越来越大,必须引起人们的重视。时间序列分析的基本模型有:ARMA模型和ARIMA私模型。时间序列分析预测法,首先将预测目标的历史数据按照时间先后的顺序排列,然后分析它随时间的变化趋势及自身的统计规律,外推得到预测目标的未来取值。它与回归分析预测法的最大区别在于:该方法可以根据单个变量的取值对其自身的变动进行预测,无须添加任何的辅助信息。13本文的主要工作从中国统计年鉴 2011中选取广东1978 年2009年共32年的GDP作为数据,运用时间序列的分析方法来建立模型,进行模型识别、参数估计和模型检验,并且利用模型来预测未来的GDP。二.时间序列分析基本方法2.1、平稳时间
8、序列的定义 随机时间序列的平稳性分为严平稳和宽平稳。严平稳是一种条件比较苛刻的平稳性定义,它认为只有当序列所有的统计性质都不会随着时间的推移而发生变化时,该序列才能被认为平稳。设 )为tX一时间序列,对任意正整数 m,任取 ,对任意整数 ,有Tttm.,321 5),.(),.(F 21,.21,. 2121 mttmtt xFxmm 则称时间序列为严平稳时间序列。宽平稳是使用序列的特征统计量来定义的一种平稳性。它认为序列的统计性质主要由它的低阶矩决定,所以只要保证序列低阶矩平稳(二阶) ,就能保证序列的主要性质近似稳定。 满足以下条件的序列称为宽平稳时间序列 为常数, ,tExTt tsks
9、ks,)()(2.2平稳性检验时间序列模型是建立在随机时间序列平稳性的基础上的,因此对随机时间序列进行平稳性检验是非常必要的。对序列平稳性的检验方法主要有三种检验方法:时序图检验、自相关图检验和单位根检验。2.3纯随机性对于随机序列 , tT , 如果 E( ) = 0, ,t T;Cov XtX2)(tXVar( , ) = 0, (t + k ) T , k 0 , 则称 为纯随机序列,又称为白噪声序列 。tXk t白噪声是平稳的随机过程 ,是一种没有分析价值的序列。如果一个时间序列是纯随机的,得到一个观察期数为 n 的观察值序列,那么该序列的延迟非零期的样本自相关系数将近似服从均值为nt
10、x.3,21,零、方差为序列观察期数倒数的正态分布,即 0kn),1(N 式中,n 为观察期数。我们可以构造检验统计量来检验序列的纯随机性。原假设和备择假设分别为:原假设: 1,.21 m备择假设:至少存在某个 kk 0检验统计量为 Ljung-Box Q 检验统计量: 21()()()mkLBn当 统计量大于程 分位点,或该统计量的 P 值小于 时,则可以以QLB21x 的置信水平拒绝原假设,认为该序列为非纯随机序列;否则,接受原假设,1认为该序列为纯随机序列。62.4 模型AR如果时间序列 是它的前期值和随机项的线性函数,即可表示为ty4.1.1tptttt yy21则称该时间序列 是自回
11、归序列, (4.1.1)式为 阶自回归模型,记为ty模型。实参数 称为自回归系数,是模型的待估参数。随机)(pARp,321项 是相互独立的白噪声序列,且服从均值为 0,方差为 的正态分布。t 2记 为 k步滞后算子,即 ,则模型(4.1.1)可表示为BktyBttpttt yBy21令 p2模型可简写为 ttyB2.5 模型MA如果时间序列 是它的当期和前期的随机误差项的线性函数,即可表示为ty4.1.2qttttt 21则称该时间序列 是移动平均序列, (4.1.2)式为 阶移动平均模型,记为ty模型。实参数 为移动平均系数,是模型的待估参数。qMAq, 321引入滞后算子,并令 则模型(
12、4.1.2)可简写qBB21为 。ttBy2.6 模型ARM模型的全称是自回归移动平均模型,它是目前最常用的拟合平稳序列的模型。把具有如下结构的模型称为自回归移动平均模型,简称模型。),(qp qtttptttt aaXX 121070,qptsaEaVrsttt ,),()(,0)(E2 Xts,若 =0,该模型为中心化 模型,中心化 模型可以0),(qpARM),(qpARM简写为: qtttptttt aaxxx 121很明显,式中若 =0, 模型就退化成 模型。p),(qAR)(A若 =0, 模型就退化成 模型。qMpR所以, 模型和 模型是 模型的特例,可以将它们)()(p),(q统
13、称为 模型,而 模型的性质也正是 模型和,pAR,qAR)(MA模型性质的有机结合。)(27 模型IM模型主要是针对平稳时间序列的分析模型。实际上,在现实中),(qp绝大部分序列都是非平稳的,因而对非平稳序列的分析更普遍、更重要。对于非平稳序列,我们通常使用求和自回归移动平均模型,即 模型),(qdpARIM进行拟合。我们把如下结构的模型成为 模型:),(qdpARIttdaBXB)1( sEaVrEstttt ,0),(,0)(2ts),(式中, nBB.1)(2m2模型中参数 是非平稳时间序列经过差分的次数。从理论),(qdpARIMd上讲, 足够多次的差分运算可以充分地提取序列中的非平稳
14、确定性信息。但差分运算的阶数并不是越多越好。因为差分运算是一种对信息的提取、加工过程, 每次差分都会有信息的损失, 所以在实际应用中差分运算的阶数要适当, 应当8避免过渡差分, 即过差分的现象。模型的实质是差分运算与 模型的组合。这说明任何),(qdpARIMARM非平稳序列只要通过适当阶数的差分就能实现平稳,这样就可以对差分后序列进行 模型拟合了。),(2.8 模型的识别qpAR模型的统计性质可以通过自相关和偏自相关函数来描述,通过),(M自相关和偏自相关函数,我们可以总结出如下规律: 模型的自相关系数)(pAR是拖尾的,而偏自相关系数是 步截尾的。 模型的自相关系数是 步截p)(qMq尾的
15、,而偏自相关系数具有拖尾性。 模型的自相关系数和偏自相关,pAR系数都是拖尾的,见表 1。表 1 模型自相关系数和偏自相关系数特征),(qp模型 自相关系数 偏相关系数)(pAR拖尾 阶截尾pqM阶截尾q拖尾),(拖尾 拖尾由于样本的随机性, 样本的相关系数不会呈现出理论截尾的完美情况, 本应截尾的相关系数仍会呈现出小值振荡的情况。又由于平稳时间序列通常都具有短期相性, 随着延迟阶数的增大, 相关系数都会衰减至零值附近作小值波动。我们知道, 一个正态分布的随机变量在任意方向上超出 的概率约为20.05。因此, 可以通过自相关和偏自相关估计值序列的直方图来大致判断在 5%的显著水平下模型的自相关
16、系数和偏自相关系数不为零的个数, 进而大致判断序列应选择的具体模型形式。至于相对最优模型的选择,我们一般利用 AIC准则和 SC准则评判拟合模型的相对优劣, 即使上述两个 AIC和 SC函数值达到最小的模型为相对最优模型。三实例分析国民生产总值(GJD尸)受经济基础、人口增长、资源、科技、环境等诸多因素的影响,这些因素之间又有着错综复杂的关系,因此,运用结构性的因果模型分9析和预测GDP往往比较困难。将历年的GDP作为时间序列,根据过去的数据得出其变化规律,建立预测模型,用此来预测未来的发展变化,有着重要的意义。下面以广东省19782009年国内生产总值数据(见表1)为例,介绍用时间序列分析法
17、对数据分析的过程,并通过其预测2010及2011两年的生产总值与实际的生产总值比较,选取最为合理的预测方法对未来lO年吉林GDP的做出预测。表1 广东省19782009年国内生产总值(GDP)数据(单位:亿元)年份 GDP 年份 GDP 年份 GDP1978 185.85 1990 1,559.03 2003 15,844.641979 209.34 1991 1,893.30 2004 18,864.621980 249.65 1992 2,447.54 2005 22,557.371981 290.36 1993 3,469.28 2006 26,587.761982 339.92 199
18、4 4,619.02 2007 31,777.011983 368.75 1995 5,933.05 2008 36,796.711984 458.74 1996 6,834.97 2009 39,482.561985 577.38 1997 7,774.531986 667.53 1998 8,530.881987 846.69 1999 9,250.681988 1,155.37 2000 10,741.251989 1,381.39 2001 12,039.253.1原始数据的平稳性分析 10x010000200003000040000time0 10 20 30 40图1:原始GDP时
19、序图图1为原始GDP时序图,从图中可以看出GDP具有很明显的上升趋势图2:原始GDP自相关图从自相图可以看出显然原始数据是不平稳的,为了使其平稳化,选择差分法对其进行平稳化处理,从而进一步分析预测。3.2原始数据的平稳化处理由差分的选择我们可以知道序列蕴含着曲线趋势,通常低阶(二阶或三阶)差分就可以提取出曲线趋势的影响,我们对原始数据进行一、二阶差分,并验证其平稳性。113.2.一阶差分difx0100020003000400050006000t0 10 20 30 40图3:一阶差分时序图3.2.2二阶差分difx-3000-2000-10000100020003000t0 10 20 30
20、 40图 4:二阶差分时序图由时序图我们很难看出数据是否是平稳的,为了进一步检验该序列是否为平稳的我们对数据再进行单位根检验:图 5:二阶差分单位跟检验检验结果表明Tau统计量的P值显著大于O05,所以我们可以认定差分后的序列12是非平稳的。故还要再次进行差分计算。3.3.3三阶差分:difx-4000-3000-2000-10000100020003000t0 10 20 30 40图6:三阶差分时序图由该时序图我们基本可以认为其是平稳的,进一步做单位根检验图 7:三阶差分单位根检验由检验结果我们可以看到Tau统计量的P值显著小于005,所以我们可以确定三阶差分后序列平稳。对于序列平稳我们还
21、要对序列进行白噪声检验:图8:三阶差分后数据的白噪音检验13结果表明,在各阶延迟下LB检验统计量的P值都非常小(00030),所以我们可以以很大的把握断定序列属于非白噪声序列。3.3 ARIMA(p,q)模型的建立与检验.3.3.1 p,q确定ARIMA(p,q)模型的识别与定阶可以通过样本的自相关与偏自相关函数的观察获得图 9:三阶差分后数据的自相关图图 10:三阶差分后数据的偏自相关图由图可以看出三阶差分后序列的自相关图显示出该序列有自相关系数1阶不截尾的性质,而偏相关系数也显示出1阶不截尾的性质,所以可以考虑用ARIMA(1,1)模型拟和3阶差分后的序列。为了检验所选择模型是否合适,我们
22、可以用SAS系统提供的M工N工C命令做最优模型识别,结果如下图:14图11:BIC定阶 3.3.2参数检验及残差检验采用相对最优模型识别,根据上述分析及序列的自相关和偏自相关图,适当选择m=3,n=5,使用identify命令中的minic 短语进行相对最优模型定阶。结果显示(图11),在p=1,q=5时,BIC函数最。执行ARIMA过程中的Estimate p=1q=5命令做参数检验,结果未能通过参数检验。让q在05之间取值,通过反复测试,只有ARMA(1,0)模型通过参数检验及模型检验,其检验结果及参数估计如下所示:图12:三阶差分后的参数估计及残差检验从结果可以看到,估计值通过了参数检验
23、,P值远小于0.05,残差检验中P均大于0.05,接受原假设,认为估计值残差间为白噪音序列,彼此间没有相关性。所以认为该模型ARIMA(1,3,0)建模是正确的。3.3.2 模型确定拟合结果为:即给模型可表示为:15)1*(649.01)1(3 BxBtt3.4 序列预测3.4.1拟合、预测图模型拟合好后,利用该模型进行短期预测,并利用 sas软件绘制拟合、预测图,如下所示:x-100000100002000030000400005000060000t0 10 20 30 40图 13:模型的拟合、预测图3.4.2 短期预测及预测效果.利用模型对 2010年及 2011年广东省 GDP总值进行
24、预测,其预测值,预测值与真实值之间的差值如下表所以:年份 预测值 实际值 相对误差2010 46894.62 46013 1.88%2011 54866.98 53210 3.02%表 2:2010、2011 年预测结果的比较四,结论本文根据19792009年广东省年GDP总值的统计资料,针对广东省人均GDP的非平稳特征,通过差分变成平稳序列,建立广东省人均GDP时间序列的ARIMA模型。由时间序列模型可知,广东省人均DGP的增长与上期增长关系不大,而是与上期的随机误差有关。并在建立ARIMA模型的基础上用于广东省人均GDP的预测分析,计算结果表明, 该模型能较好地解决广东省人均GDP的估计和
25、预测问题,预测精度较高。16参考文献1王燕应用时间序列分析北京:中国人民大学出版社,20052杨位钦,顾岚时间序列分析与动态数据建模M北京:北京工业学院出版1986: 3394173高铁梅计量经济分析方法与建模北京:清华出版社,20064张晓峒计量经济分析M北京:经济科学出版社,20005刘盛佳湖北省区域经济发展分析J华中师范大学学报(自然科学版),2003,(03)6王丽娜,肖冬荣基于ARMA模型的经济非平稳时间序列的预测分析J武汉理工大学学报(交通科学与工程版),2004,(01)7俞会新中国人均GDP的时间序列模型的建立与分析J河北工业大学学报,2000,(5) :740778祖恩三,罗平云南GDP的灰色预测和分析J经济师,2006,(06)9新中国五十五年统计资料汇编中国统计出版社10William Greene Econometric AnalysisMfifth edition,2003,PrenticeHallPress11Cai,Z Fan,Yao,Q(2000) Functional coefficient regression model fornonlinear time series Journal of the American Statistical Association, 95,941956