1、第二节 确定性时间序列分析方法,时间序列预测技术是通过对预测目标自身时间序列的处理来研究其变化趋势。当刚接触到某一个观测序列时,会觉得它是杂乱无章,无规律可循的。其实不然,大量事实表明,一个时间序列往往是以下几类变化形式的叠加或耦合:(1)长期趋势变动。是指时间序列朝着一定的方向持续上升或下降,或停留在某一水平上的倾向,它反映了客观事物的主要变化趋势。(2)季节变动。指一年或更短的时间之内,由于受某种固定周期性因素(如自然、生产、消费等季节性因素)的影响而呈现出有规律的周期性波动。,(3)循环变动。通常是指周期为一年以上,由非季节因素引起的涨落起伏波形相似的波动。(4)不规则变动。通常分为突然
2、变动和随机变动。所谓突然变动是指战争、自然灾害或是其它社会因素等意外事件引起的变动。随机变动是指由于大量的随机因素产生的宏观影响。根据中心极限定理,通常认为随机变动近似服从正态分布。,通常用Tt表示长期趋势项,St表示季节变动趋势项,Ct表示循环变动趋势项,Rt表示随机干扰项。常见的确定性时间序列模型有以下几种类型:,其中y t是观测目标的观测记录, 如果在预测时间范围以内,无突然变动且随机变动的方差 较小,并且有理由认为过去和现在的历史演变趋势将继续发展到未来时,可用一些经验方法进行预测,具体方法如下:,1、移动平均法,它表明以最近N期序列值的平均值作为未来各期的预测结果。一般N取值范围:5
3、N 200。当历史序列的基本趋势变化不大且序列中随机变动成分较多时,N的取值应较大一些,否则N的取值应小一些。在存在确定季节变动周期的资料中,移动平均的项数应取周期长度。选择最佳N值的一个有效方法是,比较若干模型的预测误差。预测误差最小者为好。,当预测目标的基本趋势与某一线性模型相吻合时,常用二次移动平均法,但序列同时存在线性趋势与周期波动时,可用趋势移动平均法建立预测模型:,2、时间回归法,3、指数平滑,指数平滑只能用于纯粹时间序列的情况,而不能用于含有独立变量时间序列中考察变量之间关系的研究。 指数平滑的原理为:当利用过去观测值的加权平均来预测未来观测值时(这个过程称为平滑),离得越近的观
4、测值要给以更多的权。而“指数”意味着:按照已有观测值“陈旧”程度增加的方向,在其上所加的权数按指数速度递减。,以简单的没有趋势和没有季节成分的纯粹时间序列为例,指数平滑在数学上实际是一个几何级数。这时,如果用Yt表示在t时间的平滑后数据(或预测值),而用X1, X2, , Xt表示原始的时间序列。那么指数平滑模型为,或者,等价地,这里的系数为几何级数。因此称之为“几何平 滑”比使人不解的“指数平滑”似乎更有道理。,自然,这种在简单情况下导出的公式(如上面的公式)计算繁琐,无法应对具有各种成分的复杂情况。可以运用EViews软件或SPSS统计分析软件轻松实现指数平滑预测,从而达到快速便捷预测的目
5、的。,指数平滑的SPSS操作 选择菜单中的“Analyze = Time Series = Exponential Smoothing”选项,在弹出的窗口中把变量“sales”选入“Variables”空格。 点击右下方“Parameter”按钮,在新弹出窗口改变权重指数a 的取值;点击“Continue”返回。 点击“Save”按钮,在新窗口选择“Predict through”,并在下方“Year”后输入“2003”,表示将预测2003年的销售额;点击“Continue”返回一级窗口,点“OK”即可。 指数平滑的结果储存在原数据文件后新增的两个变量中,它们分别是指数平滑数据Yt 以及Yt
6、与 Xt 之间的误差。 图1即为Xt 与 Yt 叠合在一起的共同的时间序列图。,从图1可以看出以下几点:,指数平滑曲线比原有观测值曲线来得平整光滑些,其波动没有原来那么强了,这也是平滑一词的来意。 不考虑最初几个指数平滑值,当 t N 时,指数平滑曲线很快得呈一条直线状,没有体现出原有观测值的上升趋势和周期性规律。可见用这一指数平滑作为原销售数据的预测效果不理想。 上述第三点的原因是我们在做指数平滑时没有考虑原数据的任何趋势或周期规律,我们在下一部分对此做弥补。,时间序列的分解,一、成分的分离 从图11.1可以看出,该销售数据序列由三部分组成:指数向上的趋势(trend)、周期性变化的季节成分
7、(seasonal component) 和无法用趋势和季节模式解释的随机干扰(disturbance)。 一般的时间序列还可能有循环或波动成分(Cyclic, or fluctuations)。 循环模式和有规律的季节模式不同,其周期长短不一定固定。比如经济危机周期,金融危机周期等等。,一般地来讲,一个时间序列可能有趋势、季节、循环这三个成分中的某些或全部再加上随机成分组成。 时间序列的分解就是要把一个时间序列中可能包含的各种成分分解开来,以便于有针对性的进一步分析讨论。 就例1中的时间序列的分解,通过SPSS软件,可以很轻而易举地得到该序列的趋势、季节和误差成分。 SPSS操作 选择菜单中
8、的“Analyze = Time Series = Seasonal Decomposition”选项,把变量“sales”选入“Variables”空格,再在“Model”下选择“Additive”,点击“OK”即可得到分解结果。,上述SPSS对时间序列做分解的结果自动储存在原有数据文件中新增的几个变量中,它们分别是: err_1:误差(error)项,也即原序列的随机扰动成分,记为ERt ; sas_1:季节调整后的序列(seasonal adjusted series) ,记为SAt ; saf_1:季节因素(seasonal factor) ,记为SFt ; stc_1:去掉季节及随机
9、扰动后的趋势及循环因素(trend-cycle series),记为TCt 。,这些分解出来的序列或成分与原有时间序列之间有如下的简单和差关系: Xt = SFt + SAt , (11.3) Xt = SFt + TCt + ERt . (11.4),图11.3 销售数据的季节因素分离,可以看出,这一销售数据序列大致上是以一年(12个月)为周期的。,图11.4 销售数据的趋势与扰动分离,可以看出,逐月的销售额大致沿一个指数曲线呈增长趋势。,图11.5 分离季节和趋势后的扰动序列,可以看到,扰动项不再带有明显的周期或趋势。,二、带季节与趋势的指数平滑 如果我们不仅仅满足于分解现有的时间序列,而
10、且想利用该分解对未来进行更好的预测,就可以建立带季节成分和趋势的指数平滑模型。 作这样的指数平滑,必须事先估计出季节成分和趋势,其估计结果就是这两条曲线的函数关系式(参数),也即时间指标 t 的两个确定的(非随机的)函数。 分别记季节因素和趋势(及循环)的估计为 和 ,而剩余的扰动(自然也是估计)记为 。 带季节和趋势的指数平滑就是先计算扰动序列的指数平滑,然后再加上估计(预测)的季节和趋势成分,作为最终的指数平滑数据。, SFt, TCt, ERt,我们不介绍上述指数平滑背后的数学,而直接来看它的 SPSS操作,该操作要分步来完成。 选择菜单中的“Analyze = Time Series
11、= Exponential Smoothing”选项,在弹出的窗口中把变量“sales”选入“Variables”空格。 在该窗口的“Model”下选择“Custom”,并点击其下的“Custom”按钮进入二级窗口(进行模型选择)。 在“Trend Component”下选择“Exponential”(因为本例中的趋势近似一条指数曲线),在“Seasonal Component”下选择“Additive”,点击“Continue”返回一级窗口。,4. 点击“Parameters”来进行参数选择和估计。在弹出的二级窗口中的“General”、“Trend”和“Seasonal”下方都选择“Gri
12、d Search”,表示留给程序自己去搜索(估计),其下的搜索范围(“Start”和“Stop”)和搜索步长(“By”)可不作修改。这三个参数中的第一项,也即权重指数 a ,一般可作人为选择。选好参数后,点击“Continue”返回一级窗口。 点击“Save”按钮作预测选择后,此操作同上一节的简单指数平滑。 再在一级窗口点击“OK”,即可得到所需要的结果了。 我们来看看此时的指数平滑结果,见图11.6。,图11.6 销售数据的带季节和趋势的指数平滑,我们看到,此时的估计效果比上一节的简单指数平滑要好得多,当然其预测也更可信。,如果要对比较复杂的纯粹时间序列进行细致的分析,指数平滑往往无法满足要
13、求。而若想对有独立变量的时间序列进行预测,指数平滑更是无能为力。于是需要更加强有力的模型。这就是下面要介绍的Box-Jenkins ARIMA模型。数学上,指数平滑仅仅是ARIMA模型的特例。,4、博克斯詹金斯法 (Box- Jenkins) 博克斯詹金斯法,简称B-J法或ARMA模型法,是以美国统计学家Geogre EPBox和英国统计学家Gwilym MJenkins的名字命名的一种时间序列预测方法。主要试图解决以下两个问题:一是分析时间序列的随机性、平稳性和季节性;二是在对时间序列分析的基础上,选择适当的模型进行预测。 其模型可分为:(1)自回归模型(简称AR模型);(2)滑动平均模型(
14、简称MA模型);(3)自回归滑动平均混合模型(简称ARMA模型)。,博克斯一詹金斯法依据的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,即除去个别的因偶然原因引起的观测值外,时间序列是一组依赖于时间t的随机变量。这组随机变量所具有的依存关系或自相关性表征了预测对象发展的延续性,而这种自相关性一旦被相应的数学模型描述出来,就可以通过时间序列的过去值及现在值预测其未来的值。,ARIMA模型介绍,比指数平滑要更精细的模型是Box-Jenkins引入的ARIMA模型,或称为整合自回归移动平均模型(ARIMA 为Autoregressive Integrated Moving Ave
15、rage一些关键字母的缩写)。 该模型的基础是自回归和移动平均模型或ARMA模型 (Autoregressive and Moving Average) 。,AR (p)自回归模型,ARMA由两个特殊模型发展而成,一个特例是自回归模型或AR (Autoregressive) 模型。假定时间序列用X1, X2, , Xt表示;则一个纯粹的AR (p)模型意味着变量的一个观测值由其以前的p个观测值的线性组合加上随机误差项at(该误差为独立无关的)而得:,看上去象自己对自己回归一样,所以称为自回归模型,它牵涉到过去p个观测值。,MA (q)移动平均模型,ARMA模型的另一个特例为移动平均模型或MA(
16、Moving Average) 模型。一个纯粹的MA (q)模型意味着变量的一个观测值是目前的和先前的q个随机误差的线性组合:,由于右边系数的和不为1(q 甚至不一定是正数),因此叫做“移动平均”不如叫做“移动线性组合”更确切;虽然行家已经习惯于叫“平均”了,但初学者还是因此可能和初等平滑方法中的什么“三点平均”之类的术语混淆。,ARMA(p,q)模型,ARMA(p,q)模型是AR (p)模型和MA(q)模型的组合:,显然,ARMA(p,0)模型就是AR (p)模型,而ARMA(0,q)模型就是MA(q)模型。这个一般模型有p+q个参数要估计,看起来很繁琐,但利用计算机软件则是常规运算,并不复
17、杂。,但是要想ARMA(p,q)模型有意义则要求时间序列满足:平稳性(stationarity)和可逆性(invertibility)的条件,这意味着序列均值不随着时间增加或减少,序列的方差不随时间变化,另外序列本身相关的模式不改变等条件。一个实际的时间序列是否满足这些条件是无法在数学上验证的,这没有关系,可以从下面要介绍的时间序列的自相关函数和偏相关函数图中大体识别出来。,运用博克斯一詹金斯法的前提条件是:作为预测对象的时间序列是零均值的平稳随机序列。平稳随机序列的统计特性不随时间的推移而变化。直观地说,平稳随机序列的折线图无明显的上升或下降趋势。 但是,大量的社会经济现象随着时间的推移,总
18、表现出某种上升或下降趋势,构成非零均值的非平稳时间序列。对此的解决方法是在应用ARMA模型前,对时间序列进行零均值化和差分平稳化处理。,ARIMA模型,一般人们所关注的有趋势、季节性或循环成分的时间序列都不是平稳的。这时就需要对时间序列进行差分(difference)来消除使序列不平稳的成分,使其变成平稳的时间序列,并估计ARMA模型;估计之后再转变该模型,使之适应于差分之前的序列(这个过程和差分相反),称之为整合的(integrated) ARMA模型,即ARIMA模型。,差分可以是每一个观测值减去其前面的一个观测值,即,如果时间序列有一个斜率不变的趋势,经过这样的差分之后,该趋势就会被消除
19、了。当然差分也可以是每一个观测值减去其前面任意间隔的一个观测值。比如时间序列存在周期为s的季节成分,那么相隔s的差分:,就可以把这种以s为周期的季节成分消除。对于复杂情况,可能要进行多次差分,才能够使得变换后的时间序列平稳。,例如:对某地1984年2月1日一8月18日每天中午的温度值序列Xt ,做一次差分,预测流程 博克斯和詹金斯运用预测流程图把预测问题划分为三个阶段:见图8(1)模型的识别(2)模型中参数的估计和模型的检验(3)预测应用 在图8中先假设预测模型的一般分类Box-Jenkins法使用的模型是ARMA模型体系。,ARMA模型的识别和估计,要想拟合ARIMA模型,必须先把它利用差分
20、变成ARMA(p,q)模型,并确定是否平稳;然后确定参数p,q。 现在利用一个例子来说明如何识别一个AR(p)模型和参数p。由此MA(q)及ARMA(p,q)模型可用类似的方法来识别。根据ARMA(p,q)模型的定义,它的参数p, q与自相关函数(acf)及偏自相关函数(pacf)有关。,自相关函数描述观测值与前面观测值的相关系数;而偏自相关函数为在给定中间观测值的条件下观测值与前面某间隔的观测值的相关系数。这里当然不打算讨论这两个概念的细节,引进这两个概念主要是为了学习如何通过研究这两个函数的acf和pacf图来识别模型。,例1:一个时间序列数据的AR模型识别。原始时间序列由图9描述。,图9
21、 数据的时间序列图,该时间序列的acf和pacf图如图10所示:,图10 例1数据的acf(左)图(“拖尾”)和pacf图(在p=1后“截尾”)。,图10左边的acf条形图是衰减的正弦型的波动,该种图形称为拖尾;而右边的pacf条形图是在第一个条(p=1)之后就很小,而且没有什么模式,这种图形称为在p=1后截尾。这说明该数据满足平稳的AR(1)模型。注意,所谓拖尾图形模式也可能不是正负相间的正弦形式,而是以指数率衰减。,类似地,如果acf图形是在第q=k个条后截尾,而pacf图形为拖尾,则数据满足MA(q)模型。如果两个图形都拖尾则可能满足ARMA(p,q)模型。具体判别法总结在下面表中:,如
22、果acf和pacf图中均没有截尾,而且至少有一个图没有显示以指数形式或正弦形式衰减,那么说明该序列不是平稳序列,必须进行差分变换来得到一个可以估计参数的满足ARMA(p,q)模型的序列。 如果一个时间序列的acf和pacf图没有任何模式,而且数值很小,那么这个序列可能就是一些互相独立的无关的随机变量。 一个拟合良好的时间序列模型的残差就应该有这样的acf和pacf图。,对于例1中的数据,根据图10图的形态,不用进行任何差分就可以直接用AR(1)模型拟合。 利用SPSS软件,选择AR(1)模型,得到参数估计为 ;也就是说该AR(1)模型为图11为原始序列和由模型得到的拟合值以及未来10个观测值的
23、预测图,看来拟合得还不错。 再观察剩下的残差序列是否还有什么模式,可由残差的acf和pacf条形图来判断。这两个图分别在图12的左边和右边。可以看出,它们没有什么模式,说明拟合比较成功。图13为残差对拟合值的散点图,从中看不出任何模式。说明残差序列是(满足要求的)独立和随机的。,图11 原始序列和由模型AR(1)得到的拟合值及对未来10个观测值的预测图,图12 数据拟合AR(1)的残差序列的pacf和acf条形图,图13 序列拟合AR(1)后的残差序列对拟合值的散点图,MA模型的例子,该序列的动态折线图,EViews软件给出的自相关分析图,由以上图可以看出,该时间序列无明显的上升或下降趋势,自
24、相关分析图也说明该时间序列具有稳定性。其偏自相关系数序列呈现衰减正弦曲线状,自相关系数只有两个显著不等于零,因此,可初步判定该时间序列适用于二阶滑动平均模型MA(2)。,在对含有季节性、趋势或循环等成分的时间序列进行ARIMA模型的拟合研究和预测时,就不象对纯粹的满足可解条件(平稳性和可逆性)的ARMA模型那么简单了。 一般的ARIMA模型有多个参数,没有季节成分的可以记为ARIMA(p,d,q)。如果没有必要利用差分来消除趋势或循环成分时,差分阶数d=0,模型为ARIMA(p,0,q),即ARMA(p, q)。在有已知的固定周期s时,模型多了4个参数,可记为ARIMA(p,d,q)(P,D,
25、Q)s。 这里增加的除了周期s已知之外,还有描述季节性本身的ARIMA(P,D,Q)模型的识别问题。因此,实际建模要复杂得多,需要经过反复比较和实验。,例2中含有季节和趋势成分。下面试图对其进行ARIMA模型拟合。先对该序列做acf和pacf条形图。其中acf图(见图14)显然不是拖尾(不是以指数速率递减),说明需要进行差分。 关于参数的选择,不要选得过大,每次拟合后要检查残差的acf和pacf图,看是否为无关随机序列。 经过几次对比之后,对于例2数据最后选中ARIMA(0,1,1)( 0,1,1)12模型来拟合。拟合结果和对2003年12个月的预测在图15中。,图14 例2的时间序列的acf
26、图,图15 例2的原始序列和由模型得到的拟合值及对未来12个月的预测图,为了核对,要绘出残差的acf和pacf的条形图来观察是否有非随机的因素存在,如图16所示。观察得知模型选择还是适当的。,图16 例2数据残差图,要注意,还有更为复杂的情况,即模型中含有某些独立变量,这些独立变量可能会和季节、趋势等效应混杂起来不易分辩。这时,模型选择会比较困难,也可能不同模型会有类似的效果。 一个时间序列在各种相关因素影响下的模型选择并不是一件简单明了的事情。实际上没有任何统计模型是绝对正确的,它们的区别在于,在某种意义上,一些模型的某些性质可能要优于另外一些。,应用博克斯一詹金斯法时 应注意以下几个问题:
27、,第一,博克斯一詹金斯法在模型识别时需要50个以上历史统计数据,使得按月、按季或按年记录的经济资料往往较难收集。因此,在应用此方法时,搜集数据资料是一项十分费时费力的工作。 第二,应用博克斯一詹金斯法建模时,逐次增加模型的阶数,的确有可能达到使模型通过统计检验的要求。但是提高模型的阶数,就要增加模型中的项数,对变量前的系数在经济意义上往往解释不通,或根本就无从分析。用于实际,就可能对研究对象作出歪曲的描述。,第三,应用博克斯一詹金斯法进行预测时所依据的基本假设是:一个时间序列的未来发展模式与其过去的模式是基本一致的。对未来的短期预测,这一假设往往是可以满足的,但对未来的长期预测,这一假设显然难
28、以符合实际。 第四,由于现有的许多统计软件包已克服了应用博克斯一詹金斯法的计算的复杂性,这样在应用博克斯一詹金斯法进行预测时,应将注意力放在对所用时间序列资料的模型识别及对所建立的预测模型的实际意义的检验上。模型识别是整个建模阶段最为重要的一步,而对所建立预测模型实际意义的检验则是预测应用阶段中极为重要的一步。,小 结,总之,傅克斯一詹金斯法是一种理论较完善的统计预测方法,有着广泛的应用。一、自相关分析法是进行时间序列分析的有效的、简单易行的方法。根据绘制的自相关分析图和偏自相关分析图,可以初步识别平稳序列的模型类型和阶数。二、利用自相关分析法可以测定时间序列的随机性和平稳性。三、如果原始时间序列表现为非平稳序列,则可取原始序列的一阶差分,得到新时间序列,称为一阶差分序列。如果一阶差分序列仍属非平稳,则继续求其二阶差分序列。对大多数实际序列而言,其二阶差分序列基本可完成平稳序列。四、自相关分析图与原始数据的散点图完全不同。散点图可以直观地帮助我们来分析模型的大致情况,而自相关分析图可以确定原始数据中是否存在模型,存在什么样的模型。,