1、Wold分解定理:任何协方差平稳过程xt,都可以被表示为xt - m - dt = ut + y1 ut-1+ y2 ut-2 + + = 其中m 表示xt的期望。dt 表示xt的线性确定性成分,如周期性成分、时间t的多项式和指数形式等,可以直接用xt的滞后值预测。y0 = 1, 。ut为白噪声过程。ut表示用xt的滞后项预测xt时的误差。ut = xt - E(xt | xt-1, xt-2 , )称为xt的线性非确定性成分。当dt = 0时,称xt为纯线性非确定性过程。 Wold分解定理由Wold在1938年提出。Wold分解定理只要求过程2阶平稳即可。从原理上讲,要得到过程的Wold分解
2、,就必须知道无限个yj参数,这对于一个有限样本来说是不可能的。实际中可以对yj做另一种假定,即可以把Y (L)看作是2个有限特征多项式的比, Y(L) = 注意,无论原序列中含有何种确定性成分,在前面介绍的模型种类中,还是后面介绍的自相关函数、偏自相关函数中都假设在原序列中已经剔除了所有确定性成分,是一个纯的随机过程(过程中不含有任何确定性成分)。如果一个序列如上式, xt = m + dt + ut + y1 ut-1+ y2 ut-2 + +则所有研究都是在yt = xt - m - dt 的基础上进行。例如前面给出的各类模型中都不含有均值项、时间趋势项就是这个道理。2.3 自相关函数以上
3、介绍了随机过程的几种模型。实际中单凭对时间序列的观察很难确定其属于哪一种模型,而自相关函数和偏自相关函数是分析随机过程和识别模型的有力工具。1. 自相关函数定义 在给出自相关函数定义之前先介绍自协方差函数概念。由第一节知随机过程xt中的每一个元素xt,t = 1, 2, 都是随机变量。对于平稳的随机过程,其期望为常数,用 m 表示,即 E(x t) = m, t = 1, 2, (2.25)随机过程的取值将以 m 为中心上下变动。平稳随机过程的方差也是一个常量 Var(x t) = E (xt - E(xt)2 = E (xt - m)2 = sx2 , t = 1, 2, (2.26)sx2
4、用来度量随机过程取值对其均值 m 的离散程度。 相隔k期的两个随机变量x t 与xt - k 的协方差即滞后k期的自协方差,定义为 gk = Cov (xt , x t - k ) = E(xt - m ) (xt - k - m ) (2.27)自协方差序列 gk , k = 0, 1, , K,称为随机过程 xt 的自协方差函数。当k = 0 时 g0 = Var (xt) = sx2 自相关系数定义 rk = (2.28) 因为对于一个平稳过程有 Var (xt) = Var (xt - k) = sx2 (2.29)所以(2.28)可以改写为 rk = = (2.30)当 k = 0
5、时,有 r 0 = 1。 以滞后期k为变量的自相关系数列 rk, k = 0, 1, , K (2.31)称为自相关函数。因为rk = r- k 即Cov (xt - k , xt ) = Cov (xt , x t + k ),自相关函数是零对称的,所以实际研究中只给出自相关函数的正半部分即可。2.自回归过程的自相关函数 (1) 平稳AR(1)过程的自相关函数AR(1) 过程如下 xt = f1 xt-1 + ut , |f1| 1用xt- k 同乘上式两侧 xt xt- k = f1 xt-1 xt- k + ut xt- k两侧同取期望, gk = f1 gk -1其中E(xt- k u
6、t) = 0(ut与其t - k期及以前各项都不相关)。两侧同除 g0 得, rk = f1 rk -1 = f1 f1 rk -2 = = f1k r0因为 ro = 1。所以有 rk = f1k , (k 0)对于平稳序列有 | f1| 0 (经济问题中常见) f1 0) 同乘平稳的 p阶自回归过程 xt = f 1 xt -1 + f 2 xt -2 + f p xt - p + ut (2.32)的两侧,得 xt - k xt = f1 xt - k xt -1 + f2 xt - k xt -2 + + fp xt - k xt - p + xt - k ut (2.33)对上式两侧
7、分别求期望得 gk = f1 gk -1 + f2 gk -2 + + fp gk - p , k 0 (2.34)上式中对于 k 0,有E(xt - k ut ) = 0。因为当 k 0时,xt - k 发生在ut 之前,所以 xt - k 与 ut不相关。用 g0分别除(2.34)式的两侧得 rk = f1 rk -1 + f2 rk -2 + + fp rk -p , k 0 (2.35)令 F(L) = (1 - f1 L - f2 L2 - - fp Lp)其中L为k的滞后算子,则上式可表达为 F(L) rk = 0因 F(L) 可因式分解为, F(L) =,则(2.35)式的通解(
8、证明见附录)是 rk = A1 G1k + A2 G2k + + Ap Gpk. (2.36)其中Ai, i = 1, p 为待定常数。这里 Gi-1, i = 1, 2, , p 是特征方程 F(L) = (1 - f1 L - f2 L2 - - fp Lp ) = 0的根。为保证随机过程的平稳性,要求 | Gi | 1, i = 1, 2, , p。这会遇到如下两种情形。 当Gi为实数时,(2.36) 式中的Ai Gik 将随着k 的增加而几何衰减至零,称为指数衰减(过阻尼情形)。 当Gi 和Gj 表示一对共轭复根时,设Gi = a + bi, Gj = a bi, = R,则Gi ,
9、Gj的极座标形式是Gi = R (Cosq + i Sinq ),Gj = R (Cosq - i Sinq )。若AR(p) 过程平稳,则 |Gi| 1,所以必有R 1 时, gk = E (ut + q1 ut -1) (ut k + q1 ut k -1) = 0综合以上三种情形,MA(1)过程自相关函数为 rk = = , k = 1 0 , k 1,见图2.7。 q1 0 q1 1时,rk = 0。 (2) MA(q) 过程的自相关函数 MA(q) 过程的自相关函数是 rk = , k = 1, 2, , q , 0 k q ,当k q 时,rk = 0,说明 rk , k = 0,
10、 1, 具有截尾特征。 (注意:模型移动平均项的符号以及这里 rk的符号正好与Box-Jenkins书中的符号相反,这样表示的好处是保持与计算机输出结果一致。) 4. ARMA (1, 1) 过程的自相关函数ARMA (1, 1) 过程的自相关函数rk 从 r1开始指数衰减。r1的大小取决于 f1和 q1, r1的符号取决于 (f1 - q1 )。若 f1 0,指数衰减是平滑的,或正或负。若 f1 0,相关函数为正负交替式指数衰减。对于ARMA (p, q) 过程,p, q 2时,自相关函数是指数衰减或正弦衰减的。 5. 相关图(correlogram) 对于一个有限时间序列(x1, x2,
11、, xT)用样本平均数 = 估计总体均值 m,用样本方差 s2 = 估计总体方差sx2。当用样本矩估计随机过程的自相关函数,则称其为相关图或估计的自相关函数,记为 rk = , k = 0, 1 , 2, , K, ( K 1时,fkk = 0,所以AR(1)过程的偏自相关函数特征是在k = 1出现峰值(f11 = r1)然后截尾。f11 0 f11 2时,fkk = 0。偏自相关函数在滞后期2以后有截尾特性。对于AR(p)过程,当k p时,fkk 0,当k p时,fkk = 0。偏自相关函数在滞后期p以后有截尾特性,因此可用此特征识别AR(p)过程的阶数。MA(1) 过程的偏自相关函数呈指数
12、衰减特征。若q1 0, 偏自相关函数呈交替改变符号式指数衰减;若q1 0 q1 0, (1- q1 L + q12 L2 - ) xt = ut , xt = q1 x t-1 - q12 x t-2 + q13 x t-3 - + ut , 对于xt = ut - q1 ut-1过程,有 1/ (1- q1 L) xt = ut ,当q1 0, (1+ q1 L + q12 L2 + ) xt = ut , xt = - q1 x t-1 - q12 x t-2 - q13 x t-3 - + ut , 对于MA(2) 过程,若Q (L) = 0的根是实数,偏自相关函数由两个指数衰减形式叠加
13、而成。若Q (L) = 0的根是虚数,偏自相关函数呈正弦衰减形式。ARMA( p, q) 过程的偏自相关函数也是无限延长的,其表现形式与MA(q)过程的偏自相关函数相类似。根据模型中移动平均部分的阶数q以及参数qi的不同,偏自相关函数呈指数衰减和(或)正弦衰减混合形式。对于时间序列数据,偏自相关函数通常是未知的。可用样本计算 f11, f22, 的估计量 , , 。估计的偏自相关函数 , k = 1, 2, , K, (2.48)称为偏相关图。因为AR过程和ARMA过程中AR分量的偏自相关函数具有截尾特性,所以可利用偏相关图估计自回归过程的阶数p。实际中对于偏相关图取k = 15就足可以了。的
14、方差近似为T-1。当T充分大时,近似有 ( -0) / T-1/2 = T1/2 N (0, 1)所以在观察偏相关图时,若的绝对值超过2 T-1/2(2个标准差),就被认为是显著地不为零。2.5 时间序列模型的建立与预测ARIMA过程yt用 F (L)dyt = q0 +Q (L) ut (2.51)表示,其中F (L)和Q (L)分别是p, q 阶的以L为变数的多项式,它们的根都在单位圆之外。q0为位移项,d yt表示对yt 进行d次差分之后可以表达为一个平稳的可逆的ARMA过程。这是随机过程的一般表达式。它既包括了AR,MA 和ARMA过程,也包括了单整的AR,MA和ARMA过程。建立时间
15、序列模型通常包括三个步骤。(1)模型的识别,(2)模型参数的估计,(3)诊断与检验。模型的识别就是通过对相关图的分析,初步确定适合于给定样本的ARIMA模型形式,即确定d, p, q的取值。模型参数的估计就是待初步确定模型形式后对模型参数进行估计。诊断与检验就是以样本为基础检验拟合的模型,以求发现某些不妥之处。如果模型的某些参数估计值不能通过显著性检验,或者残差序列不能近似为一个白噪声过程,应返回第一步再次对模型进行识别。如果上述两个问题都不存在,就可接受所建立的模型。建摸过程用图2.8表示。下面对建摸过程做详细论述。1.模型的识别模型的识别主要依赖于对相关图与偏相关图的分析。在对经济时间序列
16、进行分析之前,首先应对样本数据取对数,目的是消除数据中可能存在的异方差,然后分析其相关图。识别的第1步是判断随机过程是否平稳。由2.2节知,如果一个随机过程是平稳的,其特征方程的根都应在单位圆之外。由2.7节知,如果F (L) = 0的根接近单位圆,自相关函数将衰减的很慢。所以在分析相关图时,如果发现其衰减很慢,即可认为该时间序列是非平稳的。这时应对该时间序列进行差分,同时分析差分序列的相关图以判断差分序列的平稳性,直至得到一个平稳的序列。对于经济时间序列,差分次数,即模型(2.51)中的参数d通常只取0,1或2。一. 识别 用相关图和偏相关图识别模型形式(确定参数d, p, q)二. 估计
17、对初步选取的模型进行参数估计三. 诊断与检验包括参数的显著性检验和残差的随机性检验不可取模型可取吗 可取 止 图2.8 建立时间序列模型程序图实际中也要防止过度差分。一般来说平稳序列差分得到的仍然是平稳序列,但当差分次数过多时存在两个缺点,(1)序列的样本容量减小;(2)方差变大;所以建模过程中要防止差分过度。对于一个序列,差分后若数据的极差变大,说明差分过度。第2步是在平稳时间序列基础上识别ARMA模型阶数p, q。表2.3给出了不同ARMA模型的自相关函数和偏自相关函数。当然一个过程的自相关函数和偏自相关函数通常是未知的。用样本得到的只是估计的自相关函数和偏自相关函数,即相关图和偏相关图。
18、建立ARMA模型,时间序列的相关图与偏相关图可为识别模型参数p, q提供信息。相关图和偏相关图(估计的自相关系数和偏自相关系数)通常比真实的自相关系数和偏自相关系数的方差要大,并表现为更高的自相关。实际中相关图,偏相关图的特征不会像自相关函数与偏自相关函数那样“规范”,所以应该善于从相关图,偏相关图中识别出模型的真实参数p, q。另外,估计的模型形式不是唯一的,所以在模型识别阶段应多选择几种模型形式,以供进一步选择。表2.3 ARIMA过程与其自相关函数偏自相关函数特征 模 型 自相关函数特征 偏自相关函数特征ARIMA(1,1,1)D xt = j1D xt-1 + ut + q1ut-1缓
19、慢地线性衰减AR(1)xt = j1 xt-1 + ut若j1 0,平滑地指数衰减若j1 0,k=1时有正峰值然后截尾若j11 0,k=1时有正峰值然后截尾若q1 0,交替式指数衰减若q1 0,j2 0)(j1 0,j2 0,q2 0,q2 0)指数或正弦衰减(q1 0,q2 0,q2 0)ARMA(1,1)xt = j1 xt-1 + ut + q1 ut-1k=1有峰值然后按指数衰减(j1 0,q1 0)(j1 0,q1 0,q1 0)(j1 0,q1 0,j2 0)k=1, 2有两个峰值然后按指数衰减(j1 0,j2 0)ARMA(1,2)xt = j1 xt-1+ ut + q1 ut
20、-1+ q2 ut-2k=1, 2有两个峰值然后按指数衰减(j1 0,q1 0,q2 0,q1 0,q2 0)k=1有峰值然后按指数或正弦衰减(j1 0,q1 0,q2 0,q1 0,q2 0)ARMA(2,2)xt=j1xt-1+j2xt-2+ ut +q1ut-1+q2ut-2k=1, 2有两个峰值然后按指数或正弦衰减(j1 0,j2 0,q2 0,j2 0,q2 0)k=1, 2有两个峰值然后按指数或正弦衰减(j1 0,j2 0,q2 0,j2 0,q2 0)下面通过一些相关图和偏相关图识别模型结构。 2. 模型参数的估计对于时间序列模型,一般采用极大似然法估计参数。对于一组相互独立的随
21、机变量xt,(t = 1, 2, , T),当得到一个样本 (x1, x2, , xT) 时,似然函数可表示为 L (g | x1, x2, , xT) = f (x1| g ) f (x2| g ) f (xT | g ) = | g ) (2.52)其中g =(g1, g2, , gk)是一组未知参数。对数似然函数是 log L = f (xt | g )通过选择 g 使上式达到最大,从而求得极大似然估计值 。具体步骤是用上述对数似然函数对每个未知参数求偏导数并令其为零,即 = 0 = 0, (k个方程联立)一般来说似然函数是非线性的,必须采用迭代计算的方法求参数的极大似然估计值。极大似然
22、估计量 (MLE) 具有一致性和渐近有效性。首先讨论怎样对如下线性回归模型 yt = b0 + b1 xt1 + b 2 xt 2 + + b k-1 xt k -1 + ut , t = 1, 2, , T, (2.53)进行极大似然估计。假定ut N(0, s 2 ), 则yt 也服从正态分布。 yt N(E(yt), s 2 ), 其中E(yt) = b0 + b1 xt1 + b 2 xt 2 + + bk -1 xt k -1。若yt是相互独立的,则对于样本 ( y1, y2, , yT),似然函数是 L(b, s 2 | y1, ,y2, , yT) = f( y1) f( y2)
23、 f( yT)其中b 表示未知参数 b0, b1, , b k -1的集合。由(2.53)式每个yt的概率密度函数为 f ( yt ) = exp.对于样本 ( y1, y2, , yT),对数似然函数为 logL = f ( yt ) = -log 2p - log s 2 - E( yt ) 2 (2.54)上式右侧前两项是常量。第三项的符号为负,所以对logL极大化等同于选择值从而使平方和- E( yt )2 极小化,即选择使 - -xt 1 -xt 2 - -xt k -1) 2 = 极小化。上式中表示残差。这种估计方法恰好与OLS法相同,所以在这个例子中 b 的MLE估计量与OLS估
24、计量完全相同,即=。与OLS法不同的是极大似然估计法在估计的同时,还得到ut方差的估计量。对(2.54)式求 s 2 的偏导数并令其为零。 = -+- E( yt ) 2 = 0 (2.55)用代替上式中E(yt) 中的 b 得 = T -1现在讨论怎样对时间序列模型的参数进行极大似然估计。对于非平稳过程yt ,假定经过d次差分之后可以表达为一个平稳、可逆的自回归移动平均过程xt , F (L) Dd yt = F (L) xt = Q (L) ut. (2.56)对于yt 假定可以观测到T + d个观测值,即y- d+1, , y0, y1, , yT ,则经过d次差分之后, xt 的样本容
25、量为T。 以 x1, , xT 为样本估计ARMA (p, q) 模型参数 (f1, , fp, q1, , qq )。 对随机过程xt的参数估计就如对回归模型的参数估计一样,目的是使xt与其拟合值的残差平方和 = 最小。把 (2.56) 式改写为 ut = . (2.57)若用,和分别表示对fi, q i和ut的估计,则使下式最小。 = S (, , , , , ) (2.58)假定ut N (0, su2), t = 1, T,且不存在自相关,则条件对数似然函数为 log L = -T logsu - (2.59)之所以称之为条件对数似然函数是因为依赖于过去的不可知观测值x0, x-1,
26、, x- p+1和u0, u-1, , u- q +1。比如 u1 = x1 - f1 x0 - f2 x-1 - - fp x-p+1 - q1u0 - - qqu- q+1 (2.60)对(2.59)式求极大即等同于对求极小。对求极小时需要先确定x0, x1, , x-p+1和u0, u-1, , u- q +1的值。此问题的一般处理方法是取这些变量等于他们的无条件期望值。u0, u-1, , u- q +1的无条件期望值为零。若模型(2.56)中不含有漂移项,则x0, x-1, , x- p +1的无条件期望值也为零。当样本容量T与滞后长度p, q值相比充分大,且f1, , fp的值不接
27、近1时,这种近似非常理想。若 (2.56) 式中不含有移动平均项,对于自回归参数来说 (2.57) 式是一个线性函数。可以用OLS法估计参数。如果 (2.56) 式中含有移动平均项,那么对于移动平均参数来说, (2.57) 式是一个非线性函数。对 (2.57) 式必须采用非线性估计方法。首先假定模型为纯自回归形式, F (L) xt = ut (2.61)或 xt = f1 xt-1 + + fp xt-p + ut . (2.62)这是一个线性回归模型,极大似然估计与OLS估计结果近似相同。当模型中含有移动平均成分时 ut = Q -1(L) F (L) xt (2.63)对于参数来说,模型
28、是非线性的。对于非线性模型,通常由三种估计方法。直接搜索法。通过改变参数的取值,反复计算残差平方和的值。然后从中选择最小的那个值所对应的参数值作为对参数的估计值。这种方法只有在参数个数较少时才是可行的。当参数个数较多时,计算量将非常大。例如当含有四个被估参数,每个参数需选择20个计算值时,则需要计算 (20) 4 = 160000次。直接优化法。求误差平方和函数对每一个参数的偏导数并令其为零,从而求得正规方程 = 0, i =1, , p + q (2.64)其中(g1, , gp+q)=(f1, , fp, q1, , qq)。因为 p + q 个方程中都含有 p + q 个参数,所以必须联
29、立求解。由于计算上的困难,这种方法很少直接采用。线性迭代法。对任何非线性函数通常都可以按泰勒级数展开。 f (x) = f (x0) + f (x0) (x x0) + = f (x0) - f (x0) x0 + f (x0) x + 首先为参数选一组初始值(g1, 0 , , gp+q, 0)(下标零表示初始值。怎样确定初始值并不重要。), 然后将xt = f (xt-1, , xt-p) 按泰勒级数在(g1, 0 , , gp+q, 0)点展开。 xt = f (xt-1, , xt-p, g1, 0 , , gp+q, 0 ) + + + (2.65)其中偏导数的下标写为零表示偏导数在
30、 g1 = g1, 0 , , gp+q = g p+q, 0时的值。取上式右侧的前两项对原非线性函数xt 进行近似。去掉右侧第三项及以后各项得 xt - f (xt-1, , xt-p, g1, 0 , , gp+q, 0 ) + = + ut. (2.66)上式为线性回归方程形式。左侧为已知量,右侧含有一组未知量gi , i = 1, , p + q。利用OLS法对上式进行估计。设所得估计值用(g1, 1 , , gp+q, 1)表示。以此作为第二组估计值,对非线性函数再一次线性化,从而得到一个新的线性方程。 xt - f (xt-1, , xt-p, g1, 1 , , gp+q, 1 ) + = + ut (2.67)对上式再次应用OLS法估计参数,并把 (g1, 2, , gp+q, 2) 作为待估参数的第三组估计值。重复上述过程,直至满足如下要求为止。 d, i = 1, , p + q, (2.68)其中i表示参数序号,j表示迭代次数。d 是预先给定的精度标准。如果最后一次的参数估计值用 (g1, k , , gp+q, k ) 表示,