1、50第三章 模型的初步识别与参数的矩估计前言:第二章,我们讨论了 序列的自相关与偏相关函数的性质,及其与模型ARM参数之间的关系,在第二章1 又曾指出实际中的大量随机序列,并不能用直接方法(或称物理方法)建立它们的模型,从物理意义上看甚至于它们本身并不是线性模型. 这时,所谓根据它们的样本数据建立线性模型,不如说是寻找一种与它们尽可能“等价”的序列,作为实际序列的近似模型. 原因在于由于 序列的谱密度是有理谱ARMARM密度,它们能逼近任何连续谱密度;由于在实际应用中,这类模型有很多方便之处. 下面三章内容都是围绕这样问题展开的:若 是某一未知其模型的 序列,现在获得tw了它的一段样本数据 ,
2、如何根据这 个数值对 的模型做出估计,或者说12,Nw tw得更具体些,对模型的阶数 和参数 与 做出判断与估计.pq,2a模型识别:一般,我们把对 的判断称为模型识别,也就是初步确定序列模型的,形状;在 被判定后,估计相应的 和 ,称为参数估计. 解决这些问题的方法,pq属于时间序列的内容. 一旦做出了序列模型的识别和估计,序列的自相关、偏相关函数及谱密度的估计就可以由这个模型算出. 另外, 序列经过某种处理(如差分或“季ARIM节型”差分 VI 章)后,可看作 序列,同样用上述手法,并以估计所得的模型作为真实序列的近似描述.解决上述识别与估计问题,主要依据第二章理论分析结果. 本章将介绍一
3、种初步识别方法和参数的矩估计,它们简单易懂,但是其精度稍差. 为提高精度,可用第四章方法求参数的精估计,再由 V 章,检验和改进初步识别的结果,但其程序较繁且计算量也大得多.1 样本自相关与样本偏相关函数假定得到了数据 ,它们是随机序列 的一段样本值, 称为样本长度,12,Nz tzN为要根据这段样本数据估计 的模型,先要设法消去 的均值项,至于去均值方法,今t后讨论(P 7982,4 P 98102)暂时假定 . 这时定义 的样本自协方差 与样本自0tEzt kr相关函数 分别为:=k(I)1,1,2Nkklr N (II)=0,kkr有时,也采用如下定义:(III)*1,12,Nkklrz
4、N 51(IV)=*0,12,kkrN易知 . 因此, 与 是渐近相等的. 但是 是非负定列, 则不一定如此.*kkNrrr kr*kr(为证明此,对于 或 暂记 ,于是对任意 个实数 ,lllzm12,mg|,1,11Njimmjii iljiij ijlgrg( 或 时 )|, ,ijljiijljiijl ijlzzNlN0llz2,1 1()0mmijlij ilijl lgzgzN这就证明了 序列的非负定性. )kr反例 的不为正定性.*设 是长度为 的样本例 ,经计算得tw3,0a* *220 11(),0()03rra 22* *22 322() 3 03araaa 若取 ,则1
5、0*230a若取 ,则1*23不为正定列.*kr另证 为(正定)非负定列且为正定序列.若令1212(1)00NN mNwwF 52它是一个 阶矩阵, 为任一给定正整数,则显然样本自协方差阵可(1)mNm以表示成: 1()ijNrF其中第 行第 列为ij | |1ijijijtijirw设 是任一非零向量,则由 样本值不全为 ,易证 的 个分1 mt 0NF(1)m量中,至少有一个不为 ,于是01()NNF为正定列.krTheorem:设 为正态 序列,即为方程 的正态平稳解,tw(,)ARMpq()()ttBwa令 . 则对 固定的正整数 ,当 时,随机变量1()nktk kn联合分布为渐近正
6、态 ,其中 ,0,()knrrr (0,)NGitirEw为 阶方阵,其 行 列元素为 , 是Gij(,1ijirjirjrgik ijg(2.4) (P 273)中 的主项.ijnEr推论 1 设 为正态平稳白噪声序列,则随机向量tw01(),(),()knrr的极限分布为 ,其中 . 表 阶单位阵.NG20kI推论 2 设 为正态 序列, 为其自相关函数, 为其样本自相twARM=0/kr关函数, ,则 联合分布渐近于 维正态分布=kk=12,knn,其中 ,(0,)B()ijb (),1,ijirjirjijrrijrjirrb jk 即为(P 280)中 的主项. 特别 为正态白噪声序
7、列, .=ijnEtwBI,kkkrTheorem:设 为正态 序列,则twARM53(2.4)211()0(mnlmnlnlErrrNN推论 3 在 Th 条件下,对 非零整数 有:,(2.14)=2 1()0(lnlnnlnlmlnmnl N称上式为 Bartlett 公式.Theorem:正态 序列参数的 Yule-Walker 估计 ,当样本长度(,0)ARp=12 pa时有性质即:当 时Nk=1()()()0()kkkEMN 其中 , 是 阶方阵,其 行 列元为 , ,=11,kkrbkijijr1kkb为 Toeplitz 阵, .k 21kakMTheorem:在上述条件下,则当
8、 时nmp1,(0)kp=nENTheorem:在上述条件下 的 Yule-Walker 估计为 ,则 分布渐近正态=.1(0,)NJ.120paJ21papM若 是 序列(注意若不加特别说明,恒假定随机序列是正态的) ,那么 和tzARMkr作为 和 的估计量,具有以下性质:=krk1它们是相容估计和渐近无偏估计,即(I)=lim,lippkkNNr(II)E(I)式中 表示依概率相等 .“p2它们具有渐近正态性,即存在两个趋于 的数列 ,分别使得:(1)2),Nb=(1) (2)0,10kNNkbr543它们的误差方差分别渐近为 22Var()()kkkEr(III)1llklN=22r(
9、)()kkk(IV)24)llklkll (IV )式称为 Bartlett 公式,这些公式的证明可见安鸿志书附录2,特别由(III)式知,当 为白噪声时, (V )tz0()kr20Va),ar(,kN0lkr当 为 序列时,tz(0,)MAq2201r()()qla,klkN1222001Vr()()qllqrr(VI)l2201ar()qklrN( 时) ( 时)0lkllk当 为 序列时, ,以此代入(VI )式得tz(1,0)AR|1(VII)202211Var()(),0kkkN2001ar()(llrr1220llll220011122Var()llrrNNN 5521Var()
10、() 0kllklrN011 llkkr22|20101lllkllr r01211()klkllkN2 2()1kkr2220111kk212()kkrN从上述式子知, 和 渐近误差方差都与 成正比例,而其比例常数又和真值kr=1N或 有关. 易知当 时,诸误差方差都趋于 ,由此可推出(I ) 、 (II)式.lrl0(利用 )|01lll对于 序列, . 和 的主项分别为(,)MA|,0,12k0Var()r()1k, . 即它们趋于零的速2031rN 2220 05()r N度不会比 和 更慢. 对于 序列,由(VII)式易知, 显著地依51,AR=Var()k赖于参数 , 愈接近它的平
11、稳域边界 , 趋于零的速度愈慢. 例如当1()Var()k时,10.;而当 时,222004Var()rN 1.9222()0)Va() .9).kkkN20 02.8153r1.9rrN易知(VII)式找不到与 无关的上界 . 对 序列来说情况类似.1ARM在实际应用中,我们希望通过增加样本长度 以提高估计精度. 为保证上述估计量的均方误差达到一定的精度要求(比如要求 ,或 ;前者0Var()1 200Var().1r56为绝对精度,后者为相对精度)可用(III) (IV)式计算 需多大. 但这些公式中的N和 仍是未知的, 并不能准确定出多大的 才能满足预定的精度. 确定 的精略krN方法:
12、(采用不断实践改进的方法摸索之)假定开始获得了 个数据,由1,1,0,2,Nkklrz .=0/N算出适当长度 ,直到它们接近于 . 为了对 的方差做出估计,利用(III) 、,kr =,kr(IV) . 在这两式的右方将 和 依指数律收敛于 ,这样的近似可行,若所算出的kr0或 达到了预定的精度要求,就认为取样长度 是合适的,否则应设法Var()k()k 1增加取样数据. 比如据现有的 或 的大小和精度要求,试着增加到 ,Va()kr()k N然后再重复做出新的估计,计算出新的 和 之值,并检查是否满足预定=ak的精度,按这个程序做下去,直到合适 为止. 通常只重复一、二次即可,若总定不下N
13、来,则序列 可能不是 序列. 有了样本自相关函数,可按上一章类似定义样本偏tzARM相关函数,解方程.(VIII)=111212 kkk kk 得到 这就是 的样本偏相关函数. 亦可按 P60 递推计算,将 换为=(1,2)k tz=j即可.j=1 1,1111, ,()( )kkk jkjj jjkjkj当 为 序列时,据附录5 结果, 具有以下性质:tz(,0)ARp1 是 的渐近无偏估计和相容估计,即=k=lim,liPkkNNE特别 ,li0 kkNp当当572 具有渐近正态性质,即存在趋于 的数列 满足=k(3)Nb=(3)(3)0,1Nkkb3当 时有下列性质:,p(IX)=21,
14、kkkEE 对于一般的 序列, 亦有与此类似的性质,但常用到的是 序列(,)ARMq= (,0)ARp的偏相关函数(截尾性).2 模型的初步识别方法本节讨论如何利用前一节的样本自相关和样本的偏相关函数来判断 的模型阶数,tz即 和 之值;若 是求和模型,还要判断 的值. 初步识别方法和要领:pqtzd1识别的依据:据第二章中 序列自相关与偏相关函数的性质(P 69 表 2.2.1) ,若AR其样本自相关函数 在 后截尾,很自然判断 是 序列. 类似地,若=kqtz(0,)MAq在 以后截尾,则判断 是 序列. 若 都不截尾,又被负指=ktz(,)p=k数型的数列所控制(即拖尾的) ,则应判断其
15、为 序列,但其阶数无法确定;2 或 截尾性的判断:理论自相关和偏相关函数 和 的截尾性,是指它们k k从某个值 或 以后全为 . 由于 是 和 的估计值,它们必然有误差,qp0=,kk即使 是 序列,当 后, 也不会全为 ,而只是在零上下起伏.tz(,)MAq0由1 的 (VI 式)分布渐近性质,若真值 在 以后截尾,则 . 而=kkq0k的分布渐近为 ,依渐近正态分布律可知:k =21(0,)llN21/|()68.3%qkllN=/21(| 95.kll对每个 都可检验 ( 在经验上一般取 或 左右)中满足0q12,qqM N10或 的比例是否达到 68.3%或 95.5%. =2/1|(
16、)kllN=21/|()qkllN若 都没达到,而 达到了,我们就说 在 后截尾,因而按要领, kq判断 为 序列,且 称为 的初步识别值. 为简便 仍用 表示. 由于1tzMAq对不同的 尚有某些相关,令当不同的 之差,超过 后才相关(=()kqk). 这种检验只能作为一种近似手段. 对 也类似. 然而,这样的285Pm=k58判断方法有时会把 序列判断成其它类型,把 序列判断成其它类型,有时即使类MAAR型判断无误,其阶数也可能有误. 它属于判断精度问题(4 节讨论) ;(季节模型)3求和阶数 的识别:若 和 依要领 的分析不但都不截尾,而且(至少有一d=k2个)下降趋势很慢,则可以认为它
17、们不是拖尾的,即不能被负指数列控制. 这时,可重新计算并按要领 和 分析 的样本自相关与偏相关函数,若它们仍都12(2,3,)kzN不截尾,而且(至少有一个)下降很慢,则可再考虑 直到某一次2(3,4)kzN的样本自相关或偏相关为截尾或都为拖尾为止. 这时 即初步判(,)dkzN d断为 的求和阶数. 与真值可能有出入,有时应用中直接提供 不必计算之.t d d4混合模型的定阶:若经要领 已判断 属于 型,由要领 知道,这时还不能定出1,23dttwzARM1和 的值,只是知道它们都不为 . 对于这种混和模型,识别 的办法可以从低阶pq0,pq到高阶逐个取 为 等值尝试,即先认定 为某值(如(
18、1.2) ) ,(,)p,(12), ()再进行下一步的参数估计,并定出估计模型来,然后经过第五章的方法检验这个估计模型是否被接受,即与原序列符合得好不好;若不被接受,就调整 尝试值,再重新,做参数估计和检验,直到被接受为止. 此法虽烦琐但实用,对 序列亦实用. 另外,AR混和模型在实际应用中的阶数 一般较低. 此外,还可用 模型逼近真实混合序列,(,)pq而少用 或 模型,还有其它定阶手法(P 146150).MAR5去掉 的均值项:若我们分析的时间序列 含非随机的均值项 ,则在计算tz tztf的自协方差函数、偏相关函数以及对它进行模型识别和参数估计(样本)时,一定要tz设法将均值项去掉,
19、若能用物理方法记录 (如绪论中例 1,采用经纬仪照相法获得轨tf道真实值) ,则可从 中直接减去 . 否则,常用的办法是从 中减去它的样本均值tzt tz,即用 代替 进行时间序列分析. 估计量 的统计性=1Nk=tttwztz=质(P 100102)下面讨论第一章所举的六个伪随机数列,对这些模型进行初步识别,借此熟悉初步识别的方法. 我们的问题是:假设我们并不知道构造这些数列的模型,如何根据它们的一段样本数据 ,对它们的模型进行判断,这就是进行模型识别.12,(30)Nz图 3.2.1(a) 曲线,当 时非常接近(截尾) ,图 3.2.2(a) 则=,k1k0=k显现出拖尾的趋势( 尾部不全
20、为 ,但又被负指数函数所控制) ,因此大致可定出, 序列,若仔细考察时,按要领 所叙述办法,先计算,0qp(,)MA2, ,然后检查 (=21Var()kN=130,.4=30,59) (取 )中满足 的比例是否达到 68.3%,1,2,qM 301N=21/|()30k其结果是 , ,经检查上述比例为=Var()0.4k1/2Var().649k. 因此 这一判断可接受,于是初步识别 为 序列,769.%833qtz(0,1)MA这与真实模型相符.图 3.2.1(b) 有截尾趋势,而 (图 3.2.2(b) )有拖尾趋势,初看起来,也可=k=k定 为 型,但由第二章 P65 例 2 的允许域
21、为 ,而此处tz(0,1)MA(0,1)MA1|2不在允许域内,因此应考虑 模型. 注意 ,由第二章 P66=1.59 =0.的允许域条件检验如下:(,2)=210.590.4921()6且 . 这说明 在此域内,为仔细审查,仍可按要领 进行检验,此=210.612(,)处略. 当然,也可继续审查用 模型是否可行,这是4 讨论的识别的多样性问题. 03MA一般在应用时都遵循两点:其一,尽量要用低价模型;其二,尽量使模型系数的估计不要接近平稳可逆域的边界. 于是由上述讨论将数值序列 定为 序列,与真实情tz(0,2)MA况相符.图 3.2.1(c) 明显地拖尾,而 近于截尾,因此可暂定 ,为要仔
22、细=k=k1,pq考察,利用 P77 和 的渐近正态性,发现 中满足21()EpN=2328,的比例为 ,即可接受上述判断,于是初步识别为 序列,=|30k%807 (0)AR与真实情况相符.( 近于截尾, 时 ,从而 )k1kk=1(,)kk N图 3.2.1(d) 明显地拖尾,而 近于截尾,若暂定 经与上例类似的=1,0pq考虑手续后,发现有 70%的 满足 ,因此可以接受 . 但是注意到k1|30k,若认定模型为 ,则 理应为 ,这样 与 之差超过了=20.15(,)AR2=2的两倍多, 在很大程度上可能 ,即值得考虑3E60=2(0.5736)(|0|)10.954.6P模型. 若改用
23、这一模型再检查 的比例时,结果约为 74%,同(2,)AR3k样可接受. 两点启发:初步识别常常出现多样性;在识别取为 和(1,0)ARp都可接受时,特别注意比较 与 .(,0)p=|p1N若 可认为 ,即断定 为 序列;若=1|N0ptz(,0)ARp(甚至于 ) (小概率事件发生了) ,则应否定 ,即判断 为2p3ptz序列; 若 接近 ,则两种判断均可采用. 第五章将有方法鉴定那一(,0)AR=p1种更合适. 它们亦适合 模型,另外,允许域有助于识别.MA62636465图 3.2.1(e)的 和图 3.2.2(e)的 都有明显的拖尾形状,由要领 所述,这时=k=k4不象截尾那样易于确定
24、阶数. 从原则上说,只有从低阶向高阶逐个试验才做出判断. 利用和 渐近性质,及对不同的 和 的不同性质,也可摸索出一些粗略估计=k,kpq办法. 例本例中由于 ,,pq =21:(0.3):.2056,可认为在 后, 近似为 之间的32:(0.6);.130.46k4常数. 猜想 ,由 P57(2.2.17)于是这意味着 和 即()kp1qp. 为什么只考察 之间的近似等比关系呢? 若真实的1, =123, 而 在 与 之间的话,则 ,于是从 起有k1.5(0.5)kk. 但444(0.5).062(.)6k(Bartlett 公式) 再注意,=2/ 21/2( )llklklklEN 0.7可表示 可见当 时,在这个=1111,kkkk k 4k比值中 几乎完全被1:k的随机性掩盖了,这是弱点所在.=65图 3.2.2(f) 虽然类似截尾,但 不仅不截尾,而且也看不出有趋于 的迹象,=kk0我们只能认为它既不截尾也不拖尾. 由要领 ,在 中只要有一个为上述情形,3=,k就应依次考 等差分序列的自相关与偏相关函数. 经分析 的自相关与偏相关2,kzkz函数图与图 3.2.1(c)类似判断 为 模型. 定出 即初步识别tz(1,0)AR1,dpq后定 为 序列.t(1,0)ARIM