1、1第 3 章 参数估计的基本理论信号检测:通过准则来判断信号有无;参数估计:由观测量来估计出信号的参数;解决 1)用什么方法求取参数,2)如何评价估计质量或者效果严格来讲,这一章研究的是参数的统计估计方法,它是数理统计的一个分支。推荐两本参考书高等教育出版社数理统计导论 , Nonlinear Parameter Estimation 。我们首先从一个估计问题入手,来了解参数估计的基本概念。3.1 估计的基本概念3.1.1 估计问题对于观察值 是信号 和噪声 叠加的情况:xsnxs其中 是信号 的参数,或 就是信号本身。若能找到一个函数 ,利用s fx可以得到参数 的估计值 ,相对估计值 ,
2、称为参数的真值。则称12,Nfx 为参数 的一个估计量。记作 。,f 12,Nfx在上面的方程中,去掉 n 实际上是一个多元方程求解问题。这时,如果把 n 看作是一种干扰或摄动,那么就可以用解确定性方程的方法来得出 。但是我们要fx研究的是参数的统计估计方法,所以上面的描述并不适合我们的讨论。下面给出估计的统计问题描述。 (点估计)设随机变量 具有某一已知函数形式的概率密度函数,但是该函数依赖于未知x参数 , , 称为参数空间。因此可以把 的概率密度函数表示为一个函数x族 。 表示随机样本,其分布取自函数族 的某一成员,问);(xpN,21 );(p题是求统计量 ,作为参数 的一个估计量。12
3、,fx 以上就是用统计的语言给出的参数估计问题的描述。关于“统计量”的定义:不依赖于未知参数的一元(或多元)随机变量的函数。2统计量的两个特征:1,随机变量的函数,因此也是随机变量;2,不依赖于未知参数,因此当我们得到随机变量的一组抽样,就可以计算得到统计量的值。例 3-1:考虑由 ,给定的观测样本。(1,2)iixsnN其中 是未知参数, 为噪声,取自分布 。si ),0(2n容易得到 服从分布 ,s 的一个估计值是:x),(2n1212(,)NNsfx 如果 未知,则它的一个估计量为:2nNkxNkxn 1122,)(有时估计结果会以这样的形式给出:s 以 95%的置信度位于区间中。我们称
4、其为区间估计。区间估计量也可以直接计算得到,而不,nntt必先计算点估计量。当我们以某种函数形式给出估计量以后,是不是任务就结束了呢?还有一个任务是:建立一些准则或者性能指标来评价估计的质量。3.1.2 估计的偏差和无偏性若 是参数 的估计值,则定义估计的偏差为:(3-1)bE即估计值的均值与真值的差。若估计偏差 ,即 ,则估计是无偏估0bE计。这里隐含假定 是存在的。()E无偏性定义:定义: 是 的一个无偏估计,若 在所有可能的样本范围内的平均值等于 的 真值,即(3-2)称为无偏E3估计,否则 为有偏估计。E在有偏估计中,如果随着样本数 的不断增大,偏差 趋向于 0,即: Nb则该估计称为
5、渐进无偏估计lim0Nb让我们分析例 3-1 的无偏性,注意数学期望是一个线性算子。Esx1NExN1nsn1Ns如果噪声 是零均值的,即 ,或对所有 有 ,则in10NEn i0iEn是 的一个无偏估计。s从数理统计这门课,我们知道样本方差 对于Nkxkxn 1122,)(方差 是有偏的,因为无偏估计量是 。但2n, ,Nubias xxk k是样本方差是渐进无偏的。直觉上,一个好的估计量应当具有无偏性,但是实际上完全的无偏性通常是达不到的,只能希望小的偏差。而且估计的偏差也不是特别地的重要,因为估计误差不仅仅是偏差。估计的偏差和估计误差不是一回事,偏差只代表估计量的系统误差。都是 s 的无
6、偏估计量,系统误差都为零。接下来,要研究估计误差的另一1,x个性质估计的方差,它反映了估计量的随机误差大小。3.1.3 估计的方差和 Cramer-Rao(克拉美-劳)不等式估计的方差: 22E方差:估计值 相对于均值 的分散程度。即 越大就越发散,反之 越 22小就越集中。任何无偏估计方差的下界叫做 C-R 下界用它来衡量估值方差的最小值。下面给出的定理是克拉美-劳定理的精简版。4定理:若 是参数 的一个无偏估计, 是观测值 X( )的联|pXNx,21合条件概率密度,若 存在,则该估计的方差存在一个下界,即|pX(3-3)2 2211ln| ln|EpXE 这个不等式就被称为克拉美-劳不等
7、式,此下界被称为是估计方差的 C-R 下界。式中等式在下述条件下是成立的:(3-4)ln|pXk其中 是与参数 有关与观测值 无关的正函数。k这里把参数 当作随机变量。如果其真值 是客观存在的未知常数,怎么去理0解?我们将参数空间 ,分成若干个子空间(或子集) ,认为 将以不同的概率落入0不同的子空间当中。 如果实在理解不了,可以看做是 。|pX;pX证明 :由于 是参数 的一个无偏估计,有: 即 E0而 可以写成为:E, 表示()EpXdx 12ndx所以: 0对参数求偏导:()() 0pXpXdxdx ()x由于有关系式: ()1pdxln()XpX5则可以得: ln()()1pXdx根据
8、: ()()有: ln()1pXpdx根据 Schwarz 不等式得: 22l()()()()dxX 即: 21()ln()()pXpdx由于 E则有: 22 22 ()()()EpXdx而 22ln()lnpXpXx所以(3-3 )的不等式成立同时,当且仅当 ln()()()(pXKpX即: l其中 是与参数 有关而与观测值 无关的系数时, (3-3)的等式成立。kx定理给出了无偏估计最小方差的计算公式。克拉美劳下界与 N 的关系。定义随机变量 1ln|ln|NikpXpz, ,()1iipxd()l()i iixx所以有, , 。0iilnln()() 0i iiippxEdx从而 z 为
9、一组零均值且相互独立的随机变量的和,其方差62 2 22 1ln| ln| ln|Niz kpXpxpxEENE 因此,克拉美劳下界与 1/N 成正比。3.1.4 估计的有效性上面介绍了估计量的偏差和方差。下面介绍估计的另一个性质有效性。我们在科研工作当中,经常会用到“精度”或者“精确性”这样的词汇。那么怎样来评价估计量的精度呢?显然,合理的评价方法应该是综合考虑偏差和方差,下面给出均方误差 的定D义:均方误差: 2DE注意它与方差的区别。估计的均方误差和方差、偏差存在如下关系:(3-5)2b证明: 2DE2上式中的第2 2()()()EE 一项就是方差 ,第三项则是 (数学期望就是自身) 。
10、注意 本身是 的函数,22b与 一样都可以是随机变量;第一项和第三项也不一定是相互独立的。,则中间等于 0()()()0EEE所以式(3-5 )成立。证毕。方差 越小,每次估计值 相对于 就越集中。2偏差 越小则数学期望 就越接近真值 。bE原版的克拉美-劳定理中不要求 是无偏估计,并且 为矢量,方差 的克拉美- 27劳下限是 ,官方的名字叫 MVB(Minimum Variance Bound),其中1PR,()Eln|ln|Epxpx 如果用一种方法得到的估计值的方差小于用其它任何方法得到的方差,则称这种估计为有效估计。若又是无偏估计,则称为均方误差最小估计。若 小于 1,就说 比 更有效
11、。 称为估计的效率。12A122MVB例 3-2:一观测过程由 定义,其中 是一未知的常量参数,而xnvA是高斯白噪声,均值为零,方差为 。若参数估计值 ,求其估计vn 2 1()Nnx方差的 C-R 下界。解:容易得, 是无偏估计量,所以可以用定理 1 计算 C-R 下界。由于 为A vn零均值的高斯分布,而 为常量,所以 也为高斯分布,其均值为 ,xnAvA于是随机样本 的联合概率密度函数为:1,2,xxN 22211| epNnpAn2/221xNNnxA似然函数 关于未知参数 的一阶导数为ln|pA/221l|l NNnxAx21Nnx上式再对 求导得:A22l|pA最后得: A2N即
12、估计量 的估计方差的 C-R 下界为 。2N8( 是2ln| ,()pANKx看 成 满 足 定 理 条 件 k与观测值 无关的正函数) x因此 ,是 A 的有效估计。1NnA3.1.5 充分估计由充分统计量的函数构成的估计,称为充分估计。充分统计量:设 X 代表一组随机样本 ,其概率密度函数为1,2,xxN, 为随机样本构成的统计量,如果满足下列条件则称 为充分统)|(Xp)(f 计量,其中 是给定 为某一固定值时与 无关的函|,)qs),(Xq数, 为统计量 的抽样分布。(,)(|sp充分估计的理解:1,如果 为充分统计量,则它包含的关于未知参数 的信息与原始样本 X 是相同的,所以一旦
13、的值确定以后,即使丢掉数据 X 也不会损失的信息;2,我们说一个样本包含参数 的信息,仅当该样本的分布是 的函数, 当充分统计量 的值确定以后,那么该样本的分布可以用 来表示,而与 无关。 充分估计量的性质:1,有效估计量一定是充分估计;2,充分估计量不一定是有效的,但是可以利用充分估计量的函数来构造有效估计。3.1.6 估计的一致性被估计参量 的估计量 是根据有限 N 次观测量 构造的,记为: ,12,kxN我们希望随着观测次数 N 的增加,估计的质量提高,即估计值趋于被估计量()Nx的真值或均值,或估计的均方误差减小。对于任意小的正数 ,若lim()0NNPx则称估计量 是一致估计量(收敛
14、的)()x或者如果当估计的样本 时,估计的均方误差 ,即0D9(3-6)称 是参2lim()0NNEx 数 的一致估计,或均方一致估计(均方收敛的) 。由式(3-5 )可知li0Nb2li0N所以一致估计才是好的估计。定理:如果 是参数 的一个无偏或渐进无偏估计,且随着观测次数 N 趋于无穷,估计的方差阵也趋于零即 ,则 是参数 的一致估lim0TNEE计。渐进有效性:一致估计量 如果依概率 1 有下式成立,。2li()0NR这说明估值方差及最小方差下界随着 1/N 趋向于 0。3.1.7 估计的其它性质鲁棒性:估计结果受概率分布形状的影响较小。我们在计算估计量之前,通常对噪声的概率分布进行假定,比如假定为高斯白噪声,来逼近实际的噪声概率分布,我们希望这种逼近误差只对估计量产生较小的影响。可计算性:一个估计量尽管是有效的,但是如果计算起来非常复杂,那么这个估计量可能不具备实用价值。也就是说,我们通常需要在有效性和可计算性之间做一个折中处理。以上我们讨论了估计的几个性质,在实践当中一个好的估计量最重要的是要有小偏差,小方差,鲁棒性和可计算性。