收藏 分享(赏)

第七章参数估计.ppt

上传人:yjrm16270 文档编号:9658814 上传时间:2019-08-21 格式:PPT 页数:46 大小:1.47MB
下载 相关 举报
第七章参数估计.ppt_第1页
第1页 / 共46页
第七章参数估计.ppt_第2页
第2页 / 共46页
第七章参数估计.ppt_第3页
第3页 / 共46页
第七章参数估计.ppt_第4页
第4页 / 共46页
第七章参数估计.ppt_第5页
第5页 / 共46页
点击查看更多>>
资源描述

1、第七章 参数估计,第一节 参数的点估计,第二节 估计量优良性的标准,第三节 RaoCramer不等式,第四节正态总体参数的区间估计,7.1参数的点估计,参数估计要解决两重任务: 寻找估计量的方估计值.在不强调估计量和估计值的区别时,将用“估计”法 建立衡量估计量“好坏”的标准.讨论按此思路展开.求估计量的常用方法有矩估计法和极大似然估计法.,7.1.1矩估计法,计算方法上讲,总体X的期望 是对随机变量X的取值求概略意义上的加权平均.样本均值是对抽取的样本求算术平均.从理论上讲,大数定律指出;样本均值 依概率1收敛于总体期望 ,因此可用样本矩去估计总体矩。,矩法估计的一般原则是:用样本矩作为总体

2、矩的估计,矩法的一般作法:,例7.1.2 设总体 为正整数 , 0p1 k,p都,未知,试求k,p 的矩估计,解 设,是总体X的一样本.因总体X服从二项分布,故,解此方程组,得,用,分别代替,即得k,p 的矩估计量为,其中,表示x的最大整数部分,例7.1.3,在某班期末数学考试成绩中随机抽取9人的成绩.结果如下:,试求该班数学成绩的平均分数、标准差的矩估计值.,解 设X为该班数学成绩,=E(X),2=D(X),=75;,=12.14,由于E(X2)=D(X)+(EX)2=2+2,那么,,所以,该班数学成绩的平均分数的矩估计值,=75分,标准差的矩估计值,=12.14.,例7.1.4 ,设总体X

3、服从区间,上的均匀分布,求未知参数a和b的矩估计.,解 总体X的密度函数为,解上述方程组,得,以样本矩,分别代替,便可得未,知参数a,b的矩估计量为,其中,为样本标准差,7.1.2 极大似然估计法,上面讨论的矩估计法是用样本的各阶矩“代替”总体相应的矩,可不涉及总体的分布类型.在实际中所遇到的总体分布类型是已知的,只是由于参数未知,写不出概率密度函数的确切表达式.已知总体所服从的分布类型,这是很有用的信息,而矩估计法并没有用这种信息.而极大似然估计法是在已知总体分布类型的条件下通过样本对未知参数作点估计的新方法.它据的思想是:如果通过试验,某个结果A发生了,那么所作出的参数估计应有利于A的发生

4、,即作的参数估计应使A发生的概率最大.一般地,设 为来自分布形式为已知,(对离散型情形理解为分布律,对连续型情形理解为概率密度)的总体的样本观察值,如果当未知参数取时,(被取到的概率最大,则称为的极大似然估计., 求似然函数,极大似然估计的求法,若总体X为离散型,其分布律为,其中为未知参数,对给定的样本观察值(,则,若总体X为连续型,其概率密度函数为其中为位知参数对给定的样本观察值,则,可见样本观察值的似然函数就是随机样本的联合分布函数,它反映了样本观察值被取到的概率., 求似然函数,的最大值点,.,若似然函数L是,的可微函数,则L的最大值点,必然满足似然方程,从中解出 ,经检验可得到L的最大

5、值点 ,则 就是 的极大似然估计.,由于L为乘积函数,而L与lnL在同一处取得最大值,所以一般由下面的对数似然函数方程,求解,要方便的多.,例7.1.5. 设总体XP( ,求未知参数的矩估计和极大似然估计量,解 (1) 因,而,故,的矩估计量为,(2) 普阿松分布的分布律为,故似然含数为:,取对数得,于是得对数似然方程,由此得,的极大似然估计值为,的极大似然估计量为,解 因,令,得,解得,的矩估计量为,设,是样本,的观察值,则似然函数,取对数,得,从而得对数似然方程,解出,得,的极大似估计量为,由此可知,的矩估计和极大似然估计是不相同的.,例7.1.7 设一批产品含有次品,今从中随机抽出100

6、件,发现其中有8件次品,,试求次品率的极大似然估计值.,解 用极大似然法时必须明确总体的分布,现在题目没有说明这一点,,故应先来确定总体的分布.,设 Xi=,则Xi服从两点分布:,设x1,x2,x100为样本观测值,则:,故似然函数为:,由题知:,=8,,所以 L()=8(1-)92.,两边取对数得:,ln L()=8ln+92ln(1-),对数似然方程为,=0.,解之得=8/100=0.08.所以,=0.08.,解 因为E(X)=/2,令,=E(X),得,f(x)=,又,所以L()=,,0xi.,要L()最大,必须尽可能小,又xi,i=1,2,,n,所以,7.2 估计量优良性的标准,7.2.

7、1 无偏性7.2.2 有效性 7.2.3 一致性,无偏性,由于未知参数 的估计量 是一个随机变量,每次抽取后得到 的估计值 与的真值 是有误差的.误差分为系统误差和随机误差两类,系统误差指的是该理论不是它所描述现象的正确理论;而随机误差是该理论要描述的现象的正确理论.但理论与经验之间的不尽一致是由于无法控制的随机因素的干扰引起的,由于这些随机因素的作用是微小的,它们并不影响系统的本质特征,所以该理论是可取的,而且随机误差可以认为服从正态分布,其均值为零。,证 因为E(X)=,所以E(Xi)=,i=1,2,,n,于是,解 因,故,于是,用样本矩,分别代替相应的总体矩,便得,的无偏估计量,7.2.

8、2 有效性,例7.2.3,是来自总体X的随机变量,试,证:估计量,和,(,为常数,都是总体期望,E(X)的无偏估计,但,比,有效.,证明: 因为,所以,与,均为,的无偏估计量,由于,设,利用柯西-许瓦兹不等式,有,得,故,比,有效,我们称Y为E(X)的线性无偏估计类.本题说明,是,中最有效的估计量,即在,的线性无偏估计类中,样本均值,比以,这进一步体现了大数定律的算术平均法则的优越性.,为权的样本加权平均最为有效,7.2.3 一致性,设 是总体未知参数 的估计量,它是样本 的函数,因而也是样本容量n的函数.因此,可 记为 , 人们自然希望样本容量很大时,估计量 应接近被估计的参数 ,这就引出了

9、估计量的一致性.,定义7.2.3 如果 依概率收敛于,即0,有,则称,是的一致估计量(Uniform estimator),注意:估计量的三个评价标准都是在无偏性的前提下进行的,否则便失去了有效性,一致性的意义.此外一致性是在极限意义下引进的,只有样本容量相当大时,才能显示优越性,而在实际中往往难以增大样本容量,而且证明一致性并非容易.因此,在实际中常常使用无偏性和有效性两个标准 。,(7.2.1),7.3 RaoCramer不等式,对于母体分布中的未知参数,用不同的估计法可能得到不同的 无偏估计量,比如U0, ,0未知,其矩估 为无偏估计,由极大似然估计,也是,的无偏估计,那么,哪个更好呢?

10、,与,例7.3.1检验U0, 中,与,哪个更有效。,而,故当n2时,,比,更有效。,?,由上面的讨论我们知道,无偏估计的方差越小越好,一个很自然的问题是:无偏估计的方差是否可 以任意小?如果不可以任意小,那么这个无偏估计方差的下界是什么?这个下界能否达到?回答这些问题的最重要结果是Cramer和Rao分别在1945年和1946年所证明的一个重要不等式,即被称之为C-R不等式,由于该不等式的证明要求母体分布满足一系列的正则条件,为此先介绍关于C-R正则分布族的概念。,定义7.3.1:假设单参数概率函数族f(,), ,满足如下条件:,是直线上的某个开区间;,(2)支撑,0不依赖于;,(1)参数空间

11、,4)下面的数学期望存在,且,则称分布族f(,),为C-R正则分布族,其中条件(1)(4),正态分布族 N(,2),分布族,但均匀分布族U(0,)0不是C-R正则分布族。,称为C-R正则条件,I()称为该分布族的Fisher信息量,易验证,贝努里分,-, 20关于它的一个参数,,布族b(1,P),P ( 0,1),Poisson分布族P(),0,关于它的一个参数等都属于C-R正则分布族。,定理7.3.1(C-R不等式),设母体f(,)而f(,),为C-R正则分布族,1, , 为取自的一个子样,=u(1, , )为待估函数g()的一个无偏估计,满足,且(7.3.1)中等号成立,存在一个不依赖于子

12、样的K()(即K可能依赖于),使以Pr为1地成立,上面(7.3.2)称C-R不等式,特别当g()= 时,记=,则有,证明略,上面的C-R不等式,给出了无偏估计的方差的一个下界,这个下界称为Rao-cramer下界,对于C-R正则分布族,如果某个的无偏估计,的方差达到这个下界,那么它就是满足条件(7.7)的无偏估计类中方 差最小的,无疑这个估计量是比较理想的。进一步,如果的无偏 估计都满足(7.7),那么达到C-R下界的无偏估计就是最有效的,也 就是最小方差无偏估计。,定义7.3.2若,的一个无偏估计,满足:,(即达到C-R不等式的下界)则称,为的有效估计。,定义7.3.3若,是的一个无偏估计,

13、存在I()=,则称,为,的有效率,显然有0,1,而有效估计是最有效的一个,其有效率达到1。在求C-R下界时,母体的Fisher信息量I()是一个重要的量,I()出现在C-R下界的 分母中,因此I()越大,下界越小,此时, 有效估计也就越精确,我们可把这一点解释 为子样中包含未知参数的“信息”越多,这 也许可作为“信息量”这个名称的一种解释,例7.3.2设母体P(),0未知,求的C-R下界,解:f(,)=,x=0,1,2,=,=,的C-R下界为,是的有效估计,在求某个未知参数的C-R下界时,除像上面的几个例子 一样,用定义求I(),求I()还可用另外的方法。性质 若,证:略,定义7.3.4 若,

14、为的无偏估计而非有效估计,其有效率e(,)1,为的渐近有效估计。,(n+)则称,7.4 正态总体参数的区间估计,7.4.1.区间估计的概念 前面我们介绍了参数的点估计,假设总体XN(,2),对于样本(X1,X2,Xn), 是参数的矩法估计和极大似然估计,并且满足无偏性和一致性.但实际上 =的可能性有多大呢?由于是一连续型随机变量,PX=0,即=的可能性为0,为此,我们希望给出的一个大致范围,使得有较高的概率在这个范围内,这就是区间估计问题.,定义7.4.1 设,(X1,X2,Xn)及,(X1,X2,Xn)是两个统计量,,=1-, (7.4.1),,,)为参数的置信区间(Confidence i

15、nterval),,称为置信下限,,称为置信上限,1-叫置信概率或置信度,如果对于给定的概率1-(01),有:,P,则称随机区间(,定义中的随机区间(,)的大小依赖于随机抽取的样本观测值,,它可能包含,也可能不包含,(7.4.1)式的意义是指,,,),(,以1-的概率包含.例如,若取=0.05,那么置信概率为,1-=0.95,,这时,置信区间(,,,),的意义是指:在100次重复抽样中所得到,的100个置信区间中,大约有95个区间包含参数,真值,有5个区间不,包含真值,亦即随机区间(,,,),包含参数真值的频率近似为0.95.,例7.4.1 设XN(,2),未知,2已知,样本X1,X2,Xn,

16、来自总体X,求的置信区间,置信概率为1-.,解 因为X1,X2,,Xn为来自X的样本,而XN(,2),,所以u=,N(0,1),,对于给定的,查附录中表2可得上分位点,,使得,=1-,即,=1-.,所以的置信概率为1-的置信区间为,由(7.4.2)式可知置信区间的长度为,若n越大,置信区间就越短;若置信概率1-越大,,就越小,,就越大,从而置信区间就越长,7.4.2.正态总体参数的区间估计由于在大多数情况下,我们所遇到的总体是服从正态分布的(有的是近似正态分布) ,故我们现在来重点讨论正态总体参数的区间估计问题.在下面的讨论中,总假定,XN(,2),X1,X2,Xn为其样本.,(1) 对的估计

17、分两种情况进行讨论.,(a) 2已知此时就是例7.11的情形,结论是:的置信区间为,置信概率为1-.,b) 2未知,当2未知时,不能使用(7.4.2)式作为置信区间,因为(7.4.2)式中区间,是2的无偏估计,将,S2=,中的换成S得,T=,t(n-1).,对于给定的,查附录中t分布表4可得上分位点t/2(n-1),使得,=1-,,即,=1-.,所以的置信概率为1-的置信区间为,(7.4.3),由于,,S0=,,所以的置信区间也可写成,(7.4.4),例7.4.2 某车间生产滚珠,已知其直径XN(,2),现从某一天生产的产品中随机地抽出6个,测得直径如下(单位:毫米)14.6 15.1 14.

18、9 14.8 15.2 15.1试求滚珠直径X的均值的置信概率为95%的置信区间.,解,=14.95,,s0=,=0.2062,t/2(n-1)=t0.025(5)=2.571,,所以,=2.571,=0.24,,置信区间为(14.95-0.24,14.95+0.24),即(14.71,15.19),置信概率为95%.,2的置信区间我们只考虑未知的情形.,此时由于S2=,是2的无偏估计,我们考虑,,由于,.即使是求统一参数的置信区间,而问题所给的条件不同,统计量也不相同.例如,求单一正态总体,的期望,的置信区间,若方差,已知,应采用统计量,若,未知,则选择统计量,t(n-1),对未知参数,求出

19、了,的置信区间,如何评价区间,的优劣呢?有两个要素:一是其精度,可以用,来刻画,区间愈长,精度愈低;二是其可靠度,区间的长度,它可以置信概率,来衡量,一般说来,在样本容量n一定的前提下,精度和可靠,度是彼此矛盾的.,所以,对于给定的,,=1-.,即,=1-.,所以2的置信区间为,或,其中 S02=,例7.4.3 某种钢丝的折断力服从正态分布,今从一批钢丝中任取10根,试验其折断力,得数据如,572 570 578 568 596 576 584 572 580 566,下,试求方差的置信概率为0.9的置信区间.,解 因为,=576.2,,s02=,=71.56,,=0.10,n-1=9,查附表

20、得:,=16.919,=3.325,,=42.30,,=215.22.、,所以,2的置信概率为0.9的置信区间为(42.30,215.22). 以上仅介绍了正态总体的均值和方差两个参数的区间估计方法. 在有些问题中并不知道总体X服从什么分布,要对E(X)=作区间估计,,在这种情况下只要X的,方差2已知,并且样本容量n很大,,由中心极限定理,,近似地服从标准正态分布N(0,1),,因而的置信概率为1-的,近似置信区间为,求未知参数的区间估计问题的思想方法是完全相同的,不同的只是构造的统计量不一样,这是因为统,计量的构造不仅依赖于被估计的参数,还依赖问题所给的条件.,例如,正态总体,) (,已知)的,的置信度为0.95的,的置信区间,为:,置信度为0.99的,的置信区间为:,虽可靠度提高了,但精度降低了.,耐曼提出了处理上述矛盾的原则:先照顾可靠度,即要求区间估计,有不低于某个数,的置信概率,即要求,在这个前提下,使,的精度仅可能提高.,为了估计,样本容量n应为多少?这是一个重要的实际问题.,对非正态总体的区间估计,由于没有相应的抽样定理的结论,很难得到参数的置信区间,但当样本容量很大时,利用中心极限定理可求得非正态总体期望的近似置信区间.,如果样本抽的太少,则随机性影响太大;若样本抽得太大,则又费人力、物力、时间,可惜的是,这问题的解决是很复杂的.,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报