1、1,引言,前面,我们讨论了参数点估计. 它是用样本算得的一个值去估计未知参数. 但是,点估计值仅仅是未知参数的一个近似值,与未知参数总有一个正的或负的偏差。点估计本身既没有反映近似值的精确度,又不知道它的偏差范围,使用起来把握不大. 区间估计正好弥补了点估计的这个缺陷 .,2,譬如,在估计湖中鱼数的问题中,若我们根据一个实际样本,得到鱼数N的极大似然估计为1000条.,若我们能给出一个区间,在此区间内我们合理地相信 N 的真值位于其中. 这样对鱼数的估计就有把握多了.,实际上,N的真值可能大于1000条,也可能小于1000条.,3,也就是说,我们希望确定一个区间,使我们能以比较高的可靠程度相信
2、它包含真参数值.,湖中鱼数的真值, ,这里所说的“可靠程度”是用概率来度量的,称为置信概率,置信度或置信水平.,4,置信水平的大小是根据实际需要选定的.,例如,通常可取置信水平 =0.95或0.9等.,5,教材上已经给出了概率分布的上侧分位数(分位点)的定义,为便于应用,这里我们再简要介绍一下.,在求置信区间时,要查表求分位数.,6,例如:,设0 1, 对随机变量X,称满足,的点 为X的概率分布的上 分位数.,7,例如:,设0 1, 对随机变量X,称满足,的点 为X的概率分布的上 分位数.,8,设0 1, 对随机变量X,称满足,的点 为X的概率分布的上 分位数.,9,书末附有 分布、t 分布、
3、F分布的上侧分位数表,供使用. 需要注意的事项在教材上有说明.,至于如何由标准正态分布函数表查表求得分位数,若你对分布函数定义熟悉的话,这个问题不难解决.,现在回到置信区间题目上来.,10,一、 置信区间定义3.7.1:,则称区间 是 的置信水平(置信度、 置信概率)为 的置信区间.,11,可见,,12,即要求估计尽量可靠( ).,可靠度与精度是一对矛盾, 一般是在保证可靠度的条件下 尽可能提高精度.,13,若反复抽样多次(各次得到的样本容量相等,都是n),按伯努利大数定理, 在这样多的区间中,14,例如,15,教材上讨论了以下几种情形:,单个正态总体均值 和方差 的区间估计.,两个正态总体均
4、值差 和方差比 的区间估计.,非正态总体参数的区间估计.,16,N(0, 1),选 的点估计为,二、置信区间的求法,明确问题,是求什么参数的置信区间? 置信水平是多少?,解:,寻找一个待估参数和 估计量的函数 ,要求 其分布为已知.,有了分布,就可以求出 U取值于任意区间的概率.,(一) 一个正态总体 X N ( 2)的情形,(1) 方差 2已知, 的置信区间,17,对给定的置信水平,查正态分布表得,对于给定的置信水平(大概率), 根据U的分布, 确定一个区间, 使得U取值于该区间的概率为 置信水平.,使,从中解得,18,也可简记为,于是所求 的 置信区间为,19,需要指出的是,给定样本,给定
5、置信水平,置信区间也不是唯一的.,对同一个参数,我们可以构造许多置信区间.,由标准正态分布表,对任意a、b,我们可以求得P( aUb) .,20,N(0, 1),21,由 P(-1.75U2.33)=0.95,这个区间比前面一个要长一些.,22,我们总是希望置信区间尽可能短.,类似地,我们可得到若干个不同的置信区间.,任意两个数a和b,只要它们的纵标包含f(u)下95%的面积,就确定一个95%的置信区间.,23,在概率密度为单峰且对称的情形,当a =-b时求得的置信区间的长度为最短.,a =-b,24,从解题的过程,我们归纳出求置信区间的一般步骤如下:,1. 寻找参数 的一个良好的点估计T (
6、X1,X2,Xn),称u(T, )为枢轴量.,2. 寻找一个待估参数 和估计量T的函数u(T, ),且其分布为已知.,3. 对于给定的置信水平 ,根据u(T, )的分布,确定常数a, b,使得,P(a u(T, )b)=,4. 对“au(T, )b”作等价变形,得到如下形式:,则 就是 的100( )的置信区间.,25,而这与总体分布有关,所以,总体分布的形式是否已知,是怎样的类型,至关重要.,26,这里,我们主要讨论总体分布为正态的情形. 若样本容量很大,即使总体分布未知,应用中心极限定理,可得总体的近似分布,于是也可以近似求得参数的区间估计.,27,置信度为1-,因此置信度为1-的置信区间
7、可为,(2) 方差2未知, 的置信区间,,选取枢轴量,28,样本X1,X2, , Xn .且2有估计量,选取枢轴量,(3) 当 已知时, 方差 2 的置信区间,29,因此置信度为1-的2置信区间可为,选取枢轴量,30,即使在概率密度不对称的情形,如 分布,F分布,习惯上仍取对称的百分位点来计算未知参数的置信区间.,我们可以得到未知参数的的任何置信水平小于1的置信区间,并且置信水平越高,相应的置信区间平均长度越长.,31,因此置信度为1-的2置信区间可为,(4) 当 未知时, 方差 2 的置信区间,样本X1,X2, , Xn, 且S2是2的无偏估计.,选取枢轴量,32,四、两个正态总体的区间估计
8、,设总体XN(1, 12)与YN(2, 22) 相互独立。,33,联合方差,34,1、 1 - 2的1-置信区间,(1)、 12 、22已知,选取枢轴量,因此置信度为1-的1 - 2置信区间可为,35,(2)、12 = 22 = 2未知,选取枢轴量,因此置信度为1-的1 - 2置信区间可为,,其中r = n1+n2-2,36,(3)、12 、22未知,且n1,n2较大(如大于50),由于n1,n2较大,12S12、22 S22,仿(1),选取,因此置信度为1-的1 - 2置信区间可为,37,选取枢轴量,因此置信度为1-的 置信区间可为,(1)1 , 2未知。,38,取枢轴量,(2)1 , 2
9、已知,39,公式(10),40,三、单侧置信区间,上述置信区间中置信限都是双侧的,但对于有些实际问题,人们关心的只是参数在一个方向的界限.,例如对于设备、元件的使用寿命来说,平均寿命过长没什么问题,过短就有问题了.,这时,可将置信上限取为+,而只着眼于置信下限,这样求得的置信区间叫单侧置信区间.,41,于是引入单侧置信区间和置信限的定义:,42,又若统计量 满足,43,正态总体均值与方差的单侧置信区间,44,45,46,由于方差 未知,取枢轴量,解: 的点估计取为样本均值,47,对给定的置信水平 ,确定分位数,使,即,于是得到 的置信水平为 的单侧置信区间为,48,将样本值代入得,的置信水平为0.95的单侧置信下限是,1065小时,49,若总体 X 的分布未知, 但样本容量很大, 由中心极限定理, 可近似地视,若2已知, 则 的置信度为1 - 的置信区间 可取为,若2未知, 则 的置信度为1 - 的置信区间 可取为,(四) 非正态总体均值的区间估计,(四),50,例4 设 X 服从参数为 p 的0-1分布, 样本为,求 p 的置信度为 1 的置信区间,解,令,51,所以参数 p 的置信区间为( p1, p2 ),例如 自一大批产品中抽取100个样品,其中有60个一级品, 求这批产品的一级品率 p 的置信度为0.95的置信区间.,p 的置信区间为,