1、引入6.5.1 区间估计的概念6.5.2 枢轴量法6.5.3 单个正态总体参数的置信区间6.5.4 大样本置信区间,6.5 区间估计,前面介绍的参数点估计方法不能回答估计值的可靠度与精度问题,即对于“估计值落在区间-,+的概率有多大?”这样的问题没有明确的结论.因而需要引入区间估计方法.例如,要估计一批电子产品的平均寿命,往往不需要一个很精确的数,而只需给出一个不大的范围即可,如8000-9000小时.当然,还需要求对这个估计有较高的“可信程度”,比如95%.,引入,根据估计量的分布,在一定的可靠程度下,指出被估计的总体参数所在的可能数值范围。这类问题称为参数的区间估计。,定义6.5.1 设
2、是总体的一个参数,其参数空间为,x1, x2 , , xn是来自该总体的样本,对给定的一个 (0 1),若有两个统计量 和 ,若对任意的 ,有 (6.5.1),6.5.1 区间估计的概念,则称随机区间 为 的置信水平为1- 的置信区间,或简称 是 的1-置信区间. 和 分别称为 的(双侧)置信下限和置信上限.,这里置信水平1- 的含义是指在大量使用该置信区间时,至少有100(1-)%的区间含有 。,例6.5.1 设x1, x2 , , x10是来自N(, 2)的样本,则 的置信水平为1- 的置信区间为其中, ,s 分别为样本均值和样本标准差。这个置信区间的由来将在6.5.3节中说明,这里用它来
3、说明置信区间的含义。若取 =0.10,则t095(9)=1.8331,上式化为,现假定 =15, 2 =4,则我们可以用随机模拟方法由N(15,4)产生一个容量为10的样本,如下即是这样一个样本:14.85 13.01 13.50 14.93 16.97 13.80 17.9533 13.37 16.29 12.38由该样本可以算得从而得到 的一个区间估计为该区间包含 的真值-15。现重复这样的方法 100次,可以得到100个样本,也就得到100个区 间,我们将这100个区间画在图6.5.1上。,由图6.5.1可以看出,这100个区间中有91个包含参数真值15,另外9个不包含参数真值。,图6.
4、5.1 的置信水平为0.90的置信区间,取=0.50,我们也可以给出100个这样的区间,见图6.5.2。可以看出,这100个区间中有50个包含参数真值15,另外50个不包含参数真值。,图6.5.2 的置信水平为0.50的置信区间,定义6.5.2 沿用定义6.5.1的记号,如对给定的 (0 1),对任意的,有(6.5.2) 称 为 的1- 同等置信区间。 同等置信区间是把给定的置信水平1- 用足了。常在总体为连续分布场合下可以实现。,定义 若对给定的 (0 1)和任意的,有,则称 为 的置信水平为1- 的(单侧)置信下限。假如等号对一切成立,则称 为 的1- 同等置信下限。若对给定的 (0 1)
5、和任意的,有 ,则称 为 的置信水平为1- 的(单侧)置信上限。若等号对一切成立,则称 为1- 同等置信上限。单侧置信限是置信区间的特殊情形。因此,寻求置信区间的方法可以用来寻找单侧置信限。,6.5.2 枢轴量法,构造未知参数 的置信区间的最常用的方法是枢轴量法,其步骤可以概括为如下三步: 1. 设法构造一个样本和 的函数 G=G(x1, x2 , , xn, ) 使得G的分布不依赖于未知参数。一般称具有这种性质的G为枢轴量。 2. 适当地选择两个常数c,d,使对给定的 (0 1) 有 P(cGd)=1- 3. 假如能将cG d 进行不等式等价变形化为则 , 是 的1- 同等置信区间。,关于置
6、信区间的构造有两点说明:,满足置信度要求的c与d通常不唯一。若有可能,应选平均长度 达到最短的c与d,这在G的分布为对称分布场合通常容易实现。 实际中,选平均长度 尽可能短的c与d,这往往很难实现,因此,常这样选择 c与d,使得两个尾部概率各为 /2,即P(Gd)= /2,这样的置信区间称为等尾置信区间。这是在G的分布为偏态分布场合常采用的方法。,例6.5.2 设x1, x2 , , xn是来自均匀总体U(0, )的一个样本,试对给定的 (0 1)给出 的1- 同等置信区间。,解:(1)取x(n)作为枢轴量,其密度函数为 p(y; )= nyn , 0y ;(2)x(n) / 的分布函数为F(
7、y)=yn, 0y 1,故 P(cx(n)/ d)= d n-cn,因此我们可以适当地选择c和d满足d n-cn=1-,(3)利用不等式变形可容易地给出 的1-同等置信区间为x(n) /d,x(n) /c,该区间的平均长度为 。不难看出,在0cd1及dn-cn=1- 的条件下,当d=1, c= 时, 取得最小值,这说明 是 的置信水平1- 为最短置信区间。,6.5.3 单个正态总体参数的置信区间,一、 已知时 的置信区间在这种情况下,枢轴量可选为 ,c和d应满足P(cGd)=(d)-(c)= 1-,经过不等式变形可得该区间长度为 。当d=-c=u1-/2时,d-c达到最小,由此给出了的同等置信
8、区间为 , 。 (6.5.8)这是一个以 为中心,半径为 的对称区间,常将之表示为 。,例6.5.3 用天平秤某物体的重量9次,得平均值为 (克),已知天平秤量结果为正态分布,其标准差为0.1克。试求该物体重量的0.95置信区间。 解:此处1- =0.95, =0.05,查表知u0.975=1.96,于是该物体重量 的0.95置信区间为,从而该物体重量的0.95置信区间为 15.3347,15.4653。,例6.5.4 设总体为正态分布N(,1),为得到 的置信水平为0.95的置信区间长度不超过1.2,样本容量应为多大? 解:由题设条件知 的0.95置信区间为其区间长度为 ,它仅依赖于样本容量
9、n而与样本具体取值无关。现要求 ,立即有n(2/1.2)2u21-/2.现1- = 0.95,故u1-/2=1.96,从而n(5/3)2 1.962 = 10.6711。即样本容量至少为11时才能使得 的置信水平为0.95的置信区间长度不超过1.2。,二、 2未知时 的置信区间,这时可用t 统计量,因为 ,因此 t 可以用来作为枢轴量。完全类似于上一小节,可得到 的1-置信区间为此处 是 2的无偏估计。,例6.5.5 假设轮胎的寿命服从正态分布。为估计某种轮胎的平均寿命,现随机地抽12只轮胎试用,测得它们的寿命(单位:万公里)如下: 4.68 4.85 4.32 4.85 4.61 5.02
10、5.20 4.60 4.58 4.72 4.38 4.70此处正态总体标准差未知,可使用t分布求均值的置信区间。经计算有 =4.7092,s2=0.0615。取 =0.05,查表知t0.975(11)=2.2010,于是平均寿命的0.95置信区间为(单位:万公里),在实际问题中,由于轮胎的寿命越长越好,因此可以只求平均寿命的置信下限,也即构造单边的置信下限。由于由不等式变形可知 的1-置信下限为 将t0.95(11)=1.7959代入计算可得平均寿命 的0.95置信下限为4.5806(万公里)。,三、 2的置信区间,取枢轴量 ,由于 2分布是偏态分布,寻找平均长度最短区间很难实现,一般都用等尾
11、置信区间:采用 2的两个分位数 2 /2(n-1) 和21- /2(n-1),在 2分布两侧各截面积为/2的部分, 使得由此给出 2的1-置信区间为,例6.5.6 某厂生产的零件重量服从正态分布N(, 2),现从该厂生产的零件中抽取9个,测得其重量为(单位:克) 45.3 45.4 45.1 45.3 45.5 45.7 45.4 45.3 45.6试求总体标准差 的0.95置信区间。 解:由数据可算得 s2 =0.0325,(n-1)s2=80325=0.26.查表知 2 0.025(8) =2.1797,20.975(8)=17.5345, 代入可得 2的0.95置信区间为 从而 的0.9
12、5置信区间为: 0.1218,0.3454。,在样本容量充分大时,可以用渐近分布来构造近似的置信区间。一个典型的例子是关于比例p 的置信区间。,6.5.4 大样本置信区间,设x1, xn是来自b(1, p)的样本,有 对给定 , ,通过变形,可得到置信区间为其中记= u21-/2,实用中通常略去/n项,于是可将置信区间近似为,例6.5.7 对某事件A作120次观察,A发生36次。试给出事件A发生概率p 的0.95置信区间。 解:此处n=120, =36/120=0.3 而u0.975=1.96,于是p的0.95(双侧)置信下限和上限分别为故所求的置信区间为 0.218,0.382,例6.5.8
13、 某传媒公司欲调查电视台某综艺节目收视率p,为使得 p 的1-置信区间长度不超过d0,问应调查多少用户?,解:这是关于二点分布比例p的置信区间问题,由(6.5.11)知,1-的置信区间长度为 这是一个随机变量,但由于 ,所以对任意的观测值有 。这也就是说p的1-的置信区间长度不会超过 。现要求p的的置信区间长度不超过d0,只需要 即可,从而(6.5.12),这是一类常见的寻求样本量的问题。比如,若取d0=0.04, =0.05,则。这表明,要使综艺节目收视率p的0.95置信区间的长度不超过0.04,则需要对2401个用户作调查。,研讨题目,国外民意调查机构在进行民意调查时,通常要求在95%的置
14、信度下将调查的允许误差(即置信区间的 d 值)控制在3%以内。问为满足该调查精度要求,至少需要多大的样本?如果要求置信度达到99%,调查误差仍为3%,此时至少需要多大的样本?,本案例中,,故需要的样本容量至少为,如果要求置信度达到99%,则Z/2=Z0.005=2.575,,6.5.5 两个正态总体下的置信区间,设x1 , , xm是来自N(1, 12)的样本,y1 , , yn是来自N(2, 22)的样本,且两个样本相互独立。 与 分别是它们的样本均值,和 分别是它们的样本方差。下面讨论两个均值差和两个方差比的置信区间。,一、1 -2的置信区间,1、 12和 22已知时的两样本u区间2、 1
15、2 = 22 = 2未知时的两样本t区间,3、 22 / 12=已知时的两样本t区间,4、当m和n都很大时的近似置信区间5、一般情况下的近似置信区间其中,例6.5.9 为比较两个小麦品种的产量,选择18块条件相似的试验田,采用相同的耕作方法作试验,结果播种甲品种的8块试验田的亩产量和播种乙品种的10块试验田的亩产量(单位:千克/亩)分别为:甲品种 628 583 510 554 612 523 530 615乙品种 535 433 398 470 567 480 498 560 503 426假定亩产量均服从正态分布,试求这两个品种平均亩产量差的置信区间.( =0.05)。,解:以x1 , ,
16、 x8记甲品种的亩产量,y1 , , y10记乙品种的亩产量,由样本数据可计算得到=569.3750,sx2 =2140.5536,m=8=487.0000,sy2=3256.2222, n=10下面分两种情况讨论。,(1) 若已知两个品种亩产量的标准差相同,则可采用两样本t区间。此处故1 -2的0.95置信区间为,(2) 若两个品种亩产量的方差不等,则可采用近 似 t 区间。此处s02 =2110.5536/8+3256.2222/10=589.4414,s0 =24.2784于是1-2的0.95近似置信区间为 31.3685,133.3815,二、 12/ 22的置信区间由于(m-1) s
17、x2/ 12 2(m-1), (n-1) sy2/ 22 2(n-1),且sx2与sy2相互独立,故可仿照F变量构造如下枢轴量 ,对给定的1-,由经不等式变形即给出 12/ 22的如下的置信区间,例6.5.10 某车间有两台自动机床加工一类套筒,假设套筒直径服从正态分布。现在从两个班次的产品中分别检查了5个和6个套筒,得其直径数据如下(单位:厘米):甲班:5.06 5.08 5.03 5.00 5.07乙班:4.98 5.03 4.97 4.99 5.02 4.95试求两班加工套筒直径的方差比 甲2/ 乙2的0.95置信区间。 解: 由数据算得sx2=0.00037, sx2=0.00092,
18、故置信区间 0.0544,3.7657,研讨题目,母亲嗜酒是否影响下一代的健康 美国的Jones医生于1974年观察了母亲在妊娠时曾患慢性酒精中毒的6名七岁儿童(称为甲组).以母亲的年龄,文化程度及婚姻状况与前6名儿童的母亲相同或相近,但不饮酒的46名七岁儿童为对照租(称为乙组). 测定两组儿童的智商,结果如下:美国的Jones医生于1974年观察了母亲在妊娠时曾患慢性酒精中毒的6名七岁儿童(称为甲组).以母亲的年龄,文化程度及婚姻状况与前6名儿童的母亲相同或相近,但不饮酒的46名七岁儿童为对照租(称为乙组). 测定两组儿童的智商,结果如下:,美国的Jones医生于1974年观察了母亲在妊娠时曾患慢性酒精中毒的6名七岁儿童(称为甲组).以母亲的年龄,文化程度及婚姻状况与前6名儿童的母亲相同或相近,但不饮酒的46名七岁儿童为对照租(称为乙组). 测定两组儿童的智商,结果如下:,