1、教学重点,教学过程,教学总结,第4章 区间估计,STAT,在对总体特征做出估计时,并非所有估计量都是优良的,从而产生了评价估计量是否优良的标准。作为优良的估计量应该符合如下三个标准:1无偏性 2一致性 3有效性,STAT,点估计的缺点:不能反映估计的误差和精确程度 区间估计:利用样本统计量和抽样分布估计总体参数的可能区间 【例1】CJW公司是一家专营体育设备和附件的公司,为了监控公司的服务质量, CJW公司每月都要随即的抽取一个顾客样本进行调查以了解顾客的满意分数。根据以往的调查,满意分数的标准差稳定在20分左右。最近一次对100名顾客的抽样显示,满意分数的样本均值为82分,试建立总体满意分数
2、的区间。 8.1.1抽样误差 抽样误差:一个无偏估计与其对应的总体参数之差的绝对值。 抽样误差 = (实际未知),4.1总体均值的区间估计(大样本n30),STAT,4.1.2抽样误差的概率表述由概率论可知,服从标准正态分布,即, 有以下关系式成立:一般称,为置信度,可靠程度等,反映估计结果的可信程度。若事先给定一个置信度,则可根据标准正态分布找到其对应的临界值 。进而计算抽样误差,STAT,若, 则查标准正态分布表可得, 抽样误差此时抽样误差的意义可表述为:以样本均值为中心的3.92的区间包含总体均值的概率是95%,或者说,样本均值产生的抽样误差是3.92或更小的概率是0.95。常用的置信度
3、还有90%,95.45%,99.73%,他们对应的临界值分别为1.645,2和3,可以分别反映各自的估计区间所对应的精确程度和把握程度。,STAT,4.1.3计算区间估计:在CJW公司的例子中,样本均值产生的抽样误差是3.92或更小的概率是0.95。因此,可以构建总体均值的区间为,由于,从一个总体中抽取到的样本具有随机性,在一次偶然的抽样中,根据样本均值计算所的区间并不总是可以包含总体均值,它是与一定的概率相联系的。如下图所示:,STAT,3.92,3.92,图1 根据选择的在 、 、 位置的样本均值建立的区间,STAT,上图中,有95%的样本均值落在阴影部分,这个区域的样本均值3.92的区间
4、能够包含总体均值。因此,总体均值的区间的含义为,我们有95%的把握认为,以样本均值为中心的3.92的区间能够包含总体均值。通常,称该区间为置信区间,其对应的置信水平为置信区间的估计包含两个部分:点估计和描述估计精确度的正负值。也将正负值称为误差边际或极限误差,反映样本估计量与总体参数之间的最大误差范围。 总结:,统计学,解:已知总体服从正态分布,所以样本平均值也服从正态分布。并知, =65, =15,查标准正态分布表,与置信水平95%相对应的Z值为1.96,所以总体平均数置信区间为:所以我们有95%的把握说总体平均数u介于63.1466.86千克之间。,第四章,例(1).某厂质量管理部门负责人
5、希望估计移交给接收部门的5500 包 原材料的平均重量。一个由250包原材料组成的随机样本所给出的平均值 ,总体 标准差 =15千克,试构造总体未知的平均数 的置信区间,假定95%的置信区间已能令人满意,并假定总体为正态分布。,第四章 参数估计,例2:对某打土方 的工人作抽样调查,随机抽查144个工人,据此求得每人每天平均完成工作量为5.25立方米。已知总体服从正态分布,其标准差为1.5立方米,试用0.9545概率保证,推断其全部工人每人每天平均完成工作量介于多少立方米之间?,统计学,解:已知XN( ,1.5)即总体服从正态分布。X=5.25 n=144 =2所以我们可以0.9545的概率保证
6、全体工人每人每天平均完成 工作量介于55.5立方米之间。,第四章 参数估计,如图: =0.9545 5 5.5 x注意:n30为大样本,查标准正态分布表置信水平 (t)0.6827 10.9000 1.6450.9500 1.960.9545 20.9973 3 再例:,统计学,记住,STAT,4.1.4计算区间估计:在大多数的情况下,总体的标准差都是未知的。根据抽样分布定理,在大样本的情况下,可用样本的标准差s作为总体标准差的点估计值,仍然采用上述区间估计的方法进行总体参数的估计。,STAT,【例2】 斯泰特怀特保险公司每年都需对人寿保险单进行审查,现公司抽取36个寿保人作为一个简单随即样本
7、,得到关于、投保人年龄、保费数量、保险单的现金值、残废补偿选择等项目的资料。为了便于研究,某位经理要求了解寿险投保人总体平均年龄的90%的区间估计。,STAT,上表是一个由36个投保人组成的简单随机样本的年龄数据。现求总体的平均年龄的区间估计。 分析:区间估计包括两个部分点估计和误差边际,只需分别求出即可到的总体的区间估计。 解:已知 (1)样本的平均年龄(2)误差边际,STAT,样本标准差误差边际(3)90%的置信区间为39.5 2.13 即(37.37,41.63)岁。注意 (1)置信系数一般在抽样之前确定,根据样本所建立的区间能包含总体参数的概率为 (2)置信区间的长度(准确度)在置信度
8、一定的情况下,与样本容量的大小呈反方向变动,若要提高估计准确度,可以扩大样本容量来达到。,STAT,4.3确定样本容量 误差边际其计算需要已知 若我们选择了置信度由此,得到计算必要样本容量的计算公式:,STAT,【例4】在以前的一项研究美国租赁汽车花费的研究中发现,租赁一辆中等大小的汽车,其花费范围为,从加利福尼亚州的奥克兰市的每天36美元到康涅狄格州的哈特福德市的每天73.50美元不等,并且租金的标准差为9.65美元。假定进行该项研究的组织想进行一项新的研究,以估计美国当前总体平均日租赁中等大小汽车的支出。在设计该项新的研究时,项目主管指定对总体平均日租赁支出的估计误差边际为2美元,置信水平
9、为95%。 解:依题意, 可得将以上结果取下一个整数(90)即为必要的样本容量。,STAT,4.4总体比例的区间估计 8.4.1区间估计对总体比例 的区间估计在原理上与总体均值的区间估计相同。同样要利用样本比例 的抽样分布来进行估计。 若, 则样本比例近似服从正态分布。 同样,抽样误差 类似的,利用抽样分布(正态分布)来计算抽样误差,STAT,上式中, 是正待估计的总体参数,其值一般是未知,通常简单的用 替代 。 即用样本方差 替代总体方差 。 则, 误差边际的计算公式为:,STAT,【例5】1997年菲瑞卡洛通讯公司对全国范围每内的902名女子高尔夫球手进行了调查,以了解美国女子高尔夫球手对
10、自己如何在场上被对待的看法。调查发现,397名女子高尔夫球手对得到的球座开球次数感到满意。试在95%的置信水平下估计总体比例的区间。 分解: 解:依题意已知, (1)样本比例(2)误差边际,STAT,(3)95%的置信区间0.44 0.0324 即(0.4076,0.4724)。结论:在置信水平为95%时,所有女子高尔夫球手中有40.76%到47.24%的人对得到的球座开球数感到满意。4.4.2 确定样本容量在建立总体比例的区间估计时,确定样本容量的原理与8.3节中使用的为估计总体均值时确定样本容量的原理相类似。,STAT,【例6】在例中,该公司想在1997年结果的基础上进行一项新的调查,以重
11、新估计女子高尔夫球手的总体中对得到的球座开球此数感到满意的人数所占的比例。调查主管希望这项新的调查在误差边际为0.025、置信水平为95%的条件下来进行,那么,样本容量应该为多大? 解:依题意, 可得将以上结果取下一个整数(1515)即为必要的样本容量。,STAT,说明:由于总体比例 在大多数情况下是未知的,可以有以下方法取得 的值。 (1)使用有同样或者类似单元的以前样本的样本比例; (2)抽取一个预备样本进行试验性研究。用实验性样本的比例作为 的估计值。 (3)运用对 值的判断或者“最好的猜测”; (4)如果上面的方法都不适用,采用 。,例1:某灯泡厂日产白炽灯泡15000只,根据历史资料
12、可知一等品率为90%,现要求极限误差为2%,概率保证程度为95.45% ,问不重复抽样时,应抽取多少只灯泡?例2:某洗衣机厂生产一批新型号的洗衣机投放市场,为了解这种洗衣机在市场上的销路,该厂在市场上调查喜欢这种洗衣机的人数比率。要求置信度为95%,估计误差在4%以内,问需要抽多大的样本?例3:某厂生产电子元件10000只,采用重复抽样方式抽取100只作耐用检验,计算结果平均寿命是9000小时,总体的方差是8100小时,当概率保证程度为95.45%时,电子元件的平均寿命落在哪个区间?若概率保证程度提高到99.73%,允许的极限误差为原来的1/2时,需要抽取多少只电子元件?,例1:某灯泡厂日产白
13、炽灯泡15000只,根据历史资料可知一等品率为90%,现要求极限误差为2%,概率保证程度为95.45% ,问不重复抽样时,应抽取多少只灯泡?,例2:某洗衣机厂生产一批新型号的洗衣机投放市场,为了解这种洗衣机在市场上的销路,该厂在市场上调查喜欢这种洗衣机的人数比率。要求置信度为95%,估计误差在4%以内,问需要抽多大的样本?解:根据题意这种洗衣机是新产品,故不能用过去的资料来估计喜欢这种洗衣机的人数比率。在这种情况下,可用保守的假定成数p=0.5来估计。因为p(1-p)的乘积在p=0.5时为最大,这时计算出来的必要抽样单位虽然可能比实际的要多一些,但能充分保证有足够高的置信度。,例3:某厂生产电子元件10000只,采用重复抽样方式抽取100只作耐用检验,计算结果平均寿命是9000小时,总体的方差是8100小时,当概率保证程度为95.45%时,电子元件的平均寿命落在哪个区间?若概率保证程度提高到99.73%,允许的极限误差为原来的1/2时,需要抽取多少只电子元件?,P112 2.3.8,