收藏 分享(赏)

与参数估计(Estimate).ppt

上传人:tkhy51908 文档编号:8253610 上传时间:2019-06-17 格式:PPT 页数:62 大小:838.50KB
下载 相关 举报
与参数估计(Estimate).ppt_第1页
第1页 / 共62页
与参数估计(Estimate).ppt_第2页
第2页 / 共62页
与参数估计(Estimate).ppt_第3页
第3页 / 共62页
与参数估计(Estimate).ppt_第4页
第4页 / 共62页
与参数估计(Estimate).ppt_第5页
第5页 / 共62页
点击查看更多>>
资源描述

1、第6章 抽样(Sampling) 与参数估计(Estimate) 重点:深刻理解抽样分布的概念及中心极限定理的意义,灵活掌握均值和比例的区间估计方法的应用。 难点:在不同条件下的区间估计。,抽样法的特点:随机原则部分估计总体存在误差并可以控制 抽样法的应用:对某些不可能进行全面调查而又需要了解其 全面情况的社会经济现象,必须应用抽样法。(破坏性试验、总体过大、单位过于分散,实际调查不可能的),第1节 抽样与抽样分布 一、有关抽样的基本概念,总体(母体)(Population) 样本(子样)(Sample) 总体指标(总体参数)(Population parameter) 样本指标(样本统计量)

2、(Sample statistic),抽样方法,重置抽样(重复抽样)(Sampling with replacement)要从总体N个单位中随机抽取一个容量为n的样本,每次从总体中抽取一个单位,把顺序号登记下来之后,重新放回参加下一次抽选,连续反复抽取n次组成所要求容量的样本。 不重置抽样(不重复抽样)(Sampling without replacement)要从总体N个单位中随机抽取一个容量为n的样本,每 次从总体中抽取一个单位,被抽中的单位不再放回参加下一次抽选,连续进行次便组成样本。不重复抽样所得样本对总体的代表性较大,抽样误差较小,所以实践中通常采用不重复抽样。,概率抽样的组织方式,

3、简单随机抽样:从总体中抽取样本最常用的方法。从容量为N的总体中进行抽样,如果容量为n 的每个可能样本被抽到的可能性相等,则称容量为n的样本为简单随机样本。 分层抽样:也称分类抽样或类型抽样,它是按某个主要标志对总体各单位进行分类,然后从各层中按随机原则分别抽取一定数目的单位构成样本。 等距抽样也称机械抽样或系统抽样。它是先将总体单位按一定顺序排队,计算出抽样间隔(或抽样距离),然后按固定的顺序和间隔抽取样本单位。 整群抽样:也称丛聚抽样或集团抽样。它是将总体分为若干部分(每一部分称为一个群),然后按随机原则从中一群一群地抽选,对抽中群内的所有单位进行全面调查。,总体中各元素的观察值所形成的分布

4、 分布通常是未知的 可以假定它服从某种分布,总体分布 (population distribution),一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,样本分布 (sample distribution),二、抽样分布 (Sampling distribution) 1、抽样分布的意义,对统计量的所有可能取值及其对应概率的描述,就是统计量的抽样分布,即抽样分布。 抽样分布反映样本统计量的分布特征,根据抽样分布的规律,可揭示样本统计量与总体参数之间的关系,计算抽样误差,并说明抽样推断的可靠程度。,抽样分布 (sampling distribution

5、),例:样本均值的抽样分布,【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。总体的均值、方差及分布如下,均值和方差,现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的分布与总体分布的比较, = 2.5 2 =1.25,总体分布,2、样本均值的抽样分布,样本平均数的标准差反映了样本平均数与总体平均数的平均误差,故称之为抽样平均误差(或抽样标准差)。计算公式: (重复抽样)可见,抽样平均误差与总体标准差成正比变化,与样本

6、容量的平方根成反比变化。 当总体为正态分布时,对于任何样本容量,样本平均数的抽样分布是正态分布。若总体方差2未知,则可用样本方差s2取而代之 。 样本容量很大,无论总体分布如何,样本平均数近似服从正态分布。,3、样本比例的抽样分布,当从总体中抽出一个容量为n的样本时,样本比例服从二项分布。 当n时,二项分布趋近于正态分布。所以,在大样本下,若np5且n(1-p) 5,样本比例p近似服从正态分布。 比例的抽样平均误差 (重复抽样)式中,P为总体比例,实际计算时通常采用以往经验数据或样本比例 。,例:灯泡厂从10000只灯泡中随机抽取500只检查其耐用时数,结果如下表。该厂规定耐用时数在850以下

7、为不合格。求平均耐用时数及不合格率的抽样平均误差。,解:,重复抽样条件下 不重复抽样条件下,练习:,1、从某大学学生中随机抽选100名调查体重,结果平均体重为58千克。根据过去的资料知道该校学生体重标准差为10千克。求抽样误差。 2、某工厂共生产新型聚光灯2000只,随机抽选400只进行耐用时间调查,结果平均寿命为4800小时,标准差为300小时。求抽样误差。 3、从某校学生中随机抽选400名,发现戴眼镜的有80人。计算求抽样误差。 4、一批食品罐头60000桶,随机抽查300桶,有6桶不合格。求合格率的抽样误差。 5、假设4个人工资分别为:400、500、700、800元,现随机抽选2人进行

8、调查。 (1)验证 (2)计算重复抽样及不重复抽样的抽样平均误差。,第2节 参数估计的基本方法,参数估计以实际观察的样本数据所计算的统计量作为未知总体参数的估计值。 一、点估计(Point estimate) 点估计也称定值估计,就是直接以样本统计量作为总体参数的估计值。 点估计的优点是它提供了总体参数的具体估计值,可作为决策的依据,其缺点是不能提供有关抽样误差的信息。样本均值是总体均值的点估计量,样本方差s2是总体方差2的点估计量,样本比例p是总体比例P的点估计量。优良估计量的标准: 无偏性 有效性 一致性,二、区间估计(Interval estimate),抽样误差 统计调查的误差,是指调

9、查所得结果与总体真值之间的差异。误差的来源有登记性误差和代表性误差两大类。代表性误差分为系统性误差和偶然性误差。抽样估计中所谓的抽样误差,就是指这种偶然性误差或随机误差。 (1)实际抽样误差。指某一特定样本的样本估计值与总体参数真值之间的离差。 (2)抽样平均误差。统计学中常用标准差来衡量均值的代表性,所以抽样平均误差可以衡量样本对总体的代表性大小。 (3)抽样极限误差。指一定概率条件下抽样误差的可能范围,也称允许误差。抽样极限误差的可能范围与抽样估计的可能性即概率紧密相联。,样本平均数的抽样极限误差样本比例的抽样极限误差抽样误差与抽样可靠性的关系,影响抽样误差的主要因素,1、抽样单位数的多少

10、。在其它条件不变的情况下,抽样单位数愈多,抽样误差愈小;反之抽样单位数愈少,抽样误差就愈大。2、总体离散程度的高低。当其它条件不变时,总体离散程度愈低,抽样误差愈小;反之总体离散程度愈高,抽样误差愈大。3、抽样方法4、组织方式,第3节 总体均值的区间估计,一、区间估计的基本原理 1、大数定律 大数定律主要是说明:当n足够大时,独立同分布的随机变量的算术平均数趋近于数学期望;事件发生的频率接近于其发生的概率。 即样本统计量接近于总体参数。 2、中心极限定理 中心极限定理是说明:当n充分大时,大量的起微小作用的相互独立的随机变量之和趋于正态分布。,大样本(n30)下总体均值的区间估计,区间估计就是

11、根据样本求出总体未知参数的估计区间,并使其可靠程度达到预定要求。 (1) 总体方差2已知时由于 ,所以对于给定的置信度1-,有即 可见,极限误差的计算公式为则总体均值的置信区间为,例:从某大学学生中随机抽取100名调查体重情况。经称量和计算,得到平均体重为58千克。根据过去的资料知道大学生体重的标准差是10千克。在95%的置信水平下,求该大学学生平均体重的置信区间。,解:已知 =58,=10,z/2=1.96,n=100=10/10=1(千克)=1.961=1.96(千克)置信下限为58-1.96=57.04,置信上限为58+1.96=59.96 故所求置信区间为(57.04,59.96)千克

12、。,(2) 总体方差2未知时,由于 t(n-1),对于给定的置信度1-,有置信下限 置信上限 在大样本下,总体均值的置信区间为,例:某进出口公司出口一种名茶,规定每包重量不低于150克。现不重复抽取1%检验,结果如下。以95.45%的概率估计这批茶叶平均每包重量范围,以确定该批茶叶是否达到要求。,解:,在95.45%的概率保证下,=20.087=0.174(g)则总体平均数置信区间为即(150.126,150.474)之间说明该批茶叶达到要求。,小样本下(n30)总体均值的区间估计,在小样本条件下,样本平均数的分布依赖于总体的概率分布。若总体服从正态分布,无论样本容量如何,样本平均数都服从正态

13、概率分布。若总体不服从正态分布,必须扩大样本容量。(1)总体方差2已知时 总体均值的置信区间为 (2)总体方差2未知时 总体均值的置信区间为 ( , ),例:某保险公司投保人年龄设某保险公司投保人年龄呈正态分布,现从中抽取10人,其年龄分别为:32,50,40,24,33,44,45,48,44,47岁。试以95%的置信水平估计该保险公司投保人的平均年龄。,解:当置信度为95%时, =2.2622 2.6544=6.00(岁) 因为40.7-6.00=34.7 40.7+6.00=46.7 所以该保险公司投保人的平均年龄的置信区间为(34.7,46.7)岁。,第4节 总体比例的区间估计,在大样

14、本条件下,若np5,n(1-p)5,则样本比例趋近于正态分布。 对于给定置信度,有总体比例的置信区间为小样本条件下,不作介绍。,例:总体比例的区间估计,【例】某城市想要估计下岗职工中女性所占的比例,随机抽取了100个下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间,解:已知 n=100,p65% , 1-= 95%,z/2=1.96,该城市下岗职工中女性比例的置信区间为55.65%74.35%,例:某厂对一批产品进行质量检验,随机重复抽取样品100只,样本合格品率为95,试计算把握程度为90的合格品率置信区间。,解:已知n=100,p=95%,1-=9

15、0%,查表得z/2=1.645 =0.0218 p=z/2 =1.6450.0218=0.0359或3.59% 95%-3.59%=91.41%,95%+3.59%=98.59% 故该批产品合格率的置信区间为(91.41%,98.59%),练习,1 、从一批产品中按不重复随机方法抽选1/20,共200件, 其中废品8件。当概率保证程度为 95.45%时,可否认为该批产品的废品率不超过5%? 2、一电视节目主持人想了解观众对电视节目的喜欢情况,他选取500名观众作样本,结果说喜欢该节目的175人。现以95%的概率估计观众喜欢这一节目的区间范围。若该主持人希望估计极限误差不超过5%,有多大把握?

16、3、已知炼钢厂的铁水含碳量在正常情况下服从正态分布,其方差为0.1080.108,现测定了9炉钢水,平均含碳量4.484。按95%的可靠程度估计该厂铁水含碳量。,4.某市抽查25户家庭用户电力消费量,结果如下。试以95%的概率保证,估计全市家庭用户电力平均消费量的置信区间、总消费量的置信区间及用电量在85度以上的比例。,第5节 样本容量的确定,在重置抽样下, 所以,必要抽样单位数在不重置抽样下,必要抽样单位数,例:某市进行职工家庭生活费抽样调查,已知职工家庭平均每人每月生活费收入的标准差为110元,允许误差范围10元,概率把握程度95%,试确定应抽选的户数。 解: 例:某企业要调查产品合格率,

17、已知以往的合格率曾有90%、98%、99%。现要求误差不超过1%,把握程度为95%,问需要抽选多少件产品?解: 例:要调查某校大学生英语四级考试成绩,假设根据历史资料该校学生平均成绩的标准差为20分,及格率为65%。现用重复抽样方法,要求在95%的置信度下,平均分数的误差不超过2分,及格率的误差不超过4%,求必要抽样数目。解:,【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望边际误差为400元,应抽取多大的样本容量?,解:,影响必要抽样数目的因素,(1)允许误差范围。当其它条件不变时,允许误差愈小,必要的抽样单位数就需要愈多;反之,允许

18、误差愈大,抽样单位数就可以愈少。 (2)总体方差2。其他条件不变的情况下,总体方差2愈大,总体单位的差异程度愈大,则样本单位数应愈多;反之,样本单位数可愈少。 (3)抽样估计的可靠程度1-。当其他条件不变时,抽样估计的可靠程度愈高,z/2数值愈大,抽样数目就必须愈多;反之,抽样估计的可靠程度愈低,抽样数目就可以愈少。 (4)抽样方法。相同条件下,由于采用重复抽样比不重复抽样的误差大,所以,前者应比后者多抽一些样本单位。除上述因素之外,抽样组织方式也是影响抽样单位数的一个原因 。,练习: 1、假定总体为5000单位,被研究的标志方差不小于400,抽样极限误差不超过3。当概率为99.73%时,需要

19、有多少不重复抽样单位?(371) 2、对某型号电池进行电流强度检查,根据以往正常生产经验,电流强度的标准差为0。4安培,合格率为90%。现用重复抽样方式,要求在95.45%的置信度下,抽样平均电流强度的误差范围不超过0.08安培,抽样合格率的极限误差不超过5%,问必要的抽样单位数应为多少?(144) 3、对某型号电子元件10000只进行耐用性能检查。根据以往抽样测定,求得耐用时数的均方差为51.91小时,合格率的均方差为28.62%,试计算: (1)概率保证为68.27%时,元件平均耐用时数的误差范围不超过9小时,在重复抽样的条件下,要抽查多少元件?(34) (2)概率保证为99.73%时,元

20、件合格率的极限误差不超过5%,在重复抽样的条件下,要抽查多少元件?(295) (3)在不重复抽样的条件下,要同时满足上述(1)、(2)条件,要抽查多少元件?,4、某药厂为了检查瓶装药片数量,从成品库随机抽检100瓶,结果平均每瓶101.5片,标准差为3片。试以99.73%的概率推断成品库中该种药平均每瓶数量的置信区间。如果允许误差减少到原来的1/2,其它条件不变,问需要抽取多少瓶? 5、在对一条广告效应进行的电话追踪调查中,30名被追踪者中有20名会想起广告用语。试求在看过该广告的所有人中,会想起广告语的人所占比重的置信区间。(=5%) 6、设成年男子身高呈正态分布。某地区成年男子平均身高17

21、0厘米,标准差为2厘米。 (1)若抽查10人,问这10人的平均身高介于166.2173.8厘米之间的可能性有多大? (2)如果进行一次成年男子身高的抽样调查,要求以95%的把握程度保证误差不超过3厘米,问需抽查多少人? (3)如果以95%的把握保证误差不超过1.5厘米,问需抽查多少人?这一结果与上一结果有何关系? (4)如果允许误差仍为1.5厘米,但要求保证程度提高到99.73%,问需要抽查多少人?,7、某公司电话咨询服务部门在每次通话结束时都要记下通话时间,从一个由16个记录组成的随机样本得出平均一次通话时间为16分钟。已知总体服从正态分布,其标准差为0.7分钟。试以95.45%的概率推断总

22、体均值的置信区间。 8、某公司推出一种营养型豆奶,为了做好促销工作,随机地选取顾客询问喜欢此豆奶情况。若要使置信度为95%,抽样误差不超过0.05,在下列情况下,你建议样本的容量为多大? (1)假如初步估计约有60%的顾客喜欢此豆奶; (2)假如无任何资料可用来估计喜欢此豆奶的比例。 9、对某砖厂产品质量进行抽样调查,要求抽样误差不超过0.01111,概率把握程度为0.9545。已知过去进行的几次同样调查所得不合格产品比例为1.25%、1.23%、1.14%,试确定必要的抽样数目。,10、根据高教厅统计,某地区有17%的大学生申请免息教育贷款。假定样本容量为300。试求: (1)当地大学生中申

23、请免息教育贷款的总体比例的95.45%的置信区间。 (2)当地大学生中申请免息教育贷款的总体比例的99%的置信区间。 (3)当把握程度由95.45%提高到99%时,允许误差如何变动? 11、某职业研究所随机抽取100名IT行业人员了解本地人员薪金,样本均值为50124.58元,样本标准差为1685元,试分别求IT行业人员年薪的总体均值的90%、95%和99%的置信区间。当置信水平增大时,置信区间的宽度如何变化?,第6节 其它抽样方法及其抽样分布特征,一、分层抽样(Stratified sampling)设总体容量为N,将总体划分为k层(组或类),有N=N1+N2+Nk。从每层的Ni个单位中抽取

24、ni个单位构成容量为n的样本,即n=n1+n2+nk。从每层中抽取样本单位时,为了保持样本结构与总体结构相同,通常采用按(等)比例取样,即按各层单位数占总体单位数的比例从中抽取样本,使各层样本单位数与各层总体单位数之比等于样本容量与总体容量之比。即,分层抽样的抽样平均误差,重置抽样下, 不重置抽样下,对于等比例分层抽样,其分布特征如下: 样本平均数总体层内方差平均数抽样平均误差 (重复抽样) (不重复抽样),总体方差未知时样本层内方差平均数抽样平均误差计算公式为(重复抽样) (不重复抽样),对于分层抽样,若总体各层为正态分布或为大样本非正态分布,则各子样本平均数、样本平均数均服从或近似服从正态

25、分布。对于给定的置信度1-,总体均值的置信区间为:,比例的抽样平均误差,重置抽样不重置抽样总体比例未知时,其中,当总体服从或近似服从正态分布时,对于给定的置信度1-,总体比例的置信区间为:,例:某电视台分别从三个县按比例抽选600户,调查晚间新闻的收视率和每周看电视时间(小时),结果如表所示。在95%的置信度下,求 (1) 三县总体收视率的置信区间; (2) 三县住户每周看电视的平均时间置信区间。,样本容量的确定,重复抽样不重复抽样分层抽样有如下的特点:1、由于总体方差等于组内方差与组间方差之和,所以分层抽样的误差一般小于简单随机抽样的误差。 2、由于总体方差是唯一确定的数值,因此分层抽样时可

26、以扩大层间方差,缩小层内方差,使抽样误差减小。,练习: 1、某乡全部粮食耕地5000亩,按平原和山区面积比例抽取样本,容量为630亩,计算各组平均亩产和标准差如下。以95%的概率保证对全乡平均亩产作区间估计。,2、对某公司职工的工资进行抽样调查,共抽取600名职工,其中400名工人,200名职员,结果如下。试分别计算类型抽样和简单随机抽样的误差,并加以比较。现若采用类型抽样方式,试对该公司职工平均工资作区间估计。如果要求误差不超过1元,应至少抽选多少工人和职员?(置信度为95%),3、从三种不同规模的工厂中,分别随机抽查1%机床,得到机床利用率如下,试以95.45%的概率确定全部机床利用率的置

27、信区间。,4、假定类型抽样的结果如下,试确定总体均值的95.45%的置信区间。,二、等距抽样(Systematic sampling),如果对总体的差异程度不了解,可以按无关标志排队。这种抽样结果接近于简单随机抽样的效果,所以可采用简单随机抽样的误差计算方法,但要注意等距抽样通常都是不重置抽样。如果对总体的变异程度有所了解,可以按有关标志排队。按有关标志排队的等距抽样实质上运用了分层抽样的一些特点,有利于提高样本的代表性,与分层抽样不同的,只是分类更细致,层数更多,在各层只抽取1个单位。因此,一般可以采用不重复分层抽样的误差公式来近似计算。,按有关标志排队并将总体单位n等分后,取样方法有以下两

28、种:,1、半距中点取样。即在每部分的中间(抽样距离的一半)抽取一个单位组成样本。如,第一部分取第k/2单位,第二部分取第3k/2单位,第n部分取第(2n-1)k/2单位。这种取样方法,使所抽取的各单位最能代表每部分的一般水平,从而提高样本的代表性,其不足之处是只能取一个样本。 2、对称等距取样。即第一部分随机抽取一个单位,然后据此在各部分中抽取两两对称的样本单位组成样本。如,第一部分取第i单位,第二部分取第2k-i单位,第三部分取第2k+i单位,第四部分取第4k-i单位,第(n-1)部分取第(n-2)k+i单位,第n部分取第nk-i单位。这种取样方法,既遵循随机原则,又能取到较有代表性的样本,

29、并且可以抽取k个样本。 样本容量确定的方法与不重复分层抽样相同 。,练 习,1、假定对总体2000个单位进行5%的机械抽样。试确定: (1)将总体划分为多少个同等部分? (2)抽选的间隔如何? (3)每部分的单位数是多少? (4)能否说出抽取单位的号码和抽取单位的总数? 2、某产品零件方差为另一同类零件方差(0.12)的3倍,若以95%的可靠性估计抽样误差不多于0.17厘米,现打算从4000件零件中做机械抽样,必须抽出多少零件做检验?,三、整群抽样(Cluster sampling),设总体N个单位划分为R群,每群包含M个单位,即N=RM。现从总体R群中随机抽取r群,并分别对中选群的所有M个单

30、位进行调查。整群抽样都采用不重复抽样。整群抽样的抽样误差只受群间差异程度的影响。这与分层抽样只受组内方差影响的情形相反,由此可知,二者对总体进行分组的作用完全不同。分层抽样分组的作用是尽量缩小组内的差异,整群抽样分组的目的是尽量扩大群内的差异,它们的共同目的都是提高抽样效果。,样本平均数平均数的群间方差比例的群间方差当总体平均数或比例未知时,可用样本指标代替计算如下:整群抽样的抽样平均误差计算公式为:当r比较大时,总体平均数和比例的1-置信区间分别为:,例:某工厂连续生产某种产品,为了了解一级品率,采用整群抽样方法,调查一个月的全部产品质量。每隔20小时抽取1小时的产品进行检验,结果一级品率为

31、80%,群间方差为6%,计算抽样误差。,解:已知R=2430=720,r=720/20=36,p=80%, =6%若置信度为95.45%,则 =23.982%=7.964% 所以置信区间为(72.036%,87.982%)。,练习: 1、某工厂对1000箱入库产品进行检验,采取整群抽样方法抽取100箱。对箱内产品进行全面检验结果如下表。根据上述资料, (1)按68.27%的概率保证时,废品率的范围如何? (2)概率为95.45%时,推断总体比例的存在区间。如果估计废品率不超过2.5%,确定需抽检的箱数。 (3)如果上述资料是按重复抽样方法取得,平均误差怎样计算?等于多少?,2、某化肥厂连续生产

32、,平均每分钟加工100袋大米。现采用整群抽样法,检查一昼夜加工的每袋大米质量及包装情况,每隔144分钟抽1分钟的袋装大米进行检查,共抽取10分钟的袋装大米,结果如下。要求以95%的置信度估计: (1)该厂一昼夜加工袋装大米平均重量的置信区间。 (2)包装一等品率的估计区间。,抽样方式的选择,以上几种常用的抽样方法,各有不同的特点,适用于不同的场合。在实际工作中,应根据调查对象的性质,满足抽样误差的要求,并考虑经费条件,选择适当的抽样方法。 一般来讲,比较复杂的抽样方式(如分层抽样、按有关标志排队等距抽样)抽样误差较小,但需要花费较多的人力、物力和财力,而且必须事先掌握总体的有关信息以便适当地分组或排队;相反,较为简单的抽样方式,抽样误差较大,但经费较少,事先不需要了解总体的很多信息。,本章小结,总体分布、样本分布、抽样分布 单总体参数推断时样本统计量的分布 参数估计的一般问题 一个总体参数的区间估计 样本容量的确定,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报