1、抽样误差,参数估计,抽样组织设计,主要内容,本节主要内容:,抽样误差; 抽样平均误差; 抽样极限误差。,第一节 抽样误差,含义:由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。其应等于由实际样本计算得到的指标与总体指标的差异:,一、抽样误差,(standard error of the mean),抽样平均数或抽样成数的标准差。反映了抽样平均数与总体平均数、抽样成数与总体成数的平均误差程度。 指所有可能样本的平均数与总体平均数之间误差的平均数,理论上:,二、抽样平均误差(标准误),重复抽样和不重复抽样(P108),抽样平均误差的实际计
2、算公式1:,重复抽样,不重复抽样,平均数,成数,抽样平均误差的实际计算公式2:,重复抽样,不重复抽样,平均数,成数,经常地, 未知,用样本方差 替代:,某公司生产一批灯泡,共1000只,从中随机抽取100只,测其寿命平均为1000小时,样本标准差为60小时,计算其抽样误差。 按重复抽样计算:,按不重复抽样计算:,例:,例:一批食品罐头共60000桶,随机抽查300桶,发现有6桶不合 格,求合格品率的抽样平均误差?,已知:,则:样本合格率,计算结果表明:不重复抽样的平均误差小于重复抽样,但是“N”的数值越大,则两种方法计算的抽样平均误差就越接近。,影响抽样平均误差的因素,由公式可以看出: 抽样方
3、法:采用不重复抽样比重复抽样的抽样误差小。 样本容量:抽样单位数目越多,抽样误差越小;反之,越大。 总体的变异程度:总体的变异程度越大,抽样误差越大;反之,则越小。 抽样的组织方式:不同的抽样组织方式所抽中的样本对总体的代表性不同,故抽样误差的大小不同。,三、抽样极限误差,1、抽样极限误差:指抽样指标和总体指标之间抽样误差的可能范围。以绝对值的形式表示:,2、抽样极限误差的衡量指标概率度t,抽样极限误差是指用绝对值形式表示的样本指标与总体指标偏差的可允许的最大范围。它表明被估计的总体指标有希望落在一个以样本指标为基础的可能范围。基于理论上的要求,抽样极限误差需要用抽样平均误差为标准单位来衡量。
4、即把极限误差 x或 p相应除以样本平均数或成数的极限误差,得出相对的误差程度t倍(概率度)。,抽样平均数的抽样极限误差,抽样成数的抽样极限误差,重复抽样,不重复抽样,在抽样估计中,人们往往要求:,抽样极限误差即抽样误差范围可以用t倍的抽样平均误差来表示,在抽样平均误差为一定的条件下,当概率度t的值越大,则抽样误差范围越大,估计抽样平均数或成数落在误差范围内的概率越大。即:抽样平均误差一定的条件下,当概率度t的值越大,则抽样误差范围越大,估计全及平均数或成数包含在相应的区间范围内的概率越大,从而抽样估计的可信程度也就越高。,如果把可靠程度即概率用p表示,概率度t的 大小决定p的大小,即p是t的函
5、数:,为了方便计算,在实际工作中,按不同的t值和相应的概率 编成正态分布概率表供查用。例如:,0.6827 0.8000 0.8664 0.9000 0.9500 0.9545 0.9900 0.9973 0.9999,1 1.28 1.5 1.64 1.96 2 2.58 3 4,t,概率度和概率的函数关系式:,某农场种植小麦5000亩,收获前夕随机抽取25亩进行实割实测,测得平均亩产500千克,标准差为50千克,试求全部5000亩小麦的平均亩产在480千克至520千克之间的概率。,例:,例:,500,合计,35 127 185 103 42 8,825 875 925 975 1025 1
6、075,800850 850900 900950 9501000 10001050 10501100,灯泡数量f(个),组中值x (小时),耐用时间 (小时),以99.73%的置信概率为标准,计算抽样平均数的抽样平均误差和抽样极限误差。,某灯泡厂在某一时期内大量生产某种型号的灯泡。现采用 随机抽样的调查方式,进行质量检查,其结果:,解:由样本资料:,抽样平均误差,由于,抽样极限误差:,例:某企业生产一批灯泡,共10 000只,随机抽取500只作耐用实验。测算结果平均使用寿命为5 000小时,样本标准差为300小时,500只中发现10只不合格。求平均数和成数的抽样平均误差。解 A. 样本平均数的
7、抽样平均误差:采用重复抽样方法:,采用不重复抽样方法:,B. 样本成数的抽样平均误差:,设成数为不合格率,则样本成数,采用重复抽样方法:,采用不重复抽样方法:,参数估计就是利用实际调查计算的样本指标值来估计相应的总体指标数值。,第三节 参数估计,一、直观的例子-说明样本与总体的关系,设某一总体N=5, 抽取n=2的样本,列出所有的可能样本组合.,平均数抽样分布,总体平均数和总体方差,样本平均数的平均数和样本平均数的标准差,结论:,样本平均数的平均数和总体平均数的关系:,抽样平均误差和总体方差的关系:,二、抽样推断的理论依据,1、大数定律(Law of large numbers)回答:样本平均
8、数的变动趋势?只有掌握足够多的数据,现象的规律才能充分体现出来(随着样本单位数 n 的增加,样本平均数接近于总体平均数的趋势,几乎具有实际必然性)。,为什么可以由样本估计总体?,2、中心极限定理 (central limited theorem),回答:样本平均数与总体平均数的差距有多大? 如果总体变量存在有限的平均数和方差,那么,不论这个总体的分布如何,随着样本容量的增加,样本平均数的分布趋于正态分布。,三、抽样指标分布的性质,1、样本平均数 的抽样分布的性质,若总体服从正态分布 ,样本平均数服从正态分布。若样本容量足够大,不论总体的分布形式如何,样本平均数的抽样分布近似于服从正态分布。,(
9、1)总体方差 已知的情况下:,若总体服从正态分布 ,样本平均数服从正态分布。若样本容量足够大,不论总体的分布形式如何,样本平均数的抽样分布近似于服从正态分布。,(2)总体的方差 未知的情况下:,当总体服从正态分布时,样本平均数的分布服从t分布当总体为非正态总体时,只要样本足够大,样本平均数服从t分布。,2、样本成数 p 的抽样分布的性质,从总体中抽取一个容量为 n 的样本,,样本成数的平均数为P, 方差为 若 则认为样本成数服从正态分布。,四、参数估计,参数估计有点估计和区间估计两种: 1、点估计的基本特点: 根据总体指标的结构形式设计样本指标作为总体参数的估计量,并以样本估计量直接作为相应总
10、体参数的估计值。 点估计的优良标准是无偏性、一致性和有效性。,评价点估计量优劣的准则:无偏性有效性一致性,根据给定的概率保证程度的要求,利用实际抽样资料,指出总体被估计值的上限和下限,即指出总体参数可能存在的区间范围,而不是直接给出总体参数的估计值。 总体参数区间估计根据给定的概率保证程度的要求,利用实际抽样资料,指出被估计值的上限和下限,即指出总体参数可能存在的区间范围。 总体参数区间估计必须同时具备点估计值、抽样误差范围和概率保证程度三个要素。,2、区间估计的基本特点:,区间估计的内容包括总体平均数和总体成数的估计。,例:某学校进行一次英语测验,为了解学生的考试情况,随机抽选部分学生进行调
11、查,所得资料如下:,8,40,22,20,10,学生人数,90分以上,8090,7080,6070,60分以下,考试成绩,试以95.45%的可靠性估计该校学生英语考试平均成绩的范围及该校学生成绩在80分以上的学生所占的比重的范围。,解:,列表计算如下:,(1)该校学生英语考试的平均成绩的范围:,该校学生考试的平均成绩的区间范围是:,(2)该校学生成绩在80分以上的学生所占的比重的范围,在95.45概率保证程度下,该校学生成绩在80分以上的学生所占的比重的范围在38.01%57.99%之间。,80分以上学生所占的比重的范围:,这是在简单抽样条件下进行区间估计的例题。 从上面解法中,我们可以总结出
12、这类计算题的基本做法: 先计算出样本指标; 然后根据所给条件(重复抽样或不重复抽样、样本平均数或成数分布情况)进行抽样平均误差的计算,抽样极限误差的计算; 最后根据样本指标和极限误差进行区间估计。,从某年级学生中按简单随机抽样方式抽取40名学生,对公共理论课的考试成绩进行检查,得知其平均分数为7875分,样本标准差为1213分,试以9545%的概率保证程度推断全年级学生考试成绩的区间范围。如果其它条件不变,将允许误差缩小一半,应抽取多少名学生?,解:40 78.56 12.13 t=2,(),=,例:,x t21.923.84 全年级学生考试成绩的区间范围是:,()将误差缩小一半,应抽取的学生
13、数为:,学习本节应从以下三个方面来把握:,一、总体参数的点估计,总体参数点估计的特点:,总体参数优良估计的标准,无偏性,一致性,有效性,二、总体参数的区间估计,区间估计三要素,估计值,抽样误差范围,概率保证程度,总体参数区间估计的特点:,三、总体参数区间估计的方法,(一)根据给定的抽样误差范围,求概率保证程度,分析步骤: 1、抽取样本,计算抽样指标。 2、根据给定极限误差范围估计总体参数的上限和下限 3、计算概率度。 4、查表求出概率F(t),并对总体参数作出区间估计。,(二)根据给定的概率F(t),推算抽样极限误差的可能范围,分析步骤: 1、抽取样本,计算样本指标。 2、根据给定的F(t)查
14、表求得概率度 t 。 3、根据概率度和抽样平均误差计算极限误差。 4、计算被估计值的上、下限,对总体参数作出区间估计。,一、简单随机抽样 样本单位数的计算方法:通过抽样极限误差公式计算必要的样本单位数。,重复抽样:,不重复抽样:,抽样平均数,抽样成数,第四节 抽样组织设计,抽样平均误差,重复抽样,不重复抽样,等比例抽样 的情况下,二、类型抽样:先对总体各单位按主要标志加以分组,然后再从各组中按随机的原则抽选一定单位构成样本。,三、等距抽样:先按某一标志对总体各单位进行排队,然后依一定顺序和间隔来抽取样本单位的一种组织形式。 四、整群抽样:将总体各单位划分成许多群,然后从其中随机抽取部分群,对中
15、选群的所有单位进行全面调查的抽样组织形式。,(一)确定抽样样本容量的必要性样本容量就是抽样的数目。根据大数定律,在抽样调查中样本容量越多,样本对总体的代表性越大,抽样误差越小;样本容量减少,抽样误差就要增大。但同时,抽样数目越多,抽样调查的费用也越高,而且还会影响到调查的时效性。因此,确定样本容量时,应在保证满足抽样调查对数据的估计精确度和概率把握程度(置信度)下,尽量缩小抽样数目,即确定必要抽样数目。,五、样本容量的确定,(二)影响样本容量的因素,1、总体被研究标志的变异程度 总体被研究标志的变异程度大,则应抽取较多的样本单位; 总体被研究标志的变异程度小,则可抽取较少的样本单位。,2允许的
16、误差范围:即要求的估计精度。如果允许的误差范围小,即要求的精确度高,应抽取较多的样本单位;反之应抽取较少的样本单位。 3抽样推断的可靠程度:抽样推断要求的可靠程度越高,则应抽取的样本单位越多;要求的可靠程度越低,则应抽取的样本单位越少。,4、抽样方法 5、抽样的组织形式,在简单随机抽样中,必要抽样数目的计算公式有: 1、重复抽样条件下:,(三)必要抽样数目的计算,平均数的必要抽样数目:,成数的必要抽样数目:,对某型号电子元件10000只进行耐用性能调查。据以往抽样测定,求得耐用时数的标准为600小时。试在重复抽样条件下: 概率保证程度为6827,元件平均耐用时数的误差范围不超过150小时,要抽取多少元件做检查?,例:,(2)根据以往抽样检查知道,元件合格率为95,合格率的标准差为21.8,要求在99.73的概率保证下,允许误差不超过4,试确定重复抽样所需抽取的元件数目是多少?,2、在不重复抽样条件下:,平均数的必要抽样数目:,成数的必要抽样数目:,