1、浦国华,第六章 抽样估计,本章要求学生明确抽样推断的含义、特点和作用。了解有关的基本概念,重点掌握抽样误差的含义、影响因素及其计算。了解抽样估计的基本方法和步骤;抽样方案设计的基本原则。全面掌握简单随机抽样的平均误差计算方法和样本容量确定方式,了解其它各种抽样组织方式的含义及平均误差的计算。,引言,抽样调查中得到的是样本标志值,但我们想知道的是总体指标值。抽样推断简单而言就是用抽样调查得到的样本抽样指标(统计量)去推断总体指标(参数),推断不是随便推,需要用相应的估计方法(点估计或区间估计)。一个总体可以抽出多个样本,每个样本抽样指标值都不一样,所以用样本去推断总体必然会因为样本的代表性不同而
2、产生不同的抽样误差,当然对于遵循随机原则的抽样调查抽样误差可以计算。我们希望样本推出的总体指标 “值”(或值的范围-置信区间)有一定准确性(和真实值越靠近)也有一定可靠性(显著性水平或对得出值得把握程度)。为了达到这个目的,我们要通过不同的抽样组织形式抽出有代表性的样本,同时要求样本量达到一定的大小。,甄别条件,本次调研甄别条件,常规甄别条件,酸奶调查(总体中抽取样本),知道哪些品牌第一提及,抽样指标推断总体指标(该处假设访问的消费者(抽取样本量)为100,抽样标准误差为最大,可靠度为95%)=(0.5*0.5/100)1/2=0.05, pp =2*0.05=0.1,pp0.4440. 1,
3、抽样估计内容体系介绍,一、抽样推断的定义,1、抽样推断的意义:抽样推断是在抽样调查的基础上,利用样本的实际资料计算样本指标,并据以推算总体相应数量特征的一种统计分析方法。2、抽样推断的定义:在根据随机原则从总体中抽取部分实际数据的基础上,运用数理统计方法,对总体某一现象的数量性作出具有一定可靠程度的估计判断。,一、抽样推断的定义,3、抽样推断的特点:它是由部分推算整体的一种研究方法;它是建立在随机抽样的基础上;它是运用概率估计方法;其误差可以事先计算并加以控制。4、抽样推断的主要内容为:参数估计和假设检验,二、抽样的几个基本概念,(一)、全及总体和样本总体全及总体是我们所要研究的对象,而样本总
4、体则是我们所要观察的对象,两者是有区别而又有联系的不同范畴。 全及总体又称母体,简称总体,它是指所要认识的,具有某种共同性质的许多单位的集合体,一般用N表示。 样本总体又称子样,简称样本,是从全及总体中随机抽取出来,代表全及总体的那部分单位的集合体。样本总体的单位数总是有限的,通常用小写英文字母n来表示。 如果说对于一次抽样调查,全及总体是唯一确定的,那么样本总体就不是这样,样本是不确定的,一个全及总体可能抽出很多个样本总体。,二、抽样的几个基本概念,(二)、全及指标(参数)和抽样指标(统计量)根据全及总体各个单位的标志值或标志属性计算的,反映总体某种属性或特征的综合指示称为全及指标。常用的全
5、及指标有总体平均数(或总体成数)、总体标准差(或总体方差 )。由样本总体各单位标志值计算出来反映样本特征,用来估计全及指标的综合指标称为统计量(抽样指标)。统计量是样本变量的函数,用来估计总体参数,因此与总体参数相对应,统计量有样本平均数(或抽样成数)、样本标准差(或样本方差 )。对于一个问题全及总体是唯一确定的,所以全及指标也是唯一确定的,全及指标也称为参数,它是待估计的数。而统计量则是随机变量,它的取值随样本的不同而发生变化。,二、抽样的几个基本概念,样本平均数样本成数样本标准差,二、抽样的几个基本概念,(三)、样本容量和样本个数样本容量是指一个样本所包含的单位数。通常将样本单位数不少于个
6、的样本称为大样本,不及个的称为小样本。社会经济统计的抽样调查多属于大样本调查。随着样本容量的增大,样本对总体的代表性越来越高,并且当样本单位数足够多时,样本平均数愈接近总体平均数。 样本个数又称样本可能数目。指从一个总体中可能抽取的样本个数。样本的个数和样本容量有关,也和抽样方法有关。一个总体有多少样本,则样本统计量就有多少种取值,从而形成该统计量的分布,此分布是抽样推断的基础。,二、抽样的几个基本概念,(四)、抽样方法重复抽样和不重复抽样(这里需考虑顺序)重复抽样:也称回置抽样,从总体N个单位中,用重复抽样的方法,随机柚取n个单位构成一个样本,则共可抽取 个样本。举例:从1、2、3中重复抽取
7、2个数字组成新的数,可以组成多少个数。(有11,12,13,21,22,23,31,32,33,一共9个)不重复抽样:也称不回置抽样,从总体N个单位中,用不重复抽样的方法,抽取n个单位样本,全部可能抽取的样本数目为N(N-1)(N-n+1) 个。重复抽样的样本个数总是大于不重复抽样的样本个数。举例:从1、2、3中不重复抽取2个数字组成新的数,可以组成多少个数。(有12,13,21,23,31,32,一共6个),三、抽样误差,抽样误差的定义: 是指由于随机抽样的偶然性因素使样本不足以代表总体而引起的样本指标和总体指标之间的绝对离差。如样本平均数与总体平均数之间绝对离差,样本成数与总体成数之间的绝
8、对离差。应该指出,抽样误差是随机变量,不同的样本有不同的抽样误差,并且每一次抽样的实际误差大小是不知道的。但是根据样本分布规律,可以计算其平均误差。 误差种类:抽样平均误差 抽样极限误差,三、抽样误差,抽样平均误差: 抽样平均误差是反映抽样误差一般水平的指标,它的实质含义是指抽样平均数(或成数)的标准差。即它反映了抽样指标与总体指标的平均离差程度。通常用抽样平均数的标准差或抽样成数的标准差来作为衡量其抽样误差一般水平的尺度。抽样平均误差的作用首先表现在它能够说明样本指标代表性的大小。平均误差大,说明样本指标对总体指标的代表性低;反之,则说明样本指标对总体指标的代表性高。 通常有用 或 表示。,
9、三、抽样误差,抽样平均误差计算公式,三、抽样误差,重复抽样的抽样平均误差1.抽样平均数的平均误差2.抽样成数的平均误差,三、抽样误差,不重复抽样的平均误差1.抽样平均数的平均误差:2.抽样成数的平均误差:,三、抽样误差,上述公式的几点说明1.计算平均误差需要掌握总体标准差,但这只有全面调查才能取得,一般用样本标准差代替总体标准差。2.不重复抽样公式中,三、抽样误差,影响抽样平均误差的因素:1.总体标志变异程度;2.样本容量;3.抽样方法(重复和不重复);4.抽样组织形式 .,三、抽样误差,抽样极限误差: 抽样极限误差是指用绝对值形式表示的样本指标与总体指标偏差的可允许的最大范围。它表明被估计的
10、总体指标有希望落在一个以样本指标为基础的可能范围。它是由抽样指标变动可允许的上限或下限与总体指标之差的绝对值求得的。由于总体平均数和总体成数是未知的,它要靠实测的抽样平均数成数来估计。因而抽样极限误差的实际意义是希望总体平均数落在抽样平均数的范围内,总体成数落在抽样成数的范围内。通常用 或 表示。,三、抽样误差,抽样极限误差等于样本指,抽样极限误差计算公式,三、抽样误差,抽样误差的概率度 (t)把抽样极限误差与抽样标准误差 所得的相对数称抽样误差的概率度,用t表示。它是测定抽样估计可靠程度的一个参数。 基于理论上的要求,抽样极限误差需要用抽样平均误差或为标准单位来衡量。即把极限误差 x或 p相
11、应除以或得出相对的误差程度t倍,t称为抽样误差的概率度。,三、抽样误差,于是有:,四、抽样估计方法,抽样估计 就是利用实际调查计算的样本指标值来估计相应的总体指标数值。是表明总体数量特征的参数,也称为参数估计。抽样估计有点估计和区间估计两种 参数点估计的基本特点: 根据总体指标的结构形式设计样本指标作为总体参数的估计量,并以样本指标的实际值直接作为相应总体参数的估计值。点估计的优良标准是无偏性、一致性和有效性。,四、抽样估计方法,估计的准确性(精度) 抽样估计的置信度是表明抽样指标和总体指标的误差不超过一定范围的概率有多大。概率:指在随机事件进行大量试验中,某种文件出现的可能性大小,它通常可以
12、用某种事件出现的频率来表示。各种概率保证程度和抽样误差的概率度t是密切联系,并随t增大而增大。它是t的函数,用 F(t)表示。抽样误差范围和估计置信度是密切不可分离的,而且抽样误差范围小,则估计的置信度也愈小。,四、抽样估计方法,参数区间估计的基本特点: 根据给定的概率保证程度的要求,利用实际抽样资料,指出总体被估计值的上限和下限,即指出总体参数可能存在的区间范围,而不是直接给出总体参数的估计值。总体参数区间估计必须同时具备估计值、抽样误差范围和概率保证程度三个要素。抽样误差范围决定估计的准确性,而概率保证程度则决定估计的可靠性。至于区间估计方法视给定的条件可以根据已知的抽样误差求概率程度;范
13、围也可以根据已知的置信度要求,推算抽样误差的可能范围。 区间估计的内容包括总体平均数和总体成数的估计。,四、抽样估计方法,例1、某学校进行一次英语测验,为了解学生的考试情况,随机抽选部分学生进行调查,所得资料如下:试以95。45%的可靠性估计该校学生英语考试的平均成绩的范围及该校学生成绩在80分以上的学生所占的比重的范围。,四、抽样估计方法,解:(1)该校学生英语考试的平均成绩的范围: x t 21.13772.2754该校学生考试的平均成绩的区间范围是: - x x76.62.275476.62.275474.3278.89,四、抽样估计方法,(2)该校学生成绩在80分以上的学生所占的比重的
14、范围pp20.049960.0999280分以上学生所占的比重的范围:pp0.480.099920.38010.5799在95.45概率保证程度下,该校学生成绩在80分以上的学生所占的比重的范围在38.01%57.99%之间。注:这是在简单抽样条件下进行区间估计的例题。从上面的解法中,我们可以总结出这一类计算题的基本做法:先计算出样本指标,然后根据所给条件(重复抽样或不重复抽样)进行抽样平均误差的计算,抽样极限误差的计算,最后根据样本指标和极限误差进行区间估计,四、抽样估计方法,例2从某年级学生中按简单随机抽样方式抽取40名学生,对公共理论课的考试成绩进行检查,得知其平均分数为7875分,样本
15、标准差为1213分,试以9545%的概率保证程度推断全年级学生考试成绩的区间范围。如果其它条件不变,将允许误差缩小一半,应抽取多少名学生?,四、抽样估计方法,解:40 78.56 12.13 t=2 () = x tx21.923.84全年级学生考试成绩的区间范围是: - x x78.563.8478.563.8474.9182.59 ()将误差缩小一半,应抽取的学生数为:,五、抽样组织形式,简单随机抽样(单纯随机抽样):按随机原则直接从总体N个单位中抽取n个单位作为样本,保证总体中每个单位的中选机会相等。它是最基本也是最简单的抽样组织形式,它适用于均匀分布的总体。,五、抽样组织形式,所抽单位数的计算公式:,五、抽样组织形式,等距抽样(机械抽样或系统抽样):按某一标志对总体各单位进行排队,然后依一定顺序和间隔来抽取单位。作为排队的标志可以是无关标志,也可以是有关标志,但要注意避免抽样间隔与现象本身的周期性节奏相重合,引起系统误差的影响。它适用于均匀分布的总体,且抽样误差一般小于简单随机抽样的误差。等距抽样的方法有半距中点取样和对称等距取样两种。,五、抽样组织形式,