1、2019/2/11,1,第三章 分层随机抽样,第一节 分层随机抽样的定义、使用场合以及符号 第二节 估计量及其性质 第三节 样本量的分配原则 第四节 样本量的确定 第五节 分层抽样的若干问题,2019/2/11,2,第一节 引 言,一、定义在抽样之前,先将总体N个单元划分成L个互不重复的子总体,每个子总体称为层,它们的大小分别为 ,这个层合起来就是整个总体 ,然后,在每个层中分别独立地进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。 如果每层都是独立按照简单随机抽样进行,则称为分层随机抽样,不重不漏,2019/2/11,3,作用,分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高
2、。这是因为分层抽样估计量的方差只和层内方差有关,和层间方差无关。 分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。 层内抽样方法可以不同,而且便于抽样工作的组织。,2019/2/11,4,二、分层原则: 总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个层或不属于任何一个层。,1.估计:层内单元具有相同性质,通常按调查对象的不同类型进行划分。 2.精度:尽可能使层内单元的指标值相近,层间单元的差异尽可能大,从而达到提高抽样估计精度的目的。 3.估计和精度:既按类型、又按层内单元指标值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。 4.实施:抽样
3、组织实施的方便,通常按行政管理机构设置进行分层。,2019/2/11,5,例题,例如,对全国范围汽车运输的抽样调查,调查目的不仅要推算全国货运汽车完成的运量,还要推算不同经济成分(国有、集体、个体)汽车完成的运量。 为组织的方便,首先将货运汽车总体按省分层,由各省运输管理部门负责省内的调查工作。 各省再将省内拥有的汽车按经济成分分层。 为提高抽样效率,再对汽车按吨位分层。 例如,某高校对学生在宿舍使用电脑的情况进行调查,根据经验,本科生和研究生拥有电脑的状况差异较大。 因此,在抽样前对学生按本科生和研究生进行分层是有必要的。,2019/2/11,6,三、符号说明 (关于第h层的记号 ),层号,
4、2019/2/11,7,第二节 估 计 量,一、对总体均值的估计 分层样本,总体均值 的估计分层随机样本,总体均值 的简单估计,2019/2/11,8,估计量的性质,性质1:对于一般的分层抽样,如果 是 的无偏估计( ),则 是 的无偏估计。 的方差为:只要对各层估计无偏,则总体估计也无偏。 各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对总体的推算也是无偏的。,2019/2/11,9,证明性质1,由于对每一层有因此,估计量的方差由于各层是独立抽取的,因此上式第二项中的协方差全为0,从而有,2019/2/11,10,性质2:对于分层随机抽样, 是 的无偏估计, 的方差为:,2019/
5、2/11,11,证明性质2:,对于分层随机抽样,各层独立进行简单随机抽样,对每一层有因此,由性质1,有由第二章性质2,得因此,2019/2/11,12,性质3:对于分层随机抽样, 的一个无偏估计为:,2019/2/11,13,证明性质3:,对于分层随机抽样,各层独立进行简单随机抽样,由第二章性质3,得 的无偏估计为:因此, 的一个无偏估计为:,2019/2/11,14,二、对总体总量的估计,总体总量 的估计为: 如果得到的是分层随机样本,则总体总量的简单估计为:,2019/2/11,15,2.估计量的性质,性质4:对于一般的分层抽样,如果 是 的无偏估计,则 是 的无偏估计。 的方差为:,20
6、19/2/11,16,性质5:对于分层随机抽样, 的方差为:,2019/2/11,17,性质6:对于分层随机抽样, 的一个无偏估计为:,2019/2/11,18,例3.1,调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及估计的标准差。,2019/2/11,19,2019/2/11,20,2019/2/11,21,三、对总体比例的估计,总体比例P的估计为: 估计量的性质,性质7:对于一般的分层抽样,如果 是 的无偏估计 ( ),则 是 的无偏估计。 的方差为
7、:,2019/2/11,22,性质8:对于分层随机抽样, 是 的无偏估计,,因而 的方差为:,2019/2/11,23,性质9:对于分层随机抽样, 的一个无偏估计为:,2019/2/11,24,例3.2,在例3.1的调查中,同时调查了居民户拥有家庭电脑的情况,获得如下数据(单位:台),要估计该地区居民拥有家庭电脑的比例及估计的标准差。,2019/2/11,25,解:由上表可得,根据前面对各层层权 及抽样比 的计算结果,可得各层估计量的方差:因此,该地区居民拥有家庭电脑比例的估计为:估计量的方差为:估计量的标准差为:,2019/2/11,26,第三节 样本量在各层的分配,确定样本量:总的样本量,
8、各层样本量 估计量的方差不仅与各层的方差有关,还和各层所分配的样本量有关。 实际工作中有不同的分配方法,可以按各层单元数占总体单元数的比例分配,也可以采用使估计量总方差达到最小、费用最小。,2019/2/11,27,【例3.1】,调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及估计的标准差。,2019/2/11,28,2019/2/11,29,2019/2/11,30,一、比例分配,按各层单元数占总体单元数的比例,也就是按各层的层权进行分配.对于分层随机抽
9、样,这时总体均值的估计是,自加权,2019/2/11,31,总体中的任一个单元,不管它在哪一个层,都以同样的概率入样,因此按比例分配的分层随机样本,估计量的形式特别简单。这种样本也称为自加权的样本。,总体比例的估计是,2019/2/11,32,二、最优分配,(一)最优分配 在分层随机抽样中,如何将样本量分配到各层,使得总费用给定的条件下,估计量的方差达到最小,或给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。,2019/2/11,33,对所有层成立时, 达到极小,常数,2019/2/11,34,简单线性费用函数,总费用由此得出下面的行为准则,如果某一层 单元数较多
10、 内部差异较大 费用比较省 则对这一层的样本量要多分配一些。,2019/2/11,35,(二)Neyman(内曼)分配,如果每层抽样的费用相同,最优分配可简化为这种分配称为Neyman分配。这时,达到最小。,2019/2/11,36,2019/2/11,37,例3.3,(续例3.1),如果样本量仍为40,则按比例分配和Neyman分配时,各层的样本量应为多少? 按比例分配时,各层的样本量为:,2019/2/11,38,对于Neyman分配,,2019/2/11,39,某些层要求大于100%抽样时的修正,按最优分配时,有时抽样比f较大,某个层的 又比较大,则可能出现按最优分配计算的这个层的样本量
11、 超过 的情况。 实际工作中,如果第 k 层出现这种情况,最优分配是对这个层进行100%的抽样,即取 ,然后,将剩下的样本量 按最优分配分到各层。,2019/2/11,40,第四节 样本量的确定,令 当方差 给定时,2019/2/11,41,当按比例分配时, 实际工作中,n的计算可以分为两步,先计算: 然后进行修正:,2019/2/11,42,当按Neyman分配时,,2019/2/11,43,例3.4,(续例3.1),如果要求在95%置信度下,相对误差不超过10%,则按比例分配和Neyman分配时,总样本量分别为多少?,=267,2019/2/11,44,当按Neyman分配时:,2019/
12、2/11,45,二、最优分配需要考虑费用时,给定V时,2019/2/11,46,给定C时,2019/2/11,47,三、总体参数为P的情形,当方差给定时,如果 都比较大,使得,则总样本量为 (一)按比例分配,2019/2/11,48,(二)Neyman分配计算样本量之前,需要对 作预估计。,2019/2/11,49,例3.5,(续例3.2),如果要求在95%置信度下,绝对误差不超过5%,则按比例分配和Neyman分配时,总样本量分别为多少?按比例分配时:,2019/2/11,50,Neyman分配时:,2019/2/11,51,第五节 分层时的若干问题,一、抽样效果分析 通常分层抽样比简单随机
13、抽样的精度要高. 对于固定样本量的情况,如果 相对1可以忽略如果各层均值差异越大,则采用按比例分配的方式较好; 而当各层的标准差相差很大时,则最优分配更好。 在调查多个目标变量时,按比例分配的分层抽样可能更好些。,2019/2/11,52,2019/2/11,53,二、层的划分,(一)最优分层 按调查目标量进行分层当然是最好的,但我们在调查之前并不知道的值,因此,分层只能是通过与高度相关的辅助指标来进行。 累积平方根法:戴伦纽斯(Dalenius)与霍捷斯(Hodges)提出的,它的做法是将分层变量(例如)分布的累积平方根进行等分来获得最优分层,,2019/2/11,54,例3.6,某地区电信
14、部门在对利用电话上网的居民家庭安装ADSL意愿进行调查时,以辖区内最近三个月有电话上网支出的居民用户为总体(上网电话费为0.02元/分钟),并准备按上网电话费支出(记为)进行分层,试确定各层的分点。,2019/2/11,55,不等距,2019/2/11,56,最终累计频数是2712.949,如果取层数为4,则应每隔2712.949/4=678.237分一层,因此分点应该使得累计 最接近678.237、1357.474、2034.712,即较合理的分层是70。,2019/2/11,57,(二)层数的确定,因为要保证每个层有样本单元,因此层数不能超过样本量n,如果要给出估计量方差的无偏估计,则每层
15、至少两个样本单元,那么层数不能超过n/2。,2019/2/11,58,层数的增加确实能提高估计精度,以最简单的情形为例,是区间 上的均匀分布,则总体方差,样本量为 的简单随机抽样简单估计量的方差为 。将总体分成大小相同的 层,并按比例分配样本量,即 则,2019/2/11,59,除非 与 的相关系数 ,层数一般不超过6为宜。,2019/2/11,60,三、事后分层,实际工作中 没有层的抽样框 总体特别大来不及事先分层 几个变量都适合于分层,要进行事先的交叉分层比较困难,并且我们并不需要交叉分层后每个子层的估计,如需要按年龄分层的结果,还需要按受教育程度分层的结果,但并不需要这两个指标的交叉结果
16、。 出现离群值 提高估计精度,2019/2/11,61,使用事后分层技术时,还应注意事后层不宜太多。 简单随机样本,事后分层落到第层的样本量h,nh固定并都大于0的条件下,n足够大时,为无偏估计,2019/2/11,62,第一项就是按比例分配分层抽样估计量的方差,第二项表示因事后分层而非事先按比例分配分层引起的方差增加量。 只要样本量足够大,事后分层的精度与按比例分配事先分层的精度相当。,2019/2/11,63,如果样本是按某一个辅助指标分层后抽取的,只要这个事先分层抽样是严格按比例分配进行的,则这个样本是自加权的,总体中每个单元被抽中的概率相同,我们可以将这个样本看作简单随机样本,分别对其它指标进行事后分层估计。,2019/2/11,64,例3.7,某高校欲了解在校学生用于课外进修(如各种考证辅导班、外语辅导班等)的开支,在全校8000名学生中抽出了一个200人的简单随机样本,根据学生科的统计,本科生人数为全校学生的70,调查最近一个学期课外进修支出(元)的结果如下:,2019/2/11,65,试估计全校学生用于课外进修的平均开支。,2019/2/11,66,解:全校学生用于课外进修的平均开支为:(元) 估计的方差为:381.83 估计的标准差为: 19.54(元)如果采用简单估计,则估计的方差为:估计的标准差为: 20.57(元),