收藏 分享(赏)

第四章整群抽样 很重要的一章.ppt

上传人:weiwoduzun 文档编号:5727688 上传时间:2019-03-15 格式:PPT 页数:78 大小:315KB
下载 相关 举报
第四章整群抽样 很重要的一章.ppt_第1页
第1页 / 共78页
第四章整群抽样 很重要的一章.ppt_第2页
第2页 / 共78页
第四章整群抽样 很重要的一章.ppt_第3页
第3页 / 共78页
第四章整群抽样 很重要的一章.ppt_第4页
第4页 / 共78页
第四章整群抽样 很重要的一章.ppt_第5页
第5页 / 共78页
点击查看更多>>
资源描述

1、第四章 整群抽样 Cluster Sampling,第四章 整群抽样,教学目的通过本章的教学,使学生明确整群抽样的定义与特点;掌握群规模相等时的估计与群规模不等时的估计方法;了解总体比例的估计 。,重点与难点本章的重点是群规模相等时的估计与群规模不等时的估计方法;难点是群规模相等时的估计与群规模不等时的估计方法。,本章结构,假设省教育厅想了解西安中学生的体质状况,抽样调查是既省钱又省时的办法,显然西安地区的中学生均是总体的单元,从全体学生中随机无放回地抽取若干样本是理想的概率抽样方法,但是编制全体中学生的抽样框本身是件麻烦事,况且一个合理的有代表性的样本一般应该遍布全市,在对如此分散的中学生样

2、本逐个进行访问,其工作量之大可想而知。一个方便的方法是在西安地区按学校抽样,在抽得的几所学校中对该校所有中学生进行普遍调查。这就是本章要讲述的整群抽样。,若总体可分为N个群(也称为初级抽样单元,用PSU表示),每个初级单元包含若干个次级单元(也称二级抽样单元,用SSU表示)。按照某种方式从总体中抽取n个初级单元,对这些单元中的所有二级单元全部进行调查。这种抽样方法称为整群抽样。,黄色为总体 蓝色为样本 红色为群 白点为基本单元,整群抽样事例:,4.1 引言,一、整群抽样的定义与特点 (一)定义整群抽样(cluster sampling)是将总体划分为若干群,然后以群(cluster)为抽样单元

3、,从总体中随机抽取一部分群,对中选群中的所有基本单元进行调查的一种抽样技术。,例如,对某城市居民进行生活水平调查,如果不是从全部城市住户中直接抽选住户进行调查,而是从城市全部居民委员会中随机抽选若干居委会,对被抽中的居委会所有住户都进行调查,这就是整群抽样。该城市的每一居委会就是一群。,再如,对连续生产的企业,每小时都抽选10分钟生产的全部产品进行调查。那么,每10分钟生产的全部产品就是一群。如果一天24小时连续生产,生产的全部产品构成总体,则总体有144群,样本有24群。,抽样过程可以分为以下几个步骤:,在实际工作中,整群抽样方法被广泛采用。例如,在社会经济调查中的人口调查、家计调查、农林牧

4、业调查以及工业产品质量检验等等都经常采用整群抽样调查。,采用整群抽样调查的原因有二:,其一是在某些情况下,往往由于不适合采用一个个地抽取样本单位,不得不采用整群抽样。例如,某些工业产品的质量检验,事实上不能逐个抽取样本单位来进行,只能在某一时间内,成批地抽取产品来检验。,其二,即使抽样调查能够一个个地取样,但由于经济的考虑也会选择整群抽样。例如,职工家庭生活水平调查中,如果不是以居委会为群进行整群抽样调查,而是以居民户为单位抽样,这些被抽到的居民户一般分散地居住,必然增加交通费、延长调查时间等。所以出于对工作时间、经费等客观条件的考虑,也得采用整群抽样调查。,采用整群抽样调查的原因有二:,(二

5、)整群抽样的特点,1、调查单位比较集中,进行调查比较方便,可以减少调查人员来往于调查单位之间的时间和费用。例如,在进行农村居民户收入情况调查时,在一个县抽千分之五的村庄,对其所有居民户进行调查,明显地比从全县直接抽千分之五的农户进行调查,更便于组织,节省人力、旅途往返时间及费用。,(二)整群抽样的特点,2、设计和组织抽样比较方便。例如,调查农村居民住户,不必列出农村所有居民住户的抽样框,可以利用现成的行政区域,如县、乡、村,将农村划分为若干群,这给抽样设计方案带来很大方便。尤其是对那些无法事先掌握总体单位情况的总体,采用整群抽样更为合适。,然而,整群抽样由于调查单位只能集中在若干群上,而不能均

6、匀分布在总体的各个部分,因此,它的精度比起简单随机抽样来要低一些。,例如,在一个有500个村庄、100000个农户的县,抽取1的农户就是1000户,而抽1的村庄则 只有5个村庄,也许抽到的5个村庄农户多于1000, 但由于样本单位只集中在5个村庄,显然不如在 全县范围内简单随机抽取1000户分布均匀,代表性 一般要差一些,抽样误差较大。,当然我们可以通过多抽几个群来弥补这一缺陷,但最关键的一条还是在于总体内群的划分。为了使整群抽样的样本具有一定的代表性,应当使群与群之间尽可能地差异小,而群内单元之间的差异应当大(注意:这一点与分层抽样中总体内层的划分有着极大的差别),这意味着每个群均具有足够的

7、代表性。如果划分的群相互之间颇多相似之处,那么少量群的抽取足以提供良好的精度。一个总体划分成多少个群,每个群的规模大小如何又是一个新问题,通常我们面临的总体会有自然的初级单元,例如本章开头所说的各所中学它们互相之间关于学生的体质很相似,但在一个学校里每个学生之间有一定的差异。,二、群的划分(一)群的划分一类是根据行政或者是地域形成的群体,如学校、社区、企业等;另一类就是调查人员人为的确定的。,(二)分群的原则: 群内差异尽可能大,群间差异尽可能小当总体划分为若干个群以后,总体方差可以分为群间方差和群内方差两个部分,这两个部分是此消彼长的关系。群间方差大,则群内方差小;反之,群间方差小则群内方差

8、大。由于整群抽样是对抽中群内所有单元都进行调查,因此影响整群抽样误差大小的主要是群间方差。可见,整群抽样是和分层抽样是针对不同总体结构而提出的两种不同的抽样方式。,三、群的规模群的规模是指组成群的单元的数量。在整群抽样中,群的规模具有相当的灵活性。群的规模大,估计的精度差但费用省;群的规模小,估计的精度比较高但费用大。在实践中,群的规模大小,涉及很多因素:结构、精度、费用、调查组织实施、管理等问题。群的规模又有两种情况:一是总体中的各个群规模相等;二是总体中各个群的规模不等。,一、符号说明N: 总体群数(PSU数)n: 样本群数Yij: 总体第i群的第j单元数值yij: 样本中第i群的第j单元

9、数值Mi: 第i群规模(单元个数,即SSU数量)本节中,M1 M2 MN M,4.2 群规模大小相等时的估计,4.2 群规模大小相等时的估计,M0: 总体单位总数Yi: 总体中第i群的总值yi: 样本中第i群的总值Y : 总体总值,: 总体中第i群的个体均值: 样本中第i群的个体均值: 总体中的群总值的均值: 样本中的群总值的均值,4.2 群规模大小相等时的估计,: 总体中的个体均值(各群Mi M ): 样本中的个体均值(总体均值的估计),4.2 群规模大小相等时的估计,: 总体方差: 总体群间方差: 总体群内方差,4.2 群规模大小相等时的估计,: 样本方差: 样本群间方差: 样本群内方差,

10、4.2 群规模大小相等时的估计,二、估计量 1. 均值估计量 SRS,群规模相同,均为M,则 的估计为:总值估计量,4.2 群规模大小相等时的估计,4.2 群规模大小相等时的估计,2. 估计量 的性质性质1: 是 的无偏估计,即因为是按简单随机方法抽取群,所以样本群均值 是总体群均值 的无偏估计,因而,性质2: 的方差为,4.2 群规模大小相等时的估计,已知 ,又 故,4.2 群规模大小相等时的估计,性质3: 的样本估计为 因为 是的 无偏估计,所以 是 的无偏估计,4.2 群规模大小相等时的估计,总体总值 据此,可直接推出其估计量及相应的方差,4.2 群规模大小相等时的估计,三、整群抽样效率

11、分析 群内相关系数 表达式为:上式中的分子为(P119),4.2 群规模大小相等时的估计,上式中的分母为:故 又可写为:,4.2 群规模大小相等时的估计,事实上, 的方差可用群内相关系数近似表示,4.2 群规模大小相等时的估计,简单随机抽样的方差公式为由此可计算出等群抽样的设计效应为,4.2 群规模大小相等时的估计,整群抽样的估计效率,与群内相关系数 的关系密切当 1时,deffM当 0时,deff1当 为负时,deff1的取值范围是,群内方差为,群内方差与总体方差相等,群间方差为,4.2 群规模大小相等时的估计,群内相关系数也可由样本统计量 估计例一,4.2 群规模大小相等时的估计,当N很大

12、,而M相对于NM很小时,,i,240,187,162,185,206,197,154,173 188.00 27.19210,192,184,148,186,175,169,180 180.50 17.98149,168,145,130,170,144,125,167 149.75 17.32202,187,166,232,205,263,198,210 207.88 29.17210,285,308,198,264,275,183,231 244.25 45.20394,256,192,280,267,334,216,289 278.50 63.87192,121,172,165,152,2

13、24,195,241 182.75 38.77230,205,187,176,212,253,189,240 211.50 27.48274,208,195,307,264,258,210,309 253.13 44.52232,187,150,182,175,212,169,222 191.13 28.29342,294,267,309,258,198,244,286 274.75 43.70228,294,182,312,267,254,232,298 258.38 43.52,解: 已知N510,n12,M8,fn/N=0.0235 故,4.2 群规模大小相等时的估计,4.2 群规模大小

14、相等时的估计,于是 的置信度为95的置信区间为也即,例2 由例1数据,计算群内相关系数与设计效应 解:由前已算出样本群间方差而群内方差为,4.2 群规模大小相等时的估计,4.2 群规模大小相等时的估计,若 令为简单随机抽样的样本量 则即可达到整群抽样96户样本量相同的估计 精度,4.2 群规模大小相等时的估计,4.3 群规模不等时的估计,当群Mi规模不等时,有不同的抽取方法和估计方法 一、等概抽样,简单估计 对总体均值 的估计为可以看出,此公式与上节(1)式同的方差估计为,4.3 群规模不等时的估计,此法特点 估计量 是有偏的 操作简便,易于掌握和使用 适用条件,群之间的规模差异不大时,4.3

15、 群规模不等时的估计,二、等概抽样,加权估计 思路:以群规模Mi为权数,得到群总和yi,进而求得群总和均值 ,再除以群平均规模,4.3 群规模不等时的估计,估计公式为:若 未知,可用样本群平均规模 代替,4.3 群规模不等时的估计,总体总量Y的估计为总量估计的另一公式为,4.3 群规模不等时的估计,估计量的方差为它的无偏估计为均值估计 的方差为,4.3 群规模不等时的估计,三、等概抽样,比率估计 总体均值估计为这里辅助变量不是Xi而是群规模Mi 总体总量估计为,4.3 群规模不等时的估计,估计量的方差分别是,4.3 群规模不等时的估计,与 的样本估计分别是,4.3 群规模不等时的估计,4.3

16、群规模不等时的估计,四、与群规模成比例不等概率抽样估计 按与Mi成比例的PPS抽样 每次第i群入选概率为 根据汉森赫维茨估计量和 是 和 的无偏估计,4.3 群规模不等时的估计,估计量的方差为,4.3 群规模不等时的估计,五、案例分析 背景:某县有33个乡,726个村,该年度 某种作物总种植面积30525亩,现采用等概抽样 随机抽出10个乡,要求估计全县总产量,计算 抽样误差。调查资料如下:,样本乡 编号,村庄数Mi,作物总产量(乡)yi(万公斤),种植面积(乡)xi(亩),1 2 3 4 5 6 7 8 9 10,15 18 26 14 20 28 21 19 31 17,22.0 22.8

17、 30.2 21.7 25.3 31.2 26.0 20.5 33.8 23.6,800 780 1000 700 880 1100 850 800 1200 830,1.4667 1.2667 1.1615 1.55 1.265 1.1143 1.2381 1.079 1.0903 1.3882,合计 209 257.1 8940 ,4.3 群规模不等时的估计,分别采用几种方法估计 1. 等概抽样,简单估计,4.3 群规模不等时的估计,评价:方法虽简单,却是有偏估计。,4.3 群规模不等时的估计,2. 等概抽样,加权估计,4.3 群规模不等时的估计,评价:虽是无偏估计量,但方差估计没有改观。

18、,4.3 群规模不等时的估计,3. 等概抽样,比率估计,评价:有偏,n较大时比较理想。,4.3 群规模不等时的估计,4. 其它辅助变量的估计已知:种植面积X30525(亩)用种植面积为辅助变量评价:和 相比, 更小, 因而有更好的估计效果。选择关系密切的辅助变量。,例2 有下列资料,分厂编号 职工人数 Mi 累积区间,1 2 3 4 5 6 7 8,1200 450 2100 860 2840 1910 390 3200,11200 12011650 16513750 37514610 46117450 74519360 93619750 975112950,4.3 群规模不等时的估计,n3,

19、采用PPS抽样,随机抽取的3个数为02011,07972,10281。调查结果如下:,4.3 群规模不等时的估计,故置信区间为估计总量,4.4 总体比例的估计,令 ai 为第i群中具有某特征的单位数为第群中的比例 srs方法抽取n群,对总体比例P进行估计 一 群规模相等时的估计,4.4 总体比例的估计,M为每群中的单位数。M1M2=M 规模相等为 的无偏估计,4.4 总体比例的估计,二、群规模不等时的估计 Mi不等,srs方法抽取群为比估计形式式中 为群平均规模,4.4 总体比例的估计,例题:,群(i) 居民数(Mi) 女性人数(ai) 群 (i) 居民数(Mi) 女性人数(ai),1 2 3

20、 4 5 6 7 8 9 10 11 12 13,8 12 4 5 6 6 7 5 8 3 2 6 5,4 7 1 3 3 4 4 2 3 2 1 3 2,14 15 16 17 18 19 20 21 22 23 24 25,10 9 3 6 5 5 4 6 8 7 3 8,5 4 1 4 2 3 1 3 3 4 0 3,合计 151 72,4.4 总体比例的估计,以95的置信区间估计该小区女性的置信区间,并同简单随机抽样方法进行比较。 这是群规模不等的比例估计,4.4 总体比例的估计,置信区间,4.4 总体比例的估计,若采用简单随机抽样,抽151人,其中女性72人,估计为,设计效应:,4.4 总体比例的估计,还可进一步计算群内相关系数,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报