1、分层抽样抽样技术作为现代统计学科体系的重要组成部分,被广泛运用到社会实践当中。自从 1895 年挪威首任中央统计局局长凯尔在伯尔尼第五届国际统计学会会议上提出所谓“代表性调查”的抽样方法以来,经过 100 多年的理论探讨和时间积累,抽样理论更加科学,抽样技术日臻完善。抽样又称取样。其原理是从研究的全部样品中抽取一部分样品单位。从被抽取样品单位的分析、研究结果来估计和推断全部样品特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。基本的抽样技术包括简单随机抽样,系统抽样,分层抽样,多阶段抽样等。在实际的抽样调查中我们常常会根据调查成本,调查规模等结合运用各种抽样方法进行实
2、践。分层抽样是通过对总体单位进行分类,即分成若干子总体,子总体之间比较相似,使每一个字总体的方差变小,这样只需要在子总体中抽取少量样本单位,就能很好地代表子总体的特征,从而提高对整个总体估计的精度。分层抽样需要事先知道各层权重,但在现实情况下有些资料无法提前预知。这时我们可以先从总体中抽取一个大的初始样本,从而获得有关的辅助信息,然后再从初始样本中抽取一个字样本,这种方法就是双重抽样。其定义为,当简单性状与复杂性状存在关系时可用抽取简单性状来间接估计复杂性状的抽样方法。结合分层抽样的双重抽样方法即为分层的双重抽样。分层抽样,的主要特点就是可以提高估计精度,它不但能对总体进行估计。同时可以对各层
3、子总体进行估计。如此便于实际中抽样的组织和实施。下面我们就分层抽样方法展开讨论,运用实例分析进行比较。1、分层抽样的原理简介在抽样之前,先将总体 N 个单位划分成 L 个互不重复的子总体,每个子总体成为层,他们的大小分别为 ,这 L 层构成整个总体( ) 。.,321 1lhN然后,在每个层中分别独立地进行抽样。1-1、分层抽样的总体均值估计在分层抽样中,对总体均值 的估计是通过对各层 的估计,安权层 加权YhYhW平均得到的,公式为 11l lsthhWN如果得到的是分层随机样本,则总体均值 的简单估计为Y11l lsthhyWyNy估计量的性质有性质 1:对于一般的分层抽样,如果 是 的无
4、偏估计(h=1,2,3,L),则hY是 的无偏估计。 的方差为stYstY21()()lst hhVV在分层抽样中只要对各层估计是无偏的,则对总体的估计也是无偏的。因此,各层可以采用的不同的抽样方法,只要相应的估计量是无偏的则对总体的推算也是无偏的。性质 2:对于分层随机抽样, 是 的无偏估计, 的方差为styYsty性质 3:对于分层随机抽样, 的一个无偏估计为()stVy22211(l lhst hh fvWvsn1-2、分层抽样总体总值的估计总体总值 的估计量为Y1lsthYNY如果得到的是分层随机样本,则总体总值 的简单估计为sty估计量的性质有性质 1:对于一般的分层抽样,如果 是
5、的无偏估计,则 是 的无偏估stYY计。 的方差为Y2211()()()()l lst hhhVYNV性质 2:对于分层随机抽样 的方差为222211()()()l lhst hh fyyNSn性质 3:对于分层随机抽样, 的一个无偏估计为VY222211()()()l lhst hh fvYNvs1-3、样本量的分配分层抽样中,需要研究总样本量 n 一定时各层应该分配多少样本量。因为对总体进行估计时,估计量的方差不仅与各层的方差有关,还与各层所分配的样本量有关。实际工作中根据实际需要选取分配方法。分配方法 1:比例分配22211()l lhst hh fS比例分配指的是按各层单位数占总体单位
6、数的比例,也就是按各层的权层进行分配,即或 hhnNWhnffN这时 h对于分层抽样,总体均值 的估计量是 ,总体比例 P 的估计量是Yproy, 的方差为 , 的方差为1lprohanproy 21()lprohfVSnpro。21()l lhr hhfNPQfVWPn分配方法 2:最优分配最优分配是指在分层随机抽样中,如何将样本量分配到各层,使得在总费用给定的条件下,估计量的方差达到最小;或在给定估计量方差的条件下,使得费用最下,能满足这个条件的样本量分配就是最优分配。如果考虑简单线性费用函数,总费用 。01lhCcn这时的最有分配是(h=1,2,L)11hhllhhWSNncc估计量方差
7、为 2111()ll lhopts hhSVyWcSnN得出的结论为,如果某一层单位较多,内部差异较大,费用比较省,则对这一层的样本分配要多分配一些。这样得到的估计量方差称为最优方差。分配方法 3:尼曼分配对于分层随机样本,作为特例,如果每层抽样的费用相同,即 时,最hc优分配可简化为(h=1,2,3,L)11hhhllWSNnnS这种分配称为尼曼分配。这时, 达到最小,称为最小方差。()stvy22min11()l lsthhVWN二、抽样设计思路和实施方法通过运用软件随机数生成的方法来对分层抽样方法进一步阐述,这里需要用到 Excel 随机数生成和抽样的基本方法,对于分层抽样而言,需要对随
8、机生成的数据进行分组,然后再每层进行简单随机抽样即可。层的划分原则为,层内单位具有相同性质,通常暗点查对象的不同类型进行划分;尽可能使层内单位的标志值相近,层间单位的差异尽可能大,从而达到提高抽样估计精度的目的;既按类型又按层内单位标志相近的原则进行多重分层,达到提高估计值以及提高估计精度的目的。2-1、抽样设计的基本思路1. 调查对象(总体):用随机数生成的模拟数据总体2. 基本抽样方法:分层随机抽样3. 精度确定:置信水平为 95%4. 抽样工具和方法:excel 随机数据生成器和抽样函数5. 估计量的性质分析6 .样本最优分配的确定7.分层抽样设计的效果分析2-2、抽样的实施1.总体数据
9、的生成点击 excel2003 菜单栏中的“工具”“数据分析” ,在选择对话框中“随机数发生器”,选择“随机数发生器” ;在弹出窗口中变量个数选择 2,随机个数取100 个,分布类型选择“正态” ,平均值为 50,标准差为 4。通过上述方法可以得到 200 个随机数据,再对数据进行调整(见附录) 。2.对随机抽样的数据进行实例模拟假设这 200 个数据是来自于某地区月水电费支出,以居民户为抽样单位,根据家庭可支配收入划分 4 层,每层按简单随机抽样抽取 10 户,用 Excel 随机抽样方法得到如下结果: 表 2-1样本户月水电费支出情况/元层户数 1 2 3 4 5 6 7 8 9 101
10、10046.36 47.05 52.70 52.55 45.54 51.86 50.24 50.23 51.03 52.55 2 15048.73 48.73 51.83 57.42 55.90 50.95 48.73 53.40 50.95 52.70 3 20051.03 49.93 49.87 44.51 52.09 44.54 54.56 48.84 56.75 56.75 4 25046.61 54.56 50.55 44.22 49.66 52.85 49.87 48.73 49.06 44.88 3.总体均值与总体总量的估计由上表 2-1 的模拟数据可以分别计算下面的结果,如下表
11、所示:表 2-2hhnhNhWhfhyhWy2hs1 10 100 0.1429 0.1000 50.0107 7.4616 7.42492 10 150 0.2413 0.0667 51.9358 12.6256 9.02403 10 200 0.2857 0.0500 50.8889 14.5390 18.99004 10 250 0.3571 0.0040 49.1006 17.5338 10.5354合计 40 700 1.0000 52.16 根据上表可以结算得到如下结果:52.16(元)41sthyWy0.343742421()()hsthsvfn0.37.5863sty95%的置
12、信区间为 。式子, =1.96。经计算:平均家庭的月水电费的()tstvt95%的置信区间为(51.0109,53.3091)元。4.样本量的分配以下采用比例分配、最优分配和尼曼分配量中样本量分配方法对随机抽取的数据进行实例模拟,采用的数据同样也来自于分层随机抽取的样本,如下所示:表 2-3样本户月水电费支出情况/元层户数 1 2 3 4 5 6 7 8 9 101 30 50.24 57.97 49.87 51.83 51.74 49.41 50.29 50.41 57.42 55.79 2 50 44.44 46.61 43.85 57.42 57.42 47.67 50.55 44.44
13、 47.37 51.05 3 120 47.37 55.79 50.80 39.74 50.18 57.54 45.20 53.03 49.04 50.11 (1)比例分配由上表数据得=30, =50, =120, =2001N23N30n各层的层权与抽样比为:0.33331.5W1nfN20.N20.f0.053.63nf各层样本的均值及方差如下表所示:52.4959 11iniy= 10.76121s12()niiy以此类推, 49.0822 =25.1716 2 2s49.8801 =26.2549 3y3从而,50.0730(元)1sthWy按比例分配时,各层的样本量为10.546n2
14、3.2即各层的样本量分别为 6,10,24。(2)最优分配对于最优分配,假设 , =49, ,则可以得到总的成本费用函数为:125c310c301hCn最优分配是1139.68240.17hNScn因此 =6.729 7,同样的可以得到 , 。12n321此时的样本估计量的方差为=2333111()hopts hhWScVycWSnN0.576(3)尼曼分配根据比例分配的计算结果,我们可以得到10.5.760.492s2153W3.0.4920+1.2543+3.0744=4.82071hs因此按尼曼分配时,各层应分配的样本量为1130.492.847hWsn故 12.290 23.82352
15、3n即各层的样本量分别为 4,12,24.三、分层随机抽样设计效果分析分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。与其他抽样方法相比较,分层抽样是一种很重要的抽样技术,在那些区域跨度很大的例如全球性、全国性的调查中尤其受到瞩目。因为它有其自身的许多优点(1)由于抽样在每一层中独立进行,所以一方面各层可以选择适合本层的不同抽样方法;另一方面可同时对各层进行参数估计,而不单是对整个总体的参数进行估计。这在大区域且依托行政管理机构实施的调查里优势更为明显。如:我国城镇居民的消费支出情况的全国性调查,如果按照省级行政区进行分层,一方面每个省只需负责该省的调查工作,可以根据具体情况采用适合与自身的抽样方法;另一方面可以得到各省级行政区的人均年收入水平。(2)由于每层都进行抽样,这使得样本在总体中分布更加均匀、更具代表性。例如为了解我国的人均年收入水平,倘若采用简单随机抽样的方法来实施调查,对于某些人口数较少省市或民族地区,很可能会出现样本量过小甚至没有样本点的现象。(3)由于各层的总方差因单元之间差异小而肯定小于整个总体的方差,而抽样精度与此成正比,所以分层可以提高参数估计的精度。事实上,只要准确选择分层依据的指标,则分层抽样的精度可以高于简单随机抽样,也可以高于其他抽样方式。所以分层抽样在抽样调查实践中