收藏 分享(赏)

分层随机抽样.doc

上传人:11xg27ws 文档编号:6882292 上传时间:2019-04-25 格式:DOC 页数:17 大小:871.50KB
下载 相关 举报
分层随机抽样.doc_第1页
第1页 / 共17页
分层随机抽样.doc_第2页
第2页 / 共17页
分层随机抽样.doc_第3页
第3页 / 共17页
分层随机抽样.doc_第4页
第4页 / 共17页
分层随机抽样.doc_第5页
第5页 / 共17页
点击查看更多>>
资源描述

1、分层随机抽样一、定义在抽样之前,先将总体 N 个单元划分成 L 个互不重复的子总体(不重不漏) ,每个子总体称为层,它们的大小分别为 ,这个层合起来就是整个N,21总体 ,然后在每个层中分别独立地进行抽样,这种抽样就是分层抽样,LhN1所得到的样本称为分层样本。如果每层都是独立按照简单随机抽样进行,则称为分层随机抽样 二、作用分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高。这是因为分层抽样估计量的方差只和层内方差有关,和层间方差无关。分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。层内抽样方法可以不同,而且便于抽样工作的组织。分层随机抽样的三个必要条件:(1)每层都抽;(2

2、)各层都独立地抽;(3)各层的抽样都是简单随机抽样。以分层抽样代替简单随机抽样的理由具体可以总结为以下几个方面:(1)由于每层都进行抽样,这使得样本在总体中分布更加均匀、更加具有代表性。(2)由于抽样在每一层中独立进行,所以一则允许各层选择适合本层的不同抽样方法;二则可同时对各子总体(层)进行参数估计,而不单是对整个总体的参数进行估计。 (3)由于各层的总体方差因单元之间差异小而肯定小于整个总体的方差,而抽样精度与此成正比,所以分层抽样可以提高参数估计的精度。三、分层原则总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个层或不属于任何一个层。(1)估计:层内单元具有相同性质,通

3、常按调查对象的不同类型进行划分。(2)精度:尽可能使层内单元的指标值相近,层间单元的差异尽可能大,从而达到提高抽样估计精度的目的。(3)估计和精度:既按类型、又按层内单元指标值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。(4)实施:抽样组织实施的方便,通常按行政管理机构设置进行分层。例如,对全国范围汽车运输的抽样调查,调查目的不仅要推算全国货运汽车完成的运量,还要推算不同经济成分(国有、集体、个体)汽车完成的运量。为组织的方便,首先将货运汽车总体按省分层,由各省运输管理部门负责省内的调查工作。其次各省再将省内拥有的汽车按经济成分分层。最后为提高抽样效率,再对汽车按吨位分

4、层。例如,某高校对学生在宿舍使用电脑的情况进行调查,根据经验,本科生和研究生拥有电脑的状况差异较大。因此,在抽样前对学生按本科生和研究生进行分层是有必要的。四、符号说明符号 hihNhnhiYhiy代表的含义下标“第 h 层”下标“层内单位号” 第 h 层的单位总数第 h 层的样本数第 h 层第 i 个总体单元的取值第 h 层第 i 个样本单元取值符号 hWhfhYhy公式 NhnNihi1nihi1代表的含义 第 h 层的层权 第 h 层的抽样比 第 h 层的总体均值 第 h 层的样本均值符号 hYhy2hS2hs公式 hNihi1hnihi1 1)(2hNiiY1)(2hniiyh代表的含

5、义 第 h 层的总体总量 第 h 层的样本总量 第 h 层的总体方差 第 h 层的样本方差五、总体均值的简单估计量及其性质分层抽样首先根据各层的样本计算出各层的均值 的某个适当的估计值 ,hYhY然后由层估计 对总体层权 的加权平均得到总体均值 的估计,即:hYhWLhLhst NY11对于分层随机抽样来说,由于每层中的抽样都独立地按照简单随机抽样进行, 就取为 h 层的样本均值 ,设将 的简单估计记为 ,则有hY hystyLhLhst NW11定理 1:对于分层随机抽样,由于 是 的无偏估计,所以 是 得无偏估计。Y stY即 ; 的方差为:Est)(st LhhstVW12)()(注!只

6、要对各层估计无偏,则总体估计也无偏.各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对总体的推算也是无偏的.)证明定理 1:由于对每一层有 ,因此有hY)(LhhLhst YEWEY11)()() YNYNLhLhLh 111的方差, ,由于各层st LhkkhkLhLhst CovWVV1121 ),()()()是独立抽取的,因此上式第二项中的协方差全为 0,从而有 LhhstYVY12)()(定理 2:对于分层随机抽样, 是 的无偏估计,即: ;styYyEst的方差为:styLhhLhst SnfWV12212证明定理 2:对于分层随机抽样,各层独立进行简单随机抽样,对每一层有

7、,hYy因此,由定理 1,有 。由第二章定理 2,可得 ,因此有YyEst2hhSnfyLhhLhst SnfWVy12212定理 3:对于分层随机抽样, 的一个无偏估计为:styVLhhLhst snfWvv12212证明定理 3:对于分层随机抽样,各层独立进行简单随机抽样,由第二章定理 3,得的无偏估计为: ,因此, 的一个无偏估计为:hyV2hhsnfyvstyVLhhLhst nfWv12212其中, = 是第 h 层样本的样本方差。2hshnihiy12)(六、对总体总量的估计总体总量 的估计为:YLhstYN1如果得到的是分层随机样本,则总体总量的简单估计为: styNY定理 4:

8、对于一般的分层抽样,如果 是 的无偏估计,则 是 的无偏估计。stY的方差为:Y LhstYVNYV12)()()( LhhLhYVNWN1212)()(定理 5:对于分层随机抽样, 的方差为: LhhLh Snfy12212)(定理 6:对于分层随机抽样, 的一个无偏估计为:)(YVLhhLh snfNyvv12212例 1:调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为 4 层,每层按简单随机抽样抽取 10 户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及估计的标准差。层 居民户总数样本户奶制品年消费支出1 2 3 4 5 6

9、7 8 9 101 200 10 40 0 110 15 10 40 80 90 02 400 50 130 60 80 100 55 160 85 160 1703 750 180 260 110 0 140 60 200 180 300 2204 1500 50 35 15 0 20 30 25 10 30 25120.71885NW240.1358NW3.632045.2601.5nfN21.nfN40.67f30.375f1139.5niiyy2105y 316y 42y1221164.7niis26.723805.s24193.s065567149.041 hyNY 84122122

10、12 1093.5)( hhLhhLh snfNsnfNyvYv308s2965)(Yt七、对总体比例的估计对于分层随机抽样,总体比例 P 的简单估计量: LhstpW1对于分层随机抽样,如果 是 的无偏估计( ) ,则 是 的hp,2 stP无偏估计即 。则 的方差为:pEst)(st LhhstpVp1对于分层随机抽样, 是 的无偏估计, ,stPhhnQN,因而 的方差为:hhN1stpLhhhLhhst PpVWp1212LhhhnQPN12LhhnQf12对于分层随机抽样, 的一个无偏估计为:stpVLhhLhhst snfvWpv12212 LhhnqpfW121例 2:在例 3.

11、1 的调查中,同时调查了居民户拥有家庭电脑的情况,获得如下数据(单位:台) ,要估计该地区居民拥有家庭电脑的比例及估计的标准差。层 居民户总数样本户拥有家庭电脑情况1 2 3 4 5 6 7 8 9 101 200 0 0 0 1 0 0 0 1 0 02 400 0 1 0 0 0 0 0 0 1 03 750 1 1 0 0 0 0 1 0 1 04 1500 1 0 0 0 0 0 0 0 0 0解:由上表可得, ; ; ;2.p.4.3p.对各层层权及抽样比的计算结果:120.71885NW240.1358NW3.632045.2601.5nfN21.nfN40.67f30.375f各

12、层估计量的方差: 110.9pqvpfn2210.17pqvpfn33.26f44.9f因此,该地区居民拥有家庭电脑比例的估计为: 4141hhst pNpW= 2.0)154.072.40.2(8501 估计量的方差为: 412hhst pvNpv= 05.)9.150263.7503.0169.20(851 22 估计量的标准差为: .)()(ststpv八、各层样本量的分配在分层随机抽样中,样本量在各层中的不同分配方式会对估计量的精度产生一定的影响,这一方面是由于层的规模大小不同或在总体中所占有的“地位”不同,另一方面是因为各层的层内方差 不同。这些都会影响估计量的精度。2hS从分层随机

13、抽样中总体均值估计量的方差表达式 可LhLhst NSWnyV1212)(以看出,等式右端第一项与各层样本量 有关,同时还与 相关。那么hn2的分配遵循怎样的规则才能使 尽可能小,有以下几种分配思路:(1)hn )(styV常数分配;(2)与层内方差 成比例的分配;(3)与层权 成比例的分配;2hS2hW(4)与 成比例的分配。实际研究表明,等额分配的效果相对较差;与层2hSW内方差 成比例的分配适用于要求每层的估计量都达到相当精度的情况;与层权 成比例的分配(比例分配)和与 成比例的分配(内曼最有分配)效2h 2hSW果相对较好。例 3:调查某地区的居民奶制品年消费支出,以居民户为抽样单元,

14、根据经济及收入水平将居民户划分为 4 层,每层按简单随机抽样抽取 10 户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及估计的标准差。按照 分配hnw层 居民户数 权数 方差 hs常数分配 与权数 成比例hW与 成正比hS1 200 0.070175 1624 10 3 32 400 0.140351 2166 10 6 73 750 0.263158 8205 10 11 234 1500 0.526316 193 10 20 7九、按比例分配按各层单元数占总体单元数的比例,也就是按各层的层权进行分配.hhWNnfNnfh对于分层随机抽样,按比例分配总体均值的估计是:(

15、 与 是一个意思)proyst(自加权)LhnihiLhLhpro yyny1111 niLnihi11可以从上式看出,此时总体均值 的估计量就是样本均值 。由此可推出总体Yy总量 的估计: , 为 个样本总量。Y fNdefyyNLhniipropro1(注!总体中的任一个单元,不管它在哪一个层,都以同样的概率入样,因此按比例分配的分层随机样本,估计量的形式特别简单。这种样本也称为自加权的样本。 )对于分层随机抽样,按比例分配总体比例的估计是: Lhproan1 LhhLhhhLhpro SWfSnfWyVyV 121212所以有: NSWnyVLhhLhpro1212)(LhhLhhpro

16、 QPfNQPf 112十、最优分配在分层随机抽样中,如何将样本量分配到各层,使得总费用给定的条件下,估计量的方差达到最小,或给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。设总费用函数为: ,式中 为总费用; 为与样本量无关LhTncC10TC0c的固定费用; 为在第 h 层中抽取单元的平均费用。从该式中可以看出,只有hc是与各层样本量 有关的费用。我们的目标是同时权衡费用和方差两个Lhnc1 hn指标,在方差给定时使费用尽可能小,或在费用给定时使方差尽可能小,因此构造目标函数如下: 式中, 代表总费)()(120 LhTNSWVcCV)(0cCT用中受各层样本

17、量 影响的部分; 代表方差中受各层样本量hn)(12Lh影响的部分。hn1、对于分层随机抽样,若费用函数为 ,则最有分配为:LhncC10LhhLh cSNcSWn11由此得出如果某一层单元数较多、内部差异较大、费用比较省则对这一层的样本量要多分配一些。2、内曼分配如果每层抽样的费用相同,最优分配可简化为: LhLhSNnWSn11这种分配称为 Neyman 分配。这时, 达到最小。 styVLhLhst SWNSnyV1212min证明: Lhhst SfWyV122min LLhnhf112LhLhLhNnS1112)( LhhLh SNS1112)(LhLhLh SWnn11212)(所

18、以: LhLhst NyV1221min)((续例 3) ,如果样本量仍为 40,则按比例分配和 Neyman 分配时,各层的样本量应为多少?按比例分配时,各层的样本量为: 10.718402.1nW20.1435.61nW532633 05224按 Neyman 分配,各层的样本量为:826.7.14078.1 s 3.67.1035.2 s3052633W 81964W517.038.7.2.68.41 hs所以有: ; ; ;9.517.4041hsn 4.62n3.2323.74n十一、某些层要求大于 100%抽样时的修正 按最优分配时,有时抽样比 f 较大,某个层的 又比较大,则可能

19、出现按hS最优分配计算的这个层的样本量 超过 的情况。实际工作中,如果第 k 层hnhN出现这种情况,最优分配是对这个层进行 100%的抽样,即取 ,然后,将kNn剩下的样本量 按最优分配分到各层。kn例 4:假设某个模拟的总体分为四层, 和 的值列在表中,假定样本量为hNSn=100,该如何进行内曼最有分配? hhh hSN1 6 500 30002 20 600 120003 300 20 60004 500 30 15000总计 826 36000解:第一步,根据表中的数据计算内曼最优分配下各层的样本量。( ,所以83.36014111 hhsNn hWN)4141hhsWs而 =6,可

20、见 ,因此令 ;NNn61Nn第二步,将 个待分配的样本量再按照内曼最优分配的原则分配到第9412 层到第 4 层。则 ,而 ,3418.30294)(4212 hsn 20N可见 ,因此,再令 , 。2Nn61N2n第三步,将 个待分配的样本量再按照内曼最优分配的原则分配到7421n第 3 层和第 4 层。 ,而214.210674)(43213 hsn,可见 。且03N3Nn, ,也满足538.210574)(43214 hsn 40N。4Nn第四步,确定各层最终所分配的样本量。 , , ,61n2013n534第五步,计算此时总体均值估计量 的最小方差。sty LhLhst SWNSny

21、V1212min)(= 9.78354.07.)3086530(8650826374 222 从本例可以看出,对于可能需要进行 100%抽样的问题来说,正确的做法是逐步逐层进行计算,一旦发现计算出来的 ,则令 ,然后调整剩下的样本量,将剩下的样hnhn本量在剩余各层中进行最优分配,直到各层所分配的样本量 都不超过该层的 为止。hnhN十二、总样本量的确定1、精度要求是以 的上限 V 的形式给出的:)(sty-(1)LhLhNSWn1212(或者精度要求以 的绝对误差限 d 的形式给出 )sty2tdV(或者精度要求以 的相对误差限 r 的形式给出 )st Yr2、确定样本量分配: ,将表达式带

22、入上(1)式可得:hhwn由该式可以求得:LhLhNSWwnV1212 NSWVwnh23、比例分配: ,hNSVnh2实际工作中,n 的计算可以分为两步,先计算: ,然后进行修正VSnh20N014、内曼分配: ,hhSWwNSVnh2续例 3,如果要求在 95%置信度下,相对误差不超过 10%,则按比例分配和Neyman 分配时,总样本量分别为多少? (1)按比例分配时的总样本量。 210624.71.0685NWs240216.7304.985NWs3 5934495= 2hS.9.732850/NYyst, 6.146.157302tyrVs 2.19086.420Vsnh总样本量:

23、79285/.9/0Nn(2)按 Neyman 分配时的总样本量。总样本量: 10285/.6790.14/)(2 SWVh十三、最优分配需要考虑费用给定 V 时, ; ;LhncC10LhhcSw1NSWnhhh2)(给定 C 时, ;hcKLhhLhSWcKncC110 LhhScCK10(第 h 层需要的样本量)hLhcSWn10所以: LhhLhhSNcCScCn1010 )()(十四、总体参数为 P 的情形 当方差给定时,如果 都比较大,使得 ,则总样本量为:hNhh1、比例分配; ; NQPWVnhVQPWnh0 Nn012、内曼分配 NPnh2(计算样本量之前,需要对 作预估计)

24、h续例 2:如果要求在 95%置信度下,绝对误差不超过 5%,则按比例分配和Neyman 分配时,总样本量分别为多少?解: ;0651.9.122tdV 142.0NQPWhh(1)按比例分配时;.2065.40QPWnh 62850/.1/10n(2)按 Neyman 分配时 37.1hhN1962850/14.065.)(2 QPWVnh十五、分层时的若干问题 1、抽样效果分析通常分层抽样比简单随机抽样的精度要高。对于固定样本量的情况,如果相对 1 可以忽略,则hNsrprotV(opt 最优分配,prop 比例分配,srs 常数分配)(注!如果各层均值差异越大,则采用按比例分配的方式较好

25、;而当各层的标准差相差很大时,则最优分配更好。在调查多个目标变量时,按比例分配的分层抽样可能更好些。 )2、层的划分(1)最优分层按调查目标量进行分层当然是最好的,但我们在调查之前并不知道的值,因此,分层只能是通过与高度相关的辅助指标来进行。累积平方根法:戴伦纽斯(Dalenius)与霍捷斯(Hodges)提出的,它的做法是将分层变量(例如)分布的累积平方根进行等分来获得最优分层。例 5:某地区电信部门在对利用电话上网的居民家庭安装 ADSL 意愿进行调查时,以辖区内最近三个月有电话上网支出的居民用户为总体(上网电话费为 0.02 元/分钟),并准备按上网电话费支出(记为)进行分层,试确定各层

26、的分点。f2f10f范围 频数 累计根号f05 65328 255.5934 255.5934510 89240 298.7306 554.32411015 36128 190.0737 744.39771520 77525 278.4331 1022.8312025 62407 249.8139 1272.6452530 24591 156.8152 1429.463040 24586 221.7476 1651.2084050 9582 138.4341 1789.6425060 15761 177.5444 1967.1866070 8099 127.2714 2094.4577080

27、5676 106.5458 2201.0038090 3453 83.10235 2284.10690100 4256 92.2605 2376.366100150 1246 111.6244 2487.99150200 800 89.44272 2577.433200250 365 60.41523 2637.848250300 90 30 2667.848300350 35 18.70829 2686.557350400 5 7.071068 2693.628400450 12 10.95445 2704.582450 7 8.3666 2712.949最终累计频数是 2712.949,如

28、果取层数为 4,则应每隔 2712.949/4=678.237 分一层,因此分点应该使得累计 最接近 678.237、1357.474、2034.712,即较f合理的分层是70。(2)层数的确定因为要保证每个层有样本单元,因此层数不能超过样本量 n,如果要给出估计量方差的无偏估计,则每层至少两个样本单元,那么层数不能超过 n/2。(层数的增加确实能提高估计精度)以最简单的情形为例, 是区间 上的均匀分布,则总体方差 ,样iYd122dSy本量为 的简单随机抽样简单估计量的方差为 。将总体分成大n )1()(2ndyV小相同的 层,并按比例分配样本量,即 , ,则:LLWhh221212 )()

29、( yndLnSWyVhhhst 除非 与 的相关系数 ,层数一般不超过 6 为宜。YX95.0十六、事后分层 实际工作中,进行事先分层会存在一定困难,例如,没有层的抽样框,总体特别大来不及事先分层,几个变量都适合于分层,要进行事先的交叉分层比较困难,并且我们并不需要交叉分层后每个子层的估计,如需要按年龄分层的结果,还需要按受教育程度分层的结果,但并不需要这两个指标的交叉结果,出现离群值,为了提高估计精度,可采用事后分层。使用事后分层技术时,应注意事后层不宜太多。设简单随机样本 ,事后分n层落到第 层的样本量 ,则有 (n 足够大时是无偏估计)hhnLhpstyWy1( 固定并且都大于 0)L

30、hLhpst SNSWyV1212h其中 ihihY122)(LhhLhpst SWnSnfyVE1221 LhhproSWnV122上式中,第一项就是按比例分配分层抽样估计量的方差,第二项表示因事后分层而非事先按比例分配分层引起的方差增加量。只要样本量足够大,事后分层的精度与按比例分配事先分层的精度相当。 如果样本是按某一个辅助指标分层后抽取的,只要这个事先分层抽样是严格按比例分配进行的,则这个样本是自加权的,总体中每个单元被抽中的概率相同,我们可以将这个样本看作简单随机样本,分别对其它指标进行事后分层估计。 例 6:某高校欲了解在校学生用于课外进修(如各种考证辅导班、外语辅导班等)的开支,

31、在全校 8000 名学生中抽出了一个 200 人的简单随机样本,根据学生科的统计,本科生人数为全校学生的 70,调查最近一个学期课外进修支出(元)的结果如下:层 h 层权 hW样本量 hn样本均值 hy样本标准差 hs本科 0.7 120 253.4 231研究 0.3 80 329.4 367合计 1 200 283.8 294.57试估计全校学生用于课外进修的平均开支。解:全校学生用于课外进修的平均开支为:=0.7253.4+0.3329.4=276.2(元)LhpstyWy1估计的方差为: LhhLhpst snsnfyv1221= 381.83)367.013.(0)367.07.(205.1 222估计的标准差为: 19.54(元)(psty如果采用简单估计,则估计的方差为: 01.42357.920.1snfyv估计的标准差为: 20.57(元)(y

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报