1、5.1 不等概抽样,一、概念与特点,前面所学的简单随机抽样,总体中的每个单元具有同样的入样概率,它是等概率抽样。 与等概率抽样对应的另一类方法是不等概抽样,也就是在抽样前赋予总体每个单元一个入样概率.一般而言,每个单元的入样概率是由该单元在整体中的地位来确定的.因此每个单元的入样概率可能是不相同的.,什么时候使用不等概抽样? 实际工作中,如果遇到下面几种情况,则可以考虑使用不等概抽样: 1、抽样单元在总体中所占的地位不一致 2、调查的总体单元与抽样总体的单元不一致 3、改善估计量,不等概抽样的优点: 提高估计精度,减少抽样误差。,二、不等概抽样的种类,1、放回不等概抽样首先给整体的每一个单元赋
2、予一个确定的入样概率(通常是不相等的),然后在总体中对每个单元按入样概率进行抽样,抽取出来的样本单元记录后又放回总体,再进行下一次的抽样,很显然每次抽样都是独立的。,放回不等概抽样中,最常用的是按照整体单元的规模大小来确定单元在每次抽样时的入样概率,假设总体中第i个单元的规模度量为 ,总体的总规模为 每次抽样中,第i个单元被抽中的概率用 表示,其中,这种不等概抽样称作放回的与规模大小成比例的概率抽样(probability proportional to size),简称PPS抽样。实际问题中,总体单元大小的度量往往不止一个,比如企业员工数量、产值、销售量、利润等都可以度量企业规模的大小。PP
3、S抽样的实施主要有两种方法:代码法和拉希里(Lahiri)法,下面我们用一个实例分别介绍这两种方法。,则代码m所对应的单元被抽中。,(1)代码法,【例5.1】设某个总体有N=10个单元,相应的单元大小 及其代码数如下表,我们要在其中产生一个n=3的样本.,先在1,738中产生一个随机数为354,再在1,738中产生第二个随机数为553,最后产生第三个随机493。则它们所对应的第5,7,6号单元被抽中。,(2)拉希里法,令 每次抽样都分别产生,因此,第,7, 9号单元被抽中。,2、不放回不等概抽样每次在总体中对每个单元按入样概率进行抽样,抽取出来的样本单元不放回总体,对总体中剩下的单元进行下一次
4、抽样。不放回不等概抽样的效率比放回时的效率高,但是样本不独立会加大抽样实施、参数估计及精度计算的难度。,对于不放回不等概抽样,样本的抽取可以有以下几种方法: (1)逐个抽取法。每次从总体未被抽中的单元中以一定的概率取一个样本单元。 (2)重抽法。以一定的概率逐个进行放回抽样,如果抽到重复单元,则放弃所有抽到的单元,重新抽取。 (3)全样本抽取法。对总体每个单元分别按一定概率决定其是否入样。这种方法的样本量是随机的,事先不能确定。 (4)系统抽样法。将总体单元按某种顺序排列,根据样本量确定抽样间距k,在1,k中产生一个随机数。,5.2 放回不等概抽样,一、只抽取一个样本单元(n=1)的不等概抽样
5、为了便于了解不等概抽样的基本思想,我们先看 一个总体已知,只抽取一个样本单元的例子。【例】一个城市有四个超市营业面积从100平方米 到1000平方米不等(见下表),我们的目标是通过抽 取一家超市来估计这四个超市上个月的总营销量。通 常超市面积越大则销售量越大,因此,我们选择的入 样概率与超市的营业面积成正比。,四个超市的背景数据,:第i个超市的包含概率, :第i个超市的销售量,如果超市的营业面积近似正比于超市的销售额, 那么超市A的销售额就占所有超市销售额的1/16,因 此超市A的销售额乘以权重16(包含概率的倒数) 可以近似地估计所有超市的销售额。因此,样本量 为1的不等概抽样的总体总值估计
6、量为:,式中,四个n=1可能的不等概样本及其估计量,从上表可以算出:,可见不等概抽样的总体总值估计量是无偏的,我们用同一个例题将不等概抽样与简单随机抽样 作一比较,以此认识不等概抽样的意义。与n=1的简单随机抽样相比,简单随机抽样的样本,所有可能的样本见下表,四个可能的简单随机样本的数据及其估计量,我们来计算简单随机抽样的估计量方差,前面按不等概抽样的估计量方差为 14248,是无偏估计,期望为300万元,但是其方差 大于不等概抽样,这是因为不等概抽样利用了辅 助信息,即与销售额相关的超市面积。,二、一般有放回不等概抽样,对于放回不等概抽取样本容量为n的样本,总体总值 的估计量为样本中所有 的
7、平均,我们得到汉森 赫维慈(Hansen-Hurwitz)估计 :,上式是总体总值的无偏估计,如果采用的是PPS抽样,即 ,则,上面估计量是n个独立观测的平均,因此每个 单元的总值估计量方差是:,【例5.2】某部门要了解所属8500家生产企业当月完成 的利润,该部门手头已有一份上年各企业完成产量的报告 ,将其汇总得到所属企业上年完成产量为3676万吨.考虑 到时间紧,准备采用抽样调查来推算当月完成的利润.根 据经验,企业的产量和利润相关性比较强,且企业的特点 是规模和管理水平差异比较大,通常大企业的管理水平 较高,因此采用与上年产量成比例的PPS抽样,从所属企 业中抽出一个样本量为30的样本,
8、调查结果如下表.,不等概抽样例题,样本单元的有关数据,红色数字表示被两次抽到,mi为企业上年完成的产量, yi为企业当月完成的产量。,要根据以上调查结果估计该部门所属企业当月完成 的利润,并给出95%置信度下的相对误差.如果要求在相同 条件下相对误差达到20%,所需的样本量应该是多少?,解:由上述条件知,估计当月完成的利润为:,方差及标准差的估计,在置信度为95%时,对应的t=1.96, 的相对误差,因此,在置信度仍为95%、相对误差时 , 所需样本量为:,三、有放回不等概整群抽样在群规模不等的整群抽样中,如果群的规模 差异较大,各个群对总体的影响会产生很大差别。 这时可以采用不等概方式抽取群
9、。其好处是把群 的规模作为抽取样本的辅助信息,提高了估计的 精度,而且方差估计有比较简单的形式。下面主 要讨论以PPS抽样抽取群的情况。,每次按 的概率抽取第i个群,由于群内的单元全部参与调查, 第i个群的总值为:,根据上节讲到的汉森赫维茨估计量,PPS整群 抽样的总体总值估计量为:,我们知道,这是一个无偏估计。,估计量的方差是:,估计量方差的估计为:,【例5.3】 某企业欲估计上季度每位职工的平均病 假天数。该企业共有8个分厂(工人数资料见下表), 现用不等概整群抽样拟抽取三个分厂为样本,并以 95%的置信度计算其置信区间。有关数据及抽样过程 如下:,8个分厂的职工人数资料,【解】 采用PP
10、S抽样,利用随机数表在数字112950之间随机抽取3个数,分别是02011,07972和10281,于是3分厂、6分厂和8分厂入 选样本。用 分别表示三个分厂职工 的病假天数,调查结果为:,同样可求得估计量方差的估计值为:,其95%的置信区间为:,【评价】 对于群规模不等的整群抽样,采用不等 概PPS抽样,可以得到总体目标量的无偏估计,估计 量和估计量方差都有比较简明的形式,估计的效率 也比较高,确实是值得优先采用的方法。但是此方 法使用的条件是:在抽取样本前,要了解有关群规 模大小的信息。此外,抽样过程比等概整群抽样更 为复杂。,5.3 多阶段有放回不等概抽样,一、两阶段有放回不等概抽样抽样
11、方法:对初级单元进行抽样时,先确定每个 初级单元的入样概率。对被抽中的初级单元,再抽 取 个二级单元。如果某个初级单元被抽中多次, 则将这 个二级单元放回,重新抽取 个二级单元。 当然,这两个样本中的二级单元可能会有重复。在 实际调查时,对重复的二级单元只调查一次,但计 算的时候,应该按照被抽中的次数进行重复计算。,总体总值的估计:先构造初级单元总值 的无偏 估计 然后利用汉森-赫魏茨估计量对总体总值Y 进行估计:,特别地 记总体中所有二级单元数为 ,如果抽样时 每个初级单元被抽中的概率与其拥有的二级单元数成 比例,即初级单元被抽中的概率为 第二 阶段对二级单元进行简单随机抽样,则 ,样本 是
12、自加权的,对总体总值的估计为:,在实际调查中,如果初级单元大小不相等,人们 通常喜欢在第一阶段时按放回的与二级单元成比例 的PPS抽样,第二阶段抽样则进行简单随机抽样,且 每个初级单元的二级单元样本都相同,这样得到的样 本是自加权的,估计量的形式非常简单。,【例5.4 】某小区拥有10座高层建筑,每座高层建筑拥 有的楼层数如下表,10座高层建筑的层数,我们用两阶段抽样方法抽出10个楼层进行调查, 第一阶段抽样为放回的按与每层建筑拥有的楼层成 比例的不等概抽取5座建筑,第二阶段按简单随机抽 样对每座建筑抽取两个楼层。对10个楼层居民人数 的调查结果如下,试对小区总居民数进行估计,并 给出估计的误
13、差。,被选中的高层建筑序号及10个楼层的居民数,【解】已知,二、多阶段有放回不等概抽样(略) 参看教材P174,5.3 不放回不等概抽样,一、PS 抽样,不放回不等概抽样:,我们知道,若采用放回抽样,对总体参数的估计 及其方差估计比较简单,但样本单元中可能有单元 被抽中多次.因此,放回抽样得到的样本其代表性比 不放回抽样差.在相同样本量的条件下,放回抽样的 估计精度较低.不放回不等概抽样是指不放回的与单元大小成 比例的概率抽样.,包含概率: 在不放回不等概抽样中,每 个单元入样的概率 及任意两个单元同时入 样的概率 统称为包含概率.,对固定的 n ,包含概率满足下面等式:,二、赫魏慈汤普森估计
14、量,对于不放回不等概抽样,其总体总量Y的 估计是:,赫魏慈汤普森估计:,如果 n 固定,则,【例5.3】假设有5个居委会,每个居委会的住户数X 已知,但常住居民人数未知,我们从这5个居委会抽出两 个来估计常住居民的总人数,调查数据如下表.,上面表中的包含概率为:,从5个居委会中不放回地抽出2个居委会,无论是 不放回不等概抽样还是简单随机抽样,共有10种不同 的样本,我们用这些样本分别利用霍维茨汤普森估 计计算及简单随机抽样简单估计计算对总量的估计, 计算结果列于下表.,不同估计量的估计结果,从理论上来说, 和 都是无偏的,它们的 均值是2520.本例题的结果表明:不放回不等概赫魏慈汤 普森估计
15、量比简单随机抽样简单估计更精确,其原 因是X 和Y 之间有较强的相关关系。,情形的严格的 抽样。,1、 的情形 在总体中只抽两个单元,通常用逐个抽取法来保证抽样是不放回的。我们可以采用几种不同的抽样方法。对总体所有的单元,如果有 就可以采用布鲁尔方法。,概率抽取第一个单元,记为j ,按与,布鲁尔方法的包含概率为:,对于总体总量估计可采用 赫魏慈汤普森估计量:,【例5.7】对于例5.6,如果抽样是按布鲁尔方法的, 则其所有可能样本的包含概率如下表:,我们可以按下述公式总体均值的估计及其方差:,2. n 2的情形,一般采用水野法,也是一种逐个抽取方法,它以概率,i=1,2,N,抽取第一个样本单元,
16、在剩下的N-1个单元中,不放回 等概地抽出n-1个样本单元。为了保证每个 要求每个单元的大小满足:,耶茨格隆迪方法的 不易计算,因而不能 用赫魏慈汤普森估计量,我们采用拉奇估计量。,设 为按抽中顺序排列的样本单元 的指标值,相应的Z值为 ,令,则拉奇估计量为:,解 (1)首先利用代码来进行抽样。如下表(下页),(2)接下来由样本推算总体按被抽出的顺序排列,样本单元为4,8,3号单元, 相应的 值为调查完毕后,如果相应的指标值为 先计算,2. 泊松(Poisson) 抽样,本章小结(1)不等概抽样方法是与 简单随机抽样方法平行 的一类方法.它主要用于 总体单元差异非常大的 情形. (2)不等概抽样的效率比较 高,它能大大提高估计精度. (3)不等概抽样分为PPS抽样和 抽样.PPS抽样虽然精度要差点,但操作实施相对简单些.,本章作业,(1)熟悉本章附录的证明; (2)思考书后习题5.1; (3)在作业本上完成书后 习题5.3,习题5.4,习题5.6。,(第五章结束),