1、第八章 系统抽样,第一节 概述 第二节 等概率系统抽样估计量 第三节 不同特征总体的系统抽样 第四节 系统抽样的方差估计,第一节 概述,一、系统抽样的定义 二、系统抽样的实施方法 三、排序标志 四、系统抽样的特点 五、系统抽样、整群抽样与分层抽样的关系,一、系统抽样的定义,系统抽样(Systematic sampling):也称机械抽样,它是将总体中的单元按某种顺序排列,在规定的范围内随机抽取起始单元,然后按一套规则确定其它样本单元的一种抽样方法。 上述定义是广义的,事实上,总体单元的排列可以是一维的(直线或圆形的),也可以是二维的(平面的);起始单元可以是一个,也可以是一组;对总体单元的抽取
2、可以是等概的也可以是不等概的。,系统抽样中最简单的是等间隔抽取,这种系统抽样又称为等距抽样。 等距抽样的随机性是有限制的,因此也被称为伪随机抽样,但要注意:等距抽样并未真正丧失随机性原则。 例:工业产品质量检查,每隔2小时抽选一个或若干样品进行检验。,二、系统抽样的实施方法,(一)直线等距抽样 假设:总体N个单元按直线排列,样本容量为n, 且有N/n=k,k为整数,称为抽样间距(sampling interval)。 实施方法: 1.将总体分为n段,每段k个单元 2.在第一段的k个单元中随机抽取一个单元r 3.每隔k个单元抽出一个单元,共抽取n个单元,则被抽中的单元编号分别为: r, r+k,
3、 r+2k, r+(n-1)k例见课本P142,方法评价:当N/n=k为整数时,总体中每个单元的入样概率都相等(都等于1/k),从而是一种严格的等概率抽样。 当N/n=k不是整数时,实际抽取到的样本单元数可能是N/k,也可能是N/k+1,也即与原来设定的样本量可能相差1。每个单元的入样概率也是不相等的。这时等距抽样有可能产生偏倚。,(二)循环等距抽样 为克服直线等距抽样的上述缺陷,拉希里(Lahiri)提出一种替代方法,称为循环(或圆形)等距抽样。 实施方法: 1.将总体排成首尾相连的圆形。 2.在1N范围内随机抽取整数r作为起始单元编号。 3.每隔间距k(k为最接近N/n的整数)抽取样本单元
4、。直到抽足n个单元为止。 评价:对于循环等距抽样,即使对于N/n不为整数的情况,不仅样本量不会随起始值而变化,且是严格等概率的。 例:见P143,注意:以下为了处理方便,我们假定N总是n的整数倍。在实际工作中,若n充分大,则由于N/n非整数而带来的影响就充分小,可以忽略不计。,(三)不等概系统抽样法常用的不等概率系统抽样是PS系统抽样令: 表示总体所有单元大小的总和,则有入样概率为:在实际中,实施不等概率抽样最简单的方法是代码法。,实施方法: 1.先将单元 Mi值累加,取最接近M0/n 的整数k为抽样间距。 2.从 1,k中随机抽取一个整数作为起始单元编号。 3.每间隔k抽取样本单元,则代码
5、r, r+k, ,r+(n-1)k 所对应的单元即样本单元.,【例7.1】设总体由10个行政村组成,N=10,每个行政村的人数 Mi见下表,利用PS 系统抽样抽取 n = 3 个行政村,解:,在 1,623中随机抽取整数r,设r=100,则 r+k=723, r+2k=1346,则对应的行政村为1,4,8. 注: 对于特别大的单元一般直接作为样本,然后对剩余的单元组成的总体实施抽样.,三、排序标志,等距抽样需要有作为排序依据的辅助标志。 排序标志各式各样,可自由选择,但归纳起来,可分为两类,即无关标志和有关标志,它们对等距抽样的作用和相应的估计精度各有不同的影响。,(一)按无关标志排队 (无序
6、系统抽样),即各单元的排列顺序与所研究的内容无关. 如研究人口的收入状况时,按身份证号码、按门牌号码排序非常方便,一般说来,这些号码与调查项目没有关系,因此可以认为总体单元的次序排列是随机的 无关标志排序的等距抽样也称无序等距抽样。,评价: 在无关标志排序的条件下,各单元的位次排定,并不等于各单元的调查标志值也按同一次序排定,虽然是等距抽样,它与随机抽样在性质上并无不同. 故无关标志排序的等距抽样,实质上相同于简单随机抽样,二者只是抽样形式不同而已,完全无损于随机原则,它们在估计精度上也是一致的。,(二)按有关标志排序,即各单元的排列顺序与所研究的内容是有关的, 用来对总体单元规定排列次序的辅
7、助标志,与调查标志具有共同性质或密切关系。 这种排序标志,在我国抽样调查实践中有广泛应用,如农产量调查,以本年平均亩产为调查变量,以往年已知平均亩产作为排序标志。 利用这些辅助标志排序,有利于提高等距抽样的抽样效果。,(三)根据各单元原有的自然位置进行排序,例如:学生按学号抽样,入户调查根据街道门牌号按一定间隔抽取等。 这种自然状态的排列有时与调查标志有一定的联系,但又不完完一致,这主要是为了抽样方便。,四、系统抽样的特点,优点: 1.简便易行,容易确定样本单元 等距抽样简单明了,快速经济,操作灵活方便,使用面广,是单阶段抽样中变化最多的一种抽样技术。 在某些场合下甚至可以不用抽样框。例如若要
8、对公路旁的树木进行病虫害调查,确定每20棵数检查一棵,只要在初始被检树确定后,每隔20棵检查一棵即行,根本不需要在事先对公路旁的所有树木进行编号,或者不需要知道抽样框即所有树木的棵数。 在我国,等距抽样已成了最主要、最基本的抽样方式,一些大规模的抽样调查,如农产量抽样调查、城乡住户调查、人口抽样调查、产品质量抽样检查中都普遍采用了等距抽样。,2.样本单元在总体中分布比较均匀,有 利于提高估计精度. 将总体各单元按一定的顺序排列后再抽样,使得样本单元的分布更加均匀,因而样本也就更具代表性,比简单随机抽样更精确 。,缺点: 1.如果单元 的排列存在周期性的变化,而抽样者对此缺乏了解或缺乏处理的经验
9、,抽取出样本的代表性就可能很差可能很高。这时要慎重地选择K。 如:调查某航空公司每月班机旅客人数(淡季、旺季)k=12 2.系统抽样的方差估计较复杂,一般系统抽样没有设计意义下的无偏估计量,并且在很多实际应用中所采用的系统抽样都不是严格的概率抽样,这就给系统抽样方差的估计带来很大的困难.,五、系统抽样、整群抽样和分层抽样的关系,系统抽样可以看成是一种特殊的整群抽样,也可以看成是一种分层抽样。 为了看清其中的关系,我们以一般的等距抽样为例,将总体中的N(=nk)个单元按k个一组排成表,共有k行n列。 等距抽样,即将总体个单元排列成k行n 列的矩阵,在从k之间随机地产生一个随机数r,则取第r行的全
10、体单元作为样本,系统抽样的总体单元,如果将表的行看作群,实际上相当于将总体划分为 k群,系统抽样相当于从这 k个群中随机地抽出一个大小为n的群实行整群抽样,这是最简单的整群抽样. 因此,在讨论传统抽样的参数估计时,很多场合将引用整群抽样的一些现成结果.,系统抽样与整群抽样参数的对照,如果将表的列看作层,那么系统抽样又是一种分层抽样:在每层中抽取一个单元,不过这个单元在每个层中的位置是相同的,因此不是分层随机抽样.,系统抽样的总体单元按行列重新编号,第二节 等概率系统抽样估计量,一、符号说明 二、估计量 三、估计量方差的不同表示形式,一、符号说明,第r行第j列的单元指标值:YrjYrj=Y(j-
11、1)k+r ,r=1,2,k; j=1,2,n总体单元数:N样本单元数: n系统样本平均数:系统样本均值估计量:,层均值: , j=1,2,n总体方差:系统样本(群)内方差:,样本(群)内相关系数:,层内方差:,同一系统样本内对层均值离差的相关系数:,二、估计量,设起始值为r,则相应系统样本的平均数为:总体均值 的估计量为:,性质1 当 N=nk 时,有 k 个可能样本:是无偏估计量.当 , 采用直线等距方法时, 是有偏的.但 N和n均比较大时,其偏倚不会很大,可以忽略不计.若采用循环等距抽样, 是无偏的.,三、估计量方差的不同表示形式,如前所述,如果总体单元是按无关标志排列的,则其方差可按简
12、单随机抽样去做。 若总体单元是按有关标志排列的,则此时的等距抽样可以看作是整群抽样或分层抽样的特例,因此,等距抽样估计量的方差可以比照整群抽样或分层抽样的方法构造,有几种表示方法。,为方便起见,假定 N= nk,因此系统样本的平 均数 是总体均值的无偏估计,它的方差按 定义为:,性质2 用样本(群)内方差 表示系统抽样估计量的方差:,式中:,为总体方差。,为系统样本(群)内方差,如果从总体中直接抽取样本量为n的简单随机样本,则总 体均值 的估计量 的方差为:,比较等距抽样方差和简单随机抽样方差:,可见:,性质3,系统抽样可看做一种特殊的整群抽样,系统抽样估计量的方差 可以用群内相关系数 表示:
13、,式中:,可见:系统样本(群)内正相关越大,也即系统样本内单元越相似,差别越小,则估计量的方差越大,这个结论与上面结论一致。,性质4,系统抽样可看做一种特殊的分层抽样,系统抽样的估计量的方差可以用层内方差 和同一等距样本内单元对层均值的相关系数 表示:,式中:,为层内方差,恰为比例分配分层随机抽样的方差,为第j层的平均值,为同一系统样本内对层均值离差的相关系数.,比较系统抽样方差 和比例分配的分层随机抽样方差 ,可见:,【例7.2】,设某个总体N=32个单元,总体单元排列显然有稳定上升的趋势.我们要产生一个样本量为4的等距样本,将总体单元排列如下表,k=8,n=4,每一列都是一个等距样本,共8
14、个等距样本.,N=32,k=8,n=4等距样本数据,显然,层内具有正相关,由性质4可知,系统抽样的精度低 于分层随机抽样。,层内方差与总方差分别为:,因此:,本例中,分层随机抽样和等距抽样比简单随机抽样更有效, 而分层随机抽样比等距抽样更有效。 实际上,将总体单元按大小顺序排列的目的就是为了增大 系统样本内方差,从而必然提高精度。,【例7.3】,利用例7.2的数据,但将第二层和第四层的观测值次序颠倒,数据如下:,此时,等距抽样均值估计的方差为:,而分层随机抽样和简单随机抽样均值估计的方差不变:,可见:本例中,改变数据顺序后,等距抽样比简单随机抽 样和分层随机抽样更有效。,上述例子说明: 相对于
15、分层随机抽样和简单随机抽样来说,系统抽样的效率很大程度上取决于总体性质。 即使是相同的总体数据,对于不同的单元排列顺序,就有不同的样本(群)内方差和相关系数,从面系统抽样估计量的方差也不同。 因此,要有效地应用系统抽样,必须先了解总体的特征。,第三节 不同特征总体的系统抽样,一.随机次序排列的总体 总体单元按无关标志排列,如居民家计调查按居民姓氏次序排列的总体单位。,对于一个有限总体,简单随机抽样的方差是确定的,系统抽样的方差则取决于单元的排列顺序. 对于特定的排列,系统抽样的方差可能比相应的简单随机抽样的方差大,也可能比它小。N个总体单元总共有N!种不同的排列,从而有N!个系统抽样的方差。
16、但可以证明这N!个系统抽样方差的平均数恰好等于简单随机抽样的方差。 在这个意义下,我们说当总体单元按随机顺序排列时,系统抽样的效果等价于简单随机抽样。,当总体单元按无关标志排列时,可以采用简单随机抽样的方差作为系统抽样的方差估计:,二. 线性趋势的总体 (一)线性趋势的总体 当总体按指标值从小到大顺序列时,由于样本(群)内方差增加而使系统抽样的精度有显著的提高。 在实际问题中,当然不可能按指标值的大小 排列,但是常可以找到某个与指标值相关的奕量,若单元按这个变量大小排列,则可收到同样的效果。,假定单元指标Yi值是单元序号 i的线性函数,即Yi=a+bi(i=1,2,N),现比较,当Y i=i时
17、,有,总体均值总体方差,二. 对线性趋势总体的系统抽样法的改进,针对实践中经常出现的线性趋势总体,有必要对系统抽样进行改进,从而提高系统抽样的精度,使系统抽样法有可能达到比分层随机抽样更高的效果。 改进的方法有两类: 一是抽样方法的改进,如中心位置抽样法,对称系统抽样法; 二是估计方法的改进,如首尾校正法.,1. 抽样方法的改进 (1)中心位置抽样法(中位样本法)由麦多Madow(1953) 提出,即初始样本不是随机抽选,而是直接取第一段的 k个单元中处于中间位置的单元.如果K为奇数,以(K+1)/2为起点,K为偶数,以K/2或(K+2)/2为起点。 【例】从200名学生中抽10名学生作为样本
18、,k=N/n=200/10=20, 若起始样本是10,则其余的依次为30,50,70.90,110,130,150,170,190.,评价: 优点:中心位置抽样法抽到的样本单元都位于层的中心位置,从而最大限度地减了方差。 缺点:当总体单元顺序和k确定以后,样本也随之确定,无随机可言,这与概率抽样的要求相悖。 因此,对一个项目偶尔为之尚可,但若要多次抽样估计就不能用这种方法。,(2)对称(平衡)系统抽样既希望克服中位数方法的缺乏随机性,又希望避免有些系统样本估计量过大的偏倚,并希望保留传统抽样的特点,这三种要求很容易启发我们采用一种“对称系统抽样法”. 对称等距抽样也是针对有序等距抽样所提出的,
19、其基本思想是使低标志值的单元与高标志值的单元在样本中对等出现。从而使样本的偏差缩小,代表性增强。 由于具体的方法不同,对称等距抽样又有几种类型。,A. 塞蒂Sethi对称系统抽样(1965):- 层内对称系统抽样设N=nK,n为偶数。首先:将总体按顺序划分为n/2组(以每一组为层),每组由2k个单元组成。 其次:在第一组中以随机方法确定两个初始单元,方法是在1k范围内产生一个随机数r,则单元r与单元2k-r+1即为起始单元。这两个单元在层中的位置是对称的。最后,在其余各层中与上述两个起始单元相同位置的单元都是样本单元,例如,在第二个抽样间隔所抽两个样本单元号码为r+2K及2(2k)-r+1,依
20、次类推。也就是说n/2对对称的样本单元的编号为:,【例】上例中,N=200,n=10为偶数:若起始样本是3,则抽取的样本为 3,38,43,78,83,118,123,158,163,198.,当n为奇数时,式中的j由0变到(n-1)/2-1为止,并且,要加上接近末端的第r+(n-1)K个单元。=200, n=5, k=40, 则抽取的样本为:3, 78, 83, 123, 163.,【例】,实际中,为便于对称等距抽样的实施,当N=nK时,可以将原来由小到大(或由大到小)顺序排列的单元按照顺逆交替的次序排列在一个表中,这样,按随机起点等距抽样所抽取的样本即为对称等距样本。 所谓顺逆交替是指在单
21、元的排序中,若第一间隔由小到大排序,则第二间隔按由大到小排序,以此类推。,B.辛方(Singn)对称系统抽样(1968):-总体对称系统抽样 仍设N=nK。当n为偶数时 首先,在1k范围内产生随机数r作为起始单元,同时,另一起始单元为距另一端点距离为r的单元,即编号为N-r+1的单元。这两个单元相对总体是对称的。 然后,与第二个抽样间隔中r+K对称的是倒数第二个抽样间隔的(N-K)-r+1;如此,一直抽到中间两个抽样间隔为止。 因此,全部n/2对样本单元的编号为:,从300名学生中抽取15位作为样本,即N=300,n=15,k=300/15=20,设起始单元数为,则样本单元位数依次是3,298
22、,23,278,43,258,83,218,103,198,123,178,143.,【例】,当n为奇数时,式中的j由0变到(n-1)/2-1为止。然后,再加上中间一个抽样间隔中的第r+(n-1)K/2个单元。(我国抽样调查工作者提出在中间一个抽样间隔抽取中点处的一个单元。),2. 首尾校正法(两端修正法 ),抽样方法同随机起点等距抽样时的情形。但在计算总体均值的估计量时,通过对首尾两个单元赋予不同于其他单元的权数,从而降低对线性趋势总体的系统抽样的估计偏倚 ()耶茨Yates首尾校正法条件:nk方法:对首尾两个样本单元赋予不同于其他单元的权数,采用加权平均计算样本均值,从而提高精度,设起始样
23、本单元的编号为r, 则 首样本单元的权数为:尾样本单元的权数为:其他n-2个样本单元的权数为:,首尾校正法修正后的总体均值估计量:当i 是i 的线性函数时,首尾校正法的均值估计量是完全无偏的,完全不受初始值的影响,权数公式的推导如下:令第一样本观测值的权为:,最末一个样本观测值的权为:,则:,为使:,则可解得:,例:若总体单元指标值按其顺序为1,3,5,7,9,11,13,15,17,19,21,23,25,27,29,抽取一个n=3的系统样本,用耶茨首尾校正法估计总体均值 .,解:N=15,n=3,k=5。不妨假设随机抽取的起始值r=1, 则样本观测值为1,11,21。若不加校正,总体均值的
24、估计为:,此估计值比实际总体均值 小很多。 若采用耶茨的首尾校正法, 的估计值为:,从而校正后的估计值完全与估计目标量的真值相等。,(2)贝尔豪斯Bellhouse和拉奥Rao(1975)首尾校正法,条件:采用循环等距抽样法抽样保证n为常数然后按照总体单元原有的顺序确定首尾单元,对其赋予不同于其他单元的权数,首样本单元的权数为:,尾样本单元的权数为:其他n-2个样本单元的权数为:,如果初始单元编号r 较小,满足则所有n个样本单元都不经过单元,相应的权数如下:,如果初始单元编号r 较大,满足 则有样本单元越过单元,假设越过单元的样本单元有 个,相应的权数如下:,首样本单元的权数为:,尾样本单元的
25、权数为:,其他n-2个样本单元的权数为:,【例7.4】总体有23个单位,拟抽取n=5, 则与之最近的整数k=5然后在总体中随机抽取一个单位作为起点,假设抽中r=19, 样本单元的顺序编号分别为:19,1,6,11,16 首样本单元为y1,尾单元为y19.求相应单元的权数,首样本单元y1的权数为:,尾样本单元的权数为:,其他3个样本单元的权数为:0.2,解: n2=,=23, n=5, k=5, r=19,三周期波动的总体,周期波动是指总体单元指标值按其顺序呈周期性变化,一般对含有周期影响的总体,如果已经掌握了其周期结构,合理选择系统抽样间距k,使样本包含周期中许多有代表性的指标值,可以大缩小估
26、计量的方差,采用系统抽样的效果很好, 但对总体的周期结构不了解,则简单随机抽样与分层随机抽样的效果可能会更好,第四节 系统抽样的方差估计,一.等概系统抽样的方差估计 (一)系统样本来自随机排列总体,(二)系统样本分层随机抽取如果把系统样本看成从各层抽取两个单位的分层随机抽样,可采用下列方法: 1.从第二个样本单元开始,每个样本单元与前一个样本单元组成一对,共n-1对,第 i对样本单元的方差估计为 ,因此对n-1个 进行平均,再乘以 ,得 的估计:,2.设n为偶数,将样本单元按顺序两两分成一组,共n/2组,第i对样本单元的方差估计为 ,将这n/2个方差估计值进行平均,再乘以 ,从而得到,(三)系
27、统样本来自线性趋势总体,进行Yates首尾校正后:,其抽样方差无偏估计为:当n 较大时,可忽略.但当线性模型存在异方差时, 不再是无偏估计.,(四)样本量为n的系统样本分成m 个子样本独立抽样(交叉子样本法,随机组法),将样本量为n的系统样本分成m个子样本独立抽取,每个仍用系统(等距)抽样,样本量为 ,抽样间距为 ,每个子样本的起始值独立抽取。 记第a个子样本的均值为 ,则总体均值的估计为:,的一个无偏估计量为:,(五)各种估计量的比较及适用场合,上面介绍的系统抽样的几种方差估计量各不相同,对不同总体类型有不同的表现。 当总体单元排列是随机时,按简单随机抽样的方差估计v1 最为适用,且计算也最
28、为简单。 基于相邻样本观测值的差分导出的v2与v3适用范围很广,随机排列、线性趋势及周期变化的总体都能使用,效果也不错,因此,若不清楚总体单元排列的规律,是首先的两个方差估计量。当样本量比较少时,尤以v2更为适用。 对于线性趋势总体, v2与v3 给出的方差估计更为接近实际,而v1则常常高估了方差。 基于交叉子样本的方差估计v5,虽然也适用于各种类型总体,但实际操作并不方便,且当m不大时,效果也不是很好。,二、不等概率系统抽样,(一)PS系统抽样 系统抽样中每个单元入样概率也可以是不等的。对于按一定顺序排列的N个总体单元,一般的不等概系统抽样定义如下: 令 是一组入样概率,且 不等概系统抽样的
29、一般方法是:先在0,1区间内随机抽取一随机数r,则满足以下条件中的第i0 , i1 , i2 in-1个单元即为抽中的样本单元:,当 时,抽样是严格不放回的。,(二)估计量及其方差,与其他不放回的不等概率抽样一样,不等概率系统抽样对总 体总和Y的估计采用霍维茨汤普森估计量:,对于PS系统抽样,又有:,是无偏的,其方差可表达为(此时n是固定的):,(二)不等概系统抽样的方差估计,对于一般的n, ij 的计算极为复杂,且有可能为0,其方差 估计式并不适合于系统样本,因而必须采用别的方式。,第一种考虑:将不放回的PS系统样本作为放回的PPS样本 处理可得到如下方差估计形式:,第二种考虑:因为实际抽样是不放回的,因此应考虑乘以有限总体修正系数1- f,由于这里的单元实际上是不平等的,因此f 不是简单的等于n/N,可以使用 f 的如下估计:,方差:,对于随机排列的总体,v7的效果很好。,第三种考虑:用相邻样本单元差值的平方和 表示方差,此处用 代替等概率情形的yi,得到:,对于线性趋势的总体,这两个方差估计量特别适用。v8 相对更适用样本量较小的情况.,4.将样本量为 n的系统样本随机分成 m个子样本,每个子样本样本量为 , 记第a个子样本对总和的HT估计为:,方差:,与等概系统抽样相似, v10的效果不太理想,一般不推荐使用.,Thank you very much!,