1、1抽样技术期末复习1、设计效应(Deff)答:设计效应(deff)是由基什提出的,用来对不同抽样方法进行比较,其定 义为:,其中 为不放回简单随机抽 样简单估计量的方差; 为某个抽srV(y)defsr(y) V(y)样设计在同样样本量条件下估计量的方差。设计效应的定义就是将某个抽样设计的估计量的方差与同样样本量条件下的不放回简单随机抽样简单估计量的方差进行比较。如果 deff 1,则所考虑的抽样设计比比简单随机抽样的效率低。deff 对复杂抽样时确定样本量有很大作用,在一定精度条件下, 简单随机抽样所需的样本量 比较容易得到,如果可以估计复杂抽样的 deff,那么复 杂抽样所需的样本量为:
2、n。 = def2、概率抽样答:概率抽样也称随机抽样。概率抽样就是使总体中的每一个单位都有一个已知的、不为零的概率进入样本的抽样方法。具体说来,概率抽样具有以下几个特点:(1)按一定的概率以随机原则抽取样本。 (2)每个单元被抽中的概率是已知的,或是可以计算出来的。 (3)当用样本对总体目标量进行估计时,要考虑到该样本(或每个样本单元)被抽中的概率。也就是说,估计量不仅与样本单元的观测值有关,也与其入样概率有关。概率抽样最主要的优点是,可以依据调查结果计算抽样误差,从而得到对总体目标量进行推断的可靠程度。从另一方面讲,也可以按照要求的精确度, 计算必要的样本单元数目。因此,概率抽样可以排除调查
3、者的主观影响,抽 选出较其他方法更具代表性的样本。3、非抽样误差答:非抽样误差是指除了抽样误差以外的,由于各种原因引起的误差。同抽样误差相比,非抽样误差有如下特点:(1)非抽样误差不是由于抽样的随机性带来的,所以在抽样调查中,它不可能随着样本量的增大而减小。 (2)在抽样调查中,由于非抽样误差的影响,往往造成估 计量的有偏。 (3)有些非抽样误 差难以识别和测定。 (4)产 生非抽样误差的渠道众多,成因复 杂,对调查数据质量和估计结果的负面影响非常大。非抽样误差按其来源、性质的不同,可以分 为抽样框误差、无回答误差和计 量误差等三类。4、不等概率抽样答:不等概率抽样在抽样前赋予总体每个单元一个
4、入样概率,当然这个入样概率是不相同的,否则抽样就成为等概率的抽样。不等概抽 样的 优点是大大提高估计精度,减少抽 样误差,但使用它也有条件,就是必须要有说明每个单元规模大小的辅助变量来确定每个单元人样的概率,这 在抽样及推算时都是必须的。不等概率抽 样 可以按样本单元是否放回分为放回不等概抽样和不放回不等概抽样。5、最优分配答:在分层随机抽样中,如何将样本量分配到各层,使得在总费用给定的条件下估计量的方差达到最小,或在给定估计量方差的条件下,使 总费用最小,能 满足这个条件的样本量分配就是最优分配。6、比率估计答:比率估计(radio estimator)又称比估计,在 进行抽样调查时,目标量
5、本身就是总体比率,2这样对目标量的估计就叫做比率估计,也可用来提高估计量的精度,它是有偏的。7、试述分别比估计和联合比估计的比较答:如果每一层都满足比率估计量有效的条件,则除非 ,都有分别比率估计量的方hR差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。实际使用时,如果各层的样本量都较大,且有理由认为各层的比率 差异较大, 则分别h比率佑计优于联合比率估计。当各层的样本量不大,或各层比率 差异很小, 则联合比率估计更好些。8、试述设计效应在抽样设计中的应用。答:设计效应(design effect,
6、简称 deff)是指在相同样本量的条件下,采用特定的抽样设计(一般为较复杂的抽样设计)与不放回简单随机抽样简单估计量的方差之比,如果 deff1,则所考虑的抽样设计比简单随机抽样的效率低。设计效 应是抽样调查中的一个重要参数,它可以表明特定抽样设计的估计效率;如果有设计效应的经验数据,也可以用于确定不同调查方式所需要的样本量,从而大大节约计算样本量的时间,因此倍受抽样调查设计人员的关注。9、有人认为“总体愈大,应抽的样本量也愈大” ,请对此加以评价。答:这种说法是不正确的。因为, 虽然在其他条件相同的条件下, 样本量越大,抽样误差越小,但是从抽样误差与样本量的关系图可以看出,抽样误差在开始时随
7、着样本量的增大而显著减小,但经过一定阶段后便 趋于稳定。也就是 说, 经过一定阶段后,用增大样本量的方式减少抽样误差一般是不合算的。当样本增大到一定能够程度,无论总体再大,抽 样的精度都差不多。所以,这种 说法是不正确的。10、 (简单随机抽样的均值、比例估计和样本量的确定)某住宅区调查居民的用水情况,该区共有 =1000 户,调查了 =100 户,得 =12.5 吨, =1252,有 40 户用水超过了规定Nny2s的标准。要求计算:该住宅区总的用水量及 95%的置信区间; 1若要求估计的相对误差不超过 10%,应抽多少户作为样本? 2以 95%的可靠性估计超过用水标准的户数; 3解:已知
8、N = 1000,n = 100, ,n10f.N2y=1.5s,估 计该住宅区总的用水量 Y 为:1 y102.5估计该住宅区总的用水量 Y 的方差和标准差为:22-f10.v()=s52=1680ns16803.784因此,在 95%的置信度下, 该住宅总的用水量的置信区 间估计为:Yt()25.95.2106579即,我们可以以 95%的把握认为该住宅总的用水量在 5921 吨19079 吨之间。根据 题意,要求估计的相 对误差不超过 10%,即 r0.1,假定置信度为 95% 2根据公式:220ts1.6n378ry.53由于 ,所以需要对 进行修正:0n3.78.5N0n0n378
9、=51+.若要求估计的相对误差不超过 10%,应抽不少于 755 户作为样本。以 95%的可靠性估计超过用水标准的户数;3令超过用水标准的户数为 A,样本中超过用水标准的户数为 a = 40,估计超过用水标准的比例 P 为: a40p =%n1估计超过用水标准的比例 P 的方差和标准差为:f.1v()q406.0218sp.28.7在 95%的可靠性下,超过用水标准的比例 P 的估计区间为:t()40%1.9因此,我们有 95%的把握认为,超 过用水标准的比例 P 在 30.85%49.15%之间,超过用水标准的户数的点估计为: 户,超过用水标准的户数在 户40103.85%户之间,即 309
10、 户492 户之间。1049.512、 (内曼分配和按比例分配的均值和比例估计)有下列数据层 hWhyhshp1 0.35 3.1 2 0.542 0.55 3.9 3.3 0.393 0.1 7.8 11.3 0.24设 0n采用按比例分层抽样的方法估计 和 并计算其标准误; 1 YP采用奈曼分配的方法估计 和 并计算标准误; 2解: 根据题中已知条件,采用按比例分层抽样的方法估 计 为:1 YLsth1yW0.351.390.1784.估计 的方差和标准误差为:YL2222sth1ststfv()S(5.3)0.158ny0.58149估计 及其方差和标准误差为:PLproh1proh1r
11、proW.3.30.2.475fv()q(.5.60.3961.024.76).0218ns()0.281474采用 Neyman 分配的方法估计 和 的方法和与 是一样的,即2 YP1Lsth1prohyW0.351.390.7844.5.20.75但是采用 Neyman 分配估 计 和 的方差的方法不同,分别为:YPLL22 2sthh11ststL2proh1rv(y)S)(0.352.30.1).386nN0.386.()(Wpq)(.469.024.7).0236srov.0.153213、 (两阶段抽样)某市为了了解职工收入情况,从该市的 630 个企业中随机抽取了 5个企业,在中
12、选的企业中对职工在进行随机抽样,有关数据如下:企业号 iMim(元)iy2is1 520 10 328 400.0562 108 10 400 301.1343 1400 20 310 1303.1584 1200 20 370 1205.7865 9000 100 420 4200.000其中, 为企业职工数, 为样本量; 为样本均值, 为样本方差。iMimiy2is试估计该市职工平均收入及标准差。解:已知:N = 630,n = 5, 2iiM,s估计该市职工的平均收入为:ii=1niiy2038+140310794203852 估计该市职工平均收入的方差及标准差为: nn221 iii1
13、22222-f(-f)v(y) (y)sm5630 (89)(4038)(109)(378)(4039)11124 4.655105.76467.035 =8s(y)v1.72.195因此,估计该市职工平均收入为 398 元, 标准差为 26.71669 元14、 (比率估计) (14)某养兔场共有 100 只兔子,上月末称重一次对每只兔的重量作了纪录,并计算平均重量为 3.1 磅,一个月后随机抽取 10 只兔子标重如下:序号 1 2 3 4 5 6 7 8 9 10上次3.2 32.92.82.83.1 33.22.92.8本次4.1 44.13.93.74.14.24.13.93.9估计这
14、批兔子较上月末增重的比率及其标准误差; 1估计现有兔子的平均重量及其标准误差; 2将比估计方法与均值估计法进行比较,哪一种方法效率高?分析其原因。 3解: 已知:N = 100 ,n = 10 ,设 X,Y 分别代表上月兔子总重量和本月兔子总重量,则 1, 。X =.n0f.1由表中数据可得:1010i i=22yii10xii1yiii 4 x2.97s(y).-x.046s()y.15-,因此,对这批兔子较上月末增重的比率估计为:4R= .368x297方差的估计为: 2 2yxy2 21f10.v()(sRs)(1.34680.1.34680.5).247nX3)标准误差的估计为:Rs(
15、) =()0.247.0159对现 有兔子的平均重量的比率估计为:2 Ry 1.368.8方差的估计为:2 2yxyf10.v()ss)(.3460.1.346805).237n标准误差的估计为:RR =(.275.8对现 有兔子的平均重量的均值估计为:3 10i=y 46方差的估计为:y2y1f0.1v()s20.198n因此,得到现有兔子平均重量的比率估计量设计效应的估计为:R.375def = .()0198对于本问题,均值估计方法的效率比比率估计方法的效率要高。原因是:比率估计是有偏的,当样 本量足够大时,估计的偏倚才趋于零,而本问题中的样本量较小,使用比率估计量时不能忽视其偏倚,所以无法保证估计的有效,使得估计效率比均值估计方法的效率低。