1、应用抽样技术答案,第二章 抽样技术基本概念,2.7(1)抽样分布:3 3.67 4.33 5 5.67 6.33 7 1/10 1/10 2/10 2/10 2/10 1/10 1/10(2)期望为5,方差为4/3(3)抽样标准误1.155(4)抽样极限误差2.263(5)置信区间(3.407,7.933),第三章 简单随机抽样,3.3为调查某中学学生的每月购书支出水平,在全校名学生中,用不放回简单随机抽样的方法抽得一个的样本。对每个抽中的学生调查其上个月的购书支出金额 yi (如表1所示)。 (1)在95%的置信度下估计该校学生该月平均购书支出额; (2)试估计该校学生该月购书支出超出70元
2、的人数; (3)如果要求相对误差限不超过10%,以95%的置信度估计该校学生该月购书支出超出70元的人数比例,样本量至少应为多少。,表1 30名学生某月购书支出金额的样本数据,3.3解:(1)依据题意和表1的数据,有:,因此,对该校学生某月的人均购书支出额的估计为56.07(元),由于置信度95%对应的 t=1.96, 所以,可以以95%的把握说该学生该月的人均购书支出额大约在56.071.965.115,即46.0466.10元之间。,,,(2)易知,N=1750,n=30,,的95%的置信区间为:,的95%的置信区间为:,(159,776),(3)N=1750,n=30,n1=8, t=1
3、.96, p=0.267,q=1-0.267=0.733,由此可计算得:,计算结果说明,至少应抽取一个样本量为659的简单随机样本,才能满足95%置信度条件下相对误差不超过10%的精度要求。,n = n0/1+(n01)/N = 1054.64/1+1053.64/1750=658.2942 = 659,3.5要调查甲乙两种疾病的发病率,从历史资料得知,甲种疾病的发病率为8,乙种疾病的发病率为5,求: (1)要得到相同的标准差0.05,采用简单随机抽样各需要多大的样本量? (2)要得到相同的变异系数0.05,又各需要多大的样本量?,3.5解:已知 P1= 0.08, Q1= 1-P1 = 0.
4、92; P2= 0.05, Q2 = 1 P2 = 0.95; V(p) = 0.05*0.05,,,(1) 由,得:,由,得:,(2),第四章 分层抽样,4.3解:,(1) , (2)按比例分配 n=186,n1=57,n2=92,n3=37 (3)Neyman分配 n=175,n1=33,n2=99,n3=43 4.5 ,置信区间(60.63,90.95)元。,4.6 解 已知W1=0.2,W2=0.3,W3=0.5,P1=0.1,P2=0.2,P3=0.4P=hWhPh=0.28,Q=1P=0.72n=100的简单随机抽样估计方差:V(Psrs) (1f )/100PQ 0.28*0.7
5、2/100 = 0.002016按比例分配的分层抽样的估计方差:V(Pprop) hWh2 (1fh)/nh Ph Qh n-1hWh Ph Qh= n-10.2*0.1*0.9+0.3*0.2*0.8+0.5*0.4*0.6 = 0.186 n-1故 n 92.26 93,4.8 解 已知W1=0.7,W2=0.3,p1=1/43,p2=2/57(1)简单随机抽样Psrs=(1+2)/100=0.03V(P)=PQ/(n-1)=0.03*0.97/99=0.0002937(2)事后分层Ppst=hWhph=0.7*1/43+0.3*2/57=0.0268V(Ppst) =hWh2(1fh)/
6、(nh1)phqh =0.72*1/42(1/43)(42/43)+0.32*1/56(2/57)(55/57)=0.00031942,第五章 比率估计与回归估计,5.2 N2000, n36, 10.95, t1.96, f = n/N0.018, 0.000015359, 0.00392 置信区间为40.93%,42.47%。,第五章 比率估计与回归估计,5.3当 时用第一种方法,当 时用第二种 方法,当 时两种方法都可使用。这是因为:, ,若 则 0,0,5.4 解:V(YR)(1f)/nY2CY2+CX22rCYCX V(Ysrs)=(1f)/nSY2=(1f)/n CY2Y2故V(Y
7、R)/V(Ysrs) = 12rCX/CYCX2/CY2= 1-2*0.696*1.054/1.063-1.0542/1.0632 = 1-0.397076 = 0.602924,5.5 证明:由(5.6)得:,5.6 解 (1) 简单估计:总产量: Ysrs=(N/n)i=1n Yi=(140/10)1400+1120+480=176400(斤)v(Ysrs)=N2(1f)/nSY2=1402(110/140)/10*194911.1= 354738222se(Ysrs)= 18834.496,5.6 解 (2) 比率估计:R =i=1n Yi/ i=1n Xi = 12600/29.7 =
8、 424.2424YR= XR = 460*424.2424= 195151.5(斤)v(YR)=N2(1f)/n *i=1n (yiRXi )2/(n-1)=1402(110/140)/90*124363.5= 25149054se(Ysrs)= 5014.883,5.6 解 (3) 回归估计:回归系数 b = Sxy/Sxx2= 370.5965ylr=xb(xX)=1260370.5965*(2.97460/140)=1377.089Ylr=Nylr=192792.47(斤)v(Ylr)=N2(1f)/n *i=1n yiyb(xix)2/(n-2)=1402(110/140)/80*8
9、9480.59= 20356834se(Ylr)= 4511.855,5.7解:,故估计量 虽然与 一样都是 的无偏估计, 但方差不小于 的方差, 当 时 , 故 不优于 。,第六章 不等概率抽样,6.1假设对某个总体,事先给定每个单位的与规模成比例的比值 Zi ,如下表,试用代码法抽出一个n=3的 PPS 样本。,表1 总体单位规模比值,6.1解:令 ,则可以得到下表,从11000中产生n=3个随机数,设为108,597,754,则第二、第六和第七个单位入样。,6.3欲估计某大型企业年度总利润,已知该企业有8个子公司,下表是各子公司上年利润Xi 和当年利润 Yi 的数据,以Mi作为单位Xi大
10、小 的度量,对子公司进行PPS 抽样,设n=3,试与简单随机抽样作精度比较。,表2 某企业各子公司上年与当年利润(单位:万元),对子公司进行抽样,根据教材(6.7)式:,显然对 抽样,估计量的精度有显著的提高。,如果对子公司进行简单随机抽样,同样样本量时 的简单估计方差为:,抽样的设计效应是:,6.4 解 (1) PPS的样本抽样方法可采用代码法或拉希里法. (2) 若在时间长度2、8、1、7h中打入电话数量分别为8、29、5、28,则客户打入电话的总数:YHH=(35/4)8/2+29/8+5/1+28/7=145.46875 (3) 估计量的方差估计v(YHH)=n(n1)-1i=1n(y
11、i/ziYHH)2=352/(4*3)(8/24.15625)2+(29/84.15625)2+(5/14.15625)2+(28/74.15625)2=106.4697,6.5设总体N=3, zi=1/2,1/3,1/6,Yi=10,8,5, 采取的n=2的PS抽样,求i ,ij (i,j=1,2,3) 。,解:(1)所有可能样本为:(10,8),(10,5),(8,10),(8,5),(5,10),(5,8),其概率分别为:,所以:,6.6 解 (1) 简单随机抽样简单估计Y=2+3+6+8+11+14=44S2=(N1)-1i=1N(YiY)2=(2*322)2+(3*322)2+(6*
12、322)2+(8*322)2+(11*322)2+(14*322)2/(5*9)= 322/15 = 21.4667总值估计的方差估计V(Ysrs) = N2(1f)/nS2 = 36(12/6)/2322/15=1288/5 = 257.6,6.6 解 (2) 简单随机抽样比率估计X=1+2+4+7+9+13=36,Y=2+3+6+8+11+14=44,R=44/36=11/9,f=2/6=1/3 总值估计的方差估计V(YR) N2(1f)/n i=1N(YiRXi)2/(N1)= 36(12/6)/10(21*11/9)2+(32*11/9)2+(64*11/9)2 +(87*11/9)2
13、+(119*11/9)2+(1413*11/9)2= (12/5)*(488/81) = 14.46,6.6 解 (3) PPS抽样汉森赫维茨估计X=1+2+4+7+9+13=36,Y=2+3+6+8+11+14=44,取Zi=Xi/X, (i=1,2,6)总值估计的方差估计V(YHH) = (1/n) i=1N Zi(Yi/Zi Y)2= (1/nX)i=1N Xi(XYi/Xi Y)2= (1/72)1*(36*2/144)2+2*(36*3/244)2+4*(36*6/444)2 +7*(36*8/744)2+9*(36*11/944)2+13*(36*14/1344)2= 24.96,
14、第七章 整群抽样,7.1(略) 7.3,解: 不是 的无偏估计,此因类似于 有 因为对群进行简单随机抽样,故 , ,从而 ,若取则,7.2,y = (1/80)ij yij = 1054.78, sb2= (10/7)i (yiy)2 = 3017.65 V(y) = (1f)/(aM)sb2 = (18/2000)/(8*10)*3017.65= 37.5697 Se(y) = 6.1294,(1) 以每盒灯泡为群实施整群抽样,y = (1/80)ij yij = 1054.78, s2= (1/79)ij (yijy)2 = 4628.667 V(y) = (1f)/(aM)s2 = (1
15、80/20000)/(8*10)*4628.667= 57.6269 Se(y) = 7.5912,(2) 以从20000个灯泡中按简单随机抽样,y = (1/80)ij yij = 1054.78, Sw2 = (1/a) i si2 = 1/(a(M1)ij (yijyi)2 = 4721.0056 r = (sb2sw2)/sb2+(M1)sw2 = -0.04723 Deff = V(y)/V(y) = 1+(M1)r= 0.6694,7.4 对7.2题群内相关系数进行估计,7.5 解:由于农户是调查单位,故以村为抽样单位的抽样是整群抽样,村即是群。对于村既有生猪存栏数,也有户数,因此
16、在村大小不等的整群抽样下,既可使用简单估计量估计生猪存栏数,也可以户数为辅助指标构造比率估计和回归估计来估计生猪存栏数。 (1)简单估计量 (2)以户数为辅助变量的比率估计量,314.452, 98880, 365.718, 133750,0.934,(3)以户数为辅助变量的回归估计量,1080000.803(100000200475)112015,显然以户数为辅助变量构造回归估计量效果最好。此因各村生猪存栏数与村的规模(户数)有高度相关性,r0.934,故采用回归估计量精度最高。,7.6,7.6,(1) 按简单随机抽样抽取, 简单估计量估计,y = (1/7) i Mi yi = 25321
17、.1571 M = 35680/35 = 1019.4286 Y = y / M = 24.8386 v(y) = (1f)/(a(a1)M2) i (yiy)2 = (17/35)/(42*1019.42862)*1711911436= 31.3768 Se(y) = 5.6015,7.6,(2) 按简单随机抽样抽取, 采用比率估计量估计,YR = i yi / i Mi = 177248.1/7252 = 24.4413 v(y) = (1f)/(a(a1)m2) i (yiYmi )2 = (17/35)/(42*1019.42862)*4536349.45= 0.0831445 Se(
18、y) = 0.2883,7.6,(3) 按PPS抽样抽取, 抽样概率与企业女职工人数成比例,YHH = i yi / a = 24.4286 v(Y) = 1/(a(a1) i (yiy)2 = (1/42)*6.3542857= 0.15129 se(Y) = 0.38896,7.7证明 分别以 记整群抽样、简单随机抽样的估计量:,7.8,pR = i ti /i mi = 36.89/199.8 = 0.1846,7.8,v(pR) = (1f)/(a(a1)m2) i (tipRmi )2 = (15/110)/(20*39.962)*0.549388= 0.00001642 se(pR) = 0.004052,