1、目录R 初步 11.导入程序包,调用程序包,查看程序包的帮助 .12.查询函数帮助:?boxplot .13.数据读取和 t 检验 .1简单随机抽样(一) .21. 产生来自正态分布 N(2,1)的随机数; .22. 当 Iteration=100,N=50,n=10 时, ybar 的误差; .23. 当 Iteration=500,N=50,n=10 时, ybar 的误差; .24. 当 Iteration=1000,N=50,n=10 时, ybar 的误差; .45. 编写循环语句,计算 Iteration 从 100 变化到 2000,步长为 100 时, ybar 的误差; .5
2、6. 编写程序,画出(5)中,误差的变化情况; 67. 将(5)中结果记录至”record ”文件. 7简单随机抽样(二): Y的置信区间 81.产生 200 个均值 15,标准差 2 的正态随机数; .82.用简单随机抽样方法(无放回 ),抽取样本容量为 10 的样本 ;83.抽样如 2 所述样本 100 个; .84.计算 100 个样本中每个样本的样本均值,样本标准差; 95.根据每个样本,计算总体均值的置信水平为 95%置信区间; 106.在平面直角坐标系中,画出 100 个置信区间; 107.计算 100 个置信区间的置信概率. 11简单随机抽样(三):样本 n 确定 .111.相对
3、误差 r,求样本 n .112.变异系数 P,求样本 n 12分层抽样: 13分层抽样 13抽样方法 16比估计法(简单随机抽样) 16回归估计法 17比估计法和回归估计法比较 18分别比估计(分层抽样) 19联合比估计 191R 初步1.导入程序包,调用程序包,查看程序包的帮助导入程序包 install.packages(“picante“)调用程序包,查看程序包的帮助 library(ape) ?plot.phylo2.查询函数帮助:?boxplot3.数据读取和 t 检验将表 2 中的数据录入 Excel 中,另存为 t.test.txt 文件。用 read.table 函数读取该文件。
4、t.test.data attach(t.test.data) ratio t.test(ratio)2简单随机抽样(一)1. 产生来自正态分布 N(2,1)的随机数; 1. rnorm(1,2,1)1 0.75915672. 当 Iteration=100,N=50,n=10 时, 的误差; N Y1 1.958207 y1 1.939412 DEV1 -0.018794613. 当 Iteration=500,N=50,n=10 时, 的误差; N Y1 2.268899 y1 2.255122 DEV1 -0.013777244. 当 Iteration=1000,N=50,n=10 时
5、, 的误差; N Y1 1.93828 y1 1.911898 DEV1 -0.0263817755. 编写循环语句,计算 Iteration 从 100 变化到 2000,步长为100 时, 的误差; 5.N number Sam mean k for(i in number)+ + Samk Ybar error plot(error,main=“散点图“,xlab=“ 横坐标“,ylab=“纵坐标“) abline(h=0) cat(file=“090104100212“,“Ybar=“,Ybar,“n“,“error=“,error)8简单随机抽样(二) : 的置信区间Y1.产生 20
6、0 个均值 15,标准差 2 的正态随机数;2.用简单随机抽样方法(无放回),抽取样本容量为 10 的样本; sample(Pop,10)1 9.507422 15.574629 12.819577 14.363216 16.909827 12.868972 13.912547 14.434210 16.687775 16.2979673.抽样如 2 所述样本 100 个;aymin) & Ybarymini& Ybar cp cat(“Confidence Probability=“,cp)Confidence Probability= 0.89简单随机抽样(三) :样本 n 确定1.相对误
7、差 r,求样本 n1. 某居民区共有 10000 户,现用抽样调查的方法估计该区居民的用12水量。采用简单随机抽样抽选了 100 户,得 =12.5,s 2=12.52。y估计该居民区的总用水量 95%的置信区间。若要求估计的相对误差不超过 20%,试问应抽多少户做样本?(1) 在脚本语言中输入下列语句:CI-function(est,sd,alpha)u-qnorm(1-alpha/2)CIl-est-u*sdCIu-est+u*sdCI-c(CIl,CIu)#main provary-12.52alpha-0.05u-qnorm(1-alpha/2)est-12.5N-10000n-100
8、f-n/Nsd-sqrt(vary*(1-f)/n)Ci-CI(est,sd,alpha)得到置信区间为11.80997 , 13.19003(2) n0-(u*sqrt(vary))/(0.2*est)n1-n0*n0n-n1/(1+n1/N)得到 n 样本数为 8,用户数需要大于 8 户。2.变异系数 P,求样本 n2. 某县采用简单随机抽样估计粮食、棉花、大豆的播种面积,抽样单元为农户。根据以往资料其变量的变异系数为名称 粮食 棉花 大豆变异系数 0.38 0.39 0.44若要求以上各个项目的置信度为 95%,相对误差不超过 4%,需要抽取多少户?若用这一样本估计粮食的播种面积,其精度
9、是多少?(1)alpha-0.05u-qnorm(1-alpha/2)CV1-0.38CV2-0.3913CV3-0.44r-0.04n1-(u*CV1/r)2 。 。n1-(u*CV1)2 *(1-cv1)/cv1n2-(u*CV2/r)2n3-(u*CV3/r)2得到 n1=347,n2=366,n3=465,所以 n=1177 户农户。(2)分层抽样:分层抽样调查某个地区的养牛头数,以村作为抽样单元。根据村的海拔高度和人口密度划分成四层,每层取 10 个村作为样本单元,经过调查获得下列数据层 村总数 样本村养牛头数1 2 3 4 5 6 7 8 9 10 1234141147052558
10、1499743 84 98 0 10 44 0 124 13 050 147 62 87 84 158 170 104 56 160228 262 110 232 139 178 334 0 63 22017 34 25 34 36 0 25 7 15 31要求:(1) 估计该地区养牛总头数 及其估计量的相对标准误差Y Ys)(2) 讨论分层抽样与不分层抽样比较效率有否提高。(3) 若样本量不变采用 Neyman 分配可以减少方差多少?(1) 估计该地区养牛总头数 及其估计量的相对标准误差Y Ys)(y1-c(43,84,98,0,10,44,0,124,13,0) y2-c(50,147,6
11、2,87,84,158,170,104,56,160) y3-c(228,262,110,232,139,178,334,0,63,220) y4-c(17,34,25,34,36,0,25,7,15,31) N1-1411 N2-4705 N3-2558 N4-14997 N-N1+N2+N3+N4w1-N1/N w2-N2/N w3-N3/N w4-N4/N n-10 14y1bar-mean(y1) y2bar-mean(y2) y3bar-mean(y3) y4bar-mean(y4) ybar-w1*y1bar+w2*y2bar+w3*y3bar+w4*y4bar Y-N*ybar
12、vary-(1/n)*(N1*(N1-n)*var(y1)+N2*(N2-n)*var(y2)+N3*(N3-n)*var(y3)+N4*(N4-n)*var(y4)得到养牛总头数 为 1353572 只;相对标准差误差 为Y Ys)(sqrt(vary)/Y= 0.09098019(2) 讨论分层抽样与不分层抽样比较效率有否提高。分层抽样:ybar=57.18272,vary= 27.06595y1-c(43,84,98,0,10,44,0,124,13,0) y2-c(50,147,62,87,84,158,170,104,56,160) y3-c(228,262,110,232,139,
13、178,334,0,63,220) y4-c(17,34,25,34,36,0,25,7,15,31) N1-1411 N2-4705 N3-2558 N4-14997 N-N1+N2+N3+N4w1-N1/N w2-N2/N w3-N3/N w4-N4/N n-10 y1bar-mean(y1) y2bar-mean(y2) y3bar-mean(y3) y4bar-mean(y4) ybar-w1*y1bar+w2*y2bar+w3*y3bar+w4*y4bar Y-N*ybar vary-(1/n)*(N1*(N1-n)*var(y1)+N2*(N2-n)*var(y2)+N3*(N3-
14、n)*var(y3)+N4*(N4-n)*var(y4)简单随机抽样:ybar= 87.1,vary= 176.9387 y-c(43,84,98,0,10,44,0,124,13,0,50,147,62,87,84,158,170,104,56,160,228,262,110,232,139,178,334,0,63,220,17,34,25,34,36,0,25,7,15,31) N1-1411 N2-4705 N3-2558 N4-14997 15N-N1+N2+N3+N4w1-N1/N w2-N2/N w3-N3/N w4-N4/N n-40f-n/N ybar-mean(y) Y-N
15、*ybar vary-(1-f)*var(y)/n分层抽样的方差小于不分层抽样的方差,所以分层抽样的效率有提高。(3) 若样本量不变采用 Neyman 分配可以减少方差多少?y1-c(43,84,98,0,10,44,0,124,13,0) y2-c(50,147,62,87,84,158,170,104,56,160) y3-c(228,262,110,232,139,178,334,0,63,220) y4-c(17,34,25,34,36,0,25,7,15,31) N1-1411 N2-4705 N3-2558 N4-14997 N-N1+N2+N3+N4n-40n1-n*N1*sd(
16、y1)/(N1*sd(y1)+N2*sd(y2)+N3*sd(y3)+N4*sd(y4)n2-n*N2*sd(y2)/(N1*sd(y1)+N2*sd(y2)+N3*sd(y3)+N4*sd(y4)n3-n*N3*sd(y3)/(N1*sd(y1)+N2*sd(y2)+N3*sd(y3)+N4*sd(y4) n4-n*N4*sd(y4)/(N1*sd(y1)+N2*sd(y2)+N3*sd(y3)+N4*sd(y4) w1-N1/N w2-N2/N w3-N3/N w4-N4/Ny1bar-mean(y1) y2bar-mean(y2) y3bar-mean(y3) y4bar-mean(y4
17、) ybar-w1*y1bar+w2*y2bar+w3*y3bar+w4*y4barY-N*ybar 16vary-(w12*var(y1)/4+w22*var(y2)/12+w32*var(y3)/14+w42*var(y4)/10)-(1/N)*(w1*var(y1)+w2*var(y2)+w3*var(y3)+w4*var(y4)可达到方差最小值 vary 为 23.40882,方差可减小 27.06595- 23.40882 =3.65713抽样方法比估计法(简单随机抽样)1.某乡欲估计今年的小麦总产量,全县共有 123 个村,按简单随机抽样抽取 13 个村作为样本,取得资料如下:样本
18、村 去年的小麦产量(百斤)今年的小麦产量(百斤)123456789101112135507201500102062098092812001350175067072915306107801600103060010509771440157022109808651710(1) 若已知去年的小麦总产量为 128200(百斤) ,采用比估计法估计今年的小麦总产量和置信度为 95%的置信区间。CI-function(Yr,sd,alpha)u-qnorm(1-alpha/2)CIl-Yr-u*sdCIu-Yr+u*sdCI-c(CIl,CIu)#main proN-123n-13f-n/N17X-1282
19、00x-c(550,720,1500,1020,620,980,928,1200,1350,1750,670,729,1530)y-c(610,780,1600,1030,600,1050,977,1440,1570,2210,980,865,1710)xbar-mean(x)ybar-mean(y)varx-var(x)vary-var(y)sxy-cov(x,y)R-ybar/xbarYr-R*XvYr-N2*(1-f)*(vary+R2*varx-2*R*sxy)/nsd-sqrt(vYr)alpha-0.05u-qnorm(1-alpha/2)Ci-CI(Yr,sd,alpha)得到今
20、年今年小麦总产量的估计量为 145943.8 百斤,置信区间为138737.3 , 153150.2回归估计法(2) 采用回归估计法估计今年的小麦总产量和置信度为 95%的置信区间。CI-function(yr,sd,alpha)u-qnorm(1-alpha/2)CIl-yr-u*sdCIu-yr+u*sdCI-c(CIl,CIu)#main proN-123n-13f-n/NX-128200x-c(550,720,1500,1020,620,980,928,1200,1350,1750,670,729,1530)y-c(610,780,1600,1030,600,1050,977,1440
21、,1570,2210,980,865,118710)xbar-mean(x)ybar-mean(y)Xbar-X/Nvarx-var(x)vary-var(y)sxy-cov(x,y)b-sxy/varxylr-ybar+b*(Xbar-xbar)Ylr-N*ylrse-sqrt(n-1)*(vary-b*sxy)/(n-2)vYlr-N2*(1-f)*se2/nsd-sqrt(vYlr)alpha-0.05u-qnorm(1-alpha/2)Ci-CI(Ylr,sd,alpha)得到今年今年小麦总产量的估计量为 145945.1 百斤,置信区间为138551.1 , 153336.5比估计法
22、和回归估计法比较(3) 比较两种估计方法的精确度。分别比估计:Ybar= 1186.535,sd= 3676.834联合比估计:Ybar= 1186.546,sd= 3771.863分别比估计的标准差小于联合比估计的标准差,所以分别比估计更准确。2.某县欲调查某种农作物的产量,由于平原和山区的产量有差别,故拟划分平原和山区两层采用分层抽样。同时当年产量与去年产量之间有相关关系,故还计划采用比估计方法。已知平原共有 120 个村,去年总产量为 24500(百斤) ,山区共有 180 个村,去年总产为21200(百斤) 。现从平原用简单随机抽样抽取 6 个村,从山区抽取9 个村,两年的产量资料如下
23、:平原 山区样本 去年产量(百斤)当年产量(百斤)123456 2041438225627519821016075280300190样本 去年产量(百斤)当年产量(百斤)12345137189119631031502001256011019试用分别比估计与联合比估计分别估计当年的总产量,给出估计量的标准误,并对上述两种结果进行比较和分析。分别比估计(分层抽样)N1-120X1-24500n1-6f1-n1/N1N2-180X2-21200n2-9f2-n2/N2x1-c(204,143,82,256,275,198)x2-c(137,189,119,63,103,107,159,63,87)y
24、1-c(210,160,75,280,300,190)y2-c(150,200,125,60,110,100,180,75,90)xbar1-mean(x1)xbar2-mean(x2)ybar1-mean(y1)ybar2-mean(y2)R1-ybar1/xbar1R2-ybar2/xbar2varx1-var(x1)varx2-var(x2)vary1-var(y1)vary2-var(y2)sxy1-cov(x1,y1)sxy2-cov(x2,y2)67891071596387100180759020yrs-sum(ybar1*X1/xbar1,ybar2*X2/xbar2)a1-N1
25、2*(1-f1)*(vary1+R12*varx1-2*R1*sxy1)/n1a2-N22*(1-f2)*(vary2+R22*varx2-2*R2*sxy2)/n2vyrs-sum(a1,a2)sd1-sqrt(vyrs)得到当年总产量的估计量 Yrs 为 48206.45,估计量的标准差为 751.4072联合比估计N1-120X1-24500n1-6f1-n1/N1N2-180X2-21200n2-9f2-n2/N2X-sum(X1,X2)x1-c(204,143,82,256,275,198)x2-c(137,189,119,63,103,107,159,63,87)y1-c(210,
26、160,75,280,300,190)y2-c(150,200,125,60,110,100,180,75,90)xbar1-mean(x1)xbar2-mean(x2)ybar1-mean(y1)ybar2-mean(y2)varx1-var(x1)varx2-var(x2)vary1-var(y1)vary2-var(y2)sxy1-cov(x1,y1)sxy2-cov(x2,y2)Yst-sum(N1*ybar1,N2*ybar2)Xst-sum(N1*xbar1,N2*xbar2)Rc-Yst/XstYrc-Rc*Xb1-N12*(1-f1)*(vary1+Rc2*varx1-2*Rc*sxy1)/n1b2-N22*(1-f2)*(vary2+Rc2*varx2-2*Rc*sxy2)/n2vYrc-sum(b1,b2)sd2-sqrt(vYrc)得到当年总产量的估计量为 48209.84,估计量的标准差为 746.388分别比估计的标准差大于联合比估计的标准差,所以联合比估计效果好。