1、第一章 统计数据的收集与整理1.1 算术平均数是怎样计算的?为什么要计算平均数?答:算数平均数由下式计算: nyni1,含义为将全部观测值相加再被观测值的个数除,所得之商称为算术平均数。计算算数平均数的目的,是用平均数表示样本数据的集中点,或是说是样本数据的代表。1.2 既然方差和标准差都是衡量数据变异程度的,有了方差为什么还要计算标准差?答:标准差的单位与数据的原始单位一致,能更直观地反映数据地离散程度。1.3 标准差是描述数据变异程度的量,变异系数也是描述数据变异程度的量,两者之间有什么不同?答:变异系数可以说是用平均数标准化了的标准差。在比较两个平均数不同的样本时所得结果更可靠。1.4
2、完整地描述一组数据需要哪几个特征数?答:平均数、标准差、偏斜度和峭度。1.5 下表是我国青年男子体重(kg) 。由于测量精度的要求,从表面上看像是离散型数据,不要忘记,体重是通过度量得到的,属于连续型数据。根据表中所给出的数据编制频数分布表。66 69 64 65 64 66 68 65 62 64 69 61 61 68 66 57 66 69 66 6570 64 58 67 66 66 67 66 66 62 66 66 64 62 62 65 64 65 66 7260 66 65 61 61 66 67 62 65 65 61 64 62 64 65 62 65 68 68 6567
3、 68 62 63 70 65 64 65 62 66 62 63 68 65 68 57 67 66 68 6364 66 68 64 63 60 64 69 65 66 67 67 67 65 67 67 66 68 64 6759 66 65 63 56 66 63 63 66 67 63 70 67 70 62 64 72 69 67 6766 68 64 65 71 61 63 61 64 64 67 69 70 66 64 65 64 63 70 6462 69 70 68 65 63 65 66 64 68 69 65 63 67 63 70 65 68 67 6966 65 6
4、7 66 74 64 69 65 64 65 65 68 67 65 65 66 67 72 65 6762 67 71 69 65 65 75 62 69 68 68 65 63 66 66 65 62 61 68 6564 67 66 64 60 61 68 67 63 59 65 60 64 63 69 62 71 69 60 6359 67 61 68 69 66 64 69 65 68 67 64 64 66 69 73 68 60 60 6338 62 67 65 65 69 65 67 65 72 66 67 64 61 64 66 63 63 66 6666 63 65 63
5、67 68 66 62 63 61 66 61 63 68 65 66 69 64 66 7069 70 63 64 65 64 67 67 65 66 62 61 65 65 60 63 65 62 66 64答:首先建立一个外部数据文件,名称和路径为:E:dataexer1-5e.dat。所用的 SAS 程序和计算结果如下:proc format;value hfmt56-57=56-57 58-59=58-59 60-61=60-6162-63=62-63 64-65=64-65 66-67=66-6768-69=68-69 70-71=70-71 72-73=72-7374-75=74
6、-75;run;data weight;infile E:dataexer1-5e.dat;input bw ;run;proc freq;table bw;format bw hfmt.;run;The SAS SystemCumulative CumulativeBW Frequency Percent Frequency Percent-56-57 3 1.0 3 1.058-59 4 1.3 7 2.360-61 22 7.3 29 9.762-63 46 15.3 75 25.064-65 83 27.7 158 52.766-67 77 25.7 235 78.368-69 45
7、15.0 280 93.370-71 13 4.3 293 97.772-73 5 1.7 298 99.374-75 2 0.7 300 100.01.6 将上述我国男青年体重看作一个有限总体,用随机数字表从该总体中随机抽出含量为 10 的两个样本,分别计算它们的平均数和标准差并进行比较。它们的平均数相等吗?标准差相等吗?能够解释为什么吗?答:用 means 过程计算,两个样本分别称为 1y和 2,结果见下表:The SAS SystemVariable N Mean Std Dev-Y1 10 64.5000000 3.5039660Y2 10 63.9000000 3.1780497-随
8、机抽出的两个样本,它们的平均数和标准差都不相等。因为样本平均数和标准差都是统计量,统计量有自己的分布,很难得到平均数和标准差都相等的两个样本。1.7 从一个有限总体中采用非放回式抽样,所得到的样本是简单的随机样本吗?为什么?本课程要求的样本都是随机样本,应当采用哪种抽样方法,才能获得一随机样本?答:不是简单的随机样本。从一个有限总体中以非放回式抽样方法抽样,在前后两次抽样之间不是相互独立的,后一次的抽样结果与前一次抽样的结果有关联,因此不是随机样本。应采用随机抽样的方法抽取样本,具体说应当采用放回式抽样。1.8 证明 ni ni iiii Cyyy1122, 。其 中若用yii或iiCy编码时
9、,前式是否仍然相等?答:(1)令 Cyii则 平均数特性之。niiiiniiy12212(2) 令 Cyi则 平均数特性之。2121Cyyniiiinii用第二种编码方式编码结果,两式不再相等。1.9 有一个样本: ny,21 ,设 B 为其中任意一个数值。证明只有当 yB时 ,niBy12最小。这是平均数的一个重要特性,在后面讲到一元线型回归时还会用到该特性。答:令 2p, 为求使 p 达最小之 B,令02y则 ynBy02。 1.10 检测菌肥的功效,在施有菌肥的土壤中种植小麦,成苗后测量苗高,共 100 株,数据如下 1:10.0 9.3 7.2 9.1 8.5 8.0 10.5 10.
10、6 9.6 10.17.0 6.7 9.5 7.8 10.5 7.9 8.1 9.6 7.6 9.410.0 7.5 7.2 5.0 7.3 8.7 7.1 6.1 5.2 6.810.0 9.9 7.5 4.5 7.6 7.0 9.7 6.2 8.0 6.98.3 8.6 10.0 4.8 4.9 7.0 8.3 8.4 7.8 7.56.6 10.0 6.5 9.5 8.5 11.0 9.7 6.6 10.0 5.06.5 8.0 8.4 8.3 7.4 7.4 8.1 7.7 7.5 7.17.8 7.6 8.6 6.0 7.0 6.4 6.7 6.3 6.4 11.010.5 7.8
11、5.0 8.0 7.0 7.4 5.2 6.7 9.0 8.64.6 6.9 3.5 6.2 9.7 6.4 5.8 6.4 9.3 6.4编制苗高的频数分布表,绘制频数分布图,并计算出该样本的四个特征数。答:首先建立一个外部数据文件,名称和路径为:E:dataexr1-10e.dat 。SAS 程序及结果如下:options nodate;proc format; value hfmt 3.5-4.4=3.5-4.4 4.5-5.4=4.5-5.4 5.5-6.4=5.5-6.4 6.5-7.4=6.5-7.4 7.5-8.4=7.5-8.4 8.5-9.4=8.5-9.4 9.5-10.4
12、=9.5-10.4 10.5-11.4=10.5-11.4; run; data wheat; infile E:dataexr1-10e.dat; input height ; run; proc freq; table height; format height hfmt.; run;proc capability graphics noprint;var height;histogram/vscale=count;inset mean var skewness kurtosis;run;The SAS SystemThe FREQ ProcedureCumulative Cumulati
13、veheight Frequency Percent Frequency Percent- 3.5-4.4 1 1.00 1 1.004.5-5.4 9 9.00 10 10.005.5-6.4 11 11.00 21 21.006.5-7.4 23 23.00 44 44.007.5-8.4 24 24.00 68 68.008.5-9.4 11 11.00 79 79.009.5-10.4 15 15.00 94 94.0010.5-11.4 6 6.00 100 100.001.11 北太平洋宽吻海豚羟丁酸脱氢酶(HDBH)数据的接收范围频数表 2如下:(略作调整)HDBH 数据的接收范
14、围/(U L-1) 频 数0.05 时,则认为差异不显著;当 P(5 人均治愈)0.05所以该药物并不优于一般疗法。3.5 给一组雌雄等量的实验动物服用一种药物,然后对存活的动物分成 5 只为一组,进行抽样试验。试验结果表明,5 只均为雄性的频率为 1 / 243,问该药物对雌雄的致死作用是否一致?答:设 p 为处理后雄性动物存活的概率,则3124355p因此,对雄性动物的致死率高于对雌性动物的致死率。3.6 把成年椿象放在8.5下冷冻 15 分钟,然后在 100 个各含 10 只椿象的样本中计算死虫数,得到以下结果:死虫数 0 1 2 3 4 5 6 7 8 9 10 合计样本数 4 21
15、28 22 14 8 2 1 0 0 0 100计算理论频数,并与实际频数做一比较。答:先计算死虫数 C:C = 04+121+228+322+414+58+62+71 = 258死虫率 = 258 / 1 000 = 0.258活虫率 1 = 0.742展开二项式(0.742 + 0.258) 10 得到以下结果:0.050 59+0.175 90+0.275 22+0.255 19+0.155 28+0.064 79+0.018 774+3.730 210-3+4.863 810-4+3.758 210-5+1.30710-6将以上各频率乘以 100 得到理论频数,并将实际数与理论数列成下
16、表。死虫数 实际数 理论数 偏差0 4 5.1 -1.11 21 17.2 3.82 28 27.5 0.53 22 25.5 -3.54 14 15.5 -1.55 8 6.5 1.56 2 1.9 0.17 1 0.4 0.68 0 0 09 0 0 010 0 0 03.7 人类染色体一半来自父亲,一半来自母亲。在减数分裂时,46 条染色体随机分配到两极,若不考虑染色体内重组,父亲的 22 条常染色体重新聚集在一极的概率是多少?12条父亲染色体和 11 条母亲染色体被分配到同一极的概率又是多少?常染色体的组合共有多少种?从上述的计算可以看出变异的广泛性,若再考虑染色体内重组,新组合染色体
17、的数目就更惊人了。答:(1)P(父亲 22 条常染色体重新聚集于同一极) = 721038.(2)P(12 条父亲染色体和 11 条母亲染色体被分配到同一极)= 216.08375212!31(3)共有 222 = 4 194 304 种。3.8 生男生女的概率各为 1/2,问在一个医院中,连续出生 30 名男孩及 30 名性别交错的新生儿的概率各为多少?答:P(连续出生 30 名男孩)=1030 23.9847121P(30 名性别交错不同者)=930 10682.91756213.9 在显性基因频率很低时,出现显性性状的个体一般为杂合子。一名女子是蓬发者(显性性状) ,在她的全部六名孩子中
18、, (1)其中第一名孩子, (2)其中第一和第二名孩子,(3)全部六名孩子, (4)任何一名曾孙(或曾孙女)中,发生蓬发的概率是多少?答: 设:P(子女蓬发)= = 1/2P(子女非蓬发)= 1 = 1/2则(1)P(其中第一名子女蓬发)=(1/2)(1/2) 5 = 0.015 625(2)P(只有第一和第二名孩子蓬发)= (1/2) 2(1/2)4 = 0.015 625(3)P(全部六名子女)= (1/2) 6 = 0.015 625(4)P(任何一名曾孙蓬发)= P(任何一名儿子蓬发)P(任何一名孙子蓬发|蓬发的儿子)P (任何一名曾孙蓬发|蓬发的孙子)=(1/21/2) (1/21/
19、2) (1/21/2) = 0.015 6253.10 在数量性状遗传中,F 1 的性状介于双亲之间,F 2 的性状向双亲方向分离。这是一个二项分布问题,根据二项展开式,计算控制某性状的基因个数,假设出现亲本性状的频率为 a。答:设:P(正效应基因频率)= p则3.11 计算 = 0.1,0.2,1,2,5 时,泊松分布的 1 和 2,绘制概率分布图并做比较。答:泊松分布的概率函数:Eyp!将 = 0.1,0.2,1,2,5 分别代入上式。(1) =0.1 时y p(y)0 0.904 81 0.090 482 0.004 5243 0.000 150 84 0.000 003 7710.36
20、2.21(2) =0.2 时y p(y)0 0.818 7pannlg1 0.163 72 0.016 393 0.001 0924 0.000 054 5852.0136.21(3) = 1 时y p(y)0 0.367 91 0.367 92 0.183 93 0.061 314 0.015 335 0.003 0666 0.000 510 97 0.000 072 99121(4) = 2 时y p(y) y p(y)0 0.135 3 6 0.012 031 0.270 7 7 0.003 4372 0.270 7 8 0.000 859 33 0.180 4 9 0.000 190
21、94 0.090 22 10 0.000 038 195 0.036 09(5) = 5 时y p(y) y p(y)0 0.006 738 9 0.036 271 0.033 69 10 0.018 132 0.084 22 11 0.008 4243 0.140 4 12 0.003 4344 0.175 5 13 0.001 3215 0.175 5 14 0.000 471 7.021170.46 0.146 2 15 0.000 157 27 0.104 4 16 0.000 049 148 0.065 28可见,随着 的增大泊松分布越来越接近于“正态”的。3.12 随机变量 Y 服
22、从正态分布 N(5,42),求 P(Y0),P( Y10) ,P(0 Y15),P(Y5 ),P (Y15)的值。答: 2106.5415 148.0651.793.0550061.2.4538941 YPY或者使用 SAS 程序计算,结果见下表:OBS MU SIGMA Y1 LOWERP Y2 UPPERP MIDP1 5 4 10 0.89435 . . .2 5 4 0 0.10565 . . .3 5 4 0 0.10565 15 0.00621 0.888144 5 4 . . 5 0.50000 .5 5 4 . . 15 0.00621 .3.13 已知随机变量 Y 服从正态分
23、布 N(0,52),求 y0 分别使得 P(Y y0)=0.025, P(Y y0)=0.01, P(Y y0)=0.95 及 P(Y y0)=0.90。答:2.051742.362 415.6283.1509.5019.0641 8915025020 00 yyyyYP yyyyYP3.14 细菌突变率是指单位时间(细菌分裂次数)内,突变事件出现的频率。然而根据以上定义直接计算突变率是很困难的。例如,向一试管中接种一定量的细菌,振荡培养后铺平板。在平板上发现 8 个突变菌落。这 8 个突变细菌究竟是 8 个独立的突变事件呢,还是一个突变细胞的 8 个子细胞是很难确定的。但是有一点是可以肯定的
24、,即,没有发现突变细胞的平皿一定没有突变事件出现。向 20 支试管中分别接种 2107 个大肠杆菌,振荡培养后铺平板,同时接种 T1 噬菌体。结果在 9 个平皿中出现数量不等的抗 T1 噬菌体菌落。11 个平皿上没有出现。已知平皿上突变菌落数服从泊松分布并且细胞分裂次数近似等于铺平板时的细胞数。利用泊松分布概率函数计算抗 T1 突变率。答:已知接种细胞数为 n, n 即可认为是细胞分裂次数。若每一次细胞分裂的突变率为u,那么每一试管中平均有 un 次突变事件发生() 。从泊松分布概率函数可知,无突变发生的概率 f(0)=E-un。实验结果无突变的平皿数为 11 个,即 f(0)=11/20=0
25、.55。解下式5.0unE即可求出突变率 u。已知 n=0.2108,代入上式得到 u=310-8。3.15 一种新的血栓溶解药 t-pA,据说它能消除心脏病发作。在一次检测中的 7 名检测对象,年龄都在 50 岁以上,并有心脏病发作史。他们以这种新药治疗后,6 人的血栓得到溶解,1 人血栓没有溶解。假设 t-pA 溶解血栓是无效的,并假设,不用药物在短时间内心脏患者血栓自己溶解的概率 是很小的,如 =0.1。设 y 为 7 名心脏患者中血栓在短时间内可以自动溶解的患者数。问:(1)若药物是无效的,7 名心脏患者中的 6 名血栓自动溶解的概率是多少?(2)Y6 是否为一稀有事件,你认为药物是否
26、有效?答:(1) = 0.1 1 =0.9 n=7 y=6,306.9.10!69.06167 Cp(2) .P (Y6) = 0.000 006 3+0.000 000 1 = 6.410-6。结论:在不用药的情况下,7 名病人中 6 名患者的血栓自动溶解的事件是一个小概率事件,因此药物有效。3.16 一农药商声称,用他的农药喷洒玉米后,90%的玉米植株中不再有活的玉米螟。为了验证这种说法,喷药后随机抽出 25 株玉米,发现 7 株中仍有活的玉米螟。(1)若农药商的说法是正确的,在 25 株玉米中包含 7 株和 7 株以上有活玉米螟的概率是多少?(2)在 25 株玉米中有 7 株有活玉米螟,
27、你是否认为农药有效率达不到 90%?答:(1) 09. 9.019.01.1 9.01.6625521425 232532450 CCYP(2) 是3.17 设计一实验用来检验号称心灵感应者是否有特异功能(ESP)。将 5 张卡片洗匀随机抽出一张,不准心灵感应者看,让他判断是哪一张。实验共重复 20 次,记录正确判断次数(假设 20 次重复间是随机的) 。假设心灵感应者是猜的,没有 ESP,那么(1)每次得到正确结果的概率是什么?(2)在 20 次重复中,期望正确判断数是多少?(3)正确判断 6 次和 6 次上的概率是多少?(4)假设心灵感应者在 20 次重复中判断正确 6 次,是否可以证明心
28、灵感应者不是猜的,而是真正的 ESP?答:(1)p = 1/5 。(2)E( Y) = np = 201/5 = 4。(3) 196.054516202620 CCP(4)不能。因为在猜想的情况下,20 次重复中判断正确 6 次的概率为 0.196,将近 20%,已不是小概率事件,非心灵感应者有可能得到这样的结果。3.18 据一个生化制药厂报告,在流水线上每 8 小时的一个班中,破碎的安瓿瓶数服从泊松分布, =1.5。问:(1)夜班破碎 2 个瓶子的概率是多少 ?(2)在夜班打碎 2 个以下的概率是多少? (3)在早班破碎 2 个以上的概率是多少?(4)在一天连续三班都没有破碎的概率(假设三班
29、间是独立的)?答:(1) 51.0!.1p(2)58.03.2.!05.1. (3) 92pxP(4)记 A 为每个班没有破碎的事件,则1033第四章 抽样分布4.1 第四章的习题读者可以照常练习。在这里,利用 SAS 软件包中的“正态分布随机数函数”做一抽样试验,进行一个类似的演示。假定总体平均数 ,标准差 ,用下式:Y8 2正态分布随机数,获得一个服从 (, )分布的正态总体。从该正态总体中随机抽取含量为 100 的样本,共抽取 10 000 个样本。计算每一样本的 sy仪2,,然后计算样本平均数、样本方差和样本标准差的平均数( sy,2)以及它们的标准差(sy,2)。用上述结果与 sy仪
30、2,分布的特征数分别见 (4.1),(4.2)式;(4.14),(4.15)式以及(4.18), (4.19)式 比较。看一看抽样的结果是否能够很好地估计总体参数。抽样试验还可以进一步深入,计算每一样本的 t。然后计算 t 的平均数和标准差,用计算的结果与 t 分布的特征数比较, 见(4.8),(4.9) 式 。看一看抽样的结果与总体参数的一致性是否很好。为了与问题的要求一致,抽样分两部分进行,下面先讨论样本平均数、样本方差和样本标准差的分布。SAS 程序如下:options nodate;data value;n=100;m=10000;df=n-1;do i=1 to m;retain s
31、eed 3053177;do j=1 to n;y=8+2*normal(seed);output;end;end;data disv;set value;sqy=y*y;by i;if first.i then sumy=0;sumy+y;if first.i then sumsqy=0;sumsqy+sqy;my=sumy/n;vacey=(sumsqy-my*sumy)/df;stdy=sqrt(vacey);if last.i then output;run;proc means mean var std;var my stdy vacey;title Sampling Distrib
32、ution: Mu=8 sigma=2;run;程序运行的结果见下表:Sampling Distribution: Mu=8 sigma=2Variable Mean Variance Std Dev-MY 8.0005218 0.0394867 0.1987126STDY 1.9949780 0.0204989 0.1431743VACEY 4.0004341 0.3294953 0.5740169-下面将相应的参数值,列成一个对应的表格,以便能够在抽样的结果与总体参数间做一个很清楚地比较。 变 量 2 Y8.000 0 0.040 0 0.200 0S 1.995 0 0.020 2 0.
33、142 0S2 4.000 0 0.323 2 0.568 5从表中可以看出,样本统计量的抽样结果与总体参数基本上是一致的。当样本含量继续增加,这种一致性会来得更好。以下是问题的第二部分,这部分的程序与第一部分没有多大区别,完全可以与第一部分合并一起完成,读者可以尝试自己完成这项工作。options nodate;data value;n=100;m=10000;df=n-1;do i=1 to m;retain seed 3053177;do j=1 to n;y=8+2*normal(seed);output;end;end;data disv;set value;sqy=y*y;by i
34、;if first.i then sumy=0;sumy+y;if first.i then sumsqy=0;sumsqy+sqy;my=sumy/n;vacey=(sumsqy-my*sumy)/df;stdy=sqrt(vacey);t=(my-8)*sqrt(n)/stdy;if last.i then output;run;proc means mean std;var t;title Sampling Distribution: Mu=8 sigma=2;run;程序运行的结果见下表:Sampling Distribution: Mu=8 sigma=2Analysis Varia
35、ble : TMean Std Dev0.0021783 1.0050935-t 分布的特征数: t0.000 0, t1.010 2。抽样的结果与总体参数的一致性也是很好的。第五章 统计推断5.1 统计假设有哪几种?它们的含义是什么?答:有零假设和备择假设。零假设:假设抽出样本的那个总体之某个参数(如平均数)等于某一给定的值。备择假设:在拒绝零假设后可供选择的假设。5.2 小概率原理的含义是什么?它在统计假设检验中起什么作用?答:小概率的事件,在一次试验中,几乎是不会发生的。若根据一定的假设条件,计算出来该事件发生的概率很小,而在一次试验中,它竟然发生了,则可以认为假设的条件不正确,从而否定
36、假设。小概率原理是显著性检验的基础,或者说显著性检验是在小概率原理的基础上建立起来的。5.3 什么情况下用双侧检验?什么情况下可用单侧检验?两种检验比较,哪一种检验的效率更高?为什么?答:以总体平均数为例,在已知 不可能小于 0 时,则备择假设为 HA: 0,这时为上尾单侧检验。在已知 不可能大于 0 时,则备择假设为 HA: 0,这时为下尾单侧检验。在没有关于 不可能小于 0 或 不可能大于 0 的任何信息的情况下,其备择假设为HA: 0,这时为双侧检验。两种检验比较,单侧检验效率更高,因为在单侧检验时,有一侧的信息是已知的,信息量大于双侧检验,因此效率高于双侧检验。5.4 显著性水平是一个
37、指数还是一个特定的概率值?它与小概率原理有什么关系?常用的显著水平有哪几个?答:显著性水平是一个特定的概率值。在小概率原理的叙述中提到“若根据一定的假设条件,计算出来该事件发生的概率很小”,概率很小要有一个标准,这个标准就是显著水平。常用的显著水平有两个,5和 1。5.5 为什么会产生 I 型错误?为什么会产生 II 型错误?两者的关系是什么?为了同时减少犯两种错误的概率,应采取什么措施?答:在 H0 是真实的情况下,由于随机性,仍有一部分样本落在拒绝域内,这时将拒绝H0,但这样的拒绝是错误的。即,如果假设是正确的,却错误地据绝了它,这时所犯的错误称为 I 型错误。当 0,而等于其它的值( 1)时,样本也有可能落在接受域内。当事实上 0,但错误地接受了 0 的假设,这时所犯的错误称为 II 型错误。为了同时减少犯两种错误的概率,应当增加样本含量。5.6 统计推断的结论是接受 H0,接受零假设是不是表明零假设一定是正确的?为什么?“接受零假设”的正确表述应当是什么?答:统计推断是由样本统计量推断总体参数,推断的正确性是与样本的含量有关的。以对平均数的推断为例,当样本含量较少时,标准化的样本平均数 u 值较小,很容易落在