1、1第 1 章 绪论1什么是统计学?怎样理解统计学与统计数据的关系?2试举出日常生活或工作中统计数据及其规律性的例子。3 一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。因此,他们开始检查供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是 2 440 加仑的油漆罐。这家零售商抽查了 50 罐油漆,每一罐的质量精确到 4 位小数。装满的油漆罐应为 4.536 kg。要求:(1)描述总体; (2)描述研究变量; (3)描述样本;(4)描述推断。答:(1)总体:最近的一个集装箱内的全部油漆;(2)研究变量:装满的油漆罐的质量;(3)样本:最近的一个集装箱内的 50 罐油漆;(4)推断:
2、50 罐油漆的质量应为 4.53650226.8 kg。4 “可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。这场战役因影视明星、运动员的参与以及消费者对品尝试验优先权的抱怨而颇具特色。假定作为百事可乐营销战役的一部分,选择了 1000 名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出 A 品牌或 B 品牌中哪个口味更好。要求:(1)描述总体;(2)描述研究变量;(3)描述样本; (4)一描述推断。答:(1)总体:市场上的“可口可乐”与“百事可乐”(2)研究变量:更好口味的品牌名称;(3)样本:1000 名消费者品尝的两个品牌(
3、4)推断:两个品牌中哪个口味更好。第 2 章 统计数据的描述 练习题1.为评价家电行业售后服务的质量,随机抽取了由 100 家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下:B E C C A D C B A ED A C B C D E C E EA D B C C A E D C BB A C D E A B D D CC B C E D B C C B CD A C B C D E C E BB E C C A D C B A EB A C D E A B D D CA D B C C A E D C BC B C E D B C
4、C B C(1) 指出上面的数据属于什么类型;(2) 用 Excel 制作一张频数分布表;2(3) 绘制一张条形图,反映评价等级的分布。解:(1)由于表 2.21 中的数据为服务质量的等级,可以进行优劣等级比较,但不能计算差异大小,属于顺序数据。(2)频数分布表如下:服务质量等级评价的频数分布服务质量等级 家庭数(频数) 频率%A 14 14B 21 21C 32 32D 18 18E 15 15合计 100 100(3)条形图的制作:将上表( 包含总标题,去掉合计栏)复制到 Excel 表中,点击:图表向导条形图选择子图表类型完成(见 Excel 练习题 2.1)。即得到如下的条形图:0 2
5、0 40ABCDE 服 务 质 量 等级 评 价 的 频数 分 布 频率 %服 务 质 量 等级 评 价 的 频数 分 布 家 庭数 ( 频 数 )2.某行业管理局所属 40 个企业 2002 年的产品销售收入数据如下(单位:万元):152 124 129 116 100 103 92 95 127 104105 119 114 115 87 103 118 142 135 125117 108 105 110 107 137 120 136 117 10897 88 123 115 119 138 112 146 113 126(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积
6、频数和累积频率;(2)如果按规定:销售收入在 125 万元以上为先进企业,115 万125 万元为良好企业,105 万115 万元为一般企业,105 万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。解:(1)要求对销售收入的数据进行分组,全部数据中,最大的为 152,最小的为 87,知数据全距为 15287=65;为便于计算和分析,确定将数据分为 6 组,各组组距为 10,组限以整 10 划分;为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组方式,最小值87 可能落在最小组之下,最大值 152 可能落在最大组之上,将最小组和最大组设计成开口形式;按照“上限不在组内
7、”的原则,用划记法统计各组内数据的个数企业数,也可以用 Excel 进行排序统计(见 Excel 练习题 2.2),将结果填入表内,得到频数分布表如下表中的左两列;将各组企业数除以企业总数 40,得到各组频率,填入表中第三列;3在向上的数轴中标出频数的分布,由下至上逐组计算企业数的向上累积及频率的向上累积,由上至下逐组计算企业数的向下累积及频率的向下累积。整理得到频数分布表如下:40 个企业按产品销售收入分组表向上累积 向下累积按销售收入分组(万元)企业数(个)频率(% ) 企业数 频率 企业数 频率100 以下100110110120120130130140140 以上591274312.5
8、22.530.017.510.07.55142633374012.535.065.082.592.5100.04035261473100.087.565.035.017.57.5合计 40 100.0 (2)按题目要求分组并进行统计,得到分组表如下:某管理局下属 40 个企分组表按销售收入分组(万元) 企业数(个) 频率(% )先进企业良好企业一般企业落后企业11119927.527.522.522.5合计 40 100.0 3.某百货公司连续 40 天的商品销售额如下(单位:万元):41 25 29 47 38 34 30 38 43 4046 36 45 37 37 36 45 43 33
9、 4435 28 46 34 30 37 44 26 38 4442 36 37 37 49 39 42 32 36 35根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。解:全部数据中,最大的为 49,最小的为 25,知数据全距为 4925=24;为便于计算和分析,确定将数据分为 5 组,各组组距为 5,组限以整 5 的倍数划分;为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组方式,最小值24 已落在最小组之中,最大值 49 已落在最大组之中,故将各组均设计成闭口形式;按照“上限不在组内”的原则,用划记法或用 Excel 统计各组内数据的个数天数,(见 Excel 练习题
10、2.3)并填入表内,得到频数分布表如下表中的左两列;将各组天数除以总天数 40,得到各组频率,填入表中第三列;得到频数分布表如下:某百货公司日商品销售额分组表按销售额分组(万元) 频数(天) 频率(% )25303035354040454615910.015.037.522.544550 6 15.0合计 40 100.0直方图:将上表(包含总标题,去掉合计栏 )复制到 Excel 表中,点击:图表向导柱形图选择子图表类型完成。即得到如下的直方图:(见 Excel 练习题 2.3)01020304025303035354040454550某 百 货 公 司日 商 品 销 售额 分 组 表 频数
11、 ( 天 )某 百 货 公 司日 商 品 销 售额 分 组 表 频率 ( %).为了确定灯泡的使用寿命(小时) ,在一批灯泡中随机抽取 100 只进行测试,所得结果如下:700 716 728 719 685 709 691 684 705 718706 715 712 722 691 708 690 692 707 701708 729 694 681 695 685 706 661 735 665668 710 693 697 674 658 698 666 696 698706 692 691 747 699 682 698 700 710 722694 690 736 689 696
12、651 673 749 708 727688 689 683 685 702 741 698 713 676 702701 671 718 707 683 717 733 712 683 692693 697 664 681 721 720 677 679 695 691713 699 725 726 704 729 703 696 717 688(1)利用计算机对上面的数据进行排序;(2)以组距为 10 进行等距分组,整理成频数分布表,并绘制直方图;(3)绘制茎叶图,并与直方图作比较。解:(1)排序:将全部数据复制到 Excel 中,并移动到同一列,点击:数据排序确定,即完成数据排序的工作。
13、(见 Excel 练习题 2.4)(2)按题目要求,利用已排序的 Excel 表数据进行分组及统计,得到频数分布表如下:(见 Excel 练习题 2.4)100 只灯泡使用寿命非频数分布按使用寿命分组(小时) 灯泡个数(只) 频率(% )650660 2 2660670 5 5670680 6 6680690 14 14690700 26 26700710 18 18710720 13 135720730 10 10730740 3 3740750 3 3合计 100 100制作直方图:将上表(包含总标题,去掉合计栏 )复制到 Excel 表中,选择全表后,点击:图表向导柱形图选择子图表类型完
14、成。即得到如下的直方图:(见 Excel 练习题 2.4)051015202530650660670680690700710720730740100只 灯 泡使 用 寿 命 非频 数 分 布灯 泡 个 数100只 灯 泡使 用 寿 命 非频 数 分 布频 率 ( %)(3)制作茎叶图:以十位以上数作为茎,填入表格的首列,将百、十位数相同的数据的个位数按由小到大的顺序填入相应行中,即成为叶,得到茎叶图如下:65 1 866 1 4 5 6 867 1 3 4 6 7 968 1 1 2 3 3 3 4 5 5 5 8 8 9 969 0 0 1 1 1 1 2 2 2 3 3 4 4 5 5 6
15、 6 6 7 7 8 8 8 8 9 970 0 0 1 1 2 2 3 4 5 6 6 6 7 7 8 8 8 971 0 0 2 2 3 3 5 6 7 7 8 8 972 0 1 2 2 5 6 7 8 9 973 3 5 674 1 4 7将直方图与茎叶图对比,可见两图十分相似。.下面是北方某城市 12 月份各天气温的记录数据:-3 2 -4 -7 -11 -1 7 8 9 -6 -7-14 -18 -15 -9 -6 -1 0 5 -4 -9 -3-6 -8 -12 -16 -19 -15 -22 -25 -24 -19 -21-8 -6 -15 -11 -12 -19 -25 -2
16、4 -18 -17 -24-14 -22 -13 -9 -6 0 -1 5 -4 -9 -3-3 2 -4 -4 -16 -1 7 5 -6 -5(1) 指出上面的数据属于什么类型;(2) 对上面的数据进行适当的分组;(3) 绘制直方图,说明该城市气温分布的特点。解:(1)由于各天气温的记录数据属于数值型数据,它们可以比较高低,且 0 不表示没6有,因此是定距数据。(2)分组如下:由于全部数据中,最大的为 9,最小的为25,知数据全距为 9(25)=34;为便于计算和分析,确定将数据分为 7 组,各组组距为 5,组限以整 5 的倍数划分;为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组
17、方式,最小值25 已落在最小组之中,最大值 9 已落在最大组之中,故将各组均设计成闭口形式;按照“上限不在组内”的原则,用划记法(或 Excel 排序法,见 Excel 练习题 2.5)统计各组内数据的个数天数,并填入表内,得到频数分布表如下表;北方某城市 12 月份各天气温分组 天数(天)-25-20 8-20-15 8-15-10 10-10-5 14-50 1405 4510 7合计 65(3)制作直方图:将上表(包含总标题,去掉合计栏)复制到 Excel 表中,点击:图表向导柱形图选择子图表类型完成。即得到如下的直方图:(见 Excel 练习题 2.5)北 方 某 城 市 1 2月 份
18、 各 天 气 温 天 数( 天 )051015-25-20-20-15-15-10-10-5-50 05510北 方 某 城 市 1 2月 份 各 天气 温 天 数( 天 ).下面是某考试管理中心对 2002 年参加成人自学考试的 12000 名学生的年龄分组数据:年龄 1819 2121 2224 2529 3034 3539 4044 4559% 1.9 34.7 34.1 17.2 6.4 2.7 1.8 1.2(1) 对这个年龄分布作直方图;(2) 从直方图分析成人自学考试人员年龄分布的特点。解:(1)制作直方图:将上表复制到 Excel 表中,点击:图表向导柱形图选择子图表类型完成。
19、即得到如下的直方图:(见 Excel 练习题 2.6)7%051015202530354018192121222425293034353940444559%(2)年龄分布的特点:自学考试人员年龄的分布为右偏。.下面是 A、B 两个班学生的数学考试成绩数据:A 班:44 57 59 60 61 61 62 63 63 6566 66 67 69 70 70 71 72 73 7373 74 74 74 75 75 75 75 75 7676 77 77 77 78 78 79 80 80 8285 85 86 86 90 92 92 92 93 96B 班:35 39 40 44 44 48 5
20、1 52 52 5455 56 56 57 57 57 58 59 60 6161 62 63 64 66 68 68 70 70 7171 73 74 74 79 81 82 83 83 8485 90 91 91 94 95 96 100 100 100(1) 将两个班的考试成绩用一个公共的茎制成茎叶图;(2) 比较两个班考试成绩分布的特点。解:(1)将树茎放置中间,A 班树叶向左生长,B 班树叶向右生长,得茎叶图如下:A 班 B 班数据个数 树 叶 树茎 树叶 数据个数0 3 59 21 4 4 0448 42 97 5 122456677789 1211 97665332110 6 0
21、11234688 923 98877766555554443332100 7 00113449 87 6655200 8 123345 66 632220 9 011456 60 10 000 3(2)比较可知:A 班考试成绩的分布比较集中,且平均分数较高; B 班考试成绩的分布比 A 班分散,且平均成绩较 A 班低。8.1997 年我国几个主要城市各月份的平均相对湿度数据如下表,试绘制箱线图,并分析各城市平均相对湿度的分布特征。月份 北京 长春 南京 郑州 武汉 广州 成都 昆明 兰州 西安81 49 70 76 57 77 72 79 65 51 672 41 68 71 57 75 80
22、 83 65 41 673 47 50 77 68 81 80 81 58 49 744 50 39 72 67 75 84 79 61 46 705 55 56 68 63 71 83 75 58 41 586 57 54 73 57 74 87 82 72 43 427 69 70 82 74 81 86 84 84 58 628 74 79 82 71 73 84 78 74 57 559 68 66 71 67 71 81 75 77 55 6510 47 59 75 53 72 80 78 76 45 6511 66 59 82 77 78 72 78 71 53 7312 56 5
23、7 82 65 82 75 82 71 52 72资料来源:中国统计年鉴 1998 ,中国统计出版社 1998,第 10 页。解:箱线图如下:(特征请读者自己分析) Min-ax25%7ed vlu3546578959.某百货公司 6 月份各天的销售额数据如下(单位:万元):257 276 297 252 238 310 240 236 265 278271 292 261 281 301 274 267 280 291 258272 284 268 303 273 263 322 249 269 295(1)计算该百货公司日销售额的均值、中位数和四分位数;(2)计算日销售额的标准差。 解:(
24、1)将全部 30 个数据输入 Excel 表中同列,点击列标,得到 30 个数据的总和为8223,于是得该百货公司日销售额的均值:(见 Excel 练习题 2.9)= = =274.1(万元)xn8230或点选单元格后,点击“自动求和”“平均值” ,在函数 EVERAGE()的空格中输入“A1:A30” ,回车,得到均值也为 274.1。在 Excel 表中将 30 个数据重新排序,则中位数位于 30 个数据的中间位置,即靠中的第 15、第 16 两个数 272 和 273 的平均数:Me= =272.5(万元)2739由于中位数位于第 15 个数靠上半位的位置上,所以前四分位数位于第 1第
25、15个数据的中间位置(第 8 位) 靠上四分之一的位置上,由重新排序后的 Excel 表中第 8 位是 261,第 15 位是 272,从而:QL=261+ =261.25(万元)2734同理,后四分位数位于第 16第 30 个数据的中间位置(第 23 位) 靠下四分之一的位置上,由重新排序后的 Excel 表中第 23 位是 291,第 16 位是 273,从而:QU=291 =290.75(万元) 。(2)未分组数据的标准差计算公式为:s=3021()iixn利用上公式代入数据计算是个较为复杂的工作。手工计算时,须计算 30 个数据的离差平方,并将其求和,()再代入公式计算其结果:得 s=
26、21.1742。(见 Excel 练习题 2.9)我们可以利用 Excel 表直接计算标准差:点选数据列(A 列)的最末空格,再点击菜单栏中 “”符号右边的小三角“” ,选择“其它函数”选择函数“STDEV” “确定” ,在出现的函数参数窗口中的 Number1右边的空栏中输入:A1:A30 ,“确定” ,即在 A 列最末空格中出现数值: 21.17412,即为这 30 个数据的标准差。于是:(万元) 。(见 Excel 练习题 2.9)17.2s10.甲乙两个企业生产三种产品的单位成本和总成本资料如下:总成本(元)产品名称单位成本(元) 甲企业 乙企业ABC15203021003000150
27、0325515001500比较哪个企业的总平均成本高?并分析其原因。解:设产品单位成本为 x,产量为 f,则总成本为 xf,由于:平均成本 = = ,而已知数据中缺产量 f 的数据,f总 成 本总 产 量又因个别产品产量 f = =该 产 品 成 本该 产 品 单 位 成 本 xf从而 = ,于是得:xf甲企业平均成本 19.41(元) ,xf210350510乙企业平均成本 18.29(元) ,xf325103对比可见,甲企业的总平均成本较高。原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。11.在某地区抽取的 120 家企业按利润额
28、进行分组,结果如下:按利润额分组(万元) 企业数(个)200300 19300400 30400500 42500600 18600 以上 11合计 120计算 120 家企业利润额的均值和标准差。解:设各组平均利润为 x,企业数为 f,则组总利润为 xf,由于数据按组距式分组,须计算组中值作为各组平均利润,列表计算得:组中值 企业数(个) 总利润按利润额分组(万元)x f xf200300 250 19 4750300400 350 30 10500400500 450 42 18900500600 550 18 9900600 以上 650 11 7150合计 120 51200于是,12
29、0 家企业平均利润为:= = = 426.67(万元) ;xf5120分组数据的标准差计算公式为:s=2()1ixf手动计算须列表计算各组数据离差平方和( x426.67) 2f, 并求和,再代入计算公式:列表计算如下组中值 企业数(个)x f (x 426.67)2f250 19 593033.4891350 30 176348.667450 42 22860.1338550 18 273785.200211650 11 548639.1779合计 120 1614666.668表格中( x426.67) 2f 的计算方法:方法一:将表格复制到 Excel 表中,点击第三列的顶行单元格后,在
30、输入栏中输入:=(a3426.67)* (a3426.67)*b3 ,回车,得到该行的计算结果;点选结果所在单元格,并将鼠标移动到该单元格的右下方,当鼠标变成黑“”字时,压下左键并拉动鼠标到该列最后一组数据对应的单元格处放开,则各组数据的( x426.67)2f 计算完毕;于是得标准差:(见 Excel 练习题 2.11)s = = =116.48(万元) 。2()1ixf64.801点击第三列的合计单元格后,点击菜单栏中的“”号,回车,即获得第三列数据的和。方法二:将各组组中值 x 复制到 Excel 的 A 列中,并按各组次数 f 在同列中复制,使该列中共有 f 个 x,120 个数据生成
31、后,点选 A 列的最末空格,再点击菜单栏中“”符号右边的小三角“” ,选择“其它函数”选择函数“STDEV” “确定” ,在出现的函数参数窗口中的 Number1 右边的空栏中输入:A1:A30,“确定” ,即在 A 列最末空格中出现数值:116.4845,即为这 120 个数据的标准差。 (见 Excel 练习题 2.11)于是得标准差:s =116.4845(万元) 。12.为研究少年儿童的成长发育状况,某研究所的一位调查人员在某城市抽取 100 名717 岁的少年儿童作为样本,另一位调查人员则抽取了 1000 名 717 岁的少年儿童作为样本。请回答下面的问题,并解释其原因。(1)哪一位
32、调查研究人员在其所抽取的样本中得到的少年儿童的平均身高较大?或者这两组样本的平均身高相同?(2)哪一位调查研究人员在其所抽取的样本中得到的少年儿童身高的标准差较大?或者这两组样本的标准差相同?(3)哪一位调查研究人员有可能得到这 1100 名少年儿童的最高者或最低者?或者对两位调查研究人员来说,这种机会是相同的?解:(1) (2)两位调查人员所得到的平均身高和标准差应该差不多相同,因为均值和标准差的大小基本上不受样本大小的影响。(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围就可能越大。 13.一项关于大学生体重状况的研究发现,男生的平均体重为 60 公斤,标
33、准差为 5 公斤;女生的平均体重为 50 公斤,标准差为 5 公斤。请回答下面的问题:(1)是男生的体重差异大还是女生的体重差异大?为什么?(2)以磅为单位(1 公斤2.2 磅) ,求体重的平均数和标准差。(3)粗略地估计一下,男生中有百分之几的人体重在 55 公斤到 65 公斤之间?(4)粗略地估计一下,女生中有百分之几的人体重在 40 公斤到 60 公斤之间? 解:(1)由于两组的平均体重不相等,应通过比较离散系数确定体重差异较大的组:因为女生的离散系数为V= 0.1sx50男生体重的离散系数为12V= 0.08sx560对比可知女生的体重差异较大。(2) 男生: = 27.27(磅) ,
34、s = =2.27(磅) ;2.公 斤公 斤 2.5公 斤公 斤女生: = =22.73(磅) ,s = =2.27(磅) ;x.50公 斤公 斤 .公 斤公 斤(3)68% ;(4)95%。 14.对 10 名成年人和 10 名幼儿的身高(厘米)进行抽样调查,结果如下:成年组 166 169 172 177 180 170 172 174 168 173幼儿组 68 69 68 70 71 73 72 73 74 75(1)要比较成年组和幼儿组的身高差异,你会采用什么样的指标测度值?为什么?(2)比较分析哪一组的身高差异大?解:(1)应采用离散系数,因为成年人和幼儿的身高处于不同的水平,采用
35、标准差比较不合适。离散系数消除了不同组数据水平高低的影响,采用离散系数就较为合理。(2)利用 Excel 进行计算,得成年组身高的平均数为 172.1,标准差为 4.202,从而得:成年组身高的离散系数: ;024.17.sv又得幼儿组身高的平均数为 71.3,标准差为 2.497,从而得:幼儿组身高的离散系数: ;.9.35s由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。15.一种产品需要人工组装,现有三种可供选择的组装方法。为检验哪种方法更好,随机抽取 15 个工人,让他们分别用三种方法组装。下面是 15 个工人分别用三种方法在相同的时间内组装的产品数
36、量(单位:个):方法 A 方法 B 方法 C164 129 125167 130 126168 129 126165 130 127170 131 126165 130 128164 129 127168 127 126164 128 127162 128 127163 127 125166 128 12613167 128 116166 125 126165 132 125(1( 你准备采用什么方法来评价组装方法的优劣?(2( 如果让你选择一种方法,你会作出怎样的选择?试说明理由。解:(1)下表给计算出这三种组装方法的一些主要描述统计量: 方法 A 方法 B 方法 C平均 165.6 平均
37、128.73 平均 125.53中位数 165 中位数 129 中位数 126众数 164 众数 128 众数 126标准偏差 2.13 标准偏差 1.75 标准偏差 2.77极差 8 极差 7 极差 12最小值 162 最小值 125 最小值 116最大值 170 最大值 132 最大值 128评价优劣应根据离散系数,据上得:方法 A 的离散系数 VA= =0.0129,2.1365方法 B 的离散系数 VB= =0.0136,78.方法 C 的离散系数 VC= =0.0221;123对比可见,方法 A 的离散系数最低,说明方法 A 最优。(2)我会选择方法 A,因为方法 A 的平均产量最高
38、而离散系数最低,说明方法 A 的产量高且稳定,有推广意义。16.在金融证券领域,一项投资的的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小,投资风险越低,预期收益率的变化越大,投资风险就越高。下面的两个直方图,分别反映了 200 种商业类股票和 200 种高科技类股票的收益率分布。在股票市场上,高收益率往往伴随着高风险。但投资于哪类股票,往往与投资者的类型有一定关系。(1)你认为该用什么样的统计测度值来反映投资的风险?(2)如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票?(3)如果你进行股票投资,你会选择商业类股票还是高科技类股票?-30 0 30 60 -
39、30 0 30 60收 益 率 收 益 率 (a)商业类股票 (b) 高科技类股票解:(1)方差或标准差;(2)商业类股票;(3) (略) 。17.下图给出了 2000 年美国人口年龄的金字塔,其绘制方法及其数字说明与【例 2.10】相同,试对该图反映的人口、政治、社会、经济状况进行分析。频数0255002550频数142000年 美 国 人 口 年 龄 结 构 金 字 塔-20 -10 0 10 200-4(96-00)5-9(91-95)10-14(86-90)15-19(81-85)20-24(76-80)25-29(71-75)30-34(66-70)35-39(61-65)40-44
40、(56-60)45-49(51-55)50-54(46-50)55-59(41-45)60-64(36-40)65-69(31-35)70-74(26-30)75-79(21-25)80-84(16-20)85-89(11-15)90-94(06-10)95-99(01-05)年龄人 数 ( 百 万 )女男第 3 章 概率与概率分布练习题1 .某技术小组有 12 人,他们的性别和职称如下,现要产生一名幸运者。试求这位幸运者分别是以下几种可能的概率:(1)女性;(2)工程师;(3)女工程师, (4)女性或工程师。并说明几个计算结果之间有何关系?序号 1 2 3 4 5 6 7 8 9 10 11
41、 12性别 男 男 男 女 男 男 女 男 女 女 男 男职称 工程师 技术员 技术员 技术员 技术员 工程师 工程师 技术员 技术员 工程师 技术员 技术员解:设 A女性,B工程师,AB女工程师,A+B女性或工程师(1)P(A)4/121/3(2)P(B)4/121/3(3)P(AB)2/121/6(4)P(A+B)P(A)P(B)P(AB)1/31/31/61/22. 某种零件加工必须依次经过三道工序,从已往大量的生产记录得知,第一、二、三道工序的次品率分别为 0.2,0.1,0.1,并且每道工序是否产生次品与其它工序无关。试求这种零件的次品率。解:求这种零件的次品率,等于计算“任取一个零
42、件为次品” (记为 A)的概率 ()P。考虑逆事件 A“任取一个零件为正品” ,表示通过三道工序都合格。据题意,有:()10.2)(.10.)648P15于是 ()1()0.648.352PA3. 已知参加某项考试的全部人员合格的占 80,在合格人员中成绩优秀只占 15。试求任一参考人员成绩优秀的概率。解:设 A 表示“合格” ,B 表示“优秀” 。由于 B AB,于是 )|()(0.80.150.124. 某项飞碟射击比赛规定一个碟靶有两次命中机会(即允许在第一次脱靶后进行第二次射击) 。某射击选手第一发命中的可能性是 80,第二发命中的可能性为 50。求该选手两发都脱靶的概率。解:设 A第
43、 1 发命中。B 命中碟靶。求命中概率是一个全概率的计算问题。再利用对立事件的概率即可求得脱靶的概率。)|()|()( ABPP0.810.20.50.9脱靶的概率10.90.1或(解法二):P(脱靶) P(第 1 次脱靶)P(第 2 次脱靶) 0.20.50.15.已知某地区男子寿命超过 55 岁的概率为 84,超过 70 岁以上的概率为 63%。试求任一刚过 55 岁生日的男子将会活到 70 岁以上的概率为多少?解: 设 A活到 55 岁,B 活到 70 岁。所求概率为:()(0.63(|) .7584PA 6.某企业决策人考虑是否采用一种新的生产管理流程。据对同行的调查得知,采用新生产管
44、理流程后产品优质率达 95的占四成,优质率维持在原来水平(即 80%)的占六成。该企业利用新的生产管理流程进行一次试验,所生产 5 件产品全部达到优质。问该企业决策者会倾向于如何决策?解:这是一个计算后验概率的问题。设 A优质率达 95, A优质率为 80,B试验所生产的 5 件全部优质。P(A)0.4,P( )0.6,P(B|A)=0.95 5, P(B| A)=0.85,所求概率为: 61.02.39)|()| B决策者会倾向于采用新的生产管理流程。7. 某公司从甲、乙、丙三个企业采购了同一种产品,采购数量分别占总采购量的25、30和 45。这三个企业产品的次品率分别为 4、5、3。如果从
45、这些产品中随机抽出一件,试问:(1)抽出次品的概率是多少?(2)若发现抽出的产品是次品,问该产品来自丙厂的概率是多少?解:令 A1、A 2、A 3 分别代表从甲、乙、丙企业采购产品,B 表示次品。由题意得:P( A1)0.25,P( A2)0.30, P(A3)0.45;P( B|A1)0.04,P( B|A2)0.05,P( B|A3)0.03;因此,所求概率分别为:(1) )|()|()|()( 321160.250.040.300.050.450.030.0385(2) 3506.8.01.3045.30.425)|(3 BAP8.某人在每天上班途中要经过 3 个设有红绿灯的十字路口。设
46、每个路口遇到红灯的事件是相互独立的,且红灯持续 24 秒而绿灯持续 36 秒。试求他途中遇到红灯的次数的概率分布及其期望值和方差、标准差。解:据题意,在每个路口遇到红灯的概率是 p24/(24+36)0.4。设途中遇到红灯的次数X,因此, XB(3,0.4)。其概率分布如下表:xi 0 1 2 3P(X= xi) 0.216 0.432 0.288 0.064期望值(均值)1.2(次) ,方差0.72,标准差0.8485(次)9. 一家人寿保险公司某险种的投保人数有 20000 人,据测算被保险人一年中的死亡率为万分之 5。保险费每人 50 元。若一年中死亡,则保险公司赔付保险金额 50000
47、 元。试求未来一年该保险公司将在该项保险中(这里不考虑保险公司的其它费用):(1)至少获利 50 万元的概率;(2)亏本的概率;(3)支付保险金额的均值和标准差。解:设被保险人死亡数X,XB(20000,0.0005)。(1)收入2000050(元)100 万元。要获利至少 50 万元,则赔付保险金额应该不超过 50 万元,等价于被保险人死亡数不超过 10 人。所求概率为:P(X 10)0.58304。(2)当被保险人死亡数超过 20 人时,保险公司就要亏本。所求概率为:P(X20)1P(X20)10.998420.00158(3)支付保险金额的均值50000E(X)50000200000.0
48、005(元)50(万元)支付保险金额的标准差50000( X)50000(200000.00050.9995) 1/2158074(元)10.对上述练习题 3.09 的资料,试问:(1)可否利用泊松分布来近似计算?(2)可否利用正态分布来近似计算?(3)假如投保人只有 5000 人,可利用哪种分布来近似计算?解: (1)可以。当 n 很大而 p 很小时,二项分布可以利用泊松分布来近似计算。本例中,= np=200000.0005=10,即有 XP(10)。计算结果与二项分布所得结果几乎完全一致。(2)也可以。尽管 p 很小,但由于 n 非常大,np 和 np(1-p)都大于 5,二项分布也可以利用正态分布来近似计算。本例中,np=200000.0005=10,np(1 -p)=200000.0005(1-0.0005)=9.995,即有 X N(10,9.995)。相应的概率为:P(X 10.5)0.51995,P(X 20.5)0.853262。可见误差比较大(这是由于 P 太小,二项分布