1、62 总体分布的估计名师导航三点剖析一、频率分布表1定义总体分布反映了总体在各个范围内取值的频率,由于总体很大或不便于获得,因此我们可以利用样本的频率分布估计总体的频率分布.我们把反映总体频率分布的表格称为频率分布表.2列频率分布表的步骤在初中我们所接触的频率表是通过历史上所做的抛硬币的大量重复试验得到的.在这个试验中,抛掷硬币试验的结果的全体构成一个总体,每次试验的结果是总体中的一个个体,如果我们从中抽取一个容量为 72 088 的样本,其中正面向上的结果数为 36 124,反面向上的结果数为 35 964,则我们就可以得到如下一个频率分布表:试验结果 频 数 频 率正面向上 36 124
2、0.501 1反面向上 35 964 0.498 9这类试验只有两种结果,比较简单,下面我们就通过实例来研究较为复杂的频率分布表的制作方法.例如:从规定尺寸为 25 40mm的一堆产品中任意抽取 100 件,测得它们的实际尺寸如下:25.39 25.36 25.34 25.42 25.45 2538 2539 2542 2547 2535 2541 25.43 25.4425.49 25.45 25.43 25.46 2540 2551 2545 2540 2539 2541 2536 25.38 25.3125.56 25.43 25.40 25.38 25.37 2544 2533 254
3、6 2540 2539 2534 25.42 25.5025.37 25.35 25.32 25.45 25.40 2527 2543 2554 2539 2545 2543 25.40 25.4325.44 25.41 25.53 25.37 2538 2524 2544 2540 2536 2542 2539 25.46 25.3825.35 25.31 25.34 25.40 2536 2541 2532 2538 2542 2540 2533 25.37 25.4125.49 25.35 25.47 25.34 2530 2539 2536 2546 2529 2540 2537 25
4、.33 25.4025.35 25.41 25.37 25.47 25.39 25.42 25.47 25.38 25.39如果把这堆产品的尺寸的全体看作一个总体,则上面数据就是从总体抽取的一个容量为 100 的样本.在这组数据中,最小值为 25.24,最大值为 25.56,它们相差 0.32,可取区间25235,25565.我们可将此区间分成 11 个区间,每个区间长度为 0.03,再统计出每个区间内的频数,并计算相应的频率,将结果填入下表:分 组 频数累计 频 数 频 率25.235,25.265) 1 1 0.0125.265,25.295) 3 2 0.0125.295,25.325)
5、 8 5 0.0525.325,25.355) 20 12 0.1225.355,25.385) 38 18 0.1825.385,25.415) 63 25 0.2525.415,25.445) 79 16 0.1625.445,25.475) 92 13 0.1325.475,25.505) 96 4 0.0425.505,25.535) 98 2 0.0225.535,25.565) 100 2 0.02合 计 100 1.00这张表给出了产品尺寸处于各个区间内的个数和频率,由此可估计这一堆产品的尺寸分布情况,这就是该样本的频率分布表.在表中频数是指落在各小组内的数据的个数.频率是各组的
6、频数与数据总数的比值.由上面的制表过程可得编制频率分布表的步骤如下:(1)计算数据中最大值与最小值的差,算出了这个差就可以知道这组数据的变动范围有多大.(2)决定组数与组距.将这一批数据分组,目的是要描述数据的分布规律,要根据数据的多少来确定分组的数目.一般来说,数据越多,分的组也越多.(3)决定分点.要使分点比数据多一位小数,并且把第 1 组的下限略去或把第 1 组的起点稍减小一点.(4)列频率分布表.登记频数,计算频率,列出频率分布表 .频率分布表能反映数据在某一范围内出现的可能性.如果这一范围是由几组数据组成的,则其出现的可能性为这几组数据的频率之和.在编制频率分布表时,若题目已给出了组
7、距和组数,可以直接列出频率分布表.3频率分布的优点和缺点频率分布表的优点是:能直接反映数据在各范围内的频数和频率;其缺点是: 不能直观地反映数据的频率分布, 分布表是否正确.二、频率分布直方图1定义频率分布表虽然能体现出数据的分布规律,但它并不直观,为了直观地体现数据数的分布规律,我们需要画频率分布直方图.在初中,我学过如何绘制频数直方图,它能直观地体现数据的分布规律.同样我们可以用直方图来反映样本的频率分布规律.这种反映样本的频率分布规律的直方图称为频率分布直方图,简称频率直方图.2绘制频率分布直方图的步骤为了形象地说明绘制频率分布直方图的步骤,我们还以具体的实例来说明频率分布直方图的画法.
8、例如:有一个容量为 50 的样本数据的分组及各组的频数如下:12.5,15.5),3;15.5 ,18.5),8 ;18.5,21.5),9;21.5,24.5),11;24.5,27.5),10;27.5 ,30.5),5 ;30.5,33.5), 4列出样本的频率分布表,画出频率分布直方图.分析:本题主要考查频率分布表的编制和频率分布直方图的绘制及频率分布表的应用.由于题中数据已分组,所以在列频率分布表时,只要直接计算出每小组数据的频率填入表中即可.解:样本的频率分布表、频率分布直方图如下 :频率分布表分 组 频数累计 频 数 频 率 组 距频 率 12.5,15.5) 3 3 0.06
9、0.02 15.5,18.5) 11 8 0.16 0.053 18.5,21.5) 20 9 0.18 0.0621.5,24.5) 31 11 0.22 0.073 24.5,27.5) 41 10 0.2 0.067 27.5,30.5) 46 5 0.1 0.033 30.5,33.5) 50 4 0.08 0.027合 计 50 1.00 0.333频率分布直方图(如图 6-1 所示):图 6-1所以,要绘制此样本的频率分布直方图,有以下几步:(1)先列出频率分布表,然后作出直角坐标系,以横轴表示身高,纵轴表示 ;组 距频 率(2)在横轴上标上 125,155,335 表示的点 (为
10、了方便,第一个数据点可以前移);(3)在上面标出的各点中,分别以相邻两点为端点的线段为底边作矩形,其高等于,至此,就得到了这组数据的频率分布直方图.组 距频 率一般地,画频率分布直方图方法如下:把横轴分为若干段,每一段对应一组的组距,然后以线段为底,作一个矩形,它的高等于该组的 ,作出一系列的矩形;每个矩形的面积恰好是该组的频率,这些矩形就构组 距频 率成了频率分布直方图.在频率分布直方图中各个小矩形的面积和等于 13频率分布直方图的两种类型用样本频率分布估计总体分布通常分两种情况:(1)当总体中的个体取不同数值很少时,其频率分布表由所取的样本的不同值及其相应频率表示,其几何表示就是相应的条形
11、图.条形图中,纵轴表示的是频率,条形图的高为该组数据的频率.但应注意:“总体中的个体取不同数值很少”并不是指“总体中的个数很少.”例如:前面所接触到的抛掷硬币的试验中,尽管样本的容量达到了 72088,但试验结果只有两种,即正面向上和反面向上.如果记“正面向上”的结果为 0,记“反面向上”为 1,则样本中数据只有两个取值.此时,该样本的频率分布表的几何表示就为相应的条形图.(2)当总体中个体取不同值较多,甚至无限时,对其频率分布研究用到初中学过的整理样本数据的知识,用频率分布直方图来表示相应的样本的频率分布.4频率分布直方图的优点和缺点频率分布直方图虽然能直观体现数的分布规律,但要绘制频率分布
12、直方图过程比较复杂,且它不能直接体现数据的频数分布.三、频率折线图与总体的密度曲线1频率折线图的定义将频率分布直方图中各相邻的矩形的上底边的中点顺次连结起来,就可以得到一条折线,这条折线就是本组数据的频率折线图.2频率折线图的画法频率折线图是在频率分布直方图的基础上,取直方图中各小矩形的上底边的中点连结而成的.画频率折线图时还应注意:取值区间两端点需分别向外延伸半个组距,以使折线首尾分别与横轴相连.3频率折线图的优点与缺点频率折线图的优点是它能反映数据的变化趋势,但它不能直接体现数据的分布规律.4总体的密度曲线在画频率折线图时,如果将样本容量取得足够大,分组的组距取得足够小,这条折线将趋于一条
13、曲线,这一曲线为总体的密度曲线,它能反映出总体分布规律.例如:为了估计某产品寿命的分布,对产品进行抽样检验,记录如下(单位:小时):203 397 597 402 102 303 289 312 501 316 488 355 585 355413 316 197 479 384 278 522 363 234 432 357 566 111 333467 265 326 534 318 552 323 188 352 447 452 337 123 370399 445 365 549 248 316 459 331 176 554 368 412 374 251327 489 329 24
14、6 316 475 311 260 133 314 426 366 213 495335 540 338 407 586 331 290 368 410 167 320 510 364 276305 417 307 524 573 326 146 227 317 407 369 214 504 425153 214(1)作出频率分布表;(2)画出频率分布直方图和频率折线图;(3)估计产品寿命在 200500h 以内的百分率;(4)估计产品寿命在 400h 以上的百分率.分析:此题中样本数据取不同的值较多,属于总体分布的第二种情况.将样本中数据适当分组统计各组中数据的频数,计算其频率即可.解:(
15、1)该组数据中最小值为 102,最大值为 597,差为 495,可分为 5 组.列表如下:寿命 /h 频数累计 频 数 频 率 组 距频 率100200 10 10 0.10 0.001200300 25 15 0.15 0.001 5300400 65 40 0.40 0.004400500 85 20 0.20 0.002500600 100 15 0.15 0.001 5合 计 100 1.00(2)频率分布直方图和频率折线图如下( 如图 6-2 所示):频率分布直方图 频率折线图图 6-2(3)200500 h 以内的百分率为 1-15%=85%.(4)产品寿命在 400h 以上的百分
16、率为 20%+15%=35%.四、茎叶图1平均数、中位数和众数一般地,对于 n 个数 x1,x2,xn,我们把 叫做这 n 个数的算术平均数,nxx21简称平均数.平均数常用于表示一组数据的平均水平.计算平均数时,所有数据都参加运算,它能充分利用数据所描述的信息,因此在生活中较为常用,但它易受端点值的影响.例如:某公司职工月工资表如下:员 工 经理 副经理 A B C D E F 杂工月工资 6 000 4 000 1 700 1 300 1 200 1 100 1 100 1 100 500经计算,该公司职工月平均工资为 2 000 元,但除经理和副经理之外其他员工的工资均小于 2 000
17、元,这就是因为平均数受端点值 6 000 和 500 的影响.一般地,n 个数据根据大小顺序排列后,处于中间位置的一个数据(或中间两个数据的平均数)叫做这组数据的中位数 .由中位数的定义可知,当数据的个数是奇数时最中间的一个数据是中位数;当数据的个数是偶数时,则最中间两个数据的平均数是中位数.中位数受端点值的影响小,但不能充分利用所有数据的信息.例如:在上面某公司职工月工资表中的中位数是 1 300.众数则是一组数据中出现次数最多的那个数据.如在上面某公司职工月工资表中众数则是 1100.平均数、中位数和众数均能反映一组数据的平均水平,在一组数据中平均数和中位数只有一个,众数则可以有多个.例如
18、:在数据 1.5,1.5,1.6 ,1.65,1 和 1.7,1.7,1.75,2.1 中,平均数为 1.7;中位数为 1.675;众数则为 1.5 和 1.72茎叶图制作茎叶图的方法是:当所给数据为一位数时,可将 0 作为茎叶较长的茎,而它本身作为叶;当所给数据为两位数时,将所有两位数的十位数字作为“茎”,个位数字作为“叶”;当所给的数据为三位数时,可将百位和十位作为茎,而个位作为叶.茎相同的数据共用一个茎,茎按从小到大的顺序从上到下排列,共用茎的叶一般要按从大到小(也可以从小到大)的顺序同行排出.制作茎叶图时,一般用一个竖线将茎叶隔开,竖线的左边是茎,右边是叶.由茎叶图我们可以粗略地看出一
19、组数据的平均数、中位数、众数的范围.茎叶图不但可以分析单组数据,也可以对两组数据进行对比.当列两组数据的茎叶图时,它们可以共同用一个茎.3茎叶图的优点和缺点茎叶图的优点是:所有信息都可以从茎叶图中得到体现,而且茎叶图便于记录和表示;它既可以分析单组数据,也可以对两组数据进行比较.茎叶图的缺点是:茎叶图不方便表示位数在三位以上的数据.问题探究问题:为了了解一大片经济树林的生长情况,随机测量其中的 100 株的底部周长,得到如下数据(长度单位为 cm):135 98 102 110 99 121 110 96 100 103125 97 117 113 110 92 102 109 104 112
20、109 124 87 131 97 102 123 104 104 128105 123 111 103 105 92 114 108 104 102129 126 97 100 115 111 106 117 104 109111 89 110 121 80 120 121 104 108 118129 99 90 99 121 123 107 111 91 10099 101 116 97 102 108 101 95 107 101102 108 117 99 118 106 119 97 126 108123 119 98 121 101 113 102 103 104 108该用什么
21、样的方法来估计经济树林的生长情况?探究:用样本估计可用频率分布表、频率分布直方图和频率折线图.它们有着各自的特点: 频率分布表编制比较简单且能体现出数据在各范围出现的次数和频率,但它不能直观地反映数据的频率分布;频率分布直方图虽然能直观体现数的分布规律,但要绘制频率分布直方图过程比较复杂,且它不能直接体现数据的频数分布;频率折线图的优点是它能反映数据的变化趋势,但它不能直接体现数据的分布规律.所以,本题采用何种方法来估计经济树林的生长情况,要视具体要求而定,例如:估计这片经济林中底部周长少于 100cm 的树木约占多少?不少于 120cm 的树木约占多少?我们可采用频率分布表,这是因为它能直接
22、体现出数据在各范围内出现的次数和频率.如果要考查某一范围内数据的变化情况,则可采用频率折线图.精题精讲例 1为了了解某地区高三学生的身体发育情况,抽查了地区内 100 名年龄为 17.5 岁18岁的男生的体重情况,结果如下表(单位:kg):56.5 69.5 65 61.5 64.5 66.5 64 64.576 58.5 72 73.5 56 67 70 57.565.5 68 71 75 62 68.5 62.5 6659.5 63.5 64.5 67.5 73 68 55 7266.5 74 63 60 55.5 70 64.5 5864 70.5 57 62.5 65 69 71.5
23、7362 58 76 71 66 63.5 56 59.563.5 65 70 74.5 68.5 64 55.5 72.566.5 68 76 57.5 60 71.5 57 69.574 64.5 59 61.5 67 68 63.5 5859 65.5 62.5 69.5 72 64.5 75.5 68.564 62 65.5 58.5 67.5 70.5 65 6666.5 70 63 59.5试根据上述数据列出样本的频率分布表,并对相应的总体分布做出估计.思路解析该组数据中最小值为 55,最大值为 76,它们的差是 7655=21,可取区间545, 765,并将此区间分为 11 个区
24、间,每个区间的长度为 2,再统计每个区间内的频数并计算频率,列表即可.解析:按照下列步骤获得样本的频率分布 :(1)求最大值与最小值的差.在上述数据中,最大值是 76,最小值是 55,它们的差(又称为极差) 是 76-55=21,所得的差告诉我们,这组数据的变动范围有多大.(2)确定组距与组数.如果将组距定为 2,那么由 212=105,组数为 11,这个组数是适合的 .于是组距为2,组数为 11(3)决定分点.根据本例中数据的特点,第 1 小组的起点可取为 545,第 1 小组的终点可取为56.5,为了避免一个数据既是起点,又是终点从而造成重复计算,我们规定分组的区间是“左闭右开”的.这样,
25、所得到的分组是54.5,56.5), 56.5 ,58.5), 74.5,76.5).(4)列频率分布表.频率分布表分 组 频数累计 频 数 频 率 54.5,56.5) 2 2 0.02 56.5,58.5) 8 6 0.06 58.5,60.5) 18 10 0.10 60.5,62.5) 28 10 0.10 62.5,64.5) 42 14 0.14 64.5,66.5) 58 16 0.16 66.5,68.5) 71 13 0.13 68.5,70.5) 82 11 0.11 70.5,72.5) 90 8 0.08 72.5,74.5) 97 7 0.07 74.5,76.5)
26、100 3 0.03合 计 100 1.00在得到了样本的频率后,就可以对相应的总体情况作出估计.例如可以估计体重在645,66.5)kg 的学生最多,约占学生总数的 16%;体重小于 58.5 kg 的学生较少,约占8%等等.绿色通道一般地,列频率分布表的步骤如下:(1)求全距,决定组数和组距,组距=全距/组数;(2)分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;(3)登记频数,计算频率,列出频率分布表.频数累计是指本组数据及本组数据以前各组数据的和.频率分布表有两条较为明显的性质:各组的频数和为样本中数据的个数;各组的频率和为 1例 2下表给出了某校 120 名 12 岁男
27、孩的身高资料(单位:cm):区间界限 122,126) 126,130) 130,134)人 数 5 8 10区间界限 134,138) 138,142) 142,146)人 数 22 33 20区间界限 146,150) 150,154) 154,158)人 数 11 6 5(1)列出样本的频率分布表;(2)画出频率分布直方图;(3)根据样本的频率分布图,估计身高小于 134cm 的人数约占总人数的百分比;(4)如果该校所在的地区,12 岁男孩有 12 万人,根据上面的统计结果,你能估计出身高在 150 cm 以上的男孩大约有多少人?(5)如果样本容量再大一些,组距再小一些,请你想象一下,直
28、方图中的小矩形会发生什么变化?思路解析由于题目中数据已分组,则可直接列频率分布表.由于频率分布图能直观地体现出样本的频率分布,则由图直接进行估计.由频率分布表可知身高在 150cm 的频率为 ,2410所以,估计出身高在 150cm 以上的男孩大约 11 000 人. 如果样本容量再大一些,组距再小一些,频率分布直方图中的各个小矩形就会越来越细.当样本容量充分大时,图中的组距充分缩短,从而图中的小矩形的上底的连线就变成光滑的曲线.答案:(1)列频率分布表如下:区间界限 人 数 频 率122,126) 5 241126,130) 8 5130,134) 10 1134,138) 22 60138
29、,142) 33 4142,146) 20 61146,150) 11 20150,154) 6154,158) 5 41(2)频率分布直方图分布如下( 如图 6-3 所示):图 6-3(3)身高小于 134cm 的学生数约占总数的 19%.(4)身高在 150cm 以上的男孩大约 11 000 人.(5)各个小矩形就会越来越细,当样本容量充分大时,图中的组距充分缩短,图中的小矩形的上底的连线就变成光滑的曲线.例 3为制定本市初中七、八、九年级学生校服的生产计划,有关部门准备对 180 名初中男生的身高作调查,现有三种调查方案:测量少体校中 180 名男子篮球、排球队员的身高;查阅有关外地 1
30、80 名男生身高的统计资料;在本市的市区和郊县各任选一所完全中学、两所初级中学,在这六所学校有关的年级(1)班中,用抽签的方法分别选出 10 名男生,然后测量他们的身高 .(1)为了达到估计本市初中这三个年级男生身高分布的目的,你认为采用上述哪一种调查方案比较合理,为什么?(2)下表中的数据是使用某种调查方法获得的:身高(cm) 七年级 八年级 九年级 总计(频数)143153 12 3 0153163 18 9 6163173 24 33 39173183 6 15 12183193 0 0 3(注:每组可含最低值、不含最高值)根据表中的数据填写表中的空格.根据填写的数据绘制频数分布直方图.思路解析本题考查了抽样方法的选择和频数分布直方图的绘制,由于在统计中收集数据必须用随机抽样的方法所抽取的数据才具有代表性,则宜用方案.又所抽的数据中已分组,则可直接计算各组数据的频数分布和直接绘制频数分布直方图.解析:(1)在统计中收集数据必须用随机抽样的方法所抽取的数据才具有代表性.中,少体校的男子篮球、排球的运动员的身高一定高于一般的情况,因此无法用测量的结果去估计总体的结果.