1、2.2.1用样本的频率分布估计总体分布,统计的基本思想方法:,用样本估计总体,即通常不直接去研究总体,而是通过从总体中抽取一个样本,根据样本的情况去估计总体的相应情况.,统计的核心问题:,如何根据样本的情况对总体的情况作出一种推断. 这里包括两类问题:,一类是如何从总体中抽取样本?,另一类是如何根据对样本的整理、计算、分析,对总体的情况作出推断.,用样本的有关情况去估计总体的相应情况,这种估计大体分为两类,一类是用样本频率分布估计总体分布,一类是用样本的某种数字特征(例如平均数、方差等)去估计总体的相应数字特征。,整体介绍:,将一批数据按要求分为若干个组,各组内数据的个数,叫做该组的频数。频率
2、:每组数据的个数除以全体数据个数的商叫做该组的频率。根据随机抽取样本的大小,分别计算某一事件出现的频率,这些频率的分布规律(取值状况),就叫做样本的频率分布。,说明:样本频率分布与总体频率分布有什么关系?通过样本的频数分布、频率分布可以估计总体的频率分布.,如何用样本的频率分布估计总体分布?,我国是世界上严重缺水的国家之一,城市缺水问题较为突出。,2000年全国主要城市中缺水情况排在前10位的城市,例:某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a , 用水量不超过a的部分按平价收费,超过a的部分按议价收费。,如果希望大部分居民的日常生活不受影响,那
3、 么标准a定为多少比较合理呢?,为了较合理地确定这个标准,你认为需要做 哪些工作?,思考:由上表,大家可以得到什么信息?,通过抽样,我们获得了100位居民某年的月平均用 水量(单位:t) ,如下表:,1.求极差:,步骤:,频率分布直方图,2.决定组距与组数:,组数=,4.3 - 0.2 = 4.1,3.将数据分组,0,0.5 ),0.5,1 ),4,4.5,4.列频率分布表,100位居民月平均用水量的频率分布表,频率分布直方图如下:,小长方形的面积=?,频率分布直方图如下:,小长方形的面积总和=?,频率分布直方图如下:,月均用水量最多的在哪个区间?,频率分布直方图如下:,请大家阅读第70页,直
4、方图有哪些优点和缺点?,思考:直方图的优缺点:,优点:很容易表示大量的数据,直观地表明分布的形状;缺点:会丢失一些信息.如原始数据不能在图中表示出来.,概念:频率分布折线图(课本P71页),探究: 同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图的形状也会不同。不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断。分别以1和0.1为组距重新作图,然后谈谈你对图的印象。,一、求极差,即数据中最大值与最小值的差,二、决定组距与组数 :组距=极差/组数,三、分组,通常对组内数值所在区间,取左闭右开区间 , 最后一组取闭区间,四、登记频数,计算频率,列出频率分布表,画一组数据的频率
5、分布直方图,可以按以下的步骤进行:,五、画出频率分布直方图(纵轴表示频率组距),注意,(2)纵坐标为:,频率分布直方图如下:,连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图,利用样本频分布对总体分布进行相应估计,(3)当样本容量无限增大,组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线总体密度曲线。,(2)样本容量越大,这种估计越精确。,(1)上例的样本容量为100,如果增至1000,其频率分布直方图的情况会有什么变化?假如增至10000呢?,总体密度曲线,月均用水量/t,a,b,(图中阴影部分的面积,表示总体在某个区间 (a, b) 内取值的百分比)。,用样本分布直方
6、图去估计相应的总体分布时,一般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值百分比。,总体密度曲线反映了总体在各个范围内取值的百分比,精确地反映了总体的分布规律。是研究总体分布的工具.,总体密度曲线,茎叶图,某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:,(1)甲运动员得分:13,51,23,8,26,38,16,33,14,28,39,(1)乙运动员得分: 49,24,12,31,50,31,44,36,15,37,25,36,39,茎叶图,甲,乙,012345,2 55 41 6 1 6 7 94 9 0,
7、84 6 36 83 8 9 1,叶就是从茎的旁边生长出来的数,表示得分的个位数。,茎是指中间的一列数,表示得分的十位数,茎叶图不仅能够保留原始数据,而且能够展示数据的分布情况。 从运动员的成绩的分布来看,乙运动员的成绩更好;从叶在茎上的分布情况来看,乙运动员的得分更集中于峰值附近,说明乙运动员的发挥更稳定。 在样本数据较少时,用茎叶图表示数据的效果较好。它不但可以保留所有信息,而且可以随时纪录,这对数据的纪录和表示都能带来方便。但当样本数据较多时,茎叶图就显得不太方便。因为每一个数据都要在茎叶图中占据一个空间,如果数据很多,枝叶就会很长。,练 习,1.有一个容量为50的样本数据的分组的频数如
8、下:,12.5, 15.5) 3,15.5, 18.5) 8,18.5, 21.5) 9,21.5, 24.5) 11,24.5, 27.5) 10,27.5, 30.5) 5,30.5, 33.5) 4,(1)列出样本的频率分布表;,(2)画出频率分布直方图;,(3)根据频率分布直方图估计,数据落在15.5, 24.5)的百分比是多少?,解:组距为3,分组 频数 频率 频率/ 组距,12.5, 15.5) 3,15.5, 18.5) 8,18.5, 21.5) 9,21.5, 24.5) 11,24.5, 27.5) 10,27.5, 30.5) 5,30.5, 33.5) 4,0.060.
9、160.180.220.200.100.08,0.0200.0530.0600.0730.0670.0330.027,频率分布直方图如下:,0.010,0.020,0.030,0.040,0.050,12.5,15.5,0.060,0.070,例2、为了了解一大片经济林的生长情况,随机测量其中的100株的底部周长,得到如下数据表(长度单位:cm):,(1)编制频率分布表;(2)绘制频率分布直方图;(3)估计该片经济林中底部周长小于100cm的树木 约占多少,周长不小于120cm的树木约占多少。,解: (1)从表中可以看出:这组数据的最大值为135,最小值为80,故极差为55,可将其分为11组,
10、组距为5。从第1组80,85)开始,将各组的频数、频率和频率/组距 填入表中,例2、对某电子元件进行寿命跟踪调查,情况如下:,1)、列出频率分布表2)、估计电子元件寿命在100h400h以内的频率3)、估计电子元件寿命在400h以上频率,课堂练习:,1、为检测某种产品的质量,抽取了一个容量为30的样本,检测结果为一级品5件,二级品8件,三级品13件,次品4件 (1) 列出样本的频率分布表; (2)根据上述结果,估计此种产品为二级品或三级品的概率约是多少,(2)此种产品为二级品或三级品的概率约为0.270.430.7,2.有一个容量为50的样本,数据的分组及其频数如下所示,请将其制成频率直方图,
11、频率分布表如下:,0.06,0.16,0.18,0.22,0.20,0.10,0.08,1.00,频数,3.已知样本10, 8, 6, 10, 8,13,11,10,12,7,8,9,12,9,11,12,9,10,11,11, 那么频率为0.2范围的是 ( ),A. 5.57.5 B. 7.59.5 C. 9.511.5 D. 11.513.5,D,4.一个容量为100的样本,数据的分组和各组的相关信息如下表,试完成表中每一行的两个空格.,课堂小结,编制频率分布直方图的步骤:,找最大值与最小值。,决定组距与组数,决定分点,登记频数,计算频率,列表,画直方图,说明:确定分点时,使分点比数据多一位小数,并且把第1小组的起点稍微再小一点.,例:已知一个样本,填写下面的频率分布表7.0 6.6 6.8 7.0 7.2 7.4 7.0 7.3 7.5 7.47.3 7.1 7.0 6.9 6.7 7.1 7.2 7.0 6.9 7.1,小结:,思考 : 如果当地政府希望使 85% 以上的居民每月的用水量不超出标准,根据频率分布表和频率分布直方图,你能对制定月用水量标准提出建议吗?,频率分布直方图,应用,1.求极差,2.决定组距与组数,3.将数据分组,4.列频率分布表,5.画频率分布直方图,作业,1.P81 A组T2.2.同步P4447基础(1)(8),拓展(1)(8).,