1、统计的基本思想方法,用样本估计总体,即通常不直接去研究总体,而是通过从总体中抽取一个样本,根据样本的情况去估计总体的相应情况.,统计的核心问题:,如何根据样本的情况对总体的情况作出一种推断. 这里包括两类问题:,一类是如何从总体中抽取样本?,另一类是如何根据对样本的整理、计算、分析,对总体的情况作出推断.,用样本的有关情况去估计总体的相应情况,这种估计大体分为两类,一类是用样本频率分布估计总体分布,一类是用样本的某种数字特征(例如平均数、方差等)去估计总体的相应数字特征。,整体介绍:,说明:样本频率分布与总体频率分布有什么关系?通过样本的频数分布、频率分布可以估计总体的频率分布.,知识新授:,
2、1.频数与频率,频数是指一组数据中,某范围内的数据出现的次数;把频数除以数据的总个数,就得到频率.,2.频率分布表,当总体很大或不便于获得时,可以用样本的频率分布估计总体的频率分布.我们把反映总体频率分布的表格称为频率分布表.,S1 作出频率分布表,然后作直角坐标系,以横轴表示数据,纵轴表示“频率组距”;S2 把横轴分为若干段,每一线段对应一个组的 组距,S3 以此线段为底作一矩形,它的高等于该组的频率/组距,这样得出一系列的矩形,每个矩形的面积恰好是该组上的频率 这些矩形就构成了频率分布直方图 所有矩形的面积和为1 ,算法:,3.频率分布直方图,我国是世界上严重缺水的国家之一,城市缺水问题较
3、为突出.某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望大部分居民的日常生活不受影响,那么a定为多少比较合理?,问题引入:,例:某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a , 用水量不超过a的部分按平价收费,超过a的部分按议价收费。,如果希望大部分居民的日常生活不受影响,那 么标准a定为多少比较合理呢?,为了较合理地确定这个标准,你认为需要做 哪些工作?,假设通过抽样,我们获得了100位居民的月均用水量(单位:t),极差4.30.24.1;
4、,极差4.30.24.1;,如果取区间0.15,4.35,则全距为4.2;分10组,组距为0.42,因此分9组,全距为4.5,取区间0,4.5,为了方便起见,组距尽可能“取整”,因此定为0.5!,频率分布表,画频率分布直方图,3.频率分布直方图,3.频率分布条形图, 各长方形长条的宽度要相同.相邻长条的间距要适当.长方形长条的高度表示取各值的频率.,一幅图胜过一千字,频率分布的条形图和频率分布直方图的区别,两者是不同的概念;,横轴:两者表示内容相同.,思考: 频率分布条形图和频率分布直方图是两个相同的概念吗? 有什么区别?,纵轴:两者表示的内容不相同.,频率分布条形图的纵轴(长方形的高)表示频
5、率;,频率分布直方图的纵轴(长方形的高)表示频率与组距的比值.其相应组距上的频率等于该组距上长方形的面积.,同样一组数据,如果组距不同,横轴、纵轴单位不同,得到的图的性状也会不同.不同的形状给人不同的印象,这种印象会影响我们对总体的判断.,从图中我们可以看到,月均用水量在区间2,2.5)内的居民最多,在1.5,2)内次之,大部分居民的月均用水量都在1,3)之间.,直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到分布表中看不清楚的数据模式,但是直观图也丢失了一些信息,例如,原始数据不能在图中表示出了.,4、频率分布折线图,如果将频率分布直方图中各相邻的矩形的上底边的中点顺
6、次连结起来,就得到一条折线,我们称这条折线为本组数据的频率折线图,频率分布直方图如下:,连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图,利用样本频分布对总体分布进行相应估计,(3)当样本容量无限增大,组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线总体密度曲线。,(2)样本容量越大,这种估计越精确。,(1)上例的样本容量为100,如果增至1000,其频率分布直方图的情况会有什么变化?假如增至10000呢?,5、总体密度曲线,总体密度曲线,月均用水量/t,a,b,(图中阴影部分的面积,表示总体在某个区间 (a, b) 内取值的百分比)。,用样本分布直方图去估计相应的总体分
7、布时,一般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值百分比。,总体密度曲线反映了总体在各个范围内取值的百分比,精确地反映了总体的分布规律。是研究总体分布的工具.,总体密度曲线,某篮球运动员在某赛季各场比赛的得分情况如下:12,15,24,25,31,31,36,36,37,39,44,49,50,12345,叶:表示个位数字,茎:表示十位数字,6、茎叶图,2,5,4,5,1,6,6,7,9,4,9,0,1,从这张图可以粗略地看出,该运动员平均得分及中位数、众数都在20到40之间,且分布较对称,集中程度高,说明其发挥
8、比较稳定,茎叶图的画法:将所有的两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出茎叶图的优缺点:优点是所有的信息都可以从茎叶图中得到,便于记录和表示但茎叶图表示三位或三位以上的数据时不够方便,茎叶图,某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:,(1)甲运动员得分:13, 51, 23, 8, 26, 38, 16, 33, 14, 28, 39,(1)乙运动员得分: 49,24,12,31,50,31,44,36,15,37,25,36,39,茎叶图,甲,乙,012345,2 55
9、 41 6 1 6 7 94 9 0,84 6 36 83 8 9 1,某医院的发热门诊部对一天接待的16名病人的体温进行了测量,得到以下数据:37.5,38.0,39.2,38.5,39.5,37.8,39.1,38.2,37.6,39.2,38.1,39.5,37.8,38.5,38.7,39.3请作出当天病人体温的茎叶图,并计算出病人的平均体温,练习:1、,练习:2、,练习 :,1.一个容量为32的样本,已知某组样本的频率为0.125,那么该组样本的频数为( ) A2 B4 C6 D8,2.为了分析一次数学考试的情况,全班抽了50人,将分数分为5组第一组到第三组的频数分别是10,23,1
10、,第四组的频率是0.08,那么落在第五组的频数是_,频率是_,全年级800人中分数落在第五组的约有_人,B,12,0.24,192,练习:三、,3.一个容量为20的样本数据,分组后组距与频数如下:(10,20),2;(20,30),3;(30,40),4;(40,50),5;(50,60),4;(60,70),2。则样本在区间(10,50上的频率为( ) A.5% B.25% C.50% D.70%,4.已知样本10,8,6,10,8,13,11,10,12,7,8,9,11,9,11,12,9,10,11,12,那么频率为0.2的范围是( ) A.5.5-7.5 B.7.5-9.5 C.9.
11、5-11.5 D.11.5-13.5,D,D,2.一个容量为100的样本,数据的分组和各组的相关信息如下表,试完成表中每一行的两个空格.,0.06,0.06,8,0.14,0.16,16,0.21,0.51,0.18,18,0.16,0.85,10,0.95,0.05,5,课堂小结:,1.频率分布直方图,2.频率分布折线图总体分布的密度曲线,总体密度曲线,总体在区间 内取值的概率,频率分布直方图,应用,1.求极差,2.决定组距与组数,3.将数据分组,4.列频率分布表,5.画频率分布直方图,3.茎叶图,12345,叶:表示个位数字,茎:表示十位数字,将所有两位数的十位数字作为“茎”,个位数字作为
12、“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从小到大(或从大到小)的顺序同行列出.,2545116679490,例题回顾:从某校高一年级的1002名新生中用系统抽样的方法抽取一个容量为100的身高样本,数据如下(单位:cm)试作出该样本的频率分布表,S1 计算数据中最大值与最小值的差(极差),确定全距.,极差18015129;,全距30;,取值区间150.5,180.5;,组距和组数与数据的数量有关一般数据较多,分的组数也多;数据较少,分的组数也少当数据个数在50以内,分58组;当数据个数在50100之间,分812组应当注意的是如果组内没有数据出现,就应当放宽组距
13、,保证每个组内都有数据,且每个数据只属于确定的一组在决定组数时,往往不是一次就能成功的,要有一个观察、尝试的过程,一般分点比已知数据多一位小数,并且第一组的起点要稍稍减小只有合理地确定组距与组数,才能使数据分布的规律性比较明显地呈现出来;,S2 根据全距,决定组数和组距.,组数10;,组距3;,S3 分组:通常对组内数据所在区间取左闭右开区间,最后一组取闭区间,且使分点比数据多一位小数.,4,8,8,11,22,19,14,7,4,3,0.04,0.08,0.08,0.11,0.22,0.19,0.14,0.07,0.04,0.03,4,12,20,31,53,72,86,93,97,100,100,1,177.5,身高cm,150.5,153.5,156.5,159.5,162.5,165.5,168.5,171.5,174.5,180.5,0.02,0.04,0.06,0.08,