1、第 1 页 共 10 页普通高中课程标准实验教科书数学 人教版高三新数学第一轮复习教案(讲座 19)用样本估计总体及线性相关关系一课标要求:1用样本估计总体通过实例体会分布的意义和作用,在表示样本数据的过程中,学会列频率分布表、画频率分布直方图、频率折线图、茎叶图,体会他们各自的特点;通过实例理解样本数据标准差的意义和作用,学会计算数据标准差;能根据实际问题的需求合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差) ,并作出合理的解释;在解决统计问题的过程中,进一步体会用样本估计总体的思想,会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征;初步体会样本
2、频率分布和数字特征的随机性;会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题;能通过对数据的分析为合理的决策提供一些依据,认识统计的作用,体会统计思维与确定性思维的差异;形成对数据处理过程进行初步评价的意识。2变量的相关性通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系;经历用不同估算方法描述两个变量线性相关的过程。知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。二命题走向“统计”是在初中“统计初步”基础上的深化和扩展,本讲主要会用样本的频率分布估计总体的分布,并会用样本的特征来估计总体的分布。预测 2007 年高
3、考对本讲的考察是:1以基本题目(中、低档题)为主,多以选择题、填空题的形式出现,以实际问题为背景,综合考察学生学习基础知识、应用基础知识、解决实际问题的能力;2热点问题是频率分布直方图和用样本的数字特征估计总体的数字特征。三要点精讲1用样本的数字特征估计总体的数字特征(1)众数、中位数在一组数据中出现次数最多的数据叫做这组数据的众数;将一组数据按照从大到小(或从小到大)排列,处在中间位置上的一个数据(或中间两位数据的平均数)叫做这组数据的中位数;(2)平均数与方差如果这 n 个数据是 ,那么 叫做这 n 个数据平均数;nxx,.,21 nix1第 2 页 共 10 页如果这 n 个数据是 ,那
4、么 叫做这 n 个数据方差;nxx,.,21 )(12niixS同时 叫做这 n 个数据的标准差。s)(1ii2频率分布直方图、折线图与茎叶图样本中所有数据(或数据组)的频率和样本容量的比,就是该数据的频率。所有数据(或数据组)的频率的分布变化规律叫做频率分布,可以用频率分布直方图、折线图、茎叶图来表示。频率分布直方图:具体做法如下:(1)求极差(即一组数据中最大值与最小值的差) ;(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图。注:频率分布直方图中小正方形的面积=组距 =频率。组 距频 率折线图:连接频率分布直方图中小长方形上端中点,就得到频率分布折线图。
5、总体密度曲线:当样本容量足够大,分组越多,折线越接近于一条光滑的曲线,此光滑曲线为总体密度曲线。3线性回归回归分析:对于两个变量,当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫相关关系或回归关系。回归直线方程:设 x 与 y 是具有相关关系的两个变量,且相应于 n 个观测值的 n 个点大致分布在某一条直线的附近,就可以认为 y 对 x 的回归函数的类型为直线型:。其中 , 。我们称这个bxay 2112)(nxiniiniiiii xbya方程为 y 对 x 的回归直线方程。四典例解析题型 1:数字特征例 1为了检查一批手榴弹的杀伤半径,抽取了其中 20 颗做试验,得到这
6、 20 颗手榴弹的杀伤半径,并列表如下:第 3 页 共 10 页(1)在这个问题中,总体、个体、样本和样本容量各是什么?(2)求出这 20 颗手榴弹的杀伤半径的众数、中位数和平均数,并估计这批手榴弹的平均杀伤半径解析: (1)总体是要检查的这批手榴弹的杀伤半径的全体;个体是每一颗手榴弹的杀伤半径;样本是所抽取的 20 颗手榴弹的杀伤半径;样本容量是 20。(2)在 20 个数据中,10 出现了 6 次,次数最多,所以众数是 10(米) 。20 个数据从小到大排列,第 10 个和第 11 个数据是最中间的两个数,分别为 9(米)和 10(米) ,所以中位数是 (9+10)=9.5(米) 。21样
7、本平均数 (米)4.9)1236049587(0 x所以,估计这批手榴弹的平均杀伤半径约为 9.4 米。点评:(1)根据总体、个体、样本、样本容量的概念答题要注意:总体、个体和样本所说的考察对象是一种数量指标,不能说成考察的对象是手榴弹,而应说是手榴弹的杀伤半径。(2)读懂表格的意义,利用概念求众数、中位数,用样本平均数估计这批手榴弹的平均杀伤半径另外在这里要会简便计算有多个重复数据的样本的平均数。例 2为估计一次性木质筷子的用量,1999 年从某县共 600 家高、中、低档饭店抽取 10 家作样本,这些饭店每天消耗的一次性筷子盒数分别为:0.6 3.7 2.2 1.5 2.81.7 1.2
8、2.1 3.2 1.0(1)通过对样本的计算,估计该县 1999 年消耗了多少盒一次性筷子(每年按 350 个营业日计算) ;(2)2001 年又对该县一次性木质筷子的用量以同样的方式作了抽样调查,调查的结果是 10 个样本饭店,每个饭店平均每天使用一次性筷子 2.42 盒求该县 2000 年、2001 年这两年一次性木质筷子用量平均每年增长的百分率(2001 年该县饭店数、全年营业天数均与 1999 年相同) ;(3)在(2)的条件下,若生产一套学生桌椅需木材 0.07m3,求该县 2001 年使用一次性筷子的木材可以生产多少套学生桌椅。计算中需用的有关数据为:每盒筷子 100 双,每双筷子
9、的质量为 5g,所用木材的密度为 0.5103kg/m3;(4)假如让你统计你所在省一年使用一次性筷子所消耗的木材量,如何利用统计知识去做,简要地用文字表述出来。解析:(1) 0.2)1.2.178.251.76.0(1 x所以,该县 1999 年消耗一次性筷子为 2600350=420000(盒) 。第 4 页 共 10 页(2)设平均每年增长的百分率为 X,则 2(1+X) 2=2.42,解得 X1=0.1=10%,X 2=2.1(不合题意,舍去) 。所以,平均每年增长的百分率为 10%;(3)可以生产学生桌椅套数为 (套) 。72600.15.35640.3(4)先抽取若干个县(或市、州
10、)作样本,再分别从这些县(或市、州)中抽取若干家饭店作样本,统计一次性筷子的用量点评:本题是一道统计综合题,涉及的知识点很多,需要灵活运用各种知识分析解决问题对于第(1)小题,可先求得样本平均数,再利用样本估计总体的思想来求得问题的解对于第(2)小题,实际是一个增长率问题的应用题,可通过设未知数列方程的方法来解对于第(3)小题,用到了物理公式 mv , 体现了各学科知识之间的联系,让学生触类旁通,在解决实际问题时能综合运用多种知识灵活地解决问题第(4)小题只要能够运用随机抽样方法,能体会到用样本估计总体的统计思想就可解决,在文字表述上要注意简洁、明了、正确。题型 2:数字特征的应用例 3 (2
11、002 年全国高考天津文科卷(15))甲、乙两种冬小麦试验品种连续 5 年的平均单位面积产量如下(单位:t / hm2)品种 第 1 年 第 2 年 第 3 年 第 4 年 第 5 年甲 9.8 9.9 10.1 10 10.2乙 9.4 10.3 10.8 9.7 9.8其中产量比较稳定的小麦品种是 甲 。解析: 甲 = ( 9.8 + 9.9 + 10.1 + 10 + 10.2) = 10.0, 乙 = ( 9.4 + 10.3 + 10.8 + 9.7 + x1 5 x 1 59.8) = 10.0;s = ( 9.82 + + 10.22) 102 = 0.02,s = ( 9.42
12、 + + 9.82) 102 = 0.244 0.02 。2 甲1 5 2 甲 1 5点评:方差与平均数在反映样本的特征上一定要区分开。例 4 (2005 江苏 7)在一次歌手大奖赛上,七位评委为歌手打出的分数如下:9.4 8.4 9.4 9.9 9.6 9.4 9.7去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为(A)9.4, 0.484 (B)9.4, 0.016 (C)9.5, 0.04 (D)9.5, 0.016答案:D;解析:7 个数据中去掉一个最高分和一个最低分后,余下的 5 个数为:9.4, 9.4, 9.6, 9.4, 9.5。则平均数为: ,即 。.946.5.9
13、64.9x .x方差为: 016)5().().(51 2222 s第 5 页 共 10 页即 ,故选 D。016.2s点评:一定要根据实际的题意解决问题,并还原实际情景。题型 3:频率分布直方图与条形图例 5为检测,某种产品的质量,抽取了一个容量为 30 的样本,检测结果为一级品 5 件,而极品 8 件,三级品 13 件,次品 14 件.(1)列出样本频率分布表;(2)画出表示样本频率分布的条形图;(3)根据上述结果,估计辞呈商品为二极品或三极品的概率约是多少解析:(1)样本的频率分布表为产品 频数 频率一级晶 5 017二级晶 8 027三级晶 13 043次品 4 013(2)样 本 频
14、 率 分 布 的 条 形 图 为 :(3)此种产品为二极品或三极品的概率约为 0.27+0.43=0.7。点评:条形图中纵坐标一般是频数或频率。例 6 (2006 重庆理,6)为了了解某地区高三学生的身体发育情况,抽查了该地区100 名年龄为 17.5 岁岁的男生体重(kg) ,得到频率分布直方图如下:第 6 页 共 10 页根据上图可得这 100 名学生中体重在56.5,64.5的学生人数是(A)20 (B)30(C)40 (D)50答案:C;解析:根据运算的算式:体重在56.5,64.5学生的累积频率为20.0320.0520.0520.07=0.4,则体重在56.5,64.5学生的人数为
15、0.4100=40。点评:熟悉频率、频数、组距间的关系式。例 7某中学对高三年级进行身高统计,测量随机抽取的 40 名学生的身高,其结果如下(单位:cm)分组140,145)145,150)150,155)155,160)160,165)165,170)170,175)175,180)合计人数 1 2 5 9 13 6 3 1 40(1)列出频率分布表;(2)画出频率分布直方图;(3)估计数据落在150,170范围内的概率。解析:(1)根据题意可列出频率分布表:分 值 频 数 频 率140,145 1 0.025145,150 2 0.050150,155 5 0.125155,160 9 0
16、.225第 7 页 共 10 页160,165 13 0.325165,170 6 0.15170,175 3 0.075175,180 1 0.025合 计 40 1.00(2)频率分布直方图如下:(3)数据落在150,170范围内的概率约为 0.825。题型 4:茎叶图例 8观看下面两名选手全垒打数据的茎叶图,对他们的表现进行比较。1961 年扬基队外垒手马利斯打破了鲁斯的一个赛季打出 60 个全垒打的记录。下面是扬基队的历年比赛中的鲁斯和马利斯每年击出的全垒打的比较图:鲁斯 马利斯0 81 3 4 65 2 2 3 6 85 4 3 3 99 7 6 6 1 1 4 9 4 4 50 6
17、 1解析:鲁斯的成绩相对集中,稳定在 46 左右;马利斯成绩相对发散,成绩稳定在26 左右。题型 5:线性回归方程例 9由施肥量 x 与水稻产量 y 试验数据的关系,画出散点图,并指明相关性。第 8 页 共 10 页解析:散点图为:通过图象可知是正相关。例 10在某种产品表面进行腐蚀线实验,得到腐蚀深度 y 与腐蚀时间 t 之间对应的一组数据:时间 t(s) 5 10 15 20 30 40 50 60 70 90 120深度 y( m)6 10 10 13 16 17 19 23 25 29 46(1)画出散点图;(2)试求腐蚀深度 y 对时间 t 的回归直线方程。略解:(1)散点图略,呈直
18、线形。(2)经计算可得=46.36, =19.45, =36750, =5442, =13910。ty12it12iy1iiytB= = 0.3.212ttiii 236.4136750599A= b =19.4503 5.542。yt.4第 9 页 共 10 页故所求的回归直线方程为 =0.3t+5.542。y题型 6:创新题例 11把容量为 100 的某个样本数据分为 10 组,并填写频率分布表,若前七组的累积频率为 0.79,而剩下三组的频数成公比大于 2 的整数等比数列,则剩下三组中频数最高的一组的频数为_.答案:16点评:已知前七组的累积频率为 0.79,而要研究后三组的问题,因此应
19、先求出后三组的频率之和为 10.79=0.21,进而求出后三组的共有频数,或者先求前七组共有频数后,再计算后三组的共有频数。由已知知前七组的累积频数为 0.79100=79,故后三组共有的频数为 21,依题意 =21,a 1(1+q+ q2) =21.a 1=1,q=4 。后三组频qa1)(3数最高的一组的频数为 16。此题剖析只按第二种思路给出了解答,你能按第一种思路来解吗?例 12某班学生在一次数学考试中成绩分布如下表:分数段 0,80) 80,90) 90,100)人数 2 5 6分数段 100,110) 110,120 120,130)人数 8 12 6分数段 130,140) 140
20、,150)人数 4 2那么分数在100,110)中的频率和分数不满 110 分的累积频率分别是_、_(精确到 0.01).解析:由频率计算方法知:总人数=45.分数在100,110)中的频率为 =0.1780.18.458分数不满 110 分的累积频率为 = 0.47.6221答案:0.18 0.47五思维总结1统计是为了从数据中提取信息,学习时根据实际问题的需求选择不同的方法合理地选取样本,并从样本数据中提取需要的数字特征。不应把统计处理成数字运算和画图表。对统计中的概念(如“总体“、“样本“等)应结合具体问题进行描述性说明,不应追求严格的形式化定义。2当总体中个体取不同值很少时,我们党用样
21、本的频率分布标记频率分布梯形图取估计总体体分布,总体分布排除了抽样造成的错误,精确反映了总体取值的概率分布规律。对 于 所 取 不 同 数 值 较 多 或 可 以 在 实 数 区 间 范 围 内 取 值 的 总 体 , 需 用 频 率 分 布 直 方)第 10 页 共 10 页图 来 表 示 相 应 的 频 率 分 布 。 当 样 本 容 量 无 限 增 大 , 分 组 的 组 距 无 限 缩 小 时 , 频 率 分 布直 方 图 无 限 接 近 一 条 光 滑 曲 线 总 体 密 度 曲 线 由 于 总 体 分 布 通 常 不 易 知 道 , 往 往是 用 样 本 的 频 率 分 布 估 计
22、 总 体 分 布 。 样 本 容 量 越 大 , 估 计 就 越 精 确 。3相关关系研究两个变量间的相关关系是学习本节的目的。对于相关关系我们可以从下三个方面加以认识:(1)相关关系与函数关系不同。函数关系中的两个变量间是一种确定性关系。例如正方形面积 S 与边长 x 之间的关系 就是函数关系。即对于边长 x 的每一个确2xS定的值,都有面积 S 的惟一确定的值与之对应。相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系。例如人的身高与年龄;商品的销售额与广告费等等都是相关关系。(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。例如有人发现,对于
23、在校儿童,身高与阅读技能有很强的相关关系。然而学会新词并不能使儿童马上长高,而是涉及到第三个因素年龄,当儿童长大一些,他们的阅读能力会提高而且由于长大身高也会高些。(3)函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化。例如正方形面积 S 与其边长 x 间虽然是一种确定性关系,但在每次测量边长时,由于测量误差等原因,其数值大小又表现出一种随机性。而对于具有线性关系的两个变量来说,当求得其回归直线后,我们又可以用一种确定性的关系对这两个变量间的关系进行估计。相关关系在现实生活中大量存在,从某种意义上讲,函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况。因此研究相关关系,不仅可使我们处理更为广泛的数学应用问题,还可使我们对函数关系的认识上升到一个新的高度。4好破势训练,为提高能力,运用变式题目,常规题向典型问题的转化,进行多种解法训练,从不同角度,不同侧面对题目进行全面分析,结合典型的错解分析,查找思维的缺陷,提高分析解决问题的能力。