1、- 1 -3.1 回归分析的基本思想及其初步应用一、学习要求1.了解相关关系、正相关、负相关、回归直线的概念;2.通过典型案例的探究,进一步了解回归分析的基本思想、方法及其初步应用。3.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相互关系;4.能根据给出的线性回归方程系数公式建立线性回归方程。二、先学后讲1变量间的相关关系变量间确实存在关系,但又不具备函数所要求的确定性,它们的关系是带有随机性的,也就是一种非确定性关系。2散点图把从研究某两个变量的关系中获取得的容量为 的样本数据用点的形式表示为 , , ,称这样的一些点为样本点。把样本点画在平面直角坐标系上,以表示具有相关关系的
2、两个变量的一组数据的图形叫做散点图。(把 称为解释变量,把 称为预报变量。)画散点图的目的是通过变量的散点图判断两个变量更近似于什么样的函数关系,以确定是否直接用线性回归模型来拟合原始数据。3.相关关系的分类散点图中点的分布位置是在从左下角到右上角的区域,对于两个变量的这种相关关系,称为正相关。(也就是说,正相关指的是两个变量有相同的变化趋势,即从整体上看一个变量会随另一个变量变大而变大,这在散点图上反映就是散点的分布在斜率大于 0 的直线附近。)散点图中点的分布位置是在从左上角到右下角的区域,对于两个变量的这种相关关系,称为负相关。(也就是说,负相关指的是两个变量有相反的变化趋势,即从整体上
3、看一个变量会随另一个变量变大而变小,这在散点图上反映就是散点的分布在斜率小于 0 的直线附近。)例如:对变量 , 有观测数据 ( ),得散点图(1);对- 2 -变量 , 有观测数据 ( ),得散点图(2)由这两个散点图可以判断变量 与 有负相关关系, , 有正相关关系。4.两个变量的线性相关关系对于散点图,可以做出如下判断:如果所有样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系。如果所有样本点都落在某一函数曲线附近,变量之间就有相关关系。如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线,其方程称
4、为回归直线方程。【这里“大致”的意思是指:这样的直线不止一条,在整体上与这 n个点最接近的一条即为回归直线。像平均数可以作为一个变量的数据的代表一样,这条直线可以作为两个变量具有线性相关关系的代表。】5回归直线方程(1)当两个具有相关关系的变量近似地满足一次函数关系时,所求出的函数关系就是回归直线方程。(2)回归方程 中的 (称为回归系数)由公式:12niixyb求出。(计算时,先求出 123()nxxn, 123()nyy,1231ni nxyy,2221i nx);再由 aybx求出a的值,并写出回归直线方程。- 3 -(3)回归直线方程 中的 表示 增加 1 个单位时, 的变化量为 。它
5、是回归直线的斜率的估计值。(4)可以利用回归直线方程 预报在 取某一个值时, 的估计值。但这里所得到的值是预报值,而不是精确值,它带有很大的随机性,可能对于某一次实际值而言会有很大的出入。(5)设样本点为 , , , ,则 称为样本点的中心。回归直线 一定过这一点。(对于单变量样本数据而言,平均数是样本数据的中心,类似地对双变量样本而言,回归直线是样本点的中心。)三、问题探究合作探究例 1从某大学中随机选取 8 名女大学生,其身高和体重数据如下表所示:编 号 1 2 3 4 5 6 7 8身高/cm 165 165 157 170 175 165 155 170体重/kg 48 57 50 5
6、4 64 61 43 59(1)以身高为自变量 ,体重为因变量 ,画出散点图;(2)求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。解:(1)根据表中数据,画出散点图如右图所示。(2),- 4 -,1 22731586.54. 089niixyb54.089165.8.7ayx线性回归方程为: .当 时,即身高为 172cm 的女大学生的预报体重为 。【方法归纳】第一步:作散点图; 第二步:求回归直线方程: ;第三步:用回归直线方程进行预报。自主探究1已知回归直线的斜率的估计值是 1.23,样本点的中心为(4,5),则回归直线的方程是( )。 【解
7、析】设回归直线的方程为 ,依题意可知, ,又样本点的中心在直线上,即 ,得 ,所以回归直线的方程为。故选 。2厂某产品产量 (千件)与单位成本 (元)满足回归直线方程是 ,则下列说法正确的是( )。 (答案: )产量每增加 1000 件,单位成本下降 1.82 元- 5 -产量每减少 1000 件,单位成本上升 1.82 元产量每增加 1000 件,单位成本上升 1.82 元产量每减少 1000 件,单位成本下降 1.82 元四、总结提升本节课你主要学习了 。五、问题过关1.一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机
8、器的运转的速度而变化,下表为抽样试验的结果:转速 (转/秒) 16 14 12 8每小时生产有缺点的零件数 (件)11 9 8 5(1)画出散点图并判断它们是否有相关关系;(2)如果 与 有线性相关关系,求回归直线方程(精确到 0.001);(3)若实际生产中,允许每小时的产品中有缺点的零件最多为 10 个,那么机器的运转速度应控制在什么范围内?解:(1)散点图如下:由以上散点图可以看出,这些点近似在一条直线附近上下波动,故 和 具有相关关系。(2) , ,- 6 -41 224381.5 0.7960iixynb ,回归直线方程为: .(3)令 ,解得 ,所以机器的运转速度应控制在每秒 15
9、 转内。【选修 2-3】 3.1 回归分析的基本思想及其初步应用(知识回顾:数学3(必修)第 84 页“2.3 变量间的相关关系” )一、学习要求通过典型案例的探究,进一步了解回归分析的基本思想、方法及其初步应用。二、问题探究合作探究例 1关为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月 1 号到 5 号每天打篮球时间 (单位:小时)与当天投篮命中率 之间的关系:时间 1 2 3 4 5命中率 0.4 0.5 0.6 0.6 0.4(1)求小李这 5 天的平均投篮命中率;(2)用线性回归分析的方法,预测小李该月 6 号打 6 小时篮球的投篮命中率。(线性回归方程 中
10、系数计算公式12(-)=niiiiixyb, =-aybx,其中 , y表示样本均值。)- 7 -解:(1)小李这 5 天的平均投篮命中率为:0.4.60.45+=y;(2)小李这 5 天打篮球的平均时间为:1235x(小时);1 2222()()0.1()0.1.(0.1)=-+-+-= =niiiiiybx,0.53.47-ay,线性回归方程为: 10=+yx。当 时, .6.470.53=,故预测小李该月 6 号打 6 小时篮球的投篮命中率为 0.53。自主探究1 , 的取值如下表:0 1 3 42.2 4.3 4.8 6.7从散点图分析,与 线性相关,回归直线方程为 ,当 时,则 的值
11、是 。解: , , , ,当 时, .四、总结提升本节课你主要学习了 。五、问题过关1.下表是某厂 14 月份用水量(单位:百吨)的一组数据:- 8 -月份 1 2 3 4用水量 4.5 4 3 2.5由散点图可知,用水量 与月份 之间有较好的线性相关关系,其线性回归直线方程是,则 ( )。 【解析】 , ,回归直线方程必过定点 , , 。故选 。2.某种商品价格与该商品日需求量之间的几组对照数据如下表:()求 y关于 x的线性回归方程;()当价格 40元/kg 时,日需求量 y的预测值为多少?解: () 152302x,0865y,22221150150iix,51()3()(2)1(3)8
12、0iiiy, 51280 .25iiiiixb,80.314.ayx,所求线性回归方程为 2.yx。()由()知当 40x时, .3401.6,价格 x(元/kg) 10 15 20 25 30日需求量 (kg) 11 10 8 6 5- 9 -当价格 40x元/ kg 时,日需求量 y的预测值为 1.6kg。【选修 2-3】 3.1 回归分析的基本思想及其初步应用一、学习要求1通过典型案例的探究,了解回归分析的基本思想、方法及其初步应用;2了解随机误差 、解释变量 、预报变量 、残差和残差图的意义、残差平方和的意义;3相关指数 计算公式及其意义,并能通过相关指的大小评价模型的拟合效果。二、先
13、学后讲1回归分析(阅读课本选修 12第 2 页至第 5 页)对具有相关关系的两个变量进行统计分析的方法叫做回归分析。用回归分析的方法对两个具有线性相关关系的变量进行研究的步骤:收集数据 作散点图 求回归直线方程 利用方程进行预报。2随机误差【问题提出】第 1 课时的例 1(课本选修 12第 2 页例 1)中:“身高为 的女大学生的体重一定是 吗?如果不是,引起误差的原因是什么?”不是。 是身高为 的女大学生的平均体重的估计值,而不一定是某位身高为 的女大学生的真实体重也就是说,身高为 的女大学生的平均体重大约是 ,并且大部分 的女大学生的体重在 附近。可见,用“ ”这个回归方程不能给出每一个身
14、高为 的女大学生的体重的预测值,只能给出她们平均体重的预测值。即不能用一次函数来描述某大学中女大学生的身高与体重之间的关系。用“ ”这一线性回归模型来表示身高与体重之间的关系。随机误差 : 。它是引起预报值 与真实值 之间的误差的原因之一。其估计值为 。- 10 -3残差对于样本点 , , , 而言,它们的随机误差为, ,其估计值为 , , 称为相应点 的残差。【要点说明】(1)残差等于观察值减预测值。表示预报变量(因变量)中不能由回归方程解释的部分。(2)可以通过残差发现原始数据中的可疑数据,就是残差特别大的样本点,考察相应的样本数据是否有错。对残差特别大的样本点,要确认在采集这个样本点时是
15、否出现人为的错误,若是,予以纠正;若不是,查找其它原因。(3)分析残差图可以判断模型选择是否合适(模型的拟合效果好坏)。4相关指数 2R(1)相关指数 2R的计算公式:221()niiiiyR。(2)相关指数 的作用在 的表达式中:“21()niiy”是总偏差平方和,它仅与样本数据有关,与所选用模型无关,是一个确定的数;“21()niiy”是残差平方和,在回归分析中,它代表了数据点和它在回归直线上相应位置的差异。残差平方和21()niiy越小, 2R取值越大;残差平方和21()niiy越大,2R取值越小。在回归分析中,常用用相关指数 2来刻划回归的效果。在线性回归模型中, 2R表示解- 11
16、-释变量 对于预报变量 变化的贡献率。2R取值越大(越接近于 1),模型的拟合效果越好(即解释变量和预报变量的相关性越强); 2取值越小,模型的拟合效果越差。如果对于某组数据可以采取几种不同的回归方程进行回归分析,则可以通过比较几个2R的值,选择 2的值大的模型作为这组数据的模型。在上节课的例 1 中, 20.64R,表明“女大学生的身高解释了 64%的体重变化”,或者说“女大学生的体重差异有 %是由身高引起的”。三、问题探究合作探究例 1关于 与 有如下数据:x2 4 5 6 8y30 40 60 50 70为了对 与 两个变量进行统计分析,现有以下两种线性模型: ,试比较哪一个模型拟合的效
17、果更好。解: ,对于模型 , 、 的数据如下表:x2 4 5 6 8y30 40 60 50 70-0.5 -3.5 10 -6.5 0.5-20 -10 10 0 20对于模型 , 、 的数据如下表:- 12 -x2 4 5 6 8y30 40 60 50 70-1 -5 8 -9 -3-20 -10 10 0 20对于模型 ,得25211 150.84iiiiyR对于模型 ,得2521180.2iiiiyR ,选用模型 的拟合的效果更好。四、总结提升本节课你主要学习了 。五、问题过关1.回归分析中,相关指数 的值越大,说明残差平方和( )。(答案: )越小 越大 可能大也可能小 以上都不对
18、2. 如果散点图中的所有样本点都在一条直线上,则解释变量和预报变量之间的关系是;解释变量和预报变量的残差平方和等于 ;相关指数 . (答案:函数关系;0;1。 )- 13 -3. 在一段时间内,某种商品的价格 元和需求量 件之间的一组数据为:求 对 的回归直线方程,并说明拟合效果的好坏。(参考数据: )解: , ,5222146180160ix,51 7523iy, 51 226018.4 .15iixnyb回归直线方程为: 。又 、 的数据如下表:x14 16 18 20 22y12 10 7 5 30 0.3 -0.4 -0.1 -0.24.6 2.6 -0.4 -2.4 -4.4 5221()0.3945iiiiyR价格 14 16 18 20 22需求量 12 10 7 5 3- 14 -拟合效果的较好。4. 已知一系列样本点 ( )的回归直线方程为 ,若样本点 与 的残差相同,则有( )。 【解析】残差 ,又样本点 与 的残差相同, , 。故选 。