1、第 2 课时导入新课在上一节课中问题 1:将汽油以均匀的速度注入桶里,注入的时间 t 与注入的油量 y 如下表:从表里数据得出油量 y 与时间 t 之间的函数关系式为 y=2x(x0).并且在直角坐标系里很容易作出它们的图象,我们知道各点在同一条直线上.再看下面的问题(即上一节课的练习 2):某小卖部为了了解热茶销售量与气温之间的关系,随机统计并制作了某 6 天卖出热茶的杯数与当天气温的对比表:请大家动手作出热茶销售量与气温的坐标图,说说它的特点,能得到什么规律? 分析:该图中所有点不像第一个问题中函数关系的图象对应的点在同一条直线上,但是分布也是很有规律,它们散布在从左上角到右下角的区域,因
2、此,可以得到规律是随着气温的增加,热茶卖出的杯数在减少.但究竟以什么样的方式在减少呢?这就是今天要继续学习的内容线性回归方程.推进新课新知探究以横坐标 x 表示气温,纵坐标 y 表示热茶销量,建立平面直角坐标系,将表中数据构成的 6 个数对所表示的点在坐标系内标出,得到上图,今后我们称这样的图为散点图.1.散点图(scatterplot):表示具有相关关系的两个变量的一组数据的图形叫做散点图.散点图形象地反映了各对数据的密切程度.粗略地看,散点分布具有一定的规律.在本图中这些点散布的位置也是值得注意的,它们散布在从左上角到右下角的区域,对于这种相关关系,我们称它为负相关.如果点散布在从左下角到
3、右上角的区域.对于这种相关关系,我们称它为正相关.请学生举例:两个变量之间是正相关的关系.例如:某小卖部卖的冷饮销售量与气温之间的关系.再看上节课的练习 1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:如果作出散点图如右图,它是散布在从左下角到右上角的区域,也是正相关的关系.回到解热茶销售量与气温之间的关系的散点图来,从图中可以得到规律是随着气温的增加,热饮的销售量在减少,究竟以什么样的方式减少呢?分析:分布情况是在从左上角到右下角的区域的某条直线附近摆动.能画出这条直线吗?请大家一起想一想,该怎么办,才能作出这条直线呢?请大家设计方案,可以互相讨论.方案 1:采用测量
4、的方法:先画一条直线,测量出各点到它的距离,然后移动直线,达到一个使距离之和最小的位置,测量出此时直线的斜率和截距,就得到回归方程.分析:这个想法很好,但是操作起来有一定难度,因为我们画符合条件的直线不能直接画出.还有什么新的办法能解决这个问题?方案 2:在图中选取两点画直线,使得直线两侧的点的个数基本相同.分析:画直线时使得直线两侧的点的个数基本相同的直线能画无数多条,这样符合条件的直线就不唯一了,再仔细考虑一下,我们究竟应当怎样作出.方案 3:在散点图中多取几组点,确定几条直线的方程,分别求出各条直线的斜率和截距,将这两个平均数作为回归直线方程的斜率和截距.分析:如果有 6 个散点,按照方
5、案 3 的办法,将要作 15 条直线,这样计算 15 条直线的斜率和截距分别求出的计算量是一个很大的工程,由此可见,该方案不具有可行性,那么怎样才能作出 “从整体上看各点与此直线距离最小”的直线呢?用方程 =bx+a 的直线拟合散点图中的点,应使得该直线与散点图中的点最接近,那y么,怎样衡量 =bx+a 与图中的点最接近程度呢?y我们将表中给出的自变量 x 的六个值代入直线方程,得到相应的六个 的值:y26b+a,18b+a,13b+a,10b+a,4b+a,-b+a.这六个数值与表中相应的六个 的实际值应该越接近越好.所以,我们用类似于估计总y体平均数时的思想,考虑离差平方和Q(a,b)=(
6、26b+a-20)2+(18b+a-24)2+(13b+a-34)2+(10b+a-38)2+(4b+a-50)2+(-b+a-64)2=1 286b2+6a2+140ab-3 280b-460a+10 172.Q(a,b)是直线 =bx+a 与各个散点在垂直方向(纵轴方向)上的距离的平方和,可以用y来衡量直线 =bx+a 与图中 6 个点的接近程度,所以,设法取 a,b 的值,使 Q(a,b)达到最小值.先把 a 看作是常数,那么 Q 是关于 b 的二次函数.用配方法可得,当 b=-时,Q 取得最小值 .1286304同理,把 b 看作是常数,那么 Q 是关于 a 的二次函数.用配方法可得,
7、当 a=-时,Q 取得最小值 .因此,当 b=- ,a=- 时, Q 取得最小值,由此解得 b-1.647 1286304a12460b7,a57.556 8.所以所求的直线方程为 =-1.647 7x+57.556 8.y像这样能用直线方程 =bx+a 近似表示的相关关系叫做线性相关关系.人们经过长期的实践与研究,已经得出了从数量关系的角度来计算回归直线方程的斜率与截距的一般公式为: , 从而得到回归直线方程为 =bx+a.xbyayxniiiii1)( y下面我们一起来探究一下这个公式. 设已经得到具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),,(x n,yn),设所求
8、的回归直线方程为 =bx+a,其中 a,b 是待定的系数,y当变量 x 取 x1,x2,xn 时,可以得到 =bxi+a(i=1,2,,n). 它与实际收集到的 yi 之间的偏差iy是 yi- =yi-(bxi+a)(i=1,2,3,4,n).这样用这 n 个偏差的和来刻画 “各点与此直线的整体偏差”是比较合适的.但是,由于 yi- =yi-(bxi+a)(i=1,2,3,4,n)的值可正可负 ,可以相互抵消,而且若取其绝对值,考虑用 =|yi-Yi|来代替,但是,由于它含有绝对值运算不太方便,因此我们可以ni1模仿方差的计算方法取其偏差的平方最小值. 表示 n 个点与相应直线在整体上的接近程
9、度.即 Q=(y1-bx1-a)2+(y2-bx2-a)2+(yn-bxn-a)2 来刻画 n 个点与回归直线在整体上的偏差.这样,问题,就归结为:当 a,b 取什么值时,Q 的取值最小,即总体偏差最小? 上述式子展开后,是一个关于 a、b 的二次三项式,应用配方法,可求出使 Q 为最小值时的 a、b 的值 .即 Q=na2+ =1xi2b2+ =1yi2-2 =1bxiyi+2 =1abxi-2 =1ayi. (*)ni1ni1n1n1n1上述式子展开后,是一个关于 a、b 的二次三项式,我们可以把(*)式看成以 a 为变量的二次三项式,应用配方法可得,当 (1)时,Q 取得最大值;因为(1
10、)式中还含有变量 a,我们无法求出 b 的数值,那么我们如何求出斜率 b 与截距 a 的一般公式为 : 从而得到回归直线方程为=bx+a 呢?y我们还可以把(*)式看成以 b 为变量的二次三项式,应用配方法可得,当 a=(2) 时,Q 取得最大值.观察(1)、(2)两个式子,因为(1)、(2)两个式子中都是含有 a、b 的二元一次方程,我们可以由(1)(2)解得:从而得到相应的直线叫做回归直线 =bx+a,对两个变量所进行的上述统计分析叫做y回归分析.这种求出斜率 b 与截距 a 的方法叫做最小平方法(method of least square) (又称最小二乘法).说明:一元线性回归分析也
11、是研究两个变量的线性相关性,但比相关分析的应用更为广泛,它不仅可以说明两个变量是否一起变化,还可以计算出预测方程以预计这两个变量是如何一起变化的.预测方程的形式为: =bx+a ,通常叫作回归方程 .y 叫做因变量,x 叫做自y变量,其中 a 是常数项,b 叫一元回归系数.1.对回归直线方程只要求会运用它进行具体计算 a、b,求出回归直线方程即可.不要求掌握回归直线方程的推导过程.2.求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.因此,对一组数据作线性回归分析时,应先看其散点图是否成线性.3.求回归直线方程,关键在于正
12、确地求出系数 a、b,由于求 a、b 的计算量较大,计算时仔细谨慎、分层进行,避免因计算产生失误.4.回归直线方程在现实生活与生产中有广泛的应用.应用回归直线方程可以把非确定性问题转化成确定性问题,把“无序”变为“ 有序”,并对情况进行估测、补充.因此,学过回归直线方程以后,应增强学生应用回归直线方程解决相关实际问题的意识.应用示例例 1 在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:根据上述数据,人体脂肪含量和年龄之间有怎样的关系?分析:上节课已给出此问题,并作了回答但没有说明理由,这次补充完整.解:观察表中的数据,大体上来看,随着年龄的增加,人体中脂肪的百分比也在增加
13、.为了确定这一关系的细节,我们需要进行数据分析.我们假设人的年龄影响体内脂肪含量,于是,按照习惯,以 x 轴表示年龄,以 y 轴表示脂肪含量,得到相应的散点图.从散点图我们可以看出,年龄越大,体内脂肪含量越高,图中点的趋势表明两个变量之间确实存在一定的关系,这个图支持了我们从数据表中得出的结论.经计算可得到回归直线的回归方程为 =0.577x-0.448.y点评:使前后产生较强的联系性,使学生意识到学数学等于师生在共同编导连续剧,每节课都应参与,不然会掉队.例 2 下表为某地近几年机动车辆数与交通事故数的统计资料,请判断机动车辆数与交通事故数之间是否具有线性相关关系,如果具有线性相关关系,求出
14、线性回归方程;如果不具有线性相关关系,请说明理由.分析:一般地,用回归直线进行拟合的一般步骤为:(1)作出散点图,判断散点是否在一条直线附近;(2)如果散点在一条直线附近,用公式求出 a,b.解:在直角坐标系中作出所给数据的散点图,并写出线性回归方程.从散点图我们可以直观判断散点在某条直线附近,这说明两个变量是相关关系.计算相应的数据之和为: =95+110+112+120+129+135+150+180=1 031,nix1=6.2+7.5+7.7+8.5+8.7+9.8+10.2+13=71.6,ni12=137 835,nix1xiyi=9 611.7,代入公式(*)计算得ni1b0.0
15、77 4,a=-1.024 1,所以,所求的线性回归方程为 =0.774x-1.024 1.y点评:要知道:在并不具有相关关系的情况下,对应的线性回归方程虽然也可以求出,但它并无实际意义,同时也要注意,在散点图中显示线性相关的一组数据不一定具有相关关系.这部分内容会在选修 1-2 中再次有所体现.例 3 一般地,(x,y)的 n 组观察数据: 若它的回归直线方程为 =a+bx,则直线 =a+bx 恒过的定点是什么?yy分析:如果没有前面的推导背景,此题有点困难,但由于黑板上的板书还在,所以有学生能发现结论.解:由线性回归方程的推导,可知方程的系数 a,b 满足条件:,a= -b .由此不难发现
16、,点 (x,y)的坐标满足直线yx=a+bx 的方程 .所以,由点与直线的位置关系可得点( , )在直线 =a+bx 上,即直线y y=a+bx 恒过点 ( , ).这里 = , = .xy点评:刚推导过线性回归方程,所以此题比较适合趁热打铁,可提前做例 1;此结论在以后的解题中经常出现,因此可以让学生记忆.例 4 工人工资(元)以劳动生产率(千元)变化的回归方程 =50+80x,下列判断正y确的是 ( )A.劳动生产率为 1 000 元时,工资为 130 元B.劳动生产率提高 1 000 元时,工资大约提高 80 元C.劳动生产率提高 1 000 元时,工资提高大约 130 元D.当月工资
17、250 元时,劳动生产率为 2 000 元分析:满足回归方程是指:工人工资(元)以劳动生产率(千元)之间具有相关关系,但不是确定的函数关系,所以选项 A 用的肯定语气是错的,其他的选项通过函数关系式的代入发现,只有选项 B 是正确的 .答案:B点评:体会回归方程的应用.知能训练1.线性回归方程 =kx+a 所表示的直线使得 ( )yA.散点图中的点到直线的距离之和最小B.散点图中的点到直线的距离的平方和最小C.散点图中的点与直线相同横坐标处对应的纵坐标的距离之和最小D.散点图中的点与直线相同横坐标处对应的纵坐标的距离的平方和最小2.如果有一组成对数据,求出回归直线的方程是 y=2.0x+10,
18、那么 ( )A.这条回归直线总是有意义的B.这条回归直线总是可以用来预测 y 值C.在散点图中的点都在这条直线附近时,这条回归直线才有意义D.x=10 时,y 的预测值为 20,说明在 x=10 时,y 的值一定等于 20解答:1.D 2.C课堂小结(让学生进行小结,谈谈体会,帮助他们回顾反思、归纳概括.)1. 变量间相关关系的散点图以及正相关和负相关;2. 如何利用“最小二乘法” 思想求直线的回归方程;3. 学会用回归思想考察现实生活中变量之间的相关关系.作业课本习题 2.4 1、2、3.设计感想通过对气温和热饮销量的关系散点图的分析,引入描述两个变量之间关系的线性回归方程(模型) ,使学生
19、通过探索用多种方法确定线性回归直线,学会类比寻求新的突破方法,体会最小二乘法的思想,掌握计算回归方程的斜率与截距的方法,求出回归直线方程. 通过典型的求解,强化回归思想的建立,理解回归直线与观测数据的关系. 通过引导学生感受生活中实际问题转化为数学问题,学会类比寻求新的突破方法,体会最小二乘法的思想,培养学生的创新精神,不断收取信息,学会用统计知识对实际问题进行数学分析.本节课在理解最小二乘法的时候所用时间较多,在推导线性回归方程时,计算量特别大,所以费时也较多,建议分一点内容到上一节课协调一下.习题详解习题 2.41.(1)散点图如下:(2)线性回归方程为 =5.2x+24.y2.(1)散点图如下:(2)根据散点图,这些点在一条直线的附近,x 与 y 具有线性相关关系,线性回归方程为 =0.305 21x+9.990 32.y3.(1)散点图如下:(2)x 与 y 之间的线性回归方程为 =14.090 91x-13.227 27.y4.略.