1、第三章 统计案例31 回归分析的基本思想及其初步应用(共计 4 课时)授课类型:新授课一、教学内容与教学对象分析学生将在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。二、学习目标1、知识与技能通过本节的学习,了解回归分析的基本思想,会对两个变量进行回归分析,明确建立回归模型的基本步骤,并对具体问题进行回归分析,解决实际应用问题。2、过程与方法本节的学习,应该让学生通过实际问题去理解回归分析的必要性,明确回归分析的基本思想,从散点图中点的分布上我们发现直接求回归直线方程存在明显的不足,从中引
2、导学生去发现解决问题的新思路进行回归分析,进而介绍残差分析的方法和利用 R 的平方来表示解释变量对于预报变量变化的贡献率,从中选择较为合理的回归方程,最后是建立回归模型基本步骤。3、情感、态度与价值观通过本节课的学习,首先让显示了解回归分析的必要性和回归分析的基本思想,明确回归分析的基本方法和基本步骤,培养我们利用整体的观点和互相联系的观点,来分析问题,进一步加强数学的应用意识,培养学生学好数学、用好数学的信心。加强与现实生活的联系,以科学的态度评价两个变量的相关系。教学中适当地增加学生合作与交流的机会,多从实际生活中找出例子,使学生在学习的同时。体会与他人合作的重要性,理解处理问题的方法与结
3、论的联系,形成实事求是的严谨的治学态度和锲而不舍的求学精神。培养学生运用所学知识,解决实际问题的能力。三、教学重点、难点教学重点:熟练掌握回归分析的步骤;各相关指数、建立回归模型的步骤;通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法。教学难点:求回归系数 a , b ;相关指数的计算、残差分析;了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较。四、教学策略:教学方法:诱思探究教学法 学习方法:自主探究、观察发现、合作交流、归纳总结。教学手段:多媒体辅助教学五、教学过程:(一) 、复习引入:回归分析
4、是对具有相关关系的两个变量进行统计分析的一种常用方法。(二) 、新课:探究:对于一组具有线性相关关系的数据:( 1,xy) , ( 2) , ( ,nxy),我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:aybx (1)12()niiiiiyx(2)其中 11,nniiy, ( ,xy)成为样本点的中心.注:回归直线过样本中心.你能推导出这两个计算公式吗?从我们已经学过的知识知道,截距 a和斜率 b分别是使21(,)()niiiQybx取到最小值时 ,的值.由于21(,)()()niiiQyxyx2 21()()()()nii iii yxyx 2 21 1()()()()n nii
5、 iii iyxyxn注意到 1()niiiyxyx1()()niii11()()nniiyxyxy0.221(,)()()niiiQyxnyx22 22111()()()()nnni iiii i ixxyyx2222 2111 1()()()() ()nnii iin ni ii ii ii ii ixynyxx yx 在上式中,后两项和 ,无关,而前两项为非负数,因此要使 Q 取得最小值,当且仅当前两项的值均为 0,即有12niixyyx,.这正是我们所要推导的公式下面我们从另一个角度来推导的公式人教 A 版选修 2-2P37 习题 1.4A 组第 4 题:用测量工具测量某物体的长度,由
6、于工具的精度以及测量技术的原因,测得 n 个数据12,na.证明:用这个数据的平均值 1nixa表示这个物体的长度,能使这 n 个数据的方差21()()niifxa最小思考:这个结果说明了什么?通过这个问题,你能说明最小二乘法的基本原理吗?证明:由于 21()()niifxa,所以 12()()niif,令 ()0fx, 得 1nia。可以得到, 1ni是函数 ()fx的极小值点,也是最小值点这个结果说明,用 n 个数据的平均值 1nia表示这个物体的长度是合理的,这就是最小二乘法的基本原理由最小二乘法的基本原理即得 定理 设 xR, 12nx ,则2 2221 1()()()()n nxxs
7、n (*)当且仅当 12xx 时取等号.(*)式说明, n 是任何一个实数 x与 12,nx 的差的平方的平均数中最小的数.从而说明了方差具有最小性,也即定义标准差的合理性.下面借助(*)式求 2221 )()()( abyabyabxyQn 的最小值.12()()nybx 12n x ,由(*)式知, 22212()()()nQaybxaybxayb 2 21()()()nxxyb 122n 2 211()()()nnni ii ii i ixbxyby22 2211 11 ()()()()nii iin ni ii ini ii ii ixyx 22 2211 11 ()()()()nii
8、 iin ni ii ini ii ii iyxyxbyx 2211()()iinii ni iiyyx22211()()()nii iiii iniixyyx当且仅当 aybx,且 1122()nniiiii iixyxy时, Q达到最小值22111()()()nnnii iiii iiixxyx.由此得到, ,xbyaxnyyiniiniiiii 2112)(其中 b是回归直线的斜率, a是截距.借助 |和配方法,我们给出了人教 A 版必修 3 的第二章统计第三节变量间的相关关系中回归直线方程 ybxa的一个合理的解释1、回归分析的基本步骤:(1) 画出两个变量的散点图. (2) 求回归直
9、线方程.(3) 用回归直线方程进行预报.下面我们通过案例,进一步学习回归分析的基本思想及其应用2、举例:例 1. 从某大学中随机选取 8 名女大学生,其身高和体重数据如表 编号 1 2 3 4 5 6 7 8身高/cm 165 165 157 170 175 165 155 170体重/kg 48 57 50 54 64 61 43 59求根据女大学生的身高预报体重的回归方程,并预报一名身高为 172 cm 的女大学生的体重解:由于问题中要求根据身高预报体重,因此选取身高为自变量 x ,体重为因变量 y .作散点图(图 3 . 1 一 1)从图 3. 1 一 1 中可以看出,样本点呈条状分布,
10、身高和体重有比较好的线性相关关系,因此可以用线性回归方程来近似刻画它们之间的关系根据探究中的公式(1)和(2 ) ,可以得到 0.849,5.712ba. 于是得到回归方程 08495.712yx.因此,对于身高 172 cm 的女大学生,由回归方程可以预报其体重为.60.31( kg ) . 0.849b是斜率的估计值,说明身高 x 每增加 1 个单位时,体重 y 就增加 0.849 位,这表明体重与身高具有正的线性相关关系如何描述它们之间线性相关关系的强弱?在必修 3 中,我们介绍了用相关系数;来衡量两个变量之间线性相关关系的方法本相关系数的具体计算公式为 1221()()niiiniii
11、ixyr当 r0 时,表明两个变量正相关;当 r0 时,表明两个变量负相关r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值接近于 0 时,表明两个变量之间几乎不存在线性相关关系通常,当 r 的绝对值大于 0. 75 时认为两个变量有很强的线性相关关系在本例中,可以计算出 r =0. 798这表明体重与身高有很强的线性相关关系,从而也表明我们建立的回归模型是有意义的显然,身高 172cm 的女大学生的体重不一定是 60. 316 kg,但一般可以认为她的体重接近于 60 . 316 kg .图 3 . 1 一 2 中的样本点和回归直线的相互位置说明了这一点由于所有的样本点不共线,
12、而只是散布在某一条直线的附近,所以身高和体重的关系可用下面的线性回归模型来表示:ybxae, ( 3 ) 这里 a 和 b 为模型的未知参数,e 是 y 与 bxa之间的误差通常 e 为随机变量,称为随机误差,它的均值 E (e)=0,方差 D(e)= 2()0 这样线性回归模型的完整表达式为:2,()0().ybxaeED (4)在线性回归模型(4)中,随机误差 e 的方差护越小,通过回归直线ybxa(5)预报真实值 y 的精度越高随机误差是引起预报值 y与真实值 y 之间的误差的原因之一,大小取决于随机误差的方差.另一方面,由于公式(1)和(2)中 a 和 b为截距和斜率的估计值,它们与真
13、实值 a和 b 之间也存在误差,这种误差是引起预报值 y与真实值 y 之间误差的另一个原因思考:产生随机误差项 e 的原因是什么?一个人的体重值除了受身高的影响外,还受许多其他因素的影响例如饮食习惯、是否喜欢运动、度量误差等事实上,我们无法知道身高和体重之间的确切关系是什么,这里只是利用线性回归方程来近似这种关系这种近似以及上面提到的影响因素都是产生随机误差 e 的原因因为随机误差是随机变量,所以可以通过这个随机变量的数字特征来刻画它的一些总体特征均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机误差的均值为 0,因此可以用方差 2来衡量随机误差的大小
14、为了衡量预报的精度,需要估计护的值一个自然的想法是通过样本方差来估计总体方差如何得到随机变量 e的样本呢?由于模型(3)或(4)中的 e隐含在预报变量 y 中,我们无法精确地把它从 y 中分离出来,因此也就无法得到随机变量 的样本解决问题的途径是通过样本的估计值来估计 2根据截距和斜率的估计公式(1)和(2 ) , 可以建立回归方程ybxa,因此 是(5)中 y的估计量由于随机误差 ey,所以 ey是 的估计量对于样本点( 1,x) , ( 2) , ( ,nx)而言,相应于它们的随机误差为 ,1,iiiieybxa,其估计值为 A,2,iiii n,ie称为相应于点 (,)ixy的残差(re
15、sidual )类比样本方差估计总体方差的思想,可以用AA221(,)2nieQabn作为 2的估计量, 其中 和 由公式(1) (2)给出, Q( a ,b)称为残差平方和(residual sum of squares )可以用 A2衡量回归方程的预报精度通常, A2越小,预报精度越高在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据然后,可以通过残差 A12,ne来判断模型拟合的效果,判断原始数据中是否存在可疑数据这方面的分析工作称为残差分析表 3 一 2 列出了女大学生身高和体重的原始数据以及相应的残差数据。编号 1 2 3 4 5
16、6 7 8身高/cm 165 165 157 170 175 165 155 170体重/kg 48 57 50 54 64 61 43 59残差 e-6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382我们可以利用图形来分析残差特性作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图图 3 . 1 一 3 是以样本编号为横坐标的残差图。从图 3 . 1 一 3 中可以看出,第 1 个样本点和第 6 个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误如果数据采集有错误,就予以纠正,
17、然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高另外,我们还可以用相关指数 2R来刻画回归的效果,其计算公式是: A221()niiiiy显然, 2R取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好在线性回归模型中, 表示解释变量对于预报变量变化的贡献率 2R越接近于 1,表示回归的效果越好(因为 越接近于 1,表示解释变量和预报变量的线性相关性越强) 如果对某组数据可能采取几种不同的回归方程进行回归分析,也可以通过比
18、较几个 ,选择 2大的模型作为这组数据的模型。在例 1 中, 2=0. 64 ,表明 “女大学生的身高解释了 64 的体重变化” ,或者说“女大学生的体重差异有 64 是由身高引起的” 用身高预报体重时,需要注意下列问题: 1回归方程只适用于我们所研究的样本的总体例如,不能用女大学生的身高和体重之间的回归方程,描述女运动员的身高和体重之间的关系同样,不能用生长在南方多雨地区的树木的高与直径之间的回归方程,描述北方干旱地区的树木的高与直径之间的关系。2我们所建立的回归方程一般都有时间性例如,不能用 20 世纪 80 年代的身高体重数据所建立的回归方程,描述现在的身高和体重之间的关系。 3样本取值
19、的范围会影响回归方程的适用范围例如,我们的回归方程是由女大学生身高和体重数据建立的,那么用它来描述一个人幼儿时期的身高和体重之间的关系就不恰当(即在回归方程中,解释变量 x 的样本的取值范围为155cm,170cm ,而用这个方程计算 x-70cm 时的 y 值,显然不合适。) 4不能期望回归方程得到的预报值就是预报变量的精确值事实上,它是预报变量的可能取值的平均值一般地,建立回归模型的基本步骤为: (1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量; (2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等) (3)由经验确定回归方程的类型(如我们观
20、察到数据呈线性关系,则选用线性回归方程 y=bx+a ) (4)按一定规则估计回归方程中的参数(如最小二乘法); (5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等) ,若存在异常,则检查数据是否有误,或模型是否合适等例 2.现收集了一只红铃虫的产卵数 y 和温度 x 之间的 7 组观测数据列于下表:温度 xoC 21 23 25 27 29 32 35产卵数 y/个 7 11 21 24 66 115 325(1)试建立 y 与 x 之间的回归方程;并预测温度为 28oC 时产卵数目。(2)你所建立的模型中温度在多大程度上解释了产卵数的变化?探究:方案
21、1(学生实施):(1)选择变量,画散点图。(2)通过计算器求得线性回归方程: y=19.87x-463.73(3)进行回归分析和预测:R2=r20.864 2=0.7464预测当气温为 28 时,产卵数为 92 个。这个线性回归模型中温度解释了 74.64%产卵数的变化。困惑:随着自变量的增加,因变量也随之增加,气温为 28 时,估计产卵数应该低于 66个,但是从推算的结果来看 92 个比 66 个却多了 26 个,是什么原因造成的呢?方案 2:(1)找到变量 t=x 2,将 y=bx2+a 转化成 y=bt+a;(2)利用计算器计算出 y 和 t 的线性回归方程: y=0.367t-202.
22、54(3)转换回 y 和 x 的模型:(4)y=0.367x2 -202.54(5)计算相关指数 R20.802 这个回归模型中温度解释了 80.2%产卵数的变化。预测:当气温为 28 时,产卵数为 85 个。困惑:比 66 还多 19 个,是否还有更适合的模型呢?方案 3:(1)作变换 z=lgy,将 xcy210转化成 z=c2x+lgc1(线性模型)。(2)利用计算器计算出 z 和 x 的线性回归方程: z=0.118x-1.672(3)转换回 y 和 x 的模型: 672.18.0x(4)计算相关指数 R20.985 这个回归模型中温度解释了 98.5%产卵数的变化。预测:当气温为 2
23、8 时,产卵数为 4 2 个。解:根据收集的数据作散点图(图 3. 1 一 4 ) .在散点图中,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线 21cxye的周围,其中 1c和 2是待定参数现在,问题变为如何估计待定参数 1c和 2我们可以通过对数变换把指数关系变为线性关系令lnzy,则变换后样本点应该分布在直线 11(ln,l)zbxacb的周围这样,就可以利用线性回归模型来建立 y 和 x 之间的非线性回归方程了由表 3 一 3 的数据可以得到变换后的样本数据表 3 一 4 ,图 3.1 一 5 给出了表 3 一 4 中数据的散点图从图 3.1 一 5 中可以看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合x 21 23 25 27 29 32 35z 1.946 3.398 3.045 3.178 4.190 4.745 5.784由表 3 一 4 中的数据得到线性回归方程0.27.89.