1、1.1 回归分析的基本思想及其初步应用1了解回归分析的思想和方法(重点)2掌握相关系数的计算和判断线性相关的方法(重点)3了解常见的非线性回归模型转化为线性回归模型的方法(难点)基础初探教材整理 1 线性回归模型阅读教材 P2 P4“探究” 以上内容,完成下列问题1在线性回归方程 x 中 , .其中 y a b b ni 1xi xyi yni 1xi x2 a y b x x 1ni, i,( , )称为样本点的中心,回归直线过样本点的中心ni 1x y 1nni 1y x y2线性回归模型 ybx ae,其中 a 和 b 为模型的未知参数,e 称为随机误差3随机误差产生的原因主要有以下几种
2、:(1)所用的确定性函数不恰当引起的误差;(2)忽略了某些因素的影响;(3)存在观测误差设某大学的女生体重 y(单位: kg)与身高 x(单位:cm) 具有线性相关关系根据一组样本数据(x i,y i)(i1,2,n),用最小二乘法建立的回归方程为 0.85x85.71,则下列结论中正确的是_(填序号)y (1)y 与 x 具有正的线性相关关系;(2)回归直线过样本点的中心( , );x y(3)若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kg;(4)若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg.【解析】 回归方程中 x 的系数为 0.850,因此
3、y 与 x 具有正的线性相关关系,(1)正确;由回归方程系数的意义可知回归直线过样本点的中心( , ),(2) 正确;x y依据回归方程中 的含义可知,x 每变化 1 个单位, 相应变化约 0.85 个单b y 位,(3) 正确;用回归方程对总体进行估计不能得到肯定结论,故(4)不正确【答案】 (1)(2)(3)教材整理 2 刻画回归效果的方式阅读教材 P4“探究”以下至 P6“例 2”以上内容,完成下列问题残差 对于样本点(x i,y i)(i1,2,n)的随机误差的估计值 iy ie i,称为相应于点 (xi,y i)的残差y 残差图利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选
4、为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图续表残差图法残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型的拟合精度越高残差平方和 残差平方和为 ,残差平方和越小,模型的拟合效果越ni 1yi y i2好相关指数 R2R21 ,R 2 表示解释变量对于预报变量变化的贡献ni 1yi y i2ni 1yi y2率,R 2 越接近于 1,表示回归的效果越好甲、乙、丙、丁 4 位同学各自对 A、B 两变量做回归分析,分别得到散点图与残差平方和 (yi i)2 如表所示:ni 1 y 甲 乙 丙 丁散点图残差平方和 115 106 12
5、4 103_(填 “甲” “乙” “丙” “丁”)同学的试验结果体现拟合 A、B 两变量关系的模型拟合精度高【解析】 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R 2 表达式中 (yi )2 为确ni 1 y定的数,则残差平方和越小,R 2 越大),由回归分析建立的线性回归模型的拟合效果就越好,由试验结果知丁要好些【答案】 丁小组合作型回归分析的有关概念(1)有下列说法:线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;通过回归方程 x ,可以估计和
6、观测变量的取值和变化趋势;y b a 因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验其中正确命题的个数是( )A1 B2 C3 D4(2)如果某地的财政收入 x 与支出 y 满足线性回归方程 x e(单位:y b a 亿元) ,其中 0.8, 2,| e|0.5,如果今年该地区财政收入 10 亿元,则今b a 年支出预计不会超过_亿. 【导学号:81092000】【自主解答】 (1)反映的是最小二乘法思想,故正确反映的是画散点图的作用,也正确解释的是回归方程 x 的作用,故也正确是y b a 不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系(2)由题
7、意可得: 0.8x 2e ,当 x10 时, 0.8102e 10e,y y 又|e| 0.5, 9.5 10.5.y 故今年支出预计不会超过 10.5 亿【答案】 (1)C (2)10.51在分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关系,然后利用最小二乘法求出回归直线方程2由线性回归方程给出的是一个预报值而非精确值3随机误差的主要来源(1)线性回归模型与真实情况引起的误差;(2)忽略了一些因素的影响产生的误差;(3)观测与计算产生的误差4残差分析是回归分析的一种方法再练一题1下列有关线性回归的说法,不正确的是_(填序号)自变量取值一定时,因变量的取值带有一定
8、随机性的两个变量之间的关系叫做相关关系;在平面直角坐标系中用描点的方法得到表示具有相关关系的两个量的一组数据的图形叫做散点图;线性回归方程最能代表观测值 x,y 之间的关系;任何一组观测值都能得到具有代表意义的回归直线方程【解析】 只有具有线性相关的两个观测值才能得到具有代表意义的回归直线方程【答案】 线性回归分析为研究重量 x(单位:克)对弹簧长度 y(单位:厘米)的影响,对不同重量的 6 个物体进行测量,数据如下表所示:x 5 10 15 20 25 30y 7.25 8.12 8.95 9.90 10.9 11.8(1)作出散点图并求线性回归方程;(2)求出 R2;(3)进行残差分析【精
9、彩点拨】 作 散 点 图得 到 x,y有 较好 线 性 关 系 代 入 公 式 求 得 线 性 回 归 方 程求 出 R2进 行 分 析【自主解答】 (1)散点图如图 (510152025 30) 17.5,x16 (7.258.128.959.90 10.911.8) 9.487,y162 275 , iyi1 076.2,6i 1x2i6i 1x计算得, 0.183, 6.285,b a 所求回归直线方程为 0.183x6.285.y (2)列表如下:yi iy 0.05 0.005 0.08 0.045 0.04 0.025yi y 2.24 1.37 0.54 0.41 1.41 2.
10、31所以 (yi i)20.013 18, (yi )214.678 4.6i 1 y 6i 1 y所以,R 21 0.999 1,0.013 1814.678 4回归模型的拟合效果较好(3)由残差表中的数值可以看出第 3 个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过 0.15 的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系“相关指数 R2、残差图”在回归分析中的作用1相关指数 R2 是用来刻画回归效果的,由 R21 可知,R 2n
11、i 1yi y i2ni 1yi y2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好2残差图也是用来刻画回归效果的,判断依据是残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报的精度也越高再练一题2已知某种商品的价格 x(元) 与需求量 y(件)之间的关系有如下一组数据:x 14 16 18 20 22y 12 10 7 5 3求 y 对 x 的回归直线方程,并说明回归模型拟合效果的好坏. 【导学号:81092001】【解】 (141618 2022) 18,x15 (1210753)7.4,y1514 2 16218 220 222 21 660
12、,5i 1x2iiyi14121610 187205223620,5i 1x所以 1.15.b 5i 1xiyi 5xy5i 1x2i 5x2 620 5187.41 660 51827.41.151828.1,a 所以所求回归直线方程是 1.15x28.1.y 列出残差表:yi iy 0 0.3 0.4 0.1 0.2yi y 4.6 2.6 0.4 2.4 4.4所以, (yi i)20.3, (yi )253.2,5i 1 y 5i 1 yR21 0.994,5i 1yi y i25i 1yi y2所以回归模型的拟合效果很好探究共研型非线性回归分析探究 1 在研究两个变量的相关关系时,观
13、察散点图样本点集中于某一条指数曲线 y cax(a0 且 a1,c 0,a,c 为常数 )的周围,如何进行适当变换化为线性关系?【提示】 对 yca x 两边取自然对数 ln yln( cax),即 ln yln cx ln a,令Error!原方程变为 yln cxln a,然后按线性回归模型求出 ln a,ln c 即可探究 2 已知 x 和 y 之间的一组数据,则下列四个函数中,模拟效果最好的为哪一个?x 1 2 3y 3 5.99 12.01y32 x1; y log 2x;y4x; yx 2.【提示】 观察散点图中样本点的分布规律可判断样本点分布在曲线y32 x1 附近所以模拟效果最
14、好的为.某地区不同身高的未成年男性的体重平均值如下表:身高 x(cm) 60 70 80 90 100 110体重 y(kg) 6.13 7.90 9.99 12.15 15.02 17.50身高 x(cm) 120 130 140 150 160 170体重 y(kg) 20.92 26.86 31.11 38.85 47.25 55.05(1)试建立 y 与 x 之间的回归方程;(2)如果一名在校男生身高为 168 cm,预测他的体重约为多少?【精彩点拨】 先由散点图确定相应的拟合模型,再通过对数变换将非线性相关转化为线性相关的两个变量来求解【自主解答】 (1)根据表中的数据画出散点图,如
15、下:由图看出,这些点分布在某条指数型函数曲线 yc 1ec2x 的周围,于是令zln y ,列表如下:x 60 70 80 90 100 110z 1.81 2.07 2.30 2.50 2.71 2.86x 120 130 140 150 160 170z 3.04 3.29 3.44 3.66 3.86 4.01作出散点图,如下:由表中数据可求得 z 与 x 之间的回归直线方程为 0.6930.020x,则有z e 0.6930.020x .y (2)由(1)知,当 x168 时, e 0.6930.020168 57.57,所以在校男生身高为y 168 cm,预测他的体重约为 57.57 kg.两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如 yc 1ec2x,我们可以通过对数变换把指数关系变为线性关系,令 zln y,则变换后样本点应该分布在直线zbx aa ln c1,bc 2的周围.再练一题 3在一次抽样调查中测得样本的 5 个样本点,数据如下表:x 0.25 0.5 1 2 4y 16 12 5 2 1试建立 y 与 x 之间的回归方程【解】 作出变量 y 与 x 之间的散点图如图所示由图可知变量 y 与 x 近似地呈反比例函数关系