1、1回归分析回归分析是对具有_的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的_,求_,并用回归方程进行预报2线性回归模型(1)在线性回归方程 中,yabx, _1122()nniiiii iixybxa其中 _, _, 称为样本的中心xy(,)xy(2)线性回归模型 ,其中 称为_,自变量 称为bxae x_变量,因变量 称为_变量温馨提示: 是回归直线的斜率的估计值,表示 每增加一个单位, 的平均增加单位 xy数3刻画回归效果的方式方式方法 计算公式 刻画效果2R_2越_,表示回归的2R效果越好残差图 称为相应于点 的残差,ie(,)ixyi残差点_地落在水平的带状区
2、域中,说明选用的模型比较合适,其中这样的带状区域的宽度_,说明模型拟合精确度越高残差平方和 21()niiy残差平方和越_,模型的拟合效果越好K 知识参考答案:1相关关系 散点图 回归方程2 ( 1) (2)随机误差 解释 预报ybx1ni1niy3 接近于 1 比较均匀 越窄 小21()niiiiyK重点了解随机误差、残差、残差分析的概念,会用残差分析判断线性回归模型的拟合效果,掌握建立回归模型的步骤K难点 通过对典型案例的探究,了解回归分析的基本思想方法和初步应用K易错 不能准确理解概念和参数的含义概念辨析有下列说法:线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;利
3、用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;通过回归方程 可以估计观测变量的取值和变化趋势;ybxa因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验其中正确命题的个数是A1 B2C3 D4【答案】C【名师点睛】由题目可获取以下信息:线性回归分析;散点图;相关性检验等的相关概念及意义解答本题可先逐一核对相关概念及其性质,然后再逐一作出判断,最后得出结论线性回归模型一台机器由于使用时间较长,生产的零件有一些会缺损,按不同转速生产出来的零件有缺损的统计数据如下表:转速 x(转/秒) 16 14 12 8每小时生产缺损零件数 y(件)11 9 8 5(1
4、)作出散点图;(2)如果 与 线性相关,求出回归直线方程;yx(3)若实际生产中,允许每小时生产的产品中有缺损的零件最多为 10 个,那么,机器的转速应控制在什么范围内?(结果保留整数)附:线性回归方程 中, ,其中 为样本平ybxa12,niixyaybx,y均值【答案】 (1)见解析;(2) ;(3)机器的运转速度应控制在 转/秒0.7.8515内【解析】 (1)根据表中的数据画出散点图如下图:(2 )由题中数据列表如下:i 1 2 3 4xi 16 14 12 8yi 11 9 8 5xiyi 176 126 96 40,4421112.5,8.,60,3iixy ,23.5 .7,8.
5、25071.0.875604ba.7.8yx(3 )令 ,解得 ,514.915x故机器的运转速度应控制在 转/秒内【名师点睛】 (1)求回归直线方程的一般步骤如下: 作出散点图,依据问题所给的数据在平面直角坐标系中描点,观察点的分布是否呈条状分布,即是否在一条直线附近,从而判断两变量是否具有线性相关关系;当两变量具有线性相关关系时,求回归系数 ,ab、写出回归直线方程 (2 )回归直线方程 中的 表示 x 每增加 1 个单位时, 的变化量的估计值yabxy为 b(3 )可以利用回归直线方程 预报在 取某个值时 的估计值yxy(4 )由于回归直线方程中的系数 和 是通过样本估计而来的,存在着误
6、差,这种误差可ab能导致预报结果有偏差线性回归分析为研究重量 (单位:克)对弹簧长度 (单位:厘米)的影响,对不同重量xy的 6 个物体进行测量,数据如下表所示:x 5 10 15 20 25 30y 7.25 8.12 8.95 9.90 10.9 11.8(1)作出散点图,并求回归方程:(2)求相关指数 R2,并判断模型的拟合效果;(3)进行残差分析【答案】 (1)散点图见解析,回归方程为 ;(2 )回归模型的拟合效果6.850.13yx较好;(3)见解析【解析】 (1)散点图如下图所示:从散点图,可以看出这些点大致分布在一条直线的附近,因此,可用公式求得线性回归方程的系数因为 ,1502
7、5(301)7.6x,7.28.9.98.4y , 615ix6107.2ixy计算,得 0.83,.5ba所以所求回归方程为 620.183yx(2 )列表如下: iy0.05 0.005 .0.450.04 0.025iy2.41.370.54.11.41 2.31,所以 ,6 621 1()0.8,().68i ii iy20.38.91467R【名师点睛】 (1)线性回归分析的过程: 随机抽取样本,确定数据,形成样本点; 由样本点形成散点图,判定是否具有线性相关关系;由最小二乘法求线性回归方程;进行残差分析,分析模型的拟合效果,不合适时,分析错因,予以纠正;依据回归方程作出预报(2 )
8、 用散点图可粗略判断两个变量间有无线性相关关系,用相关指数 R2 可以描述两个变量之间的密切程度非线性回归分析在一次抽样调查中测得样本的 5 个样本点,数值如表:x 0.25 0.5 1 2 4y 16 12 5 2 1试建立 y 与 x 之间的回归方程【答案】见解析【解析】作出变量 y 与 x 之间的散点图如图所示:由图可知变量 y 与 x 近似地呈反比例函数关系设 ,令 ,则 由 y 与 x 的数据表可得 y 与 t 的数据表:kyx1tktt 4 2 1 0.5 0.25y 16 12 5 2 1作出 y 与 t 的散点图如图所示:由图可知 y 与 t 呈近似的线性相关关系又 ,5521
9、11.,7.2,94.,.3i ittyt,51 22.5.7 .43iityb,7.41.0.8ayt 308所以 y 与 x 的回归方程是 .340.8yx【名师点睛】求非线性回归方程的步骤如下:确定变量,作出散点图;根据散点图,选择恰当的拟合函数;变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程;分析拟合效果,通过计算相关指数或画残差图来判断拟合效果;根据相应的变换,写出非线性回归方程不能准确理解概念和参数的含义关于 与 有如下数据:xyx 2 4 5 6 8y 30 40 60 50 70为了对 两个变量进行统计分析,现有以下两种线性模型:甲模型 ,、 .5
10、=.+17yx乙模型 ,试比较哪一个模型拟合的效果更好1=7+yx【错解】 ,5221()150.84iiiiyR甲,5221()180=.2iiiiy乙 ,乙模型拟合的效果更好 2R甲 乙1已知回归方程 ,而试验得到一组数据是( 2,4.9 ) , (3 ,7.1 ) , (4 ,9.1) ,则21yx残差平方和是A0.01 B0.02C 0.03 D0.042在回归分析中,相关指数 R2 的值越大,说明残差平方和A越大 B越小C可能大也可能小 D以上均不正确3对变量 x、y 有观测数据(x i,y i)(i1,2,10) ,得散点图 ;对变量 u、v 有观测数据( ui,v i)(i1,2
11、,10),得散点图由这两个散点图可以判断A变量 x 与 y 正相关,u 与 v 正相关 B变量 x 与 y 正相关,u 与 v负相关C变量 x 与 y 负相关,u 与 v 正相关 D变量 x 与 y 负相关,u 与 v负相关4两个变量 x 与 y 的散点图如图,可用如下函数进行拟合,比较合理的是A Bbyax lnyabxC De e5已知 x 和 y 之间的一组数据如下表:x 0 1 2 3y 1 3 5 7则 y 与 x 的线性回归方程 必过点baA(2,2) B( ,0)32C(1,2) D( ,4)326在对两个变量 x,y 进行回归分析时有以下操作:求回归方程;收集数据(x i,y
12、i) , ,n;对所求出的回归方程作出解释;根据所收集的数据绘制散点1i2图则下列操作顺序正确的是A BC D7对两个变量 y 和 x 进行回归分析,得到一组样本数据: ,12,)(,)nxyxy, ,则下列说法中不正确的是A由样本数据得到的回归方程 必过样本点的中心ybxa(,)B残差平方和越小的模型,拟合的效果越好C用相关指数 来刻画回归效果, 的值越小,说明模型的拟合效果越好2R2RD若变量 y 和 x 之间的相关系数 ,则变量 y 与 x 之间具有线性相关关系0.936r8某学校开展研究性学习活动,某同学获得一组实验数据如下表:x 1.99 3 4 5.1 6.12y 1.5 4.04
13、 7.5 12 18.01对于表中数据,现给出下列拟合曲线,其中拟合程度最好的是Ay2x2 B1()2xyC D1() 2logx9已知方程 是根据女大学生的身高预报她的体重的回归方程,其中 x0.852.71yx的单位是 cm, 的单位是 kg,那么针对某个体(160,53)的残差是_10已知 x,y 的取值如下表:x 0 1 3 4y 2.2 4.3 4.8 6.7若 x,y 具有线性相关关系,且回归方程为 ,则 _0.95yxa11某市居民 20112015 年家庭年平均收入 x(单位:万元 )与年平均支出 y(单位:万元)的统计资料如下表:年份 2011 2012 2013 2014
14、2015收入 x 11.5 12.1 13 13.5 15支出 y 6.8 8.8 9.8 10 12根据统计资料,居民家庭年平均收入的中位数是_,家庭年平均收入与年平均支出有_线性相关关系12四名同学根据各自的样本数据研究变量 x,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:y 与 x 负相关且 2.3x 6.4; y 与 x 负相关且 3.4x5;y yy 与 x 正相关且 5.3x 8.4; y 与 x 正相关且 4.36x4.5其中一定不正确的结论的序号是_13随着我国经济的发展,居民的储蓄存款逐年增长,某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2014
15、2015 2016 2017 2018时间代号 t 1 2 3 4 5储蓄存款 y(千亿元 ) 5 6 7 8 10(1)求 y 关于 t 的回归方程 ;ybta(2)用所求回归方程预测该地区 2019 年(t6)的人民币储蓄存款附:回归方程 中, ybta12,niiyaybtt14某班 5 名学生的数学和物理成绩如下表:学生学科 A B C D E数学成绩(x) 88 76 73 66 63物理成绩(y) 78 65 71 64 61(1)画出散点图;(2)求物理成绩 y 对数学成绩 x 的回归方程;(3)一名学生的数学成绩是 96 分,试预测他的物理成绩15为了解某社区居民的家庭年收入与
16、年支出的关系,随机调查了该社区 5 户家庭,得到如下统计表:收入 x(万元) 8.2 8.6 10.0 11.3 11.9支出 y(万元) 6.2 7.5 8.0 8.5 9.8根据上表可得回归直线方程 ,其中 据此估计该社区ybxa0.76,aybx一户年收入为 15 万元家庭的年支出为A11.4 万元 B11.8 万元C12.0 万元 D12.2 万元16具有线性相关关系的变量 x,y 有一组观测数据(x i, yi) (i=1,2 ,8) ,其回归直线方程是 且 , ,则实数13ya1286 1283 aA B6C D14 1217已知具有线性相关关系的两个变量 x、 y 之间的一组数据
17、如下表:x 0 1 2 3 4y 2.2 4.3 4.5 4.8 6.7且回归方程 ,则当 x=6 时,y 的预测值为3.6bA8.46 B6.8C 6.3 D5.7618关于 x 与 y 有如下数据:x 2 4 5 6 8y 30 40 60 50 70为了对 x,y 两个变量进行统计分析,现有以下两种线性模型:甲: 6.5x17.5,y乙: 7x17,则_(填“甲”或“乙” )模型拟合的效果更好19某商场为了了解毛衣的月销售量 (件)与月平均气温 ()之间的关系,随机统yx计了某 4 个月的月销售量与当月平均气温,其数据如下表:月平均气温 ()x17 13 8 2月销售量 (件)y24 3
18、3 40 55由表中数据算出线性回归方程 中的 ,气象部门预测下个月的平均气bxa2温约为 ,据此估计该商场下个月毛衣销售量约为_件620某学生课外活动兴趣小组对两个相关变量收集到 5 组数据如下表:x 10 20 30 40 50y 62 75 81 89由最小二乘法求得回归方程为 ,现发现表中有一个数据模糊不清,0.6754.9yx请推断该点数据的值为_21以下是某地收集到的新房屋的销售价格 y 和房屋的面积 x 的数据:房屋面积(m 2) 115 110 80 135 105销售价格(万元) 24.8 21.6 18.4 29.2 22(1)画出数据对应的散点图;(2)求线性回归方程,并
19、在散点图中加上回归直线;(3)根据(2)的结果估计当房屋面积为 150m2 时的销售价格22某电脑公司有 6 名产品推销员,其工作年限与年推销金额的数据如下表:推销员编号 1 2 3 4 5工作年限 x/年 3 5 6 7 9推销金额 y/万元 2 3 3 4 5(1)以工作年限为自变量,推销金额为因变量 y,作出散点图;(2)求年推销金额 y 关于工作年限 x 的线性回归方程;(3)若第 6 名推销员的工作年限为 11 年,试估计他的年推销金额23某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了 12 月 1 日至 12 月 5 日的每天昼夜温差与
20、实验室每天每 100 棵种子中的发芽数,得到如下资料:日期 12 月 1 日 12 月 2 日 12 月 3 日 12 月 4 日 12 月 5 日温差 x() 10 11 13 12 8发芽 y(颗) 23 25 30 26 16该农科所确定的研究方案是:先从这 5 组数据中选取 3 组数据求线性回归方程,剩下的 2 组数据用于回归方程检验(1)若选取的是 12 月 1 日与 12 月 5 日的 2 组数据,请根据 12 月 2 日至 12 月 4 日的数据,求出 y 关于 x 的线性回归方程 ;ybxa(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过 2 颗,则认为得到
21、的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?(3)请预测温差为 14的发芽数24 ( 2016 新课标全国 III)下图是我国 2008 年至 2014 年生活垃圾无害化处理量(单位:亿吨)的折线图(1 )由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明;(2 )建立 y 关于 t 的回归方程(系数精确到 0.01) ,预测 2016 年我国生活垃圾无害化处理量参考数据: , , , 2.646,719.32iy7140.ity721()0.5iiy7参考公式:相关系数1221()niiniiitry,回归方程 中斜率和截距的最小二乘估计公式分别
22、为:yabt12()niiitb, =aybt25 (2017 新课标全国 I 文节选)为了监控某种零件的一条生产线的生产过程,检验员每隔 30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)下面是检验员在一天内依次抽取的 16 个零件的尺寸:抽取次序 1 2 3 4 5 6 7 8零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04抽取次序 9 10 11 12 13 14 15 16零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95经计算得 , ,169.7ix161622()()0
23、.21i iisxx, ,其中 为抽取的第 个零件162(8.5)i1.4316()8.5.7ii ii的尺寸, 求 的相关系数 ,并回答是否可以认为,ix,216)r这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若 ,则可|0.25以认为零件的尺寸不随生产过程的进行而系统地变大或变小)附:样本 的相关系数 ,(,)ixy1,2)n1221()()niiiniiiixyr0.8.926 ( 2018 新课标全国)下图是某地区 2000 年至 2016 年环境基础设施投资额 (单位:亿元)的折线图为了预测该地区 2018 年的环境基础设施投资额,建立了 与时间变量的两个线性回归模型根
24、据 2000 年至 2016 年的数据(时间变量的值依次为 )建立模型:1, 2, , 17;根据 2010 年至 2016 年的数据(时间变量的值依次为 )建=30.4+13.5 1, 2, , 7立模型: =99+17.5(1 )分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值;(2 )你认为用哪个模型得到的预测值更可靠?并说明理由1 【 答案】C【解析】因为残差 ,所以残差的平方和为iiey故选 C222()()4.957.19.0(.3)2 【答案】B【解析】因为 ,所以当 越大时, 越小,即残差221()niiiiyR2R21()niiy平方和越小,故选 B6
25、【答案】D【解析】根据回归分析的思想,可知对两个变量 x,y 进行回归分析时,应先收集数据(x i,y i) ,然后绘制散点图,再求回归方程,最后对所求的回归方程作出解释,正确操作的顺序为,故选 D7 【答案】C【解析】R 2 的值越大,说明残差平方和越小,也就是说模型的拟合效果越好,故选 C 8 【答案】C【解析】可以代入检验,当 x 取相应的值时,所求 y 与已知 y 相差平方和最小的便是拟合程度最高的故选 C9 【答案】 0.29【解析】把 代入 ,可得 ,16x0.852.71yx0.85162.753.9y所以残差 53.290.ey10 【答案】2.6【解析】由已知得 , ,而回归
26、方程过点 ,则 4.50.952 ,解x4.y(,)xya得 a2.611 【答案】13 正【解析】把 20112015 年家庭年平均收入按从小到大顺序排列为11.5,12.1,13,13.5,15,因此中位数为 13,由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正的线性相关关系12 【答案】13 【答案】 (1) ;(2) 千亿元.63yt10.8【解析】 (1)整理所给数据:序号 t y t2 ty1 1 5 1 52 2 6 4 123 3 7 9 214 4 8 16 325 5 10 25 501i15 36 55 120由上表可得 , , , 3t67
27、.25y521it5120ity所以 ,故 ,120.9b7.3.6aybt故所求回归直线方程为 1.263yt(2)当 t6 时, 1.26 3.610.8(千亿元)所以预测该地区 2019 年的人民币储蓄存款为 10.8 千亿元14 【答案】 (1)散点图见解析;(2) ;(3)预测他的物理成绩是0.625.yx82 分【解析】 (1)散点图如下图所示:15 【答案】B【解析】 , ,8.2610.39105x6.2758.09.8y线性回归方程为 , .7.4,ayb4x所以当 x 15 时, 故选 B061.8y16 【 答案 】B【解析】因为 , ,所以 ,1286xx 1283yy
28、6384x,所以这组数据的样本中心点是( , ) ,把样本中心点代入回归直线方程38y34得, ,解得 ,故选 Bxa34a817 【 答案 】C【解析】因为 , ,所以012345x2.43.586.745y将点 代入回归方程 ,可得 ,解得 ,所以(,)y.6ybx.b0.b,当 时, ,故选 C0.453.6x318 【答案】甲【解析】设甲模型的相关指数为 ,则 1 1 0.845;21R2521()iiiiy50设乙模型的相关指数为 ,则 1 0.822280因为 0.8450.82,即 ,所以甲模型拟合效果更好1R219 【 答案 】7020 【答案】 68【解析】由题意可得 ,设要
29、求的数据为 ,1(023405)35xt则有 ,17(62789)5tyt因为回归直线 过样本点的中心 ,0.54.x(,)xy所以 ,解得 37.63.95t68t21 【答案】 (1)见解析;(2) ;(3)31.2442 万元0.12.4yx【解析】 (1)散点图如图所示:(2) ,5109ix, , 521()7ii23.y51()308iiixy设所求回归直线方程为 ,则 , ,ba.1962571.842aybx故所求回归直线方程为 0.1962.84yx(3)当 x150m 2 时,销售价格的估计值为 0.19621501.814231.2442(万元)y22 【答案】 (1)见
30、解析;(2) ;(3)5.9 万元.5.yx【解析】 (1)画出散点图如图所示:23 【答案】 (1) ;(2)研究所得到的线性回归方程是可靠的;(3)32 颗5yx【解析】 (1)由数据求得, , 1,27y332114,97iixxy由公式求得, , ,52b3abx所以 y 关于 x 的线性回归方程为 52y(2)当 时, ;10103,|3|2当 时, , 8x5872y|6|所以该研究所得到的线性回归方程是可靠的(3)当 时,有 ,14x514322y所以当温差为 14时的发芽数约为 32 颗24 【 答案 】 (1)见解析;(2 )预测 2016 年我国生活垃圾无害化处理量约 1.
31、82 亿吨25 【答案 】 ,可以认为这一天生产的零件尺寸不随生产过程的进行而系统地18.0r变大或变小【解析】由样本数据得 的相关系数为(,)1,26)ix1616221(8.5)(.)iiii irx.780.180.439由于 ,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变|0.5r大或变小26 【 答案 】 (1)利用模型预测值为 226.1,利用模型预测值为 256.5;(2)利用模型得到的预测值更可靠,理由见解析【分析】 (1)两个回归直线方程中无参数,所以分别求自变量为 2018 时所对应的函数值,就得结果, (2)根据折线图知 2000 到 2009,与 2010 到 2016 是两个有明显区别的直线,且 2010 到 2016 的增幅明显高于 2000 到 2009,也高于模型 1 的增幅,因此所以用模型 2 更能较好得到 2018 的预测【解析】 (1)利用模型,该地区 2018 年的环境基础设施投资额的预测值为 =30.4+13.519=226.1(亿元) 利用模型, 【名师点睛】若已知回归直线方程,则可以直接将数值代入求得特定要求下的预测值;若回归直线方程有待定参数,则根据回归直线方程恒过点 求参数(,)The End 下 节 见