1、11回归分析的基本思想及其初步应用,学习导航,学习目标,重点难点重点:了解回归模型与函数模型的区别了解模型拟合效果的分析工具残差分析和R2.难点:解释、分析残差变量,理解R2的含义,1.线性回归模型,(2)线性回归模型ybxae,其中a和b为模型的未知参数,e称为_想一想1.产生随机误差e的原因主要有哪些?提示:所用的确定性函数不恰当引起的误差;忽略了某些因素的影响;存在观测误差,随机误差,做一做1.对于自变量x和因变量y,当x取值一定时,y的取值带有一定的随机性,x,y之间的这种非确定性关系叫做()A函数关系 B线性关系C相关关系 D回归关系解析:选C.由相关关系的概念可知,C正确,残差图:
2、作图时_为残差,_可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图残差点比较_地落在水平的带状区域内,说明选用的模型比较适合,这样的带状区域的宽度_,说明模型拟合精度越高,纵坐标,横坐标,均匀,越窄,(2)利用R2刻画回归效果R21 ,R2表示_变量对于_变量变化的贡献率R2越接近于_,表示回归的效果越好,解释,预报,1,想一想2.在回归分析中,相关指数R2的值越大,则残差平方和越大还是越小?提示:相关指数R2的值越大,说明回归模型拟合的效果越好,残差平方和越小,反之,相关指数R2的值越小,残差平方和越大,做一做2.两个变量y与x的回归模型中,分别选择了4个不同模型,它们
3、的相关指数R2如下,其中拟合效果最好的模型是()A模型1的相关指数R2为0.98B模型2的相关指数R2为0.80C模型3的相关指数R2为0.50D模型4的相关指数R2为0.25解析:选A.据相关指数的定义可知,相关指数R2的值越大,残差平方和越小,即模型的拟合效果越好,题型一线性回归分析某班5名学生的数学和物理成绩如下表:,(1)画出散点图;(2)求物理成绩y关于数学成绩x的回归直线方程;(3)一名学生的数学成绩是96,试预测他的物理成绩,【解】(1)散点图如图:,【名师点评】求回归直线方程的步骤:(1)列表表示xi,yi,xiyi;,互动探究1. 在本例中,求数学成绩y关于物理成绩x的回归直
4、线方程,并预测当一名学生的物理成绩是82时,其数学成绩为多少?,题型二残差分析(本题满分9分)为了估计山上积雪融化后对下游灌溉的影响,在山上建立了一个观测站,测量了最大积雪深度x与当年灌溉面积y,得到连续10年的数据如下表所示:,(1)试建立y与x之间的线性回归模型,并计算残差;(2)你认为这个模型能较好地刻画积雪深度与灌溉面积之间的关系吗?请说明理由【思路点拨】欲求线性回归方程,需先对这两个变量x与y进行相关性检验回归模型拟合效果的好坏可以通过计算R2来判断,其值越大,说明模型的拟合效果越好,【解】(1)列表如下:,说明积雪深度能够解释约97.9%的当年灌溉面积的变化,因此建立的模型能较好地
5、刻画积雪深度与灌溉面积之间的关系.,名师微博计算r一定要认真.【名师点评】(1)残差平方和越小,预报精确度越高(2)相关指数R2取值越大,说明模型的拟合效果越好名师微博切记,该类题目最后要将数学问题还原为实际应用问题.,变式训练2.关于x与y有如下数据:,题型三非线性回归分析在一化学反应过程中,某化学物质的反应速度y(g/分)与一种催化剂的量x(g)有关,现收集了8组数据列于表中,试建立y与x之间的回归方程,【解】根据收集的数据作散点图如图:根据样本点分布情况,可选用两种曲线模型来拟合(1)可认为样本点集中在某二次曲线yc1x2c2的附近令tx2,则变换后样本点应该分布在直线ybta(bc1,
6、ac2)的附近由题意得变换后t与y的样本数据表,作y与t的散点图由y与t的散点图可观察到样本数据点并不分布在一条直线的周围,因此不宜用线性回归方程ybta来拟合,即不宜用二次曲线yc1x2c2来拟合y与x之间的关系,(2)根据x与y的散点图也可认为样本点集中在某一条指数型函数曲线yc1ec2x的附近令zlny,则zc2xlnc1,即变换后样本点应该分布在直线zbxa(alnc1,bc2)的周围,由y与x的数据表可得z与x的数据表,作出z与x的散点图由散点图可观察到样本点大致在一条直线附近,所以可用线性回归方程来拟合它由z与x数据表,计算可得到线性回归方程,【名师点评】非线性回归问题有时并不给出
7、经验公式,这时我们可以画出已知数据的散点图,把它与必修模块数学1中学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后像本例这样,采用适当的变量置换,把问题转化为线性回归分析问题,使之得到解决,变式训练3.某城市理论预测2010到2015年人口总数与年份的关系如下表所示画出散点图,试建立y与x之间的回归方程,解:散点图如图.由图知,样本点分布在某一条指数函数曲线yc1ec2x的周围,令zlny,则zbxa(alnc1,bc2),得到变换后的数据如下表:,作散点图如图,即知变换后的样本点分布在一条直线附近,故可以用线性回归方程来拟合,A1 B2C3
8、D4,解析:选B.B项不正确,如一组数据间隔地分布在一条固定直线两侧,到固定直线的距离相等,且距离很小,几乎可以忽略,这时,线性回归方程就是这条固定直线,但不过任何样本点3.为了研究某种细菌繁殖个数y随时间x的变化,收集数据如下:,(1)用天数作解释变量,繁殖个数作预报变量,作出上述数据的散点图;(2)试求出预报变量对解释变量的回归方程,解:(1)根据数据得散点图,如图所示,(2)根据数据的散点图可以发现样本点不是分布在某一条直线附近,而是分布在一条曲线附近根据已学的函数知识,可以发现样本点分布在某一指数型函数yc1ec2x(c10,c20)附近,则将函数两边取对数得lnyc2xlnc1,则令
9、ulny,得uc2xlnc1,根据数据可得x和u的数据表:,方法技巧1.对具有相关关系的两个变量进行统计分析时,首先进行相关关系的判断(可作散点图),在确认具有线性相关关系后,再求回归直线方程对于非线性回归问题,可以转化为线性回归问题去解决,2.两个变量不具有线性相关关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y ,可通过对数变换把指数关系转化为线性关系:令zlny,则变换后样本点应分布在直线zbxa(alnc1,bc2)周围,失误防范1.散点图可以直观地反映出变量之间有无相关关系以及是正相关还是负相关,但不能精确地说明变量之间的相关程度,本部分内容讲解结束,按ESC键退出全屏播放,