1、第三章统计案例3.1回归分析的基本思想及其初步应用,1.线性回归模型(1)回归方程的相关计算对于两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn).设其回归直线方程为 ,其中 , 是待定参数,由最小二乘法得 =_=_,其中 分别是a,b的估计值.,(2)线性回归模型线性回归模型 其中a,b为未知参数,通常e为_,称为_.x称为_变量,y称为_变量.,随机变量,随机误差,解释,预报,2.线性回归分析(1)残差对于样本点(xi,yi)(i=1,2,n)的随机误差的估计值 =_称为相应于点(xi,yi)的残差, _称为残差平方和.(2)残差图利用图形来分析残差特性,作
2、图时纵坐标为_,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.,残差,(3)R2= ,R2越接近于1,表示回归效果越好. _,1.判一判(正确的打“”,错误的打“”)(1)残差平方和越小,线性回归方程的拟合效果越好.()(2)在画两个变量的散点图时,预报变量在x轴上,解释变量在y轴上.()(3)R2越接近于1,线性回归方程的拟合效果越好.(),【解析】(1)正确.残差平方和越小,说明样本数据与线性回归方程的偏离程度越小,即该方程的拟合效果越好.(2)错误.由于预报变量的值可类比为函数的函数值,解释变量的值可类比为函数的自变量的值,故预报变量在y轴上,解释变量在
3、x轴上.(3)正确.由R2的计算公式可知这句话正确.答案:(1)(2)(3),2.做一做(请把正确的答案写在横线上)(1)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为.(2)在残差分析中,残差图的纵坐标为.(3)如果发现散点图中所有的样本点都在一条直线上,则残差平方和等于,解释变量和预报变量之间的相关系数等于.,【解析】(1)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关.答案:正相关(2)由残差图的定义知道,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.答案:残差,(3)设样
4、本点为(xi,yi),i=1,2,3,n,回归直线为 ;若散点图中所有的样本点都在一条直线上,则此直线方程就是回归直线方程所以有yi= ;残差平方和 ;解释变量和预报变量之间的相关系数R满足 所以R=1.答案:0 1或-1,【要点探究】知识点 线性回归分析1.对线性回归模型的三点说明(1)非确定性关系:线性回归模型y=bx+a+e与确定性函数y=a+bx相比,它表示y与x之间是统计相关关系(非确定性关系),其中的随机误差e提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a,b的工具.,(2)线性回归方程 中 , 的意义是:以 为基数,x每增加1个单位,y相应地平均增加 个单位.(3)线
5、性回归模型中随机误差的主要来源线性回归模型与真实情况引起的误差;省略了一些因素的影响产生的误差;观测与计算产生的误差.,2.线性回归模型的模拟效果(1)残差图法:观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.,(2)残差的平方和法:一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.(3)R2法:R2的值越大,说明残差平方和越
6、小,也就是说模型拟合的效果越好.,3.相关系数与R2(1)R2是相关系数的平方,其变化范围为0,1,而相关系数的变化范围为-1,1.(2)相关系数可较好地反映变量的相关性及正相关或负相关,而R2反映了回归模型拟合数据的效果.(3)当|r|接近于1时说明两变量的相关性较强,当|r|接近于0时说明两变量的相关性较弱,而当R2接近于1时,说明线性回归方程的拟合效果较好.,【微思考】(1)残差与我们平时说的误差是一回事儿吗?提示:这两个概念在某程度上具有很大的相似性,都是衡量不确定性的指标,二者的区别是:误差与测量有关,误差可以衡量测量的准确性,误差越大表示测量越不准确;残差与预测有关,残差大小可以衡
7、量预测的准确性,残差越大表示预测越不准确.,(2)R2与原来学过的相关系数r有区别吗?提示:它们都是刻画两个变量之间的的相关关系的,区别是R2表示解释变量对预报变量变化的贡献率,其表达式为R2=1- ;相关系数r是检验两个变量相关性的强弱程度,其表达式为,【即时练】1.已知变量x,y具有线性相关关系,且(x,y)的一组数据为(1,3),(2,3.8),(3,5.2),(4,6),则回归方程是( )A. =x+1.9 B. =1.04x+1.9C. =0.95x+1.04 D. =1.05x-0.9,【解析】选B.回归直线方程一定过样本的中心点所以样本中心点是(2.5,4.5),因为对于A选项y
8、=2.5+1.9=4.44.5,对于B选项4.5=1.042.5+1.9,对于C选项y=0.952.5+1.044.5,对于D选项y=1.052.5-0.94.5,所以只有B选项符合题意,故选B.,2.在建立两个变量y与x的回归模型中,分别选择4个不同模型,求出它们相对应的R2如表,则其中拟合效果最好的模型是( )A.模型1 B.模型2 C.模型3 D.模型4,【解析】选B.线性回归分析中,相关系数为r,|r|越接近于1,相关程度越大;|r|越小,相关程度越小,又因为模型1的R2=0.67;模型2的R2=0.85;模型3的R2=0.49;模型4的R2=0.23.故模型2的相关系数最大,则其拟合
9、效果最好.故选B.,【题型示范】类型一 求线性回归方程【典例1】(1)(2014重庆高考)已知变量x与y正相关,且由观测数据算得样本平均数 ,则由该观测数据测算的线性回归方程可能是( )A. =0.4x+2.3 B. =2x-2.4C. =-2x+9.5 D. =-0.3x+4.4,(2)某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据请画出上表数据的散点图;(要求:点要描粗)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程,试根据求出的线性回归方程,预测记忆力为9的同学的判断力相关公式: ,【解题探究】1.题(1)中正相关的含义是什么?2.计算线性回归方程 中 ,
10、 值的依据是什么?【探究提示】1.线性回归方程中0,即斜率为正.2.利用由最小二乘法得到的公式,即其中, 分别是a,b的估计值.,【自主解答】(1)选A.由正相关可知斜率为正,故可排除C,D两项,又因为 =0.4x+2.3经过点(3,3.5),故A项正确.,(2)如图:, =62+83+105+126=158 ,故线性回归方程为 =0.7x-2.3.由中线性回归方程当x=9时, =0.79-2.3=4,预测记忆力为9的同学的判断力约为4.,【方法技巧】求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系.(2)求回归系数:若存在线性相关关系,则求回归系
11、数.(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明.,【变式训练】研究性学习小组为了解某生活小区居民用水量y(吨)与气温x()之间的关系,随机统计并制作了5天该小区居民用水量与当天气温的对应表:,(1)若从这随机统计的5天中任取2天,求这2天中有且只有1天用水量低于40吨的概率(列出所有的基本事件).(2)由表中数据求得线性回归方程 中的 1.4,试求出 的值,并预测当地气温为5时小区的用水量.,【解析】(1)设在抽样的5天中用水量低于40吨的三天为ai(i=1,2,3),用水量不低于40吨的两天为bi(i=1,2),那么5天任取2天的基本事件是:(a1,a2),(a1,a3)
12、,(a1,b1),(a1,b2),(a2,a3),(a2,b1),(a2,b2),(a3,b1),(a3,b2)(b1,b2),共计10个.设“从5天中任取2天,有且只有1天用水量低于40吨”为事件A,包括的基本事件为(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2)共6个,则P(A)= .所以从5天中任取2天,有且只有1天用水量低于40吨的概率为 .,(2)依题意可知因为线性回归直线过点( ),且 1.4,所以把点(10,40)代入回归方程,得 =26,所以 =1.4x+26.又x=5时,y=1.45+26=33.所以可预测当地气温为5时,小区用水
13、量约为33吨.,【补偿训练】某种产品的广告费用支出x与销售额y之间有如下的对应数据:(1)画出散点图;并说明销售额y与广告费用支出x之间是正相关还是负相关?,(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程 .(其中: =(3)据此估计广告费用为10时,销售收入y的值.,【解析】(1)作出散点图如图所示: 销售额y与广告费用支出x之间是正相关.,(2) (2+4+5+6+8)=5, (30+40+60+50+70)=50,因此线性回归方程为 =6.5x+17.5. (3)x=10时,估计y的值为 =106.5+17.5=82.5.,类型二 线性回归分析【典例2】(1)甲、乙、
14、丙、丁四位同学各自对A,B两变量的线性相关性作试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表;则哪位同学的试验结果体现A,B两变量更强的线性相关性 ()A.丁B.丙C.乙D.甲,(2)某运动员训练次数与成绩之间的数据关系如下:作出散点图.求出回归方程.作出残差图,并说明选用的模型的拟合效果.计算R2,并说明选用的模型的拟合效果.,【解题探究】1.题(1)中R2与r的关系是什么?2.计算R2的公式是什么?【探究提示】1.在含有一个解释变量的线性模型中,R2恰好等于相关系数r的平方,即R2=r2.,【自主解答】(1)选A.由回归分析方法求得残差平方和及相关系数,相关系数r的绝对值越趋
15、近于1,则说明线性回归方程越吻合.而残差平方和m越小,线性相关性更强.因此选A.(2)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.,所以所以回归方程为 =1.041 5x-0.003 88.,作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.计算得R20.9855,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.,【延伸探究】在题(2)题设条件不变的情况下,试预测该运动员训练47次及55次的成绩.【解析】由上述分析可知,我们可用回归方程 =1.0415x-0.00388作为该运动员成绩
16、的预报值.将x=47和x=55分别代入该方程可得y49和y57.故预测该运动员训练47次和55次的成绩分别为49和57.,【方法技巧】刻画回归效果的两种方式(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.(2)R2法:R2=1- 越接近1,表明回归的效果越好.,【变式训练】下表是A市住宅楼房屋销售价格y和房屋面积x的有关数据:(1)画出数据对应的散点图.(2)设线性回归方程为 ,已计算得 =0.196, =23.2,计算 及 .(3)据(2)的结果,估计面积为120m2的房屋销售价格.,【解题指南】(1)根据表中所给的五对数据,在平面直角坐标系中描出这五个点,得到这
17、组数据的散点图.(2)根据表中所给的数据,求出 ,把求得的数据代入求线性回归方程的系数的公式,利用最小二乘法得到结果,写出线性回归方程.(3)根据(2)求得的线性回归方程,代入所给的x的值,预报出销售价格的估计值,这个数字不是一个准确数值.,【解析】(1)根据表中所给的数据画出对应的散点图,如图.,(2) 因为 =23.2,所以样本中心点是(109,23.2),把样本中心点代入线性回归方程得到, =23.2-0.196109=1.836(3)由(2)知,回归直线方程为 =0.196x+1.836所以当x=120 m2时,销售价格的估计值为 =0.196120+1.836=25.356(万元),
18、所以面积为120 m2的房屋销售价格估计为25.356万元,【补偿训练】(2014徐州高二检测)在关于人体脂肪含量y(百分比)和年龄x关系的研究中,得到如下一组数据(1)画出散点图,判断x与y是否具有相关关系.,(2)通过计算可知 =0.65, =-2.74,请写出y对x的回归直线方程,并计算出23岁和50岁的残差.,【解题指南】(1)本题涉及两个变量:年龄与脂肪含量.可以选取年龄为自变量x,脂肪含量为因变量y.在坐标系中描点作出散点图,从图中可看出x与y具有相关关系.(2)根据所给的线性回归方程的系数,写出线性回归方程,代入自变量的值求出y的预报值,与数据组所给的y的值作差,得到23岁和50
19、岁的残差.,【解析】(1)涉及两个变量:年龄与脂肪含量.所以选取年龄为自变量x,脂肪含量为因变量y.作散点图,从图中可看出x与y具有相关关系.,(2)y对x的回归直线方程为 =0.65x-2.74.当x=23时, =12.21,y- =9.5-12.21=-2.71.当x=50时, =29.76,y- =28.2-29.76=-1.56.所以23岁和50岁的残差分别为-2.71和-1.56.,类型三 非线性回归问题【典例3】(1)在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围,令 =lny,求得回归直线方程为 =0.25x-2.58,则该模型的回归方程
20、为.(2)在一次抽样调查中测得样本的5个样本点,数值如下表:试建立y与x之间的回归方程.,【解题探究】1.求解本题中的回归方程需借助什么关系?2.是否所有的变量间均为线性相关关系?如何判断?【探究提示】1.需借助指数、对数互化关系求解本题中的回归方程.2.并非所有的变量间均为线性相关关系,可借助散点图直观感知,再借助回归分析判断回归模型的拟合效果.,【自主解答】(1)因为 =0.25x-2.58, =lny.所以y=e0.25x-2.58.答案:y=e0.25x-2.58(2)由数值表可作散点图如图.,根据散点图可知y与x具有反比例函数关系,设y= ,令t= ,则y=kt,原数据变为:,由置换
21、后的数值表作散点图如下:,由散点图可以看出y与t呈近似的线性相关关系.列表如下:,所以 =1.55, =7.2.所以 .所以 =4.134 4t0.791 7.所以y与x的回归方程是,【方法技巧】非线性回归问题的处理方法(1)两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y= ,我们可以通过对数变换把指数关系变为线性关系.令z=lny,则变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2)的周围.,(2)非线性回归方程的求法根据原始数据(x,y)作出散点图;根据散点图,选择恰当的拟合函数;作恰当的变换,将其转化成线性函数,
22、求线性回归方程;在的基础上通过相应的变换,即可得非线性回归方程.,(3)非线性相关问题中常见的几种线性变换在实际问题中,常常要根据一批实验数据绘出曲线,当曲线类型不具备线性相关关系时,可以根据散点分布的形状与已知函数的图象进行比较,确定曲线的类型,再作变量替换,将曲线改为直线.下面是几种容易通过变量替换转化为直线的函数模型:,y=a+ ,令y=y,x= ,则有y=a+bx;y=axb,令y=ln y,x=ln x,a=ln a,则有y=a+bx;y=aebx,令y=ln y,x=x,a=ln a,则有y=a+bx;y= ,令y=ln y,x= ,a=ln a,则有y=a+bx;y=a+bln
23、x,令y=y,x=ln x,则有y=a+bx;y=bx2+a,令y=y,x=x2,则有y=bx+a.,【变式训练】某种图书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:已知每册书的成本费y与印刷册数的倒数 之间有线性相关关系,求出y关于x的回归方程.,【解析】首先作变量变换,令u= ,则题目所给数据变成如下表所示的数据:由题意可知,每册书的成本费y与印刷册数的倒数 之间有线性相关关系,故由最小二乘法得: 8.973, 1.125,所以y=8.973u+1.125.回代u= 可得因此y关于x的回归方程为,【补偿训练】今有一组数据,如下表:现准备从以下函数中选择一个近似地表示这
24、组数据满足的规律,其中拟合最好的是(),【解析】选D.把x看作自变量,y看作其函数值,从表中数据的变化趋势看,函数递增的速度不断加快,对照四个选项,A选项是以一个恒定的幅度变化,其图象是直线型的,不符合本题的变化规律;B选项对数型函数,随着x的增大y的递增速度不断变慢,不符合本题的变化规律;,C选项指数型函数,随着x的增大y的递增速度不断变快,但增长速度超出题目中y的增长速度,不符合本题的变化规律;D选项是二次函数型,对比数据知,其最接近数据的变化趋势.故选D.,【易错误区】对回归直线的性质认识不清【典例】为研究变量x和y的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线l1和
25、l2,两人计算知 相同, 也相同,下列正确的是()A.l1与l2一定重合B.l1与l2一定平行C.l1与l2相交于点( , )D.无法判断l1和l2是否相交,【解析】选C因为两个人在试验中发现对变量x的观测数据的平均值都是 ,对变量y的观测数据的平均值都是 ,所以两组数据的样本中心点是( , ),因为回归直线经过样本的中心点,所以l1和l2都过( , ),【常见误区】,【防范措施】掌握好基本知识点对于数学中的很多知识点只有掌握好,才能应用,不会产生失误,如本例中要真正理解回归直线经过样本的中心点,避免错误的发生.,【类题试解】(2014湖北高考)根据如下样本数据得到的回归方程为 ,则( )A. 0, 0 B. 0, 0C. 0, 0 D. 0, 0,【解析】选B.画出散点图如图所示,y的值大致随x的增加而减小,所以 0.,