1、3.1回归分析的基本思想及其初步应用,1.了解回归分析的基本思想,会对两个变量进行回归分析,会求两个具有线性相关关系的变量的回归直线方程,并用回归直线方程进行预报.2.了解最小二乘法的思想方法,理解回归方程与一般函数的区别与联系.3.通过典型案例的分析,了解回归分析的初步应用相关检验.,1.相关分析的意义和作用是什么剖析:函数是大家比较熟悉的概念,它是指变量之间的确定性关系,即当X取某一数值x时,变量Y按照某种规则总有一个确定的数值与之对应.相关关系则是指变量之间的非确定性关系,由于随机因素的干扰,当变量X取确定值x时,变量Y的取值不确定,是一个随机变量,但它的概率分布与X的取值有关.这里,我
2、们看到了函数关系与相关关系的本质区别,在函数关系中变量X对应的是变量Y的确定值,而在相关关系中,变量X对应的是变量Y的概率分布.换句话说,相关关系是随机变量之间或随机变量与非随机变量之间的一种数量依存关系,对于这种关系,只能运用统计方法进行研究.通过对相关关系的研究又可以总结规律,从而指导人们的生活与生产实践.,2.举例说明怎样确定线性回归的模型剖析:在确定数据适合哪种模型之前,首先应该对观测数据绘图,以便进行简单的观测.例如,为了研究建立初始工资与当前工资的回归模型,首先对观测数据绘图,如下图所示.,从图中可以发现初始工资与当前工资的趋势大概呈线性关系,可以建立线性回归方程.如果观测数据不呈
3、线性分布,那么还可以根据其他方程模型的观测数据分布图形的特点以及对建立各方程后所得的R2进行比较以便确定一种最佳方程式.一般说来,如果所有的观测量都落到回归直线上,那么R2等于1;如果自变量与因变量之间没有回归关系,那么R2等于0.另外,我们通过对观测数据分布图形的仔细观察还可以发现一些奇异值,所以还可以通过对数据的检查来消除奇异值.但是,对待奇异值时要格外小心.,题型一,题型二,题型三,题型四,(1)y与x是否具有线性相关关系?(2)如果y与x具有线性相关关系,求回归直线方程;(3)根据求出的回归直线方程,预测加工200个零件所用的时间为多少?,求线性回归方程 【例1】 一个车间为了规定工时
4、定额,需要确定加工零件所花费的时间,为此进行了10次试验.测得的数据如下:,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,(1)画出散点图;(2)判断y与x是否具有线性相关关系,若有,求出其线性回归方程.,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,(1)作出散点图;(2)求出回归方程;(3)作出残差图;(4)计算R2;(5)试预测该运动员训练47次及55次的成绩.,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,(3)残差分析.作残差图如图,由
5、图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.(4)计算R2.计算得R20.985 5.说明了该运动员的成绩的差异有98.55%是由训练次数引起的.,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,试求y对x的回归方程.,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,题型一,题型二,题型三,题型四,解:根据收集的数据作散点图,如图.根据样本点的分布情况,可选用两种曲线模型来拟合.可认为样本点集中在某二次曲线y=c1x2+c2的附近.令t=x2
6、,则变换后样本点应该分布在直线y=bt+a(b=c1,a=c2)的周围.由题意得变换后t与y的样本数据如下表:,题型一,题型二,题型三,题型四,y与t的散点图如图.由y与t的散点图可以观察到样本数据点并不分布在一条直线的周围,因此不宜用线性回归方程y=bt+a来拟合,即不宜用二次曲线y=c1x2+c2来拟合y与x之间的关系.,题型一,题型二,题型三,题型四,根据x与y的散点图也可以认为样本点集中在某一条指数曲线y=c1 e 2 的周围.令z=ln y,则z=c2x+ln c1,即变换后样本点应该分布在直线z=bx+a(a=ln c1,b=c2)的周围.由题意得变换后z与x的样本数据如下表:,题
7、型一,题型二,题型三,题型四,z与x的散点图如图.因为根据散点图可以观察到样本数据点大致分布在一条直线的周围,所以可以用线性回归方程来拟合.,题型一,题型二,题型三,题型四,易错辨析易错点:对概念理解不清致错【例4】 对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),(xn,yn),则下列说法中不正确的是(),B.残差平方和越小的模型,拟合的效果越好C.用R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数r=-0.936 2,则变量y和x之间具有线性相关关系,题型一,题型二,题型三,题型四,错解:B错因分析:对残差平方和和R2理解错误.正解:R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.答案:C反思把握好R2的回归意义.,