1、庖丁巧解牛知识巧学一、回归直线方程对于一组具有线性相关关系的数据(x 1,y1),(x 2,y2),, (x n,yn) ,其回归方程的截距和斜率的最小二乘估计公式分别为: = ,axby= .niiiiixy12)(回归直线方程中的 = 称为样本点的中心.回归直线过样本点的),(1,1yxnyxini中心.二、相关系数及相关检验给定(x i,yi)(i=1,2,,n),只要 x1,x2,x n 不全相等,就能求出一条回归直线,因此它有无意义就是个大问题.由于根据散点图看数据是否大致在一直线附近主观性太强,可利用下面量化的检验法.当 xi 不全相等,y i 也不全相等时,r= .21121)(
2、)(niniiiniiiyx叫做变量与之间的样本相关系数(简称相关数) ,1.当0 时,表明两个变量正相关;当0 时,表明两个变量负相关.的绝对值越接近 1,表明两个变量的线性相关性越强;的绝对值越接近 0 时,表明两个变量之间几乎不存在线性相关关系.通常,当的绝对值大于 0.75 时认为两个变量有很强的线性相关关系.联想发散 注意此处空半格当与 1 接近到什么程度才表明 Y 与之间具有线性相关关系呢?为明确这一点,常通过相关性检验的方法,其步骤如下:(1)作统计假设:与 Y 不具有线性相关关系;(2)根据小概率 0.05 与-2 在附表中查出的一个临界值 r0.05;(3)根据样本相关系数计
3、算公式算出的值;(4)作统计推断,如果r 0.05,表明有 95%的把握认为与 y 之间具有线性相关关系.如果r 0.05,我们没有理由拒绝原来的假设,这时寻找回归直线方程是毫无意义的.三、回归分析1.随机误差在线性回归模型 y=bx+a+e 中,a 和 b 为模型的未知参数,e 是 y 与 =bx+a 之间的误差,通常为随机变量,称为随机误差.它的均值 E()0,方差 D(e)=20.线性回归模型的完整表达形式为 在此模型中,随机误差的方差 2.)(,)(2eDaxy越小,通过回归直线=bx+a 预报真实值的精度越高. 深化升华 注意此处空半格引起随机误差的原因:(1)在实际中,随机变量除了
4、受随机变量的影响之外,还受其他变量的影响;(2)由于前面相关关系公式中的 和a为截距和斜率的估计值,它们与真实值 a 和 b 之间也存在误差.b2.方差分析对于样本点(x 1,y1),(x2,y2),(x n,yn)而言,相应于它们的随机误差为ei=yi- =yi-bxi-a(i=1,2,,n),其估计值为 =yi- =yi- xi- (i=1,2,,n), 称为相应于y eyaie点(x i,yi)的残差.类比样本方差估计总体方差的思想,可以用 2= Q( , )(2)作为1nb的估计量,其中 和 由公式给出,Q( , )称为残差平方和.可以用 衡量回归直线2abab方程的预报精度.通常 越
5、小,预报精度越高.2要点提示 注意此处空半格因为随机误差是随机变量,因此可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机变量的均值为 0,因此可以用方差 2 来衡量随机误差的大小.3.残差分析在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差 ,来判断模型拟合的效果,ne21判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.其中残差 是数据点ieyi 和它在回归线上相应位置 之间的差异,即 =yi- .iyey4.
6、相关指数 R2用相关指数 R2 来刻画回归的效果,其计算公式是:R 2= niiiiiy12)(显然 R2 取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好. 深化升华 注意此处空半格在线性回归模型中,R 2 表示解释变量对于预报变量变化的贡献率.R 2 越接近于 1,表示回归的效果越好(因为 R2 越接近于 1,表示解释变量和预报变量的相关性越强).如果对某组数据可能采取几种不同的回归方程进行回归分析.也可以通过比较几个 R2,选择其值大的模型 .四、建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,
7、观察它们之间的关系(如是否存在线性关系等) ;(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a) ;(4)按一定规则估计回归方程中的参数(如最小二乘法) ;(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等) ,若存在异常,则检查数据是否有误,或模型是否合适等.问题探究问题 1 两个变量具有线性相关关系和两个变量具有函数关系相同吗?你对二者关系是如何理解的?思路:相关关系与函数关系不同,因为函数关系是一种确定性的关系,而相关关系是一种非确定性关系.相关关系包括两种情况:一是两个变量中,一个变量为可控制变量,另一个变量
8、为随机变量.二是两个变量均为随机变量.而函数关系可以看成是两个非随机变量之间的关系.另一方面,函数关系是一种因果关系,而相关关系不一定是因果关系,也可以是伴随关系. 探究:对两个变量的关系来说,在相关关系中,例如,在水稻产量与施肥量的关系中,施肥量是可控制变量,而水稻的产量是随机变量;在研究一个学生的数学成绩与物理成绩的关系时,这两个变量都是不可控制的随机变量.而正方形的面积 S 与边长之间的关系是一种函数关系,这两个变量就不是随机变量.由于相关关系的不确定性,我们经常运用统计分析的方法,即回归分析法来进行研究.问题 2 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.相关关系又
9、分线性相关关系和非线性相关关系,如何利用回归分析的方法对两个具有线性相关关系的变量进行研究呢? 思路:利用回归分析的方法对两个具有线性相关关系的变量进行研究可以按如下步骤进行:画出两个变量的散点图;求回归直线方程;用回归直线方程进行预报.其中求回归直线方程是关键.而对于线性回归模型 y=bx+a 来说,估计模型中的未知参数 a 和 b 最好的方法就是最小二乘法估计 和 ,其计算公式为 = - ,abaybx= .niiiniiiii xyxy1212)(探究:上述问题研究是具有线性相关关系的变量的线性回归.那么如何用回归分析的方法对非线性回归问题进行统计分析呢?我们可以对其分为两类.若问题中已
10、给出经验公式,这时可以将解释变量进行交换(换元) ,将变量的非线性关系转化为线性关系,将问题化为线性回归分析问题来解决.若问题中没有给出经验公式,需要我们画出已知数据的散点图,通过与各种函数(如指数函数、对数函数、幂函数等)的图象作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量变换,将问题化为线性回归分析问题来解决.典题热题例 1 假设关于某设备的使用年限和所支出的维修费用(万元) ,有如下的统计资料:使用年限 2 3 4 5 6维修费用 2.2 3.8 5.5 6.5 7.0若由资料知对呈线性相关关系. (1)线性回归方程 的回归系数 , ;axbyb(2)预报使用年限为 10
11、 年时的维修费用是多少?思路分析:因为对呈线性相关关系,所以可以用一元线性相关的方法解决问题.(1)利用公式 = - .来计算回归系数.有时为了方便常制表对应aybxniiixy12,写出 xiyi,x i2,以利于求和.(2 )获得回归直线方程后,取 10,即可求值. 解:(1)由题意求得 =4, =5, =1xi2=90, =112.3,于是xynix1niiyx1= =1.23, = =5-1.234=0.08.b03.45903.2ab(2)回归直线方程是 =1.23x+0.08,当10(年)时, =1.2310+0.08=12.38(万元) ,y y即估计使用 10 年时维修费用是
12、12.38 万元.深化升华 注意此处空半格知道与呈线性相关关系,就无需进行相关性检验,否则应首先进行相关性检验.如果本身两个变量不具有相关关系,或者说,它们之间相关关系不显著,即使求出了回归方程也是毫无意义的,而且估计和预测的量也是不可信的.例 2 为了了解某一地区母亲身高与女儿身高 Y 的相关关系,随机测得 10 对母女的身高如下表所示:母亲身高()159 160 160 163 159 154 159 158 159 157女儿身高y() 158 159 160 161 161 155 162 157 162 156试对与 y 进行一元线性回归分析,并预报当母亲身高为 161 时女儿的身高
13、为多少? 图 3-1-1思路分析:为了寻找两个随机变量间的线性关系,一般先做散点图.把这 10 对数据画出散点图,如图 3-1-1 所示,其中点(159,162)表示一对母女的身高数据.由图可以看出,与 y 之间有近似的线性相关关系,据此用回归直线方程解决问题.解:由以上分析先对与 y 作相关性检验.(1)作统计假设:与 y 不具有线性相关关系.(2)由小概率 0.05 与-2 8 在附表中查得 r0.05=0.632.(3) = (159+160+157)=158.8,x0= (158+159+156)=159.1,y1=(1592+1602+1572)-10158.82=47.6,210x
14、i-10x y=(159158+160159+157156)-10158.8159.1=37.2,yiyi2-10y2=(1582+1592+1562)-10159.12=56.9,所以 r= 0.71.9.56473(4)|r|=0.710.632,即|r|r 0.05,从而有 95%的把握认为与 y 之间具有线性相关关系,求回归直线方程是有意义的.回归系数= 0.78,=159.1-0.782158.834.92.所以 y 对的回归直线方程是6.4723=34.92+0.78x.因此,当母亲身高为 161 时,女儿的身高的预报值为=34.92+0.78160=160.5 .这就是说,当母亲
15、身高为 161 时女儿的身高大致也接近161 .方法归纳 注意此处空半格线性回归分析的步骤方法为:首先作出统计假设;求出线性相关系数;由相关系数确定回归直线方程是否有意义; 写出线性回归方程,解决有关问题.例 3 某工业部门进行了一项研究,分析该部门的产量与生产费用之间的关系,从这个工业部门内随机提选了 10 个企业作样本,有如下资料:产量x(千件) 40 42 48 55 65 79 88 100 120 140生产费用y(千元) 150 140 160 170 150 162 185 165 190 185完成下列要求:(1)计算与的相关系数;(2)对这两个变量之间是否线性相关进行相关性检
16、验;(3)设回归直线方程为 =bx+a,求系数 a,b.y思路分析:(1)使用样本相关系数计算公式 r= 即可完成;niiniiiiiyx1212)()((2)由小概率 0.05 与-2 8 在附表中查得 r0.05 的大小,以检验所得结果,来说明与之间的线性相关是否显著;(3)用公式代入即可求出.解:(1)根据题意制表如下:i 1 2 3 4 5 6 7 8 9 10 合计xi 40 42 48 55 65 79 88 100 120 140 777yi 150 140 160 170 150 162 185 165 190 185 1 657xi2 1 600 1 764 2 304 3
17、025 4 225 6 241 7 744 10000144001960070903yi2 2250 1960 2560 2890 2250 2624 3422 2722 3610 3422 277110 0 0 0 0 4 5 5 0 5 9xiyi6 000 5 880 7 680 9 350 9 750 12 79816 28016 50022 80025 90013 29381328;2719;73;.1650;.107 010012 iiii yxyxyr= 0.808,).279)(.793( .82即与的相关系数为 0.808.(2)由小概率 0.05 与-2 8 在附表中查得 r0.050.632,因为 rr0.05,所以可以认为与之间具有线性相关关系.(3) 0.398,=165.7-0.39877.7134.8.b27.1079365深化升华 注意此处空半格本题采用了制表来得出相关的一些值.目的是为了准确无误而且快速的得到和的值.数据较多时,运算量也很大,所以通常借助于科学计算器或电脑软件来求值.