收藏 分享(赏)

线性回归分析.doc

上传人:buyk185 文档编号:4874783 上传时间:2019-01-18 格式:DOC 页数:16 大小:928.50KB
下载 相关 举报
线性回归分析.doc_第1页
第1页 / 共16页
线性回归分析.doc_第2页
第2页 / 共16页
线性回归分析.doc_第3页
第3页 / 共16页
线性回归分析.doc_第4页
第4页 / 共16页
线性回归分析.doc_第5页
第5页 / 共16页
点击查看更多>>
资源描述

1、69第七章 线性回归分析管理中经常要研究变量与变量之间的关系,并据以做出决策。前面介绍的检验可以确定两个变量之间是否存在着某种统计关系,但是如果检验说明两个变量之间存在着某种关系,我们还是不能说明它们之间究竟存在什么样的关系。本章介绍的回归分析能够确定两个变量之间的具体关系和这种关系的强度。回归分析以对一种变量同其他变量相互关系的过去的观察值为基础,并在某种精确度下,预测未知变量的值。社会经济现象中的许多变量之间存在着因果关系。这些变量之间的关系一般可以分为两类:一类是变量之间存在着完全确定的关系,即一个变量能被一个或若干个其他变量按某种规律唯一地确定,例如,在价格 P 确定的条件下,销售收入

2、 Y 与所销售的产品数量之间的关系就是一种确定性的关系:Y P X。另一类是变量之间存在着某种程度的不确定关系。例如,粮食产量与施肥量之间的关系就属于这种关系。一般地说,施肥多产量就高,但是,即使是在相邻的地块,采用同样的种子,施相同的肥料,粮食产量仍会有所差异。统计上我们把这种不确定关系称为相关关系。确定性关系和相关关系之间往往没有严格的界限。由于测量误差等原因,确定性关系在实际中往往通过相关关系表现出来;另一方面,通过对事物内部发展变化规律的更深刻的认识,相关关系又可能转化为确定性关系。两个相关的变量之间的相关关系尽管是不确定的,但是我们可以通过对现象的不断观察,探索出它们之间的统计规律性

3、。对这类统计规律性的研究就称为回归分析。回归分析研究的主要内容有:确定变量之间的相关关系和相关程度,建立回归模型,检验变量之间的相关程度,应用回归模型进行估计和预测等。第一节 一元线性回归分析一、问题的由来和一元线性回归模型例 7-1。某地区的人均月收入与同期某种耐用消费品的销售额之间的统计资料如表7-1 所示。现要求确定两者之间是否存在相关关系。表 7-1年份 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996人均收入 1.6 1.8 2.3 3.0 3.4 3.8 4.5 4.8 5.2 5.4销售额(百万元) 4.7 5.9 7.0 8.2

4、 10.5 12 13 13.5 14 15如果作一直角坐标系,以人均收入 为横轴,销售额 为纵轴,把表 7-1 中的数xi yi据画在这个坐标系上,我们可以看出两者的变化有近似于直线的关系,因此,可以用一元线性回归方程,以人均收入为自变量,以销售额为因变量来描述它们之间的关系。即:= + + yiabxiein12,其中: 是因变量 Y 的第 i 个观察值,是自变量 X 的第 i 个观察值i70与 是回归系数,abn 是样本容量,为对应于 Y 的第 i 个观察值的随机误差,这是一个随机变量。ei在上述线性模型中,自变量 X 是个非随机变量,对于 X 的第 i 个观察值 ,Y 的xi观察值 是

5、由两个部分所组成的: 和 ,前者是一个常数,后者是一个随机变量,yi bxiei所以也是一个随机变量。对于上述回归模型中的随机误差 要求满足如下的假设条件:i1、应当是服从正态分布的随机变量,即 满足“正态性”的假设。i2、 的均值为零,即 E( )0,我们称 满足“无偏性 ”的假设。ei ei e3、 的方差等于 = ,这就是说,所有的 分布的方差都相同,即满足22i“共方差性”的假设。4、各个 间相互独立,即对于任何两个随机误差 和 其协方差等于零,i iej即,Cov( , )=0, )这称之为满足 “独立性”的假设。ejj综上所述,随机误差必须服从独立的相同分布。基于上述假定,随机变量

6、的数学期望和方差分别是:E( )= +yiabxi= 2e2由此: N( + , )iie2这就意味着,当 X= 时, 是一个服从正态分布的随机变量的某一个取值。如yi果不考虑式中的误差项,我们就得到简单的式子:= + yiabxi这一式子称为 Y 对 X 的回归方程。依据这一方程在直角坐标系中所作的直线就称为回归直线。二、模型参数的估计和估计平均误差1、回归参数的估计回归模型中的参数 与 在一般情况下都是未知数,必须根据样本数据( , )ab xiyi来估计。确定参数 与 值的原则是要使得样本的回归直线同观察值的拟合状态最好,即要使得偏差最小。为此,可以采用“最小二乘法”的办法来解决。对应于

7、每一个 ,根据回归直线方程(7-1)可以求出一个 ,它就是 的一个估计xi yii值。估计值和观察值之间的偏差 。有 n 个观察值就有相应的 n 个偏差。eyiii要使模型的拟合状态最好,就是说要使 n 个偏差的总和最小。但为了计算方便起见,我们以误差的平方和最小为标准来确定回归模型。这就要求 Qyabxiiniiin1212是个极小值。根据微积分中的极值定理,要使上式取极值,其对 与 所求的偏导数ab71应为 0,即Qayabxbiiii20经整理后可得:ynxxabi iiii2解上式,可得:bynxyaniiiiiii122记 。XxYyni i,Sxxyynyi iiXYiiiiii

8、ii2222221于是,得到参数 与 的简单表达形式如下:abbSyxXY求出参数 与 以后,就可以得到回归模型由此,只要给定了一个 值,就可以根据回归模型求得一个 来作为实际值xi yi的预测值。yi2、估计平均误差的计算对于给定的 ,根据回归模型就可以求出 的预测值。但是用 来预测 的精i yi iy度如何,产生的误差有多大是统计上所关心的。统计上用估计平均误差这个指标来度量回归方程的可靠性,对回归方程进行评价。估计平均误差可以用第一章中所述的度量一组观察值的离差的方法来度量。但是这次估计平均误差是根据观察值与回归直线的偏离来计算的。一个回归模型的估计平均误差或剩余标准离差由下式定义:Sn

9、yeiii122值得注意的是上式中分母是用 而不是 或 去除,这是因为 个观察nn1n72值的数据点用于计算参数 与 时失去了 2 个自由度,还余下 个自由度。abn2运用估计平均误差可以对回归方程的预测结果进行区间估计。若观察值围绕回归直线服从正态分布,且方差相等,则有 68.27%的点落在 的范围内,有 95.45%的Se点落在 2 的范围内,有 99.73% 的点落在 3 的范围内。Se e三、回归模型的检验回归方程建立以后还需要检验变量之间是否确实存在线性相关关系,因为对回归参数的求解过程并不需要事先知道两个变量一定存在相关关系。对一元线性回归模型的统计检验包括两个内容:一是线性回归方

10、程的显著性检验,二是对回归系数进行统计推断。下面我们分别讨论这两个问题。(一)线性回归方程的显著性检验1、方差分解回归分析中需要分析使用 Y 与 X 之间的线性相关关系的估计模型 来估yabx计 时所产生的误差和所减少的误差,这称为回归中的方差分析。若没有利用 Y 与yX 之间的相关关系来估计总体的均值,我们就会选择 的平均值 作为总体的估计值。yi由此而产生的误差是 ,我们称之为“总离差平方和”,记为 SST。若利yii2用 Y 与 X 之间的线性相关关系的估计模型去估计总体均值,则所产生的误差是 : ,我们称之为残差平方和,记为 SSE。为了说明 SST 与 SSE 之间的关系,yii2我

11、们对 SST 进行分解。STyyyyiiiii iiiiii iii ii222220若记 SSR= SSE=iiyii2则 SST = SSR + SSE73图 7-1:三种误差之间的关系SSR 反映了由于利用 Y 和 X 之间的线性回归模型 来估计 Y 的均值时,而不是yi简单地利用 来估计 Y 的均值时,使得总误差 SST 减少的部分,因此统计上称之为y“可解释误差”。SSE 是利用 Y 与 X 之间的线性回归模型来估计 Y 的均值时仍然存在的误差,因此称之为“不可解释误差”。于是,上式实际上就表示:总误差可解释误差不可解释误差图 7-1 直观地表示了三种误差之间的相互关系。2、相关分析

12、对于任何给定的一组样本( )( i =1,2,n )都可以用最小二乘法建立起一个线性xiy回归模型,相应地就可以得到一条回归直线。但是,这样的一条回归直线并不是总有意义的。只有当变量 X 与 Y 之间确实存在某种因果关系时,其回归直线才有意义。统计学中要确定变量 X 和 Y 之间是否确实存在线性相关,通常利用相关系数来检验。相关系数记作 或 ,它能够较精确地描述两个变量之间线性相关的密切程度。r2相关系数可以定义为可解释误差 SSR 和总误差 SST 之比,即:= SSRSST=1 - SSESST它反映了由于使用了 Y 与 X 之间线性回归模型来估计 的均值而使离差平方和yiSST 减少的程

13、度,从而表明 Y 与 X 之间线性相关程度及拟合模型的优良程度。 与r2SSR 成正比。 越大,说明 Y 与 X 之间的线性相关程度越高,也就说明模型的拟合r2性能较优; 越小,说明 Y 与 X 之间的线性相关程度越低,说明模型的拟合性能较差。当相关系数用 来表示时不仅可以测定 Y 与 X 之间的相关程度,而且也可以表示相关的方向。事实上,相关系数 也可以定义为:rrSXYY从上述两个公式计算所得到的结果完全相同,意义也相同。但从 计算 时为:r22要确定 的符号,就需要利用以下的关系:rSbSXYXY由此可见, 与 同号,可以根据 的符号来决定 的符号。从 的计算公式可rbrr2以看出: 总

14、是界于 0 与 1 之间的,即 0 1。如果 ,则2 2yiiSST=SSR,SSE=0,此时, =1。这时称为完全线性相关,模型的拟合程度最优。用r2Y 与 X 之间的线性回归模型来估计 时的总离差和完全可以用 SSR 来解释。如果yi,则 SST=SSE,SSR=0,因此, =0。这时,使用 Y 与 X 之间的线性回归模yir2型没有能对任何的总离差平方和 SST 作出任何解释,说明 Y 与 X 之间事实上无线性相关,模型的拟合程度最差。对 的不同的具体值,Y 与 X 之间的相关关系分析如下:r1)当 =1 时,称为完全线性正相关;当 =-1 时,称为完全线性负相关。r2)当 00 时称

15、Y 与 X 正相关。当r,则拒绝零假设。我们认为 X 与 Y 之间存在线性0相关关系,否则接受 ,认为 X 与 Y 之间没有线性相关关系。H04、t 检验尽管相关系数 是对变量 Y 与 x 之间的线性关系密切程度的一个度量,但是相关r系数 是根据样本数据计算得到的,因而具有一定的随机性,样本容量越小,其随机r性就越大。因此也需要通过样本相关系数 对总体的相关系数 作出推断。由于相关r系数 的分布密度函数比较复杂,实际应用中需要对 作变换。令rtnr21则统计量 t 服从 t(n-2)分布。于是关于总体是否线性相关的问题就变成对总体相关系数=0 的假设检验,也就只要对统计量 t 进行 t 检验就

16、行了。根据一组样本计算出上述 t 值,再根据问题所给定的显著性水平 和自由度 n-2,查 t 分布表,找到相应的临界值 。若22表明 t 在统计上是显著的,即总体的两个变量间存在线性关系。否则就认为两个变量间不存在线性关系。5、DW 检验75回归模型中假设 Cov( , )=0,即随机项是独立的。这一假设是否成立,可以eij通过回归模型的误差序列是否相互独立来进行检验。若误差序列各项间相互独立,则序列各项之间没有相关关系。若序列各项之间有相关关系,误差序列不满足线性回归模型的基本假设,回归模型就不能表达变量 Y 与 X 之间的真实变动关系。DW(Durbin-Watson)检验可以检验残差序列

17、的相关性。其检验办法如下:1)计算误差序列的 d 统计量(DW 值)d eeiinin12222)根据给定的显著性水平 (通常为 =0.05 或 0.01),自变量个数 k 和样本数据个数 n,查 D、W 表,得到 d 的下限值 和上限值 。ldu3)判断。若E(MSE)。因此,如果 0正确,F值将接近于1;如 0为假,则F值将大大超过1。803)判断 H0是否成立。当显著性水平确定为,自由度为K和N-K-1时,查F分布表得。如果F ,则拒绝 0。说明Y与K 个X 之间总的来说存在显著性相关,接受 H0。说明Y与K个X之间不存在显著性相关。2、偏相关的F检验偏相关检验的目的在于检验新加入模型的

18、X 是否与Y存在显著的线性相关。通过总相关的F检验表明Y与K个自变量X 在整体上存在显著的线性相关,但并不意味着各个X都与Y存在显著的线性相关,偏相关是检验在 Y与(K-1)个X 存在显著的线性相关的条件下, 是否与Y存在显著的线性相关,即 进入模型后对减少模型的残差平方和是K否有显著的作用。偏相关检验的步骤是:1)提出原假设 H0: 备择假设 1: 上述假设也可写作 : K=0, 1: K0 2)计算检验统计量F:SRxSRxEnkSxk kkk1212121, , 3)判断 H0是否成立。当显著性水平为时,查F分布表求出 (分子自由度为F1,分母自由度为N-K-1)。如果F ,则拒绝原假设

19、,说明Y与 XK之间存在显著偏F相关,反之,接受原假设,说明Y 与 XK之间不存在显著偏相关。四、多元回归模型的残差分析前面关于回归模型的参数估计和检验都是建立在一系列的理论假设基础之上的,但是在实际问题中,总体的实际情况是否与基本假设相符还需要验证。此时最简单的方法就是残差散点图分析。1、线性与非线性前面所讨论的回归模型都是假设 与 之间存在线性相关关系,然后应用样本数YXK据建立起它们之间的线性回归模型的。但是如果总体中Y与 之间的相关关系并非是XK线性的,则模型的假设就不成立。应用模型来进行估计和预测就不可能得出有用的结果。要检验Y与 之间是否存在线性相关关系,可以用残差散点图来分析残差

20、 =(XK ei- )的散布情况。我们以残差 为纵座标,以估计值 为横座标,在直角座标系j ei Yj上依次绘出点( , )。分析观察点的散布情况。如果观察点随机地散布在横线 =0jei i的周围,说明总体符合线性相关关系的假设是正确的。如果观察点的散布显示一定的规律性或系统性,则说明总体变量不符合线性相关关系的假设。图7-2就是用来分析线性与非线性的一个残差散点图。81如果总体变量不符合线性相关关系的假设则应根据具体情况重新建立模型。此时可考虑建立合适的非线性模型。对于某些非线性模型可以进行变量转换,转换成线性模型再重新进行估计。 图7-2 线性与非线性的残差散点图比较2、共方差与异方差在建

21、立线性回归模型时,我们假设随机误差 具有相同的方差,即共方差。我们ei也可以通过残差散点图来验证总体是否符合共方差性的假设。以残差 为纵座标,以ei估计值为横座标,在直角座标系上依次绘出点( , )。分析观察点的散布情况。如Yji果观察点随机地散布横线 =0的周围,说明总体基本符合共方差性的假设。如果观察ei点随 的增大而扩散或聚集,说明总体不符合共方差性的假设。图7-3 就是用来分析共方差与异方差的一个残差散点图。图7-3 共方差与异方差的残差散点图比较如果总体出现异方差迹象就需要通过采用适当的变量转换可望使方差趋于稳定,再利用回归模型进行估计和预测。3、独立与非独立回归模型还假设随机误差

22、之间相互独立,即Cov( , )=0 。我们也可以ei eijij通过残差散点图来验证总体是否符合独立性的假设。以残差 为纵座标,以估计值为横座标,在直角座标系上依次绘出点( , )。对于与时间有关的样本数据则最好以Yjei时间t 为横轴。分析观察点的散布情况。如果观察点随机地、无规则地散布在横线 =0ei的周围,说明总体基本符合独立性的假设。如果观察点在横线 =0的周围显示出周期ei82性或趋势性的变化,则说明总体不符合独立性的假设。图7-4就是用来分析独立与非独立的一个残差散点图。图7-4 独立与非独立的残差散点图比较如残差散点图显示残差之间不独立,则可以寻求把合适的自变量加入模型以消除残

23、差的非独立现象。如果这一办法仍无法消除残差间的非独立性,则可以采用“一价差分法”,做变量转换,然后重新估计模型的参数。4、正态与非正态回归模型还假设随机误差 服从正态分布。要检验总体残差是否满足正态分布的ei要求要通过建立标准残差 的直方图来检验。从理论上说, 应服从标准Ejj Ej正态分布,即 。所以应有近50%的 为正,50% 的 为负;68%的jN01, j j落在-1 与+1 之间,96%的 落在-2与+2 之间。如果画出标准残差的直方图则应如图Ej j7-5的标准正态残差分布图所示。若这一条件满足就说明总体基本符合正态性的假设。如果样本的容量不大时, 在理论上应服从于自由度为(N-K

24、-1)的t分布。所以,对j应于(N-K-1)的 t分布,如果有 50%的值位于 和 之间,有95%的值位于 和t0.257. t025.之间,说明总体基本符合正态性的假设。t0975.图7-5 标准正态残差分布图5、多重共线性在应用回归模型时,如果自变量中有两个或两个以上的自变量之间存在着线性或几乎完全线性相关的关系就会产生多重共线性现象。在多重共线性现象的情况下用最小二乘法估计模型的参数就会不稳定。此时当模型中增加或减少一个变量时已在模型中的变量的系数也会变化。在多重共线性现象较严重的情况下,解释回归参数估计量83的含义就没有什么实际意义了,而且会引起误导或导致错误的结论。如果自变量完全线性

25、相关,那么,其参数就成为不确定的了。当然,也不能要求自变量之间完全不相关,即相关系数为零。此时,变量为正交变量,这时就不必用复回归方法求参数了,每个参数 i可以用相应的自变量作简单回归来估计即可。事实上,这两种极端是很少遇到的。大多数情况下,自变量之间存在一定程度的相关关联。实际上在多重共线性现象不太严重时,并不会影响回归模型的估计和预测的准确性。解决多重共线性问题的方法是剔除一些重复变量重新进行估计。练习题7-1 零售商为了解每周的广告费与销售额之间的关系,记录了如下统计资料: 广告费 X(万) 40 20 25 20 30 50 40 20 50 40 25 50销售额 Y(百万) 385

26、 400 395 365 475 440 490 420 560 525 480 510画出散点图,并在 Y 对 X 回归为线性的假定下,用最小二乘法算出一元回归方程。7-2 下表是经济发展水平不同的八个国家人均年能源消耗量(折合成标准煤,单位 kg)和人均年国民生产总值的数据。试求(1) Y 对 X 的线性回归方程;(2) 对所求方程作显著性检验(显著性水平为 0.05)(3) 对人均年生产总值 3000 美元的国家预测其人均年能源消耗量的范围()。05.7-3 设对某产品的价格 P 与供给量 S 的一组观察数据如下表,据此确定随机变量S 对价格 P 的回归方程。价格 P(百元) 2 3 4

27、 5 6 8 10 12 14 16供给量 S(吨) 15 20 25 30 35 45 60 80 80 1107-4 依据下列统计资料,我们能否断定这一企业的利润水平和它的广告费用之间存在线性关系( )。05.广告费用(万元) 10 10 8 8 8 12 12 12 11 11利润(万元) 100 150 200 180 250 300 280 310 320 300 7-5 随机抽取某城市居民的 12 个家庭,调查收入与支出的的情况,得到家庭月收入(单位:元)的下表数据。试判断支出与收入间是否存在线性相关关系?请求出支出与收入间的线性回归方程( )。05.收入 820 930 1050

28、 1300 1440 1500 1600 1800 2000 2700 3000 4000 支出 750 850 920 1050 1220 1200 1300 1450 1560 2000 2000 24007-6 某城市 19751993 年的购买力 Y(单位:万元)对职工人数 (单位:万1x人),平均工资 (单位:元),存款 (单位:亿元)进行多元线性回归分析的部2x3x分结果如下:样本容量 n=19,回归方程为84=652.964 + 1.3085 + 0.7276 + 83.0258y1x23x(300.858) (0.348) (0.3206) (41.8466)(1) 说明回归方程中各系数的含义;(2) 判断线性回归方程中那些系数是显著不为零的( )。05.(3) 预测当 =700, =1000, =4 时的平均购买力 。123y7-7 上题中的变量 , 之间的相关系数如下:=0.7608, =0.4639, = 0.907812xr, 23xr, 13xr,说明上题中的线性回归分析可能存在什么问题?

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 理学

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报