收藏 分享(赏)

第08章 相关分析与回归分析(新).doc

上传人:buyk185 文档编号:5991607 上传时间:2019-03-22 格式:DOC 页数:18 大小:445.50KB
下载 相关 举报
第08章 相关分析与回归分析(新).doc_第1页
第1页 / 共18页
第08章 相关分析与回归分析(新).doc_第2页
第2页 / 共18页
第08章 相关分析与回归分析(新).doc_第3页
第3页 / 共18页
第08章 相关分析与回归分析(新).doc_第4页
第4页 / 共18页
第08章 相关分析与回归分析(新).doc_第5页
第5页 / 共18页
点击查看更多>>
资源描述

1、1第 8 章 相关分析与回归分析【案例导入】宏观经济认为,影响财政收入的因素有很多。考察 90 年代以来我国的财政收入与人均GDP、就业人口数、第三产业产值(%)三变量的关系,分析它们的变动趋势及规律,在此基础上,可提出增加我国财政收入的政策建议。我国 1991-2007 年财政收入及有关指标如下年份 财政收入(百元亿元) 人均 GDP(美元/人) 第三产业产值 (% ) 就业人口数 (亿人)1991 3.2 486 33.7 5.841992 3.5 575 34.8 5.941993 4.4 617 33.7 6.121994 5.2 690 33.6 6.721995 6.2 757 3

2、2.9 6.791996 7.4 824 32.8 6.891997 8.7 892 34.2 6.961998 9.9 953 36.2 6.701999 11.4 1016 37.7 7.062000 13.4 1094 39.0 7.212001 16.4 1176 40.5 7.302002 18.9 1274 41.5 7.372003 21.7 1393 41.2 7.442004 26.4 1524 40.4 7.522005 31.6 1673 40.1 7.582006 38.8 1858 40.0 7.642007 51.3 2069 40.1 7.70问题1已知第三产业产

3、值(%) 、就业人口数与财政收入的相关系数分别为 0.74 和 0.81,人均GDP 与财政收入的相关程度有多大?2人均 GDP 每增加一美元,财政收入将如何变化?3根据以上分析,你认为人均 GDP、就业人口数和第三产业产值(%)三变量中哪个变量是预测财政收入的最佳变量?要求依据这一最佳变量建立与财政收入的回归模型,并预测 2010年的我国财政收入数额。4以上分析结论对我国增加财政收入,提高政府宏观调控能力有何启示?本章的学习将掌握解决上述问题的方法。第一节 相关分析的意义和种类一、相关关系的概念和特点1相关关系概念一切客观事物都是互相联系和互相制约的。客观现象间的互相联系,可以通过一定的数量

4、关系反映出来。而这种数量关系可以分为两种类型,即函数关系和相关关系。函数关系。指现象之间存在着严格依存的、确定的关系,即变量之间依一定的函数形式形成的一一对应的关系称为函数关系,这种关系可以通过精确的数学表达式来反映。例如:圆面积与圆半径之间的关系 。2rS2相关关系:又称统计关系,是指两个变量之间存在某种依存关系,但变量 y 并不是由变量x 唯一确定的,它们之间没有严格的一一对应关系。例如:居民收入水平与消费品需求量之间,居民收入水平提高,人们对消费品的需求量也相应提高,但这种提高不是严格的一一对应关系,人们对消费品需求的多少不仅受到收入水平的影响,还要受到许多其他因素的影响,如消费习惯、消

5、费预期等。2相关关系特点相关关系具有如下两个特点: 现象之间确实存在着数量上的依存关系。 现象之间数量上的关系不是确定的。应当注意,函数关系与相关关系虽然是两种不同类型的变量关系,但它们之间并无严格的界限,由于有测量误差等原因,确定性关系在实际中往往通过相关关系表现出来;反之,当人们对事物的内部规律了解更深刻后,相关关系又可能转化为确定性关系。 (如圆周长与圆半径关系)二、相关关系的种类1根据相关关系的方向划分,有正相关与负相关。正相关:变量之间的变化方向一致,自变量 x 增加,因变量 y 也增加。负相关:变量之间的变化方向相反,自变量 x 增加,因变量 y 则减少。2根据自变量的多少划分,有

6、单相关与复相关。单相关:只反映一个自变量和一个因变量的相关关系。复相关:反映两个及两个以上自变量和一个因变量的相关关系。3根据相关的形式不同划分,有线性相关和非线性相关。线性相关:即直线相关,当相关关系的一个变量变动时,另一个变量也相应地发生大致均等的变动。非线性相关:即曲线相关,当相关关系的一个变量变动时,另一个变量也相应地发生变动,但这种变动是不均等的。4根据相关关系的程度划分,有不相关、完全相关和不完全相关。不相关:如果两个变量彼此的数量变化互相独立,没有关系,这种关系为不相关。完全相关:如果一个变量的数量变化由另一个变量的数量变化所唯一确定,这时两个变量间的关系称为完全相关。这种情况下

7、,相关关系实际上是函数关系,因此,函数关系是相关关系的一种特殊情况。不完全相关:如果两个变量之间的关系介于不相关和完全相关之间,称为不完全相关。大多数相关关系属于不完全相关。三、相关分析的主要目的和内容1相关分析的主要目的相关分析的主要目的是对现象之间的相互关系的密切程度和变化规律,有一个具体的数量的观念,进一步找出相互关系的模式,以便进行统计预测和推算,为制定计划、进行决策提供统计资料。2相关分析的主要内容 确定现象之间有无关系。 确定相关关系的表现形式。3 测定相关关系的密切程度和方向。相关分析的内容较多,本章仅介绍直线相关最主要、最基本的内容。第二节 相关关系的判断相关关系的判断方法主要

8、有表格法、图示法和相关系数法,下面分别介绍之。一、表格法表格法是根据两个相关变量,即自变量 X 与因变量 Y 的对应关系的数值编制而成的数据表,一般称为相关表。通过相关表可以初步看出各变量之间的相关关系,同时相关表还是绘制相关图和计算相关系数的基础。1简单相关表简单相关表的编制方法是:先将自变量的值按照从小到大的顺序排列出来,然后将因变量的值对应列上而编排成的表格。例如:将 40 亩地的耕作深度与亩产量资料列表如下。序号 耕作深度(cm) 亩产量(kg) 序号 耕作深度( cm) 亩产量(kg)1 12 300 21 16 3602 12 320 22 16 3803 12 300 23 16

9、 3804 12 340 24 16 3805 14 320 25 16 3806 14 340 26 18 3607 14 340 27 18 3608 14 340 28 18 3609 14 360 29 18 38010 14 360 30 18 38011 16 320 31 18 38012 16 320 32 18 38013 16 340 33 18 38014 16 340 34 18 40015 16 340 35 18 40016 16 340 36 20 38017 16 340 37 20 40018 16 360 38 20 40019 16 360 39 20 4

10、2020 16 360 40 22 420仔细观察表中数据就可以发现,随着耕作深度的加深,亩产量有提高的趋势。2分组相关表如果原始数据很多,运用简单相关表来表示就很难使用了。为了排除偶然因素的影响和使资料表达更简明,就要将原始资料进行分组,然后编制相关表,这种相关表称为分组相关表。分组相关表包括单变量分组表和双变量分组表两种。 单变量分组表。单变量分组表是依据自变量进行分组,并列出每组变量值出现的资料和因变量值的统计表,如:按耕作深度分组( cm) 亩数 平均亩产量(kg)12 4 32014 6 343416 15 35318 10 37820 4 40022 1 420合计 40 361从

11、上表也可以看出,平均亩产量随耕作深度的增加有增加的趋势。 双变量分组表。对两种有关变量都进行分组,交叉排列,并列出两种变量各组间的共同次数,这种统计表称为双变量分组相关表。例如,根据某汽运公司的汽车运木材成本和运量的资料,编制双变量分组相关表如下:木材运量 x(万立方米)运木材成本 y(元/立方米)111 1121 2131 3141 4151 合计1621 2 1 31116 5 3 4 1 13611 3 3 1 1 8合计 7 7 7 2 1 24上表显示,当木材运量较小时,相应运木材成本较高;当木材运量较大时,运木材成本则较低。二、图示法将现象之间的关系通过图像来表示,这种图像称为相关

12、图。在坐标图上,以横轴表示自变量,纵轴表示因变量,标出每对变量值的坐标点(散布点) ,表示其分布状况的图形即为相关图。相关图称为散点图、散布图。通过相关图可以大致看出两个变量之间有无相关关系。以及相关的形态、方向和密切程度。 强正相关。Oyx 弱正相关。5Oyx 强负相关。Oyx 弱负相关。Oyx 非线性相关。6Oyx 不相关。Oyx 若通过对客观现象和事物的定性分析,判明了它们之间没有什么关系,就用不着进行相关分析了。然而,定性分析往往不准确,如果现象之间确实存在着依存关系时,必然会贻误我们对现象的认识和研究。因此,在搞好定性分析的基础上,对现象之间有无相关关系作用出这量判断,特别是相关的程

13、度是否密切,是相关分析十分重要的一项工作。在统计上,一般是通过计算相关系数来测定现象的相关程度。三、相关系数法1相关系数的意义相关系数是在直线相关条件下,说明两个现象之间相关关系密切程度的统计分析指标。通常用 r 表示。相关系数的数值范围是在-1 到 +1 之间,即-10 为正相关,r0 为负相关。相关系数 r 的数值越接近于 1,表示相关关系越强,越接近于 0,表示相关关系越弱。如果 r=1 或 r=-1,则表示两个现象完全直线相关。如果 r=0,则表示两个现象不是直线相关。应当注意,r 只是表示 x 与 y 的直线相关密切程度,当 r 很小甚至为零时,并不表示 x 与 y 之间就不存在其他

14、非直线类型的相关关系。为了在判断时有个标准,一般认为:相关系数的绝对值在 0.3 以下是无直线相关的,0.3 以上是有直线相关,0.30.5 之间是低度直线相关,0.50.8 之间是显著相关(中等程度相关) ,0.8以上是高度相关。2相关系数的计算相关系数的定义公式为:7 22222 )()(/)(/)( yxnynxryx式中,n 表示资料项数;,表示 x 和 y 两个变量数列的协方差。xy/)(2,表示 x 变量数列的标准差;nx2,表示 y 变量数列的标准差;yy2)(由于它是通过将各个离差相乘的方法来说明相关程度的,所以通常把这种相关系数的公式叫做“积差法”相关系数公式。可以看出:r

15、取正值或负值决定于分子,当其为正时, r 为正,反之为负。要注意理解相关系数 r 中协方差的作用和变量 x、y 标准差的作用。 协方差的作用a显示 x 与 y 是正相关还是负相关。相关系数的正负号完全决定着协方差的正负号。b显示 x 与 y 相关程度的大小。协方差的绝对值小,相关程度低,反之就高。 标准差的作用在相关系数定义公式中,将协方差除以变量 x 的标准差与变量 y 的标准差的乘积,它的实际作用在于对 x 与 y 各自平均数的离差,分别用各自的标准差为尺度加以标准化,然后再求标准化变量的协方差。即: nnyxr yxyx )(2经过以上处理,其主要作用有两个方面:ax,y 协方差是名数(

16、即有单位) ,不同现象的变异情况不同,相关程度不能直接以协方差大小加以比较。标准化结果使协方差化为不名数,相关系数可以比较不同现象相关程度的高低。bx,y 协方差的值可以无限增加或减少,不便于说明问题,将变量离差标准化,使相关系数的绝对值不超过 1。在实际问题中,如果根据原始变量的数值计算相关系数,可运用相关系数简捷法计算公式:2222 ynxnyr此式可以不用计算两个变量数列的平均值与标准差,节约工作量,而且可以减少计算平均值除不尽所带来的误差。例 7.1 某公司 10 家连锁店月销售额和利润率的养料如表所示,要求计算其相关系数。序号 销售额(万元)x 利润率(%)y x2 y2 xy81

17、60 12.6 3600 158.76 7562 50 10.4 2500 108.16 5203 80 18.5 6400 342.25 14804 10 3.0 100 9.00 305 40 8.1 1600 65.61 3246 70 16.3 4900 265.69 11417 60 12.3 3600 151.29 7388 30 6.2 900 38.44 1869 30 6.6 900 43.56 19810 70 16.8 4900 282.24 1176合计 500 110.8 29400 1465.00 6549解:将表中计算资料代入相关系数计算公式得: 987.08.1

18、046550241.69222222ynxnyr上述计算结果表明,利润率与销售额之间存在高度的正相关关系。第三节 回归分析与一元线性回归一、回归分析概念及与相关分析的关系1回归分析的概念回归分析是在相关分析的基础上,考察变量之间的数量变化规律,并通过一定的数学表达式描述它们之间的关系,进而确定一个或几个变量的变化对另一个特定变量的影响程度。相关分析旨在测度变量之间的密切程度,它所使用的测度工具是相关系数;而回归分析则侧重于考察变量之间的数量变化规律,其所使用的数学工具就是配合回归模型。回归分析有线性回归分析与非线性回归分析之分。其中线性回归分析具有特别重要的意义,这是因为现象数量之间的变化常常

19、是按比例变化的,而许多非线性的变化在较短时间内也近似于线性变化,可以利用线性分析方法。线性回归分析分一元线性回归分析和多元线性回归分析两种。后者是指三个或三个以上变量之间的回归分析,一元回归分析是多元回归分析的基础。2回归分析与相关分析的区别与联系 回归分析与相关分析的区别。一是相关分析所研究的两个变量是对等关系,回归分析所研究的两个变量不是对等关系,必须根据研究目的确定其中的自变量和因变量。二是对于变量 x 与 y 来说,相关分析只能计算出一个反映两个变量间相关密切程度的相关系数,计算中改变两变量的地位不影响相关系数的结果;回归分析有时可以根据研究目的的不同分别建立两个不同的回归方程。三是相

20、关分析对资料的要求是,两个变量都是随机的,也可以是一个变量是随机的,另一个变量是非随机的。而回归分析中,自变量是可以控制的变量(给定的变量) ,因变量是随机变量。9 回归分析与相关分析的联系。相关分析是回归分析的基础和前提;回归分析是相关分析的深入和继续。二、一元线性回归模型1一元线性回归模型的概念一元线性回归模型又称简单直线回归模型。它是根据两个变量的成对数据,配合直线方程式,再根据自变量的变动值,来推算因变量的估计值的一种统计分析方法。对于所要考察的变量 y 来说,若其主要影响因素只有变量 x 一个,且 y 与 x 呈线性相关关系,则可在变量 y 和 x 之间建立的数学模型为:ba式中,

21、表示变量 y 的估计值,也称 y 的理论值;a 表示直线在 y 轴上的截距,代表直线的起点值;b 表示直线的斜率,又称为 y 对 x 的回归系数,它的实际意义是说明 x 每变化一个单位时,影响 y 平均变动的数量;回归系数 b 为正即正相关,否则为负相关;a 和 b 都叫做待定参数,它需要根据 y 与 x 的实际数据求解,一旦解出 a 和 b 的值,则表明变量之间一般关系的回归直线就随之确定。2拟合一元线性回归模型的条件任何一个数学模型的使用都是有条件的,一元线性回归模型也不例外。为使所拟合的数学模型达到最佳,一般应遵循如下条件: 两个变量之间确实存在显著的相关关系。要在对两个变量进行定性分析

22、的基础上,通过计算它们之间的相关系数值,看是否达到显著相关的要求。若两个变量之间确定具有显著相关关系时,这样拟合的回归模型才有实际意义。 两个变量之间确实存在直线相关关系。若将两个变量的成对数据绘成散点图,当这些散点的分布近似于直线时,才能拟合一元线性回归模型。 应根据最小平方法(又称最小二乘法)的原理似合一元线性回归模型。应用最小平方法原理确定一元线性回归模型中的两个待定参数 a 和 b 的值,既可以使实际值 y 与理论值 离差的代数和等于零,即 ,这说明回归直线上所有的 值是实际所有 y 值的平均值;0)(y又可以使用实际值 y 与理论值 的离差的平方和为最小,即 最小值,这说明所拟2)(

23、合的回归直线与各相关点的距离比任何其他直线与相关点的距离都小,所以说是最佳的理想直线。3一元线性回归模型中待定参数的确定方法由上述拟合模型的条件知,应根据最小平方法的原理来确定待定参数。具体方法如下:设:一元线性回归模型为 ,其中 为待定参数; 离差平方和为 。即:bxayba、 y对 Q最 小 值22)(Q欲使 Q 值达到最小,其必要条件是它对 a 和 b 的一阶偏导数等于零,即:0)(2bxayxba10由此可以整理成以下标准方程式:xybxan2由标准方程式可以解得: 22xnyby4拟合一元线性回归模型方法举例由实际资料拟合一元线性回归模型分为未分组资料和分组资料两种情况,下面分别予以

24、举例说明。其一:使用未分组资料拟合一元线性回归模型例 7.2 已知某乡镇 10 企业生产同种产品的月产量与生产费用的资料如表所示:企业编号 月产量(百吨)x 生产费用(百元) y xy x21 2 50 100 42 3 70 210 93 3 72 216 94 4 88 352 165 5 100 500 256 5 110 550 257 6 96 576 368 7 131 917 499 7 135 945 4910 8 148 1184 64合计 50 1000 5550 286解: 根据上表已知的 x 和 y 数据,计算出待定参数据 a 和 b 所需要所数据如下:5028610x

25、yn 将上述数据代入求解待定参数的计算公式:61.23578.1078.0265222 xbynyaxb 将 a 和 b 的数值代入公式,得出生产费用对月产量的一元线性回归模型如下:278.156.3式中, ,表明回归直线 y 轴上的截距,说明当月产量为零时,固定的生产费用11为 23.611(百元) ; ,是回归直线的斜率,表明当月产量每增加一个单位,生产费278.15b用平均数增加 15.2778(百元) 。 求出回归直线模型之后,可以利用其进行预测。例如,假定该乡镇新建一个该产品的同类企业,若已知其月产量为 9 百吨,则可以预测其生产费用为:(百元)12.6278.156.3y其二:使用

26、分组资料拟合一元线性回归模型分组资料拟合一元线性回归模型的方法步骤与未分组资料基本相同,其主要区别在于求待定参数时要注意加权。其标准方程组为: fxbfaxyf2求参数 a 和 b 的公式为:22fxfyyfbff例 7.3 已知资料如下,说明计算过程。工人看管织机台数(组中值)x时劳动生产率(米)y工人数f xf yf x2f xyf y6 14 10 60 140 360 840 12.04868 17 14 112 238 896 1904 16.964810 22 21 210 462 2100 4620 21.881012 25 30 360 750 4320 9000 26.797

27、214 32 33 462 1056 6468 14784 31.714316 37 32 512 1184 8192 18944 36.629618 42 21 378 882 6804 15876 41.5458合计 161 2094 4712 29140 65968 解:由表中资料可得: 6598214076xyffxf将这些资料代入如下公式: 16209458.16474581.2722 fxbfyaffyf因此,所求的一元线性回归模型为: 58.2712三、估计标准误差建立回归方程的一个主要作用在于根据自变量的已知数据推算因变量的估计值。这个估计值又称为理论值或称平均值,它与因变量的

28、实际值可能相同,也可能不同,因而产生了估计值的代表性问题。将一系列 值与 值进行比较,可以发现其中存在一系列离差,如何反映这些y离差的大小,一般是通过估计标准误差指标来测定的。估计标准误差是用来说明回归方程式代表性大小的统计分析指标。其计算原理与标准差基本上相同,计算公式为: 2)(nySy式中, 表示估计标准误差; 是因变量的实际值; 是根据回归方程推算出来的因变量y估计值。实际计算中,估计标准误差通常采用如下简捷公式: 22nxybaySy以前面的示例 7.2 资料为例:已知: ; ; ;105061.23a278.5b计算: 89342y将上述数据代入简捷公式得: ( 元 )15.821

29、05078.6.30942nxybaSy四、一元线性相关进一步分析即使相同的回归直线,所反映的现象之间相关的密切程度可能大不相同,这需要研究相关关系的密切程度。相关系数就是描述两个变量线性关系的密切程度的数量分析指标。相关关系的计算方法有两种:积差法和方差法。1积差法相关系数计算研究两个变量之间相关的密切程度,以离差平方总和为基础。设 y 的各实际值与估计值的离差平方和为 E。 22222 )()()()() xbxybyxay因为:2x,故: 2xby13则: 22 2)()( )(xbyxbE因为: ,故:02y令:1)()()( 2222 yxyxr则: yxyxSyr22)()(式中:

30、 为样本相关系数, 为样本协方差, 和 为样本标准差,rxySxSy根据上述原则计算的相关系数有如下几项特点:1相关系数之值介于 1与 之间,故 r 的绝对值不大于 1。2当 0b时, ,即:回归直线平行于 轴,说明 对 无线性关系。但并不说明x 和 y 不存在其他类型的相关关系。3 时, x与 y存在一定的线性关系。当 时,正相关;反之,负相关。r 0,rb4当 1时,x 与 y 有完全线性关系,完全正相关或完全负相关。2方差法相关系数计算在直线回归中,观察值 y 的大小是围绕直线上下波动的,y 值的这种波动现象称为离差。这种离差的产生,一是因为受自变量变化的影响,二是因为其他因素(如误差)

31、的影响。为了分析这两个方面的影响,需要对总离差进行分解。对每个观察值来说,离差的大小可以通过该观察值 y 与平均数 的离差(y- )来表示,而全部 n 次观察值的总离差可由这些离差的平方和表示:2)(yL离差 y- 都可分解成: )()(y则: 22)(y= )()(2 yy因为: 0)(所以:222 )()(yy令:SSR=)(,称为回归离差平方和SSE=2y,称为剩余离差(残差)平方和SST=22)()()( yy=SSE+SSRSSE 是计算标准误差的根据,SSR 是计算相关系数的基础。14令:STEyySTRr 1222E1在相关分析中, 称为判定系数,它是比较各估计值 i对平均值 y

32、的离散程度和各观察2r值 iy对 的离散程度的量度,即自变量所引起的回归的离差平方和占因变量的总离差平方和的比率。它能用来度量自变量与因变量相关的密切程度和回归方程对观察资料的拟合优度。习惯上,人们常用 来说明两变量线性关系的密切程度,可以与积差法相关系数取得一致的结果。3回归系数和相关系数的关系相关系数和回归系数有着十分密切的关系,这在说明比值 2r222/yxb判断相关的密切程度时已经预示。现着重指出相关系数与回归系数存在着下述的数量关系: yxyxyxbnr222/)(/)()(反之,如已知 ,则可以计算回归系数:rxy回归分析是研究两变量之间的因果关系,所以必须通过定性分析来确定哪个是

33、自变量,哪个是因变量。相关分析要求两变量存在相关关系,而相关的两变量就不一定呈现回归关系,可以是回归关系,也可以不是回归关系。回归分析对于因果关系不甚明确、或可以互为自变量的两变量,可以求出 y 与 x 的回归方程(或说 y 在 x 上的回归) bxay;还可求出 x 与 y 的回归方程(或说 x 在 y 上的回归)。dcx前者,回归系数:22)(n后者,标准方程: ydcx2y后者,回归系数:22)(ynx回归方程在进行预测估计时,只能通过自变量的数值来估计因变量的可能值。即对于15bxay,只能由已知 x 来推算 y 的估计值 ,而不能给定 y逆推 x。尽管在形式上逆运算是可行的,但对于回

34、归方程确定了具体自变量后便只能做单向推算。应该指出,利用最小二乘法求出的回归方程,只是对给定资料范围所配合的最优方程,若超出此范围,就不一定是最优的了。因此,借此方程进行内插与外推时要充分注意其有效性。内插只能在给定资料的范围内进行。外推预测要慎重,给出 x 值应紧挨给定资料区间的上下限,否则所进行的外推预测的有效性就明显削弱。若 x 值远离给出的区间,直线回归也许会变成某种曲线回归,外推预测就没有意义。五、回归分析中应注意的问题 在定性分析的基础上进行定量分析,是保证正确运用回归分析的必要条件。也就是说,在确定哪个变量作自变量,哪个变量作因变量之前,必须对所研究的问题有充分正确的认识。 在回

35、归方程中,回归系数的绝对值只能表示自变量与因变量之间的联系程度,以及两个变量的变动比例。因为其值大小直接取决于变量所用的计算单位的大小。 在进行回归分析时,为了使推算和预测更准确,应将相关系数、回归方程和估计标准误差结合使用。 要具体问题具体分析。回归方程是根据资料计算出来的,是一种经验数据,如条件发生变化,则推算或预测会不准确。第四节 多元线性回归和相关一、多元线性回归的概念前面只研究一元回归的问题,它反映的是一个因变量与一个自变量之间的关系。但在实际工作中,某一现象的变动常受多种现象变动的影响。例如,某块耕地面积上粮食产量的高低,一方面受施肥量多少的影响,同时也受播种量、温度、降雨量等因素

36、的影响。在统计中,研究一个因变量与多个自变量之间数量关系的理论和方法,称为多元回归,或复回归。研究在直线相关条件下,两个以上自变量对一个因变量的一般数量变化关系,称为多元线性回归。表现这种关系的数学式,称为多元线性回归方程。多元线性回归分析的原理与简单线性回归分析的原理相同,但计算要复杂得多。一般多元线性回归方程为: kxbxbay21式中:a、b1、b2bk 为待定参数;k 为自变量的个数。现在,着重探讨两个自变量线性回归及相关问题,二元线性回归方程式为: 21xy式中的 x1 和 x2 形成一个平面,称为 y 对 x1 和 x2 的回归平面。回归平面的意义类同于回归线的意义。a 为常数项,

37、是回归平面在 y 轴上相截的值。b1、b2 分别为 y 对 x1、x2 的回系数或部分回归系数。b1 表示当 x2 固定时,x1 每变动一个单位所引起 y 的平均变动值,b2 表示 x1固定时,x2 每变动一个单位所引起 y 的平均变动值。应该指出,在一般情况下,回归平面不是垂直于 y 轴的,y 的观察值在回归平面上下浮动。16二、多元线性回归的参数估计二元线性回归方程 21xbay中,各参数 a、b1、b2 值的确定,仍用最小二乘法。设 212E利用偏导求极值,可得三个标准方程式如下: yxbna21 xx1122212一般可用消元法或代入法求解三个参数的值, a值可由下式求出:21xbya

38、上述方法也可以推广到多个自变量的回归方程: n21应用最小二乘法可得 n+1 个标准方程式:yxbxbnan21 xx 111ynn222212 xbxbxxa nnnnn21by2应用矩阵法求解这组方程式,即可求得多元线性回归方程中各参数的数值。三、复相关系数和偏相关系数在配合了一个多元线性回归方程后,进一步要考虑如何反映变量之间相关的密切程度,常用的指标是复相关系数和偏相关系数。现就这两个系数的概念和计算方法分别说明。1复相关系数我们曾引用相关系数 r 来衡量回归直线对于观察值配合的密切程度。现在研究多个变量的回归,也需要引入一个指标来度量回归平面对所有相关点配合的密切程度。这个指标称为复

39、相关系数,用符号 nRy12表示。其计算方式为: 2)( ySEiiynRy12是以 x1 和 x2 及 xn 为自变量,而以 y 为因变量的复相关系数,它可以衡量 y 对x1,x2xn 相关的密切程度。如果每个观察值都与其估计值相等,则不仅 0iiy,且 02iiy。17这说明所有相关点均在所配合的回归平面上,这是密切程度最好的配合。反之,如配合的回归平面方程是 y,这时总误差 E 达到最大值,即 22iiii yy,复相关系数值等于 0,说明因变量与自变量之间没有线性关系。一般情况下,指标的数值是在 0 与 1之间,表示变量之间的相关关系有一定的强度。在研究多个变量相关关系时,偏相关系数有

40、两个或两个以上,有的是正值,有的是负值。复相关系数只取正值。复相关系数的定义分式 212)( yRiiny中诸因子可采用下列简便计算:由于2iiiy iniiiii yxbyxbyxya21 22212 ii iiiiiiy nynR 复相关系数的取值是介于-1 和+1 之间,和简单相关系数一样,也是用其绝对值的大小来判断相关的密切程度。2偏相关系数偏相关系数是衡量任何两个变量之间的相关关系,而使与这两个变量有联系的其他变量都保持不变。例如,我们研究销售额与人口数以及销售额与总收入之间的关系,人口数量的多少会影响销售额,总收入的大小也会影响销售额。由于人口数量经常的变化,总收入的大小也经常在变

41、化,既然人口数量和总收入都是影响销售额的重要因素,若把其中一个因素的关系不予考虑,只计算简单相关系数往往不能确切地说明现象间的关系程度。这时,必须在消除其他变量影响的情况下,即考虑了其他因素的影响而把它们当作不变。来计算两个变量之间的相互关系,这种相关系数称为偏相关系数。设变量 x1、x2、x3 之间彼此存在着相关关系,为了衡量 x1 和 x2 之间的关系,就要假定 x3保持不变,求 x1 和 x2 的偏相关系数,用 r13.2 表示。根据数学推导,偏相关系数的大小是由简单相关系数,即,(1)r123 是 x1 和 x2 的偏相关系数。其计算式为: )26.8(13233.2rrr(2) .1

42、是 x1 和 x3 的偏相关系数。其计算公式为: )27.8(1323.3rrr(3) 1.3是 x2 和 x3 偏相关系数。其计算公式为: )28.(3121.2rr18由于简单相关系数是反映两个变量相互关系程度的指标,所以,r21=r12,r31=r13,r32=r23,二者计算一个就可以了。应用偏相关系数,可以判断在许多自变量中哪些自变量对因变量的影响较大,来选择作为必须考虑的自变量。至于那些对因变量影响较小的自变量,则可以舍去不计。这样,在计算多元回归时,只要保留起主要作用的自变量,用较少的自变量描述因变量 y 的平均变动量。这样不仅简单计算工作量,且可明显地看出诸因素的主次重轻。四、多元线性回归的估计标准误差多元线性回归的估计标准误差,是说明使用多元线性回归方程进行推算的准确程度的分析指标,也是反映回归平面代表性大小的分析指标。由于它和一元线性回归估计标准误差的性质和作用是基本相同的,故不作详细说明。多元线性回归估计标准误差,也是根据因变量的实际值与估计值的平均离差来计算的。计算公式如下: 1)(212knySiy(8.29)式中的 k 为回归方程中参数的个数,n-k 为自由度的个数。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报