第八章相关与回归分析.doc-道客多多

资源描述

1、第八章相关与回归分析统计方法的一个重要目的是探讨事物的数量规律，那么，统计方法怎样探讨规律？对这个过程或机制的一个简单解释是：通过对性质不同的事物的大量观察，发现某些表面关系不大的事物之间存在着一定的依存关系，事物之间不是“独立”的，这使人们发现了一些“模式” ，比如，人们发现，菜肴如果比较“咸” ，就不容易变质，这个模式甚至成为许多人长期保持食物的方法。本章将介绍初步的探索统计规律的方法。要求：1.掌握相关系数的含义、计算方法和应用掌握相关系数的含义、计算方法和应用2.掌握一元线性回归的基本原理和参数的最小二乘估计方法掌握一元线性回归的基本原理和参数的最小二乘估计方法3.掌握回归方程的显著

2、性检验掌握回归方程的显著性检验4.利用回归方程进行预测利用回归方程进行预测4.掌握多元线性回归分析的基本方法掌握多元线性回归分析的基本方法5.了解可化为线性回归的曲线回归了解可化为线性回归的曲线回归6.用用 Excel 进行回归分析进行回归分析第一节变量间的相关及其度量一、相关关系的概念“事物是普遍联系的” ，这种联系在我们看起来或明或暗，或显或隐，运用统计方法的一个意图就是试图从数量上测度事物之间的“联系及其程度” 用统计学的眼光看，事物无非变量，因此，我们可以把事物间的关系视为变量间的关系。为了讨论的简明，我们暂时设定数量联系发生在两个事物或两个变量之间，此关系的紧密程度就是统计学要发现

3、和度量的对象。这种关系有一个极端的情况是一个变量的变化完全能够决定另一个变量的变化。例如，一瓶矿泉水 2 元钱，我们每多买一瓶，就要多花 2 元钱，把购买量（瓶）记为 x，花费金额记为 y，则 y=2x。其他的类似情况很多，其基本特点是：知道了一个变量的变化程度，就能够确定另一个变量的变化程度，这就是函数关系。然而，现实世界中还有许多情况是两事物之间存在着联系，但其方式不是“决定” ，比如，一般地看，一个人的身高越高，他的体重也“应该”越大，但我们会发现很多 1.69 米高的人比 1.70 米高的人重；又如，居民收入越高，储蓄额也会越大，但我们确实见过收入下降但储蓄额却上升的情况。类似的情况很

4、多：我们认识到存在着一定的规律，但这种规律是有弹性的，至少是会出现“意外”的，所以，这是一种非确定性关系。由于众多现象所形成的复杂性和我们认识的局限性，或者由于试验误差、测量误差等偶然因素，使得一个变量的变化，另一个变量可以取若干个随机的数值。统计学中把这种现象之间在数量上非确定性的对应关系叫做“相关关系”或“统计关系” 。因此，我们把相关看作是现象或变量之间的数量关联。1、完全确定的关联函数关系2、部分确定的关联 3、完全不确定的关联从以上的分析看，探讨现象之间的相关关系，可能是探讨事物内在确定性统计关系的一种捷径，至少也是能够指出探索方向的重要信息，而且许多现象也证实了这种机制。比如，天花

5、是一种毁坏性很强的传染病，但有人发现，牧场里挤牛奶的姑娘几乎从来不染天花，经过多次的“试-错”活动，牛痘诞生了，天花不再肆虐，以至于现在，天花病毒在某些范围内成为濒临灭绝的需要保护的生物物种；再如风湿性关节炎，是一种顽疾，但人们发现养蜂人几乎不患关节炎，与产生牛痘的艰难过程相似，治疗关节炎的“蜂毒”出现了。加拿大的一个科学家(Dr.Peter Yu)猜测：严重暴力犯是否在生理结构上就与正常人有区别？他研究了监狱内几十名严重暴力罪犯的血样，发现其中一种叫做 MAO 的物质只相当于正常人的 1/3，而且暴力犯罪越严重，MAO 含量越低。西班牙的一位科学家对斗牛士进行了相似的试验，也得到相似的结果。

6、加拿大的这位科学家同样也对一些胆子很小、 “不惜一切避免任何风险”的人进行了相似的试验，发现 MAO 含量偏高，他就着手研制一种药，能够降低某些胆小的人血液中的 MAO 含量，以使他们能与普通人同样低生活。这是一种现象：暴力倾向强的人，同时血液中 MAO 的含量也低，相反，胆子小的人，MAO 含量高。人们会很自然地猜测MAO 是否决定了一个人的暴力倾向？诸如此类的情况，都存在这样的过程：人们发现了某种现象的变化经常都会引起另一现象的变化，这可以被视为不太明确的规律，人们为了验证、利用这些规律，会进一步试验，筛选出最主要的变量，再进行理论论证，直至形成一种比较稳定的、可控的操作模式。这个过程用统

7、计术语来表述，就是：通过大量观察，发现了某两个变量之间的相关关系，再对这两个变量的一系列观测值进行有效的统计技术处理（下面将要介绍的回归分析方法是主要的手段），形成具有一定概率的统计规律。如何验证或解释统计规律则是统计方法以外的事业，前述三个事例都属于生物学、生理学领域。经济现象中的“恩格尔定律”也有类似的情形。二、相关关系的种类感知某种事物的存在，人们很自然地就要去理解、解释这种事物。现象间存在着相关关系，这些“关系”成为认识的对象，我们不禁要问：这些关系是怎样的？从科学方法的角度看，对我们的研究对象进行适当的分类是必要的。现象间的相关关系可以有多种分类。1、按相关的方向不同可以分为正相

8、关和负相关 2、按相关的形式不同可以分为线性相关和非线性相关当一个变量的变化幅度与另一个变量的变化幅度基本上是等比例时，这种相关关系就是线性相关。 “线性”一此来源于函数图象，一元一次方程的图象是直线，线性相关就是两个变量在平面直角坐标系上所描绘出的系列点基本呈直线。线性相关之外的相关关系都属于非线性相关，因为这些关系需要使用曲线方程来刻划和表达。3、按影响因素的数量不同分为单相关、复相关和偏相关两个变量的相关关系称为单相关；三个或三个以上变量的相关关系称为复相关；在三个及三个以上的相关变量中，若只反映其中两个变量的相关关系（假定其他变量不变），就称为偏相关。4、按照变量关联的密切程度

9、可分为完全相关、不完全相关和完全不相关（无关）习惯上所说的相关一般指的是介于完全相关和完全无关之间的“不完全相关”第二节简单线性相关分析一、相关分析的基本思想例如，某公司 10 个企业的销售收入和销售利润的资料如下：表 5-1 企业销售收入与销售利润相关表单位：万元企业编号销售收入 X1 销售利润 X212345678910102024303040505660601.82.02.43.54.45.05.05.66.06.41、相关图相关图也称散点图，是在平面直角坐标系中，以横轴表示变量 X，以纵轴表示变量 Y，将相关表中对应的资料数值在图上标出坐标点所形成的图形，图中的坐标点会显示一定

10、的相关关系。通过相关图可以大致看出两个变量之间有没有关系，是什么样的关系（正相关或负相关），相关的密切程度如何。将表 5-1中的资料绘制成相关图，能较直观地看出两个变量间的线性关系。图 5-1 企业销售收入与销售利润相关图012345670 10 20 30 40 50 60 70销售收入（万元）销售利润（万元）二、相关系数相关表和相关图都只能让我们了解现象之间相关关系的粗略情况，还不能进行“量化” ，为了更有效、更具普适性地表示现象之间相关关系的密切程度，还需要计算相关系数。相关系数是用于测定两个变量之间线性相关程度和相关方向的统计分析指标，用字母 r 表示。相关系数从原理上

11、说，可根据两个变量与其算术平均数的离差乘积来计算，这种计算方法称为“积差法” ，是计算相关系数的基本方法。其计算公式为：1 _ _- (x - x)( y - y) xynr = - = - （5.1）_ _/ 1 _ / 1 _ x y / -( x x ) 2 / - ( y y ) 2 n n式中：n 表示相关变量的项数； xy代表两个变量离差乘积的平均数，也称为变量 x 与 y 的协方差；其他符号的意义同前上式可用文字表述为：变量 x 与 y 的协方差相关系数 = - （5.2）变量 x 的标准差变量 y 的标准差式（5.1）还可作如下简化：_ _ (x - x)( y - y)r =

12、 - （5.3）_ _ / _ / _/ ( x x ) 2 / ( y y ) 2 或nxy - xyr = - （5.4） _ _/ / / nx 2 (x) 2 / ny 2 (y) 2 相关系数的积差法公式表明，在直线相关条件下，协方差 xy为正值时，相关系数也为正值，表示正相关； xy为负值时，相关系数也为负值，表示负相关； xy为零时，相关系数为 0，表示两个变量不相关。相关系数的变动范围在-1 到+1 之间，即|r|1，|r|的大小表示相关程度的高低。习惯上而不是严格意义上，我们还可以根据相关系数的值把相关关系的强度赋予一定的“名称” ，即相关系数的绝对值|r|在：0.3 以

13、下，称为微弱线性相关；0.30.5，称为低度线性相关；0.50.8，称为显著线性相关；0.8 以上，称为高度线性相关。如果计算相关系数时，使用的数据量较小，容易受偶然现象的影响，相关系数的可信度就比较低，这时需要对相关系数进行检验，检验样本相关系数 r对总体相关系数的代表性。三、等级相关（Rank Correlation）等级相关的全称是斯皮尔曼（Spearman）等级相关。等级相关也是一种直线相关分析。它是将数量特征值按等级次序排列，再测定数量等级之间的相关程度的一种方法，故又称为顺位相关或秩相关。根据等级相关法计算出来的相关指标叫做等级相关系数或斯皮尔曼系数。在测定时，首先是将数值编号号

14、码，然后顺次求两个变量每对符号等级的差量 d，即：d = x 等级 - y 等级（5.5）等级相关系数用表示，其计算公式为：6d 2= 1 - - （5.6）n（n 2 - 1）式中：n 代表等级的项数d 2代表所有差量平方之和的取值范围为-1，+1。若 x、y 等级次序完全相同时，d 2=0，=1，则 x、y 完全正相关；若 x、y 等级次序完全颠倒，= -1，则 x、y 完全负相关。若-11，则 x、y 非完全直线相关。设有甲乙二组售货员对 13 种女皮鞋的式样进行评价，评分情况如下：表 5-4 售货员对女皮鞋的评价分数皮鞋编号 1 2 3 4 5 6 7 8 9 10 11 12

15、13甲组 82 87 84 92 78 72 76 66 68 80 75 87 86乙组 76 83 83 80 74 72 86 69 74 72 70 76 76这种打分并不是客观的，也不精确，但可据此决定事物的等级或顺序。将评分改为等级的办法是：最低分定为 1 等，最高分本例定为 13 等。遇有相同分数时取原有等级的平均数。例如，甲组有两个 87 分，原来等级为 11、12，其平均数为 11.5，即作为这两个分数的等级；乙组有三个 76 分，原来等级为7、8、9，其平均数为 8，即作为这三个分数的等级。计算等级相关系数的资料如下：表 5-5 评价分数计算表编号甲组评分乙组评分

16、甲组等级 x 乙组等级 y等级差d = xyd212348287849276838380811.5913811.511.51000-2.53006.2595678910111213787276666880758786747286697472707676635127411.5105.53.51315.53.52880.5-0.5-80-3.53.523.520.250.2564012.2512.25412.254合计 125.06d 2 6125= 1 - - = 1 - - 0.6566n（n 2 - 1） 13（13 2 - 1）说明甲乙两个组售货员对女皮鞋式样的意见有中等相关。第三节一元

17、线性回归分析一、回归分析（Regession Analysis）的概念如果现象之间存在着相关关系，比如，变量 X 增长了，经常能发现变量 Y也在增长，变量 Y 下降的时候，变量 X 也经常在下降（这表现的就是相关关系），这时，不管人们能否解释 X 和 Y 之间的逻辑关系或内在的确定性，他已经知道，可以在某种程度上利用这个规律。一个问题接踵而至当 X 增加 1%时，Y 会增加多少？这就涉及了回归的问题。“回归”一词不如“相关”一词更直观。Regession 意为“衰退” ，其最早是用于“特异现象向普通现象复原或倒退”意义上的“回归” ，或者说，是“从特异回归到平常” 。高尔登（Francis

18、Galton）依据不太精确的经验发现了一个现象：高个子的夫妇一般会生育较高个子的孩子，低个子的夫妇也会生育较低个子的孩子，但比父母更例外的后嗣较为少见。为了探讨这种遗传学问题，他在 1885 年进行了豌豆试验，以验证关于“个子”的猜想，结果如下：表 5-6 高尔登的香豌豆试验数据单位：0.01 英寸代别种子直径上一代下一代1515.41615.71716.01816.31916.62017.02117.3小个子豌豆的下一代没那么小，大个子豌豆的下一代不是变得更大，而是比上一代较小些，高尔登称此为“回复变异” 。他说：“回复变异是理想平均子型与父型有差异的趋势使回复到可以粗略地也许正确地称之

19、平均祖先型。 ”回归分析法在后人手中发扬光大，现在已经成为重要的统计方法。它描述的是一个变量怎样地依赖于另一个变量，或者说，当一个变量发生一定的变动时，另一个变量将会发生怎样的数量变动。回归分析的目标是发现一个能充分解释所研究的事物关系的最简单和最实用的数学模型。二、回归模型的建立如果两个变量存在着相关关系，并且一个变量的变化会引起另一个变量的变化，则两个变量间的关系就可以拟合回归模型。本节介绍基本的回归分析方法一元线性回归模型。设有以下数据：表 5-7 某产品产量与单位产品成本资料产品产量(千件) 289 298 316 321 322 327 329329331 350单件成本(元) 43

20、.5 42.942.139.639.137.538.538 38 37先用上表资料绘制散点图：对于这样一幅散点图，很容易看出有一种趋势，而且是直线趋势。但怎样确定这条直线才能使它对这 10 个点的概括最为准确？设直线的方程式为y = a + bx （5.7）与5-2 与与与与与与与与与与与与363738394041424344280 300 320 340 360产品产量（千件）单位产品成本（元）式中 x 为自变量，在回归分析中，由于我们要观察的是因变量随自变量的变化而变化的程度，所以可以假定自变量是可控的，不是随机变量，通常是现象研究者事先选定的数值；a 为估计直线在纵轴上的截

21、距，它是估计直线通过纵轴点的 y 坐标；b 为估计直线的斜率，它表示当 x 增加 1 个单位时 y 的平均增加数量；y 为估计值。这条直线的根本目的是要代表那 10 个散点，那么，代表性最强的直线应该是最恰当的直线。怎样才能做到代表性最强？衡量代表性的原理或原则是什么？要回答这个问题请先回忆一下算术平均数，几个变量值最有代表性的指标是算术平均数（数理统计可进行证明，日常生活经验也使我们相信平均数），它有一个数学性质：各变量值与算术平均数离差的平方和为最小，即_ (x-x) 2 = min （5.8）从这个现象中，我们可以得到这样的结论：只有“离差平方和最小”的代表值才是最好的代表值这成为判别一

22、个回归方程是否准确的基本标准，该方法在统计学中叫做“最小平方法”或“最小二乘法”。得到如下表达式：( y y )2 = min （5.9）即( y a - bx )2 = min （5.10）对 a 和 b 求偏导数，并令其为零，整理后得下列方程组：y = na + bx （5.11）xy = ax + bx 2解方程组得y bx _ _a = - - - = y - bx （5.12）n nnxy - xyb = - （5.13）nx 2 (x) 2可求出式（5.7）中的 a、b，并确定直线回归模型。现根据表 5-7 中资料拟合回归直线。表 5-8 产品产量与单位成本回归模型计算表计算栏序号

23、单位成本y（元）产品产量x（千件） xy x2 y21234567891043.542.942.139.639.137.538.538.038.037.028929831632132232732932933135012571.512784.213303.612711.612590.212262.512666.512502.012578.012950.08352188804998561030411036841069291082411082411095611215001892.251840.411772.411568.161528.811406.251482.251444.001444.00136

24、9.00合计 396.2 3212 126920.1 1034378 15747.54将上表资料代入公式（5.13）和（5.14），解得：nxy xy 10126920.1 - 3212396.2 -3393.4b= -= - = - = -0.11264nx 2 (x) 2 101034378 - 32122 26836y bx 396.2 3212a = - - - = - - （-0.1264）- = 80.22n n 10 10得回归方程：y = 80.22 - 0.1264x图示如下：与5-3 与与与与与与与与与与与与363840424446280 300 320 340 360产

25、品产量（千件）单位产品成本（元）三、估计标准误差建立回归模型，理论基础是最小平方法，事实依据是若干对因变量、自变量的数值。而因变量、自变量的数值在绝大多数情况下都是样本值，虽然自变量是可控的，非随机的，但作为这一对数值却是随机的，与抽样指标相似，仍然存在着样本代表性的问题，同样需要计算这种随机数值的平均误差。其基本原理仍然是计算“离差平方和”（衡量算术平均数的代表性大小时使用此法，衡量抽样指标的代表性大小时延用此法），不同的是，这里的离差指的是实际值与估计值之间的离差。估计标准误差的计算公式为：_/ ( y y ) 2Sy = / - （5.14） n 2仍以表 5-8 数据为例，

26、计算估计标准误差。表 5-9 产品产量与单位成本回归模型的估计标准误差计算表序号单位成本 y（元）产品产量 x（千件） y （y - y） 21234567891043.542.942.139.639.137.538.538.038.037.028929831632132232732932933135043.6942.5540.2839.6539.5238.8938.6338.6338.3835.980.03610.12253.31240.00250.17641.93210.01690.39690.14441.0404合计 396.2 3212 396.20 7.1806将有关数据代入式（5

27、.15），则回归模型的估计标准误差为_ _/ ( y y ) 2 / 7.1806Sy = / - = / - = 0.947 n 2 10 2在利用式（5.15）计算估计标准误差时，计算很繁琐，可利用已知的a、b 值来计算估计标准误差。其公式为：_/ y 2 - ay - bxySy = / - （5.15） n 2根据前述资料，可利用式（5.16）计算估计标准误差：_/ 15747.54 80.22396.2 -（-0.1264）126920.1Sy = / - = 0.941 10 2该结果与前种方法所得结果的误差是计算中舍入所致，可忽略不计。估计标准误差的作用，一方面用来衡量回归模型的

28、拟合优度（有效程度），另一方面用来对实际的值 y 落到估计值 y 周围的区间做出一个大概的说明。如同抽样推断中的抽样平均误差一样，如果样本数据点围绕回归模型服从正态分布，那么，实际的 y 值落在估计值 y 加减一个 Sy范围内，有 68.27%的可靠性，实际值 y 落在估计值 y 加减 2 个 Sy范围内，有 95.45%的可靠性，实际值 y 落在估计值 y 加减 3 个 Sy范围内，有 99.73%的可靠性。四、可化为线性回归的非线线回归无论是自然现象还是社会现象，现象间的关系不都是线性关系，而且许多关系在一段时间内表现出线性特征，在更长的时间内，可能又表现为非线性特征；也有些关系在较短时间

29、内表现为非线性特征，而在长期内又表现为线性特征。对于非线性关系，需要使用相应的模型来拟合，非线性模型一般都比较复杂，但有些非线性模型可以化为线性模型。1、指数函数 y = e x （5.16）两边同时取对数ln y = ln+x令 y=ln y, 则y = ln+x （5.17）2、幂函数 y = x （5.18）两边同时取对数ln y =ln+ln x令 y=ln y, x=ln x, 则y= ln+x （5.19）x3、双曲函数 y = - （5.20）x+令 y=1/y, x=1/x, 则y=+x （5.21）4、对数函数 y =+ln x （5.22）令 x=ln x, 则y

30、=+x （5.23）15、逻辑斯蒂曲线 y = - （5.24）+e -x令 y=1/y, x=e-x, 则y=+x （5.25）第四节多元线性回归分析“事物是普遍联系的”，因为有“联系”，使我们可以探索它，不至于一无所知、逆来顺受；因为“普遍”，又使我们对“联系”的探索举步维艰，一个现象的变化，往往找不到一个直接因素，经常都是在很多因素的影响下，一件事物变化了。复杂的现象常常具有多方面的联系，涉及多个变量之间的数量关系。在许多实际问题中，某个因变量常随着多个自变量的变动而作相应的数量变化，对于这类问题的处理应采用多元回归分析方法。多元回归分析是研究一个因变量与多个自变量之间相关关系的统计

31、分析方法。由于多元回归考虑到多个自变量对因变量的影响，能够更真实地反映现象之间的相互关系和相互作用，因此被广泛地应用于科学研究和实验数据的分析当中，成为使用非常广泛的统计方法。例如，产品产量不但受劳动时间影响，而且还受技术水平、工人劳动能力、年龄、性别和设备的生产效率等因素的影响。对这类问题，就可以采用多元回归分析的方法来加以研究。本节简要介绍多元线性回归分析的方法。多元线性回归分析实际上可以视为一元线性回归分析方法的拓展，其基本原理与一元线性回归分析的原理相似，但在计算上要复杂得多。一、多元线性回归模型设影响因变量 y 的主要因素有 k 个：x 1,x2,x3,xk，则可以建立如下多元线性回

32、归模型：y = b0 + b1x1 + b2x2 + + bkxk （5.26）每个自变量的系数表示，当其他自变量都固定，该自变量变动 1 个单位时，y 的平均变动量。如 b1表示当 x2xk固定时，x 1每变动一个单位而引起 y 的平均变动量。b 2 表示当 x1,x3xk 固定时，x 2 每变动一个单位而引起 y 的平均变动量，等等。也可以这样理解：每个自变量的系数是一种权数，它表示每个自变量的变化对因变量总变化各自的贡献程度。多元线性回归分析是建立在简单线性回归所使用的假设和方法的基础之上的，对于式（5.27）中自变量的 k 个系数，均可采用最小平方法原则求得，下面以二元回归分析为例来介

33、绍多元回归模型的分析方法。二元回归分析就是只分析两个自变量对因变量的影响，其回归模型为：y = b0 + b1x1 + b2x2 （5.27）式中的三个自变量系数由下列三个方程式确定：nb0 + b1x 1 + b2x 2 = y b0x 1 + b1x 12 + b2x 1x2 = x 1y （5.28）b0x 2 + b1x 1x2 + b2x 22 = x 2y现以表 5-10 的资料为例，拟合二元回归模型（假设自变量之间没有较强的线性关系）。表 5-10 某地区空调销售量、销售加工及年人均收入资料年份销售量(万销售价格年人均收入计算栏台)y(千元/台)x1(千元)x2 x12 x22

34、x1y x2y x1x219851986198719881989199019911992199319941.51.72.02.32.52.72.93.13.33.53.03.13.23.53.63.53.63.73.74.00.81.01.21.51.82.32.52.93.33.89.009.6110.2412.2512.9612.2512.9613.6913.6916.000.641.001.442.253.245.296.258.4110.8914.444.505.276.408.059.009.4510.4411.4712.2114.001.201.702.403.454.506.21

35、7.258.9910.8913.302.403.103.845.256.488.059.0010.7312.2115.20合计 25.5 34.9 21.1 122.6553.8590.7959.8979.26将表 5-10 中的资料代入上式得：10b0 + 34.9b1 + 21.1b2 = 25.534.9b0 + 122.65b1 + 79.26b2 = 90.7921.16b0 + 79.26b1 + 53.85b2 = 59.89解得：b0 = -0.481b1 = 0.744b2 = 0.206将结果代入式（5.28）得二元回归模型：y0 = -0.481 + 0.744x1 +

36、0.206x2 二、多元回归的估计标准误差与一元回归分析相同，估计本身是随机的，因此也就存在着误差，为了衡量这种误差的一般程度，也需要计算估计标准误差。多元回归估计标准误差的计算公式为：_/ ( y y ) 2Sy = / - （5.29） n (k + 1)式中，（k+1）为自由度式（5.29）可有简捷计算公式：_/ y 2 b0y b 1x 1y b2x 2y - - bkx kySy = / - （5.30） n (k+1)例如，对于二元回归模型，就有_/ y 2 b0y b 1x 1y b2x 2ySy = / - （5.31） n (2+1)将表 5-10 资料和自变量系数数值代入式

37、（5.31），就可得空调销售量回归的估计标准误差。_/ 69.13 （-0.481）25.5 0.74490.79 0.20659.89Sy = /- = 0.2158（万台） 10 3结果表明。若用回归模型 y0 = -0.481 + 0.744x1 + 0.206x2估计因变量的数值，则平均离差为 0.2158 万台。三、相关分析与回归分析的比较1、相关分析与回归分析都只对样本数据负责。一般地看，想要了解现象间的关系，只能用一对变量的若干观察值或样本值进行相关分析与回归分析，所使用的分析方法是有理论依据的，但数字资料本身却各有不同，观察范围越广，采样越密集，得到的分析结果也会越准确。如果变

38、量的变化范围发生改变，或变量本身的性质发生变化，原有分析结果就不再具有原来的代表性，需要重新建立回归模型。2、计算相关系数时，两个变量不必区分自变量和因变量，但在回归分析时，必须区分自变量和因变量（对于一元回归而言，自变量与因变量的位置互换，相当于原来的反函数）。从统计学的数学性质来讲，我们可以不去考虑所研究事物的性质，只从它们的数量关系上分析其数量规律，这时，我们没有理由把某一个变量一定要确定为自变量。但统计方法的运用都针对的是实际问题，对统计关系的定量不能代替我们对事物的理解。为了使统计方法的使用更有效，应该从事物的性质出发，尽量合理地确定自变量和因变量，至少不能对事物因果关系的存在视而不

39、见。当然，这个工作确定谁是自变量，谁是因变量需要对该领域有一定程度的了解，从这个意义上说，统计方法要想发挥较大的作用，离不开对分析对象的本质认识；对客观事物的深入分析，也要熟练运用统计方法，以使分析更准确，对规律的表述更清晰。3、相关系数表示的是变量之间关系的紧密程度，回归分析能反映变量之间的相互影响关系和数量规律性。运用回归模型，可以对现象进行一定的预测，主要包括内插法和外推法，内插法可以推测自变量变化范围以内的因变量结果，外推法可以推测自变量变化范围以外的因变量结果，相对而言，内插法预测的结果会准确一些，而外插法预测的准确程度要低一些，尤其是自变量的取值远离拟合模型时的数据时，准确程度更要降低。4、对“发现”机制的一种解释。相关与回归方法的运用，有助于发现某些客观机制。我们总是在对大量的事物进行观察，并且时时都渴望着发现某个规律。一个人突然发现，P 和 Q 两个事物间存在着一定的依存关系（如前述牛痘与天花、蜂毒与关节炎），但这离规律还差很远，为了明确、清晰地表述这个规律，他需要一系列的特定观测，并对观测值进行大量的统计分析，形成科学的认识。这一过程用统计术语来描述，就是：大量观察，获得统计数据发现相关性寻找特定的数据或设计一个试验以获得必要的数据准确描述相关性（建立回归模型）对回归模型进行检验调整回归模型探讨变量之间的内在决定性（这一步工作在统计学领域之外）。

展开阅读全文

第八章 相关与回归分析.doc

第八章相关与回归分析.doc