收藏 分享(赏)

回归分析的基本概念.doc

上传人:weiwoduzun 文档编号:3218380 上传时间:2018-10-07 格式:DOC 页数:23 大小:764.50KB
下载 相关 举报
回归分析的基本概念.doc_第1页
第1页 / 共23页
回归分析的基本概念.doc_第2页
第2页 / 共23页
回归分析的基本概念.doc_第3页
第3页 / 共23页
回归分析的基本概念.doc_第4页
第4页 / 共23页
回归分析的基本概念.doc_第5页
第5页 / 共23页
点击查看更多>>
资源描述

1、回归分析的基本概念现实生活中的许多现象之间存在着相互依赖、相互制约的关系,这些关系在量上主要有两种类型:1. 确定性关系,即我们所熟悉的变量之间的函数关系,如圆的半径 R 与圆的面积 S 之间就存在确定的函数关系: ;2. 非确定性关系,即变量之间虽然有密切的关系,但这种关系却无法用确定的函数关系表达,如人的年龄与血压之间有密切的关系,但却找不到一个函数能准确地表示它们之间的关系,变量之间的这种非确定性关系,称为相关关系.值得注意的是,即使是具有确定性关系的变量,由于测量误差的影响,其表现形式也具有某种程度的不确定性.具有相关关系的变量间虽然不具有确定的函数关系,但是通过大量的观测数据,可以发

2、现它们之间存在一定的统计规律,数理统计中研究这些统计规律或者说研究变量之间相关关系的方法就是所谓的回归分析.它能帮助我们有效地从一个可以控制或可以精确观察的变量取得的值去估计另一随机变量所取的值.如用年龄估计血压.设 是可以精确测量或控制的非随机变量, 是随机变量, 的变化将使 发生相应的变化,但它们之间的变化关系是不确定的,若对于 的任一可能值 x,相应服从一定的概率分布,则称随机变量 与变量 存在相关关系.进行 n 次独立试验,得试验数据其中 及 分别是变量 及随机变量 在第 i 次试验中的观测值 ,常把点( , ) 画在直角坐标平面上,得散点图(图 1). 显然,散点图不能很好地表示 与

3、 之间的相关关系,问题是如何根据这些观测值,找出能表达 与 之间相关关系的最佳形式.由于 的随机性,对于 的每一确定值 x, 有它的分布,从而它的数学期望(若存在的话)也随 取确定值而确定,而数学期望能反映随机变量所取数值的集中位置,因此,取 =x 时 的数学期望作为 =x 时 的估计值比较合理,即.显然, 是 x 的函数 ,记为 , 称为 关于 的回归函数,称为 关于 的回归方程.回归方程反映出 的数学期望 随 的变化而变化的规律,近似地描述了 与 之间的相关关系.然而,要完全确定回归函数 却很困难,回归分析的基本内容是估计 ,散点图可以帮助我们粗略地了解用什么形式的函数估计随机变量 的数学

4、期望要好些,所研究问题的物理背景也可帮助我们确定函数 的类型.在确定了函数的类型后,可设 .其中 为未知参数 ,余下的问题就是利用试验数据,依照一定的准则选择参数 的估计值 ,使方程 . 在一定的意义下最佳地表现 与 之间的相关关系.而所谓的准则就是将要讨论的最小二乘法.最小二乘法设随机变量 关于变量 的回归方程为 . 用最小二乘法估计参数 ,就是要选择参数 ,使 的观测值 与相应函数值 的离差平方和达到最小.下面讨论最小二乘法的概率意义.设当变量 取任意实数 x 时,随机变量 服从正态分布 ,即 的概率密度 .其中数学期望 ,而方差 是不依赖于 x 的常数,设在n 次独立试验中得到观测值(

5、, ) ,其中 服从正态分布,则用极大似然法估计参数 时的似然函数为为使似然函数取得最大值,应使上式指数中的平方和取最小值,即为了使观测值( , ) 出现的可能性最大,应选择参数 ,使 的观测值 与相应函数值的离差平方和达到最小.分别求 对 的偏导数,并令它们等于零,得方程组解上面的方程组,求出参数 的估计值,即可得到回归方程.然而,一般来说,解上面的方程组是很困难的,仅当函数 是参数 的线性函数时,才比较容易求出参数 的估计值.这是下节将要讨论的线性回归方程问题.线性回归方程变量的相关关系中最为简单的是线性相关关系,设随机变量 与变量 之间存在线性相关关系,则由试验数据得到的点( , ) 将

6、散布在某一直线周围,因此,可以认为 关于 的回归函数的类型为线性函数,即 ,下面用最小二乘法估计参数 、 b,设 服从正态分布 ,分别求 对 、 b 的偏导数,并令它们等于零,得方程组解得 其中 ,且 为观测值 的样本方差.线性方程 称为 关于 的线性回归方程, 称为回归系数,对应的直线称为回归直线.顺便指出,将来还需用到 ,其中 为观测值的样本方差.值得注意的是,关于 的计算可以利用具有统计计算功能的电子计算器进行,而当电子计算器具有线性回归计算的功能时,把所有试验数据( , ) 逐对存入计算器中,则可直接算出 及 的值.例 1 某商场一年内每月的销售收入 (万元)与销售费用 (万元)统计如

7、下表187.1 25.4 239.4 32.4 242.0 27.8179.5 22.8 217.8 24.4 251.9 34.2157.0 20.6 227.1 29.3 230.0 29.2197.0 21.8 233.4 27.9 271.8 30.0求销售费用 关于销售收入 的线性回归方程.解:计算得 , , ,所以 所求线性回归方程为 散点图及回归直线如图 2 所示.相关系数的显著性检验现在讨论线性相关的显著性检验中最简便、最常用的一种方法,即相关系数的显著性检验法.我们早在前面的学习中知道,变量 与 的相关系数 是表示 与 之间线性相关关系的一个数字特征,因此,要检验随机变量 与

8、变量 之间的线性相关关系是否显著,自然想到考察相关系数 的大小,若相关系数 的绝对值很小,则表明 与 之间的线性相关关系不显著,或者它们之间根本不存在线性相关关系;当且仅当相关系数 的绝对值接近 1 时,才表明 与 之间的线性相关关系显著,这时求 关于 的线性回归方程才有意义.在相关系数 未知的情况下,可用样本相关系数 r 作为相关系数 的估计值,参照相关系数的定义,并用样本均值与样本方差分别作为数学期望与方差的估计值,定义 与 的样本相关系数如下:因此,根据试验数据( , ) ,得到 的值后可进一步算出样本相关系数 r 的值. 若使用的是具有线性回归计算功能的电子计算器时,把所有试验数据(

9、, ) 逐对存入计算器中,则可直接算出 r 的值.由于样本相关系数 r 是相关系数 的估计值,所以, r 的绝对值越接近 1,与 之间的线性相关关系越显著. 当 r0 时,称 与 正相关;当 r0 时,称与 负相关. 而当 r 的绝对值接近 0 时,则可认为 与 之间不存在线性相关关系. 然而,样本相关系数 r 的绝对值究竟多大,才能认为 与 之间的线性相关关系显著? 线性回归的方差分析的结果可帮助我们解决这一问题. 由于,所以 . 对于给定的显著水平 ,由 F 的临界值 ,确定相关系数的临界值,这里由于 F 的第一个自由度恒为 1,从而 F 的临界值以及由它确定的相关系数的临界值实际上只依赖

10、于 F 的第二个自由度 .由试验数据计算出样本相关系数 r, 则(1) 当 时,认为 与 之间的线性相关关系不显著;(2) 当 时,认为 与 之间的线性相关关系显著;(3)当 时,认为 与 之间的线性相关关系特别显著 .因此,讨论随机变量 与变量 之间的线性回归问题,应按下列步骤进行(1) 根据试验数据( , ) 先计算 的值,然后求出样本相关系数 r 的值,查相关系数显著性检验表确定相关系数的临界值,推断与 之间的线性相关关系是否显著;(2) 若 与 之间的线性相关关系显著,则用最小二乘法计算 及 的值,得关于 的线性回归方程,该方程大致描述了 与 之间的变化规律;(3) 利用得到的线性回归

11、方程解决预测和控制的问题(下一节将介绍).例 3 某商场一年内每月的销售收入 (万元)与销售费用 (万元)统计如下表187.1 25.4 239.4 32.4 242.0 27.8179.5 22.8 217.8 24.4 251.9 34.2157.0 20.6 227.1 29.3 230.0 29.2197.0 21.8 233.4 27.9 271.8 30.0利用相关系数显著性检验表检验该商场每月的销售费用 与销售收入 之间的线性相关关系是否显著.解:由 , , 得 查相关系数显著性检验表,当 时,因为 ,所以,认为 与 之间的线性相关关系特别显著. 与前面用线性回归的方差分析得到的

12、结论一致,因此,线性回归的方差分析与相关系数的显著性检验只做一个就可以了,通常做得比较多的是相关系数的显著性检验.利用线性回归方程预测和控制当随机变量 与变量 之间的线性相关关系显著时,由试验数据( , )得到的 关于 的线性回归方程 大致反映了 与 之间的变化规律,但由于它们之间的关系是非确定性的,对于 的任一值 ,不可能确定 的相应值 ,由回归方程确定的 只是 的估计值,我们自然关心,若以 作为 的估计值,其精确性及可靠性能否保证 ? 因此,对于给定的 ,需要预测对应的 的观测值的取值范围,即必须对 进行区间估计,对于给定的置信概率 ,求出 的置信区间,称为预测区间,求预测区间的方法如下.

13、设 其中 为剩余平方和,称 s 为剩余标准差,它反映了观测值偏离回归直线的程度,可以证明 . 对于给定的置信水平 ,确定 ,使即 .因此, 的对应于置信概率 的预测区间为由于 n 充分大时 . 预测区间可近似地取为 .例如, =0.05 时, , 的对应于置信概率 0.95 的预测区间为这时,对于试验数据( , ) ,有 因此,若在回归直线 L: 的上下两侧分别作与回归直线平行的直线及 ,则所有可能出现的试验点( , ) 中,约有 95%的点落在这两条直线之间的带型区域内(图 3)显然,剩余标准差 s 的值越小,用线性回归方程预测的值则越精确,因此,可用剩余标准差的大小衡量预测的精确度,至于预

14、测的可靠性则可由置信概率体现.另外,值得注意的是,利用线性回归方程进行预测,一般只能在原来的试验范围内进行,不能随意扩大范围.接着讨论控制问题,所谓控制问题其实是预测问题的反问题,即要求 的观测值 y 在某区间 内取值时,问应控制 的值 x 在什么范围? 亦即对于给定的置信概率 ,求出相应的控制区间 B,使 时, x 所对应的观测值 y 落在区间 内的概率不小于 ,当 n 充分大时,令图 3则可求出相应的控制区间 B 的上下限. 下面以置信概率 为例进行更为详尽的讨论. 由 ,得 若 ,则当 时, ,因此,当 时,即控制区间为 ;同理,当 时,控制区间为 .控制区间的直观表示请看图 4,其中

15、L: 为回归直线,直线 及 均与回归直线平行. 另外,必须注意,为了实现控制,区间 的长度要大于 3.92s,即 .例 4 某商场一年内每月的销售收入 (万元)与销售费用 (万元)统计如下表187.1 25.4 239.4 32.4 242.0 27.8179.5 22.8 217.8 24.4 251.9 34.2157.0 20.6 227.1 29.3 230.0 29.2197.0 21.8 233.4 27.9 271.8 30.0(1) 若该商场某月的销售收入为 220 万元,求当月销售费用的预测区间.(2) 若要求某月的销售费用在 22 万元到 32 万元之间,则该月销售收入应该

16、在什么范围? (取置信概率为 95%)解:(1) 在第 2 节例 1 已求得线性回归方程为 则当 时, 又在第 3 节例 2 中已算得 ,所以 . 因此置信概率为 95%的预测区间为即(22.58,31.76) (2) 由得 ,控制区间为(214.60,222.26) ,即销售收入在 214.60 万元到 222.26 万元之间.化非线性回归为线性回归在实际问题中,当变量之间的相关关系不是线性相关关系时,不能用线性回归方程描述它们之间的相关关系,需要进行非线性回归分析,然而,非线性回归方程一般很难求,因此,把非线性回归化为线性回归应该说是解决问题的好方法。首先,所研究对象的物理背景或散点图可帮

17、助我们选择适当的非线性回归方程. 其中 及 b 为未知参数(在此仅讨论含两个参数的非线性回归方程) ,为求参数及 b 的估计值,往往可以先通过变量置换,把非线性回归化为线性回归,再利用线性回归的方法确定参数 及 b 的估计值。下面列出常用的曲线方程及其图形,并给出相应的化为线性方程的变量置换公式。以帮助我们观察散点图确定回归方程的类型。不过,值得注意的是,散点图毕竟只是相关关系的粗略表示,有时散点图可能与几种曲线都很接近,这时建立相应的回归方程可能都是合理的,但一个非线性回归问题,由于选择不同的非线性回归,得到同一个问题的多个不同回归方程,哪一个回归方程最优呢? 对于能化为一元线性回归的问题,

18、可通过计算样本相关系数的办法来解决,样本相关系数的绝对值最大的对应最优的回归方程。曲线方程 变换公式 变换后的线 性方程 曲线图形例 5 在彩色显影中,析出银的光学密度 与形成染料的光学密度 的试验数据如下:0.05 0.10 0.14 0.59 0.38 1.190.06 0.14 0.20 0.79 0.43 1.250.07 0.23 0.25 1.00 0.47 1.290.10 0.37 0.31 1.12 求 关于 的回归方程.解:由散点图(图 5)知可设回归方程为 (b0)其中 A 及 b 为参数,两边取对数,得 ,作变量代换 , 并设 ,得 ,则由试验数据( , ) ,求出对应

19、数据( , ) 如下20.000 -2.303 7.143 -0.528 2.632 0.17416.667 -1.966 5.000 -0.236 2.326 0.22314.286 -1.470 4.000 0 2.128 0.25510.000 -0.994 3.226 0.113 计算得样本相关系数 查相关系数显著性检验表,当 时, 因为 ,所以,认为 Y 与 X 之间的线性相关关系特别显著 .再求 及 b 的估计值则 Y 关于 X 的线性回归方程为 换回原变量,得 ,即 所以, 关于 的回归方程为 .多元线性回归方程在许多实际问题中,还会遇到一个随机变量与多个变量的相关关系问题,需要

20、用多元回归分析的方法来解决。前面介绍的一元回归分析是其特殊情形。但由于多元回归分析比较复杂,在此仅简要介绍多元线性回归分析。设随机变量 及变量 (m2),进行 n 次独立试验,得试验数据如下其中 分别表示 在第 k 次试验中的观测值.若随机变量 与变量 之间存在线性相关关系,则可设多元线性回归方程为. 它大致描述了 与 之间的线性相关关系。下面用最小二乘法确定其中的未知参数 .设对于变量 的任意一组实数值 ,随机变量.则 在第 k 次试验中的观测值.由消元法得方程组记矩阵 ,则当行列式 时,由后 m 个方程可唯一地确定,从而求得 . 因此,多元线性回归方程为 .多元线性回归的方差分析与一元线性

21、回归分析一样,在求多元线性回归方程之前,必须先进行 与之间线性相关的显著性检验。在此仅利用多元线性回归的方差分析,检验原假设 是否成立.考虑观测值 的离差平方和 . 它反映了观测值 总的分散程度,且其中不难证明且 反映了由 与 之间线性相关关系引起的回归值 的分散程度,称为回归平方和.称为剩余平方和,它是的最小值,反映了观测值偏离回归直线的程度,这种偏离是由 对 的线性影响之外的随机因素引起的。若原假设 正确,则有; ; 且 与 相互独立,所以,统计量 服从自由度为的 F 分布.由于 体现了 与 之间线性相关的程度,因此,若 与之间的线性相关关系显著,则 的值较大,从而统计量 F 的值也较大;

22、反之,若 与 之间的线性相关关系不显著,则 F 的值较小。所以,对于给定的显著水平 ,确定临界值 ,则(1) 若 ,则接受原假设 ,认为 与 之间的线性相关关系不显著;(2) 若 ,则拒绝原假设 ,可以认为与 之间的线性相关关系显著;(3) 若 ,则可以认为 与 之间的线性相关关系特别显著.在计算 , 及 时,注意使用下列公式(1) ,其中 为 的观测值 的样本方差;(2) (3) ,因此有方差分析表方差来源 平方和 自由度 F 值 临界值回归剩余m总和 n-1 例 8 某种产品的收量 与处理压力 及温度 有关,测得试验数据如下6.8 665 40 9.1 700 657.2 685 49 9

23、.3 680 587.6 690 55 9.5 685 598.0 700 63 9.7 700 678.2 695 65 10.0 650 568.4 670 57 10.3 690 728.6 675 58 10.5 670 688.8 690 62 (1) 检验产品收量 与处理压力 及温度 之间的线性相关关系是否显著;(2) 若显著,求 关于 及 的二元线性回归方程。解:(1) 首先计算, ,.得方程组解得因此,回归平方和剩余平方和统计量 F 的观测值查表得 ,因为 ,所以认为收量 与处理压力及温度 之间的线性相关关系特别显著;(2) 继续算得= 因此所求二元线性回归方程为由于 与 及 之间的线性相关关系特别显著,因此该二元线性回归方程近似描述了 与 及 之间的线性相关关系。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报