1、第11章 相关与回归分析,11.1 变量间关系的度量 11.2 一元线性回归11.3 利用回归方程进行估计和预测11.4 残差分析11.5多元线性回归,11.1 变量间关系的度量,11.1.1 变量间的关系11.1.2 相关关系的描述与测度11.1.3 相关系数的显著性检验,11.1.1 变量间的关系,1. 确定性关系函数关系2. 非确定性关系 相关关系,函数关系,1、是一一对应的确定关系 2、设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完 全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相 应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x
2、称为自 变量,y 称为因变量 3、各观测点落在一条线上,函数关系(几个例子),某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = px (p 为单价) 圆的面积(S)与半径之间的关系可表示为S=R2 企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系可表示为y = x1 x2 x3,相关关系,1、变量间关系不能用函数关系精确表达 2、一个变量的取值不能由另一个变量唯一确定 3、当变量 x 取某个值时,变量 y 的取值可能有几个 4、各观测点分布在直线周围,相关关系(几个例子),子女身高(y)与父母身高(x)之间的关系 收入水平(y)与受教
3、育程度(x)之间的关系 粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系 商品的消费量(y)与居民收入(x)之间的关系 商品销售额(y)与广告费支出(x)之间的关系,相关关系的类型,相关关系,线性相关,非线性相关,正相关,负相关,11.1.2 相关关系的描述与测度,相关分析要解决的问题 变量之间是否存在关系? 如果存在关系,它们之间是什么样的关系? 变量之间的关系强度如何? 样本所反映的变量之间的关系能否代表总体变量之间的关系?,1.散点图(scatter diagram),图11-1 不同形态的散点图,例11.6,一家大型商业银行在多个地区设有分行,其业务主要是进
4、行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款.近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力.为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法.下面是该银行所属的25家分行2002年的有关业务数据.,表11-1,某商业银行2002年的有关业务数据,图11-2,贷款余额,不良贷款,不良贷款与贷款余额的散点图,图11-3,累计应收贷款,不良贷款,不良贷款与累计应收贷款的散点图,图11-4,贷款项目个数,不良贷款,不良贷款与贷款项目个数的散点图,图11-5,不良贷款与固定资产投资额的散点图,固
5、定资产投资额,不良贷款,例11.6,从各散点图可以看出,不良贷款与贷款余额、应收贷款、贷款项目个数、固定资产投资额之间都具有一定的线性关系。但从各散点的分布情况看,不良贷款与贷款余额的线性关系比较密切,而与固定资产投资额之间的关系最不密切。,2.相关系数(correlation coefficient),1.变量之间线性相关关系的程度和方向的特征数.2.两个变量之间线性相关程度的度量,也称简单相关系数.3.根据总体全部数据计算而得的相关系数,称总体相关系数,记为 .4.根据样本数据计算而的得相关系数,称为样本相关系数,记为 .,样本相关系数计算,( 11.1 ),和 的样本相关系数为,相关系数
6、的取值范围及意义,1. r 的取值范围为1,1.2. ,称完全相关,即存在线性函数关系.r 1,称完全正相关.r 1,称完全负相关.3. r 0,称零相关,即不存在线性相关关系.4. r 0,称负相关.5. r 0,称正相关.6. 愈大,表示相关关系愈密切.,相关系数的性质,性质1:r具有对称性。即x与y之间的相关系数和y与x之间 的相关系数相等,即rxy= ryx 性质2:r数值大小与x和y原点及尺度无关,即改变x和y的 数据原点及计量尺度,并不改变r数值大小 性质3:仅仅是x与y之间线性关系的一个度量,它不能用 于描述非线性关系。这意味着, r=0只表示两个变量之间不存在线性相关关系,并不
7、说明变量之间没有任何关系 性质4:r虽然是两个变量之间线性关系的一个度量,却不 一定意味着x与y一定有因果关系,相关系数的经验解释,1、 |r|0.8时,可视为两个变量之间高度相关 2、0.5|r|0.8时,可视为中度相关 3、0.3|r|0.5时,视为低度相关 4、|r|0.3时,说明两个变量之间的相关程度极弱,可视为不相关 5、上述解释必须建立在对相关系数的显著性进行检验的基础之上,例 11.7,根据例11.6的样本数据,计算不良贷款、贷款余额、应收贷款、贷款项目、固定资产投资额之间的相关系数. 解:用Excel计算的相关系数矩阵如下.,从相关矩阵可以看出,在不良贷款与其他几个变量的关系中
8、,与贷款余额的相关系数最大,而与固定资产投资额的相关系数最小。,11.1.3 相关系数的显著性检验,1. r 的抽样分布当样本数据来自正态总体,且 时,则,,则拒绝 .,2.相关系数的显著性检验(1) (2)计算检验的统计量,(3)规定显著性水平 ,并作出决策,(11.3),,则不能拒绝 .,例 11.8,例11.7的相关系数检验 .,1. 2.计算检验的统计量,3.根据 ,查表得,因此,拒绝 ,认为 x 和 y 的相关系数 ,即不良贷 款与贷款余额之间的线性相关关系显著.,由于,表11-3,各相关系数显著性检验的t 统计量值,11.2 一元线性回归,11.2.1 一元线性回归模型11.2.1
9、 参数的最小二乘估计11.2.1 回归直线的拟合优度11.2.1 显著性检验,什么是回归分析?,1、从一组样本数据出发,确定变量之间的数学关系式 2、对这些关系式的可信程度进行各种统计检验,并从影响 某一特定变量的诸多变量中找出哪些变量的影响显著,哪 些不显著 3、利用所求的关系式,根据一个或几个变量的取值来预测 或控制另一个特定变量的取值,并给出这种预测或控制的 精确程度,回归分析与相关分析的区别,1.相关分析中 x 和 y 都处于相同地位,而回归分析中,y 称因变量,x 称自变量.2.相关分析中 x 和 y 都是随机变量,而在回归分析中,因 变量 y 是随机变量,自变量 x 则可以是随机变
10、量,也可以是非 随机变量.3.相关分析主要是描述变量之间的相关关系,而回归分析 主要是确定变量之间的内在联系.,回归模型的类型示意图,回归模型,一元回归,多元回归,线性回归,非线性回归,线性回归,非线性回归,一元线性回归,涉及一个自变量的回归 因变量y与自变量x之间为线性关系 被预测或被解释的变量称为因变量,用y表示 用来预测或用来解释因变量的一个或多个变量称为自变量,用x表示 因变量与自变量之间的关系用一条线性方程来表示,回归模型,1、回答“变量之间是什么样的关系?” 2、方程中运用 1 个数值型因变量(响应变量) 被预测的变量 1 个或多个数值型或分类型自变量 (解释变量) 用于预测的变量
11、 3、主要用于预测和估计,11.2.1 一元线性回归模型,1.回归模型(regression model),称为一元线性回归模型.(1) y 是 x 的线性函数(部分)加上误差项 (2)线性部分反映了由于 x 的变化而引起的 y 的变化 (3)误差项 为随机变量.反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响. (4) 一元线性回归模型描述因变量 y 与自变量 x 和误差项 的关系.(5) 和 称为模型的参数.,(11.3),一元线性回归模型的基本假定,2.回归方程(regression equation),(11.4),3.估计的回归方程(estimated regress
12、ion equation),11.2.2 参数的最小二乘估计,最小化图,续,续,解正规方程组得,( 11.9 ),例11.9,根据例11.6的数据,建立不良贷款 y 对贷款余额 x 的回归 方程.根据(11.9)式得,从而样本回归方程为,因此贷款余额增长1亿元时,则不良贷款增长约 0.037895 亿元.,图11-8,不良贷款对贷款余额的回归直线,用Excel进行回归分析,第1步:选择【工具】下拉菜单第2步:选择【数据分析】选项第3步:在分析工具中选择【回归】,然后选择【确定】第4步:当对话框出现时 在【Y值输入区域】方框内键入Y的数据区域在【X值输入区域】方框内键入X的数据区域在【置信度】选
13、项中给出所需的数值在【输出选项】中选择输出区域在【残差】分析选项中选择所需的选项,图11-8,用Excel进行回归分析的步骤,表11-4,Excel输出的回归分析结果,11.2.3 回归直线的拟合优度,因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面 由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,拟合优度:样本观测值聚集在样本回归线周围的紧密程度。一般用判定系数进行评价。,误差的分解(图示),离差平方和的分解 (三个平方和的关系),离差平方和
14、的分解 (三个平方和的意义),总平方和(SST) 反映因变量的 n 个观察值与其均值的总离差 回归平方和(SSR) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 残差平方和(SSE) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,1. 判定系数,判定系数与样本相关系数的关系,相关系数与回归系数之间的数量关系,这就是说 与 的正负号必定相同.,例11.10,即回归平方和占总离差平方和的71.16%,或者说,在不良贷款 的变动中,有71.16%是由贷款余额所决定的.也就
15、是说,不良贷款取值的差异有2/3以上是由贷款余额决定的.可见不良贷款与贷款余额之间有较强的线性关系.,根据例11.6的数据,计算不良贷款对贷款余额的判定系数.解:根据(11.15)式,得,2.估计标准误差(standard error of estimate),称为估计标准误差,或称为估计量的标准差.,(11.16),(1)实际观察值与回归估计值离差平方和的均方根 (2)反映实际观察值在回归直线周围的分散状况 (3)对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量 (4)反映用估计的回归方程预测y时预测误差的大小 (5)计算公式为,例11.11,根据例11.6的
16、数据,计算估计标准误差.解:根据(11.16)式,得,这就是说,根据贷款余额来估计不良贷款时,平均的估计误差为1.9799亿元.,11.2.4 显著性检验,1.线性关系的检验 检验自变量与因变量之间的线性关系是否显著,三个平方和的自由度(1)SST 的自由度为 n1(2)SSR 的自由度为 1(3)SSE 的自由度为 n2,则SSE 的平均平方,回归方程的显著性检验是用回归的平均平方与残差的平均平方 作比较,判断因变量与自变量是否存在线性关系.,续,而SSR 的平均平方为,续,方差分析表,一元线性回归方程的显著性检验步骤,例11.12,方差分析表,2.回归系数的检验,回归系数的显著性检验是检验
17、 x 与 y 之间是否具有线性 关系,或者说,检验自变量 x 对因变量 y 的影响是否显著. 在一元线性回归中,回归系数的显著性检验等价于线性关 系的显著性检验.,回归系数的检验(样本统计量 的分布),1、 是根据最小二乘法求出的样本统计量,它有自己的分布 2、 的分布具有如下性质分布形式:正态分布数学期望:标准差:由于未知,需用其估计量 来代替得到 的估计的标准差,(11.18),(11.19),回归系数的检验步骤,(3) 确定显著性水平,若,(2) 计算检验的统计量,(1) 提出假设,则拒绝 . 否则不能拒绝 .,例11.13,11.2.5 回归分析结果的评价,建立的模型是否合适?或者说,
18、这个拟合的模型有多“好”?要回答这些问题,可以从以下几个方面入手:1、所估计的回归系数 的符号是否与理论或事先预期相一致 在不良贷款与贷款余额的回归中,可以预期贷款余额越多,不良贷款也可能会越多,也就是说,回归系数的值应该是正的,在上面建立的回归方程中,我们得到的回归系数 为正值.2、如果理论上认为x与y之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该如此 在不良贷款与贷款余额的回归中,二者之间为正的线性关系,而且,对回归系数的t检验结果表明两者之间的线性关系是统计上显著的.,续,3、回归模型在多大程度上解释了因变量y取值的差异?可以用判定系数 来回答这一问题 在不良贷款与
19、贷款余额的回归中,得到的 =71.16%,解释了不良贷款变差的2/3以上,说明拟合的效果还算不错4、考察关于误差项的正态性假定是否成立。因为我们在对线性关系进行F检验和回归系数进行t检验时,都要求误差项服从正态分布,否则,我们所用的检验程序将是无效的。正态性的简单方法是画出残差的直方图或正态概率图,11.3 利用回归方程进行估计和预测,1.根据自变量 x 的取值估计或预测 E(y) 或 y 的取值.2.估计或预测可分两种类型(1)点估计 y 的平均值的点估计 y 的个别值的点估计(2)区间估计 y 的平均值的置信区间估计 y 的个别值的预测区间估计,11.3.1 点估计,对于自变量 x 的一个
20、取值 ,根据样本回归方程,用,作为 或 的估计或预测 ,称为点估计.在点估计条件下,平均值的点估计和个别值的的点估计 是一样的,但在区间估计中则不同.,y 的平均值的点估计,利用估计的回归方程,对于自变量 x 的一个给定值x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计.在前面的例子中,假如我们要估计贷款余额为100亿元时,所有分行不良贷款的平均值,就是平均值的点估计 。根据估计的回归方程得,y 的个别值的点估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计.例如,如果我们只是想知道贷款余额为7
21、2.8亿元的那个分行(这里是编号为10的那个分行)的不良贷款是多少,则属于个别值的点估计 。根据估计的回归方程得,11.3.2 区间预测,对于自变量 x 的一个取值 ,根据样本回归方程给出或 的一个估计区间,称为区间估计或区间预测.分 别称置信区间和预测区间.,点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计.,1.置信区间(confidence interval estimate),(1)利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间 ,这一估计区间称为置信区间.(2) 在 置信水平下的置信区间为,(11.23),其
22、中,例11.14,根据例11.9,求贷款余额为 100 亿元时平均不良贷款的95%的置信区间.解:根据前面的计算结果,已知,当贷款余额为100亿元时,不良贷款的平均值在2.1141亿元到3.8059亿元之间.,2.预测区间(prediction interval estimate),(11.25),(1)利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间.(2)y0在 置信水平下的预测区间为,例11.15,根据例11.9,求贷款余额为72.8亿元时不良贷款的0.95预 测区间.解:根据前面的计算结果,已知,得,从而不良贷款 的
23、0.95预测区间为,贷款余额为72.8亿元的那个分行,其不良贷款的预测区间在-2.2766亿元到6.1366亿元之间.,影响区间宽度的因素,1.随 的增大而增大2.随 n 的增大而减少3.随 的增大而增大,近似区间预测,当 n 较大,且 时,则,从而,图11-11,置信区间和预测区间示意图,11.4 残差分析,11.4.1 残差与残差图11.4.2 标准化残差,11.4.1残差与残差图,残差是因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示.反映了用估计的回归方程去预测而引起的误差 .第i个观察值的残差可以写为:,残差图是表示残差的图形.常用的残差图有关于x的残差图、关于 的残差图
24、、标准化残差图等。可以利用残差图检验有关误差项的假定是否成立.,不同形态的残差图,图11-13,若对所有的x值, 的方差都相同,而且假定描述变量x和y之间关系的回归模型是合理的,那么残差图中的所有点都应落在一条水平带中间,如图(a)所示。但如果对所有的值, 的方差是不同的,例如,对于较大的x值,相应的残差也较大,如图(b)所示,这就意味着违背了 方差相等的假设。如果残差图如图(c)所示的那样,表明所选择的回归模型不合理,这时应考虑曲线回归或多元回归模型。,表11-7,Excel 输出的预测值、残差和标准化残差,图11-12,不良贷款对贷款余额回归的残差图,图11-12 不良贷款对贷款余额回归的
25、残差图,可以看出,各残差(有一个点除外)基本上位于一条水平带中间,这表明关于不良贷款和贷款余额回归的线性假定以及对误差项 的假定是成立的。,11.4.2 标准化残差(standardized residual),称,(11.27),为标准化残差. 其中 是残差的标准差的估计.,当误差项服从正态分布时,标准化残差的分布应服从标准正态分布,即大约有95%的标准化残差在 -2 到 +2 之间.,图11-14,不良贷款对贷款余额回归的标准化残差图,可以看出,除了用箭头所标识的那个点外,所有的标准化残差都在-2 +2之间,表明误差项服从正态分布的假定成立。,趋向中间高度的回归,回归这个术语是由英国著名统
26、计学家Francis Galton在19世纪末期研究孩子及他们的父母的身高时提出来的。Galton发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。 Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析。,一元线性相关回归分析(练习题),假设一个分析员随机抽取了10份最近公司中卡车运货记录的样本,其中记录了距离的公里数和到从该批货物可提取时开始计算的近似到半天的时间。,运送距离和运送时间的样本观测值,要求:,1、画出散
27、点图,并考虑在这里使用线性回归分析是否恰当。 2、计算相关系数r. 3、检验相关系数是否显著。( ) 4、求最小二乘回归方程。 5、计算判定系数 ,并解释其意义。 6、计算上述运输时间问题中估计值的标准误差 。 7、检验运送时间与运送距离之间线性关系的显著性( )。 8、检验回归系数 是否通过显著性检验( )。 9、估计对于一个1000公里的送货任务,从货物可以提取时开始计算的运送时间。可以用这个回归方程来估计2500公里的送货任务所需的运送时间吗? 10、求运送距离为1000公里时所需运送时间均值的95%的置信区间。 11、计算一份距离为1000公里的送货任务所需运送时间为95%的预测区间。
28、 12、计算残差,并画出残差图。,要求:,1、画出散点图,并考虑在这里使用线性回归分析是否恰当。,运送时间与运送距离的散点图,从图上看,运送距离与运送时间之间为正的线性相关关系。,要求:,2、计算相关系数r.,相关系数r0.8,表明运送距离与运送时间之间有较强的正线性相关关系。,解:,要求:,3、检验相关系数是否显著。( ),要求:,4、求最小二乘回归方程。,估计的回归方程为:,解:,要求:,5、计算判定系数 ,并解释其意义。,在运送时间取值的变动中,有大约90%可以从统计意义上由其中涉及的运送距离来解释。,解:,要求:,6、计算上述运输时间问题中估计值的标准误差 。,这就是说,根据运送距离来
29、估计运送时间时,平均的估计误差为0.48天。,解:,要求:,7、检验运送时间与运送距离之间线性关系的显著性( )。,要求:,8、检验回归系数 是否通过显著性检验( )。,解:,要求:,9、估计对于一个1000公里的送货任务,从货物可以提取时开始计算的运送时间。可以用这个回归方程来估计2500公里的送货任务所需的运送时间吗?,解:,不适合,因为原来估计这个线性回归方程的样本数据包含的最大距离只到1350公里。,要求:,10、求运送距离为1000公里时所需运送时间均值的95%的置信区间。,解:根据前面的计算结果,已知,当运送距离为1000公里时,运送时间的平均值在3.30天到4.14天之间.,要求
30、:,11、计算一份距离为1000公里的送货任务所需运送时间为95%的预测区间。,得,从而运送时间 的0.95预测区间为,距离为1000公里的送货任务,所需运送时间的预测区间在2.54天到4.90天之间.,解:根据前面的计算结果,已知,要求:,12、计算残差,并画出残差图。,要求:,11.5 多元线性回归,11.5.1 多元线性回归模型 11.5.2 回归方程的拟合优度11.5.3 显著性检验11.5.4 多重共线性11.5.5 利用回归方程进行估计和预测,11.5.1 多元线性回归模型,多元线性回归模型误差项的基本假定,2.多元回归方程(multiple regression equation
31、),多元线性回归方程的直观解释,二元回归方程的直观解释,3. 估计的多元回归的方程,4. 参数的最小二乘估计,续,根据微积分中求极值的原理, 应是下列正规方程组的解,(11.32),例11.16,一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,抽取了该银行所属的25家分行2002年的有关业务数据。试建立不良贷款(y)与贷款余额(x1)、累计应收贷款(x2)、贷款项目个数(x3)和固定资产投资额(x4)的线性回归
32、方程,并解释各回归系数的含义 。,表11-8,某商业银行2002年的有关业务数据,用Excel进行回归分析的步骤,表11-9,Excel输出的回归分析结果,参数的最小二乘法(例题分析),根据Excel输出的结果,得到不良贷款与贷款余额、累计应收贷款、贷款项目个数和固定资产投资额的多元线性回归方程为:各回归系数的实际意义为:表示,在累计应收贷款、贷款项目个数和固定资产投资额不变的条件下,贷款余额每增加1亿元,不良贷款平均增加0.040039亿元。表示,在贷款余额、贷款项目个数和固定资产投资额不变的条件下,累计应收贷款每增加1亿元,不良贷款平均增加0.148034亿元。表示,在贷款余额、累计应收贷
33、款和固定资产投资额不变的条件下,贷款项目个数每增加1个,不良贷款平均增加0.014529亿元。表示,在贷款余额、累计应收贷款和贷款项目个数不变的条件下,固定资产投资额每增加1亿元,不良贷款平均减少0.029193亿元。,11.5.2 回归方程的拟合优度,对多元回归同样可分解成如下形式,则多重判定系数(multiple coefficient of determination)为,(11.33),(11.34),1.多重判定系数,续,多重判定系数反映样本回归方程的拟合好坏程度,R 愈 大,说明样本回归方程拟合得愈好。显然, . 而,称 y 关于 的样本复相关系数,R 的大小可以 反映作为一个整体
34、的 与 y 的线性相关的密切 程度.,调整的多重判定系数,例,根据例11.16的数据,计算多重判定系数.解:根据(11.34)式,得,多重判定系数 =0.797604=79.7604%。其实际意义是:在不良贷款取值的变差中,能被不良贷款与贷款余额、累计应收贷款、贷款项目个数和固定资产投资额的多元回归方程所解释的比例为79.7604%。而根据(11.35)式,则,调整的多重判定系数 =0.757125=75.7125%,表示在用样本量和模型中自变量的个数进行调整后,在不良贷款取值的变差中,能被不良贷款与贷款余额、累计应收贷款、贷款项目个数和固定资产投资额的多元回归方程所解释的比例为75.7125
35、%。,2.估计标准误差,误差项的标准差的估计,称为估计标准误差(standard error of estimate) ,或称为估计量的标准差.根据例11.16的数据,得,(11.36),为自变量的个数,其含义是:根据所建立的多元回归方程,用贷款余额、累计应收贷款、贷款项目个数和固定资产投资额来预测不良贷款时,平均的预测误差为1.778752亿元。,11.5.3 显著性检验,1. 线性关系检验,(11.37),方差分析表,前面的这些计算结果可以列成表格的形式,称为方差分析表.方差分析表,例11.17,根据例 11.16 建立的回归方程,检验线性关系的显著性.解:提出假设,根据(11.37)式,
36、查F 分布表得 ,由于 从而拒绝原假设.即不良贷款与贷款余额、累计应收贷款、贷款项目个数和固定资产投资额之间的线性关系是显著的.,至少有一个不为0,线性关系检验(例题分析),也可直接将Excel输出的回归方差分析表中的Significance-F值(即P值),与给定的显著性水平比较,由于Significance-F=1.03539E-06 =0.05,拒绝原假设H0 。F检验表明,不良贷款与贷款余额、累计应收贷款、贷款项目个数和固定资产投资额之间的线性关系是显著的,但这并不意味着不良贷款与每个变量之间的关系都显著,因为F检验说明的是总体的显著性。要判断每个自变量对不良贷款的影响是否显著,需要对
37、各回归系数分别进行t检验。,2. 回归系数检验和推断,1.当回归方程显著时,仅表示 中至少有一个 不为 0 ,即并不表示每一个自变量对因变量的影响一定都是显 著的.2.回归系数的显著性则是对每一个自变量都要检验,从而 确定每一个自变量对因变量的影响是否显著.3.采用 t 检验4.对于多元线性回归,回归系数的显著性检验与回归方程 的显著性检验是两种不同的检验方法.,回归系数的显著性检验步骤,例11.18,例,根据前例建立的回归方程,对回归方程中各回归系数的显著性进行检验( )解:第1步:提出假设。对于任意参数bi (i=1,2,3,4),有 H0: bi = 0 H1: bi 0第2步:计算检验
38、的统计量t。根据Excel输出的结果可知,第3步:作出统计决策。给定显著性水平 ,根据自由度=n-k-1=25-4-1=20查t分布表,得 。只有b1通过了检验,其他3个自变量都没有通过检验。也可直接用P值检验, b1所对应的P值小于0.05,通过检验,其余3个系数所对应的P值均大于0.05,未通过检验。这说明在影响不良贷款的4个自变量中,只有贷款余额的影响是显著的,而其他3个自变量均不显著。这意味着其他3个自变量对预测不良贷款的作用已经不大。假定只选一个自变量来预测不良贷款,那么就应该选贷款余额。,回归系数的置信区间,当回归系数通过检验后,还可以给出回归系数的置信区间.的 的置信区间为,根据
39、Excel输出的结果, 的0.95置信区间,(11.40),这一置信区间的含义是:在累计应收贷款、贷款项目个数和固定资产投资额不变的条件下,贷款余额每增加1亿元,不良贷款平均增加额在0.0183亿元0.0618亿元之间。,11.5.4 多重共线性,1).当自变量之间线性相关时,称自变量存在多重共线性. 2).多重共线性带来的问题有 (1)可能会使回归的结果造成混乱,甚至会把分析引入歧途 (2)可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同我们预期的正负号相反,1 .多重共线性及其所产生的问题,2. 多重共线性的判别,1)、检测多重共线性的最简单的一种办法是计算自变量之间的相
40、关系数并进行显著性检验. 若有一个或多个相关系数显著,则表明自变量之间线性相关,即存在着多重共线性.2)、如果出现下列情况,暗示存在多重共线性(1)模型中各对自变量之间显著相关。(2)当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著。 (3)回归系数的正负号与预期的相反。,例11.19,根据例 11.16 的数据,检验自变量是否存在多重共线性.表11-10 自变量之间的相关矩阵,贷款余额、应收贷款、贷款项目、固定资产投资额之间的相关矩阵,表11-11,相关系数的 t 检验统计量,相关系数的t检验统计量,多重共线性(例题分析),1、 t(25-2)=2.069 ,所有统计量
41、t t(25-2)=2.069 , 所以均拒绝原假设,说明这4个自变量两两之间都有显著的相关关系。 2、由表Excel输出的结果可知,回归模型的线性关系显著(Significance-F1.03539E-06=0.05) 。这也暗示了模型中存在多重共线性。 3、固定资产投资额的回归系数为负号(-0.029193) ,与预 期的不一致。,3 .多重共线性问题的处理,剔除紧密相关且不重要的自变量,从而尽可能使自变量之 间线性无关.,例11.20,根据例 11.16 的数据,对多重共线性进行处理.解:由于 最小,首先剔除 ,建立 y 与 的回归方程. 又由于这时 最小,且 不显著. 从而再剔除 ,建
42、立 y 与 的回归方程. 这时,都是显著.,包含 x1、x2 和 x4 的回归方程,表 1112,包含 x1 和 x4 的回归方程,11.5.5 利用回归方程进行估计和预测,对自变量 的一组取值 根据样本回归方程,用,作为 或 的估计,称为点估计或点预测.,区间预测,对于自变量的一组取值 根据样本回归方程给出 或 的一个估计区间,称为置信区间或预测区间.由于置信区间和预测区间的计算较复杂,一般可由统计软件直按给出.,例11.21,根据例 11.16 的数据,贷款余额 x1=100 、累计应收贷款 x2=10、贷款项目个数 x3=15 和固定资产投额 x4=60 ,试给出 不良贷款的0.95置信
43、区间和预测区间.解:由STATISTICA 输出的不良贷款的置信区间和预测区 间如表11-13和表11-14所示.,表 1113,不良贷款的置信区间,表 1114,不良贷款的预测区间,近似区间预测,当 n 较大时,且 时,则,从而 ,由于 ,得,则 0.95 的近似预测区间为,对例 11.21, 则,从而不良贷款0.95 的近似预测区间为(-0.63 , 6.49),多重共线性所产生的问题,例,在前面的例子中,线性回归方程是显著的,但4个回归系数中,只有b1通过了检验,其他3个回归系数均未通过检验。这种检验结果看起来矛盾,但实际上并不矛盾。因为线性关系检验(F检验)表明回归方程显著时,这只是说,因变量至少同4个自变量中的一个自变量的线性关系是显著的,并非意味着同每个自变量之间的关系都显著。事实上,4个自变量在预测不良贷款时可能都有贡献,只不过一些自变量的贡献与另一些自变量的贡献相互重叠了。,多重共线性所产生的问题,例,在4个回归系数中, ,这意味着固定资产投资额增加时,不良贷款是减少的。但如果仅就不良贷款与固定资产投资额作一元回归,得到的估计方程为: ,这表明固定资产投资额每增加1亿元,不良贷款平均增加0.046586亿元。产生这种情况的原因就是由于自变量之间的相关所造成的,因为4个自变量放在一起产生了多于的信息。,