1、科 技信息 2009 年 第 9 期SCIENCE Linear analysis; Multicollinearity; Variance inflation factorX1 X2 X3 X4 X5 Y X1 X2 X3 X4 X5 Y0 800 135 578 13.195 104 75 800 135 550 12.745 1030 800 135 578 13.195 102 75 800 135 550 12.745 1110 800 135 578 13.195 100 75 800 135 550 12.745 1110 800 135 578 13.195 96 75 800
2、 135 550 12.745 1070 800 135 578 13.195 93 75 800 135 550 12.745 1120 800 135 578 13.195 103 75 800 135 550 12.745 1060 800 150 585 13.180 118 75 800 150 595 13.885 1110 800 150 585 13.180 113 75 800 150 595 13.885 1070 800 150 585 13.180 107 75 800 150 595 13.885 1040 800 150 585 13.180 114 75 800
3、150 595 13.885 1030 800 150 585 13.180 110 75 800 150 595 13.885 1040 800 150 585 13.180 114 75 800 150 595 13.885 1030 1000 135 590 13.440 97 75 1000 135 530 11.705 1160 1000 135 590 13.440 87 75 1000 135 530 11.705 1080 1000 135 590 13.440 92 75 1000 135 530 11.705 1040 1000 135 590 13.440 85 75 1
4、000 135 530 11.705 1160 1000 135 590 13.440 94 75 1000 135 530 11.705 1120 1000 135 590 13.440 102 75 1000 135 530 11.705 1110 1000 150 590 13.600 104 75 1000 150 590 13.835 1100 1000 150 590 13.600 102 75 1000 150 590 13.835 1150 1000 150 590 13.600 101 75 1000 150 590 13.835 1140 1000 150 590 13.6
5、00 104 75 1000 150 590 13.835 1140 1000 150 590 13.600 98 75 1000 150 590 13.835 1140 1000 150 590 13.600 101 75 1000 150 590 13.835 114表 1IT论坛 54科 技信息 2009 年 第 9 期SCIENCE & TECHNOLOGY INFORMATION其中 x1, ,x5表示数据中的自变量 ,y 为表示产品密度的因变量 。进行方差分析和参数检验 ,得到结果见表 3。从图 2 结果可以看到 ,决定系数 R-Square = 0.6375,表明方程模拟得并不理
6、想 ,回归方程的显著性检验 p 值虽然较理想 (.0001),但回归系数的显著性检验表明除了常数项和 x3 的系数高度显著外 , 其余系数都不十分显著 ,特别是 x4 和 x5。 另外我们通过绘制残差图 ,可以看到 :图 1 模型 (1)的残差图可以看到 ,在 y=105,残差都在零线以下 。 所以综合上述 ,模型 (1)并不是一个与原数据拟和十分理想的模型 。表 2表 33.2 调整模型的思路在多元线性回归的应用中可能碰到这样的问题 :(1) 在某个检验水平 下 ,整个回归方程的统计检验小于 ,而方程的各偏回归系数的检验却大于 ;(2)根据专业知识 ,某自变量与因变量间关系密切 ,但检验结果
7、大于 。 在统计学中这种现象称为多重共线性(multicollinearity)。 当自变量间存在近似的线性关系 ,即某个自变量能近似的由其它自变量的线性函数来描述 ,就会造成参数估计的误差急剧增大 ,从而导致了上述的问题 。如何识别自变量组 (X1,X2,Xn)是否存在多重共线性 ,首先想到以 X1,X2,Xn 中的一个 (如 Xi)为因变量 ,其他的 Xj(ji)为自变量建立回归方程 ,看此回归方程的决定系数 (记为 Ri2)是否较大 ,若Ri2较大 ,说明 Xi 的变异基本由其它 Xj 的线性回归所决定 。 对于 n 个自变量相应的就可求得 n 个 Ri2,只要其中有一个 Ri2较大 ,
8、该组自变量就存在多重共线现象 。 而在实际中并不需要建立 n 个回归方程来求Ri2,而是把方差膨胀因子 (variance inflation factor,记为 VIF)作为衡量标准 。 设 X1,X2,Xn 的相关矩阵 CORRx,可以证明 Ri2与 (CORRx)1的对角线元素 fii 有对应关系 :fii=(1-Ri2)-1fii 就称为 Xi 的方差膨胀因子 ,它与 Ri2有如下关系 :当 Ri20,即 Xi 与其他自变量不线性相关时 ,VIFi=1;当 0Ri21时 ,VIFi1;当 Ri21,即 Xi 与其他自变量完全线性相关时 ,VIFi=。所有自变量中最大的 VIFi 通常用
9、来作为多重共线性严重程度的指标 ,如果 maxVIFi10,说明共线性可能严重影响了最小二乘估计值 ,就要进行自变量的筛选等来调整原方程 。在模型 (1)中出现了类似于问题 (1)的结果 ,以下为其 VIF 结果 。Variance Variable DF InflationIntercept 1 0X1 1 3.63163X2 1 1.02953X3 1 2.23149X4 1 40.14088X5 1 29.70489很明显 ,VIF4 和 VIF5 都太大了 。以 下 的 Pearson 系 数 相 关 矩 阵 (Pearson correlation coefficientsmatri
10、x)反映了各变量之间的关系 。由上面的数据可看出 ,X4 和 X5 有很强的相关性 ,且 X4 与 y 更相关 。 由此考虑去除 x4 或把 x4 和 x5 都去除 。3.3 模型 (2)和模型 (3)基于上述分析 ,从 R2和 Cp两方面考虑变量的选择 。统计量 Cp=具有 p 个参数 (包括截距 )的子集模型的残差平方和完全模型的误差方差的估 计 -(n-2p)即若用 SSEP 表示 k 个自变量中的 p 个自变量建立的方程的剩余平方和 ,则Cp=SSEpMSE-(n-2p-2)如果每个数对 (p+1,Cp)表示一个预测变量的子集 ,则数对 (p,Cp)的曲线图显示了预测观察响应的模型的好
11、坏 ,一般的好的模型其 (p+1,Cp)点靠近 45 度直线 。 也就是按照 Cp准则选择除完全模型外 Cp值与(p+1)最接近的模型 。同时兼顾 R2和 VIF 两方面的考虑 ,编写 SAS 程序反复迭代 ,得到模型 (2)和模型 (3):模型 (2):y=0+3x3+12x1x2+23x2x3+4x42+ (2)该模型是在所有剔除 X5 后由 X1,X2,X3,X4,X12,X22,X32,X42, 以及X1X2, .,X3X4组成的所有可能的自变量组所建立的回归方程中选择出来的 。模型 (3):y=0+2x2+23x2x3+13x1x3+123x1x2x3+ (3)该模型是从将 x4 和
12、 x5 都剔除了的回归方程中选取出来的 。但是模型 (3)的 VIF 还是明显偏大 ,如下 :Variable DF Variance InflationINTERCEP 1 0.00000000X2 1 6.38480145X13 1 82.00000000X23 1 5.41736289X123 1 82.99728629而模型 (2)则符合要求 :Standardized VarianceVariable DF Estimate InflationIT论坛 55科 技信息 2009 年 第 9 期SCIENCE & TECHNOLOGY INFORMATION科INTERCEP 1 0.
13、00000000 0.00000000X3 1 0.88567868 2.33109818X1X2 1 0.21251572 1.60950648X2X3 1 -0.17327640 1.23935515X4*X4 1 -0.76078293 2.72263588所以模型 (2)比模型 (3)好 ,以下为模型 (1)和 (2)的 R2和 MSE 的比较 。MODEL R-Square Root MSEModel(1) 0.6375 4.95985Model(2) 0.6964 4.81775可看出 ,模型 (2)优于模型 (1),由模型 (2)的残差图也说明了这一点 。图 2 模型 (2)的残
14、差图至于模型的回归诊断 ,以下为残差的 Q-Q图 。 图中的 “”号表示标准正态 u 值的参考直线 ,“*”号表示实际残差数据点 ,如果残差服从正态分布 ,则观测值数据 “*”构成的直线与参考直线基本重合 。 在图中 ,残差值与参考直线基本重合所以可以认为误差服从正态分布 。图 3 模型 (2)的残差的 Q-Q 图4结论通过三个模型的比较 ,可以认为模型 (2)最好 。把模型 (2)的各系数代入方程得 :y=64.33222+0.909998x3+0.000047934x1x2-0.000084587x2x3-0.000238x42即为所求得的回归方程 。【参考文献 】1 王孝仁 , 王松桂编
15、译 . 实用多元统计分析 M. 上海科学技术出版社 ,1990,195-264.2上海师范大学数学系概率统计教研组编 .回归分析及其试验设计 M.上海教育出版社 ,1978.3沈其君主编 .SAS 统计分析 M.东南大学出版社 .4SAS DOC INSIGHT. http:/rss.acs.unt.edu/sasdoc/insight.5SAS 6.12 教程 . http:/ :张宇山 (1975.5),男 ,汉族 ,广东兴宁人 ,广东商学院数学与计算科学学院讲师 ,硕士 ,主要从事应用数学和数理统计的研究 。责任编辑 :韩铭 科(上接第 97 页 )找到了这种幻觉 。大学生在找工作时要特
16、别注意 :1) 通过正规的招聘单位寻找工作 。 各高校与教育行政部门所安排的就业招聘需要严格审查单位资质 ,可靠性比较高 。 2)通过其他途径找到的工作要严格审查公司的资质与信用 ,包括从网上 、营业地的工商部门查询 ,要求对方出示营业执照和组织机构代码证书 、开户许可证书 、税务登记证书和代理授权书 。3)“朋友不言商 ”,传销多通过同学 、朋友等熟人进行 ,不要因朋友感情害了自己 。4)仔细弄清直销与传销的区别 :有无入门费 、有无依托优质产品 、产品是否在市场上销售 、有无退货保障制度 、销售人员结构有无超越性 、有无店铺经营 。随着社会 、经济的发展 ,新形势下的大学生安全问题也出现了一些新的特征 。 我们一方面要从现实之中多加观察 ,提高警惕性 、警觉性 ,对于大学生的安全教育工作严抓不懈 ,做到 “防患于未燃 ”;另一个方面又要能很好的处理突发事故 ,一旦发生 ,学校与学生都能沉着应对 ,采取相应的策略 。责任编辑 :田瑞鑫 IT论坛 56