收藏 分享(赏)

回归变量筛选08.ppt

上传人:j35w19 文档编号:8169612 上传时间:2019-06-12 格式:PPT 页数:93 大小:3.51MB
下载 相关 举报
回归变量筛选08.ppt_第1页
第1页 / 共93页
回归变量筛选08.ppt_第2页
第2页 / 共93页
回归变量筛选08.ppt_第3页
第3页 / 共93页
回归变量筛选08.ppt_第4页
第4页 / 共93页
回归变量筛选08.ppt_第5页
第5页 / 共93页
点击查看更多>>
资源描述

1、线性回归变量的筛选,多重回归程序模式,DATA A; input X1-X4 Y ; cards; 10 23 3.6 113 15.7 9 20 3.6 106 14.5 10 22 3.7 111 17.5 13 21 3.7 109 22.5 10 22 3.6 110 15.5 10 23 3.5 103 16.98 23 3.3 100 8.6 10 24 3.4 114 17.0 10 20 3.4 104 13.7 10 21 3.4 110 13.4 10 23 3.9 104 20.3 8 21 3.5 109 10.2 6 23 3.2 114 7.4 8 21 3.7 1

2、13 11.6 9 22 3.6 105 12.3 ; PROC REG CORR; MODEL Y=X1-X4; RUN;,多重回归,The SAS System 14:40 Friday, April 30, 2008 1The REG ProcedureCorrelation Variable X1 X2 X3 X4 Y X1 1.0000 -0.1357 0.5007 -0.0939 0.8973 X2 -0.1357 1.0000 -0.1489 0.1234 0.0462 X3 0.5007 -0.1489 1.0000 -0.0358 0.6890 X4 -0.0939 0.12

3、34 -0.0358 1.0000 -0.0065 Y 0.8973 0.0462 0.6890 -0.0065 1.0000The SAS System 14:40 Friday, April 30, 2008 2The REG ProcedureModel: MODEL1Dependent Variable: YAnalysis of VarianceSum of MeanSource DF Squares Square F Value Pr FModel 4 221.47175 55.36794 30.06 .0001Error 10 18.41758 1.84176Corrected

4、Total 14 239.88933Root MSE 1.35711 R-Square 0.9232Dependent Mean 14.47333 Adj R-Sq 0.8925Coeff Var 9.37665,多重回归,Parameter EstimatesParameter StandardVariable DF Estimate Error t Value Pr |t|Intercept 1 -51.90207 13.35182 -3.89 0.0030X1 1 2.02618 0.27204 7.45 .0001X2 1 0.65400 0.30270 2.16 0.0561X3 1

5、 7.79694 2.33281 3.34 0.0075X4 1 0.04970 0.08300 0.60 0.5626,逐步回归的思想是变数被逐个引入到模型中,而且对引入的变数,其F统计量必须是在选择的水平上显著的。引入一个变数之后,逐步法还要测验所有已经包含在模型中的变数,并删除在选择的水平上不显著的一切变数。仅当经过测验并把所有不显著的变数删除后,再考虑是否引入新变数。当在模型外的所有变数在选择的水平上都不显著,而且在模型内的任一个变数的F统计量在选择的水平上都是显著时,逐步回归过程才停止。此外,若刚被删除的变数又被引入时,逐步过程也停止。 SLENTRY值(简记为SLE值)是逐步回归方

6、法规定选入这个模型里的显著性水平。当缺省时,其值为0.15。,第一节 逐步回归,逐步回归SAS过程,语法格式 Proc reg(或GLM) DATA=选项; MODEL 响应变量名=自变量名列/SELECTION=F或B或S; VAR 变量名列; FREQ 变量名列; WEGHT 变量名列; BY 变量名列; OUTPUT ; PLOT /选项;,变量筛选语法选项 (MODEL语句选项),SELECTION=method,规定变量筛选的方法,method可以是以下几种选项 FORWARD(或F),前进法,按照SLE规定的P值从无到有依次选一个变量进入模型 BACKWARD(或B),后退法,按照

7、SLS规定的P值从含有全部变量的模型开始,依次剔除一个变量 STEPWISE(或S),逐步法,按照SLE的标准依次选入变量,同时对模型中现有的变量按SLS的标准剔除不显著的变量,NONE,即不选择任何选项,不作任何变量筛选,此时使用的是含有全部自变量的全回归模型,变量筛选MODEL语句选项,SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15 SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是0.15 标准化偏回归系数 STB 可用来比较各个自变量作用的大小 COLLIN 要求详细分析自变量之间的共线性,给出信息矩阵

8、的特征根和条件指数,来判断自变量之间有无多重共线性。,变量筛选MODEL语句选项,SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15 SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是0.15 标准化偏回归系数 STB 可用来比较各个自变量作用的大小 COLLIN 要求详细分析自变量之间的共线性,给出信息矩阵的特征根和条件指数,来判断自变量之间有无多重共线性。,逐步(前进,后退)法回归程序模式,data b; input id y x1 x2 x3 x4;cards; ; proc reg data=b; mode

9、l y=x1 x2 x3 x4 /stb; model y=x1 x2 x3 x4 / selection= FORWARD stb; model y=x1 x2 x3 X4 / selection= BACKWARD stb; model y=x1 x2 x3 x4 / selection=stepwise stb;run;,前进,后退法回归程序模式,DATA A; input X1-X4 Y ; cards; 10 23 3.6 113 15.7 9 20 3.6 106 14.5 10 22 3.7 111 17.5 13 21 3.7 109 22.5 10 22 3.6 110 15

10、.5 10 23 3.5 103 16.98 23 3.3 100 8.6 10 24 3.4 114 17.0 10 20 3.4 104 13.7 10 21 3.4 110 13.4 10 23 3.9 104 20.3 8 21 3.5 109 10.2 6 23 3.2 114 7.4 8 21 3.7 113 11.6 9 22 3.6 105 12.3 ; PROC REG CORR; MODEL Y=X1-X4/SELECTION=FORWARD SLE=0.05 STB; RUN;,Analysis of VarianceSum of MeanSource DF Square

11、s Square F Value Pr FModel 1 193.15219 193.15219 53.73 FIntercept -8.06429 3.11354 24.11809 6.71 0.0224X1 2.39762 0.32711 193.15219 53.73 .0001Bounds on condition number: 1, 1,Forward Selection: Step 2Variable X3 Entered: R-Square = 0.8818 and C(p) = 6.3911Analysis of VarianceSum of MeanSource DF Sq

12、uares Square F Value Pr FModel 2 211.54256 105.77128 44.78 FIntercept -30.01290 8.26129 31.17756 13.20 0.0034X1 1.96965 0.30632 97.66880 41.35 .0001X3 7.33659 2.62942 18.39037 7.79 0.0163,The REG ProcedureModel: MODEL1Dependent Variable: YForward Selection: Step 2Bounds on condition number: 1.3346,

13、5.3385 -Forward Selection: Step 3Variable X2 Entered: R-Square = 0.9205 and C(p) = 3.3585Analysis of VarianceSum of MeanSource DF Squares Square F Value Pr FModel 3 220.81143 73.60381 42.44 FIntercept -46.96636 10.19262 36.82480 21.23 0.0008X1 2.01314 0.26314 101.50782 58.53 .0001X2 0.67464 0.29183

14、9.26887 5.34 0.0412X3 7.83023 2.26313 20.76193 11.97 0.0053Bounds on condition number: 1.3466, 11.148,Summary of Forward SelectionVariable Number Partial ModelStep Entered Vars In R-Square R-Square C(p) F Value Pr F1 X1 1 0.8052 0.8052 14.3764 53.73 FModel 3 220.81143 73.60381 42.44 |t| EstimateInte

15、rcept 1 -46.96636 10.19262 -4.61 0.0008 0X1 1 2.01314 0.26314 7.65 .0001 0.75342X2 1 0.67464 0.29183 2.31 0.0412 0.19929X3 1 7.83023 2.26313 3.46 0.0053 0.34139,逐步(前进,后退)法回归程序模式,data b; input id y x1 x2 x3 x4;cards; ; proc reg data=b; model y=x1 x2 x3 x4 /stb;model y=x1 x2 x3 x4 / selection= FORWARD

16、 stb; model y=x1 x2 x3 X4 / selection= BACKWARD stb; model y=x1 x2 x3 x4 / selection=stepwise stb; run;,后退法回归程序模式,DATA A; input X1-X4 Y ; cards; 10 23 3.6 113 15.7 9 20 3.6 106 14.5 10 22 3.7 111 17.5 13 21 3.7 109 22.5 10 22 3.6 110 15.5 10 23 3.5 103 16.98 23 3.3 100 8.6 10 24 3.4 114 17.0 10 20 3

17、.4 104 13.7 10 21 3.4 110 13.4 10 23 3.9 104 20.3 8 21 3.5 109 10.2 6 23 3.2 114 7.4 8 21 3.7 113 11.6 9 22 3.6 105 12.3 ; PROC REG CORR; MODEL Y=X1-X4/SELECTION=BACKWORD SLS=0.05 STB; RUN;,The REG ProcedureModel: MODEL1Dependent Variable: YBackward Elimination: Step 0All Variables Entered: R-Square

18、 = 0.9232 and C(p) = 5.0000Analysis of VarianceSum of MeanSource DF Squares Square F Value Pr FModel 4 221.47175 55.36794 30.06 FIntercept -51.90207 13.35182 27.83051 15.11 0.0030X1 2.02618 0.27204 102.16813 55.47 .0001X2 0.65400 0.30270 8.59720 4.67 0.0561X3 7.79694 2.33281 20.57408 11.17 0.0075X4

19、0.04970 0.08300 0.66032 0.36 0.5626Bounds on condition number: 1.3501, 19.045 -,Backward Elimination: Step 1Variable X4 Removed: R-Square = 0.9205 and C(p) = 3.3585Analysis of VarianceSum of MeanSource DF Squares Square F Value Pr FModel 3 220.81143 73.60381 42.44 FIntercept -46.96636 10.19262 36.82

20、480 21.23 0.0008X1 2.01314 0.26314 101.50782 58.53 .0001X2 0.67464 0.29183 9.26887 5.34 0.0412X3 7.83023 2.26313 20.76193 11.97 0.0053Bounds on condition number: 1.3466, 11.148 -All variables left in the model are significant at the 0.0500 level.,Summary of Backward EliminationVariable Number Partia

21、l ModelStep Removed Vars In R-Square R-Square C(p) F Value Pr F1 X4 3 0.0028 0.9205 3.3585 0.36 0.5626The SAS System 14:40 Friday, April 30, 2008 14The REG ProcedureModel: MODEL1Dependent Variable: YAnalysis of VarianceSum of MeanSource DF Squares Square F Value Pr FModel 3 220.81143 73.60381 42.44

22、|t| EstimateIntercept 1 -46.96636 10.19262 -4.61 0.0008 0X1 1 2.01314 0.26314 7.65 .0001 0.75342X2 1 0.67464 0.29183 2.31 0.0412 0.19929X3 1 7.83023 2.26313 3.46 0.0053 0.34139,逐步法回归程序模式,DATA A; input X1-X4 Y ; cards; 10 23 3.6 113 15.7 9 20 3.6 106 14.5 10 22 3.7 111 17.5 13 21 3.7 109 22.5 10 22 3

23、.6 110 15.5 10 23 3.5 103 16.98 23 3.3 100 8.6 10 24 3.4 114 17.0 10 20 3.4 104 13.7 10 21 3.4 110 13.4 10 23 3.9 104 20.3 8 21 3.5 109 10.2 6 23 3.2 114 7.4 8 21 3.7 113 11.6 9 22 3.6 105 12.3 ; PROC REG CORR; MODEL Y=X1-X4/SELECTION=BACKWORD SLS=0.05 STB; MODEL Y=X1-X4/SELECTION=FORWARD SLE=0.05 S

24、TB; MODEL Y=X1-X4/SELECTION=STEPWISE SLS=0.05 SLE=0.05 STB;RUN;,逐步(前进,后退)法回归程序模式,The REG ProcedureModel: MODEL1Dependent Variable: YStepwise Selection: Step 1Variable X1 Entered: R-Square = 0.8052 and C(p) = 14.3764Analysis of VarianceSum of MeanSource DF Squares Square F Value Pr FModel 1 193.15219

25、 193.15219 53.73 FIntercept -8.06429 3.11354 24.11809 6.71 0.0224X1 2.39762 0.32711 193.15219 53.73 .0001Bounds on condition number: 1, 1 -,逐步法回归程序模式结果,Stepwise Selection: Step 2Variable X3 Entered: R-Square = 0.8818 and C(p) = 6.3911Analysis of VarianceSum of MeanSource DF Squares Square F Value Pr

26、 FModel 2 211.54256 105.77128 44.78 FIntercept -30.01290 8.26129 31.17756 13.20 0.0034X1 1.96965 0.30632 97.66880 41.35 .0001X3 7.33659 2.62942 18.39037 7.79 0.0163,逐步法回归程序模式结果,Stepwise Selection: Step 3Variable X2 Entered: R-Square = 0.9205 and C(p) = 3.3585Analysis of VarianceSum of MeanSource DF

27、Squares Square F Value Pr FModel 3 220.81143 73.60381 42.44 FIntercept -46.96636 10.19262 36.82480 21.23 0.0008X1 2.01314 0.26314 101.50782 58.53 .0001X2 0.67464 0.29183 9.26887 5.34 0.0412X3 7.83023 2.26313 20.76193 11.97 0.0053Bounds on condition number: 1.3466, 11.148,逐步法回归程序模式结果,Model: MODEL1Dep

28、endent Variable: YAnalysis of VarianceSum of MeanSource DF Squares Square F Value Pr FModel 3 220.81143 73.60381 42.44 |t| EstimateIntercept 1 -46.96636 10.19262 -4.61 0.0008 0X1 1 2.01314 0.26314 7.65 .0001 0.75342X2 1 0.67464 0.29183 2.31 0.0412 0.19929X3 1 7.83023 2.26313 3.46 0.0053 0.34139,程序运行

29、的主要结果,第二节回归方程筛选优劣的几个准则,1 决定系数,回归方程较好,当 最小且接近自变量的个数P,选择为佳,4. Bayesian信息量BIC达最小,,3赤池信息量AIC达最小,,第二节回归方程筛选优劣的几个准则,5. 估计均方误差,达最小,7均方误差,8统计量,9多元正态假设下预测均方误差,10均方根误差,达最小,第一节多重共线性,六SAS程序 /*变量筛选*/ data fitness; input x1 x2 x3 y ; datalines;149.2 4.2 108.1 15.9161.2 4.1 114.8 16.4171.5 3.1 123.2 19.0175.5 3.1

30、126.9 19.1180.8 1.1 132.1 18.8190.7 2.2 137.7 20.4202.1 2.1 146.0 22.7212.4 5.6 154.1 26.5226.1 5.0 162.3 28.1231.9 5.1 164.3 27.6239.0 0.7 167.6 26.3 ; proc reg data=fitness outest=est;model y= x1 x2 x3/ selection=rsquare mse jp gmsep cp aic bic sbc b best=2; 因子选择 proc print data=est; run;,第一节多重共线性

31、,Number in Estimated MSEModel R-Square C(p) AIC BIC of Prediction J(p) MSE (因子个数)(决定系数)(CP统计量)(AIC BIC信息准则) (均方误差)1 0.9445 40.9850 4.4430 2.1718 1.5616 1.5038 1.272451 0.9317 52.1069 6.7360 4.1556 1.9236 1.8524 1.56737-2 0.9913 2.5454 -13.9065 -9.5787 0.3157 0.2865 0.225102 0.9828 9.9016 -6.4206 -6.

32、1287 0.6235 0.5658 0.44455-3 0.9919 4.0000 -12.7318 -6.8134 0.3905 0.3254 0.23866 模型选择比较与估计信息Number in -Parameter Estimates-Model R-Square SBC Intercept x1 x2 x31 0.9445 5.23879 -8.01325 . . 0.214001 0.9317 7.53184 -6.54108 0.14612 . .-2 0.9913 -12.71284 -9.74274 . 0.59605 0.212302 0.9828 -5.22693 -

33、8.42607 0.14524 0.62299 .-3 0.9919 -11.14019 -10.13740 -0.05194 0.58666 0.28768,第三节 .多重共线性,多重线性回归模型,要求设计矩阵X的秩R(X)=P+1,即要求X中的列向量线性无关。,的LS估计,但在实际应用不容易满足,往往出现自变量间线性相关与近似线性相关的情况,当存在不全为零的P1个数,使得,(1),3.共线性 (Multicollinearity, collinearity),这里主要讨论“几乎”共线性,顺便也讨论一下精确的共线性,定义:自变量之间存在强烈的线性关系。,迹象: XTX至少有一个很小的特征值j

34、 (0)注意: j0 for j=1,2,p (这里j 是XTX的特征值).,影响: 典型的影响是使参数估计的方差增大从而使整个估计不精确.,第三节 多重共线性,故可得:,上式两边左乘 X得,第三节病态回归,对线性模型 其最小二乘法估计为 ,当 接近奇异时,即呈现所谓“病态”,LS估计的性能变坏.,事实上,由于(1),(2),可见,当S呈现所谓“病态”时,即当其某一特征根很接近0时,其均方误差、估计值与理论值的方差均很大,即它们差的平方和的Q值很大,而且很不稳定,各个变量有近似的线性关系,故在此情况下很难把该LS估计为良好估计。,第一节 多重共线性,1.特征根判定准则,总的说来: Var( )

35、= 2 (XTX)-1具体地说: Var(j )= for j=0,1,p-1,这里 R2j 是 即其它自变量对自变量j回归的确定系数. 线性回归的理想要求是:Y对X有很强的线性关系,而X之间有较弱的线性关系.,2 确定系数判定准则,4.方差膨胀因子作共线性的测度,(1) VIF (variance inflation factor)VIFj=1/(1- R2j ) for j=0,1,2,p-1. 当 max(VIFj)30时, 有强共线性问题 当 max(VIFj)10时, 有共线性问题 当 (VIFj)接近1时, 弱共线性问题 (这是经验公式,无精确理论基础),注意: VIF01/(1-

36、 R20 ) 其对应模型是 此模型右边无常数项.,第一节多重共线性,5条件指数(Collinearity) 由特征根判定准则知,,近似为零的特征值则可知X自变量间存在多重共线性。那么特征值近似为零的标准如何确定?可用以下介绍的条件指数确定之。,为近微弱多重共线性,,为中等多重共线性,为较强多重共线性,,为严重强多重共线性,解决方法,(1) 从模型中除去一些变量(例如对应于比较大的VIFj的Xj).这个问题与变量选择和模型确定的方法有关;如果 j0, 则剔除j会导致 ,即最小二乘估计成为有偏估计.,实例: 某种水泥在凝固时放出的热量y(卡克)与水泥中下列的4种化学成 分有关: x1:3CaoAl

37、2O3的成分(), x2:3CaoSiO2的成分(), x3:4CaoAl2O3Fe2O3的成分(), x4:2CaoSiO3的成分()。 作y关于x1 x2 x3 x4的逐步回归方程。 热量y与其4种成份的数据表,逐步回归例,首先须确定测验每一个变数是否显著的F测验的水平(SLENTRY,简记 为SLE),以作为引入变数的标准;同时,还须确定删除变数的F测验 的水平(SLSYR,简记为SLS)。为了使最终的回归方程中包含较多的 变数,SLE不宜太小,SLS也不宜太大。本例引入测验水平取0.10,删 除测验水平也取0.10。,7 26 6 60 78.5 1 29 15 52 74.3 11

38、56 8 20 104.3 11 31 8 47 87.6 7 52 6 33 95.9 11 55 9 22 109.2 3 71 17 6 102.7 1 31 22 44 72.5 2 54 18 22 93.1 21 47 4 26 115.9 1 40 23 34 83.8 11 66 9 12 113.3 10 68 8 12 109.4 ;,data b; input id x1 x2 x3 x4 Y;cards;,proc reg data=b; model y=x1 x2 x3 X4/stb; model y=x1 x2 x3 X4/ selection= FORWARD s

39、tb; model y=x1 x2 x3 X4 / selection= BACKWARD stb; model y=x1 x2 x3 X4/ selection=stepwise stb; run;,data fitness; input x1 x2 x3 y ; datalines;149.2 4.2 108.1 15.9 161.2 4.1 114.8 16.4171.5 3.1 123.2 19.0 175.5 3.1 126.9 19.1180.8 1.1 132.1 18.8 190.7 2.2 137.7 20.4202.1 2.1 146.0 22.7 212.4 5.6 15

40、4.1 26.5226.1 5.0 162.3 28.1 231.9 5.1 164.3 27.6239.0 0.7 167.6 26.3 ;,proc reg data=fitness outest=est; model y= x1 x2 x3/ tol vif collin; 共线诊断 proc print data=est; run;,第二节 回归共线诊断变量筛选法,Parameter Estimates,Parameter Standard Variance,Variable DF Estimate Error t Value Pr |t| Tolerance Inflation,(容限) (方差膨胀因子),x1 1 -0.05194 0.07034 -0.74 0.4842 0.00535 186.74170,x2 1 0.58666 0.09459 6.20 0.0004 0.98068 1.01970,x3 1 0.28768 0.10234 2.81 0.0261 0.00535 186.85657,Collinearity Diagnostics,Number Eigenvalue Index Intercept x1 x2 x3特征值 条件指数,2 0.14838 5.08607 0.00530 0.00007017 0.93769 0.00006166,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报