1、,第九讲 回归分析,线性回归,曲线回归,多重共线性的处理,模型诊断与优化,线性回归,一般提法,研究一个或多个因素(自变量)对某个指标量(因变量)的影响是否显著及影响方式如何。,模型结构,对残差的基本假定:独立性、方差齐性、正态性,例1 对国民收入与储蓄数据进行回归分析,给出回归方程与回归拟合图,线性回归,SAS实现,Proc reg data=SAS数据集;Model 变量名(因变量)=变量列(自变量) ;Output 关键词=变量名;Plot 纵轴变量*横轴变量 ;Print ; Run;,指定模型结构,控制模型的选择,控制模型某些分析结果输出到数据集,控制模型相关的某些图的绘制,控制模型某
2、些分析结果的打印输出,线性回归,SAS实现,Proc reg data=SAS数据集;Model 变量名(因变量)=变量列(自变量) ;Output 关键词=变量名;Plot 纵轴变量*横轴变量 ;Print ; Run;,Model语句是必须的,其它语句可选,Plot语句的功能也可以通过Gplot过程在Reg过程外实现,Print语句的功能也可以通过对Output语句的输出结果执行Print过程实现,模型诊断与优化,模型诊断,多重共线性问题是最为严重的,必须消除,模型诊断与优化,模型优化,模型包含的自变量个数不宜太多,在能够说明问题的基础上,少而精为佳。自变量选择的常用方法有:,最优子集法,
3、决定系数或自由度调整的决定系数(拟合角度)达最大,Cp统计量(预测角度)达最小,逐步回归法,前进法、后退法、逐步回归法,例2 对旅游外汇收入与第三产业数据进行回归建模,模型诊断与优化,SAS实现,通过选项1(Model语句的选项)可以实现的功能,DW:自相关性的DW检验统计量,VIF|Collin:多重共线性诊断,Selection=Adjrsq|Cp|Forward|Backward|Stepwise: 自变量的选择 (通过SLS=0.05 SLE=0.1设置出(进)模型的显著水平),模型诊断与优化,SAS实现,通过Output语句输出进一步分析实现,通过Print语句输出进一步分析实现,常
4、用项目:DW, VIF, Collin, CLM, CLI等(与选项1类似),多重共线性的处理,岭回归法,Proc reg data=SAS数据集 Outest=SAS数据集 Outvif;Model 变量名(因变量)=变量列(自变量)/Ridge=值列|起始值 to 终值 by 步长; Plot/Ridgeplot; Run;,Outest选项指定VIF的输出位置,通过输出的VIF值可以进行岭参数的选择(VIF小于10或5),Ridgeplot输出岭迹图,可以直观地作岭迹分析,例3 用岭回归法与主成分回归法消除旅游外汇收入与第三产业回归模型的多重共线性,多重共线性的处理,主成分回归法,Pro
5、c reg data=SAS数据集 Outest=SAS数据集;Model 变量名(因变量)=变量列(自变量)/Pcomit=值列 outvif; Run;,值列指出需要删去的最不重要的几个主成分,主成分回归系数可以由Outest后面的数据集得到,若不确定保留几个主成分,可先用princomp过程作自变量的主成分分析:Proc princomp data=SAS数据集 out=SAS数据集;Var 变量列; Run;,曲线回归,Proc nlin data=SAS数据集;Model 模型表达式;Parms 参数初值设定;Der.参数=模型对参数求偏导后表达式;Output p=变量名 r=变量名 out=SAS数据集; Run;,例4 对收入与储蓄数据与拟合曲线模型,实验任务,理解回归模型建模的一般步骤和方法,了解异方差、自相关、多重共线性的诊断方法,实验题,研究交通事故的影响因素,建立线性回归模型,掌握Reg过程进行回归建模的一般用法,掌握岭回归与主成分回归的SAS实现方法,了解Nlin过程的一般用法,