1、1,第12章 多元线性回归,2,复习,一元线性回归相关关系相关系数相关系数检验,3,复习,一元线性回归线性模型:y = 0 + 1x + 回归方程: E( y ) = 0+ 1x 估计的回归方程:最小二乘估计(OLS),4,复习,一元线性回归线性关系检验 回归系数检验判定系数(拟合优度),5,第12章 多元线性回归,12.1 多元线性回归模型 12.2 回归方程的拟合优度 12.3 显著性检验 12.4 多重共线性 12.5 变量选择与逐步回归,6,学习目标,回归模型、回归方程、估计的回归方程 2. 回归方程的拟合优度 回归方程的显著性检验(重点) 多重共线性问题及其处理(难点) 变量选择与逐
2、步回归 用 Excel 进行回归分析(重点),7,问题,一家大型商业银行在多个地区设有分行,为弄清楚不良贷款形成的原因,抽取了该银行所属的25家分行2002年的有关业务数据。试建立不良贷款y与贷款余额x1、累计应收贷款x2、贷款项目个数x3和固定资产投资额x4的线性回归方程,并解释各回归系数的含义,8,12.1 多元线性回归模型,12.1.1 多元回归模型与回归方程 12.1.2 估计的多元回归方程 12.1.3 参数的最小二乘估计,9,多元回归模型与回归方程,10,多元回归模型 (multiple regression model),11,多元回归模型 (基本假定),误差项是一个期望值为0的
3、随机变量,即E()=0 对于自变量x1,x2,xk的所有值,的方差 2都相同 误差项是一个服从正态分布的随机变量,即N(0,2),且相互独立,12,多元回归方程 (multiple regression equation),13,二元回归方程的直观解释,14,估计的多元回归方程,15,估计的多元回归的方程 (estimated multiple regression equation),用样本统计量 估计回归方程中的参数 时得到的方程 由最小二乘法求得 一般形式为,16,参数的最小二乘估计,17,参数的最小二乘法,求解各回归参数的标准方程如下,使因变量的观察值与估计值之间的离差平方和达到最小来
4、求得 。即,18,12.2 回归方程的拟合优度,12.2.1 多重判定系数 12.2.2 估计标准误差,19,多重判定系数,20,多重判定系数 (multiple coefficient of determination),回归平方和占总平方和的比例 计算公式为因变量取值的变差中,能被估计的多元回归方程所解释的比例,21,修正多重判定系数 (adjusted multiple coefficient of determination),用样本量n和自变量的个数k去修正R2得到 计算公式为避免增加自变量而高估 R2 意义与 R2类似 数值小于R2,22,估计标准误差,对误差项的标准差 的一个估计
5、值 衡量多元回归方程的拟合优度 计算公式为,23,12.3 显著性检验,12.3.1 线性关系检验 12.3.2 回归系数检验,24,线性关系检验,25,线性关系检验,检验因变量与所有自变量之间的线性关系是否显著 也被称为总体的显著性检验 检验方法是将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著 如果是显著的,因变量与自变量之间存在线性关系 如果不显著,因变量与自变量之间不存在线性关系,26,线性关系检验,27,回归系数检验,28,回归系数的检验,线性关系检验通过后,对各个回归系数有选择地进行一次或多次检验 究竟要对哪几个回归系数进行检验,通常需要在建
6、立模型之前作出决定 3. 对每一个自变量都要单独进行检验 4. 应用t检验统计量,29,回归系数的检验 (步骤),30,12.4 多重共线性,12.4.1 多重共线性及其所产生的问题 12.4.2 多重共线性的识别 12.4.3 多重共线性问题的处理,31,多重共线性及其产生的问题,32,多重共线性 (multicollinearity),回归模型中两个或两个以上的自变量彼此相关 多重共线性带来的问题有 可能会使回归的结果造成混乱,甚至会把分析引入歧途 可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同预期的正负号相反,33,多重共线性的识别,34,多重共线性的识别,检测多重共
7、线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验 若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性 如果出现下列情况,暗示存在多重共线性 模型中各对自变量之间显著相关 当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著 回归系数的正负号与预期的相反,35,多重共线性 (例题分析),【例】判别各自变量之间是否存在多重共线性,36,多重共线性 (例题分析),【例】判别各自变量之间是否存在多重共线性,37,多重共线性 (例题分析),t(25-2)=2.069,所有统计量t t(25-2)=2.069,所以均拒绝
8、原假设,说明这4个自变量两两之间都有显著的相关关系 由表Excel输出的结果可知,回归模型的线性关系显著(Significance-F1.03539E-06=0.05)。这也暗示了模型中存在多重共线性 固定资产投资额的回归系数为负号(-0.029193),与预期的不一致,38,多重共线性问题的处理,39,多重共线性 (问题的处理),将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关 在建立多元线性回归模型时,不要试图引入更多的自变量,除非确实有必要 社会科学研究中,在某些情况下,得到的结果往往并不令人满意,但这不一定是选择的模型不合适,而是数据的质量不好,或者是由于引入的自变量不
9、合适,40,12.5 变量选择与逐步回归,12.5.1 变量选择过程 12.5.2 向前选择 12.5.3 向后剔除 12.5.4 逐步回归,41,变量选择过程,在建立回归模型时,对自变量进行筛选 选择自变量的原则是对统计量进行显著性检验 将一个或一个以上的自变量引入到回归模型中时,是否使得残差平方和(SSE)有显著地减少。如果增加一个自变量使SSE的减少是显著的,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引入回归模型 确定引入自变量是否使SSE有显著减少的方法,就是使用F统计量的值作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量 变量选择的
10、方法主要有:向前选择、向后剔除、逐步回归等,42,向前选择 (forward selection),从模型中没有自变量开始 对k个自变量分别拟合对因变量的一元线性回归模型,共有k个,然后找出F统计量的值最高的模型及其自变量,并将其首先引入模型 分别拟合引入模型外的k-1个自变量的线性回归模型 如此反复进行,直至模型外的自变量均无统计显著性为止,43,向后剔除 (backward elimination),先对因变量拟合包括所有k个自变量的回归模型。然后考察p(pk)个去掉一个自变量的模型(这些模型中每一个都有的k-1个自变量),使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除 考察p-
11、1个再去掉一个自变量的模型(这些模型中在每一个都有k-2个的自变量),使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除 如此反复进行,一直将自变量从模型中剔除,直至剔除一个自变量不会使SSE显著减小为止,44,逐步回归 (stepwise regression),将向前选择和向后剔除两种方法结合起来筛选自变量 在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没有可能剔除某个自变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除 按照方法不停地增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致SSE显著减少 在前面步骤
12、中增加的自变量在后面的步骤中有可能被剔除,而在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中,45,逐步回归 (例题分析SPSS输出结果),a Dependent variable:不良贷款y,Variable Entered/Removeda,46,逐步回归 (例题分析SPSS输出结果),Model summary,a Predictors:(Constant),各项贷款余额x1 b Predictors:(Constant),各项贷款余额x1,固定资产投资额x4,47,逐步回归 (例题分析SPSS输出结果),ANOVA c,a Predictors:(Constant),各项贷款余额x1 b Predictors:(Constant),各项贷款余额x1,固定资产投资额x4 c Dependent variable:不良贷款y,48,逐步回归 (例题分析SPSS输出结果),Coefficientsa,a Dependent variable:不良贷款y,49,本章小结,多元回归模型、回归方程、估计方程 回归方程的拟合优度 显著性检验 多重共线性 变量选择与逐步回归 用Excel回归分析,