收藏 分享(赏)

研《回归分析》.ppt

上传人:kuailexingkong 文档编号:1703156 上传时间:2018-08-19 格式:PPT 页数:84 大小:3.33MB
下载 相关 举报
研《回归分析》.ppt_第1页
第1页 / 共84页
研《回归分析》.ppt_第2页
第2页 / 共84页
研《回归分析》.ppt_第3页
第3页 / 共84页
研《回归分析》.ppt_第4页
第4页 / 共84页
研《回归分析》.ppt_第5页
第5页 / 共84页
点击查看更多>>
资源描述

1、回归分析,追求,回归分析,一元回归 多元回归 全部强行进入回归,逐步回归,回归:揭示出不确定数量关系的内在数量变化规律,并通过一定的表达式描述数量之间的这种内在关系的方法。,不确定性的函数关系,回归的涵义,数据之间的关系 函数,确定性的函数关系,回归方程,回归分析的任务,(1)通过分析大量的样本数据,确定变量之间的统计关系,并以数学表达式形式给出; (2)对确定的数学关系式的可信度进行统计检验,找出对某一特定变量影响较为显著的变量和不显著的变量; (3)利用确定的数学关系式,根据自变量预测或控制因变量的取值,并找出这种预测或控制的精确度。,回归分析时变量的设定,回归分析的被解释变量必须是刻度级

2、的,如果是顺序级的,要用Numeric型的来表示。如果被解释变量是名义级的,将用Logistic回归等方法处理。 解释变量可以是刻度级、顺序级、名义级的变量,不论是什么级别的数据,都必须用Numeric型的来表示。,一元线性回归分析,高斯假设,一元线性回归模型的求解,一元线性回归模型的SPSS实现,一元线性回归模型的设定,SPSS的实现:Analyze菜单Regression项中选择Linear命令。,Enter:强行进入法,即所选自变量全部进入模型。 Remove:强制剔除法,即建立回归方程时,根据设定的条件从回归方程中剔除部分自变量。 Backward:向后剔除法,根据Option对话框中

3、设定的判据,先建立全模型,然后根据设置的判据,每次剔除一个使方差分析中的F值最小的自变量,直到回归方程中不再含有不符合判据的自变量为止。 Forward:向前选择法。 Stepwise:逐步进入法,根据Option对话框中设定的判据及方差分析结果,选择符合判据的自变量与因变量相关程度最高的进入回归方程。依据Forward选入自变量,依据Backward将模型中F值最小且符合剔除判据的变量剔除,重复。,Method处下拉菜单,共有5个选项:,WLS选项是存在异方差时,利用加权最小二乘法替代普通最小二乘法估计回归模型参数。通过WLS可以选定一个变量作为加权变量。在实际问题中,如果无法自行确定权重变

4、量,可以用SPSS的权重估计来实现。,Descriptives:输出自变量和因变量的均值、标准差相关系数矩阵及单侧检验概率。,Estimates:输出与回归系数相关统计量。有:回归系数、回归系数的标准误差、标准回归系数、T统计量和相应的相伴概率、各自变量的容忍度。,Confidence intervals:输出每一个非标准化回归系数95%的可信区间。,Covariance matix:输出方程中各自变量间的相关系数矩阵及各变量的协方差矩阵。,Model fit:输出判定系数、调整的判定系数、回归方程的标准误差,F检验的ANOVA方差分析表。,R squared change:当回归方程中引入或

5、剔除一个自变量后,判定系数、F值产生的变化。,Casewise diagnostics:输出标准化残差绝对值3的样本数据点的相关信息,包括:标准化残差、观测值预测值、最小(最大)预测值、残差、最小(最大)残差以及它们的均值和标准差。Outliers outside standard devistion:设置奇异值的判据,默认3倍的标准差。All case:输出所有样本数据有关残差值。,Part and partial correlation:输出方程中各自变量与因变量之间的简单相关系数、偏相关系数与部分相关系数。,Collinearity diagnostics:多重共线性分析,输出各自变量的

6、容限度、方差膨胀因子、最小容忍度、特征值、条件指标及方差比例等。,Durbin-Watson:输出Durbin-watson检验值。,Plots对话框用来检验残差序列的正态性、随机性和是否存在异方差现象。,Produce all partial plots:输出每一个自变量残差相对于因变量残差的散布图。,* ZPRED选项:标准化预测值。,* ZRESID选项:标准化残差。,* DRESID选项:剔除残差。,* ADJPRED选项:修正后预测值。,* SRESID选项:t分析残差。,* SDRESID选项:t分析剔除残差。,Mahalanobis:保存Mahalanobis距离,Cooks:保

7、存Cook距离,Leverage values:保存中心点杠杆值,Individual:保存一个观测量上限与下限的预测区间。,Studentized:标准化残差,Deleted:剔除残差,Studentized deleted:标准化剔除残差,DfBeta(s):因排除一个特定的观察值所引起的回归系数的变化。若该值2,则被排除的观测值有可能是影响点。,DfFit:因排除一个特定的观测值所引起的观测值的变化。,Use probalitlity of F:以回归系数显著性检验中各自变量的F统计量的相伴概率作为自变量是否引入模型或者从模型中剔除的标准。实际应用中,应使Entry值小于Remove值,

8、否则,自变量一进入方程就会被立即剔除。,Use F value:以回归系数显著性检验中的各自变量的F统计量作为自变量进入模型或者从模型中剔除的标准。,Include constant in equationF:表示回归方程中将包含常数项。,练习,某企业产品广告费和销售收入资料如下,判断广告费和销售收入之间关系密切程度如何?,3 10 28 40 66 117 140 404,序号,广告费(万元),销售收入(百万元),1 2 3 4 5 6 7,3 5 7 8 11 13 14 61,1 2 4 5 6 9 10 37,9 25 49 64 121 169 196 633,1 4 16 25 3

9、6 81 100 263,合计,多元线性回归分析,一个被解释变量(因变量),,的线性模型,,多个解释变量(自变量),多元回归的高斯假设,多元回归方程为,回归方程的显著性检验,多元线性回归的检验与估计,二、多元线性回归,三、回归系数的显著性检验,四、回归分析的置信区间,五、标准回归系数,回归效果的检验,回归系数,总体均值,方程的检验,多元线性回归的三大基本问题,多重共线性,序列相关问题,异方差问题,多元线性回归的SPSS实现,多元回归的SPSS处理,逐步回归,第一种方法,第二种方法,第三种方法,逐步回归的SPSS处理,逐步回归,从数学上看,如果变量xj可以表达为另外一些变量xt、xs 等的线性组

10、合,则,而,会出现计算溢出问题。,称变量xj、 xt、xs具有多重共线性。多重共线性在经济管理问题上的表现是:多个变量有共同的变化趋势。多重共线性的后果,或者说,xj与其它自变量xt、xs 等的复相关系数接近1,,多重共线性是指各个解释变量之间存在线性相关关系的现象。多重共线性常常会回归系数方差增大,从而使 t 检验难以通过。,,,会导致,趋向于1,给出虚假的回归效果好的结论,统计量将普遍变小,(3),(1)计算,将溢出,,,因为,时,,,。,(2),的方差将变得很大,,,因为,,,是矩阵,的对角线元素,。,,,导致错误地删除变量,式中,,,。,(4),,,。,因为,的溢出,,,的溢出,,,所

11、以会导,致,(5),仍无偏。,如果输出的F统计值很大,R趋于1,同时许多t 统计值小(显著性概率大于 ),估计系数的标准差大 ,则表明存在多重共线性问题。,判断是否存在多重共线性的方法,(1)容忍度,对应于解释变量xj的容忍度定义为,Tolj=1-R2,R2是解释变量xj与方程中其他所有解释变量之间的复相关系数平方,可以衡量xj与其他解释变量的线性相关程度。,多共线性问题的处理,逐步删除不重要的(t 相对小的)解释变量,可直接用逐步回归法完成。,此外,也可以采用如下方法:,(1)用变量的比例代替原来的变量:,(2)方差膨胀因子,方差膨胀因子定义为容忍度的倒数,即,VIFj=1/1-R2,一般认

12、为,方差膨胀因子大于10时,就认为存在多重共线性。,例如,,在,中,,,可用如下变量替代,,,共线性问题,解决多重,。,取对数后得到如下回归方程:,就可以消除多重共线性问题。,(2)改变模型结构。,例如,,,用,代替,等。,很容易出现多重共线性问题。,(3)恰当处理滞后变量。,回归方程,,,由于滞后变量,的同趋势性,,,解决的办,法是,,,于是,同时有,于是,,,前式,后式,,,有,这就消除了解释变量之间的多重共线性问题。,(4)增大样本容量。,令,用SPSS处理多重共线性,是指随着解释变量的变化,被解释变量的方差存在明显的变化趋势(不具有常数方差的特征)这也是经济与管理领域中经常出现的问题之

13、一。,高斯假设的第(3)条是:,异方差问题,对多元线性回归模型而言,,,一是不存在序列相关,即,二是具有同方差性(齐次方差性)。,按照高斯条件,被解释的随机性,实际上是由随机干扰项的随机性所决定的。因此被解释变量的异方差性,实际上也是由随机干扰项的异方差性决定的,即方差与下标i有关。若,则,这等价于:,回归参数的估计值仍无偏,但是不再有最小方差所以不再有效,由于不满足关于高斯-马尔柯夫定理的条件,所以其结论也不成立。,异方差问题出现时的后果,异方差问题是否存在的判断,(1)用散点图判断,与Xij的Spearman相关系数的绝对值大,意味着存在非齐次方差。,(2)求,与Xij的Spearman等

14、级相关系数,异方差问题的处理,(1)试算异方差的形式,选出回归效果最好的形式,由,和,计算出,得到,(3)WLS处理异方差,若找到回归形式,则用,去除原模型,,,得,记,,,,可以证明:,,,具有同方差性,。,实际是计算中权重。,广义最小二乘法的估计公式,(2)用广义最小二乘法,求原方程的系数。,异方差问题的SPSS处理,检验异方差是否存在,以1/收入为权重,作如下回归:,用加权最小二乘法估计回归方程的系数,直接回归 (1)定义变量“储蓄/收入”和“1/收入” (2)进入一元线性回归过程 用加权最小二乘法估计回归系数,检验异方差是否得到改善,产生新的未标准化残差; 重新计算未标准化残差绝对值与

15、收入倒数的等级相关系数,判别异方差性是否已经得到矫正。 得出回归方程。,用加权最小二乘法估计回归系数,方法一,此方法不能输出残差图,需要另外计算等级相关系数,检查异方差是否已经消除。,用加权最小二乘法估计回归系数,方法二,此方法也不能输出残差图,需要另外计算等级相关系数,检查异方差是否已消除。 这里的最佳权重变量是:,自相关问题,是指随着不同期的样本值(不同编号的样本值)之间存在相关关系,这也是经济与管理领域中经常出现的问题之一。它违反了高斯-马尔柯夫定理的条件,从而使最小二乘法估计值不再具有最优的性质。,所谓序列相关问题就是指:,(4)灾害的影响是多年的,也会出现序列相关。,(1)固定资产变

16、量本来就前后期相关。,(2)漏掉的变量被包含在随机干扰项中了。,(3)系统观察误差,会引起序列相关问题。,经济管理问题中产生序列相关的主要原因,置信区间太大,3.序列相关问题的影响,(1)OLS估计值不具最小方差性。,(2)统计量的值不准确。,(3)随机干扰项的估计值,有偏。,(4)用这样的模型预测不准,,失去意义,(,),。,4.一阶序列相关的检验,所谓一阶序列相关,,是指前后相邻两期样本之间的,序列相关问题。,其检验的工具是DW统计量。,DW统计量的定义如下:,,,其中,,由于,,,所以,。,与,所以,DW=2,,当,时,,DW=0,,完全正自相关。,由于,只能接近1,,,只能接近完全正自

17、相关,。,可用下图表示:,当,时,,与,完全没有自相关,。,当,时,,DW=4,,完全负相关。,由于,只能接近-1,,,所以,与,只能接近完全负自相关。,具体的判别准则,,图 DW统计量的值的分布区域与判别,图中,,DW3=4-DW2,DW4=4-DW1。,当,时,,存在正一阶序列相关。,当,时,,不能断定是否存在序列相关,当,时,,不存在一阶序列相关。,当,时,,不能断定是否存在序列相关,当,时,存在负一阶序列相关。,。,。,一阶序列相关是指:,二阶序列相关是指:,三阶以上类推。,这里是序列相关的“观察形式”,自相关的“理论,,,形式”,是把上面的,换成,。,用SPSS处理序列相关,观察、检

18、验序列相关; 试算序列相关形式,估计序列相关系数; 按照最佳序列相关形式,消除序列相关,得出估计值; 估计自相关系数的DW两步法。,试算序列相关形式,估计序列相关系数,产生2个新变量e(t-1)和e(t-2),用SPSS中的transform Compute中的LAG函数产生; 用e(t)对e(t-1)回归,观察回归系数; 用e(t)对e(t-1)和e(t-2)回归,观察回归系数,选择回归效果相对好的回归系数,即为自相关系数。,按照最佳序列相关形式,消除序列相关,得出估计值;,用SPSS中的Transform Compute产生新变量,即用原变量(t)减去自相关系数乘以原变量(t-1)。回归分

19、析中有几个变量,就相应产生几个变量。 对新变量进行回归,观察DW值是否已经得到改善。,估计自相关系数的DW两步法,若得出e(t)对e(t-1)的回归效果好,则对因变量(t-1)、原自变量及自变量(t-1)进行多元回归分析,找出自相关系数。 用自相关系数分别重新计算上一步的自变量和因变量,再对重新计算的自变量和因变量进行回归,则效果更好。,人均收入与人均食品支出关系的散点图,一元线性回归模型的设定,人均收入与多孩率的散点图,一元线性回归模型的设定,1.总体回归模型:,2.样本回归模型:,样本回归直线:,服从,高斯假设,(1) (2) (3) (4)(5) (6),。,分布。正态性假设;,为随机变

20、量;,即所有随机误差都具有相同方差,随机扰动项协方差等于零,,相互独立。无序列相关假设;,独立性假设或零均值假设;,一元线性回归模型的求解,最小平方法,普通最小二乘法估计式,在模型中,代入样本观察值之后,可得,此式也可用向量、矩阵方式表达为,式中,,是,阶矩阵,这就是普通最小二乘法估计系数的公式。,若估计出,,,则有,所以,于是有,两边左乘,得,由几何解释,故而上式中,所以可以求出,如下:,回归方程的显著性检验F检验,:回归方程不显著,:回归方程显著,:总离差平方和,:剩余平方和/残差平方和,:回归离差平方和,判定相关系数越接近1,表明回归平方和占总离差平方和的比例越大,用x的变动解释y 值变

21、动的部分就越多,回归的效果就越好。,回归效果的检验判定相关系数检验,若全部观测值都落在回归直线上,则,若x完全无助于解释y的变动,则,F检验,校正的判定系数,统计量 中不含有自由度。所谓校正的判定系数是指“考虑了自由度的判定系数 ”。其定义如下:,剔除了自由度的影响。,校正的判定系数Adjusted,式中:,回归效果的检验F检验,:样本容量,:自变量的个数(含常数项),:判定系数,回归系数的显著性检验T检验,成立,即,当,时,显著异于0。,针对回归系数的,统计量的显著性检验决定了相,应的变量能否作为解释变量进入回归方程。,总体均值的置信区间,用,代替 可以得到统计量,回归系数的置信区间,给定一

22、置信水平,区间,为,水平上的置信区间。例,,则,即,标准化即剔除自变量单位的影响,是指对变量,标准回归系数,进行如下处理:,转化为标准方程,于是原始方程,,,式中:,多元回归的高斯假设,(1) 为随机向量,(2),(3),(4),包括,(5),或者X为确定矩阵,(6)秩,(7)行列式,远离零。,应当满足:统计量的值 的显著性概率 小于等于选定的显著性水平,的 先进入方程;最后一个进入方程的自变量,(即偏解释变差)最大的变量,进入回归方程。即进入的变量与因变量具有最大的正相关或负相关而对已解释变差贡献大小的判别依据,是包含了偏解释变差的F统计量,的值,。统计量,第一种方法,最大,在考虑y对已知的

23、一群变量,回归时,,从变量,中,逐步选出对已解释变差的贡献,。,偏解释变差,偏解释变差(偏回归平方和):在一个回归方程中,当把 xj从自变量的队伍中删除后,可得到一组新的回归系数的估计值,从而得到Y新的计算值 则原回归平方和与新回归平方和的差就是xj对已解释变差(回归平方和)的贡献,称为xj的偏解释变差(偏回归平方和)。,的 在剔除时,其统计量的值 的显著性概率,逐步把 最小的 剔除出方程,所有剔除出方程,第二种方法,大于选定的显著性水平 。,先把Y对所有的自变量,回归,然后,大于 从而有更少的变量被剔除出方程,防止变量“进”“出”方程,陷入死循环。,更大一些,以便能够有较少的 的显著性慨率,的显著性慨率 所对照的显著性水平 则要取得,以便能有更多的 的外侧概率(显著性概率)小于,是一边进、一边出。“进”变量的 的显著性,概率 所对应的显著性水平 ,通常取得大一些,第三种方法,从而使较多的变量进入方程。而“出”的变量,注意,的变化。一次处理,会造成误判。只有逐步处理,才是恰当的。,来决定是否作为 的自变量。因为每添加或剔除一个变量都会引起所有回归系数及统计量的值,的显著性概率 是否小于等于选定的显著性水平,逐步添加法或逐步剔除法,都应当强调,“逐步”,不能一次按照各个变量的统计量值,注意,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报