1、自变量的选择,回归方程中的变量过多,会使资料的搜集、系统的运作及模型的解释都会遇到困难,如何将模型精简而又能有很好的解释能力是回归分析面对的重要问题。,自变量的选择,为分析自变量选择失当而出现的后果,我们首先举一例分析。例如,分析通货膨胀时,我们考虑失业率与预期通货膨胀率是影响通货膨胀的主要因素,若其正确的模型形式是二元线性回归模型,即:,其中,Y表示通货膨胀率(%);X1表示失业率(%); X2表示预期通货膨胀率(%)。 统计资料估计的回归模型,计算机输出结果如下,自变量的选择,(一)确定自变量的原则 原则: 准则:有效性,独立性,边际贡献 (二)确定自变量的步骤 (三)自变量筛选的方法,1
2、. 所有回归式的比较选取法 ( R2最大,MSE最小),2. 分步回归法 包括 (1)向前选取法 (2)向后选取法 (3)逐步选取法,(1)向前法,是选取进入模型的解释变量越选越多,每一步都是选取剩余解释能力最强的一个变量进入模型,但其解释能力必须要通过事前定好的门槛(如 显著性水平为0.05)。 第一步,开始时模式中没有任何变量,接着第一步在所有变量中选取对Y最有解释能力的进入模型,其选取方式是找F值最大的。 第二步,选取除了上面进入模型的X之外的剩余变量中偏F最大,且通过门槛者。,如:,(2)向后选取法 与向前选取法相反,在一开始时是所有变量都放在模型中,然后再将解释能力差的变量一一去掉,
3、直到所有放在模型中的变量其偏F 值都大于预设的门槛。 第一步,先计算所有偏F值,去掉最小且小于门槛值的变量。,(3)逐步选取法 是结合向前和向后选取法而成的。 开始时一向前选取法进入一个变量,而后每当选入一个新变量后,就利用向后法试试看在模型中已存在的变量有无偏F值小于门槛的变量,若有,则将其排除之外,接着再进行向前选取,若无,则继续向前选取,这样向前向后选取法轮流使用,直到没有变量可进来,也没有变量会被去除。,自变量选择中最常见的问题,-存在共线性时的处理方法,引起解释变量共线性的原因,对多重共线性本质的认识,至少可从以下几方面理解: 由变量之间的性质引起的。这时,不管数据以什么形式取得,数
4、据取样是大是小,都会出现X2与X1高度相关,数据问题引起的(多重共线数据点)指即使使总体诸解释变量没有线性关系,但在具体样本中仍可能有线性关系。 情况一:当样本容量很小时。 情况二:若建模所用的解释变量是时序变量,引起解释变量共线性的原因,总量变量相关,增量之间、人均量之间无关。,引起解释变量共线性的原因,逐步分析估计检验法这种方法首先计算因变量对每个解释变量的回归方程,得到基本回归方程。再根据理论上、逻辑上的分析,参考其他先验信息以及统计检验的结果来分析这些基本回归方程,从中选出最合理的基本回归方程。然后在这个选定的基本回归方程中增加新的解释变量,并根据统计分析作如下分类判。,(1)如果新加
5、入的解释变量改进了R2,且每个系数又是统计上显著的,那么就认为这个新变量是有用的,应该保留。 (2)如果新加入的解释变量未能改进R2,对其他系数值也没有影响,则认为新变量是多余的,应予以舍弃。 (3)如果新加入的解释变量不仅改变了R2的值,而且同时也显著地影响其他系数的符号或大小,以至于使某些系数达到不能接受的程度,那么,可以断言产生了严重的多重共线性。这个新的解释变量也可能是重要的,但由于它与其他解释变量之间存在线性相关关系,普通最小二乘法失效。需要特别注意的是,这时不能盲目略去这类变量,否则,可能造成扰动项与解释变量相关。,1.从变量上思考引出的去除不重要解释变量的方法。去掉不重要的解释变
6、量虽然可以削弱共线性,却容易导致模型设定误差,因此有时会出现两难选择:若共线性存在,不能有效地估计模型中的参数,若去掉有关解释变量,又会错误地估计参数的真实数值。,解决共线性的方法,直接合并解释变量 当模型中存在多重共线性时,在不失去实际意义的前提下,可以把有关的解释变量直接合并,从而降低或消除多重共线性。 如果研究的目的是预测全国货运量,那么可以把重工业总产值和轻工业总产值合并为工业总产值,从而使模型中的解释变量个数减少到两个以消除多重共线性。甚至还可以与农业总产值合并,变为工农业总产值。解释变量变成了一个,自然消除了多重共线性。,解决共线性方法,2.从模型形式上思考引出的变量转换法。变量转
7、换的主要形式有如下两种: (1)差分形式,但这种变换也会出现新的问题:第一,即使上式中的随机扰动项不存在序列相关,差分后的随机扰动项也可能存在序列相关。第二,差分变换导致丢失一个观测值,在小样本情况下,就不能不考虑自由度损失问题,另外还需要注意,差分变换不适用于截面数据。,解决共线性方法,2.从模型形式上思考引出的变量转换法。变量转换的主要形式有如下两种: (2),解决共线性方法,2.从模型形式上思考引出的变量转换法。变量转换的主要形式有如下两种: (2)变量比形式,这种方法适用于截面数据,但经过这种变换后将无法研究lnP和lnPW各自的变化对被解释变量lny 的影响,而且要保证所构造的变量比
8、具有明确的经济意义,否则不能进行变量比变换。,解决共线性方法,3.从先验信息上思考引出的约束法。,采取约束法的关键是先验信息如何获取。通常可依据经济理论和实际分析获得,当然也可以提出约束,并进行约束检验,当约束检验通过后再采用约束法。,解决共线性方法,4.从数据上思考引出的板块数据法、增加样本容量法和剔除影响点法板块数据法就是把截面数据与时序数据结合起来的方法。采用这种方法隐含着一个假定,即从截面数据中估计的参数与从时序数据中估计的参数是相等的,因此它仅适用于从一个截面到另一个截面数据、估计值相对稳定的情况。剔除多重共线性的影响点法是指经过诊断后假定样本点为影响点,从原样本中剔除第i个样本点,
9、可以减轻共线性程度。这种方法的问题是诊断出的这个样本点是否应该剔除,这里需特别指出的是,当没有真正弄清楚样本点形成机制之前,不能轻易剔除,因为影响点的形成可能是随机因素,也可能是经济机制变化,当后者发生时,无论影响点的剔除对减轻多重共线性的作用有多大,也不能剔除。,合并截面数据与时间序列数据 这种方法属于约束最小二乘法(RLS)。其基本思想是,先由截面数据求出一个或多个回归系数的估计值,再把它们代入原模型中,通过用因变量与上述估计值所对应的解释变量相减从而得到新的因变量,然后建立新因变量对那些保留解释变量的回归模型,并利用时间序列样本估计回归系数。,由于把估计过程分作两步,从而避免了多重共线性
10、问题。显然这种估计方法默认了一种假设,即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求到的 相同。当这种假设不成立时,这种估计方法会带来估计误差。,解决共线性方法,4.从数据上思考引出的板块数据法、增加样本容量法和剔除影响点法板块数据法就是把截面数据与时序数据结合起来的方法。采用这种方法隐含着一个假定,即从截面数据中估计的参数与从时序数据中估计的参数是相等的,因此它仅适用于从一个截面到另一个截面数据、估计值相对稳定的情况。剔除多重共线性的影响点法是指经过诊断后假定样本点为影响点,从原样本中剔除第i个样本点,可以减轻共线性程度。这种方法的问题是诊断出的这个样本点是否应该
11、剔除,这里需特别指出的是,当没有真正弄清楚样本点形成机制之前,不能轻易剔除,因为影响点的形成可能是随机因素,也可能是经济机制变化,当后者发生时,无论影响点的剔除对减轻多重共线性的作用有多大,也不能剔除。,解决共线性方法,5.从估计方法上思考引出的估计量如有偏估计所谓有偏估计法是指参数估计量是有偏的,但估计量的均方误差比采取OLS法估计的无偏估计量的均方误差小,即以偏误为代价来提高估计量的准确性。,主成分回归分析,1993年由Hotelling提出了主成分分析的方法,之后W.F.Massy于1965年根据主成分分析的思想提出了主成分回归。如今主成分回归方法已经被广泛采用,成为回归分析中较有影响的
12、估计方法。,主成分分析的核心思想就是通过降维,把多个指标化为少数几个综合指标,而尽量不改变指标体系对因变量的解释程度。主成分的提取分5个步骤:,1、为了使结果不受量纲的影响,先把原始数据进行标准化。2、求出标准化数据的相关系数矩阵、协方差。3、导出相关系数矩阵的特征值和特征向量。4、最大的特征值对应的特征向量即为第一主成分的系数,第二大的特征值对应的特征向量即为第二主成分的系数,以此类推。取几个主成分取决于主成分对因变量的解释程度。如果前i个特征值之和与所有特征值之和的比达到一定的程度比如80%时,就可以认为这些主成分就能代替所有的自变量体系。5、用主成分对因变量进行普通最小二乘法即可得出各个
13、主成分对因变量的解释程度。,可以看出,主成分回归分析解决多重共线性问题是通过求特征值和特征向量达到降维来实现的,因为在降维前,指标之间的多重共线性可能是由于某个指标或者少数指标所包含的信息与其他指标所包含的信息之间的相关性引起的,通过降维的处理我们提取了主成分,就像是把指标体系所包含的信息分了类,某一大类由一个主成分来表现,这样就消除了产生多重共线性问题的根源信息的交迭。,主成分回归分析虽然比较好地解决了多重共线性问题,但仍存在很多不足之处,比如:主成分的实际含义不明确,主成分与因变量之间的关系不很直接,估计出的参数是有偏的等等。,使用SPSS中Stepwise回归分析,直接使用 SPSS 系
14、统给定的逐步回归法进行回归分析,有时难以得到所需要的分析结果,因为系统给出的最终结果仅是一个满足统计学检验的结果,该结果不一定满足实际问题的需要。,为分析影响服务业发展的因素, 引入如下指标: 用第三产业产值占 GDP 的比重作为反映服务业发展水平的指标(y, 单位: %); 1.城乡居民收入水平指标 (x1, 单位元); 2.城市化水平的指标(x2, 单位: %); 3.人口密度(x3, 单位: 人/每平方公里); 4.居民年消费水平(x4, 单位: 元); 5.食品消费所占比重 (x5, 单位: %); 6.个体私营经济从业人员占社会从业员的比重 (x6, 单位: %); 7. 实际外商直
15、接投资在全社会固定资产投资中所占比例 (x7, 单位: %)。,为解决由自变量之间的相关性导致的多重共线性, 在Method 一栏中选择 stepwise 进行回归分析, 得到如下方程: y= - 22.699 + 0.01063x1+0.06917x3- 0.00913x4 (- 2.353) (2.953) (5.145) (- 2.322)R2=0.956, F=168.813 在显著水平为 0.05 时, 估计方程及其所有估计系数都通过检验。然而我们进一步分析发现, x4 在这里表示的是居民年消费水平, 其系数为负, 表示 x4 每增加一个单位, y 将减少 0.00913 个单位,
16、从经济学意义上来说, 这是不合理的, 因此, 不能作为分析的最终结果。,本例表明, 直接用 SPSS 系统内部给出的 stepwise 进行回归分析有时难以得到我们所需要的结果。如何才能得到所需要的估计方程呢?,首先分别求 y 与 x1x7 的回归方程, 得到 7 个基本方 程: y = 26.2 + 0.003063x1 y = - 196.572 + 4.131x2(31.643) (14.111) (- 9.537) (11.25)R2=0.904 F=199.118 R2=0.857 F=126.559 y = - 106.704 + 0.191x3 y = 26.116 + 0.00
17、3348x4 (- 3.913) (5.208) (29.43) (13.205) R2=0.554 F=27.122 R2=0.892 F=174.365 y = 51.505 - 0.332x5 y = 27.41 + 2.323x6(5.144) (- 1.652) (28.789) (11.184) R2=0.076 F=2.73 R2=0.855 F=125.072 y = 27.891 + 0.438x7(29.794) (10.992)R2=0.851 F=120.819,在上述 7 个基本方程中, 除了(5) 式中 x5 的系数是负数外, 其余方程的变量的系数都是正数, 从经济
18、学意义上来说这是合理的。由 7 个基本方程和经济理论可知, x1( 城乡居民收入水平) 是最重要的变量, 因此选择(1) 式为最初的回归方程, 然后按照 R2 从大到小的顺序每次引入一个变量逐步引入其他变量。每次引入的变量是否保留在方程中要从两方面进行分析 ,一是从经济学意义上分析 ,一是从统计学意义上分析。从经济学意义上分析 ,主要要求引入新变量后重新估计的方程各系数的符号从经济学意义上来说是合理的; 从统计学意义上分析 ,应按下述原则判断:,1、如果新加进去的解释变量改进了 R2, 并且其他回归系数在统计上仍是显著的 ,则可以保留此变量; 2、如果新加进去的解释变量未能改进 R2, 其他回
19、归系数也没有影响, 则不加入此变量; 3、如果新加入的解释变量不仅改变了 R2, 而且影响到其他变量的回归系数的符号或数值 ,致使某些回归系数达到不能接受的地步 ,则用新加入的变量分别替代它所影响的变量估计方程 ,从中选择估计效果最好的一个方程。,首先选择(1) 式为最初的回归方程 ,在(1)式 中引入变量 x4, 得新方程 y = 26.661 + 0.01242x1 - 0.0103x4 (32.92) (2.596) (- 1.958)R2 = 0.916, F = 115.582由于式 中 x4 的系数为负 ,从经济学意义上说是不合理的。因此, 按上述原则, 不应该引入变量 x4。在(
20、1)式 中引入下一个变量 x2y = -7 1.454 + 0.001923x1 + 1.8x2(-2 .702) (5.46) (3.694)R2 = 0.941, F = 169.339由于引入 x2 改变了 R2 ,同时不影响 x1 的显著性 ,而且 x2 也是显著的。按上述原则 ,应该引入变量 x2。在式 中引入变量 x6,y = - 68.285 + 0.00341x1 + 1.734x2 1.138x6 (-2 .624) (2.921) (3. 611) (-1 .333)R2=0.944, F=118.103 由于 x6 表示个体私营经济从业人员占社会从业员的比重 ,从经济学意
21、义上来说, 其系数为负不合理。按上述原则 ,不应该引入变量 x6。 y = - 73.578 + 0.001135x1 + 1.845x2 + 0.118x7 (-2 .87) (1.819) (3. 902) (1.508)R2=0.945, F=121.23 比较两式 , 按上述原则 ,引入变量 x7。,引入变量 x3 y = - 25.977+ 0.001737x1-0 .0655x2 + 0.0779x3 + 0.12x7(-1 .035) (3.262) (-0 .095) (3.311) (1.919) R2=0.965, F=143.983 因为引入 x3 改进了 R2, 同时也
22、改变了 x2 的系数的显著性。因此需用 y与 x1、x3、x7 作回归 y = - 28.19 + 0.001709x1 + 0.07604x3 + 0.12x7 (-3 .119) (3.981) (6.052) (1.977)R2=0.967, F=203.159经比较 ,选择该式 为新的方程。,在上 式中引入 x5 y= -2 8.285+ 0.001606x1 + 0.07766x3 - 0.0197x5 +0.13x7(-3 .055) (3.177) (5.769 ) (- 0.41) (1.952) R2=0.965, F=145.372 比较发现 ,x5 的引入不改进 R2 ,同时 x5 的系数也不显著。按上述原则 ,不引入变量 x5。 综合上述分析结果 得到最终所要求的回归方程。,