1、第三章 多元线性回归模型,目 录,上一页,下一页,退 出,引子:中国汽车终极保有量会超过2.4-2.5亿辆吗?,影响中国汽车行业发展的因素是多方面的:经济增长、消费趋势、市场行情、业界心态、内外环境等,都会使中国汽车行业面临机遇和挑战。 应当具体分析这样一些问题: 中国汽车市场发展的状况如何? (用销售量观测) 影响中国汽车销量的主要因素是什么? (如:收入、价格、费用、道路状况、政策环境等) 各种因素对汽车销量影响的性质如何? (正、负) 各种因素影响汽车销量的具体数量关系是什么? 所得到的数量结论是否可靠? 中国汽车行业今后的发展前景怎样?应如何制定汽车产业政策? 很明显,这需要寻求有多个
2、解释变量的回归分析方法,第一节 多元线性回归模型及古典假定,一、多元线性回归模型的意义 例如:电力供应模型 为各地区电力消费量, 为各地区国民生产总值为各地区电力价格变动一般形式:对于有K1个解释变量的线性回归模型模型中 是偏回归系数。 偏回归系数:控制其它解释变量不变的条件下,第j个解释变量的单位变动对因变量平均值的影响。,多元线性回归:指对各个回归系数而言是”线性”的,对变量则可是线性的,也可是非线性的。 例如:生产函数取对数:,多元总体回归函数与多元样本回归函数,多元总体回归函数,Y的总体条件均值表示为多个解释变量的函数,注意: Y的总体条件均值的轨迹是K维空间的一条线,或:,多元样本回
3、归函数,Y的样本条件均值表示为多个解释变量的函数,也可表示为:,回归残差:,二、多元总体模型的矩阵表示,K个解释变量的多元线性回归模型的n个观测样本可表示为:,用矩阵表示:,Y,X,n1,nk,k1,n1,用矩阵表示,或:,总体回归函数,样本回归函数,或:,都是有n个元素的列向量,其中:,是有k个元素的列向量,X是第一列为1的nk阶解释变量数据矩阵(截距项可视为解释变量取值为1),三、多元线性回归中的基本假定,假定1:零均值假定,i=1,2,n,或:,假定2和假定3:同方差和无自相关假定,i=j ij,假定4:随机扰动项与解释变量不相关,k=2,3,k,假定5:无多重共线性假定(多元中),假定
4、各解释变量之间不存在线性关系,或各解释变量观测值之间线性无关。或解释变量观测值矩阵列满秩(K列),Ran(X)=k,Ran(XX)=k,即(XX)可逆,假定6:正态性假定,第二节 多元线性回归模型的估计,一、普通最小二乘法(OLS),求偏导,令其为0,即:,原则:残差平方和最小,注:,用矩阵表示,X,因为样本回归函数为:,两边乘X:,因为Xe0,则正规方程组为:,OLS估计式:,正规方程组,满秩,其逆存在,多元回归中,二元回归中,满秩,其逆存在,注意:x、y为X、Y的离差,二、OLS估计式的性质,1、线性特征,是Y的线性函数,因,是非随机或取固定值得矩阵,2、无偏特征,3、最小方差特征,在,所
5、有得线性无偏估计中,OLS估计,具有最小方差,结论:,在古典假定下,多元线性回归的OLS估计量是最佳线性无,偏估计量(BLUE),三、OLS估计的分布性质,基本思想:,是随机变量,必需确定其分布性质才可能进行区间估计和假设检验,是服从正态分布的随机变量,决定了Y也是服从正态分布的随机变量,是Y的线性函数,决定了 也是服从正态分布的随机变量,的期望:,(有无偏性),的方差和标准差:,可以证明, 的方差协方差阵为:,这里的,(其中,是矩阵,中第j行第j列的元素),所以,(J=1,2,k),四、随机扰动项方差 的估计,多元回归中 的无偏估计为:,将 做标准化变换:,Z统计量仍可视为服从正态分布,或表
6、示为:,因 是未知的,可用 代替 去估计参数 的标准误差:,当为大样本时,用估计的参数标准误差对 做标准化变换,所得,当为小样本时,用估计的参数标准误差对 做标准化变换,所得,t统计量服从t分布:,五、回归系数的区间估计,给定,由于:,差t分布表的自由度为n-k的临界值,J=1,2,k,或:,或表示为:,第三节 多元线性回归模型的检验,的变差,在Y的总变差中所占的比重,用R2表示。,一、多元回归的拟合优度检验:,多重可决系数:在多元回归模型中,由各个解释变量联合解释了的Y,与简单线性回归中的可决系数r2的区别只是 不同,多元回归中,多重可决系数也可表示为:,多重可决系数的矩阵表示,可以证明:,
7、特点:,多重可决系数是模型中解释变量个数的不减函数,这给对比不同,模型的多重可决系数带来缺陷,因此需要修正。,修正的可决系数,可决系数只涉及变差,没有考虑自由度,如果用自由度去校正所计算的变差,可纠正解释变量个数,思想:,统计量的自由度指可自由变化的样本观测值个数,,等于所用样本观测值的个数减去对观测值的约束,自由度:,不同引起的对比困难。,个数。,可决系数的修正方法:,总变差,解释了的变差,剩余平方和,修正的可决系数为:,自由度为n-1,自由度为k-1,自由度为n-k,修正的可决系数 与可决系数 的关系,关系:,特点:,可决系数R2必定非负,但修正的可决系数,可能为负值,这时对定 0:,二、
8、回归方程的显著性检验(F检验),在多元回归中有多个解释变量,需要说明所有解释变量联合 起来对因变量影响的总显著性,或整个方程总的联合显著性,对方程总显著性检验需要在方差分析的基础上进行F检验,基本思想:,在讨论可决系数时已经分析了总变差TSS的分解及自由度,1、方差分析:,TSS=ESS+RSS,显然Y的方差也可分解为两部分,可用方差分析表分解:,方差分析表,总变差,解释了的变差,剩余平方和,自由度为n-1,自由度为k-1,自由度为n-k,2、F检验,原假设:,备择假设:,不全为0,建立统计量(可以证明):,给定显著性水平 查F分布表中自由度为k-1,n-k的临界值,,并通过样本观测值计算F值
9、。,如果计算的F值大于F临界值,(小概率),则拒绝H0,,说明回归模型有显著意义,即:所有解释变量,联合起来对Y有显著影响。,如果计算的F值小于F临界值,(大概率),则接受H0,,说明回归模型没有显著意义,即:所有解释变量,联合起来对Y没有显著影响。,3、可决系数的显著性检验,由方差分析可以看出,F检验与可决系数有密切关系,二者都建立在对因变量变差分解的基础上。F统计量也可,可以看出:当R20时,F0,通过可决系数计算:,当R2越大时F值也越大,当R2=1时,F,结论:,对方程联合显著性检验的F检验,实际上也是对R2的,显著性检验,三、各回归系数的假设检验(t检验),原假设,在多元回归中,分别
10、检验当其它解释变量保持不变时,,(j=1,2,k),目的:,各个解释变量X对因变量Y是否有显著影响。,方法:,备择假设,统计量t为:,t检验的方法,给定显著性水平 查自由度为n-k的t分布表的临界值,如果,则拒绝H0,在多元回归中,可分别对每个回归系数逐个进行t检验。,在一元回归中F检验与t检验等价,且F=t2,就接受,而拒绝,则认为,所对应的解释变量Xj,对因变量Y的影响不显著。,如果,或:,而接受,认为,所对应的,解释变量Xj,对因变量Y的影响是显著的。,注:这里是双尾检验,第四节 多元线性回归模型的预测,将解释变量预测值代入估计的方程:,一、因变量平均值预测,或:,1、Y平均值的点预测,
11、注:预测期的XF是第一个元素为1的行向量,不是矩阵,,也不是列向量。,由于存在抽样波动,预测的平均值,1、Y平均值的区间预测,基本思想,不一定等于,真实平均值,,还需要对,做区间估计。,对Y做区间预测,必须确定平均值预测值,的抽样分布。,必须找出与,和,都有关的统计量。,具体做法,(回顾一元回归),一元回归中已知:,一元情况:,代替,这时,多元情况:,和,都有关的是偏差,服从正态分布,可证明:,未知时,用,当,多元回归时与,用,代替,可构造t统计量,给定显著性水平 查自由度为n-k的t分布表的临界值,则有:,或:,三、因变量个别值预测,基本思想既是对Y平均值得点预测,也是对Y个别值得点预测。
12、由于存在随机波动ui的影响,Y的平均值并不等于Y得个别值。 为了对Y的个别值YF做区间预测,需要寻找与预测值 和个别值YF有关的统计量,并要明确其概率分布。,已知剩余项 是与预测值 和个别值 都有关的变量,并已知 服从正态分布。且可证明 当用 代替 时,对 标准化的变量t为:,t(n-2),具体做法,给定显著性水平 ,查t分布表得自由度为n-2的临界值 ,则有:因此,多元回归时Y的个别值的置信度为 的预测区间上下限为:,第五节 案例分析,改革开放以来,随着经济体制改革的深化和,案例一、中国税收增长的分析,提出问题,经济的快速增长,中国的财政收支状况发生很大的变化, 为了研究影响中国税收收入增长
13、的主要原因,分析中央和地方税收收入的增长规律,预测中国税收未来的增,影响中国税收收入的主要因素有:,理论分析:,(1)从宏观经济看,经济整体增长是税收增长的基本源泉,(2)社会经济的发展和社会保障等都对公共财政提出要求,公共财政的需求对当年的税收收入可能会有一定影响,(3)物价水平。中国的税制结构以流转税为主,以现行价,长趋势,需要建立计量经济模型。,格计算的GDP和经营者的收入水平都与物价水平有关,(4)税收政策因素,以各项税收收入作为被解释变量,分析,建立模型:,税收政策因素较难用数量表示,暂时不予考虑,其中:,以财政支出表示对公共财政的需求,以商品零售价格指数表示物价水平,设定模型为:,
14、Y各项税收收入(亿元),X2国内生产总值(亿元),X3财政支出(亿元),X4商品零售价格指数(),数据收集:,数据来源:中国统计年鉴,Y各项税收收入(亿元),X2国内生产总值(亿元),X3财政支出(亿元),X4商品零售价格指数(),其中:,参数估计:,假定模型中随机项满足基本假定,可用OLS法估计其参数。,具体操作:用Eviews软件包。,估计结果:,模型估计的结果可表示为:,模型检验:,拟合优度检验:,可决系数R2 0.9974,修正的可决系数,0.9971,,表明模型拟合较好,显著性检验:,F检验:,针对H0:,取,,查出自由度为k-13和n-k21的临界值,由于F2717.2383.07
15、5,应拒绝H0 ,说明,“国内生产总值”、“财政支出”、“商品零售物价指数”等变量,联合起来确实对“税收收入”有显著影响。,t检验:,取,回归方程显著。即:,,查t分布表,自由度为n-318-315的临,界值,从上述分析结果可知,X2、X3、X4对应,系数对应的t统计量比2.082大,应拒绝H0 ,说明每个解释,变量对被解释变量都有显著影响,经济意义检验:,本模型中:,所估计的参数的符号与应急理论分析一致,说明在其它,财政收入将增加220.67万元;财政支出每增加1亿元,平均,因素不变的情况下,国内生产总值每增加1亿元,平均说来,说来财政收入将增加7021.04万元;商品零售物价指数每增加,1
16、,平均说来财政收入将增加7021.04万元。,第三章 小结,1、多元线性回归模型是将总体回归函数描述为一个被解释变,2 、多元线性回归模型中对随机扰动项的假定:,通常,多元线性回归模型可以用矩阵形式表示:,零均值假定、同方差假定、无自相关假定、随机扰动与,解释变量不相关假定、正态性假定、无多重共线性假定,量与多个解释变量之间线性关系的模型:,3 、多元线性回归模型参数的最小二乘估计式:,参数估计式的分布性质及其期望、方差、标准误差:,4、在基本假定满足的条件下,多元线性回归模型最小二乘,5 、多元线性回归模型中参数区间估计的方法:,6、多重可决系数的意义和计算方法,估计式是最佳线性无偏估计。,修正可决系数的作用和计算方法,7、F检验是对多元线性回归模型中所有解释变量联合显著性,8、多元回归分析中,为了分别检验当其它解释变量不变时,各个解释变量是否对被解释变量有显著影响,需要分别对,的检验,F检验是在方差分析基础上进行的。,所估计的各个回归系数做t检验,9、利用多元线性回归模型做被解释变量平均值预测和个别值,预测的方法,点预测:,平均值预测:,个别值预测:,