1、第3章 多元回归,思考题: 1、为什么在实践中必须使用多元回归分析? 2、多元回归模型相对于一元回归模型增加了哪一个假设? 3、多元回归斜率估计量的方差取决于哪三个因素? 4、多元线性回归模型中的判定系数具有什么特点? 5、 t检验的目的是什么? 6、 F检验的目的是什么?,第3章 多元回归,7、如何预测被解释变量的期望值? 8、如何预测被解释变量的值?,3.1 三变量线性回归模型,b1刻划了解释变量X对Y的影响 其他影响Y的因素被放入当中,一元回归分析的弱点Y = b0 + b1X+ ,一元回归分析的弱点,要用OLS法得到b1的无偏估计量,必要条件是: 与X不相关,或者说, E( | Xi)
2、 = 0(零条件均值假定),Y = b0 + b1X+ ,案例分析:工资与教育,被解释变量:工资(1976年每小时美元数) 解释变量:教育(年数) 计量模型:wage = 0 + 1 educ + 1的含义? 1 0,E( | Xi) = 0不成立的情况,案例:影响工资的其他因素 例如,工作经验exper 初中学历人群的平均工作经验: E(exper | 9) 大学学历人群的平均工作经验: E(exper | 16),如何处理工作经验的影响,wage = 0 + 1 educ + 即使我们关心的是教育对工资的影响,如果把exper放在中,就不能得到1的无偏估计量 解决的方法: 多元回归分析,多
3、元回归分析,请解释b1在上述二元回归模型中的含义 给定保持x2不变,Y= b0 + b1x1 + b2 x2 + ,二元回归模型,1、确定性部分: b0 + b1x1 + b2x2 E(Y| X1 , X2) 2、随机性部分: Var(Y),Y= b0 + b1x1 + b2x2 + ,被解释变量的期望值,b1表示给定x2保持不变,x1变化一个单位,引起的Y的均值的改变量 多元回归分析可以使我们明确控制其他影响因素,E(Y| X1 , X2)= b0 + b1x1 + b2x2,案例:教育对工资的影响,wage = 0 + 1 educ + 2 exper + 请解释b1的含义 采用一元回归模
4、型和二元回归模型估计出的b1相等吗? wage = 0 + 1 educ + wage = 0 + 1 educ + 2 exper + 运行eviews验证,多元回归分析的优势,1、更准确地估计斜率:无偏估计量 2、更好地说明被解释变量的变化:引入了更多的解释变量,多元回归模型,1、K个解释变量 2、k1个待估参数 3、 b0称为截距, b1 到 bk称为斜率,Y= b0 + b1x1 + b2x2 + . . . bkxk + ,3.2 多元线性回归模型的第6个假设,一元线性回归模型关于随机误差项的五个假设 新增的关于多个解释变量之间关系的假设,假设1、随机误差项与各解释变量X之间不相关(
5、更强的假设是各个解释变量X都是确定性变量,不是随机变量,这样假设1自动满足),Y= b0 + b1x1 + b2x2 + . . . bkxk + ,假设2、随机误差项具有零均值 E(i)=0 i=1,2, ,n,Y= b0 + b1x1 + b2x2 + . . . bkxk + ,假设3、随机误差项同方差Var (i)=2 i=1,2, ,n,Y= b0 + b1x1 + b2x2 + . . . bkxk + ,假设4、随机误差项无序列相关Cov(i, j)=0 ij i,j= 1,2, ,n,Y= b0 + b1x1 + b2x2 + . . . bkxk + ,假设5、服从正态分布i
6、N(0, 2 ) i=1,2, ,n,Y= b0 + b1x1 + b2x2 + . . . bkxk + ,假设6、Xi之间无完全的线性相关关系(完全共线性) 即任何一个Xi都不能被表示成其他解释变量的线性函数 例如, X1 aX2 + bX3 + cX4,Y= b0 + b1x1 + b2x2 +. . . bkxk + ,3.3 多元回归参数的估计,双变量模型 OLS法:残差平方和最小,对于随机抽取的n组观测值,可以得到Y的拟合值:,i=1,2n,根据最小二乘原理,参数估计值应该是下列方程组的解,其中,OLS估计法的基本原理,案例分析:大学平均成绩,被解释变量:大学平均成绩colGPA
7、解释变量: (1)高中平均成绩hsGPA; (2)大学能力测验分数ACT 计量模型: colGPA = 0 + 1hsGPA + 2ACT + 1的含义?,Eviews,运用Eviews,得到如下估计结果: colGPA = 1.29 + 0.45hsGPA + 0.0094ACT,请解释: 1、1.29 2、0.45 3、0.0094,错误的简单回归分析,被解释变量:大学平均成绩colGPA 解释变量: 大学能力测验分数ACT colGPA = 2.40 + 0.027ACT 请比较: 多元回归分析:0.0094 一元回归分析:0.027,OLS估计量的性质,1、无偏性 含义? E(i )=
8、 i 2、有效性 含义?,斜率估计量的方差.,其中,j为第j个解释变量的离差平方和 Rj 为第j个解释变量对其余解释变量进行回归得到的拟合优度:反映了第j个解释变量和其他变量的线性相关关系,Var(j ),(1Rj),xj,影响斜率估计量方差的因素,1、总体的方差 Var(Y) 2、解释变量的变化程度 j 3、和其他解释变量的线性相关程度 Rj ,Var(i ),其中,Rj 为第j个解释变量对其余解释变量进行回归得到的拟合优度:反映了第j个解释变量和其他变量的线性相关关系,Var(j ),(1Rj),xj,多重共线性,1、完全共线性 Rj 1 如果存在完全共线性,则不能应用OLS估计法 2、多
9、重共线性 Rj 接近于1 后果:估计量的方差较大,导致估计结果不准确,3.4 多元判定系数,则,总离差平方和的分解,判定系数,该统计量越接近于1,模型的拟合优度越高。,评分标准: 截面数据:50% 时间序列数据:90%,回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。,计量经计学中,主要是针对变量的参数真值是否为零来进行显著性检验的。 稻草人假设:斜率参数为零,3.5多元回归的假设检验,解释变量的显著性,如果1等于零,则X1对Y没有影响 1的估计值不等于零 但是 1真的不等于零吗?,Y= b0 + b1x1 + b2x2 + ,假设检验采用的逻辑推理方法是反证法。先假定原假
10、设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。判断结果合理与否,是基于“小概率事件不易发生”这一原理的。 如果结果是个小概率事件,那我们认为这是不可能发生的。会发生不可能发生的事情,一定是假设前提错了。 上述“小概率事件”的概率被称为检验的“显著性水平”,或者“犯第一类错误的概率”(拒绝了正确的虚拟假设),(1R1),x1,),t,k-1),3.6 对偏回归系数进行假设检验,斜率1的显著性检验,在上述t统计量中假设1等于零,得到,t,=,=,统计量t的解释,t是一个随机变量,对应于不同的样本,t取不同的值 给定一个具体样本,t是斜率的估计值和斜率的样本标准
11、差的比率。被称为t比率,t,=,案例分析:工资,被解释变量:工资(1976年每小时美元数) 解释变量:教育(年数) 工作经验(年数) 现职任期(年数) 计量模型:,wage= b0+b1educ+b2exper+b3tenure+ 请解释稻草人假设:b20 的含义,c,a,(1,-,a),t分布,临界值c,|t| c的概率?,在实践中,一般取5,确定一个小概率事件,tt(n-2),给定样本容量n和显著性水平,就可以计算c,0,a/2,(1,-,a),-,c,a/2,H,0,:,b,1,= 0 H,1,:,b1, 0,c,0,a/2,(1,-,a),-,c,a/2,双侧检验,拒绝域,拒绝域,Y=
12、 b0 + b1x1 + b2x2 + . . . bkxk + ,双侧检验的步骤,(1)对总体参数提出假设H0: 1=0, H1:10,(2)以原假设H0构造t统计量,并由样本计算其值,(3)给定显著性水平,查t分布表,得临界值ct /2(n-2),(4) 比较,判断若 |t| t /2(n-2),则拒绝H0 ,接受H1 ;若 |t| t /2(n-2),则拒绝H1 ,接受H0 ;,简易判断法则,当n 30时,t分布近似于标准正态分布 给定显著性水平为5,临界值c约为2 如果t的绝对值大于2,就可以拒绝稻草人假设,说明斜率b1显著地不等于零 因此,解释变量X对被解释变量Y具有影响,p值,p值
13、是给定t比率后,能拒绝稻草人假设的最小显著性水平 即给定显著性水平为p,根据样本计算的t比率刚好可以拒绝稻草人假设 如果显著性水平大于p,则仍然可以拒绝 如果显著性水平小于p,则不可以拒绝 问题: 对于计量研究而言,p值越大还是越小好?,案例分析:大学GPA的决定因素,被解释变量:大学平均成绩colGPA 解释变量: 1、高中平均成绩hsGPA 2、大学能力测验成绩ACT 3、平均每周旷课次数skipped 计量模型: colGPA=0 +1hsGPA+2ACT+3skipped+ Eviews的结果,3.7 检验联合假设,如果某些解释变量没有通过t检验,是否他们就没有影响力呢?,t,=,问题
14、:如果该解释变量和其他某些解释变量高度相关,会导致什么结果?,Var(j ),(1Rj),xj,j,j,案例分析,棒球运动员的薪水 被解释变量:棒球运动员的薪水 解释变量: 、加入俱乐部的年数years 、平均每年的比赛次数gamesyr 、平均每年击球次数bavg 、平均每年本垒打次数hrunsyr 、平均每年的击球跑垒得分rbisyr,案例分析,棒球运动员的薪水 计量模型为:,其中,第三到第五个解释变量都是度量球员表现的指标 运行Eviews,进行t检验,Eviews的结果,Log(SALARY) = 11.19 + 0.07*YEARS + 0.01*GAMESYR + 0.000978
15、6038654*BAVG + 0.01*HRUNSYR + 0.01*RBISYR,Variable Coefficient Std. Error t-Statistic Prob. C 11.19242 0.288823 38.75184 0.0000 YEARS 0.068863 0.012115 5.684295 0.0000 GAMESYR 0.012552 0.002647 4.742442 0.0000 BAVG 0.000979 0.001104 0.886811 0.3758 HRUNSYR 0.014429 0.016057 0.898642 0.3695 RBISYR 0.
16、010766 0.007175 1.500458 0.1344,同时检验多个假设:F检验,检验只适用于检验单个解释变量的显著性;对多个解释变量的联合影响进行检验,需要运用随机变量。检验是检验的特例,给定计量模型Yi=0+1X1i+2X2i+ +kXki+i i=1,2, ,n,可提出如下原假设与备择假设:,H0: 1=2=0H1: 1和2不全为0,检验的基本思想,、根据斜率为零的假设,得到新的计量模型(受限模型):,Yi=0+3X31i+4X42i+ +kXki+i i=3,4, ,n,2、可以证明:,其中,RSSR表示新(受限)模型的残差平方和 RSSU表示原(非受限)模型的残差平方和,检验
17、的基本思想,、设定显著性水平,得到临界值 、根据样本数据,以稻草人假设为前提,计算的取值 、如果,则拒绝原假设 说明:也可以计算p值,得到最低的显著性水平。原理同t检验,案例分析,棒球运动员的薪水 计量模型为:,其中,第三到第五个解释变量都是度量球员表现的指标 运行Eviews,对上述三个解释变量进行F检验,Eviews,稻草人假设: H0: 3=4=5=0 1、运行eviews完成估计 2、viewcoefficient testswald 3、在对话框中依次输入假设为零的斜率,以逗号进行分隔,回归整体显著性的检验,即检验模型Yi=0+1X1i+2X2i+ +kXki+i i=1,2, ,n
18、 中的所有斜率参数j是否显著不为0。,可提出如下原假设与备择假设:,H0: 1=2= =k=0H1: j不全为0,j=1,2,,k,回归整体显著性的检验,给定显著性水平,可得到临界值c,由样本求出统计量F的数值,通过F c 来拒绝原假设H0。,可以证明:统计量为,案例分析,棒球运动员的薪水 计量模型为:,运行Eviews,对回归的整体显著性进行F检验,R与解释变量的个数,wage = 0 + 1 educ + wage = 0 + 1 educ + 2 exper + ,3.8 校正的判定系数,问题:如何比较不同数量解释变量的计量模型?,R与解释变量的个数,惩罚新增的解释变量,惩罚新增的解释变
19、量,8.9 什么时候增加新的解释变量,提高校正的判定系数 VS 显著的解释变量(通过t检验) t 1 VS t 2,3.10 预测,预测的含义:给定解释变量X的取值,推测被解释变量Y的取值 预测要面对的四大问题: 1、X的取值:已知;未知(需要预测) 2、模型中的参数:估计 3、Y的随机性 4、模型本身的正确性,Y= b0 + b1x1 + b2x2 + ,1、期望值的预测,确定性部分: b0 + b1x1 + b2x2 E(Y| X1 , X2) 1)通过样本估计b,得到,Y= b0 + b1x1 + b2x2 + ,Y= b0 + b1x1 + b2x2,2) 根据给定的 X 估计E(Y)
20、,即计算Y,期望值的预测,给定解释变量X的取值,被解释变量Y的期望值是唯一的 但是,对Y期望值的估计值不是唯一的,OLS估计量Y,样本数据,Y期望值的 估计值,X的取值,2、预测被解释变量Y的值:点预测,Y是一个随机变量 问题: 一定要用一个值来作为Y的代表,应该选用哪一个值? E(Y) Y 因此,对Y的点预测等同于对Y期望值的预测,Y= b0 + b1x1 + b2x2 + ,Eviews,1、完成参数估计 2、设定X的取值: 1)Procstructure; sample 2)在对话框中增加样本容量 3)打开解释变量,输入设定的X的取值 3、forcast 4、在对话框中增加样本容量 5、
21、打开Y的预测值Yf,3、以95的概率预测Y的取值区间,给定已知的X0,对Y0的点预测Y0和Y0并不相等,用“预测误差”表示二者的差异 预测误差Y0Y0 预测误差服从如下的正态分布,当X的取值为多少时,预测误差最小?,以概率为基础预测被解释变量:区间预测,从实践上看,随机变量t的取值一定在区间(2,2)上,2,a,(1,-,a),t分布,0,2.5%,95%,-,2,2.5%,区间预测,被解释变量Y作为一个随机变量,其取值虽然不确定,但是,我们可以构造一个区间,使得Y落在该区间上的概率为95。 从实践上看,我们可以肯定Y的取值会落在上述区间内。 以上述区间预测被解释变量Y的取值,被称为区间预测,
22、该区间被称为置信区间,被解释变量的置信区间,以一元回归为例,当X取值为X0时,Y0是服从正态分布的随机变量,因此, Y0 的取值落在某个区间内的概率可以计算反过来,给定概率,就可以构造Y0的置信区间,正态分布,正态分布随机变量落在距离期望值两个标准差之内的概率为95,被解释变量的置信区间,用估计量代替未知参数后,可以证明:,当解释变量X的取值为X0时, Y0的取值以95的概率落在下列以点预测值为中心的对称区间上:(Y02Sf, Y0 +2Sf ),其中,Sf,为预测误差(Y0Y0)的样本标准差,预测区间的宽度,Eviews,1、同对Y期望值的预测 2、输入预测误差的样本标准差的名称Sf 3、打开Y的预测值Yf和预测误差的样本标准差sf 4、构建具有95置信度的预测区间:(Yf 2Sf, Yf +2Sf ),一元回归模型中斜率估计量的方差.,Var(1 ),x1,Var(j ),(1Rj),xj,