1、2019/1/18,石河子大学经管学院唐勇,1,石河子大学经济与管理学院 唐 勇 ,多元线性回归模型,2019/1/18,石河子大学经管学院唐勇,2,目 录,第一节 多元线性回归模型 第二节 多元线性回归模型的参数估计 第三节 多元线性回归模型的统计检验 第四节 多元线性回归模型的预测,2019/1/18,石河子大学经管学院唐勇,3,第一节:多元线性回归模型,一、多元线性回归模型 二、多元线性回归模型的基本假定,2019/1/18,石河子大学经管学院唐勇,4,多元线性回归模型:表现在线性回归模型中的解 释变量有多个。 一般表现形式:,i=1,2,n,其中:k为解释变量的数目,j称为回归参数(r
2、egression coefficient)。 习惯上:把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取1。 此式也被称为总体回归函数的随机表达形式,一、多元线性回归模型,2019/1/18,石河子大学经管学院唐勇,5,非随机表达式为:,方程表示:各变量X值固定时Y的平均响应。 j也被称为偏回归系数,表示在其他解释变量保持不变的情况下,Xj每变化1个单位时,Y的均值E(Y)的变化。 或者说j给出了Xj的单位变化对Y均值的“直接”或“净”影响。,一、多元线性回归模型,2019/1/18,石河子大学经管学院唐勇,6,总体回归模型n个随机方程的矩阵表达式为,一、多元线性回归模型,2019/1
3、/18,石河子大学经管学院唐勇,7,其中,Y-被解释变量样本观测值的nx1阶列向量,X-解释变量样本观测值的nx(k+1)阶列向量,B-未知参数的(k+1)x1阶列向量,U-未知参数的(k+1)x1阶列向量,一、多元线性回归模型,2019/1/18,石河子大学经管学院唐勇,8,样本回归函数:用来估计总体回归函数,其随机表示式:,样本回归函数的矩阵表达:,或,其中:,一、多元线性回归模型,2019/1/18,石河子大学经管学院唐勇,9,假设3,解释变量与随机项不相关,假设4,随机项满足正态分布,二、多元线性回归模型的基本假定,假设1、解释变量是非随机的或固定的,且各X之间 互不相关(无多重共线性
4、),假设2、随机误差项具有零均值、同方差及不序列相关性,2019/1/18,石河子大学经管学院唐勇,10,一、普通最小二乘估计 二、参数估计量的性质 三、样本容量问题 四、估计实例,第二节、多元线性回归模型的参数估计,2019/1/18,石河子大学经管学院唐勇,11,对于随机抽取的n组观测值,如果样本函数的参数估计值已经得到,则有:,i=1,2n,根据最小二乘原理,参数估计值应该是下列方程组的解,其中,一、普通最小二乘估计,2019/1/18,石河子大学经管学院唐勇,12,于是得到关于待估参数估计值的正规方程组:,一、普通最小二乘估计,2019/1/18,石河子大学经管学院唐勇,13,正规方程
5、组的矩阵形式,即,由于XX满秩,故有,一、普通最小二乘估计,2019/1/18,石河子大学经管学院唐勇,14,例:经过研究,发现家庭书刊消费水平受家庭收入及户主受教育年数的影响。现对某地区的家庭进行抽样调查,得到样本数据如下表所示,其中Y表示家庭书刊消费水平(元/月),X表示家庭收入(元/月),T表示户主受教育年数。下面我们估计家庭书刊消费水平同家庭收入、户主受教育年数之间的线性关系。,一、普通最小二乘估计,2019/1/18,石河子大学经管学院唐勇,15,一、普通最小二乘估计,2019/1/18,石河子大学经管学院唐勇,16,回归模型设定如下:,因变量观测值向量和解释变量观测值矩阵分别为,一
6、、普通最小二乘估计,2019/1/18,石河子大学经管学院唐勇,17,估计参数所需的有关矩阵分别为:,一、普通最小二乘估计,2019/1/18,石河子大学经管学院唐勇,18,从而参数估计向量(最小二乘估计量)为:,回归方程为:,一、普通最小二乘估计,2019/1/18,石河子大学经管学院唐勇,19,随机误差项的方差的无偏估计,可以证明,随机误差项的方差的无偏估计量为,一、普通最小二乘估计,2019/1/18,石河子大学经管学院唐勇,20,在满足基本假设的情况下,参数 的普通 最小二乘估计量仍具有:线性性、无偏性、有效性。,1、线性性,其中,C=(XX)-1 X 为一仅与固定的X有关的行向量。,
7、二、参数估计量的性质,2019/1/18,石河子大学经管学院唐勇,21,2、无偏性,3、有效性(最小方差性),二、参数估计量的性质,2019/1/18,石河子大学经管学院唐勇,22,所谓“最小样本容量”,即从最小二乘原理和最大或然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。, 最小样本容量,样本最小容量必须不少于模型中参数的个数,即,三、样本容量问题,n k+1,因为,无多重共线性要求:秩(X)=k+1,2019/1/18,石河子大学经管学院唐勇,23,2、满足基本要求的样本容量,从统计检验的角度:n30 时,Z检验才能应用;n-k8时, t分布较为稳定,一般经验认为:
8、 当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。,模型的良好性质只有在大样本下才能得到理论上的证明,三、样本容量问题,2019/1/18,石河子大学经管学院唐勇,24,例3.2.2 在例2.5.1中,已建立了中国居民人均消费一元线性模型。这里我们再考虑建立多元线性模型。,估计区间:1979-2000年,四、估计实例,2019/1/18,石河子大学经管学院唐勇,25,Eviews软件估计结果:,四、估计实例,2019/1/18,石河子大学经管学院唐勇,26,一、拟合优度检验二、方程的显著性检验(F检验) 三、变量的显著性检验(t检验)四、参数的置信区间,第三节、 多元线性回归模
9、型的统计检验,2019/1/18,石河子大学经管学院唐勇,27,1、可决系数与调整的可决系数,则,总离差平方和的分解,一、拟合优度检验,可决系数,2019/1/18,石河子大学经管学院唐勇,28,调整的可决系数,其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。,引入修正的样本决定系数的作用 用自由度调整以后,可以消除拟合优度评价中解释变量的个数对决定系数的影响 对于包含解释变量个数不同的模型,可以用调整后的决定系数直接比较它们的拟合优度的高低,一、拟合优度检验,2019/1/18,石河子大学经管学院唐勇,29,方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在
10、总体上是否显著成立作出推断。,1、方程显著性的F检验,即检验模型Yi=0+1X1i+2X2i+ +kXki+i i=1,2, ,n 中的参数j是否显著不为0。,可提出如下原假设与备择假设:,H0: 1=2= =k=0H1: j不全为0 (j=0,1k),二、方程的显著性检验(F检验),2019/1/18,石河子大学经管学院唐勇,30,根据数理统计学中的知识,在原假设H0成立的条件下,统计量,服从自由度为(k , n-k-1)的F分布,给定显著性水平,可得到临界值F(k,n-k-1),由样本求出统计量F的数值,通过F F(k,n-k-1) 或 FF(k,n-k-1) 来拒绝或接受原假设H0,以判
11、定原方程总体上的线性关系是否显著成立。,二、方程的显著性检验,2019/1/18,石河子大学经管学院唐勇,31,2、拟合优度检验与方程显著性检验的关系,F与R2同向变化:当R2=0时,F=0;当R2越大,F值也越大;当R2=1时,F值为无穷大,二、方程的显著性检验,2019/1/18,石河子大学经管学院唐勇,32,方程的总体线性关系显著每个解释变量对被解释变量的影响都是显著的,三、变量的显著性检验(t检验),1、t统计量,由于,以cii表示矩阵(XX)-1 主对角线上的第i个元素,于是参数估计量的方差为:,2019/1/18,石河子大学经管学院唐勇,33,因此,可构造如下t统计量,其中2为随机
12、误差项的方差,在实际计算时,用它的估计量代替:,三、变量的显著性检验,2019/1/18,石河子大学经管学院唐勇,34,2、t检验,设计原假设与备择假设:,H1:i0,给定显著性水平,可得到临界值t/2(n-k-1),由样本求出统计量t的数值,通过|t| t/2(n-k-1) 或 |t|t/2(n-k-1) 来拒绝或接受原假设H0,从而判定对应的解释变量是否应包括在模型中。,H0:i=0 (i=1,2k),三、变量的显著性检验,2019/1/18,石河子大学经管学院唐勇,35,参数的置信区间用来考察:在一次抽样中所估计的参数值离参数的真实值有多“近”。 在变量的显著性检验中已经知道:,容易推出:在(1-)的置信水平下i的置信区间是,其中,t/2为显著性水平为 、自由度为n-k-1的临界值。,四、参数的置信区间,2019/1/18,石河子大学经管学院唐勇,36,增大样本容量n,因为在同样的样本容量下,n越大,t分布表中的临界值越小,同时,增大样本容量,还可使样本参数估计量的标准差减小; 提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型优度越高,残差平方和应越小。 提高样本观测值的分散度,一般情况下,样本观测值越分散,(XX)-1的分母的|XX|的值越大,致使区间缩小。,如何才能缩小置信区间?,