收藏 分享(赏)

多元线性回归模型 PPT课件.ppt

上传人:君。好 文档编号:1423887 上传时间:2018-07-15 格式:PPT 页数:57 大小:2.03MB
下载 相关 举报
多元线性回归模型 PPT课件.ppt_第1页
第1页 / 共57页
多元线性回归模型 PPT课件.ppt_第2页
第2页 / 共57页
多元线性回归模型 PPT课件.ppt_第3页
第3页 / 共57页
多元线性回归模型 PPT课件.ppt_第4页
第4页 / 共57页
多元线性回归模型 PPT课件.ppt_第5页
第5页 / 共57页
点击查看更多>>
资源描述

1、第三章 多元线性回归模型,2,第一节 多元回归模型及基本假定,现实中引起被解释变量变化的因素可能有很多个。 多元总体线性回归模型的形式为 Yi = b1 + b2X2i + b3X3i + +bkXki + ui,一、多元线性回归模型的形式,3,Yi =1 +2 X2i +3 X3i + ui,如二元线性回归模型:,被解释变量,截距项,解释变量,随机误差项,偏回归系数(partial regression coefficients),4,偏回归系数的含义,Yi =1 +2 X2i +3 X3i + ui,度量X3i保持不变的情况下,E(Y | X2i, X3i )的变化,即2 度量X2i 的单

2、位变化对Y均值的“直接”或“净”影响。,3 的含义呢?,5,若总体个数为n,则,写成矩阵形式:,6,即,X 称为数据矩阵或设计矩阵。,7,二、古典假定,假定1:零均值假定,矩阵形式:,8,假定2:同方差假定,假定3:无自相关假定,统一成矩阵形式:,9,假定4:随机扰动项与解释变量不相关,假定5:正态性假定,即,假定6:解释变量之间无多重共线性,即各解释变量的样本观测值之间线性无关,解释变量的样本观测值矩阵的秩为参数个数,从而保证参数的估计值唯一。,10,当总体观测值难于得到时,回归系数向量 b 是未知的,这时可以由样本观测值进行估计,可表示为,但实际观测值与计算值有偏差,记为:,称为多元样本回

3、归函数。,于是,11,分别称为回归系数估计值向量、 剩余项或残差向量、 Y 的样本估计值向量。,12,第二节 多元回归模型的估计,设(Yi , X2i , X3i , ,Xki)为第i个观测样本(i=1,2,n),一、参数的最小二乘估计,要使残差平方和,其必要条件是,于是,13,即,或,14,将,两边同时左乘,得,由无多重共线性假定,即可得参数向量 b 的最小二乘估计式的矩阵表达式,对于只有两个解释变量的线性回归模型的参数的最小二乘估计,书上给出了具体的代数表达式(P80),15,回归残差为:,设残差平方和为Q :,令,16,17,正规方程组(Normal Equation),18,下面推导参

4、数估计式公式:,即,19,20,类似地,于是,21,同理,22,(1)无偏性,二、OLS估计式的统计性质,23,(3)最小方差性,参数最小二乘估计是所有线性无偏估计量中方差最小的估计量。,(2)线性性,每个参数估计量是Yi (i=1,2, ,n)的线性组合。,即在古典假定条件下,多元线性回归模型 的最小二乘估计是最佳线性无偏估计式。(Best Linear Unbiased Estimator, BLUE),24,在古典假定条件下,,三、OLS估计的分布性质,而 是Yi的线性函数,故它们也服从正态分布。,为了进行区间估计和假设检验,需要弄清参数估计量的分布。,从而,由无偏性,25,所以,是矩阵

5、,中第j行第j列上的元素,26,四、随机扰动项方差的估计,通常s2是未知的,参数估计量的无法计算,可以证明:,是s2的无偏估计量。,27,五、参数的区间估计,当用 代替s2时,,给定显著性水平a,查t分布自由度为n-k的临界值t0,则回归系数bj的置信度为1- a的置信区间为:,28,例1 已知线性回归模型,n=5,并且根据各个变量的数据计算出:,(1)求模型中三个参数的最小二乘估计;,(保留二位小数),(2)求估计参数的标准差的估计量。,29,解:(1),于是,又,30,解:(2),又,于是,31,第三节 多元回归模型的检验,为了从估计出的模型出发(即SRF),检验SRF对样本观测值的拟合程

6、度。与简单线性回归一样,考察在Y 的总变差中由多个解释变量作出了解释的那部分比重。,一、拟合优度检验,32,在 中,,TSS = RSS + ESS,自由度:,n-1 = (k-1) + (n-k),由于RankX=k,所以在 中独,立的变量只有k个,又 已知,故,的自由度为k-1.,33,我们用回归平方和(RSS)与总离差平方和(TSS)的比值表示二元回归方程的拟合优度,称为多重可决系数或多重判定系数即:,=RSS+ESS,34,可用矩阵表示:,P79(3.25)式:,35,由,知,当R2=1时,,从而ei=0,这时,被解释,变量的总变差完全由解释变量解释。此时,从取得样本看,样本观测值完全

7、落在样本回归线上;当R2=0时,总变差完全不能由解释变量解释。R2越接近于1,拟合状态越好。,36,所以可决系数也可表示为:,37,问题:,在多元线性回归模型中增加一个解释变量,残差平方和一般会减小,从而可决系数会相应增大,那是不是解释变量越多越好呢? 事实上不是这样,实际情况中,经济现象是错综复杂的,一个模型不可能把它的所有影响因素都考虑进去,有时越追求全面,丧失的是越不准确,另外,解释变量越多,损失的自由度越多。,38,为了消除因解释变量个数不同对可决系数的影响,提出了修正的可决系数(Adjusted coefficient of determination),注意上式右边可能为负值,这是

8、规定:,39,可决系数只是对模型拟合优度的度量,可决系数或修正的可决系数越大,表明列入模型中的解释变量对被解释变量的联合影响程度越大,并非各个解释变量对被解释变量的影响都很大。在回归分析中,不仅模型的拟合程度要高,而且要求各个解释变量对被解释变量的影响都是显著的,即对总体回归参数的估计值要可靠。因此,在建立模型时,不能单凭可决系数的高低断定模型的优劣,在通盘考虑时,可以适当降低对可决系数的要求。,40,被解释变量与多个解释变量之间是否存在显著的线性关系呢?需在总体上是否显著作出推断。,二、回归方程的显著性检验(F检验),假设的形式为,原假设 H0:b2=b3=bk=0,备择假设 H1:bj(j

9、=2,3,k)不全为0,统计量,41,(3)给定显著性水平a,在F分布表查自由 度为k-1和n-k的临界值Fa 。,(1)提出检验假设,(4)比较F值与临界值Fa的大小,,检验步骤:,(2)用样本观测值计算统计量F的值,若FFa,则拒绝原假设,表明回归方程显著;,若FFa,则接受原假设,表明回归方程不显著,即列入模型的各个解释变量联合起来对被解释变量的影响不显著。,42,需要指出的是:在一元线性回归中,由于解释变量只有一个,不存在解释变量联合影响的整体检验问题,也就用不着进行F检验。事实上,对一元回归模型的 t 检验与F检验是一致的。,事实上,P39(2.43),P48(2.67),而临界值,

10、与,也存在平方关系。,43,F与R2的关系,F与R2成正比, R2越大, F 值也越大。所以 可以把F检验看成是对拟合优度的检验。,但拟合优度的检验不能取代F检验。因为 可决系数或修正可决系数只能提供拟合优 度的度量,但它没有回答它的值究竟要达 到多大才算模型通过了检验。,44,因为方程的整体线性关系显著,并不表示每个解释变量对被解释变量的影响都是显著的,因此,还必须分别对每个解释变量进行显著性进行检验。,三、回归参数的显著性检验(t 检验),我们知道,标准化后,这里,Cjj是 第j行第j列元素,45,而总体方差s2未知,当用代替s2时,此时构造的 t 统计量,对回归参数的显著性检验分两种情况

11、:,1)检验估计的参数的显著性:,2)检验解释变量对被解释变量影响的显著性:,46,(3)给定显著性水平a,在 t 分布表查自由 度为n-k的临界值ta/2 ;,(1)提出检验假设,(4)比较 t 值与临界值ta/2的大小,,对各个回归参数显著性检验的步骤:,(2)用样本观测值计算统计量 的值;,若tta/2,则拒绝原假设,表明在其他解释变量不变的情况下,Xj对Y的影响显著;,反之,若t ta/2 ,则接受原假设,不显著。,H0:bj= bj* (j=1,2, ,k),H1:bj bj* (j=1,2, ,k),47,(3)给定显著性水平a,在 t 分布表查自由 度为n-k的临界值ta/2 ;

12、,(1)提出检验假设,(4)比较 t 值与临界值ta/2的大小,,对各个解释变量的显著性检验的步骤:,(2)用样本观测值计算统计量 的值;,若tta/2,则拒绝原假设,表明在其他解释变量不变的情况下,Xj对Y的影响显著;,反之,若t ta/2 ,则接受原假设,不显著。,H0:bj=0 (j=2, ,k),H1:bj0 (j=2, ,k),48,第四节 多元线性回归模型预测,一、对 Y 平均值的点预测,将解释变量预测值的行向量,代入样本回归函数,即得Y的平均值的点预测值,49,二、对 Y 平均值的区间预测,因为 是随机变量,所以 也是随机变量,为了由预测值 去对总体真实均值 E(YfXf) 作区

13、间估计,需要知道 的分布及相关统计量。,50,51,由于s2未知,当用无偏估计,代替s2 时,给定显著性水平a,查t 分布表,得临界值ta/2 ,可得均值E(Yf) 置信度为1-a 的预测区间为,52,三、对 Y 个别值的区间预测,因为 均服从正态分布,所以,也服从正态分布,且,即,53,由于s2未知,当用无偏估计,代替s2 时,给定显著性水平a,查t 分布表,得临界值ta/2 ,可得Y的真实值Yf 的置信度为1-a 的预测区间为,54,例2 以企业研发支出(R&D)占销售额的比重为被解释变量(Y),以企业销售额(X1)与利润占销售额的比重(X2)为解释变量,一个容量为32的样本企业的估计结果

14、如下:,其中括号中为系数估计值的标准差。,(1)解释log(X1)的系数。如果X1增加10%,估计Y会变化多少个百分点?这在经济上是一个很大的影响吗?(2)针对R&D强度随销售额的增加而提高这一备择假设,检验它不随X1而变化的假设。分别在5%和10%的显著性水平上进行这个检验。(3)利润占销售额的比重X2对R&D强度Y是否在统计上有显著的影响?,55,解(1)log(X1)的系数表明在其他条件不变时,log(X1)变化1个单位,Y 变化的单位数,即 Y=0.32log(X1)0.32(X1/X1)=0.32100%,换言之,当企业销售X1增长100%时,企业研发支出占销售额的比重Y会增加32个

15、百分点。由此如果X1增加10%,Y 会增加3.2个百分点。这在经济上不是一个较大的影响。,56,(2)针对备择假设,检验原假设,计算的 t 统计量的值为t=0.32/0.22=1.468。在5%的显著性水平下,自由度为32-3=29的 t 分布的临界值为1.699(单侧),计算的 t 值小于该临界值,所以不拒绝原假设。意味着R&D强度不随销售额的增加而变化。在10%的显著性水平下,t分布的临界值为1.311,计算的 t 值小于该值,拒绝原假设,意味着R&D强度随销售额的增加而增加。,(3)X2的参数估计值的 t 统计值为0.05/0.46=1.087,它比在20%的显著性水平下的临界值1.311(双侧)还小,因此认为X2对Y在统计上没有显著的影响。,57,本章重点内容,1.掌握偏回归系数的含义2.理解基本假定:无多重共线性3.掌握最小二乘准则4.掌握最小二乘估计量的统计性质:BLUE5.掌握多元线性回归模型的统计检验(拟合优度、 t检验、F检验)6.会用多元线性回归模型分析简单问题,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 中等教育 > 小学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报