1、计量经济模型与经济预测,福州大学管理学院林筱文教授编联系电话:0591-3710642;7937642,一、线性回归模型,最小二方程原理和参数估计 =a+bxy Q=(y- ) 最小=(y-a-bx)2 最小 对a和b求一阶微分2Q/2A=2 (y-a-bx)(-a)=02Q/2B= 2 (y-a-bx)(-bx)=0x 得: y-na-b x=0 y=na+bx=0xy-ax-bx2=0 xy=ax+bx2=0 得: a= y/n-b (y/n)b= xy- (x) (y) /n/ x2-(x)2=Lxy/Lxx 回归系数b说明当x变动一个单位时,y平均变动一个b的值,回归误差估计和相关系数
2、估计标准误差: Sy= (y- )2/(n-2) = (y2-a y-b xy)/n-2相关系数: R=Lxy/ LxxLyyLxy= xy- (x y)/nLxx= x2-(x)2/nLyy= y2- (y)2/n,线性回归模型预测,当计算回归模型由大样本计算时(n30),其预测区间的误差分布服从正态分布,则预测区间为:0=(a+bx0) (Z2/2)Sy当计算回归模型由小样本计算时(n30),其预测区间的误差分布服从七分布,则预测区间为:0 =(a+ bx0) (Ta/2) Sy 1+1/n+(X0-X)2/ (X-X)2,例:,解:b338.41/6(23)(86.5)/95-1/6(2
3、3)2=0.998a86.5/60.998(23/6)=10.59 待线性回归方程: 10.59+0.998x即建筑面程每增加一万m2,建造成本要平均增加0.998万元Sy= (y- )2/(n-2)= 0.0181924/(6-2)=0.2133r=Lxy/ LxxLyy = (xy- x y/n)/ x2-(x)2/ny2-(y)2/n=0.973 预测:假设x0=4.5时,y0=10.59+0.9984.5=15.081(万元),当n=630时,查七分布表ta/2(n-2)=t(0.025)(4)2.78 ta/2(n-2) Sy 1+1/n+(x0-x)2/ (x-x)2=0.6579
4、 所以建造成本的区间预测在显著性水平为a=5%,即以95%的概率计算y0=15.0810.6579,即在14.423115.7389万元之间,二、非线性回归模型曲线回归模型,在对客观现象选择回归模型时,应注意:1、回归方程的形式应与经济学的基本理论相一致,应该在定性分析和定量分析的基础上选择适当的回归模型 2、回归方程与实际现象的变量值应要有较高的拟合程度,能较好地反映经济实际运行趋势 3、在对方程的模型一时无法判断时,可先画散点图,观察现象实际值的变动趋势,来选择相应的拟合回归模型。或者多选择几个回归模型,加以拟合,分别计算估计标准误差,选择估计标准误差最小的那个回归模型 4、回归模型的数学
5、形式要尽可能简单,一般说来,数字型式越简单,则基回归模型的可操作性越强。过于复杂的回归模型的数学形式在实际经济分析和经济预测中,其实际应用价值不大,抛物线方程: =a+bx+cx2 根据最小二乘法原理,求该方程待定a、b、c参数的方程组如下:y=na+b x+c x2 yxy=a x+b x2+c x3x2y=a x2+b x3+C x4x 判定某变量趋势是否符合抛物线议程时,可利用差分法: 1、当X以一个常数变化时,Y的一阶差分即Y=Yt-Yt-1的绝对值也接近一个常数时,该变量的变化可用直线方程来拟合。 2、当X从一个常数变化时,Y的二阶差分即Y2t= Yt- Yt-1的绝对值接近一个常数
6、时,该变量的变化可用抛物线方程来拟合。,抛物线方程,指数曲线方程,该方程常用于拟合某变量值的环比,即Yt/Yt-1的绝对值近似于一个常数时,就可用指数曲线方程来拟合。=abx 对方程两边求对数: lgy=lga+lgbx 换元令lgy=Y lga=A lgb=B 得: Y=A+Bx,化成直线方程的形式,求出A、B的参数值,再分别求反对数,就可求出a、b的参数值, 指数曲线因a、b的取值不同而表现出不同的变化形式:x x x xy y y y,对数函数曲线,=a+blnx,令x=lnx,把方程变成直线方程的形式,求出a、b的参数值。对数函数的特点是随着x的增大,x的单位变动对Y的影响效果递减。,
7、S函数曲线(逻辑曲线), =1/a+be-x y 换元令y=1/y, x=e-x 得y=a+bx化成直线方程的形式 p 可求出a、b的参考值。该方程的 特点是某变量刚开始时,随着X x 的增加,y的增长速度逐渐增加, I II III IV 当y达到一定水平时,其增长速度又放慢,最后超近于 一条渐近线。该方程经常用来描述某消费品的生命周期的变化,可将其分为四个阶段,即缓慢增长快速增长增速放慢相对饱和p为一拐点。,三、多元回归模型,模型与参数估计 =a+bx1+cx2+dx3+ 多元回归就是分析在多个自变量(x)与因变量(y)相互关系的基础上,确定一个多元回归模型,然后根据各个自变量的变动来估计
8、或预测因变量的变动程度。 根据最小二乘法原理,以二元回归方程为例,说明求其参数的方法: =a+ bx1+cx2y=na+bx1+cx2x1y= ax1 +bx12 +c x1 x2x2y= ax2 +b x1 x2 +cx22,例:根据下表计算二元回归方程,将上述有关数字代入二元回归的方程组:,986=7a+3622b+2472c501415=3622a+1877174b+1281444c341923=2472a+1281444b875116c得:a=-5.0657 b=1.0072 c=-1.0698二元回归方程:=-5.0657+1.0072x1-1.0698x2,多元回归方程的矩阵形式,
9、二元回归方程的矩阵形式表现为: Y=XB 其中:y1 1 x21 xk1 b1y2 1 x22 xk2 b2Y= X= B= yn 1 x2n xkn bn按矩阵计算原理: Y=XBXY=XXB (XX)-1XY=(XX)-1(XX)B B=(XX)-1XY,例:下表列出某商品销售量(Y)与居民人均收入(x1)和单价(x2)的有关资料。,上表中有关数据的矩阵表示为:,1 5 2 10 b1 10 98 35 X= 1 7 3 Y= 10 B= b2 (xx)= 98 1038 359 35 359 133 1 15 4 23 b3166 1.6416 -0.0839 -0.2054(xy)=
10、1743 (xx)-1 = -0.0839 0.0188 -0.0286592 -0.2054 -0.0286 0.13891.6416 -0.0839 -0.2054 166 4.58751 B= (xx)-1xy= -0.0839 0.0188 -0.0286 1743 = 1.86847-0.2054 -0.0286 0.1389 592 -1.79957 由此得多元回归方程为: =4.58751+1.86847x1-1.79957x2,回归方程的方差估计,Sy2=(y- )2/(n-k)= e2/(n-k) e2=ee=YY-BXY=2980-4.58751166-1.86847 17
11、43+1.79957+1.79957 592=27.08e2 27.08 S= S2 = n-k = 10-3 = 3.8686 =1.97S称为回归方程的估计标准误差,S越小 则表明样本回归方程的代表性越强,多元回归方程的检验,根据线性方程方差分析的原理: (y-y)2= (-y)2+ (y-)2 (y- ) (y-y) S总=S回+S残 (-y) y1.回归方程拟合程度检验 在回归方程拟合程度检验中,应用可决系数指标来回加以检验,可决系数越大,说明回归方程对实际数值的拟合程度越好 R2= (-y)2/ (y-y)2= S回/ S总=1- S残/ S总 在考虑变量自由度的情况下,修正的可决系
12、数: R2= S回/(n-k)/ S总/(n-1)=1- S残/(n-k)/ S总/(n-1)=1-27.08/(10-3)/244.4/(10-1)=0.84,2.回归系数的显著性检验,在这一检验的目的是为了检验各回归系数对应的自变量(x i)对因变量(y)的影响是否显著,以便对各个自变量的选择作出正确的判断。一般说来,当某个自变量(x i)的回归系数(b i)的显著性检验无法通过,则说明该自变量对因变量的影响在一定显著水平(一般 a=0.05)不够显著,则就可以将该自变量从回归模型中删除,这样才能以尽可能少的自变量去建立回归模型,达到到尽可能高的拟合度,同时也可减少计算工作量 多元回归模型
13、中的回归系数检验采用t检验,公式如下:tbj=bj/sbj sbj= sy2jj=sy jj 式中jj为(xx)-1矩阵中的第j个对角线的元素,上例中Sy=1.97; 11=1.6416; 22=0.0188; 33=0.1389 则tb1=4.5875/(1.97 1.6416 )=1.82tb2=1.8685/(1.97 0.0188 )=6.92tb3=-1.7996/(1.97 0.1398 )=-2.45,查t分布表(a=0.05),双侧临界值t(a/2)(n-k)=t(0.05/2)(10-3)=2.365,上述tb2=6.922.365,tb3= -2.45 2.365,说明b1
14、和b2均能通过检验,说明x1和x2对y的影响是显著的,而tb1=1.822.365,不能通过检验,说明在建立回归方程时,不必设常数项,由此再根据实际资料,建立拟合的多元回归方程。 3.回归方程的显著性检验 该检验应用下检验来进行: F=S回/(k-1)S残/(n-k),上例中S总=224.4, S残=27.08 S回= S总- S残=224.4-27.08=197.32 则F=197.32/(3-1)/27.08(10-3)=25.50查F分布表,当a=0.01,自由度为(2.7)时,F2=9.55,当a=0.05,自由度为(2.7)时,Fa=4.74,可知F=25.50都大于Fa,说明该多元
15、回归方程是比较显著的,可以用该方程进行经济预测。设x1=2200元,x2=50元/件时,对某商品需求量(y)的预测值为y=4.5875+1.868522+(-1.7996) 5=36.70(百件),多元回归方程的多重共线性问题,在多元回归模型中,要求模型中任何自变量之间不存在密切的线性相关关系存在,则说明自变量之间存在多重共线性。 1.多重共线性产生的经济背景和原因 当人们进行多元回归分析时,涉及的自变量较多,一时很难确定究竟要用哪个自变量来建立多元回归方程,也很难找到一组互不相关而都对因变量有显著影响的自变量,严格地讲,当某一经济现象的变量涉及多个自变量影响因素时,这些自变量的因素大都共有一
16、定的线性相关关系,当其中的某些自变量两两相关关系较强时,就可认为该回归方程存在多重共线性。 当人们所研究的问题涉及到时间序列资料时,由于所涉及到的自变量往往随着时间变化(或共同的政策倾向)而表现出共同的变化趋势,从而产生共线性现象。例如人们在研究社会消费水平时,所涉及的影响因素有社会人均GDP水平,城镇居民收入水平,农民平均收入水平,银行储蓄存款余额,消费价格指数等指标,而这些指标之间都可能存在着很强的相关关系,如果从这些指标作为多元回归模型的自变量,该回归模型就存在着多重共线性。,对于利用横截面资料建立多元回归模型,也可能存在自变量之间高度相关的问题。例如应用横截面资料建立粮食产量模型,其自
17、变量有农业投资;化肥投入,水利灌溉面积等。其实农业投资已在化肥投入和水利灌溉面积中体现出来了,它们之间存在较强的相关关系,而表现出共线性问题。 2.多重共线性带来的问题: 当回归模型从矩阵形式表示时y=XB,当存在自变量之间的完全多衙共线性时,存在 xx =0,xx -1也不存在,矩阵的行列式计算等于0,则B=(xx)-1xy也无法计算。 在实际生活中,经常见到的是自变量之间存在近似共线性情况,即 xx 0,xx 1的对角线元素较大,从而使得方程估计的精度下降,甚至出现 回归系数的经济意义无法解释的可能。 3.多重共线性的判断 多种共线有各种判断方法,这里举一个简单的判断方法: 设自变量有x1
18、、x2、x3、 xp,其回归方程为: y=f(x1、x2、x3、 xp),如果这多个自变量中两两自变量(xj)之间存在相关系数很大,则说明这个回归方程可能存在多重共线性问题,这时就要剔除其中的一个自变量或把这两个自变量相加,以求得计算过程的简化。,4.对多重共线性问题的消除方法 常用的消除多重共线方法有: (1)剔除一些不重要的解释变量,或对某些变量进行合并。 (2)增大样本容量。在实际经济问题的多元回归分析中,如果所搜集的样本数据太少,也容易产生多重共线性问题。 (3)改变变量的定义形式。对于某些样本变量数据是时间序列资料时,因各变量往往随着时间的变化向表现出共同的变化趋势,回归方程存在多种
19、共线性,此时,对变量彩差分法重新定义,可能取得较好的效果。例如,建立的多元回归方程y=a+bx1+ cx2+dx3+ex4,其中当各自量之间可能出现两两变量高度相关出现多重共寿终正寝性问题,则令: y=yi-yi-1 x1=x1i-x1(i-1) x2 = x2i-x2(i-1) x3 = x3i-x3(i-1) x4 = x4i-x4(i-1) y = a+b x1+ c x2+ d x3+ e x4 ,然后去估计回归参数 (4)利用已知的信息,进行变量之间的替换。,(1)准则 在解决了多重共线性问题之后,多元回归方程的自变量选择应当使所拟合的回归方程的可决系数达到最大R2=( -y)2/
20、( -y)2=S回/S总=1-S残/S总 残差平方程达到最小,Sy2= ( y-)2/n-p-1 对回归系数的检验,若该回归系数不能通过显著性检验,就剔除该自变量,然后重新建立一个新的回归方程,然后再进行显著性水平检验。(2)逐步回归的方法 当建立一个多元回归方程时,由于人们事先不知道哪些变量来作为自变量,往往凭经验或定性分析多选择几个自变量建立多元回归模型,然后逐步对方程进行显著性检验,逐步剔除退出或变换增加某个自变量,如此反进行,最后使得整个方程的所有检验都可以通过为止。,多元回归方法自变量的选择和逐步回归的方法,四.多元回归模型的应用,虚拟变量的应用 在回归模型分析中经常发生:因变量(y
21、)不仅受诸如产量、价格、成本、身高、温度等可测量的数量变量的影响,而且也受到诸如:性别、文化程度、种族、宗教信仰、战争、地震、季节等及政府政策变化等品质变量的影响;因此,在建立回归方程时,不仅要引入数量变量,也要引入质量变量。当某种品质变量以是(1)非(0)表示时,就称其为虚拟变量。 常见的虚拟变量的回归模型有以下三种表现形式:,1.反映政府政策发生重大变化或其他因素发生重大变异的跳跃式,间断式的回归模型,其模型的形式为: =1+ 2xi1+ 3Di Di= 0 ii01 ii0图示: yxXi0如果上图由一条址线回归方程来拟合,就会出现较大的误差,2.具有某种转折点的系统趋势的变化模型,其模
22、型的形式为: = 1+ 2xi1+ 3(xi1-xi0)Di Di= 0 ii01 ii0i0=为发生转折的年份图示:Xi0显然如果上图由一条曲线方程来拟合,就会出现较的误差,3.含有多个虚拟变量的因归模型。根据品质变量的不同特征和回归模型的需要,可以引入多个虚拟变量来表示多次转折、跳跃和间断的情况。例如建立个人医疗保障年支出回归模型: i= 1+ 2xi1+ 3Di 1 + 4Di 2 式中xi1为个人收入额1 文化程度为大专及以上 Di 10 其它1 机关及行政事业单位 Di 20 其它,例如:为研究美国住房面积的需求,选用3120户家庭为建模样本,回归模型为logQ=1+ 2 P +3
23、logY 其中:Q 3120个样本家庭的年住房面积(平方英尺)P 家庭所在地的住房单位价格Y 家庭收入 经计算:logy=4.17-0.247log P +0.96logy R2=0.371(0.11) (0.017) (0.026) 上式中2=0.247的价格弹性系数, 3=0.96的收入弹性系数,均符合经济学的常识,即价格上升,住房需求下降,收入上升,住房需求也上升。但白人家庭与黑人家庭对住房的需求是不一样的,引进虚拟变量D:1 黑人家庭 Di 10 白人家庭或其它家庭 logQ= 1+ X1D+2 log P +a2D log P + 3log Y+ a3D log Y,例:某省农业资料
24、购买力和农民倾向收入数据如下:,解:根据上述数据建立一元线性回归方程 =1.0161+0.09357x R2=0.8821 Sy=0.2531 F=67.3266带虚拟变量的回归模型,因1979年中国农村政策发生重大变化,引入虚拟变量来反映农村政策的变化 0 i1979年Di=1 i1979年 建立回归方程为: =0.9855+0.0692x+0.4945D(9.2409) (6.3997) (3.2853) R2=0.9498 Sy=0.1751 F=75.6895虽然上述两个模型都可通过显著性水平检验,但可明显产生带虚拟变量的回归模型的可决系数更高,回归的估计误差( Sy )更小,说明模型
25、的拟合程度更高,代表性更好。,分段回归法的应用,对有些经济现象的波动带有明显的阶段性,这时为提高回归方程的拟合效果,可彩分段回归的方法来建立回归方程。阶段性转折点的确定可以用散点图来观察确定yxx0 x11+ 2xt 0 x1,五.异方差与序列相关,异方差 1.回归分析的假定性和异方差 回归分析的一个基本假定就是回归模型中随机误差项,单位:千万元,接上表 单位:千万元,根据最小二乘法计算出来的回归模型和回归估计值,然后再计算残差。从参数估计可看出该回归模型可决系数较高,一有关参数可能性通过检验,直观上认为该模型可作为预测所用。 但若从残差值(e=y- )做座标图分析,可看出:,从坐标图上看,残
26、差的波动基本上呈一个喇叭型状态,销售收入小的单位,其残差一般较小,销售收入大的单位,其残差一般也较大,即残差随着商店规模扩大,销售额的增加而扩大。这表明,不同销信规模的商店,其利润总额的方差各不相同,由于回归模型中随机误差的方差不是一个常数,这里就存在着异方差的现象。这种现象经常出现在以横截面数拓建立的回归模型分析中,对时间序列数据有时也会出现异方差性,例如对某公司的C-D生产函数的估计,因不同时期的数据内涵标准不同,企业的投资水平,管理水平等不同,也会发生异方差性现象。 2.回归模型存在异方差的后果 参数的最小二乘法估计虽然是元偏的,但却是非有效的。 参数估计量的方差是有偏的,这将导致参数的假设检验也是非有效的。,3.异方差性的检验判断 (1)残差图分析法e一般情况下,对随机数据所做的回归分析,当回归模型满足所有的假定时,残差图上的点是随机分布的,无任何规律,如上图所示。如图回归模型存在异方差性,残差图上的点出现相应的有规律性的趋势,即随着y的增大,而出现e随之增大或减少的趋势,如下图:,