1、1第三章 多元线性回归模型一、邹式检验(突变点检验、稳定性检验)1.突变点检验19852002 年中国家用汽车拥有量( ,万辆)与城镇居民家庭人均可支配收入( ,ty tx元) ,数据见表 6.1。表 6.1 中国家用汽车拥有量( )与城镇居民家庭人均可支配收入( )数据t t年份 (万辆)ty(元)tx年份 (万辆)ty(元)tx1985 28.49 739.1 1994 205.42 3496.21986 34.71 899.6 1995 249.96 42831987 42.29 1002.2 1996 289.67 4838.91988 60.42 1181.4 1997 358.36
2、 5160.31989 73.12 1375.7 1998 423.65 5425.11990 81.62 1510.2 1999 533.88 58541991 96.04 1700.6 2000 625.33 62801992 118.2 2026.6 2001 770.78 6859.61993 155.77 2577.4 2002 968.98 7702.8下图是关于 和 的散点图:tytx从上图可以看出,1996 年是一个突变点,当城镇居民家庭人均可支配收入突破 4838.9 元之后,城镇居民家庭购买家用汽车的能力大大提高。现在用邹突变点检验法检验 1996 年是不是一个突变点。H0
3、:两个字样本(19851995 年,19962002 年)相对应的模型回归参数相等2H1:备择假设是两个子样本对应的回归参数不等。在 19852002 年样本范围内做回归。在回归结果中作如下步骤:输入突变点:得到如下验证结果:由相伴概率可以知道,拒绝原假设,即两个样本(19851995 年,19962002 年)的回归参数不相等。所以,1996 年是突变点。32.稳定性检验以表 6.1 为例,在用 19851999 年数据建立的模型基础上,检验当把 20002002 年数据加入样本后,模型的回归参数时候出现显著性变化。因为已经知道 1996 年为结构突变点,所以设定虚拟变量: 0,198562
4、D对 19852002 年的数据进行回归分析:做邹模型稳定性检验:4输入要检验的样本点:得到如下检验结果:由上述结果可以知道,F 值对应的概率为 0.73,所以接受原假设,模型加入 2000、2001和 2002 年的样本值后,回归参数没有发生显著性变化。二、似然比(LR)检验有中国国债发行总量( ,亿元)模型如下:tDEBT0123t tttGPFREPAYu5其中 表示国内生产总值(百亿元) , 表示年财政赤字额(亿元) , 表示tGDPtDEFtREPAY年还本付息额(亿元) 。19802001 年数据见表 6.2。表 6.2 国债发行总量 、 、财政赤字额 、年还本付息额( )数tEB
5、TtGPt t据1980 43.01 45.178 68.9 28.581991 461.4 216.178 237.14 246.81981121.74 48.624-37.38 62.891992 669.68 266.381 258.83 438.571982 83.86 52.947 17.65 55.521993 739.22 346.344 293.35 336.221983 79.41 59.345 42.57 42.4719941175.25 467.594 574.52 499.361984 77.34 71.71 58.16 28.919951549.76 584.781
6、581.52 882.961985 89.85 89.644 -0.57 39.5619961967.28 678.846 529.561355.031986138.25102.022 82.9 50.1719972476.82 744.626 582.421918.371987223.55119.625 62.83 79.8319983310.93 783.452 922.232352.921988270.78149.283133.97 76.7619993715.03820.67461743.591910.531989407.97169.092158.88 72.372000 4180.1
7、 894.4222491.271579.821990375.45185.479146.49190.072001 4604 959.3332516.542007.73对以上数据进行回归分析:6得到如下输出结果:对应的回归表达式为: 4.31051.0.8t tt tDEBTGDPEFRPAY(0.2) (2.2) (31.5) (17.8)2.9,2.,573.RW现在用似然比(LR)统计量检验约束 对应的回归系数 等于零是否成立。t 17过程如下:输入要检验的变量名:得到如下输出结果:8输出结果上部是关于约束 GDP 系数为零的 F 检验和 LR 检验。由于两种检验的相应概率均小于 0.05,
8、即拒接原假设,GDP 系数 不为零,模型中应该保留解释变量 GDP。1输出结果下部是去掉了 GDP 变量的约束模型估计结果。三、Wald 检验(以表 6.2 为例进行 Wald 检验,对输出结果进行检验。 )检验过程如下:输入约束表达式:得到如下结果:9从输出结果上部可以看出,相应概率非常大,远远大于 0.05,表明原假设成立,即约束条件 成立, 是 的 3 倍。输出结果的下部给出了约束条件3*(2)c21的样本值和样本标准差,分别为 0.04 和 0.48。01. 表 1 列出了中国 2000 年按行业分的全部制造业国有企业及规模以上制造业非国有企业的工业总产值 Y,资产合计 K 及职工人数
9、 L。序号工业总产值Y/亿元资产合计K/亿元职工人数L/万人 序号工业总产值Y/亿元资产合计K/亿元职工人数L/万人1 3722.700 3078.220 113.0000 17 812.7000 1118.810 43.000002 1442.520 1684.430 67.00000 18 1899.700 2052.160 61.000003 1752.370 2742.770 84.00000 19 3692.850 6113.110 240.00004 1451.290 1973.820 27.00000 20 4732.900 9228.250 222.00005 5149.300
10、 5917.010 327.0000 21 2180.230 2866.650 80.000006 2291.160 1758.770 120.0000 22 2539.760 2545.630 96.000007 1345.170 939.1000 58.00000 23 3046.950 4787.900 222.00008 656.7700 694.9400 31.00000 24 2192.630 3255.290 163.00009 370.1800 363.4800 16.00000 25 5364.830 8129.680 244.000010 1590.360 2511.990
11、 66.00000 26 4834.680 5260.200 145.000011 616.7100 973.7300 58.00000 27 7549.580 7518.790 138.000012 617.9400 516.0100 28.00000 28 867.9100 984.5200 46.0000013 4429.190 3785.910 61.00000 29 4611.390 18626.94 218.000014 5749.020 8688.030 254.0000 30 170.3000 610.9100 19.0000015 1781.370 2798.900 83.0
12、0000 31 325.5300 1523.190 45.0000016 1243.070 1808.440 33.00000设定模型为: YAKLe(1) 利用上述资料,进行回归分析;(2) 回答:中国 2000 年的制造业总体呈现规模报酬不变状态吗?将模型进行双对数变换如下:10lnlnlYAKL1)进行回归分析:得到如下回归结果:于是,样本回归方程为: ln1.540.69ln.361lYKL(1.59) (3.45) (1.79)2.8,.7,5.RF11从回归结果可以看出,模型的拟合度较好,在显著性水平 0.1 的条件下,各项系数均通过了 t 检验。从 F 检验可以看出,方程对 Y
13、的解释程度较少。表明,工业总产值对数值的 79.6%的变化可以由资产合计对数与职工的对数值0.7963R的变化来解释,但仍有 20.4%的变化是由其他因素的变化影响的。从上述回归结果看, ,即资产与劳动的产出弹性之和近似为 1,表明0.971中国制造业在 2000 年基本呈现规模报酬不变的状态。下面进行 Wald 检验对约束关系进行检验。过程如下:结果如下:12由对应概率可以知道,不能拒绝原假设,即资产与劳动的产出弹性之和为 1,表明中国制造业在 2000 年呈现规模报酬不变的状态。2. 已知数据如表 3.2Y X1 X21 1 103 2 98 3 515 4 128 5 -6(1) 先根据
14、表中数据估计以下回归模型的方程: 01iiiYXu22iii01iii(2) 回答下列问题: 吗?为什么? 吗?为什么?12对上述 3 个方程进行回归分析,结果分别如下:13即: 18.6YX即: 217.346YX从上述回归结果可知: , 。二元回归与分别对 与 所作的一元回归,121X2其对应的参数估计不相等,主要原因在于 与 有很强的相关性。其相关分析结果如下:12可见,两者的相关系数为 0.9679。14即: 122.98.94YX3. 表3.3列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。年份 Y/千克X/元P1/
15、(元/千克)P2/(元/千克)P3/(元/千克)年份 Y/千克 X/元P1/(元/千克)P2/(元/千克)P3/(元/千克)1980 2.78 397 4.22 5.07 7.83 1992 4.18 911 3.97 7.91 11.401981 2.99 413 3.81 5.20 7.92 1993 4.04 931 5.21 9.54 12.411982 2.98 439 4.03 5.40 7.92 1994 4.07 1021 4.89 9.42 12.761983 3.08 459 3.95 5.53 7.92 1995 4.01 1165 5.83 12.35 14.29198
16、4 3.12 492 3.73 5.47 7.74 1996 4.27 1349 5.79 12.99 14.361985 3.33 528 3.81 6.37 8.02 1997 4.41 1449 5.67 11.76 13.921986 3.56 560 3.93 6.98 8.04 1998 4.67 1575 6.37 13.09 16.551987 3.64 624 3.78 6.59 8.39 1999 5.06 1759 6.16 12.98 20.331988 3.67 666 3.84 6.45 8.55 2000 5.01 1994 5.89 12.80 21.96198
17、9 3.84 717 4.01 7.00 9.37 2001 5.17 2258 6.64 14.10 22.161990 4.04 768 3.86 7.32 10.61 2002 5.29 2478 7.04 16.82 23.261991 4.03 843 3.98 6.78 10.48(1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243lnlnllnlYXPPu(2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。先做回归分析,过程如下:15输出结果如下:所以,回归方程为: 123ln0.7315.46ln0.52ln0.469ln0.87lnYXPP(-2.4
18、63) (4.182) (-4.569) (1.483) (0.873)由上述回归结果可以知道,鸡肉消费需求受家庭收入水平和鸡肉价格的影响,而牛肉价格和猪肉价格对鸡肉消费需求的影响并不显著。验证猪肉价格和鸡肉价格是否有影响,可以通过赤池准则(AIC)和施瓦茨准则(SC) 。16若 AIC 值或 SC 值增加了,就应该去掉该解释变量。去掉猪肉价格P 2与牛肉价格P 3重新进行回归分析,结果如下:VariableCoefficient Std. Error t-Statistic Prob. C -1.125797 0.088420 -12.73237 0.0000LOG(X) 0.451547
19、0.024554 18.38966 0.0000LOG(P1) -0.372735 0.063104 -5.906668 0.0000R-squared 0.980287 Mean dependent var 1.361301Adjusted R-squared 0.978316 S.D. dependent var 0.187659S.E. of regression 0.027634 Akaike info criterion -4.218445Sum squared resid 0.015273 Schwarz criterion -4.070337Log likelihood 51.5
20、1212 F-statistic 497.2843Durbin-Watson stat 1.877706 Prob(F-statistic) 0.000000通过比较可以看出,AIC 值和 SC 值都变小了,所以应该去掉猪肉价格 P2 与牛肉价格 P3这两个解释变量。所以该地区猪肉与牛肉价格确实对家庭的鸡肉消费不产生显著影响。3. 某硫酸厂生产的硫酸的透明度指标一直达不到优质要求,经分析透明度低与硫酸中金属杂质的含量太高有关。影响透明度的主要金属杂质是铁、钙、铅、镁等。通过正交试验的方法发现铁是影响硫酸透明度的最主要原因。测量了 47 组样本值,数据见表 3.4。表 3.4 硫酸透明度 y 与
21、铁杂质含量 x 数据序数 X Y 序数 X Y1 31 190 25 60 502 32 190 26 60 413 34 180 27 61 524 35 140 28 63 345 36 150 29 64 406 37 120 30 65 257 39 110 31 69 308 40 81 32 74 209 42 100 33 74 4010 42 80 34 76 2511 43 110 35 79 3012 43 80 36 85 2513 48 68 37 87 1614 49 80 38 89 1615 50 50 39 99 2016 52 70 40 76 201717
22、52 50 41 100 2018 53 60 42 100 2019 54 44 43 110 1520 54 54 44 110 1521 56 48 45 122 2722 56 50 46 154 2023 58 56 47 210 2024 58 52硫酸透明度 y 与铁杂质含量的散点图如下所以应该建立非线性回归模型。1. 通过线性化的方式估计非线性模型。(1) 建立倒数模型,在 Equation Specification(方程设定)框中输入18得到输出结果为所以倒数表达式为: 1/0.692.37(1/)yx(18.57) (-11.95)2.7,4,.095RFDW19(2) 建立指数函数方程设定为:得到输出结果为:所以指数表达式为: ln1.904.5(/)yx(22) (21.6)2.,68.3,1.7RFDW20把表达式还原为指数形式:即 ln(7.3)104.5(/)yx104.5()73xye可决系数也由 0.76 提高到 0.91,可见拟合为指数函数比倒数函数更好。2. 直接估计非线性回归模型直接估计的方程设定如下图所示:得到输出结果为:对应的非线性估计结果是: 10.()8.2965xye(11) (29.4) 20.96R可见可决系数由 0.91 提高到 0.96,则直接估计结果比线性化之后估计更好。