收藏 分享(赏)

一元线性模型回归Stata上机.pdf

上传人:精品资料 文档编号:10141773 上传时间:2019-10-14 格式:PDF 页数:51 大小:517.54KB
下载 相关 举报
一元线性模型回归Stata上机.pdf_第1页
第1页 / 共51页
一元线性模型回归Stata上机.pdf_第2页
第2页 / 共51页
一元线性模型回归Stata上机.pdf_第3页
第3页 / 共51页
一元线性模型回归Stata上机.pdf_第4页
第4页 / 共51页
一元线性模型回归Stata上机.pdf_第5页
第5页 / 共51页
点击查看更多>>
资源描述

1、经典单方程计量经济学模型: 一元线性回归模型 The Classical Single Equation Econometric Model: Simple Linear Regression Model 华南师范大学经济与管理学院 主讲教师:林可全 电话: 020-39310352 robert_ 1一、参数的普通最小二乘估计( OLS) 21、最小二乘原理 普通最小二乘法是一种参数估计方法,确定估计参数的 准则是使全部观察值的残差平方和最小,即 Se i 2 min, 由 此得出选择回归参数 , 的最小二乘估计式。 Y X X 1 X 2 X 3 X 4 X 5 X 6 e 1 e 2 e

2、 3 e 4 e 5 e 6 ( ) ( ) ( ) = = = + - = - = n i n i i i i i n i i X Y Y Y e 1 1 2 1 0 2 1 2 b b 0 b 1 b 3残差平方和 2 2 2 1 111 ()() nnn iioi i iii eYYYX bb = = -+ 使偏导数为零 2 1 () 2()0 i ioi o e YX b bb - =-= 2 1 1 () 2()0 i ioii e YXX b bb - =-= 42、正规方程组 该关于参数估计量的线性方程组称为 正规方程 组 ( normal equations)。 b b Q Q

3、 $ $ 0 1 0 0 = = = - - = - - 0 ) ( 0 ) ( 1 0 1 0 i i i i i X X Y X Y b b b b S Y i = n o + 1 S X i S X i Y i = o S X i + 1 S X i 2 5解得 22 o ii 1 i 1 XYXY XX YbX n n b b - = - =- 记 X, Y的平均数 = = i Y n Y i X n X 1 1 Y i Y i y X i X i x - = - = 则得 2 o ii 1 i 1 YX xy x b bb = =- 63、参数估计量 求解正规方程组得到结构参数的普通

4、最小二乘 估计量 ( ordinary least squares estimators) 及 其离差形式: S - S S S - S = S - S S S - S S = 2 2 1 2 2 2 0 ) ( ) ( i i i i i i i i i i i i i X X n X Y X Y n X X n X Y X Y X b b 分布参数的普通最小二乘估计量 - = S S = X Y x y x i i i 1 0 2 1 b b b 2 2 2 - = n e i s 其中 2表示一元线性回归下的参数估计个数 7二、拟合优度检验 Goodness of Fit, Coeffi

5、cient of Determination 81、回答一个问题 拟合优度检验拟合优度检验 :对样本回归直线与样本观测值 之间拟合程度的检验。 问题: 采用普通最小二乘估计方法,已经保证 了模型最好地拟合了样本观测值,为什么还要 检验拟合程度? 92、总离差平方和的分解 i i X Y 1 0 b b + = ) ( Y Y y i i - = i i i i i i i y e Y Y Y Y Y Y y ) ( ) ( + = - + - = - = Y的 i个观测值与样本均 值的离差 由回归 直线解 释 的 部 分 回归直线 不能 解 释 的 部 分 离差分解为 两 部 分之和 10如果

6、 Y i = i 即实际观测值落在样本回归“线”上,则 拟合最好 。 可认为,“ 离差 ” 全部来自回归线,而与“残差”无关。 11对于 所有 样本 点 ,则 需考虑 离差的平方和: 记 - = = 2 2 ) ( Y Y y TSS i i 总体 平方和 ( Total Sum of Squares) - = = 2 2 ) ( Y Y y ESS i i 回归平方和 ( Explained Sum of Squares) - = = 2 2 ) ( i i i Y Y e RSS 残差平方和 ( Residual Sum of Squares) 12TSS=ESS+RSS Y的观测值 围绕

7、 其均值的 总离差 (total variation) 可 分解为 两部 分:一 部 分 来自 回归线 (ESS), 另 一 部 分则 来自随机势力 (RSS)。 在给定 样本中, TSS不变 , 如果实际 观测 点 离样本回归线 越近 ,则 ESS在 TSS中 占 的 比重越大 , 因此 拟合优度 : 回归平方和 ESS/Y的总离差 TSS 133、可决系数 R 2 统计量 是 一个 非负 的 统 计量。 取 值 范围 : 0, 1 越接近 1, 说明实际 观测 点 离回归线 越近 ,拟 合优度 越高 。 随着抽 样的 不同而不同 。为 此 ,对 可决系 数的 统 计 可靠 性 也应进行 检

8、验。 TSS RSS TSS ESS R - = = 1 2 14 调整 的 可决系 数 ( adjusted coefficient of determination) ) 1 /( ) 1 /( 1 2 - - - - = n TSS k n RSS R 其中: n-k-1为残差平方和的自由度, n-1为总体平 方和的自由度。 调整 的 可决系 数 多大才是 合 适 的? 15在实际计算可决系数时,在 1 b 已经估计出后: = 2 2 2 1 2 i i y x R b 注 : 可决系 数 是 一个 非负 的 统 计量。 它也是 随着抽 样的 不同而不同 。为 此 ,对 可决系 数的 统

9、 计 可靠 性 也应进行 检验。 16例 2.3.1: 家庭可支 配收入 -消 费支出 写出方程的 OLS表达式: i i X Y 67 . 0 4 . 142 + = ( 44.447)( 0.192) 上 式中 括号内既可 为 t统 计值, 也可 为 系 数的 标准 误 , 但需注明 TSS=ESS+RSS 17样本容量 =10 F统 计量 =1219.10( 拒绝原假设 ) 可决系数 R 2 =0.9935 调整 的 R 2 =0.9927 Root MSE为 u i 的 标 准差 52.288 随机误 差 项 的方差为 52.288 2 =2734.05 18回归 结 果 解读 系数

10、/标 准 误 差 = t值 P值系数 =0的 概率 为 p值 在 5%的 水 准上 显著不 为 0 否 则和 0的差 异不显著 95%下限 =估计值 -t值 *标 准 误 差 95%下限 =估计值 +t值 *标 准 误 差 置信区间 : 系数在 95%的 概率下会 落在 -之间 跨越 0,则与 0不显著 19三、变量的显著性检验 TestingSignificance of Variable 20说明 在 一元线性模型中, 变 量的 显著 性检验 就是判 断 X是否 对 Y具有显著 的线性性 影响 。 变 量的 显著 性检验 所应 用的方法 是 数 理统 计 学 中的 假设 检验 。 通 过

11、检验 变 量的参数 真 值 是否 为零 来实现显著 性检验。 211、假设检验( Hypothesis Testing) 所谓 假设 检验 , 就是事 先 对 总体 参数 或 总体 分 布形式 作出 一个 假设 , 然后利 用样本 信息 来判 断 原 假设是否 合 理 , 即 判断 样本 信息 与 原 假设 是否有显著 差 异 , 从 而决定是否接 受或 否定 原 假设 。 假设 检验采用的 逻辑推 理 方法 是 反 证法。 先 假 定 原 假设 正 确 , 然后根据 样本 信息 ,观 察 由 此 假设而 导 致 的结 果是否 合 理 , 从 而判断是否接 受原 假设 。 判断 结 果 合 理

12、 与 否 , 是 基 于 “ 小 概率 事 件 不 易 发生”这 一 原 理 的。 222、变量的显著性检验 2 11 2 (,) i N x s bb ) 2 ( 1 1 1 2 2 1 1 - - = - = n t S x t i b b b s b b 23检验步骤: ( 1) 对 总体参数 提 出 假设 H 0 : b 1 =0, H 1 : b 1 0 ( 2) 以原假设构造 t统 计量, 并 由样本计算其值 1 1 b b S t = ( 3) 给定 显著 性 水 平 (level of significance)a, 查 t 分布表得 临界 值 (critical value)

13、t a/2 (n-2); 0 H 24( 4)比 较 , 判断 : 若 |t| t a/2 (n-2),则 以 ( 1 ) 的 置信 度 ( confidence coefficient) 拒绝 H 0 , 接 受 H 1 ; 若 |t| t a/2 (n-2),则 以 ( 1 ) 的 置信 度 不 拒绝 H 0 ( 即拒绝 H 1 , 接 受 H 0 ) 。 25对于 一 元 线 性 回归方程中的 b 0 ,可 构造 如 下 t 统 计量 进行显著性检验 : ) 2 ( 0 0 2 2 2 0 0 - = - = n t S x n X t i i b b s b b 2222 1 22 e

14、 S 22 iii eyx nn b s - = - 1 22 i Sx b s = 0 222 ii SXnx b s = 3、关于常数项的显著性检验 26例 2.3.1:家庭可支配收入 -消费支出 回归参数的显著性检验 : H 0 : b 1 = 0; H 1 : b 1 0。 在 H 0 成立条件 下, 92 . 34 0191891 . 0 67 . 0 ) ( 1 ) ( 1 1 1 1 = = = - = b b b b b s s t H 0 : b 0 = 0; H 1 : b 0 0。 在 H 0 成立条件 下, 20 . 3 44673 . 44 4 . 142 ) ( 0

15、 ) ( 0 0 0 0 = = = - = b b b b b s s t Prob=P | t | |t-Statistic | 查 T分布表,得检验结果: 回归参数显著不为零。 274、第 I类错误与第 II类错误 28四、参数的置信区间 Confidence Interval of Parameter 291、概念 回归分 析希望 通 过 样本得到的参数估计量 能 够 代替 总体 参数。 假设 检验 可 以 通 过 一 次 抽 样的结 果 检验 总体 参 数 可能 的 假设 值的 范围( 例 如是否 为零 ) , 但 它 并没 有 指出 在 一 次 抽 样中样本参数值到 底 离 总体

16、参数的 真 值 有多 “ 近 ” 。 要 判断 样本参数的估计值 在多大 程度 上 “ 近 似” 地 替代 总体 参数的 真 值, 需 要通 过 构 造 一个 以 样本参数的估计值为中 心 的 “区 间 ” , 来考 察 它 以 多大 的 可能 性 ( 概率 ) 包含 着真实 的参数 值。 这种 方法 就是 参数检验的 置信区 间估计 。 30a d b b d b - = + - 1 ) ( P 如果 存 在 这 样一个 区 间,称之为 置信区 间 ( confidenceinterval) ; 1-a称为 置信 系 数 ( 置信 度 )( confidencecoefficient) ,

17、a称为 显著 性 水 平 (levelofsignificance);置信区 间的 端 点 称为 置信限 ( confidencelimit) 。 312、一元线性模型中 b i 的置信区间 ) 2 ( - - = n t s t i i i b b b P t t t ( ) - = - a a a 2 2 1 P t s t i i i ( $ ) $ - - = - a a b b a b 2 2 1 P t s t s i i i i i ( $ $ ) $ $ b b b a a a b b - + = - 2 2 1 T分布 为 双尾分布 (1-a)的 置信 度下 , b i 的

18、置 信区 间 是 32在上 述 收入 -消费支出 例 题 中,如果 给 定 a =0.01, 查 表得: 355 . 3 ) 8 ( ) 2 ( 005 . 0 2 = = - t n t a 由 于 0191891 . 0 1 = b S 44673 . 44 0 = b S 于 是, b 1 、 b 0 的 置信区 间分 别 为: ( 0.6056,0.7344) ( -6.719,291.52) 33例 2.3.1:家庭可支配收入 -消费支出 b 1 的 置信区 间: ( 1%显著 性 水 平 ) b 0 的 置信区 间: = = - 7344 . 0 6056 . 0 0191891

19、. 0 355 . 3 67 . 0 ) 2 ( ) ( 1 1 T t s a b b - = = - 52 . 291 719 . 6 44673 . 44 355 . 3 4 . 142 ) 2 ( ) ( 0 0 T t s a b b = = - 71425 . 0 62575 . 0 0191891 . 0 306 . 2 67 . 0 ) 2 ( ) ( 1 1 T t s a b b = = - 89 . 244 906 . 39 44673 . 44 306 . 2 4 . 142 ) 2 ( ) ( 0 0 T t s a b b b 1 的 置信区 间: ( 5%显著 性

20、 水 平 ) b 0 的 置信区 间: 34 显 然 , 在 该 例 题中, 我们 对结 果 的正 确陈述 应 该 是 : 边 际 消费倾向 1 是 以 99%的 置信 度 处 于 以 0.670为中 心 的 区 间 ( 0.6056,0.7344)中。 回 答 : 边 际 消费倾向等 于 0.670的 置信 度 是多 少 ? 99% 边 际 消费倾向以 100%的 置信 度 处 于什么 区 间? 无 35 由于 置信区 间一 定 程度地 给 出 了样本参数估计 值与 总体 参数 真 值的 “ 接近 ” 程度, 因此 置信 区 间 越 小 越 好。 要 缩 小 置信区 间, 需 要 增 大 样

21、本 容 量 n。 因 为 在同 样的 置信水 平下, n越大 , t分布表中的 临界 值 越 小 ; 同 时 , 增 大 样本 容 量, 还 可 使样本参数估计量的 标准 差 减 小 ; 提 高 模型的拟合优度。 因 为样本参数估计量的 标准 差与残差平方和 呈 正 比 ,模型拟合优度 越高 ,残差 平方和 越 小。 36一元线性回归分析的应用:预测问题 一、预测值条件均值或个值的一个无偏估计 二、总 体 条件均值与个值预测值的置信区间 37 对于一元线性回归模型 i i X Y 1 0 b b + = 给定 样本 以 外 的解 释变 量的观测值 X 0 , 可 以 得 到 被 解 释变 量的

22、 预 测值 0 , 可 以 此 作 为其 条件 均值 E(Y|X=X 0 )或 个 别 值 Y 0 的一个 近 似 估计。 严格 地 说 , 这 只 是 被 解 释变 量的 预 测值的估计值, 而不是 预 测值。 原 因 : 参数估计量 不 确 定 ; 随机 项 的 影响 。 说明 38一、预测值 是 条件均值或个值的一个 无偏估计 391、 0 是 条件均值 E(Y|X=X 0 )的无偏估计 对 总 体 回归 函 数 E(Y|X=X 0 )=b 0 +b 1 X, X=X 0 时 E(Y|X=X 0 )=b 0 +b 1 X 0 0 1 0 0 X Y b b + = 0 1 0 1 0 0

23、 0 1 0 0 ) ( ) ( ) ( ) ( X E X E X E Y E b b b b b b + = + = + = 可 见 , 0 是 条件均值 E(Y|X=X 0 )的无偏估计 。 402、 0 是 个值 Y 0 的无偏估计 对 总 体 回归模型 Y=b 0 +b 1 X+m, 当 X=X 0 时 m b b + + = 0 1 0 0 X Y 0 1 0 0 1 0 0 1 0 0 ) ( ) ( ) ( X E X X E Y E b b m b b m b b + = + + = + + = 0 1 0 0 X Y b b + = 0 1 0 1 0 0 0 1 0 0

24、) ( ) ( ) ( ) ( X E X E X E Y E b b b b b b + = + = + = 可 见 , 0 是 个值 Y 0 的无偏估计 。 41二、总 体 条件均值与个值预测值的置 信区间 421、总 体 均值预测值的置信区间 0 1 0 0 X Y b b + = ) , ( 2 2 1 1 i x N s b b ) , ( 2 2 2 0 0 s b b i i x n X N 0 1 0 1 0 0 0 ) ( ) ( ) ( X E X E Y E b b b b + = + = ) ( ) , ( 2 ) ( ) ( 1 2 0 1 0 0 0 0 b b b

25、 b Var X Cov X Var Y Var + + = - = 2 2 1 0 / ) , ( i x X Cov s b b 43 + - = 2 2 2 0 2 2 0 2 2 2 0 2 ) ( i i i i x X x X X x n X Y Var s s s + - + - = 2 0 0 2 2 2 2 2 2 X X X X n X n X x i i s ) ) ( ( 2 0 2 2 2 X X n x x i i - + = s ) ) ( 1 ( 2 2 0 2 - + = i x X X n s ) ) ( 1 ( , ( 2 2 0 2 0 1 0 0 -

26、+ + i x X X n X N Y s b b 44) 2 ( ) ( 0 0 1 0 0 - + - = n t S X Y t Y b b 于 是 , 在 1-a的 置信 度下, 总 体 均值 E(Y|X 0 )的置信区间 为 0 2 0 2 0 0 0 ) | ( Y Y S t Y X Y E S t Y + - a a 452、总 体 个值预测值的预测区间 ) , ( 2 0 1 0 0 s b b X N Y + ) ) ( 1 1 ( , 0 ( 2 2 0 2 0 0 - + + - i x X X n N Y Y s ) 2 ( 0 0 0 0 - - = - n t S

27、 Y Y t Y Y 从 而在 1-a的 置信 度下, Y 0 的置信区间 为 0 0 2 0 2 0 0 0 0 Y Y Y Y S t Y Y S t Y - - + - a a 463、 例 题 例 2.3.1收入 -消费支出 样本回归 函 数为 则 在 X 0 =1000处 , 0 = 142.4+0.670 1000=812.4 因此 , 总 体 均值 E(Y|X=1000)的 95%的 置信区 间为: ( 812.4 2.30627.6, 812.4+2.30627.6) ( 748.8, 875.9) i i X Y 670 . 0 4 . 142 + - = 4 . 760 7

28、425000 ) 2150 1000 ( 10 1 2734 ) ( 2 0 = - + = Y Var 6 . 27 ) ( 0 = Y S 47 同 样 地 , 对于 Y在 X=1000的 个 体 值 ,其 95%的 置信区 间 为: ( 812.4 -2.30659.1, 812.4 + 2.30659.1) (676.1, 948.7) 48练习题 1 练习 : egg-income.xls 考查人均鲜蛋需求 量 Y与 人均 可支配收入 X 的关系( 仿照 本 章 例 2.3.1完成有 关 内 容) 49练习题 2 请 计算 第 34页 PPT中,在 10%显著性水 平 下 的 置信区间; 什么情况下 容 易犯第 I类错误?举 例 说明 。 50练习题 3 练习 : 地区 收入与消费 .xls 请对 其 进行 计量 分析 ,回 答 : 1、分析 方程 各 参数的 显著性情况; 2、 边 际消费 倾向 ? 3、 针 对 方程 反映 出的 现 实消费 问 题 , 请 你 提 出 改 进 措施 。 51

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报