1、 返回总目录 返回总目录 返回总目录 返回总目录 目 目 目 目 录 录 录 录 第 17 章 SAS 系统 内七 种 回归分 析程 序概 述 4 17.1 七种 回归 分析 程序. 4 17.2 七种 回归 分析 程序的 比 较. 6 17.3 有关 回归 分析 的基本 统 计概 念. 7 17.4 SAS 程序 的运 算原则 . 8 第 18 章 一般 性回 归统 计 分析 统计 程序 PROC REG. 12 18.1 PROC REG 程序 概述 . 12 18.2 如何 撰写 PROC REG 程序 . 12 18.3 范 例. 31 18.4 注 意 事 项. 49 第 19 章
2、二分 数据 的预 估 统计 程序 PROC PROBIT 62 19.1 PROC PROBIT 程序 概述 . 62 19.2 如何 撰写 PROC PROBIT 程序 . 63 19.3 范 例. 68 19.4 注 意 事 项. 80 第 20 章 逻辑 斯谛 回归 分 析 统计 程序 PROCLOGISTIC. 82 20.1 PROC LOGISTIC 程序概 述 . 82 20.2 逻辑 斯谛 回归 模型的 种 类. 82 20.3 LOGISTIC 程 序 的 基本语 法与 报表 形式. 83 20.4 如何 撰写 PROC LOGISTIC 程序 . 84 20.5 范 例.
3、90 20.6 注 意 事 项. 112 第 21 章 正交 回归 分析 统计程 序 PROC ORTHOREG 116 21.1 PROC ORTHOREG 程序的 简介 116 21.2 如何 撰写 PROC ORTHOREG 程序 116 21.3 范 例. 117 21.4 注 意 事 项. 125 第 22 章 多项 式的 回归 分 析 统计 程序 PROC RSREG 126 22.1 PROC RSREG 程序概 述 126 22.2 如何 撰写 PROC RSREG 程序 126 22.3 范 例. 130 第 23 章 非线 性回 归分 析 统计 程序 PROC NLIN 1
4、34 23.1 PROC NLIN 程序 概述 134 23.2 如何 撰写 PROC NLIN 程序 135 23.3 范 例. 139 23.4 注 意 事 项. 146 第四部分 回 归 分 析 第 17 章 SAS 系统内七种 回归分析 程 序概述 17.1 七 种回归 分析程 序 在 SAS 系统中 适用于回归分析的统计程序有许多 其中常用到的有 REG PROBIT LOGISTIC ORTHOREG RSREG GLM 及 NLIN 等程 序 此外 还有 AUTOREG SYSLIN PDLREG 及 MODEL 等程序 下面 简单 地 描述这 几个 程序 REG 执行普 通线
5、性回 归分 析 适用于 各 式 的输 入 输 出格式 并有 诊断 性以 及简化 模型 的功 能 PROBIT 执行概 率回 归分 析或 逻辑斯 谛 的回 归分 析 这 个程 序 所处理 的数 据通 常 含二分 ( 或二 分以 上) 的 因 变量以 及数 个连 续的 自变 量 LOGISTIC 执行逻 辑斯 谛的 回归 分析 分析 方 式 含逐 步回 归分 析 以及各 式的 诊断 统 计值 是新 的 6.06 版 中 添加的 程序 ORTHOREG 使用 Gentleman-Givens 的 计 算 程序来估 计回 归模 型 中的参数值 适用 于估计 值之 标准 误差 较大的 数 据 详情 较第
6、 21 章的说 明 RSREG 建立二 项式 反应 面 (Response-Surface) 的回 归模 型 GLM 最普通 的线 性分 析 自 变 量可以 是类 别变 量或 多项 式 NLIN 建立非 线性 的回 归模 型 AUTOREG 利 用时间系列的数据导出 回 归 模 型 此法中各误差 (Errors) 之 间 可以是 相关的 ( 此程序并不包括在本书讨论中 有兴趣的读者请自行参阅 SAS/ETS 手册) SYSLIN 用于经济学的模型 ( 本书不讨论此程序 有兴趣的读者请自行参阅 SAS/ETS 手册) PDLREG 本书不 讨论 此程 序 有 兴 趣的读 者请 自行 参阅 SAS
7、/ETS 手册 MODEL 处理非 线性 的联 立方 程序 适合 经 济 学中 讨论 的模 型 有兴 趣的 读者 请 自行参 阅 SAS/ETS 手册 其它更 不常 用的 回归 分析程 序 则必 须在 SUGI Supplemental Library Users Guide 中才可 找到 由于 GLM 程 序 又 可 以用 来 执 行 回 归 分析又可以用来执 行 变 异 数 分 析 所以在 第 六部 分第 31 章内 将详 加介 绍 其余 的六 种 ( 即 REG PROBIT LOGISTIC ORTHOREG RSREG 以及 NLIN) 在第四部分 第 18 章至 第 23 章 内逐
8、一 说明 值得读者注意的是 过去在第 5 版环境下所习用的 RSQUARE 及 STEPWISE 程 序 如今 都纳 入了 PROC REG 程序 见第 18 章的 第 18.1 节 以及附录 D 中有关 REG 程 序在新版中的改进 此外 各程序 都可在交谈式的 环境下执行 如此 读者可以更有效 地修正 每一 个测 试的 回归模 型 第 17 章 SAS 系统内七种回归分析程序概述 5PROC REG 程序 这是最 通俗 的回 归分 析程序 其功 能如 下 * 可以同时 测试 好几 个不同 的 回归 模型 * 有九种不 同的 方法 可简化 回 归模 型 * 输入数据 可以 是相 关系数 矩
9、阵或 是向 量内 乘积 (Cross Product) 的矩 阵 * 印出预测 值 误差 信 赖区间 及向 量内 乘积 矩阵 等 并可 将这 些分 析好 的数 据 存在 一个 SAS 文件 中 使它 成 为其它统计 程序 的输 入文 件 * 印出影响 度的 值 相 关 系数以 及 ( 半) 净相关 系数 * 估计参数 据检 验线 性回归 模 型 * 提供共线 性 (Collinearity) 的诊断 * 取代第 5 版中 的 RSQUARE 及 STEPWISE 两程 序 * 提供九种筛选回归模型的方法 即 NONE FORWARD BACKWARD STEPWISE MAXR MINR RS
10、QUARE CP 以及 ADJRSQ 等 这九种 方 法的详 细介 绍收 录在 第 18.2 节的指 令 #2 MODEL 部分PROC PROBIT 程序 本程 序主 要是 利用 最大 可 能率估 计法 找出 一个 回归 模 型的参 数估 计 值 或生 物实验 数 据以 及类 别数 据中 的底 线 率 在估 计这 些参 数值 的过程 中 PROBIT 程 序容许 读 者选择 各 式不同的模型如 概率单位 (Probit) 对数奇数比 (Logit) 次序逻辑斯谛 (Ordinal Logistic) 以及成 长曲 线 (Gompit) 等模型PROC LOGISTIC 程序 此程 序适 合处
11、 理二 分或 二 分以上 的类 别数 据 统计 模 型的形 式可 以是 概率 模型 或 逻辑 斯谛 模型 当 模型 中的 自 变量数 目过 多时 LOGISTIC 程序 可提供 逐步 排除 的方法 来 挑选 最精简 的模 型 报 表的 输 出资料 含回 归模 型的 诊 断以 及预测 值 预测 误差 等PROC ORTHOREG 程序 这个程序最适用于参数估计值的标准误差差较大的数据 在这种情况下 REG 或 GLM 程 序 分 析 的结 果 只 能算是最 小误差平 方 解 (LS) 的趋 近值 而 非真正的 LS 解 不 过 读者仍 可 借 REG 程序 对数据 作 初 步的分析 看看 自变量
12、 之 间 是否有极 高 的关 系 ( 此 由共 线性 的诊断值 可看 出 来) 然后 再 决 定有 没有必 要继续 执行 ORTHOREG 程序的分 析PROC RSREG 程序 此程序 适用 于反 应面 的分析 其优 点包 括 * 自动印出 自变 量的 平方与三次方值 并将 它们 包括在 回 归模 型中 * 检验模型 的精 确值 * 解出反应 面的 临界 值 (Critical Value) * 计算出特 征值 (Eigen Value) 的值及 其平 方值 第四部分 回归分析 6PROC GLM 程序 ( 归 入 第六部 分第 3 1 章) 此程 序可 用来 执行 线性 回 归分析 变异
13、数分 析与 共变量 分 析 若用 来执 行回 归分析 此程序 有以 下的 特色 * 适于处理 类别 数据 * 可直接建 立多 元多 项式的 回 归模 型PROC NLIN 程序 此程序采用最小误差平方法 (Least Squares Method) 及循环推测法 (Iterative EstimationMethod) 来 建 立一个 非线性模型 一般 而 言 读 者 必须 自订 参数 的 名字 参数的 启动值 (StartingValue) 非 线性的 模型 与循 环 推测 法 所用的 准则 若读 者不 指明 则 NLIN 程序自 动以 高斯- 牛顿 迭代法 (Gauss-Newton It
14、erative Procedure) 为 估计参 数的 方 法 另外 此程 序也 备有扫描 (Grid Search) 的 功 能来 帮助 读 者 选择 合适的参 数启 动值 由于非线性 回归分 析 十 分不易处 理 NLIN 程 序 不 保证一定 可 以算 出符合 最小误差平方 法之 标 准 的 参 数估计 值 17.2 七 种回归 分析程 序的比 较 本节就七种最常见的 SAS 回归 分 析 程序的输出资料类 型 及 诊 断 功 能 做比较 这七个 程序是 REG PROBIT LOGISTIC ORTHOREG RSREG GLM 及 NLIN 相同 类型 的输 出数 据 七个程 序都
15、提供 下列 几种的 输 出数 据 * 用最小误 差平 方法 所估计 的 参数 值 ( 如 b 0 b 1 ) * 误差变异 数的 估计 值 * 参数估计 值的 标准 误差差 或 变异 数 * 有关参数 的假 设 ( 如 H 0 0 =0) 检验 * 各种预测 值及 其误 差 * 对整个回 归公 式有 效度的 检 验 相异 的诊 断功 能 REG LOGISTIC PROBIT 与 RSREG 等程序 提供 下列 的诊 断功 能 其它 程序 则无 * REG 程 序 提 供共线性 (Collinearity) 的诊断 这个 诊 断 探 讨 自变 量 间 相关的程度及 可能造 成的 影响 * RE
16、G LOGISTIC 及 RSREG 三 个程 序提 供 影 响度 诊断以决 定各 观 察 体对 参数 估计值 误差的 平 方 和 (SSE) 及预 测 值 等的影响 LOGISTIC 程 序 也 有 这种功能 不 过 其分 析原 理是 采最 大 可能率法 * PROBIT 与 RSREG 两 程序 提供 回归 模型精确 度 (Accuracy) 的诊断 所用的方法 是比较 误差 的变 异数 及其估 计 值 第 17 章 SAS 系统内七种回归分析程序概述 7 * REG 程 序 提供时间 序 列 分析 (Time Series Analysis) 的诊 断 特 别是有关 时 间 的误 差以及
17、 误差 间彼 此的 相关 17.3 有 关回归 分析的 基本统 计概念 上面 所提 的七 个程 序都 适 用于回 归分 析 现在 来讨 论 一下回 归分 析的 基本 概念 回归 分析 的目 的是 借一 个回 归 公式来 做预 测 回归 公式 等 号左边 的值 是因 变量 等 号 右边是 一 系列的 自变 量及 参数 (又 称回归 系数 它是 一个 常数) 的 线性组 合 回归 公式 假如我 们希 望推 测某 个观察 体 的因 变量 数据 则下 面 的公式 涵盖 回归 分析 的原 理 i p 1 j ij j 0 i Y + + = = 其中 Y i是因 变量X ij是自 变量0及 j均是参数
18、分别 代 表 Y 的截 距及 回归线 的系数 它 们 的 值 由统计 估计 而来i是误 差 比方 说 根据 上列 公式 我们用 身高 来推 测学 生的 体 重 所以 身高 是自 变量 而体 重 是因 变 量 我们 取一 个样本 ( 十三 位 小学三 年 级 的 学 生) 测量 出他 们 的 身 高 及体重 把这 些值用 平面 坐标 图表 示如下 报表 17. 1 以身高推测学生的体重Pl o t of W E I G HT* H E IG HT . L eg e nd A = 1 obs B = 2 obs etc.W E I G H T |1 50 +| A| A A B A A A1 00
19、 + A| A A A| A|50 +-+-+-+-+-+-+-+-56 5 8 60 6 2 64 6 6 68H E I G H T 根据 线性 回归 的测 量 0 =-138.2 1 =3.95 所 以 这 群小学 生的 身 高 与体 重的 线 性关 第四部分 回归分析 8 系可用 下列 公式 表明体重 的估 计值=(-138.2) + 3.95*( 身高) 除此 例外 线 性回 归分 析 也可用 来寻 找一 个未 知的 线 性关系 比如 教育 程度 与 年收入 所 得 学生 智商 与成 绩 气 体的体 积与 压力 等关 系均 可 借回归 分析 的方 法表 示出 来 不能 证明 因果 关
20、系 的存在 线性 回归 分析 的结 果并 不 表示因 果关 系的 存在 因 果 关系的 存在 只有 借着 纯科 学 性的 实验法 (比如 说实 验组 与 对照组 的观 察比 较) 才 可证明 最小 均方 差法 (Least Squares Method) 在回 归分 析 中 参 数的值 一般是 按 照 最小 误差平方 法 (Least Squares Method) 导出 此法 的目 的在 减少 因变 量 预测值 与实 际值 之间 的平 方 误差 在英 文中 由此 法导出 的 参数 称为 Least Square Estimates 而其 平方 误差 称为 SSE 若 以 数学 符号来 表示
21、则 最小误 差 平方法 的精 义如 下 = = n 1 i p 1 j 2 ij j 0 i ) X b b (Y Min SSE 在此式 中 b 0与 b j 是参 数 0与 j的 估计值 若读 者欲深 入研 究 最 小误 差 平 方法 请 自行参 阅下 列书 目 Draper 及 Smith 1981 Daniel 及 Wood 1980 或 Johnston (1972) 17.4 SAS 程序 的运算 原则 以下讨 论 SAS 程序 在执 行回 归分 析时 所采 用的 运算 原则 矩阵 的表 示 一个线 性回 归模 型可 以用矩 阵 表示 如下* + 在此 代表 一个 n*k 的矩阵
22、其横列 ( 即 n) 代表观 察体 纵行 ( 即 k) 代表自变 量 一般 而言 矩阵 的 第一纵行皆 为 1 以推 测截距 的 值 是一 个 k*1 的向量 代 表参数 而 是一 个 n*1 的误差 向量 根据 矩阵 运 算的原 理 也会是 一个 n*1 的向量 线性 回归 的假 设 线性回 归的 重要 假设 如下 a. 所 有自变 量是 固定 的 或由实 验结 果导 出 b. 回归模 型是 正确 的 c. 自 变量的 测量 没有 误差 d. 误差的 平均 值是 0 e. 误 差之间 的变 异数 是常数 其值 以 2表示 f. 误差 与误 差之 间没 有相关 第 17 章 SAS 系统内七种
23、回归分析程序概述 9当我 们要 检验 回归 模型 的有 效度 (Significance) 时 我们必 须附 加另 外一 个 假设 g. 误差值 在母 群内 形成 一个 常态 分配 统计 的模 型 当上述 a 到 f 的假设都成 立 时 由 最 小 误 差 平 方 法 所 推测出来的参 数 估计值也就是 最佳线 性不 偏估 计值 (Best Linear Unbiased Estimates 简称 B.L.U.E.) 也就是 说 此估 计 值是最 精确 的 如果 g 的假 设也 成立 则我 们可 做 以下的 结论 * 所有统计 参数 的估 计与检 验 所必 须的 理论 基础 ( 即抽 样分 配
24、) 成立 * 参数的估 计值 形成 一个常 态 分配 * 各个离差 平方 和 (Sum of Squares of Deviations) 形成 一个 类似 2的分 配 * 参数估计 值与 其标 准误差 差 (Standard Error) 之 间的 比 例形成 一个 t 分配 若上述 a 到 g 的 假设 不 能全部 成立 则 你必 须谨 慎 地解释 上述 的结 论 有 关回归分 析的假 设条 件与 结论 之间的 资 料可 参阅 Box (1966) Mosteller 及 Tukey (1977 12-13 章) 等参考 书 估计 各参 数 (1) 参 数之 最小 平方 误差 的 估计值
25、是由 解正 规方 程序 (Normal Equations) 而导出 b=(XX) -1 XY 假如 (XX) 是 一个满秩 (Full Rank) 的矩阵 则 误差的变 异 数 ( 2 ) 可由下列 的 公式 间接算 出 (2) S 2 =MSE=SSE/(n-k)= (Y i -X i b) 2 /(n-k)此处 X i是指 自变 量矩 阵 X 的第 i 列 由于 两个 估计 值都 是不 偏的 估计 值 所以 E(b)= E(S 2 )= 2 (3) b 值的变 异数 (Variance) 可由下 式算 出Var(b)=(XX) -1 2 或 Var(b)=(XX) -1 S 2所以 b
26、值的 标准 误差差 就 是 (4) 2 1 i i S X) D(X ) STDERR(b =其中 D(XX) i -1代表 (XX) -1矩阵 中对 角斜 线上 第 i 个元 素有了 估计 值与 其标 准误 差差 之后 我 们可 以检 验 这些估 计值 如下 (5) i) i STDERR(b b t = 这个 t 值 是各 程序 输出数 据的一部 分 其 统计显著 度 也会被印 出来 以便 读者判 断估计 值的 有效 度 虚 无 假设是 H 0 i =0 (6) 两种 平方 和 (SSI SS ) 回归分析 程序计算两种平 方和 第一种平方和 (SS ) 代表每一个自变 量对整个 回归 模型 的贡 献 此 值 与 该自变 量进 入回归模 型的 顺 序有关 第二种平方和 (SS ) 则代表 自变 量从 模型中 剔 除之 后对整 个平 方总 和的 影响 SS 与 GLM 程序