1、Stata * : 论文中数据分析的一把利剑 版本号: 1.0 中南财经政法大学 ST A T A 协会 学术组 2013 年 4 月 18 日 摘要 本 文 是 写 给 那 些 没 有 用 过 Stata 软 件, 同 时 又 想 在 论 文 中 有 一 些 数 据 分 析 的 本 科 生 和 研 究 生 的, 使 其 能 在 2 个 小 时 内 掌 握 Stata 软 件 最 基 本 的 分 析 功 能, 并 能 将 结 果 按 照 学 术 论 文 的 格 式 输 出 到 W ord 等 软 件 中。 本 文 将 一 步 步 地 为 你 展 示 如 何 用 Stata 软 件 来 进 行
2、基 础 的 数 据 分 析, 并 演 示 生 成 高 质 量 的 描 述 统 计 表 格、 回 归 结 果 及 统 计 图 并 将 之 在 论 文 中 报 告 出 来 的 详 细 过 程。 由 于 Stata 软 件 把 EViews, SPSS 的 傻 瓜 式 菜 单 和 SAS 的 命 令、编程完 美结 合起来, 所以它 受到了 初学 者和高 级用户 的普 遍欢迎。 Stata 软件体积 小巧、 简单易 懂且功 能强 大,相信它会帮助你完成数据分析及报告的任务,让你得到一篇高水准的论文。 关键词: 描述统计, 计量模型 , 回归结果, 数据分析 , 实证分析, 论文写作 目录 1 简介 2
3、 1.1 Stata 简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Stata 软件的安装及界面介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Stata 操作方法介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4、. . . . . . . . 2 1.4 Do-le 的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.5 中文字符的支持 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2 准备工作 5 2.1 数据的导入 . . . . . . . . . . . . . . . . . . . . . . . .
5、 . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 下载扩展包 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3 数据分析 7 3.1 描述性统计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.2 相关系数矩阵 . . . . . . .
6、 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.3 最小二乘回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 4 结果报告 10 4.1 logout 命令(统计表、相关系数矩阵表) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 4.2 estt
7、ab 命令(最小二乘回归表) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 5 统计制图 12 * 本文中所使用的 Stata 软件版本为: Stata/SE 12.0 for Windo ws (32-bit) 新浪微博名: stataclub。如果对本文有任何改进的意见,欢迎 stataclub 或发私信给我们。 1 或 120 分钟搞定论文数据分析及结果输出1 简介 1.1 Stata 简介 Stata 与 SPSS 、 SAS 并 称 为 当 今 三 大 统 计 软 件。 与 后
8、 者 相 比, Stata 体 积 小 巧、 简 单 易 懂 且 功 能 强 大。 Stata 把 EViews, SPSS 的 傻 瓜 式 菜 单 和 SAS 的 命 令、 编 程 完 美 结 合 起 来, 所 以 它 一 推 出 就 受 到 了 初 学 者 和 高 级 用 户 的 普 遍 欢 迎。 Stata 不 仅 在 统 计 方 面 功 能 齐 全, 其 在 计 量 分 析 领 域 更 是 有 着 深 刻 影 响, 以 至 于 有 人 一 言 以 蔽 之: “ 关 于 学 习 Stata 的 意 义, 大 家 只 需 知 道: 目 前, Stata 是 计 量 经 济 学, 特 别 是
9、 微 观 计 量 经 济 学 的 主 流 软 件。 ” 1 1.2 Stata 软件的安装及界面介绍 下 载 好 的 Stata 一 般 是 绿 色 版 压 缩 包, 解 压 好 后 出 现 图 1 的 文 件 夹 即 可。 选 中 的 StataSE.exe 图 标 即 为 Stata 软件,双击后得到图 2 的界面则说明打开了软件。 图 1: 解压后的绿色版 Stata 12.0 文件夹 在 图 2 中, 中 间 最 大 一 块 为 “ 结 果 显 示 窗 口 ” , 所 有 (除 图 片 外) 的 结 果 都 会 在 此 处 显 示。 其 下 面 为 “ 命 令 窗 口 ” 。 它 很
10、扁 的 原 因 是 Stata 的 语 句 一 般 都 不 长。 左 侧 的 “ 历 史 命 令 窗 口 ” 会 显 示 之 前 的 操 作 (红 色 命 令 行 则 说 明 操 作 有 误) , 单 击 可 将 命 令 语 句 调 入 命 令 窗 口, 双 击 可 直 接 运 行; 右 侧 上 方 为 打 开 的 数 据 库, 两 列 分 别 为 变 量 名 ( V ariable ) 和 标 签 ( Lab el , 即 用 于 对 变 量 进 行 说 明) , 双 击 即 可 将 变 量 名 导 入 到 命 令 窗 口。 右 侧 下 方 为 变 量 详 细 特 征。 菜 单 栏 中 常
11、用 的 为 “Statistics” , 即 “ 统 计 分 析 ” 菜 单, 可 做 各 种 统 计 分 析。 快 捷 按 钮 中 前 两 个 为 “ 打 开 数 据 ” 、 “ 保 存 数 据 ” , 第 7 个 至 第 9 个 分 别 为 “ 打 开 Do-le 窗 口 ” 、 “ 编 辑 数 据 ( Edit ) ” 和 “ 浏 览 数 据 ( Bro wse ) ” 。 1.3 Stata 操作方法介绍 在 Stata 中 既 可 以 使 用 类 似 EViews, SPSS 的 傻 瓜 式 菜 单 的 操 作 方 式, 也 可 以 使 用 类 似 SAS 的 命 令、 编 程 的操
12、作方式。以多元线性回归为例(见图 3 ) , Stata 在进行回归时的三种操作方式如下: 1. 菜 单 式 操 作 , 即 在 菜 单 栏 中 选 择 Statistics 选 项, 然 后 在 里 面 选 择 相 应 的 统 计 分 析 项 目。 此 处 做 的 是 多 元 线 性 回 归, 那 么 在 下 拉 菜 单 中 选 Linear mo dels and related 中 的 Linear regression , 然 后 填 入 相 应 的 因 变 量 (price ) 、 自 变 量 (mpg; weight ) 即 可。 故 只 要 知 道 统 计 项 目 的 英 文 名
13、 称, 那 么 使 用 起 来 还 是 比 较 方 便 的; 2图 2: Stata 12.0 软件界面 图 3: Stata 中的三种操作方式 32. 命 令 式 操 作 , 即 在 Stata 软 件 界 面 下 方 的 Command 命 令 窗 口 直 接 输 入 命 令 进 行 操 作。 由 于 Stata 的 命 令 简 洁 方 便, 所 以 很 多 用 户 在 一 开 始 就 接 受 了 这 种 操 作 方 式。 同 时, 在 使 用 菜 单 式 操 作 时, Stata 会 在 结 果 的上方输出对应的命令, 所以这也帮助用户熟悉其命令格式。 此处对于 price = 0 +
14、1 mpg+ 2 weight+“ 的回归模型, Stata 命令为: . regress price mpg weight 3. Do-le 编 程 式 操 作 , 即 将 若 干 条 命 令 组 合 在 一 起, 按 需 求 加 上 一 定 的 循 环、 条 件 语 句 而 组 成 的 程 序, 并 运 行。 编 程 式 操 作 一 般 是 用 户 对 命 令 非 常 熟 悉 时, 并 要 完 成 批 量 或 更 为 复 杂 的 任 务 时 所 采 用 的 操 作 方 式。 但 是 由 于 程 序 有 很 强 的 移 植 性 , 所 以 可 以 从 其 他 人 的 Do-le 程 序 中
15、获 取 自 己 想 要 的, 并 进 行 局 部 修 改 即 可 为 自 己 所 用, 而 不 必 自 己 重 新 写 代 码。 同 时, Do-le 文 档 可 以 保 存 为 *.do 的 文 本 文 件 格 式, 方 便 修 改 和 以后使用。由于此处只是一句命令语句,并不复杂,所以和命令式操作方式一致。 总 结 一 下: 这 三 种 操 作 方 式 为 初 学 者 和 高 级 用 户 均 提 供 了 合 适 的 环 境, 一 般 是 逐 层 递 进 的。 但 是 我 们 首 推 后 两 种 操 作 方 式, 因 为 它 们 效 率 高, 并 有 很 强 的 移 植 性, 即 简 单 修
16、 改 方 可 为 我 们 所 用。 而 且 Do-le 编 程 式 操 作 方便修改和保存。故我们后续介绍以后两种方式为主。 1.4 Do-le 的使用 由 于 Do-le 编 程 式 操 作 的 诸 多 优 点, 故 对 其 进 行 详 细 介 绍。 在 图 2 的 快 捷 按 钮 中 选 择 第 七 个 (即 图 中 英 文 字母 “D” 上面的那个) 打开 Do-le 编辑器。 我们打开一个 Do-le 窗口, 并输入一些 Stata 命令, 如图 4 所示。 图 4: Stata 的 Do-le 窗口 在 图 4 中, 如 要 运 行 某 几 行 命 令 语 句 (必 须 是 连 续
17、的) , 则 需 要 先 选 中 语 句, 然 后 点 击 右 上 方 的 “Execute (do)” 按钮运行;如果不选中语句而直接点击 “Execute (do)” 按钮,则会运行此 Do-le 中所有命令语句。注意, 运 行 完 Do-le 后 的 结 果 依 然 是 在 “ 结 果 显 示 窗 口 ” (见 图 2 ) 显 示 的, 故 点 击 按 钮 后 不 要 傻 傻 地 在 Do-le 窗 口 等着。 还 需 要 说 明 的 是, 程 序 中 绿 色 部 分 为 注 释 语 句 1 , 一 般 用 于 做 标 注 2 。 若 要 注 释 某 行 语 句 可 以 以 “*” 、
18、“/” (不 包 括 引 号) 开 始 (如 图 4 中 第 1 行) , 这 样 会 注 释 单 行; 若 要 注 释 多 行, 请 将 注 释 内 容 置 于 “/*” 和 “*/” (不 包 括 引 号) 中 (如 图 4 中 第 10 行) 。 注 意: 三 个 斜 杠 “/” (不 包 括 引 号) 并 不 是 注 释 的 意 思, 而 是 告 诉 Stata 此语句没有写完(如图 4 中第 7 行) 。这一般在写长语句时为了层次分明而用。 如 果 要 保 存 Do-le 编 程 结 果, 可 在 Do-le 窗 口 选 择 第 三 个 保 存 命 令。 保 存 的 文 件 的 扩
19、展 名 为 *.do , 此 类 文件可在下一次打开 Do-le 窗口后打开,也可用记事本打开。 1 给 程 序 做 注 释 是 一 个 好 习 惯, 因 为 程 序 如 果 写 长, 其 可 读 性 就 会 变 弱。 如 果 在 程 序 命 令 行 后 及 时 做 注 释, 不 仅 能 让 程 序 编 写 者 思 路 清 晰,方便修改、维护及查漏补缺,同时也方便了他人的阅读。 2 如 果 你 看 到 某 些 程 序 中 有 些 语 句 被 故 意 地 注 释 掉, 那 么 请 不 要 惊 讶 为 什 么 这 些 语 句 没 有 被 删 掉, 因 为 这 些 语 句 有 可 能 是 程 序 编
20、 写 者 故 意 留 下 来 的。 其 原 因 可 能 为: ( 1 ) 此 语 句 与 前 后 某 语 句 类 似, 即 提 供 另 一 种 实 现 方 案; ( 2 ) 此 语 句 与 其 他 语 句 冲 突, 但 是 稍 作 修 改 即 可 使 用; ( 3 )程序编写者编写时灵光一现写下的语句,这意味着之后的编写有可能会用得到。 41.5 中文字符的支持 Stata 对中文字符的支持力度不够 3 ,所以在下面的地方需要做适当调整: 显 示 窗 口。 若 中 文 显 示 为 乱 码, 请 按 图 5 的 方 法 修 改 设 置, 即 在 General Preferences 对 话 框
21、 中 将 Color Sc heme 改为 Simple 即可; Do-le 。 在 Do-le 窗 口 中 输 入、 粘 贴 中 文 字 符 没 问 题。 但 是 若 在 Do-le 窗 口 中 修 改 中 文 字 符, 那 么 一 个 字 符 要 按 两 次 删 除 键 ( “Bac kspace” 键) 才 能 将 其 删 除, 否 则 会 出 现 乱 码。 这 是 中 文 字 符 在 Stata 中 储 存 方式的原因,初学者不必深究。 图 5: Stata 显示窗口中文字符显示乱码的调整办法 2 准备工作 2.1 数据的导入 数据分析的第一步是要有数据。 一般我们的数据都是在 Exc
22、el 表格中, 对于英文界面的 Stata 软件, 也许导 入数据就够读者头痛的了。下面介绍最简单 4 的导入方法。 Excel 数据 (*.xls/*.xlsx) 此类数据最常见。我们一般操作步骤为: 1. 打开 Excel ,如图 6 - (a) 。删除第一行的中文变量名,并修改成自定义的英文变量名 5 ,如图 6 - (b) ; 2. 选中第一行变量名及需要导入的数据(一般 “ 全选 ” 即可) ,按 “ 复制 ” ; 3. 在 Stata 中 按 快 捷 键 第 8 个 打 开 数 据 编 辑 窗 口 6 , 右 键 后 按 “ 粘 贴 ” (或 快 捷 键 “Ctrl + V” )
23、,如 图 6 - (c) 。 此 时 Stata 会 询 问 第 一 行 的 数 据 是 否 视 作 变 量 名, 点 击 “T reat rst ro w as v ariable names” 即 可 自 动 将 第 一 行 英 文 字 符 作 为 变 量 名 并 将 余 下 数 据 导 入 至 Stata 中, 如 图 6 - (d) 。 此 时 数 值 变 量 默 认 为 黑 色, 字 符 变 量默认为红色。 注 意: 如 果 数 据 类 型 不 统 一, 或 是 有 非 法 字 符 (比 如 “#”, “=” 等) , 那 么 导 入 的 时 候 会 出 现 问 题。 建 议 数 据
24、在导入 Stata 前需用 Excel 做预处理。 3 估计对中国市场重视程度不高,应该今后的版本会改进 4 “ 最简单 ” 指的是在不涉及到批量导入、特殊类型数据导入的情况下导入数据的方法。 5 变 量 名 不 能 有 空 格, 且 尽 可 能 地 简 单。 一 般 我 们 会 采 用 变 量 英 文 字 母 的 缩 写, 如 “ 股 票 价 格 (Sto c k Co de)” 缩 写 为 “stk cd” , “ 收 盘 价 (Closing Price)” 缩写为 “clsprc” 。 6 或直接在命令窗口输入 edit 命令并按回车。 5(a) 在 Excel 中打开数据文件 (b)
25、 将第一行变量名改为英文 (c) 在 Stata 数据编辑窗口右键按 “ 粘贴 ”(“P aste”) (d) 导入 Stata 后的数据 图 6: Excel 型数据的导入 (a) 在记事本中打开 *.csv 数据文件 (b) 将第一行变量名改为英文 (c) 特殊粘贴对话框 (d) 导入 Stata 后的数据 图 7: 逗号分隔型数据的导入 6制 表 符、 逗 号 分 隔 型 数 据 (*.txt/*.csv) 及 其 他 类 型 数 据 此 类 数 据 导 入 至 Stata 的 方 法 类 似, 以 逗 号 分 隔 型 数据 (*.csv) 为例,步骤如下: 1. 用 记 事 本 打 开
26、 *.csv 数 据 文 件, 如 图 7 - (a) 。 删 除 第 一 行 的 中 文 变 量 名, 并 修 改 成 自 定 义 的 英 文 变 量 名, 如图 7 - (b) ; 2. 选中第一行变量名及需要导入的数据(一般 “ 全选 ” 即可) ,按 “ 复制 ” ; 3. 在 Stata 中 打 开 数 据 编 辑 窗 口, 此 处 右 键 后 选 择 “ 特 殊 粘 贴 ” (或 快 捷 键 “Ctrl + Alt + V” ) , 然 后 弹 出 对 话 框 如 图 7 - (c) 。 在 窗 口 左 侧 显 示 多 种 数 据 分 隔 方 式, 可 分 别 处 理 多 种 分
27、隔 格 式 的 数 据。 如 果 剪 贴 板 中 的 源 数 据 是 逗 号 分 隔 的, 那 么 默 认 是 “ 逗 号 ( Comma)” 分 隔 形 式。 右 侧 有 众 多 选 项, 此 处 我 们 还 是 勾 选 “T reat rst ro w as v ariable names” , 即 自 动 将 第 一 行 英 文 字 符 作 为 变 量 名 并 将 余 下 数 据 导 入 至 Stata 中。 点击 “OK” 即可导入数据,如图 7 - (d) 。 数据的打开、 保存和清除 当导入上述数据后, 数据则保存在内存当中。 关闭数据编辑窗口即可在 Stata 的主界 面的右上方
28、看到变量名一览表。此时可以进行数据的打开、保存和清除的工作: 保 存 数 据。 Stata 内 存 中 的 数 据 是 *.dta 格 式, 在 图 2 所 示 的 主 界 面 点 击 第 二 个 快 捷 按 钮 (或 快 捷 键 “Ctrl + S” ) , 指 定 路 径 和 文 件 名 即 可 保 存 数 据 文 件。 保 存 成 功 后 我 们 发 现 结 果 显 示 窗 口 多 了 一 行 英 文 命 令, 而 这就是 “ 保存数据 ” 操作的命令形式,其格式为: . save 路径 文件名 清除数据。 Stata 在工作时, 只能在内存中打开一个 *.dta 文件。 如果要打开一个
29、新的数据文件, 必须先清 空内存中已有的数据文件。执行清除数据可直接在命令窗口输入(输入后敲回车) : . clear 打 开 数 据。 在 下 次 开 始 工 作 时, 想 打 开 已 保 存 的 *.dta 数 据 文 件, 可 在 图 2 所 示 的 主 界 面 点 击 第 一 个 快 捷 按 钮 (或 快 捷 键 “Ctrl + O” ) , 找 到 数 据 文 件 打 开 即 可。 打 开 成 功 后, 我 们 发 现 结 果 显 示 窗 口 多 了 一 行 英 文命令,而这就是 “ 打开数据 ” 操作的命令形式,其格式为: . use 路径 文件名 2.2 下载扩展包 Stata
30、在 分 析 这 一 块 做 得 近 乎 完 美, 但 是 在 结 果 报 告 这 一 块, 特 别 是 将 结 果 导 入 W ord/Excel/L A T E X 等 软 件 时显得不便。 好在 Stata 有较好的扩展性, 已经有用户编写了扩展命令来解决此类问题, 具体使用方法我们会在 讲到 “ 结果报告 ” (见第 4 节)一章再介绍。此处先介绍如何安装这些用户编写的命令。步骤如下: 1. 确保电脑已经联网; 2. 打开 Stata ,在命令窗口按照如下格式输入命令: . ssc install 命令名(或者命令组) 3. 当输入完毕敲击回车后,一般等待半分钟即可下载并安装完毕。在 S
31、tata 结果显示窗口会显示 installation complete. 一般地,我们会用到 estout, outreg2, logout 这几个用于输出结果的扩展包。 3 数据分析 将 数 据 导 入 Stata 后, 我 们 便 可 做 统 计 分 析 了。 Stata 支 持 的 统 计 分 析 很 多, 利 用 第 1.3 节 所 介 绍 的 菜 单 式 操作方法几乎可以完全所有的统计分析。不过我们在本文中只介绍最常用的。 73.1 描述性统计 对 数 据 进 行 最 基 本 的 统 计 运 算 就 是 计 算 出 各 描 述 统 计 值, 并 将 其 汇 总 到 一 张 表 中。
32、 这 里 我 们 用 到 的 是 tabstat 命令,其格式如下: . tabstat 变量列表 , stat( 统计量列表 ) 例 如 在 读 入 考 试 成 绩 数 据 文 件 score.dta (其 中 包 括 姓 名 name , 语 文 成 绩 ch , 数 学 成 绩 math 和 英 语 成 绩 eng ) 后, 我们要列出考试成绩的最高分、 最低分、 平均分、 中位数、 标准差和有效试卷数 (若要添加其他统计量, 请 参见表 1 ) ,则我们只需键入命令: . tabstat ch math eng, stat(max min mean p50 sd n) 即可得到如下的结
33、果 : . tabstat ch math eng, stat(max min mean p50 sd n) stats ch math eng max 94 99 94 min 60 50 65 mean 77.43577 74.14541 79.38035 p50 77 73.5 80 sd 10.17742 24.12591 8.156854 N 397 392 390 表 1: 常用统计量表 统计量 含义 统计量 含义 mean 均值 semean sd/ p n coun t 非缺失样本数 sk ewness 偏度 n 同上 kurtosis 峰度 sum 求和 p1 第一分位数 m
34、ax 最大值 p5 第五分位数 min 最小值 p10 第十分位数 range max min p50 中位数 sd 标准差 median 同上 v ariance 方差 iqr p75 p25 cv sd/ mean 3.2 相关系数矩阵 若要计算两个变量间的相关系数矩阵, 则我们用到的是 pwcorr 命令 2 来计算变量成队相关系数 (P airwise Correlation) ,其格式如下: . pwcorr 变量列表 如果要顺带要进行 t 检验,且显著性水平 = 0:05 ,那么命令格式为: . pwcorr 变量列表 , sig star(0.05) 比 如 用 Stata 自
35、带 的 汽 车 数 据 auto.dta 来 作 为 例 子 7 , 现 在 对 于 汽 车 的 价 格 price 、 行 驶 里 程 数 mpg 、 车 重 weight 以 及 车 身 长 度 length 等 变 量 求 相 关 矩 阵, 并 做 t 检 验 (显 著 性 水 平 = 0:05 ) , 那 么 我 们 依 次 键 入 下 面 两条命令(或编写 Do-le 文件并运行) : . pwcorr price mpg weight length . pwcorr price mpg weight length, sig star(0.05) 有下面的运行结果: . pwcorr
36、 price mpg weight length ( Con tin ued on next page ) 7 利用命令 sysuse auto, clear 来打开。 8price mpg weight length price 1.0000 mpg -0.4686 1.0000 weight 0.5386 -0.8072 1.0000 length 0.4318 -0.7958 0.9460 1.0000 . pwcorr price mpg weight length, sig star(0.05) price mpg weight length price 1.0000 mpg -0.
37、4686* 1.0000 0.0000 weight 0.5386* -0.8072* 1.0000 0.0000 0.0000 length 0.4318* -0.7958* 0.9460* 1.0000 0.0001 0.0000 0.0000 3.3 最小二乘回归 下面介绍经典的最小二乘法,也叫做 OLS (Ordinary Least Squares) 。如果构造的模型为 y = 0 + 1 x 1 + 2 x 2 +:+ k x k +“ 那么它在 Stata 中的命令为: . regress y x1 x2 . xk 例如仍旧用上面汽车数据 auto.dta 来作为例子,欲构造的模
38、型为 price = 0 + 1 mpg+ 2 weight+ 3 length+“ 那么应该键入如下命令: . regress price mpg weight length 按回车后得到如下结果: . regress price mpg weight length Source SS df MS Number of obs = 74 F( 3, 70) = 12.98 Model 226957412 3 75652470.6 Prob F = 0.0000 Residual 408107984 70 5830114.06 R-squared = 0.3574 Adj R-squared =
39、 0.3298 Total 635065396 73 8699525.97 Root MSE = 2414.6 price Coef. Std. Err. t P|t| 95% Conf. Interval mpg -86.78928 83.94335 -1.03 0.305 -254.209 80.63046 weight 4.364798 1.167455 3.74 0.000 2.036383 6.693213 length -104.8682 39.72154 -2.64 0.010 -184.0903 -25.64607 _cons 14542.43 5890.632 2.47 0.
40、016 2793.94 26290.93 9这 个 回 归 报 告 的 左 上 角 是 解 释 / 残 差 / 总 平 方 和 (SSE/SSR/SST) 及 自 由 度 (df ) 等 信 息; 右 上 角 报 告 的 分 别 是 样 本 数 (n ) 、 模 型 F 检 验 值、p 值 以 及 拟 合 优 度 R 2 、 调 整 R 2 等 信 息; 下 半 部 分 则 分 别 列 出 了 各 回 归 变 量 前 的 系 数 (Co ecien t) 、 标 准 误 (se) 、t 检 验 值、p 值 和 置 信 区 间 的 信 息。 如 何 对 模 型 进 行 分 析 及 修 正 已 经
41、 超 越 本 文 的 范畴, 相应的 Stata 命令也会在高级的 Stata 书籍内得到详细解释, 具体请参见劳伦斯汉密尔顿 3 和陈强 4 的有关书籍。 4 结果报告 我 们 知 道, 在 一 篇 实 证 论 文 中, 统 计 结 果 的 报 告 与 分 析 是 论 文 中 很 重 要 的 一 块。 “ 实 证 分 析 中 最 重 要 的 就 是 各种 表格 ” 2 说的 就是 这个 道理。 虽然 Stata 报告的 结果 简单 明了, 但是直 接粘 贴到 论文 编辑 软件 中就 会显 得不 是 太 正 式, 尤 其 在 回 归 结 果 中 很 多 值 是 冗 余 的。 本 节 主 要 介
42、 绍 如 何 将 Stata 结 果 以 正 规 论 文 的 格 式 来 导 入 W ord 中,至于导入 L A T E X 中请主要参照 5 。 4.1 logout 命令(统计表、相关系数矩阵表) logout 命 令 用 于 将 Stata 的 结 果 以 表 格 的 形 式 输 出 到 W ord/Excel/L A T E X 中。 这 个 命 令 非 常 强 大, 但 凡 含 有 表 格 输 出 的 Stata 命 令, 均 可 以 在 命 令 前 添 加 logout , 以 使 结 果 转 换 成 需 要 的 格 式。 这 个 命 令 在 第 一 次 使 用 时需要联网下载,
43、具体请参见 2.2 节内容。 logout 命令的格式为: . logout, 选项 : 主命令 其中选 项有输出 文件名 save() 、输出格式 word, excel, tex 和是否覆盖 同名文 件 replace 。如果输 出 test.rtf 文 件 8 , 那 么 选 项 为 save(test) word ; 由 于 输 出 报 告 结 果 不 是 一 次 就 成 功 的, 我 们 就 会 反 复 进 行 尝 试 9 , 那 么 一 般 会 加 上 replace 选 项; 上 述 选 项 可 以 多 个 使 用, 使 用 的 时 候 只 需 用 空 格 隔 开。 而 logo
44、ut 命 令 格 式 中 的 “ 主 命 令 ” 则 为 Stata 真 正 需 执 行 的 命 令。 一 般 我 们 将 某 条 命 令 执 行 成 功 后, 加 上 前 面 的 logout 命 令 及 选 项 即 可 输出成表格。 例如要将 3.1 和 3.2 节的结果输出至 Excel 文档,那么可执行下面的 Do-le : 1 use score, clear 2 logout, save(test1) excel replace: / 3 tabstat ch math eng, stat(max min mean p50 sd n) 4 sysuse auto, clear 5
45、logout, save(test2) excel replace: / 6 pwcorr price mpg weight length, sig star(0.05) 然后运行后 Stata 的结果窗口会出现如下蓝色的结果: test2.xml dir 其中第一个就是输出的结果,点击后可以用 Excel 软件打开;第二个点击后会弹出文件所在的文件夹。 需 要 注 意 的 是, logout 命 令 得 到 的 表 格 一 般 会 存 在 错 位 和 空 行 的 现 象, 见 表 2 。 这 就 需 要 手 动 做 一 些 调 整, 如将第一行的表头往右移一列,p 值向右移, 并将多余的行删
46、掉, 同时还要对 p 值加上括号, 并在表的底端注明 星号的含义。见表 3 。 8 logout 命 令 将 输 出 的 W ord/Excel 文 件 扩 展 名 默 认 为 *.rtf/*.xml 格 式, 这 是 因 为 较 *.do c/*.xls 的 常 规 格 式 来 说, 前 者 不 仅 可 用 W ord/Excel 打开,而且还可用其他软件打开,其应用更广。 9 在反复尝试的时候, 记得在运行命令之前将旧的 *.rtf/*.xml 文档关闭, 否 则新的文档将无法生成, 并提示 file *.rtf is read-only; cannot be modified or er
47、ased 的错误。 10表 2: 输出的相关矩阵表格 (test2.xml) price mpg w eigh t length price 1 mpg -0.4686* 1 0 w eigh t 0.5386* -0.8072* 1 0 0 length 0.4318* -0.7958* 0.9460* 1 0.000100 0 0 表 3: 经调整后的相关矩阵表格 price mpg w eigh t length price 1 mpg -0.4686* 1 (0.0000) w eigh t 0.5386* -0.8072* 1 (0.0000) (0.0000) length 0.4
48、318* -0.7958* 0.9460* 1 (0.0001) (0.0000) (0.0000) * 表示通过显著性水平 = 0:05 的 t 检验。 4.2 esttab 命令(最小二乘回归表) 首 先 要 明 确 的 是, 即 使 logout 命 令 可 将 3.3 节 中 的 回 归 结 果 以 表 格 形 式 输 出 到 W ord 中, 我 们 也 千 万 不 要 这 么 做 我 们 只 需 要 在 论 文 中 罗 列 出 回 归 后 的 核 心 结 果, 而 非 所 有 结 果。 这 些 结 果 包 括: 变 量 前 的 系 数 (必 须) 、t 检验值或者标准误(必须) 、
49、样本数 n 、模型的拟合优度 R 2 、F 检验值等。 例如 3.3 节中的回归结果可以下面回归方程式或表格(见表 4 )的形式报告出来(括号中的值为标准误) : price = 14542:43 86:79mpg + 4:36weight 104:87length+ “ (5890:63) (83:94) (1:17) (39:72) n = 74; R 2 = 0:3574; R 2 = 0:3298 表 4: 表格式回归结果报告 (1) price mpg -86.79 (83.94) w eigh t 4.365 (1.167) length -104.9 (39.72) _cons 14542.4 (5890.6) N 74 R 2 0.357 adj. R 2 0.330 Standard errors in paren theses p 0:05 , p 0:01 , p 0:001 表 5: 多个回归结果对比 (1) (2) price price mpg -238.9 -86.79 (53.08) (8