stata 第一讲.pdf-道客多多_道客多多docduoduo.com

资源描述

1、 * Stata 软件分析与应用 * *- *- 课程纲要 *- /* 第一部分：Stata 基本操作 1Stata 简介 2数据处理 3初步绘图第二部分：Stata 的计量应用 1普通最小二乘法（OLS） 2广义最小二乘法（GLS） 3工具变量法与GMM 4时间序列分析 5面板数据模型第三部分：课堂报告(考核形式) 选择一个经济学问题，利用stata实现，讲解相关经济学原理和操作过程，并提交书面报告。 * 教材： * 基础教材：王群勇. STATA在统计与计量分析中的应用. 南开大学出版社 Hamilton Lawrence. Statistics with Stata.

2、Cengage Learning. （中文版：郭志刚译. 应用Stata做统计分析. 重庆大学出版社）王天夫. STATA实用教程. 中国人民大学出版社 * 高级应用教材：陈强. 高级计量经济学及STATA应用. 高等教育出版社. 王志刚. 面板数据模型及其在经济分析中的应用. 经济科学出版社 * 万能教材： help菜单 The stata journal * 预备知识：计量经济学、数理统计、宏观经济学、微观经济学 * : 第一部分: * Stata 基本操作 * = * 第一讲 Stata 简介 * = * Stata 是何方神圣？ Stata 统计软件包是目前世界上最著名的统计

3、软件之一，国外将Stata与SAS、SPSS 一起被并称为三大权威统计软件。它同时具有数据管理软件、统计分析软件、图表绘制软件、矩阵计算软件和程序语言编制的特点，几乎可以完成全部复杂的统计和计量分析工作。 *- *- Stata 有何优点？ *- * 短小精悍、功能强大它最新的第12 版的安装文件不到200M ，但已经包含了全部的统计分析、数据管理和绘图等功能，尤其是他的计量分析功能极为全面，比起1G以上大小的SAS系统也毫不逊色。 * 运算速度极快由于Stata在分析时是将硬盘上的数据全部拷贝读入自己的内存区间中，在计算全部完成后在保存的时候才会对硬盘的数据进行修改，因

4、此运算速度极快。 * 绘图功能卓越 cd h:DATA1 sysuse auto, clear graph matrix mpg weight displ, by(foreign) * 更新和发展速度惊人这也是一个非常吸引人的优点，从1985 年问世以来，几乎以两年一次的更新速度在发展，目前已发展到12.0版。它提供了一个非常好的平台，每个命令都是一个很小的文本文档，一般只有几K ，最大也不超过几十K。全世界的使用者经常编写出一些新命令，可以到它的网站进行下载共享，大大推动了他的发展。其他很多优点。 *- *- STATA 界面 *- * 四个窗口，一个菜单条 * 两

5、种执行命令的方式 * 菜单 * 输入命令（推荐）：一方面，可以在熟悉命令的情况下快捷的实现操作；另一方面，可以保证研究工作的可重复性，输入命令在保存后可以不断调试，改进，而菜单不会保存。 *- *- 输入和导入数据 *- * 实证分析的第一步：数据处理 * 收集数据、存储、修改、分析、输出结果 * = 本节命令= * = * input, infile, insheet, type, rename, xpose, cd * = * 三种方式： * 手动输入 * 从 txt 或 Excel 文档中粘贴 * 使用 Stata 命令 *-1 手动输入 ( 极少使用) clear inpu

6、t x y z 1 2 3 4 5 6 end clear 命令的作用是清除数据缺点：效率很低，不提倡 *-2 从 .txt, excel 表格中粘贴文档文件需用TAB键隔开，等同于EXCEL存储方式(例子：d1.txt、d1.xls、 d21.txt) 红色的是文字变量黑色是数值变量缺点：快捷，需要事先严格整理 *-3 使用stata命令导入数据：infile, insheet cd h:DATA1 *-3.1 以 -tab- 分隔的数据：insheet type d1.txt /* 查看原始资料的形态*/ type d1.txt, showtabs /* 显示tab 键*/ ins

7、heet using d1.txt, clear /* 导入d1数据*/ 注意：第一行的不同，是否事先填写变量名 type d11.txt /* 一份没有变量名称的数据*/ insheet using d11.txt, clear rename v1 price rename v2 weight rename v3 length insheet price weight length using d11.txt, clear /* 在导入数据时定义变量名*/ *-3.2 以空格分隔的数据：infile type d21.txt insheet using d21.txt, clear /

8、* 空格分隔的数据无法直接用 insheet 命令导入*/ insheet using d21.txt, clear delimiter(“ “) /* 需要通过 delimiter 选项制等分隔符号*/ infile v1 v2 v3 using d21.txt, clear /* 空格分隔的数据用 infile 命令导入比较方便*/ * 我们也可以指定数据的完整存储路径 infile price weight length using “c:DATA1d21.txt“, clear * 包含文字变量的情形 type d2.txt infile using d2.txt, clea

9、r /* 错误的方式*/ infile v1-v5 using d2.txt, clear /* 文字变量全部变成了缺漏值*/ infile str30 v1 int v2 int v3 int v4 str10 v5 using d2.txt, clear /* 指定变量类型*/ str-字符串,后面数字表示字符串的最大长度 int-整数 * 逗号分隔的数据（同上） type d3.txt infile str30 v1 int v2 int v3 int v4 str10 v5 using d3.txt, clear * 数据的存储 save d3.dta, replace /* 采用St

10、ata识别的数据文件属性.dta*/ 注意replace 的作用：替换或覆盖菜单上的save按钮也是具有相同的功能注意文件名的后缀：txt、dta * 调入STATA 格式的数据 use d3.dta, clear use “h:DATA1CO2.dta“, clear sysuse auto, clear /* 调入STATA自带的数据*/ *-3.3 行列对调的数据（对于格式不规范的数据） type d5.txt /* 常规数据*/ type d51.txt /* 对调数据*/ insheet using d51.txt, clear xpose, clear /* 转置或对调*/

11、rename v1 year rename v2 invest rename v3 income rename v4 consume * 4. 时间序列资料 tsset year 加入一个时间变量进行排序 * 5. 面板资料 type d6_panel.txt insheet using d6_panel.txt, clear tsset code year xtset code year 指定截面单位和时间，以上两者等同 * xpose 命令同样适用于面板数据资料 type d6_pdpose.txt insheet using d6_pdpose.txt, clear xpose, cle

12、ar list /* 列印*/ * 6. STATA 官方提供的资料 help dta_contents help dta_examples help dta_manuals use http:/www.stata- cd h:DATA1 *- *- 资料的浏览 *- * = 本节命令= * = * sysuse, use, describe, compress, label, summarize * codebook, inspect, histogram, kdensity * help, search, findit, recast, format * = *- *- 变量的存储类型 *

13、- 整数的存储类型 * byte 字节型 (-100, +100) * int 一般整数型 (-32000, +32000) * long 长整数型 (-2.14*1010, +2.14*1010) ，即，正负21亿 *- 小数的存储类型 * float 浮点型 8 位有效数字 * double 双精度 16位有效数字 *- 变量的名称 * 由英文字母、数字或 _ 组成，不包括中文字符，至多不超过 32 个； * 首字母必须为英文字母或 _ ； * 英文字母的大写和小写具有不同的含义； * 例如：abc_1 a1 _a2 _Gdp_ 都是合理的变量名 5gdp 2invest 则不是合理的变量

14、名； * 特别注意：建议不要使用 _ 作为变量的第一个字母， * 因为许多stata的内部变量都是以 _ 开头的， * 如，_n, _N, _cons, _b 等等。 *- *- *-1. 查看资料的结构 sysuse auto, clear describe 显示的内容：（1）来源文件夹，观察值数量，变量数，存储空间，数据的标签和创建时间（2）变量名称、存储类型、显示格式、数值的标签(如好中差等)、变量标签(对变量的解释) *-1.0 更改变量的存储类型 list gear_ratio in 1/5 /* 将变量gear_ratio的前5个观察值列出*/ d gear_ratio

15、recast int gear_ratio, force /* 改变变量gear_ratio的存储类型，int是整数格式，force 是强制改变*/ d gear_ratio list gear_ratio in 1/5 *-1.1 定义变量的显示格式 * str18 文字型变量，每个观察值占据18个空格 * %-18s 靠左列印于屏幕上；若%18s，则靠右列印；若 %18s, 则居中列印 * %8.0g g 指在 8.0 的原则下，以尽量多的有效位数列出 * %6.2f 总共占6个空格，小数位占两个空格，f是固定的意思 list price gear in 1/5 format price

16、 %6.1f /* 改变变量的格式为6空格、1位小数*/ format gear %6.4f list price gear in 1/5 注意format 的作用： format 为改变格式命令，在显示结果时比较有帮助，因为S默认给出的结果一般有7-8 位，看起来比较繁琐，可以进行简化。 *-1.2 精简资料的存储格式 compress /* 若觉得默认格式不合适，可对数据进行精简，不常用*/ *-1.3 标签 d *-a 数据样本加标签 label data “ 这是一份汽车价格资料“ *-b 变量加标签 label var price 汽车价格 /*将变量price加上标签汽车价

17、格 */ label var foreign “ 汽车产地(1 国外; 2 国内)“ /* 变量有空格或符号时需要用双引号*/ d *-c 类别变量的文字标签 edit 变量rep78代表1978年的返修次数，这是一个类别标签当对变量含义不是很清楚时，可以用标签变量进行说明。 * label define 标签名 * label values 变量名标签名 /*将变量值和标签联系起来*/ edit label define repair 1 “ 好“ 2 “ 较好“ 3 “中“ 4 “较差“ 5 “差“ label values rep78 repair edit 注意：变量数值的颜色说

18、明了不同的变量形式红色：文字变量黑色：数值变量蓝色：标签变量 *-d 标签的管理 label dir /* 显示标签变量*/ label list /* 列印标签值，显示数字和文字的关系*/ label drop repair /* 删除标签*/ label list *- *-2 基本统计量常见的命令如下： summarize /* 列出变量的基本统计量，方差、均值等*/ format price %6.2f /* 改变变量的显示格式，以进行简化*/ sum price, format sum price wei, detail /*sum 是简写，detail表示列出更多基本统计

19、量，包括整体方差，偏度（对称程度）、峰度（离散程度）等等*/ * codebook 命令 codebook price weight /* 列出取值范围、有无缺位值等*/ * 论文格式的统计表格 tabstat(列表统计命令) sysuse auto, clear tabstat price weight length /* 显示均值*/ tabstat price weight length, stats(mean p50 min max) /* 显示均值、中位数、最大、最小值*/ tabstat price weight length, stats(mean med min max)

20、 col(s) format(%6.2f) /*column 列呈现统计量、小数点后保留两位*/ tabstat price weight length, s(mean p25 med p75 min max) c(s) f(%6.2f) /* 加入第一、第三百分位*/ tabstat price weight length, s(mean p25 med p75 min max) c(s) f(%6.2f) by(foreign) /* 根据国产、进口分类列表*/ *- *-3 基本图形分析 *-3.1 直方图 sysuse nlsw88.dta, clear /* 美国1988 年妇女工资

21、的相关数据*/ * 图形的纵坐标 histogram wage /* 长条的高度对应样本数占总样本的比例，总面积为 1*/ histogram wage, frequency /* 纵坐标为对应的样本数，而非比例*/ * 其他选项 histogram ttl_exp, normal /* 附加正态分布曲线*/ histogram wage, kdensity /* 附加密度函数曲线，即对直方图的一个平滑的拟合 */ histogram wage, addlabels /* 每个长条上方附加一个表示其高度的数字*/ histogram wage, frequency addlabels /

22、* 纵坐标为对应的样本数，而非比例*/ histogram wage, by(race) /* 按种族特征画工资分布*/ * 离散变量的直方图 histogram grade histogram grade, discrete /* 离散变量的直方图必须附加 discrete 选项*/ *-3.2 密度函数图 kdensity wage /* 它是直方图的平滑曲线*/ *- *-4 执行指令（一般化介绍） * stata 命令的通用格式: command varlist if in , options * if in 用于限制样本范围如if foreign=1 ，指限制指示进口车的情况 *

23、options 可选项，增加了命令的弹性 help sum /* 通过帮助学习*/ *-4.1 指令的适用范围 *-a 列举多个变量 sum age race married never_married grade sum age-grade /*简写形式，报告age 到grade的情况*/ sum s* /* “*“ 是孙悟空，可以表示任何长度的字母或数字*/ sum ?a?e /* “?“ 是猪八戒，只能替代一个长度的字母或数字*/ *-b 样本的限制 sum in 10/20 /* 正数第10至第20个观察值之间的观察值*/ sum wage in -5/-1 /*倒数迪5 到倒数

24、第1.*/ sum wage hours if race = 1 /* 等于，白人的情况*/ sum wage if race != 3 /* 不等于，除了其他人种的情况*/ sum wage if (race=2) ; =; =; !=( 不等于); =( 不等于) sysuse auto,clear list price if foreign = 0 /*产地是国产的汽车的价格*/ * 逻辑运算符： twoway (scatter price wei) (lfit price wei), title(“散点图和线性拟合图“); 最后输入，用于此命令结束： #delimit cr /* 结

25、束该命令*/ *= 列印文字(在屏幕上显示文字) display *1 需将文字置于 “ “ 或 “ “ 之间 display “This is a pretty girl!“ /* 一般格式*/ dis “This is a “pretty“ girl!“ /* 文字中包含双引号的格式，注意和的键盘位置*/ * 2 、指定文字颜色： * 颜色1 in red green yellow white dis in green “I have being with Stata for four years“ dis in w “This “ in y “is “ in g “a “ in r

26、ed “pretty“ in g “ girl“ * 颜色2：as text(绿色)| as result( 黄色)| as error( 红色)| as input(白色) Stata 默认：文本-绿色；结果-黄色；错误-红色；输入命令-白色 dis as result “Stata is Good !“ /* 等同于dis in yellow “Stata is Good !“ */ dis in yellow “Stata is Good !“ * 3 、列印显示位置的控制 * 几种常用方式： * - * 副命令 | 定义 * - * _col(#) | 从第 # 格（列）开

27、始列印，stata屏幕上隐藏有网格 * _s(#) | 跳过 # 格开始列印 * _n(#) | 从第 # 行开始列印 * _c | 下次列印接着列印而无须重起一行 * _dup(#) | 重复列印 # 次 * - *例子： display “Stata is good“ /* 居左显示*/ display _col(12) “Stata is good“ /* 从第12列开始显示*/ display “Stata is good“ _s(8) “I like Stata“ /* 先显示一段文字后，跳8格后显示另一段文字*/ display _dup(3) “Stata is good ！

28、“ /*重复三次显示*/ display “Stata is good“,“I like it“ /* 一个逗号表示两段话中间有一个空格*/ display “Stata is good“,“I like it“ /* 两个逗号表示将空格忽略*/ display _n(3) “Stata is good“ /* 从第3行开始显示*/ *-4 执行 do 文档 * 执行单个命令：选中-点击do * 整个文件的执行：(1)直接点击do;(2) 用命令：do+文件名，如下： doedit L1_intro_do.do /* 编辑一个do文档*/ do L1_intro_do.do /* 执行一个d

29、o文档*/ *- *- Stata 界面的设定 *- *-0 窗口和字体的设定 * 窗口不全或丢失，字体和颜色不满意 * 字体的设定 * 窗口：右击选择 Font. 从下拉菜单中选中字体 * do 编辑器：右击do编辑器选择 Preferences. 选中字体 * 颜色设定 * 右击选择 Preferences. 选色 * 保存设定 *根据不同需要设定四个窗口位置，显示与否 *1. 依次点击：Edit Preferences Manage Preferences Save Preferences New Preference Set. *2. 输入一个 preference_name，

30、如 my_pref, pref_font10 *3. 调出喜欢的窗口方式：Edit Preferences Manage Preferences Load Preferences *-1 Stata 的系统参数 * 关于版本 about * 验证是否安装正确 verinst * 系统参数限制范围 help limits * 一些常用的设定 clear set obs 200 /*设定观察值的最大个数为200*/ set memory 40m /* 扩大Stata的内存空间至40M，调入数据容量较大时使用*/ *- set more on /* 开启分屏显示*/ sysuse auto, clear list price set more off /* 禁止分屏显示*/ list price *- set seed 1357923 /* 产生随机数时的种子，用于模拟分析*/ *- help set_defaults /* 了解系统参数的默认值*/ *-2 安装目录文件情况 sysdir

展开阅读全文