收藏 分享(赏)

stata 第一讲.pdf

上传人:HR专家 文档编号:6238627 上传时间:2019-04-03 格式:PDF 页数:19 大小:215.28KB
下载 相关 举报
stata 第一讲.pdf_第1页
第1页 / 共19页
stata 第一讲.pdf_第2页
第2页 / 共19页
stata 第一讲.pdf_第3页
第3页 / 共19页
stata 第一讲.pdf_第4页
第4页 / 共19页
stata 第一讲.pdf_第5页
第5页 / 共19页
点击查看更多>>
资源描述

1、 * Stata 软件分析与应用 * *- *- 课程纲要 *- /* 第一部分:Stata 基本操作 1Stata 简介 2数据处理 3初步绘图 第二部分:Stata 的计量应用 1普通最小二乘法(OLS) 2广义最小二乘法(GLS) 3工具变量法与GMM 4时间序列分析 5面板数据模型 第三部分:课堂报告(考核形式) 选择一个经济学问题, 利用stata实现, 讲解 相关经济学原理和操作过程, 并提交 书面报告。 * 教 材: * 基础教材: 王群勇. STATA在统计与计量分析中的应用. 南开大学出版社 Hamilton Lawrence. Statistics with Stata.

2、Cengage Learning. ( 中文版:郭志刚译. 应用Stata做统计分析. 重庆大学出版社) 王天夫. STATA实用教程. 中国人民大学出版社 * 高级应用教材: 陈强. 高级计量经济学及STATA应用. 高等教育出版社. 王志刚. 面板数据模型及其在经济分析中的应用. 经济科学出版社 * 万能教材: help菜单 The stata journal * 预备知识:计量经济学、数理统计、宏观经济学、微观经济学 * : 第一部分: * Stata 基本操作 * = * 第一讲 Stata 简介 * = * Stata 是何方神圣? Stata 统计软件包是目前世界上最著名的统计

3、软件之一,国外将Stata与SAS、SPSS 一起被并称为三大权威统计软件。 它同时具有数据管理软件、统计分析软件、图表绘制软件、矩阵计算软件和程序语 言编制的特点, 几乎可以完成全部复杂的统计和计量分析工作。 *- *- Stata 有何优点? *- * 短小精悍、功能强大 它最新的第12 版的安装文件不到200M , 但已经包含了全部的统计分析、 数据管理 和绘图等功能, 尤其是他的计量分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。 * 运算速度极快 由于Stata在分析时是将硬盘上的数据全部拷贝读入自己的内存区间中,在计算 全部完成后在保存的时候才会对硬盘的数据进行修改, 因

4、此运算速度极快。 * 绘图功能卓越 cd h:DATA1 sysuse auto, clear graph matrix mpg weight displ, by(foreign) * 更新和发展速度惊人 这也是一个非常吸引人的优点, 从1985 年问世以来, 几乎以两年一次的更新速 度在发展,目前已发展到12.0版。 它提供了一个非常好的平台, 每个命令都是一个很小的文本文档, 一般只有几K , 最大也不超过几十K。 全世界的使用者经常编写出一些新命令, 可以到它的网站进行下载共享, 大大推 动了他的发展。 其他很多优点。 *- *- STATA 界面 *- * 四个窗口,一个菜单条 * 两

5、种执行命令的方式 * 菜单 * 输入命令(推荐): 一方面,可以在熟悉命令的情况下快捷的实现操作; 另一方面, 可以保证研究工作的可重复性, 输入命令在保存后可以不断调试, 改 进,而菜单不会保存。 *- *- 输入和导入数据 *- * 实证分析的第一步:数据处理 * 收集数据、存储、修改、分析、输出结果 * = 本节命令= * = * input, infile, insheet, type, rename, xpose, cd * = * 三种方式: * 手动输入 * 从 txt 或 Excel 文档中粘贴 * 使用 Stata 命令 *-1 手动输入 ( 极少使用) clear inpu

6、t x y z 1 2 3 4 5 6 end clear 命令的作用是清除数据 缺点:效率很低,不提倡 *-2 从 .txt, excel 表格中粘贴 文档文件需用TAB键隔开,等同于EXCEL存储方式(例子:d1.txt、d1.xls、 d21.txt) 红色的是文字变量 黑色是数值变量 缺点:快捷,需要事先严格整理 *-3 使用stata命令导入数据:infile, insheet cd h:DATA1 *-3.1 以 -tab- 分隔的数据:insheet type d1.txt /* 查看原始资料的形态*/ type d1.txt, showtabs /* 显示tab 键*/ ins

7、heet using d1.txt, clear /* 导入d1数据*/ 注意:第一行的不同,是否事先填写变量名 type d11.txt /* 一份没有变量名称的数据*/ insheet using d11.txt, clear rename v1 price rename v2 weight rename v3 length insheet price weight length using d11.txt, clear /* 在导入数据时定义变 量名*/ *-3.2 以 空格 分隔的数据:infile type d21.txt insheet using d21.txt, clear /

8、* 空格 分隔的数据无法直接用 insheet 命令 导入*/ insheet using d21.txt, clear delimiter(“ “) /* 需要通过 delimiter 选项制等 分隔符号*/ infile v1 v2 v3 using d21.txt, clear /* 空格 分隔的数据用 infile 命令导 入比较方便*/ * 我们也可以指定数据的完整存储路径 infile price weight length using “c:DATA1d21.txt“, clear * 包含文字变量的情形 type d2.txt infile using d2.txt, clea

9、r /* 错误的方式*/ infile v1-v5 using d2.txt, clear /* 文字变量全部变成了缺漏值*/ infile str30 v1 int v2 int v3 int v4 str10 v5 using d2.txt, clear /* 指定变量类型*/ str-字符串,后面数字表示字符串的最大长度 int-整数 * 逗号分隔的数据(同上) type d3.txt infile str30 v1 int v2 int v3 int v4 str10 v5 using d3.txt, clear * 数据的存储 save d3.dta, replace /* 采用St

10、ata识别的数据文件属性.dta*/ 注意replace 的作用 :替换或覆盖 菜单上的save按钮也是具有相同的功能 注意文件名的后缀:txt、dta * 调入STATA 格式的数据 use d3.dta, clear use “h:DATA1CO2.dta“, clear sysuse auto, clear /* 调入STATA自带的数据*/ *-3.3 行列对调的数据(对于格式不规范的数据) type d5.txt /* 常规数据*/ type d51.txt /* 对调数据*/ insheet using d51.txt, clear xpose, clear /* 转置或对调*/

11、rename v1 year rename v2 invest rename v3 income rename v4 consume * 4. 时间序列资料 tsset year 加入一个时间变量进行排序 * 5. 面板资料 type d6_panel.txt insheet using d6_panel.txt, clear tsset code year xtset code year 指定截面单位和时间,以上两者等同 * xpose 命令同样适用于面板数据资料 type d6_pdpose.txt insheet using d6_pdpose.txt, clear xpose, cle

12、ar list /* 列印*/ * 6. STATA 官方提供的资料 help dta_contents help dta_examples help dta_manuals use http:/www.stata- cd h:DATA1 *- *- 资料的浏览 *- * = 本节命令= * = * sysuse, use, describe, compress, label, summarize * codebook, inspect, histogram, kdensity * help, search, findit, recast, format * = *- *- 变量的存储类型 *

13、- 整数的存储类型 * byte 字节型 (-100, +100) * int 一般整数型 (-32000, +32000) * long 长整数型 (-2.14*1010, +2.14*1010) ,即,正负21亿 *- 小数的存储类型 * float 浮点型 8 位有效数字 * double 双精度 16位有效数字 *- 变量的名称 * 由英文字母、数字或 _ 组成,不包括中文字符,至多不超过 32 个; * 首字母必须为英文字母或 _ ; * 英文字母的大写和小写具有不同的含义; * 例如:abc_1 a1 _a2 _Gdp_ 都是合理的变量名 5gdp 2invest 则不是合理的变量

14、名; * 特别注意 :建议不要使用 _ 作为变量的第一个字母, * 因为许多stata的内部变量都是以 _ 开头的, * 如,_n, _N, _cons, _b 等等。 *- *- *-1. 查看资料的结构 sysuse auto, clear describe 显示的内容: (1)来源文件夹,观察值数量,变量数,存储空间,数据的标签和创建时间 (2)变量名称、存储类型、显示格式、数值的标签(如好中差 等)、变量标签(对变 量的解释) *-1.0 更改变量的存储类型 list gear_ratio in 1/5 /* 将变量gear_ratio的前5个观察值列出*/ d gear_ratio

15、recast int gear_ratio, force /* 改变变量gear_ratio的存储类型,int是整数格 式,force 是强制改变*/ d gear_ratio list gear_ratio in 1/5 *-1.1 定义变量的显示格式 * str18 文字型变量,每个观察值占据18个空格 * %-18s 靠左列印于屏幕上;若%18s,则靠右列印;若 %18s, 则居中列印 * %8.0g g 指在 8.0 的原则下,以尽量多的有效位数列出 * %6.2f 总共占6个空格,小数位占两个空格,f是固定的意思 list price gear in 1/5 format price

16、 %6.1f /* 改变变量的格式为6空格、1位小数*/ format gear %6.4f list price gear in 1/5 注意format 的作用: format 为 改变格式命令, 在显示结果时比较有帮助, 因为S默认给出的结果一般有7-8 位,看起来比较繁琐,可以进行简化。 *-1.2 精简资料的存储格式 compress /* 若觉得默认格式不合适,可对数据进行精简,不常用*/ *-1.3 标签 d *-a 数据样本加标签 label data “ 这是一份汽车价格资料“ *-b 变量加标签 label var price 汽车价格 /*将变量price加上标签 汽车价

17、格 */ label var foreign “ 汽车产地(1 国外; 2 国内)“ /* 变量有空格或符号时需 要用双引号*/ d *-c 类别变量的文字标签 edit 变量rep78代表1978年的返修次数,这是一个类别标签 当对变量含义不是很清楚时,可以用标签变量进行说明。 * label define 标签名 * label values 变量名 标签名 /*将变量值和标签联系起来*/ edit label define repair 1 “ 好“ 2 “ 较好“ 3 “中“ 4 “较差“ 5 “差“ label values rep78 repair edit 注意:变量数值的颜色说

18、明了不同的变量形式 红色:文字变量 黑色:数值变量 蓝色:标签变量 *-d 标签的管理 label dir /* 显示标签变量*/ label list /* 列印标签值,显示数字和文字的关系*/ label drop repair /* 删除标签*/ label list *- *-2 基本统计量 常见的 命令如下: summarize /* 列出变量的基本统计量,方差、均值等*/ format price %6.2f /* 改变变量的显示格式,以进行简化*/ sum price, format sum price wei, detail /*sum 是简写,detail表示列出更多基本统计

19、量,包括整 体方差,偏度(对称程度)、峰度(离散程度)等等*/ * codebook 命令 codebook price weight /* 列出取值范围、有无缺位值等*/ * 论文格式的统计表格 tabstat(列表 统计命令) sysuse auto, clear tabstat price weight length /* 显示均值*/ tabstat price weight length, stats(mean p50 min max) /* 显示均值、中位数、 最大、最小值*/ tabstat price weight length, stats(mean med min max)

20、 col(s) format(%6.2f) /*column 列呈现统计量、小数点后保留两位*/ tabstat price weight length, s(mean p25 med p75 min max) c(s) f(%6.2f) /* 加入第一、第三百分位*/ tabstat price weight length, s(mean p25 med p75 min max) c(s) f(%6.2f) by(foreign) /* 根据国产、进口分类列表*/ *- *-3 基本图形分析 *-3.1 直方图 sysuse nlsw88.dta, clear /* 美国1988 年妇女工资

21、的相关 数据*/ * 图形的纵坐标 histogram wage /* 长条的高度对应样本数占总样本的比例, 总面积为 1*/ histogram wage, frequency /* 纵坐标为对应的样本数,而非比例*/ * 其他选项 histogram ttl_exp, normal /* 附加正态分布曲线*/ histogram wage, kdensity /* 附加密度函数曲线,即对直方图的一个平滑的拟合 */ histogram wage, addlabels /* 每个长条上方附加一个 表示其高度的数字*/ histogram wage, frequency addlabels /

22、* 纵坐标为对应的样本数,而非比例*/ histogram wage, by(race) /* 按种族特征画工资分布*/ * 离散变量的直方图 histogram grade histogram grade, discrete /* 离散变量的直方图必须附加 discrete 选项*/ *-3.2 密度函数图 kdensity wage /* 它是直方图的平滑曲线*/ *- *-4 执行指令(一般化介绍) * stata 命令的通用格式: command varlist if in , options * if in 用于限制样本范围 如if foreign=1 ,指限制指示进口车的情况 *

23、options 可选项 ,增加了命令的弹性 help sum /* 通过帮助学习*/ *-4.1 指令的适用范围 *-a 列举多个变量 sum age race married never_married grade sum age-grade /*简写形式,报告age 到grade的情况*/ sum s* /* “*“ 是孙悟空, 可以表示任何长度的字母或数字*/ sum ?a?e /* “?“ 是猪八戒, 只能替代一个长度的字母或数字*/ *-b 样本的限制 sum in 10/20 /* 正数第10至第20个观察值之间的观察值*/ sum wage in -5/-1 /*倒数迪5 到倒数

24、第1.*/ sum wage hours if race = 1 /* 等于,白人的情况*/ sum wage if race != 3 /* 不等于,除了其他人种的情况*/ sum wage if (race=2) ; =; =; !=( 不等于); =( 不等于) sysuse auto,clear list price if foreign = 0 /*产地是国产的汽车的价格*/ * 逻辑运算符: twoway (scatter price wei) (lfit price wei), title(“散点图和线性拟合图“); 最后输入 ,用于此命令结束: #delimit cr /* 结

25、束该命令*/ *= 列印文字(在屏幕上显示文字) display *1 需将文字置于 “ “ 或 “ “ 之间 display “This is a pretty girl!“ /* 一般格式*/ dis “This is a “pretty“ girl!“ /* 文字中包含双引号的格式 ,注意 和的键盘位置*/ * 2 、指定文字颜色 : * 颜色1 in red green yellow white dis in green “I have being with Stata for four years“ dis in w “This “ in y “is “ in g “a “ in r

26、ed “pretty“ in g “ girl“ * 颜色2:as text(绿色)| as result( 黄色)| as error( 红色)| as input(白 色) Stata 默认 :文本-绿色;结果-黄色 ;错误-红色;输入命令-白色 dis as result “Stata is Good !“ /* 等 同于dis in yellow “Stata is Good !“ */ dis in yellow “Stata is Good !“ * 3 、列印显示位置的控制 * 几种常用方式 : * - * 副命令 | 定义 * - * _col(#) | 从第 # 格(列) 开

27、始列印,stata屏幕上隐藏有网格 * _s(#) | 跳过 # 格开始列印 * _n(#) | 从第 # 行开始列印 * _c | 下次列印接着列印而无须重起一行 * _dup(#) | 重复列印 # 次 * - *例子: display “Stata is good“ /* 居左显示*/ display _col(12) “Stata is good“ /* 从第12列开始显示*/ display “Stata is good“ _s(8) “I like Stata“ /* 先显示一段文字后, 跳8格后显示另一段文字*/ display _dup(3) “Stata is good !

28、“ /*重复三次显示*/ display “Stata is good“,“I like it“ /* 一个逗号表示两段话中间有一个 空格*/ display “Stata is good“,“I like it“ /* 两个逗号表示将空格忽略*/ display _n(3) “Stata is good“ /* 从第3行开始显示*/ *-4 执行 do 文档 * 执行单个命令:选中-点击do * 整个文件的执行:(1)直接点击do;(2) 用命令:do+文件名,如下: doedit L1_intro_do.do /* 编辑一个do文档*/ do L1_intro_do.do /* 执行一个d

29、o文档*/ *- *- Stata 界面的设定 *- *-0 窗口和字体的设定 * 窗口不全或丢失,字体和颜色不满意 * 字体的设定 * 窗口: 右击 选择 Font. 从下拉菜单中选中字体 * do 编辑器:右击do编辑器 选择 Preferences. 选中字体 * 颜色设定 * 右击 选择 Preferences. 选色 * 保存设定 *根据不同需要设定四个窗口位置,显示与否 *1. 依次点击:Edit Preferences Manage Preferences Save Preferences New Preference Set. *2. 输入一个 preference_name,

30、如 my_pref, pref_font10 *3. 调出喜欢的窗口方式:Edit Preferences Manage Preferences Load Preferences *-1 Stata 的系统参数 * 关于版本 about * 验证是否安装正确 verinst * 系统参数限制范围 help limits * 一些常用的设定 clear set obs 200 /*设定观察值的最大个数为200*/ set memory 40m /* 扩大Stata的内存空间至40M,调入数据容量较大时使用*/ *- set more on /* 开启 分屏显示*/ sysuse auto, clear list price set more off /* 禁止 分屏显示*/ list price *- set seed 1357923 /* 产生随机数时的种子,用于模拟分析*/ *- help set_defaults /* 了解系统参数的默认值*/ *-2 安装目录文件情况 sysdir

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报