1、STATA操作方法概述 引言 STATA简介 STATA的发展历史 STATA的界面结构 STATA的主要特点与功能 STATA的语法结构1 STATA应用高级培训教程 南开大学数量经济研究所 王群勇引言 规范性的研究包括两个核心的要素:理论模型和经验分析(统计分析、计量分析)。 面临的问题: 研究者经常地希望利用多种方法从不同角度对数据进行分析,但拥有绝对优势的软件是不存在的,不存在哪个软件能解决所有的问题。 计量经济学发展迅速,新的方法层出不穷,而软件公司将这些新方法嵌入到软件中是存在滞后的。2 STATA应用高级培训教程 南开大学数量经济研究所 王群勇引言 解决方案: 不同的软件各有所长
2、,各有所短。学习、掌握多种软件。但是不同的软件在数据格式、操作方法、语法结构有很大区别,因此熟练掌握一种软件需要花费较长的时间。 我们希望能够有一个相对较为综合的分析软件 =Stata在统计、计量分析方面都非常出色。 是否已有相应的程序供我们直接运行 =Stata具有丰富的网络资源 掌握软件的编程方法,自己编写程序 =Stata具有简练、强大、快捷的编程和运算功能。 Stata以其操作简单、运行快速而精确,全面的数据管理功能,精致的作图,强大的统计与计量分析功能,简练标准的程序与矩阵运算功能、丰富的网络资源,在统计学、经济学、金融学、心理学、计算机科学、物理、化学等多个学科领域得到广泛使用(
3、http:/ STATA应用高级培训教程 南开大学数量经济研究所 王群勇STATA简介:发展历史 Stata是一个用于数据管理和分析的统计软件,由 Stata公司( StataCorp)研制开发。从 1985开始,先后开发了 1.1, 1.2, 等多个版本。目前 Stata的最新版本为 2009年 7月份推出的 Stata 11.0。4 STATA应用高级培训教程 南开大学数量经济研究所 王群勇STATA简介:发展历史 Stata 11包括四种版本: Small( 小型版 ) 、 IC( 标准版 ) 、 SE( 特 别 版 )和 MP( 多处理器版 ) 。其中属 MP版本最为强大。 MP版与
4、SE版的功能完全相同,但 MP版的运算速度比 SE版的要快很多。用户可以在命令栏输入 about 查看所安装的 Stata所属的版本。 不同版本对样本容量、变量个数、矩阵阶数、宏的字符长度等有着不同的限制。以 SE版为例,其最大变量个数为 32767,最大字符长度为 244字节,最大矩阵阶数为 11000(即 1100011000)。 Stata默认值为:最大变量个数为 5000,最大矩阵阶数为 400,最大内存为 50兆 (在 Stata10中为10m)。如果用户需要更多的内存或者更多的变量,可以在命令栏输入如下命令进行扩展 。. set maxvar # (.set maxvar 5000
5、 ). set maxsize # (.set maxsize 1000 ). set memory #m (.set memory 50m )5 STATA应用高级培训教程 南开大学数量经济研究所 王群勇STATA简介:界面结构6 STATA应用高级培训教程 南开大学数量经济研究所 王群勇STATA简介:界面风格设置 风格设置: Edit - Preference (右键 -Preference) 字体设置: (右键 -Font) STATA应用高级培训教程 南开大学数量经济研究所 王群勇STATA简介:主要特点与功能 统计分析与计量分析的结合 单元统计:描述统计 、 假设检验 ( 参数 、
6、 非参数 ) 、 ANOVA、 质量控制 、 统计作图 多元统计: MANOVA、 主成分 、 因子分析 、 典型相关 、 聚类 、 判别分析 、 对应分析 、 多维标度 线性回归 、 非线性回归 、 工具变量回归 、 广义线性回归 、 分位数回归 ( 稳健回归 ) 、 系统方程模型 ( SUR、 联立方程 ) 、 离散选择模型 ( 二项选择 、 排序选择 、多项选择 、 条件 Logit、 嵌套 Logit模型 、 二元选择模型等 ) 、 计数模型 ( 泊松回归 、负二项回归 ) 、 截断与归并模型 、 海克曼选择模型 、 逐步回归 (stepwise)等 。 时间序列分析:时间序列的平滑
7、、 相关图 、 ARIMAX、 GARCH、 单位根检验 、Johansen协整检验 、 VAR、 VEC、 滚动回归等 。 面板数据 ( 线性模型 、 工具变量回归 、 动态面板 、 分层混合效应 、 广义估计方程 ( GEE) 、 随机边界模型等 ) 。 调查数据分析 生存分析 蒙特卡洛模拟 、 自举法 (bootstrap)、 刀切法 ( jackknife)Capability8 STATA应用高级培训教程 南开大学数量经济研究所 王群勇STATA简介:主要特点与功能 丰富的网络资源。http:/http:/www.stata-http:/www.stata- 严谨、简练、灵活的程序语
8、言。Stata提供了严谨、简练而灵活的程序语句,用户可以编写自己的命令和函数,也可以制作自己的对话框和窗口菜单。 强大的矩阵运算功能: MataMata是 Stata的矩阵运算语言,实现各种运算 兼容性。在 Stata中可以直接运行其它程序;其他语言编写的程序可以作为插件( Plugin)直接嵌入到 Stata中。Add New FeaturesExamplesUtilities9 STATA应用高级培训教程 南开大学数量经济研究所 王群勇STATA简介:主要特点与功能 Stata与 EViews的比较(1) Regresson methodOLS GLS NLS 2SLS GMM (N)SU
9、R 3SLS MLEviews yes yes yes yes yes yes yes yesStata yes yes yes yes yes yes yes yesQuantile Stepwise GLM HeckmanEviews yes(6) yes(6)Stata yes yes yes yes10 STATA应用高级培训教程 南开大学数量经济研究所 王群勇STATA简介:主要特点与功能 (2) Statistical MethodANOVA Parame-tric test Nonpara-metrc test Quantity control Random Sampling S
10、urvey SurvivalEViews yes yes yes yes yes(U)Stata yes yes yes yes yes(U,M) yes yesMANOVA PCA Factor Discrimi-nant Cluster Corres-pondence MDS CanonicalEViews yes yes(6)Stata yes yes yes yes yes yes yes yes11 STATA应用高级培训教程 南开大学数量经济研究所 王群勇STATA简介:主要特点与功能(3) Limited DependentBinary Mutino-minal Ordered
11、Nested logit Condi-tional logit Count modelZero-inflated countZero-truncated countEViews yes yes yes yesStata yes yes yes yes yes yes yes yesCensored TruncatedEViews yes yesStata yes yes12 STATA应用高级培训教程 南开大学数量经济研究所 王群勇STATA简介:主要特点与功能(4) Time seriesSeasonal adjust-mentSmooth-ing ARIMAUnit root testCo
12、inte-gration VECM ARCH FilterEviews yes yes yes yes yes yes yes yesStata yes yes yes yes yes yes Yes(11)M-GARCHState SpaceEviews yes yesStata Yes(11) Yes(11)13 STATA应用高级培训教程 南开大学数量经济研究所 王群勇STATA简介:主要特点与功能(5) Panel dataLinear Linear with AR IVLS DPD Binary CountMultilevel mixed effectGEEEviews yes ye
13、s yes yesStata yes yes yes yes yes yes yes yesGLS Random Coefficient Stochastic Frontier Tobit Unit root test Cointe-gration QuantileEviews yes yesStata yes yes yes yes net net14 STATA应用高级培训教程 南开大学数量经济研究所 王群勇语法结构 基本格式:by varlist: command varlist =exp if exp in range weight using filename , options 其
14、中,符号 表示可选项。 command为 Stata的命令函数, varlist为变量,if exp、 in range用于设定变量或观测值, weight用于设定观测值的权重, using filename表示使用的数据文件, options表示命令的选项,不同命令的选项也不同。 by varlist:表示对 varlist(分类变量)中的每一类分别执行命令( command)。 比如,线性回归模型的命令 regress的格式为:. regress depvar indepvars if in weight , options用户可以输入如下命令:. regress depr dcpi dr
15、gdp if depr. char varnameomit # | string . char varnameomit 22 STATA应用高级培训教程 南开大学数量经济研究所 王群勇语法结构:命令前缀 (xi) 数值分类变量 :. use coal, clear. xi: reg coal trend i.quar. char quaromit 3. xi: reg coal trend i.quar. xi, noomit: reg coal trend i.quar. xi, noomit: reg coal trend i.quar, nocons 字符分类变量 :. xi: reg
16、coal trend i.quarstr. char quarstromit “2nd”. xi: reg coal trend i.quarstr. xi, noomit: reg coal trend i.quarstr. xi, noomit: reg coal trend i.quarstr, nocons STATA应用高级培训教程 南开大学数量经济研究所 王群勇语法结构:命令前缀 (xi)terms的形式如下。i.varname i.varnam1*i.varnam2 i.varnam1*varname3 i.varnam1| varname3 其中 , varname、 varn
17、am1、 varnam2为分类变量(数值变量或字符变量均可), varnam3为连续数值变量。24 STATA应用高级培训教程 南开大学数量经济研究所 王群勇语法结构:命令前缀 (xi) 比如,线性回归模型的命令 regress的格式为:. regress depvar indepvars if in weight , options用户可以输入如下命令:. use depr, clear. regress depr dcpi drgdp . regress depr dcpi drgdp if depr Post-estimation) 。 每次估计的结果可以保存在内存中或磁盘上 , 便于随
18、时调用 ( 调用时需要首先将其激活 , 即是令其处于活动状态 (active)) 。 在各种模型的估计 、 检验 、 预测中 , Stata提供了一些更加方便 、 更加专业的操作 , 也提供了更加科学的分析结果 。 提供了方便的命令前缀 , 如 by, xi等 。 存在多重共线性问题的时候 , 自动删除产生共线性问题的变量 。 非线性模型中 , 参数估计量可以按照具有直接经济意义的形式输出 。比如 , probit模型中直接输出其边际影响;或者 logit模型中直接输出机会比 。 很多模型的具体设置要求用户具有一定的专业基础 。 比如 Hausman检验等 。30 STATA应用高级培训教程 南开大学数量经济研究所 王群勇