1、医学统计软件使用,浙江大学医学院公共卫生系 流行病与卫生统计教研室 沈毅,教学目的:了解一种常用统计软件包在医学研究数据处理 中的应用,能较为熟练地运用统计软件进行统计分析并正 确理解输出结果。,教学内容 (SAS或STAT)1. 统计软件的概述 2. 统计软件数据集的建立和及数据文件的管理 3. 描述性统计和常用假设检验 4. 实验设计和方差分析(包括协方差分析) 5. 相关回归与多元回归 6. 生存分析 7. 多因素统计,统计软件的特点,1.可用性 能为用户提供良好的用户界面,灵活的处理方式 和简明的语句或命令规则,我们称这种软件“可用性”强。2数据管理 数据录入、核查、修改、转换和选择,
2、用起来 非常方便。3文件管理 数据文件、程序文件、结果文件等其它一些 文件的建立、存取、修改、功能强,操作简单、方便。4统计分析 统计分析是统计软件包的核心。软件有简单描述 性分析过程和较复杂的多元分析过程。统计分析过程提供较多 的可选项。5容量大 现在的统计软件能处理大容量的数据,国际著名的三大统计软件 BMDP(Biomedical Computer Program) 1961 SPSS(Statistics Package for Social Science)1970 SAS(Statistics Analysis System) 1972 其他统计软件 GLIM(General St
3、atistics Linear Interactive Modeling) 1974 STAT ,SYSTAT,MINITAB EPILOG,EPIINFO,EPIPACK,EPISTA 国内的统计软件 P系列(POMS PEMS等) SPLM(Statistics Program for Linear Modeling),统计软件的数据结构,统计软件的数据结构一般以行乘列的排列方式构造的,行代表case(或记录),列表示变量(variable)或因素. 例1:观察了10人的体重,其中男性5人,女性5人 应具有210的数据结构(2个变量,10个观察对象) 例2:一个22的四格表,应具有n 2的
4、数据结构(2个变量,n个观察对象),变量定义: 1、性别 2、体重 ( 210的数据结构),例1的数据构造:,例2的数据构造:,定义3个变量 1、 冠心病 2、食盐情况 3、频数,实际数据结构应该是 126 2个数据,但有时 为了简化数据的输入, SPSS可采用频数表输入 的方法。但对于采用频 数表输入的数据在分析 以前必须对频数变量进 行定义。,作为频数变量,问题 ?,1.观察了三个年龄组 (20- 40- 60岁以上)的血压,每个年龄组观察了20人。 问:应具有什么样的数据结构? 2.一个34的列联表应具有什么样的数据结构?,第一章 Stata 概貌,Stata是一个用于分析和管理数据的功
5、能强大又小巧玲珑的实用统计分析软件,由美国计算机资源中心(Computer Resource Center)研制。 从1985至1998的十四年时间里,已连续推出1.1,1.2,1.3,1.4,1.5,2.0, 2.1,3.0,3.1,4.0,5.0,6.0,8.0等多个版本,通过不断更新和扩充,内容日趋完善。,1.1 Stata 的功能、特点和背景,它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,又在许多方面别具一格。Stata融汇了上述程序的优点,克服了各自的缺点,使其功能更加强大,操作更加灵活、简单,易学易用,越来越受到人们的重视和欢迎。,Stata的突出特
6、点是只占用很少的磁盘空间,输出结果简洁,所选方法先进,内容较齐全,制作的图形十分精美,可直接被图形处理软件或字处理软件如WORD等直接调用。,一、 Stata 的数据管理能力,(( 1 ) Stata的数据管理空间受计算机的操作系统和计算机扩展内存的影响。对640k内存的微机,3.1版本的Stata可以管理2400个记录99个变量,并随计算机扩展内存的增加而增加;对4.0的WINDOWS版本,Stata可以管理4800个记录99个变量;,对WINDOWS 95下的5.0版本,可根据计算机的配置情况设置变量数和记录数 ,如32M扩展内存的计算机,可处理2千万个数据。变量数和记录数可以互相交易(t
7、rade),即减少记录数可以增加变量数,减少变量数可以增加记录数。,(2) 可以将分组变量转换成指示变量(哑变量), 将字符串变量映射成数字代码。 (3) 可以对数据文件进行横向和纵向链接,可以将 行数据转为列数据,或反之。 (4) 可以恢复、修改执行过的命令。 (5) 可以利用数值函数或字符串函数产生新变量。 (6) 可以从键盘或磁盘读入数据。,二、 Stata 的统计功能,Stata的统计功能很强,除了传统的统计分析方法外,还收集了近20年发展起来的新方法,如Cox比例风险回归,指数与Weibull回归,多类结果与有序结果的logistic回归,Poisson回归、负二项回归及广义负二项回
8、归,随机效应模型等。,具体说,Stata具有如下统计分析能力:(1) 数值变量资料的一般分析 : 参数估计 , t 检验 ,单因素和多因素的方差分析 , 协方差分析,交互效应模式,平衡和非平衡设计,嵌套设计, 随机效应,多个均数的两两比较,缺项数据的处理,方差齐性检验,正态性检验,变量变换等。,(2)分类资料的一般分析:参数估计,列联表分析(2检验 ,列联系数 ,确切概率),流行病学表格分析等。(3) 等级资料的一般分析:秩变换,秩和检验,秩相关等。,(4)相关与回归分析:简单相关,偏相关,典型相关,以及多达数十种的回归分析方法,如多元线性回归,逐步回归,加权回归,稳健回归,二阶段回归,百分位
9、数(中位数)回归,残差分析、强影响点分析,曲线拟合,随机效应的线性回归模型等。,(5)危险度分析:条件和非条件的logistic回归,多类结果与有序结果的logistic回归,Probit回归,及其他广义线性模型,随机效应的logistic回归,随机效应的Poisson回归等。,(6)生存分析:基线生存曲线的估计、相对危险度的估计,KaplanMeier生存曲线、寿命表分析,对数秩检验,MantelHaenszel检验,WilcoxonGehan检验,Cox比例风险模型,正态截尾及Probit回归,指数回归和Weibull回归等。,(7)其它方法:质量控制,整群抽样的设计效率,诊断试验评价,k
10、appa检验 等。,三、 Stata 的作图功能,Stata的作图模块,主要提供如下八种基本图形的制作:直方图(histogram),条形图(bar),百分条图(oneway),百分圆图(pie),散点图(twoway),散点图矩阵(matrix),星形图(star),分位数图。,这些图形的巧妙应用,可以满足绝大多数用户的统计作图要求。在有些非绘图命令中,也提供了专门绘制某种图形的功能,如在生存分析中,提供了绘制生存曲线图,回归分析中提供了残差图等。详见第五章。,四、 Stata 的矩阵运算功能,矩阵代数是多元统计分析的重要工具,Stata提供了多元统计分析中所需的矩阵基本运算,如矩阵的加、积
11、、逆、Cholesky分解、Kronecker内积等;,还提供了一些高级运算,如特征根、特征向量、奇异值分解等;在执行完某些统计分析命令后,还提供了一些系统矩阵,如估计系数向量、估计系数的协方差矩阵等。,尽管Stata的容量最大只容许400400的矩阵(默认为4040),用它来完成日常工作中的统计分析显然不现实,但用它来做一些练习,提高多元统计分析的教学效率,无疑是很有帮助。详见第十八章。,五、 Stata 的程序设计功能,Stata是一个统计分析软件,但它也具有很强的程序语言功能,这给用户提供了一个广阔的开发应用的天地,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。事实
12、上,Stata的ado文件(高级统计部分)都是用Stata自己的语言编写的。,Windows版本的Stata的界面上有一级菜单行,二级菜单窗口,命令窗口,结果窗口,图形窗口,变量名窗口,已执行过的命令窗口,帮助窗口等。窗口的大小、位置可根据用户需要进行调整。,1.2 Stata 的界面,变量窗口,命令窗口,结果窗口,Log窗口,菜单栏与工具栏,1.3 进入和退出Stata,在桌面上双击Wstata的图标,即可进入Stata,并出现命令窗口。,在Stata的菜单中选 File ,再选 exit 。 如数据已经存盘,则可退出Stata。 如数据未存盘,则Stata给出如下提示:“Data has
13、changed without being saved.Do you really want to exit?”(数据已改变,但未存盘,是否真的要退出?)如要退出,则按 确定 ,否则按 取消 。将数据存盘后再退出。 在WINDOWS下,亦可用DOS的命令退出Stata。,Stata可以从键盘输入数据,也可以从文件读入数据。WINDOWS下的Stata还可以用Stata的数据编辑器输入、修改和管理数据。这里简单介绍如何从键盘输入数据,有关更详细的数据读入方式将在第三章中讲述。,1.4 Stata 的数据输入与储存,一、 从键盘输入数据,例1.1 某实验得到如下数据 x 1 2 3 4 5y 4
14、5.5 6.2 7.7 8.5 进入Stata后,操作过程如下,其中划线部分为操作者输入部分。,. input x yx y1. 1 42. 2 5.53. 3 6.24. 4 7.75. 5 8.56. end,用list命令可以看到输入的数据。 .listx y 1. 1 4 2. 2 5.5 3. 3 6.2 4. 4 7.7 5. 5 8.5,二、 保存数据,为了方便以后应用,输入Stata的数据应存盘。如欲将上述数据存入d:mydata子目录中,文件名为ex1.dta,命令为:.save d:mytataex1file d:tempex1replace.dta saved,该指令在d
15、:盘的mydata子目录中建立了一个名为 “ex1.dta” 的Stata格式的数据文件。后缀dta是Stata内定的数据格式文件。该格式文件只能在Stata中用use命令打开:.use d:mydataex1,如目标盘及子目录中已有相同文件名的文件存在,则该命令将给出如下信息:file d:mydataex1.dta already exists,告诉用户在该目标盘及子目录中已有相同的文件名存在。,如欲覆盖已有文件,则加选择项replace。命令及结果如下:.save d:mydataex1 , replacefile d:tempex1.dta saved 这样,Stata在d:盘的myd
16、ata子目录中建立了一个名为“ex1.dta”的Stata格式数据文件,并替换了原有文件。,Stata在屏幕上显示的运行结果有两种,一种是纯字符型的(如方差分析结果,回归分析结果等),一种是图形。若要将操作过程和纯字符型结果记录下来,需事先打开一个log文件: .log using 文件名,1.5 Stata 的结果文件,设结果文件名为result1,则Stata自动加上后缀“.log”,亦可由用户自己加上其他后缀。执行该指令后的所有操作指令和文字结果(除help下显示的结果)将记录在结果文件“result1.log”中。若执行某一指令后的结果没有必要记录下来,则可事先用指令“log off”
17、暂停记录,需要记录时再用“log on”继续记录,最后用“log close”关闭文件。,如果结果文件“result1.log”已经存在 ,用“ log using result1” 不能打开已有文件result1.log。如要覆盖文件result1.log,则加选择项replace。即键入: .log using result1, replace,如要在其后进行添加,则键入: .log using result1, append文件“result1.log”可在EDIT、PE2、WPS或WORD等字处理软件下编辑 、打印 ,也可在DOS下用type或print命令通过显示器浏览或打印机输出硬
18、拷贝。,若要将图形结果打印下来,需要在绘图指令中加上“saving”选择项。例如,画例1.1中x与y的散点图并存入文件“ex1.gph”,可用下述指令: .graph y x , c(1) saving(d:mydataex1),这时屏幕上显示y与x的散点图,并将被存入d:mydata子目录中,文件名为“ex1.gph”(gph是Stata内定的图形文件后缀,用户亦可自己定义后缀名)。该图形可在Stata状态用“graph using d:mydataex1”)重新显示在屏幕上,可在 File 的Print Graph 打印,也可用打印命令 “gphdot”打印。,DOS版本的Stata可在D
19、OS提示符下用“gphdot”命令打印: D:MYDATAgphdot ex1.gph更详细的内容见第五章。,Stata的操作有交互式操作和非交互式操作菜单种形式。,1.6 Stata 的操作方式,一、 交互式操作,在Stata状态直接键入指令,每输入一个指令,Stata执行一个,这种方式称为交互式操作。 例1.2 用例1.1数据建立回归方程。 .use ex1 .reg y x,二、 非交互式操作,若分析内容很多,有时甚至涉及到多个数据库,有几十个甚至成百个分析内容,若仍采取交互式操作,不仅要将许多时间花在等待运算结果上,而且容易漏掉一些主要的分析内容或做一些无益的重复劳动。,这时最好在ED
20、IT,PE2,WORD等文字处理下将这些指令写入一个以“do”为扩展名的命令文件(文本格式,即ASC码),并仔细核对分析内容、命令格式,直至组织数据文件的合理性等,修改好后再在Stata状态执行该命令文件。,例1.3 用非交互式操作对例1.1数据进行相关和回归分析。第一步,在字处理软件下写入如下指令,并以文件名 “ex1.do” 存入磁盘d:mydata子目录中。,set more 1 /*指定结果窗口中,当输出结果满一屏后,不再显示-more -直接显示下一屏 log using d:mydataex1.log /*打开结果文件ex1.log use d:mydataex1.dta /*调用
21、数据文件d:mydataex1.dta gra y x, saving (d:mydataex1) /*作y与x的散点图,并存入 d:mydataex1.gph cor y x /*作y与x的相关 reg y x /*作y与x的回归 log close /*关闭结果文件ex1.log set more 0 /*指定结果窗口中,当输出结果满一屏后,显示- more-, 直到按任意键后,再显示下一屏,第二步,在Stata状态键入: .do d:mydataex1.doStata将首先打开一个名为“ex1.log”的结果文件,然后打开数据文件“ex1.dta”,画散点图并将图形存入文件“ex1.gp
22、h”,进行相关分析、回归分析,最后关闭结果文件。此时,Stata执行这些命令是自动的,不间断的。,三、菜单操作,选择菜单操作,Stata具有很强的帮助功能。帮助功能的使用有两种方式。,1.7 Stata 的帮助功能,一是在Stata状态,需要了解某个指令的格式和功能,这时只需键入help(或按功能键F1),然后空一格键入该指令即可。例如,若需了解回归分析的指令格式,则: .help regress 则可得到帮助。,二是利用菜单,在 Stata 的菜单上按 Help ,出现帮助窗口。此时输入需要帮助的命令关键词,如regress, 按 OK 即可得到帮助。,如需了解Stata的全部命令,可键入h
23、elp contents,可得到Stata的全部命令及其简单解释;或在帮助窗口按 Contents ,则出现如下的帮助内容窗口。,在知道所要帮助的命令时,在命令窗口键入help加命令,即可获得帮助; 在不知道所要帮助的命令时,用菜单操作更好。Stata的常用命令见附录。,下面以多元线性回归命令为例,介绍Stata的命令的格式。多元线性回归命令为regress,欲得到命令格式,键入help regress即可得到:by varlist: regress depvar varlist1 (varlist2)weight if exp in range ,level(#)beta hascons n
24、oconstant noheader eform(string) depname (varname) mse1 命令中, 内为选择项,括号外为必选项。,这里介绍命令的公共选择部分,该命令的专用选择项将在相应章节作介绍。 (1)by varlist,是指定按变量varlist的取值逐一作多元线性回 归。如变量名为group,且取值为1,2,3,4,则“by group:”是指定Stata分别按group1,group2, group3和group4的观察值分别作4个回归方程。在选用该选择项前,要对变量排序,即先执行sort,如:.sort group,(2) weight,是指本命令允许使用加权
25、或频数,有fw=频数变量和aw= 加权变量两种形式。,(3) if exp,用条件语句指定条件。如,下列条件是合法的:if group=1 /*对满足group=1条件的观察值进行分析if group2 /*对满足group2条件的观察值进行分析if group=1 | group=2 /*对满足group=1或group2条件的观察值进行分析if group=3 /*对满足group不等于3条件的观察值进行分析if group=1 & sex=0 /*对满足group=1,同时sex=0条件的观察值进行分析,(4)in range,指定观察值的范围,对在范围内的观察值作分析。下列语句是合法的
26、:in 1/25 /*对观察值范围为125号 的观 察值作分析in 26/44 /*对观察值范围为2644号的 观察值作分析in 26/1 /*对观察范围为26最后(last)的观察值作分析 in -5/1 /*对最后5个观察值进行分析,这些公共选择项在很多命令中都可选用 ,本书在介绍各命令时将省去这些公共选择项。,另外一个选择项,也可用于很多命令,它就是for。例如,在作回归分析时,自变量为x1,x2,x22共22变量,而因变量有y1,y2,y10,z1,z5共15个变量。欲分别建立每个因变量yi和zi与x1,x2,x22的回归,则需要写15个命令。而用for选择项只需一个命令即可:for
27、y1-y10 z1-z5 :regressx1-x22 命令中,for后面的变量是选定的,regress是作回归分析,是替换符,Stata自动用for语句指定的变量逐一替换作为因变量,而自变量为x1-x22。,又如,for y*:summ ,detail 表示,对以y字母开始的变量作详细的统计描述。,第二章 Stata 的函数和变量,Stata具有丰富的函数功能。它不仅提供了一般计算机语言和统计软件包所具有的数学函数和字符串函数,而且还提供了很多有用的统计函数、特殊函数,以及许多独具特色的系统变量。借助于这些函数和系统变量,用户可以得心应手地使用Stata,充分发挥自己的聪明才智,提高工作效率
28、。,2.1 Stata 的 函数,为讲述方便,先引入指令display。display使我们的计算机行使简单的计算功能,例如,要计算3+22 :.display 3+227结果是7有了这个命令后,下面的讲述和练习就容易了。,一、 数学函数,1. abs(x) /*绝对值函数2. exp(x) /*指数函数3. log(x) /*自然对数4. log10(x) /*常用对数5. sqrt(x) /*平方根函数6. sin(x) /*正弦函数7. cos(x) /*余弦函数8. atan(x) /*反正切函数9. lngamma(x) /*整数x的t函数之对数ln(x-1)!10. mod(x,y
29、) /*模数函数获得x除以y的余数,如display mod(25,3),结果将 是1。,二、 统计函数,1.normprob(df,x) /*正态分布的下侧概率函数 2. invnorm(p) /* 正态分布的分位数 3. Binomial(n,k,p) /* 二项分布函数,表示n次试验中成功次数k的概 率,p为成功概率 4.invbinomial(n,k,p) /*二项分布的逆函数,表示n次试验中成功次数k的 概率,本函数给出的是每次成功的概率。当p0.5时,概率p满足Pr(xk)=1-p 5.tprob(df,t) /*自由度为df的t分布双侧累积概率Pr(|t|t) 6.invt(df
30、,P) /*自由度为df 的t分位数:invt(df,1-tprob(df,t)=t 7.fprob(df1,df2,f) /*自由度为df1,df2的F分布的上侧累积概率8.invfprob(df1,df2,p) /*F分布的分位数。如果fprob(df1,df2,F) =p,则invfprob(df1,df2,p)F 9.chiprob(df,x) /*自由度为df的2 分布的上侧累积概率,10.nchi(df,L,x) /*非中心2 分布的上侧概率。1=df=200,0=L=1000 11.invnchi(df,L,p) /*非中心2 分布的分位数如果nchi(df,L,x)p,则inv
31、nchi(df,L,p)x 12.gammap(a,x) /*不完全gamma函数P(a,x) 13.invgammap(a,p) /*不完全gamma函数P(a,x)的逆函数:如果gammap(a,x)p,则invgammap(df,p)x 14.ibeta(a,b,x) /*不完全beta函数I_x(a,b) 15.uniform() /*产生(0,1)内的均匀分布的伪随机数。每次使用时最好用命 令“set seed”设置随机数种子,以打乱伪随机数的固有顺序。 16.invnorm(uniform() /*产生均数为0,标准差为1的标准正态分布随机数。 17.+invorm(uniform
32、()/*产生均数为,标准差为的正态分布随机数。,三、 字符串函数,以下用s表示一个字符串,n表示一个数值。 1.length(s) /*长度函数,计算s的长度,如,disp length(“ab”)的结果是2 2.substr(s,n1,n2) /*子串函数,获得从s的n1个字符开始的n2 个字符组成的字符串,如,disp substr(“abcdef”,2,3)的结果是“bcd” 3.string(n) /*将数值n转换成字符串函数,如,disp string(41)+ “f ”的结果是“41f” 4.real(s) /*将字符串s转换成数值函数,如,disp real(“5.2”)+1的结
33、果是6.2 5.upper(s) /*转换成大写字母函数,如,dispupper(“this”)的结果是“THIS”,6.lower(s) /*转换成小写字母函数,如,displower(“THIS”)的结果是“this” 7.index(s1,s2) /*子串位置函数,计算s2在s1中第一次出现 的起始位置,如果s2不在s1中,则结果为0。如,disp index(“this”,”is”)的结果 是3,而 index(“this”, “it”)的结果是0 8.trim(s) /*去除字符串前面和后面的空格 9.Itrim(s) /*去除字符串前面的空格 10.rtrim(s) /*去除字符串
34、后面的空格,四、 特殊函数,1.符合函数sign(x) x0时取1,x0时取-1,x0时取0。 2.取整函数int(x) 去掉x的小数部分,得到整数。int(x+0.5)是对x四舍五入取整,int(x+ sign(x)/2)产生与x最近的一个整数。 3.求和函数sum(x) 很常用,获得包括当前记录及以前的所有记录的x的和。缺失值(missing value)当0处理。 4.最大值函数max(x1,x2,xn) 忽略缺失值。 5.最小值函数min(x1,x2,xn) 忽略缺失值。 6.分组函数group(x) 将数据分成大小近似相等的x 个子样本,分别给予组编号1,2,x。 7.浮点转换函数f
35、loat(x) 将x转换成浮点表示法。Stata是用浮点形式存储数据的,因此,在将变量与具体数值进行比较时,最好先将具体数值转换成浮点形式。例如,当x为1.1时,表达式x=1.1的结果可能不真,因为表达式左边的x是浮点形式,右边的1.1是双精度形式,二者相差0.00000002384,而改写为xfloat(1.1)后,结果就正确了。当某个数值没有有限的二进制表达时,常常会出现这种情况。,8.条件函数cond(x,a,b)x可以是一个条件,x非0(条件成立)时取a, x为0(条件不成立)时取b。 9.归组函数recode(x,x1,x2,,xn ) 其结果可表达如下:x1 如果x xn-1缺失值
36、 如果x为缺失值 10.自动归组函数autocode(x,ng,xmin,xmax) 自动将区间(xmin,xmax) 分成ng个等长的小区间,其结果是包含x值那个小区间的上界值。其作用 与归组函数相同,1.6 Stata 的格式文件、变量和系统变量,一、文件名和文件,Stata的格式文件命名规则与Dos中文件的命名规则相同,文件名以字母开头,不超过8个字符,不能用标点符号,及Dos中的通配符。Stata共有六种格式文件,其默认的后缀(文件扩展名)见表2.1。,表2.1 Stata的文件类型文件扩展名 文件特性 Dct ASC数据字典文件 raw ASC数据文件 do 命令文件dta Stat
37、a数据文件log Stata结果文件gph Stata图形文件xp Stata的xp数据文件,二、 变量名和变量类型,与文件名一样,Stata的变量名可以是英文字母(AZ和a-z),数字(09),下划线(_),可区分的有效长度=8。Stata中英文字母的大小写是有区别的。此外,以下是Stata的关键词或系统变量,不得用作用户变量名:_all _n _N _skip _b _coef _cons _pi _pred _rc_weight double float long int in if using withStata的用户变量有数值变量和字符串变量两种。字符串长度可以多达254,但只有前面
38、80个才有效。,三、 系统变量,1._coef变量名或_b变量名系统函数 拟合方差分析、回归分析、Cox、logit或probit等模型后,利用系统函数可得到指定变量在当前拟合模型中的系数。在方差分析后,中括号 内的变量可以是某种处理的某一水平。例如,_coefdrug2表示药物的第二水平的系数,_coefdrug2*disease1表示药物的第二水平与第一种疾病的交互作用项的系数;在多类结果的logistic回归后,中括号 内的变量可以是变量在某一类中的回归系数(见第十五章)。,2._cons 常数函数 直接使用时总是1,而_b_cons的结果是当前拟合模型的常数项。3._N 数据库中观察值
39、的总个数。4._n 当前观察值的位置。5._pi 圆周率的数值6._rc 最近一次capture命令返回代码的数值,四、 结果变量,除此以外,Stata还提供了一个独具特色的结果变量_result(#),该变量实际上是一个系统变量,但由于其特殊性和重要性,专门把它列为一节讲述。,第一章已讲到,Stata有许多其它软件所没有的优点,其中一个优点是它的显示结果非常简明、清晰,并将用户可能用于构造新变量的分析结果存于系统变量_result(#)下,这就为用户编制批处理命令文件进行连续分析处理数据创造了条件。,_result(#)括号内的可以是一个具体数值,也可以是一个算术表达式,变化范围根据使用时的
40、环境而变化,如在回归分析之后,n可以是1,2,3,4或5,每一个数值对应一个统计指标,详见表格2.2。,表2.2 _result(n)的使用环境及相应的统计指标 Correlate1.观察值个数 4.第一和第二个变量的相关性或协方差2. 5.1或第二个变量的方差3.1或第一个变量的方差 count1.计数结果 inspect1.观察值个数 5.为负整数的观察值个数 2.为负数的观察值个数 6.为正整数的观察值个数3.变量个数 7.唯一数值或缺失值的个数4.为正数的观察值个数 8.不能辨别是数值还是缺失值的个数,表2.2 (续) _result(n)的使用环境及相应的统计指标 describe
41、or describe using1.观察值个数 4.观察值的最大个数2.变量个数 5.变量的最大个数3.当前宽度 6.最大宽度 cox,logit,or probite1.观察值个数 3.模型的自由度2.似然对数 4.2 值 anova,regress,or stepwise1.观察值个数 6.F统计量2.模型的平方和 7.R2 3.模型的自由度 8.调整R24.残差平方和 9.误差均方根5.残差的自由度,表2.2 (续) _result(n)的使用环境及相应的统计指标 Factor1.观察值个数 7.第1个特征根2.保留因素的个数 8.第2个特征根3.相对于无因子时的2检验 4.相对于无因
42、子时的2检验的自由度 5.相对于更多因子时的2检验 19.第13个特征根6.相对于更多因子时的2检验的自由度 Oneway1.观察值个数 5.组内自由度2.组间平方和 6.F统计量3.组间自由度 7.Bartlett2检验4.组内平方和 8. Bartlett2检验的自由度,表2.2 (续) _result(n)的使用环境及相应的统计指标 Summarize1.观察值个数 9. 第25百分位点(选detail时才有效)2.权重之和 10.第50百分位点(选detail时才有效)3.均值 11.第75百分位点(选detail时才有效)4.方差 12.第90百分位点(选detail时才有效)5.最
43、小值 13.第95百分位点(选detail时才有效)6.最大值 14.偏度系数(选detail时才有效)7.第5百分位点(选detail时才有效)15.峰度系数(选detail时才有效)8.第10百分位点(选detail时才有效),表2.2 (续) _result(n)的使用环境及相应的统计指标 Tabulate1.观察值个数 8.Fisher确切概率2.行数 9.Cramer V统计量3.列数 10.gamma统计量4.Pearson2检验 11.gamma统计量的ASSE5.Pearson2检验的显著性 12.tau-b统计量6.l.r. 2检验 13.tau-b统计量的ASSE7.l.r
44、. 2检验的显著性,表2.2 (续) _result(n)的使用环境及相应的统计指标 Test2.模型的平方和 5.残差的自由度3.模型的自由度 6.F统计量4.残差平方和(只在anova后才有效),2.3 Stata 的算术运算和关系运算,一、 算术运算,Stata的加、减、乘、除及乘方运算符依次是+、*、/和。如:x/y(x-y) xy 应表达为(x/y(xy))/(x*y),二、 字符串运算,字符串只有“加”运算,“this”+“is”,结果是“thisis”。,三、 关系运算,Stata的关系运算符有:(大于)、(大于等于)、(小于)、(小于等于)、(不等于)、(等于),在Stata的
45、条件语句中“等于”要用两个等于号表示。关系运算的取值是真(取值1)或假(取值0)。关系运算不仅对数值有效,也可用于字符串。字符串的关系运算是比较字符串在ASC码中的先后顺序而不是数值的大小。此外,Stata规定所有的大写字母的位置都在小写字母的前面,而缺失值在所有非缺失值的后面。,四、 逻辑运算,&(“与”)、|(“或”)、(“非”)是Stata的三个逻辑运算符。逻辑运算的结果也是真(取值1)和假(取值0)。,五、 运算优先顺序,(负),(非),/,(减),+,=,=,&,|。,六、 实例,表2.3给出了一些运算实例。在Stata状态键入disp再空一格键入表中第一列的表达式并按回车键,便可得到表中第二列的结果。,