1、医学数据处理与SAS软件应用 Medical data processing and the application of SAS,生物医学工程研究所 Add: 教学八楼三层东 Tel: 82035 Lecturer: 张玉华 Email: ,目录,第一章 概述 第二章SAS编程基础 第三章 建立数据集 第四章 数据步程序设计 第五章 描述性统计分析与作图 第六章 二项分布和Poisson分布 第七章 单组或两组资料均数的比较 第八章 方差分析 第九章 卡方检验 第十章 基于秩次的非参数检验 第十一章 相关与回归,数据步Data,过程步Proc,资料类型,定性数据(qualitative da
2、ta) 将事物按其不同的属性加以归类,从而得知每一类事物的数量. 又称分类数据(categorical data) 、计数资料(counting data) 。男、女住院病人数、不同职业住院病人数等 二项分类数据(binary data) 把每一个体分配到两种可能的类别中的一类里。性别,婚姻状况划为“已”婚或“未”婚。数据输入计算机时,通常须经过量化处理(即编码)后,再将编码输入。如对性别指标的编码规则可事先约定男为0、女为1。 多项分类数据(polytomous data) 是对具有多类属性的事物进行分类所得到的数据。如婚姻状况细分为:未婚、在婚、离异、丧偶及再婚等;血型。 有的属性指标其分
3、类是无序的,如婚姻状况、血型、职业、民族等,即各类之间不存在等级或程度上的差别,彼此间只有质的差别。有的属性指标其分类是有序的,如病情的多项分类(一般分轻、中、重、危重等)中,各类之间存在等级或程度上的差别。,资料类型,定量数据(quantitative data) 通常是使用仪器或某种尺度进行测定或衡量所取得的数据。如身高、体重、血压等指标是使用仪器进行测量而得到的数据;年龄这一指标则是以历法作为尺度,对人的年龄加以衡量而得到的数据。 有时根据研究的需要,可以将定量数据变换成有序分类数据,即等级化数据。,参数和统计量的区别,参数(parameter) :指总体的统计指标,如总体均数、总体率等
4、。总体参数是固定的常数。多数情况下,总体参数不易知道,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。 统计量(statistic) :是指样本的统计指标,如样本均数、样本率等。样本统计量可用来估计总体参数,称为参数估计值 。总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。,误差(error),误差(error)是指测量值(实际值)与真值(理论值)之差。由于医学领域所研究的变量通常是随机变量,不能保证获得绝对正确的数据,但所获数据的准确度(accuracy)和可靠度(reliability)却是必须考虑的。 准确度是指所测得的数据能否真正反映该变量的实际水
5、平。可靠度是指所测定的数据是 否能重复,如果调换另一位测定者去测定,是否可以测出相同或相似的结果。,误差(error)的种类,随机误差 (random error, chance error) 由于研究对象本身具有变异性,在测量工作中,即使仪器设备在使用前先经过严格校正,但每次测量后进行读数时也仍然会有误差。实际上不可能取得绝对准确的测定值。 随机误差的分布是有一定的规律可循的,所以随机误差的大小可以通过一定的方法计算出来。通过合理的统计学设计,可以有效地控制随机误差。 偏差(bias) 偏差是由非随机因素所造成的测定值与真值之间的差别。 引起偏差的原因很多,可由于对观察个体的选择不当,测量器
6、材设备未经校正或测定者操作失误等引起。科学研究应力求杜绝偏差,否则将会导致统计学推论不可信。,第五章 描述性统计分析与作图 Chapter 5 Statistical description and graphics,第五章 描述性统计分析与作图,5.1 常用统计描述过程FREQ 过程 MEANS过程 UNIVARIATE过程 5.2 SAS的高级绘图功能 GSLIDE过程GCHART过程 GPLOT过程 5.3 均数可信区间的估计 5.4 正态性检验,garbage in, garbage out,5.1 常用统计描述过程,概述 FREQ 过程 MEANS过程 UNIVARIATE过程,概述
7、可用于统计描述的SAS过程,11章,概述计量资料常用统计指标的分类,位置度量(描述一组数据的集中趋势,可作为总体的一个代表值) 均数mean、中位数median、众数mode、几何均数geometric mean和分位数percentile 变异度量(描述资料的离散趋势) 全距range 、四分位间距quartile interval、方差variance、标准差standard deviation和变异系数coefficient of variation 分布度量(描述资料的分布形态) 偏度(skewness):对称性对称分布=0,正偏态分布 0,负偏态分布0,平阔峰0,概述计量资料常用统计
8、指标定义,中位数(median,M):把一组变量值按大小顺序排列,位置居中的那个数值(若n为奇数)。 百分位数(percentile):把一组数据从小到大排列,分割成100等份,每等份含1%的观察值,分割界限上的值就是百分位数,用符号Px表示。中位数即P50。 几何均数(geometric mean,G),是将n个观察值X的乘积再开n次方所得的根。等比或对数变换后呈正态资料 众数(mode)是一组观察值中出现频率最高的那个观察值 全距(range,R),极差,一组观察值中最大值与最小值之差。,概述计量资料常用统计指标定义,四分位数间距(quartile,Q),是上四分位数Qu(P75)和下四分
9、位数QL(P25)之差。 方差(variance),取离均差平方和(sum of squares of deviations from mean,SS)的均数标准差(standard deviation)是方差的平方根。 变异系数(coefficient of variation,CV),标准差的另一表示方式,即将标准差转化为均数的倍数,以百分数的形式表示。常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。,概述计量资料常用统计指标的选用,正态分布资料:选用均数和标准差表示位置和变异度量 对数正态分布或数据成倍数关系的资料:表示位置和变异度量应用几何均数和标准差 若资料为极度
10、偏态分布、未知分布或分布不规则以及一端或两端无界资料时,应用中位数和四分位数间距表示位置和变异度量指标,概述计量资料常用统计指标选用(续),在两组数值变量变异度比较中,当变量的单位不同或两组的均数相差较大时,应用变异系数作变异性度量的指标。 数据是否服从正态分布或对数正态分布,可计算分布度量指标来检验。 MEANS过程和UNIYARIATE过程可基本满足数值变量的各类统计指标的计算。,5.1.1 FREQ 过程 功能简介,可生成一维至n维的频数表和交叉表。 对于二维表,计算检验统计量和关联度。 对n维表,可进行分层分析,计算第一层和交叉层的统计量。 能将结果输出到SAS数据集中。,频数表的用途
11、,频数表可以揭示资料分布类型和分布特征 便于选取适当的统计方法,进一步计算指标和统计处理 便于发现某些特大或特小的可疑值,FREQ过程由下列语句控制:PROC FREQ option-list;TABLES request(s) ; WEIGHT variable ; BY variable-1 . variable-n ; OUTPUT statistic-keywords ;,5.1.1 FREQ 过程 语句说明,PROC-Procedure,5.1.1 FREQ 过程 语句说明 1. PROC FREQ 语句,格式: PROC FREQ option-list; 常用的选择项有: DAT
12、A=SAS-dataset (SAS 数据集) PAGE 要求FREQ每页只输出一张表。否则按每页行数允许的空间输出几张表。,5.1.1 FREQ 过程 语句说明 2. TABLES 语句,格式:TABLES request-list ; request-list(请求式):由一个或多个由“*”号联连起来的变量组成。一维频数表:在TABLES语句中简单地命名这一变量。例: PROC FREQ;TABELS X;产生变量X的每一水平的一维频数表。,5.1.1 FREQ 过程 语句说明 2. TABLES 语句(续),二维频数表:用星号“*”连接两个变量 第一个变量的值形成表的行 第二个变量的值形
13、成表的列例: PROC FREQ;TABLES A*B;产生一个列联表, A的值构成表的行,B的值构成表的列。,5.1.1 FREQ 过程 语句说明 2. TABLES 语句(续),n 维列联表:用“*”联接给定的三个或n个变量名。 最后一个变量形成表的列 倒数第二个变量的值形成表的行 其它变量的每一级水平(或水平组合)形成一层,且每层都形成分立的列联表。例: PROC FREQ;TABLES C*A*B; FREQ过程可有多个TABLES语句,每个TABLES语句也可以有多个请求式。 如果没有TABLES语句,FREQ过程对数据集中的每一变量都生成一个一维频数表。 TABLES C A B;
14、,拼图上的奇妙女人,埃斯切尔的不可能的盒子,疯狂的螺帽:你知道直钢棒是怎样神奇地穿过这两个看似互成直角的螺帽孔的吗?,5.1.1 FREQ 过程 语句说明 2. TABLES 语句(续),请求式常用书写方法(左栏与右栏意义)TABLES A*(B C); TABLES A*B A*C;TABLES (A B)*(C D); TABLES A*C A*D B*C B*D;TABLES (A B C)*D; TABLES A*D B*D C*D;TABLES (A-C); TABLES A B C;TABLES (A-C)*D; TABLES A*D B*D C*D;,不要求,5.1.1 FREQ
15、 过程 语句说明 2. TABLES 语句(续),option-list (选择项列表,在TABLES 语句的斜杠(/)后面使用) 一般选择项: MISSING:象分析非缺项值那样分析缺项值,且在百分数计算和其他统计计算时包括缺项值。若没有规定该选择项,则FREQ过程产生的列联表中每一变量的缺项值从表中删除,但缺项的总频数在每个表下面输出。 LIST:不用列联表而是用列表格式打印二维或多维表格。当需要统计检验和联合测量时,不能使用此选项。,5.1.1 FREQ 过程 语句说明 2. TABLES 语句(续),请求统计分析的选择项 CHISQ: 请求卡方(2 )检验和基于卡方的有关测量。检验包括
16、Pearson卡方、似然比卡方和 Mantel-Haenszel卡方。测量值包括斐( phi)系数,列联系数和克莱姆系数V(Cramerv )。对于 2*2 表也包括费雪尔(Fisher)精确检验。 FISHER:要求对大于2*2的表进行Fisher精确检验。 其它:此外还有CMH、CMH1、CMH2、ALL、MEASURES、ALPHA= 等选择项。,5.1.1 FREQ 过程 语句说明 2. TABLES 语句(续),请求增加表格信息的选择项 EXPECTED:请求打印在独立(或齐性)假设下的期望格频数 DEVIATION:请求打印出各格的格频数和期望值的偏差 CELLCHI2:请求打印出
17、每一格对总2 (卡方)统计的贡献 CUMCOL:请求在格中打印累计列百分数 MISSPRINT:要求打印缺项值频数 SPARSE: 使过程打印出在请求表中各个变量水平的所有可能组合的信息。即使某些水平的组合不在数据中,此选择项影响在LIST选择项下的打印输出和输出的数据集,5.1.1 FREQ 过程 语句说明 2. TABLES 语句(续),禁止打印选择项(请求减少表格信息的选择项) NOFREQ: 禁止打印列联表中的格频数。 NOPERCENT:禁止打印列联表中的百分数。 NOROW:禁止打印列联表中各格的行百分数。 NOCOL:禁止打印列联表中各格的列百分数。 NOCUM: 禁止打印一维频
18、数表和用LIST格式的频数表的累计频数和累计百分数。 NOPRINT:禁止打印表格,但由CHISQ、MEASURES、CMH和ALL所指定的统计值例外。,5.1.1 FREQ 过程 打印输出内容,一维频数表,打印下面统计量: FREQUENCY 每种值的频数 CUMULATIVE FREQUENCY 累计频数 PERCENT 该值占总数的百分数 CUMULATIVE PERCENT 累计百分数,5.1.1 FREQ 过程 打印输出,二维表二维表可以以列联表(缺省)和清单(指定LIST选择项)的形式打印。列联表的每个表格包含下列统计量: FREQUENCY 频数。 PERCENT 代表该格的频数
19、占总频数的百分数 ROW PCT 行百分数,该格频数占该行总频数的百分数 COL PCT 列百分数,该格频数占该列总频数的百分数 如指定CHISQ选择项,对每个二维表打印联合检验和测量。,5.1.1 FREQ 过程 应用实例 例5-1-1-1,对101名正常成年女子的血清总胆固醇(mmolL)含量的资料作频数表,该表的最低下限为2.30,组距为0.3。 资料: 2.35 4.78 3.91 4.15 3.60 4.50 3.30 4.06 4.15 3.58 2.70 4.83 3.92 4.17 3.66 4.52 4.12 3.55 4.59 3.78 5.03 3.26 3.96 3.9
20、5 3.29 3.32 3.92 4.19 4.80 4.06 4.52 4.17 5.25 4.95 3.52 4.26 3.78 3.70 2.78 3.26 3.18 5.08 3.57 3.98 3.80 3.86 4.28 4.50 2.91 4.84 4.21 3.95 4.59 4.55 3.51 3.27 4.73 5.26 4.36 4.34 4.61 3.87 3.58 4.13 4.28 4.91 3.95 4.23 3.75 4.57 3.51 3.25 3.84 4.75 4.48 5.35 3.58 2.68 3.41 3.07 3.19 5.13 3.98 3.0
21、0 3.84 3.63 3.99 4.33 4.26 3.50 3.68 4.53 4.83 4.13 3.93 3.02 5.71 5.35 4.41 3.87 3.91,5.1.1 FREQ 过程 应用实例 例5-1-1-1,程序: Data prg5_1;Input x;low=2.3;dis=0.3;z=x-mod(x-low,dis);,函数mod(x,y) :计算x/y的余项. Modulus 取模,商(x-low)/dis:x所在组段序号 余(x-low)/dis:x与所在组段下限的差值,5.1.1 FREQ 过程 应用实例 例5-1-1-1 (续),Cards; 2.35 4.
22、78 3.91 4.15 3.60 4.50 3.30 4.06 4.15 3.58 2.70 4.83 3.92 4.17 3.66 4.52 4.12 3.55 4.59 3.78 5.03 3.26 3.96 3.95 3.29 3.32 3.92 4.19 4.80 4.06 4.52 4.17 5.25 4.95 3.52 4.26 3.78 3.70 2.78 3.26 3.18 5.08 3.57 3.98 3.80 3.86 4.28 4.50 2.91 4.84 4.21 3.95 4.59 4.55 3.51 3.27 4.73 5.26 4.36 4.34 4.61 3.
23、87 3.58 4.13 4.28 4.91 3.95 4.23 3.75 4.57 3.51 3.25 3.84 4.75 4.48 5.35 3.58 2.68 3.41 3.07 3.19 5.13 3.98 3.00 3.84 3.63 3.99 4.33 4.26 3.50 3.68 4.53 4.83 4.13 3.93 3.02 5.71 5.35 4.41 3.87 3.91 Proc freq;tables z; Run;,5.1.1 FREQ 过程 应用实例 例5-1-1-1 (续),程序说明: 创建数据集prg5_1,用low定义最低下限,用dis定义组距 用mod(x,
24、y)函数(函数功能是计算x/y的余项)新建变量z,该变量就是将原始变量转化成该数据所在组段的下限的值 用FREQ过程计算下限值的频数,则得到各个组段的频数。,5.1.1 FREQ 过程 应用实例 例5-1-1-1 (续),运行结果:第1列z的变量值是各组段的下限值,从结果可以看出,3.8-4.1组段的频数最多,向两侧逐渐减少。,5.1.1 FREQ 过程 应用实例 例5-1-1-2 (MISSING、LIST选择项的应用),程序: DATA FREQ1;INPUT A B ; CARDS; 1 2 2 1 . 2 . . 1 1 2 1 PROC FREQ;TABLES A *B;TITLE
25、TWO WAY CONTINGENCY TABLE;,5.1.1 FREQ 过程 应用实例 例5-1-1-2,PROC FREQ;TABLES A *B/MISSING;TITLE TWO WAY CONTINGENCY TABLEWITH MISSING STATEMENT; PROC FREQ;TABLES A *B/LIST;TITLE TWO WAY FREQUENCY TABLE;RUN;,5.1.1 FREQ 过程 应用实例 例5-1-1-,例5-1-1-2 输出结果,5.1.1 FREQ 过程 应用实例 例5-1-1-,5.1.1 FREQ 过程 应用实例 例5-1-1-2,5.
26、1.1 FREQ 过程 应用实例 补充,SCORE为含学生成绩的数据集,用VFMT.格式把学 生的平均成绩分成A、B、C三等,由FREQ过程产生 每一分数段的学生人数和占总数的百分数等信息。 DATA SCORE;LENGTH NAME $ 12;INPUT NAME SEX GROUP $ T1-T3 ;V=MEAN(OF T1-T3);CARDS;WANGDONG 1 1 90 70 60 XUEPING 2 2 85 95 88,5.1.1 FREQ 过程 应用实例 补充,PROC FORMAT;VALUE VFMT LOW-80=C80-90=B90-HIGH=A; PROC FREQ
27、 ;FORMAT V VFMT.;TABLES V; RUN;,5.1.2 MEANS过程功能简介,MEANS过程用来对数据集中的数值变量计算简单的描述性统计量。 该过程对数据集中由VAR语句指定的一些数值变量的全部非缺失的观测计算简单的描述统计量。 如使用BY语句,可把数据按BY变量分为几个观测组,并对每个观测组计算数值变量的描述统计量。在BY组内还可用CLASS语句进一步分组。 MEANS过程可将若干统计量的计算结果输出到指定的SAS数据集,供进一步分析计算时调用。,5.1.2 MEANS过程语句说明,MEANS过程由下列语句控制: proc means 选择项; var 变量名表; by
28、 变量名表; class 变量名表; freq 变量名表; output out=SAS数据集 统计量关键词=变量名表;,格式:proc means 选择项; 常用的选择项: data=sas数据集名 noprint:不打印任何描述性统计量。多用在将这些描述性统计量输出到SAS数据集时。 maxdec=n: 规定输出结果的小数部分的最大位数(n取值为08)。 alpha=value: 设置计算置信区间的置信水平,01。 默认值为 alpha=0.05均值的95置信区间。 统计量关键词: 指定需要输出的统计量,缺省时,输出n、mean、std、min、max五个统计量。,5.1.2 MEANS过
29、程语句说明 . proc means语句,Decimal 小数,5.1.2 MEANS过程语句说明 . var语句,格式: var 变量名表; 功能:指定需要计算的数值变量及次序。 若省略该语句,数据集中除去by、class、freq语句中列出的变量外,所有数值变量依次被分别计算。,var variable,5.1.2 MEANS过程语句说明 . by语句,格式: by 变量名表; 使用by语句后,MEANS过程先按by变量的取值形成多个观测组,然后按组分别计算各组对应的描述性统计量。 注意在使用by浯句前,要求对by 变量已排过序。,5.1.2 MEANS过程语句说明 . class语句,格
30、式: class 变量名表; 其作用与by语句类似,用class变量定义分类变量,形成观测组,分别计算各观测组的描述性统计量。所不同的是class语句不要求该变量事前已排序,而且结果在输出时,按class变量的不同取值,以单表的形式输出。,5.1.2 MEANS过程语句说明 5. freq语句,格式: freq 变量名表; 该语句指定一个数值型的频数变量,它的值表示输入数据集中相应观测出现的频数,该变量的值应为正整数。 若freq1或缺失,相应的观测不参加计算若此值不是正整数则取整数部分。 freq语句仅当输入数据集为频数表资料时才使用。,5.1.2 MEANS过程语句说明 6. output
31、语句,格式: output out=SAS数据集 统计量关键词=变量名表; 该语句要求MEANS过程将指定的统计量,以指定的名称输出到新的SAS数据集中。 “OUT=SAS数据集”用于命名输出数据集名,可用两级数据集名建立永久SAS数据集。 “统计量关键词=变量名表”用以规定在新数据集中所包含的统计量,并对这些统计量的变量命名。,5.1.2 MEANS过程程序实例 例5-1-2-1,用MEASN过程计算例5-1-1-1数据的描述性统计量。 程序: proc means data=prg5_1;var x; run; 程序说明:对VAR语句所指定的变量的全部非缺失值的观测计算简单的描述性统计量。
32、,5.1.2 MEANS过程程序实例 例5-1-2-1,结果说明:结果中首先会指明本次分析变量是什么,然后给出一些简单的描述性统计量,包括没有缺失值的例数(N)、均数(Mean)、标准差(Std Dev)、最小值(Minimum)和最大值(Maximum)。,5.1.2 MEANS过程程序实例 例5-1-2-2,其他一些统计量: stderr:均数的标准差,即标准误。 sum:和 variance:方差 cv:变异系数 nmiss:缺失变量值的观测的例数 range:极差 uss:平方和 css:离均差平方和,t:检验假设为总体均数为0的student t检验的校验统计量t值 prt:总体均数
33、为0的检验假设中,t值所对应的概率值(P值) sumwgt:权重变量值的和 skewness:偏度系数 kurtosis:峰度系数 clm:双侧95可信区间的下限(lclm)和上限(uclm),uncorrected sum of square x2,Confidence Limits for mean,5.1.2 MEANS过程程序实例 例5-1-2-2(指定输出统计量),对例5-1-1-1的数据指定输出统计量 程序 : proc means data=prg5_1 n mean std stderr cv clm;var x; run;,5.1.2 MEANS过程程序实例 例5-1-2-2
34、,补充对例5-1-1-2的分析: Proc means data=freq1 n nmiss uss css var;var a; Run;,5.1.2 MEANS过程程序实例 例5-1-2-3(频数表资料,用freq语句),将例5-1-1-1的数据编制成频数表的资料进行描述性统计。,5.1.2 MEANS过程程序实例 例5-1-2-3程序:,data prg5_4;input x f; cards; 2.45 1 2.75 3 3.05 6 3.35 8 3.65 17 3.95 20 4.25 17 4.55 12 4.85 9 5.15 5 5.45 2 5.75 1 proc mean
35、s;freq f;var x; run;,x:表示各个组段的组中值 f:表示相应组段的频数,5.1.2 MEANS过程程序实例 例5-1-2-3(频数表资料,用freq语句),程序说明:在创建数据集时应设置两个变量,一个变量表示各个组段的组中值,另一个变量为相应组段的频数。在MEANS过程中,用freq语句指明一个变量为频数变量,本例为f,用var语句指明哪个变量为组中值变量,本例为x。,5.1.2 MEANS过程程序实例 例5-1-2-3,结果说明:MEANS过程给出的结果中,每个统计量均在小数点后保留7位有效数字。用户可以通过使用MAXDEC浯句改变结果的有效位数。,5.1.2 MEANS
36、过程程序实例 例5-1-2-4,将上个程序的结果保留2位有效数字的程序: proc means maxdec=2;freq f;var x; run;,5.1.2 MEANS过程程序实例 例5-1-2-5(求几何均数),69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布结果如下,求其平均抗体滴度。SAS系统无法直接计算几何均数,必须编写SAS程序,用MEANS过程间接计算。,几何均数(geometric mean),是将n个观察值X的乘积再开n次方所得的根。若对各观察值X取对数,对数值均值取反对数即为G。 适用对象: 当一组观察值不呈正态分布、且其差距较大时,若用均数表示其
37、平均水平会受少数特大或特小值的影响; 数值按大小顺序排列后,各观察值呈倍数或近似倍数关系(等比); 对数正态分布资料。 如抗体的滴度、药物的效价等。 计算方法: 直接计算法 当观察例数不多(如n小于30)时 频数表法 当观察例数很多时采用,5.1.2 MEANS过程程序实例 例5-1-2-5,data prg5_8;input x f ;y=log10(x); cards; 10 4 20 3 40 10 80 10 160 11 320 15 640 14 1280 2 proc means noprint;var y;freq f;output out=b mean=logmean;,da
38、ta c;set b;g=10*logmean; proc print data=c;var g; run;,5.1.2 MEANS过程程序实例 例5-1-2-5,程序说明(4个步骤): 创建数据集prg5_8,有3个变量,x为抗体滴度的倒数,f为某抗体滴度所对应的频数,y是x的对数。 用MEANS过程计算y的描述性统计量,将计算所得到的均数输出到数据集b中,用变量名logmean表示。 新建数据集c,调用数据集b中的内容,新产生变量f,该变量的值为变量logmean的反对数。 将数据集c的结果显示在OUTPUT窗口内。,5.1.2 MEANS过程程序实例 例5-1-2-5,结果显示这组数据的
39、几何均数为150.641,即平均抗体滴度为1:150.641。,DATA SCORE;LENGTH NAME $ 12;INPUT NAME SEX GROUP $ T1-T3 ; CARDS; SUNHONG 2 3 89 97 87 ZHAOBIN 2 3 66 98 86 HUANGSHAN 2 3 67 75 76,5.1.2 MEANS过程程序实例 补充 CLASS、BY 区别,proc means;var t1 t2 t3;class group;title statistics with class variable; proc sort;by group; proc means
40、;by group;var t1 t2 t3;title statistics with by variable; Run;,5.1.2 MEANS过程程序实例 例5-1-2-5,5.1.3 UNIVARIATE过程功能简介,完成与MEANS过程类似的基本统计量计算 描述单变量极端值 计算分位数 生成若干个描述变量分布的统计图(如茎叶图、盒式图、正态概率图等)和频数表 对资料进行正态性检验和对总体均数是否为零进行假设检验(t检验、中位数检验及符号秩和检验)等。,5.1.3 UNIVARIATE过程语句说明,UNIVARIATE过程由下列语句控制 proc univariate 选择项; var
41、 变量名表; by 变量名表; freq 变量名表; output out=SAS数据集 统计量关键词=变量名表;,5.1.3 UNIVARIATE过程语句说明 1. proc univariate 语句,格式:proc univariate 选择项; 常用的选择项有: data=sas数据集名 noprint:同MEANS过程。 freq:要求生成包括变量值、频数、百分比和累积百分比的频数表。 normal:计算变量是否服从正态分布的假设检验的统计量和P值。 plot:要求生成茎叶图、盒式图和正态概率图。,5.1.3 UNIVARIATE过程语句说明 2. output语句,格式: outp
42、ut out=SAS数据集 统计量关键词=变量名表; 统计量关键词除在MEANS过程中介绍的之外,还有: Q3:上四分位数或75分位数。 Q1:下四分位数或25分位数。 QRANGE:四分位数间距,即Q3-Ql。 P1(P5,P10,P90,P95,P99):为第1(x)分位数。 MSIGN:符号统计量。 PROBM:大于符号统计量的绝对值的概率。 SIGNRANK:符号秩统计量。 PROBS:大于符号秩统计量的概率。 NORMAL:正态性检验统计量。 PROBN:数据来自正态分布的概率值。,5.1.3 UNIVARIATE过程语句说明 2. output语句,若要计算任意的百分位数,可在OU
43、TPUT中使用下列选择项: PCTLPTS=百分位数:指明要计算的百分位数。 PCTLNAME=输出变量名的后缀:一般用来注明所要计算的是哪个百分位数。 PCTLPRE=输出变量名的前缀:一般用来注明是计算哪个变量的百分位数。 以上三项需要一起结合使用。,PCTL : percentile, PTS: percents, PRE: prefix,5.1.3 UNIVARIATE过程语句说明 2. output语句,例: proc univariate; var testa testb testc; output pctlpts=33.3 66.7 pctlpre=a b c pctlname=
44、p33_3 p66_7; run; 程序执行后将对var语句中所列的三个变量testa,testb,testc分别计算33.3和66.7的百分位数值。变量名依次为ap33_3、ap66_7、bp33_3、bp66_7、cp33_3、cp66_7。(SAS规定变量名中不能出现“”这类符号,所以用“_”代表),5.1.3 UNIVARIATE过程语句说明,由于PROC UNIVARIATE语句中增加选项PLOT、NORMAL和FREQ,在OUTPUT语句中增加任意百分位数的计算功能,使其应用范围大大增加。 注意在UNIVARIATE过程中不使用CLASS语句,这与MEANS过程不同。,5.1.3
45、UNIVARIATE过程程序实例 例5-1-3-1,某地118名链球菌咽喉炎患者的潜伏期如下,试计算其简单描述性统计量。潜伏期(天) 12 24 36 48 60 72 84 96 108 患者人数 4 17 32 24 18 12 5 4 2,5.1.3 UNIVARIATE过程程序实例 例5-1-3-1,程序:data prg5_7;input x f ;cards;18 4 30 17 42 32 54 24 66 18 78 12 90 5 102 4 114 2;proc univariate;var x;freq f;run;,5.1.3 UNIVARIATE过程程序实例 例5-1
46、-3-1,5.1.3 UNIVARIATE过程程序实例 例5-1-3-1,5.1.3 UNIVARIATE过程程序实例 例5-1-3-1结果说明,首先输出执行过程的名称及处理变量的名称。 整个分析结果输出的统计量分5部分:矩、位置和变异性的基本测度、位置检验、分位数和极值的观测。 位置检验中给出的结果的意义: Student t检验:给出了假定总体均数为0的t值,Pr|t|给出了在H0成立的条件下,出现大于|t|的概率。 符号:给出检验总体均数为0的假设检验的符号统计量M的值,Pr=|M|给出在H0成立的条件下,大于等于|M|的概率。 符号秩:给出检验总体均数为0的假设检验的符号秩和统计量S的
47、值,Pr=|S|给出在H0成立的条件下,出现大于等于|S|的概率。,5.1.3 UNIVARIATE过程程序实例 例5-1-3-2,UNIVARIATE过程输出用户自己定义的百分位数,以例5-1-3-1的数据为例。 程序: proc univariate;var x; freq f;output out=pct pctlpre=p pctlpts=2.5 97.5; proc print data=pct; run;,5.1.3 UNIVARIATE过程程序实例 例5-1-3-2,结果说明: 数据集pct只有一个观测,而有两个变量,变量名分别为“p2_5”和“p97_5”,其值分别表示2.5和
48、97.5分位数的值。 这两个数值说明链球菌咽喉炎患者潜伏期的双侧95的参考值范围为18102天。(百分位数法 ),5.2 SAS的高级绘图功能,概述 GSLIDE过程 GCHART过程 GPLOT过程 其他SAS绘图方法,其他SAS绘图方法,用ASSIST视窗中的Graphics对话框 Analysis菜单中的级联菜单Interactive Data Analysis Analysis菜单中的级联菜单Analyst,打开数据集后,用Graph菜单,概述功能简介,SAS软件中的graph模块具有极强的绘图功能。它可以将统计分析的结果绘制成平滑的曲线图、精美多彩的条形图、直方图、三维图、等高(等值
49、)图以及各种立体几何图形,从而使结果生动形象。,概述GRAPH模块中的过程,概述GRAPH模块中的语句,5.2.1 GSLIDE过程,gslide过程可产生一页彩色报表,包括正文、标题和脚注;并可选择文字的字体、大小和颜色。 语句组成 proc gslide 选择项; titlen 标题内容; footnoten 脚注内容; note 正文的注解;,5.2.1 GSLIDE过程语句说明 1.proc gslide,格式:proc gslide 选择项; 常用的选择项有: gout=输出文件名:可以把图形存入某文件中; border:所画的边框框住所有的报表内容(包括标题、脚注在内); frame:只框住正文,标题与脚注在框外。 cframe=red:将文本边框的颜色定为红色。也可定义为blue、green等颜色。 Lframe=n:规定文本边框的线型n;n的取值范围为146,默认值为1。 wframe=m:规定文本边框的线型粗细,单位为像素点。,