收藏 分享(赏)

3章SAS系统功能基础.ppt

上传人:精品资料 文档编号:11288996 上传时间:2020-03-11 格式:PPT 页数:100 大小:1.43MB
下载 相关 举报
3章SAS系统功能基础.ppt_第1页
第1页 / 共100页
3章SAS系统功能基础.ppt_第2页
第2页 / 共100页
3章SAS系统功能基础.ppt_第3页
第3页 / 共100页
3章SAS系统功能基础.ppt_第4页
第4页 / 共100页
3章SAS系统功能基础.ppt_第5页
第5页 / 共100页
点击查看更多>>
资源描述

1、第三章 SAS系统的基础功能,3.1 SAS过程初步 3.2 制作列表报告 3.3 产生汇总表格 3.4 SAS图形入门 3.5 定量资料的统计描述,(数据集包含较少数据时),(数据集包含大量信息时),3.1 SAS过程初步,SAS过程步的一般形式:,PROC 过程名 DATA=输入数据集 选项;过程语句/选项;过程语句/选项; RUN;,SAS过程步中常用语句,VAR语句指定分析变量 MODEL语句指定统计建模的模型 BY语句指定分组变量 CLASS语句指定分类变量 OUTPUT语句指定输出结果存放的数据集 FREQ语句指定一个重复数变量 WEIGHT语句指定一个权重变量 ID语句指定用来标

2、识观测的变量 WHERE语句选择输入数据集的一个行子集进行分析 LABEL语句为变量指定一个临时标签 FORMAT语句为变量输出规定一个输出格式,VAR语句在过程步中用来指定分析变量,SAS过程步常用语句,MODEL语句在统计建模过程中用来指定模型的形式,SAS过程步常用语句,如:用语文成绩预测数学成绩时,可用Model math=chinese,SAS过程步常用语句,BY语句指定一个或几个分组变量,根据这些分组变量的值把观测分组,然后对每一组观测分别进行本过程指定的分析,SAS过程步常用语句,CLASS语句在一些特定的过程(如方差分析)中,用来指定一个或几个分类变量;而在另一些过程(如MEA

3、NS)中,其作用与BY语句类似。,SAS过程步常用语句,OUTPUT语句指定输出结果存放的数据集,指定要输出的结果,输出结果在输出数据集中的名称,SAS过程步常用语句,FREQ语句指定一个重复数变量,每个观测中此变量的值说明这个观测实际代表多少个完全相同的重复观测。,WEIGHT语句指定一个权重变量,在某些允许加权的过程中代表权重,其值与观测对应的方差的倒数成比例。,ID语句指定一个可以用来区分观测的变量(如人名、省市名等)作为观测标志,用于某些需要输入观测代号的过程(如print),来代替观测序号使用。,SAS过程步常用语句,WHERE语句选择输入数据集的一个行子集进行分析,SAS过程步常用

4、语句,LABEL语句为变量指定一个临时标签,FORMAT语句为变量输出规定一个临时输出格式,proc print data=sunny.bclass label;id name;var height weight;label name=“姓名” height=“身高” weight=“体重”;format height 5.1 weight 5.1; run;,例,第三章 SAS系统的基础功能,制作列表报告 (数据集包含较少数据时),3.2 制作列表报告,PROC PRINT DATA=数据集名 选项;过程语句/选项; RUN;,用PROC PRINT产生列表报告,与 PRINT有关的其他常用

5、语句及选项:,PROC PRINT DATA=数据集名 NOOBS; ID 变量; VAR 变量序列; WHERE 条件表达式; SUM 变量序列;BY 变量序列;PAGEBY 变量序列; RUN;,NOOBS选项去掉OBS列 VAR语句控制变量的出现与否及出现顺序 WHERE语句控制哪些观测将出现在报告中 SUM语句计算变量的总和 BY语句对数据进行分组并求每一组的小计 (需事先用SORT过程对同一变量进行排序) ID语句取消OBS列,把指定变量排列在报告的最左边,且只在每个组的开始处出现一次 PAGEBY语句使产生的报告按组分页,说明:,PROC PRINT DATA=SUNNY.LONP

6、AR NOOBS;VAR FLIGHT DATE DEST BOARDED REVENUE;WHERE REVENUE BETWEEN 155000 AND 170000 ; RUN;,(选择数据集的观测),用PROC PRINT产生列表报告,例:,PROC PRINT DATA=SUNNY.LONPAR ;VAR FLIGHT DATE DEST BOARDED REVENUE;SUM BOARDED REVENUE ; RUN;,(计算变量的总和),用PROC PRINT产生列表报告,例:,(数据的分组和小计),用PROC PRINT产生列表报告,例:,用PROC PRINT产生列表报告,

7、(使报告按组分页及ID语句的应用),用PROC PRINT产生列表报告,例:,用PROC PRINT产生列表报告,TITLEn 文本; (加入标题) FOOTNOTEn 文本;(加入脚注),用PROC PRINT产生列表报告,为全程语句,既可用在数据步或过程步中,也可单独使用,其作用具有持续性,PROC PRINT DATA=SORTED;ID FLIGHT;VAR DATE DEST BOARDED REVENUE;SUM BOARDED REVENUE ;BY FLIGHT;PAGEBY FLIGHT;TITLE International Airlines;TITLE2 Flights

8、to London and Paris;FOOTNOTE Prepared March 12,1990;FOOTNOTE2 by the Corporate Information Center; RUN;,例:,用PROC PRINT产生列表报告,PROC PRINT DATA=SORTED LABEL;ID FLIGHT;VAR DATE DEST BOARDED REVENUE;SUM BOARDED REVENUE ;BY FLIGHT;PAGEBY FLIGHT;TITLE1 Statistics for Flights to London and Paris;FOOTNOTE1;L

9、ABEL FLIGHT=Flight NumberDATE=Date of FlightDEST=Flight DestinationBOARDED=Number of PassengersREVENUE=Total Revenue; RUN;,例:,用SPLIT=选项控制表头的分割:,输出结果,用PROC PRINT产生列表报告,用户化格式可以被赋予单个数字、某一数字范围、字符、字符串或某一范围的字符 :,VALUE sexfmt 1=女 2=男 other=Miscoded;,VALUE boardfmt low-49=低于平均50-99=平均 100-high=高于平均;,VALUE $

10、grade A=Good B-D=Fair F=Poor I,U=See Instructor other=Miscoded;,PROC FORMAT;VALUE $DESTFMT LON=London PAR=Paris; PROC PRINT DATA=SORTED SPLIT=*;ID FLIGHT;VAR DATE DEST BOARDED REVENUE;SUM BOARDED REVENUE ;BY FLIGHT;TITLE1 Statistics for Flights to London and Paris;LABEL FLIGHT=Flight*NumberDATE=Date

11、*of*FlightDEST=Flight*DestinationBOARDED=Number*of*PassengersREVENUE=Total*Revenue;FORMAT DATE YYMMDD8. REVENUE DOLLAR10. DEST $DESTFMT.; RUN;,例:,输出结果,CENTER|NOCENTER(结果居中/不居中) DATE|NODATE(显示/不显示运行时间日期) NUMBER|NONUMBER(显示/不显示页号) LINESIZE=width (每行最宽不超过的字符数) PAGESIZE=n (每页输出的行数) PAGENO=n (输出的起始页码),用P

12、ROC PRINT产生列表报告,也可由OPTIONS语句或窗口定义,全程有效,OPTIONS NODATE NOCENTER; PROC PRINT DATA=SORTED;ID FLIGHT;VAR DATE DEST BOARDED REVENUE;SUM BOARDED REVENUE ;BY FLIGHT;PAGEBY FLIGHT; RUN;,例:,用PROC PRINT产生列表报告,SAS中对输出结果的管理,输出的HTML格式(网页格式),由Assist提供的菜单制作列表报告,用Report窗口产生列表报告,进入Report 窗口的方法:,用Report窗口产生列表报告,然后可利用

13、下拉菜单对显示的缺省输出报告进行加工,用Report窗口产生列表报告,输出结果,第三章 SAS系统的基础功能,3.1 SAS过程初步 3.2 制作列表报告 3.3 产生汇总表格 3.4 SAS图形入门 3.5 定量资料的统计描述,(数据集包含较少数据时),(数据集包含大量信息时),3.3 产生汇总表格,当一个SAS数据集包含的数据较少时,用列表报告可以很好地描述数据;但当数据集包含大量的信息时,就需要用汇总报告来描述。,制作汇总表格需明确的要素:,分类变量的特性,可以是数值型或字符型变量,若为数值型变量,则代表某些离散的类; 能够将数据分类,以便在每个类上进行计算和分析。,分析变量的特性,一定

14、是数值型变量; 适合于作各种统计运算,如计数、求和、平均、百分比等。,用PROC TABULATE 产生汇总表格,控制表格结构; 格式化输出表格中的数据值; 在表格的每一维拥有多个变量; 支持一个ALL类变量用以计算总和; 产生用户化的行标题和列标题。,功能1 产生格式化的汇总表格,功能2 计算统计量,N 含有有效数据的观测数; NMISS 含有缺失值的观测数; MEAN 算术平均数; STD 标准差; MIN 最小值; MAX 最大值; RANGE 取值的范围; SUM 总和; USS 加权平方和; CSS 加权离差平方和; PCTN 某一类中某一小类观测所占百分比; PCTSUM 某一类观

15、测在全部数据中所占百分比;等等,TABULATE过程的一般形式:,PROC TABULATE DATA=数据集 options; CLASS class-variables ;VAR analysis-variables ;TABLE page-expression,row-expression, column-expression/options; RUN;,如果程序中没有定义分析变量,则默认的统计量为N; TABLE语句中使用的变量必须在CLASS或VAR语句中定义过。,说明:,用PROC TABULATE 产生汇总表格,TABLE语句中表达式的构成:,用PROC TABULATE 产生汇

16、总表格,TABLE语句,运行结果:,运行结果,运行结果,运行结果,运行结果,用TUBULATE语句的FORMAT=选项控制每一格的宽度; 用TABLE语句的RTS=选项控制第一列的宽度; 用FORMAT语句格式化变量名; 使用WHERE语句选择所需要的观测。,用PROC TABULATE 产生汇总表格,【例】已知SAS数据集SUNNY.FLTATEN的资料如下,PROC FORMAT;VALUE $GENFMT F=女 M=男; PROC TABULATE DATA=SUNNY.FLTATEN FORMAT=5.0;WHERE JOBCODE IN (FA2,FA3);CLASS GENDER

17、 JOBCODE;FORMAT GENDER $GENFMT.;TABLE GENDER ALL,JOBCODE ALL/RTS=12; RUN;,运行结果,使用FORMAT、LABEL、TITLE以及FOOTNOTE语句; 使用KEYLABEL语句为ALL类变量以及所有统计量加入标记.,说明:TABULATE过程能够自动使用所有标签,不需要LABEL或SPLIT=选项,用PROC TABULATE 产生汇总表格,PROC FORMAT;VALUE $GENFMT F=女 M=男;PROC TABULATE DATA=SUNNY.FLTATEN FORMAT=DOLLAR10.0;CLASS

18、GENDER JOBCODE;VAR SALARY;FORMAT GENDER $GENFMT.;TABLE GENDER,JOBCODE*SALARY*MEAN ALL*SALARY*MEAN / RTS=8;KEYLABEL ALL=OVERALLMEAN=AVERAGE;LABEL JOBCODE=JOB CODESSALARY=ANNUAL SALARY;TITLE AVERAGE SALARY;FOOTNOTE BY JOB CODE AND GENDER; RUN;,例,运行结果,由Assist提供的菜单制作汇总表格,第三章 SAS系统的基础功能,3.1 SAS过程初步 3.2 制

19、作列表报告 3.3 产生汇总表格 3.4 SAS图形入门 3.5 定量资料的统计描述,(数据集包含较少数据时),(数据集包含大量信息时),3.4 SAS图形入门,SAS/GRAPH模块能实现强大的图形功能,可以处理:,散点图及折线图(plots) 图表(charts) 地图(maps) 三维图形(three-dimensional graphics) 文本缩放及其它(text slides),由 PROC GPLOT 作散点图和折线图,PROC GPLOT DATA=数据集;PLOT 纵坐标变量*横坐标变量/选项;其他SAS语句; RUN;,控制坐标轴: HAXIS=Values|Axisn

20、定义水平轴的刻度 VAXIS=Values|Axisn 定义垂直轴的刻度 NOAXIS 取消坐标轴及相关的文字 CAXIS=Color 定义坐标轴的颜色 CTEXT=Color 定义坐标轴文本的颜色 加框: FRAME 加框 CFRAME= Color 给坐标轴包围的区域填色,PLOT语句的选项,由 PROC GPLOT 作散点图和折线图,主要选项有:,VALUE(V)=symbol 定义代表数据点的符号 I=interpolation 定义数据点之间的连线方式 COLOR(C)=color 定义颜色 WIDTH(W)=width 定义连线的宽度,由 PROC GPLOT 作散点图和折线图,T

21、ITLE语句及FOOTNOTE语句,图形中标题(Title)和脚注(Footnote)的选项有: C=颜色H=高度及单位F=字体,由 PROC GPLOT 作散点图和折线图,DATA GRAPH;SET SUNNY.COLUMN;WHERE DEST=LON;PROC GPLOT DATA=GRAPH;PLOT BOARDED*DATE/VAXIS=125 TO 225 BY 25;SYMBOL V=STAR I=NONE W=5 C=RED;LABEL DATE=CALENDAR DATEBOARDED=PASSENGER ON BOARD;TITLE PASSENGER COUNTS FO

22、R DEST FOR LONDON;FOOTNOTE H=1.2 28FEB,2001;RUN;,运行结果:,DATA GRAPH;SET SUNNY.COLUMN;WHERE DEST=LON;PROC GPLOT DATA=GRAPH;PLOT BOARDED*DATE/VAXIS=125 TO 225 BY 25;SYMBOL V=SQUARE I=JOIN W=5 C=RED;LABEL DATE=CALENDAR DATEBOARDED=PASSENGER ON BOARD;TITLE PASSENGER COUNTS FOR DEST FOR LONDON;FOOTNOTE H=1

23、.2 28FEB,2001;RUN;,运行结果:,由Assist菜单系统作散点图和折线图,进入Assist 主菜单:,由Assist菜单系统作散点图和折线图,由Assist菜单系统作散点图和折线图,用PROC GCHART过程产生柱状图和圆饼图,柱状图和圆饼图的作用是展示分类汇总信息; 分类变量的不同值对应不同的柱或饼的不同部分; 各个类的频数或某分析变量的指标用柱的高度或饼的角度表示。,主要选项有:,用PROC GCHART过程产生柱状图和圆饼图,PATTERN c=颜色 v=花纹 ;,PATTERN语句的应用,用来逐个指定柱状图等每个柱的颜色和花纹,可位于PROC GCHART之中或之前。

24、,花纹:empty|solid|x3|r3|l3,用PROC GCHART过程产生柱状图和圆饼图,运行结果:,(图中显示了雇员工资的分布),(图中显示了各工种的平均工资),运行结果:,运行结果:,PROC GCHART DATA=CHART; PATTERN1 C=RED ;PATTERN2 C=GREEN ;PATTERN3 C=BLUE;PIE JOBCODE/SUMVAR=SALARY TYPE=SUM EXPLODE=FA1 FILL=S;TITLE TOTAL SALARY PAID;TITLE2 TO FLIGHT ATTENDANTS BY JOB LEVEL; RUN;,例 (

25、使用EXPLODE选项来强调圆饼图的某些块),运行结果:,由Assist菜单系统作柱状图,由Assist菜单系统作圆饼图,第三章 SAS系统的基础功能,3.1 SAS过程初步 3.2 制作列表报告 3.3 产生汇总表格 3.4 SAS图形入门 3.5 定量资料的统计描述,(数据集包含较少数据时),(数据集包含大量信息时),3.5 定量资料的统计描述,UNIVARIATE过程:提供单个变量的详细描述和对其分布类型的检验; MEANS过程: 提供单个或多个变量的简单描述,对于多个变量,它的输出格式紧凑,便于阅读; FREQ过程:对离散变量计算频数分布。,为对定量变量进行统计描述,SAS系统提供了U

26、NIVARIATE 、 MEANS和FREQ三个过程:,UNIVARIATE过程,语法格式:,PROC UNIVARIATE DATA= 选项 ; VAR ; BY ; FREQ ; WEIGHT ; ID ; OUTPUT OUT= 关键字= . pctlpts= pctlpre= ;,VAR语句指定要分析的变量名列; BY语句按变量名列分组统计(数据集需事先按该变量名列排序); FREQ语句表明该变量为分析变量的频数; WEIGHT语句表明分析变量在统计时要按该变量加权; ID语句输出时加上该变量作为索引; OUTPUT语句指定统计量输出的数据集及输出的内容和形式(OUT指定统计量的输出数

27、据集名,关键字指定统计量对应的新变量名,pctlpts指定需要的百分位数,pctlpre指定所需百分位数对应的输出变量名).,语句说明:,UNIVARIATE过程,UNIVARIATE过程,输出结果的构成:,1.Moments (矩统计量),输出结果的构成:,3.Tests for Location: Mu0=0(关于均值等于零的三种检验),4.Quantiles (Definition 5) (分位数估计),输出结果的构成:,5.Extreme Observations (变量的五个最低及最高值),MEANS过程,语法格式:,PROC MEANS DATA= 选项 统计量关键字列表 ; VA

28、R ; BY ; CLASS ; FREQ ; WEIGHT ; ID ; OUTPUT 关键字= . ;,VAR语句指定要分析的变量名列; BY语句按变量名列分组统计(数据集需事先按该变量名列排序); CLASS语句按变量名列分组统计(数据集不需事先排序); FREQ语句表明该变量为分析变量的频数; WEIGHT语句表明分析变量在统计时要按该变量加权; ID语句输出时加上该变量作为索引; OUTPUT语句指定统计量输出的数据集及输出的内容 (OUT指定统计量的输出数据集名,关键字指定统计量对应的新变量名).,语句说明:,MEANS过程,MEANS过程,输出结果:,FREQ过程,关于TABLES语句的说明:,请求式由一个或多个用“*”连接起来的变量名组成,以形成一维频数表或N维列联表; 最后一个变量各水平形成表的列,倒数第二个变量各水平形成表的行,其它变量的每一级水平(或水平组合)形成一层,且每一层都形成分离的列联表 ; 变量名缺省,则对数据集中的所有变量都给出相应的一维频数表; 不规定任何选项时,对某变量的一维频数,FREQ给出该变量每一水平的频数、累积频数、频数的百分比和累积百分比;对二维频数表,FREQ产生交叉分组列表,即包括各格的频数、总频数的格百分数、行频数的格百分数和列频数的格百分数。,FREQ过程,输出结果:,FREQ过程,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报