1、1 SAS系统入门,生物信息科学与技术学院 统计遗传教研室吕洪超,主要内容 SAS功能模块简介 SAS界面操作 SAS文件管理 SAS数据集,1.1 系统概述,SAS (Statistical Analysis System ) 系统是国际著名的数据分析软件系统。该系统1966年开始研制,1976年由美国SAS公司实现商业化,1985年推出SAS/PC版本,1987年推出6.03版,目前已推出Windows 系统支持的8.2、9.0和9.2版,是目前国际上公认的著名的数据统计分析软件系统之一。,1.1 系统概述,SAS系统是集数据分析、生成报表于一体的一种集成软件系统。它由基本部分和外加模块组
2、成,其中基本部分包含的功能如下: 基本部分: BASE SAS 部分; 统计分析计算部分: SAS/STAT ; 绘图部分: SAS/GRAPH ; 矩阵运算部分: SAS/IML ; 运筹学和线性规划: SAS/OR ; 经济预测和时间序列分析: SAS/ETS ;,1.2 SAS系统界面操作指南,1.2.1 SAS的启动与退出,1.2.2 SAS系统界面简介,SAS三个最重要的窗口为:EDITOR 程序编辑窗口,LOG 运行记录窗口,OUTPUT 输出记录窗口 EDITOR编辑窗口用于编辑SAS源程序文件。 提供一般文本输入和编辑功能(如复制、剪切、粘贴等) 提供了智能编辑功能,它可根据用
3、户输入的SAS关键字、语句选项、变量名、数据、标记等不同内容显示不同的颜色,当用户输入的字串不正确时,对应颜色不对,警告使用者有错误发生; 程序段的展开和收缩功能; 内容保存为“.sas”文本文件。,LOG运行记录窗口用于显示和记录SAS程序的运行情况,说明程序运行成功或存在错误,当程序出现错误时,LOG记录窗口中以红色字符显示错误信息,以绿色显示一些警告信息,提示使用者修改程序中的错误。 OUTPUT输出窗口分页显示SAS程序运行所产生的文本输出结果(图形输出通过GRAPHICS窗口显示)。对于文本结果的输出,可以使用主界面的菜单File|Save As将结果文档保存在磁盘中,保存的文件扩展
4、名为.lst,是一种文本文件格式,可以使用文字处理软件,如Word或写字板、记事本等打开并进行编辑修改。对于输出到GRAPHICS窗口的图形,可以使用菜单File|Export as Image将图形导出保存在磁盘中,图形文件格式可以在“保存类型”下拉列表中选择。,SAS程序的一些语法规定,SAS程序由 语句组成。 每个语句用半角分号“ ; ” 作为结束符(注:不能使用中文的分号“ ;” ) 程序命令使用的英文单词不区分大小写字母(系统对于数据集中的数据字符串区分大小写字母)。 SAS程序由两类“操作步”构成,一种叫 数据步(Data Step),一种叫 过程步(Proc Step),数据步以
5、DATA语句起始,过程步以PROC语句开始。 每个“操作步”由若干条语句构成,一条语句可以占多行,多条语句也可以写在一行内,在语法上只要保证每条语句以半角分号“;”作为结束符即可。 每个SAS过程一般以RUN语句结束。有些过程需要使用QUIT语句结束运行。,1.3 SAS系统的文件管理,1.3.1 SAS文件与逻辑库在利用SAS进行数据分析时,首先必须将要分析的数据正确合理地生成SAS数据集。SAS系统的文件以及对于文件的管理涉及到数据集、逻辑库两个基本概念,他们构成了SAS应用的基本数据平台。,1. SAS逻辑库(Libraries):SAS文件通常无法通过一般的文本编辑器阅读,必须通过SA
6、S系统以对应方式打开浏览。SAS系统为了便于管理和使用SAS文件,将它们按照不同的应用需要集中管理,每个文件的集合就称为一个SAS逻辑库(Library)。,建立SAS逻辑库的基本操作包括: 逻辑库的命名:SAS逻辑库的命名同样需要遵循上述SAS命名规则。在MS DOS和Windows环境中,一个SAS逻辑库实际就是指向磁盘中一个子目录的逻辑指针(特殊情况下一个逻辑库可以由几个子目录组成,也可以几个逻辑库指向同一磁盘目录)。,通过SAS命令菜单方式建立逻辑库名与子目录的连接,操作过程为:进入Explorer窗口/右击(Library)图标/选择“new”命令/在弹出的窗口的name栏中输入库名
7、/在Path栏中输入目录路径或点击右侧的“Browse”按钮选择磁盘中的文件夹/选中右侧的“Enable at startup”使其永久有效,然后点“OK”完成新库名的定义。 通过程序命令建立逻辑库与目录的连接:在程序中我们可以通过使用LIBNAME命令建立逻辑库名和子目录的连接。命令格式为:libname 逻辑库标识符 “文件夹路径”;例如,在d:SAS2003子目录中保存了若干SAS数据集文件,在程序中可以用下述语句实现逻辑库名MYSAS与子目录d:SAS2003 的连接:libname MYSAS “d:SAS2003“;,1.3 SAS系统的文件管理,2. SAS数据集:SAS数据集(
8、SAS Datasets)可以看作由若干行和若干列组成的表格,各列可以取不同的类型,如整数型、浮点型、时间型、字符型、货币型等等。SAS 数据集以特殊格式的二进制文件保存。我们可以通过一个在SAS中定义的逻辑名来使用SAS数据集,而不必时时关心数据集存储在磁盘的什么位置上。,SAS的数据集和变量都需要要有名称标识,我们将SAS程序中使用的名称称为“标识符”,规定: SAS标识符由英文字母、数字、下划线组成; 第一个字符必须是字母或下划线; 标识符的长度不宜过长,Windows版已允许超过8个字符; 标识符中大写字母和小写字母不作区分。 比如,name,abc,aBC,x1,year12,_NU
9、LL_等是合法的名字,且abc和aBC表示的是同一个标识符,而class-1(不能有减号)、a bit(不能有空格)、serial#(不能有特殊字符)。,生成永久数据集的实例如下:把数据集放入指定的子目录“d:SAS2003“中,在程序中可以用如下语句建立逻辑库,除work逻辑库以外的其它逻辑库中的数据集,都可以做为永久数据集保存:libname mysas “d:SAS2003“;data mysas.SAS2003;proc sort data= mysas.SAS2003;对于已经事先创立的永久SAS数据集,如果已建立了逻辑库,当需要在某个过程步中调用它时,那么我们不必重复定义逻辑库,而
10、需要在该过程步中加上选项:data= mySAS.SAS2003 ,以指明要使用的数据集。,1.3.2数据集文件的基本操作,1. 文件复制 2. 文件浏览 3. SAS数据文件浏览 4. 为数据文件建立快捷方式,1.4 数据集的导出/导入,1.4.1 导出SAS数据集 1.4.2外部数据导入SAS数据集,1.5数据集的编辑与整理,1.5.1 用Viewtable表编辑数据集 建立新数据集 2修改已存在的数据集 3. 向已存在的数据集中添加一行新记录,需选择菜单Edit | Edit Mode使数据集成为可编辑模式,然后选择菜单Edit | Add Row添加一行空行并将数据输入到相应的列中,然后选择菜单Edit | Commit New Row将新行提交到该数据集中,然后点保存命令保存修改后的数据集。,1.5数据集的编辑与整理,1.5.2数据集变量名与类型的更改 1.5.3 数据集变量、观测记录的增加与筛选 1.5.4数据集排序 1.5.5数据集的纵向连接 1.5.6数据集的横向合并 1.5.7 数据合并的菜单操作,