1、第2章 SAS编程基础,清华大学经管学院 朱世武 Z Resdat样本数据: SAS论坛: ,SAS语言组件,SAS 文件,由SAS创建、储存、管理的文件就是SAS文件。所有的SAS文件都保存在SAS逻辑库中。 最常用的SAS文件: SAS数据集SAS目录册,SAS外部文件,SAS不能直接识别的数据文件称为外部文件。外部文件一般用于储存数据。外部文件一般用来储存:要读入SAS数据文件的原始数据SAS程序语句过程步输出,DBMS文件SAS软件可以和其它数据库产品进行数据文件转换。,SAS语言元素SAS语言由语句、表达式、选项、格式、以及和其它编程语言名称类似的函数组成。SAS有两种语句数据步过程
2、步,SAS文件系统,SAS逻辑库由一组SAS文件组成。SAS软件系统的信息组织有两层,第一层是SAS逻辑库,第二层是SAS文件。 SAS逻辑库是一个逻辑概念,本身不是物理实体,它对应的实体是操作系统下一个文件夹或几个文件夹中的一组SAS文件。,逻辑库,逻辑库名与引用SAS文件,逻辑库名是SAS名,长度不能超过8个字节。如SAS逻辑库:ResDat, SASHELP, SASUSER, WORK等。建立SAS逻辑库的方法:用菜单操作;用LIBNAME语句。语句格式: LIBNAME libref SAS-data-library 语法说明: Libref 逻辑库名 SAS-data-librar
3、y 逻辑库对应的物理地址 Engine 引擎名称(缺失时为默认引擎),例2.1 用LIBNAME语句创建SAS逻辑库。 Libname ResDat d:ResDat;多个个文件夹创建一个SAS逻辑库: Libname a (d:resbd,d:resfin);例2.2 引用非临时库的SAS文件时必须使用两级命名方式,而引用临时库的SAS文件时,可以直接使用文件名,效果等同于work.文件名。data=ResDat.Idx000001;,临时库和永久库临时逻辑库是指它的内容只在启动SAS时存在,退出SAS时内容完全被删除。系统缺省的临时逻辑库为WORK.永久逻辑库是指它的内容在SAS关闭对话之
4、后仍旧保留,直到再次修改或者删除。SAS系统中除了WORK以外的逻辑库都是永久库。,库引擎库引擎是一组规定格式向逻辑库读写文件的内部指令。利用库引擎SAS系统可以直接访问其它SAS版本创建的SAS文件和外部数据库格式的数据文件。 每个SAS逻辑库都对应一个库引擎。库引擎功能包括:读取和写入数据;列出库中的文件;删除和重命名文件。,SAS通过不同库引擎读写不同格式的文件。每个SAS引擎都有着自身的运行特性。比如运行由旧版本SAS软件生成的文件;读取由其它软件生成的数据库文件;存储和访问硬盘或者tape上的文件;决定文件中的变量和观测如何放置;将文件从物理位置地址读取放入到内存;在不同的操作系统之
5、间传输SAS文件。,数据集,SAS数据集有两类:SAS数据文件SAS数据视图,SAS数据文件同时描述信息和存储数据值。SAS数据视图并不实际存储数据,而只是一个查询语句。,class是数据视图 class1是数据文件,SAS数据集组成部分包括:描述信息;数据值。,数据文件SAS数据文件是包含描述信息和数据值的SAS数据集。一般来说,SAS数据文件又分为:普通的SAS数据文件:SAS格式的数据文件。接口数据文件:以其它数据软件格式储存数据的数据文件。SAS提供对应的引擎来对这些文件中的数据进行读取和编写,如ORACLE DB2,SYBASE,ODBC,BMDP,SPSS和OSIRIS。,虽然数据
6、文件与视图文件在应用时没有任何区别。但这两者之间也有一定的差异。前面已经提到二者最大的不同就是数据文件实际储存数值,视图只是包含表的描述信息以及一组用来读取数据的查询语句,并不实际存储数据。数据文件是静态的,而视图则是动态的。SAS数据文件可以被索引,索引可以使SAS在搜索数据的时候变得更快。而SAS视图不能被索引。,数据视图,SAS数据视图就是用来从其它文件中读取数据的一种SAS文件。它只包括数据集的描述信息,如数据类型、变量长度等,再加上如何从其它文件中提取数据所要求的信息。,SAS视图一般分为两种:Native View, 由数据步或者SQL过程创建。Interface View, 由S
7、AS/ACCESS软件创建。Interface View可以读写其它数据库管理系统(DBMS)中的数据库,如DB2或 ORACLE数据库等。,数据视图的使用优势可以使用连接多个表的视图来合并数据集。数据视图可以节省大量的空间。数据视图可以保证读取的数据集永远都是最新的。更改一个数据视图只需要改变这个视图的查询语句。使用SAS/CONNET软件,视图可以将多个不同主机电脑上的数据文件整合,以整体的形式呈现。,数据步视图 数据步视图包含用于从多个数据源中读取数据的数据步程序,这些数据源包括:原始数据文件;SAS数据文件;PROC SQL视图;SAS/ACCESS 视图;DB2,ORACLE,或者其
8、它DBMS数据。,语法格式:Data 数据集名称/ view=数据集名称; SAS语句.; Run;,例2.3 创建数据步视图。Data Resdat.class1/view=Resdat.class1; set Resdat.class; run;,日志中信息,PROC SQL视图 PROC SQL视图为一个带有名称的PROC SQL查询。它可以读写的数据源同数据步视图。 proc sql; create view resdat.e as select * from resdat.class; quit;日志中信息:,存储编译的DATA步程序,语句格式 DATA data-set-name(
9、s) / PGM=stored-program-name );,语法说明,目录册文件SAS目录册文件是特殊的SAS文件,用来存放多种不同种类的信息文件。这些信息文件都很小,每个信息文件都被称为一个条目(entry), 条目有多种不同的类型。一些目录条件包含一些系统信息如功能键定义信息。,SAS语言元素,数据集选项 数据集选项用在SAS数据集名称后的括号中,多个选项之间用空格隔开。括号中的数据集选项可以对数据集进行如下操作:重新命名变量;选择需要的观测;输出数据集中保留或删除的变量;数据集加密。,语句格式: Data-set-name(Data-set-options) (option-1=va
10、lue-1)例2.4 数据集选项举例。 data scores(keep=team game1 game2 game3); /*scores中只保留team,game1game2 game3这4个变量) proc print data=new(drop=year); /*去掉变量year*/ set old(rename=(date=Start_Date); /* 将date改名*/,输入和输出格式,输出格式format是SAS用来确定如何输出或写出数据值的指令,用FORMAT控制数据值在输出时所使用的格式。 输入格式informat是SAS用来确定如何将数据读入变量的指令。 如果在输入或输出
11、数据集的过程中没有设定变量的输入和输出格式,系统会自动使用原数据集中的这个变量原有的输入输出格式。,语句格式: format. informat. 格式说明:,函数和CALL子程序,SAS函数对数据参数进行计算处理并返回一个值。大多数函数所使用的参数是由用户提供的,一小部分函数使用系统提供的参数。 CALL子程序用来改变变量值,或执行一些系统功能。CALL子程序类似于函数,但是不能在赋值语句中使用,所有的SAS CALL子程序都只能被CALL语句使用。,语句SAS语句就是一系列关键词、SAS名称、算符以及特殊字符的组合。所有的SAS语句以分号结尾。 SAS语句一般分为数据步语句与过程步语句,以
12、及可以用在SAS程序任何地方的全局通用语句。,KEYWORD parameteroptions; 关键词 参数 选项; 其中: 粗体-必须按显示形式书写的关键词; 白正体-用户提供的信息; -括号内的信息可选; |-任选。 参数PARAMETER不是任选项,不用括号,OPTIONS是选项关键词。,例2.5 有效的SAS语句。 data data1; /* data为关键词,data1为SAS名 */ data _null_; /* _null_为SAS名 */ put name $ 8.; /* put为关键词,name为SAS名,$8.为输出格式*/ format date yymmdd10
13、.; proc means data=ResDat.class; /* proc为关键词,means为过程名 */ infile “d:ResDatclass.txt”; do I=1 to 100; x=y+1; sumx+x; run;,SAS系统选项,系统选项用来控制SAS的运行方式,如SAS系统启动,硬件软件的连接,SAS程序的运行等。 语句格式: OPTIONS option(s); option 设定一个或多个系统选项,任何系统选项都有一个默认设置。,例2.6 设定选项OPTIONS obs=5;/*取数据集前五个观测*/ Data one; Set ResDat.class; R
14、un;,表达式,表达式由一系列操作符和操作对象构成,产生一个目标值。 使用表达式可以对变量作变换和赋值,创建新变量,计算新数值以及控制条件语句的运行等。操作对象有:变量;常数。,操作符包括:算术算符;比较算符;逻辑算符;SAS函数;括号。,SAS常数,SAS常数是SAS系统可以识别的一些固定值。,数值常数,例2.7 数值常数。 1, 5, 1.23, 1.2E23, 2E4 , 20000数值常数可以有多种格式展示。 标准格式:1,01,+1,-1,1.1; 科学计数法:1.1e11, 1.2e-12; 十六进制格式:1cx,12x,9x,字符常数,例2.8 引用带引号的字符常数。 name=
15、TOM”S; name=”TOMS”; /*例中,两语句等价。*/ 要注意的是,字符常数是由引号括起来的,但是字符变量的名称则没有引号,也就是说字符常数不能作为字符变量的名称。,日期时间常数,例2.9 引用日期时间常数。1jan2000d; 01jan00d; 9:25t; 18jan00:9:27:25dt if begin=01JAN2000d then end=31DEC2000d;,SAS算符 SAS算符是一些符号,其作用是进行计算、比较等。,算术算符,例2.10 算术算符应用。 data; X=3.5*2.5; put X=; Y=9+1/3; put Y=; X=.; Y=1+X;
16、 put Y=; /*Y也是缺失值*/ run;,输出结果:,比较算符,例2.11 比较算符应用。if xy then c5; else c12;比较算符经常出现在IF语句里。,比较准则:数值和字符都可以比;结果为真赋值1,假赋值0;字符值从左到右逐个按ASCII码排列序列进行比较;缺失值参加比较时,它比任何有效值都小。,逻辑算符,其它算符 :连接字符算符“|”,例2.12 连接多个变量和常数。data; set ResDat.lstkinfo; result=%a(|stkcd|,|stknm|); put result; run;,SAS变量,SAS变量分为数值变量和字符变量。数值变量 数
17、值变量是SAS系统以浮点(floating-point)方式存储的数据变量,数值变量包括日期和时间。 数值变量的值只能是数值。 字符变量 字符变量可以由阿拉伯字母、数字0-9以及其它一些特殊字符组成。 字符变量的值可以是字符、字母、特殊字符和数值。字符变量名后跟一个美元号($)表示该变量是字符型而不是数值型。,变量属性,SAS变量的属性包括:长度、输人输出格式和标签。未设定属性的变量在它们第一次出现时由系统给出。变量的长度是指存贮变量值的字节数。缺省长度为8个字节。 变量的输人格式是指SAS系统读人变量值的方式。 变量的输出格式是指SAS系统展现变量值的方式。 变量的标签是指变量名的描述性标识
18、,它至多可用256个字符。,创建变量,使用赋值语句Data a;x=1;run;/*数据集a中有个变量x,值为1*/使用INPUT语句Data b;Input x $;Datalines;Aaa;Run;,使用FORMAT 或 INFORMAT语句Data b;Set b;Informat y $9.;Run;以类似的方式创建变量的还有LENGTH语句,ATTIRB语句。,变量类型转换,字符自动转换为数值,例2.15 字符自动转换为数值。data; X=1; /*X为数值变量 */ Y=10; /*Y为字符变量 */ X=Y; /*将字符变量赋值给一个数值变量时,自动将字符变量Y转换为数值变量
19、 */ run;data; X=1; /*X为数值变量 */ Y=10; /*Y为字符变量 */ Z=X+Y; /*算术表达式中有字符变量时,自动将字符变量Y转换为数值变量 */ run;,data; X=1; /*X为数值变量 */ Y=10; /*Y为字符变量 */ if XY ; /*字符与数值变量进行比较时,自动将字符变量Y转换为数值变量 */ run;data; Y=10; /*Y为字符变量 */ Z=log(Y); /*需要数值变量的函数中引用字符变量时,自动将字符变量Y转换为数值变量 */ run;,函数INPUT将字符转换为数值,INPUT函数的形式: INPUT(数据源, 输
20、入格式);其中: 数据源为要转换为数值的变量,常数或表达式。数据源既可以是数值型,也可以是字符型。 输入格式规定对数据源进行转换的输入格式。,例2.16 转换字符变量为数值变量。data a(keep=code); set ResDat.lstkinfo; code=input(stkcd, 6.); run;,数据集A code 1 2 4 5 200011 200012 ,数值自动转换为字符,例2.19 数值自动转换为字符。 data; X=10; /*X为字符变量 */ Y=10; /*Y为数值变量 */ X=Y; /*自动将数值变量Y转换为字符变量 */ run;,日志信息: 10 d
21、ata; 11 X=10; /*X为字符变量 */ 12 Y=10; /*Y为数值变量 */ 13 X=Y; /*自动将数值变量Y转换为字符变量 */ 14 run;NOTE: 数字值已转换为字符值,位置:(行:列)。13:3 NOTE: 数据集 WORK.DATA2 有 1 个观测和 2 个变量。 NOTE: “DATA 语句”所用时间(总处理时间):实际时间 0.03 秒CPU 时间 0.00 秒,data; Y=10; /*Y为数值变量 */ Z=ROOM|Y; /*自动将数值变量Y转换为字符变量 */ put Z=; run;data ; Y=10600001; /*Y为数值变量 */
22、 Z=SUBSTR(Y,7,6);/*自动将数值变量Y转换为字符变量 */ put Z=; run;,Z=ROOM 10,Z=600001,系统自动地将数值转换为字符时,使用BEST12.的输出格式,字符值右对齐。,函数PUT将数值转换为字符,PUT函数的形式: PUT(数据源, 输出格式);其中: 数据源为要转换为字符值的变量,常数或表达式。数据源既可以是数值型,也可以是字符型。 输出格式规定对数据源进行转换的输出格式。,例2.20 转换数值变量为字符变量。 data a (keep=date x); set ResDat.stk000001; x=put(clpr, 8.2); run;,
23、自动变量,自动变量是由数据步语句自动创建的。这些自动变量被加入到程序数据向量(PDV)中,但是并不输出到数据集中。自动变量在重复过程中被保留,而不是被设定为缺失。,例:使用自动变量_Numeric_。data one; set sashelp.class; keep _numeric_; /* 只保留数据集中的数值变量*/ run;,错误类型与处理,SAS系统能够检查出错误类型有: 句法错; 词义错; 运行错; 数据错; 与宏有关的错。SAS系统提交含有错误的程序后,LOG窗口会显示的信息有: 出错的词; 错误的可能位置; 对错误的说明。,句法错,例2.22 关键词拼写错。 daat a; /
24、*将data错拼为daat */ x=2; run;日志窗口信息:,例2.23 遗漏分号。 data a input x y; z=x+y; list; cards; 1 2 3 4 5 6 ; run;,词义错,例2.26 变量名拼写错。 proc print data=ResDat.Idx000001 (obs=10); var data clpr; /* 将变量名Date拼成Data */ run;日志窗口信息:,运行错,例2.28 非法的数学运算。 data A; input Stock $ Money Price; vol= Money /Price; cards; 600001 1
25、329 6.3 000895 2000 0 ; run;例中,0作除数是非法的数学运算。,数据错,例2.29 数值变量读字符值。 data A; input Name $ Age; cards;Wang 35Zhang A2Hu 22;proc print; run;,日志窗口信息:,SAS输出,1-SAS日志 2-程序结果 3-SAS 控制台日志,SAS程序,SAS程序由多个SAS语句构成。SAS程序中的语句可分为两类步骤: 数据步,用来处理输入数据 ; 过程步,通过一系列SAS语句来调用和执行程序,通常以一个SAS数据集作为输入数据。 。,书写规则,SAS语句的书写规则灵活自由: 语句可在行的任一列开始; 一个语句可以分写为多行; 多个语句可以写在同一行; 语句中各项之间至少用一个空格或特殊字符隔开;应遵守的书写规则: 不同程序步间留空行; 每条语句都要另起行。 比较规范的书写有助于阅读和检查,还可以减少书写错误。注释语句的两种格式: /* 注释内容 */ * 注释内容;,