1、数据分析与统计软件复习课,SAS系统是大型集成应用软件系统,具有完备的以下四大功能: 数据访问、数据管理、数据分析、数据呈现,SAS简介 SAS系统的功能,SAS系统包含了众多的不同的模块,可完成不同的任务,主要模块有: SAS/BASE(基础)初步的统计分析; SAS/STAT(统计)广泛的统计分析; SAS/QC(质量控制)质量管理方面的专门分析计算; SAS/OR(规划)运筹决策方面的专门分析计算; SAS/ETS(预测)计量经济的时间序列方面的专门分析计算; SAS/IML(距阵运算)提供了交互矩阵语言;,SAS/GRAPH(图形)提供了许多产生图形过程并支持众多图形设备; SAS/A
2、CCESS(外部数据库接口)提供了与大多数流行数据库管理系统的方便接口并自身也能进行数据管理; SAS/ASSIST(面向任务的通用菜单驱动界面)方便用户以菜单方式进行操作; SAS/FSP(数据处理交互式菜单系统) SAS/AF(面向对象编程的应用开发工具) 另外SAS系统还将许多常用的统计方法分别集成为两个模块LAB和INSIGHT,供用户利用图形界面和菜单直接对数据进行统计分析,显示管理系统,显示管理系统窗口 1显示管理系统(Display Manager)三个主要窗口: PROGRAM EDITOR窗口:提供一个编写 SAS程序的文本编缉器 LOG窗口: 显示有关程序运行的信息 OUT
3、PUT窗口:显示程序运算结果的输出,永久的和临时的SAS数据集,SAS的存储方式有二种: 永久的SAS数据集 临时的SAS数据集,对永久SAS数据集的命名 使用LIBNAME语句来定义库标记; 若选择Study作为库标记,那么在DATA语句中你应该这样命名SAS数据: libname study d:sasmydir; data study.class;,输入和输出格式,SAS数据集的数据值的内部存放格式并不一定与该数据值的输入和输出格式一致,这取决于SAS的两个重要功能:输入格式(Informats)和输出格式(Formats)。 输入格式指示SAS系统如何读入数据,而输出格式指示SAS系统
4、如何输出数据。它们的一般形式如下: 输入格式:informat. 输出格式:format.,其中$符号指示这是个字符输入输出格式,没有$符号表示是数值输入输出格式; Informat是一个输入格式的名字,format是一个输出格式的名字; w是宽度值,对许多输入输出格式这个值是输入输出数据的列数; d在数值输入输出格式中是小数部分的长度; 点”.”是所有输入输出格式中必须包含的分隔符,作为名字的一部分。如果在格式中省略w和d值,SAS系统使用缺省的值。,选择变量(即选择列),使用DATA语句的DROP=和KEEP=选项可以控制从原始数据库中读出的变量是否被写入将要创建的数据集。 例如,假设我们
5、要从CLASS2数据集中产生只包含ID、AVERAGE和TOTAL变量,而不包含TEST1、TEST2、TEST3、TEST4、TEST5变量的新数据集CLASS3。 有二种程序编法都能达到相同的目的: 一是使用DATA语句的DROP=选项,表示从原有变量中去掉DROP=中指明的变量; 二是使用DATA语句的KEEP=选项,表示从原有变量中只保留KEEP=中指明的变量。,选择数据集的变量和观测,程序一: Data class3 (drop=test1 test2 test3 test4 test5 ) ; Set class2 ; Proc print data=class3 ;Run; 程序
6、二: Data class3 ( keep=id average total ) ; Set class2 ; Proc print data=class3 ; Run ; 程序一和程序二的运行结果相同。,拼接和合并数据集,在SAS数据步中用SET语句可以拼接数据集,而用MERGE语句可以合并数据集。 例如我们有二个数据集A和B,要拼接和合并成新的数据集C,二种不同方法的程序和结果见示意图所示:,作图,一PROC PLOT过程 使用PLOT过程可以在两个不同的坐标系中对两个变量作散布图、折线图和层次图。用于数据处理中,直观地了解数据的变化趋势和数据间的相互关系等。 它的一般形式为: Proc
7、Plot DATA=数据集 ; Plot 纵坐标变量Y*横坐标变量X; Run ;,PLOT语句,PLOT语句里首先要规定数据集中的哪两个变量作为图形中的垂直变量和水平变量,以及在图形中用于画点的作图字符。 PLOT语句的几种使用格式如下: plot y*x ; plot y*x =+; plot y*x=符号变量 ; plot y*x $ 标记变量 =+; plot y*x=+ b*a=* /overlay ;,2 PROC GPLOT过程,生成高分辨率图形的PROC GPLOT过程的一般使用格式如下:,在PROC GPLOT过程中,可使用SYMBOLn语句和AXISn语句。,3 用SYMB
8、OLn语句定义线和符号,一些主要选项如下: V=数据点图形符号数据点的符号有NONE(没有)、PLUS(缺省值加号)、STAR(星号)、SQUAR(小方块)、DIAMOND(小菱形)、TRANGLE(三角形)、CIRCLE(小圆圈)。 I=数据点间连接方式常用的连接有NONE(没有)、JOIN(直线)、SPLINE(平滑)、NEEDLE(从数据点到横坐标画垂直线)、HILOC(最高、最低、收盘价)、RL(直线回归线)、BOX25(盒形线)。,W=连线的线宽例如w=5。 H=图形符号的高度例如h=2.5。 C=定义颜色例如c=red。 FONT=定义一种字体例如font=swissb。,程序如下
9、:,永久数据库,Model: MODEL1 Dependent Variable: OXYGENAnalysis of VarianceSum of MeanSource DF Squares Square F Value ProbFModel 6 721.97421 120.32904 22.316 0.0001Error 24 129.40733 5.39197C Total 30 851.38154Root MSE 2.32206 R-square 0.8480Dep Mean 47.37581 Adj R-sq 0.8100C.V. 4.90137Parameter Estimates
10、Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| Type I SS Type II SS INTERCEP 1 102.238339 12.45304719 8.210 0.0001 69578 363.432659 AGE 1 -0.219916 0.09959154 -2.208 0.0370 78.988227 26.291488 MAXPULSE 1 0.304735 0.13722472 2.221 0.0361 142.355426 26.590540 RSTPULSE 1 -
11、0.000844 0.05863130 -0.014 0.9886 82.447865 0.001118 RUNPULSE 1 -0.373164 0.12068038 -3.092 0.0050 98.364065 51.555411 RUNTIME 1 -2.680516 0.37488355 -7.150 0.0001 310.368687 275.671437 WEIGHT 1 -0.072380 0.05467334 -1.324 0.1980 9.449942 9.449942,从参数的估计值容易得到拟合的回归方程为: oxygen= 102.238339-0219916age +
12、 0304735maxpulse-0.000844rstpulse-0.373164runpulse-2.680516runtime-0.072380weight,P=0.00010.05,说明模型参数不为0.,均方根误差 (扰动项标准差),回归分析,Correlation Analysis1 WITH Variables: Y1 VAR Variables: XSimple StatisticsVariable N Mean Std Dev Median Minimum MaximumY 10 95.000000 67.905163 102.500000 0 200.000000X 0 5.
13、500000 3.027650 5.500000 1.000000 10.000000Spearman Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 10XY 0.733330.0158,Spearman等级相关系数为0.73333,是一个比较大的正相关系数。,这个相关系数为0的原假设检验结果是p=0.01580.05,因此我们拒绝相关系数为0的原假设,接受了这个0.73333等级相关系数。,1、Input name 5.2;表明变量a为_变量,有_位小数。 2、Do i=1 to 10 by 2;则该循环进行_次,最后的变量i为_。 3、如果要实现对某个变量进行正态性检验,则在SAS中可以使用univariate过程的_选项来实现。,SAS程序基本语句: data fit ; input weight waist pulse chins situps jumps; cards; 191 36 50 5 162 60 189 37 52 2 110 60 138 33 68 2 110 43 ; run;,