1、,SPSS简介和入门,常用统计软件,SAS,SAS系统全称为StatisticsAnalysisSystem,由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,统计分析功能是它的重要组成部分和核心功能。 在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在9697年度被评选为建立数据库的首选产品。堪称统计软件界的巨无霸。,常用统计软件,SPSS,SPSS全称为StatisticalPackagefortheSocialSciences,原意为“社会科学统计软件包”。 2000年将英文全称更改为Statisti
2、calProductandServiceSolutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。SPSS是世界上最早的统计分析软件,也是应用最广泛的专业统计软件。由美国斯坦福大学的三位研究生于20世纪60年代末研制,1984年首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,很快地应用于自然科学、技术科学、社会科学的各个领域。1992年:推出Windows版本,同时开始全球化发展。特点: 自动统计绘图、数据的深入分析、界面友好、使用方便、功能齐全等 。速度慢。,常用统计软件,Statistica,Statistica为一套完整的统计资料分析、图表
3、、资料管理、应用程式发展系统;以及对其他技术、工程、工商企业资料挖掘应用等进阶分析之应用程式。此系统不仅包含统计上一般功能及制图程序;还包含特殊的统计应用(例如:社会统计人员、生物研究员或工程师);全新的Statistica在功能上,更提供了四种线形模型的分析工具,包括VGLM、VGSR、VGLZ与VPLS。 Statistica能提供使用者所有需要的统计及制图程序。另外,能够在图表视窗中显示各种分析,及有别于传统统计范畴外的最新统计作图技术,皆获得许多使用者的好评。Statistica为基本系列产品;可独立使用此模组,或搭配Statistica其他组合产品系列。,常用统计软件,Minitab
4、,Minitab是国际上流行的一个统计软件包,其特点是简单易懂,在国外大学统计学系开设的统计软件课程中,Minitab与SAS、BMDP并列,根本没有SPSS的份,甚至有的学术研究机构专门教授Minitab之概念及其使用。MiniTabforWindows统计软件比SAS、SPSS等小得多,但其功能并不弱,特别是它的试验设计及质量控制等功能。 它提供了对存储在二维工作表中的数据进行分析的多种功能,包括:基本统计分析、回归分析、方差分析、多元分析、非参数分析、时间序列分析、试验设计、质量控制、模拟、绘制高质量三维图形等,从功能来看,Minitab除各种统计模型外,还具有许多统计软件不具备的功能矩
5、阵运算。,常用统计软件,Stata,Stata融汇了上述程序的优点,克服了各自的缺点,使其功能更加强大,操作更加灵活、简单,易学易用,越来越受到人们的重视和欢迎。Stata的突出特点是只占用很少的磁盘空间,分析计算速度极快,输出结果简洁,所选方法先进,内容较齐全,制作的图形十分精美,可直接被图形处理软件或字处理软件如WORD等直接调用。 Stata的另一个特点是他的许多高级统计模块可以自行修改、添加和下载。用户可随时到Stata网站下载最新的升级文件。Stata的这一特点使其成为了几大统计软件中升级最多、最频繁的一个。Stata最大的缺点应该是数据接口太简单,只能读入文本格式的数据文件;其数据
6、管理界面也过于单调,和豪华的WIN9X平台不太相称。,SPSS基本操作,内容提要,1.SPSS操作入门 SPSS的窗口、运行方式、结果输出等 2.变量的相关操作 变量名的定名规则、变量类型、标签等 3.数据文件的编辑 数据的排序、转置、合并、拆分、选择、加权、转换,SPSS基本操作,1.SPSS操作入门 SPSS的窗口、运行方式、结果输出2.变量及有关变量的操作 变量名的定名规则、变量类型、标签等3.数据文件的编辑 数据的排序、转置、合并、拆分、 选择、加权、转换,SPSS操作入门,SPSS的窗口SPSS的运行方式SPSS的结果输出,安装SPSS,记得打补丁,从开始菜单运行,使用桌面快捷方式来
7、运行,运行SPSS,启动SPSS,首先看到的是数据编辑窗口,菜单栏,工具栏,SPSS启动界面,SPSS的5个窗口,数据编辑窗口结果管理窗口语法编辑窗口脚本窗口草稿结果窗口,SPSS操作入门,SPSS的数据管理窗口,此窗口类似于Excel窗口,SPSS处理数据的主要工作全在此窗口进行。它分为两视图:数据视图和变量视图。,SPSS操作入门,File: 对SPSS文件的管理,包括新建、打开、保存文件等 Edit: 与windows类似的编辑功能,如复制、剪切、粘贴、 撤消等,以及系统参数设置 View:选择显示状态条、工具栏、网格线、变量标签、变量 视图及字体设置等 Data: 实现文件级别的数据管
8、理,如记录排序、记录拆分、 记录筛选、合并文件等 Transform:实现变量级别的数据管理,如计算新变量、变 量值的分组合并、连续变量的可视化分段等,SPSS菜单栏,Analyze:SPSS的重点菜单项,涵盖各种主要统计分析功能 Graphs:绘制各种普通统计图及交互式统计图,如直方图、 茎叶图、箱图、残差图等 Utilities:提供各种实用性管理设置,如变量信息管理,输出 结果文件设置、菜单管理等 Windows:窗口拆分、最小化、当前窗口显示等 Help:帮助系统,SPSS菜单栏,打开文件,保存文件,打印,召回前次菜单操作,撤销,查找记录,查看变量信息,查找变量值,插入记录,插入变量,
9、拆分文件,设置权重,选择记录,显示变量标签,使用数据集,SPSS工具栏,SPSS的常用窗口: Data、Syntax、Output、Draft Output、Script 几个术语:Case、Variable、Expression SPSS的运算符: 基本运算:数学运算、关系运算、逻辑运算 算术运算的优先顺序:括号、函数、乘方(冥)、乘 或除、加或减。同一优先级的按从左到右的顺序。 SPSS的表达式:算术表达式、比较表达式、逻辑表达式,相关概念(1),SPSS的函数:十大类一百多个函数,包括算术函数、累计概率函数、概率密度函数、时间函数、逆分布函数、缺失值函数、随机函数、统计函数、字符串函数和
10、其他函数。 SPSS的文件类型:数据文件*.sav *.sys *.dat(.dbf .xls 等)、工作日志文件(.jnl)、结果文件(.spo)、命令文件或语法文件(.sps)、脚本文件(.sbs)、图形模板文件(.sct)。,相关概念(2),SPSS的数据格式:一般以行乘列的排列方式构造,行代表 case(或记录),列表示variable(或变量)。 “一个观测占一行,一个变量占一列” 例1:观察了10名学生的体重,其中男性5人,女性5人应具有 210的数据结构(2个变量,10个观察对象) 例2:一个22的四格表,应具有n2的数据结构(2个变量,n 个观察对象),相关概念(3),以cas
11、es (行) 和variables (列)的格式进行组织,一行是指调查中一个观测对象所有问题的回答,一列指调查中对于一个问题所有观测对象的回答,数据管理窗口的数据视图,用于显示具体的数据,一行代表一个观测个体(一条记录),一列代表一个属性(一个变量)。,SPSS操作入门,菜单栏,工具栏,数据视图标签,变量视图标签,变量名,数据管理窗口的变量视图,专门显示有关变量的信息: Name:变量名 Type:变量类型 Width:变量长度 Decimals:小数位数 Label:变量标签 Value:变量值标签 Missing:定义变量缺失值 Columns:显示列宽 Align:对齐方式 Measur
12、e:测量尺度,SPSS操作入门,菜单栏,工具栏,数据视图标签,变量视图标签,关于变量信息的格式名称,SPSS的结果管理窗口,又称结果视图,用于存放分析结果。此窗口类似于Windows的资源管理器,整个窗口分两个区:左边为目录区,是SPSS分析结果的一个目录;右边是内容区,是与目录一一对应的内容。,SPSS操作入门,SPSS的结果管理窗口,SPSS操作入门,目录区,内容区,Case:组成数据文件的基本单位,即观测记录 Variable:SPSS对变量有如下的约定 (1)变量名最多有8个字符,第一个字符必须是字母 或,数字、$和下划线均可用在变量名中 (2)以$开头的变量名为系统变量(不可命名)
13、(3)变量类型:数值型、字符型(A)、日期型等 数字 Expression:(表达式) 逻辑,SPSS的几个术语,SPSS的运算符,SPSS的4种运行方式,菜单对话框方式程序方式Include命令方式SPSS Production Facility方式,SPSS操作入门,菜单对话框方式,SPSS操作入门,待选变量列表框,分析变量列表框,确认,粘贴,恢复,取消,帮助,表格格式,图形,统计,粘贴:将对话框中的选择自动转化为相应的程序语句。恢复:将对话框恢复为默认状态。,SPSS的4种结果输出,表格格式文本格式标准图交互图,SPSS操作入门,表格格式,SPSS操作入门,标准图,SPSS操作入门,是在
14、Graphs菜单下直接单击图形生成的,与交互图相比,生成速度快,可以满足大部分统计绘图的需求,但编辑能力要弱于交互图,适用于理解数据。,交互图,SPSS操作入门,是在GraphsInteractive下单击图形生成的,与标准图相比,对系统硬件环境要求更高,但可绘制的图形种类更多,编辑功能更强,尤其可以生成实时旋转的动态三维图,更适合在报告演示中应用。,变量的相关操作,变量名(Name)的定名规则变量类型(Type)变量宽度(Width)和小数位数(Decimal)变量标签(Label)变量赋值(Value)变量缺失值的定义(Missing)列宽(Column)和位置(Align)度量类型(Me
15、asure),变量名(Name)的定名规则,(1)变量名的第一个字符可以是字母或中文字,后面可跟任意字母或中文字、数字、句点或、#、_或$等符号; (2)变量名不能以句点结尾; (3)定名时应避免最后一个字符为下划线“_”(因为某些过程运行时自动创建的变量名的最后一个字符为下划线,这样有可能造成冲突); (4)变量名的长度一般不超过64个字符(32个中文字),SPSS11.0版变量名的长度一般不超过8个字符(4个中文字); (5)空格和特殊字符(如!、?、和*等)不能用于变量名; (6)每个变量名必须保证是唯一的,不区分大小写; (7)下面的关键词不能用作变量名:ALL NE EQ TO LE
16、 LT GE BY OR GT AND NOT WITH注意:1.如果操作时使用了违犯定名规则的变量名,系统会有提示,并使定名不成功。2.尽管变量名可以用中文字,这样更直观、可理解,但在实际操作中应尽量避免用中文字作为变量名。由于此软件为英文版本,用中文字作为变量名,可能会在操作中发生一些难以预计的错误。为使操作方便和结果输出直观,可在变量标签处用中文注明(后述)。,变量的相关操作,不合法变量名示例及分析,*输入不合法的变量名时,会自动显示出错信息.,变量的相关操作,变量类型(Type),标准数值型,默认,逗号型,句点型,科学计数型,日期格式型,字符串型,定制货币型,美元型,变量的相关操作,逗
17、号型,句点型变量以及后面的科学记数型都是数值型变量的特殊表达形式,可以使较长数据的表达得更为清晰。逗号型变量用句点来分隔整数部分和小数部分,整数部分从个位开始每3位以一个逗号相隔;而句点型变量则与逗号型恰好相反,以逗号作为小数部分和整数部分的分隔符,而以句点分隔较长的整数部分。,变量宽度(Width)和小数位数(Decimal),宽度,小数位数,*宽度数字不得小于小数位数加1。,变量的相关操作,变量标签(Label),一般在变量标签处输入中文,为变量名的中文意思,或相关说明。 允许变量标签字符数最多可达256个。,变量标签,变量的相关操作,变量标签(Label),当为变量定义了变量标签以后,在
18、进行分析时,对话框中的待选变量列表框和分析变量列表框中的变量名前标注有变量标签,操作时一目了然。,定义了变量标签,未定义变量标签,变量的相关操作,变量标签(Label),当为变量定义了变量标签以后,在对该变量进行数据处理后得到的图表中就用变量标签来表示变量信息;但如果没有定义变量标签,将直接用变量名来表示变量信息。,未定义变量标签,定义了变量标签,变量的相关操作,变量赋值(Value),填入数字,填入数字所代表的意义,变量的相关操作,变量赋值(Value),给变量的值赋值(赋予值标签)后,可以使输出结果更清楚、更便于阅读和理解。,未赋予值标签,赋予值标签后,变量的相关操作,变量缺失值的定义(M
19、issing),没有缺失值,离散的缺失值,连续的缺失值加上一个离散缺失值,变量的相关操作,列宽(Column)和位置(Align),位置,列宽,变量的相关操作,定类尺度(Nominal Measurement):无序分类变量,如性别可取“男”、“女”。只能计算频数和频率,定序尺度(Ordinal Measurement):有序分类变量,如对游泳的喜欢程度1非常喜欢,2喜欢,3无所谓,4不喜欢,5非常不喜欢,可计算频数、频率、累计频数、累计频率,定比尺度(Scale Measurement):能够计算两个测度值之间比值的一种计量尺度,如职工月收入。有绝对“零点”,0就表示“没有”,度量类型,定类
20、尺度(Nominal Measurement):无序分类变量,如性别可取“男”、“女”。只能计算频数和频率,定序尺度(Ordinal Measurement):有序分类变量,如对游泳的喜欢程度1非常喜欢,2喜欢,3无所谓,4不喜欢,5非常不喜欢,可计算频数、频率、累计频数、累计频率,定距尺度(Interval Measurement):对事物类别或次序之间间距的测度,如温度。无绝对“零点”,如0并不表示“没有”,仅仅是个测量值,定比尺度(Scale Measurement):能够计算两个测度值之间比值的一种计量尺度,如职工月收入。有绝对“零点”,0就表示“没有”,SPSS中将定比尺度和定距尺度
21、合并为一类,统称 “Scale”, 且作为默认值,数据录入三种形式:1.开放题的录入 例:年龄(age):_岁2.单选题的录入 例:性别(gender):1 男 2 女3.多选题的录入 例:你在选择健康体检的医院时关注哪些因素: a.交通方便 b.检查项目 c.检查价格 d.服务质量 e.其他,10名学生的体重,多重二分法:每个选项定义一个变量 适用于:选项不太多,多重分类法:每个答案定义一个变量,该用几个变量由 实际可能给出的最多答案数而定 适用于:选项较多例:你对健康知识的了解主要来自哪些渠道(限选3项): a.杂志 b .报纸 c.电视 d.收音机 e.网络 f.朋友介绍 g.其他,可以
22、从电子表格式文件读入数据,第一行默认作为 变量名读入SPSS,打开数据文件 使用该菜单还可打开语法文件、结果文件、草稿结果 文件和脚本文件,确认是否要读入变量名,确认导入的单元格区域,也可进行自定义,Excel数据导入后数据显示如图,其中变量名行就是原来Excel文件中的第一行,文本文件是另一种常见的数据文件,许多电子表和数据库 可以将内容存成文本格式逗号和制表位用以区分每个变量,上图中以制表位来区分,用以指导对文本进行定义,确定不同变量的区分,选择定义好的格式或创建新格式。选择No创建新格式,从文本导入数据Step 1,如前所述,文件使用制表位格式,变量名位于文件顶行,选择Yes表明变量名从
23、文件顶行读入,变量以特定界限区分,如逗号、制表位,从文本导入数据Step 2,键入2表明从文本文件的第2行开始读入数据,从文本导入数据Step 3,用直观的界面快速确定是否从SPSS正确读入你所 要求读入的数据,选中Tab,从文本导入数据Step 4,为适合SPSS的格式,某些变量名可能被缩减,该对话框用以编辑不适当的变量,使之达到你的要求。同样可以更改变量类型,如将INCOME设为Dollar格式。,选中Dollar,选中INCOME,从文本导入数据Step 5,从文本导入数据Step 6,从文本文件导入数据完成,其中step5设置的 INCOME为Dollar形式,Save:保存,覆盖当前
24、文件,Mark File Read Only:使数据文件标记为只读,原文件不能被覆盖。点击该菜单项后,若对原数据文件进行改变后,对其进行保存时跳出下图,提示保存为另一个文件名或至另一个目录,表明原文件不会被改动,Save As:另存文件,可以另存为SPSS格式或其他数据格式,点击Mark File Read Only后,菜单变为Mark File Read Write,点击之可以恢复到可改写的状态,Display Date File Information:在结果窗口中显示变量信息、变量值等Working File(显示当前文件信息)External File(显示外部文件信息),查看详情,C
25、ache Data:查看详情,Stop Processor:停止程序处理,Switch Server:用以转化、增加、编辑所登录的服务器,查看详情,Ok:在下次读取该文件时(如下次运行一个统计程序时)产生缓存文件,多数情况下直接点ok即可,cache data(数据缓存):是指将当前数据文件的一份拷贝放入缓存,使多次处理程序时当前文件不必被重复读取,从而有效减少程序处理的时间。默认情况下,数据库自动产生一份数据缓存,但当使用 GET DATA语法命令读取数据库时,数据缓存不能自动产生,应该使用FileCache Data菜单使之产生。,Cache Now:立刻产生一个缓存文件,若当前文件被锁住
26、“locked”而无法修改时使用之,或者数据文件很大,它能加快处理时数据视图内容的滚动速度。,Print Preview:打印预览,Recently Used Date:最近使用数据,Print:打印,Recently Used File:最近使用文件,Exit:退出,Undo:撤消,Cut:剪切,Redo:重复,Copy:复制,Paste:粘贴,Paste Variables:粘贴变量,Clear:清除,Options:设置系统参数,Find:查找,状态条,Status Bar:选中,则在右下角显示状态条,Fonts:字体设置,Toolbars:用以对工具栏进行设置,Grid Lines:选
27、中显示网格线,Value Labels:默认情况下,数据视图中显示数值,选中该项,则数据视图中显示数值标签,Varibles:选中切换至变量视图,数据文件的编辑,数据的排序数据的转置数据的合并数据文件的拆分数据的选择数据的加权数据的转换(利用Compute),数据的排序,数据文件的编辑,有的过程运行以前要求对数据按照某个或某几个变量进行排序,如数据文件夹拆分和合并等。可执行数据排序操作以实现。,排序,数据的排序,数据文件的编辑,升序,第一排序变量,第二排序变量,降序,数据的转置,数据文件的编辑,SPSS可以将数据编辑器中打开的数据进行行、列互换,使原来的行变成列,原来的列变成行。,数据的合并,
28、数据文件的编辑,对于存在某种联系的两个数据文件,可以用SPSS的合并功能将它们按照一定的方式进行合并。 SPSS提供了两种方式来合并数据文件的数据:个案合并(Add Cases)和变量合并(Add Variables)。 个案合并要求两个数据文件具有相同的变量,执行个案合并,相同变量所对应的个案集中到一个文件中。新文件增加了记录的条数。 变量合并要求两个数据文件具有相同的个案,执行变量合并,两个文件中相同个案对应的变量集中到新文件中。新文件增加了变量数。,个案合并,数据文件的编辑,合并,变量合并,数据文件的编辑,合并,变量合并前应先将两个文件按照将要选择的共同变量(关键变量)进行升序排列.如例
29、中的“id”。,数据文件的拆分,数据文件的编辑,如果要对数据基于一个或几个变量分类以后形成的各组数据的个体进行统计分析,可以用拆分(Split)功能。 需要明确的是,所谓拆分,并不是要把文件真的分成几个,而是根据需要,依据某一个或几个变量按照一定顺序把原数据重新排列,把与所选定的一个或几个变量共同相关的数据在数据编辑器中集合到一起,以便集中操作和对比。 拆分以后,原数据进行了重新排列,这一点与排序有相近之处。但实际上,其主要作用是,对拆分后的数据进行处理,所得结果在查看器中的显示出是不一样的,它是按照某一个或几个变量分类后,各自的结果而显示。,数据文件的拆分,数据文件的编辑,数据文件的拆分,数据文件的编辑,数据的选择,数据文件的编辑,有时,我们需要在大量的原始数据中选择所需要的部分数据进行统计分析,就可用到“数据的选择”功能。,数据的选择,数据文件的编辑,根据逻辑关系表达式选择数据,随机选取数据,在给定范围(日期、时间或个案号等)内选择数据,用过滤器变量选取数据,选择所有数据,剔除个案(斜杠),删除个案,数据的选择(逻辑关系表达式举例),数据文件的编辑,选择男性并且年龄大于等于35岁且小于等于74岁的个案,生成新的变量,2. 通过再编码生成新的变量,1. 通过计算生成新的变量,