1、数据处理功能数据整理 (一),马敬东 华中科技大学同济医学院 医药卫生管理学院,数据文件,数据文件有多种形式,SPSS可以管理其中大部分,包括: 由lotus1-2-3, Excel和Multiplan产生的电子表格文件。 由dBASE和多种SQL格式产生的数据库文件。 用制表符分隔的和其他类型的ASCII码文本文件。 在其他操作系统生成的SPSS数据文件。,建立一个新数据文件 如果你的数据还不是计算机文件,可用数据编辑器来键入数据并产生一个SPSS数据文件。数据编辑器是简单、有效的类似电子表格的工具,在开始一个SPSS过程时自动打开。 打开一个数据文件 打开一个SPSS数据文件,从菜单中选择
2、:File Open Data 这就打开了Open Data File对话框,如下图所示。,文件名 可以从表中选择一个文件,也可以输入文件名,目录路径和文件名,或一个广泛搜索。在缺省情况下,SPSS在当前目录中寻找有.sav后缀的所有文件,并将它们显示在表中。 文件夹 从目录表中选择目录的名字可以改变目录的位置。在当前目录以下的各个目录由关闭的文件夹图示指示。在当前目录以上的目录则由打开的文件夹图示表示。当前目录显示在目录表上,同时也被最后一个(最低)打开的文件夹图示表示。 驱动器 改变驱动器位置,只需从可利用的驱动器的下拉菜单中选取一个。,指定文件类型 在打开一个数据文件以前,需要告诉SPS
3、S文件类型是什么。文件类型从下拉菜单中的下列选项中选择一个: SPSS(*.sav) 在SPSS for Windows或SPSS for UNIX中产生和保存的数据文件。 SPSS/PC+(*.sys) 在SPSS/PC+中产生或保存的数据文件。 SPSS Portable(*.por) 在其他操作系统(如Macintosh,OS/2)中产生的可移动的SPSS文件。 Excel(*.xls) Microsoft Excel电子表格文件。 Lotus(*.w*) Lotus1-2-3电子表格文件。 Dbase(*.dbf) Dbase II、III和IV的数据库文件。,文件信息 工作数据文件
4、显示工作数据文件中每一个变量的全部字典信息,从菜单中选择: Utilities File Info 下列信息在输出窗口中显示:变量名、变量的描述性标识(如果有)、打印和写格式(继数据类型后是表示最大宽度的数字和小数点位置数,例如F8.2表示一个数字型变量,最大宽度是8列,其中1列是小数点符号,2列是小数点的位置)、对于不同变量值的描述性值标识。,其他SPSS数据文件 显示当前没有打开的SPSS数据文件的字典信息,从菜单中选择:File Display Data Info 这样就打开了Display Data Info对话框,指定文件的字典信息在输出窗口显示出来。 保存数据文件 使得Data E
5、ditor成为活动窗口,从菜单中选择:File Save Data ,修改后的数据文件就被保存了,覆盖了原来的文件。 使得Data Editor为活动窗口;从菜单中选择:File Save As ,这样就打开了Save Data As对话框,指定文件名、保存格式和保存路径即可。,关闭一个数据文件 因为每一次只能打开一个数据文件,SPSS在打开另一个文件之前自动地关闭工作数据文件。如果数据文件在上一次保存后有所变化,SPSS在关闭这个文件,打开下一个文件之前会问你是否想保存这些变化。,数据编辑窗口,Data Editor提供一个简便的类似电子表格的方法,用以产生和编辑SPSS数据文件。Data
6、View和Variable View窗口,如下图所示,在开始一个SPSS过程时自动打开。,行是观测 每一行代表一个个案,即一个观测。例如,每一个人对于一份问卷的回答就是一个观测。 列是变量 每一列代表一个变量或一个被测量的特征。例如,问卷上的每一项就是一个变量。 单元包含值 每一个单元包括一个观测中的单个变量值。单元是观测和变量的交叉。单元只包括数据值,这与电子表格程序不同,Data Editor的单元不能包括公式。 数据文件是长方形的 数据文件的范围是由观测和变量的数目决定的。可以在任一单元中输入数据。如果在定义好的数据文件边界以外键入数据,SPSS将数据长方形延长到包括那个单元和文件边界之
7、间的任何行或列。在数据文件边界内没有“空的”单元。对于数字型变量,空单元被转换成系统缺失值。对于字符串变量,空单元被认为是一个有效值。,定义变量 对一个新的数据文件定义变量,可以 产生自己的变量名;提供描述性变量和数值标识;对于缺失值用特殊编码;制定不同格式(如字符串,日期和时间)。 对一个已存在的数据文件定义变量,可以 改变一个变量的名字、格式或其它特征,Variable Name(变量名) 对于新变量的缺省名是由前缀Var及其后的五位数组成(如Var00001, Var00002等)。为了改变变量名,只需在Variable Name文本框中输入新的名字。 下列规则适用于有效的变量名 变量名
8、必须以字母开头,其它字符可以是任何字母,数字或、#、$等符号; 变量名不能以点号结束; 尽量避免以下划线结束的变量名(以避免于其它过程自动产生的变量相混淆); 变量名长度不得超过八个字符; 不能用空格和特殊字符(例如:!,?,和*); 每一个变量名必须是唯一的,不允许重复。 变量名不区分大、小写字母,在SPSS中变量名NEWVAR,NewVar或newvar是一样的; 不能使用下列保留关键字:ALL,NE,EQ,TO,LE,LT,BY,OR,GT,AND,NOT,GE,WITH。,Type(变量类型) 在缺省情况下,SPSS认为所有新变量都是数字型的。在Variable View视图中在Typ
9、e这一列可以改变变量类型。将鼠标单击需要定义的变量所对应的单元格,再单击,就会弹出Variable Type子对话框,如图所示。,Numeric 有效值包括数字、前面的加号或减号,以及一个小数点符号。数字型变量的最大宽度是40个字符;小数位置的最大值是16。Comma 有效值包括数字、前面的加号或减号、点号作为小数点符号以及多个嵌入的逗号作为千位分界符。 Dot 有效值包括数字,前面的加号或减号、用作小数点符号的逗号,以及作为千位分界符的多个嵌入的点号。 Scientific notation 科学记法数字型。有效值包括所有有效的数字值和用一个E,加上加号或减号表示的科学记数法。 Date 有
10、效值是时间和日期。从表中选择一种格式。 Dollar 有效值包括一个美元符号,作为小数点符号的点号和作为千位分界符的多个逗号。 Custom Currency 如果产生了任何定制的货币符号格式,可以指定它们为显示格式。 String 有效值包括字母、数字和其它字符。输入字符数目的最大值(即变量的最长有效字符串值)。具有少于或等于八个字符的字符串变量是短字符串,多于八个字符的是长字符串。长字符串变量的使用受到严格控制,在多数SPSS过程中不能使用。,Labels(标识)和Value(赋值) label(标识) 变量标识能达到120个字符长,但在输出中许多过程显示不到120个字符。变量标识是区分大
11、小写字母的;他们显示的与输入值完全一样。可以直接在对应的单元格中输入。 Value(赋值标签) 可以对一个变量的每一个值指定一个标识。当数据文件用数字编码来表示非数值性分类时(例如:用编码1和2表示男性和女性)它们显示的是真正的输入值。值标识不能用于长字符串变量。 主要功能:指定标签、修改标签、删除标签。,Missing Values(缺失值) 系统缺失值 在数据长方形中任何空的数字单元都被认为系统缺失值,有点号表示。 用户缺失值 能够区分为什么信息缺失常常是很重要的。可以指定那些由于特殊原因造成的信息缺失的值,然后命令SPSS将它们标为缺失值。,No missing values 无缺失值,
12、所有值都认为是有效的。这是缺省情况。 Discrete missing values 对于一个变量可以输入最多三个离散的(个别的)用户缺失值。可以对数字型或短字符串定义离散的缺失值。 Range of missing values 所有最高和最低值之间(包括最高值和最低值)被认为是缺似的。对短字符串变量不适用。 如果想包括在一个范围内低于或高于某一定值的所有值而又不知道最低和最高的可能值是什么,可以为Low或 High键入一个星号(*)。,Column (列宽)和Align(排列) 用以调整Data Editor视图中列的宽度或列中数据的对齐方式。对齐方式包括“Right”、“Left”和“C
13、enter” Measure(测量方式) Scale(标度测量) Ordinal(有序测量) Nominal(名义测量),输入数据 我们可以以任何顺序来输入数据。可以根据观测或变量来输入数据,输入到被选范围内或各个单元中。 数值限制 被选变量的类型和宽度决定能进入那个单元值的类型。 如果键入了一个定义变量类型所不允许的字符,数据编辑器发出鸣叫声,而且不输入这个字符。 对于字符串变量,不允许输入超过宽度以外的字符。 对于数字型变量,能够键入超过定义宽度的完整值,但数据编辑器会在这个单元中显示科学记数法或星号,表示这个值比定义宽度,编辑数据 利用数据编辑器,可以许多方式来修改一个数据文件。 改变数
14、据值; 剪切,复制和粘贴数据值; 增加和删除观测; 增加和删除变量; 改变变量的顺序; 改变变量的定义。,文件管理与数据转换数据整理(二),马敬东 华中科技大学同济医学院 医药卫生管理学院,文件管理,数据文件合并 使用SPSS,用户可以两种不同的方式从两个文件中合并数据,即: 合并具有相同变量但不同记录的两个文件; 合并具有相同记录但不同变量的两个文件。 合并具有不同记录的文件 合并包含有不同变量的文件,Add Case过程从第二个文件即外部SPSS数据文件向当前工作数据文件追加记录。因此,在合并数据之前,必须有一个文件是打开的。 完成这一功能只需在菜单中选择:Data Merge File
15、Add Cases,此即打开了Add Cases Read File对话框,选好和当前工作数据文件合并的外部数据文件后,按下”打开” ,此即打开了Add Cases Form对话框,再按下此框中的OK键就完成了两文件的合并工作。,左侧显示新老数据库中不匹配的变量名,星号表示当前数据集中的变量,加号则表示添加数据集中的变量。可以通过Rename,对不匹配的变量重新命名然后再加入。亦可以按住CTRL键,选中两者,然后按Pair按纽,强行加入。,返回,New Working Data File: 合并后新数据集的变量列表。 Excluded Varialbes:为被纳入的变量。 Match case
16、s on key:定义关键变量。单选框中第一个含义为纳入两个文件提供的所有记录,第二个为以外部数据为主纳入当前文件的变量,第三个为以当前工作表为主。 Key Variables:用于选入记录匹配使用的关键变量。 Include Case Source 在新数据集中加入一个变量,用以指示记录的来源。,记录排序 记录排序,即对数据文件的行进行排序。它常和文件合并、文件分解、生成汇总报告等相联系。 数据文件中,根据一个或多个排序变量的值重排记录顺序,可在菜单中选择Data Sort Cases,汇总数据 用户可根据一个或多个分组变量的值对记录进行汇总,生成每组只包含一条记录的新数据文件。 结果可以存
17、入新的数据文件,也可以替换当前的数据文件。 在菜单中选用:Data Aggregate ,此即打开了Aggregate Data对话框。,Break Variable (s):确定分组变量 Aggregate Variable (s):确定被汇总的变量 Name & Label:定义新产生的汇总变量和标签 Function:汇总函数 Save Number of cases in break group as variable: 用于定义一个新变量以存储同组的记录数 Create new data file: 创建新的数据文件以存储汇总结果Replace working data file:
18、用汇总结果替换当前数据,返回,文件分割 在信息分析的实际过程中有时需要将一个数据上从逻辑上进行分割,以便更好更直观的进行分析。这个时候需要应用到SPSS的文件分割过程,即将数据文件分组进行处理。 在DATA菜单中选择Split File,则会出现下面的对话框。,Analyze all cases: 不拆分文件; Compare groups:按所选择的变量,分组拆分文件,各组分析结果放在一起便于比较; Organize output by groups:按所选择的变量,分组拆分文件,各组分析结果分开放置; Sort the file by grouping variables: 根据分组变量进
19、行排序; File is already sorted:文件已经排序。,选取记录子集 用户可以对所要分析的记录进行有针对性的选择。欲选取分析的记录子集,须在菜单中选用:Data Select Cases , 即打开了对话框,如下图所示。,All cases 使用数据文件中的所有记录。此为缺省。如果当前过滤条件有效,用户可用这一选项将其关掉。 If condition is satisfied 用户可用条件表达式选取记录。条件表达式对每一记录返回真、非真、或缺失值。返回为真,则记录被选取;返回为非真或缺失,则记录被过滤。 Random sample of cases 用户想在所有的记录中随机的抽
20、去一部分记录来进行统计分析,通过这一选项可选定抽取记录的一个百分比或确切的记录数。 Based on time or case range 对于定义有日期变量的时间序列数据,用户可选取一个日期或时间区间。Use filter variable 用户可定义过滤变量,选取或删除非零或非缺失的记录。 Filtered 此状态下,未被选取的记录不包含于分析记录子集但仍含于原数据文件中。在关闭过滤状态后,用户仍可使用未选取的记录。 Deleted 子状态下,未被选取的记录从数据文件中删除掉。,记录加权 如果数据文件中的每条记录代表一个以上的观测,用户可给Weight过程指定重复因子。欲根据加权变量值对记
21、录加权,须在菜单中选用:Data Weight Cases ,此即打开了Weight Cases对话框,如下图所示,数据转换,计算值 在对其它变量数值运算、转换的基础上计算值而得到新的变量。 从菜单中选择:Transform Compute,就得到了计算值对话框,如下图所示。 Target Variable 接受计算值的变量名。目标变量可以是现存变量或新变量。 Numeric Expression 用于计算目标变量值的表达式。表达式能够使用现存的变量名、常数、算数运算符和函数。在此编辑框中可以自由输入和编辑表达式,也可以使用计算器板、变量表和函数表将元素粘贴到表达式中。,返回,计算器板 上面包
22、括数字、算数运算符和逻辑运算符。可以象使用计算器一样使用它(用鼠标点取功能键)。 算数运算符 注意运算符的运算顺序:函数首先被运算,其次是指数运算,最后是加和减。可通过括号来对先要执行的运算进行控制。 关系运算符和逻辑运算符 函数,算数函数ABS(numexpr) 绝对值。RND(numexpr) 舍入为最接近的整数。TRUNC(numexpr) 截断成一个整数。MOD(numexpr , modulus) 第一个自变数除以第二个自变数的余数。SQRT(numexpr) 平方根。EXP(numexpr) 指数。E是自乘到自变数的次方。 LG10(numexpr) 以10为底的对数。LN(num
23、expr) 自然对数。ARSIN(numexpr) 反正弦。ARTAN(numexpr) 反正切。SIN (radians) 正弦。COS (radians) 余弦。 统计函数SUM(numexpr ,numexpr,) 表中所有自变数值的和。MEAN(numexpr ,numexpr,) 表中所有自变数值的平均数。SD(numexpr ,numexpr,) 表中所有自变数值的标准差。VARANCE(numexpr ,numexpr,) 表中所有自变数值的方差。CFUAR(numexpr ,numexpr,) 表中所有自变数值的变异系数。MIN(numexpr ,numexpr,) 表中所有自
24、变数值的最小值。MAX(numexpr ,numexpr,) 表中所有自变数值的最大值。逻辑函数RANGE (test,lo,hi, ) 当第一个自变数的值在其余自变数所定义的范围以内时为真。ANY (test,value,value, ) 当第一个自变数的值与表中其余自变数值匹配时为真。,数值编码 可以通过对数值重新编码来修改数值。可以对现存变量中的数值重新编码,或根据现存变量的编码值产生新的变量。 重新编入相同变量: 要对现存变量重新编码,从菜单中选择:Transform Into Same Variable,这样就打开了相应的对话框,如下图所示。 重新编入不同的变量 依据现存变量重新编码
25、的值产生新的变量。从菜单中选择: Transform Recode Into Different Variables基本操作和如何选项同“ Into Same Variables”。,Old Value 想重新编码为新值的当前值。Value 输入单个值。 System-missing 系统缺失值。在数值表中以SYSMIS出现。 System-or User-missing 包括用户缺失值的所有缺失值。数值表中以MISSNG出现。 Range 输入值的范围。 Range:Lowest through n 从最小的观测值到定义值的任何值。 Range:n through highest 从定义值到最大值的任何值。 All other values 先前未被定义过的其它值。在数值表中以ELSE出现。 New Value 被重新编码的值。 Value 键入一个值。 System-missing 系统缺失值。,