1、数据的录入与管理,报告人:,第二章 数据录入与数据获取第三章 变量级别的数据管理 第四章 文件级别的数据管理,第二章 数据录入与数据获取,数据的直接录入 非电子化的原始数据资料,需要直接将调查问卷中的数据录入进SPSS软件中,建立数据文件。外部数据的获取 已经被录入为其他数据格式的资料,需要将其内容直接读入SPSS中。,2.2 数据格式,原则: (1)不同个案的数据不能再同一条记录中出现,即同一个案的数据应当独占一行。 (2)每一个测量指标/影响因素只能占据一列的位置,即同一指标的测量数值都应当录入到同一个变量中去。,“数据录入三部曲”,(1)定义各变量名,即给每个指标起个名字;(2)指定每个
2、变量的各种属性,即对每个指标的一些统计特性做出指定;(3)录入数据,即把每个被访者各指标取值录入为电子格式。,变量属性,1、变量的存储类型 数值型 字符串 日期型 (1)数值型(Numeric) 最常用 是由09的阿拉伯数字和其他特殊符号,如美元符号、逗号或圆点组成的。(工资、年龄、成绩等) 标准数值型 逗号数值型:每3位用逗号分隔 圆点数值型:每3位用圆点分隔 科学计数型 美元数值型:显示时带美元符号 用户自定义型,(2)字符型(String) 较常用 默认显示宽度为8个字符位,区分大小写字母,并且不能进行数学运算。 用一对引号引起来(3)日期型(Date) 表示日期或时间 mm/dd/yy
3、或类似的两位数年份记录方式,2、变量的测量尺度 定类尺度 定序尺度 定距尺度 定比尺度 (1)定类尺度 是对事物的类别或属性的一种测量,按照事物的某种属性对其进行分类或分组。 其值仅代表了事物的类别和属性,仅能测定类别差,不能比较各类之间的大小,所以各类之间没有顺序或等级。只能计算频数和频率 “S0城市”,(2)定序尺度 对事物之间等级或顺序差类别的一种测度,可以比较优劣或排序,但无法测出类别之间的准确差值。 可以计算频率、累计频率 “S4学历”(3)定距尺度 对事物类别或次序之间间距的测度。 不仅能将事物区分为不同类型并进行排序,而且可以准确指出类别之间差距是多少。 “温度” (4)定比尺度
4、 能够测量两个测量值之间的比值 “零点” 温度与重量,3、变量名与变量值标签 变量值标签是对变量取值含义的解释说明信息。4、缺失值 系统缺失值:“.”/空字符串 自定义缺失值:“缺失值属性对话框”5、角色 (1)输入 (2)目标 (3)两者 (4)无 (5)分区 (6)拆分,2.3 数据的直接录入,1、开放题的录入 “ID”数值型开放题 “姓名”字符型开放题2、单选题的录入 “性别” 字符直接录入 字符代码+值标签 数值代码+值标签3、半开放题的录入 “其他,请指出”选项 两个变量:(1)选项(2)独立的开放题:第一个变量名直接加 “a”,5、多选题的录入 称为“多重响应” 数据录入后需定义多
5、选题集 “多重二分法”“多重分类法” (1)多重二分法 指在编码时,对应每一个选项都要定义一个变量,有几个选项就有几个变量,这些变量分别代表对其中一个选项的选择结果,一般均为二分类,而其中必然有一个类别代表选中了这一选项。,(2)多重分类法 利用多个变量来对一个多选题的答案进行定义,应该用多少个变量由被访者实际可能给出的最多答案数而定。而且,这些变量必须为数值型变量,利用值标签将答案标出,所有变量采用一套值标签。之所以称为多重分类法,是因为每个变量都是多分类的,每个变量代表被访者的一次选择。设定多选题变量集 Tables模块和多重响应菜单(分析 多重响应 定义变量集),6、半开放多选题 与半开
6、放单选题非常相似,2.4 外部数据的获取,SPSS格式:“文件” “打开” “数据”非SPSS格式:直接打开(Excel格式)利用文本向导读入文本数据(文本数据)利用数据库ODBC接口读取(Access数据),1、读取电子表格数据文件 “文件” “打开” “数据” 或Demo.xls 事先打开了解文件结构: (1)包含几个数据表 (2)若只需读入部分,了解精确位置 (3)第1行是否为变量名,2、读取文本数据文件 “文件” “打开文本数据”“文件” “打开” “数据”demo.txt,3、用ODBC接口读取各种数据库文件 demo.mdb “文件” “打开数据库” “新建查询”,2.5 数据的保
7、存,1、保存为SAV格式2、保存为其他数据格式,第三章 变量级别的数据管理,变量级别的数据管理:“转换”文件级别的数据管理:“数据”,“转换”,1、计算新变量:最为常用和重要的过程 2、变量转换:从菜单第2项开始的多个计数过程、重编码过程和离散化过程。实际上可以看成是“计算变量”过程某一方面的强化和打包。 3、时间序列模型专用过程:“时间和日期向导”、“创建时间序列”、“替换缺失值” 4、自动数据准备 5、其他:“随机数字生成器”(第5章)、“运行挂起的转换”,3.1 变量赋值,变量赋值就是指在原有数据的基础上,根据用户的要求,使用SPSS算术表达式及函数,对所有记录或满足SPSS条件表达式的
8、某些记录进行四则运算,并将结果存入一个用户指定的变量中,该指定变量可以是一个新变量,也可以是一个已经存在的变量。 1、算术表达式:由常量、SPSS变量名、SPSS算术运算符(+、-、*、/、*)圆括号等组成的式子。数据类型和结果均为数值型。 2、函数:函数名(参数);8类函数 3、条件表达式与逻辑表达式:用来指定对哪些记录进行计算,计算变量,“转换” “计算变量”,“目标变量”文本框:用于输入需要赋值的变量名,候选变量列表,“数字表达式”文本框:用于给目标变量赋值,“函数组”列表框,“函数和特殊变量”列表框,函数解释文字文本框,3.2 已有变量值的分组合并,将连续变量转换为等级变量或将分类变量
9、不同的变量等级进行合并。“重新编码为相同变量”:对原始变量的取值直接进行重编码 “重新编码为不同变量”:根据原始变量的取值生成一个新变量来记录重编码的结果。,对连续性变量进行分组合并,两种方法:重编码可视化分段过程重编码:“转换” “重新编码为不同变量”分类变量类别的合并,连续性变量的离散化,可视化离散化过程:用于在可视界面下将连续变量进行分段,该过程可以使用百分位数、标准差范围或者等间距方式将连续变量划分为若干组段,并采用图形化操作的方式,非常直观好用。最优离散化过程:是对前述可视化离散过程的进一步自动化,根据某些作为“关键指示变量”的分类变量,将原有的一个或多个连续性变量按照该分类变量类间
10、差异最大化的优化原则离散化为分类变量,然后就可以使用离散后变量而非原始数据值进行后续的分析了。,3.4 转换菜单的其他功能,变量的自动重编码用于将字符变量转换为数值变量 变量值的移动某变量值的前移或后移 指定数值的查找和计数对某个个案进行计数 变量的编秩根据某变量的数值大小来排出次序,然后将次序结果存储到一个新变量中去 自动准备建模数据 随机数字生成器,第四章 文件级别的数据管理,(1)简单命令:插入变量、插入个案、到达某条个案、复制数据集等 (2)常用简单过程:排序、拆分文件、个案筛选和个案加权,必须掌握。 (3)数据重组向导:用于进行数据转置,或者对重复测量数据进行长型、宽型记录格式间的转
11、换。 (4)文件合并向导:将几个数据文件合并为一个大的SPSS数据文件,含横向合并和纵向合并两种情况。 (5)数据字典相关向导:包括定义变量属性,复制变量属性,以及新建设定属性三个向导界面。 (6)与数据准备有关的功能:用于复杂数据项目,用于简化数据管理工作。 (7)与统计模型密切相关过程:正交设计过程 (8)其他过程:定义多重响应集、数据汇总过程等。,4.1 几个常用的过程,1、排序个案 数据编辑窗口中的记录的前后次序在默认情况下由录入时的先后顺序决定。 (1)单变量排序:变量名处右击,“升序排列”“降序排列” (2)多变量排序:使用“排序个案”对话框 2、分割文件(Split File)
12、3、选择个案:用于只分析部分数据 4、加权个案:(1)以频数格式录入的数据(2)案例数据抽样权重的调整 5、分类汇总:按指定的分类变量对个案进行分组,并按分组对变量求指定的描述统计量。,4.3 数据文件的重组与转置,1、数据的长型与宽型格式 指的是重复测量数据的两种不同的排列方式。长型格式:在重复测量数据中,每一次测量被单独记录为一个个案( anxiety.sav )宽型格式:在重复测量数据中,每一个个体被记录为一个个案,他的所有测量被记录在不同的变量中(anxiety2.sav),2、长型格式转换为宽型格式 3、宽型格式转换为长型格式 4、数据转置,4.3 多个数据文件的合并,1、纵向拼接
13、指的是几个数据集中的数据纵向相连,组成一个新的数据集,新数据集中的记录数是原来几个数据集中记录数的总和。其实质就是将两个数据文件的变量按照各个变量名的含义一一对应进行首尾相接。(a和b) 2、横向合并 指的是按照记录的次序,或者某个关键变量的数值,将不同数据集中的不同变量拼接为一个数据集,新数据集中的变量数是所有原数据集中不重名变量的总和。实质就是将两个数据文件的记录按照某种对应关系一一进行左右对接。(a和c),4.4 与数据字典有关的功能,如果有事先定义的数据字典格式,则可以先生成一个没有记录的空数据文件,将全部的数据字典设定好,将来在数据录入完毕后使用复制文件属性向导套用一下字典即可; 如
14、果没有事先定义的数据字典格式,则可以在录入工作进行了一段时间以后先使用变量属性定义向导完成数据字典的设定工作,然后随着录入工作的进行经常扫描数据的情况,以及时更新字典,最后在录入工作完毕后使用复制文件属性向导应用字典的最终版本。 如果数据管理任务不太复杂,也可以直接在数据字典中录入数据,或者直接在变量视图中修改属性,或者直接在SPSS中录入/导入数据,然后利用设置未知测量级别向导来快速设定数据字典。,1、定义变量属性 2、复制变量属性 3、新建自定义属性 4、设置未知测量属性,4.5 与数据准备有关的功能,1、数据验证模块 2、自动数据准备过程 3、标识重复个案过程 4、标识异常个案过程 5、
15、最优离散化过程 6、缺失值分析,数据验证模块,数据验证模块用于实现数据核查功能,用户通过自行定义数据验证规则,以确定个案取值是否有效。 A 单变量规则:单变量规则包含一组应用于单个变量的数值检查规则,例如,范围外值的检查。对于单变量规则,有效值可以表示一个范围,也可以表示为一个有效值列表。 B交叉变量规则:交叉变量规则是用户定义的涉及多个变量间逻辑关系的规则,由标记无效值的逻辑表达式定义,可以应用于单个变量,也可以应用于变量组合。,1、定义验证规则 “数据” “验证” “定义规则” 2、进行数据验证 “数据” “验证” “验证数据” 3、加载预定义规则 “数据” “验证” “加载预定义规则” Predefined Validation Rules.sav,标识重复个案 标识异常个案,