收藏 分享(赏)

第二章 数据文件的管1.doc

上传人:dzzj200808 文档编号:2289199 上传时间:2018-09-09 格式:DOC 页数:16 大小:174.50KB
下载 相关 举报
第二章 数据文件的管1.doc_第1页
第1页 / 共16页
第二章 数据文件的管1.doc_第2页
第2页 / 共16页
第二章 数据文件的管1.doc_第3页
第3页 / 共16页
第二章 数据文件的管1.doc_第4页
第4页 / 共16页
第二章 数据文件的管1.doc_第5页
第5页 / 共16页
点击查看更多>>
资源描述

1、第二章 数据文件的管理(下)(医学统计之星:张文彤)最后一次更新时间: 2.1 建立与保存数据文件-File 菜单2.1.1 新建数据文件2.1.2.1 直接打开2.1.2.2 使用数据库查询打开2.1.2.3 使用文本导入向导读入文本文件2.1.2 打开其他格式的数据文件2.1.3 保存数据文件2.1.4 File 菜单中的其他条目2.2 编辑数据文件2.2.1 定义新变量2.2.1.1 直接定义新变量2.2.1.2 从原有变量计算新变量-Transform 菜单2.2.2 数据的录入2.2.2.1 直接录入2.2.2.2 数据录入技巧2.3 进一步整理数据文件-Data 菜单2.3.1 用

2、于数据管理的菜单项2.3.2 正交设计菜单项 2.2.1.2 从原有变量计算新变量从头定义变量的情况多数在建立数据集时出现。但是,当数据集已经建立,需要整理、转换变量时,碰到的更多情况是需要根据某种条件从原有变量计算新变量。下面我们将按菜单条目的顺序依次讲解他们的功能。但是,首先我们需要了解一下所用的对话框界面的情况。【SPSS 对话框元素介绍】下面是我们在第一章曾经见过的两样本 t 检验对话框:这是一个非常典型的 SPSS 对话框。它包含了许多具有 SPSS 特色的对话框元素:o 对话框左侧为候选变量列表框,里面列出了可被该对话框使用的变量;o 右上方为 Test Variables 框,可

3、将变量选入其中;注意在两个框的中间用“ ”相连,这是变量移动按钮,其方向表明是将变量从那个框移动到哪个框,上图中我们选中了变量 group,两个移动按钮均变黑并向右指,表明变量 group 可以移动到他们右侧的两个框里去,改变当前框(在其他两个框里单击),移动按钮就会转向、变灰等以表明不同的意思(墙头草一个,可别小看这个功能,我想用 VB 实现这个功能,也是费了些工夫才把它搞定了);o 右侧为一排五个按钮,分别是确定、粘贴、重置、取消和帮助。这五个兄弟也是几乎永远一起出现的,另外四个大家都比较熟悉了,重置(Reset)按钮用于取消对话框内已做的选择,恢复到默认的状态;o 最下方有个 Optio

4、ns 按钮,用于设置专门用于该对话框的选项;o OK、Paste 两个按钮为灰色,表明所需条件尚未满足,该按钮暂不可用。同理,Grouping Variable 框下方的 Define Groups 按钮为灰色显示,也表明暂不可用。【Compute Variable 对话框】例 3.2 在 li1_1.sav 中建立新变量 temp,令其值当血磷值大于 1 时为2,否则为 1。解:这里需要用到 Compute Variable 对话框,外加一点技巧。首先给变量temp 均赋值为 1,然后将血磷值大于 1 的记录其 temp 变量值改为 2 即可。选择菜单 Transform=Compute,弹

5、出 Compute Variable 对话框如下:左上角为需要计算的变量名,在其中键入“temp”,此时“Type&Lable”按钮就会变黑,喜欢精确的朋友可以在这里对 temp 进行详细的定义,但如果你和我一样非常懒,就可以对它视而不见(不要生气,聪明人大多都非常懒:));左下方为候选变量列表,现在还用不着;中部为类似计算器的软键盘,可以用鼠标按键输入数字和符号,这里我们直接输入“1”,输入的内容回立刻在右上方的数值表达式窗口中出现;软键盘右侧为函数窗口,可以在这里找到并使用所需的 SPSS 函数;这次也用不到。好,现在“OK”按钮已经变黑,单击他,系统就会自动生成一个新变量 temp,并且

6、取值均为 1。软键盘上几个奇奇怪怪的符号的含义如下:= & | * 不等号,等价于Compute,系统也再次弹出这个对话框等等!注意到了吗?该对话框自动记住了你上次输入的内容,几乎所有 SPSS 的对话框都有这个特性,这会大大方便我们的使用。好,将数值表达式窗口中的 1 改为 2,然后单击中下部的“If”按钮,系统弹出记录选择对话框如下:不需要太多解释,大部分内容都是前面见过的。由于我们这里不是对所有记录做变换,因此选中第二个单选钮“Include if case statisfies confition:”,此时下方的所有窗口变亮,表明现在可用;而“Continue”按钮变灰,表明当前还没有

7、提供所需的信息,好,我们就来提供,在左侧选中血磷值(x),然后单击“ ”,x 就被引入了右侧的变量框,任你用键盘或者用鼠标,总之将下面这个算式补充完:x1。现在可见“Continue”按钮再度变黑。在它又变灰之前赶快单击它(开个玩笑),系统回到 Compute Variable 对话框,请注意 If 按钮右侧的变化:x2。如果你做的结果不一样,请重来一遍。现在单击“OK”按钮,由于我们要替换变量值,系统会弹出一个确认对话框,确认替换,马上你就会看到,我们已经把这道题做完了。【Count 对话框】Count 对话框用于计算某个值或某些值在某个变量的取值中是否出现(好象有点拗口),比如我们想看看有

8、哪些记录的血磷值在 23 之间,选择菜单Transform=Count,系统弹出 Count 对话框如下:Target Variable 框中用于指定记录变量值是否出现的变量名,在这里输入 temp2;选中血磷值(x),将其选入 Variables 窗口,此时“Define Values”按钮变黑,单击它,系统弹出变量值定义窗口如下:左半部为变量值定义窗口,可以定义某个值、系统缺失值、系统或用户定义缺失值、变量值范围、小于某值或大于某值。我们这里是第四种情况:选择Range,在 through 两侧分别键入 2、3,然后单击已变黑的“Add”按钮,“2 thru 3”就会被加入“Values

9、to Count”框内。然后单击“Continue”,再单击 Count 对话框的“OK”,可以看到系统自动生成变量 temp2,其中 10、11 号记录因血磷值介于 2 和 3 之间,temp2 取值为 1,其余的记录 temp2 取值均为0。SOS,SOS ,请大家千万注意, Count 对话框有一个潜在的 bugs,当你需要计算同时满足两个变量取值条件的记录数有多少时,直接用该对话框会得出完全错误的结果。这里有一点技巧,需要对对话框生成的指令加以修改,至于怎么修改嘛,我们将在 Syntax(语法)窗口使用详解一章中讲述 :)。【Recode 对话框】Recode 对话框用于从原变量值按照

10、某种一一对应的关系生成新变量值,可以将新值赋给原变量,也可以生成一个新变量。例 2.3 在 Li1_1.sav 中生成新变量 temp3,当血磷值小于 1 时取值为0,12 时取值为 10,大于 2 时取值为 20。解:选择菜单 Transform=Record=Into Different Variables,Recode 对话框如下:将血磷值(x)选入 Input Variable-Output Variable 框,此时 Output Variable 框变黑,在其中键入新变量名 temp3 并单击 Change,可见原来的 x-?变成了 x-temp3。现在单击“Old and New

11、 Values”,系统弹出变量值定义对话框如下:许多东西和前面类似,不再重复。按照题目的要求,选择 Range:Lowest through,在右侧框中键入 1,然后在右上方的 Value 右侧框中键入对应的新变量值 0,此时下方 Add 键变黑,单击它,Old-New 框中就会加入 Lowest thru 1-0,按照类似的方法依次加入另两条转换规则,最终 Old-New 框中共有Lowest thru 1-0、1 thru 2-10、Else-20 三条,现在单击 Continue,再单击 OK,系统就会按要求生成新变量 temp3。哎呀不得了,图片太多了,虽然这样非常直观,但下载速度太慢

12、了。等大家对基本界面操作熟悉了后,我们将对比较简单的对话框试着对操作用文字的方式描述,比如上面的操作我们将用文字表达为:1. Output Variable 框:选入 x2. Output Variable Name 框:键入 temp3:单击 Change 钮3. 选中 x-temp3:单击 Old and New Values 钮:4. Range:Lowest through 单选钮:键入 1:New Value Value 单选钮:键入 0:单击 Add 钮5. Range: through 单选钮:两侧分别键入 1、2:New Value Value 单选钮:键入 10:单击 Add

13、 钮6. Range: All other values 单选钮:New Value Value 单选钮:键入 20:单击 Add 钮7. 单击 Continue8. 单击 OK怎么样,还能理解吧。【Categorize Variables 对话框】Categorize Variables 对话框用于将连续性变量自动按要求分成等间距的几类。其界面非常简单,许多东西都是我们所熟悉的,唯一特别的是右下方的number of categories 框,用于输入变量的等级数,默认为 4,比如我们希望将血磷值按大小分成 5 个等级,先将血磷值选入 Create Categories 框,然后将下面的 4

14、 改为 5,单击 OK,就会看到系统产生了一个新变量 nx(即 number of x 之意),其取值就对应了血磷值相应的 5 个等级(15)。重复一下,具体操作步骤为:1. Create Categories 框:选入 x 2. Number of categories 框:5 3. OK【Rank Cases 对话框】例 2.4 请分组计算血磷值的秩和。解:选择菜单 Transform=Rank Cases,弹出 Rank Cases 对话框如下:将血磷值选入 Variable 框,分组变量选入 By 框,单击 OK 即可。系统会建立一个新变量 rx(即原变量名前加 r 表示 Rank 之

15、意),其取值为 x 分组的秩次。解释一下 Rank Cases 对话框的其他几个零件:o 左下角的 Assign Rank 1 to 框架用于选择将秩次 1 赋给最小值还是最大值;o 中下部的 Display summary tables 复选框用于确定是否在结果窗口内输出结果报表;o Rank Types 钮用于定义秩次类型,有 Rank(秩分数)、Savage 评分(新变量值按指数分布)、Fractional rank(新变量值是秩分数除以非缺失值观测量的权重之和)、Fractional rank %(新变量值是秩分数除以非缺失值观测量数乘 100)、Sum of case weights

16、(新变量值是各观测量的权重之和)、Ntiles(新变量值是按所选变量的百分位数分组的组序号),默认值为 Rank。单击 More 按钮,还会有更多的设置,这里就不再讲了。o Ties 钮用于定义对相同值观测量的处理方式,可以是取平均秩次、最小值、最大值或当作一个记录处理,默认值为取平均秩次。【Automatic Record 对话框】该对话框用于按原变量值的大小生成新变量,变量值就是原值的大小次序,功能和 Rank Cases 对话框重复(等价于相同值观测量当作一个记录处理的情况)。【Create Time Series 对话框】用于自动生成时间序列变量,由于太专业,这里不做过多解释。【Rep

17、lace Missing Value 对话框】用于填充缺失值,结果存入一个新变量。填充方法有:序列的均数、相邻若干点的均数、相邻若干点的中位数、线性内插、线性外延,默认值为序列的均数。2.2.2 数据的录入2.2.2.1 直接录入我想直接录入的问题就不用多讲了吧,直接敲就是了!2.2.2.2 数据录入技巧和其他常用统计软件相比,SPSS 数据界面最大的优势就是支持鼠标的拖放操作,以及拷贝粘贴等命令,下面的数据录入技巧就是对这些功能的利用。【连续多个相同值的输入】如前面 group 变量有连续多个 1,如果直接输入,可以在第一格内输入 1并回车,然后回到刚才的单元格并单击右键,选择 copy,最

18、后用拖放方式选中所有应输入 1 的单元格,单击右键并选择 paste,所有选中的单元格就会都被刚才拷贝的 1 填充。【将 EXCEL 数据直接引入 SPSS】Excel 已经打开原数据,并且数据量较少的时候,可以直接用拷贝粘贴的方法将数据引入 SPSS:先在 EXCEL 中选中所有的数据(不包括变量名),然后选择拷贝命令;然后切换到 SPSS,最好使行 1 列 1 单元格成为当前单元格,然后执行粘贴命令,数据就会全部转入 SPSS,再定义相应的变量即可。2.3 进一步整理数据文件-Data 菜单在许多情况下,我们需要先对数据进行一些整理(如分组、合并、加权等)才能将其用于最终的统计分析。这些功

19、能基本上都集中在 Data 菜单项中,下面我们就对这些对话框做逐一介绍。2.3.1 用于数据管理的菜单项【Sort Cases 对话框】例 2.5 对数据集 li1_1.sav 按 group 升序,x 降序的次序排列。解:选择菜单 Data=Sort Cases,系统弹出 Sort Cases 对话框,该对话框并不复杂,其中比较特殊的是下方的 Sort Order 单选钮,有升序和降序两种选择。请注意,该单选钮是和上方的 Sort By 框一起使用的,具体方法如下:1. 确认升序单选钮被选择,将 Group 选入 Sort By 框;2. 选择降序单选钮,将 x 选入 Sort By 框。请

20、注意:group 和 x 后面分别跟着 Ascending 和 Descending,表明前者是按升序、后者按降序排列;由于 Group 在前,因此排序时以 Group 优先。【Transepose 对话框】该对话框用于对数据进行行列转置,可以在原数据文件中指定一个变量记录转置后的变量名。原变量名则自动保存在系统产生的名为 case_lbl 的字符变量中。该对话框也非常简单,左侧为候选变量框;右上方为 Variable 框,用于选入需要转置的变量,一般应选入除名称变量外的所有其他变量,如果有变量未选入,则转置时会被自动丢弃;右下方为 Name Variable 框,用于指定原数据文件中记录转置

21、后变量名的字符变量,但不是必需的,此时系统会将新变量自动按 var001、var002.的顺序命名。【Merge Files 对话框】用于合并数据文件,实际上包括了两个对话框,分别对应了两种合并方式:1. 从外部数据文件中增加记录到当前数据文件中,称为纵向合并,用 Add Cases 对话框完成,相互合并的数据文件中应该有相同的变量。选择菜单Data=Merge Files=Add Cases,系统首先弹出打开数据文件对话框,选中需要添加的数据文件并按 OK,系统才弹出 Add Cases 对话框,左侧显示的是新、老数据文件中不匹配的变量名,右侧显示的是已经匹配的变量名。可以用Rename 按

22、钮对不匹配变量改名(先选中)或用鼠标强行匹配(即先按 Ctrl 键选中匹配的两个变量再单击 Pair 钮)。右下方的 Indicate case source as variable 复选框用于定义一个新变量以区分哪些记录是后来添加的。选择停当后单击 OK,该操作就完成了。实际上右侧显示的是将要包括在合并后数据集中的变量,如果有哪个你不需要,把它弄到左侧框中即可。2. 从外部数据文件增加变量到当前数据文件,称为横向合并,用 Add Variable 对话框完成,相互合并的数据文件中应包含同样的记录。选择菜单Data=Merge Files=Add Variable 对话框,系统同样先弹出打开数

23、据文件对话框,单击 OK 后弹出和前面相似的 Add Variable 对话框。按需选择即可。【Aggregate 对话框】用于对数据进行分类汇总,所谓分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的各变量值求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。上图中各个零件的含义如下:Break Variables 框:用于选择分组变量;Aggregate Variables 框:用于选择被汇总的变量;Name&Label 钮:用于定义新产生的汇总变量的名称和标签;Function 钮:用于定义汇总函数,共有三组函数,以最常用的第一组为例,可选的函数有均数、同组的第一

24、个观测值、最后一个观测值、同组记录数、标准差、最小值、和、最大值共 8 个;Save Number of cases in break group as variable 复选框:用于定义一个新变量以存储同组的记录数;Create new data file 单选钮:定义一个新文件以存储汇总的结果,右侧的 File 钮用于具体文件名的定义,默认文件名为 AGGR.sav;Replace working data file 单选钮:用汇总的结果替换原来的数据。例 2.6 计算 Li1_1.sav 中两组的血磷值标准差。解:该题完全可以用更简单的方法完成,这里只是演示一下汇总对话框的用法。1. B

25、reak Variables 框:Group 2. Aggregate Variables 框:x 3. Function 钮:(Standard deviation 单选钮:Continue 钮) 4. Replace working data file 单选钮:选中 5. OK【Split File 对话框】用于将数据文件分组进行处理,该对话框我们在第一章时已经使用过了,这里再介绍一下各个对话框元素的用途:Analyze all cases 单选框:和下面的两个单选框为一组,选中本框不拆分文件;Compare groups 单选框:按所选变量拆分文件,各组分析结果紧挨在一起便于相互比较;O

26、rganize output by groups 单选框:按所选变量拆分文件,各组分析结果单独放置; Groups based on 框:用于选择拆分数据文件的变量;Sort the file by grouping variables 单选框:将数据按所用的拆分变量排序;File is already sorted 单选框:数据保持原状,不按所用的拆分变量排序。【Select Cases 对话框】很多时候我们不需要分析全部的数据,而是按某种要求分析其中的一部分(比如只分析男性的身高、只对前 200 个数据进行分析以了解大概情况),这时使用 Select Cases 对话框可以大大简化工作。

27、该对话框界面如下所示:其中主要的对话框元素为:All cases 单选钮:和下面的 4 个单选钮为一组,选中它则分析所有的记录;If condition is satisfied 单选钮:只分析满足条件的记录; If 按钮:和 If 单选钮一起使用,单击后弹出 If 对话框;Random sample of cases 单选钮:从原数据中按某种条件抽样; Sample 按钮:和 Random 单选钮一起使用,可以设定按百分比抽取记录,或者精确设定从前若干个记录中抽取多少个记录;Based on time or case range 单选钮:基于记录序号来选择记录; Range 按钮:和 Bas

28、ed 单选钮一起使用,用于输入记录序号范围;Use filter variable 单选钮:使用筛选指示变量来选择记录,必需在下面选入一个筛选指示变量,该变量取值为非 0 的记录将被选中,进入以后的分析;Filtered 单选钮:和下面的 Deleted 单选钮为一组,表示未被选中的记录只是被隔离,这些记录的记录号会被加上斜杠以示区别;Deleted 单选钮:未被选中的记录将被删除,一般不要使用。当对数据集做出筛选后,所做的筛选将在以后的分析中一直有效,直到再次改变选择条件为止。同时在多数情况下,系统会自动产生一个名为 filter_$的筛选指示变量,被选中的记录该变量取值为 1,反之则为 0

29、。【Weight Cases 对话框】在默认情况下,每一行就是一条记录,这在多数情况下没有什么问题,但有时却非常麻烦,想想看如果你需要计算一个四格表卡方,有 100 例,如果每一行就是一条记录,你就需要输入 100 条记录!如果希望在计算过程中利用不同的变量对数据进行加权处理,就需要用到 Weight Cases 对话框。该对话框的使用极为简单,界面上有两个单选钮,分别是不权重记录和用某变量权重记录,如果选择后者,则需要选中一个权重变量。【Data 菜单中的其余对话框】Define dates 对话框:可以自动生成时间变量。 Insert Variable 命令:在当前列插入新变量。 Inse

30、rt cases 命令:在当前行插入新记录。 Goto cases 对话框:到达指定记录号的记录,该命令在记录数极多时(1000 条以上)非常有用。 2.3.2 正交设计菜单项正交设计不包含在 SPSS/BASE 模块中,因此由于解密范围的问题,有的 D版中不含该菜单项,不过我用的 10.0 版里是有的:)。以前我以为 SPSS 不能作正交设计,感谢网友 edofsh 的提醒,经研究,在SPSS 中可以直接进行正交设计,Orthogonal Design 子菜单项就是专门用于完成该任务的,具体做法用下面的例子说明如下:例 2.7 做 A、B 两个因素的正交设计,A 因素有三个水平,B 因素有两

31、个水平。解:选择 DataOrthogonal Designgenerate,弹出的就是正交设计窗口,操作如下:1. Factor name 框:输入 A; 2. 单击 ADD 钮; 3. 确定变量 A 被选中,单击 Define value 钮; 4. Value 列:头三行分别输入 1、2 和 3,代表变量 A 的三个水平; 5. 单击 continue 钮; 6. Factor name 框:输入 B; 7. 单击 ADD 钮; 8. 确定变量 B 被选中,单击 Define value 钮; 9. Value 列:头两行分别输入 1、2,代表变量 B 的两个水平; 10. 单击 con

32、tinue 钮; 11.单击 OK 在第 10 步定义完后,对话框应如下图所示:在其他没有用到的选择项中,各种 LABELS 当然适用于定义相应的各种标签的;Data Files 单选框组用来定义产生的数据文件是存为制定的文件名,还是直接替换当前工作文件;而 Define Value 对话框中的 Auto fit 框可以自动填充从 1 到你输入的那个数值这么多个水平的定义,特别适合我这种懒人。这里我们直接替换当前工作文件,在这个自动产生的正交设计数据集中,前两个变量就是要分析的 A 和 B,各个水平已经按正交设计的要求排列好了。后面的 status_和 card_变量是系统产生的 LOG 变量,可以不管它。现在你再建立一个结果变量,输入实验结果,就可以进行正交设计的分析了。回第二章(上) 回教程首页 到第三章

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报