1、本资料来源,SPSS统计软件教程全科医学教研室 制作日期:2009年10月,实验一 SPSS 软件安装、数据库建立及相关基本操作、应用,一 . SPSS简介 二 .数据库的建立 三 .数据的编辑 四 .数据的整理 五 .数据的分析,SPSS简介(一),SPSS(Statistical Package for Social Sciences,社会科学统计软件包)最显著的特点是运用菜单和对话框的操作方式,绝大多数操作过程仅靠鼠标击键即可完成,易于操作,是应用最多的统计软件之一。SPSS的Windows版本由最初的4.0版本发展升级到现在的13.0以上版本。安装SPSS10.0 for Window
2、s 软、硬件要求: 1、 Windows 95及以上版本; 2、16MB或以上内存; 3、80MB及以上可用硬盘空间。,SPSS简介(二),SPSS的启动:在快捷工具栏单击SPSS 10.0 图标开始 程序 SPSS 10.0 for WindowsSPSS软件分析的基本步骤:数据 选择分析程序 选择要分析的变量进行分析 得出结果 以文件 use1.sav 为例。,SPSS简介(三),SPSS的四个窗口:数据编辑窗口(Data Editor):启动SPSS后自动打开; File new data 。程序编辑窗口(Syntax Editor): File new syntax 。结果输出窗口(V
3、iewer):第一次产生分析结果的SPSS过程 后自动出现;File new output。图表编辑窗口(Chart Editor):选定要编辑的图表,双击它,即进入此窗口。,数据库的建立(一),新建数据文件: File New Data 第一步: 定义变量(Variable View) 第二步: 录入数据(Data View) 参见文件 use1.sav.,数据库的建立(二),定义变量:Name(变量名)-最大允许8个英文字符、4个中文字符Type(变量类型)-最常用的有数值型(Numeric)、 字符型(String)Labels (变量标签)-对变量的说明Values (数值标签)-说明
4、分组变量的取值情况Measure (数据量度)-Scale为连续型变量、 Ordinal为有序分类变量、 Nominal为无序分类变量。,数据库的建立(三),例 用下面数据建立数据库:,数据库的建立(四),录入数据: 数据库为一个二维表结构,一行为一个个体或一条记录,一列为一个变量。 有三种录入方法: (1)直接录入 (2)连续多个相同值的输入 (3)将Excel数据直接引入SPSS。,数据的处理,1 数据的修改 2 数据的复制和粘贴 3 数据的删除 4 变量的删除,其它格式数据文件的调用,File 菜单 Open子菜单 Data;或单击快捷工具栏上的“打开”按钮,出现“open file”对
5、话框,例如:打开 Excel文件(*.xls),如 use2.xls。 对于文本文件(*.dat,*.txt), File Read Text data,选择文本文件并打开,弹出Text Report Wizard对话框,完成6个步骤后即可读入到SPSS 数据编辑窗中。,保存数据文件,File菜单 Save、Save as子菜单 可以保存为最常用的 SPSS自身文件(*.sav) 和 Excel文件(*.xls)。,整理数据文件,Data菜单 Sort cases Transpose Merge Files Split File Select Cases Weight Cases 其他,Sor
6、t Cases过程(排序 ),将文件按某变量值的升或降的次序排列。例:在数据文件use1.sav中,按年龄从小到大(升序)排列; 或按其从大到小(降序)排列。若按两个及其以上变量值排序,则按变量在“Sort by”栏中选入的顺序依次进行。,Transpose 过程(转置),对数据进行行列互换,即:变量名与个体记录对换,使新文件的行是原文件的列,新文件的列是原文件的行。一般什么情况下要进行行列互换?1、所调用文件中的数据与SPSS数据录入要求不相符;2、根据数据分析的特殊要求。以use05.sav为例,进行行列互换。在“Variable”行列转置变量栏中,放入需要行列转置的变量名;未放入栏中的变
7、量会在文件中遗失;字符串变量不能转置。,Merge Files过程(合并数据文件),1 纵向合并- Add Cases:增加个体; 2 横向合并- Add Variables:增加变量。一、Add Cases(纵向合并):相互合并的数据文件中应有相同的变量,如use3.sav与use4.sav的个体合并。若两文件中的变量不全相同,如v1.sav与v2.sav的个体合并,在对话框中选择“Indicate case sources variable”。结果中只看到共同的变量和指示个体来源的变量。,Merge Files过程(合并数据文件),二、Add Variables(横向合并):增加变量时,外
8、部文件与当前数据均须为升序排列文件。相互合并的数据文件中应有同样的记录,如v2.sav与v3.sav两个文件的个体合并。若两文件中的记录不全相同,如v1.sav与v2.sav的个体合并,合并后的文件残缺不全。,Split File 过程(拆分文件),将数据文件分组拆分进行处理分析。例:在use1.sav中,按性别分组,分别分析男、女的变量值X的平均情况。若想还原,仍按此步骤,选中对话框中“Analyze all cases”;否则拆分命令一直有效。,Select Cases过程(筛选记录),筛选一部分符合某要求的记录来分析。例: 在use1.sav中,只分析男性(或女性)的变量值X的平均情况。
9、若不改变选择条件,否则此筛选一直有效。,Weight Cases过程(加权),在选择分析程序之前,确定数据文件中的频数变量,常用于频数表资料和计数资料。 如:频数表中的频数需要确定为频数变量,见v5.sav ;卡方检验中需确定频数变量,见v6.sav,然后才能正确分析。,频数表、四格表,其他过程,Insert Variable-在当前列插入新变量,Insert Cases-在当前行插入新记录,Goto Cases-指向第几条记录。,编辑数据文件,Transform菜单Compute Recode Count Categorize Variables Rank Cases Replace Mis
10、sing Values,Compute过程(计算),建立一个新变量,它可以是数值型或字符型的,新变量的数据是对每个个体求数值表达式的结果。以数据文件use1.sav为例。例如:原有变量age,现在求一个新变量X,X=lg(age);若只求sex=1条件下的X,则先单击“IF”按钮,打开条件表达式If Case对话框。,常用的算术函数,ARSIN反正弦函数; EXP以e为底的指数函数; LG10以10为底的对数函数; LN自然对数函数; SQRT平方根函数; RND四舍五入后取整;,Recode过程(重置代码),1 into same variable:即变量名不变,变量值改变; 2 into
11、different variable:即变量名和变量值都改变。以数据文件use1.sav为例。例:现在由原变量age转变成另一个有序分类变量X ,如:age30,则x=1;30age50,则x=2;age 50,则x=3 ;或把X 值转换成有序分类变量值,而变量名仍为age。如: age30,则为1;30age50,则为2; age 50,则为3 。,重置代码过程,主要介绍“Old and New Values” 对话框:若把连续变量(如年龄)转变成有序分类变量,则一一选择对话框左下侧的3个“Range”,分别对应3个组段,分别给予3个新的变量值,移到右下栏中;若把分类变量的变量值替代成新的变
12、量值,则选择对话框左上的“Value”。,Replace Missing Values过程(缺失值的替代),缺失值的替代方法有以下几种选择: 1、Series mean:以变量的算术均数替代; 2、Mean of nearly point:以缺失值邻近点的算术均数替代;3、Median of nearly point: 以缺失值邻近点的中位数替代;4、Linear interpolation:线性内插值法;5、Linear trend at point:线性趋势法。,数值变量资料统计描述,Analyze Descriptive Statistics Frequencies、Descriptiv
13、es Analyze Compare Means Means 1、 Frequencies :其特色是产生原始数据的频数表,并能计算各种百分数;同时还可以为数据直接绘制相应的统计图,如直方图、饼图和条图;以v5.sav为例,用 Frequencies 过程对发汞值进行频数表的统计描述。,2、 Descriptives:用于一般性的统计描述,不能绘制统计图,主要用于服从正态分布的连续性变量进行描述;:以use1.sav为例,用Descriptives 过程对(不同性别的)年龄、血小板进行描述。,3、Explore:用于对连续性资料分布不清楚时的探索性分析,可以计算许多统计量,给出各种统计图,并进
14、行简单的的参数估计;4、Ratio:用于对两个连续性变量计算性对比指标,可以计算出一系列非常专业的相对比描述指标,但使用面较窄,不做介绍。,数值变量资料的统计推断,统计推断包括两个方面:1、可信区间2、假设检验-单样本t检验、两样本t检验、配对t检验、方差分析。Analyze Compare Means one-samples T Test、 Independent-samples T Test、 Paired-samples T Test、 One-way Anova,One-sample T Test(单样本t检验),用于样本均数与总体均数的比较。以use1.sav为例,问患者的血小板与正
15、常人的平均值150(109/L)有无统计学意义;估计患者血小板的可信区间。结果包括:描述统计表和 t 检验表。,Independent-samples T Test(两样本t检验),用于成组设计的两样本均数的比较,要求两总体方差齐;只能有一个分组变量,且这个分组变量只能分为两组。以use7.sav为例,分析性别之间年龄的差异、bp1的差异。结果包括:检验变量的分组描述统计; Levene方差齐性检验; 总体方差齐与不齐时的t 检验表。,Paired-samples T Test(配对t检验),用于配对设计的两样本均数的比较,看成每一对数据差值的样本均数所代表的未知总体均数与已知总体均数0的比较
16、。以use8.sav为例,分析新药和安慰剂疗效是否相同。必须在对话框中,选中两个成对变量。结果类似单样本t检验。,One-way Anova(单因素方差分析),作用: 1、检验单一因素影响的多个样本是否来自均数相同的总体。要求各样本相互独立、均来自正态总体、总体方差齐。 2、均数之间两两比较。可选入多个应变量;只能选入一个分组变量。以use7.sav为例,分析不同意识程度之间的bp1差异有无统计学意义。结果包括:各组变量值的描述统计;方差齐性检验; 方差分析表;各组均数的两两比较表。,Univariate(单变量过程),介绍析因设计的双因素方差分析:原始资料为: 整理后的表格为: 整理后的SP
17、SS数据库格式见use04.sav(变量值为红细胞增加数)。,Univariate,问:A和B两药单独使用的治疗效果如何?两药联合使用的治疗效果如何?Analyze GLM Univariate ,打开对话框,把变量放入应变量栏中,两药因素放入自变量栏中;单击“Plots”按钮,打开对话框,设置两因素的交叉作用。结果中包括两药的单独作用以及联合作用的情况。,分类资料统计分析,Analyze Descriptive Statistics Crosstabs,Crosstables 过程(列联表分析),1 确定行变量、列变量、频数变量;2 必须指定频数变量,Data Weight Cases;3 根据不同资料、不同的研究目的,在“Statistics”对话框中选入不同的分析指标。4 在结果中,根据不同的研究目的,或根据四格表资料的样本例数和各格子中的理论频数大小,选择所需要的指标。,四格表资料2检验的适用条件,T为理论频数, n为样本含量。 1、T5,n40 ,选择不校正的2值; 2、140 ,选择连续性校正后的2值; 3、T1 或 n40,选择确切概率法的2值。,一般行列表,问:两种药的愈合率是否相同?在“Statistics”对话框中选中“Chi-square”即可。,演讲完毕,谢谢观看!,