1、2019/7/14,管理统计,1,SPSS的简单应用,工商管理学院,2,一、SPSS 简 介,SPSS是Statistical Program for Social Sciences 的简称,即社会科学统计程序,由美国SPSS公司70年代推出,迄今已有近30年的历史。是国际著名三大社会科学统计软件包之一(SAS、SPSS、Statis)。最初是6.0版,我们现在使用的是SPSS for Windows 13.0版。目前最新的版本是16.0版。,3,二、SPSS的主界面,菜单栏的详细解释,4,1.File:有关文件的调入、存储、显示和打印等;2.Edit:编辑菜单,有关文本内容的选择、拷贝、剪贴
2、、寻找和替换等;3.Data:数据管理菜单,有关数据变量定义、数据格式选定、观察对象的选择、排序、加权、数据文件的转换、连接、汇总等;4.Transform:数据转换处理菜单,有关数值的计算、重新赋值、缺失值替代等;5.Statistics:统计菜单,有关统计方法的应用;6.Graphs:作图菜单,有关统计图的制作;7.Utilities:用户选项菜单,有关命令解释、字体选择、文件信息、定义输出标题、窗口设计等;8.Windows:有关窗口的排列、选择、显示等;9.Help:有关帮助文件的调用、查寻、显示等。,5,Analyze菜单,描述性统计分析Descriptive Statistics菜
3、单 均数间的比较Compare Means菜单 一般线性模型General Linear Model菜单 相关分析Correlate菜单 多元线性回归与曲线拟合 Regression菜单 对数线性模型 Loglinear菜单 聚类分析与判别分析 Classify菜单 因子分析与对应分析 Data Reduction菜单 信度分析与多维尺度分析 Scale菜单 非参数检验Nonparametric Tests菜单 Survival菜单,6,描述性统计分析Descriptive Statistics菜单,SPSS的许多模块均可完成描述性分析,但是专门为该目的而设计的几个模块则集中在Descript
4、ive Statistics菜单中,最常用的是最前面的四个过程: (1)Frequencies过程的特色是产生频数表; (2)Descriptives过程进行一般性的统计描述 (3)Explore过程用于对数据概况不清时的探索性分析; (4)Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验,常用的 检验也在其中完成。,7,该菜单具体有均值的几个过程: (1)Means过程:对准备比较的各组计算描述指标,进行预分析,也可直接比较。 (2)One-Samples T Test过程:单样本T检验。 (3)Independent-Samples T Test过程:两样本均数差别
5、的比较,即两组资料的T检验。 (4)Paired-Samples T Test过程:配对资料的显著性检验,即配对T检验。 (5)One-Way ANOVA过程:两组及多组样本均数的比较,即成组设计的方差分析,还可进行随后的两两比较。,均值的比较Compare Means菜单,8,其下属四个子菜单各自的功能是: (1) Univariate子菜单:四个菜单中的大哥大,绝大部分的方法分析都在这里面进行。 (2) Multivariate子菜单:当结果变量(因变量)不止一个时,可用他来分析。 (3)Repeted Measures子菜单:重复测量的数据就要用他来分析;用前两个菜单似乎都可以分析出来结
6、果,但在许多情况下该结果是不正确的。 (4)Variance Components子菜单:用于作方差成份模型的。,一般线性模型General Linear Model菜单,9,(1)Bivariate过程:用于进行两个或多个变量间的参数或非参数相关分析,如果是多个变量,则给出两两相关的分析结果。 (2)Partial过程:进行偏相关分析。如果进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用此分析对其他变量进行控制,输出控制其他变量影响后的相关系数。 (3)Distances过程:同一变量内部各观察单位 间的数值或各个不同变量间进行距离相关分析。,相关分析Correlate菜单,SP
7、SS的相关分析功能被集中在Analyze菜单的Correlate子菜单中,一般包括以下三个过程:,10,多元线性回归与曲线拟合 Regression菜单,SPSS的回归分析功能被集中在Analyze菜单的Regression子菜单中,一般包括以下三个过程: (1)Linear过程:可完成二元或多元的线性回归分析。在多元线性回归分析中,还可根据需要,选用不同筛选自变量的方法(如逐步法、向前法、向后法等)。 (2)Curve Estimation过程:可以用于拟合各种曲线,原则上只要两个变量间存在某种可以被它所描述的数量关系,就可以用该过程来分析。 (3)Binary Logistic过程:作一个
8、两分类的因变量 回归方程,但将概率做了一个Logit变换,从而该方法被叫做Logistic回归。,11,对数线性模型Loglinear菜单,(1)General过程:用于进行一般对数线性模型分析,主要用于证实性研究。 (2)Logit过程:当研究人员已经有了一些线索,知道因变量自变量时,如果因变量为两分类,就可以用这个过程来分析。 (3)Model Selection过程:分层对数线性模型。一般线性对数模型可以对每个系数及总模型给出非常丰富和详细的信息,但是它要求研究人员心中已经有了一定的思路或线索,或只对某些特定效应项感兴趣,即已经有关于简约模型的假设。,12,Classify菜单提供如下三
9、个过程: (1)K-means Cluster过程:对记录进行快速聚类,当明确所需要分出的类别数时,采用快速聚类可以节省运算时间。 (2)Hierarchical Cluster过程:提供了全面而强大的聚类分析能力,可对记录或变量进行聚类。更为重要的是,参与系统聚类分析的变量不再像快速聚类一样限于连续性变量,它们可以是两分类或多分类变量。 (3)Discriminant过程:提供了全面的类别分析功能,所用变量可一次进入,也可以使用逐步法筛选出最优类别方程。,聚类分析与判别分析Classify菜单,13,因子分析与对应分析Data Reduction菜单,(1)Factor过程:提供因子分析/主
10、成分分析方法,它们是最为常用的数据简化方法,用于考察多个定量变量间的内在结构,或者提取数据的主要信息。 (2)Correspondence Analysis过程:进行简单对应分析,该方法同样以数据简化的原则力图直观的给出各两个分类变量各个类别之间的联系,当各个变量的类别越多时,该法的优势就越明显。 (3)Optimal Scaling过程:进行最优尺度分析,其核心目的也是力图在低维度空间表述两个或多个变量之间的内在联系。,14,(1)信度分析(Reliability Analysis) :评价问卷这种测量工具的稳定性或可靠性,即用问卷对同一事物进行重复测量时,所得结果的一致性程度。该过程可以评
11、价问卷中各个问题是否测量的是同一个概念。 (2)多维尺度分析:用于反映多个研究事物间的相似(不相似)程度,通过适当的降维方法,将这种相似(不相似)程度在低维空间中用点与点之间的距离表示出来,并有可能帮助识别那些影响事物间相似性的潜在因素。,信度分析与多维尺度分析Scale菜单,15,非参数检验Nonparametric Tests菜单,(1)Chi-square test:检验变量个数取值所占百分比。 (2)Binomial Test:检测变量是否符合二项分布 (3)Runs Test:检验变量取值是否随机地上下波动。 (4)One-Sample Kolmogorov-Smirnov Test
12、。 (5)Two-Independent-Samples Tests。 (6)Tests for Several Independent Samples:成组设计的多个样本均数比较的非参数检验。 (7)Two-Related-Samples Tests:配对设计两样本均数的非参数检验。 (8)Tests for Several Related Samples。,16,SPSS提供了四个过程: Life tables过程:分析分组生存资料,求出不同组段时的生存率。 Kaplan-Meier过程:用于样本含量较小时,不能给出特定时间点的生存率。 Cox Regression过程:用于拟合Cox比例
13、风险模型,这是生存分析中最重要的一个分析方法。 Cox w/Time-Dep Cox过程:是Cox比例风险模型的进一步发展。当所研究的危险因素其取值随时间而不断变化,或其作用强度随时间而不断变化时,就必须用到这个过程了。,生存分析Survival菜单,17,二、SPSS的主界面,18,二、SPSS 的主界面,19,1.定义变量名Name,(2)变量最后一个字符不能是句号。,(1)变量名必须以字母、汉字或字符开头,其他字符可以是任何字母、数字或_、#、$等符号。,(3)变量名总长度不能超过8个字符(即4个汉字)。,(4)不能使用空白字符或其他特殊字符(如!、?等),(5)变量命名必须唯一,不能有
14、两个相同的变量名。,(6)在SPSS中不区分大小写,如HXH与hxh、Hxh均为同一变量名。,(7)SPSS的保留字不能作为变量的名称,如ALL、AND、WITH、OR等。,SPSS 主界面的解释,20,2.定义变量类型Type,Type,数值型(Numeric),日期型(Date),字符串型(String),Numeric,Comma,Dot,Dollar,Scientific Notation,Custom Currency,21,22,(1)Numeric:数值型。定义变量的宽度(Width),即整数部分+小数点+小数部分的位数,默认为8位;定义小数位数(Decimal Places),
15、默认为2位。 (2)Comma:带逗号的数值型。即整数部分每3位数加一逗号,其余定义方式同数值型,也需要定义数值的宽度和小数位数。 (3)Dot:圆点数值型。整数部分从右向左每三位一个圆点(不是小数点),对小数位的分割用逗号。(4)Scientific notation:科学记数型。同时定义数值宽度和小数位数,在数据编辑窗口中以指数形式显示。如定义数值宽度为9,小数位数2,则345.678显示为3.46E+02或3.46E02、 3.46D+02、 3.46D02等。,23,(5)Dollar:货币型。用户可以选择自己需要的多种货币显示形式,并定义数值宽度和小数位数,显示形式为数值前加$符号。
16、 (6)Custom currency:用户自定义型。如果没有定义,则默认显示为整数部分每3位加一逗号,用户定义数值宽度和小数位数。 (7)Date:日期型。用户可以选择自己需要的多种日期显示形式。如mm/dd/yy或dd-mm-yy等。 (8)String:字符型。用户可以定义字符的长度(Characters)以便输入字符。,24,3. 变量长度Width,4. 变量小数点位数Decimal,5.变量名标签Label,6.变量值标签Values,设置变量的长度,当变量为日期型时无效。,设置变量的小数点位数,当变量为日期型时无效。,变量只能由不超过8个字符组成,有时不足以变量的含义,变量标签可
17、长达120个字符。,当变量是定性或定序变量时,非常有用,如1代表male,2代表female等。,25,缺失值分系统缺失值和用户缺失值两类。由于特殊原因造成的信息缺失值为用户缺失值。如统计中可能需要区别一些被调查者不愿意回答的题目,将他们标为用户缺失值,带有缺失值的观测被特别处理。,7.缺失值的定义方式Missing,8.变量的显示宽度Columns,9.变量显示的对齐方式Align,缺失值定义分离散定义和区间定义两种。,屏幕上变量的显示宽度,默认8位,用户可改变该宽度,范围是1255。不是前面定义的内在宽度。,分Left、Right和Center三种,默认是右对齐。,26,Nominal(名
18、义级):是一种测量精确度最低最粗略的基于“质”因素的变量,不能比大小, 也不能进行四则运算。,10.变量的测度尺度Measure,Scale(刻度级):最高等级,分间距级(Interval)和比率级(Ratio)两个子级。定距级数据的基本特点是两个间隔相等的数值的差异相等;进行正线性变换不影响数据原有的基本信息;可做加减运算;0值表示某一取值,如温度0度。定比级数据的基本特点:0值表示没有,如身高0米;可做四则运算。,Ordinal(序次级):取值大小表示观测对象的某种顺序关系,可以比大小,不可以做四则运算。,27,SPSS变量类型与数据输入,(1)按变量是否连续分; (2)按变量的测度级别分
19、; (3)按变量的性质分。,1.变量类型:,注意:区分变量和变量值,1某班学生考试成绩分别为65分、80分、87分,这四个数字是( )。A指标 B标志 C变量值 D指标值 2某班50名学生某科考试成绩分别为60、75、80、85分则变量有( )。A1个 B2个 C50个 D51个,28,3.下列变量中属于连续变量的是( )。A.职工人数 B.设备台数 C.学生体重 D.工业企业数 4.某自行车厂统计自行车产量和产值,这两个变量( )A.前者离散变量后者连续变量 B.二者均连续变量C.前者连续变量后者离散变量 D.二者均离散变量 5.某运动队统计运动员身高和体重,上述两个变量( )A.前者离散变
20、量后者连续变量 B.均为连续变量C.前者连续变量后者离散变量 D.均为离散变量,29,2.数据输入:,定义了所有变量后,单击Data View标签,即可进入数据视图中输入数据。,录入带变量值标签的数据时,将菜单中View中的Value Lables子菜单选中即可。,30,31,在SPSS中,数据文件的编辑、整理等功能被集中在Data和Transform两个菜单项中,如下所示,Data菜单项,Transform菜单项,三、变量信息的复制,四、数据的编辑,32,数据的编辑的内容,1.修改数据(单元值的修改),go to Case,Edit,Find,33,2.增加或删除一个个案,Insert Ca
21、se,34,3.数据的排序,Data,Sort Cases,35,4.数据的行列互换,Data,Transpose,36,5.选取个案子集(Cases),Data,Select Cases,全部选取All Cases,有条件选取,随机抽样,顺序抽样,用指定的变量作过滤,37,6.数据的分类汇总,Data,Aggregate,38,1)Mean:求该组的平均值;2)Standard deviation:求该组的标准差;3)Maximum:只保留该组的最大值; 4)Minimum:只保留该组的最小值;5)Last:只保留该组的最后1个数值;6)First:只保留该组的第1个数值;7)Median:
22、求该组所有观察值的中值;8)Sum:求该组所有观察值的和。9)Percentage above:先确定1个数值,求大于该数值的所有例数占总例数的百分比(0-100%);,分类汇总提供的函数形式,续,39,10)Percentage below:先确定1个数值,求小于该数值的所有例数占总例数的百分比(0-100%);,续,11)Fraction above:先确定1个数值,求大于该数值的所有例数占总例数的百分比(0-1);12)Fraction below:先确定1个数值,求小于该数值的所有例数占总例数的百分比(0-1);13)Percentage inside:先确定1个下限,再确定1个上限,
23、求数值在该区间内的例数占总例数的百分比(0-100%);14)Percentage outside:先确定1个下限,再确定1个上限,求数值在该区间外的例数占总例数的百分比(0-100%);,40,15)Fraction inside:先确定1个下限,再确定1个上限,求数值在该区间内的例数占总例数的百分比(0-1);,16)Fraction outside:先确定1个下限,再确定1个上限,求数值在该区间外的例数占总例数的百分比(0-1)。17)Number of cases:合计该组的观察例数;18)Weighted:根据加权统计个案数;19)Weighted Missing:根据加权统计数据缺
24、失的个案数;20)Unweighted:统计个案数;21)Unweighted Missing:统计数据缺失的个案数。,41,7.缺失值的替代,Transform,Replace Missing Values,42,(1)Series mean:用该变量的所有非缺失值的均数做替代; (2)Mean of nearby points:用缺失值相邻点的非缺失值的均数做替代,取多少个相邻点可任意定义; (3)Median of nearby points:用缺失值相邻点的非缺失值的中位数做替代,取多少个相邻点任意定义 (4)Linear interpolation:用缺失值相邻两点非缺失值的中点值做
25、替代; (5)Linear trend at point:用线性拟合方式确定替代值。,点击Method的下箭头选择缺失值的替代方式:,43,8.数据的排名,Transform,Rank Cases,直接排名,分类(分组)排名,44,五、变量的操作,1.增加和删除一个变量(Variable),(2)删除一个变量:,选中某列,单击鼠标右键,(1)增加一个变量:,Insert Variable,Variable View 标签窗口选中某行,Data菜单栏,Delete或Clear,Edit菜单下,单击鼠标右键,45,2.指定加权变量(Weight Cases):,计算数据的加权平均数时,需要选择某个
26、变量作为权数。系统只对大于0的数按变量的实际值加权,0、负数和缺失值加权为0。,Data,Weight Cases,使用的命令:,46,3.根据已存在的变量建立新变量(Compute Variable):选择Transform菜单Compute项,打开Compute Variable对话框。,47,4.产生计数变量(Count):选择Transform菜单的Count命令。,48,5.变量的重新赋值(Record): 只适用于数值型变量。(1)对自身变量重新赋值;(2)赋值到其他变量或新生成的变量。,49,6.变量的自动赋值(Automatic Recode):将字符型、数字型数值转变成连续的
27、整数,并将结果保存在新的变量中,字符型数据按字母的顺序排列。类似于变量的排序。,50,7.变量定义信息的查询(Utilities):即提供变量的数据类型、变量标签、缺失值的规定、变量值标签等信息。,51,8.变量集的定义和使用(Define/Use Sets):,(2)SPSS变量集的种类:系统变量集和用户自定义变量集。,(1)变量集的定义:众多变量的集合。如某班学生所有科目的成绩。,52,数据文件的合并与分组,数据文件的横向合并,数据文件的分组(Split),数据文件的纵向合并,Merge Files,Data,Merge Files,Data,Add Cases,Merge Files,Data,Add Variables,53,数据文件的纵向合并(Merge Files),当前数据文件变量名与待合并的数据文件变量名:,完全一样:直接和并进入当前数据编辑窗口;,不完全一样,完全不一样,配对送入,不配对送入,直接配对送入,更名后配对送入,配对送入,不配对送入,