收藏 分享(赏)

spss 绪论.ppt

上传人:gnk289057 文档编号:6412198 上传时间:2019-04-12 格式:PPT 页数:43 大小:486KB
下载 相关 举报
spss 绪论.ppt_第1页
第1页 / 共43页
spss 绪论.ppt_第2页
第2页 / 共43页
spss 绪论.ppt_第3页
第3页 / 共43页
spss 绪论.ppt_第4页
第4页 / 共43页
spss 绪论.ppt_第5页
第5页 / 共43页
点击查看更多>>
资源描述

1、SPSS统计软件,主讲:刘文平,Dept. of Statistics Hubei University of Economics,Lecture 1,本章主要介绍统计软件SPSS的历史,SPSS的特点、功能模块、SPSS的窗口界面、SPSS运行环境参数设置以及系统参数设置。,第一章 SPSS入门知识,SPSS是世界上应用最广泛的专业统计软件之一,其原意为Statistical Package for the Social Sciences,即“社会科学统计软件包”。但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为Statistical Pro

2、duct and Service Solutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。,SPSS简介,20世纪60年代由美国斯坦福大学三位研究生研制,并成立了SPSS公司。 1975年在芝加哥组建了SPSS总部。 1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+ 。 1994至1998年间,SPSS公司陆续购并了SYSTAT公司、BMDP软件公司、Quantime公司、ISL公司等,并将各公司的主打产品收纳SPSS旗下,从而使SPSS公司由原来的单一统计产品开发与销售转向企业、教育科研及政府机构提供全面信息统计决策支持服

3、务,成为走在了最新流行的“数据仓库”和“数据挖掘”领域前沿的一家综合统计软件公司。,SPSS的历史,功能强大、实用与美观统一的 视窗风格,SPSS for Windows最突出的特点就是操作界面极为友好,它使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。 输出结果十分美观漂亮,存储时则是专用的SPO格式,可以转存为HTML格式和文本格式。,在众多用户对国际常用统计软件SAS、BMDP、GLIM、GENSTAT、EPILOG、MiniTab的总体印象分的统计

4、中,其诸项功能均获得最高分 。,非专业统计人员的首选统计软件,SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。 其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。,SPSS的缺点,不具备扩展性和灵活性,功能不完善,分析结果很难与办公软件如office直接兼容。 由于在SPSS公司的产品线中,SPSS软件属于中、低档SPSS公司共有二十余个产品),因此从战略的观点来看,SPSS显然是把相当的精力放在了用户界面的开发上。该软件只吸收较为成熟的统计方法,而对于最新的统计方法,SPSS公司的做法是为之发展一些专门软件

5、,如针对树结构模型的Answer Tree,针对神经网络技术的Neural Connection、专门用于数据挖掘的Clementine等,而不是直接纳入SPSS,因此他们在SPSS中均难觅芳踪。另外,其输出结果虽然漂亮,但不能为WORD等常用文字处理软件直接打开,只能采用拷贝、粘贴的方式加以交互。,SPSS的基本特点,数据自动处理 强大的统计功能 完全的Windows风格 良好的帮助系统合自学功能 简单的编程 完美的图形处理功能 丰富的数据对接功能 支持DLE与Active技术 内置VBA客户语言 强大的函数功能,SPSS 由多个模块构成(和SAS相同),SPSS 11版一共由十个模块组成,

6、其中SPSS Base为基本模块,其余九个模块为Advanced Models、Regression Models、Tables、Trends、Categories、Conjoint、Exact Tests、Missing Value Analysis和Maps,分别用于完成某一方面的统计分析功能,他们均需要挂接在Base上运行。除此之外,SPSS 11完全版还包括SPSS Smart Viewer和SPSS Report Writer两个软件,他们并未整合进来,但功能上完全是SPSS的辅助软件。 最新推出的SPSS 12.0除了原有的十个模块外,又新增了复杂抽样模块,能从您的调查数据中得到更

7、多准确的分析结果。同时改进了数据管理功能和绘图功能。,功能模块,样本数据的描述和预处理 假设检验(包括参数检验、非参数检验及其他检验) 方差分析 列联表 相关分析 回归分析 对数线性分析 聚类分析 判别分析 因子分析 对应分析 时间序列分析 生存分析 可靠性分析,SPSS的功能,广泛的应用于统计、应用数学、经济、市场营销、心理、卫生统计、生物、企业管理、气象、社会学等领域。 其分析过程包括:调查设计、数据收集、数据存取和管理、数据分析、数据检验、数据挖掘、数据展示等。还有一系列附加模块和独立模块产品以加强它的分析功能。它的图形窗口界面使其非常简单易用但却具有满足各种分析要求的数据管理、统计分析

8、功能及各种报表方法。,SPSS的应用,SPSS的安装,SPSS安装与其他WIN软件类似,在“安装向导”提示下完 成。在安装过程中可根据自己的需要选择安装相应的模块。 目前SPSS尚无汉化版,有些版本有“汉化补丁”(如10.0版有“汉化补丁” PSPSS10a.EXE)供下载,但仅能汉化菜单, 尚不能汉化输出结果。,SPSS的启动,双击SPSS图标,即可启动SPSS,弹出一个选择对话框。可以选择打开已经存在的数据文件,也可做出其他选择。,SPSS的窗口界面,数据编辑窗口(Data Editor)结果输出窗口(Viewer)语法编辑窗口(Syntax Editor)结果草稿浏览窗口(Draft V

9、iewer)表格编辑窗口(Pivot Table Editor)图形编辑窗口(Chart Editor)文本输出编辑窗口(Text Output Editor)脚本编辑窗口(Script Editor),单击OK或Cancel就进入了SPSS的主界面,即数据 编辑窗口(SPSS Data Editor).在此窗口中的文件名称为 *. Sav.,启动对话框,数据管理窗口数据视图,窗口切换标签栏,变量名栏,菜单栏,工具栏,编辑栏,标题栏,表格内容区,状态栏,数据视图,Running,SPSS数据管理窗口菜单,1、File:文件管理菜单,有关文件的调入、存储、显示和打印等;2、Edit:编辑菜单,有

10、关文本内容的选择、拷贝、剪贴、寻找和替换等;3、View:显示菜单,有关状况栏、工具条、是否显示网格等;4、Data:数据管理菜单,有关数据变量定义、数据格式选定、观察对象的选择、排序、加权、数据文件的转换、连接、汇总等;5、Transform:数据转换处理菜单,有关数值的计算、重新赋值、缺失值替代等;6、Analyze:统计菜单,有关一系列统计方法的应用;7、Graphs:作图菜单,有关统计图的制作;8、Utilities:用户选项菜单,有关命令解释、字体选择、文件信息、定义输出标题、窗口设计等;9、Windows:窗口管理菜单,有关窗口的排列、选择、显示等;10、Help:求助菜单,有关帮

11、助文件的调用、查寻、显示等。点击菜单选项即可激活菜单,这时弹出下拉式子菜单,用户可根据自己的需求再点击子菜单的选项,完成特定的功能。,数据管理窗口-变量视图,结果输出窗口,Output?-SPSS Viewer,在此窗口中的文件名称为*. spo,插入某个输出的辅助选项入标题、文本等,对输出的内容进行格式化,显得更加符合标准或更美观,语法编辑窗口,单击对话框“Paste”按钮弹出语法编辑窗口,在此窗口中的文件名称为*. sps,SPSS运行环境参数设置,状态栏,工具栏,字体设置,网格线栏,赋值标识,视图切换(Data Variable),View菜单设置运行环境,SPSS系统参数设置,系统参数

12、设置的Option菜单选项,通用参数设置标签,通用参数(General)设置,显示标识,显示变量名,结果输出窗口(Viewer)设置,Log Warnings Notes Titles Pivot Table Chart Text output Graphy Map,标题字体,图形参数(Charts)设置,数据格式(Data)设置,SPSS功能介绍及其应用举例,描述性统计分析Descriptive Statistics菜单 均数间的比较Compare Means菜单 一般线性模型General Linear Model菜单 相关分析Correlate菜单 多元线性回归与曲线拟合 Regress

13、ion菜单 对数线性模型Loglinear菜单 聚类分析与判别分析Classify菜单 因子分析与对应分析Data Reduction菜单 信度分析与多维尺度分析Scale菜单 非参数检验Nonparametric Tests菜单 Survival菜单,第一节 SPSS的主要分析工具Analyze菜单,1、描述性统计分析Descriptive Statistics菜单,1.1 Frequencies过程的特色是产生频数表 1.2 Descriptives过程进行一般性的统计描述; 1.3 Explore过程用于对数据概况不清时的探索性分析; 1.4 Crosstabs过程则完成计数资料和等级资

14、料的统计描述和一般的统计检验,我们常用的X2 检验也在其中完成。,描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:,2、均数间的比较Compare Means菜单,该菜单集中了几个用于计量资料均数间比较的过程。具体有: 2.1 Means过程 对准备比较的各组计算描述指标,进行预分析,也可直接比较。 2.2 One-Samples T Test过程 进行样本均数与已知总体均数的比较。 2.3 Indepe

15、ndent-Samples T Test过程 进行两样本均数差别的比较,即通常所说的两组资料的t检验。 2.4 Paired-Samples T Test过程 进行配对资料的显著性检验,即配对t检验。 2.5 One-Way ANOVA过程 进行两组及多组样本均数的比较,即成组设计的方差分析,还可进行随后的两两比较。,3、一般线性模型General Linear Model菜单,一般线性模型可不是用一章就可以说清楚的,因为它包括的内容实在太多了。那么,究竟我们用到的哪些分析会包含在其中呢?简而言之:凡是和方差分析粘边的都可以用他来做。比如成组设计的方差分析(即单因素方差分析)、配伍设计的方差分

16、析(即两因素方差分析)、交叉设计的方差分析、析因设计的方差分析、重复测量的方差分析、协方差分析等等。因此,能真正掌握GLM菜单的用法,会使大家的统计分析能力有极大地提高。实际上一般线性模型包括的统计模型还不止这些,我这里举出来的只是从用SPSS作统计分析的角度而言的一些。,好了,既然一般线性模型的能力如此强大,那么下属的四个子菜单各自的功能是什么呢?请看: 3.1 Univariate子菜单:四个菜单中的大哥大,绝大部分的方法分析都在这里面进行。 3.2 Multivariate子菜单:当结果变量(应变量)不止一个时,可用他来分析。 3.3 Repeted Measures子菜单:顾名思义,重

17、复测量的数据就要用他来分析;用前两个菜单似乎都可以分析出来结果,但在许多情况下该结果是不正确的,应该用重复测量的分析方法才对。 3.4 Variance Components子菜单:用于作方差成份模型的(这个模型实在太深,不是一时半会说的请的,所以我在这里就干脆不讲了)。,4、相关分析Correlate菜单,在数据分析中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,前者用下一章将要讲述的回归分析来实现,后者则需要用到本章所要讲述的相关分析实现。 SPSS的相关分析功能被集中在Analyze菜单的Correlate子菜

18、单中,他一般包括以下三个过程:,4.1 Bivariate过程 此过程用于进行两个/多个变量间的参数/非参数相关分析,如果是多个变量,则给出两两相关的分析结果。这是Correlate子菜单中最为常用的一个过程,实际上我们对他的使用可能占到相关分析的95%以上。 4.2 Partial过程 如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。Partial过程就是专门进行偏相关分析的。 4.3 Distances过程 调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行距

19、离相关分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。,5、多元线性回归与曲线拟合 Regression菜单,回归分析是处理两个及两个以上变量间线性依存关系的统计方法。回归分析就是用于说明这种依存变化的数学关系。下面三个过程是Regression菜单的子菜单,是SPSS提供的用于回归分析的工具:,5.1 Linear过程调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。 5.2 Curve Estimation过程Curve Estimati

20、on过程可以用与拟合各种各样的曲线,原则上只要两个变量间存在某种可以被它所描述的数量关系,就可以用该过程来分析。但这里我们要指出,由于曲线拟合非常的复杂,而该模块的功能十分有限,因此最好采用将曲线相关关系通过变量变换的方式转化为直线回归的形式来分析,或者采用其他专用的模块分析。,5.3 Binary Logistic过程所谓Logistic模型,或者说Logistic回归模型,就是人们想为两分类的应变量作一个回归方程出来,可概率的取值在01之间,回归方程的应变量取值可是在实数集中,直接做会出现01范围之外的不可能结果,因此就有人耍小聪明,将率做了一个Logit变换,这样取值区间就变成了整个实数

21、集,作出来的结果就不会有问题了,从而该方法就被叫做了Logistic回归。 随着模型的发展,Logistic家族也变得人丁兴旺起来,除了最早的两分类Logistic外,还有配对Logistic模型,多分类Logistic模型、随机效应的Logistic模型等。由于SPSS的能力所限,对话框只能完成其中的两分类和多分类模型,下面我们就介绍一下最重要和最基本的两分类模型。,6、对数线性模型Loglinear菜单,对数线性模型是一种纯粹应用于分类变量分析的多元统计方法。 它是一种比较新型的分析方法,在分析高维列联表时优势尤为突出。由以下三个过程组成: 6.1 General过程用于进行一般对数线性模

22、型分析,主要用于证实性研究。此时研究人员只对某些特定效应感兴趣,即已经有关于模型的假设,此时就可以采用一般模型来检验这一假设是否正确、充分,它可以对总模型和各个参数给出详细的检验结果。对变量不分因变量自变量,在分析中一视同仁,最后在结果解释时才由研究人员来做出判断。 6.2 Logit过程当研究人员已经有了一些线索,知道因变量自变量时,如果应变量为两分类,就可以用这个过程来分析。 6.3 Model Selection过程分层对数线性模型。一般线性对数模型可以对每个系数及总模型给出非常丰富和详细的信息,但是它要求研究人员心中已经有了一定的思路或线索,或只对某些特定效应项感兴趣,即已经有关于简约

23、模型的假设。如果在探索性分析中研究人员中只是设想若干分类变量之间可能有关系,但是并无明确假设,也没有具体分出哪个是应变量、哪个是自变量,此时比较适宜采用分层对数线性模型分析。,7、聚类分析与判别分析Classify菜单,聚类分析和判别分析都是将记录或变量分类的方法,所不同的是聚类分析是把没有分类信息的资料按相似程度归类,有一定探索性的味道;而类别分析则是从已知的分类情况中总规律,为以后判断新观测所属类别提供依据。 Classify菜单提供如下三个过程: 7.1 K-means Cluster过程对记录进行快速聚类,当明确所需要分出的类别数时,采用快速聚类可以节省运算时间。根据经验,如果样本量大

24、于100,则有必要考虑是否使用快速聚类。 7.2 Hierarchical Cluster过程习惯上翻译成系统聚类法,该过程提供了全面而强大的聚类分析能力,可对记录或变量进行聚类。更为重要的是,参与系统聚类分析的变量不再像快速聚类一样限于连续性变量,它们可以是两分类或多分类变量。 7.3 Discriminant过程提供了全面的类别分析功能,所用变量可一次进入,也可以使用逐步法筛选出最优类别方程。,8、因子分析与对应分析Data Reduction菜单,该方法主要目的都是浓缩数据,或称数据化简,即以最少的信息丢失为代价将众多的观测变量浓缩为少数几个因素,从而简化问题,或发现事物的内在联系。 8

25、.1 Factor过程提供因子分析/主成分分析方法,它们是最为常用的数据简化方法,用于考察多个定量变量间的内在结构,或者提取数据的主要信息。 8.2 Correspondence Analysis过程进行简单对应分析,该方法同样以数据简化的原则力图直观的给出各两个分类变量各个类别之间的联系,当各个变量的类别越多时,该方法的优势就越明显。 8.3 Optimal Scaling过程进行最优尺度分析,该方法的核心目的也是力图在低维度空间表述两个或多个变量之间的内在联系。所分析的变量以分类变量为主,但也可以为连续性变量。该方法实际上包括,但不仅仅限于对应分析方法。,9、信度分析与多维尺度分析Scal

26、e菜单,在Scale菜单提供的几种统计方法都属于尺度分析的范畴,它们是探索研究事物间的相似性/不相似性的专用技术。具体来说,这些方法和用途是: 9.1 信度分析:用于评价问卷这种测量工具的稳定性或可靠性,具体来说就是用问卷对同一事物进行重复测量时,所得结果的一致性程度。Reliability Analysis过程可以进行内在信度分析,即评价问卷中各个问题是否测量的是同一个概念。 9.2 多维尺度分析:用于反映多个研究事物间的相似(不相似)程度,通过适当的降维方法,将这种相似(不相似)程度在低维空间中用点与点之间的距离表示出来,并有可能帮助识别那些影响事物间相似性的潜在因素。这种方法在市场研究中

27、应用得非常广泛。Multidimensional Scaling过程和Multidimensional Scaling(PROXSCAL)过程都是专门用于多维尺度分析的过程。,10、非参数检验Nonparametric Tests菜单,作为二十一世纪统计理论的三大发展方向之一,非参数统计是统计分析的重要组成部分。可是与之很不相称的是他针对一般性统计分析的理论发展远远不及参数检验完善,因而比较完善的可供使用的方法也不多。比如多组均数间的两两比较,虽然已有好几种方法可资利用,但由于在理论上仍存在争议,几种权威的统计软件(如SAS和SPSS)均没有提供这方面的方法。虽然这些洋统计软件没有提供两两比较

28、的非参数方法,但国产的统计软件大都是提供了的(国情不同嘛),因此建议大家:如果真的要做这方面的非参数分析,不如直接用PEMS、SPLMWIN、NOSA等国产软件,免得用SPSS等只能做一半。 在SPSS中,几乎所有的非参数分析方法都被放入了Nonparametric Tests菜单中,具体来讲有以下几种:,Chi-square test:用卡方检验来检验变量的几个取值所占百分比是否和我们期望的比例没有统计学差异。比如我们在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是25%),或者是否符合我们所给出的一个比例(如分别为10%、30%、40%和20%,我随便写的)。请注

29、意该检验和我们一般所用的卡方不太一样,我们一般左的卡方要用crosstable菜单来完成,而不是这里。 Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一刀两断。 Runs Test:用于检验某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。 One-Sample Kolmogorov-Smirnov Test:采用柯尔莫诺夫-斯米尔诺夫检验来分析变量是否符合某种分布,可以检验的分布有

30、正态分布、均匀分布、Poission分布和指数分布。 Two-Independent-Samples Tests:即成组设计的两样本均数比较的非参数检验。 Tests for Several Independent Samples:成组设计的多个样本均数比较的非参数检验,此处不提供两两比较方法。 Two-Related-Samples Tests:配对设计两样本均数的非参数检验。 Tests for Several Related Samples:配伍设计多个样本均数的非参数检验,此处同样不提供两两比较。,11、生存分析Survival菜单,生存分析的主要研究内容: 1、描述生存过程:研究人群

31、生存状态的规律,如生存时间的分布的特点,计算某个时间点的生存率、生存率曲线的变动趋势等。这是人寿保险研究中的一项重要内容。 2、生存过程的影响因素分析:比较不同亚人群的生存状况,进行两组或多组生存率的比较,以了解哪些因素会影响目标人群的生存过程,这是生存分析方法最重要的研究内容,在临床医学中应用得非常广泛。 SPSS提供了四个过程:,11.1 Life tables过程:用于分析分组生存资料,求出不同组段时的生存率。或者当样本量较大时(如n50),可以把资料按不同时间段分成几组,观察不同时间点的生存率。 11.2 Kaplan-Meier过程:用于样本含量较小时,不能给出特定时间点的生存率。这样就不用担心每个时间段内只有很少的几个观测,甚至没有观测的尴尬局面。 11.3 Cox Regression过程:用于拟合Cox比例风险模型,这是生存分析中最重要的一个分析方法,它的出现具有划时代的意义,是多因素生存分析方法中最为常用的一种。 11.4 Cox w/Time-Dep Cox过程:是Cox比例风险模型的进一步发展。当所研究的危险因素其取值随时间而不断变化,或者其作用强度随时间而不断变化时,Cox模型的适用条件就被违反,此时需要对模型加以修正,就必须用到这个过程了。,End of the Lecture 1,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报