常用统计分析软件.ppt-道客多多

资源描述

1、常用统计分析软件,SPSS 10.0 for Windows,主讲：杨泽峰(扬州大学) 电话：7979358 Email：,推荐使用的几本教材,以上教材均被超星数字图书馆收藏，校园网用户均可直接下载。SPSS等统计软件的下载地址：ftp:/ SPSS基础 SPSS数据文件的建立与管理 SPSS数据的基本加工和处理 SPSS输出窗口,序言,统计分析软件是数据分析的主要工具完整的数据分析过程包括：数据的收集数据的整理数据的分析统计学为数据分析过程提供一套完整的科学的方法论。统计软件为数据分析提供了实现手段。,序言,统计分析软件的一般特点功能全面，系统地集成了多种成熟的统计分析方法；

2、有完善的数据定义、操作和管理功能；方便地生成各种统计图形和统计表格；使用方式简单，有完备的联机帮助功能；软件开放性好，能方便地和其他软件进行数据交换,序言,常用统计软件简介 SAS (Ver8.2) -真正的巨无霸。被誉为国际上的标准统计软件和最权威的组合式优秀统计软件。人机对话界面太不友好图形操作界面比较糟糕一切围绕编程设计学习起来较困难（编程）说明书非常难懂价格贵的人直跳,序言,常用统计软件简介SPSS (Ver10) -统计软件中的贵族操作界面极为友好所有统计软件中最友好的精心设计的图形操作界面美观的结果输出强大的辅助教学功能输出结果与中文WORD尚存

3、在一定兼容问题在国内深受欢迎，特别是市场调研行业在欧洲各研究机构中得到广泛应用,序言,常用统计软件简介S-Plus(Ver6) S语言（AT&T贝尔实验室）的后续发展极为强大的统计功能和绘图能力应用上以理论研究、统计建模为主需要有较好的数理统计背景对编程能力要求极高,序言,常用统计软件简介Stata (Ver7) 软件小巧绘图美观统计分析能力极强数据接口差不提供对话框界面，命令行方式操作,序言,国产统计软件的佼佼者DPS（v5.12）一套通用多功能数据处理、数值计算、统计分析和模型建立软件；较强的统计分析和数学模型模拟分析功能; 是目前国内功能最完整的统计软件包。

4、,序言,学习使用统计分析软件的基本方法弄清分析的目的正确收集待处理和分析的数据(目的、影响因素的剔除）。弄清统计概念和统计含义，知道统计方法的适用范围，无需记忆公式。选择一种或几种统计分析方法探索性地分析数据。读懂计算机分析的数据结果，发现规律，得出分析,SPSS基础,软件名称 Statistical Package for Social Science Statistical Product and Service Solutions 软件发展 60年代：美国斯坦福大学三位研究生研制 70年代：SPSS总部成立于芝加哥，推出 SPSS中小型机版SPSSX 80年代：微机版（V1-

5、3）SPSS/PC+ 90年代：Windows版（v5-11） 2003年：Windows版（v12）,SPSS基础,基本窗口数据编辑窗口（data editor）功能：对SPSS的数据进行定义、录入、修改、管理等基本操作的窗口组成：窗口主菜单（Data、Transform、Analyze、Graphs）、工具栏、数据编辑区、状态显示区 SPSS运行过程中自动打开；且只能打开一个窗口；运行过程中无法关闭 SPSS中各统计分析功能都是针对该窗口中的数据进行的；窗口中的数据以.sav存于磁盘上,SPSS基础,基本窗口输出窗口（viewer）功能：SPSS统计分析报表及图形的输出窗口组成

6、：窗口主菜单、工具栏、结果显示区、状态显示区在进行第一次分析时自动打开，也可手工打开；可以手工打开若干个可相互切换的viewer窗口；输出窗口可以关闭；状态栏上的！表示当前输出窗口窗口内容以.spo存于磁盘上,SPSS基础,利用SPSS做数据分析的一般步骤建立SPSS数据文件定义数据文件结构录入修改和编辑待分析的数据分析数据统计分析之前的数据预处理统计分析和建模结果的说明和解释数据和分析结果的保存,SPSS数据文件的建立与管理,数据文件的特点结构的定义数据的录入和保存数据的编辑与其他软件数据共享,SPSS数据文件的特点,SPSS数据文件是一种有结构的数据文件数据

7、文件的每一行代表一个观测量（概率事件）每一列代表一个变量在数据编辑器中可以输入和编辑数据，但是不能输入数学表达式和函数,定义数据文件的结构,变量名(Variable name) 变量名是变量存取的唯一标志变量类型(type)和显示宽度(width) 数值型：常用标准数值型(Numeric):默认类型8.2如：12345678、12345.67、-1234.56 字符型(String): 存储字符数据8位。如：beijing处理时用双引号扩起来日期型（Date):存储日期数据，如：20-AUG-1999 注意：显示宽度不影响数据的存储,定义数据文件的结构,变量名标签(Variable l

8、abel) 变量值标签(Value label) 变量列格式(Column Format) 缺失值(Missing Values) 变量度量(Measurement) scale: 数值型 Ordinal：序数型 Nominal：名词型,数据的编辑,打开数据文件数据定位插入和删除个案插入和删除变量数据单元数据的移动和复制,与其他软件共享数据,打开其他格式的数据文件直接打开在SPSS 10已经可以直接读入许多常用格式的数据文件使用数据库查询打开利用通用数据库ODBC接口读取数据文件在9.0及以前版本中非常重要使用文本导入向导读入文本文件和大型机交换文件时常用,与其它软件共享

9、,直接打开,SPSS数据的基本加工和处理,数据文件的整理个案排序、个案选取、文件合并、文件转置数据加工计算变量、产生计数变量、分类汇总数据分组手工分组数据文件的其他处理功能指定加权变量、SPSS变量集的定义和使用,数据文件的整理,个案排序(sort) 将所有个案按照用户指定的某一个或多个变量的变量值的升序或降序重新排列快速查找异常值、极端值个案选取(select cases) 个案选取方式,数据文件的整理,文件合并(merge file) 将两个SPSS数据文件合并到一个数据文件中。纵向合并、横向合并文件转置(transpose) 将数据文件行列互换,即:将个案转为变量,

10、变量转为个案.,数据的加工,变量计算(compute) 产生新变量或对原变量进行必要的转换 SPSS算术表达式和逻辑表达式 SPSS函数产生计数变量(count) 对所有或部分个案，计算若干个变量中有几个变量的值落在指定的区域内，并将结果存入新变量中。,数据的加工,分类汇总(aggreate) 按指定的分类变量的变量值对个案分组；计算每组个案的汇总变量的基本统计量；将计算结果生成到一新文件中，即：在新文件中对应分类变量的每一个分类值产生一个个案。,数据的分组,目的:了解数据的总体分布状况手工分组(recode) 将指定按哪个变量分组，即：指定分组变量；定义分组变量的分组区间（不重、不漏

11、）；指定一个存放分组结果的标志变量自动分组(Categorize Variables) 将连续性变量自动按分位数要求分成几类,数据文件的其它处理功能,加权(weight cases) 指定某一变量为加权变量。变量集加快变量选择的速度变量集的定义变量集的使用,第二章统计分析,基本统计分析均值检验方差分析相关和回归分析聚类分析,2.1 基本统计分析,频数分布分析（Frequencies）描述性统计分析（Descriptives）探索性分析（Explore）列联表资料分析（Crosstabs）,2.1.1 频数分布分析,目的频数分布分析主要通过频数分布表、条图和直方图，以

12、及集中趋势和离散趋势的各种统计量，描述数据的分布特征。采用的方法计算频分布表绘制统计图形上述方法适用于定序、定类、定距类型数据,2.1.2 描述性统计分析,目的：描述性统计分析主要用以计算描述集中趋势和离散趋势的各种统计量，并可对变量进行标准化处理。步骤：【 Analyze 】【 Descriptive Statistics 】【 Descriptives 】,2.2 均值检验,统计假设测验概述单样本的t测验两个独立样本的t测验两个配对样本的t测验,2.2.1统计假设测验概述,统计推断（statistical inference），就是根据抽样分布律和概率理论，由样本结

13、果（统计数）来推论总体特征（参数）。统计推断的基本内容：统计假设测验（hypothesis test）参数估计（parametric estimate）统计假设测验是指根据某种实际需要，对未知的或不完全知道的统计总体提出一些假设（这些假设通常构成完全事件系），然后由样本的实际结果，经过一定的计算，作出在概率的意义上应当接受那种假设的测验。,假设测验的步骤,提出无效假设：实得差异由误差造成；备择假设：实得差异由总体参数不同造成。确定显著水平。在为正确的假设下，根据统计数的一定分布律，算出实得差异由误差造成的概率。如果这个概率，则在水平上否定，接受；反之亦然。,2.2

14、.2 单样本的t测验,含义：检验某变量的总体均值与指定的检验值之间是否存在显著差异。要求：样本来自的总体服从正态分布。步骤：【Analyze】【Compare means】【One sample t test】,2.2.3 两独立样本的t测验,(一)含义: 根据两独立样本的数据,对两总体均值是否有显著差异进行推断。例如：男生和女生的计算机平均成绩有显著差异吗？城镇和农村的平均存（取）款金额有显著差异吗？ (二)要求: 两样本必须相互独立，即:抽取其中一批样本对抽取另一批样本没有任何影响。(如:北京周岁儿童与上海儿童的平均身高) 两总体服从正态分布,2.2.3 两独立样本的t测验

15、,步骤【Analyze】【Compare Means】【Independent-sample t test】结论首先,如果F检验的P，认为方差不齐性；其次看Unequal行的t检验概率。如果,则拒绝t检验的H0,认为两总体均值有显著差异；如果,则不拒绝t检验的H0。首先,如果F检验的P,认为方差齐性;其次看equal行的t检验概率。其余同上,2.2.4 两配对样本的t测验,含义: 根据配对样本对两总体均值是否有显著差异进行推断. 例如：某种减肥茶是否有效要求: 两样本数据必须两两配对,即:样本个数相同,个案顺序相同.如:减肥茶的效果、不同广告形式对销售额的影响.(控制了个案自身的

16、影响) 两总体服从正态分布,2.2.4 两配对样本的t测验,基本思路计算两样本对应的个案的差值di=Y1i-Y2i 计算t统计量和对应的相伴概率P(绝对值大于等于的双侧概率) 结论:P,则拒绝H0,认为两总体均值有显著差异.P ,不能拒绝H0. 步骤【Analyze】【Compare Means】【Paired-sample t test】,2.3 方差分析,目的: 方差分析是从数据间的差异入手，分析哪些因素是影响数据差异的众多因素中的主要因素。例如：影响某农作物亩产量的因素(品种、施肥量、气候等) 影响推销某种商品的推销额(不同的推销策略、价格、包装方式、推销人员的形象等) 核心

17、问题从数据差异角度看: 观测变量的数据差异=控制因素造成+随机因素造成方差分析正是要分析观测变量的变动是否主要是由控制因素造成还是由随机因素造成的，以及控制变量的各个水平是如何对观测变量造成影响的。,2.3 方差分析,单因素试验资料方差分析多因素试验资料方差分析协方差分析,2.3.1 单因素方差分析,目的检验某一个控制因素的改变是否会给观察变量带来显著影响. 例如：考察不同肥料对某农作物亩产量是否有显著差异. 考察不同学历是否对工资收入产生显著影响. 步骤【Analyze】【Compare Means】【One-way ANOVA】,方差分析中的多重比较,目的如果总体均值存

18、在差异，F检验不能说明哪个水平造成了观察变量的显著差异。多重比较将对每个水平的均值逐对进行比较检验。常用方法 LSD法实际上就是t检验的变形，只是在变异和自由度的计算上利用了整个样本信息。 Duncan氏新复极差测验法 Tukey氏固定极差测验法 Dunnett氏最小显著差数测验法,2.3.2 多因素方差分析,控制因素的种类固定效应因素（Fixed Factor）：指的是该因素在样本中所有可能的水平都出现了。随机效应因素（Random Factor）：该因素所有可能的取值在样本中没有都出现，因此要用样本来推论总体情况，包括未出现的水平。这不可避免的存在误差（即随机效应），需要估计该误差

19、的大小，因此被称为随机因素。基本思路: 以两个控制变量的方差分析为例: SS总=SSA+SSB+SSAB+SSe 表示两个控制变量的交互影响,即:两个控制变量各水平之间搭配时对观察变量的影响.,2.3.3 协方差分析,目的: 将无法或很难控制的因素作为协变量，在排除协变量影响的条件下更精确地分析控制变量对观察变量的影响。,2.3.3 协方差分析,应用实例,2.3.3 协方差分析,基本思路: 协变量是数值型的；与观测变量的线性关系在各水平均成立，且斜率大致相同。 SS总= SS协+SSA+SSB+SSAB+SSe 步骤【Analyze】【General Linear Model】【Uni

20、variate】注意：在弹出的对话框中将协变量选入【Covariate(s)】栏,2.4 相关和回归分析,相关分析一元回归分析多元回归分析曲线拟合非线性回归分析,2.4 相关和回归分析,相关分析和回归分析的任务研究对象：统计关系相关分析旨在测度变量间线性关系的强弱程度。回归分析侧重考察变量之间的数量变化规律，并通过一定的数学表达式来描述这种关系，进而确定一个或几个变量的变化对另一个变量的影响程度.,2.4 相关和回归分析,目的通过样本数据，研究两变量间线性相关程度的强弱。(例如：职工的年龄和收入之间的关系、工人数和管理人员之间的数量关系）基本方法绘制散点图、计算相关系数,

21、2.4.1 相关系数,作用: 以精确的相关系数(r)体现两个变量间的线性关系程度. r:-1,+1; r=1:完全正相关; r=-1:完全负相关; r=0:无线性相关。说明: 相关系数只是较好地度量了两变量间的线性相关程度，不能描述非线性关系。数据中存在极端值时不好。,2.4.2 一元线性回归方程,一元回归方程: Y=a+bX a为常数项；b为Y对X回归系数，即:X每变动一个单位所引起的Y的平均变动回归方程的显著性检验 (1)目的: 检验自变量与因变量之间的线性关系是否显著，是否可用线性模型来表示. (2)检验方法 t检验 F检验(一元回归中,F检验与t检验一致,即: F=t2,两种检验

22、可以相互替代) 步骤【Analyze】【Regression】【Linear】,2.4.3 多元线性回归分析,多元线性回归方程多元回归方程:Y=0+1X1+2x2+.+kxk 1、2、k为偏回归系数。 1表示在其他自变量保持不变的情况下，自变量X1变动一个单位所引起的因变量Y的平均变动多元线性回归分析的主要问题回归方程的检验自变量筛选多重共线性问题自变量筛选法向前筛选法(forward)，是自变量不断进入回归方程的过程. 向后筛选法(backward)，是自变量不断剔除出回归方程的过程逐步筛选法(stepwise)，是“向前法”和“向后法”的结合,2.4.4 曲线拟合,目

23、的: 在一元回归分析或时间序列中，因变量与自变量(时间)之间的关系不呈线性关系，但通过适当处理,可以转化为线性模型。可进行曲线估计。曲线估计的常用模型: Y=a+bX(线性拟和linear) Y=a+b1X+b2X2(二次曲线quadratic) Y=a+b1X+b2X2+b3X3(三次曲线cubic) X为时间,也可为某一自变量。步骤【Analyze】【Regression】【Curve Estimation】,2.4.5 非线性回归分析,意义非线性回归过程建立因变量与一组自变量之间的非线性关系。非线性模型可以在自变量与因变量之间达成某种模型，这些任务的完成是依靠迭代估计运算获

24、得。步骤【Analyze】【Regression】【Nonlinear】注意在【Model Expression】框中输入一个合适的方程，在该方程中，包括变量、参数和常数等。必须为每个参数设置初始值。,2.5 聚类分析,K-means Cluster过程（快速聚类法）Hierarchical Cluster过程（系统聚类法）,2.5.1 Hierarchical Cluster过程,属于系统聚类法的一种方法原理先将所有n个变量观测看成不同的n类然后将性质最接近（距离最近）的两类合并为一类再从这n-1类中找到最接近的两类加以合并依此类推，直到所有的变量观测被合为一类使用者再根据具体的问题和聚类结果来决定应当分为几类解题思路应当选用变量聚类具体的分类数不明，需要输出全部结果方差和均数相差不大，无需进行标准化测量距离使用默认的欧氏平方距离即可,

展开阅读全文