收藏 分享(赏)

SPSS学习笔记.doc

上传人:yjrm16270 文档编号:6917055 上传时间:2019-04-27 格式:DOC 页数:25 大小:861.50KB
下载 相关 举报
SPSS学习笔记.doc_第1页
第1页 / 共25页
SPSS学习笔记.doc_第2页
第2页 / 共25页
SPSS学习笔记.doc_第3页
第3页 / 共25页
SPSS学习笔记.doc_第4页
第4页 / 共25页
SPSS学习笔记.doc_第5页
第5页 / 共25页
点击查看更多>>
资源描述

1、描述样本数据 一般的,一组数据拿出来,需要先有一个整体认识。除了我们平时最常用的集中趋势外,还需要一些离散趋势的数据。这方面 EXCEL 就能一次性的给全了数据,但对于 SPSS,就需要用多个工具了,感觉上表格方面不如 EXCEL 好用。个人感觉,通过描述需要了解整体数据的集中趋势和离散趋势,再借用各种图观察数据的分布形态。对于SPSS 提供的 OLAP cubes(在线分析处理表),Case Summary(观察值摘要分析表),Descriptives (描述统计)不太常用,反喜欢用 Frequencies(频率分析),Basic Table(基本报表),Crosstabs(列联表)这三个,

2、另外再配合其它图来观察。这个可以根据个人喜好来选择。一使用频率分析(Frequencies)观察数值的分布。频率分布图与分析数据结合起来,可以更清楚的看到数据分布的整体情况。以自带文件 Trends chapter 13.sav 为例,选择 Analyze-Descriptive Statistics-Frequencies,把 hstarts选入 Variables,取消在 Display Frequency table 前的勾,在 Chart 里面 histogram,在 Statistics 选项中如图 1图 1 分别选好均数(Mean),中位数(Median) ,众数(Mode),总数

3、(Sum),标准差(Std. deviation),方差(Variance),范围(range),最小值(Minimum),最大值(Maximum) ,偏度系数(Skewness) ,峰度系数(Kutosis),按 Continue 返回,再按 OK,出现结果如图 2图 2 表中,中位数与平均数接近,与众数相差不大,分布良好。标准差大,即数据间的变化差异还还小。峰度和偏度都接近 0,则数据基本接近于正态分布。下面图 3 的频率分布图就更直观的观察到这样的情况图 3 二采用各种图直观观察数据分布情况,如采用柱型图观察归类的比例等。 同样以自带文件 Trends chapter 13.sav 为例

4、,我们可以观察一下各年的数据总和的对比:1选择 Graph-Bar-Simple,在“Data in chart are”一项选择 Summary of groups of cases,然后按Define,出现图 4,图 4 2选择 Bars Represent-Other statistic(e.g. mean),把 hstarts 一项选入 Variable 里面,把 YEAR, Periodic 一项选入 Category Axis 项中,并按 Change Statistic 键,出现图 5:图 5 3在 Statistic 选项中选 Sum of values 一项,按 Contin

5、ue 返回,按 OK 即可出现图 6:图 6 从图中可以非常直观的看出 1965 年-1975 年间,每年的总体数量对比和各数值多少。三通过列联表来观察,数据的交错关系。 以软件自带的文件 University of Florida graduate salaries.sav 来说明1、选择 Tables-Basic Table,在弹出对话框中,选择 Graduate 到 Summaries 栏,College 到 Down ,Gender 到 Across 栏,如图 7图 7 2、选择 Statistics 按键,选取 Count 和 layer%到 Cell Statistics 一栏,并

6、按 Continue 键,如图 8图 8 三、选择 Layout 按键,选择 Summary Variable Labels-In separate labels(汇总的标签,如本例的Graduate,放在表外), Statistics Labels-Across top(数据的标签横放在顶部,如本例的 Count 和Layer%),并在 Label groups with value labels only 前选择打勾(表示只需要具体的标签名就可以,不需要汇总名,如本例 Gender 和 College),如图 9图 9 四、选择 Total 按键,在 Totals over each gr

7、oup variable 一项前选勾,则输出表会有增加汇总一栏,如图10图 10 提示,需要什么表格形式可以根据要求来调整,但对输出按键都需要熟悉,多尝试几次就可以看出不同的区别。图 11 为输出的表格图 11 重要提示:如果结果变成变量的汇总(SUM),则先选择 Data-Weight Cases,把 Graduate 的选项先选入 Weight Cases by 内,再选回 Do not weight Cases,按 OK 即可。对于其他带有编号的一项都可以这样做。这一点不知为何,本人屡次试过总需要这样调整。参考图 12图 12 几种常用的统计方法应用 一般来说,最最常用的统计分析有假设检

8、验和回归分析,在 SPSS 中也有很好的对应工具来做这些分析,但对其基本思路和要求都必须了解,这样才能更灵活的发挥。下面抄录EXCEL 在市场调查中的应用一书中关于这方面的内容:1假设检验 目的:是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。基本思想:小概率反证法思想。即 PSequence,如图 15图 15 把 hstarts 选入 Variables 项,把 No.选入 Time Axis Lables,然后按 OK,出现图 16:图 16 从图可以看出,数据总是在一个周期内反复在上下波动,虽然高低的位置不一样,但这种波动显然是随着时间的不同而变化

9、。因此可以察看,因变量与时间的关系如何。选择 Data-Define Dates,出现图 17图 17 在 Year 一栏填入 1965,Month 一栏填入 1,表示数据从 1965 年 1 月开始计算。选择 Analyze-Correlate-Bivariate,出现图 18图 18 把 hstarts,Year 和 Month 都选入 Varibales 选项,Correlation Coefficients 选择 Pearson 和Spearman(其实只需要选 Spearman 就可以,这里只是试一下,作为比较)。注:相关检验中有 Pearson(皮尔森)相关系数和 Spearman

10、(斯皮尔曼)等级相关,前者也称皮尔森相关系数,是对两个定距变量关系的刻画;后者是用来考察两个变量中至少有一个定序变量时的相关关系。Zero-order Correlations(零阶偏听偏相关系数)是按 Pearson 简单相关系数公式计算得到的相关系数。在皮尔森系数 r 是对两个定距变量关系的刻画:若-1r1 ,|r|越大,表明两个变量之间的相关程度越强。若 0若-1rRegression-Curve Estimation,出现图22图 22 把 hatarts 选入 Dependents 选项, Independent 选择 Time,Models 选择(Linear)线性回归,(Quad

11、ratic)二次曲线回归,(Cubic)三次曲线回归,(Exponential )指数回归,选择 Include constant in equation 表示方程式有常数项, Plot models 则表示用图表示,然后按 OK,出现图 23图 23 线性方程:Y=70.43 0.135X二次曲线方程:Y=64.171 0.415X-0.02X2 三次曲线方程:Y=87.68-1.667X 0.037X2( 0X3)指数曲线方程:Y=68.229xe 0.002 从 Sig 值判断,都小于 0.05,都接受回归成立,这样,只能从 R 拟合度和 F 值较大来判断三次曲线方程的拟合程度比较高。注

12、意,如果方程成立的话,想要增加预测,则可以在 Save 选项中选择 Predicted Values 一项,如果还想预测未来的数值,则可以在原表上增加若干行(如 1 行),然后选择 Predict Cases 下面 Predict through,在 Year 填入 1976,在 Month 填入 1,这样就表示预测值到 1976 年的一月。如图 24 所示。图 24 注意,在 Independent 选择 Time 和把 ID 选入结果一样,则因为 ID 是以时间为序来排,所以结果一样。3时间序列 因为 R 的似合度分别为 0.05,0.064 ,0.199 和 0.039,都比较低,方程的

13、效果不太好,如果要预测数值还是选择时间序列比较合适,因为从刚才 Sequence 的图也可以观察到,数据是以后的时间来波动的变化关系。选择 Analyze-Time Series-Exponential Smoothing,出现图 25图 25 把 hstarts 选入 Variables 选项,并在 Model 选择 Winters(注意,三种不同的模型的选择:简单指数平滑适用于不包含长期趋势和季节成分的数据;Holt 方法适合于包含长期趋势但不包含季节成分的数据;Winters 方法适合于包含季节成分(以及长期趋势)的数据。EXCEL 中只有简单的指数回归,与这里的绝不相同,从这里也可以看

14、到专业分析软件的优势更具体更仔细),又按 Save 键,如图 26图 26 Predict Case 选项中选择 Predict through,并在 Year 栏填入 1976,month 填入 6,这样就可以得到 1976年 1-6 月份的预测值(注意,此处与上面的回归不同,不需要增加 6 个 ID,不然结果会显示有缺失值)。返回,按 Parameters 键,如图 27图 27 分别把 Alpha(截距项的平滑系数),Gamma(趋势项的平滑系数)和 Delta(季节指数的平滑系数),设为从 0 到 1 之间以步长 0.05 搜索最优的参数值,其它选项采用默认值。返回按 OK,出现结果如

15、图28: 图 28 从图可看到平滑指数分别是 Alpha0.75,Gamma=0,Delta=0,而更重要的是,可以直接得到预测值,如图 29: 图 29 除了 Fit 一项的预测外,可以得到 1976 年 1-6 月的预测结果。同时,可以通过 FIT 1 的预测情况与上面三次曲线回归方程比较,采用平均绝对误差、均方根误差和平均绝对百分误差的结果选择更佳的答案。 与 EXCEL 表现的比较和补充 这一点是针对像我这样开始只懂得用 EXCEL 的人来说。从个人的体会来说,二种软件有一定相似,操作都简便,同时又有一些可以互补的地方。一、图型的表现力是 SPSS 的主要优点之一应该说,EXCEL 的

16、图型表现主要是简便,对许多的人来说基本够用,但对于科学的表现,SPSS 就更为详细和准确,这一点据说在所有统计软件中都突出。因为大多的书里面都谈到,这里从略。二、通过 SPSS 检验方差齐性和数据分布假设检验中,采用的 t 检验和方差检验都需要满足二个要求,即1样本方差齐性2样本总体呈正态分布在 EXCEL 中,提供了 F 检验来检验方差齐性问题。也就是可以先通过 F 检验确定方差齐性与否来选择下一步用哪个 T 检验或方差检验分析工具。但只要数据多于二组则无从下手;通过描述统计大约能从峰度和偏度来了解样本的分布(实际工作中,只要分布单峰且近似对称分布,也可应用 注 2),但要具体确定样本的分布

17、也有难度。这二个问题在 SPSS 就可以解决。A、用 SPSS 检验方差齐性同样以 University of Florida graduate salaries.sav 文件作为例子来检验性别数据是否方差齐性a.选择 Analyze-Descriptive Statistics-Explore,再选择 Dependent List-Graduate,Factor List-Gender,Display-Both,如图 30图 30 b.点击 Plot 按键,在对话框里选择 Boxplots-None,Spread vs.Level with Levene Test-Untransformed

18、,在 Descriptive 选择中取消 Stem-and-leaf 一项,如图 31图 31 然后,按 OK 键,结果如图 32 显示:图 32 图 32 中可以看出 ,显著值 sig 都大于 0.05,因此不能拒绝 H0 方差齐性的假设,即数据的方差齐性。提示,在 SPSS 中,应用 t 检验是不需要单独检验方差齐性问题。结果中就有 Levene 检验的结果,从中就可以选择方差分别作为相等与不等假设时的结果,如图 33图 33 而在方差检验中, Option 的按键有一个 Homogeneity of Variance test 的按键,选择后,输出就有方差齐性的检验结果。B、用 SPSS

19、 检验样本总体的分布。以软件自带文件 World 95 for Missing Values.sav 作为例子检验出生率的分布是否服从正态a. 选择 Data-Weight Cases,并把 Birth rate per 1000 people 选入 Weight cases by 的选项,如图 34图 34 b.选择 Analyze-Nonparametric Tests- 1 sample K-S,把 Birth rate per 1000 people 选入 test Variable List 选项,Test distribution 选 Normal,如图 35图 35 c.按 OK

20、 可以看到结果如图 20,两侧检验率为 0,则表示拒绝接受 Ho(数据整体服从正态分布)的假设,数据分布不服从正态分布。图 36 提示,除了正态(Normal)外,还可以检验其它分布,只要在图中选项中选择 Uniform(均匀分布),Poisson(泊松分布),Exponential(指数分布)即可。当然,如果样本过大,可能 SPSS 也会拒绝运算。三、感觉在数据和表格处理上,EXCEL 要强一点。像图 11 中,想把男性和女性的个数和个数百分比各自合为一列,结果不能做到。又如在运算方面,EXCEL 就能直接在单元格上操作,而 SPSS 则要下拉菜单,不但麻烦,而且观察和调整的效果也不如 EXCEL 理想。四、作为专业的统计软件,SPSS 感觉比 EXCEL 更丰富,也更准确,EXCEL 也有自身方便性的优点。可以根据个人喜欢来选择。最后用毛炳寰先生的劝导来结束这篇东西:1用自己熟悉,有把握的方法来做分析2仔细处理初级数据,所谓“Garbage in,garbage out”。3引用的时候不需要全部都罗列出来,同时也不用刻意的去搞清楚每一项表示的内容。(对这最后一个,本人有点保留,但也确实在这个探索过程令我沮丧,觉得还是忠言)

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报