资源描述
SPSS学习笔记
描述样本数据
一般的,一组数据拿出来,需要先有一个整体认识。除了我们平时最常用 的集中趋势外,还需要一些离散趋势的数据。这方面EXCEL就能一次性的 给全了数据,但对于SPSS,就需要用多个工具了,感觉上表格方面不如 EXCEL好用。
个人感觉,通过描述需要了解整体数据的集中趋势和离散趋势,再借用各 种图观察数据的分相形态。对于SPSS提供的OLAP cubes (在线分析处理 表),Case Summary (观察值摘要分析表),Descriptives (描述统计) 不太常用,反喜欢用Frequencies (频率分析),Basic Table (基本报表), Crosstabs (列联表)这三个,另外再配合其它图来观察。这个可以根据 个人喜好来选择。
一.使用频率分析(Frequencies)观察数值的分布。频率分布图及分析 数据结合起来,可以更清楚的看到数据分布的整体情况。
以自带文件 Trends chapter 13. sav 为例,选择 Analyze->Descriptive
Statistics->Frequencies, 把 hstarts 选入 Variables, 取消在 Display
Frequency table 前的勾,在 Chart 里面 histogram,在 Statistics 选项
中如
分别选好均数(Mean),中位数(Median),众数(Mode),总数(Sum),标准 差(Std. deviation),方差(Variance),范围(range),最小值(Minimum), 最大值(Maximum),偏度系数(Skewness),峰度系数(Kutosis),按 Continue 返回,再按0K,出现结果如图2
hstarts
Stalistics
二.采用各种图直观观察数据分布情况,如采用柱型图观察归类的比例等。
同样以自带文件Trends chapter 13. sav为例,我们可以观察一下各年的 数据总和的对比:
1. 选择 Graph->Bar-〉Simple,在“Data in chart are” 一项选择 Summary
of groups of cases,然后按 Define 出现图 4
3 / 20
图4
2. 选择 Bars Represent->Other statistic (e. g. mean), 把 hstarts 一 项选入 Variable 里面,把 YEAR, Periodic 一项选入 Category Axis 项中, 并按Change Statistic键,出现图5:
3. 在 Statistic 选项中选 Sum of values 一项,按 Continue 返回,按 OK 即可出现图6:
从图中可以非常直观的看出1965年-1975年间,每年的总体数量对比和各 数值多少。
三.通过列联表来观察,数据的交错关系。
以软件自带的文件 University of Florida graduate salaries, sav 来说 明
1、选择Tables-〉Basic Table,在弹出对话框中,选择Graduate到
Summaries 栏,College 到 Down , Gender 到 Across 栏,如图 7
2、选择 Statistics 按键,选取 Count 和 layer%到 Cell Statistics 一栏, 并按Continue键,如图8
图8
三、选择 Layout 按键,选择 Summary Variable Labels->In separate labels (汇总的标签,如本例的Graduate,放在表外),Statistics
Labels->Across top(数据的标签横放在顶部,如本例的Count和Layer%), 并在Label groups with value labels only前选择打勾(表示只需要具 体的标签名就可以,不需要汇总名,如本例Gender和College),如图9
Basic Tables: Layout
$unnma(y> Variable Labels Statistic* Labels :
Cdrttirtu6
「JQowntheBeftside 仔 Acxossthegop 1—— —J
**' Across the top 「Down the left $ide
G in s-epacale tables 「InieparAte tables Help
Groups: in Summaey Variable Dknensicn
C All sunOT/vy Afarieble.^ under each group
「Allgcnips cinder each sur.matjr vsziable
― 一 usBei&x^aiaiinMU nosiiaMt BtMittis n ins»4imiaisamW|
2 label groups with vabue labels only —.
i」_一二:二二二;=二==涌温;淄,■ — ।囹y
四、选择 Total 按键,在 Totals over each group variable 一项前选勾, 则输出表会有增加汇总一栏,如图10
图12
7 / 20
提示,需要什么表格形式可以根据要求来调整,但对输出按键都需要熟悉, 多尝试几次就可以看出不同的区别。图11为输出的表格
Female
Mdle
Groiup Total
Cost
Layer %
Counil
Ufeyer%
Count
Layer%
Agriculture
271
24 6%
144
13.1%
415
37.7%
Architecture
2
2%
8
.7%
10
9%
BulldingJCon5truction
4
4%
51
4.6%
55
5.0%
Busines s Administratio n
133
12 1%
189
17.2%
322
29.3%
Forest ly
1
1%
1
.1%
2
2%
Education
12
11%
1
1%
13
12%
Engineering
45
4 1%
236
21.5%
281
25.5%
Fine Aits
1
1%
1
.1%
2
.2%
Group Total
469
42 6%
631
57 4%
1100
100.0%
Graduam
图11
「Weight cam by
Cufrenl Stakus^: Do not weight cases
重要提示:如果结果变成变量的汇总(SUM),则先选择Data->Weight Cases, 把Graduate的选项先选入Weight Cases by内,再选回Do not weight Cases,按OK即可。对于其他带有编号的一项都可以这样做。这一点不知 为何,本人屡次试过总需要这样调整。参考图12
■ Fei ght Cases
令 Gender (gendef] 喻 College fcoilege] 喻 Starling Salary 付由切 令 Degiee Earned [deg⑷ 彳》Gracfualron Dale [gradi
几种常用的统计方法应用
一般来说,最最常用的统计分析有假设检验和回归分析・,在SPSS中也有 很好的对应工具来做这些分析,但对其基本思路和要求都必须了解,这样 才能更灵活的发挥。下面抄录《EXCEL在市场调查中的应用》一书中关于 这方面的内容:
1 .假设检验
目的:是用来判断样本及样本,样本及总体的差异是由抽样误差引起还是 本质差别造成的统计推断方法。
基本思想:小概率反证法思想。即PV0.01或PV0.05在一次试验中基本不 会生发。反证法思想是先提出假设(检验假设及),再用适当的统计方法 确定假设成立的可能性大小,如果可能性小,则认为假设不成立,否则, 还不能认为假设不成立。
方法:t检验,u检验,秩和检验,卡方检验
应用条件:A、各组资料具有可比性
B、具正态分布
C、方差齐性(即先作F检验,如F0. 1,具方差齐性)
2 .方差分析
目的:乂称为变异系数分析或F检验。用于推断两组或多组资料的总体平 均数是否相同,检验两个或多个样本平均数的差异是否具有统计意义(也 可认为是检验多个总体均值是否有显著性差异注这样可能更简单一点)o
基本思想:用组内均方去除组间均方的商,即F值,及1比较,若F值接 近1,则说明各验均数间的差异没有统计学意义,否则表示有统计学意义。
应用条件:A、各组资料具有可比性
B、具正态分布
C、方差齐性(即F检验)
提示,在应用SPSS中,只要死死的记住一个显著系数0. 05就可以应用(如 果是双尾系数需要除以2), 一般的大于0.05接受原假设,小于0.05则 拒绝。简单的说,一般结果拒绝就是说样本有差异,样本相对独立,都是 表示同一种意思,读这方面书的时候,希望不要让这些名词混乱了思路。
SPSS的方差检验中,需要注意下面向题:
方差检验中,Post Hoc键有LSD的选项:当方差分析F检验否定了原假设, 即认为至少有两个总体的均值存在显著性差异时,须进一步确定是哪两个 或哪几个均值显著地不同,则需要进行多重比较来检验。LSD即是一种多 因变量的三个或三个以上水平下均值之间进行的两两比较检验。
2 Independent Samples 检验中的 Mann-Whitney U 检验及 K Independent Samples中的Kruskal-Walllis(克鲁斯卡尔―瓦里斯)H检验法思想类似, 常用来作为非参数检验。
2 Related Samples非参数检验中,一般有Sign普通符号检验法和 Wilcoxon威尔科克森符号秩检验法。前者用于研究的问题只有两个可能的 结果:“是”或“非”,并且二者遵从二项分布;后者是普通符号检验法 的改进,除了可以检验是非外,还可以了解差异的大小。
K Related Samples非参数检验中,主要有Friedman秩和检验及Cochran Q检验二种选择,前者是对多个样本是否来自同一总体的检验,而后者是 用于只分为“成功”和“失败”两种结果的定类尺度测量的数据。
附录:SPSS假设检验方法使用对照表
独立中样本
T
.W欢•川
Chi-Square.
Birzui sl.Rurw, I $ aspl e X-S
ir er.
卡力楼处说时也含迷题有力嗖桧 雄,二0修此弗干兄药员却:否 的问题.例为只簧一个皿HA 一蛟用可以用快翅素作为加权或非 答蝴i鼬
- = 52-1
皓影成西方取的班我即可以大同认K用卡方拉出,如 优学生与挂生衿月情及.效率一个忌抒在右林情先下 的比伊惭占情况1815b为贷强里胃筐还邛箍8f.
0果只有一个也伊射断定姬西•利可切拜二以分布依 史,MfiBRtt延长时候关门甚叟市一定也臭名认可 糊!晞
也母恒为多则僦》川由"为CB.
二介独立"本
Dependent- staples T ER
2 Depwdmt
对子2 Soz^2e«. -HR
ffilcnnHihitney 侬金
和蛛)电口汽不的漏量情木比«攵〈伸牛率自同一经 体)
二个HI关祥本
P-arif Sssplor T
—
2 Relate*! Sssples
对于2 Related Snss»lc3. 一艘网 S itnfQWlcowcofilJc
(81加-4tl室.行北另一公印
*)
,个独立律率
One Ray AW7/A pt
k Depfndm'! SjepJea
过于归 口epEieni Sasplec. T? 用KpJsUReEIH
谢万非由无全不同的人分3期强立先我
多个相关桂本
K Related SRkw
WTK Related Sarles. 一梗用
rifcAbartftit. ota㈱期
用于判断是否问睡斫用
?.聆万拄由3把人分别良欣
图13
其中相关、配对或有交互作用可以理解为EXCEL的重复,独立或无交互作 用可以理解为EXCEL中的无重复。图13表大部分参考《数据分析及SPSS 应用》一书,特别说明
3 .回归分析
目的:研究一个变量Y及其它若干变量X之间的一种数学工具。它是一组 试验或观测数据的基础上,寻找被随机性掩盖的变量之间的依存关系。
A.直线回归方程Yc=a bX
B.回归关系的检验:求回归方程在总体中是否成立,即是否样本代表的 总体也有直线回归关系。
a.方差分析:基本思想是将总变异分解为SS回归和SS乘余,然后利用F 检验来判断方程是否成立。
b. t检验:基本思想是利用样本回归系数b及总体平均数回归系数进行比 较来判断回归方程是否成立。
下面摘录《数据分析及SPSS应用》一书关于相关回归和时间序列分析一 些概念解释。
数据变量间主要存在二类关系:
一类是函数关系,一类是相关关系。
前者是变量间有确定关系,即一个变量的值能够在其他变量取值确定的情 况下,按某种函数关系唯一确定;后者是变量间虽然具有的联系,并非确 定关系,如价格及销量量,价格高了,销售量可能会上去,但无法确定销 售量是多少。
通过散点图来观察,如果点都集中在一条直线附近,是线性相关,如果在 一条曲线附近,则为非线性相关。
如果一个变量因另一个变量的增加而增加,减少而减少,则二个变量间存 在正相关关系,反之则为负相关关系。极端的相关是完全相关和零相关。 如某地区购买自行车多少及购买大蒜多少无关,是为零相关。
按我的理解,相关分析就是推断变量及变量之间关系的密切程度,回归就 是在相关的基础上,找出变量间的拟合模型,从而进一步推测出未来的趋 势和变量。而时间序列则是以时间的作为观察的序列,来推断变量间的关 系的一种模型。
以自带文件Trends chapter 13. sav为例,说明一下如何应用这三种分析 工具。
1.相关
打开Trends chapter 13. sav文件,可以看到,这个文件的数据是以时间 来排序的,在每个值前增加一行序列号变量,如图14
ID
nstarts | year
month
date_
1
52.149
19G6
1
JAN 1365
2
47.205
1965
2
FF=B 1965
3
82.160
1965
3
1965
4
100.931
1965
4
APR 1965 fwlAV 19S5
巧
98.408
1966
S
6
97.361
1966
6
JUN 1965
7
96 489
1966
7
JUL 1965
e
98.630
1965
e
AUG 1965
9
90.676
1965
9
SEP 1965
OCT 19S5
to
35.750
1965
10
11
72.351
1966
i r
NOV 1965
t2
61.198
1965
12
DEC 1966
13
46.561
1S66
i
JAN 1966
14
50.361
1966
2
FEB 1966
15
33.236
1966
3
MAR 1966
16
94,343
1966
4
APR 19&6
v r
C 4 r 4c
♦
J /«4 CCC El . ■
图14
一个时间序列的影响因素有四种变动:A长期趋势(Secular Trend) , B 季节变动(Seasonal Variation) , C 循环变动(Cyclical Variation), D 不规则变动(Irregular Variation)。
我们可以观察一下这些数据是否存在某种关系,打开Graphs-Sequence, 如图15
图15
把 hstarts 选入 Variables 项,把 No.选入 Time Axis Lables,然后按 OK, 出现图16:
140 000-
120 000-
100 000-
80 80-
8000 _
40 000-
50C00-
t 5 57• • 1 » I ,22*&2〉),。)44444663650。00«>7>777。6-*。9。少少少・,,,■♦■,■・ 1 1 1 « • » B$ri3"53,/g,3”g267g,3 67y,mj〃gQjs r/gooii m//4,
图16
从图可以看出,数据总是在一个周期内反复在上下波动,虽然高低的位置 不一样,但这种波动显然是随着时间的不同而变化。
因此可以察看,因变量及时间的关系如何。选择Data-〉Define Dates,出 现图17
图17
在Year 一栏填入1965, Month 一栏填入1,表示数据从1965年1月开始
计算
选择 Analyze->Correlate->Bivariate,出现图 18
11 / 20
图18
把 hstarts, Year 和 Month 都选入 Varibales 选项,Correlation Coefficients 选择 Pearson 和 SpearmanC 其实只需要选 Spearman 就可以, 这里只是试一下,作为比较)。
注:相关检验中有Pearson (皮尔森)相关系数和Spearman (斯皮尔曼) 等级相关,前者也称皮尔森相关系数,是对两个定距变量关系的刻画;后 者是用来考察两个变量中至少有一个定序变量时的相关关系。Zero-order Correlations (零阶偏听偏相关系数)是按Pearson简单相关系数公式计 算得到的相关系数。在皮尔森系数r是对两个定距变量关系的刻画:
若TWrWl, |r越大,表明两个变量之间的相关程度越强。
若0VRW1,表明两个变量之间存在正相关。若R=l,则表明变量之间存在 着完全正相关的关系。X/RW1,表明两个变量之间存在正相关。若R=l, 则表明变量之间存在着完全正相关的关系。>
若TWr<0,表明两个变量之间存在负相关。若L-1,则变量间的关系为 完全负相关。
若厂0,表示两个变量之间无线性相关,即零相关。
按Option按键,如图19
Bivariate Correlations: Opt ions
Statistics
P s:landard deviatiorid
, Crtss-pfoduct devialionj and covariances
| Continue ]
Mining Values
匕 Exclude cases
r Exclude cases lislwise
在 Statistics 选择 Means and standard deviations Cross-product deviations and covariances^ 注意,这二个选择是 Pearson 才有的,如 果开始只选择Spearman,则此二项不能选。返回后,按0K如图20:
Con el
展开阅读全文
相关搜索