SPSS学习笔记课案.docx

相关 举报
资源描述
SPSS学习笔记 描述样本数据 一般的,一组数据拿出来,需要先有一个整体认识。除了我们平时最常用 的集中趋势外,还需要一些离散趋势的数据。这方面EXCEL就能一次性的 给全了数据,但对于SPSS,就需要用多个工具了,感觉上表格方面不如 EXCEL好用。 个人感觉,通过描述需要了解整体数据的集中趋势和离散趋势,再借用各 种图观察数据的分相形态。对于SPSS提供的OLAP cubes (在线分析处理 表),Case Summary (观察值摘要分析表),Descriptives (描述统计) 不太常用,反喜欢用Frequencies (频率分析),Basic Table (基本报表), Crosstabs (列联表)这三个,另外再配合其它图来观察。这个可以根据 个人喜好来选择。 一.使用频率分析(Frequencies)观察数值的分布。频率分布图及分析 数据结合起来,可以更清楚的看到数据分布的整体情况。 以自带文件 Trends chapter 13. sav 为例,选择 Analyze->Descriptive Statistics->Frequencies, 把 hstarts 选入 Variables, 取消在 Display Frequency table 前的勾,在 Chart 里面 histogram,在 Statistics 选项 中如 分别选好均数(Mean),中位数(Median),众数(Mode),总数(Sum),标准 差(Std. deviation),方差(Variance),范围(range),最小值(Minimum), 最大值(Maximum),偏度系数(Skewness),峰度系数(Kutosis),按 Continue 返回,再按0K,出现结果如图2 hstarts Stalistics 二.采用各种图直观观察数据分布情况,如采用柱型图观察归类的比例等。 同样以自带文件Trends chapter 13. sav为例,我们可以观察一下各年的 数据总和的对比: 1. 选择 Graph->Bar-〉Simple,在“Data in chart are” 一项选择 Summary of groups of cases,然后按 Define 出现图 4 3 / 20 图4 2. 选择 Bars Represent->Other statistic (e. g. mean), 把 hstarts 一 项选入 Variable 里面,把 YEAR, Periodic 一项选入 Category Axis 项中, 并按Change Statistic键,出现图5: 3. 在 Statistic 选项中选 Sum of values 一项,按 Continue 返回,按 OK 即可出现图6: 从图中可以非常直观的看出1965年-1975年间,每年的总体数量对比和各 数值多少。 三.通过列联表来观察,数据的交错关系。 以软件自带的文件 University of Florida graduate salaries, sav 来说 明 1、选择Tables-〉Basic Table,在弹出对话框中,选择Graduate到 Summaries 栏,College 到 Down , Gender 到 Across 栏,如图 7 2、选择 Statistics 按键,选取 Count 和 layer%到 Cell Statistics 一栏, 并按Continue键,如图8 图8 三、选择 Layout 按键,选择 Summary Variable Labels->In separate labels (汇总的标签,如本例的Graduate,放在表外),Statistics Labels->Across top(数据的标签横放在顶部,如本例的Count和Layer%), 并在Label groups with value labels only前选择打勾(表示只需要具 体的标签名就可以,不需要汇总名,如本例Gender和College),如图9 Basic Tables: Layout $unnma(y> Variable Labels Statistic* Labels : Cdrttirtu6 「JQowntheBeftside 仔 Acxossthegop 1—— —J **' Across the top 「Down the left $ide G in s-epacale tables 「InieparAte tables Help Groups: in Summaey Variable Dknensicn C All sunOT/vy Afarieble.^ under each group 「Allgcnips cinder each sur.matjr vsziable ― 一 usBei&x^aiaiinMU nosiiaMt BtMittis n ins»4imiaisamW| 2 label groups with vabue labels only —. i」_一二:二二二;=二==涌温;淄,■ — ।囹y 四、选择 Total 按键,在 Totals over each group variable 一项前选勾, 则输出表会有增加汇总一栏,如图10 图12 7 / 20 提示,需要什么表格形式可以根据要求来调整,但对输出按键都需要熟悉, 多尝试几次就可以看出不同的区别。图11为输出的表格 Female Mdle Groiup Total Cost Layer % Counil Ufeyer% Count Layer% Agriculture 271 24 6% 144 13.1% 415 37.7% Architecture 2 2% 8 .7% 10 9% BulldingJCon5truction 4 4% 51 4.6% 55 5.0% Busines s Administratio n 133 12 1% 189 17.2% 322 29.3% Forest ly 1 1% 1 .1% 2 2% Education 12 11% 1 1% 13 12% Engineering 45 4 1% 236 21.5% 281 25.5% Fine Aits 1 1% 1 .1% 2 .2% Group Total 469 42 6% 631 57 4% 1100 100.0% Graduam 图11 「Weight cam by Cufrenl Stakus^: Do not weight cases 重要提示:如果结果变成变量的汇总(SUM),则先选择Data->Weight Cases, 把Graduate的选项先选入Weight Cases by内,再选回Do not weight Cases,按OK即可。对于其他带有编号的一项都可以这样做。这一点不知 为何,本人屡次试过总需要这样调整。参考图12 ■ Fei ght Cases 令 Gender (gendef] 喻 College fcoilege] 喻 Starling Salary 付由切 令 Degiee Earned [deg⑷ 彳》Gracfualron Dale [gradi 几种常用的统计方法应用 一般来说,最最常用的统计分析有假设检验和回归分析・,在SPSS中也有 很好的对应工具来做这些分析,但对其基本思路和要求都必须了解,这样 才能更灵活的发挥。下面抄录《EXCEL在市场调查中的应用》一书中关于 这方面的内容: 1 .假设检验 目的:是用来判断样本及样本,样本及总体的差异是由抽样误差引起还是 本质差别造成的统计推断方法。 基本思想:小概率反证法思想。即PV0.01或PV0.05在一次试验中基本不 会生发。反证法思想是先提出假设(检验假设及),再用适当的统计方法 确定假设成立的可能性大小,如果可能性小,则认为假设不成立,否则, 还不能认为假设不成立。 方法:t检验,u检验,秩和检验,卡方检验 应用条件:A、各组资料具有可比性 B、具正态分布 C、方差齐性(即先作F检验,如F0. 1,具方差齐性) 2 .方差分析 目的:乂称为变异系数分析或F检验。用于推断两组或多组资料的总体平 均数是否相同,检验两个或多个样本平均数的差异是否具有统计意义(也 可认为是检验多个总体均值是否有显著性差异注这样可能更简单一点)o 基本思想:用组内均方去除组间均方的商,即F值,及1比较,若F值接 近1,则说明各验均数间的差异没有统计学意义,否则表示有统计学意义。 应用条件:A、各组资料具有可比性 B、具正态分布 C、方差齐性(即F检验) 提示,在应用SPSS中,只要死死的记住一个显著系数0. 05就可以应用(如 果是双尾系数需要除以2), 一般的大于0.05接受原假设,小于0.05则 拒绝。简单的说,一般结果拒绝就是说样本有差异,样本相对独立,都是 表示同一种意思,读这方面书的时候,希望不要让这些名词混乱了思路。 SPSS的方差检验中,需要注意下面向题: 方差检验中,Post Hoc键有LSD的选项:当方差分析F检验否定了原假设, 即认为至少有两个总体的均值存在显著性差异时,须进一步确定是哪两个 或哪几个均值显著地不同,则需要进行多重比较来检验。LSD即是一种多 因变量的三个或三个以上水平下均值之间进行的两两比较检验。 2 Independent Samples 检验中的 Mann-Whitney U 检验及 K Independent Samples中的Kruskal-Walllis(克鲁斯卡尔―瓦里斯)H检验法思想类似, 常用来作为非参数检验。 2 Related Samples非参数检验中,一般有Sign普通符号检验法和 Wilcoxon威尔科克森符号秩检验法。前者用于研究的问题只有两个可能的 结果:“是”或“非”,并且二者遵从二项分布;后者是普通符号检验法 的改进,除了可以检验是非外,还可以了解差异的大小。 K Related Samples非参数检验中,主要有Friedman秩和检验及Cochran Q检验二种选择,前者是对多个样本是否来自同一总体的检验,而后者是 用于只分为“成功”和“失败”两种结果的定类尺度测量的数据。 附录:SPSS假设检验方法使用对照表 独立中样本 T .W欢•川 Chi-Square. Birzui sl.Rurw, I $ aspl e X-S ir er. 卡力楼处说时也含迷题有力嗖桧 雄,二0修此弗干兄药员却:否 的问题.例为只簧一个皿HA 一蛟用可以用快翅素作为加权或非 答蝴i鼬 - = 52-1 皓影成西方取的班我即可以大同认K用卡方拉出,如 优学生与挂生衿月情及.效率一个忌抒在右林情先下 的比伊惭占情况1815b为贷强里胃筐还邛箍8f. 0果只有一个也伊射断定姬西•利可切拜二以分布依 史,MfiBRtt延长时候关门甚叟市一定也臭名认可 糊!晞 也母恒为多则僦》川由"为CB. 二介独立"本 Dependent- staples T ER 2 Depwdmt 对子2 Soz^2e«. -HR ffilcnnHihitney 侬金 和蛛)电口汽不的漏量情木比«攵〈伸牛率自同一经 体) 二个HI关祥本 P-arif Sssplor T — 2 Relate*! Sssples 对于2 Related Snss»lc3. 一艘网 S itnfQWlcowcofilJc (81加-4tl室.行北另一公印 *) ,个独立律率 One Ray AW7/A pt k Depfndm'! SjepJea 过于归 口epEieni Sasplec. T? 用KpJsUReEIH 谢万非由无全不同的人分3期强立先我 多个相关桂本 K Related SRkw WTK Related Sarles. 一梗用 rifcAbartftit. ota㈱期 用于判断是否问睡斫用 ?.聆万拄由3把人分别良欣 图13 其中相关、配对或有交互作用可以理解为EXCEL的重复,独立或无交互作 用可以理解为EXCEL中的无重复。图13表大部分参考《数据分析及SPSS 应用》一书,特别说明 3 .回归分析 目的:研究一个变量Y及其它若干变量X之间的一种数学工具。它是一组 试验或观测数据的基础上,寻找被随机性掩盖的变量之间的依存关系。 A.直线回归方程Yc=a bX B.回归关系的检验:求回归方程在总体中是否成立,即是否样本代表的 总体也有直线回归关系。 a.方差分析:基本思想是将总变异分解为SS回归和SS乘余,然后利用F 检验来判断方程是否成立。 b. t检验:基本思想是利用样本回归系数b及总体平均数回归系数进行比 较来判断回归方程是否成立。 下面摘录《数据分析及SPSS应用》一书关于相关回归和时间序列分析一 些概念解释。 数据变量间主要存在二类关系: 一类是函数关系,一类是相关关系。 前者是变量间有确定关系,即一个变量的值能够在其他变量取值确定的情 况下,按某种函数关系唯一确定;后者是变量间虽然具有的联系,并非确 定关系,如价格及销量量,价格高了,销售量可能会上去,但无法确定销 售量是多少。 通过散点图来观察,如果点都集中在一条直线附近,是线性相关,如果在 一条曲线附近,则为非线性相关。 如果一个变量因另一个变量的增加而增加,减少而减少,则二个变量间存 在正相关关系,反之则为负相关关系。极端的相关是完全相关和零相关。 如某地区购买自行车多少及购买大蒜多少无关,是为零相关。 按我的理解,相关分析就是推断变量及变量之间关系的密切程度,回归就 是在相关的基础上,找出变量间的拟合模型,从而进一步推测出未来的趋 势和变量。而时间序列则是以时间的作为观察的序列,来推断变量间的关 系的一种模型。 以自带文件Trends chapter 13. sav为例,说明一下如何应用这三种分析 工具。 1.相关 打开Trends chapter 13. sav文件,可以看到,这个文件的数据是以时间 来排序的,在每个值前增加一行序列号变量,如图14 ID nstarts | year month date_ 1 52.149 19G6 1 JAN 1365 2 47.205 1965 2 FF=B 1965 3 82.160 1965 3 1965 4 100.931 1965 4 APR 1965 fwlAV 19S5 巧 98.408 1966 S 6 97.361 1966 6 JUN 1965 7 96 489 1966 7 JUL 1965 e 98.630 1965 e AUG 1965 9 90.676 1965 9 SEP 1965 OCT 19S5 to 35.750 1965 10 11 72.351 1966 i r NOV 1965 t2 61.198 1965 12 DEC 1966 13 46.561 1S66 i JAN 1966 14 50.361 1966 2 FEB 1966 15 33.236 1966 3 MAR 1966 16 94,343 1966 4 APR 19&6 v r C 4 r 4c ♦ J /«4 CCC El . ■ 图14 一个时间序列的影响因素有四种变动:A长期趋势(Secular Trend) , B 季节变动(Seasonal Variation) , C 循环变动(Cyclical Variation), D 不规则变动(Irregular Variation)。 我们可以观察一下这些数据是否存在某种关系,打开Graphs-Sequence, 如图15 图15 把 hstarts 选入 Variables 项,把 No.选入 Time Axis Lables,然后按 OK, 出现图16: 140 000- 120 000- 100 000- 80 80- 8000 _ 40 000- 50C00- t 5 57• • 1 » I ,22*&2〉),。)44444663650。00«>7>777。6-*。9。少少少・,,,■♦■,■・ 1 1 1 « • » B$ri3"53,/g,3”g267g,3 67y,mj〃gQjs r/gooii m//4, 图16 从图可以看出,数据总是在一个周期内反复在上下波动,虽然高低的位置 不一样,但这种波动显然是随着时间的不同而变化。 因此可以察看,因变量及时间的关系如何。选择Data-〉Define Dates,出 现图17 图17 在Year 一栏填入1965, Month 一栏填入1,表示数据从1965年1月开始 计算 选择 Analyze->Correlate->Bivariate,出现图 18 11 / 20 图18 把 hstarts, Year 和 Month 都选入 Varibales 选项,Correlation Coefficients 选择 Pearson 和 SpearmanC 其实只需要选 Spearman 就可以, 这里只是试一下,作为比较)。 注:相关检验中有Pearson (皮尔森)相关系数和Spearman (斯皮尔曼) 等级相关,前者也称皮尔森相关系数,是对两个定距变量关系的刻画;后 者是用来考察两个变量中至少有一个定序变量时的相关关系。Zero-order Correlations (零阶偏听偏相关系数)是按Pearson简单相关系数公式计 算得到的相关系数。在皮尔森系数r是对两个定距变量关系的刻画: 若TWrWl, |r越大,表明两个变量之间的相关程度越强。 若0VRW1,表明两个变量之间存在正相关。若R=l,则表明变量之间存在 着完全正相关的关系。X/RW1,表明两个变量之间存在正相关。若R=l, 则表明变量之间存在着完全正相关的关系。> 若TWr<0,表明两个变量之间存在负相关。若L-1,则变量间的关系为 完全负相关。 若厂0,表示两个变量之间无线性相关,即零相关。 按Option按键,如图19 Bivariate Correlations: Opt ions Statistics P s:landard deviatiorid , Crtss-pfoduct devialionj and covariances | Continue ] Mining Values 匕 Exclude cases r Exclude cases lislwise 在 Statistics 选择 Means and standard deviations Cross-product deviations and covariances^ 注意,这二个选择是 Pearson 才有的,如 果开始只选择Spearman,则此二项不能选。返回后,按0K如图20: Con el .506 1.000 Sum of Squares and Cross-products 614.195 .000 1573.000 Covariance 4.688 ,000 12,008 N 132 132 132 * Correlation is significanl at the 0 05 level Q-lailed). 图 20 从图20看到Year的Pearson系数为0.219, Sig值为0. 012,小于P值 0. 05,及 Hstarts 显著相关,Month 的 Pearson 系数为 0. 058, Sig 值为 图21 0. 506,大于P值0. 05,则及Hstarts不显著相关。从下图21的Spearman 也同样得到相同的结论。 Conelaiions hstarts YEAR, not PEsnoOIC: MONTH, period 12 Spearman's rho hstarts Correlation Co:eflicient 1 ooo 196* 044 Sig (2-UiledJ . .024 ,818: N 132 132 132 YEAR, not periodic Correlation Coefficient W 1.000 ,000 Sig (Waited) 0 24 1.000 ,! 132 132 132 MONTH, period 12 Correlation C&efficienl 0-44 .000 1.000 Sig (2-tailecf) .618 1.000 N 132 132 132 Correlation is signhlcant at the 0.05 level C2-tailed) 2.回归 试建立回归模型,看能否形成各变量间的关系式。选择 Analyze->Regression->Curve Estimation, 出现图 22 ■Cur^e Estimation ⑥ YEAR, mt p9rodfe MONTH, period 12 囚DATE. FORMAT: B,MK 口 I Indepwdert. 「V-aridble: ,& OK Reset Cancel P ilnclurie constat in eq5 urvear 050 6.805 I 13G 010 70430 135 Ousdobc O64 4*7 i tii M4 g iyi 4” Cubic; 199 10 623 3 128 OCO 87 680 •1 667 £1口。力 6 M 039 5.227 1 no 024 的力9 002 图23 线性方程:Y=70. 43 0. 135X 二次曲线方程:Y=64. 171 0. 415X-0. 02X: 三次曲线方程:Y=87. 68-1. 667X 0. 037X2( OX3) 指数曲线方程:Y=68. 229xe°002 从Sig值判断,都小于0.05,都接受回归成立,这样,只能从R拟合度和 F值较大来判断三次曲线方程的拟合程度比较高。 注意,如果方程成立的话,想要增加预测,则可以在Save选项中选择 Predicted Values一项,如果还想预测未来的数值,则可以在原表上增加 若干行(如1行),然后选择Predict Cases下面Predict through,在 Year填入1976,在Month填入L这样就表示预测值到1976年的一月。 如图24所示。 Curve Estiwat i ornr Save Save Variables 2 Pred(cted valuer L Roc»duah F Prediction v&a [」j J Ccrtfidsnce -1 jiKetyR Prodicl Ca«e^ 「Predict from e^rimarion period thr«MJOh ]a$t case G Predict ihrough: Ye“ 11 976- Month [~ The Estimation Period 也 All cas。② | Continue | Cancel I Help rx! 图24 注意,在Independent选择Time和把ID选入结果一样,则因为ID是以 时间为序来排,所以结果一样。 3.时间序列 因为R的似合度分别为0 05, 0 064, 0.199和0 039,都比较低,方程的 效果不太好,如果要预测数值还是选择时间序列比较合适,因为从刚才 Sequence的图也可以观察到,数据是以后的时间来波动的变化关系。 选择 Analyze->Time Series->Exponential Smoothing, 出现图 25 21 / 20 把hstarts选入Variables选项,并在Model选择Winters (注意,三种 不同的模型的选择:简单指数平滑适用于不包含长期趋势和季节成分的数 据;Holt方法适合于包含长期趋势但不包含季节成分的数据;Winters方 法适合于包含季节成分(以及长期趋势)的数据。EXCEL中只有简单的指 数回归,及这里的绝不相同,从这里也可以看到专业分析软件的优势更具 体更仔细),又按Save键,如图26 | Kxp i nig = Snvc Cr eate VaitAb!e& e Add to tile L B6Plmg 「D。£)6 58.3 Predict Ce&ttft L Predict Hom &认imaUon peiiod Q ircxigh 3欢 ca«e k 忸GdkXHwough: 丫96: 11976 M Ofith.(6 I Cor»t iruj* I 二^二md图26 Predict Case 选项中选择 Predict through,并在 Year 栏填入 1976, month 填入6,这样就可以得到1976年1-6月份的预测值(注意,此处及上面的 回归不同,不需要增加6个ID,不然结果会显示有缺失值)。返回,按 Parameters 键,如图 27 图27 分别把Alpha (截距项的平滑系数),Gamma (趋势项的平滑系数)和Delta (季节指数的平滑系数),设为从0到1之间以步长0.05搜索最优的参 图28 数值,其它选项采用默认值。返回按0K,出现结果如图28: Smaltest Sums of Squaied Errovs Series Model rank Alpha (Level) Oamma (Trend) Delta 《Season》 Sums of Squared Errors hsiarts 1 .75000 .06000 00000 4562.615 2 .30000 .00000 .00000 4573.684 3 .70000 .00000 00000 4581.678 + .95000 00Q00 OQQOQ 4612.695 S ,75000 .00000 05000 4615.321 6 «aooo .00000 05000 4617.179 T .6500。 ,00000 .00000 4634.310 8 .70000 .00000 05000 4642.895 9 .95000 ooaoo 05000 4646.272 10 .SQOOO QOQOO 1QQ0Q 4662.211 Smooth inPainmeter s Series 用 ph a (Lew叫 Oamma (Trend) cm (Season) Sums of Squared Errors 5 error hsiarts ,75000 .00000 .00000 4562.615 119 Sh&vwi here 甘伯慵& paramelers with th«-smallest Sums MSauz他论. These parameters are used to fore cast. 从图可看到平滑指数分别是Alpha = 0.75, Gamma=O, Delta=O,而更重要 的是,可以直接得到预测值,如图29: 1。 1 h st arts year month | Ste FIT 1 ERR 1 123 123 62.498 1975 3 MlAfi 1975 6076201 173599 1?4 124 77 777 1975 4 APR 1975 74 37796 3 39904 125 125 1975 5 1AM 1975 ・'■・ 78*771 13.95429 J2S 126 90 加! 一 川5 6 JUN 1曾5 8M3635 厂 3,34765 127 127 92 782 1975 7 JUL 1975 84 31474 8.46726 128 128 90.G5S 1975 S AUG 1975 8806197 129 129 84 517 1975 3 SEP 1975 83 33292 1 18408 130 93,826 1975 1巾51975 84 6342& R991 可 131 71,6跖 1975 11 NOV 1975 76 64725 •58喀 55 650 1975 12 DEC 1975 57 18487 -1 53487 133 1976 1 JAN 1^?6 154 1976 2 F£B 1976 5541199 ・ 1 155 • 1 • 1 1976 3 的 1976 82.94460 • 136 1976 4 APR 1976 i ~一 1 99 42183 1幻 • 1 - 1 1976 5 MA.Y 1976 101.89631 138 • 1 • 1 1976 6 JUN 1976 99.21515 135 4 .A III I , | 才1 1t. 't 图29 除了 Fit 一项的预测外,可以得到1976年1-6月的预测结果。同时,可 以通过FIT 1的预测情况及上面三次曲线回归方程比较,采用平均绝对误 差、均方根误差和平均绝对百分误差的结果选择更佳的答案。 及EXCEL表现的比较和补充 这一点是针对像我这样开始只懂得用EXCEL的人来说。从个人的体会来说, 二种软件有一定相似,操作都简便,同时又有一些可以互补的地方。 一、图型的表现力是SPSS的主要优点之一 应该说,EXCEL的图型表现主要是简便,对许多的人来说基本够用,但对 于科学的表现,SPSS就更为详细和准确,这一点据说在所有统计软件中都 突出。因为大多的书里面都谈到,这里从略。 二、通过SPSS检验方差齐性和数据分布 假设检验中,采用的t检验和方差检验都需要满足二个要求,即 1 .样本方差齐性 2 .样本总体呈正态分布 在EXCEL中,提供了 F检验来检验方差齐性问题。也就是可以先通过F检 验确定方差齐性及否来选择下一步用哪个T检验或方差检验分析工具。但 只要数据多于二组则无从下手;通过描述统计大约能从峰度和偏度来了解 样本的分布(实际工作中,只要分布单峰且近似对称分布,也可应用注2), 但要具体确定样本的分布也有难度。这二个问题在SPSS就可以解决。 A、用SPSS检验方差齐性 同样以 University of Florida graduate salaries. sav 文件作为例子来 检验性别数据是否方差齐性 a.选择 Analyze—〉Descriptive Statistics—〉Explore, 再选择 Dependent List->Graduate, Factor List->Gender, Display->Both, 如图 30 b.点击Plot 按键,在对话框里选择Boxplots-〉None, Spread vs. Level with Levene Test->Untransformed,在 Descriptive 选择中取消 Stem-and-leaf 一项,如图31 图31 然后,按0K键,结果如图32显示: Test of Homogeneity of Vciiciig Levene Staiistit dfi df2 SI0 Graduate Based on Mean J13 1 1098 .676 Based on Median 322 1 1098 .570 Sa&ed on Median and with adjusted df .322 1
展开阅读全文
相关搜索
收藏 分享(赏)
温馨提示:
道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。

当前位置:首页 > 规范标准 > 工业设计


本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报