1、1目录第四章统计描述 24.2 频数分析 24.3 描述性统计量 .24.4.1(探索性数据分析)操作步骤 4第五章 统计推断 65.2 单样本 t 检验 .65.3 两独立样本 t 检验 75.4 配对样本 t 检验 8第六章 方差分析 96.2.2 单因素单变量方差分析(One-way ANOVA) (操作步骤) 96.3.3 多因素单变量方差分析操作步骤 146.3.5 不考虑交互效应的多因素方差分析 176.3.6 引入协变量的多因素方差分析 18第八章 相关分析 198.2 连续变量相关分析实例 208.3 离散变量相关分析的实例(列联表) 22第九章 回归分析 249.1.3 线性
2、回归(操作步骤) 261多重共线性检验 262.使用变量筛选的方法克服多重共线性 29二、曲线估计(操作步骤) 329.2.5 二项 Logistic 回归(操作步骤) .35第十章 聚类分析 3910.3.1 K-均值操作步骤: 3910.4.1 系统聚类法操作步骤 43第十一章 判别分析 4711.3.1 操作步骤 48第十二章 因子分析 5312.2.2 操作步骤 .56第十三章 主成分分析 6413.2 操作步骤 65第十四章 相应分析 6914.2 相应分析实例(操作步骤) .70第十五章 典型相关分析 7515.2 操作步骤: .752第四章统计描述统计描述是指如何搜集、整理、分析
3、、研究并提供统计资料的理论和方法,用于说明总体的情况和特征。4.1 基本概念和原理4.1.1 频数分布4.1.2 集中趋势指标算数平均值:适用于 定比数据、定距数据中位数:适用于 定比数据、定距数据和定序数据众数:适用于 定比数据、定距数据、定序数据和定类数据4.1.3 离散程度指标作用:(1)它可以表明现象的平衡程度和稳定程度;(2)离散性指标可以表明平均指标的代表性,数据离散程度越大,则该分布的平均指标的代表性就越小。方差、标准差、均值标准误差、极差。均值标准误差:也叫抽样标准误差,是样本均值的标准差,反映了样本均值与总体均值之间的差异程度。4.1.4 反映分布形态的描述性指标偏度、峰度4
4、.2 频数分析AnalyzeDescriptive StatisticsFrequencies4.3 描述性统计量AnalyzeDescriptive StatisticsFrequencies3输出结果:44.4 探索性数据分析基本思路:在统计分析时应尽量减少数据中存在的少量异常值对分析结果的影响。只讲 Explore 命令:(1)异常值检验(2)分布正太性检验(3)方差齐性检验检验各观测变量在控制变量不同水平下的方差是否相等。4.4.1(探索性数据分析)操作步骤AnalyzeDescriptive StatisticsExplore5齐性检验6第五章 统计推断统计推断内容:参数估计、假设检
5、验。参数估计:研究一个随机变量,推断它的数量特征和变动模式。假设检验:检验随机变量的数量特征和变动模式是否符合事先所做的假设。共同特点:对总体都不很了解,都是利用部分样本所提供的信息对总体的数量特征做出估计或判断。所以,统计推断的过程必定伴有某种程度的不确定性,需要用概率来表示其可靠程度。5.1 参数估计5.2 单样本 t 检验用于对总体均值进行检验。前提:样本来自的总体服从或近似服从正态分布。检验我国上市公司的平均资产负债比是否为 0.5AnalyzeCompare meansOne-Sample T Test,Test value 设为 0.57上表 1 给出了资产负债率描述统计量。从表可
6、知,上市公司资产负债率平均为0.4677,标准差为 0.16773,均值标准误差为 0.00945。上表 2 给出了单样本 t 检验结果。从表中可以看到 t 统计量为 -3413,自由度为314,p 值为 0.01。由于 p 值小于显著性水平 0.05,所以拒绝上市公司资产负债率平均为 0.5 的原假设。另外,单样本 t 检验还5.3 两独立样本 t 检验对两个不同总体均值之间的差异性(样本均值之差)是否显著进行检验。前提:样本来自的总体服从或近似服从正态分布;两样本相互独立。注意:要检验方差齐性。 (自带)AnalyzeCompare meansDependent-Sample T Test
7、,输出结果:85.4 配对样本 t 检验利用来自某两个总体的配对样本,推断两个总体的均值是否存在显著差异。特征:第一,两组样本的样本数相同;第二,两组样本观测值的先后顺序一一对应。例如:检验某学校学生进行培训前后学生学习成绩有无显著变化。两个样本具有一对一的配对关系AnalyzeCompare meansPaird-Sample T Test输出结果:9第六章 方差分析也是一种假设检验,它是对全部样本观测值的变动进行分解,将某种控制因素下各组样本的观测值之间可能存在的由该因素导致的系统性误差与随机误差加以比较,据以推断各组样本之间是否存在显著差异。若存在显著差异,则说明该因素对各总体的影响是显
8、著的。 方差分析的主要目的是通过对方差的比较来检验多个均值之间差异的显著性。 可以看作 t 检验的扩展,只比较两个均值时与 t 检验等价。方差分析有三个基本概念:观测变量、因素和水平。观测变量(因变量):实际测量的、作为结果的变量,是进行方差分析所研究的对象。因素(自变量):作为原因的、把观测结果分成几个组以进行比较的变量,例如奖金水平。水平:因素的不同表现,即每个自变量的不同取值称为因素的水平。根据观测变量的个数分类:单变量方差分析和多变量方差分析;根据因素的个数分类:单因素方差分析和多因素方差分析。 只有一个因素变量的方差分析称为单因素方差分析。 研究多个因素变量对因变量的影响的方差分析称
9、为多因素方差分析,其中最简单的情况是双因素方差分析。 6.2 单因素单变量方差分析(One-way ANOVA) 单因素方差分析:模型中有一个自变量(因素)和一个观测变量。 其实就是关于在一个影响因素的不同水平下,观测变量均值差异的显著性检验。SST=SSB+SSE10SST:观测变量的总离差平方和SSB:组间离差平方和SSE:组内离差平方和 /(1)MSBrFEn方差分析需满足的假设条件: 样本是独立的随机样本。 各样本皆来自正态总体。对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本。 总体方差具有齐性,即各总体方差相等。各组观察数据是从具有相同方差的总体中抽取的。某汽车经
10、销商为研究东部、西部和中部地区市场上汽车销量是否存在显著差异原假设:H 0: 12.ru6.2.2 单因素单变量方差分析(One-way ANOVA) (操作步骤)AnalyzeCompare meansOne-Way ANOVAComment LU1: 表给出了不同地区汽车 销量的基本描述统计量已经 95%的置信区间,从表中可以看出,东部地区汽车平均销量最高,中部地区销量尚可,西部销量最低。11输出结果:(假设一般为没有显著性差异)描述销量均值的 95% 置信区间N 均值 标准差 标准误 下限 上限 极小值 极大值西 10 157.90 22.278 7.045 141.96 173.84
11、120 194中 9 176.44 19.717 6.572 161.29 191.60 135 198Comment LU2: Levene统计量对应的 p 值大于 0.05,可得不同地区汽车销量满足方差齐性Comment LU3: 单因素方差分析表中,p=0.0130.05,接受原假设,即东西部地区汽车的平均销量与中部地区汽车平均销量没有显著差异Comment LU6: 方差齐性下看 LSD12东 7 196.14 30.927 11.689 167.54 224.75 145 224总数 26 174.62 27.845 5.461 163.37 185.86 120 224方差齐性检验
12、销量Levene 统计量 df1 df2 显著性1.262 2 23 .302ANOVA销量平方和 df 均方 F 显著性(组合) 6068.174 2 3034.087 5.241 .013未加权的 6022.125 1 6022.125 10.402 .004加权的 6066.237 1 6066.237 10.478 .004组间线性项偏差 1.937 1 1.937 .003 .954组内 13315.979 23 578.956总数 19384.154 25对比系数地区对比 西 中 东1 1 1 -12 .5 -1 .5对比检验对比 对比值 标准误 t df 显著性(双侧)1 138
13、.20a 14.315 9.654 23 .000假设方差相等2 .58 9.974 .058 23 .9541 138.20a 15.148 9.123 14.551 .000销量不假设等方差2 .58 9.474 .061 18.114 .952a. 对比系数总和不为零。在此之后检验多重比较因变量:销量95% 置信区间(I) 地区 (J) 地区 均值差 (I-J) 标准误 显著性 下限 上限中 -18.544 11.055 .107 -41.41 4.33西东 -38.243* 11.858 .004 -62.77 -13.71西 18.544 11.055 .107 -4.33 41.4
14、1LSD中东 -19.698 12.126 .118 -44.78 5.39Comment LU7: 带“*”号的表示销量有显著差异,由 p 值也可以看出。Comment LU8: 折线图可直观看出各个因素水平下汽车平均销量情况:东部地区汽车平均销量最高,中部地区销量尚可,西部销量最低。13西 38.243* 11.858 .004 13.71 62.77东中 19.698 12.126 .118 -5.39 44.78中 -18.544 9.635 .199 -44.05 6.96西东 -38.243 13.648 .054 -77.10 .61西 18.544 9.635 .199 -6.
15、96 44.05中东 -19.698 13.410 .436 -58.31 18.91西 38.243 13.648 .054 -.61 77.10Tamhane东中 19.698 13.410 .436 -18.91 58.31*. 均值差的显著性水平为 0.05。6.3 多因素单变量方差分析同时研究多种因素对观测变量的影响,就是多因素方差分析。例如,研究汽车销量问题,对汽车销量的影响很可能不仅受地区因素的影响,还受广告、居民收入以及消费偏好等其他因素的影响。交互效应:各个因素不同水平的搭配所产生的新的影响。主效应:各个因素对观测变量的单独影响。STABSESST:观测变量的总变动SSA:因
16、素 A 引起的观测变量的变动SSB:因素 B 引起的观测变量的变动SSAB:因素 A 和因素 B 的交互效应引起的观测变量的变动Comment LU9: 假设14SSE:随机因素引起的观测变量的变动如果其中某种因素引起的观测变量的变动占观测变量总变动的比例足够大,则可以认为该因素变量对观测变量的影响是显著的。 /(1)AMSrFEsl/()B1ASBrsl6.3.2 固定效应、随机效应和协变量根据可控性分为:固定效应、随机效应固定效应:因素变量的各个水平可以严格控制,它们对观测变量的影响是固定的。如产品定价、广告类型。随机效应:因素变量的各个水平无法严格控制,它们对观测变量的影响是随机的。如气
17、候条件等。协变量:像居民收入这样的无法控制其水平的连续型变量在方差分析中通常叫做协变量。6.3.3 操作步骤1. 提出零假设和备择假设。双因素方差分析可以同时检验两组或三组零假设和备择假设。要说明因素 A有无显著影响,就是检验如下假设:H0:因素 A不同水平下观测变量的总体均值无显著差异。H1:因素 A不同水平下观测变量的总体均值存在显著差异。要说明因素 B有无显著影响,就是检验如下假设:H0:因素 B不同水平下观测变量的总体均值无显著差异。H1:因素 B不同水平下观测变量的总体均值存在显著差异。在有交互效应的双因素方差中,要说明两个因素的交互效应是否显著,还要检验第三组零假设和备择假设:H0
18、:因素 A和因素 B的交互效应对观测变量的总体均值无显著差异。H1:因素 A和因素 B的交互效应对观测变量的总体均值存在显著差异。6.3.3 多因素单变量方差分析操作步骤AnalyzeGeneral Linear ModelUnivariateComment LU10: 点击“添加”模型、对比、两两比较、保存、Boo-默认值15结果输出:主体间因子值标签 N1 西 102 中 9地区3 东 7Comment LU11: 从表中可以看出,平均来看,东部地区并且采用第一种广告的汽车销量最高,达到 224;而西部地区采用第三种广告的汽车销售量最低,平均只有 130辆。Comment LU12: Le
19、vene 方差齐性检验结果显示:p=0.054 ,在 0.05的显著水平下,无法拒绝方差在不同因素水平下满足方差齐性的原假设,而在在 0.1的显著水平下则应拒绝原假设,即认为不同地区和广告类型的汽车销量方差存在显著差异。Comment LU13: 地区和广告类型对销售量的影响都比较显著,但地区和广告类型的交互效应却不并不显著。这一点下图也可以直观的看出161 82 8广告3 10描述性统计量因变量:销量地区 广告 均值 标准 偏差 N1 179.33 13.317 32 162.75 7.136 43 130.00 8.718 3西总计 157.90 22.278 101 193.33 8.0
20、83 32 174.00 7.071 23 165.00 22.642 4中总计 176.44 19.717 91 224.00 .000 22 198.50 10.607 23 176.00 37.723 3东总计 196.14 30.927 71 195.75 20.380 82 174.50 16.987 83 157.80 29.918 10总计总计 174.62 27.845 26误差方差等同性的 Levene 检验 a因变量:销量F df1 Df2 Sig.2.495 8 17 .054检验零假设,即在所有组中因变量的误差方差均相等。a. 设计 : 截距 + region + ad
21、 + region * ad主体间效应的检验因变量:销量源 III 型平方和 df 均方 F Sig.校正模型 14047.571a 8 1755.946 5.594 .001截距 770802.552 1 770802.552 2455.437 .000region 7149.781 2 3574.891 11.388 .001ad 7625.708 2 3812.854 12.146 .001region * ad 637.741 4 159.435 .508 .731误差 5336.583 17 313.917总计 812138.000 26Comment LU14: Corrected
22、 本模型 Corrected Model对应的统计量为 5.594,p 值为0.001 ,接受原假设,不显著28ModelVariables EnteredVariables Removed Method1 人均消费水平, 市镇人口比重, 邮政业务总量, 中国人口数, 人均 GDP. Entera. All requested variables entered.b. Dependent Variable: 电信业务总量Model SummaryModel R R SquareAdjusted R SquareStd. Error of the Estimate1 .996a .992 .97
23、8 1.47822a. Predictors: (Constant), 人均消费水平, 市镇人口比重, 邮政业务总量, 中国人口数, 人均 GDPANOVAbModel Sum of Squares df Mean Square F Sig.Regression 794.319 5 158.864 72.703 .002aResidual 6.555 3 2.1851Total 800.874 8a. Predictors: (Constant), 人均消费水平, 市镇人口比重, 邮政业务总量, 中国人口数, 人均 GDPb. Dependent Variable: 电信业务总量Coeffic
24、ientsaUnstandardized CoefficientsStandardized Coefficients Collinearity StatisticsModel B Std. Error Beta t Sig. Tolerance VIF(Constant) -124.504 456.294 -.273 .803邮政业务总量 35.740 16.047 1.734 2.227 .112 .005 222.177中国人口数 16.970 47.309 .589 .359 .744 .001 987.365市镇人口比重 -300.267 390.878 -.426 -.768 .49
25、8 .009 112.937人均 GDP -5.317 9.898 -.951 -.537 .628 .001 1149.0871人均消费水平 -.270 19.750 -.023 -.014 .990 .001 1057.707a. Dependent Variable: 电信业务总量模型整体显著而单个系数不能通过 t 检验,这正是解释变量之间存在多重共线性的常见特征Comment LU29: 从特征根上看,最大的特征根远远大于其他特征根,后 4 个条件指数都大于 10 ,说明变量之间确实存在多重共线性问题。Comment LU30: 后 4 个条件指数都大于 10,存在多重共线性29Col
26、linearity Diagnosticsa(多重共线性诊断 )Variance ProportionsModelDimensionEigenvalue(特征根)Condition Index(条件指数)(Constant)(方差比例)邮政业务总量中国人口数市镇人口比重人均GDP人均消费水平1 5.820 1.000 .00 .00 .00 .00 .00 .002 .174 5.785 .00 .00 .00 .00 .00 .003 .006 31.563 .00 .07 .00 .00 .00 .004 .000 193.583 .00 .01 .00 .02 .22 .325 2.52
27、8E-5 479.782 .01 .16 .00 .38 .58 .6516 4.476E-7 3606.121 .99 .77 1.00 .60 .20 .02a. Dependent Variable: 电信业务总量从方差比例上看,第 5 个特征根解释了人均 GDP方差的 58%,同时解释了人均消费水平方差的 65%,说明这两个变量之间可能存在多重共线性;第 6 个特征根同时解释了邮政业务总量方差的 77%、人口总数方差的 100% 和市镇人口比重方差的 60%,说明这 3 个变量之间可能存在多重共线性。2.使用变量筛选的方法克服多重共线性AnalyzeRegressionLinearCo
28、mment LU31: Method为Backward,其他不变(同上)Comment LU32: 第二步踢出的变量Comment LU33: 第三步踢出的变量30Variables Entered/RemovedbModelVariables EnteredVariables Removed Method1 人均消费水平, 市镇人口比重, 邮政业务总量, 中国人口数, 人均 GDP. Enter2 . 人均消费水平 Backward (criterion: Probability of F-to-remove = .100).3 . 中国人口数 Backward (criterion: Probability of F-to-remove = .100).