1、,统计描述,在数据收集、整理完毕后,进行深入统计分析之前,首要的工作就是去了解这个数据的整体情况,随后考虑作深入的推断。用少量数字(描述指标)概括大量原始数字,对数据进行描述的统计方法即为描述性统计分析。,统计描述,连续变量的统计描述分类变量的统计描述,集中趋势的描述指标,算术均数:适合单峰和基本对称的分布中位数:适用于任意分布类型截尾均数:数据中有极端值,用截尾均数更好几何均数:适用于原始数据分布不对称,但经过对数转换后呈对称分布的资料众数(Mode):样本数据中出现频次最大的那个数字调和均数(H):较少使用,观察值x倒数之均数的倒数,常用于完成的工作量相等而所用时间不 同,求平均速度的情况
2、,全距大体了解数据的分布范围,用于预备性检查方差和标准差适用于正态分布百分位数如中位数(P50)、四分位数(P25、P50、P75)四分位间距即P75-P25,适用于任意分布类型,不受极端值影响变异系数(CV)S/ ,适用于测量尺度相差太大或数据量纲不同时,比较两组数据离散程度的大小,离散趋势的描述指标,SPSS的许多模块均可完成统计描述的任务,除各种用于统计推断的过程会附带进行相关的统计描述外,SPSS还专门提供了几个用于连续变量统计描述的过程,均集中于AnalyzeDescriptive Statistics子菜单中。,Frequencies 过程,Descriptives 过程,Expl
3、ore 过程,Ratio 过程,Frequencies:产生原始数据的频数表,并能计算各种百分数,并可绘制频数图,如连续型变量的直方图,或分类变量的饼图或条图。下面以demo.sav为例,对人群的年龄数据(age)进行描述。,Frequencies 过程,若无变量标签,则列表框中只显示变量名,对话框中,从左边变量列表中选择要分析的变量,放入右边的Variables(变量)列表中,至少一个变量选入后,OK按钮才可使用,Frequencies 过程,变量标签,变量名,鼠标右键单击变量,可以获得更多变量信息,选择下拉按钮,显示所有定义的值标签,Frequencies 过程,:表示该变量为数值型变量,
4、: 表示该变量为字符型变量,且右下角的表示短字符,即变量长度=8位,Frequencies 过程,Statistics:设定要分析的统计量,分位数值,集中趋势,离散趋势,分布指标,若数据为组中值,将其选中,本例选择四分位数和5、95分位数,Frequencies 过程,本例选中绘制直方图,图表类型:箱式图、饼图、直方图等,Frequencies 过程,Charts:设定要绘制的统计图,Format:在SPSS对话框中,用于设定结果文件中的数据格式,通常默认即可。,数据排序方式,多变量分析时的显示方式,设定组别超过n组时不显示表格,Frequencies 过程,通过大纲视图可以快速定位各项结果
5、例如:点击大纲视图上的Histogram,则可快速定位至 age的频数直方图,Frequencies 过程,分析结果,(1) 统计量,人群年龄无缺失值,四分位数为33岁、41岁、51岁,即人群中有1/4小于33岁,1/2小于41岁,1/4大于51岁。另外,90的人在2464岁之间。,Frequencies 过程,Frequencies 过程,分析结果,(2) 频数表,Frequency:频数 Percent:百分比 当前频数/总数(包括缺失值) Valid Percent:有效百分比 当前频数/有效总数(不包括缺失值) Cumulative Percent:累积百分比 累积频数/有效总数(不包
6、括缺失值),Frequencies 过程,分析结果,(3)频数直方图,Descriptive:一般性统计描述,相对于Frequencies,它不能绘制统计图,所能计算的统计量也较少,适用于对服从正态分布的连续型变量进行描绘。同样以demo.sav为例,对人群的年龄数据(age)进行描述。,Descriptives 过程,单击中间的箭头,可以实现变量从一张表移入另一张表,现将变量age移入右边variable列表中,Descriptives 过程,Options:设定要分析的统计量及数据的显示顺序,本例选择: 均数、标准差、最大值、最小值、峰度系数、偏度系数等,Descriptives 过程,人
7、群年龄的最小值为18岁,最大值为77岁,均数42.06岁,标准差12.29岁,偏度系数0.299,峰度系数-0.602,基本近似正态。,Descriptives 过程,分析结果,描述性统计量,Explore:对连续型资料分布不清楚时的探索性分析,可以分类别进行描述(Frequencies和Descriptives不行),计算多种描述统计量,给出各种统计图,进行简单参数估计。以demo.sav为例,对男女性(gender)的年龄(age)分别进行描述。,Explore 过程,要进行分析的应变量:age,分类变量:gender,Explore 过程,点估计中的稳健估计:M估计,极端值,百分位数,一
8、般描述,默认情况下,选择的是Descriptives,本例选择默认,Explore 过程,箱式图,用于正态性检验的QQ图,茎叶图,直方图,Levenes方差齐性检验选项,Explore 过程,缺失值的设置,一般默认即可,Explore 过程,本例无缺失值,有效人数女性3179人,男性3221人,Explore 过程,分析结果,(1) 缺失值报告,现仅对女性的分析结果依次解释,查看详情,Explore 过程,分析结果,(2) 统计量,集中趋势指标、离散趋势指标 分布特征指标、参数估计,Explore 过程,分析结果,集中趋势指标:3179名女性的平均年龄为41.74岁(Mean),去掉两侧各5的
9、极端值后,截尾均数为41.45岁(5 Trimmed Mean),中位数41.00岁(Median),本例上述三指标值基本相同,可推测数据应当是对称分布的。,Explore 过程,离散趋势指标:年龄的方差为142.988岁2(Variance),其平方根即标准差为11.958岁(Std.Deviation)。全部女性中最小的18岁(Minimum),最大的76岁(Maximum)。两者之差即全距58岁(Range),中间一半女性的年龄差即四分位数间距17岁(Interquartile Range)。,分布特征指标:表明数据偏离正态分布程度的偏度系数(Skewness)为0.327,峰度系数(K
10、urtosis)为-0.534。偏度系数大于0为正偏态,峰度系数小于0表明峰比正态低,本例偏度和峰度系数均接近0,因此认为近似正态分布。,参数估计:均数(Mean)的标准误(Std.Error)为0.212岁,相应的总体均数95可信区间(95Confidence Interval for Mean)为41.3242.15岁,表明有95%的可能性认为该区间包含了总体均数。,Explore 过程,Explore 过程,分析结果,(3) 茎叶图,Explore 过程,分析结果,(4) 箱式图,最小值:18岁,最大值:76岁,四分位间距: 17岁,Ratio:功能较特殊,用于对两个连续性变量计算相对比
11、指标,它可以计算一系列非常专业的相对比描述指标,相对而言使用面较窄,在此不详述。,Ratio 过程,SPSS的许多分析过程均可完成统计描述的任务,还专门提供了用于分类变量统计描述的过程,均集中于AnalyzeDescriptive Statistics子菜单中。,Frequencies 过程,Crosstabs 过程,Frequencies:主要针对分类输出频数表,从而得到频数、百分数、累计百分比,给出原始频数表,众数,条图,饼图等。以demo.sav为例,分别对人群的教育水平(ed)、职业满意度(jobsat)进行描述。,Frequencies 过程,6400人的教育水平和职业满意度的数据都
12、是完整的,无缺失值。,Frequencies 过程,分析结果,(1) 缺失值报告,Frequencies 过程,分析结果,(2) 频数表,Crosstabs:用于输出交叉列联表,以demo.sav为例,描述人群的婚姻情况marital(0、1)、退休状况retire( 0、1)的交叉频数分布,Crosstabs 过程,用于分类变量统计推断时的参数设定,此例暂不使用,Crosstabs 过程,行变量:ed,列变量:jubocat,Cells:在SPSS对话框中,对于单元格要显示的参数进行设定,合计,百分位数,残差,非整权重设置,Crosstabs 过程,6400人的婚姻状况和退休状况的数据都是完
13、整的, 无缺失值。,Crosstabs 过程,分析结果,(1) 缺失值报告,婚姻状况(行)和退休状况(列)的交叉表,Crosstabs 过程,分析结果,(2) 交叉表,行百分比,列百分比,交叉分组下的频数分析Crosstabs 过程应用,目的:掌握多变量的联合分布特征,分析变量间的关系。 功能: 产生描述多变量联合分布的列联表 比较两个(或以上)样本率或比例差异(卡方检验) 变量间的关联度分析,1、变量关系概述,变量间的关系:有关与无关。 有关:如果一个变量的取值发生变化,另外一个变量的取值也相应发生变化 无关:如果一个变量的变化不引起另一个变量的变化。,性别与四级英语考试通过率的相关统计,表
14、述:结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。 自变量的不同取值在因变量上无差异,两变量无关。 自变量的不同取值在因变量上有差异,两变量有关。,表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变化,因此性别与月收入有关。,2、双变量关系的统计类型,观测频数,行变量,列边缘分布,行边缘分布,列变量,期望频数,列联表的格式,列联分析行列变量间的关系,两变量是否相互独立。 两变量是否有共变趋势。 一变量的变化多大程度上能由另一变量的变化来解释。,卡方测量的原理: 卡方测量用来考察两变量是否独立(无关)。 其原理是根据这一概率定理:若两变量无关,则两
15、变量中联合事件发生的概率应等于各自独立发生的概率乘积。,在列联表中,这一定理就具体转化为:若两变量无关,则两变量中条件概率应等于各自边缘概率的乘积。反之,则两变量有关,或两变量不独立。,由此可见,期望值与观察值的差距越大,说明两变量越不独立,也就越相关。因此, Pearson卡方的表达式如下:当为四格表时,卡方的取值在0之间。卡方值越大,行列变量的关联性越强。,列联表的产生: AnalyzeDescriptive StatisticsCrosstabs,界面说明,【Rows】:用于选择行*列表中的行变量。 【Columns】:用于选择行*列表中的列变量。 【Layer】:层变量。 【Displ
16、ay clustered bar charts】:显示复式条图。 【Suppress table】:不输出行*列表。 【Exact】:针对2*2以上的行*列表设定计算确切概率的方法。 注:安装SPSS时除非特别选定,否则Exact模块一般不安装。,列联表所研究的问题,城镇和农村的储户收入水平状况相同吗? 行变量:户口 列变量:月收入 不同年龄段的储户对物价水平的看法一致吗? 行变量:年龄段 列变量:物价水平 城乡储户认为存钱合算的比例是否相同? 行变量:户口 列变量:什么合算,回答城乡储户收入水平是否相同的问题,需要引入卡方检验。,1、卡方检验步骤,提出假设H0:行、列变量独立(对立假设为?)
17、 计算检验统计量(卡方统计量服从(r-1)*(c-1)个自由度的卡方分布) 确定检验水平与界值 结果判断:查界值表、看P值大小,卡方检验操作:Statistics选项,【Cells】:用于定义列联表单元格中需要计算的指标: Counts:是否输出实际观察数(Observed)和理论数(Expected); Percentages:是否输出行百分数(Row)、列百分数(Column)以及合计百分数(Total); Residuals:选择残差的显示方式; 【Format】:用于选择行变量是升序还是降序排列。,结果:城乡储户的收入水平没有明显差异。,Pearson卡方值的影响因素,实际频数与期望频
18、数之差 期望频数的大小 列联表的单元格子数 样本量大小,2、卡方检验的校正,自由度为1时,期望频数均大于5 :连续性校正(Continuity Correction ) 20%的单元格期望频数小于5:似然比卡方检验( Likelihood Ratio ) T5 and n40或 T1时:确切概率法(Fishers Exact Test ),例1:城镇对象感到存钱合算的比例是否高于农村对象?,例2:城乡储户对“未来收入的变化趋势”的态度是否相同,3、行列变量的关联度分析,该关联度类似于参数检验中相关系数的含义,取值多在(1,1)区间 可描述行列变量的关联强度,多数是对Pearson卡方测量值进行
19、的修正。 为两变量相关研究中的非参数方法,卡方检验中的关联度分析不太常用。,3.1、两定类变量的关联度,列联系数(Contingency coefficient):取值01,其取值随着行列数的增加而增大 Phi系数:取值-11,适用于四格表,对样本量进行了修正 V系数:取值01,对样本量和行列数进行修正;四格表时,等于Phi系数,例:居民储蓄调查中了解城乡户口与“买东西还是存钱合算”的关联度,3.2、两定序变量的关联度,同序对数(P)、异序对数(Q) :当一个变量为升序排列时,另一变量序列中有后面的一个变量值大于前面的一个变量值,则记为一个同序对;否则为异序对。 Kendalls tau-b:
20、 行列数相等时 Kendalls tau-c: 任意列联表 Gamma系数:四格表检验,例3:居民收入水平与对物价水平评价的关联度,评价关联度主要看Value值大小。,3.3、其他关联度,一个定类变量,一个定距变量的关联度:Eta系数,类似方差分析的非参数检验 两定距变量(或定序变量)的关联度:相关(Correlations):计算Pearson和Spearman相关系数,4、配对计数资料的卡方检验,例子:海尔公司的市场调查数据:对每个消费者调查两个问题:1、是否购买过海尔冰箱(是、否) ?2、是否购买过海尔洗衣机(是、否) ? 问1:海尔冰箱和洗衣机的购买率是否有差别? 问2:每位消费者对海
21、尔冰箱和洗衣机的购买一致性程度如何?,4、配对计数资料的卡方检验,McNemar:配对计数资料的卡方检验。零假设为两变量的阳性率无差别Kappa一致性检验:系数取值11。测量同一观测对象在两变量(两变量服从二项分布)上取值的一致性程度。其绝对值越接近1,说明一致性程度越高。一般来说: 系数=0.7,一致性程度较高; 0.40.7,一致性程度一般; 0.4,一致性较弱,例:两种方法同时检测患者乙肝抗体的阳性率,两种方法的阳性率有无差别? 两种方法的检测情况是否一致?,五、多选项分析,目的:解决问卷设计中的多选项问题的分析 多选项分析步骤: 先将多选项问题分解,分解方法(是否丢失信息、是否易于分析
22、): 二分法:把每个选项均转为二分类变量 有序分类法:把该问题按顺序转为多个问题 再进行频数分析,例子:高考志愿调查,请按顺序选择你想报考的三所大学 北大 清华 人大 北师大 北京理工大学 北外 第一 第二 第三 。,二分法分解,你报考北大吗?1、是 2、否 你报考清华吗?1、是 2、否 你报考北师大吗?1、是 2、否 你报考北外吗?1、是 2、否 你报考人大吗?1、是 2、否 你报考北理工吗?1、是 2、否,有序分类法分解,志愿一:16 志愿二:16 志愿三:16 有序分类法较优。,另一个例子:您有过下列症状吗(可多选)? A.失眠、B.多梦、C.情绪低落、D.记忆力减退 如何分解?,SPS
23、S的多选项分析,基本操作:AnalyzeMultiple ResponseDefine sets 定义多选项,多选项频数分析,基本操作:AnalyzeMultiple ResponseFrequencies 多选项频数分析 例:对居民储蓄调查数据,指定目的一、目的二、目的三为多选项变量集后,选择频数分析后,SPSS自动汇总各种目的的频数表 如对不同年龄段的居民储蓄目的分析,可选择多选项的交叉表分析,分析不同年龄人群的储蓄目的,六、比率分析,目的:对两变量间的比率关系进行简单或分组描述分析。 特点:除基本描述统计量外,还有 Weighted Mean:加权比率均值,是两变量均值的比 AAD:平均绝对离差; COD:离散系数; PRD:相关价格微分,是比率均值与加权比率均值的比; COV:基于均值或中位数的变异系数,基本操作:Descriptive Statistics Ratio过程,