收藏 分享(赏)

2012-第4章-SPSS基本统计分析03017.ppt

上传人:dzzj200808 文档编号:4052192 上传时间:2018-12-06 格式:PPT 页数:130 大小:1.83MB
下载 相关 举报
2012-第4章-SPSS基本统计分析03017.ppt_第1页
第1页 / 共130页
2012-第4章-SPSS基本统计分析03017.ppt_第2页
第2页 / 共130页
2012-第4章-SPSS基本统计分析03017.ppt_第3页
第3页 / 共130页
2012-第4章-SPSS基本统计分析03017.ppt_第4页
第4页 / 共130页
2012-第4章-SPSS基本统计分析03017.ppt_第5页
第5页 / 共130页
点击查看更多>>
资源描述

1、第四章 SPSS基本统计分析,授课教师:杨小宝 副教授 北京交通大学 交通运输学院 2012.11,统计软件及其应用,SPSS的主要分析工具Analyze菜单,报告Rports 描述性统计分析Descriptive Statistics菜单 表格Tables 比较均值Compare Means菜单 一般线性模型General Linear Model菜单 相关分析Correlate菜单 多元线性回归与曲线拟合 Regression菜单 对数线性模型Loglinear菜单 聚类分析与判别分析Classify菜单 因子分析与对应分析Data Reduction菜单 信度分析与多维尺度分析Scale

2、菜单 非参数检验Nonparametric Tests菜单 时间序列分析Time series菜单,描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在描述统计Descriptive Statistics菜单中,包括: Frequencies:频数分析过程,特色是产生频数表(主要针对分类变量) Descriptives:数据描述过程,进行一般性的统计描述(主要针对数值型变量) Explore:数据探察过程,用于对数据概况不清时的探索性分析 Crosstabs:多维频数分布交叉表分析(列联表分

3、析) Ratio statistics:比率分析,4.1 频数分析4.2 计算基本描述统计量4.3 交叉分组下的频数分析4.4 多选项分析4.5 比率分析,SPSS基本统计分析的内容,4.1 频数分析,4.1.1 频数分析的目的和基本任务 4.1.2 频数分析的基本操作 4.1.3 SPSS频数分析的扩展功能 4.1.4 频数分析的应用举例,1、目的:基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。 2、基本任务 1) 频数分析的第一个基本任务是编制频数分布表; 2) 频数分析的第二个任务是绘制统计图。,4.1.1频数分析的目的和基本任务,

4、任务一、编制频数分布表,频数(Frequency):即变量值落在某个区间(或某个类别)中的次数 百分比(Percent):即各频数占总样本数的百分比 有效百分比(Valid Percent):即各频数占有效样本数的百分比,这里有效样本数总样本缺失样本数 累计百分比(Cumulative Percent):即各百分比逐级累加起来的结果。最终取值为100。,条形图(Bar Chart):用宽度相同的条形的高度或长短来表示频数分布变化的图形,适用于定序和定类变量的分析。 饼图(Pie Chart):用圆形及圆内扇形的面积来表示频数百分比变化的图形,以利于研究事物内在结构组成等问题。 直方图(Hist

5、ograms):用矩形的面积来表示频数分布变化的图形,适用于定距型变量的分析。,任务二、绘制统计图,注:变量的计量尺度:a 定类 (Category Scale):只能计次b 定序 (Ordinal Scale):计次、排序c 定距(Interval Scale):计次、排序、加减d 定比 (Ratio Scale):计次、排序、加减、乘除a-分类变量、b-顺序变量、c&d-数值型变量,4.1.2 频数分析的基本操作,1) 选择菜单分析Analyze描述统计Descriptive Statistics频率Frequencies。 2) 将若干频数分析变量选择到变量Variable(s)框中。

6、3) 单击图表Chart按钮选择绘制统计图形,在图表值Chart Values框中选择条形图中纵坐标(或饼图中扇形面积)的含义,其中Frequencies表示频数;Percentages表示百分比。,数据加工(职工数据).sav,输出百分位数: 输出四分位数,显示25%、50%、75%的百分位数; 将数据平均分为所设定的相等等份,可输入2100 的整数,如键入4则输出第25、50、75百分位数 自定义百分位数,可输入0100 的整数。,离散趋势,分布形态栏,集中趋势栏,(输出)统计量对话框,4.1.3 SPSS频数分析的扩展功能,1、计算分位数(Percentile Values)分位数是变量

7、在不同分位点上的取值。分位点在0100之间。一般使用较多的是四分位点(Quartiles),即将所有数据按升序排序后平均等分成四份,各分位点依次是25,50,75。于是四分位数便分别是25,50,75点所对应的变量值。此外,还有八分位数、十六分位数等。SPSS提供了计算任意分位数的功能,用户可以指定将数据等分为n份(Cut points for n equal groups)。还可以直接指定分位点(Percentile)。,2、计算其他基本描述统计量SPSS频数分析还能够计算其他基本统计量,其中包括描述集中趋势(Central Tendency)的基本统计量、描述离散程度(Dispersion

8、)的基本统计量、描述分布形态(Distribution)的基本统计量等。,3、频数分布表格式(Format)的定义 1) 排序方式(Order by):调整频数分布表中数据的输出顺序:频数分布表中的内容的输出顺序可以按变量值的升序输出(Ascending values),按变量值的降序输出(Descending values),按频数的升序输出( Ascending counts),按频数的降序输出( Descending counts)。,格式Format 对话框,控制频数表输出的分类数量。默认为10,多变量框中可设定多变量表格输出的格式,设置频数表输出的格式,选择频数表中排列顺序 按变量升

9、序排列,此为默认 按变量降序排列 按变量各种取值发生的频数的升序排列 按变量各种取值发生的频数的降序排列,2)多个变量multiple variables单选框组:如果选择了两个以上变量作频数表,则比较变量compare variables可以将所有变量的结果在同一个频数表过程输出结果中显示,便于互相比较;按变量组织输出organize output by variables则将结果在不同的频数表过程输出结果中显示,每一个变量一张表。,3) 压缩频数分布表(Suppress tables with more than n categories)如果变量取值的个数或取值区间的个数太多,频数分布表

10、将很庞大,此时可以压缩它。SPSS默认,如果变量取值的个数或取值区间的个数大于10,则不输出相应的频数分布表。应用中可以修改该值。,4.1.4 频数分析的应用举例,利用居民储蓄调查数据进行频数分析,有以下两个分析目标: 目标一:分析储户的户口和职业的基本情况。 目标二:分析储户一次存款金额的分布,并对城镇储户和农村储户进行比较。,目标一:分析储户的户口和职业的基本情况(1)户口和职业两个变量都是定类变量,可通过基本频数分析实现。(2)职业变量的取值(分类)数目较多,为使频数分布表更一目了然,应对内容的输出顺序进行调整,单击格式Format按钮,选择Descending counts按频数的降序

11、输出。(3)单击图形Chart按钮指定输出户口变量的饼图和职业变量的条形图。,户口的基本情况-操作,户口的基本情况-输出结果,职业的基本情况-操作,居民储蓄调查数据.sav,职业的基本情况-输出结果,目标二:分析储户一次存款金额的分布,并对城镇储户和农村储户进行比较。 1、分析思路: (1)由于存(取)款金额数据为定距型变量,直接采用频数分析不利于对其分布形态的把握,因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表。 (2)进行数据拆分,并分别计算城镇储户和农村储户的一次存(取)款金额的四分位数,并通过四分位数比较两者分布上的差异。,2、分析过程: (1)数据分组,将存(取)款金

12、额重新分成五组,五组区间分布为,少于500元,5002000元,20003500元,35005000元,5000元以上。分组后进行频数分析并绘制带正态曲线的直方图。 (2)利用SPSS的频数分析计算所有样本的存(取)款金额的四分位数;然后,按照户口类型对数据进行拆分(Split file)并重新计算分位数,分别得到城镇户口和农村户口的存(取)款金额的四分位数。,存款金额分布-数据分组操作,居民储蓄调查数据.sav,分组结果,存款金额分布-频数分布操作,存款金额分布-输出结果,存款金额城乡比较-数据拆分操作,居民储蓄调查数据.sav,数据拆分结果:数据按户口进行了排序,且后面的操作都是按拆分变量

13、的不同组分别进行分析计算。,存款金额城乡比较-四分位数操作,城乡比较-数据拆分后的输出结果,未拆分的数据输出结果,恢复全部数据的分析,4.2 计算基本描述统计量,4.2.1 基本描述统计量 4.2.2基本描述统计量的基本操作 4.2.3 基本描述统计量的应用举例,4.2.1 基本描述统计量,常见的基本描述统计量有三大类: 刻画集中趋势的统计量 刻画离散程度的统计量 刻画分布形态的统计量,1、刻画集中趋势的描述统计量集中趋势是指一组数据向某一中心值靠拢的倾向。 (1)均值(Mean):即算术平均数,是反映某变量所有取值的集中趋势或平均水平的指标。如某企业职工的平均月收入。其计算公式为:,(2)中

14、位数(Median):即一组数据按升序排序后,处于中间位置上的数据值。如评价社会的老龄化程度时,可用中位数。 (3)众数(Mode):即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数。,数据类型与集中趋势测度值,2、刻画离散程度的描述统计量离散程度是指一组数据远离其“中心值”的程度。如果数据都紧密地集中在“中心值”的周围,数据的离散程度较小,说明这个“中心值”对数据的代表性好;相反,如果数据仅是比较松散地分布在“中心值”的周围,数据的离散程度较大,则此“中心值”说明数据特征是不具有代表性的。,常见的刻画离散程度的描述统计量如下: (1)全距或范围(Ran

15、ge):也称极差,是数据的最大值(Maximum)与最小值(Minimum)之间的绝对离差。 (2)方差(Variance):也是表示变量取值离散程度的统计量,是各变量值与算数平均数离差平方的算术平均数。其计算公式为:,(3)标准差(Standard Deviation:Std Dev)表示变量取值距离均值的平均离散程度的统计量。其计算公式为:标准差值越大,说明变量值之间的差异越大,距均值这个“中心值”的离散趋势越大。,(4)均值标准误差(Standard Error of Mean)即样本均值的标准差,描述样本均值与总体均值之间的平均差异程度的统计量。其计算公式为:其中: 为总体标准差,n为

16、样本容量,数据类型与离散程度测度值,3、刻画分布形态的描述统计量数据的分布形态主要指数据分布是否对称,偏斜程度如何,分布陡峭程度等。刻画分布形态的统计量主要有两种: (1)偏度(Skewness):描述变量取值分布形态对称性的统计量。其计算公式为:,当分布为对称分布时,正负总偏差相等,偏度值等于0;当分布为不对称分布时,正负总偏差不相等,偏度值大于0或小于0。偏度值大于0表示正偏差值大,称为正偏或右偏;偏度值小于0表示负偏差值大,称为负偏或左偏。偏度绝对值越大,表示数据分布形态的偏斜程度越大。,(2)峰度(Kurtosis):描述变量取值分布形态陡峭程度的统计量。其计算公式为:当数据分布与标准

17、正态分布的陡峭程度相同时,峰度值等于0;峰度大于0表示数据的分布比标准正态分布更陡峭,为尖峰分布;峰度小于0表示数据的分布比标准正态分布平缓,为平峰分布。,4.2.2 基本描述统计量的操作,1) 选择菜单分析Analyze描述统计Descriptive Statistics描述Descriptives,出现如下窗口:,2) 将需计算的数值型变量选择到Variable(s)框中。 3) 单击选项Option按钮指定计算哪些基本描述统计量,出现如下窗口:,基本统计量,当Variables框中有多个变量时,此框确定其输出顺序: 按Variables框中的排列顺序输出 按各变量的字母顺序输出 按均值的

18、升序排列 按均值的降序排列,分布,选项对话框,在上面窗口中,用户可以指定分析多变量时结果显示顺序(Display Order)。其中,Variable list表示按变量在数据窗口中从左到右的次序输出;Alphabetic表示按字母顺序输出;Ascending Means表示按均值升序输出;Descending Means表示按均值降序输出。至此,SPSS便自动计算所选变量的基本描述统计量并显示到输出窗口中。,4.2.3 应用举例,1. 利用居民储蓄调查数据,对一次存款金额变量计算基本描述统计量。有以下分析目标:计算存款金额的基本描述统计量,并分别对城镇储户和农村储户进行比较分析:首先按照户口

19、对数据进行拆分(Split file),然后计算存(取)款金额的基本描述统计量。,数据拆分操作,居民储蓄调查数据.sav,描述性统计量输出结果,2. 分析储户一次存款的数量是否存在不均衡现象。分析:假设储户一次存款金额服从正态分布,跟据3 原则,异常值通常为3个标准差范围之外的值,可通过对数据的标准化处理来判断。标准化的数学定义为:,经验法则,经验法则表明:当一组数据对称分布时 约有68%的数据在平均数加减1个标准差的范围之内 约有95%的数据在平均数加减2个标准差的范围之内 约有99%的数据在平均数加减3个标准差的范围之内,标准分数(standard score),变量值与其平均数的离差除以

20、标准差后的值称为标准分数,也称标准化值。 用于对变量的标准化处理。 给出了一组数据中各数值的相对位置,可用于判断一组数据是否有离群点。 计算公式为,通过标准化可以得到一系列新变量值,通常称为标准化值或z分数。计算标准化值可以通过对话框中的复选框save standardized values as variables来实现,并将结果保存在一个新变量中。该变量的命名规则为字母Z+原变量名的前七个字符,如原变量a5的标准化值为Za5。,接下来可对新变量进行排序并浏览其标准化值的取值情况,可以发现z分数值得绝对数大于3的储户是存在的。对其分组为三组:za53并进行频数分析可以发现存款金额存在一定的不

21、均衡现象。,统计量输出结果,排序后的部分结果,非正态 分布,统计问题分类与解决方法,统计或数据分析中的问题大多是研究不同变量之间的关系。 最常见的一类问题是分析解释变量(自变量X1, X2, X3, )对被解释变量(因变量Y)是否存在影响,有多大影响等。 如何选择适当的统计理论方法? 需要根据变量X和Y的数据类型不同,选用不同的统计理论方法。,4.3 交叉分组下的频数分析,4.3.1 目的和任务 4.3.2交叉列联表的主要内容 4.3.3交叉列联表行列变量间关系的分析 4.3.4基本操作 4.3.5应用举例 4.3.6SPSS中列联表分析的其他方法,4.3.1 目的和基本任务,1、目的:交叉分

22、组下的频数分析又称列联表分析。通过前面的频数分析能够掌握单个变量的数据分布情况,在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成。,2、基本任务:1)根据收集到的样本数据,产生二维或多维交叉列联表;2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。,4.3.2 交叉列联表的主要内容,编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。例:职工基本情况数据按职称和文化程度编制的二维

23、交叉列联表(见下页表):,上表中的职称变量称为行变量(Row),文化程度称为列变量(Column)。行标题和列标题分别是两个变量的变量值(或分组值)。表格中间是观测频数(Observed Counts)和各种百分比。 16名职工中,本科、专科、高中、初中的人数分别为4,4,5,3,构成的分布称为交叉列联表的列边缘分布;,高级工程师、工程师、助理工程师、无技术职称的人数分别为3,4,6,3,构成的分布称为交叉列联表的行边缘分布; 4个本科学历职工中各职称的人数分别是1,1,2等,这些频数构成的分布称为条件分布,即在行变量(列变量)取值条件下的列变量(行变量)的分布。,书上第94页表4-6三维交叉

24、列联表,4.3.3 交叉列联表行列变量间关系的分析,对交叉列联表中的行变量和列变量之间关系进行分析是交叉分组下频数分析的第二个任务。 大多数情况下,观测频数分散在列联表的各个单元格中,不容易直接发现行列变量之间的关系强弱程度,此时就要借助非参数检验方法。通常用的方法是卡方检验。,交叉列联表的卡方检验,卡方检验属假设检验的范畴,步骤如下: 1) 建立原假设在列联表分析中卡方检验的原假设为行变量与列变量独立 2) 选择和计算检验统计量列联表分析卡方检验统计量是Pearson卡方统计量,其数学定义为:,其中,r为列联表的行数,c为列联表的列数; 为观察频数, 为期望频数(Expected Count

25、)。期望频数的计算方法是:其中,RT是指定单元格所在行的观测频数合计,CT是指定单元格所在列的观测频数合计,n是观测频数的合计。 期望频数的分布反映的是行列变量互不相干下的分布。,书上第97页表4-8期望频数举例,3) 确定显著性水平和临界值,显著性水平(Significant Level) 是指原假设为真却将其拒绝的风险,即弃真的概率。通常设为0.05或0.01。在卡方检验中,由于卡方统计量服从自由度为(行数1)(列数1)的卡方分布,因此,在行列数目和显著性水平确定时,卡方临界值是可唯一确定的。,4) 结论和决策,对统计推断做决策通常有两种方式: 根据统计量观测值和临界值比较的结果进行决策。

26、如果卡方观测值大于临界值,则认为实际分布与期望分布之间的差距显著,可以拒绝原假设,断定列联表的行列变量间不独立,存在相关关系;反之,接受原假设。 根据统计量观测值的概率p值和显著性水平 比较的结果进行决策。,利用p值进行检验(决策准则),若p-值 ,不拒绝 H0 若p-值 , 小概率事件发生,拒绝 H0,p值是抽样分布中大于或小于样本 统计量的概率;被称为观察到的 (或实测的)显著性水平。,4.3.4 基本操作,1) 菜单选项分析Analyze描述统计Descriptive Statistics 交叉表Crosstabs,出现窗口如下:,该框中的变量作为分布表中的行变量和列变量,该框中的变量作

27、为控制变量,决定频数分布表中的层,可有多个控制变量。,显示每一组中各变量的分类条形图。,只输出统计量,不输出多维列联表。,交叉表Crosstabs 对话框,2) 如果进行二维列联表分析,则将行变量选择到Row(s)框中,将列变量选择到Column(s)框中。如果Row(s) 和Column(s)框中有多个变量名,SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析,则将其他变量作为控制变量选到Layer框中。多控制变量间可以是同层次的,也可以是逐层叠加的,可通过Previous或Next按钮确定控制变量间的层次关系。,单元显示Cell Display 对话框,输出观测

28、量的实际数量 输出期望的观测值的数量,输出单元格中观测量的数目占整行全部观测量数目的百分比 输出单元格中观测值的数目占整列全部观测量数目的百分比 输出单元格中观测量的数目占全部观测量数目的百分比,统计量和格式对话框,指定用哪种方法分析行变量和列变量间的关系,输出排列顺序,4.3.5 应用举例,利用居民储蓄调查数据进行分析,实现以下目标:1、分析城镇和农村储户对“未来收入状况的变化趋势”是否持相同的态度。2、分析城镇和农村储户对什么合算的认同是否一致。,居民储蓄调查数据.sav,分析: 1、该问题列联表的行变量为户口,列变量为未来收入状况,在列联表中输出各种百分比、期望频数、剩余、标准化剩余,显

29、示各交叉分组下频数分布柱形图,并利用卡方检验方法,对城镇和农村储户对该问题的态度是否一致进行分析。2、该问题列联表的行变量为户口,列变量为什么合算,在列联表的基础上进行卡方检验。,1. 未来收入状况的态度操作,居民储蓄调查数据.sav,1. 未来收入状况的态度输出结果,p值小于0.05拒绝原假设,认为行列变量之间相关,户口对未来收入看法有影响,居民储蓄调查数据.sav,2.存款是否合算操作,2. 存款是否合算输出结果,p值小于0.05拒绝原假设,认为行列变量之间相关,户口对存款合算与否有影响,4.3.6 SPSS中列联表分析的其他方法,对列联表中行列变量的分析,除上述卡方检验方法之外,SPSS

30、还提供了其他测度变量间相关关系的检验方法,包括: 适用于两定类变量的方法:名义Nominal框中列出的方法属该类方法。 适用于两定序变量的方法:有序Ordinal框中列出的方法属该类方法。 适用于一定类变量、一定距变量的方法:按区间标定Nominal by interval框中的Eta方法。 其他方法。,适用于两分类变量的分析,适用于一分类变量一定距变量的分析,适用于两顺序变量的分析,4.4 多选项分析,4.4.1 多选项分析的目的 4.4.2 多选项分析的基本操作 4.4.3 多选项分析的应用举例,4.4.1 多选项分析的目的,多选项问题的概念:多选项问题是根据实际调查的需要,要求被调查者从

31、问卷给出的若干个可选答案中选择一个以上的答案。目前,市场研究或许多领域对某事物评价的研究中常常遇到这样的问题。 可以选多个,分为限选和不限选,多选项问题分析的一般步骤,第一,将多选项问题分解 第二,利用前面讲到的频数分析或交叉分组下的频数分析等方法进行分析。,一、多选项问题的分解,分解原因:对一个多选项问题仅设置一个SPSS变量在数据处理和分析中是行不通的。 解决思路:将问卷中的一道多选项问题分解成若干个问题,对应设置若干个SPSS变量,分别存放描述这些问题的几个可能被选择的答案。 分解的两种方法:多选项二分法(Multiple Dichotomies Method)和多选项分类法(Multi

32、ple Category Method)。,多选项二分法,多选项二分法是将多选项问题中的每一个答案设为一个SPSS变量,每个变量值有0或1两个取值,分别表示选择了该答案和不选择该答案。如对下面问题有9个可能的答案,每个可选择的答案由一个变量表示,每个变量的值只能有表明“是”和“否”的两个代码0或者1。,二分法的编码,在建立数据文件时,变量名使用相同的变量主名,后面加以不同序号组成,本组问题的9个变量名可以是color1-color9。而答案的编码规则为:回答“是”变量值为1,回答“否”变量值为0,其他值为缺失值。,多选项分类法,多选项分类法中,首先应估计多选项问题最多可能出现的答案个数;然后为

33、每个答案设置一个SPSS变量,变量取值为多选项问题中的所有可选答案。如上面有关选择服装的主体颜色,您可以选择喜欢的三种,在提供的10种答案前上选择。1、红 2、橙 3、黄 4、绿 5、青6、蓝 7、紫 8、黑 9、白 10 、说不清,分类法的编码,这个问题可以有三个答案。在建立数据文件时,要建立三个变量color1, color2, color3表示回答者选择的三个颜色。如选择结果为1、红、6、蓝、8、黑,则变量color1的值为1, 变量color2的值为6, 变量color3的值为8。,如果采用多选二分法则有6个选项,故应设6个变量,运用0-1编码方法编码,即:1,0,1,0,1,1。如果

34、采用多选分类法,则编码为1,3,5,6,0,0。,1 3 5 6,问题2:择业中考虑的主要因素(多选),1经济收入 2专业对口 3发展前途 4地理区位 5个人爱好 6风险大小 7劳动强度 8社会福利 9其他,编码应为:1,0,1,1,1,0,1,1,0。 或1,3,4,5,7,8,0,0,0。,1 3 6,问题3:您择业中考虑的主要因素有(限选三项),1经济收入 2 专业对口 3发展前途 4地理区位 5个人爱好 6风险大小 7劳动强度 8社会福利 9社会地位 10其他,因为限选三项,故应设三个变量,编码依次为1, 3,6。,4.4.2 多选项分析的基本操作,首先将每个题的若干答案组成一个综合变

35、量即变量集(Set),然后对综合变量的各种取值进行分析。只有通过定义多选项变量集,SPSS才能确定应对哪些变量取相同值的个案数进行累加。 多选项分析在SPSS中是通过分析Analyze 多重响应Multiple Response中的各项功能实现的。,居民储蓄调查数据.sav,1.定义变量集Define Sets: 1) 从左边的变量中将多选变量集的变量选择到集合中的变量variables in sets框中,建立多选二分变量集或多选分类变量集。 2) 在将变量编码为variables are coded as框中指定多选变量集中的变量是按照那种方法编码的。二分法Dichotomies表示以多选

36、二分法编码,并在counted value中输入用哪个数值来表示选中该选项。类别categories表示以多选分类法编码,并在range框中输入变量取值的最小值和最大值。,居民储蓄调查数据.sav,3) 为多选项变量集命名,系统会自动在该名字前加字符$。 4) 单击添加add按钮将定义好的多选项变量集加到多响应集multi response sets框中。SPSS可以定义多个多选项变量集。 2. 频率Frequencies:对多选变量集进行频数分析。从多响应集multi response sets中把待分析的多选项变量集选择到表格tables for框中; 3. 交叉表Crosstabs:对多

37、选变量集与其他变量集或与原基本变量进行交叉表分析。,1) 选择列联表的行变量并定义取值范围; 2) 选择列联表的列变量并定义取值范围; 3) 选择列联表的控制变量并定义取值范围; 4) 单击option按钮选择列联表的输出内容和计算方法。Match variable across response sets选项表示,如果列联表的行列变量均为多选项变量集时,第一个变量集的第一个变量与第二个变量集的第一个变量作交叉分组,依次类推。结果中:注意Pct of Responses (占总回答数的)和Pct of Case (占总个案数)的区别。,4.4.3多选项分析的应用举例,利用居民储蓄调查数据进行分

38、析,实现以下两个分析目标:1.分析储户的储蓄目的;2.分析不同年龄段储户的储蓄目的。,居民储蓄调查数据.sav,分析,1.为进行多选项分析,首先定义名为cxmd的多选项变量集,其中包括a7_1、a7_2、a7_3三个变量,然后对多选项变量集进行频数分析; 2.对不同年龄段储户储蓄目的进行分析,采用多选项交叉分组下的频数分析。,一、定义多变量集(如前述) 二、频率分析操作(如下),居民储蓄调查数据.sav,频率分析输出结果,三、交叉表下的频率分析操作,居民储蓄调查数据.sav,交叉分组 输出结果,4.5 比率分析,4.5.1 比率分析的目的和主要指标 4.5.2 比率分析的基本步骤 4.5.3

39、比率分析的应用举例,4.5.1 比率分析的目的和主要指标,比率分析用于对两变量间变量值比率变化的描述分析,适用于数值型变量。 例如根据1999年各地区保险业务情况的数据,分析各地区财产保险业务的保费收入占全部业务保费收入的比例情况。,通常的分析可以生成各个地区财产保险业务的保费收入占全部业务保费收入的比率变量,然后对该比率变量计算基本描述统计量(如均值、中位数、标准差、全距等),进而刻画比率变量的集中趋势和离散程度。 SPSS的比率分析除能够完成上述分析外,还提供了其他相对比描述指标,大致也属于集中趋势描述指标和离散程度描述指标的范畴,具体包括:,1) 加权比率均值(Weighted mean

40、):两变量均值的比,属集中趋势描述指标。,加权比率均值的计算: 相对数(或比率)用 Y 表示,有Y=a/b, a、b为总量指标。 求各期 Y的平均一般不能采用简单算术平均法,因为各期数据Yi 的对比基础 bi 不同,它们对全期总平均水平的影响作用应轻重有别。 计算公式:分别计算其分子、分母的平均数,对比得:上式实质上等于对各期Y加权算术平均。,2) AAD (Average Absolute Deviation) 平均绝对离差:是对比率变量离散程度的描述,计算公式为:其中, 是比率数,M是比率变量的中位数,N为样本数,3) COD (Coefficient of Dispersion) 离散系

41、数:也是对比率变量离散程度的描述,计算公式为:4) PRD (Price-related Differential) 相关价格微分:是比率均值与加权比率均值的比,也是比率变量离散程度的描述。,5) COV变异系数:用于对比率变量离散程度的描述,分为基于均值的变异系数(Mean centered COV)和中位数的变异系数(Median centered COV)。前者是通常意义下的变异系数,是标准差除以均值;后者定义为:,4.5.2-3 基本步骤与应用举例,1) 选择菜单分析Analyze描述统计Descriptive Statistics比率Radio,出现窗口,基本分析(各地区保险业务保费

42、收入).sav,2) 将比率变量的分子选择到分子Numerator框中,将比率变量的分母选到分母Denominator框中。 3) 如果做不同组间的比率比较,则将分组变量选择到组变量Group Variable框中。 4) 单击统计量Statistics按钮指定输出哪些关于比率的描述统计量,出现如下窗口:,基本分析(各地区保险业务保费收入).sav,统计量框,输出结果,本章作业,利用居民储蓄调查数据,从中随机选取80%的样本,进行频数分析,实现以下分析目标: 1.分析城镇储户和农村储户的一次平均存(取)款金额是否有显著的差异; 2. 分析储户一次存款金额的分布,基本描述统计量,并对城镇储户和农

43、村储户进行比较; 3.分析城镇和农村储户对什么合算的认同是否一致。,第1题:基本统计分析1,居民储蓄调查数据.sav,利用居民储蓄调查数据,从中随机选取80%的样本,进行分析,实现以下目标: 1、分析不同职业储户的储蓄目的; 2、分析城镇和农村储户对“未来收入状况的变化趋势”是否持相同的态度; 3.分析储户一次存款金额的分布,并对不同年龄段的储户进行比较。,居民储蓄调查数据.sav,第2题:基本统计分析2,第3题:基本统计分析3,利用居民储蓄调查数据,从中随机选取80%的样本,进行分析,实现以下目标:1.分析储户的户口、职业和储蓄目的的基本情况;2.分析不同年龄段储户的储蓄目的;3.对居民储蓄调查数据中的居民存款金额按照户口和职业进行分类汇总得到均值、中位数及标准差。,居民储蓄调查数据.sav,Thank you!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报