第三章描述性统计分析.ppt-道客多多

资源描述

1、第3章描述性统计分析,描述性统计和推断性统计,统计描述单变量统计描述：描述单个变量之分布双变量统计描述：描述两个变量之相关统计推论参数估计假设检验,统计量,统计分析往往是从了解数据的基本特征开始的。统计上，需要把样本数据所含信息进行概括、融合和抽象，从而得到反映样本数据的综合指标，这些指标称为统计量。,描述性统计分析指标,统计量可分为两类一类表示数据的中心位置，例如均值、中位数、众数等一类表示数据的离散程度，例如方差、标准差、极差等用来衡量个体偏离中心的程度。,描述单变量分布的三种方式,用数字呈现一个变量的分布用表格呈现一个变量的分布用图形呈现一个变量的分布,Frequen

2、cies Descriptive Explore,1、Frequencies,即适用于分类变量，也适用于连续变量能够产生统计值能够产生统计表（频数表）能够产生统计图（饼图、条图和直方图）,3.1 频率分析,频率分析主要通过频率分布表、条形图和直方图，以及集中趋势和离散趋势的各种统计量来描述数据的分布特征,SPSS频率分析,步骤1：点击Frequencies，弹出对话框,步骤2：从左侧变量框，选择分析变量,步骤3：点击“OK”，自动出现频数分析,Frequencies的三个操作选项,带有正态曲线的直方图,按变量值升序排,按频数降序排,设置多变量表输出格式,在同一表中输出多个变量的统计结果

3、,每个表中只输出一个变量的统计结果,3.2 中心趋势的描述,均值均值标准误差中位数众数,均值,均值即数据的算术平均数，是数据中心趋势的主要度量指标，设变量有n个测量值，则算术均值为：,均值的特点,最常用的中心位置度量受极端值影响例：1，3，5，7，9 和1，3，5，7，14,均值标准误差（ S.E. mean ）,均值标准误差（Standard Error of Mean, S.E. mean）就是描述这些样本均值与总体均值之间平均差异程度的统计变量。,中位数,重要的中心位置度量在递增排序后的数据列中若数据个数为奇数，中位数是正中央的数若数据个数是偶数，中位数是正中央的两数的平均值

4、. 不受极端值的影，例如：1，5，7，3，9,众数,发生频数最高的数据值不受极端值的影响众数可能不存在可能有多个众数（单峰，双峰，多峰）可用于定量或定性数据,3.3 离散趋势的描述,仅仅根据数据的中心趋势指标进行决策是不够的。例如，如果一个国家的不同家庭收入差距很少；而另一个国家的家庭收入差距很大，既存在大量的贫困家庭，也存在许多十分富有的家庭，那么即使这两个国家的中等收入家庭的收入完全一样，其家庭收入情况仍然完全不同。,例子,假设我们有以下的三组观测值：观测A：11，12，13，16，16，17，18，21 观测B：14，15，15，15，16，16，16，17 观测C：11，11

5、，11，12，19，20，20，20 这三组观测值的均值都是15.5，那么这三组数据是否相似呢？,离散趋势,离散趋势的描述,极差（全距）（range）方差（Variance）标准差（S.d.) 分位数( Percentage),极差,极差=最大值-最小值受极端值影响较大,方差和标准差,方差标准差,四分位数（Quartiles）,四分位数是将一组个案由小到大（或由大到小）排序后，用3个点将全部数据分为四等份，与3个点上相对应的变量为四分位数，分别记为Q1（第一四分位数）、Q2（第二四分位数）、Q3（第三四分位数）。其中Q3到Q1之间的距离的一半又称为四分位差，记为Q。四分位差越小，说明

6、中间的数据越集中；四分位差越大，则意味着中间部分的数据越分散。,3.4 分布的形状,偏度（Skewness）是描述数据分别形态的，它是描述某变量取值分布对称性的统计量。峰度（Kurtosis）是描述某变量所有取值分布形态陡缓程度的统计量。,偏度（Skewness）,当偏度大于0时，分布为正偏或右偏，布图形在右边拖尾，分布图有很长的右尾，尖峰偏左当偏度小于0，分布为负偏或左偏，即分布图形在左边拖尾，分布图有很长的左尾，峰尖偏右当偏度为0，分布对称,峰度（Kurtosis）,峰度3，分布为高峰度，即比正态分布的峰要陡峭； 3，分布为低峰度，即比正态分布的峰要平坦些；=0，分布为正态峰。,标准

7、化Z分数,标准分数（stardard score）也叫z分数（z-score）,是一个分数与平均数的差再除以标准差的过程。用公式表示为： z=(x-)/。其中x为某一具体分数，为平均数，为标准差。 Z值的量代表着原始分数和母体平均值之间的距离，是以标准差为单位计算。在原始分数低于平均值时Z则为负数，反之则为正数。,标准化Z分数,Z分数可以用来比较两个从不同单位总体中抽出的变量值。例如：某中学高（1）班期末考试，已知语文期末考试的全班平均分为73分，标准差为7分，甲得了78分；数学期末考试的全班平均分为80分，标准差为6.5分，甲得了83分。甲哪一门考试成绩比较好？,标准化Z分数,因为两科期

8、末考试的标准差不同，因此不能用原始分数直接比较。需要将原始分数转换成标准分数，然后进行比较。 Z(语文)=(78-73)/7=0.71 Z(数学)=(83-80)/6.5=0.46 甲的语文成绩在其整体分布中位于平均分之上0.71个标准差的地位，他的数学成绩在其整体分布中位于平均分之上0.46个标准差的地位。由此可见，甲的语文期末考试成绩优于数学期末考试成绩。,3、Explore,三个功能项中最强大的一个适用于性质和分布不明的数据资料，故称为探索性分析在常用描述统计指标基础上，增加了有关数据详细分布特征的数字和图形描述,Explore的基本操作,Explore的三个操作选项,4个不同权重下

9、作中心趋势的粗略最大似然确定数,百分位数,两组最大5个数和最小5个数，及对应id,正态分布的检验结果,Sig. 0.05 数据服从正态分布 Sig.0.05 数据不服从正态分布,方差齐次性检验结果,Sig. 0.05 接受方差相同的假设 Sig.0.05 拒绝方差相同的假设,茎叶图,茎叶图分为3大部分：频数（Frequency）茎（Stem）和叶（Leaf）。茎表示数值的整数部分，叶表示数值的个数部分。每行的茎和叶组成的数字相加再乘以茎宽（Stem Width），即茎叶所表示的是实际值的近似值。,正态概率图,斜线是正态分布标准线，散点是实际数据的取值，散点图组成的曲线越接近直线，表示数据分布越

10、接近正态分布。,离散正态概率图,散点随机落在中间横线周围，不能拒绝正态分布。,箱图,箱子中间的黑粗线为中位数箱子上框为上四分位数（75），下框为下四分位数（25）箱子上下两个细线分别为去掉极端值以后的最大值和最小值细线外面的圆圈和星号为极端值,交叉列联表分析,交叉分组下的频数分析又称列联表分析。通过前面的频数分析能够掌握单个变量的数据分布情况，在实际分析中，不仅要了解单个变量的分布特征，还要分析多个变量不同取值下的分布，进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成。,交叉列联表分析,2、基本任务：（1）根据收集到的样本

11、数据，产生二维或多维交叉列联表；（2）在交叉列联表的基础上，对两两变量间是否存在一定的相关性进行分析。 5.3.2 交叉列联表的主要内容编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。例：职工基本情况数据按职称和文化程度编制的二维交叉列联表（见下页表）：,上表中的职称变量称为行变量（Row），文化程度称为列变量（Column）。行标题和列标题分别是两个变量的变量值（或分组值）。表格中间是观测频数（Observed Counts）和各种百分比。16名职工中，本科、专科、高中、初中的人数分别为4，4，5，3，构成的分布称为交叉列联表的列边

12、缘分布；高级工程师、工程师、助理工程师、无技术职称的人数分别为3，4，6，3，构成的分布称为交叉列联表的行边缘分布；4个本科学历职工中各职称的人数分别是1，1，2等，这些频数构成的分布称为条件分布，即在行变量（列变量）取值条件下的列变量（行变量）的分布。,在交叉列联表中，除了频数外还引进了各种百分比。例如表中第一行中的33.3， 33.3， 33.3分别是高级工程师3人中各学历人数所占的比例，称为行百分比（Row percentage），一行的百分比总和为100；表中第一列的25.0，25.0，50.0分别是本科学历4人中各职称人数所占的比例，称为列百分比（Column percentage）

13、，一列的列百分比总和为100，表中的6.3，6.3，12.5等分别是总人数16人中各交叉组中人数所占的百分比，称为总百分比（Total percentage），所有格子中的总百分比之和也为100。,交叉分组下的频数分析的基本操作（1）菜单选项AnalyzeDescriptive StatisticsCrosstabs，出现窗口如下：,（2）如果进行二维列联表分析，则将行变量选择到Row(s)框中，将列变量选择到Column(s)框中。如果Row(s) 和Column(s)框中有多个变量名，SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析，则将其他变量作为控制变量

14、选到Layer框中。多控制变量间可以是同层次的，也可以是逐层叠加的，可通过Previous或Next按钮确定控制变量间的层次关系。（3）选择Display clustered bar charts选项，指定绘制各变量交叉分组下频数分布条形图。Suppress tables表示不输出列联表，在仅分析行列变量间关系时可选择该选项。,（4）单击Cells按钮指定列联表单元格中的输出内容，窗口如下：,（5）单击Format按钮指定列联表各单元格的输出排列顺序。Ascending表示以行变量取值的升序排列，是SPSS默认项；Descending表示以行变量取值的降序排列。（6）单击Statistic

15、s按钮指定用哪种方法分析行变量和列变量间的关系，窗口如下，其中，Chi-Square为卡方检验。,卡方统计检验,零假设是：行和列变量之间彼此独立，不存在显著的相关关系。相伴概率小于显著性水平0.05，应拒绝零假设，认为行列变量之间彼此相关。,SPSS中列联表分析的其他检验方法,对列联表中行列变量的分析，除上述卡方检验方法之外，SPSS还提供了其他测度变量间相关关系的检验方法，包括：适用于两定类变量的方法：Nominal框中列出的方法属该类方法。适用于两定序变量的方法：Ordinal框中列出的方法属该类方法。适用于定类变量、定距变量的方法：Nominal by interval框中的Et

16、a方法属该类方法。其他方法。,交叉列联表统计结果,卡方检验统计结果,多选项分析,多选项分析是对多选项问题的分析方法。所谓多选项问题，就是一个问题的答案都是顺序变量或名义变量，并且允许选择的答案可以有多个的问题。可以选多个，分为限选和不限选：限选：如在11种工作种类中，选你喜欢的，最多可选4种（Var1-Var4)；求所有人喜欢各种工作的频数或频率。不限选：如在所列的20种电器中，你家所拥有的电器，不限选（Var1-Var20），求所有被调查家庭拥有各种电器的频数或频率。,多选项二分法及其编码（multiple dichotomies method）：多选项二分法是将多选项问题中的每一

17、个答案设为一个SPSS变量，每个变量值有0或1两个取值，分别表示不选择该答案和选择该答案。如对下面问题有9个可能的答案，每个可选择的答案由一个变量表示，每个变量的值只能有表明“是”和“否”的两个代码1或者0。,左边的表格为向顾客发放的颜色调查，在选择服装时，您喜欢什么颜色作为主体颜色，在答案的“”中打“” （可多选）这是一组问题，每个问题均有两个答案，回答者只能选择其中一种。在建立数据文件时，变量名使用相同的变量主名，后面加以不同序号组成，本组问题的9个变量名可以是color1-color9。而答案的编码规则为：回答“是”变量值为1，回答“否”变量值为0，其他值为缺失值。,多选项分类法及其编码

18、（multiple category method ）：多选项分类法中，首先应估计多选项问题最多可能出现的答案个数；然后为每个答案设置一个SPSS变量，变量取值为多选项问题中的所有可选答案。如上面有关选择服装的主体颜色，您可以选择喜欢的三种，在提供的10种答案前上选择。1、红 2、橙 3、黄 4、绿 5、青6、蓝 7、紫 8、黑 9、白 10说不清这是一个问题，可以有三个答案。在建立数据文件时，要建立三个变量color1-color3表示回答者选择的三个颜色。如选择结果为1、红、6、蓝、8、黑，则变量color1的值为1,变量color2的值为6,变量color3的值为8。,如果采用多选二分法

19、则有6个选项，故应设6个变量，运用0-1编码方法编码，即：1，0，1，0，1，1。如果采用多选分类法，则编码为1，3，5，6，0，0。,编码应为：1，0，1，1，1，0，1，1，0。或1，3，4，5，7，8，0，0，0。,因为限选三项，故应设三个变量，编码依次为1， 3，6。,首先将每个题的若干答案组成一个综合变量即变量集(Set)，然后对综合变量的各种取值进行分析。只有通过定义多选项变量集，spss才能确定应对哪些变量取相同值的个案数进行累加。多选项分析在SPSS中是通过Analyze - Multiple Response中的各项功能实现的。 1.Define Sets：（1）从左边

20、的变量中将多选变量集的变量选择到variables in sets框中，建立多选二分变量集或多选分类变量集。（2）在variables are coded as框中指定多选变量集中的变量是按照那种方法编码的。Dichotomies表示以多选二分法编码，并在counted value中输入用哪个数值来表示选中该选项。categories表示以多选分类法编码，并在range框中输入变量取值的最小值和最大值。,多选项分析的基本操作,多选项分析的基本操作,（3）为多选项变量集命名，系统会自动在该名字前加字符$。（4）单击add按钮将定义好的多选项变量集加到mult response sets框中。

21、Spss可以定义多个多选项变量集。,多选项二分法定义变量集,在Set Definition框中选择多选项变量，使之添加到Variables in Set框中。Variables are Coded as 框用来选择变量编码方式。多选项二分法选Dichotomles Counted value,并在后面框中输入数值1，表示等于1的为一组。下面的Name 框输入多选项变量集的名称，在Label中输入说明“6个选项集合”输入完毕后点击右边的Add按钮，使之添加到右边的Mult Response Sets框中。,多选项二分法定义变量集,多选项分类法定义变量集,多选项分类法定义变量集,多选项分析,2.

22、Frequencies：对多选变量集进行频数分析。从mult response sets中把待分析的多选项变量集选择到tables for框中； 3.Crosstabs：对多选变量集与其他变量集或与原基本变量进行交叉表分析。,2.Frequencies：对多选变量集进行频数分析,3.Crosstabs：对多选变量集与其他变量集或与原基本变量进行交叉表分析,单击Row(s)框中的“性别(?)”变量，下方Define Ranges变亮,单击Define Ranges按钮出现左侧对话框，用于确定行变量的取值，这里1表示男性，2表示女性。输入完毕，单击Continue按钮，回到下图对话框，可见性别变量

23、变为“性别（1 2）”,单击Multiple Response Crosstabs对话框右下方的Options按钮出现下方对话框，选择列联表的输出内容和计算方法,基本统计分析报表制作,SPSS提供了基本统计分析报表的制作功能，根据报表制作的侧重点不同，可以分为3种： 1.个案简明统计报表（Cases Summary）计算主要变量的分组统计量 2.行形式报表（Report Summaries in Rows）行形式报表以行为对象生成各种统计结果 3.列形式报表（Report Summaries in Columns）列形式报表是以列为对象生成各个列相应的统计信息（各个列的统计方法可以不同）

24、。,1.个案简明统计报表,1.个案简明统计报表,单击“statistics”按钮，选择统计量,单击“Options”按钮，输入表格标题及脚注,2.行形式报表,2.行形式报表,单击Data Columns框中的某一变量，此时下面的Format按钮变亮，单击Format按钮,可输入该列标题,单击Break Columns框中的变量，此时下面的Summary、Options、Format三个按钮变亮,单击Break Columns框下面的Summary按钮，出现下面对话框，用于选择需要输出的统计量（可选择多个统计量）,单击Break Columns框下面的Options按钮出现下面对话框，该对话框用

25、于页面控制,单击Break Columns框下面的Format按钮出现下面对话框,输入分组列标题,Report下面的四个按钮用于设置对全部数据的统计输出结果,单击Report栏中的Summary按钮，出现下面对话框，用于设置对全部数据的统计输出结果,单击Report栏中的Options按钮，用于缺失值和输出页码的设置,单击Report栏中的Layout按钮，用于报告格式的布局设置,单击Report栏中的Title按钮，用于标题和脚注内容的设置,3.列形式报表,在左边的变量列表框中选择变量“基本工资”“奖金”“分红”，使之添加到Data Columns框中，选择“部门”变量使之添加到Break

26、Columns框中。,单击Data Columns框中“奖金”变量，此时下面的Summary按钮变亮，单击Summary按钮，出现下面对话框，用于选择该列变量需要输出的统计量，由于是单选框，因此一列只能选择一种统计量,类似的，分别设置“基本工资”和“分红”两列需要输出的内容。各列输出的统计量可以不同。,单击Data Columns框下面的Insert Total按钮，此时Data Columns框中增加了一个Total变量,下一步，单击Summary按钮,单击Summary按钮，出现下面对话框，将左边变量列表中3个变量移动到右边的Summary Column框中，在下面的Summary function下拉框中可以设置输出这3个列的函数统计量,单击Break Columns框中的“部门”变量，下方的Options和Format按钮变亮，可以进行分组输出格式的设置。,

展开阅读全文