1、统计描述统计描述中可用的工具 各种初步汇总描述方法 分组汇总,最终汇总成相应的分组频数表,可以反应 出数据的大致趋势 多个百分位数组合起来,也能反应数据的分布特征 对信息的利用仍然比较粗糙 各种统计描述指标 实际上是更复杂的各种描述工具的基础,是针对数据 的某种特征进行精确的数字呈现的一系列指标 对于样本而言,这些统计描述指标也可被称为统计量 均数、标准差、四分位间距,比、率等 2统计描述中可用的工具 统计表 当数据比较复杂,所计算的统计指标较多时,直接观 察所计算出的数值比较麻烦,为此人们又会按照一定 的排列方式将统计指标组织为一张表格,以方便使 用。 统计图 统计表虽然能做到非常精确,但是
2、不够直观,如果希 望结果更为直观一些,则可以按照统计指标的大小将 其绘制为一张图形,这就是所谓的统计图。 3统计描述的模块 SPSS 中所有专业的制表过程都能够完成统计描 述的任务 Reports 菜单项:主要输出文本化报表 Tables 菜单项:输出标准的SPSS 结果表格 Multiple Response 菜单:专门用于多选题数据描述 但Descriptive 菜单项中提供的是最基本的统计描 述过程 4统计描述的模块 Frequencies 过程 计算各种常用的描述指标 特色是产生频数表 对分类资料和定量资料都适用 Descriptive 过程 一般性的统计描述 适用于服从正态分布的定量
3、资料 5统计描述的模块 Explore 过程 用于对数据分布状况不清时的探索性分析 功能极为强大 Crosstabs 过程 完成分类资料和等级资料的统计描述 完成分类资料各种各样“ 常规” 的统计检验 Ratio 过程 用于两个连续变量计算相对比指标,很少用 PP 图和QQ 图 6分类变量的统计描述分类变量的常用描述指标 基本的描述方式 原始数据: 频数列表 百分比 累计频数 累计百分比 集中趋势 众数 8分类变量的常用描述指标 比:任意两个变量之比,这两个变量可以是性 质相同的两个指标,如两个地区相同时期内某 病新发病例数之比;也可以是性质不相同的两 个指标之比 性别比,货物/ 销售人员比
4、构成比:部分占总体的比例,分观察对象为k个 部分(A1 、Ak ),其中某一个部分观察对 象数与观察对象总数之比为构成比 率:某个时期内某个事件发生的频率或强度, 实际上有速度的概念在里面,可以和物理中速 率的定义相对照 9分类变量的联合描述 列联表 常见的是二维,但三维及 更高维列联表的使用原理 是完全相同的 频数 行、列、总百分比 行、列、总合计 10多选题的描述 对多选题进行分析时所遇到的最大困难就是各 选项间存在着关联,将它们单独进行分析并不 恰当。单独分析的结果仅反映选项自身情况, 不能完全代表整个题目的情况 因此在描述时就需要采用基于频次的百分比等 一些特殊指标 11常用分析指标
5、应答人数与应答人次 Case & Response 应答人数百分比(Percent of Cases ) 选择该项的人占总人数的比例 用于反映选项自身被选择的情况 应答次数百分比 Percent of Responses 选择该项的次数占总次数(总反应数)的比例 用于选项间受欢迎程度的比较 12统计描述的SPSS 实现 Frequencies 过程 专门为产生频数表而设计,默认选项即可给出需要的 结果 Crosstabs 过程 生成二、三维交叉表 默认只输出频数,计算百分比需要更改选项 Multiple Response 菜单 专门为多选题数据的描述而设计 输出格式较为简单,但使用方便 Tab
6、les 模块 为制表提供了全面的支持 仍然只涉及数据描述 13连续变量的统计描述频数表 Frequency 是一种非常直观的方法,但比较粗糙,如果希 望进行深入的分析,则必须要使用一些严谨的 统计指标对各方面特征加以描述 操作步骤:确定组数;确定组距;确定各组段 的上下限 各步骤的操作都存在着一些主观性,但因为只是进行 初步的观察,这并无大碍 15观察到的 信息 集中趋势 离散趋势 分布形状(是否对称, 分布曲线的形状) 分布特征(单、双峰, 有无极端值等) 16集中趋势 Central tendency 均数mean 描述一组数据在数量上的平均水平,总体均数和样本 均数用不同符号表示 适用范围:对称分布,特别是正态分布资料 几何均数G 针对正偏态资料集中趋势的描述而提出 适用范围:对数正态分布资料,但往往被进一步扩大 到等比资料 17集中趋势 Central tendency 中位数median 适用范围:万金油 和均数相比较为迟钝,只有样本量较为充足时结果才 稳定下来 众数mode 所有数值中出现次数最多的一个 适用范围:国外 18