1、第三章 单变量统计描述分析,第一节、统计表与统计图 第二节、集中趋势测量法 第三节、离散趋势测量法 第四节、偏态及峰度,第一节 统计表与统计图,什么是分布?用统计表和统计图来表示分布。P21,变量取值要注意的问题:1、取值要穷尽。 2、取值要互斥。P22什么是变量? 变量就是随时可以变化的量;变量意味着可以取不同的值。 变量对应的是常量; 具体到调查中,可以把变量理解为问卷中的一道题目所获得的数据,如果是常量的话,我们有没有必要去调查呢?,统计表 (频数分布表、百分比分布表),制作统计表的要求? 1、要有表号、表头、标识行、主体行、表尾 2、表的两端不封口 3、简单明了,中间不画线 4、百分比
2、分布表要有样本总数一般用得比较多的是百分比分布表,因为百分比分布表可以还原成频数分布表P25,统计表 (频数分布表、百分比分布表),怎么样制作统计表? 定类变量 定序变量 定距变量P24-29,统计图,怎么样制作统计图?用EXCEL 定类变量:饼图(圆瓣图),条形图 定序变量:条形图 定距变量:直方图、折线图P30-33,分布图的分析,对一个分布图,我们应该关注哪些呢? 峰点 对称性:是否是正态分布 U形曲线和J形曲线P37-39,第二节 集中趋势测量法,集中趋势,一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据一般水平的代表值或中心值 不同类型的变量用不同的集中趋势测度值 低层次
3、数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据 选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定,集中趋势测量法,一般情况下: 定类变量:众数Mo 定序变量:中位值Md 定距变量:平均值,众数,众数(概念要点),集中趋势的测度值之一 出现次数最多的变量值 不受极端值的影响 可能没有众数或有几个众数 主要用于定类变量,也可用于定序变量和定距变量,众数(计算方法),P40,众数 (众数的不唯一性),无众数 原始数据: 10 5 9 12 6 8,一个众数 原始数据: 6 5 9 8 5 5,多于一个众数 原始数据: 25
4、 28 28 36 42 42,中位值,中位值(概念要点),集中趋势的测度值之一 排序后处于中间位置上的值,不受极端值的影响 主要用于定序变量,也可用定距变量,但不能用于定类变量,中位值(位置的确定),未分组数据:,组距分组数据:,中位值的计算公式(计算公式),未分组数据的计算公式,分组数据的计算公式 P44,均值,均值(概念要点),1. 集中趋势的测度值之一 2. 最常用的测度值 3. 一组数据的均衡点所在 4. 易受极端值的影响 5. 用于定距变量,不能用于定类变量和定序变量,均值(计算公式),设一组数据为:X1 ,X2 , ,XN 简单均值的计算公式为,设分组后的数据为:X1 ,X2 ,
5、 ,XK (组中值) 相应的频数为: n1 , n2, ,ni 分组均值的计算公式为,均值(数学性质),1. 各变量值与均值的离差之和等于零,2. 各变量值与均值的离差平方和最小,众数、中位数和均值的比较,变量类型与集中趋势测度值,分布的形状与 众数、中位数和均值的关系,高层次变量可以用低层次变量的测量方法 但统计分析中,更多的是用均值。 对于偏态的分布,应使用中位值作为集中趋势。 只有单峰和基本对称的图形,用均值作为集中趋势才是合理的。P47,第三节 离散趋势测量法,离散趋势,数据分布的另一个重要特征 离散趋势的各测度值是对数据离散程度所作的描述 反映各变量值远离其中心值的程度,因此也称为离
6、中趋势 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值,离散趋势测量法,一般情况下: 1. 定类变量:异众比率 2. 定序变量:四分位差 3. 定距变量:方差及标准差(重点是未分组数据的求法),异众比率,异众比率,1. 离散程度的测度值之一 2. 非众数组的频数占总频数的比率 3. 计算公式为 P49,4. 用于衡量众数的代表性,四分位差,四分位差,四分位差 1. 上四分位数与下四分位数之差Q = Q75 Q25 2. 离散程度的测度值之一 3. 反映了中间50%数据的离散程度 4.不受极端值的影响 5.用于衡量中位数的代表性,四分位值:排序后处于25%和75
7、%位置上的值,方差和标准差,方差和标准差(概念要点),1. 离散程度的测度值之一 2. 最常用的测度值 3. 反映了数据的分布 4. 反映了各变量值与均值的平均差异 5. 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差.,总体方差和标准差(计算公式),组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,方差是观察值与其均值之差的平方和除以全部观察总数N。,未分组数据:,异众比率、四分位差和方差/标准差的比较,变量类型与离散趋势测度值,高层次变量可以用低层次变量的测量方法,第四节 偏态 和 分布,偏态与峰度的测度,偏态,峰度,P103、104,变量的测度,变量的测度,分布的形状,集中趋势,离散程度,众 数,中位数,均 值,方差和标准差,峰 度,四分位差,异众比率,偏 态,为了简化资料,用众值、中位值、均值来代表变量分布的集中趋势; 但为了说明它们的所能代表集中趋势的可靠程度,还需用变量的离散程度加以补充。,变量分布的特征,集中趋势 (集中程度),