收藏 分享(赏)

第二章 定量资料的统计描述.ppt

上传人:Facebook 文档编号:3052531 上传时间:2018-10-02 格式:PPT 页数:58 大小:526.50KB
下载 相关 举报
第二章 定量资料的统计描述.ppt_第1页
第1页 / 共58页
第二章 定量资料的统计描述.ppt_第2页
第2页 / 共58页
第二章 定量资料的统计描述.ppt_第3页
第3页 / 共58页
第二章 定量资料的统计描述.ppt_第4页
第4页 / 共58页
第二章 定量资料的统计描述.ppt_第5页
第5页 / 共58页
点击查看更多>>
资源描述

1、第二章 定量资料的统计描述,频数与频数分布,频数与频数分布 频数:某个测量值的个(例)数。 频数分布表(frequency distribution table):又称频数表。是将原始数据值适当分组后得到各组的频数,如表2-1频数分布表。适用样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。可用手工和计算机软件(如SAS、SPSS等)方便制作频数表。,频数与频数分布,离散型定量变量的频数分布例2-1 1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7等共96个数值,频数与频数分布,表2-1:9

2、6名妇女产前检查次数分布的频数分布表,频数与频数分布,图2-1,频数与频数分布,连续型定量变量的频数分布例2-2 抽样调查某地120名18岁35岁健康男性居民血清铁含量(mol/L),将数据适当分组,计数每组的频数,根据这些数据编制成的频数分布表(表2-2)则能显示出这组数据分布的特点。,频数与频数分布,数据,频数与频数分布,手工编制表2-2步骤。 (1)计算全距(range,R),也称为极差R = 最大值最小值 = 29.64-7.42=22.22(mol/L) (2)确定组段数与组距:组段数一般可在1015之间选择。组距=上限下限=R/(预计的组段数)。本例如果预计取12个组段,则组距长度

3、约为22.22/12=1.85,取整数2。两端的组段应分别包含最小值或最大值; (3)列表 做出如表2-2的表格,将选好的组段顺序地列在 (1)列。按照“下限x上限” 的原则确定每一例数据x应归属的组段。,频数与频数分布,频数分布图:在表2-2的基础上,可以绘制出图2-2,称为直方图(频率直方图)。横轴:血清铁含量纵轴:频率密度,即频率/组距(直条面积等于相应组段的频率)。在组距相等时,直方图中矩形直条的高度与相应组段的频率成正比。,频数与频数分布,频数与频数分布,对称分布:频数最多的组段在中央,图2-2 正偏峰分布:峰向左侧偏移的分布,右侧的组段数多于左侧,为右偏峰分布。图2-3 负偏峰分布

4、:峰向右侧偏移的分布,左侧的组段数多于右侧,称为左偏峰分布。 图2-1,定量变量的特征数,集中趋势统计指标对于连续型定量变量,描述集中趋势常用的统计量为算术均数、几何均数和中位数。 算术均数:适合描述对称分布资料的集中位置(也称为平均水平)。其计算公式为,定量变量的特征数,1)直接计算法:计算公式为式中X1,X2和Xn为所有观察值,n为样本含量,(希腊字母,读作sigma)为求和的符号。,定量变量的特征数,例2-3 测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。 算术均数=(4.20+

5、6.43+2.08+3.45+2.26+4.04+5.42+3.38)/8=3.9075 (U/L),定量变量的特征数,定量变量的特征数,2)加权频数表法:计算公式为加权均数=2228/120=18.57(mol/L) 直接法均数=18.61(mol/L)。,定量变量的特征数,几何均数(geometric mean,G)适用于观察值变化范围跨越多个数量级的资料。其频数图一般呈正偏峰分布。人们常用几何均数描述这类资料的集中位置。 在医学研究中常适用于免疫学的指标。其计算公式为,定量变量的特征数,例2-5 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64, 1:6

6、4,1:128,1:512。试计算其几何均数。,定量变量的特征数,加权法计算几何均数。频数表资料例2-6 52例慢性肝炎患者的HBsAg滴度数据如表2-4。试计算滴度的几何均数。,定量变量的特征数,定量变量的特征数,52例慢性肝炎患者的HBsAg滴度的几何均数为1119.74705。,定量变量的特征数,中位数(median,M)可用于各种分布的定量资料。中位数的原意是指在总体中有一半个体的数值低于这个数,一半个体的数值高于这个数。奇数:偶数:,定量变量的特征数,百分位数法计算中位数:频数表资料 百分位数的计算公式为 式中LX、iX和fX分别为第百分位数所在组段的下限、组距和频数,fL为小于各组

7、段的累计频数, LX为总例数。即为中位数的计算公式,定量变量的特征数,例2-8 试利用表2-2的频数表求例2-2中血清铁含量的中位数。 从表2-2可判断出位于“18-”这个组段。将相应数据代入式(2-8)该组血清铁资料的中位数为18.74(mol/L) 如果按(2-7)式计算,结果为18.99(mol/L)。,定量变量的特征数,众数(mode):原指总体中出现机会最高的数值。样本众数则是在样本中出现次数最多的数值。如 例2-1产前检查次数的众数为4次 调和均数(harmonic mean, H): 先求原始数据倒数的算术均数。该算术均数的倒数便称为原数据的调和均数。,定量变量的特征数,其计算公

8、式为例2-10 接受某种处理的5只小鼠生存时间(分钟)分别为49.1、60.8、63.3、 63.6和63.6,试计算其调和均数。,定量变量的特征数,离散趋势统计指标例2-11 试观察三组数据的离散状况。A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。将三组数据分别点在直线上,如图2-4所示。,定量变量的特征数,1.极差 极差:一组变量值最大值与最小值之差。极差不能反映所有数据的变异大小,且受样本含量的影响较大,N大,极差值相差也大,故其稳定性较差。 例2-11中三组数据的极差A组 R=34-26=8B组 R=36-24=12C组 R

9、=34-26=8,定量变量的特征数,2.四分位数间距四分位数(quartile)是把全部变量值分为四部分的百分位数,即第1四分位数(QL=P25)、第2四分位数(M=P50)、第3四分位数(QU=P75)。四分位数间距(quartile range)是由第3四分位数和第1四分位数相减而得,记为QR。它一般和中位数一起描述偏态分布资料的分布特征。,定量变量的特征数,3.方差 方差(variance)也称均方差(mean square deviation),反映一组数据的平均离散水平。 离均差:每一个变量值与均数的差值, 离均差平方和(sum of squares):离均差平方后相加得到的值 方差

10、:离均差平方和除以得到的值总体方差用 表示,定量变量的特征数,方差计算公式为4、标准差:,定量变量的特征数,例2-14 分别计算例2-11中三组数据的标准差。 按照公式(2-11)与标准差的定义 A组 B组 C组 C组的标准差最小,B组的最大。意味着C组数据的离散趋势最小,B组的最大,定量变量的特征数,5.变异系数变异系数(coefficient of variation)记为,多用于观察指标单位不同时的变异程度的比较。其计算公式为,定量变量的特征数,例2-16 通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm,标准差为3.0cm。试计算

11、周岁女童身高与体重的变异系数。体重的相对变异要大于身高的相对变异,定量变量的特征数,分布形态特征数描述分布形态的统计量:偏度系数与峰度系数。 偏度系数 (coefficient of skewness,SKEW) :理论上总体偏度系数为0时,分布是对称的;取正值时,分布为负偏峰;取负值时分布为正偏峰。 样本偏度系数计算公式:,定量变量的特征数,峰度系数(coefficient of kurtosis,KURT)理论上, 正态分布的总体峰度系数为0;取负值时,其分布较正态分布的峰平阔;取正值时,其分布较正态分布的峰尖峭。 样本峰度系数,常用统计图表,统计表 统计表的结构与种类 简单统计表:只包括

12、一个分组变量,图2-5 组合表:多于一个分组变量,表2-5,常用统计图表,图2-5 统计表的结构,常用统计图表,常用统计图表,列表原则和要求: 列表原则主要为重点突出、简单明了、主谓分明、层次清楚。 表结构: 标题:多数场合标题应包括表的编号。标题位于统计表的最上部。时间、地点 标目 分为纵标目与横标目。纵标目标示相应一列(或数列)的内容;横标目标示相应的行的内容。反映主要研究事物的标目宜安排在表的左则(例如图2-5中的两种药物)。使得从左至右可以形成一句完整的叙述语句。,常用统计图表,表线 不宜太多。不允许使用竖线与斜线。 表值 表中的数字一律使用阿拉伯数字。同列数据应取相同的小数位。表内不

13、应空格。不详的数据可用“”填充。不存在的数据应以“”号标明。零值应用“0”表示。 注释 一律列在表的下方,可用“*”号等符号标示。,常用统计图表,统计图医学文献与报告中常用的统计图主要有直条图、百分条图、圆图、线图、半对数线图、直方图等。使用计算机与相应的软件(如Excel)可以方便地绘制出各种统计图。,常用统计图表,制图的基本要求如下: 选用图形:按照资料的性质与分析目的。 标题:扼要说明统计图内容,位于图的正下方。 图例:图例位于图形与标题之间,对图中的不同事物应通过不同的图案或颜色加以区别。 坐标统计图(如直条图、线图等),横轴的方向应自左至右;纵轴的方向应自下而上。横轴与纵轴均应有标目

14、。表示量的数轴应标注合适的原点、尺度、单位;统计图的轮廓以高:宽=5:7为宜。,常用统计图表,直条图(bar graph): 用等宽直条的长度来表达参与比较的指标的大小,条图的数值轴(常用纵轴)尺度必须从零点起标示单式(图2-6,根据表2-6数据绘制)复式(图2-7,根据表2-7数据绘制),常用统计图表,常用统计图表,常用统计图表,百分条图(percent bar graph): 用于表达各组成部分在全体中的比重。例如,根据表2-8 的数据可绘制图2-9。图中两个长条均表示100%。以脱落牙为例,整个长条分为四个部分,它们的长度分别对应于四种再植效果在全部再植牙中所占的比重。各部分的排列视需要

15、确定。百分条图可以将多组数据排列在一起便于比较,常用统计图表,常用统计图表,圆图(circle graph): 用同一圆形中的扇形的弧度表示全体中各部分所占的比重。所以其用途与百分条图相同。图2-10是根据表2-8中部分数据绘制的圆图。多组数据作对比,圆图的效果不如百分条图。,常用统计图表,图2-10 脱落牙再植效果,常用统计图表,线图(line graph) :在直角坐标系中用线段的升降表达一事物的量随另一事物的量变化的趋势,或某事物的量随时间变化的过程。普通线图的纵、横坐标均为算术尺度。图2-11是根据表2-9的数据绘制的线图。,常用统计图表,常用统计图表,半对数线图(semi-logar

16、ithmic line graph): 其纵轴取对数尺度,横轴取算术尺度。适用于表达事物之间相对变化速度的比较。图2-12是根据表2-9的数据绘制的半对数线图。前面的图2-11给出的印象是从1975年到1990年痢疾的死亡率下降得较快。图2-12则显示出百日咳死亡率下降的相对速度比痢疾要快一些。在指标间数量级相差较大时这种情况需要注意。,常用统计图表,常用统计图表,直方图(histogram):用于表示连续性定量变量的频数分布或频率分布。通常用横轴表示变量,用纵轴表示频数与组距的比例。在取相等组距的时候,各组段上的矩形的高与该组段的频数成正比。 图2-2与图2-3都是直方图的例子。绘制直方图也

17、应注意纵轴要从零点起标示。横轴一般以取相等组距为宜。,常用统计图表,箱式图(box plot): 用于多组数据的直观比较分析。一般选用五个描述统计量(最小值、P25、中位数、P75、最大值)来绘制。图2-13显示两组试验动物每日进食量的比较。,常用统计图表,小结,1. 为了解定量变量的分布规律,可编制频数表并绘制频数分布(或频率分布)图,用于描述资料的分布特征(集中趋势与离散趋势),以及分布类型(对称或偏峰) 2. 描述性统计量可以用来定量地刻画统计分布的特征。常用的描述性统计量有三类:描述集中趋势的算术均数、几何均数、中位数;描述离散趋势的极差、四分位数间距、方差、标准差和变异系数;描述分布类型的偏度系数与峰度系数。 3. 百分位数是一种位置参数,既可用来描述集中趋势(P50),又可用来描述离散趋势(P75-P25)。可用于各种连续型分布。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 中等教育 > 小学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报