1、第四章 定量资料的统计描述,流行病与卫生统计学教研室 胡利人 ,【例4-1】2006年某市120名10岁男孩的身高(cm)资料如下 135.4 139.8 144.0 147.3 146.3 142.5 138.1 143.6 141.6 152.6 132.1 144.7 143.6 146.8 144.2 141.3 137.5 142.8 140.6 150.4 145.9 140.2 144.5 148.2 146.4 142.4 138.5 148.9 146.2 155.4 134.2 139.2 143.5 141.6 143.5 142.3 148.9 143.6 141.5
2、151.1 132.5 138.7 149.6 146.9 148.7 141.5 137.8 142.7 144.6 151.8 136.4 140.0 144.3 147.5 145.6 142.5 138.5 143.7 149.5 153.6 130.2 138.9 143.7 146.5 138.8 141.7 136.9 142.0 140.5 150.3 135.7 145.7 144.2 147.8 145.8 142.6 138.6 143.8 141.3 153.9 133.4 139.6 143.7 147.5 144.8 148.0 137.4 142.1 140.8
3、141.8 134.5 139.4 142.9 147.5 144.7 141.8 136.9 143.5 140.7 151.4 145.6 147.3 143.9 141.9 151.6 145.6 148.9 144.3 139.1 145.8 145.6 145.3 147.6 148.6 145.5 137.3 146.5 140.3 148.4 136.5,【问题4-1】 该资料为何种类型资料? 如何对该资料进行描述?,第一节 频数表和频数图,第二节 集中趋势的描述,第三节 离散趋势的描述,第四节 正态分布及其应用,由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不
4、变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution) 将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;也可再将频数表绘制成频数分布图,频数(frequency):一组资料中各观察值或不同组段内观察值出现的频繁程度(次数) 频数分布表(frequency table):由变量值及其频数编制而成的表,一、频数分布表,(一)频数表的编制,1. 求极差(range): 极差又称全距,是指全部观察值中最大值与最小值之差,用符号R表示R=xmax-xmin,2. 确定组数和组距 (1) 根据研究目的和分析要求灵活确定组数: 若为计算用,组数可适当增多
5、,以减少计算误差;若为显示分布特征,则组数不宜太多或太少, 一般n50,915,(2)确定组距(class interval):相邻两个组段下限之差为组距,一般采用等距分组。 i=R/组数,为了方便资料整理汇总,组距一般取整数,3. 确定组段 组段起点称为下限(lower limit) 组段终点称为上限(upper limit) 注意:第一组段必须包含最小值,最后一个组段必须包括最大值,各组段不能重叠。除最末一个组段需同时写出上下限外,其余组段只写出其下限,4. 归组计数,整理成表 用计算机或手工划记法汇总,得到各组段观察单位个数,绘制成频数分布表,表4-1 2006年某市120名10岁男孩身
6、高(cm)的频数表,(二)频数分布表的用途,1. 揭示频数分布特征 2. 揭示频数分布类型 3. 便于发现特大或特小的可疑值 4. 便于进一步计算统计指标和进行统计分析,频数分布的两个特征 集中趋势(central tendency):指一组数据向某个位置聚集或集中的倾向 离散趋势(dispersion):指一组数据的分散性或变异度,频数分布的类型 对称分布(symmetric distribution) :集中位置在中间,左右两侧频数基本对称,偏态分布(skewed distribution):集中位置偏向一侧,两侧频数分布不对称 正偏态(positive skew)平均数大于众数(右偏)
7、负偏态(negative skew)平均数小于众数 (左偏),二、频数分布图,频数分布图(graph of frequency)是以变量值为横坐标、频数(或频率)为纵坐标(不等距分组时以频率/组距=频率密度为纵坐标),以每个等宽的距形面积表示每组的频数(或频率),连续型定量资料:频数图中各距形是相连的,又称直方图(histogram) 离散型定量资料:频数图中各距形是间隔的,又称直条图(bar graph),图4-1 2006年某市120名10岁男孩身高的频数图,频 数,频 数,频 数,血清肌红蛋白(g/ml),负(左)偏态,对称分布,正(右)偏态,434名少数民族已婚妇女现有子女数频数分布图
8、,集中趋势的描述,平均数(average)是一类描述计量资料集中位置或平均水平的统计指标,在医学领域中常用的平均数有算术均数、几何均数、中位数、众数、调和均数,一、算术均数(arithmetic mean),简称均数(mean),总体均数用希腊字母 (miu)表示,样本均数用 (x bar)表示。均数描述一组数据在数量上的平均水平,直接法 将所有数据直接相加,再除以总例数 :是希腊字母,读作sigma,为求和符号,1. 计算方法,【例4-2】某医生测量了10名脑出血患者的血尿素氮(mmol/L)分别是:7.4、6.7、6.9、7.3、7.6、6.5、 7.8、8.2、8.0、6.6,试计算该组
9、数据的均数,加权法用于频数表资料或样本中相同观察值较多时,将相同观察值的个数(频数 f )乘以该观察值 x,以代替相同观察值逐个相加,【例4-3】根据表4-1资料,用加权法求120名10岁男孩身高的均数,f 起了“权数”的作用,权衡了各组中值由于频数不同对均数的影响。加权法计算的均数是近似的,均数两个重要的性质,适用于描述单峰对称分布,特别是正态分布或近似正态分布资料的集中趋势 均数在描述正态分布特征方面有重要意义,均数的应用,我也知道了!,例 现有5人,其血清抗体效价分别为1:10、 1:100、 1:1000、 1:10000和 1:100000,求其效价倒数的平均水平 若计算效价倒数的算
10、术均数 用算术均数反映这类资料的平均水平是不合适的,先求效价倒数对数值的均数,然后求反对数1000位于10、100、1000、10000、100000的中间位置,具有很好的表性,这种平均数就称为几何均数,直接法:当 n 较小时,直接将 n 个观察值的乘积开n 次方,1. 计算方法,二、几何均数(Geometric mean,G),【例4-4】 某实验室测得7人血清中某种抗体的滴度分别为1/4,1/8,1/16,1/32,1/64,1/128,1/256,试求平均滴度,加权法:当资料中出现相同观察值时,也可用加权法计算几何均数,【例4-6】50名麻疹易感儿接种麻疹疫苗后,测得血凝 抑制抗体滴度资
11、料见表4-3,求抗体的平均滴度。,表4-3 50名麻疹易感儿血凝抑制抗体滴度,即50名麻疹易感儿接种麻疹疫苗后血凝抑制抗体的平均滴度为1/54,2. 应用及注意事项,几何均数应用于: 等比资料,如抗体平均滴度 对数正态分布资料,Remember!,使用几何均数时应注意: 观察值不能有0 观察值不能同时有正值和负值。若全为负值,在计算时先把负号去掉,得出结果再加上负号,Be careful!,【例4-7】200名食物中毒患者潜伏期资料如表4-4,研究人员据此采用加权法计算均数得平均潜伏期为27小时。 (1)该组数据在分布上有何特点? (2)用均数描述该资料的平均水平是否合适?,三、中位数与百分位
12、数,表4-4 200名食物中毒患者的潜伏期,中位数(median):一组观察值从小到大排列,位次居中的观察值即中位数,是一个位置指标,直接法n为奇数,n为偶数,,【例4-8】某实验师对10只小白鼠染毒后观察各小鼠的生存时间(分钟),得数据为:35,60,62,63,63,65,66,68,69,69,试计算小白鼠的平均生存时间 将10个观察值由小到大排列:35,60,62,63,63,65,66,68,69,69,频数表法,LM 中位数所在组段下限,组距,中位数所在组段的频数,中位数所在组段前一组的累计频数,【例4-9】根据例4-7的资料计算中位数,表4-4 200名食物中毒患者的潜伏期,百分
13、位数(percentile):是指将一组观察值由小到大排序后,将其平均分成100等份,对应于每一分割位置上的数值就称为一个百分位数,用 表示,x% Px (100-x)%50%分位数就是中位数 25%,75%分位数称四分位数(quartile),式中:,第x百分位数所在组段下限 组距 第x百分位数所在组段的频数 第x百分位数所在组段前一组的累计频数,频数表法,【例4-10】根据表4-4,计算P25、P75,适用条件: 偏态分布资料 分布类型不明确的资料 “开口资料”(即一端或两端无确切数值的资料),Understand?,三组躯体功能维度得分,离散趋势的描述,描述离散趋势的常用指标,极差(ra
14、nge) 四分位数间距(interquartile range) 方差(variance)和标准差(standard deviation) 变异系数(coefficient of variation),1. 极差/全距(range),全部观察值中最大值与最小值之差,用符号R表示, 即 常用于描述单峰对称分布小样本资料的变异程度,或用于初步了解资料的变异程度,极差描述离散趋势的局限 只考虑最大值与最小值之差异,不能反映组内其它观察值的变异程度 样本含量越大,极差可能越大,样本含量相差悬殊时不宜用极差作比较,四分位数 : P25,P50,P75三个点将全部观察值等分为四部分,处于分位点上的数值就是
15、四分位数 下四分位数即第25百分位数,用QL表示上四分位数即第75百分位数,用QU表示,2. 四分位数间距,四分位数间距(interquartile range)即上、下四分位数之差200名食物中毒患者的潜伏期资料,P25=15.4, P75=36,四分位数间距常用于描述偏态分布及分布的一端或两端无确切数值资料的离散程度 四分位数间距较全距稳定,但仍不能全面概括所有观察值的变异情况,3. 方差(variance)和标准差(SD),式中 n 1 称为自由度(Degree of freedom),允许自由取值的变量值个数,用符号 (niu)表示,方差的度量单位是原度量单位的平方 方差开方后即与原数
16、据的度量单位相同,这就是标准差(standard deviation),标准差应用公式直接法 加权法,【例4-13】某医生测量了10名脑出血患者的血尿素氮(mmol/L)分别是:7.4、6.7、6.9、7.3、7.6、6.5、7.8、8.2、8.0、6.6,试计算该组数据的标准差,【例4-14】根据表4-1资料,计算120名10岁男孩身高的标准差,描述对称分布,特别是正态分布或近似正态分布资料的变异程度,【例4-15】某医院预防保健科,对一组5岁男孩进行体检,测量身高、体重等指标。得身高均数与标准差为115.8cm和4.5cm,体重均数与标准差为20.2kg和0.56kg,由此认为身高的变异程
17、度比体重大。上述结论是否正确?,4. 变异系数(coefficient of variation),【例4-16】某实验室分别测量了10只小白鼠和10只家兔的体重,得小白鼠体重的均数与标准差分别为22g和3g,家兔体重的均数与标准差分别为1500g和100g。经比较得出结论,因家兔体重的标准差大于小白鼠体重的标准差,所以家兔体重的变异程度比小白鼠体重的变异程度大。,变异系数(coefficient of variation, CV):是一组观察值的标准差与其均数的比值用途: 比较度量衡单位不同的资料的变异度 比较均数相差悬殊的资料的变异度,描述频数分布特征的指标总结,描述数值变量资料分布特征的
18、内容: 分布范围 集中趋势 离散趋势 是否对称,正态分布及其应用,图4-2 频数分布逐渐接近正态分布示意图,1. 正态分布的概念及特征,正态分布(Normal distribution),也称高斯分布(Gaussian distribution),是一种非常重要的连续型随机变量的概率分布,是自然界中最常见的一种分布,概率密度函数(PDF)和累积分布函数(CDF),正态分布图示,x,0,.1,.2,.3,.4,f(x),方差相等、均数不等的正态分布图示,均数相等、方差不等的正态分布图示,1,正态曲线下的面积规律,-,+,15.87%,15.87%,68.27%,-1.96,+1.96,2.5%,
19、2.5%,95%,-2.58,+2.58,0.5%,0.5%,99%,正态分布的特征 概率密度函数曲线在均数处最高 以均数为中心左右对称,且逐渐减少 正态分布有两个参数,即 和 曲线下的面积分布有一定规律,正态分布的判断方法 利用频数分布表或频数分布图 根据专业知识判断 正态分布的经验判断 若 ,可认为资料呈偏态分布 若 , 则有理由怀疑资料呈偏态分布 正态性检验(P108),2. 标准正态分布,标准正态分布与标准化变换,标准正态分布曲线下面积(z),z 0.00 0.02 0.04 0.06 0.08 -3.0 0.0013 0.0013 0.0012 0.0011 0.0010 -2.5
20、0.0062 0.0059 0.0055 0.0052 0.0049 -2.0 0.0228 0.0217 0.0207 0.0197 0.0188 -1.9 0.0287 0.0274 0.0262 0.0250 0.0239 -1.6 0.0548 0.0526 0.0505 0.0485 0.0465 -1.0 0.1587 0.1539 0.1492 0.1446 0.1401 -0.5 0.3085 0.3015 0.2946 0.2877 0.28100 0.5000 0.4920 0.4840 0.4761 0.4681,0,z,【例4-18】 已知某地2003年18岁男大学生身
21、高的均数 cm,标准差 cm,且18岁男大学生的身高服从正态分布。问该地18岁男大学生中身高在166.8 cm及其以下者占多大的比例?,查附表3:表的左侧找-1.9,表的上方找0.06,相交处为0.025,3. 正态分布的应用,估计频率分布【例4-19】某地2003年抽样调查了100名18岁男大学生身高,算得均数为172.70cm,标准差为4.01cm。该地18岁男大学生中身高在162.35cm183.05cm范围内者所占的比例是多少?,查附表3得:,制定医学参考值范围 医学参考值范围也称正常值范围 绝大多数正常人某观察指标的波动范围。绝大多数:90%、95%、99%等,最常用的是95% 正常
22、人:不是指完全健康的人,而是指排除了影响研究指标的疾病和有关因素的同质人群 用于判断正常与异常,确定参考值范围的原则 以同质的正常人为研究对象 控制测量误差 判断是否分组(性别、年龄组) 决定取单侧还是双侧 选定合适的百分界限 根据资料分布类型选择适当方法制定参考值,根据医学专业知识确定!单侧:下限: 肺活量、IQ 上限: 转氨酶、尿铅、发汞 双侧:白细胞计数、血清总胆固醇,过低异常-单侧下限 过高异常-单侧上限 过低、过高均异常-双侧,正常人,病人,假阳性率,假阴性率,正常人与病人的数据分布重叠示意图(单侧),【例4-20】利用例4-19资料估计该地18岁男大学生身高的95参考值范围。,164.84180.56cm,【例4-21】测得某地200名正常人尿汞值,求该地正常人尿汞值的95%参考值范围。,表4-7 某地200名正常人尿汞值,百分位数法 单侧上界,质量控制,UCL (上控制限) UWL(上警戒限)CL (中心线)LWL(下警戒限) LCL (下控制限),样本编号、取样时间,质量控制图(quality control chart),1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 取样时间,正态分布是许多统计方法的理论基础 后面章节将要讲到的t检验、F检验及相关回归分析等多种统计方法均要求分析的指标服从正态分布或近似正态分布,