收藏 分享(赏)

医学统计学 定量资料的统计描述.ppt

上传人:hyngb9260 文档编号:7071282 上传时间:2019-05-05 格式:PPT 页数:103 大小:4.32MB
下载 相关 举报
医学统计学 定量资料的统计描述.ppt_第1页
第1页 / 共103页
医学统计学 定量资料的统计描述.ppt_第2页
第2页 / 共103页
医学统计学 定量资料的统计描述.ppt_第3页
第3页 / 共103页
医学统计学 定量资料的统计描述.ppt_第4页
第4页 / 共103页
医学统计学 定量资料的统计描述.ppt_第5页
第5页 / 共103页
点击查看更多>>
资源描述

1、第二章: 定量资料的统计描述,引 子:,统计学,例2-2 抽样调查某地120名1835岁健康男性居民血清铁含量(mol/L),数据如下:,目的:提取该组男性居民血清铁的分布信息。,问题1. 该组男性血清铁是怎样分布的?,问题2. 血清铁主要集中在哪个范围?,问题4. 变异情况?最高?最低?,问题3. 该组男性血清铁的平均水平?,离散趋势,统计描述:,从数据资料中获取信息最基本的方法,把握资料基本的特征为统计分析打下基础,包 括,第一节频率分布表与频率分布图,频数( frequency ):指在一个抽样资料中,某变量值出现的次数。,(一)离散型定量变量的频率分布:,例2-1 1998年某山区96

2、名孕妇产前检查次数资料:,频率分布表(frequency distribution table): 将当变量值的个数较多时,对各变量出现的频率列表即为频率分布表,简称频率表。频率是表示频数出现机率的指标,可用百分数或小数表示,频率的和为100%或1。 .,频数表作用:简化数据,方便阅读;显示数据的分布类型和分布特征。,频率直条图(frequency distribution figure) :根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。,图2-1 某地96名妇女产前检查次数频率分布,例2-2 抽样调查某地120名1835岁健康男性居民血清铁含量(mol/L),数据如下:,步骤

3、:, 求全距(Range,简记R ):是一组资料中最大值(Xmax)与最小值(Xmin)之差,亦称极差。,R = Xmax - Xmin =29.64 7.42 =22.22( mol/L ),2. 定组距:将全距分为若干段,称为组段。每个组段有其上限和下限,上限和下限之差 为组距,用小写i 表示。,原则:(1)“组段”数一般为10个左右,; (2)一般用等距分组; (3) “组距”一般为R/10取整。,本例题: 组距(i)=全距/ 预分组段= 22.22 /10=2.222,3.写组段:即确定各组段的上、下限。,原则:(1)第一组段要包括Xmin,最末组段包括 Xmax ;(2)每组段均用下

4、限值加 “ ”表示,最终组段同时注明上下限。,注:各组段连续但不能重叠,每一组段均为半开半闭区间。0,4. 列表划记:用划记的方法整理原始资料,清点各组段内的数据频数。,表2-2 120名正常成年男子血清铁含量( mol/L )频数,另:用计算各组段的频率、累计频数和累计频率。,频率直方图(frequency distribution figure) :,图2-2 120例健康成年男子血清铁含量(mol/L )的频率分布图,7 9 11 13 15 17 19 21 23 25 27 29,频率密度图 :以变量值为横坐标,以频率与组距的比值为纵坐标作出的直方图。,1. 由于该直方图的纵轴表示在

5、每个组段内单位长度所占有的频率,相当于频率密度,因此将此图称为频率密度图。,面积=频率 由于频率总和为100%或1,故该曲线下横轴面积为100%或1 。 .,(三)频率分布表/图的用途:,1.揭示资料的分布类型,频数 分布,偏峰 分布,正偏,负偏,集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。,对称 分布,集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏峰分布。,集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏峰分布。,2.描述资料的分布特征,离散趋势 (tendency of dispersion),集中趋势与离散趋势结合能全面反映频数的分布特征,集中趋势

6、 (central tendency),7 9 11 13 15 17 19 21 23 25 27 29,4. 样本含量足够大时,以频率作为概率的估计值。,3.便于发现某些特大或特小的可疑值。,5.作为陈述资料的形式。,图3.1 某市101名8岁男童身高(cm)的频数分布,身高(cm),频数,第二节描述集中趋势的统计指标,算术均数 几何均数 中位数,集中趋势:用于描述一组计量资料的集中位置,说明这种变量值大小的平均水平,常用平均数(average)表示。,注意:1.同质的事物或现象才能求平均数,平均数,.应根据资料分布状态选用适当的均数。,(一) 算术平均数(arithmetic mean)

7、, 简称:均数(mean) 使用条件:数据分布比较均匀呈正态分布或近似正态分布。 样本均数用符号:X 表示 总体均数用符号:表示 计算方法有两种:直接法(小样本)和加权法(大样本),举例: 某地10名18岁健康男大学生身高为(cm): 168.7, 178.4, 170.0, 170.4, 172.1, 167.6, 172.4, 170.7, 177.3, 169.7求平均身高?,答:,(1)直接法:,方法:将观察值X1、X2、X3、Xn直接相加,再除以观察值的个数n。,公式:,适用范围:小样本资料,n30,例2-2 抽样调查某地120名1835岁健康男性居民血清铁含量(mol/L),求平均

8、数:,(2)频率表法(加权法):,计算各组段的组中值xi、fxi和fx,答:,(mol/L),频率表法:,方法:计算各组段的组中值 xi、f xi,后除以总频数f。,公式:,适用范围:样本含量较大的数据集。,算术平均数的适用范围:它适用描述一组性质相同的、单峰、且对称分布的(特别是正态分布的),且观察值之间差异不大的定量资料,此时均数最能反映分布的集中趋势,位于分布的中心。,练习:求120例正常人血浆125I-T3树脂摄取比值的均数,答:,(一)编制频数分布表:,全距( R)= Xmax - Xmin =1.24 0.78 =0.46,1.求全距(R):,组距(i)=全距/ 预分组段= 0.4

9、6 /100.05,3.定组段:,3.划表列记:,(二)用加权法计算均值:,均值:,举例:设有5份血清样品,滴度分别为: 1:1, 1:10, 1:100, 1:1000, 1:10000 求其平均滴度。,几何均数,(二) 几何均数(geometric mean, G), 概念:对一组观察值,先进行对数变换,按算术均数计算方法求其对数值的均数,该均数的反对数值即几何均数(G)。 使用条件:用于原始数据分布呈偏态分布,等比资料(倍数变化)或对数正态分布资料的平均数的计算。 表示符号:G 计算方法:直接法和加权法,(1)直接法:,方法:将n个观察值(X1,X2,X3,Xn)直接相乘再开n次方。,公

10、式:,适用范围:小样本资料,用对数形式表示为:,举例:设有5份血清样品,滴度分别为: 1:1, 1:10, 1:100, 1:1000, 1:10000 求其平均滴度。,答:,G,或 Glg-1(lg1+lg10+lg100+lg1000+lg10000)/5)lg-1(0+1+2+3+4)/5) lg-12=100,即:平均滴度为1:100;较好地代表了观察值的平均水平。,(2)频率表法:,公式:,适用范围:大样本含量的分组资料或频数表资料。,Glg-1 (f lgX/f ),答:,即52例慢性肝炎患者的HBsAg滴度的几何均数为1:119.75。,例2-6 52例慢性肝炎患者的HBsAg滴

11、度数据如下表示,试计算滴度的平均数。,计算几何均数(G )注意事项: (1)观察值不能为0; (2)观察值不能同时有正有负; (3)同一组资料求得的几何均数小于算术均数。,练习题:,1.有8份血清的抗体效价分别为: 1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640 求平均抗体效价。,2.有50人的血清抗体效价,分别为: 5人1:10, 9人1:20, 20人1:40, 10人1:80, 6人1:160 求平均抗体效价。,解答:,1.有8份血清的抗体效价分别为: 1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320,

12、1:640 求平均抗体效价。,答:,将各抗体效价的倒数代入公式:,所以血清的抗体平均为1:56.57,解答:,2.有50人的血清抗体效价,分别为: 5人1:10, 9人1:20, 20人1:40, 10人1:80, 6人1:160 求平均抗体效价。,答:,将各抗体效价的倒数代入公式:,所以该50人的血清抗体效价为1:41.70,“中位数”的概念,P50 = M,0 50 100,小,大,P0 P50 P100,中位数,(三)中位数(Median,M), 概念:将原始观察值从小到大排序后,位次居中的那个数叫中位数,用M表示。 使用条件:适用于任何分布的定量资料,特别是偏态分布、末端分布有特大特小

13、值或无法确定、甚至分布不清的资料。 表示符号:M 计算方法:直接法和加权法,(1)直接法:由原始数据计算中位数,举例:有7个人的血压(收缩压mmHg)测定值为: 120,123,125,127,128,130,132求中位数 ?,练习:,1.某病患者9名,发病潜伏期分别为顺序 2、3、3、3、4、5、6、9、16d,求中位数。,2.某病患者8名,发病潜伏期从小到大排分别为 5、6、8、9、11、11、13、16d, 求平均潜伏期。,答案:,(2)用频数表法计算中位数,百分位数(Percentile,Px):一个数值,它将原始观察值分成两部分,理论上有x%的值小于Px,另有1- x%的观察值大于

14、Px,故它是一个位置指标。,P50=M,百分位数(Px )计算公式:,例2-8:50例链球菌咽峡炎患者的潜伏期(小时)如下表示,试计算潜伏期的中位数、P5、P95。,答:,即:该组潜伏期资料的中位数是54.55小时。,3. 同样方法,可求P5、P95 :,练习:求238名正常人发汞值的中位数和百分位数P25、P75,答案:,中位数的特点及应用:,特点:中位数是一位置指标,它对信息资 料的利用率较低,故准确度不算术均数、几何均数。 .,例2-1 1998年某山区96名孕妇产前检查次数资料:,(四)众数(Mode), 概念:总体众数指在总体中出现机会最高的数值。 样本众数指在样本中出现次数最多的数

15、值。,偏峰分布,正态分布,问:算术均数、中位数及众数在以下分布中的 大小关系?,第三节描述离散趋势的统计指标,举 例:,有三组数据,A组:26,28,30,32,34 B组:24,27,30,33,36 C组:26,29,30,31,34,集中,说明集中趋势是数据分布的一个重要特征,但单有集中趋势指标还不能很好地描述数据的分布规律。而且还要看数据的变异程度 。,观察值的离散趋势,离散程度大说明均数代表性差 离散程度小说明均数代表性好,离散趋势:用于描述一组数值变量观察值之间参差不齐的程度,即变异程度。,包括,极差(Range, R) 四分位数间距(Quartile, Q) 方差(Varianc

16、e, ) 标准差(Standard deviation,S2) 变异系数(Coefficient of variation,CV),(一) 极差(Range, 简称R),计算:R=最大值最小值= Xmax - Xmin 意义:反映观察值的全范围。 条件:对各种分布类型资料都适用。 优点:计算简单,方便使用。 缺点:只利用最大值和最小值的信息,不能反 映其它观察值的变异情况。 建议:与其他离散指标共同使用。,2.样本例数越多,抽到极大值和极小值的可能性越大,故样本例数悬殊时不易比较极差。,极差的缺点:,1.R只考虑最大值和最小值之差,不能反映组内其它观察值的变异度。,3.即使样本例数不变,极差的

17、抽样误差亦较大,即不够稳定。,四分位数间距( Quartile range, 用Q表示),小,大,1 25 50 75 100,P1 P25 P50 P75 P100,QL,QU,下四分位数 上四分位数,QU QL= 四分位数间距,(二) 四分位数间距(uartile, 简称),计算:=-=P75-P25 意义:中间一半观察值的极差。 条件:对各种分布类型的资料都适用,但常用于偏峰分布资料。 优点:类似值但比其稳定。 缺点:仍未考虑资料中每个观察值的变异度。 建议:与其他离散指标共同使用。,例2-8:50例链球菌咽峡炎患者的潜伏期(小时)如下表示,试计算潜伏期的四分位数间距。,四分位数间距Q

18、= QU QL =P75-P25,2. 求P25、P75 :,1. 求P25、P75 :,Q =P75 -P25 =73.20-40.91=32.29(小时),(三) 方差( Variance, 简称 ),公式及来源:,极差和四分位间距未考虑全部观察值的变异度,应考虑总体中每个变量值x与总体均数之差;x-称为离均差。,为解决这个问题,给每项离均差平方后再相加,称离均差平方和, 即(x-)2,可表示为SS或Lxx。,但每个变量值与均数相减所得差值有正有负, 有 ,这样就不能反映变异的大小。,甲:26 28 30 32 34,证明:,(x-)2的大小,除与变异度有关外,还与观察值的个数(N)有关。

19、为在N不等时进行比较, (x-)2还要除以N,所得值在就称为方差,又称均方差(mean square deviation), 用Var(X)用2表示:,总体方差:,以样本均数 代表,用样本例数n代表总体例数N,所得方差称样本方差,用S2表示。,(n-1)称为自由度( degree of freedom ),用希腊字母nju:表示,表示随机变量能够自由取值的个数。,方差:分总体方差 ,样本方差S2,计算:意义:克服了值和Q值的不足,考虑了每个变量值的离散情况并消除了的影响。 优点:全面地考虑每个变量值的离散情况 缺点:其单位是原度量单位的平方。,总体方差,样本方差,(四)标准差(Standard

20、 deviation,SD或S),方差的单位是原度量单位的平方,不便使用。,将方差公式展开,并开方,即得到另一个重要的离散趋势的指标,即标准差,简写为S。,公式来源:,总体标准差:,样本标准差:,标准差的计算:,利用(a-b)2展开原理, 直接法: 频数表法:,举例 分别求A、B、C三组数据的标准差:A组:26,28,30,32,34 B组:24,27,30,33,36C组:26,29,30,31,34,(1)直接法:用于小样本资料,(2)频数表法:用于大样本资料或频数表资料,例2-2 求120名1835岁健康男性居民血清铁含量的标准差:,答:,(五 )变异系数:简称CV,概念:是同一组资料的

21、标准差与均数之比,又叫变异度或离散系数。 计算:实际含义:标准差相对于同组均数的百分比。 优点:CV 消除了度量衡单位,用于比较1.单位不同的多组资料的变异度。2.均数相差悬殊的多组资料的变异度。,身高,体重,说明其体重的变异度大于身高的,即身高比体重稳定。,例2-15:某1985年通过十省调查得知,农村刚满周岁的女童体重均数为8.42 kg,标准差为0.98kg;身高的均数为72.4cm,标准差3.0cm;试问其体重、身高的哪个指标更稳定些?,例2:试分析下组资料变异程度的变化趋势,附表 某地不同年龄儿童身高(cm)的变异度,第四节描述分布形态的统计指标,频数 分布,偏峰 分布,正偏,负偏,

22、集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。,对称 分布,集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏峰分布。,集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏峰分布。,(一)偏度系数(coefficient of skewness, SKEW),(二)峰度系数(coefficient of kurtosis, SURT),意义:,小 结,为描述定量变量的分布规律,可将观察值编制频数表,绘制频数分布图,要描述资料的分布特征(集中趋势及离散趋势)和分布类型。,集中趋势描述的主要指标是平均数。,常用平均数及其适用资料,3.描述频数分布离散程度的指标有: 极

23、差与四分位数间距,后者较稳定,但均不能综合反映个观察值的变异程度,适用于各种分布类型的资料,但更常用于描述偏峰分布资料。 方差和标准差最常用,对正态分布尤重要。 变异系数,可用于多组资料间单位不同或均数相差较大时,变异度的比较。,注意: 变异指标的大小这与平均指标值的大小无关。,4. 平均指标和变异指标相结合,能对各种分布的资料作很好的描述。,5. 常用描述资料分布形态的统计指标包括偏度系数与峰度系数。,符号小结,总体均数,样本均数,总体标准差,S,样本标准差,= n-1,自由度,Px,第X位百分位数,M,中位数,f,频数,n,样本含量,R,全距,i,组距,G,几何均数,CV,变异系数,QU

24、-QL,四分位数间距,【学习要求】,了解频数分布表的编制方法及应用。,掌握定量变量资料的集中趋势、 离趋势常用描述指标,及各自的适用范围。,掌握正态分布资料、及偏峰分布资料的分布特征、分布类型的描述方法。,案例讨论,1. 某市1974年测定的238人的发汞值( mol/Kg )检测结果如下表示,试进行统计描述。,2. 为描述其集中和离散趋势,某研究者采用均数标准差,即7.14 3.32 mol/Kg,是否合理?为什么?,案例讨论,连续型定量变量,分布形态,整理频率分布表或分布图,选择描述分布特征的指标,直方图,正偏峰分布,中位数(四分位数间距),考察原始数据,数据变换,对数正态分布,选择题 1

25、用频率计算平均数时,各组的组中值应为 。A. 本组段变量值的平均数;B.本组段变量值的中位数;C. 本组段的上限值; D.(本组段上限值+下限值)/2 2血清学滴度资料最常计算 以表示其平均水平。A. 算术均数; B. 中位数;C. 几何均数; D. 全距。,3. 在正态分布条件下表示变量值变异情况的指标最常用的是 。 A.标准差 B.百分位数 C.变异系数 D.全距 4. 变异系数越大说明 。 A.标准差越大 B 以均数为准变异程度大 C.平均数越小 D 标准差、平均数都大,5. 已知某疾病患者10人的潜伏期(天)分别为:6,13,5,9,12,10,8,11,8,20,其潜伏期的平均水平约

26、为 。A. 9天 B. 9.5天 C. 10天 D. 10.2天 E. 11天 6. 均数和标准差的关系是 。A.均数越大,标准差越小B. 均数越大,标准差越大C. 标准差越大,均数对各变量值的代表性越好D. 标准差越小,均数对各变量值的代表性越好E. 均数和标准差都可以描述资料的离散趋势,简答题1.描述数值变量集中趋势和离散趋势的指标各有哪些?各自的应用是什么?2.测定某地健康妇女255人的两种血象指标结果为:红细胞数(1012/L)的均数为4.178,标准差为0.291;血红蛋白(g/L)的均数为117.6,标准差为10.2。能否说血红蛋白的变异比红细胞数的变异大?应如何比较?,3. 调查某地107名正常人尿铅含量(mg/L) 如下:若描述该资料的集中趋势和离散趋势,宜用何指标?,THANK YOU!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 医学治疗 > 内科学

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报