收藏 分享(赏)

卫生统计学第7版-方积乾主编-课件第二章-定量资料的统计描述.ppt

上传人:weiwoduzun 文档编号:3756418 上传时间:2018-11-18 格式:PPT 页数:69 大小:923.52KB
下载 相关 举报
卫生统计学第7版-方积乾主编-课件第二章-定量资料的统计描述.ppt_第1页
第1页 / 共69页
卫生统计学第7版-方积乾主编-课件第二章-定量资料的统计描述.ppt_第2页
第2页 / 共69页
卫生统计学第7版-方积乾主编-课件第二章-定量资料的统计描述.ppt_第3页
第3页 / 共69页
卫生统计学第7版-方积乾主编-课件第二章-定量资料的统计描述.ppt_第4页
第4页 / 共69页
卫生统计学第7版-方积乾主编-课件第二章-定量资料的统计描述.ppt_第5页
第5页 / 共69页
点击查看更多>>
资源描述

1、第二章 定量资料的统计描述,2018/11/18,1,学习要求了解:应用SAS程序编制频率表的方法和means、univariate过程对定量资料的描述。熟悉:定量资料频率表的编制方法和用途。掌握:算术均数、几何均数、中位数的计算方法和使用条件;四分位间距、方差、标准差、变异系数的计算方法和使用条件。,2018/11/18,2,统计描述是用统计图表、统计指标来描述资料的分布规律及其数量特征的。第一节 频率分布表与频率分布图医学研究资料变量值的个数较多时,对个变量值出现的频数或频率列表即为频数分布表或频率分布表(frequency distribution table),简称频数表或频率表。,2

2、018/11/18,3,一、离散型定量变量的频率分布例2-1 1998年某山区96名孕妇产前检查次数资料,编制频率表。表2-1 1998年某地96名孕妇产前检查次数频率分布,2018/11/18,4,图2-1 1998年某地96名孕妇产前检查次数频率分布,离散型定量变量的频率分布图可用直条图表达,以等宽直条的高度表示各组频率的多少,2018/11/18,5,二、连续型定量变量的频率分布,例2-2 抽样调查某地120名1835岁健康男性居民血清铁含量(mmo/L),数据如下。试编制血清铁含量的频率分布表。,2018/11/18,6,频率表的编制步骤如下:1. 计算极差 (range, R),亦称

3、全距,即最大值与最小值之差。本例最大值为29.64,最小值为7.42,故R=29.64-7.42=22.22 (mmo/L)。2. 确定组段数与组距(class interval) 组段数一般取10组左右。组距用i表示,组距=极差/组段数,本例拟分10组,i=22.22/10=2.22,一般取靠近的整数作为组距,本例取i2。3. 确定各组段的上、下限 每个组段的起点称为组段的下限,终点称为组段的上限。第一组段要包括最小值,其下限取小于或等于最小值的整数,本例取6最为第一组段的下限(也可取7),最后一个组段要包括最大值。注意各组段不能重合,每组段只写出下限,如6,8,最后一个组段可包括其上限值,

4、如本例2830。4. 列表 清点各组的频数,计算频率、累积频率数和累计频率。,2018/11/18,7,表2-2 120名正常成年男子血清铁含量(mmo/L)频率分布,2018/11/18,8,图2-2 120名健康成年男子血清铁含量(mol/L)分布,2018/11/18,9,2-2 120名健康成年男子血清铁含量(mmo/L)分布,2018/11/18,10,三、频率分布表(图)的用途1.揭示资料的分布类型,2018/11/18,11,正偏态(右偏态),负偏态(左偏态),2.观察资料的集中趋势和离散趋势 3.便于发现某些特大或特小的可疑值 4.便于进一步计算统计指标和作统计处理,2018/

5、11/18,12,第二节 描述集中趋势的统计指标,医学定量资料中,描述集中趋势的统计指标主要有算术均数、几何均数和中位数。 一、算术均数(arithmetic mean)简称均数。均数适用于对称分布或近似对称分布的资料。习惯上以希腊字母 表示总体均数(population mean),以表示样本均数 (sample mean)。常用计算方法有直接法和频率表法(亦称加权法)。,2018/11/18,13,1.直接法,例2-3 测得8至正常大白鼠血清总酸性磷酸酶(TACP)含量 (U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。本例,(U/

6、L),2018/11/18,14,2.频率表法 当变量值的个数较多时,在编制频率表的基础上,应用加权法计算均数的近似值。,公式中,f 为各组段的频数,X0为各组段的组中值, X0=(组段上限+组段下限)/2。例2-4,(mmo/L),如用直接法计算, =18.61(mmo/L),2018/11/18,15,表2-3 频数表法计算均数,2018/11/18,16,二、几何均数(geometric mean,)几何均数使用于原始变量不呈对称分布,但对变量经对数转换后呈对称分布的资料,又称对数正态分布资料。常见于正偏态分布资料,如抗体滴度,某些传染病的潜伏期,细菌计数等。计算公式亦可用直接法和频数表

7、法。,1.直接法 对数的形式为,2018/11/18,17,例2-5 7名慢性迁延型肝炎患者的HBsAg滴度资料为: 1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。本例先求平均滴度的倒数,7名慢性迁延型肝炎患者的HBsAg滴度几何均数为1:64。,2018/11/18,18,2.频率表法:当资料中相同变量值的个数f(即频数)较多时,可通过频率表法计算几何均数,公式为,表2-4 52例慢性肝炎患者的 HBsAg滴度资料,2018/11/18,19,本例f lgX= 108.06977 , f=52,代入公式得,52例慢性肝炎患者的 HBsAg滴度的几

8、何均数为1:119.75计算几何均数应注意:变量值中不能有0;不能同时有正值和负值;若全是负值,计算时可先把负号去掉,得出结果后再加上负号。,2018/11/18,20,2018/11/18,21,2018/11/18,22,2018/11/18,23,三、中位数及百分位数1.中位数(median , M)将一组变量值从小到大按顺序排列,位次居中的变量值称为中位数。在全部变量值中,大于和小于中位数的变量值的个数相等。用中位数表示平均水平主要适用于:变量值中出现个别特小或特大的数值;资料的分布呈明显偏态,即大部分的变量值偏向一侧;变量值分布一端或两端无确定数值,只有小于或大于某个数值;资料的分布

9、不清。,2018/11/18,24,(1)直接法 当例数较少时,先将变量值由小到大顺序排列,再按以下公式计算。,n为奇数时,n为偶数时,式中X的下标为变量值的位置。,2018/11/18,25,例2-7 某药厂观察9只小鼠口服高山红景天醇提物后在乏氧条件下的生存时间(min)如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.9,69.0。试求其中位数。本例n=9,为奇数,如果n=10例,生存时间为69.6,则中位数为,2018/11/18,26,(2)频率表法 当例数较多时,先将变量值从小到大编制频率表,并分别计算累计频数和累计频率(见表2-5)。先从累计频率找

10、出M所在的组段,然后按下式计算。,式中L为中位数所在组段的下限,i为该组段的组距,fm为该组段的频数,fL为小于L的各组段累计频数。例2-8 50例链球菌咽颊炎患者的潜伏期(小时)如表2-5,试计算潜伏期的中位数。,2018/11/18,27,表2-5 50例链球菌咽颊炎患者的潜伏期(小时)的频率分布表,本例从累计频率看,M位于48组段,即L=48,i=12,fm=11, fL=19,(小时),2018/11/18,28,fL,M,fm,2018/11/18,29,1.百分位数百分位数(percentile,P)是一种位置指标,以Px表示。百分位数是将频数等分为一百的分位数。一组观察值从小到大

11、按顺序排列,理论上有x%的变量值比Px小,有(100x)%的变量值比Px大。故P50分位数也就是中位数,即P50=M 。百分位数的计算公式为,式中L为Px所在组段的下限,i为该组段的组距,fx为该组段的频数,fL为小于L的各组段累计频数。,2018/11/18,30,如 试求表2-5资料中百分位数P25、P75 。由表2-5累计频数栏可见P25在“36”组段,L=36,i=12, fx=11, fL=8,代入公式得,(小时),同理可知 P75在“72”组段,L=72,i=12, fx=5, fL=74,代入公式得,(小时),百分位数的使用条件同中位数一样。主要用途为:描述一组资料在某百分位置上

12、的水平;用于确定正常值范围;计算四分位数间距。,2018/11/18,31,四、众数( mode)一组数据中出现次数最多的数值,叫众数。众数在频率分布表中是频数最多的那一组的组中值,有时众数在一组数中有好几个或者没有众数。 例如:1,2,3,3,4的众数是3 ;1,2,2,3,3,4的众数是2和3;1,2,3,4,5没有众数;表2-5众数为42和54。,2018/11/18,32,第三节 描述离散趋势的统计指标例2-10 是观察三组数据的离散状况。A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。三组均数都是30。A组 . . . .

13、.B组 . . . . .C组 . . . . .常用的离散指标有:极差、四分位数间距、方差、标准差和变异系数,最常用的指标为标准差。,2018/11/18,33,一、极差和四分位数间距1.极差极差(range,R)亦称全距,即一组变量值中最大值与最小值之差。R值大,离散度就大;R值小,离散度就小。 A组: R=34-26=8B组:R=36-24=12C组:R=34-26=8 极差的特点是计算简单,但只考虑最大值和最小值,容易受个别极端值的影响,且不能反映组内其他变量值的离散情况。另外,当调查例数增多时,遇到较大或较小变量值的机会就大,极差就可能增大。,2018/11/18,34,2.四分位数

14、间距(quartile interval,Q)极差的不稳定主要受两端值的影响,如将两端数据各去掉一部分,这样所得的数据就比较稳定了。例如两端各去掉25,取中间50的数据的极差,这样可先计算P25和P75,求出P75与P25之差,即为四分位数间距。Q= P75P25P75又称为上四分位数(upper quartile ); P25又称为下四分位数(lower quartile )。,2018/11/18,35,例2-12 试计算表2-5中 50例链球菌咽颊炎患者的潜伏期(小时)的四分位间距。已知P75=73.20小时,P25=40.91小时,代入公式得Q=73.2040.91=32.29(小时)

15、由以上的结果可以看出:链球菌咽颊炎患者的潜伏期在40.9173.20小时之间,其四分位数间距为32.29小时。四分位数间距可用于各种分布资料,特别是偏态分布资料,经常把中位数和四分位间结合起来描述资料的集中趋势和离散趋势。,2018/11/18,36,二、方差和标准差方差(variance)和标准差(standard deviation)是描述对称分布,特别是正态分布或近似正态分布资料离散趋势(变异程度)的常用指标。1.方差总体方差用 表示,样本方差用S2表示。,2018/11/18,37,式中: n-1是自由度(degree of freedom),用希腊小写字母表示。它描述了当 不变的情况

16、下,n个变量值(X)中能自由变动的变量值的个数。用n-1作分母,S2可作为 的无偏估计。对于频率表资料,如例2-10三组数据其方差为,2018/11/18,38,2.标准差标准差为方差的开方根,它与原始变量值单位相同。总体标准差用 表示 ,样本标准差用S表示。总体标准差计算公式为,样本标准差计算公式为,2018/11/18,39,对于频率表资料,例 2-14 计算例2-2数据的标准差。已算得fX0=2228, n=f=120, =43640,(mol/L),对于正态分布资料,研究报告中经常用 的形式来描述资料的集中趋势和离散趋势。,2018/11/18,40,三、变异系数(coefficien

17、t of variation, CV)当两组或多组变量值的单位不同或均数相差较大时,不能或不宜用两个或多个标准差的大小来比较其离散程度的大小。此时可用变异系数反映变量值的相对离散程度。样本变异系数CV的计算公式,由上式可以看出:变异系数为无量纲单位,可以比较不同单位指标间的变异度;变异系数消除了均数的大小对标准差的影响,所以可以比较两均数相差较大时指标间的变异度。,2018/11/18,41,例2.14 1985年通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg,身高均数为72.4cm,标准差为3.0cm。试计算周岁女童身高与均数变异系数。,身高,体重,周岁女童

18、体重的变异程度比身高的变异程度大。,2018/11/18,42,第四节 描述分布形态的统计指标,1.偏度系数(coefficient of skewness ,SKEW)偏度系数(G1)按照以下公式计算,G1=0为正态分布;G10为正偏态分布;G10为负偏态分布。,2018/11/18,43,fx,fx,fx,正态G1=0,正偏态G10,负偏态G10,=M,M,M,2018/11/18,44,2.峰度系数(coefficient of kurtosis ,KURT)峰度系数(G2)按照以下公式计算,G2=0,为标准正态峰; G20,为尖峭峰; G20,为平阔峰。,2018/11/18,45,第

19、五节 定量资料描述的SAS过程,一、MEANS 过程MEANS过程除了能对数值型变量进行一般的统计描述之外,还可以作配对设计资料的t检验。 语句格式:Proc means 操作选项统计量列表; VAR 变量名列 ; /*指定分析的变量名列,缺省为所有数值变量*/CLASS 变量名列 ; /*按变量名列分组统计*/FREQ 变量名 ; /*表明该变量为分析变量的频数*/Run;,2018/11/18,46,Proc means 操作选项data= 指定要分析的数据集名maxdec= 指定输出结果最大的小数位数,默认为7位alpha= 设定计算可信区间的水平,默认为0.05 注:在proc语句中的

20、选项直接跟在proc名后,以空格分隔,中间不加“/” ,其他命令语句的选项需以“/” 分隔。,2018/11/18,47,Proc means 统计量列表选项(缺省时只输出N、MEAN、STD、MIN、MAX 五项)常用统计量:N(例数)、MEAN(均数)、STD(标准差)、STDERR(标准误)、MAX(最大值)、MIN(最小值)、CV(变异系数)、RANGE(全距)、VAR(方差)、CSS(离均差平方和)、USS(平方和)、SUM(合计)。分位数:P50(中位数)、P75(上四分位数)、P25(下四分位数)、QRANGE(四分位间距)、P1、P5、P10、P90、P95、P99。分布度量:

21、SKEW(偏度系数)、KURT(峰度系数)。可信区间:CLM(95%可信区间)、LCLM(95%可信区间下限)、UCLM(95%可信区间上限)。单样本t检验:T(=0检验的t值)、PRT(t值对应的概率P值)。,2018/11/18,48,例1 例2-2 某地120名健康男性居民血清铁含量(mmo/L)资料。data ex2_1;input x ;cards;7.42 8.65 23.02 21.61 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.0720.38 8.40 17.32 29.64 19.69 21.69 23.90 17.45 19.0

22、8 20.52 24.14 23.7718.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.6114.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.4814.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.5424.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21

23、.3617.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.5314.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.3121.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.2612.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52;proc means m

24、axdec=2 n mean std min max cv p50 p25 p75 qrange;run;,2018/11/18,49,The MEANS ProcedureAnalysis Variable : xCoeff ofN Mean Std Dev Minimum Maximum Variation -18.61 4.34 7.42 29.64 23.33 -50th Pctl 25th Pctl 75th Pctl Quartile Range- 18.99 16.02 21.57 5.55 -,2018/11/18,50,例2 某克山病区测得11名克山病患者与13名健康人的血磷

25、值(mmol/L)如下,试求两组的平均血磷值和标准差。data ex2_2; input g x ; cards; 1 0.84 1 1.05 1 1.20 1 1.20 1 1.39 1 1.53 1 1.67 1 1.80 1 1.87 1 2.07 1 2.11 2 0.54 2 0.64 2 0.64 2 0.75 2 0.76 2 0.81 2 1.16 2 1.20 2 1.34 2 1.35 2 1.48 2 1.58 2 1.87 ; proc means ; var x ; class g; run;,2018/11/18,51,The MEANS ProcedureAnal

26、ysis Variable : xNg Obs N Mean Std Dev Minimum Maximum-1 11 11 1.5209091 0.4217927 0.8400000 2.11000002 13 13 1.0861538 0.4240585 0.5400000 1.8700000-,2018/11/18,52,例3 循环语句data ex2_3;do g=1 to 2; /* g为分组变量,循环开始,循环次数为2 */input n; /* 输入n值 */do i=1 to n; /* i循环开始,循环次数为n */input x ; /* 输入x 值,注意的合理使用*/ou

27、tput; /* output将x输出,循环语句中必须使用。 */end; /* i循环结束 */end; /* g循环结束 */cards;110.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11130.54 0.64 0.64 0.75 0.76 0.811.16 1.20 1.34 1.35 1.48 1.58 1.87;proc means;var x;class g;run;,2018/11/18,53,二、几何均数的计算SAS程序没有直接计算几何均数的模块,可用means 过程间接计算几何均数。例4 例2-6资料计算几何均数。

28、,data ex2_4; input x f ; y=log10(x); cards; 16 2 32 7 64 11 128 13 256 12 512 7 ; proc means; var y; freq f; output out=g mean=ym;,data g1; set g; G=10*ym; proc print data=g1; var G; run;,显示结果: Obs G1 119.747,2018/11/18,54,三、UNIVARIATE 过程univariate过程可对数值变量进行详细的统计描述。除了提供means过程所有的统计描述外,还可以给出了变量的峰度、偏度

29、、众数、中位数及四分位数等更详尽的统计描述,同时还可进行正态性检验,单样本资料(或配对设计资料)的t检验,符号秩和检验以及几个描述分布的图。,2018/11/18,55,语句格式:PROC UNIVARIATE 操作选项 ; VAR 变量名列; /* 指定分析的变量名列表*/CLASS 变量名列 ; /*按变量名列分组统计*/FREQ 变量名 ; /* 表明该变量为分析变量的频数 */HISTOGRAM 变量名列/绘图选择项 ; /*按变量名列绘制直方图*/Run;,2018/11/18,56,PROC UNIVARIATE 语句的操作选项; data=数据集名 /*指定要分析的数据集名*/n

30、ormal /* 进行正态性检验*/plot /*生成统计图:茎叶图,盒状图,正态概率图 */ mu0=总体均值 /*指定要比较的总体均值,缺省时总体均值为0。*/HISTOGRAM 语句的绘图选择项vscale=count; /* 纵轴用频数绘制直方图, 缺省时用频率绘制直方图*/midpoints=各组中值; /*横轴指定各组组中值以确定各组组段.可以使用变量的循环语句,如 MIDPOINTS=7 TO 29 BY 2 */cfill=填充颜色; /* 指定直方图的填充颜色。如cfill=blue,为蓝色。*/,2018/11/18,57,例5 例2-2 某地120名健康男性居民血清铁含量

31、(mmo/L)资料。 data ex2_5;input x ;cards;7.42 8.65 23.02 21.61 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.0720.38 8.40 17.32 29.64 19.69 21.69 23.90 17.45 19.08 20.52 24.14 23.7718.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.6114.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56

32、19.89 19.82 17.4814.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.5424.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.3617.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.5314.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.3

33、121.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.2612.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52;proc univariate nomal plot;var x;run;,2018/11/18,58,MomentsN (样本含量) 120 Sum Weights (总权数) 120Mean (均数) 18.6135833 Sum Observations (合计值) 2233.63Std Deviatio

34、n (标准差) 4.34319961 Variance (方差) 18.8633829Skewness (偏度系数) -0.1939341 Kurtosis (峰度系数) -0.0178296Uncorrected SS(平方和)43820.6007 Corrected SS(离均差平方和) 2244.74256Coeff Variation(变异系数) 23.3334954 Std Error Mean(标准误) 0.39647807Basic Statistical MeasuresLocation VariabilityMean(均数) 18.61358 Std Deviation (标

35、准差) 4.34320Median (中位数) 18.98500 Variance (方差) 18.86338Mode(众数) 17.40000 Range(全距) 22.22000Interquartile Range(四分位间距) 5.55000NOTE: The mode displayed is the smallest of 6 modes with a count of 2.,2018/11/18,59,Tests for Location: Mu0=0 (均数是否为0的检验)Test -Statistic- -p Value-(检验方法) (统计量) (P值)Students t

36、 (t检验) t 46.94732 Pr |t| = |M| = |S| D 0.1500Cramer-von Mises W-Sq 0.060468 Pr W-Sq 0.2500Anderson-Darling A-Sq 0.343631 Pr A-Sq 0.2500,2018/11/18,60,Quantiles (Definition 5)Quantile Estimate100% Max 29.64099% 27.90095% 25.18090% 24.13575% Q3 21.57050% Median 18.98525% Q1 16.02010% 12.6605% 10.9751%

37、 8.4000% Min 7.420,2018/11/18,61,Extreme Observations-Lowest- -Highest-Value Obs Value Obs7.42 1 26.02 548.40 14 26.13 638.65 2 27.81 1019.97 7 27.90 11610.25 57 29.64 16,2018/11/18,62,2018/11/18,63,2018/11/18,64,四、频率表的编制 例6 对例2-2某地120名健康男性居民血清铁含量资料用SAS过程编制频率表 DATA EX2_6 ; INPUT X ; L=6 ; /* 定义第一组的下

38、限值*/ I=2 ; /*定义组距*/ Y=X-MOD( X-L , I ) ; /* y值取6,8,10, 12, ., 等整数 */ CARDS; 7.42 8.65 23.02 21.61 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.07 12.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52 ; PROC FREQ ; /* 用freq语句输出频数表 */ TABLES Y ; /* 一维的分组变量 */ PROC UNIVARIATE ; VAR Y ; HISTOGRAM Y/ VSCAL=COUNT MIDPOINTS=7 TO 29 BY 2 CFILL=RED ; RUN;,2018/11/18,65,2018/11/18,66,2018/11/18,67,思考题1.数值变量资料频数表的组段数目是否越多越好?2.均数、几何均数和中位数的适用范围有何异同?3.中位数与百分位数在意义、计算和应用上有何区别与联系?4.标准差和变异系数在计算公式上有何联系?在适用范围上有何不同?,2018/11/18,68,Thank You !,2018/11/18,69,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 统计学

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报