收藏 分享(赏)

第二章计量资料的统计描述45700.ppt

上传人:dzzj200808 文档编号:3323156 上传时间:2018-10-13 格式:PPT 页数:91 大小:1.47MB
下载 相关 举报
第二章计量资料的统计描述45700.ppt_第1页
第1页 / 共91页
第二章计量资料的统计描述45700.ppt_第2页
第2页 / 共91页
第二章计量资料的统计描述45700.ppt_第3页
第3页 / 共91页
第二章计量资料的统计描述45700.ppt_第4页
第4页 / 共91页
第二章计量资料的统计描述45700.ppt_第5页
第5页 / 共91页
点击查看更多>>
资源描述

1、2018/10/13,医学统计学-供研究生用,第二章,计量资料的 统计描述,数值变量资料的统计描述,数值变量资料的频数分布 集中趋势的描述 离散趋势的描述 正态分布 医学参考值范围的制定,第一节 频数分布,一、频数分布表 简称频数表(frequency table),例2-1 从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇(mmol/L)的测量结果如下,试编制频数分布表。,2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50

2、 2.70 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84 3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96 4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93

3、 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4.15 4.36 4.95 3.00 3.26,试编制频数分布表。,1、频数表的编制,找全距(range) 定组距(class interval): 一般分为1015组,如组距约为全距/10 写组段: 每个组段的起点称为下限,lower limit; 每个组段的终点称为上限,upper limit; 下限X上限,频数表的编制续,1.计算极差 : 极大值极小值 5.71-2.35=3.362.组数:10组距 3.36/10=0.336

4、取0.3 3.分组段: 最小组段2.3 最大组段5.65.94.列表划记:,二、频数分布图(graph of frequency distribution),以各组段总胆固醇含量为横轴,频数为纵轴。,SPSS中的操作:,1.建立数据库 2.先使用Recode 命令,对变量进行重新划计分组,注意新变量取组中值。 3. 再用Frequencies命令,1、Recode Into Different Variables,2、将“胆固醇”选入Numeric Variable栏,在Output Variable栏输入新变量“Y” ,单击Change 按钮, 单击Old and New Values按钮。

5、,3、在Old and New values对话框,按对变量值重新划分要求输入相应数据后,单击Add按钮。重复进行该操作。新变量可直接取组中值。,语法命令:,RECODE胆固醇(2.3 thru 2.599=2.45) (2.6 thru 2.899=2.75) (2.9 thru 3.199=3.05) (3.2 thru 3.499=3.35) (3.5 thru 3.799=3.65) (3.8thru 4.099=3.95) (4.1 thru 4.399=4.25) (4.4 thru 4.699=4.55) (4.7 thru 4.999=4.85) (5.0 thru 5.299

6、=5.15) (5.3 thru5.599=5.45) (5.6 thru 5.89=5.75) INTO Y . EXECUTE .,频数分布的类型,对称分布:集中位置居中,左右两边对称 偏态分布:正偏态分布(右偏态)峰左尾右 负偏态分布(左偏态),三、频数表和频数分布图的用途,揭示变量的分布特征和分布类型; 便于进一步计算指标和统计分析处理; 便于发现某些特大或特小的可疑值。,频数分布的两个特征,集中趋势,central tendency 指变量值的中心数值或中心位置所在。 离散趋势,tendency of dispersion 指变量值围绕中心数值或中心位置的分布情况。,第二节 集中趋势

7、的描述,平均数(average):用于观察一组同质变量值的平均水平/集中位置。亦称中心位置指标。它不但给人一个简明概括的印象,而且便于事物间的分析比较。 常用的平均数 算术均数 (arithmetic mean/mean) 几何均数 (geometric mean) 中位数 (median),一、算术均数,简称均数 (arithmetic mean/mean),均数是算术均数的简称。 总体均数用希腊字母(缪,mu)表示 样本均数 (X bar)表示。 均数反映一组观察值在数量上的平均水平。,均数的应用,主要用于对称性或近似对称性分布的资料; 尤其是在正态分布或近似正态分布上的应用。,计算方法

8、1.直接法,:希腊字母(西格马,sigma),求和符号 例9.2 有8名正常人的空腹血糖值(mmol/L):6.2,5.4,5.7,5.3,6.1,6.0,5.8,5.9,2.频数表法(加权法),频数表计算均数:,Xj 为各组的组中值。 组中值等于该组的上限加下限之和除以2。fj 为各组的频数。 101名正常成年女子的血清总胆固醇均值为: = 409.75/101 =4.06( mmol/L ),补充: 均数的两个重要特征(1),离均差之和为零,均数的两个重要特征(2),离均差平方和为最小,(二)几何均数 Geometric mean,G,反映一组呈倍数关系的观察值的平均水平 适用:数据呈正偏

9、态分布,经对数转换后呈正态分布。多用于观察值之间呈倍数关系,如抗体滴度 计算方法 直接法 加权法,1.直接法,例:有8份血清的抗体效价为为1:5,1:10,1:20,1:40,1:80, 1:160 ,1:320,1:640。求平均效价。,用直接法计算G,将各效价的倒数代入公式,得该8份血清的平均抗体效价为1:56.57,近似为1:57 注意:变量值不能有0,2.频数表法,式中f为频数。,用频数表法计算G,例 30名麻疹易感儿童接种麻疹疫苗一个月后,血凝抑制抗体滴度如下表所示,试求其平均抗体滴度。,30名麻疹易感儿童血凝抑制抗体滴度,flgX=50.58,30名麻疹易感儿童接种麻疹疫苗一个月后

10、血凝抑制抗体滴度为1:48.5,同一组资料求得的几何均数小于均数。,SPSS求几何均数时有三种方法,1.是先计算对数的均数,然后求其反对数,得出几何均数; 2.直接用Report Case Summaries 命令; 3.用Compare Means 命令,但要个增加分组变量。,使用频数表资料时SPSS操作中应注意的事项,频数表资料要用weight命令; 进行数据输入时要使用组中值;并且在Frequencies命令中要选择 Values are group midpoints:根据分组资料计算百分位数。,(三)中位数 Median, M,将一组观察值从小到大按顺序排列,位次居中的观察值,即为中

11、位数。 一半的值比M小,一半的值比M大。 例:1,3,5,7,18 (奇数)1,3,5,7,18,20 ( 偶数) 计算 n为奇数时n为偶数时,M计算方法,例: 9人某病潜伏期(天)分别为3,4,4,5,6,7,7,19,19,求中位数。 例: 6名新生儿身长(cm)分别为50.1,52.0,53.0,55.0,55.0,56.0,求中位数。,中位数的应用,中位数可用于任何分布的定量资料; 资料的分布呈明显偏态,特别是负偏态; 分布的一端或两端无确定的数值;(如:50, 或 10) 资料的分布不清。 注意:在完全对称的单峰曲线分布中,同一组资料的均数与中位数相同, Mean = Median,

12、中位数的优缺点,优点: 不受个别特大或特小的观察值影响; 其它平均数不宜使用时,中位数就显示出它的优越性。 缺点: 掉失了大量信息,其敏感性不够。,百分位数(Percentile,Px),百分位数 位置指标;界值; 分布数列的百等份分割值。 有x%的比Px小, 有(100-x)%的比Px大。 中位数是一个特定的百分位数P50。,百分位数的计算,fX 为PX所在组段的频数,i 为该组段的组距,L 为该组段的下限,fL 为小于L各组段的累计频数。,某传染性疾病的潜伏期(天)如下表,求其 中位数和百分位数P95,百分位数的应用,描述一组观察值在某百分位置上的水平。 用于确定医学正常值范围。 用一组百

13、分位数描述一组观察值的变异度,如四分位数。,应用平均数时的注意事项,同质的变量值才能求平均数; 根据资料的分布特点,选用适应的平均数指标。,第三节 离散趋势指标,例 有3组同龄男孩体重(kg)如下,其体重均数 都是30 (kg),试分析离散程度。甲组 26 28 30 32 34乙组 24 27 30 33 36丙组 26 29 30 31 34,离散程度(或变异程度),指数据参差不齐的程度,反映资料的离散趋势。 将反映平均水平与离散程度的指标结合起来使用,可全面地描述数据的分布规律。,(一)全距(或极差 , Range ),全距 = 最大值 最小值 优点:简单明了 缺点:不能反映组内其他数据

14、的变异,样本含量相差较大时,不宜用极差比较分布的离散程度。,(二)四分位数间距 inter-quartile range,百分位数:指把数据从小到大排列后处于第X百分位置的数值。它将全部数据分为两部分,在不包括PX的全部数据中有X%数据小于PX,有1-X%的数据大于PX%。中位数是一个特定的百分位数P50。 四分位数:下四分位数P25;上四分位数P75P0 P25 P50 P75 P100 四分位数间距: P75 - P25 或 QU - QL 比极差稳定,但仍未考虑每个数据的大小。 常和中位数结合使用描述数据的分布规律。,(三)方差(variance)和 标准差(standard devia

15、tion),离均差平方和: 考虑每个观察值,但受N的影响。 对离均差平方和求均数,得总体方差2 ,开根号得标准差 。,一般未知,常常用 来估计之,,数理统计证明,如用样本的变量个数n来代替N,计算出的样本方差比实际2低,需要用n-1校正,得样本方差S2。开根号得样本标准差s。,自由度,degree of freedom,方差计算公式中的n-1被称为自由度,它描述了当 选定时,n个X中能自由变动的X(变量值)的个数。 例:某样本含有5个数据,要求X=15。则在自由确定了四个数据后,第5个数据只能是15-(x1+x2+x3+x4)。 即有4个数据可以自由变动,其自由度=4 。 推而广之,任何统计量

16、的自由度n-k,k为限制条件的个数。 自由度:是随机变量可以“自由”取值的个数。,总体标准差样本标准差,标准差 standard deviation,标准差的计算,甲组 26 28 30 32 34 标准差 3.16 乙组 24 27 30 33 36 4.74 丙组 26 29 30 31 34 2.92甲组: X=26+28+30+32+34=150 X2=262+282+302+322+342=4540,用频数表法计算标准差,标准差的用途:,反映一组观察值的离散程度; 计算变异系数; 计算标准误; 估计参考值范围。,标准差与算术均数之比, 反映了相对离散程度 常用于比较 度量衡单位不同的

17、多组资料的变异度 均数相差悬殊的多组资料的变异度,(四)变异系数 CV coefficient of variation,例:度量衡单位不同的变异度,某地20岁男子110名 身高 =172.73cm, s4.09cm; 体重 55.04kg,s4.10kg, 试比较两组资料的变异程度,即身高、体重的变异程度哪个大?,例:均数相差悬殊的变异度,SPSS命令及操作,Analyze Descriptive StatisticsFrequencies Descriptives,Frequencies、Descriptives、 Means和Case Summaries命令,这四个命令都可以计算均数、标

18、准差、标准误等主要指标。 如果只计算上述3个主要指标,选用Descriptives命令较为方便; 如果需计算中位数、百分位数和绘制频数分布图,应选用Frequencies命令; 如果需分组计算均数、中位数、几何均数、标准差、标准误等指标,应选用Means命令(必须有分组变量)。 如果计算几何均数,选用Case Summaries命令较为方便。,第四节 正态分布及其应用,正态分布(normal distribution)的概念和特征 正态分布的两个参数 正态曲线下面积分布规律标准正态分布 标准正态分布与标准化变换 标准正态分布表正态分布的应用 估计频数分布 制定参考值范围 质量控制 统计方法的基

19、础,2018/10/13,60,一、正态分布 (一)正态分布的图形 例:某地7岁男童身高的 频数分布,正态分布图形特点,正态分布频数分布是中间(靠近均数)频数多,两边频数少,且左右对称。 正态曲线 呈钟型:两头低中间高,左右对称 若指标X的频数分布图接近正态分布曲线,则初步判断该指标服从正态分布。,正态分布的概率密度函数:,为总体均数, 为标准差,,记为:XN(m,s),记为:XN(m,s),如某年某地7岁男孩的身高X服从均数为121( cm )、标准差为5(cm)的正态分布,可记为X N(122,5),(二)正态分布的两个参数,m描述了正态分布的集中趋势位置。 s描述正态分布的离散程度。 s

20、越小,曲线越瘦高,分布越集中;反之,.,二、正态曲线下面积的分布规律,F(X)为正态变量X的分布函数,即对概率密度函数求积分,正态曲线下面积的分布规律-续,(-1, +1)的面积占总面积的68.27% (-1.96, +1.96)的面积占总面积的95.00% (-2.58, +2.58)的面积占总面积的99.00%,三、标准正态分布,标准正态分布与标准化变换 标准正态分布表,标准化变换: u变换,这样可将所有不同均数和标准差的资料都转换为均数为0,标准差为1的分布,即标准正态分布。,标准正态分布的累计函数,标准正态分布图形,-3 -2 -1 0 1 2 3,标准正态分布表(P803附表1)把标

21、准正态分布曲线下的面积编制成工具表,列出标准正态曲线下从-到u范围内的面积F(u)值。 而且F(u) F(u)。 -到u= - 0.50范围内的面积:F(-0.5)= 0.3085 -到u= 0.50 范围内的面积为多少呢F(0.5) =1- F(-0.5) 1-0.3085=0.6915,标准正态分布面积分布规律,-到u= - 2.58范围内的面积:0.0049 -到u= - 1.96范围内的面积:0.0250 -到u= 0.00范围内的面积:0.5000 (-1, 1) 的面积占总面积的68.27%(-1.96, 1.96)的面积占总面积的95.00%(-2.58, 2.58)的面积占总面

22、积的99.00%,- 3 -2 -1 0 1 2 3,正态分布的特征,正态曲线呈钟型,在横轴的上方,均数位置最高; 正态分布以均数为中心,左右对称; 正态分布有两个参数,即均数和标准差; 标准正态分布的均数为0,标准差为1; 正态曲线在1 各有一拐点; 正态分布的面积分布有一定的规律性。,正态分布的应用,估计频数分布 制定参考值范围 质量控制 统计方法的基础,估计频数分布,若某项研究得出某地婴儿出生体重均数为3200克,标准差为350克,估计该地当年低体重儿所占的比例。 U=(2500-3200)/350= -2 查标准正态表(695附表1)得:F( -2 )=0.0228 估计该地当年低体重

23、儿所占的比例为2.28%,例出生体重低于2500克为低体重儿。,第五节 医学参考值范围的制定,reference ranges亦称正常值范围 绝大多数正常人某指标测定值所在的范围 绝大多数:90%、95%、99%等等。 正常人是指排除了影响所研究指标的疾病和有关因素的同质人群。 应遵循一定步骤确定参考值范围。 计算方法有正态分布法和百分位数法。,一、确定参考值范围基本步骤,从正常人总体中抽取足够含量的样本;n 100 控制测量误差下进行准确而统一的测定; 判定是否需要分组;有无年龄、性别差异等? 确定取单侧还是双侧范围值:红细胞?肺通气量?尿铅? 选定适当的百分界限; 对资料进行正态性检验;

24、计算参考值范围。,正常人与病人的分布有重叠,减少假阳性可选用95%或99%:鉴定诊断。 减少假阴性可选用80%或90%:筛选可疑者。,正常人和病人的分布重叠较多,需要确定可疑范围。 如 舒张压 =90mmHg 且 =95mmHg :高血压,参考值范围的确定,方法:正态近似法,百分位数法 95%参考值(正常值)范围正态近似法 百分位数法 双侧 1.96s P2.5 P97.5 单侧下限 -1.64s P5 单侧上限 +1.64s P95,例1:某地农村1999年130名14岁女孩身高资料(cm)均数为143.08,标准差为6.58。求该地14岁女孩身高的95%参考值范围。,下限为:143.08

25、1.96 6.58=130.18(cm) 上限为:143.08 + 1.96 6.58=155.98(cm) 该地14岁女孩身高的95%参考值范围为130.2156.0 (cm)。,二、正态近似法,例2 :某地调查110名健康成年男性的第一秒肺通气量的均数为4.2(L),标准差为0.7 (L)。请据此估计该地成年男子第一秒肺通气量的95%参考值范围。,下限为:4.2-1.640.7=3.052 (L)该地成年男性的第一秒肺通气量95%参考值范围为:不低于3.052 (L)。参考值范围 : 3.052 (L),三、百分位数法,正态性检验,图示法: 概率图(probabilityprobabili

26、ty plot, P-P图) 分位数图(quantilequantile plot, Q-Q图)Q-Q图效率较高。,变量变换(variable transformation),通过对原始数据进行某种函数的转换,使得各组方差齐同、稳定,或者使得偏态资料正态化,以满足统计分析方法对资料的要求。,常用的变量变换主要有:,对数变换(logarithmic transformation) 平方根变换(square root transformation) 平方根反正弦变换(arcsine transformation) 倒数变换(reciprocal transformation),1、对数变换,对原始

27、数据X取对数。 XlgX Xlg(X+K) 或者Xlg(K-X) 适用于:对数正态分布资料变异系数接近某一常数的资料,1、对数变换,对原始数据X取对数。 XlgX Xlg(X+K) 或者Xlg(K-X) 适用于:对数正态分布资料变异系数接近某一常数的资料 SPSS函数命令:LG10(?) 或者LN(?),2、平方根变换,对原始数据X开算术平方根。适用于:服从Poisson分布资料,即各样本方差与均数成比例的资料轻度偏态分布资料 SPSS函数命令:SQRT(?),3、平方根反正弦变换,对原始数据X的平方根取反正弦变换。 用角度表示的:YARSIN(SQRT(?)用弧度表示的:Y(3.14159 / 180) * ARSIN(SQRT(?) 适用于:率或者百分比的资料:发病率、患病率、淋巴细胞转换率()等资料,4、倒数变换,对原始数据X取倒数。适用于:数据两端波动较大的资料,作业:,P26 三、计算分析题 题1、2、3、,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报