1、2018/10/14,1,第十章 数值变量资料的统计描述,公共卫生学院 大理学院2011级护理学本科教学,2018/10/14,2,第一节 数值变量资料的统计描述,数值变量资料进行统计描述需要根据资料的分布类型选择合适的统计指标,因此首先要通过频数分布表或分布图了解资料的分布特征。一、频数分布表及其制作,2018/10/14,3,例10.1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。,2018/10/14,4,频数表的编制步骤:,(1)求极差(range):即最大值与最小值之差,又称为全距。R5.593.60 =1.99(mol/L
2、),(2) 确定组数、组段和组距:根据研究目的和样本含量n确定分组组数。相邻两组段下限值之差称组距,组距=极差/组数,为方便计,组距为极差的十分之一, 再略加调整。1.99 / 10 = 0.199 0.2 (mol/L),(3) 列出组段:第一组段的下限必须包含最小值,最后一个组 段上限必须大于或等于最大值。3.6 3.8 5.2 5.45.6,(4) 列表划记:用划记法将所有数据归纳到各组段,得到各 组段的频数。,2018/10/14,5,表10-1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值的频数分布表,2018/10/14,6,血糖(mol/L),人数,图10-
3、1某地区2002年5558岁健康成人的空腹血糖(mmol/L) 测定值的频数分布图,二、频数分布图,2018/10/14,7,三、频数表和频数分布图的应用,1观察有无可疑值 2便于进一步计算指标并进行统计分析 3揭示分布的类型(对称分布、偏态分布) 4揭示分布的特征,2018/10/14,8,二. 描述集中趋势的指标,统计上使用平均数(average)这一指标体系来描述一组变量值的集中趋势或平均水平。 常用的平均数有: 算术均数(均数)(mean) 几何均数(geometric mean) 中位数 (median) 百分位数(percentile),2018/10/14,9,一、算术均数,算术
4、均数:简称均数(mean) 定义:是一组变量值之和除以变量值个数所得的商。均数适用于资料呈正态分布(或近似正态或对称分布)资料。 总体均数:样本均数: x,2018/10/14,10,1、计算方法,(1)直接计算法,公式 :,例10.2 有9名健康成人的空腹胆固醇测定值(mol/L)为:5.61,3.96,3.67,4.99,4.24,5.06,5.20,4.79,5.93求算术平均数。,x=(5.61+3.96+3.67+4.99+4.24+5.06+5.20+4.79)/9=4.83(mol/L),2018/10/14,11,例10.1 某地区2002年5558岁健康成人的空腹血糖(mmo
5、l/L)测定值如下,试编制频数表和观察频数分布情况。,x=(5.17+5.56+5.15+5.16)/132=4.648(mol/L),2018/10/14,12,(2)加权法(利用频数表),公式 :,k:频数表的组段数f :频数:组中值,其中i=1,2,k。,2018/10/14,13,表10-1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值的频数分布表,x=614.2/132=4.653(mol/L),2018/10/14,14,二、 几何均数(geometric mean),定义:用G表示,是将n个观察值x的乘积再开n次方的方根(或各观察值x对数值均值的反对数)。其
6、适用条件是: 当一组观察值为非对称分布且其差距较大时,用 均数表示其平均水平会受少数特大或特小值影响;数值按大小顺序排列后,各观察值呈倍数关系或近 似倍数关系。,2018/10/14,15,几何均数计算公式:,几何均数:变量对数值的算术均数的反对数。,计算几何均数的观察值应大于零,2018/10/14,16,例10.3 有7份血清的抗体效价分别为1:2, 1:4, 1:8, 1:16, 1:32, 1:64,1:128,求平均抗体效价。,2018/10/14,17,(2)加权法(当观察例数多时采用),公式:,2018/10/14,18,例10.4 有60人的血清抗体效价,分别为:7人1:5,1
7、1人1:10,22人1:20,12人1:40,8人1:80,求平均抗体效价。,50人的血清平均抗体效价为1:20.705。,2018/10/14,19,计算几何均数应该注意的事项变量值中不能有0或负数,因为0和负数不能取对数。不能同时有正有负。若全部是负值,计算时可先把负号去掉,得出结果后,再加上负号。,2018/10/14,20,三、 中位数与百分位数,(一)中位数(median) 定义:用符号M表示,中位数是把一组观察值,按大小顺序排列,位置居中的数值(n为奇数)或位置居中的两个数值的均值(n为偶数)。其适用情况有: 当资料呈明显的偏态分布; 资料一端或两端无确定数值(如大于或小于某数值)
8、; 资料的分布情况不清楚。,2018/10/14,21,计算公式:,n为奇数时,n为偶数时,2018/10/14,22,例10.5 7名正常人的血压(舒张压) 测定值(mmHg)为:72,75,76,77,81,82 ,86,求中位数。,从小到大排列: 72,75,76,77,81,82 ,86若又观察了一个人的血压,为87(mmHg) ,此时(77+81)/2=79(mmHg),2018/10/14,23,频数表资料的中位数(P157公式8.5),下限值L,上限值U,i; fm,中位数M,2018/10/14,24,例10.1频数表中位数的计算,4.60+(0.20/25 ) *132/2-
9、61=4.64,2018/10/14,25,(二)百分位数(percentile),把一组数据从小到大排列,分成100等份,各等份含1%的观察值,分割界限上的数值就是百分位数。,中位数是第50百分位数,用P50表示。,2018/10/14,26,Trunc()取整函数,设有X个原始数据从小到大排列,第X 百分位数的计算公式为:,1直接计算法,当 为带有小数位时:,当 为 整数时:,2018/10/14,27,例 对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。,,为整数:,患者编号:,住院天数:,(1)n=120,,2018/1
10、0/14,28,带有小数,(2),故取整 trunc(118.8)= 118,2018/10/14,29,2频数表法,公式:,2018/10/14,30,当 时,公式(8.5)即为中位数的计算公式:,2018/10/14,31,例10.1 试分别求例10.1频数表的第25、第75百分位数。,P254.20+0.20x(132x25%14)/234.365 P754.80+0.20x(132x75%86)/204.930,2018/10/14,32,三种平均数的特点,算术均数:通常被认为是最佳集中趋势的度量值。如果资料观察值含有少数极端数值(相对的说特大或特小值)或资料呈偏态分布,算术均数就变得
11、不稳定而失去代表性。正态分布几何均数一般只适宜于等比级数资料。对于这类资料,用几何均数反映集中趋势比算术均数或中位数更合适。中位数不受其前后其他数值(特别是极端值)的影响。但如果数据呈明显不同且差异很大,这时中位数可能不适宜作为集中趋势的度量值了。偏态分布,2018/10/14,33,反映集中趋势的指标(平均数),表示一组观察值的平均水及集中特性,并可作为总体的一个代表值加以应用。但是它没有表达其所代表的总体中各个个体之间的差异。统计学中把个体间的差异称为变异性(variation)。所谓变异性是指在同质条件下的观察单位,其同一标志的数据间的差异性。用以描述一组数值变量资料观察值之间参差不齐的
12、程度,即离散程度或变异度的指标,称为离散指标或变异指标。,三 描述离散趋势的描述,2018/10/14,34,例10.6:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数,每人数5个计数盘,得结果如下(万/mm3),甲,乙,丙,2018/10/14,35,常用统计指标:,全距(range)四分位数间距(quartile interval)方差和标准差(variance&standard deviation)变异系数(CV coefficient of variation),2018/10/14,36,全距,用R表示:即一组变量值最大值与最小值之差,亦称极差。对于书中例8.1数据,有,简单,但
13、仅利用了两端点值,稳定性差。,一、全距(Range),R5.593.60 =1.99(mol/L),R越大,变异度越大;R越小,变异度越小。,2018/10/14,37,二、四分位数间距(quartile range),四分位数间距,用Q表示,若将一组资料分为四等份,上四分位数和下四分位数之差就是:Q=下四分位数:上四分位数:,比全距稳定;可用于一端或两端无确切数值的偏态资料。 未考虑每一个观察值。,2018/10/14,38,全距和四分位数间距都未全面考虑观察值的变异情况,为了克服该缺点,需计算总体中每个观察值x与总体均数的差值(x-),称为离均差。 由于(x-)=0,不能反映变异的大小,而
14、用离均差平方和 (x-)2(sum of deviation from mean)反映。同时还要考虑到观察值个数N的影响,用其均数,即得到总体的方差,用2表示。 公式为:,三、方差与标准差,2018/10/14,39,1. 方差(variance)是离均差平方和的均数,反映一 组数据的平均离散水平。 由于在实际工作中,往往得到的样本资料,总体均数是未知的,所以只能用样本均数 作为的估计值,即用 代替 ,用样本例数n代替N。但按公式计算的结果通常比实际的 低。所以用n来代替n进行校正。得到样本方差,离均差平方和SS,总体方差,样本方差,自由度,2018/10/14,40,标准差(standard
15、 deviation),方差可以比较全面地反映变量值的变异情况,但其方差的单位是原单位的平方,故引入标准差的概念。标准差:将方差开平方,恢复成原度量单位,得到总体的标准差和样本标准差S。,2018/10/14,41,样本标准差用 表示 ,其度量单位与均数一致,所以最常用。,离均差平方和SS,3. 总体标准差 用表示,公 式:,公 式:,2018/10/14,42,标准差的公式还可以写成 :,利用频数表计算标准差的公式为:,2018/10/14,43,例 对以下数据: 75, 76, 72, 69, 66, 72, 57, 68, 71, 72, 用直接法计算标准差。,2018/10/14,44
16、,例10- 利用表10-2中的数据和频数表法计算标准差。,2018/10/14,45,四、变异系数,变异系数(coefficient of variation,CV) 常 用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。,2018/10/14,46,例10.7:某地7岁男孩身高的均数为123.10 cm,标准差为4.71cm;体重均数为22.29kg,标准差为2.26kg, 比较其变异度?,2018/10/14,47,小结:,2018/10/14,48,第二节 正态分布和参考值范围,2018/10/14,49,一、正态分布的概念和特征,当X服从正态分布记作XN(,2) 其中为
17、总体均数,2为总体方差,2018/10/14,50,二、标准正态分布,用N(0,1)表示,即u值的均数为0,标准差为1。,标准正态变换,2018/10/14,51,正态分布,标准正态分布,2018/10/14,52,正态分布的特征,正态分布的面积分布有一定的规律性,总面积=1。,正态分布是一单峰分布,高峰位置在均数X= 处;总体中位数亦为。,正态分布以均数为中心,左右完全对称;,正态分布取决于两个参数,即均数与标准差(与),标准正态分布的均数和标准差分别为0和1; 为位置参数, 为形态参数;,有些指标不服从正态分布,但通过适当的变换后服从正态分布;,2018/10/14,53,2018/10/
18、14,54,正态曲线下面积的分布规律,(累积)分布函数:,2018/10/14,55,图 正态曲线面积分布示意图,正态分布的应用,估计频数分布 制定参考值范围 质量控制 统计分析方法的基础,估计频数分布,Z=(2500-3200)/350=-2 查附表一得:(-2)=0.0288,2018/10/14,58,医学参考值是指正常人的各种生理、生化数据,组织或排泄物中各种成分的含量。正常人测定值的波动范围,称为参考值范围。参考值范围在诊断方面可用于划分正常或异常。,参考值范围(reference ranges),2018/10/14,59,1、正态分布法2、百分位数法,计算医学参考值范围的常用方法
19、:,2018/10/14,60,公式(正态分布):,双侧参考值范围:XuS单侧参考值范围:XuS (下限值)或 XuS (上限值)其中X为均数,S为标准差,u值可由附表1(249)查。,2018/10/14,61,例:10 利用例1某地5558岁健康成人的血糖值,求95%的参考值范围。,正态分布法x=4.653 ,S=0.401 双侧95%的参考值范围:x1.96S=4.6531.96*0.401=(3.875.44) 某地5558岁健康成人的血糖值95%的参考值范围为3.875.44(mol/L),一、抽样误差和标准误,第三节 均数的抽样误差与总体均数的估计,例如,从总体均数为4.83 /L
20、、标准差 为0.52 /L的正态分布总体N(4.83,0.522)中,随机抽取10人为一个样本 (n=10),并计算该样本的均数、标准差。如此重复抽取100次(g=100),可得到100份样本,可得到100对均数 和标准差S 。,正态总体 =4.83 =0.52,1. 4.58, 0.38 2. 4.90, 0.45 3. 4.76, 0.49 99. 4.87, 0.59 100. 4.79, 0.39,S,抽样误差sampling error :由于抽样而引起的差异。产生的基本条件为:抽样及个体变异。,图 随机抽样所得100个样本均数的分布,标准误(standard error, SE),
21、概念:样本均数的标准差,可用于衡量抽样误 差的大小。,未知,已知,计算了100个样本的标准差S,由此可计算样本的标准误大小。,100个样本均数的抽样分布特点:, 100个样本均数中,各样本均数间存在差 异,但各样本均数在总体均数周围波动。 样本均数的分布曲线为中间高,两边低, 左右对称,近似服从正态分布。,标准误的特点:,当样本例数n一定时,标准 误与标准差呈正比; 当标准差一定时,标准误与 样本含量n的平方根呈反比。,通过增加样本含量n来降低抽样误差。,n=5,n=10,3个抽样实验结果图示,标准误的用途,衡量抽样误差的大小;估计总体均数的置信区间;用于假设检验。,标准误与标准差的区别与联系
22、,区别:标准误 标准差 定义 反映抽样误差 反映个体变异 用途 总体均数可信区间 医学参考值范围进行统计学检验 计算标准误、CV,联系:当n一定时标准差大,标准误也大,抽样实验小结,样本的均数围绕总体均数上下波动。均数的标准差即标准误样本均数的标准误(Standard Error)计算公式为:样本标准差/从正态总体N(,2)中抽取样本,获得均数 的分布仍近似呈正态分布N(,2/n) 。,二、 t 分布(t-distribution),随机变量X N(m,s2),标准正态分布 N(0,12),u变换,均数,标准正态分布 N(0,12),Student t分布 自由度:n-1,图 不同自由度下的t
23、 分布图,t 分布的特征, 以0为中心,左右对称的单峰分布; t分布曲线是一簇曲线,其形态变化与自由度的 大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近u分布(标准 正态分布);当趋于时,t分布即为u分布。,附表2 t 界值表,参数的估计,点估计:由样本统计量 直接估计总体参数,区间估计:在一定置信度(Confidence level)下,估计总体参数可能存在的范围,二、参数估计,估计正确的概率(1)称为可信度或置信度(confidence level),常取95或99。置信区间(confidence interval, CI)是根据一定的置信度估计得到的区间
24、。总体均数的95%置信区间的涵义是指:从理论上来说,做100次抽样,可算得100个置信区间,平均有95个置信区间包括总体均数,只有5个置信区间不包括总体均数。,(一)置信区间的有关概念,(二)总体均数置信区间的计算,s未知,且n 较小,按t分布 s已知,或s未知但n足够大,按 u 分布,u0.05/2=1.96,2.未知但n较大时,按u分布计算总体均数 的可信区间。双侧1-可信区间为:,3.已知时,总体均数双侧1-可信区间为:,u0.05/2=1.96,=,(一)假设检验的基本思想利用反证法的思想,假设检验的基本思想和步骤,利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(
25、H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。当P小于或等于预先规定的概率值,就是小概率事件。根据小概率事件的原理:小概率事件在一次抽样中发生的可能性很小,如果他发生了,则有理由怀疑原假设H0,认为其对立面H1成立,该结论可能犯大小为的错误。,例 某地抽样调查了26名男性管理人员的空腹血糖,均数为4.84mol/L,标准差为0.85mol/L。已知大量调查的一般健康成年男性空腹静脉血糖的均数为4.70mol/L。试问能否认为该地健康男性管理人员的空腹血糖的均值与一般正常健康成年男性的的均值不同?,差异的原因:(1)由于抽样误差造成的.(实际上 ,但由于抽样误差 不能
26、很好代表 ) (2)该地男性管理人员的空腹血糖与一般健康成年男性空腹静脉血糖( ),假设检验的目的就是判断差异的原因:求出由抽样误差造成此差异的可能性(概率P)有多大 ! 若 P 较大(P0.05),认为是由于抽样误差造成的。原因(1),实际上 若 P 较小(P0.05),认为不是由于抽样误差造成的。原因(2),实际上 ,(二)假设检验的基本步骤,1. 建立假设,确定检验水准 2. 选定检验统计方法,计算检验统计量 3. 确定P值,作出推断结论,1、建立假设,确定检验水准 H0:(无效假设) = 0,H1:(备择假设) 0 ( 0 ) 检验水准的意义及确定,单、双侧检验的选择: (1)根据专业
27、知识事先不知道会出现什么结果 双侧事先知道只能出现某种结果 单侧 (2)问题的提法 *通常用双侧(除非有充足的理由选用单侧之外, 一般选用保守的双侧较稳妥),2、选定检验方法,计算检验统计量 3、确定P值,作出推断结论 P值:在H0成立的情况下,获得比现有统计量更极端的概率。,(推断的结论统计结论专业结论),P0.05,按 检验水准,不拒绝H0,差异无统计学意义(差异无显著性),还不能认为不同或不等。P0.05 ,按 检验水准,拒绝H0,接受H1, 差异有统计学意义(差异有显著性) ,可以认为不同或不等。P0.01,按 检验水准,拒绝H0,接受H1, 差异有高度统计学意义(差异有高度显著性)
28、,可以认为不同或不等。,确定P 值:(用求出的t 值与查表查出的t 值比较)查t 值表:,( t 越大,P 越小),(1) 求出t=1.833,P0.05,(2) 求出t=4.18,P0.01,(3) 求出t=2.96,0.01P0.05 (简写为P0.05),(4) 求出t=3.25,P=0.01,0.05,0.01,3.250,2.262,P0.05,P0.01,P0.05,第三节 t 检验和 u 检验,t 检验应用条件:当n100时,要求样本取自正态分布的总体,总体标准差未知;两小样本均数比较时,要求两样本总体方差相等( 12= 22)。,一、样本均数与总体均数比较的t检验,(即:样本均
29、数代表的未知总体均数和已知总体均数0的比较),例 已知一般无肝肾疾患的健康人群尿素氮均值为4.882 (mol/L) 。16名脂肪肝患者的尿素氮(mol/L) 的测定值为5.74,5.75,4.26,6.24, 5.36,8.68,6.47,5.24,4.13,11.8,5.57,5.61,4.37,4.59, 5.18,6.96。问脂肪肝患者尿素氮测定值的均数是否高于健康人?,(1)建立假设、确定检验水准,H0:= 0 即脂肪肝患者尿素氮测定值的均值与健康人相等H1:0 即脂肪肝患者尿素氮测定值的均值高于一般健康人,(2)选定检验方法,计算检验统计量,n=16100,故选用t检验。 已知,(
30、3)确定P值,作出推断结论查 t 界值表 为单侧检验,P,t,0.05,0.01,2.602,1.725,P0.025,2.32,P0.05,按 检验水准,拒绝H0 ,接受H1,认为脂肪肝患者尿素氮测定值的均数高于健康人。,0.025,2.131,二、配对设计的均数比较,常见的配对设计主要有以下情形: 自身比较:同一受试对象处理前后或不同部位测定值的比较。(目的是判断此处理有无作用) 同一受试对象(或样品)分别接受两种不同的处理。(目的是比较不同方法之间的差异) 成对设计:将条件近似的观察对象两两配成对子,对子中的两个个体分别给予不同的处理。 (目的是比较不同方法之间的差异),配对t检验的基本
31、原理: 假设两种处理的效应相同,即1= 2 , 则1-2=0,即可看成是差值的样本均数 所代表的未知总体均数d 与已知总体均数 0=0的比较,此时,我们可套用前述t检验 的公式。,例 应用某药治疗8例高胆固醇患者,观察治疗前后血浆胆固醇变化情况,如表9-1,问该药是否对患者治疗前后血浆胆固醇变化有影响?,表9-1 用某药治疗前后血浆胆固醇变化情况,H0: 该药对血浆胆固醇无影响。H1: 该药对血浆胆固醇有影响。,P,t,0.05,0.01,1.860,P0.005,5.17,2.896,确定P值,判断结果自由度n-19-18,查表9-1t界值表,t0.005,83.355,今5.173.355
32、,故P0.05,故按0.05水准,拒绝H0,接受H1,认为差异有高度显著性,可以认为该药对血浆胆固醇有影响。,0.005,3.355,三、两个样本均数比较的t检验,大样本(n50)-u检验小样本-正态分布资料 t 检验偏态分布资料 秩和检验,1、两个大样本均数的比较,例 某地随机抽取正常男性264名,测得空腹血中胆固醇浓度的均数为4.404mmol/L,标准差为1.169mmol/L;随机抽取正常女性160名,测得空腹血中胆固醇浓度的均数为4.288mmol/L,标准差为1.106mmol/L,问男、女胆固醇浓度有无差别?,建立假设,确定检验水准H0:12H1:120.05 选择检验方法,计算
33、检验统计量u值(n1 ,n250),(3)查u 界值表(t 界值表中自由度为 的一行 ), u=1.020.05,按 =0.05水准,不拒绝H0,差异无统计学意义;尚不能认为正常男女血中胆固醇浓度均数不同。,2、两个小样本均数的比较,例 从4059岁有无肾脏囊肿的女性中分别随机抽取10与12人,测定她们的尿素氮水平(mmol/L)见表92,问两组女性尿素氮水平有无不同?,表9-2 4059岁有无肾脏囊肿的女性尿素氮水平(mmol/L),建立假设,确定检验水准 H0:12 H1:12 0.05 选择检验方法,计算检验统计量t值,确定P 值,判断结果查界值表,t0.05,201.725,今1.461.725,故P0.05,故按0.05水准,不拒绝H0,尚不能认为有肾囊肿的女性尿素氮水平高于无肾囊肿的女性。,P,P=?,t=1.46,P=0.05,t,t=1.725,