1、1,总体均数的估计 与假设检验,第二军医大学卫生统计学教研室张罗漫,2,均数的抽样误差与标准误t 分布 总体均数的估计t 检验 假设检验的注意事项 正态性检验和两样本方差比较的F检验,讲课内容,3,第一节均数的抽样误差与标准误,4,了解总体特征的最好方法是对总体的每一个体进行观察、试验,但这在医学研究实际中往往不可行。 对无限总体不可能对所有个体逐一观察,对有限总体限于人力、财力、物力、时间或个体过多等原因,不可能也没必要对所有个体逐一研究(如对一批罐头质量检查)。 借助抽样研究。,5,欲了解某地18岁男生身高值的平均水平,随机抽取该地10名男生身高值作为样本。 由于个体变异与抽样的影响,抽得
2、的样本均数不太可能等于总体均数,造成样本统计量与总体参数间的差异(表现为来自同一总体的若干样本统计量间的差异),称为抽样误差。 抽样误差是不可避免的。 抽样误差是有规律的。,6,1999年某市18岁男生身高值XiN(, 2)=167.7cm=5.3cm,7,样本均数抽样分布具有如下特点:,各样本均数未必等于总体均数 各样本均数间存在差异 样本均数围绕 =167.69cm呈正态分布 样本均数变异度( )较原总体个体值变异度( = 5.3cm)大大缩小,8,9,中心极限定理(central limit theorem),从均数为、标准差为的总体中独立随机抽样,当样本含量n较大时,样本均数的分布将趋
3、于正态分布此分布的均数为,标准差为,10,中心极限定理(central limit theorem),若 X i 服从正态分布 则 服从正态分布若 X i 不服从正态分布 n大(n60):则 近似服从正态分布n小(n60):则 为非正态分布,11,样本统计量的标准差称标准误 (standard error, SE)样本均数的标准差称均数的标准误 (standard error of mean, SEM),12,标准差与标准误的区别,13,第二节 t 分布,14,1908年,英国统计学家 W.S.Gosset 以笔名“Student”在Biometrics杂志上发表论文,首次提出t分布概念,后人
4、又称Students t-distribution,开创了小样本统计推断的新纪元,被认为是统计学发展史上的里程碑之一。,15,William Seely Gosset(18761937,英),16,t 分布的概念,17,t分布的图形与特征t分布为一簇单峰分布曲线,不同,曲线形状不同 t分布以0为中心,左右对称 t分布与有关, 越小, t值越分散,t分布的峰部越低,而两侧尾部翘得越高 当逼近, 逼近 ,t分布逼近u分布,f(t), =(标准正态曲线), =5, =1,0.1,0.2,-4,-3,-2,-1,0,1,2,3,4,0.3,自由度分别为1、5、时的t分布,t 值,20,t分布曲线下面积
5、与横轴t值间关系(附表2),t界值表中一侧尾部面积称单侧概率 () 两侧尾部面积之和称双侧概率(/2)t0.05/2,9=2.262 , t0.05,9=1.833在相同自由度时, 值增大,减小在相同 时,单尾 对应的t值比双尾 的小,21,t0.05/2,9=2.262,t0.05,9=1.833,23,第三节 总体均数的估计,24,一、可信区间的概念,参数估计是用样本统计量推断总体参数。 有点估计和区间估计两种。,点估计是用样本统计量直接估计其总体参数值。如用 估计、S估计等。方法虽简单,但未考虑抽样误差大小。,区间估计是按预先给定的概率(1 ),确定一个包含总体参数的范围。该范围称为参数
6、的可信区间(confidence interval, CI),25,预先给定的概率(1)称为可信度 (confidence level),常取95%或99%。,总体参数是未知的、一个固定的值。(所以要用包含来描述)。 样本统计量是随机变量。,26,二、总体均数可信区间的计算,1. 单一总体均数的可信区间 (1)未知按t分布原理 (2)已知或未知但n足够大(如n60)按u分布原理2. 两总体均数之差的可信区间,27,1.单一总体均数的1可信区间,双侧,(1)未知,单侧,28,故该地18岁男生身高均数的 95%可信区间为(164.35, 169.55)cm。 =167.7cm 双尾,例 在例3-1
7、中抽得第15号样本的=166.95(cm),S=3.64(cm),求其总体均数的95%可信区间。,166.952.2621.1511=164.35169.55(cm),29,1.单一总体均数的1可信区间,双侧,单侧,(2)已知或未知但n足够大:,30,例 某地抽取正常成年人200名,测得其血清胆固醇均数为3.64 mmol/L,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均数95%可信区间。,31,2. 两总体均数之差的1可信区间,双侧,单侧,32,三、可信区间的确切含义,从1999年某市18岁男生身高值总体 N(=167.7cm, =5.3cm)中随机抽取100个样本 计算了1
8、00个估计的95%CI 其中有95个CI包含了有5个不包含 =167.7cm 20号 161.00165.57 31号 161.17167.33 54号 168.05171.00 76号 167.71174.84 82号 167.98174.27,来自N(0,1)的100个样本所计算的95%可信区间示意,34,如果能够进行重复抽样试验,平均有(1)的可信区间包含了总体参数,而不是总体参数落在该范围的可能性为(1)。,在实际工作中,只能根据一次试验结果计算一个可信区间,就认为该区间包含了相应总体参数,该结论犯错误的概率 。,可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,
9、无概率可言。可信度是事前概率。,可信区间的确切含义,35,正确性:可信度1,即区间包含总体参数的理论概率大小,愈接近1愈好。精确性:区间的宽度,区间愈窄愈好。当样本含量为定值时,上述两者互相矛盾。若只顾提高可信度,则可信区间会变宽。,评价可信区间估计的优劣:,36,四、可信区间与参考值范围的区别,可信区间用于估计总体参数,总体参数只有一个 。 参考值范围用于估计个体值的分布范围,个体值有很多 。,95%可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95%。 95%参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。,37,第四节 t 检验,38,例 某医生
10、测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?,样本均数与总体均数间差异的原因:1.总体均数不同?2.总体均数相同,差异由抽样误差造成?,统计推断方法 假设检验(hypothesis test),39,1.进行检验假设假设样本来自某一特定总体 2.确定检验水准确定最大允许误差 3.选定检验方法计算检验统计量计算样本与总体的偏离程度 4.计算与统计量对应的P值 5.作出结论根据小概率反证法思想作出推断,假设检验一般步骤,40,t 检验(Students t-test)设计
11、 完全随机设计单样本完全随机设计两样本配对设计要求 1.n较小(单组60或两组合计60)2.样本随机地取自正态总体3.两样本均数比较时所对应两总体方差相等(homogeneity of variance),41,例 某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?,一、单样本t 检验,1.建立检验假设,确定检验水准 H0: =0=140g/L 铅作业男性工人的平均血红蛋白含量与正常成年男性的相等 H1: 0 =0.05,42,2.计算检验统计量,3.确定P值,作出推
12、断结论|2.138| t0.05/2,35=2.030 P 0.05 按=0.05水准,拒绝H0,接受H1,有统计学意义。可认为从事铅作业男性工人的平均血红蛋白含量低于正常成年男性的。,-2.030,2.030,0, =35,0.025,0.025,t0.05/2,35=2.030 P ( |t| 2.030 )=0.05,t 值,44,二、配对样本t 检验(paired t-test)-变量为配对两组之差的d,配对设计 两同质受试对象分别接受两种不同处理 同一受试对象分别接受两种不同处理 前后测量设计 同一受试对象分别前后接受一种处理,45,46,1.建立检验假设,确定检验水准H0:d =0
13、,两种方法的测定结果相同H1:d0,=0.05,2.计算检验统计量,47,3.确定 P 值,作出推断结论t=7.925t0.001/2,9=4.781 P0.001按=0.05水准,拒绝H0,接受H1,有统计学意义。两种方法对脂肪含量的测定结果不同,哥特里罗紫法测定结果较高。,48,三、两样本t 检验(two sample t-test),1.总体方差相等的 t 检验,49,研究目的:阿卡波糖胶囊降血糖效果 试验设计:同期随机对照试验 受试对象:40名II型糖尿病病人 试验组:阿卡波糖胶囊 对照组:拜唐苹胶囊 观测指标:试验8周后空腹血糖下降值,(1)建立检验假设,确定检验水准H0:1=2 H
14、1:1 2 =0.05,50,(2)计算检验统计量,=n1+n22=(20+201)=38,51,按=0.05 水准,不拒绝H0,无统计学意义。还不能认为阿卡波糖胶囊与拜唐苹胶囊对降低II型糖尿病病人空腹血糖的效果不同。,(3)确定P值,作出推断结论,52,2.总体方差不相等的 t 检验 数据变换后进行t 检验秩转换的非参数检验(第8章)近似t检验 t检验,53,Cochran & Cox法(1950) 对临界值校正 Satterthwaite法(1946) 对自由度校正 Welch法(1947) 对自由度校正,t检验,54,1.单样本u检验适用于n较大(n60)或0已知时,四、u 检验,55
15、,2.两样本u 检验适用于两样本含量较大(n1+n260),56,t检验与u检验区别,公式 查表 与n关系 计算精度t检验 较复杂 需 无关 精确u检验 简单 否 n较大 近似,57,第五节 两均数的等效检验,equivalence test for two means,58,例 研究某新药对高血脂患者胆固醇的降低作用是否相同于标准药物, 设定等效界值=0.52mmol/L 即 就认为两药物等效,59,(1)建立检验假设,确定检验水准H0: 两药物不等效H1: 两药物等效=0.05,60,(2)计算检验统计量, =n1+n2 2=102+100 2=200,61,t=3.569t0.001/2
16、,200=3.340P 0.001。 按=0.05水准, 拒绝H0,接受H1,有统计学意义。 新药与标准药物对降低胆固醇的疗效相同,(3)确定P 值,作出推断结论,62,值须在等效试验前根据专业知识予以确定,应用等效检验的注意事项,研究者可把专业上或公认有临床实际意义的差值作为等效界值 。如: 血压 值为0.67kPa(5mmHg), 胆固醇 值为0.52mmol/L(20mg/dl), 白细胞 值为0.5 109/L(500个/mm3)。 难以确定时可用0.20.5倍标准差作为参考,H0: T C H1: T C ,双单侧检验假设H1同时成立,才认为等效,T试验药 C对照药,H0: T C
17、H1: T C ,64,第六节 假设检验的注意事项,65,反证法 根据研究目的建立假设H0,先假设H0是正确的,再分析样本提供的信息是否支持H0,即在H0成立的条件下计算检验统计量,获得相应P值,根据P值大小来判断。小概率事件原理 小概率事件(P0.05)在一次抽样中发生的可能性很小,如果它发生了,则有理由怀疑H0的正确性,认为H1成立,该结论可能犯5%的错误。,一、假设检验的基本思想,66,1.建立检验假设,确定检验水准 (1) H0 零假设(null hypothesis) (2) H1 备择假设(alternative hypothesis) (3) 检验水准(size of a tes
18、t),二、假设检验的基本步骤,针对总体而不是针对样本而言 H0:某两个总体参数相等,仅一种情况H1: 某两个总体参数不等,有多种情况H0与H1的内容不能互换,否则无法决定 拒绝多种情况中的哪一种情况,67,H0: 1= 2 H1: 1 2 或 1 2 单侧检验 H0: 1= 2 H1: 1 2 双侧检验。 单双侧检验主要根据专业知识预先确定。 双侧检验较保守和稳妥。检验水准:预先规定的拒绝假设H0时的最 大允许误差,它确定了小概率事件标准。 在实际工作中常取0.05,但并非一成不变。,68,应根据变量和资料类型、设计方案、统计推断的目的、方法的适用条件等选择检验统计量。 所有检验统计量都是在H
19、0成立的前提条件下计算出来的。 检验统计量大小反映样本与总体的偏离程度(如t值反映样本均数与总体均数的偏离程度,以标准误进行标准化),2.计算检验统计量,69,P值是决策的依据 P的含义是指从H0规定的总体中随机抽样, 其检验统计量等于及大于现有样本的检验 统计量的概率。即从H0假设总体中随机抽 到差别至少等于现有样本差别的机会。 根据获得的事后概率P,与事先规定的 概率检验水准进行比较,看其是否为 小概率事件而得出结论。,3.确定P 值,作出推断结论,70,P,按检验水准,拒绝H0,接受H1 有统计学意义(统计结论) statistical significance 可认为不同,高于(专业结
20、论) P,按检验水准,不拒绝H0 无统计学意义(统计结论) no statistical significance 还不能认为不同(专业结论) 不拒绝H0不等于接受H0,因此时证据不足,71,三、I型错误和II型错误,大,小;大,小。增加n可同时缩小,。,73,可取单尾亦可取双尾。 II型错误的概率大小用表示, 只取单尾, 值的大小一般未知,须在知道两总体差值 (如12等)、及n 时,才能算出。 1称检验效能(power of a test),过去称把 握度。为当两总体确有差异,按检验水准 所能发现该差异的能力。1只取单尾。 拒绝H0,只可能犯I型错误,不可能犯II型 错误;不拒绝H0,只可能
21、犯II型错误,不 可能犯I型错误。,74,四、假设检验应注意的问题,1.要有严密的研究设计组间应均衡,具有可比性,除对比的主要因素(如临床试验用新药和对照药)外,其它可能影响结果的因素(如年龄、性别、病程、病情轻重等)在对比组间应相同或相近。,75,配对设计计量资料:配对t检验。完全随机设计两样本计量资料: 小样本(任一ni60)且方差齐: 两样本t检验 方差不齐: 近似t检验 大样本(所有ni60): u检验。,2.不同资料应选用不同检验方法,76,3.正确理解“significance”一词的含义过去称差别有或无“显著性”,易造成两样本统计量之间比较相差很大的误解。 现在称差别有或无“统计
22、学意义”,相应推断为:可以认为或还不能认为两个或多个总体参数有差别。,77,4.结论不能绝对化 因统计结论具有概率性质,故“肯定”、“一定”、“必定”等词不要使用。 在报告结论时,最好列出检验统计量的值,尽量写出具体P值,而不简单写成P0.05,以便读者与同类研究进行比较或进行循证医学时采用Meta分析。,78,5.统计“有意义”与医学“有意义” 统计“有意义”对应统计结论,医学“有意义”对应专业结论。 统计结论有意义,专业结论无意义,最终结论没有意义,样本含量过大或设计存在问题。 统计结论无意义,专业结论有意义,检查设计是否合理、样本含量是否足够。,79,6.可信区间与假设检验区别和联系,可
23、信区间可回答假设检验问题H0: =0=140g/L 铅作业男性工人的平均血红蛋 白含量与正常成年男性的相等H1: 0 =0.05 铅作业男性工人平均血红蛋白含量总体均数的95%CI为(122.12,139.54) g/L,未包括0=140g/L 按=0.05水准,拒绝H0 ,接受H1。,80,可信区间说明量的大小即推断总体均数所在范围,假设检验推断质的不同即判断两总体均数是否不等。 可信区间不但能回答差别有无统计学意义,还能提示差别有无实际专业意义。 可信区间不能够完全代替假设检验。可信区间只能在预先规定概率的前提下进行计算,而假设检验能获得一较为确切的P值。,81,第七节 * 正态性检验 和
24、两样本方差比较的F检验,82,两小样本t 检验前提条件: 相应的两总体为正态总体 两总体方差相等,即方差齐性配对t 检验前提条件: 每对数据差值的总体为正态总体,83,一、正态性检验(了解),1.图示法 概率图(probability-probability plot) 以实际累积频率(X)对正态分布理论累积频率(Y)作散点图 分位数图(quantile-quantile plot) 以实际分位数(X)对正态分布理论分位数( )作散点图 如果实际值与理论值吻合,图中散点几乎都在一直线上,可认为该资料服从正态分布,84,(168-167.69)/1.69=0.18 (164-167.69)/1.
25、69=-2.18 (172-167.69)/1.69=2.55,85,2.计算法 偏度(skewness)指分布不对称的程度和方向 ,用偏度系数(总体:1 样本:g1)衡量。 1=0 对称 10 正偏态 10 负偏态 峰度(kurtosis)指分布与正态曲线相比的冒 尖或扁平程度,用峰度系数(总体:2 样本 :g2)衡量。 2=0 正态峰 20 尖峭峰 20 平阔峰 当同时满足对称和正态峰两个条件时,才能 认为该资料服从正态分布。,86,对偏度和峰度各用一个指标评定,其中以 矩法(method of moment)效率最高,对偏度和峰度用一个指标综合评定H0:1=0且 2=0,总体服从正态分布
26、H0:10且 20,总体不服从正态分布=0.10(减少型错误),87,二、两样本方差比较的F检验,第一个样本方差既可能大于也可能小于第二个样本方差,是双侧检验。 公式规定以较大方差作分子,F必然大于1。,附表3仅给出不对称F分布右侧界值,88,研究目的:阿卡波糖胶囊降血糖效果 试验设计:同期随机对照试验 受试对象:40名II型糖尿病病人 试验组:阿卡波糖胶囊 对照组:拜唐苹胶囊 观测指标:试验8周后糖化血红蛋白下降值,89,(1)建立检验假设,确定检验水准。,(2)计算检验统计量,(3)确定P值,作出推断结论 3.7752.15=F0.10(20,19) P0.10 按=0.10水准,拒绝H0,接受H1,有统计学意义。可认为对照组和试验组病人试验8周后糖化血红蛋白下降值总体方差不等。,90,均数的抽样误差与标准误t 分布 总体均数的估计t 检验 假设检验的注意事项 正态性检验和两样本方差比较的F检验,讲课内容,91,谢 谢 !,