1、1,主讲人:胡平成,12年11月12日下午14:00-15:40(一大班);16:00-17:40(二大班),中南大学公共卫生学院流行病与卫生统计学系,讲授内容:计量资料的统计推断,2,中南大学公共卫生学院 研究生导师美国洛杉矶加洲大学 留美学者卫生部新生儿窒息复苏培训项目评估组 专家高等学校国家级精品课程医学统计学课程 主讲教师中国卫生信息学会卫生信息标准化专业委员会 常委湖南省健康管理学会社区健康管理专业委员会 副主委 中 国 现 代 医 学 杂 志 编委,胡平成简介,3,讲述内容: 第一节 均数的抽样误差与标准误 第二节 t 分布 第三节 总体均数的估计 第四节 t 检验 第五节 假设检
2、验的注意事项 第六节 正态性检验和两样本方差比较的F 检验,附件,4,第一节 均数的抽样误差与标准误,5,统计推断:由样本信息推断总体特征。,正态(分布)总体: 推断 ! 说明! 为说明抽样误差规律,先用一个实例,后引出理论。,6,图3-1 1999年某市18岁男生身高N(167.7, 5.32)的抽样示意图,7,见P3436表3-1,8,将此100个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制直方图。,图3-2 从正态分布总体N(167.7, 5.32)随机抽样所得样本均数分布,9, ,各样本均数 未必等于总体均数; 各样本均数间存在差异; 样本均数的分布为中间多,两边少,左
3、右基本对称。 样本均数的变异范围较之原变量的变异范围大大缩小。 可算得这100个样本均数的均数为167.69cm、标准差为1.69cm。,样本均数的抽样分布具有如下特点:,10,1、抽样误差:,由个体变异产生的、抽样造成的样本统计量与总体参数的差别均数的抽样误差:由于抽样造成的样本均数与总体均数的差别原因:1)抽样2)个体差异,11,本书以n=60为界限,12,表示样本统计量抽样误差大小的统计指标。 均数标准误:说明均数抽样误差的大小,总体计算公式(3-1),2、标准误(standard error, SE),实质:样本均数的标准差,13,数理统计证明:,14,若用样本标准差S 来估计 ,(3
4、-2)降低抽样误差的途径有: 通过增加样本含量n; 通过设计减少S。,15,第二节 t 分布 (t-distribution),16,t分布概述抽样误差的分布规律 样本 总体 t分布 理论 手段 (桥梁) 目的,17,一、t 分布的概念,18,19,式中 为自由度(degree of freedom, df),3实际工作中,由于 未知,用 代替,则 不再服从标准正态分布,而服从t 分布。,20,二、t 分布的图形与特征,分布只有一个参数,即自由度,21,图3-3 不同自由度下的t 分布图,22,1特征:,23,2 t界值表:详见附表2,可反映t分布曲线下的面积。 单侧概率或单尾概率:用 表示;
5、 双侧概率或双尾概率:用 表示。,24,25,举例:,26,第三节 总体均数的估计,27,一、参数估计用样本统计量推断总体参数。 总体均数估计:用样本均数(和标准差)推断总体均数。,28,29,按预先给定的概率(1)所确定的包含未知总体参数的一个范围。总体均数的区间估计:按预先给定的概率(1)所确定的包含未知总体均数的一个范围。如给定=0.05,该范围称为参数的95%可信区间或置信区间;如给定=0.01,该范围称为参数的99%可信区间或置信区间。,2区间估计(interval estimation):,30,二、总体均数可信区间的计算,31,总体均数可信区间的计算 需考虑: (1)总体标准差是
6、否已知,(2)样本含量n的大小 通常有两类方法: (1)t分布法(2)u分布法,32,1. 单一总体均数的可信区间,33,34,P25,15号样本,35,36,37,例3-3 某地抽取正常成年人200名,测得其血清胆固醇的均数为3.64 mmol/L,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均数的95%可信区间。,38,故该地正常成年人血清胆固醇均数的双侧95%可信区间为(3.47, 3.81)mmolL。,39,40,41,42,例3-4 为了解氨甲喋呤(MTX)对外周血IL-2水平的影响,某医生将61名哮喘患者随机分为两组。其中对照组29例( ),采用安慰剂;实验组32例
7、( ),采用小剂量氨甲喋呤(MTX)进行治疗。测得对照组治疗前IL-2的均数为20.10 IU/ml ( ),标准差为7.02 IU/ml ( );试验组治疗前IL-2的均数为16.89 IU/ml ( ),标准差为8.46 IU/ml ( )。问两组治疗前基线的IL-2总体均数相差有多大?,43,第一步:,44,能否下两组IL-2的总体均数“不同”或“有差别”的结论?,45,三、可信区间的确切涵义,46,1. 95%的可信区间的理解: (1)所要估计的总体参数有95%的可能在我们所估计的可信区间内。 (2)从正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算得100个均数
8、的可信区间,平均约有95个可信区间包含了总体均数 。 (3)但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数。,47,2.可信区间的两个要素 (1)准确度:用可信度(1)表示:即区间包含总体均数的理论概率大小 。 当然它愈接近1愈好,如99%的可信区间比95%的可信区间要好 。 (2)精确度:即区间的宽度 区间愈窄愈好,如95%的可信区间比99%的可信区间要好 。,48,当n确定时,上述两者互相矛盾。 提高准确度(可信度),则精确度降低 (可信区间会变宽),势必降低可信区间的实际应用价值,故不能笼统认为99%可信区间比95%可信区间要好。 相反,在实际应用中,9
9、5%可信区间更为常用。,49,在可信度确定的情况下,增加样本含量可减小区间宽度,提高精确度。,50,四、总体均数可信区间 与参考值范围的区别,51,* 也可用对应于双尾概率时), *也可用对应于双尾概率时),表3-2 总体均数的可信区间与参考值范围的区别,52,谢谢大家!,53,第四节 t 检验,54,1、样本均数 与已知某总体均数 比较的t检验 目的:推断一个未知总体均数 与已知总体均 数 是否有差别,用单样本设计。 2、两个样本均数 与 比较的t检验 目的:推断两个未知总体均数 与 是否有差别,用成组设计。 3、配对设计资料均数比较的t检验 目的:推断两个未知总体均数 与 是否有差别用配对
10、设计。,t 检验,亦称student t 检验,有 下述情况:,55,对于大样本,也可以近似用u检验,56,t检验和u检验的应用条件: 1. t检验应用条件: 样本含量n较小时(如n60) (1)正态分布 (2)方差齐性(homogeneity of variance) 2. u 检验应用条件: 样本含量n较大,或n虽小但总体标准差已知(1)正态分布 (2)方差齐性(homogeneity of variance),57,假设检验过去称显著性检验。它是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。
11、,假设检验基本思想及步骤,58,例3-5 某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L? 130.83g/L 140g/L 原因: 1.可能是总体均数不同 2.是抽样造成的,59,60, H1的内容直接反映了检验单双侧。若H1中只是 0 或 0,则此检验为单侧检验。它不仅考虑有无差异,而且还考虑差异的方向。 单双侧检验的确定,首先根据专业知识,其次根据所要解决的问题来确定。若从专业上看一种方法结果不可能低于或高于另一种方法结果,此时应该用单侧检验。一般认为双侧检验
12、较保守和稳妥。,61,(3) 检验水准,过去称显著性水准,是预先规定的概率值,它确定了小概率事件的标准。在实际工作中常取 = 0.05。可根据不同研究目的给予不同设置。,62,63,64,图3-5 例3-5中P值示意图,65,66,若 ,是否也能下“无差别”或“相等”的结论?,67,一、单样本 t 检验 (one sample / group t-test),即样本均数 (代表未知总体均数)与已知总体均数0(一般为理论值、标准值或经过大量观察所得稳定值等)的比较。其检验统计量按下式计算,68,例3-5 某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为
13、25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?(1)建立检验假设,确定检验水准 H0: =0 =140g/L,即铅作业男性工人平均血红蛋白含量与正常成年男性平均值相等 H1: 0=140g/L,即铅作业男性工人平均血红蛋白含量与正常成年男性平均值不等 =0.05,69,(2)计算检验统计量,70,(3)确定P值,作出推断结论,71,配对t 检验适用于配对设计的计量资料。 配对设计类型:两同质受试对象分别接受两种不同的处理;同一受试对象分别接受两种不同处理;同一受试对象(一种)处理前后。,二、配对t 检验 (paired / matched t-test)
14、,72,例3-6 为比较两种方法对乳酸饮料中脂肪含量测定结果是否不同,某人随机抽取了10份乳酸饮料制品,分别用脂肪酸水解法和哥特里罗紫法测定其结果如表3-3第(1)(3)栏。问两法测定结果是否不同?,73,表3-3 两种方法对乳酸饮料中脂肪含量的测定结果(%),74,(1)建立检验假设,确定检验水准 H0:d0,即两种方法的测定结果相同 H1:d0,即两种方法的测定结果不同 =0.05(2)计算检验统计量 本例n=10,d=2.724,d2=0.8483,,75,按公式(3-16)(3)确定P值,作出推断结论查附表2的t界值表得P0.001。按=0.05水准,拒绝H0,接受H1,有统计学意义。
15、可认为两种方法对脂肪含量的测定结果不同,哥特里罗紫法测定结果较高。,76,三、两样本t检验(two-sample / group t-test),又称成组 t 检验,适用于完全随机设计两样本均数的比较,此时人们关心的是两样本均数所代表的两总体均数是否不等。两组完全随机设计是将受试对象完全随机分配到两个不同处理组。,77,适用范围: 完全随机设计两样本均数的比较 检验方法:依两总体方差是否齐性而定。,78,79,例3-7 为研究国产四类新药阿卡波糖胶囊的降血糖效果,某医院用40名II型糖尿病病人进行同期随机对照试验。试验者将这些病人随机等分到试验组(用阿卡波糖胶囊)和对照组(用拜唐苹胶囊),分别
16、测得试验开始前和8周后的空腹血糖,算得空腹血糖下降值见表3-4,能否认为该国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果不同?,80,81,(2)计算检验统计量,82,(3)确定P值,作出推断结论,83,若变量变换后总体方差齐性 可采用t 检验(如两样本几何均数的t 检验,就是将原始数据取对数后进行t 检验);若变量变换后总体方差仍然不齐 可采用t 检验或Wilcoxon秩和检验。,若两总体方差不等( ),?,84,2. Cochran & Cox近似t 检验(t 检验),85,86,例3-8 在上述例3-7国产四类新药阿卡波糖胶囊的降血糖效果研究中,测得用拜唐苹胶囊的对照组20例病
17、人和用阿卡波糖胶囊的试验组20例病人,其8周时糖化血红蛋白HbA1c(%)下降值如表3-5。问用两种不同药物的病人其HbA1c下降值是否不同?,87,表3-5 对照组和试验组HbA1c下降值(%),对照组方差是试验组方差的3.77倍,经方差齐性检验,认为两组的总体方差不等,故采用近似 t 检验。,88,(1)建立检验假设,确定检验水准(略),(2)计算检验统计量,89,(3)确定P值,作出推断结论。 查t界值表t0.05/2,19=2.093。,由t=0.9650.05。按=0.05水准,不拒绝H0,无统计学意义。还不能认为用两种不同药物的病人其HbA1c下降值不同。,90,3. Satter
18、thwaite近似t检验 :Cochran & Cox法是对临界值校正而Satterthwaite法则是对自由度校正。,91,以=28.428、t=0.965查附表2的t界值表得0.20P0.40。结论同前。,按Satterthwaite法对例3-8做检验,得,92,3.Welch法近似t检验 Welch法也是对自由度进行校正。校正公式为,93,对例3-8,如按Welch法,则,以=29.429、t =0.965查附表2的t界值表得0.20P0.40。结论同前。,94,二三年八月,中南大学公共卫生学院卫生统计学教研室,胡平成 副教授,两个大样本均数比较的u检验公式的讨论,95,两个大样本均数比
19、较的u检验公式的讨论,推断两个正态总体均数是否不相等,如果两个正态总体方差相等(这里不妨设n1n2),用来自两个总体的两面个样本均数比较t的检验:(1),96,两个大样本均数比较的u检验公式的讨论,一般认为,如果是两个大样本(比如样本含量均大于50),则可近似用u检验:(2),97,两个大样本均数比较的u检验公式的讨论,笔者在教学实践中,试在图n1和n2很大的前提下,推导出 ,但却推导出: 公式(1)变形为:,98,两个大样本均数比较的u检验公式的讨论,当n1,n2 较大时,有:(3),99,两个大样本均数比较的u检验公式的讨论,为区别起见,把(3)式的u记为u。 笔者推导出了两个样本方差相差
20、越大或(和)两个样本含量相差越大, u和t的差别越大。 推导过程如下:,100,两个大样本均数比较的u检验公式的讨论,令:,101,两个大样本均数比较的u检验公式的讨论,则:(4),由(4)式可知:,当(n1-n2)越大或(和)|s1-s2|越大时,则 |f1-f2|越大,故有: |t-u|越大.,102,两个大样本均数比较的u检验公式的讨论,并进一步证明了,大样本对小方差(n1n2且s1uu.证明过程如下: 令则:,103,两个大样本均数比较的u检验公式的讨论,(5),104,两个大样本均数比较的u检验公式的讨论,(6),105,两个大样本均数比较的u检验公式的讨论,由(5)、(6)式得:t
21、uu 大样本对大方差(n1n2且s1s2),有: tuu.,也就是说, u总是较u靠近t,即,106,两个大样本均数比较的u检验公式的讨论,因此,笔者认为:只有在两个样本方差相差小和两个样本含量相差小时,才可用u检验代替t检验;而在两个样本方差相差大或(和)两个样本含量相差大时,应该用u检验代替t检验。否则,将会导致错误的结论。如果仅考虑结果的一致性, u检验近似代替t检验比u检验近似代替t检验,其结果更可靠。,107,谢谢大家!,108,第五节 假设检验注意事项,109,一、I型错误和II型错误,假设检验是利用小概率反证法思想,根据P值判断结果,此推断结论具有概率性,因而无论拒绝还是不拒绝H
22、0,都可能犯错误。见表3-8。,110,表3-8 可能发生的两类错误,111,I 型错误:“实际无差别,但下了有差别的结论”,假阳性错误。犯这种错误的概率是(其值等于检验水准)II型错误:“实际有差别,但下了不拒绝H0的结论”,假阴性错误。犯这种错误的概率是(其值未知) 。 但 n 一定时, 增大, 则减少 。 1- :检验效能(power):当两总体确有差别,按检验水准 所能发现这种差别的能力。,112,图3-6 I型错误与II型错误示意图(以单侧u检验为例),113,减少I型错误的主要方法:假设检验时设定 值。,减少II型错误的主要方法:提高检验效能。,提高检验效能的最有效方法:增加样本量
23、。,如何选择合适的样本量:实验设计。,114,二、假设检验应注意的问题 1.要有严密的研究设计 这是假设检验的前提。组间应均衡,具有可比性,也就是除对比的主要因素(如临床试验用新药和对照药)外,其它可能影响结果的因素(如年龄、性别、病程、病情轻重等)在对比组间应相同或相近。保证均衡性的方法主要是从同质总体中随机抽取样本,或随机分配样本。,115,2.不同的资料应选用不同检验方法 应根据分析目的、资料类型以及分布、设计方案的种类、样本含量大小等选用适当的检验方法。如:配对设计的计量资料采用配对t检验。而完全随机设计的两样本计量资料,若为小样本(即任一ni 60)且方差齐,则选用两样本t检验;若方
24、差不齐,则选用近似t检验(Cochran & Cox法或Satterthwaite法)。若为大样本(所有ni60),则可选用大样本u检验。,116,3.正确理解“显著性”一词的含义 差别有或无统计学意义,过去称差别有或无“显著性”,是对样本统计量与总体参数或样本统计量之间的比较而言,相应推断为:可以认为或还不能认为两个或多个总体参数有差别。,117,4.结论不能绝对化 因统计结论具有概率性质,故“肯定”、“一定”、“必定”等词不要使用。在报告结论时,最好列出检验统计量的值,尽量写出具体的P值或P值的确切范围,如写成P=0.040或0.02P0.05,而不简单写成P0.05,以便读者与同类研究进
25、行比较或进行循证医学时采用Meta分析。,118,5.假设检验是为专业服务的,统计结论必须和专业结论有机地相结合,才能得出恰如其分、符合客观实际的最终结论。若统计结论和专业结论一致,则最终结论就和这两者均一致(即均有或均无意义);若统计结论和专业结论不一致,则最终结论需根据实际情况加以考虑。若统计结论有意义,而专业结论无意义,则可能由于样本含量过大或设计存在问题,那么最终结论就没有意义。,119,6.可信区间与假设检验各自不同的作用,要结合使用。,一方面,可信区间亦可回答假设检验的问题,算得的可信区间若包含了H0,则按水准,不拒绝H0;若不包含H0,则按水准,拒绝H0,接受H1。,120,另一
26、方面,可信区间不但能回答差别有无统计学意义,而且还能比假设检验提供更多的信息,即提示差别有无实际的专业意义。,121,图3-7 可信区间在统计推断上提供的信息,122,虽然可信区间亦可回答假设检验的问题,并能提供更多的信息,但并不意味着可信区间能够完全代替假设检验。可信区间只能在预先规定的概率 检验水准的前提下进行计算,而假设检验能够获得一较为确切的概率P值。,123,第六节,正态性检验和两样本方差比较的F检验,124,t 检验的应用条件是正态总体且方差齐性;配对t 检验则要求每对数据差值的总体为正态总体。进行两小样本t检验时,一般应对资料进行方差齐性检验,尤其两样本方差悬殊时。若方差齐,采用
27、一般的t 检验;若方差不齐,则采用t检验。,125,一、正态性检验 (normality test),1图示法:P-P plot,Q-Q plot2矩法偏度系数(skewness),峰度系数(kurtosis)。3 W 检验法4 D 检验法,126,图3-8 例3-1中100个样本均数的P-P图,127,图3-9 例3-1中100个样本均数的Q-Q图,128,129,130,例3-9 试用矩法对表3-1中计算机模拟抽样所得100个样本均数进行正态性检验。,131,(2)计算检验统计量,132,二、两样本方差比较的F检验 两小样本t 检验时,检查两样本方差代表的总体方差是否相等(决定t 检验的方
28、法)。,1. Levene检验2. F检验,133,134,135,图3-10 不同自由度时F分布的图形,136,(2) 计算检验统计量,例3-10 对例3-7,用F 检验判断两总体空腹血糖下降值的方差是否不等。,(1) 建立检验假设,确定检验水准,137,(3) 确定P值,作出推断结论,138,三、变量变换,常用的变量变换有对数变换、平方根变换、倒数变换、平方根反正弦变换等,应根据资料性质选择适当的变量变换方法。,139,140,141,142,小结,1. 均数的标准误与标准差的区别,2.两均数差别检验的比较:,大样本也可近似用u检验,144,3.假设检验的步骤及有关概念,(1)基本思想:“小概率事件在一次抽样试验中几乎是不可能发生”的原理。 (2)步骤:三部曲 (3)类错误、类错误 (4)检验效能(1-),145,练 习 题 一最佳选则题 全做 三计算分析题 ,,146,谢谢大家!,