1、第四节 t 检验和 u 检验,t 检验(t test):是以t分布为基础的一种判断均数间差异有无显著性的假设检验方法。,其应用条件为:(1)样本取自正态总体。(2)两样本比较时,要求两总体方差齐(相等)。当n较大或总体标准差已知时,由于t分布 u分布,此时即用u检验(u test)。,一、 单个样本的t检验,是检验样本均数 所代表的总体均数与已知总体均数0是否相等的统计方法。即检验该样本是否来自已知的总体。,例51,根据大量调查,已知健康成年男子的脉搏均数为72次/分钟。某医生在某山区随机抽取30名健康男子,求得脉搏均数为74.2次/分钟。问:据此能否认为山区成年男子的脉搏均数高于一般成年男子
2、脉搏均数?,2、计算检验统计量,3、确定P值,作出推断结论,=n-1=30-1=29查附表2,t=1.845对应的P值为: 0.05p0.10;或查附表2,得 =2.045。,今 t0.05,差异无显著性。即在=0.05的水准,不拒绝H0 。根据现有样本信息,尚不能认为山区成年男子平均脉搏数高于一般成年男子。,二、配对样本的t检验,医学研究中配对资料主要有:,(1)同对的两个同质受试对象分别接受两种不同的处理。目的是推断两种处理的效果有无差别。 (2)同一受试对象或同一样本的两个部分,分别接受两种不同的处理。目的是推断两种处理的效果有无差别。 (3)同一受试对象处理(实验或治疗)前后的比较。目
3、的是推断该处理有无作用。,解决此类问题,先要求出各对数据差值d及差值的均数 ,在(1)(2)中若两处理效果无差异,或(2)中该处理无作用,理论上,差值d的总体均数d应为0。所以将这类问题看成是样本差值均数 与总体差值均数d的比较。,其统计量的计算公式为:,例3-6,1、建立假设,确定检验水准H0:d=0 两种方法的检验结果相同H1:d0 两种方法的检验结果不同=0.05,2、计算检验统计量,先计算差值d,然后求出:=0.1087,=7.925,3、确定P值,作出推断结论,=10-1=9查附表2,得t=7.925时相应的p值为:p ,故p0.05,差异有显著性。即在=0.05的水准上,拒绝H0,
4、接受H1,可两种方法的检验结果不同。,例3-7,某医院用某中草药治疗高血压病人10人,治疗前后舒张压(Hg)变化如下,问该种中草药对于降低舒张压有无作用? 病人号 1 2 3 4 5 6 7 8 9 10治疗前 115 110 129 109 110 116 116 116 120 104治疗后 116 90 108 87 92 90 110 120 88 96,1、建立假设,确定检验水准,H0:d=0 该种中草药对于降低舒张压无作用H1:d0 该种中草药对于降低舒张压有作用=0.05,2、计算检验统计量,先计算差值d,然后求出:-13.8 =11.75,=3.71,3、确定P值,作出推断结论
5、,=10-1=9查附表2,得t=3.71时相应的p值为:0.002 ,故p0.05,差异有显著性。,即在=0.05的水准上,拒绝H0,接受H1,可认为该种中草药对于降低舒张压有作用。,三、两独立样本均数的t检验,也叫成组t检验,即检验两样本均数是否来自同一总体,也就是检验分别代表两样本均数( 和)的总体均数(1和2)是否相等。,(一)总体方差相等的的t检验,两总体方差具有齐性时,可将两总体方差合并,估计出两者的共同方差联合方差sc2。在此基础上用t检验进行两独立样本均数的比较。,统计量t值的计算公式为:,例3-7,1、建立假设,确定检验水准H0:1=2 两组患者的血糖值下降值总体均数相等H1:
6、12 两组患者的血糖值下降值总体均数不等=0.05,2、计算检验统计量=-0.642,3、确定P值,作出推断结论,=n1+n2-2=40-2=38查附表2,得t=-0.642时相应的P值为:p0.50,差异无统计学意义。即在=0.05的水准上,不拒绝H0,故可以认为两组患者的血糖值下降值总体均数相等。,(二)总体方差不时的t检验,当两样本方差不具有齐性时,两小样本均数的比较,应采用近似 t 检验-t检验。,许多统计方法要求样本所来自的总体的总体方差相等,如t-test,方差分析等。因此在进行假设检验前应检验相比较的样本所来自的总体方差是否齐,即方差齐性检验。,两样本方差的齐性检验用F检验,其统
7、计量F值的计算公式为:式中: 为较大的样本方差; 为较小的样本方差;1 为分子的自由度;2 为分母的自由度。,当两总体方差相等时(即两样本来自同一总体,两样本方差间的差异为抽样误差所致),F值一般不会离1太远,若算得的F值较大,大于给定的界值时,就可以认为两总体方差不齐。,例4.10 来自正态总体的两随机样本,血清IgA(g/L)测定结果如下。问两个方差是否齐?肺气肿组:n1=11, =2.37,s1=0.426健康组: n2=51, =2.13,s2=0.398,1、建立假设并确定检验水准H0:1=2 两总体方差相等H1:12 两总体方差不等=0.05 2、计算统计量,3、确定p值,做出统计
8、推断查F界值表(方差齐性检验用,附表3),得p0.05,按=0.05的水准不拒绝H0。可以认为两总体方差齐。,当样本来自的两总体方差不齐时( t 检验):统计量t的计算公式为:,此时,统计量的界值按下式计算:然后将t与ta进行比较,或者,先求出校正的自由度:查表得到ta,,然后将t与ta,v进行比较,四、均数间比较的u 检验,u 检验(u-test,也称Z-test),是用检验统计量u来命名的。用于检验样本含量n足够大(n60),或n较小但总体标准差已知时,样本均数与已知总体均数或成组设计资料两样本均数的比较。,一、单个样本u检验,是检验样本均数所代表的总体均数与已知总体均数0是否相等。即检验
9、该样本是否来自已知的总体。其u值的计算公式为:,例4.7 已知正常男性血红蛋白0=140g/L。从某地区人群中随机抽取144名正常男性作为样本, =142g/L,s=13g/L。问该地区正常男性与一般正常男性血红蛋白值有无差别?,1、建立假设并确定检验水准,H0:=0 该地正常男性血红蛋白与一般男子相同H1:0 该地正常男性血红蛋白一般男子不同=0.05,2、计算统计量,3、确定p值,做出统计推断,因u=1.851.96,故p0.05,按=0.05的水准不,不拒绝H0。据此认为该地区正常男性与一般男性血红蛋白值无差异。,二、两独立样本均数比较的u检验,也叫成组u检验,即检验两样本均数是否来自同
10、一总体,也就是检验分别代表两样本均数( 和 )的总体均数(1和2)是否相等。其u值的计算公式为:,式中: 和 分别为两样本均数; 为两样本的合并标准误;分别为两样本的方差;n1、n2分别为两样本的例数。,例4.8 某医师对某地工人、农民全血胆碱酯酶活力进行测定,检验工人143人,均数为3.516mol/L,标准差为0.493mol/L;检测农民156人,均数为3.356mol/L,标准差为0.532mol/L。问该地工人与农民全血胆碱酯酶活力有无差别?,1、建立假设并确定检验水准,H0:1=2 该地工人、农民全血胆碱酯酶活力无差别 H1:12 该地工人、农民全血胆碱酯酶活力有差别 =0.05,
11、2、计算统计量,3、确定p值,做出统计推断,本例u=2.701.96,故p0.05,即在=0.05的水准上,拒绝H0 ,接受H1。据此可以认为该地工人、农民全血胆碱酯酶活力有差别,工人高于农民。,第六节 假设检验中的注意事项,1、有严密的抽样设计; 2、选用的检验方法应符合应用条件; 3、单侧检验和双侧检验; 4、正确理解差异有无显著性的涵义; 5、绝伦不能绝对化; 6、报告结果时,应列出样本算得的统计量,写出p值的确切范围。, 假设检验和可信区间的关系,(1)可信区间亦可回答检验假设的问题 (2)可信区间比假设检验还可提供更多信息,一、可信区间具有假设检验的主要功能 1、单个样本的检验先根据
12、样本指标按一定的置信度(1-)计算出总体指标的置信区间,看该置信区间是否包含了已知的总体均数,若包含就不拒绝H0;否则就拒绝H0。,例 对于山区和一般健康成年男子的脉搏均数的假设检验问题,现用置信区间分析。 研究者关心的是0 ,故求 的95置信区间的单侧下限值(72.15,) 现072次/分,不在此区间内,故按=0.05的水准,拒绝 H0,接受H1,本结论与假设检验的结论一致。,2、两独立样本的检验把(1 2)看成一个差值,按一定的置信度(1-)计算差值的95置信区间,然后看0是否在此区间内。如果在,那么按检验水准,不拒绝H0;否则就拒绝H0,接受H1。,计算公式为:,二、置信区间可提供假设检
13、验不能提供的信息置信区间在回答指标之间的差别有无显著性的同时,还可以提示差别是否具有实际意义(如临床意义)。,三、有些假设检验能提供的信息,置信区间不能提供 假设检验在作出统计推断结论时,可以报告确切的p值,从而较为精确地说明作出结论的概率。而置信区间只能在预先确定的置信度( )上进行推断。,假设检验中的两类错误,类错误:是指拒绝了实际上成立的H0,即“弃真”的错误。类错误:是指不拒绝实际上不成立的H0,即“存伪”的错误。,类错误用表示,类错误用表示。归纳为:拒绝H0 不拒绝H0H0成立 (第一类错误) 推断正确(1-)H0不成立 推断正确(1-) (第二类错误)同时减少和的唯一办法是增加样本
14、含量。,第七节 正态性检验,一、正态性的涵义 1、对称性以均数为中心两侧对称。否侧为偏态分布,包括正偏态和负偏态。 2、正态峰非正态分布时则为平阔峰和尖峭峰。,二、正态性检验方法 (一)图示法1. P-P图,2. Q-Q图,(二)统计检验法1. W检验2. D检验3. 矩法,矩法g1为样本偏度系数和g2为样本峰度系数,总体偏度系数1,总体峰度系数2,理论上,总体偏度系数1=0时为对称,10为正偏态,10时为尖峭峰,20时为平阔峰。,g1、g2为统计量,在计算出g1、g2后,可用u检验对其与相应的总体1=0和2=0进行比较,以此来判断g1、g2是否来自于1=0和2=0的总体,只有两者同时符合时,才为正态分布。,