1、检验,第七章,目的:推断两个总体率或构成比之间有无差别 多个总体率或构成比之间有无差别 多个样本率比较的分割 两个分类变量之间有无关联性 频数分布拟合优度的检验。检验统计量:应用:计数资料,第一节 四格表资料的 检验,一、 检验的基本思想,(1) 分布是一种连续型分布:按分布的密度函数可给出自由度=1,2,3,的一簇分布曲线 (图7-1)。(2) 分布的一个基本性质是它的可加性: 如果两个独立的随机变量X1和X2分别服从自由度1和2的分布,即 ,那么它们的和( X1+X2 )服从自由度( 1+2 )的 分布,即 。,1 分布,2 检验的基本思想,例7-1 某院欲比较异梨醇口服液(试验组)和氢氯
2、噻嗪+地塞米松(对照组)降低颅内压的疗效。将200例颅内压增高症患者随机分为两组,结果见表7-1。问两组降低颅内压的总体有效率有无差别?,表7-1 两组降低颅内压有效率的比较,本例资料经整理成图7-2形式,即有两个处理组,每个处理组的例数由发生数和未发生数两部分组成。表内有 四个基本数据,其余数据均由此四个数据推算出来的,故称四格表资料。,图7-2 四格表资料的基本形式,基本思想:可通过其理论公式来理解。,式中,A为实际频数(actual frequency),T为理论频数(theoretical frequency)。,理论频数由下式求得:,式中,TRC为第R行C列的理论频数,nR为相应的行
3、合计,nC为相应的列合计。,若检验假设H0:1=2成立,四个格子的实际频数A与理论频数T相差不应该很大,即统计量 不应该很大。如果 值很大,即相对应的P值很小,若 ,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即12。,由公式(7-1)还可以看出: 值的大小还取决于 个数的多少(严格地说是自由度的大小)。由于各 皆是正值,故自由度愈大, 值也会愈大;所以只有考虑了自由度的影响, 值才能正确地反映实际频数A和理论频数T的吻合程度。,(1) 建立检验假设,确定检验水平。 H0:1=2 即试验组与对照组降低颅内压的总体有效率相等 H1
4、:12 即试验组与对照组降低颅内压的总体有效率不相等=0.05。,3. 假设检验步骤,(2)求检验统计量值。,二、四格表资料检验的专用公式,三、四格表资料检验的校正公式,分布是一连续型分布,而四格表资料属离散型分布,由此计算得的 统计量的抽样分布亦呈离散性质。为改善 统计量分布的连续性,则进行连续性校正。,四格表资料 检验公式选择条件:,,专用公式;,校正公式;,直接计算概率。,连续性校正仅用于 的四格表资料,当 时,一般不作校正。,例7-2 某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将78例脑血管疾病患者随机分为两组,结果见表7-2。问两种药物治疗脑血管疾病的有效率是否相等?,表
5、7-2 两种药物治疗脑血管疾病有效率的比较,本例 ,故用四格表资料 检验的校正公式,,查 界值表得 。按检验水准不拒绝 ,尚不能认为两种药物治疗脑血管疾病的有效率不等。,本资料若不校正时,结论与之相反。,第二节,配对四格表资料的 检验,例7-3 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定,结果见表7-3。问两种方法的检测结果有无差别?,表7-3 两种方法的检测结果,上述配对设计实验中,就每个对子而言,两种处理的结果不外乎有四种可能:,两种检测方法皆为阳性数(a); 两种检测方法皆为阴性数(d); 免疫荧光法为阳性,乳胶凝集法为阴性数(b); 乳胶凝集
6、法为阳性,免疫荧光法为阴性数(c)。,式中,a, d 为两法观察结果一致的两种情况, b, c为两法观察结果不一致的两种情况。,检验统计量为,注意:,本法一般用于样本含量不太大的资料。因为它仅考虑了两法结果不一致的两种情况(b,c),而未考虑样本含量n和两法结果一致的两种情况(a,d)。所以,当n很大且a与d的数值很大(即两法的一致率较高),b与c的数值相对较小时,即便是检验结果有统计学意义,其实际意义往往也不大。,检验步骤:,第三节,四格表资料的Fisher确切概率法,条件:理论依据:超几何分布,非 检验的范畴。,例7-4 某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV的效果,将33例HB
7、sAg阳性孕妇随机分为预防注射组和非预防组,结果见表7-4。问两组新生儿的HBV总体感染率有无差别?,表7-4 两组新生儿HBV感染率的比较,一、基本思想,在四格表周边合计数固定不变的条件下,计算表内4个实际频数变动时的各种组合之概率 ;再按检验假设用单侧或双侧的累计概率 ,依据所取的检验水准 做出推断。,1各组合概率Pi的计算 在四格表周边合计数不变的条件下,表内4个实际频数 a,b,c,d 变动的组合数共有“周边合计中最小数+1”个。如例7-4,表内4个实际频数变动的组合数共有9+1=10个,依次为:,各组合的概率Pi服从超几何分布,其和为1。,计算公式为,!为阶乘符号,2累计概率的计算
8、( 单、双侧检验不同),二、检验步骤( ),表7-5 例7-4的 Fisher确切概率法计算表,例7-5 某单位研究胆囊腺癌、腺瘤的P53基因表达,对同期手术切除的胆囊腺癌、腺瘤标本各10份,用免疫组化法检测P53基因,资料见表7-6。问胆囊腺癌和胆囊腺瘤的P53基因表达阳性率有无差别?,表7-6 胆囊腺癌与胆囊腺瘤P53基因表达阳性率的比较,本例 a+b+c+d=10,由表7-7可看出,四格表内各种组合以i=4和i=5的组合为中心呈对称分布。,表7-7 例7-5的Fisher确切概率法计算表,*为现有样本,(1)计算现有样本的D*和P*及各组合下四格表的Di。本例D*=50,P*=0.02708978。 (2)计算满足Di50条件的各组合下四格表的概率Pi。 (3)计算同时满足Di50和PiP*条件的四格表的累计概率。本例为P7和P8,(4)计算双侧累计概率P。P0.05,按=0.05检验水准不拒绝H0,尚不能认为胆囊腺癌与胆囊腺瘤的P53基因表达阳性率不等。,注意:,