1、检验,第九讲,目的:1、推断两个总体率或构成比之间有无差别多个总体率或构成比之间有无差别多个样本率比较的分割两个分类变量之间有无关联性2、频数分布拟合优度的检验。检验统计量:应用类型:计数资料,(1) 分布是一种连续型分布:按分布的密度函数可给出自由度=1,2,3,的一簇分布曲线 。(2) 分布的一个基本性质是可加性: 如果两个独立的随机变量X1和X2分别服从自由度1和2的分布,即 ,那么它们的和( X1+X2 )服从自由度( 1+2 )的 分布,即 。,附表8给出了自由度取不同值时, 分布单侧尾部面积的界值 ,它满足条件根据的定义,当自由度 时, 分布的界值为标准正态分布界值的平方。,第一节
2、 2 2表 检验,目的:推断两个总体率(构成比)是 否有差别(和u检验等价) 要求:两样本的两分类个体数排列成四格表资料,一、两独立样本率检验 (一)两独立样本率资料的四格表形式,例1 为研究肿瘤标志物癌胚抗原(CEA)对肺癌的诊断价值,随机抽取72例确诊为肺癌的患者为肺癌组,114例接受健康体检的非肺癌患者为对照组。用CEA对其进行检测,结果呈阳性反应者病例组中33例,对照组中10例。问两组人群的CEA阳性率有无差异?,表1 CEA对两组人群的诊断结果*,* 括号内为理论频数。,本例资料经整理成表1形式,即有两个处理组,每个处理组的例数由发生数和未发生数两部分组成。表内有33、39、10、1
3、04 四个基本数据,其余数据均由此四个数据推算出来的,故称四格表资料。,(二) 检验的基本思想,表9-2 四格表资料的基本形式,基本思想:可通过 检验的基本公式来理解。,式中,A为实际频数(actual frequency),T为理论频数(theoretical frequency)。,理论频数 是根据检验设 ,且用合并率 来估计而定的。,理论频数由下式求得:,式中,TRC 为第R 行C 列的理论频数nR 为相应的行合计nC 为相应的列合计,检验统计量 值反映了实际频数与理论频数的吻合程度。若检验假设H0:1=2成立,四个格子的实际频数A 与理论频数T 相差不应该很大,即统计量 不应该很大。如
4、果 值很大,即相对应的P 值很小,若 ,则反过来推断A与T 相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即12 。,由公式(9-1)还可以看出: 值的大小还取决于 个数的多少(严格地说是自由度的大小)。由于各 皆是正值,故自由度愈大, 值也会愈大;所以只有考虑了自由度的影响, 值才能正确地反映实际频数A和理论频数T 的吻合程度。检验的自由度取决于可以自由取值的格子数目,而不是样本含量n。四格表资料只有两行两列,=1,即在周边合计数固定的情况下,4个基本数据当中只有一个可以自由取值。,(1) 建立检验假设,确定检验水平。 H0:1=2 H1:12=
5、0.05。,(三) 假设检验,(2)求检验统计量值,=(2-1)(2-1)=1,四格表资料检验的专用公式,(四)四格表资料检验的校正公式,分布是一连续型分布,而四格表资料属离散型分布,由此计算得的 统计量的抽样分布亦呈离散性质。为改善 统计量分布的连续性,则进行连续性校正。,,不校正的理论或专用公式;,校正公式;,直接计算概率。,四格表资料 检验公式选择条件:,连续性校正仅用于 的四格表资料,当 时,一般不作校正。,例9-2 将116例癫痫患者随机分为两组,一组70例接受常规加高压氧治疗(高压氧组),另一组46例接受常规治疗(常规组),治疗结果见表7-4。问两种疗法的有效率有无差别?,表9-3
6、 两种疗法治疗癫痫的效果,本例 ,故用四格表资料 检验的校正公式,,查 界值表得 。按检验水准不拒绝 ,尚不能认为组有效率不等。,本资料若不校正时,结论与之相反。,二、两相关样本率检验(McNemar检验),配对四格表资料的 检验,与计量资料推断两总体均数是否有差别有成组设计和配对设计一样,计数资料推断两个总体率(构成比)是否有差别也有成组设计和配对设计,即四格表资料和配对四格表资料。,例9-3某抗癌新药的毒理研究中,将78只大鼠按性别、窝别、体重、年龄等因素配成39对,每个对子的两只大鼠经随机分配,分别接受甲剂量和乙剂量注射,试验结果见表9-4。试分析该新药两种不同剂量的毒性有无差异。,表9
7、-4 某抗癌新药两种剂量的毒理实验结果,上述配对设计实验中,就每个对子而言,两种处理的结果不外乎有四种可能:,两只大鼠均死亡(甲乙)数(a); 两只均生存(甲乙)数(d); 其中一只死亡(甲乙 )数(b); 其中一只死亡(甲乙)数 (c)。,其中,a, d 为两法观察结果一致的两种情况, b, c为两法观察结果不一致的两种情况。,检验统计量为,注意:,本法一般用于样本含量不太大的资料。因为它仅考虑了两法结果不一致的两种情况(b, c),而未考虑样本含量n和两法结果一致的两种情况(a, d)。所以,当n很大且a与d的数值很大(即两法的一致率较高),b与c的数值相对较小时,即便是检验结果有统计学意
8、义,其实际意义往往也不大。,第二节,R C表 检验,行列表资料, 多个样本率比较时,有R行2列,称为R 2表; 两个样本的构成比比较时,有2行C列,称2C表; 多个样本的构成比比较,以及双向无序分类资料关联性检验时,有行列,称为R C表。,检验统计量,一、多个样本率的比较,例9-4用A、B、C三种不同方法分别处理新生儿脐带,发生感染的情况见表9-6,试比较3种不同方法的脐带感染率有无差异。 表9-6 三种脐带处理方法的脐带感染情况,二、两组构成比的比较,例9-5为研究某种新药对尿路疼痛的止痛效果,将有尿路疼痛的患者144例随机分为两组,每组72例,一组服该新药(治疗组),另一组服安慰剂(对照组
9、)。两组患者尿路疼痛的原因见表9-7,问两组患者尿路疼痛原因的分布有无差异?,表9-7 两组患者尿路疼痛原因的分布,三、多组构成比的比较,例6 在某项疼痛测量研究中,给160例手术后疼痛的患者提供四种疼痛测量量表,即直观模拟量表(VAS),数字评估量表(NRS),词语描述量表(VDS),面部表情疼痛量表(FPS),患者首选的量表以及患者的文化程度见表9-8,问患者首选疼痛量表与文化程度是否有关?,表9-8 不同文化程度患者首选疼痛量表的类型,四、 R C表 检验的条件,1行列表中的各格T1,并且1T5的格子数不宜超过1/5格子总数,否则可能产生偏性。处理方法有三种:,增大样本含量以达到增大理论频数的目的,属首选方法,只是有些研究无法增大样本含量,如同一批号试剂已用完等。,根据专业知识,删去理论频数太小的行或列,或将理论频数太小的行或列与性质相近的邻行或邻列合并。这样做会损失信息及损害样本的随机性。 注意:不同年龄组可以合并,但不同血型就不能合并。 改用双向无序RC表的Fisher确切概率法(可用SAS软件实现)。,