1、第11章 2检验,陈卫中 讲师 公共卫生学教研室 2019年1月3日,2检验,率或构成比概率齐性检验:比较两个或多个总体率或构成比有无差别 拟合优度检验:检验某事物的频数分布是否符合特定理论分布 关联性分析/独立性检验:说明行变量和列变量是否相关 线性趋势检验:分析率是否随因素的分层等级变化的趋势,引 例,例11.1 某研究者欲比较甲、乙两药治疗小儿上消化道出血的效果,将90名患儿随机分为两组,一组采用甲药治疗,另一组采用乙药治疗,一个疗程后观察结果,见表11.1。问两药治疗小儿上消化道出血的有效率是否有差别?,表11.1 甲、乙两药治疗小儿上消化道出血的效果,列联表 (contingency
2、 table):观测数据按两个定性变量分类所列出的频数表。也叫RC表:行变量有R个类别,列变量有C个类别。,四格表(foukfold table) :22表,列联表 (contingency table),列联表 (contingency table),列联表的形式,边缘合计(makginal sum),行合计,列合计,总合计,四格表,表11.8 独立样本四格表形式,分 析,分析目的 两种药物有效率是否有差别,即甲乙 变量类型 效应指标按是否有效分成两类(有效/无效),二分类资料 设计类型 实验设计成组设计 已知条件,表11.1 甲、乙两药治疗小儿上消化道出血的效果,假设检验 (2检验),乙药
3、好于甲药,抽样误差,乙药好于甲药,60.00%(甲)88.89%(乙),2检验,建立检验假设,表11.1 甲、乙两药治疗小儿上消化道出血的效果,按有效率74.44,理论上:甲药组有效人数为:甲药组无效人数为:乙药组有效人数为:乙药组无效人数为:,27,2检验,表11.1 甲、乙两药治疗小儿上消化道出血的效果,2检验,实际频数(A)和理论频数(T)之间的吻合程度:,每个格子的差异,形成综合性指标,并去除正负号的影响,考虑每个格子对总差异的相对贡献大小,A-T,2 2( ), =RC-R-(C-1) = (R-1)(C-1),2展开公式,2的取值,若假设成立,即甲= 乙 理论上2=0 2不正好等于
4、0 ,即20是由于抽样误差引起,但出现较大2的可能性较小 假设不成立,即甲 乙 20,2和2分布,22 () (近似服从) 如果假设成立,则在一次抽样中实际数与理论数之差一般不会很大,2值应较小 在2 ()分布下,若出现的2值大到为假设成立条件下的小概率事件,就不能单纯用抽样误差来解释这种实际频数A和理论频数T的差异,则拒绝假设,2和2分布,英国统计学家Yates F认为,2检验中的 2 只是近似服从2分布,尤其当 =1,四格表(=1),T5(Tmin 5)且n40 样本例数或理论频数太小的处理办法 1T5且n40时, 需进行连续性校正, 或改用确切概率计算法T1或n40时, 需用确切概率计算
5、法,RC表(1),Cochkan(1954年)认为不宜有1/5以上格子的理论频数小于5, 或有一个理论频数小于1。 理论频数太小的处理办法 增大样本例数 删除或合并理论频数太小的行或列 确切概率法,对总体提出某种假设,计算理论频数T,用2统计量度量A、T的吻合程度,在2分布的基础上说明样本2值是否发生小概率事件,2检验的基本思想,2分布和2统计量 之间的关系,引 例,例11.1 某研究者欲比较甲、乙两药治疗小儿上消化道出血的效果,将90名患儿随机分为两组,一组采用甲药治疗,另一组采用乙药治疗,一个疗程后观察结果,见表11.1。问两药治疗小儿上消化道出血的有效率是否有差别?,2检验,表11.1
6、甲、乙两药治疗小儿上消化道出血的效果,引例具体步骤,1.建立检验假设,确立检验水准H0:两种药有效率相同,即甲= 乙H1:两种药有效率不同,即甲 乙=0.05 2.计算检验统计量由于Tmin=11.55,且n=9040,故无需校正。,3.确定P值,作出统计推断查2界值表,得0.01P0.001。按=0.05水准,拒绝H0,接受H1,差别有统计学意义,可以认为两药治疗小儿上消化道出血的有效率不同,乙药较高。,2界值表,例11.3,某研究者欲比较A、B、C 三种方案治疗轻、中度高血压的疗效,将年龄在5070岁的240例轻、中度高血压患者随机等分为3组,分别采用三种方案治疗。一个疗程后观察疗效,结果
7、见表11.4。问三种方案治疗轻、中度高血压的有效率有无差别?,表11.4 三种方案治疗轻、中度高血压的效果,引例具体步骤,1.建立检验假设,确立检验水准H0:3种疗法的有效率相同,即A=B=CH1:3种疗法的有效率不全相同,即A、B、C 不全相同 =0.05,2.计算检验统计量,=(3-1)(2-1)=2,3.确定P值,作出统计推断查附表9, 2界值表,得P0.005。按=0.05水准拒绝H0,接受H1,差别有统计学意义,故可以认为三种方案治疗轻、中度高血压的有效率不全相同。,多组率(或构成比)的精确比较,多组率(或构成比)比较的2检验结论为拒绝检验假设, 只能认为各总体率(或总体构成比)之间
8、总的说来有差别, 但不能说明它们彼此间都有差别, 或某两者间有差别 卡方分割法 调整检验水准: 高级统计方法,例11.4,表11.5 甲、乙两县应住院者未住院原因构成比(%),行列表资料的几个特殊问题,2值和2分布 2检验要求理论频数不宜太小 理论频数太小的处理办法 增大样本例数 删除或合并理论频数太小的行或列 确切概率法,行列表资料的几个特殊问题,关于单向有序行列表的统计处理,表11.6 甲、乙两药治疗尿道感染的疗效,行列表资料的几个特殊问题,多组率(或构成比)比较的2检验结论为拒绝检验假设, 只能认为各总体率(或总体构成比)之间总的说来有差别, 但不能说明它们彼此间都有差别, 或某两者间有
9、差别 卡方分割法 调整检验水准: 高级统计方法,卡方分割法,表11.4 三种方案治疗轻、中度高血压的效果,例11.6,某研究者欲比较心电图和生化测定诊断低钾血症的价值,分别采用两种方法对79名临床确诊的低钾血症患者进行检查,结果见表11.9。问两种方法的检测结果是否不同?,表11.9 两种方法诊断低血钾的结果,分 析,分析目的 两种方法的检出率是否有差别 变量类型 效应指标按是否有效分成两类(+/-),二分类变量 设计类型 配对设计 已知条件,配对设计四格表McNemar检验,表11.8 配对四格表形式,McNemar检验中的2和2分布,b+c40时, 无须校正b+c40时, 需计算校正值,表
10、11.9 两种方法诊断低血钾的结果,完整步骤,建立检验假设,确立检验水准H0 :两种方法的总体检出率相同,即B=CH1 :两种方法的总体检出率不同,即BC=0.05 计算检验统计量,,故需进行校正。,确定P值,作出统计推断查附表9, 2界值表,得P0.005,按=0.05水准拒绝H0,接受H1,差别有统计学意义,故可以认为两种方法的检出率不同,由于心电图检测的阳性率为88.61%,生化测定方法的阳性率为62.03%,则心电图的阳性率高于生化测定方法。,引例,例11.7 某研究欲比较X线和CT对强直性脊柱炎(AS)骶髂关节病变的诊断价值,收集临床上诊断为AS的患者136 例,对272个骶髂关节分
11、别拍摄X线平片和CT扫描,结果见表11.11。问两种方法诊断骶髂关节病变的分级有无差别?,表11.11 两种方法诊断骶髂关节病变的分级情况,分 析,分析目的 诊断骶髂关节病变的分级有无差别 变量类型 效应指标按是否诊断结果分成4类,多分类变量 设计类型 配对设计 已知条件,配对设计rr列联表的分析,配对rr列联表的形式,平方表(Square table),表11.11 两种方法诊断骶髂关节病变的分级情况,配对设计kk列联表的分析,检验边缘分布概率/频数是否相同 检验主对角线概率/频数分布是否对称包卡尔对称性检定(Bowkers test of symmetry),对总体提出某种假设,计算理论频
12、数T,用2统计量度量A、T的吻合程度,在2分布的基础上说明是否发生小概率事件,2检验的基本思想,2分布和2统计量 之间的关系,2检验,率或构成比概率齐性检验:比较不同总体率或构成比有无差别 拟合优度检验:检验某事物的频数分布是否符合特定理论分布 关联性分析/独立性检验:说明行变量和列变量是否相关 线性趋势检验:分析率是否随因素的分层等级变化的趋势,拟合优度检验,按照该理论分布计算理论频数,利用2检验,推断实际频数与理论频数的吻合程度。 假设频数分布服从理论分布 若理论分布参数未知,用样本信息加以估计,估计参数的个数用s表示 计算k组(组段) 的理论频数T 用2统计量度量A、T的吻合程度 在2分
13、布的基础上说明是否发生小概率事件,2检验条件,样本含量应充分大,每个组段的理论频数均应5 将理论频数小于5的组段与相邻组段合并 当=1时,可进行连续性校正,2检验过程,建立检验假设,确立检验水准H0:频数分布服从理论分布H1:频数分布不服从理论分布=0.1 计算检验统计量 确定P值,作出统计推断若P认为服从理论分布若P认为不服从理论分布,调查成都医学院100名学生,其中男性38人,女性62人,试判断成都医学院的男女构成是否与全国的性别构成1:1不同?,50,50,50,50,5.76,2-1=1,2检验,率或构成比概率齐性检验:比较不同总体率或构成比有无差别 拟合优度检验:检验某事物的频数分布
14、是否符合特定理论分布 关联性分析/独立性检验:说明行变量和列变量是否相关(有关联) 线性趋势检验:分析率是否随因素的分层等级变化的趋势,列联表,列联表的形式,若事件X、Y相互独立,则P(XRYc)=P(XR)P(Yc),关联性分析,例13.6 为研究青少年在校情况与对艾滋病知晓情况之间的关系,某研究者在某地共调查了384名青少年,并对每名青少年按是否在校和对艾滋病是否知晓两种属性交叉分类,如表13.3所示。试问两变量是否存在关联性?,表13.3 某地青少年是否在校与对艾滋病是否知晓的列联表,假设知晓情况和是否在校相互独立,分析过程,(1) 建立检验假设,确定检验水准H0:青少年是否在校与对艾滋病是否知晓之间互相独立(无关)H1:青少年是否在校与对艾滋病是否知晓之间互相关联=0.05 (2) 计算检验统计量 (3) 确定P值,作出统计推断,总 结,2检验的适用范围 2检验的基本思想 2检验的适用条件(是否需要校正?是否需要换用其他方法?),思 考,2检验属于单侧检验还是双侧检验? 2检验属于参数检验还是非参数检验?,