1、2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,第七章 2检验,2检验(Chi-square test)也称卡方检验,常用于分类变量资料的统计推断,以2分布为理论基础,是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,可用于两个或多个率间的比较,计数资料的关联度分析,拟合优度检验等等。,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,本章内容,第一节 2分布和拟合优度检验 第二节 四格表资料的2检验 第三节 行列(RC)表资料的2检验 第四节 配对设计四格
2、表资料的2检验 第五节 四格表资料的确切概率法,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,第一节 2分布和拟合优度检验,一、 2分布二、拟合优度检验,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,一、 2分布,(1) 自由度为1的,分布,若,则,的分布称为自由度为1的,分布.,(chi-square distribution),记为,或,.,图形:从纵轴某个点开始单调下降,先凸后凹.,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,2019/4/14,青岛大学医学院公共卫生系流行病与卫
3、生统计学教研室 周晓彬制作,2分布(chi-square distribution),2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,第二节 四格表资料的2检验,表 两种疗法的心血管病病死率比较,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,2检验的基本公式,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,卡方检验的基本原理,若检
4、验假设H0:1=2成立,四个格子的实际频数A与理论频数T相差不应该很大,即统计量 不应该很大。如果 值很大,即相对应的P值很小,若 ,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即12。,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,四格表专用公式,上述基本公式由Pearson提出,因此软件上常称这种检验为Pearson卡方检验,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,连续性校正公式,2分布是一连续型分布,而行列表资料属离散型分布,对其进行校正称为连续
5、性校正(correction for continuity),又称Yates校正(Yates correction)。 当n40,而1T5时,用连续性校正公式 当n40或T1时,用Fisher精确检验(Fisher exact test ),校正公式:,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,实例,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,第三节 行列(RC) 表资料的2检验,行列表的x2检验是对多个样本率(或构成比)的检验。基本公式:x2 =(A-T)2/T专用公式:x2 =n(A2 /(nR nC)-1)自由
6、度:=(R-1)(C-1)适用条件:表中不宜有1/5以上格子的理论频数小于5,或有一个格子的理论频数小于1。,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,行列表x2资料检验的注意事项,表中不宜有1/5以上格子的理论频数小于5,或有一个格子的理论频数小于1。 增加样本含量以增大理论数 根据专业知识删减或合并 计算确切概率,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,肝癌病人与健康人饮用醋冷水习惯(x2=2.9484,P0.05),2019/
7、4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,第四节 配对设计四格表资料的2检验,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,第五节 四格表资料的确切概率法,由R.A.Fisher(1934年)提出,理论依据为超几何分布,简称Fisher 确切概率法(Fisher exact probability). T1或n40及2检验后P值接近时使用本法。 在有计算机和统计软件的条件下,大样本也可使用本法。 基本思想:在四格表周边合计不变的条件下,直接计算表内4个格子数据的各种组合的概率,然后根据实际情况计算单侧或双侧累计概率,与比较,作出
8、结论。,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,实例,两种药物治疗精神抑郁症的效果分组 治疗效果 合计 有效率%有效 无效 甲药 7(a) 5(b) 12 58.3 乙药 3(c) 8(d) 11 27.3 合计 10 13 23 43.5,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,各种组合的四格表计算的确切概率 四格表序号 有效 无效 P1 P2 P1P2 adbc AT P 1 7 5 0.583 0.273 0.310 41 1.8 0.11423 8 2 8 4 0.667 0.182 0.485 64
9、2.8 0.02382 9 3 9 3 0.750 0.091 0.659 87 3.8 0.00211 10 4 10 2 0.833 0.000 0.833 110 4.8 0.00010 11 5 6 6 0.500 0.364 0.136 18 0.8 4 7 6 5 7 0.417 0.455 0.038 5 0.2 5 6 7 4 8 0.333 0.545 0.212 28 1.2 6 5 8 3 9 0.250 0.636 0.386 51 2.2 0.06357 4 9 2 10 0.167 0.727 0.560 74 3.2 0.00958 3 10 1 11 0.083 0.818 0.735 97 4.2 0.00069 2 11 0 12 0.000 0.909 0.909 108 5.2 0.000010 0P=0.214,2019/4/14,青岛大学医学院公共卫生系流行病与卫生统计学教研室 周晓彬制作,双侧检验的P值是指P1P20.310的各种组合的四格表确切概率相加所得到的累积概率;单侧检验则取P1P20.310或P1P2-0.310一侧的累积概率为单侧P值。,