1、病例对照研究 (Case-control study),流行病学教研室 黄燕惠 邮箱:,提 问,1、病例对照研究定义?原理?特点?优缺点? 2、用途?分类(两种分类)? 3、重要的概念: (1)均衡; (2)匹配(配比)、配对; (3)暴露、保护因素、危险因素; (4)比值比(OR)、归因危险度百分比(ARP,AR)、人群归因危险度百分比(PARP,PAR); (5)混杂(混杂偏倚)、混杂因子 4、偏倚的类型?相应的控制? 5、混杂偏倚的判断?,原理:以确诊的患有某特定疾病的病人作为病例,以不患有该病但具有可比性的个体为对照,通过询问,实验室检查或复查病史,搜集既往各种可能的危险因素的暴露史,
2、测量并比较病例组与对照组中各因素的暴露比例,经统计学检验,若两组差别有意义,则可认为因素与疾病之间存在着统计学上的关系。,人群或人群样本,病例,对照,+,-,-,+,acbd,可 比,研究方向 时间顺序,回顾性的 逆向的,病例对照研究示意图,特点1.属于观察法 2.设立对照组 3.观察方向由“果”及“因” 4.不能确实证明暴露与疾病的因果关系。,适用于罕见病的研究 适用于慢性病的研究 研究所需的样本量较小 省时、省钱、省力 可同时研究多个因素与某疾病的联系,不适用于暴露率低的研究 常发生各种偏倚 论证强度较低 只能估计相对危险性 暴露与结局出现的时间先后不易判断,病例对照研究的优缺点,优点 缺
3、点,资料分析:(1)不匹配(或成组)不分层资料的分析(2)不匹配分层资料分析(3)分级资料的分析(4)个体匹配资料的分析,资料的分析,1.研究对象一般特征的描述:年龄、性别、职业等 计算出各种特征的构成比重-了解资料的一般情况,2.均衡性检验,检验病例组与对照组在某些主要特征的构成上是否有显著性差别,即两组是否具有可比性。,(卡方检验),(一) 描述性统计,资料的分析,(二)统计推断,1.联系的显著性2.联系的强度,暴露差异的显著性检验: 可用四格表的2检验或校正的2检验公式 查2界值表,得P0.05或0.01,以表示暴露与结局有无联系,但联系的强度如何,要计算OR,资料的分析,(二)统计推断
4、,1.联系的显著性2.联系的强度,比值:某事物发生的概率与不发生概率之比 病例组暴露比值:a/m1 : c/m1 暴露组暴露比值:b/m0:d/m0,资料的分析,(二)统计推断,1.联系的显著性 2.联系的强度 (OR),OR是两个暴露比值之比,其数值范围从0到无限大的正数。 OR不同数值范围表明不同程度的危险性。,(一)成组资料分析,问题1:根据表5-1资料进行均衡性分析,分析结果说明什么?,课题一,问题2:将表中资料按是否吸烟整理成四格表形式计算2、OR、OR的95%CI,说明各指标的含义?,问题1:均衡性分析用来比较两组某些基本特征是否相似或齐同.目的是检验病例组与对照组是否有可比性。,
5、不匹配不分层资料分析, 将数据整理成四格表形式,不匹配不分层资料整理表,问题2, 暴露与疾病的统计学联系,检验病例组某因素的暴露率或暴露比例与对照组之间的差异是否具有统计学意义。, 关联强度分析,OR的可信限,表1 成组病例对照研究资料的整理表,20.05(1)=3.84 ,本例2=14.483.84,则P0.05结论为拒绝无效假设,即两组暴露率在统计学上有显著性差异。,OR=ad/bc,OR95%CI=,OR=ad/bc=2.89 说明吸烟组患肺癌的危险性为不吸烟组的2.89倍 OR95%CI=1.6615.030 ,可信区间中不包括1.0,即可认为该OR值在0.05水平上有显著性。,问题3
6、:该计算结果能否说明吸烟与肺癌之间的真实联系程度?为什么?,1、可能有混杂存在; 2、观察性研究的一种,只能探索病因或者检验病因假说,不能直接得出因果关系的结论,问题3,(二) 分层资料分析,表2 按性别分层的结果,预防和控制混杂偏倚的方法 设计阶段:限制;匹配;随机分组 分析阶段:标准化率分析、分层分析和多变量分析方法。,OR1=2.81,说明男性中吸烟者患肺癌的危险性为不吸烟男性的2.81倍. OR2=3.12,说明女性中吸烟者患肺癌的危险性为不吸烟女性的3.12倍。 OR95%CI=?,可信区间不包括1.0,即可认为OR值在0.05水平有显著性差异。,按性别分层后,计算总OR值,与调控前
7、OR值比较是 否存在差异,如 果存在有意义的 差异,则认为产生了混杂偏倚,性别是混杂因素。,问题4:,问题5:,问题6:,问题7: 为什么要进行匹配?匹配应该注意哪些问题?,(三)匹配资料的分析,问题7:匹配的要求是对照在某些因素或特征上与病例保持一致,目的是对两组进行比较时能够排除匹配因素对研究结果的干扰。匹配的特征或变量必须是已知的混杂因子,或有充分的理由怀疑为混杂因子,否则不应匹配。有两种情况不应匹配,否则会造成配比过头,一是研究因素与疾病因果链中的中间变量不应匹配,另一种是只与可疑病因有关 而与疾病无关的因素不应匹配。,over-matching:使研究因素与疾病之间的关联减弱或消失,
8、降低了研究效率。同时增加工作难度,慎重选择匹配因素,可疑致病因素或有研究价值的因素不能作配比因素。 增加了选择对照的难度。 可采用11或1M匹配,不宜超过14。 匹配的特征或变量必须是已知的混杂因素,或有充分的理由怀疑为混杂因素。常作为匹配的因素有年龄、性别、种族、经济状况、血型、血压等。否则会造成匹配过度。,注意问题,问题8: 根据以上资料列出吸烟与否与肺癌的关系表格,并计算2、OR、及其可信区间,1:1配对病例对照研究资料整理表,2=11.52, 20.005(1)=7.8811.52, 则P0.005,拒绝无效假设,即两组暴露率在统计学上有显著性差异。OR=2.32,说明匹配了年龄因素后
9、,吸烟组患肺癌的危险性为不吸烟组的2.32倍 OR95%CI=?,问题9: 上述资料还可以做哪些因素分析?,还可分析开始吸烟年龄、吸烟年限、 吸烟量、吸烟深浅,在收集资料时,如果能收集到研究因素不同暴露水平的信息,可以用来分析该因素和疾病是否存在剂量反应关系,以增加因果关系推断的依据。 收集的资料主要是可以定量的指标或信息。如吸烟的支数/日、体重数、血生化指标等都可进行此类分析。 分析时是以不暴露或最低暴露组为参照。,(四)分级暴露资料的分析,问题11 将表5-1中的资料,按吸烟量为 30支的标准分为4个等级,计算吸烟量与肺癌关系的有关指标。, 病例对照研究分级资料2K列联表, 总2=19.21,自由度V=3, 20.005(3)=12.8419.21,即P0.005,说明按吸烟年限分级后,两组的暴露率在统计学上有显著性差异。, X0=5 X1=15 X2=25 X3=43 T1=2323 T2= 3822 T3=102964 V=9620.12 2=17.64 自由度V=1 20.005(1)=7.8814.26, OR=ad/bc OR1=2.26 OR2=3.06 OR3=4.95根据以上结果,可以总结出OR值随着吸烟量的增加而递增,呈现明显的剂量反应关系。,结论:P0.005,说明剂量反应趋势有很显著的统计学意义。,作业: 问题2 问题7、8,谢谢!,