1、混杂偏倚的识别与控制,一、混杂偏倚的概念在病因研究中,当对所关心的某种暴露因素(E)与某种疾病(D)之间的关联进行定量估计时,由于其他因子(F)的影响,致使E和D 之间关联的真实性被歪曲,关联强度被放大或缩小,这种歪曲关联真实性的作用被称作混杂作用(confounding effect),起到混杂作用的因子被称为混杂因子(confounder或confounding factor,F)。, 混杂偏倚本质 一种人为造成的偏倚 是在研究的设计阶段未对混杂因子加以控制或资料分析时未能进行正确校正所致 是完全可以避免和控制的一种系统误差 混杂因子成立的条件 (1)必须是所研究疾病的危险因素或保护性因素
2、(2)必须和暴露因素之间存在统计学关联(3)一定不是暴露因素与疾病因果链上的中间变量,二、混杂偏倚产生的机理 例:氡气与肺癌的定群研究 以RR值描述暴露于氡气人群与不暴露于氡气人群在肺癌发生频率之间的关联强度。,a / (a+b)RR = -c / (c+d), RR值的真实性评价此RR值是否真实地反映了氡气与肺癌之间的关联强度,完全取决于下述条件:(1)氡气暴露人群(E)和未暴露人群()之间在产生肺癌的易感性方面是否可比(2)导致肺癌的其它危险因素在两组人群之间的分布频率是否可比。,“a”例肺癌的归因可能性(来自暴露人群):(A)由氡气所致(B)由吸烟所致 (研究者已知道的致肺癌因素)(C)
3、由其它未知因素所致“c”例肺癌的归因可能性(来自非暴露人群):(B)由吸烟所致 (C)由其它未知因素所致, 对RR值的解读此相对危险度RR在本项研究中包含有三种效应:(A)氡气的致癌效应(B)吸烟的致癌效应(C)其它未知因素的致癌效应 RR值产生混杂偏倚的条件(B)吸烟的致癌效应RRS1(C)其它未知因素的致癌效应RRU1, 当吸烟的致癌效应RRS1时下述情况下吸烟可导致该研究产生混杂偏倚: 研究设计阶段:未保证吸烟者在两人群中的均衡性 分析阶段:未先将两人群按吸烟和未吸烟分层,然后再按每一层去确定氡气暴露和肺癌之间的关联该研究中混杂偏倚产生的机理:是因为导致肺癌产生的另一因素吸烟在两组人群中
4、分布不均衡。,三、混杂偏倚和混杂因子的判别 根据专业知识确定研究中可能存在的混杂因子在流行病学研究中,混杂因子可分为两类:1. 人口统计学因子:年龄、性别、种族、职业、经济收入、文化水平等人口统计学指标,是经常遇到的混杂因子。,2. 暴露因素以外的其它危险因子:研究中混杂因子广泛存在,表现形式多样,常常在隐匿中起到混杂作用。 利用分层分析进行定量判别 以定群研究为例 分层分析:将研究人群按是否暴露于可疑混杂因子F分类 (最简单可分为暴露与不暴露两组),然后再做单因素分析。,未分层资料的分析,cRR,aRR1 aRR2,分层资料的分析,暴露第三因子F 未暴露第三因子F, 用简单公式描述:1. c
5、RR = aRR2 或 aRR1:F不是混杂因子,cRR值不存在F的混杂偏倚。 2. cRR aRR2 或 aRR1:F是混杂因子,cRR值存在F的混杂偏倚。上述分析也可适用于病例对照的OR值分析。,四、混杂偏倚的方向根据偏倚的产生机理,当混杂因子对暴露与疾病之间的关联产生歪曲时,混杂偏倚具有一定的方向性和大小。其方向可正可负,其作用可大可小,取决于E、F和D之间的关系。 正混杂:cRR 或 cOR 被放大,高于真实值 负混杂:cRR 或 cOR 被缩小,低于真实值,五、混杂偏倚的控制(一) 在设计阶段进行控制1. 限制。 2. 随机分配:随机分配又可细分为简单随机分配和分层随机分配(stra
6、tified randomization)两种方式。3. 匹配(matching):匹配是最经常用于控制混杂因子的方法。, 群体频数匹配指混杂因子发生的频度在不同组应大致平横; 个体匹配 指按一个至数个混杂因子分层,为病例选择同层的对照,一个病例配的对照数多为1-4个。 匹配的好处 可以有效地控制混杂因子的作用,提高研究结果的真实性; 在减少总样本数的情况下得到结论,提高研究的效率。, 匹配的缺点:(A) 难以对匹配掉的混杂因子及交互作用做深入分析;(B) 在病例对照调查中,用匹配的方法控制混杂经常低估暴露对疾病的作用,严重时会引起过度匹配(overmatching)的问题,掩盖暴露的真实作用
7、。(C) 过分苛刻的匹配,会使得部分病例找不到对照,致使信息浪费,使研究的效率反而降低。,(二) 在分析阶段控制混杂1. 分层分析:分层分析是按混杂因素分层后,分别就暴露对疾病的关联做分析,可以使用Mantel-Haenszel方法在分析阶段控制混杂因子。可以评价在各层中暴露与疾病的关联;可整体估价用分层技术排除混杂后的暴露与疾病总的关联强度。,例:食管癌病因研究病例对照研究设计, 对资料进行初步审查(1) 对照组年轻人比重大于病例组(2) 在病例组中,饮酒消耗量的均值大于对照组,且重度饮酒者的比例大于对照组(3) 年龄和饮酒之间呈现轻度的负相关根据上述资料和已往医学知识,即食管癌在年龄大者中
8、多见,推测年龄这一因素可能对判断饮酒与食管癌之间的关联起一定的混杂作用。饮酒(E) 食管癌(D) 年 龄(F), 计算未分层时总的比值比 cOR,cOR = ad / bc= (96 x 666) / (104 x 109)= 5.64 (ad-bc) 0.5 N 2 (N 1)X2 = - n0 m0 n1 m1= 108.11df = 1, P 0.0001,cOR的95可信限区间估计公式为:ln ORU, ln ORL =EXPln OR 1.96 x (Var(ln OR)1/2 式中:Var (ln OR) = 1/a + 1/b +1/c + 1/d ln OR u, ln OR
9、L= 1.73 0.34, 即:ORL= 4.02, OR u= 7.93, 比较 cOR 和 aOR 发现cOR与多组aORi有较大不一致,提示年龄可能起了一定混杂作用。 用 Mantel-Haenszel 方法计算调整年龄这一混杂因子影响后总的ORmh。(ai di / Ni) ORM-H = - (bi ci / Ni),(ai di / Ni) ORM-H = - (bi ci / Ni)(1x106/116)+(4x164/199)+(5x31/44) ORM-H = -(0x9/116)+(2x26/199)+(8x0/44) = 5.158, 对分层后总的ORmh= 5.158做
10、X2检验确定这一样本来自OR=1的总体的概率,计算公式为:(ai Ai 1/2)2X2 -Var (ai ; OR = 1)式中:ai为各年龄组中第一小格内的实际观察值,Ai为各年龄组中第一小格内理论值,其估计公式为:m1i n1iAi - (1) NiVar(ai; OR=1)为来自总体OR=1的样本分层后各层 暴露病例数ai的方差,其计算公式为:m1i n1i m0i n0i Var(ai; OR = 1) = - (2)Ni2 (Ni 1),n1,n0,m0,m1,在特定的无效假设下,即H0:OR=1时,可根据前述公式(1)计算理论值A:m1i n1iAi -Ni计算每一层内第一小格理论
11、值Ai的结果如下:25-岁组:A1 =(10 x 1)/ 116 = 0.08635-岁组:A2 = (30 x 9 ) / 199 = 1.356 75+岁组:A7 = (5 x 31) / 44 = 1.477,每层的方差按述前公式(2)计算Var(a1; OR = 1)如下:25-岁组:Var(a1; OR=1)=(10x106x1x115)/1162X(116-1) =0.07935-岁组:Var(a2; OR=1)=(30x169x9x190)/1992X(199-1)=1.106 75+岁组:Var(a7; OR=1)=(5x39x13x31)/442X(44-1)=0.944每层
12、的 Ai 值和 Var(ai;OR=1)值见下表:,代入上述X2公式,得:(96 48.890 1/2) 2X2 = - = 83.2226.106 df = 1, P 0.0001 ORmh的 95% 可信限区间估计公式为:ORu,ORL= ORmh1 1.96 / (x2)1/2式中:X2应为未作连续校正的值,该值为:X2 = (96-48.890)2 / 26.106 = 85.01;,以此带入1 1.96 / (x2)1/2计算得:1 1.96 / (x2)1/2 = 0.7874, 1.2126 代入上式得:ORu,ORL= 5.158 0.7876 , 5.158 1.2126 =
13、 3.64, 7.31比较cOR和ORmh,显示两者有较小的差别,表明年龄起轻微的混杂作用,经分层调整消除年龄的混杂作用后,食管癌与饮酒之间的关联为:ORmh=5.158,95%可信限为3.64 -7.31。,2. 多因素分析当分析多个因子的混杂效应时,会出现分层过多的现象,以至难于实现对混杂的调整;应用多因素分析方法可有效控制混杂因子的影响常用的方法有下述几种。(1)多元Logistic回归分析和Cox回归分析适用于因变量为二值函数(患病,不患病)的定群研究病和例对照研究。(2)协方差分析适用于因变量是一连续变量的资料分析。,效应修正作用的识别与描述,各层aORi值不太一致,提示年龄可能是效
14、应修正因子 通过一致性2检验,确定层间差异是否有统计学意义aORi一致性2检验公式为:,各层方差Var (ai;ORmh)可由上述公式计算:25-34岁组: Var (a1;ORmh) = ( ) -1 = 0.2135-44岁组: Var (a2;ORmh) = ( ) -1 = 2.02:75岁组: Var (a6;ORmh) = ( ) -1 = 1.00, 将上述各值代入一致性2 检验公式为:2 =,= 9.34df = 6 1 = 5; P = 0.10 结论根据2 检验结果,提示按年龄分层后,各层aORi表现的差别由机遇所致的概率 P= 10%,所以该样本不能证实年龄可以作为饮酒与食管癌关联强度ORi的效应修正因子。,