1、临床科研中常见偏倚及其控制(一),许能锋,2012年12月10日 上街校区6教室,提纲,一、概述 二、选择偏倚及其控制,一、概述,(一)临床研究中的一些基本概念 (二)研究结果的变异性 (三)研究结果的真实性 (四)偏倚的定义、特性和分类 (五)机遇与偏倚的区别 (六)研究偏倚的意义,(一)临床研究中的一些基本概念,1.总体:根据研究目的确定的由同质个体所构成的全体。 2.目标人群(源群体):又称靶人群,是符合条件的个体集合,也是样本人群来源的总体,即样本人群研究结果用以说明或推广应用的总体人群。 3.样本:从总体中按一定方式抽取出来的部分观察单位的集合。 4.抽样:总体中抽取部分观察单位获得
2、样本的过程。 5.抽样误差:样本与总体之间由于抽样过程引起的差异,在统计学上称为抽样误差。,(二)研究结果的变异性,定义研究结果(包括描述性和分析性)数据的变动或波动,称为研究结果的变异性(variability)变异的来源 个体 群体 样本(研究),定义某个体特征测得值的变化,可以是个体真值随时间的改变,也可以是由于测量误差引起的变化。,1个体水平的变异性,表2 个体水平的变异来源与特点,来源 个体间遗传变异(群体水平的变异性可以看成是各个体的累计变异,因为构成群体的各个个体具有不同的遗传素质并受到不同的环境影响); 环境变异; 测量误差。特点 变异程度常常大于个体的变异; 群体水平的变异性
3、也受到测量误差的影响; 一般可根据群体的变异范围来确定“正常值”范围,用于判定个体测得值是否“正常”。,群体水平的变异性,定义不同样本的研究所得结果的差异性 来源抽样方式样本大小测量误差 分类描述性结果的样本变异性分析性结果的样本变异性,样本水平的变异性,180 ,174,215,305 233,276,146,195 205,188,190,295 170,164,248,162 220,219,228,250,295,146,220,162,228,219,164,190,188,233,250,276,195,215,170,源群体,样本A,样本B,样本C,高胆固醇率,= 40%,=20
4、%,=0%,高胆固醇率 = 25% (240mg/dL),图2 源群体与样本高胆固醇率的样本变异性示例,图2源群体高胆固醇率为25%,样本A为40%,样本B为20%,样本C为0%。如果增大样本含量,样本的变异性会减少,样本的高胆固醇率对群体的代表性会增大。,图3 膳食与药物预防心机梗死的样本变异性示例,图3研究A和研究B中膳食改良组五年内发生心梗死的风险为9%,降胆固醇药物组为6% A样本较小(200人),两组效应指标(心肌梗死风险)的95%可信限较大,从而发生重叠,统计检验无显著性差异 研究B样本较大(2000人),两组效应指标的95%可信限较小,从而未发生重叠,统计检验有显著性差异 一般而
5、言,研究样本越大,效应估计值的抽样误差越小(95%可信限越小),统计检验能发现的两组间效应差值越小,误差(error) 概念误差是指对事物某一特征的测量值偏离真实值的部分,即测定值与真实值之差。即研究结果与客观实际存在不符合的地方。 分类 系统误差(偏倚):有固定方向与大小。来自研究对象选择、测量和统计分析的方法学缺陷。 随机误差:无固定方向与大小,一般呈正态分布。来自抽样随机变异和测量随机变异。,(三)研究结果的真实性,真实性或效度(validity)是指研究收集的数据、分析结果和所得结论与客观实际的符合程度。真实性包括内部真实性和外部真实性两个方面(系统误差)。 可靠性或信度(reliab
6、ility)亦称精确性(precision),就是反映研究结果中随机误差大小的程度(随机误差)。,真实性(validity),真实性高,真实性低,可靠性高,可靠性低,A,B,C,D,定义研究结果与实际研究对象真实情况的符合程度,回答一个研究本身是否真实或有效。能正确反映研究人群或靶人群真实状况的研究结果,称之为具有内部真实性。 影响因素研究环境条件;研究对象范围(类型的多少)等因素。 改善措施限制研究对象类型;限定研究的环境条件;限定干预措施。,)内部真实性(internal validity),定义研究结果与推论对象真实情况的符合程度,又称普遍性,回答一个研究能否推广应用到研究对象以外的人群
7、。有内部真实性的结果推广到靶人群以外的其他人群仍然有效,称之为具有外部真实性。 影响因素 研究人群与其他人群的特征差异、研究对象类型等因素的影响。 改善措施增加研究对象的异质性,)外部真实性(external validity),没有内部真实性的结果必定没有外部真实性,具有内部真实性的结果也未必都有外部真实性。 增加研究对象的同质性(如限制类型如年龄、职业、体质特征或疾病分型等),可改善内部真实性。 增加研究对象的异质性,可改善外部真实性。 在研究中经常将只有内部真实性而无外部真实性的结果任意推广应用至靶人群以外的其他人群,导致张冠李戴、南辕北辙、贻误时机。 在实际研究中需综合考虑研究对象的同
8、质性和异质性问题。,)内部真实性与外部真实性的联系,内部真实性和外部真实性,样本,样本,偏倚 机遇 研究结论,内部真实性,外部真实性,病人总体 (外推到样本所属总体或其他人群,包括其他设施中的人群),目标病人群体,实例:美国退伍军人高血压治疗临床试验,研究对象是143例3073岁退役军人,平均舒张压115 129mmHg,均无高血压并发症。研究设计严谨,采用随机分组、双盲观察,研究对象始终配合很好,统计学处理正确。研究结果发现采用双氢克尿噻与利血平联合用药能明显降低心、脑、肾等并发症。 该研究全过程采取措施防止了偏倚发生,因而公认其结论内部真实性较高。但是,该结论对于女性或非退役军人是否有效?
9、对于舒张压不在115 129mmHg范围内或已有高血压并发症的病人是否也有效呢?该研究是无法解决这些问题的。,(四)偏倚的定义、特性和分类,1.定义:偏倚是指在流行病学研究的设计、实施或资料分析阶段,由于设计者、操作者的人为因素,在选择观察对象、收集资料、处理数据、分析资料或解释结果时产生的各种系统误差。 2.特性:偏倚是从样本研究中所得结果不能如实反映目标人群真实结果的一种系统误差,具有一定的方向性。 3.分类:选择偏倚、信息偏倚、混杂偏倚,(五)机遇与偏倚的区别,1.本质区别: 1)机遇:是观察结果的精确性(可重复性)受到影响;机遇是一种随机误差。 2)偏倚:观察结果系统地、向一个方向(或
10、大、或小)发生偏差而不能反映真实情况;偏倚是一种系统误差。,1)假阳性:如实际上两种方法治疗疗效相同,如少数病人的抽样研究发现甲、乙两方法疗效不同,这是由于机遇的影响而发生的假阳性错误,统计上称类错误,用表示。2)假阴性:如实际两种治疗一种比另一种好,但由于抽样研究中机遇的影响,两者疗效十分相近而作出假阴性的错误判断;统计上称类错误,用表示。3)可信区间:是表明机遇所致的围绕真实值变动的范围,通常用95或99可信区间表示;用于直接估计机遇在临床研究中的作用大小;变动范围越窄,真实值越稳定。,机遇对研究结果的影响,(六)研究偏倚的意义,临床流行病学研究中少不得“中庸之道”,即不偏不倚。 偏倚可发
11、生在研究设计、实施、分析以至推论的各个阶段。 加大样本量并不能使之减少。只有深入研究,才能了解、认识各类偏倚,以便在研究过程中尽量加以避免或控制,才能保证研究结果的真实性。,二、选择偏倚及其控制,(一)选择偏倚概念 (二)选择偏倚产生环节与原因 (三)常见选择偏倚 (四)选择偏倚的控制,(一)选择偏倚概念,选择偏倚:是指所选择的研究对象(样本)与所研究的目标人群之间在某些特征方面存在的系统误差。 本质:是研究对象缺乏代表性。常见于病例对照研究、临床试验和横断面调查。,(二)选择偏倚产生环节与原因,产生环节:主要发生于研究设计阶段,亦可发生于资料收集阶段。产生原因:被选入对象同落选对象间在与研究
12、有关的特征方面有系统差别,同时在比较组间除研究因素外,其他一些有关因素存在差别亦导致结果偏离真实情况。,(三)常见选择偏倚,1.入院率偏倚(Berkson偏倚) 2.检出征候偏倚(detection signal bias) 3.存活病例偏倚(Neyman偏倚) 4.无应答偏倚(non-respondent bias) 5.志愿者偏倚(volunteer bias) 6.失访偏倚(withdraw bias) 7.健康工人(效应)偏倚(healthy worker bias) 8.转组偏倚(migration bias) 9.非同期对照偏倚(non contemporary bias) 10.
13、异地对照偏倚,11.易感性偏倚(susceptibility bias) 12.时间效应偏倚(time effect bias) 13.领先时间偏倚(lead time bias) 14.选择性转诊偏倚 15.集合偏倚(assembly bias) 16.零点偏倚(zero time bias) 17.排除偏倚(exclusive bias) 18.错误分类偏倚(miscassification bias) 19.成员偏倚(menbership bias) 20.诊断机会偏倚diagnostic enter bias),1.入院率偏倚(Berkson bias),1)概念:指利用医院就诊病人作
14、为研究对象时,由于入院率不同而导致的偏差。2)本质:入院率不同暴露率变化联系强度变化3)原因:(1)不同医院的技术专长;(2)患者疾病的严重程度;(3)患者的经济状况;(4)就诊的方便程度等。4)常发生此偏倚的研究设计类型:病例对照研究,尤其是以医院为基础的病例对照研究。,1)研究某危险因素是否与A病有关,A病来源于住院病人,对照为同期住院的其他病人(B病); 2)A病与B病由于各种因素在该医院入院率不同; 3)危险因素具有一定独立性,存在与疾病无关的入院率。 4)例如,A病:糖尿病;B病:肿瘤;危险因素:高血压,人群A、B两病及C因素分布,病种 有C因素 无C因素 总人数A病 750 425
15、0 5000B病 750 4250 5000OR(7504250)/(4250750)1,假设:A病入院率60,B病25,危险因素C的入院率40,病种 有C因素 无C因素 总人数 A病 75060=450 425060 31207504040=120570 2550 B病 750 75025=188 425025 14767507540=225413 1063 OR(5701063)/(2550413)0.575,2.检出症候偏倚,1)概念:指某因素与某病在病因学上虽无关联,但由于该因素的存在而引起该疾病症状或体征的出现,从而使患者及早就医,接受多种检查,导致该人群较高的检出率,以至得出该因素
16、与该疾病相关联的错误结论。 2)本质:病例发现机会(时间)不同联系强度变化 3)原因:某因素如果能引起或促进某症候的出现,使患者因此去就医,这就提高了该病的检出机会。 4)常发生此偏倚的研究设计类型:在对肿瘤、动脉硬化、结石等采用病例对照研究进行病因学研究时容易发生。,实例:口服雌激素与子宫内膜癌病例对照研究,1)病例组:子宫内膜癌患者,对照:无子宫内膜癌患者; 2)结果:子宫内膜癌患者口服雌激素比例高; 3)结论:口服雌激素是子宫内膜癌的危险因素。 4)偏倚:无症状早期子宫内膜癌病人服雌激素后易致出血就诊。即病例入选受暴露因子影响,具有该暴露因子的病例会早期出现临床症状,入选病例与未入选病例
17、之间存在系统差别。,3.存活病例偏倚(Neyman偏倚),1)概念:指采用现患病例作为研究对象时由于现患病例与总体病例对某因素的暴露率不同而导致的系统误差。以称存活偏倚或患病率发病率偏倚。 2)本质:暴露率不同联系强度变化 3)原因: 病死率高,病程短的严重致死性疾病,如心梗; 病程短许多患者已痊愈; 轻型不典型病例; 4)常发生此偏倚的研究设计类型:病例对照研究。,实例:大量饮用咖啡与心梗关系的病例对照研究,病例组:医院心梗病人; 对照组:医院非心梗病人; 结果:大量饮用咖啡与心梗无关 偏倚:调查对象为存活者,只是一般饮用咖啡或减少饮用量,入院前死亡病人多是大量饮用咖啡者。,4.无应答偏倚,
18、1)概念:无应答者是指研究对象中那些没有按照研究设计对被调查的内容予以应答者。某个特定样本中的无应答者的患病状况、暴露情况与应答者可能不同而产生的偏倚称为无应答偏倚。 2)原因:造成无应答的原因是多方面的,如身体健康状况、对健康的关心程度、对调查内容是否感兴趣、年龄、受教育程度等。 4)常发生此偏倚的研究设计类型:在观察性与实验性研究中均可发生。,实例:调查吸烟在男女人群中的比例,人群调查表返回: 男性应答率90以上;女性应答率50,且多数为女性吸烟者未回答。 结果:低估女性吸烟率。,5.志愿者偏倚,1)概念:志愿参加研究的志愿者同非志愿者在关心健康、注意饮食卫生及营养食疗、禁烟禁酒、坚持锻炼
19、等方面有差异,因志愿者常被入选为观察对象,而非志愿者常被落选,从而产生选择偏倚。2)常发生此偏倚的研究设计类型: 队列研究和临床试验等前瞻性研究。,实例:体锻与冠心病队列研究,研究组:志愿者; 对照组:非志愿者; 结论:体锻减少冠心病发生。 偏倚:志愿参加研究者更关心自己的健康,注意饮食及营养,禁烟酒、坚持体锻。,6.失访偏倚,1)概念:失访是一种无应答,只发生在前瞻性研究(如队列研究、干预研究)中; 2)内容:包括失访或退出; 3)主动失访常常与暴露因素或结果有关。 应减少到最小程度; 研究中应了解退出的原因; 处理时可做“最坏打算”校正或评价,7.健康工人(效应)偏倚,化学物质接触与白血病
20、发生的队列研究 研究组:接触苯的工人,对照组:普通工人; 结果:两组发生白血病比例相似; 结论:接触苯与白血病发生无关 偏倚:进入研究组的工人是留下来不易患白血病人群,患病工人早已转出。,8.转组偏倚,研究运动与冠心病关系 设计:码头工人,根据劳动强度分组,然后观察22年冠心病发生率; 结论:运动(劳动强度)与冠心病发生无关。 偏倚:劳动强度的变化。,9.非同期对照偏倚,研究监护室建立在心梗中作用 研究组:19992000年监护室建立后病死率15; 对照组:19971998年监护室建立前病死率25; 结 果:建立监护室减少心梗病死率。 偏 倚:没有考虑心梗诊断和治疗改进的作用。,10.异地对照
21、偏倚,抗凝药治疗心梗 治疗组:甲医院; 对照组:乙医院; 结果:抗凝药减少或不能减少病死率。 偏倚:两家医院病死率差别?,11.易感性偏倚,溃疡病病因病例对照研究 病例组:溃疡病人,调查发现:面食多; 对照组:非溃疡病人,面食少; 结论:多面食与溃疡发生有关。 偏倚:溃疡发生在先,面食在后。,12.时间效应偏倚,许多慢性病(如恶性肿瘤、冠心病)自接触有效暴露(内、外环境的危险因素)之日起至出现临床症状止,其间经过一段漫长的潜隐过程;在此期间他们实际上是有暴露史但未出现症状,用现有检测手段未能发现无症状的病人,常被错误地归入健康对照组内。在遗传病研究中也存在同样(疾病发生需达外显年龄)问题。食用
22、花生与原发性肝癌关系的病例对照研究 病例组:原发性肝癌病人; 对照组:同单位其他人。 结 果:该饮食与原发性肝癌发生无关。 偏 倚:原因对照组中存在亚临床期肝癌病人;后果低估食用花生与肝癌的联系。,13.领先时间偏倚 (lead time bias),研究肿瘤等慢性病,自症状出现,临床处理,平均存活3年; 筛检诊断,临床处理,平均存活5年; 结论:筛检措施能延长生存时间。 偏倚:延长2年时间系提前发现时间。,疾病自然史开始发病 出现症状 死亡无症状期 临床诊断 临床患病期 未检人群3年根据临床症状诊断 自诊断至死亡的时间中位数:3 年 筛检人群 2年 出现症状 3年临床诊断筛检并诊断 5年 死
23、亡,领先时间偏倚示意图,(领先时间),14.选择性转诊偏倚,转诊病例多为重病或有合并症,其病因可能与一般病例不尽相同,若为选择转诊病例为研究对象就可能出现此偏倚。,15.集合偏倚(assembly bias),由于医院的性质与任务不同,各医院收治患者的病情、病程、临床类型就可能不同,就诊患者的地区、经济收入、职业文化等亦可能不同。由这样的病人集合成队列进行随访,观察到的预后差异,往往可能是上述因素差异所导致,而非所研究的预后因素造成的。 其本质是研究对象的代表性存在问题。,16.零点偏倚(zero time bias),由于收集的队列不是起始队列(指由均接近疾病初发时日的病例组成的队列),而是
24、可供研究的病例,都是从该病病程的不同时点进入队列,称为零点偏倚。,17.排除偏倚,在研究对象的确定过程中,没有按照对等的原则与标准,而从实验组或对照组中排除某些研究对象,这样一来导致因素与疾病(疗效等)之间的联系被错误估计,称为排除偏倚。 例如,在一项关于阿斯匹林与心肌梗死关系的病例对照研究中,病例组与对照组均不包含患慢性关节炎者与胃溃疡患者,因为前者倾向于服用此药,后则相反。若这两种病人在两组中分布不均衡,就可能导致阿斯匹林与心肌梗死联系的错误估计。 再如,在研究利血平与乳腺癌关系的研究中,若病例组含高血压病人,而对对照组没有,即使利血平与乳腺癌无关,结果也会得出两者之间存在统计学上的联系,
25、因为高血压者增加了利血平的暴露率。,18.错误分类偏倚(miscassification bias),由于疾病的诊断标准不明确,或诊断方法不完善,结果错误地将病例判断为非病例而归入对照组,将非病例判断为病例而归入病例组,从而产生错误分类偏倚,影响结果的真实性。,实例:人格障碍的病例对照研究,例如,在人格障碍的病例对照研究中,确定病例采用了筛查量表和诊断量表2种工具,而确定对照由于条件限制仅采用了筛查量表一种工具,结果对照组中就可能存在漏诊的假阴性病例,从而将病例归入对照组。,19.成员偏倚(membership bias),由于组成观察组的成员与一般人群在各方面尤其是健康状况有差异所导致的系统
26、误差。,实例:体育锻炼与心肌梗死的关系,体育锻炼与心肌梗死复发的队列研究(RR=0.38),体育锻炼与心肌梗死复发的随机对照研究(RR=1.26),20.诊断机会偏倚diagnostic enter bias),罹患某疾病的病人由于各方面的原因,如疾病的严重程度、经济状况、医疗条件、地理条件等的差异,使得获得诊断的机会不同。 例如,边远山区的农民有医疗条件差、交通不便及经济水平低下,他们获得诊断的机会与大中城市居民有明显差别,其疾病的早期诊断与治疗的机会无疑是不同的,若两者进行比较,则诊断机会偏倚就会影响研究结果。,(四)选择偏倚的控制,1控制选择偏倚的基本方法 1)研究者对整个研究过程可能出
27、现的各种选择偏倚应有充分的了解、掌握即在选择研究对象、研究方法等过程中是否存在产生选择偏倚的原因?是什么原因?在设计时应周密考虑,并采取针对性措施在相应的环节降低其产生的可能性,以减少或避免其产生。,2)严格掌握研究对象的纳入与排除标准采用或制定明确、统一与公认的诊断标准,尽可能选择各级医院的早期病人为研究对象。,3)采取措施提高应答率研究中尽量取得研究对象的合作,以获得尽可能高的应答率,减少失访与退出。 (1)做好组织工作,加强对患者及其家属宣传研究工作的意义,以提高依从性; (2)建立健全随访管理制度,随访要有专人负责,对失访者要及时采取措施以保证随访; (3)回答患者来信的要求,不失信于
28、患者;改进随访信格式与内容,删除使患者及其家属反感的措辞,采用关心体贴的言语。 (4)调查手段要简便易行,对调查内容中的敏感问题采取适当的处理技巧。,4)采用多种对照采用多种对照,可以对选择偏倚作出估计,减少选择偏倚对研究结果的影响。,2在应用具体研究方法是控制选择偏倚的主要针对性措施,1)在横断面调查时,采用随机抽样,并保证一定的样本含量,以增强样本的代表性,必要时可采用分层随机抽样的方法,尽量提高应答率。 2)在病例对照研究中,最好用人群中全部新发病或新发病的随机样本;对照应能代表产生病例的人群。若难以做到,则在多个医院选择病例,同时选择医院与社区对照,并尽可能选用新病例,不用死亡病例和老弱对象。,3)在队列研究中,尽量减少失访和失访率。 4)在流行病学现场实验中,随机抽样选择研究对象,并进行随机分组。 5)在诊断、疗效与预后研究中,尽可能扩大选择病例的范围,如多中心临床研究,并包括主要特征的各类各种病人。,谢谢!,