1、王 辉公共卫生学院流行病与卫生统计学系,流行病学调查资料分析时的 质量控制,主要内容:,数据录入常用软件 常用研究设计的统计学分析思路、方法和指标 偏倚的测量,流行病学调查资料分析步骤,流行病学资料录入和分析常用软件,资料的整理,规定变量的取值方法 如:男性1,女性2,缺失9 录入资料时有章可循,正确地处理不可接受数值 审查 可与录入同步( Epidata ) 质量控制 :范围核对逻辑核对 及时纠正数据错误 不能因调查结果不在取值范围而将数据随意改动 现场审查,列出病例一览表,数据录入和管理常见软件,面对所收集的大量的原始资料,研究者必须对原始资料建立数据库、录入数据,并保证数据能真实反映资料
2、所收集的信息,因此这些工作都需要数据管理软件来实现。,各种软件操作方式不同,个人使用习惯不同,因人而异选择不同的软件。,EpiData,建立数据库,数据录入,数据库管理,数据库输出与输入,数据统计分析,当数据录入和管理软件把所有收集的流行病学信息资料进行整理后,就进入流行病学研究的另外一个重要环节,即对资料进行分析处理,并对分析结果做出符合专业领域的合理解释。,资料分析策略的制定,为实际资料分析提供纲领和指南 草拟资料整理表 又称预期分析表(一系列) 可按逻辑顺序 可由简单到复杂 可由描述到分析,资料整理表,资料描述整理表 1类:临床特征描述 2类:三间分布描述 分析性研究整理表 3类:22表
3、(因素和疾病之间联系的基本表) 4类:分层分析表(混杂因素、效应修正) 5类:剂量反应关系 6类:配比病例对照研究,整理表举例,Kawasaki综合征调查资料整理表,整理表A 川崎病临床症状频数分布,整理表B 川崎病严重并发症病人频数分布,整理表C 川崎病病例特征,整理表D 川崎病病人家庭收入,整理表E 川崎病病例地区分布,整理表F 川崎病病例发病时间分布,整理表G 川崎病与既往病史关系的病例对照研究,整理表H 川崎病与地毯清洁剂关系的病例对照研究,整理表I 川崎病与家庭收入关系的病例对照研究,一、描述性研究,描述性研究,现况研究(横断面研究) 生态学研究 历史常规资料的收集和分析 随访监测研
4、究,现况研究,又称横断面研究(cross-sectional study),根据研究的人群范围或调查方式不同可分为: 普查 抽样调查 个案调查 追踪调查 公共卫生监测,(一)普查数据统计分析思路和方法,1统计应调查人数、实际调查人数,描述漏查率和应答率。 2描述调查对象的社会人口学特征,如性别、年龄、民族等基本构成。计数资料采用构成比(百分比)描述,计量资料采用均数标准差描述。 3统计调查人群的总体指标,根据数据类型,分别描述总体的患病率、感染率等频率指标,或总体计量数据的集中和离散趋势指标(均数标准差、百分位数等)。 4按社会人口学特征或暴露与否分组,统计、描述疾病和健康状态相关频率指标;或
5、按疾病有无描述暴露的构成比;并进行分层和对比分析。,(二)抽样调查数据统计分析思路和方法,统计分析步骤: 1. 一般描述 2. 统计描述 3. 关联分析1一般描述包括抽样方法、设计样本量、调查样本量、应答率和样本人群的社会人口学特征等。,(二)抽样调查数据统计分析思路和方法,2统计描述 (1)计算有关统计指标,包括患病率、感染率、暴露率等频率指标及其95%的可信区间,计量资料的均数、标准差或百分位数等。 (2)结合频率指标,通过图表或文字,按时间、地区和人群描述疾病或健康状态的分布。可先按某个因素分层描述,再按多个因素综合描述,如按时间地区、地区人群、时间人群等不同分层方法进行描述。,(二)抽
6、样调查数据统计分析思路和方法,3关联分析 对暴露和疾病的关系可作初步的关联分析,如: 计量资料的比较采用t检验或方差分析(ANOVA) 率的比较采用2检验或u检验。 也可选择适当的自变量和因变量进行多因素分析,多重线性回归分析或Logistic回归分析。,(三)生态学研究数据统计分析思路和方法,通常采用比较、分析等常用的统计学处理技术。在描述研究因素与疾病或健康状况的关系时,通常以图示法直观表述。,驱虫药与脑炎的因果关系,(三)生态学研究数据统计分析思路和方法,多组比较资料的分析,则包括: 1直线回归分析 将各群体研究因素的平均暴露水平作为自变量,以疾病的频率作为应变量,通过计算生态学相关系数
7、和回归系数,进行相关回归分析。由于在生态学研究中,一般可获得发病率,故可计算。 2危险度分析 计算相对危险度、归因危险度和人群归因危险度百分比。,二、 分析性研究,(一)病例对照研究数据统计分析思路和方法,描述性分析 推断性分析,1描述性分析,(1)一般性描述 首先描述病例和对照的来源、样本例数、匹配比例等,然后描述研究对象的一般特征,如性别、年龄、职业、出生地、居住地、疾病类型等。,1描述性分析,(2)均衡性检验 比较病例组与对照组研究因素以外的某些特征构成是否齐同,检验其可比性。 计量指标的比较(如两组平均年龄的比较)可采用t检验、ANOVA; 计数指标的比较(如两组性别构成比较)可采用2
8、检验。 对有统计学显著差异的因素,在分析时应考虑它对主要关联因素的影响。,2推断性分析,(1)成组设计病例对照研究资料的分析比较病例组和对照组之间研究因素暴露比例的差异,推断暴露和疾病之间是否存在统计学关联(2检验),计算关联强度(OR)及其95的可信区间。,病例对照研究的资料整理表,2推断性分析,(2)成组设计分层资料的分析分层分析是把研究人群(暴露与未暴露人群或者病例与对照)根据某些特征和因素分为不同层(如按性别分为两层),然后分别分析各层中暴露与疾病的关联。,2推断性分析,(2)成组设计分层资料的分析如果各层OR值接近,异质性检验无统计学意义,则可通过Mantal-haenszel方法计
9、算2MH,并计算控制混杂因素(分层因素)影响后暴露和疾病之间真实的关联强度ORMH及其95可信区间。,表57,按年龄分层 计算OR值,两层的OR均较不分层的OR(2.20)大。进一步分析 年龄对MI的关系,按OC与MI的关系列表计算 2=7.70, RR=2.20 可见OC与MI有联系,2推断性分析,(2)成组设计分层资料的分析如果各层OR值相差较大,异质性检验有统计学意义,则不宜采用Mantal-haenszel方法合并,可通过计算标准化死亡比(standard mortality ratio,SMR)或标准化率比(standard rate ratio,SRR),评价控制混杂因素影响后暴露
10、和疾病的真实关联强度(具体原理和计算方法参见相关专业书籍),2推断性分析,(3)成组设计分级暴露资料的分析若能获得某暴露因素在不同暴露水平的资料,计算不同暴露等级的OR值,并作趋势性2检验,分析疾病和暴露的剂量反应关系(dose-response relationship),以增加因果关系推断的依据。,2推断性分析,(4)1:1配对和1:M配比设计资料的分析1:1配对和1:M配比设计病例对照研究资料的分析方法与成组设计资料的分析方法不同。,2推断性分析,(5)多因素分析在病例对照研究中往往需要同时研究多个因素的作用,如果仅应用一般分层分析方法同时对若干因素加以控制,计算复杂且受样本量的限制。随
11、着多因素分析软件的出现,可比较容易地分析多个因素与疾病的联系、联系程度以及各因素之间的相互关系。目前经常使用的有条件和非条件Logistic回归模型。,2推断性分析,(6)交互作用与效应修饰的分析交互作用主要表现为暴露与疾病的联系由于受某个因素的作用而改变,这因素称为效应修饰因素(effect modifier),其所产生的影响为效应修饰(effect modification)。,2推断性分析,(6)交互作用与效应修饰的分析在病例对照研究中,评价交互作用最常用的方法是按某一因素分层后,再看各层的OR是否相同,一般需检验各层OR是否同质。通常可以用多元回归分析的方法来评价交互作用,如果某个代表
12、交互作用的回归系数具有显著性,就认为该系数所代表的几个因素之间存在交互作用。 常用的有Logistic回归、Cox模型和对数直线模型等。,(二)队列研究数据统计分析思路和过程,1. 描述性分析 2. 推断性分析 3. 标化比的计算,1. 描述性分析,(1)一般性描述 描述研究对象的组成、社会人口学特征、随访经过、随访时间、结局的发生和失访情况等。,1. 描述性分析,(2)均衡性检验 比较各组研究因素以外的某些特征构成是否齐同,检验其可比性;对各组的失访率也要进行比较。 计量指标的比较采用t检验、ANOVA; 计数指标的比较采用2检验或u检验。 对差异有统计学意义的因素,在分析时应考虑它对暴露和
13、疾病关系的影响。,1. 描述性分析,(3)队列发病率或死亡率的计算 根据研究人群的稳定程度,队列通常分为固定队列(fixed cohort)和开放队列(open cohort),两种队列人群发病率或死亡率的计算指标不同。但通常都要计算累计发病率或发病密度。,2. 推断性分析,比较暴露组和对照组(或多组)之间发病率或死亡率的差异,推断暴露和疾病之间是否存在统计学关联。 符合正态分布或近似状态分布,可进行两个率差别的u检验; 样本较小、发病率较低时,可用直接概率法、二项分布或Poisson分布检验; 样本稍大和发病率稍大时,可用四格表2检验。,队列研究的资料整理表,2. 推断性分析,再分组或分层计
14、算关联强度相对危险度(relative risk,RR)和95的可信区间,以及危险度指标。危险度指标包括: 归因危险度(AR) 归因危险度百分比(ARP) 人群归因危险度(PAR) 人群归因危险度百分比(PARP),3. 标化比的计算,当研究对象人数较少或死亡(发病)率较低时不宜计算率,此时可以全人口的死亡(发病)率作为标准,计算该观察人群的预期死亡(发病)人数,然后计算实际死亡(发病)数与预期数之比,即为标化死亡(发病)比(standardized mortality ratio,SMR),3. 标化比的计算,当未能获得人群历年的人口资料,而仅有死亡人数、日期和年龄,则可计算标化比例死亡比(
15、standardized proportional mortality ratio,SPMR),即以全人口中某病因死亡占全死因死亡的比例乘以该人群实际死亡数而获得预期死亡数,然后计算实际死亡(发病)数与预期数之比。,3. 标化比的计算,SMR、SPMR和RR一样都是用来评价暴露和疾病的关联强度,是否具有统计学意义,需作显著性检验: 当期望死亡数不太小(10)时,采用 u检验或2检验 当期望死亡数小于10时,可查Possion分布总体可信区间表判定。,4. 剂量反应关系分析,剂量反应关系反映暴露与疾病间的共变关系,即暴露剂量越大,其效应越大,则该暴露作为病因的可能性越大。计算各暴露等级时的发病率,计算关联强度(RR和AR),并作趋势性2检验。,5.分层分析与多因素分析,对于队列研究资料也常用分层分析,具体方法同病例对照研究。 Logistic回归和Cox回归等分析技术不仅可以探索疾病的危险因素、混杂因素及研究因素之间的交互作用,也可以估计在不同暴露水平下个体患病的可能性。,偏倚的测量,选择偏倚的测量方法:在理论上可以通过比较总人群与实际抽样人群研究疾病与暴露因素的分布的两个四格表进行测量。举例:以病例对照研究为例,信息偏倚的测量 以队列研究资料为例,论述错分偏倚产生的条件和类型,谢 谢!,