1、1,流行病学数据的分析处理方法,山东大学公共卫生学院 School of Public Health Shandong University,流行病与卫生统计学研究所,2,流行病学数据分析前的准备工作,一、原始数据的检查在数据分析前需要对原始的流行病学调查研究数据进行一次审查,发现可能存在的错误、遗漏的研究变量取值和其他问题,并采取相应的措施进行处理。若在调查表中发现有缺失的数据,可以通过电话再次询问研究对象、查阅有关的记录、应用储存的血液标本重新检测或再次取样等措施进行补充。 若发现逻辑错误,也要及时改正。需要对调查问卷进行编码或者对已编码的问卷进行核查,避免重复和遗漏。,3,二、选择合适的
2、数据管理和数据分析软件 常用的数据管理软件Microsoft FoxPro、Microsoft Access、Microsoft Excel 这些数据管理软件也具有简单的数据分析功能,Excel的数据分析功能更强,不仅可实现描述性统计,还可以做t检验、方差分析、相关回归分析等 常用的数据分析软件SAS(Statistical Analysis System)和SPSS(Statistical Package for Social Science),它们均具有很强的数据分析和数据管理的功能,4,三、数据的计算机录入 (编号、定义变量名、变量数量化) 编号:给每一个调查表或调查对象一个编号以识别录
3、入的数据与调查表或调查对象的对应关系(唯一性) 使用阿拉伯数字1、2、3等给每份调查表按照顺序编号,这样有利于以后对输入的数据进行检查、核对与修改错误。 可以给编号以时间、地区、单位、调查对象编号等,如:200501(济南)02(历下)0001(调查对象),5,定义变量名称: 命名:可以应用中文、拼音、也可以应用英文,但以使用拼音或英文为好,这样可以方便输入。 注意: 变量名应简短、易懂易记:如对性别、年龄、身高、体重可以使用gender, age, height 和weight进行命名。对名称较长的变量,可以使用简写,如wt表示weight、ht表示height。 标记或说明:有些数据管理和
4、分析软件可变量进行标记或说明,避免时间长久了而忘记数据库中的变量名字,如对上述Wt可标记为“weight”。,6,变量数量化如果调查表的设计是编码式的,则此步骤可省略,直接将变量取值编码的结果输入计算机。若不是编码式的调查结果,则需要对变量的取值结果进行编码(数量化)。,7,常见变量的类型1、字符型(character type):输入字符如中文或英文2、数值型(numerical type):以数值的形式输入3、日期型(data type):按照规定的格式输入日期数值4、逻辑性(logical type):,8,变量数量化时应注意:(1)除日期型变量外尽量使用数值型变量(2)某些数值变量(n
5、umerical variable)可直接输入变量的取值,如研究对象的身高、体重、血压水平等。(3)分类变量(categorical variable)及有 序变量(ordinal variable)则可将其取值进行量化,然后再输入计算机,9,如:分类变量种族白人1 黑人2西班牙裔人3 亚太裔4其它种族5 注意:分类变量在进行多因素分析时,必须转换成哑变量(dummy variable),不能直接将前述的取值1、2、3、4、5放入方程中进行分析。,10,有序变量的数量化顺序合理,则可以直接进行分析如:教育程度文盲:0 小学:1中学:2高中及中专:3大学:4 硕士及以上:5,11,四、数据的检查
6、与核对 (一)检查数据库结构数据库样本数(观测数)、变量数、变量名称及定义等。 (二)检查各变量的取值情况查看变量取值范围,有无逻辑错误:如性别应有两个取值,若有2个以上的取值,说明存在错误 。对数据变量要检查其最小值(minimum)、最大值(maximum)、均数(mean)、中位数(median),并查看是否有异常取值(outlier),如极小值及极大值。异常值若影响显著时应删除,12,五、数据的整理 (一)数据分组 分类变量:按其原有的分类进行分组,若有必要,可将性质相近或差别不大的类别进行合并。如教育程度。 数值变量: 按照实际的生理、病理或临床意义分组,如体重指数:低体重、正常体重
7、、超重和肥胖,13,按使用的方便程度和专业上惯用的方法分组,如年龄在某一个合适的范围内每5岁或10岁分成一组。按分位数分组,即首先找出四分位数(quartile)或五分位数(quintile)的界值,然后应用这些界值将研究对象平均分成4组(每组25%的研究对象)或5组(每组20%的研究对象)。,14,(二)数据的转换 1、非正态数据的变量转换 原理:正态分布 参数检验(parametric test) 非正态数据非参数检验(non-parametric test) (不是对原始数据检验)如:秩和检验 (是对原始数据的秩次检验) 检验:正态性检验、方差齐性检验 方法:对数变换;平方根变换;倒数变
8、换,15,2、分类变量转换成哑变量 原理:分类变量是二分类尺度及顺序尺度,则可直接应用其原有的数量化数值。名义尺度因为各类别间没有顺序关系,在进行不同分析(包括多元分析、logistic回归、Cox回归等)时,不能使用原始的计算机录入数值,必经进行变量转换。即将该变量转换成(水平数-1)个哑变量,再将这些新转换的变量放入多因素模型中。,16,方法:例如:将种族原始取值转换成哑变量(新变量)表1. 分类变量转换成哑变量的方法,新变量以白人为参照,X11表示黑人与白人比较,依此类推,17,六、确定拟分析的因变量和应变量 因(自)变量(independent variable):是指影响疾病的发生或
9、健康状况的分布的变量,是原因变量 、已知变量、x变量。 应变量(dependent variable):是指随因变量的变化而发生变化的变量,是结果变量、预测变量、y变量。 应变量是在自变量作用下产生反应的变量,18,意义 有助于选择拟研究的变量:对调查表的设计具有指导作用 可以指导数据分析方法的选择:因变量是分类变量:采用2检验,logistic回归分析等。因变量是数值变量:采用t检验、方差分析,协方差分析、多元回归等 。 有助于模型的建立 :应变量( y )放在模型的左侧,因变量(x )放在模型的右侧。,19,例1. 欲评价不同治疗方法(口服药物、注射胰岛素及膳食控制)对糖尿病人的治疗效果(
10、血糖水平),分析时要求调整病人的性别、年龄和病程的影响。血糖水平(应变量y)=治疗方法(因变量x)+其它协变量(covariate,性别、年龄和病程) 例2. 欲分析脂蛋白(a)与冠心病发生的关系。冠心病(应变量y)=脂蛋白(a)(因变量x),20,七、缺失数据(missing data)的处理 缺失数据:是指其测量结果缺失。产生的原因: 问卷调查:遗漏出生日期和年龄,调查结束后又无法补救 实验室检测:血脂或血糖因为血清量不足或研究对象拒绝采血而致 过去处理:仅用无缺失的数据进行分析损失样本量缺失数据“合理”赋值人为赋值不一定合理,21,现在处理数据分析处理件软处理 :SAS自动分析处理如一个
11、数据库中有性别和年龄等变量,性别有10个缺失数据,年龄有3个缺失数据: 分析性别时不包括性别缺失的10个个体 分析年龄时不包括缺失年龄的3个个体 当分析中(如多因素分析)共同使用了性别和年龄时,分析的实际样本数量是性别和年龄这两个变量均不含缺失数据的样本,22,流行病学数据分析方法的选择,一、流行病学数据的分析程序数值变量正态性检验 正态 数据转换 非正态参数检验 非参数检验图1. 数值变量的分析程序,23,单因素分析 2检验 分类变量分层分析 多因素分析 logistic回归分析 Cox回归分析 其它分析方法图2. 分类变量的分析程序,24,二、根据研究设计类型选择 (一)成组比较的设计 两
12、组比较:t检验或2检验 多组比较:方差分析、行列表2检验 病例对照研究:按其分析方法分析 分级的病列对照研究:按其分析方法分析 (二)配对(自身实验前后)设计 配比的t检验、2检验 配对的病例对照研究方法进行数据,25,(三)重复测量的设计在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果,在接种后的2周、4周、6周和8周测定抗体滴度:重复测量的方差分析方法 (四)多因素设计 自变量是数值变量:多元回归分析方法、协方差分析方法 自变量分类变量:logistic回归分析方法、判别分析方法、聚类分析方法,26,三、根据变量的类型选择,表2. 不同变量
13、类型的数据分析方法选择,27,表3. 不同研究设计和数据类型的数据分析方法选择,28,不同流行病学研究类型的数据分析方法,一、描述性研究 (一)现况研究 分布描述:患病率、危险因素流行率、数值变量分布 探讨因素:相关回归分析、2检验、t检验、方差分析、多因素分析、人群归因危险度 (二)生态学研究 同现况研究 (三)筛检 筛检试验的真实性和可靠性 人群中疾病、健康状况、危险因素筛选结果分析方法:同现况研究,29,(一)病例对照研究 病例对照研究数据成组设计 配比设计 粗OR分级OR剂量反应 分层OR 分级OR剂量反应(趋势2检验) (趋势2检验 ) 分层OR 混杂与效应修饰分析混杂与效应修饰分析
14、 图3. 病例对照研究数据的分析程序,二、分析性研究的数据分析方法,30,(二)队列研究队列研究数据人时、发病密度/累积发病率粗RR、AR、AR%、PAR及PAR%分层RR、AR、AR%、PAR、PAR% 分级RR、AR、AR%、PAR、PAR图4. 队列研究数据的分析程序,31,三、实验研究的数据分析方法干预组与对照组某疾病发病率、危险因素的暴露率及数值变量均值水平的差异,检验方法同前述 效果指数、保护率,32,流行病学数据的表达与报告,一、数据的报告顺序 1、按分析顺序 描述性结果:如人口学数据(性别、年龄、职业、文化程度,居住地)、某病发病率/患病率、危险因素流行率、数值变量的集中趋势及
15、变异情况 单因素分析结果 多因素的分析结果 2、按变量的特点及逻辑顺序 按某疾病的人群、地区及时间的分布特征 按个人生活方式因素、家族遗传因素、社会心理因素、实验室及体格检查结果等顺序,33,二、非正态数据的表达与报告 1、未进行变量转换: 报告中位数、最小值及最大值 报告中位数、25%分位数、75%分位数、最小值及最大值 报告均值、中位数再配合以上的变异指标 2、进行变量转换数据 报告原始值 报告其转换值,34,三、数据表达与报告中图、表及文字的使用合理 生动活泼、简洁明了 协调好三者关系 如用盒状图(均值、25%分位数、75%分位数、最小值及最大值)表达数据的集中趋势及变异情况 以表格的形式报告OR值或RR值 以条图的形式报告OR或RR的点估计值、95%或99%可信区间,35,流行病学数据分析中存在的问题,一、不重视人口学数据及描述性统计量分析 二、忽视分析方法的应用条件 三、数据的分组方法不合理 四、多因素分析中分类变量未转换为哑变量 五、多因素分析中未进行模型拟合度的检验 六、需要分析的数据未进行统计学分析 七、缺失数据的处理 八、相对数的误用 九、忽视对协变量效应的控制,