1、2017-5-61第6章 流行病学和医学统计学基本知识流行病学和医学统计学是预防医学中的主干学科,其基本概念、基本知识和基本技能的学习和掌握对健康管理师科学思维方式的培养、知识结构的完善和专业工作能力的提高有重要意义。第一节 流行病学的基本知识一、基本概念:(一)流行病学的定义 流行病学是研究疾病、健康状态和事件在人群中的分布、影响和决定因素,用以预防和控制疾病,促进健康的学科。基本内涵:研究对象是人群,是研究所关注的具有某种特征的人群;不仅研究各种疾病,而且研究健康状态和事件;重点是研究疾病和健康状态及事件的分布、影响和决定因素;落脚点是为预防和控制疾病,促进健康提供科学的决策依据。(二)流
2、行病学的任务第一阶段:“揭示现象”第二阶段:“找出原因或影响因素”第三阶段:“提供措施”(三) 流行病学研究方法2017-5-62二、常用指标(一)率和比1、比例(proportion):表示同一事物局部与总体之间数量上的比值,分子和分母的单位相同,而且分子包含于分母之中。P=a/(a+b)分类:(1)反映事物静止状态内部构成成分占全体的比重,也称构成比例,是可以反映某种概率的数值;(2)发生频率比例,与动态的发生变化概率密切相关,反映一定时间内,发生某种变化者占全体的比例2、比或相对比(ratio):是表示两个数相除所得的值,说明两者的相对水平,常用倍数或百分数表示。相对比=甲指标/乙指标(
3、或*100%)3、率(rate):表示在一定的条件下某现象实际发生的例数与可能发生该现象的总例数之比,说明单位时间内某种现象发生的频率或强度。率= (某现象实际发生例数/可能发生该现象的总例数) * K比例基数K(=100%、1000%、10000/万)率必须包括受累人群数目、被观察到的受累人群所处的总体数目和规定的时间3方面内容才能构成“率”。(二)发病指标1、发病率(incidence rate,morbidity)指在一定期间内特定人群中某病新病例出现的频率。k100,1000/千,或10000/万发病率对长时间内发病情况调查,多以年为单位,常用10万分率表示。分子:新发病例分母:暴露人
4、口(危险人口):年平均人口数在流行病学研究中,发病率可用作描述疾病的分布,它能反映疾病发生的频率。2、患病率(prevalence rate)(现患率,流行率)指某特定时间内一定人群中某病新旧病例数 所占的比例。影响因素:患病率发病率病程患病率通常用来表示病程较长的慢性病的发生或流行情况,如冠心病、肺结核等,可反映某地区人群多某疾病的负担程度。2017-5-63患病率与发病率的区别:(1)分子不同(2)患病率是由横断面调查获得的疾病频率,衡量疾病的存在或流行情况,是静态指标;发病率是由发病报告或队列研究获得的疾病频率,衡量疾病的出现,是动态指标。(三)死亡指标1、死亡率(mortality r
5、ate)指某人群在一定时间内死于所有原因的人数在该人群中所占的比例。 是测量人群死亡危险最常用的指标。其分子为死亡人数,分母为该人群年均人口数。常以年为单位。某人群某年总死亡人数死亡率 k该人群同年平均人口数粗死亡率(crudemortality rate):死于所有原因的死亡率死亡专率(specificmortality rate):按疾病的种类、年龄、性别、职业、种族等分类计算的死亡率。2、病死率(fatality rate)表示一定时期内患某病的全部病人中因该病死亡者所占的比例。一定时期内因某病死亡人数病死率 100同期确诊的某病病例数病死率多用于病程短的急性病,以衡量疾病对人生命的威胁
6、程度。表示确诊疾病的死亡概率,它可表明疾病的严重程度,也可反映医疗水平和诊断能力及病原体的毒力。用病死率作为评价不同医院的医疗水平时,要注意病人的病情、病期及医院的医疗设备等是否可比。3、生存率(survival rate,存活率)指患某病的人(或接受某种治疗措施的人)经n年的随访,到随访结束时仍存活的病例数占观察病例的比例。常用于评价某些慢性病如癌症、心血管病等的远期疗效。随访满n年的某病存活病例数n年存活率=- 100%随访满n年的该病病例数2017-5-64注意:研究存活率必须有随访制度。首先确定起算时间及结算时间。一般以确诊日期、手术日期或住院日期为起算时间。结算时间通常以3年、5年或
7、10年计算,称为3年、5年存活率或10年存活率。(四)相对危险度(relative risk)指暴露组发病率与非暴露组发病率之比。反映了暴露与疾病的关联强度。Ie:暴露组率 Io:非暴露组率意义:说明暴露组发病或死亡的危险是非暴露组的多少倍。RR无单位,比值范围0-RR=1,表明暴露与疾病无联系;RR1 ,表明存在负联系(提示暴露是保护因子)RR1,表明存在正联系(提示暴露是危险因子)RR的绝对值越大,暴露的效应越大,暴露与结局关联强度越大(联系越强)2、比值比(odds ratio,OR)指病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值。可代表RR。病例组:a/c
8、对照组:b/dOR=ad/bcOR含义:接触某个危险因素发病、死亡是不接触某个危险因素发病、死亡的倍数。(五)归因危险度AR(Attributable risk)1、归因危险度AR:指暴露组发病率与非暴露组发病率之差。反映发病归因于暴露因素的程度。意义:暴露者中完全由某暴露因素所致的发病率或死亡率。2、归因危险度百分比指暴露人群中由暴露因素引起的发病在所有发病中所占的百分比。AR%=( IeI0)/ Ie*100%2017-5-653、人群归因危险度百分比表示全人群中由暴露引起的发病在全部发病中的比例。PAR%=( ItI0)/ It*100%三、常用的研究方法(一)现况调查(prevalen
9、ce survey)属于描述性流行病学研究方法之一。 描述性流行病学研究是指利用已有资料或特殊调查的资料(包括实验室检查结果),描述疾病或健康状况在不同时间、地点和人群中的分布特征,为进一步开展分析性流行病学研究提供病因或流行因素的线索。(一)现况调查1、概念: 现况调查是指在某一人群中应用普查或抽样调查等方法收集特定时间内有关变量、疾病或健康状况的资料,以描述目前疾病或健康状况的分布及某因素与疾病的关联。2、目的:描述疾病或健康状况的分布;发现病因线索;适用于疾病的二级预防:利用普查或筛检等手段,可早期发现病人,实现“早发现、早诊断、早治疗”的目的;评价疾病的防治效果;疾病监测;其他:衡量一
10、个国家或地区的卫生水平和健康状况、卫生服务需求的研究、社区卫生规划的制定与评估和有关卫生或检验标准的制定,为卫生行政部门的科学决策提供依据。3、方法及种类普查:即全面调查,是指在特定时点或时期、特定范围内的全部人群均为研究对象的调查。抽样调查:是指通过抽样的方法,对特定时点、特定范围内的人群的一个代表性样本进行调查,以样本的统计量来估计总体参数所在范围。4、优缺点(1)优点:常用抽样调查,研究结果有较强的推广意义,以样本估计总体的可信度较高。在收集资料完成之后,将样本按是否患病或是否暴露来分组比较,自然形成病例组与对照组。一次调查可同时观察多种因素。2017-5-66(2)局限性:现况调查获得
11、的疾病和因素的暴露情况是同时存在的,无法断定谁因谁果,故只能为病因研究提供线索。调查研究得到的资料只能是患病情况,而不能得到发病情况,不能用发病率表示,可用患病率、感染率。选择性偏倚(潜伏期、临床前期),低估患病水平。(二)队列研究1、概念:队列研究(cohort study)是将特定的人群按是否暴露于某种因素或按不同暴露水平分为n个群组或队列,比较两组或各组发病率或死亡率的差异,以检验该因素与某疾病之间有无因果联系及联系强度大小的一种观察性研究方法。2、方法 3、类型队列研究依据研究对象进入队列时间及终止观察的时间不同,分为:前瞻性(prospective)队列研究历史性(historica
12、l)队列研究双向性(ambispective)队列研究注意:暴露组与非暴露组必须有可比性,非暴露组应该是除了未暴露于某因素之外,其余各方面都尽可能与暴露组相同的一组人群。4、特点: 1)前瞻性研究 2)属于观察性对比研究,暴露与否是自然存在于研究人群,而不是人为给予的 3)研究对象根据暴露与否分组 4)观察方向由“因”及“果” 5)追踪观察的是两组间的发病或死亡率差异。2017-5-671)优点:收集的资料完整可靠,不存在回忆偏倚可计算暴露组和非暴露组的发病率一次调查可观察多种结局,并能研究疾病的自然史能直接估计暴露因素与发病的关联强度;属由“因”至“果”观察,符合时间顺序,论证因果关系的能力
13、强暴露因素的作用可分等级样本量大,结果稳定在有完整资料记录的条件下,可做历史性队列研究5、队列研究的优缺点2)缺点观察时间长,难以避免失访,费人力、费用高,不能很快出成果;准备工作繁重,设计的科学性要求高,实施难度大;暴露人年计算工作量较为繁重;研究罕见病时需要大量研究对象,因而不易收集到完整可靠的资料,不适用于罕见病的研究。(三)病例对照研究1、概念:又称回顾性研究(retrospective study)是选择一组患有所研究疾病的病人(病例组)与一组无此病的对照组,调查其发病前对某个(些)因素的暴露状况,比较两组中暴露率和暴露水平的差异,以研究该病与这个(些)因素的关系。2、方法3、特点1
14、)疾病发生后进行,研究开始时已有一批可供选择的病例;2)研究对象按发病与否分成病例组和对照组;3)被研究因素的暴露状况是通过回顾获得的;4)观察方向由果至因:已知研究对象患有或未患有某特定疾病,再追溯既往暴露于因素的情况。5)经两组暴露率或暴露水平的比较,分析暴露与疾病的联系。4、优缺点:1)优点:较节省人力物力,容易组织,所需样本较小,易于进行,出结果快。在一次调查中可以同时调查多个因素与一种疾病的关系。(一果多因)适用于对病因复杂、发病率低、潜伏期长的疾病进行研究。治疗措施疗效的初步评价2017-5-682)缺点:不适用于研究人群中暴露率比例很低的因素。病例常不能代表全部病例,对照也常不能
15、代表所属的人群,因此容易产生选择偏倚。调查中,调查对象回忆既往若干暴露史的信息时难以避免回忆偏倚。容易产生混杂偏倚,结果的可靠性不如队列研究。不能直接计算发病率及相对危险度RR,只能计算比值比OR。(四)实验研究概念:通过比较给予干预措施后的实验组人群与对照组人群的结局,从而判断干预措施效果的一类前瞻性研究方法。也称干预研究或流行病学实验。基本特点:属于前瞻性研究随机分组:随机把研究对象分配到实验组或对照组设立对照组有干预措施A.临床试验 研究对象:病人 随机单位:个体 意义:评价药物/治疗手段的效果,是临床治疗 措施在正式应用之前的最后人体应用试验。 目的:观察和论证某个(些)研究因素对研究
16、 对象产生的效应或影响;B. 社区试验生活方式干预试验以尚未患所研究疾病的人群作为整体进行试验观察研究对象:正常人群或亚临床干预单位:社区/某一人群或亚人群目的:考核或评价某种预防措施或方法(五)诊断试验的评价研究1、诊断试验的相关概念:(1)诊断试验: 是对疾病进行诊断的实验方法。各种实验室检查、病史和体检获得的临床资料、X线、B超等影像学检查。利用这些资料和技术标准对疾病和健康状况做出确切的结论。(2)诊断指标:客观指标,即能用客观仪器测定的指标;主观指标:完全根据被诊断者的主述来决定;半客观指标:根据诊断者的主观感知判断。2017-5-692、诊断试验的评价指标(1)真实性:是指筛检试验
17、或诊断试验所获得的测量值与实际情况之间的符合程度,又称准确性、有效性。指标:灵敏度(真阳性率)、特异度(真阴性率)、假阴性率、假阳性率、正确诊断指数、似然比a真阳性,确实有病又被判断为阳性的人数b假阳性,确实无病而被判断为阳性的人数c假阴性,确实有病而被判断为阴性的人数d真阴性,确实无病又被判断为阴性的人数(2)可靠性也称信度、精确度或可重复性。是指在相同条件下同一试验对相同人群重复试验获得相同结果的稳定程度。可靠性高,说明试验结果受随机误差的影响不大。3、诊断试验的评价标准1)同金标准(gold standard)诊断方法进行同步盲法比较。(定义:指被公认的诊断疾病最可靠的方法。也称标准诊断
18、)2)研究对象的代表性3)要有足够的样本含量4)诊断界值的确定要合理5)不仅评价真实性,也评价可靠性6)试验的方法和步骤要具体,有可操作性。4、提高诊断质量的方法(1)联合试验应用多个试验对同一疾病作出诊断,通常采用两个或两个以上的诊断试验,根据每个试验的结果综合判断最后的结果。1)平行(并联)试验:是同时作几个试验,只要有一个出现阳性就判断为阳性,或全部出现阴性时才判断为阴性。2)系列(串联)实验:是先后作几个试验,全部出现阳性时才判断为阳性,或只要有一个出现阴性就判断为阴性,并停止试验。(2)选择患病率高的人群(即高危人群):使新发现的病例数增加。使阳性预测值升高,试验成本下降,其结果使试
19、验的效率提高。2017-5-610(六)筛检试验的评价研究1. 相关概念:是运用快速的检查方法,从表面健康的人群中查出可能患有某病或缺陷者的措施。筛检并非诊断筛检:把患者及可疑有该病的人与健康人区别开来。诊断:进一步把患者与可疑有病但实际无病区别开来筛检是第一步,诊断是第二步,治疗是第三步。2、筛检的主要用途:(1)早期发现处于临床前期或临床初期的可疑患者(2)发现某些疾病的高危个体(3)开展流行病学监测,了解疾病的患病率及趋势(4)了解疾病的自然史3、筛检试验的评价指标:真实性评价:灵敏度、特异度4、筛检试验的类型和方法:(1)类型:群体筛检:疾病的患病率甚高,一定范围的整个人群选择性筛检:
20、高危人群组(2)方法:单项筛检、多项筛检5、筛检的应用原则:(1)合适的疾病(2)合适的筛检试验(3)合适的筛检计划是一个连续的过程,对可疑病例提供诊断、治疗的方便考虑筛检、诊断和治疗整个过程的成本与效益第二节 医学统计学的基本知识一、基本概念:(一)医学统计学的定义和研究对象1、定义:根据统计学的原理和方法,研究医学数据收集、表达和分析的一门应用学科。2、研究对象:具有不确定性的医学数据基本研究方法:通过收集大量资料,通常是人、动物或生物材料的测量值,发现蕴含其中的统计学规律。2017-5-611(二)医学统计学的主要内容1、统计设计:包括调查设计和实验设计;是整个统计工作的关键。2、统计描
21、述:对原始数据进行归纳整理,用相应的统计指标表示出研究对象最鲜明的数量特征,必要时选择统计表和统计图;3、统计推断:在统计描述的基础上,对统计指标的差别和关联性进行分析和推断。(三)医学统计资料的类型分组因素:研究者根据试验目的施加的干预或感兴趣的因素。反应变量:施加干预后的研究对象的生物反应。有三种类型的资料:计量资料,计数资料,等级资料1.计量资料定义:对每个观察对象的观察指标用定量方法测定其数值大小所得的资料。例如:体重与身高、特点:有度量衡单位,多为连续性资料(通过测量得到)2. 计数资料定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。特点:没有度量衡单位
22、,多为间断性资料(通过枚举或记数得来)3. 等级资料定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。通常有两个以上的等级,如阴性、阳性、强阳性;治愈、好转、有效、无效。等级资料与计数资料又可以统称为分类变量。(四)医学统计工作的基本步骤第一步 研究设计:制定计划,对整个过程进行安排。是整个工作的关键。可分为调查设计(不加干预)和实验设计(加干预)两大类。第二步 收集资料:来源:经常性资料(统计报表、日常性工作记录)一时性资料(专题调查或实验研究)。要求:及时、准确、完整;有足够的数量; 注意资料的代表性和可比性。2017-5-612第三步 整理资料(sorting data
23、):原始资料的整理、清理、核实、查对,使其条理化、系统化便于计算和分析。1)原始数据的检查与核对:包括统计数据的常规检查 数据的取值范围检错 数据间的逻辑关系检错2)数据的分组设计和归纳汇总:质量分组数量分组第四步 分析资料:1)用一些统计指标、统计图表等方式表达和描述资料的数量特征和分布规律,不涉及由样本推论总体的问题。2)对样本统计指标做参数估计、假设检验,目的是用样本信息推断总体特征。(五)统计学的几个重要概念1、同质与变异同质:研究对象具有相同的背景、条件、属性。变异:同质事物个体观察值(变量值)之间的差异。2、总体与样本总体:是根据研究目的确定的同质观察单位的全体。更确切地说,是同质
24、的所有观察单位某种变量值的集合。分为有限总体和无限总体。观察单位(个体):最基本的研究单位。样本:从总体中抽取部分有代表性的一部分观察单位,其测量值(观察值)的集合。抽样研究的目的是用样本信息推论总体特征。3、参数与统计量1)参数:根据分布特征而计算的总体指标。2)统计量:由总体中随机抽取的样本所计算的样本指标。参数估计就是用样本指标来估计总体指标。4、误 差 概念:指观测值与真实值之差。 种类:1)系统误差:在搜集资料的过程中,由于仪器不准、标准未经校正偏高或偏低等原因,使观察结果呈倾向性地偏大或偏小。2017-5-6132)随机测量误差 在搜集资料的过程中,即使方法统一、仪器及标准已经校正
25、,但由于偶然因素的影响,造成同一对象多次测定的结果不完全一致,这种误差往往没有固定的倾向,而是有的偏高、有的偏低。是不可避免的。3)抽样误差由于抽样引起的样本指标与总体指标之间的差异。是不可避免的,但有一定的规律性。产生原因:个体变异。减少抽样误差的方法:(1)改进抽样方法,增加样本的代表性。样本量 n 相等的情况下:整群抽样单纯随机抽样系统抽样分层抽样(2) 增加样本量n(3)选择变异程度较小的研究指标5、概率与频率1)事件(event):在某一确定条件之下所发生的现象。 必然事件(certain event):在一定条件下必然出现的现象。不可能事件(cannot event):在一定条件下
26、必然不出现的现象。随机事件(random event)在一定条件下可能出现,也可能不出现的现象。2)概率:是对总体而言的,描述随机事件发生的可能性大小的数值,常用P来表示。大小:P的大小在0和1之间,越接近于1,说明发生的可能性越大,越接近于0,说明发生的可能性越小。小概率事件:某事件其发生的概率P0.05或P0.01。统计学意义:拒绝接受事件的发生,或认为事件不可能发生。3)频率:是对样本而言的。指一次实验结果计算得到的样本率。在实际工作中,当观察单位的例数足够多时,可以用频率来代替概率。频率是概率的估计值。2017-5-614二、统计描述(一)数值变量资料的统计描述1、频数表2、频数分布图
27、频数表的制备:1、计算极差(range)R=最大值-最小值2、确定组距I=R/组数,组数=10 153、划分组段每个组段应有一个起始值作为组下限;第一组段应包括最小值,最后组段应包括最大值。4、归纳计数某校110名男童身高的频数表1.计算极差max-min2.确定组距(确定组数)3.划分组段每一组的范围4.归纳计数某校4-6年级150名男生身高频数分布图3、描述集中趋势的指标1)平均数: 用以描述同质计量资料频数分布的集中趋势, 是一组变量值的代表值。 用于描述对称分布(特别是呈正态分布)的变量值的平均水平。例如: 现测得8名健康人血液一小时末红细胞沉降率(血沉)各为: 4、7、5、3、10、
28、9、6和7mm/hr。试求其血沉均数。=x/n=(4+7+5+3+10+9+6+7)/8=6.4(mm/hr)x2)中位数 中位数是一组从小到大顺序排列的观测值中,位于正中间位置的数值,亦称为位置平均数,代号为M。 多用于描述偏态分布资料,或分布不明资料,或一端或两端无确定数值的开口资料的集中趋势。3)几何均数 用于描述变量值呈等比数列,或呈对数正态分布或近似对数正态分布资料。2017-5-6154、描述离散趋势的指标变异指标: 又称离散指标,用以描述一组同质变量值之间参差不齐的程度,即离散程度或变异度。1)极差: R, 亦称全距。即一组变量值中最大值与最小值之差。 优点:简单明了 缺点:仅考
29、虑了资料的最大值与最小值,不能反应组内其它数据的变异程度。2)方差与标准差:是最常用来衡量变量值间离散程度的变异指标。方差:是各个数据与其算术平均数之差(离均差)的平方和的平均数。 标准差:标准差是离均差平方的算术平均数的平方根(方差的平方根)3)四分位数间距:为上四分位数(即P75)与下四分位数(即P25)之差。四分位数间距可看成是中间50%观察值的极差,其数值越大,变异度越大,反之,变异度越小。4)变异系数: 又称离散系数。即标准差与均数之比。CV= (s/ )100%x(二)分类资料的统计描述1.频数表2.相对数三、统计图和统计表(一)统计表 绘制原则:简单明了,层次清楚,绘制规范 结构
30、标题:言简意赅标目:避免标目不必要的重复(横标目 说明横行数据;纵标目 说明纵列数据)线条:三线式,即三条基本线:顶线、底线和纵标目下的横线。数字:阿拉伯数字,各指标精确度一致,小数位对齐,缺失数据用“”表示,零必须写作“0”。备注:用“*”等记号标出,写于底线下,忌写于表内。(二)统计图结构标题,横、纵轴,图域,尺度,图例。根据资料选择统计图形A.条图:描述按性质分组的各组某项指标值的大小。分为单式条图、复式条图和分段条图。各长条要有同一基线,其尺度须从“0”开始。B.百分条图和圆图:描述百分比资料。2017-5-616C.线图描述某一(些)变量随时间变量变化的关系。一般以时间变量为横轴。D
31、.直方图以面积表示频数,用于描述计量频数表资料,表示频数分布。组距不等时,应先化为相同密度,再绘制。120 2013-10名 -14 正常成人舒张压的频数分布(直方图)两种疾病死亡率的变化(线图)四、统计推断统计推断:用样本信息推断总体特征,包括总体参数的估计和假设检验,是统计学的核心内容。数值变量的统计推断主要包括:总体均数估计、t检验、方差分析以及数值变量资料的秩和检验;(计量资料)分类变量的统计推断主要包括:总体率的估计、分类变量的z检验、卡方检验和秩和检验;(计数资料、等级资料)(一)假设检验的基本原理概念所谓假设检验,就是根据研究目的,对样本所属总体特征提出一个假设,然后根据样本提供
32、的信息,用适当方法推断此假设是否成立。 参数检验:总体分布类型已知,且呈正态分布时使用。 非参数检验:总体分布类型未知,或数据呈偏态分布时使用。(二)一般步骤建立假设 H0: 无效假设,又称零假设。H1: 备择假设。是与H0相对立的假设。确定检验水准: 亦称显著性水准。是一个接受或拒绝H0的概率标准。 常取=0.05或=0.01(单侧或双侧)选定检验方法和计算统计量:t检验, 方差分析, 卡方检验等。2017-5-617确定P值:P值是指在由H0所规定的总体中作随机抽样,获得等于及大于(或等于及小于)现有统计量的概率。作出统计推断:当P时,统计推断结论为:按所取检验水准拒绝H0,接受H1,差别有显著性意义。P,按所取检验水准,不拒绝H0。(三)假设检验的注意事项1、检验方法的正确选择2、结果的解释:正确理解“差别有无显著性”的涵义; 当P0.05时,习惯上也称“差别有显著性”,但不应误解为“有显著性差别”。前者是统计术语,表示“差别是有统计学意义的”,后者是一般性用语,表示“差别是很大的”。