1、医师资格考试蓝宝书-预防医学医学统计学方法第一节 基本概念和基本步骤(非常重要)一、统计工作的基本步骤设计(最关键、决定成败) 、搜集资料、整理资料、分析资料。 总体:根据研究目的决定的同质研究对象的全体,确切地说,是性质相同的所有观察单位某一变量值的集合。总体的指标为参数。实际工作中,经常是从总体中随机抽取一定数量的个体,作为样本,用样本信息来推断总体特征。样本的指标为统计量。由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,这种由抽样引起的差异称为抽样误差。抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低。某事件发生的可能性大小称为概率,用 P 表示,在
2、01 之间,0 和 1 为肯定不发生和肯定发生,介于之间为偶然事件,0.05 不拒绝 H0,差别无统计学意义0.05 t0.05(v) 0.05 拒绝 H0,接受 H1,差别有统计学意义0.01 t0.01(v) 0.01 拒绝 H0,接受 H1,差别有高度统计学意义五、两均数的假设检验(常考!)1.样本均数与总体均数比较 u 检验和 t 检验用于样本均数与总体均数的比较。理论上要求样本来自正态分布总体实际中,只要样本例数 n 较大,或 n 小但总体标准差 已知,就选用 u 检验。n 较小且 未知时,用于 t 检验。两样本均数比较时还要求两总体方差等。 XSt以算得的统计量 t,按表所示关系作
3、判断。2.配对资料的比较 在医学研究中,常用配对设计。配对设计主要有四种情况:同一受试对象处理前后的数据;同一受试对象两个部位的数据;同一样品用两种方法(仪器等)检验的结果;配对的两个受试对象分别接受两种处理后的数据。情况的目的是推断其处理有无作用;情况、的目的是推断两种处理(方法等)的结果有无差别。 nStd/0v=对子数-1 ;如处理前后或两法无差别,则其差数 d 的总体均数应为 0,可看作样本均数 和总体均数 0 的比较。 为差数的均数; 为差数均数的标准误,S d 为差数的标准dd差;n 为对子数。因计算的统计量是 t,按表所示关系作判断。3.完全随机设计的两样本均数的比较 亦称成组比
4、较。目的是推断两样本各自代表的总体均数 1 与 2 是否相等。根据样本含量 n 的大小,分 u 检验与 t 检验。t 检验用于两样本含量 n1、n 2 较小时,且要求两总体方差相等,即方差齐。若被检验的两样本方差相差显著则需用 t检验。u 检验:两样本量足够大,n50。 2X1St=21X)(21Cn-)21CSSv=(n1-1)+(n2-1)=n1+n2-2式中 ,为两样本均数之差的标准误,Sc 2 为合并估计方差(combined estimate 21XSvariance) 。算得的统计量为 t,按表所示关系做出判断。4.型错误和型错误 弃真,拒绝正确的 H0 为型错误 表示,若显著性水
5、平 定为 0.05,则犯型错误的概率 0.05;接受错误的 H0 为 型错误,概率用 表示, 值的大小很难确切估计。当样本含量一定时,两者反比,增大 n,当 一定时,可减少。1- 称为检验效能或把握度,其统计意义是若两总体确有差别,按 水准能检出其差别的能力。客观实际 拒绝 H0 不拒绝 H0H0 成立 型错误() 推断正确 1-H0 不成立 推断正确(1-) 型错误()5.假设检验注意事项 保证组间可比性;根据研究目的、资料类型和设计类型选用适当的检验方法,熟悉各种检验方法的应用条件;“显著与否”是统计学术语,为“有无统计学意义” ,不能理解为“差别是不是大” ;结论不能绝对化。第四节 分类
6、变量资料的统计描述(一般考点)相对数是两个有关联事物数据之比。常用的相对数指标有构成比、率、相对比等。一、构成比表示事物内部各个组成部分所占的比重,通常以 100 为例基数,故又称为百分比。其公式如下:构成比 100一一一该式可用符号表达如下:构成比 100CBA构成比有两个特点:(1)各构成部分的相对数之和为 100.(2)某一部分所占比重增大,其他部分会相应地减少。二、率用以说明某种现象发生的频率或强度,故又称频率指标,以 100,1000,10000 或100000 为比例基数(K)均可,原则上以结果至少保留一位整数为宜,其计算公式为:率和构成比不同之处:率的大小仅取决于某种现象的发生数
7、和可能发生该现象的总数,不受其他指标的影响,并且各率之和一般不为 1。率 K一该式亦可用符号表达如下阳性率 K(若算阴性率则分子为 A(-) ))()(A式中 A(+) 为阳性人数,A (- ) 为阴性人数。三、相对比表示有关事物指标之对比,常以百分数和倍数表示,其公式为:相对比:甲指标/乙指标(或 100)或用符号表示为:A/BK四、注意事项构成比和率的不同,不能以比代率;计算相对数时,观察例数不宜过小;率的比较注意可比性,特别是混杂因素的问题,有的话,可用标准化法和分层分析消除;观察单位不同的几个率的平均率不等于几个率的算术均数;样本率或构成比的比较应做假设检验。第五节 分类变量资料的统计
8、推断(非常重要)一、率的抽样误差用抽样方法进行研究时,必然存在抽样误差。率的抽样误差大小可用率的标准误来表示,计算公式如下: p= n)(1式中: p 为率的标准误, 为总体阳性率,n 为样本含量。因为实际工作中很难知道总体阳性率 ,故一般采用样本率 P 来代替,而上式就变为Sp= nP)(1二、总体率的可信区间由于样本率与总体率之间存在着抽样误差,所以也需根据样本率来推算总体率所在的范围,根据样本含量 n 和样本率 P 的大小不同,分别采用下列两种方法:(一)正态近似法(常考!)当样本含量 n 足够大,且样本率 P 和(1-P)均不太小,如 nP 或 n(1-P)均5 时,样本率的分布近似正
9、态分布。则总体率的可信区间可由下列公式估计:总体率()的 95可信区间:p1.96s p总体率()的 99可信区间:p2.58s p(二)查表法 当样本含量 n 较小,如 n50,特别是 P 接近 0 或 1 时,则按二项分布原理确定总体率的可信区间,其计算较繁,读者可根据样本含量 n 和阳性数 x 参照专用统计学介绍的二项分布中 95可信限表。三、u 检验(非常重要!)当样本含量 n 足够大,且样本率 P 和(1-P)均不太小,如 nP 或 n(1-P)均5 时,样本率的分布近似正态分布。样本率和总体率之间、两个样本率之间差异的判断可用 u 检验。1.样本率和总体率的比较公式 u=P-/ P
10、=P-/ ;)/(12.两样本率比较公式 u=P 1-P2/Sp 1-P2=P 1-P2/ )/2npc也可用 2 检验,两者相等。四、 2 检验(非常重要!)可用于两个及两个以上率或构成比的比较;两分类变量相关关系分析。其数据构成,一定是相互对立的两组数据,四格表资料自由度 v 永远=1。四格表 2 检验各种公式适用条件,n40 且每个格子 T5,可用基本公式或专用公式,不用校正。基本公式: 2=(A-T ) 2/T专用公式: 2=(ad-bc) 2n/(a+b) (c+d) (a+c ) (b+d)只要有一个格子 T 在 15 之间,需校正。校正公式:基本公式: 2=(A-T -0.5)
11、2/T专用公式: 2=(ad-bc-n/2) 2n/(a+b ) (c+d) (a+c ) (b+d)n40 时, 2=(b-c) 2/b+c;b+c0 表示直线与 Y 轴的交点在原点上方,0:表示 Y 随 X 增大而增大b0:表示 Y 随 X 增大而减少b=0:表示 Y 不随 X 变化而变化第七节 统计表和统计图(重要考点)一、统计表原则:结构简单、层次分明、内容安排合理、重点突出、数据准确。1.标题 简练表达表的中心内容,位置在表的上方。2.标目 有横标和纵标目,横标目通常位于表内左侧;纵标目列在表内上方,其表达结果与主辞呼应。3.线条 力求简洁,一般为三线表。4.用阿拉伯数表示,如无数据
12、或暂缺资料,也可用“-”或“”来表示。5.备注 一般不列入表内,解释在表下。内容排列:一般按事物发生频率大小顺序来排列,对比鲜明,重点突出。二、统计图1.线图(line diagram) (常考!)资料性质:适用于连续变量资料。分析目的:用线段的升降表达某事物的动态(差值)变化。2.半对数线图(semilogarithmic line graph)资料性质:适用于连续变量资料。分析目的:用线段的升降表达事物的发展速度变化趋势。3.直方图(histogram )资料性质:适用于数值变量,连续性资料的频数表资料。分析目的:直方图是以直方面积表达各组段的频数或频率。4.直条图(bar chart)资料性质:适用于彼此独立的资料。分析目的:直条图是用等宽直条的和长短来表示各统计量的大小,进行比较。5.百分条图(percentchart )资料性质:构成比。分析目的:用长条各段的长度(面积)表达内部构成比。6.圆形图(circulargraph) (常考!)资料性质:构成比。分析目的:用圆的扇形面积表达内部构成比。7.散点图(scatterdiagram)资料性质:双变量资料。分析目的:用点的密集度和趋势表达两变量间的相关关系。8.统计地图(statistical map)资料性质:地区性资料。分析目的:用不同纹线或颜色代表指标高低,说明地域分布。