1、生物统计学(Biostatistics) 是以概率理论为基础,研究生命科学中随机现象规律性的应用数学科学。涉及到医学科学研究的设计、资料搜集、归纳、分析与解释的一门应用性基础学科、二、科学研究的基本程序 1、提出一个欲待研究的问题:2、科学研究设计:专业设计、统计学设计:统计学设计(statistical design) :是指用统计学原理对研究的全过程所作出的周密合理的统筹安排,如确定研究对象,拟定研究因素及其分配,如何执行随机、对照与重复的统计学原则,如何观察与度量效应,以及数据收集、整理与分析的方法,通过合理的、系统的安排,达到控制系统误差,以尽可能少的资源消耗(最小的人力、物力、财力和
2、时间)获取准确可靠的信息资料及可信的结论,使效益最大化。3、获取试验与观察的资料,又称为搜集资料4、数据审核与计算机录入5、分析资料描述性统计(descriptive statistics) 是指用统计指标、统计图、统计表等方法,对数据的特征及其分布规律进行检测与描述。统计推断(inferential statistics) 是通过随机样本信息推断总体特征的过程。统计推断又包括置信区间(confidence interval)估计与统计学假设检验(hypothesis test) 。统计学分析过程按变量的多寡可分为单变量分析与多重变量分析。 6、分析结果的合理解释(Explication of
3、 results): 研究中应注意的问题1、统计学结论的正确与否取决于统计学分析数据的真实性、准确性以及研究样本对研究总体的代表性。 2、尽可能地控制系统误差是统计分析数据真实性、准确性的保证。3、随机化抽样是确保样本数据对研究总体具有代表性的重要过程。变量 variable: 在总体中,个体的许多属性(如年龄、性别、血浆胆固醇等)存在变异性,统计学上将反映个体属性变异性特征的指标称为 随机变量(Random variable),简称变量; 针对不同类型的属性,需采用不同类型的变量,因而产生不同类型的资料。总体(Population)与样本(Sample) :根据研究目的所确定的具有相同性质的
4、观察单位的集合成为总体(母体) 。从同一总体中通过随机化过程抽取的部分观察单位称为样本(子样) 。抽样(Sampling) 从研究总体中通过一定原则获取样本的过程样本含量(Sample size) .样本中所包含的基本研究单位数量同质(Homogeneity): 同一总体中的每一个体都具有相同性质类别的特征。变异(Variation) : 同一总体中的各个体间的差异性。随机化(randomization ): 能使总体中每一观察单位均能以同等机会(概率)进入样本,或分配到实验组与对照组的过程。抽样误差(Sampling Error) :由于总体中各个体间存在变异性,因抽样过程的随机性所至样本的
5、统计量与总体的参数不等,或多个样本的统计量存在差异性称为抽样误差。概率(Probability) :描述随机事件发生的可能性的度量。随机事件 A 的发生概率记为 P(A)。概率的取值在 0 到 1 之间,若 P=1 或 P=0 的事件称为必然事件,若 050 例):z 近似,t 更精确配对设计资料均数的比较1.异源配对:将受试对象按某些混杂因素(如性别、年龄、窝别等)配成对子,然后将每对中的两个个体随机分配给两种处理(如处理组与对照组) ,对子成对出现,仅对对子中的两个体进行随机。2. 同源配对(或自身配对):同一受试对象作两次不同的处理(如甲法、乙法) ,或一种处理的前后比较。优点:配对设计
6、减少了比较对子间的个体差异。 特点:资料成对(对子编号) ,利用每对数据间的差值(d)作比较, =n-10/ddt SSn完全随机设计两总体均数的比较实验设计:用完全随机设计(completely random design) 方法,把受试对象随机分为两组,分别给予不同处理,然后比较独立的两组样本均数。各组对象数不必严格相同。但两组例数相等,可提高检验效能。两总体均数的 Z 检验当总体方差已知时,应使用 Z 检验21nX大样本(如两组例数均50 例)情况下,尽管总体方差未知,也可用样本方差取代总体方差,用 Z 检验作近似计算 21nSX两总体方差间的差异性检验 较 小较 大21SF自由度 n1
7、-1,n2-1使用双侧的原因:计算 F 值时,较大方差 S12 可以作为分子,也可作为分母。注意:一般的方差分析,只采用单侧检验对出现方差不齐情况时统计学应对策略1.采用不以来总体分布的非参数检验2.对原变量合适数学变换,使方差变为齐性方差3.当各组方差相差悬殊时课采用 Welch 加权方差分析总体方差齐同情况下的 t 检验:自由度 n1+n2-221)()(XSt均数的标准误: )1(221nSc2)1()( /12222nSnXSc方差不齐时 t检验121212()0()XXtSSn 21221()(1)SSnn卡方检验 Chi-square Test卡方检验是对分类资料进行统计推断分析的
8、一种方法。它可以用来比较两个或多个率的差异(同质性检验)或检验两个指标是否关联(关联性检验) 或判断列联表的边际分布是否一致(一致性检验) 等。理论频数: ncrEjiij卡方检验的分类A) 22 四格表:(1)同质性检验 -比较两个率;(2)关联性检验B)2k 列联表:(1)同质性检验 -比较 k 个率;(2 )关联性检验;(3)趋势分析C)RC 列联表 :关联性检验:双向无序,单向有序,双向有序D) kk 配对分类数据的卡方检验: 1) 一致性检验(reliability);2) 对称性检验(symmetry)jiijEfx22)(卡方界值 X2(0.05,1)3.841自由度 df=(行
9、数-1)(列数-1)=1四格表专用公式(Pearson 公式)212(crffnx连续性校正公式 Yates:21212 )(crnffnxc 当样本含量40,如有一个格子理论频数小于 5 时使用四格表的精确概率 Fisher exact若有理论频数小于 1 或 n40 时,尤其时用其它方法计算概率接近检验水平时使用!21NdcbaCRP四格表卡方检验方法的选择原则对于成组分类数据的 22 表:a) n 40,且所有 E 5 - Pearson (一般公式)b) n 40,但有 1E 23) 双侧检验 : H0: 1 = 2 vs H1: 1 2左侧概率+右侧概率原表格概率=1行列表卡方检验:
10、)1(122RiCjijOnxRC 表有序分类型数据的卡方检验 The Chi-square test for ordinal categorical data1) 有序分类变量的量化方法(1)等距离法(2)非等距离法(3)秩得分法(rank scores ):第 i 行秩得分: ikiinr2/)1(1第 j 行秩得分: jkjic/)(1(4)Ridit 得分法( ridit scores):在秩得分的基础上进行:r2i=r1i/n;c 2i=c1i/n(5)调整 Ridit 得分法(modridit scores):在秩得分的基础上进行:r3i=r1i/(n1) ;c 3i=c1i/(
11、n1)2) 标准化得分(样本得分n 个样本得分均值)/得分标准差配比方表同质与对称性检验kk 配对分类数据的卡方检验1) 一致性检验(reliability)一致性检验方法-kappa 检验2)对称性检验(symmetry)(a) McNemar 检验-2 2 表配对四格表公式:b+c40 时使用cbx22)(b+c50mg”等 )缺点:方法比较粗糙,对于符合参数检验条件者,采用非参数检验会损失部分信息,其检验效能较低;样本含量较大时,两者结论常相同应用非参数检验的情况:1.不满足正态和方差齐性条件的小样本资料;2.总体分布类型不明的小样本资料;3.一端或二端是不确定数值(如0.002、65
12、等)的资料(必选) ;4.单向有序列联表资料;5. 各种资料的初步分析。秩次(tie)将数值变量值从小到大,或等级变量值从弱到强所排列的序号。两个独立样本检验Wilcoxon 秩和检验Wilcoxon rank sum test1区间(计量)数据的两样本比较:符合参数条件时,采用两样本均数的 t 检验2有序(等级)数据的两样本比较常错误采用 卡方检验名义数据的两样本比较,采用率或构成比的卡方 检验K 个独立样本检验完全随机设计多个样本比较的 Kruskal-Wallis H 检验1.区间(计量)数据的多个样本比较 Kruskal-Wallis H 检验;如果满足参数条件,这类资料一般作完全随机
13、设计 ANOVAK 个相关样本检验:随机区组设计多个样本比较的 Friedman M 检验等级相关:应用:两个样本的相关分析,当两个变量不服从正态分布时,可以采用等级相关分析。医学研究的统计学设计研究设计的基本类型1. 实验(Experiment)研究 (干预 )受试对象:人临床试验(clinical trial) 动物动物实验( animal experiment )临床试验:治疗临床疗效实验 预防社区干预实验(community intervention trial) 2. 调查(Survey) 研究 (无干预) 被动地观察、如实记录研究设计的重要性设计好: (1)既省又可靠;(2)可估计
14、和控制误差;(3)获取多方面知识设计不好:(1)杂乱无章、虽多犹无;(2)只能罗列现象、无规律可言两种研究类型的区别与联系实验研究 调查研究干预因素 施加 不施加研究类型 推断性 描述性研究范围 较小 大研究地点 实验室或现场 现场控制误差 较好 较差相互关系 对调查加以验证 为实验提供线索研究设计的基本要素(一)处理因素( treatment factor )(二)受试对象( subject )(三)实验效应( experimental effect )1. 客观性:主观指标和客观指标。2. 精确性:准确度(accuracy)或真实性 (validity)观察值与真实值的接近程度,受系统误差
15、的影响。常用指标:灵敏度、特异度精密度(precision)或可靠性(reliabiliy )或重复性(repeatability) 重复观察时观察值与其均值的接近程度,受随机误差的影响。常用指标:Kappa 值、一致百分率实验设计的基本原则1.随机化原则(randomization) ;2.对照原则 (control);3.重复原则 (replication):重复(replication)是指各处理组与对照组要有一定样本含量(sample sizes)。几种不同设计类型的随机化分组:(1)完全随机实验设计:将观察单位完全随机地分配到实验组与对照组或几个对比组中去。(2)配对实验设计 pai
16、red experiment design: 1.同源配对:同一受试对象用两种不同的实验方法;受试对象自身实验前后的对比 。2.非同源配对:将具有相同条件的实验对象配成对子。(3)随机区组实验设计 (randomized block experiment design) (1)将多方面条件相近的受试对象配成一组,称作一个区组(block) 。(2)每个区组的受试对象个数 取决于 对比组组数。(3) 每个区组的受试对象被随机地分配到各对比组中。配对设计的扩展,故又称配伍组设计(4)交叉设计:(cross-over experiment design)每个受试者随机地在两个或多个不同试验阶段分别接
17、受指定的处理(试验药或对照药) 。同源配对设计的扩展优点:(1)控制个体间的差异, (2)减少受试者人数。对照的形式:包括:空白对照、实验对照、标准对照、自身对照、相互对照 、历史对照设立对照应注意的事项(1)均衡:对照组与实验组 除研究因素外,其他因素应尽可能相同(2)同步:对照组与实验组 应处于同一空间和同一时间常用的抽样方法 1.单纯随机抽样 simple random sampling:先将总体的全部观察对象编号,再利用抽签或随机数字表的方法随机抽取观察对象组成样本。最基本的抽样方法2. 系统抽样 systematic sampling:按照一定的顺序,机械地每隔若干个单位抽取一个单位
18、的方法。又称间隔抽样,机械抽样3.分层抽样 stratified sampling:先按某种特征将总体分为若干组别、类型或区域等(统称为“层” ) ,再用随机抽样的方法从每个子总体中抽取样本。要求“层内齐同,层间不同” 。4. 整群抽样 cluster sampling:按群体而不是按个体抽取观察单位的抽样方法。各种抽样方法的抽样误差顺序:分层系统单纯整群误差( error ):实测值与真值之差。系统误差(systematic error):在一定实验条件下,由某种未发现或未确定的因素所引起观测值具有方向性和系统性的误差,又称偏倚(bias) 。(三)系统误差类型及其控制类 型 发生阶段 控
19、制选择偏倚 设 计 随机化测量偏倚 实 施 盲 法混杂偏倚 分 析 配对、分层 样本含量的估计与检验效能样本含量(sample size) :为了保证研究结论的可靠性,确定的实验研究或调查研究所需要的最低观察对象的数量。检验效能(power) :也叫把握度,即 1-(第二类错误的概率) 。如果两总体参数实际有差异(H1 成立) ,按 a 水准,假设检验能发现这种差异的能力(真阳性) 。通常要求达到80%或 90%(即 =0.2 或 =0.1 ) ,不得低于 75%。样本含量的影响因素1. 检验水准 : 低,则 n 高 2. 检验效能 1-:(1- )高,则 n 高, (1-) 0.75,通常取
20、 0.8 或 0.9。3. 客观差异 (delta),即比较总体参数间的差值(如 m1-m2, p1-p2)。 低,则 n 高 4.总体标准差 、总体平均数 (或总体率 ) ,这里主要指离散程度指标。 高,则 n 高个体间标准差越小或样本含量越大,检验效能越大; s 小或 n 大 均数对应的概率密度曲线(m,s 2/n)瘦高 检验效能大第一类错误的概率 越大,检验效能越大客观差异 越大,检验效能越大样本含量的估计1.均数抽样 2/Zn2.率的抽样 )1(2/3. 样本均数与总体均数比较 4. 两样本均数比较5. 配对计量资料比较2/2()zn2/212()z2/2()dzn d:每对观察对象差
21、值的标准差6. 两样本率比较 )1(2211 czn1 和 2:分别表示两组的总体率c :两组的合并率7. 配对计数资料比较: 2/2cczn +-=b/(a+b), -+=c/(a+c), c=( +-+ -+) /2检验效能及其计算出现“阴性”结果有两种可能:(1) (1-)较大,被比较的指标间很可能无差别。(2) (1-)较小,所比较的指标间很可能差别有显著性,但由于样本含量不足而未能发现。Z查 z 值表 (1-)Z 的计算 1.两样本均数比较: znz21( 未知时)2.配对计量资料比较 zzdSNN 为对子数,为差值均数,Sd 为差值标准差。多元线性回归分析分析多个变量之间的相互关联
22、和相互依存的关系多元线性回归模型的矩阵形式: y=x+ ey 是因变量观察值构成的向量, x 是自变量观察值和常数项构成的矩阵, 是未知参数构成的向量(待估计的偏回归系数向量 ),e 是因变量的残差构成的向量。多元线性回归分析 :研究一个因变量与一组自变量的依存关系,即,研究一组自变量是如何直接影响一个因变量的。多元线性回归分析的基本原理:利用观察或收集到的因变量和自变量的一组数据建立一个因变量关于自变量的线性函数模型,并且,这个模型最好地拟和了观察数据。多元线性回归分析的方法步骤12cxzzs一、估计参数;二、检验参数;三、检验模型;四、模型诊断;五、解释模型参数的实际意义。估计参数(估计偏
23、回归系数 j)方法 -最小二乘法标准偏回归系数的估计 sbxjj同一模型中对参数的标准估计值进行大小比较,绝对值大的 b j 对应的自变量 x j 对因变量 y 的影响大,或者说,与因变量 y 的关联性强。bj 表示了当其它自变量不变时,xj 改变一个单位所引起的 y 的改变量。复确定系数(multiple determinent coefficient):它表示了因变量 y 的总体变异中被所有自变量所解释的比例。 STregR/2多元线性回归分析的逐步回归法1.向前选择法 (forward selection);2. 向后消去法 (backward elimination);3. 逐步过程法
24、 (stepwise procedure)决定模型好坏的常用指标有三个:检验总体模型的 p-值,确定系数 R2 值和检验每一个回归系数 bj 的 p-值。多元相关分析相关分析 (correlation analysis):研究两个或多个变量之间关联性或关联程度的一种统计分析方法。相关系数 (correlation coefficient):描述变量之间的关联程度大小的常数,它介于 -1 和 1 之间,一般用 来表示。多个变量之间关系三个基本方法:1.偏相关分析 partial correlation analysis:判断其它因素不变的情况下,一个变量与另一个变量之间是否关联。2.复相关分析
25、multiple correlation analysis:判断一个变量与另一组变量之间是否关联3.典型相关分析 canonical correlation analysis:判断一组变量与另一组变量之间是否关联多元线性回归分析模型:Y=+1 X1 +2 X2 +3 X3+偏相关系数 (partial correlation coefficient):度量了当其它变量固定不变时,或者说在消除了其它变量的影响之后,两个变量之间线性关联的强度。多元相关分析和多元回归分析的异同点相同点是:讨论了变量之间的关联性。不同点是:多元回归分析给出了变量之间的依存关系,而多元相关分析没有给出依存关系;多元回归
26、分析要求将变量分为自变量和因变量,而多元相关分析不要求将变量分为自变量和因变量;多元回归分析仅要求因变量服从正态分布,而多元相关分析要求所有变量服从正态分布。Logistic 回归分析研究因变量 y 取某个值的概率变量 p 与自变量 x 的依存关系。分类型因变量 (y) -Logistic 回归分析Logistic 回归分析的数学模型 )(1)(xexyP令 y 是 1,0 变量,x 是一个危险因素。Logistic 回归模型的另外一种形式 xpit)1ln()log相对危险度 relative risk: 21RRR 表示暴露在危险因素下的发病率与不暴露在危险因素下的发病率的比,其值表示暴露
27、在危险因素下的发病率是不暴露在危险因素下的多少倍。比数比 odds ratio: )21/(pOOR 值表示暴露在危险因素下的发病率与不发病率之比与不暴露在危险因素下的发病率与不发病率之比的比。当发病率很低时,ORRR一元 logistic 回归模型系数 的意义解释:(1) 如果 x=1,0,则 OR 近似表示在 x=1 条件下的发病率与 x=0 条件下发病率之比,即暴露下的发病率与非暴露下的发病率之比 (相对危险度) 。(2) 如果 x 是连续变量,则 OR 近似表示在 x 相邻两个单位上的相对危险度。(3) 如果 x 是分类变量,则要将 x 的哑变量放入模型,则 OR 表示两个类之间的相对
28、危险度。Logistic 回归分析和线性回归分析的异同点相同点:都可以利用模型来筛选危险因子;都可以校正混杂因子的影响;都可以用来做预测。不同点:前者对因变量无分布要求,后者要求因变量是正态分布变量;前者要求因变量必须是分类型变量,后者要求因变量必须是连续型数值变量。前者不要求自变量和因变量呈线性关系,后者要求自变量和因变量呈线性关系;前者是分析因变量取某个值的概率与自变量的关系,后者是直接分析因变量与自变量的关系。条件 logistic 回归分析分析配对病例-对照研究资料的统计分析方法一般采用条件 logistic 回归分析。条件 logistic 回归分析的数学模型以及分析原理方法均和非条
29、件 logistic 回归分析类似。因为参数的估计公式涉及到条件概率理论,所以称为条件 logistic 回归分析。一元相关与回归分析相关系数 correlationg coefficient:是描述两个随机变量(X,Y)在数量变化,协同变化的规律有无,方向及程度的统计指标,样本相关系数用 r(y,x)表示,总体相关系数用 表示。协方差:covarrancecov(x,y) 1)(nyxii 1)(nxiii相关系数 r 的 方 差 )的 方 差 ) ( 协 方 差与 yx )()(2222 nnyiiiiiii总体相关系数是否为 0 的 t 检验trr* 自由度n221r相关系数的标准误 S
30、r 12r总体相关系数置信区间估计:Z )1ln(2rZZa/ 3经典线性回归的前提条件:线性;独立;正态;等方差建立回归方程的原则:最小二乘法 least square estimate:在所有候选直线中选择能使残差平方和最小的那一条直线。回归系数 b niiiiixy12)( ninininiiixyx112211)()(截距 a by确定性系数 总回S2r方差分析是用来检验 2 个和 2 个以上均数差异的假设检验方法。T 检验是基于 2 个均数差异性的标准误,仅适用检验 2 个均数,用于检验 2 个以上均数是重复的 t 检验回导致严重扩大犯 I 类错误的概率。反应变量 respondent variable:所研究受其它因素影响的变量效应因子 effect factor:影响反应变量的处理因素因子水平 :效应因子的每一个取值主效应 :效应因子对反应变量的独立影响交互效应 :interaction 及个效应因子对反应变量的交叉影响。方差分析的基本原理:FMSB/MSEMSB 组间均方,MSE 为误差均方K 组的样本含量相等时:MSE kSki12MSB 2XnS1)(2kxkiiK 组的样本含量不等时:MSE kiiiiin12)(MSB)(12kxkiiN 为每个样本的对象数,分子自由度 v1k1,分母自由度 v2N-k