1、SCI论文中统计学内容的理解与翻译,流行病与卫生统计学南方医科大学,Proportions were compared using Chi-squared test and Fishers exact test where numbers were small. 译法1:在样本量小的情况下,采用卡方检验和Fisher确切概率法比较各组的率.译法2:用卡方检验比较各组的率,在样本量小的情况下则采用Fisher确切概率法.,一、医学统计学基本概念(1),1.医学统计学(medical statistics)的定义: 应用概念论和数理统计的基本原理和方法,研究医学领域中数据的收集、整理和分析的一门科
2、学。 2.统计学的任务: (1)进行统计设计、收集及整理资料。 (2)对所收集到的资料进行统计描述和处理。 (3)对统计处理结果进行分析和解释。,一、医学统计学基本概念(2),3.统计分析的工作内容: (1)统计描述(descriptive satistics):指用统计指标、统计表、统计图等方法对资料的数量特征及其分布规律进行测定和描述,以揭示大量数据所蕴藏的内在信息。 (2)统计推断(inferential statistic):指如何抽样,以及如何由样本信息推断总体特征的问题。前提:a.样本的可靠性:明确划分总体的同质范围,且样本的每个个体确属预先确定的总体。b.样本的代表性:样本必须遵
3、循随机化原则有足够的样本例数,一、医学统计学基本概念(3),4.统计学的几个基本述语: (1)参数(parameter ):描述总体特征的统计指标(用希腊字母表示) 。 (2)统计量(Statistics):描述样本特征的统计指标。(用拉丁字母表示)。 (3)总体(population):根据研究目的确定的同质观察单位的全体,更确切地说,是同质的所有观察单位某种观察值(变量值)的集合。 (4)样本(sample):是总体中随机抽取部分观察单位,其实测值的集合。 (5)样本含量(sample size):样本包含的观察单位数。 (6)变量(variable):在确定总体之后,研究者则应对每个观察
4、单位的某项特征进行测量和观察,这特征为变量。变量的测量值即为变量值(value of variable),7.定量资料(quantitative data)亦称计量资料,其变量值是定量的,表现为数值大小,一般有度量衡单位。 8.定性资料(qulitative data)或分类资料(categorical data):其观察值是定性的,表现为互不相容的类别或属性,有两种情况: (1)计数资料(count data)或无序分类资料(unordered categories data)包括:二项分类资料及多项分类资料。 (2)等级资料(ordinal data)或有序分类(ordinal categ
5、ories data) 9.概率(probability):是描述随机事件发生的可能性大小的数值,常用P表示。 10.随机事件(random event):可能发生也可能不发生,可能这样发生也可能那样发生的事件,亦称偶然事件。,二、计量资料的统计描述(1),1.频数表(frequency table)及直方图(histogram)的应用: (1)揭示频数分布的特征:从频数表可以频数分布的两个重要特征:集中趋势(central tendency)和离散程(dispersion)。 (2)揭示频数分布的类型:对称分布及偏态分布。偏态分布又包括:正偏态(positive skew)和负偏态(negt
6、ive skew)。 (3)便于发现特大或特小的可疑值。 (4)便于进一步计算统计指标和进行统计分析。,二、计量资料的统计描述(2),2.集中趋势(central tendency)的描述:常用的平均数有算术均数、几何均数及中位数。 (1)算术均数(arithematic mean)简称均数(mean): 描述一组同质计量资料的平均水平。用表总体均数,用X表示均数。均数的应用:反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本进行比较。均数适用于描述单峰对称分布,特别是正态分布及近似正态分布。 (2)几何均数(geometric mean):对原始观察值呈偏态分布,但经过对数变换后呈
7、正态分布的资料,如血清抗体滴度。应用时观察值中若有0或负值,则不能直接使用几何均数。且不能同时有正值和负值。 (3)中位数(median):将一组观察值按大小排序后位次居中的观察值。可用于各种分布的资料,由于其不受极端值影响,实际工作中主要用于偏态分布、两端无确切值或分布不明确资料。,二、计量资料的统计描述(3),3.离散趋势(dispersion)的描述: (1)极差(range)亦称全距,即全部观察值中最大值与最小值之差。用于描述单峰对称分布小样本的资料的变异。 (2)四分位数间距(inter-quartile range) 指上下四分位数之差。常用于描述偏态分布资料、两端无确切值或分布不
8、明确资料的离散程度。 (3)方差(variance)和标准差(standard deviation) 是描述对称分布,特别是正态分布或近似正态分布资料离散趋势的常用指标。 (4)变异系数(coefficient of variation,简称CV),亦称离散系数(coefficient of dispersion ):为标准差与均数之比。,二、计量资料的统计描述(4),4.正态分布(normal distribution)的特征: (1)正态密度函数曲线在横轴上方均数处最高。 (2)正态分布以均数为中心,左右对称。 (3)正态分布有两个参数,位置参数和形态参数。 (4)正态密度函数曲线的面积分
9、布有以下规律:曲线与横轴间的面积恒等于1或100%.对称轴为X= ,其左右两侧面积均为50%.曲线下在区间(-,+)的面积为68.27%, (-1.64,+1.64)的面积为89.9%, (-1.96,+1.96)的面积为95.0%。(-2.58,+2.58)的面积为99.0%。,二、计量资料的统计描述(5),5.正态分布的应用: (1)估计频率分布 (2)制定医学参考值范围医学参考值(reference value)是指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标常数,也称正常值。 (3)质量控制 (4)正态分布是许多统计方法的理论基础。,三、分类资料的统计描述,分类资料
10、一般用率、构成比和相对比等相对数进行统计描述 率(rate)某现象实际发生与可能发生某现象总数比,用以说明频率或强度。 构成比(proportion)某事物内部某一部分观察单位数与事物内部各部分总数之比。 相对比(ratio):两个有关指标之比。 应用相对数注意事项: 要有足够观察单位数或观察次数 分析时不能以构成比代替率 应将分子和分母合计求合计率或平均率 相对数的比较应注意其可比性 样本率或构成比比较时应作假设检验 率的标准化法:直接法和间接法,四、常用的统计推断方法(1),t检验和u检验 用途:两计量资料均数比较的假设检验。 应用条件: 未知且n100或已知用u检验(n100时可用t检验
11、也可用u检验,但t检验更精确) 样本来自正态总体; 两样本所属总体方差相等; 类型: 样本均数与总体均数比较 配对设计的差值均数与总体均数0的比较 成组设计的两样本均数的比较 成组设计的两样本几何均数的比较,四、常用的统计推断方法(2),二项分布(binomial distribution) 定义(应用条件):贝努利试验序列(互斥、独立、等概)中某一结果(共有两种结果)出现次数的频率。用途: 总体率的区间估计:正态近似法及查表法 单个总体率的假设检验:直接计算概率法及正态近似法 两个总体率的假设检验,四、常用的统计推断方法(3),poisson分布 定义:凡具有贝努利试验序列3个特点且发生率很
12、小,样本例数很大时变量分布可认为服从poisson分布。用途: 总体率的区间估计:正态近似法及查表法 单个总体率的假设检验:直接计算概率法及正态近似法 两个总体率的假设检验,四、常用的统计推断方法(4),x2检验(chi-square test) 用途(计数资料): 两个及以上总体率或构成比是否有差别(完全及配对四格表) 两个分类变量间有无相关关系(相关性) 多个率的趋势检验(等级分层或连续性资料等级化后分层) 两个率的等率性检验(疗效比较) x2检验校正:当n40,且有1T5时Fisher确切概率法: P时 当n40或T1时,四、常用的统计推断方法(5),秩和检验(rank sum test
13、) 定义:用数据的秩次代替原始进行假设检验的方法(非参数检验)。 应途: 配对设计的两样本比较(Wilcoxon符号秩和检验) 单一样本与总体中位数的比较(Wilcoxon符号秩和检验) 原始数据的两样本比较(Wilcoxon两样本比较法) 频数表资料或等级资料的两样本比较(Wilcoxon两样本比较法) 原始数据的多个样本比较(K-W检验又称H检验) 频数表资料或等级资料的多个样本比较(K-W检验又称H检验) 配伍组设计(随机区组设计)的秩和检验(M检验又称Friedman检验) 成组设计多个样本资料的两两比较(D值法) 随机区组设计资料的两两比较(C值法),四、常用的统计推断方法(6),方
14、差分析(analysis of variance ,ANOVA) 应用条件: 各样本来自正态总体; 各总体方差齐; 样本独立性 用途: 完全随机设计的方差分析;随机区组设计的方差分析; 多个样本的两两比较a .q检验法(Student-Newman-Keuls法):两两比较b .最小意义差异法(least significant different,LSD法):对照组与各处理组的两两比较c.新复极差法(Ducans new multiple range method,简称Ducan新法):对照组与各处理组的两两比较 析因设计的方差分析 交互设计的方差分析 重复测量资料的方差分析,四、常用的统计
15、推断方法(7),直线回归(linear regression) 定义:分析某量随另一变量而变化依存关系的方法称为直线回归 适用条件: 线性趋势:绘制散点图 独立性:应变量y取值相互独立 正态性:应变量y服从正态分布 方差齐:应变量y的方差相同 统计推断: 总体回归系数的估计与假设检验:t检验和方差分析 应变量条件均数的区间估计 个体值的容许区间估计,四、常用的统计推断方法(8),直线相关(linear correlation) 定义:用来描述具有直线关系的两个变量x,y间的相互关系。它不同于直 线回归,两变量x和y是可以互换的,不分自变量和应变量。 相关系数的意义及假设检验: 意义:说明具有相
16、关关系的两变量间相互方向和密切程度。 假设检验:tr检验和查表法,同一双变量资料,回归系数和相关系的假设检验是等价的,即tb= tr 决定系数:即相关系数的平方 ,r2=SS回/SS总,它反映应变量y的总变异中,可用 回归关系解释的比例。Spearman秩相关 适用条件; 不服从双变量正态分布; 总体分布型未知; 原始数据用等级表示的资料。,四、常用的统计推断方法(9),生存分析 描述生存过程:乘积极限法和寿命表法 比较生存过程:对数秩检验、Gehan比分检验及Breslow检验 生存过程的影响因素分析:COX比例风险模型,四、常用的统计推断方法(10),多元线性回归与相关 研究多个变量之间的
17、线性依存及线性相关的统计分析方法。相关分析:研究多个变量之间线性关系的一种方法。多重线性回归(multiple regression):研究的是一个应变量与多个自变量之间产依赖关系。而多元线性回归研究的是多个应变量对多个自变量的线性依存关系,当只有一个应变量时,称为多重线性回归。协方差分析(covariance analysis):是利用线性回归方法消除混杂因素的影响后所进行的方差分析。,四、常用的统计推断方法(11),Logistic回归 定义: 医学研究中Logistic回归主要用于筛选疾病的危险因素或预后因素和评价 治疗措施的效果,通常是以疾病的死亡、治愈等结果发生的概率为因变 量,以疾
18、病和预后的影响因素为自变量建立模型。 分类: 非条件logistic回归:适用于成组设计且因变量为二分类的资料; 条件logistic回归:适用于配对设计且因变量为二分类的资料; 多分类logistic回归:适用于因变量为多分类的资料。 logistic回归的假设检验:回归方程的假设检验和回归系数的假设检验 logistic回归方程回归系数的解释:对回归系数k来说,在控制其它自变量不变的情况下,xk每增加一个单位,OR值就相应增加e k倍。,四、常用的统计推断方法(12),COX比例风险回归模型(Cox proportional hazard regression model)医学研究中,观察对象生存时间的长短往往与多种因素有关系,如白血病患者化疗后的缓解期,除与治疗有关外,还可能与患者年龄、体质、病情轻重及营养状况等因素有关。医学上将这些因素统称为预后因素,统计学上将它们称作为协变量。由于生存时间资料常存在截尾值,且不满足正态分布和方差齐。统计学上采用COX比例风险回归模型来分析带有协变量的生存资料,该模型以时间顺序统计量为基础,对生存时间的分布形式无具体要求。,Thank you!,