1、医学统计学复习重点统计设计:调查设计、实验设计 第一章 绪 论1. 基本概念:总体根据研究目的确定,所有同质观察单位某种观察值的全体。样本总体中抽取的一部分具有代表性的个体组成的集合。参数刻画总体特征的统计指标。一般用希腊字母表示 、 、 统计量刻画样本特征的统计指标。抽取的样本不同,统计量会变化;一般用拉丁字母或英文字母表示 、 S、 pX抽样误差:个体变异所致,抽样研究中样本信息与总体特征间的差异。抽样误差是不可避免的。属于随机误差,无方向性,重复抽样可以呈现一定的规律性。小概率事件 P0.052. *统计工作的四个步骤:设计、收集资料、整理资料、分析资料。 (用工作实例解释)第二章 调查
2、研究设计第三章 实验研究设计1. 调查研究 (观察性研究) :特点:无人为施加处理因素调查研究的分类:按调查涉及的对象划分:全面调查(普查) 、抽样调查、典型调查注意:收集的资料要有可比性*随机抽样方法(做统计推断有意义):单纯随机抽样、系统抽样、分层抽样、整群抽样非随机抽样方法(不能做统计推断,可能有偏差):偶遇抽样、判断抽样、滚雪球抽样等2. 实验研究特点:与调查研究最本质的区别:根据研究目的主动施加干预措施实验设计的三个基本要素:受试对象、处理因素、实验效应实验设计的基本原则:对照原则、随机化原则、重复原则第四章 定量资料的统计描述第五章 定性资料的统计描述1. 定量资料(1)定量资料*
3、频数分布表、直方图、箱式图判断分布类型集中位置 离散趋势(变异程度)*对称分布(正态分布) SX均数 X标准差 S*偏态分布 M(P 25P75) 中位数 M=P50 四分位数间距 Q=P25P75对数正态分布 几何均数 G 对数标准差 SlgX(2)描述离散趋势的统计指标: 极差 R=最大值- 最小值、 四分位数间距 Q:常用于描述* 偏态分布资料的离散趋势、一端或两端无确切值的资料、分布不明确资料 方差(总体 、样本 S2)&标准差( 、S):*正态或近似正态分布 变异系数 %10XSCV(3)(4)正态分布及其应用:*制定医学参考值范围步骤:判断分布类型正态分布 *双侧 95%参考值范围
4、: 1.96S、X单侧 95%参考值范围:下限为 -1.64S、上限为+1.64SX偏态分布 *双侧 95%参考值范围:(百分位数法)P 2.5P97.5单侧 95%参考值范围:下限为 P5、上限为 P952. 定性资料*率 :指某现象实际发生数与某时间点或某时间段可能发生该现象的观察单位总数之比。用以说明该现象发生的频率或强度。*构成比:即比例,指事物内部某一组成部分观察单位数与同一事物各组成部分的观察单位总数之比。用以说明事物内部各组成部分所占的比重。 %10观 察 单 位 总 数同 一 事 物 各 组 成 部 分 的 位 数某 一 组 成 部 分 的 观 察 单构 成 比 相对比:简称比
5、,是两个有关联的指标之比值。用以说明一个指标是另一个指标的几倍或几分之几。%)10或(乙 指 标甲 指 标相 对 比 应用相对数的注意事项:(1) *计算相对数时分母应有足够的数量(2) *分析时不能以构成比代替率(3) 应分别将分子分母求和计算合计率 (4) *注意资料的可比性:常用标准化法解决率的可比性问题(5) 样本相对数的统计推断(6) 某些情况下最好使用绝对数*合计率(平均率、粗率):应将分子和分母分别合计。第六章 参数估计1. 定量资料:用样本均数 估计总体均数 。抽样误差:均数的标准误* X均数的标准误越大,样本均数的分布越分散,样本均数离总体均数就越远,样本均数与总体均数的差别
6、越大,抽样误差越大;抽样误差越大,由样本均数估计总体均数的可靠性越差。反之亦然。2. 定性资料:用样本率 p 估计总体率 。抽样误差:率的标准误3. 参数估计的方法:(1)点估计:抽取一个样本资料后,获得样本统计量;直接用样本统计量作为总体参数的估计值;缺点是没有考虑抽样误差。*( 2)区间估计:结合样本统计量和抽样误差,按一定的置信度(1)估计包含总体参数的区间范围,该区间称为(1)置信区间(CI)总体均数的 95%置信区间的含义:从正态总体中重复 100 次抽样,每次样本含量均为n,每个样本均按 计算 95%置信区间,则在这 100 个置信区间中,理论上有95 个置信区间包含了总体均数。a
7、) 样本均数估计总体均数的方法: *t 分布法: *正态分布:样本量足够大时( n100) 。b) 率的的置信区间: 查表法 *正态近似法:样本量足够大时( n50 且 np、n(1-p)均5) 。95%的总体率的置信区间*第七章 假设检验1. 基本原理:反证法、小概率事件推断2. *假设检验的基本步骤:1. 建立检验假设,确定检验水准2.(选择检验方法) ,计算检验统计量3.确定 P 值,作出推断结论3. 建立检验假设(H0 和 H1)H0 零假设或无效假设 通常为两总体参数相等或服从某分布;H1 备择假设通常为两总体参数不相等或不服从某分布。第八章 第十四章(不含第十章)研究目的 资料类型
8、 设计类型 条件 满足条件用 不满足条件用样本均数与总体均数的比较(单样本设计) 独立性、正态性单样本设计的符号秩和检验*配对设计 独立性、正态性(差值的总体服从分布) 配对设计的秩和检验两独立样本均数比较 独立性、正态性、方差齐性(两组标准差超过 2 倍以上提示方差不齐)(相应设计的)t 检验*t检验、变量变换、 (相应设计的)秩和检验完全随机设计(多个独立样本)定量资料(*区分设计类型)随机区组设计(多个相关样本)独立性、正态性、方差齐性(样本来自的总体方差相等) 方差分析变量变换、 (相应设计的)秩和检验独立样本 22 n40,理论数 T5n40,1 T 5,用校正公式独立样本 RC 列
9、联表 T 不能1,1 T5 格子数不能超过总格子数的 1/5计数资料配对设计 22 b+c40b+c40,用校正公式卡方检验 确切概率法(或者增大样本量)单样本、配对 符号秩和检验两独立样本 Wilcoxon 秩和检验多个独立样本 K-WH 秩和检验差异性分析等级资料随机区组 Friedman 秩和检验*两定量变量 *双变量正态分布 简单线性相关(相关系数 r) 秩相关(相关系数 rs)两分类变量 卡方检验相关(双变量关联性分析)两等级变量 秩相关(等级相关)关联性分析直线回归分析 LINE(线性、独立性、正态性、等方差性)t 检验*配对设计: 配对的两个受试对象分别接受两种处理 同一样品用两
10、种方法(或仪器) 检验的结果 同一受试对象两个部位的数据。推断目的:两种处理(或方法) 的结果有无差别。方差分析总变异:所有观察值与总均值的离均差平方和组间变异:不同处理组样本均数之间的差异。用组间离均差平方和 表示。反映的是处理因素所致变异及个体变异和测量误差。组内变异:处理组内每个观察值之间的差异。用组内离均差平方和 表示。反映的是个体变异和测量误差。*随机区组设计:是配对设计的扩大可以安排两个因素的作用:研究因素:处理组间有无差异区组因素:控制非研究因素 (重要的可控的混杂因素)* 2 检验2 检验的基本思想:实际频数用 A 表示,根据 H0 确定的理论频数用 T 表示,则构造的 2 统
11、计量为 1. *独立样本 22 列联表资料的 2 检验*应用条件: n40,理论频数 T5,n40,1最小 T5,计算校正的 2 值: 2. 独立样本 RC 列联表资料的 2 检验*应用条件: 理论数不能小于 1,理论数在 1 和 5 之间的格子数不能超过总格子数的 1/5不满足条件时可合并或删除部分信息3. *配对 22 列联表资料的 2 检验*应用条件:b+c40, b+c40,校正公式:秩和检验(不考细节)*应用条件:定量资料不满足参数检验条件*等级资料的统计推断1. 符号秩和检验:(1)单一样本与总体中位数比较(2)*配对设计配对设计假设检验步骤:2. 成组设计两样本比较:Wilcox
12、on 秩和检验(1) 原始数据两样本比较(2) *等级资料两样本比较3. 成组设计多个样本比较:K-WH 秩和检验(1) 原始数据的多个样本比较(2) 等级资料的多个样本比较4. 多个独立样本间的多重比较:K-WH 秩和检验5. 随机区组设计的秩和检验:Friedman 秩和检验双变量关联性分析1. *直线相关(连续性变量) (两定量变量)*条件 : *双变量正态分布。不满足用秩相关。*步骤:绘制散点图,如呈现线性趋势计算统计指标:相关系数 r对 r 做假设检验如 P0.05 ,解释相关系数的统计学意义2. 秩相关(连续型变量或等级变量间)*条件 :连续型两变量不满足双变量正态分布。*等级变量(有序变量)相关分析。常用的为 Spearman 秩相关分析直线回归分析* 回归系数 b:描述 y 与 x 在数量上的依存关系。*解释:b 表示 x 每增加(减)一个单位,y 平均改变 b 个单位*直线回归分析的基本步骤:1. 绘制散点图(观察是否有直线趋势、异常点)2. 估计回归参数,列出回归方程3. 对回归方程进行假设检验4. 解释回归系数的统计学意义5. 评价回归方程的拟合效果( )*