1、医 学 科 研 中 的 统 计 设 计,2,科研设计(专业设计+统计设计)是科研工作的基石和保证,是多快好省地完成实验的基础。,3,要做好实验设计,核心内容,4,实验设计三要素,5,实验设计四原则,6,随机化:核心是机会均等。使每个受试者进入各组的机会或概率相等。目的:防止选择研究对象或分组时加入人为主观因素的干扰。因此,随机不是随意,更不是随便。,7,违背随机原则案例随意选择研究对象或分组,某医院自2006年2月至2007年2月,采用射频热凝技术共治疗腰椎间盘突出症患者86例,现选择资料齐全的腰椎间盘突出症28例总结。探讨电针对骨关节炎的治疗作用、将40例膝骨关节炎患者按就诊顺序随机分为2组
2、,每组20例。,8,方法:简单随机化法 ;区组随机法 ;分层随机法;动态随机法,9,在对骨关节炎患者分两组时考虑:病情(轻、中、重)、 患病时间(短、长) 非处理因素 日常运动量(少、多) 现治疗组和对照组各有了1例患者,他们的基本情况如表1所示。,10,如果又来了一例新患者,其病情重、患病时间短、日常运动量多,应将此患者分入哪个组为好?试着将新患者分别分入治疗组和对照组,取“不平衡指数”较小者所对应的分配方案,11,对照:设立条件相同及诊断一致的一组对象,接受某种与实验组不一样的实验措施。目的:抵消非实验因素的干扰和影响,避免偏倚或系统误差,使结论具有可比性,更可靠和更有说服力。,12,对照
3、的形式,标准对照,互相对照,自身对照,安慰剂对照,交叉对照,对照的形式,13,对照原则的常见错误辨析1缺乏对照,目的:观察大黄牡丹汤联合结肠透析治疗慢性肾功能衰竭(CRF)的临床疗效.方法:对98例CRF患者进行常规治疗(给予优质低蛋白低磷饮食,CRF基础治疗,如对血压、贫血及血糖等对症治疗)的同时,进行结肠透析及大黄牡丹汤水煎剂保留灌肠,观察患者治疗前后症状、体征改善情况,并用配对设计定量资料的t检验分析某些相关指标。结论:大黄牡丹汤联合结肠透析对CRF有明显的疗效。,14,目的:川芎嗪对脑缺血再灌注后脑组织肿瘤坏死因子( TNF-a)含量及髓过氧化物酶(MPO)活性的影响。方法:将36只雄
4、性SD大鼠随机分为假手术组、模型组和川芎嗪组。假手术组不阻塞大脑中动脉,腹腔注射1 ml生理盐水;模型组制备局灶性脑缺血再灌注模型,缺血前30 min腹腔注射1 ml生理盐水;川芎嗪组制备局灶性脑缺血再灌注模型,缺血前30 min腹腔注射川芎嗪注射液。观察川芎嗪对脑缺血再灌注后脑组织TNF-含量及MPO活性的影响。,对照原则的常见错误辨析2对照不全,15,本资料涉及两个因素:1.“是否制备局灶性脑缺血再灌注模型”,2.“是否注射川芎嗪注射液”,这两个因素各有“是与否”两个水平,两个2水平因素全面组合应该有4组,但本文少了一组“不制备模型,腹腔注射川芎嗪注射液”组。,本资料是一个两因素非平衡的组
5、合实验的定量资料,若实验设计时增加了遗漏掉的那一组,则此实验设计就是一个2X2析因设计。,16,17,表现为二个含义: 1. 是样本含量的大小 2. 是同一试验重复次数的多少,18,样本含量的估计,若观察指标是计量资料,两组均数差值的大小d若观察指标是定性资料,它在人群中发生的频率P第一类错误的概率=0.05 把握度:1=0.80单侧或双侧检验,19,计量资料样本量大小的计算,:估计的标准差 d:两样本均数之差,计数资料样本量大小的计算,N:样本含量的大小 PC:对照组的发生率 P1:实验组的发生率 P=(PC+ P1)/2,20,1. 盲法:在临床疗效实验中,为了去除人(包括研究对象、观察者
6、、资料整理者和分析者)的主观心理因素对研究结果的影响,使相应人员不知道研究中分组和研究对象接受处理情况,这种方法称为盲法。2. 目的:为了有效地避免研究者或受试者的测量性偏倚和主观性偏见。,21,单盲:仅有受试者不知道自己接受何种处理。双盲:受试者和研究者均不知道接受何种处理。三盲:受试者、研究者和资料统计分析者均不知道接受何种处理。开放性试验:受试者、研究者和相关人员均知道受试者接受何种处理。,22,常用实验设计方法及错误辨析,单因素多水平设计,成组设计,随机区组设计,实验设计方法,拉丁方设计,析因设计,重复测量设计,单组设计,配对设计,正交设计,23,一、配对设计,配对设计:成对地选择研究
7、对象,分别给予每对中的两个受试对象以不同的处理。配对的条件:影响实验效应的主要非处理因素。目的是消除两个比较组非处理因素的作用。,24,方法:先将受试者编号,如第一对第1受试者编为1.1,第2受试者编为1.2,余类推。随机指定随机排列表第2行,取随机数字。舍去1019之间的数字,并规定单数取甲乙顺序,双数取乙甲顺序。,配对设计案例-试将10对受试者随机分入甲、乙两处理组。,25,二、交叉设计,是一种特殊的自身对照设计。在配伍用药时,可以均衡因用药时间顺序不同对结果造成的影响。 研究对象的分组方法同配对设计,分组后的研究分两个阶段,按以下流程安排实验。,26,也称为配伍组设计或双因素设计。 可同
8、时分析两个因素的作用,增强试验效率;要求两因素应相互独立,无交互作用;,三、随机区组设计,27,随机区组设计案例-要观察2个因素的作用。将20只动物分到五个区组(窝别)和四个处理组(药物)。,(1)取同一品系的动物20只。其中每一区组取同一窝出生的动物4只。五个区组即为五个不同窝别的动物。 (2)将每一区组的4只动物分别顺序编号为14号,58号,912号,1316号,1720号,接受A、B、C、D四种处理方式。(3)借助随机排列表,任意指定5行,每行只随机取数14,其余数舍去。依次将随机数字记录于各配伍组的编号下,其随机数字即为该动物应分入的处理组,见表10-7。,28,表10-8 20只动物
9、 的分组结果,表10-7 按随机区组设计要求对20只动物进行分组,29,拉丁方:用r个拉丁字母排成r行r列的方阵,每行每列中的每个字母都只出现一次,此方阵叫rr拉丁方。拉丁方设计分别用行间、列间和字母间表示三个因素及其不同水平; 拉丁方设计的基本要求是:必须是三个因素的试验,而且三个因素的水平数相等;三个因素相互独立,无交互作用;三个因素试验效应的测量指标服从正态分布且方差齐性。,四、拉丁方设计,30,析因设计:是一种多因素的交叉分组设计。它不仅可检验每个因素各水平间的差异,而且可检验各因素间的交互作用。 最简单的析因设计为22(或22)析因设计。其意义为:试验中共有2个因素,每个因素各有两个
10、水平。再如,222(或23)析因设计,表示试验中有三个因素,每个因素各有两个水平。,五、析因设计,31,22析因实验作用模式,六、重复测量设计,前述的设计方法中若其中的某个因素为前后重复测量,则为重复测量设计。其特点是前后测量的数据不能随机安排,数据之间不独立,有一定相关性。,32,正交试验设计:可分析三个及三个以上因素的作用及其交互作用。以一套规格化的正交表,用最少的试验次数获得更多的信息。,七、正交试验设计,33,某研究要安排3个试验因素,每因素有2个水平,因素之间有交互作用,请选择合适的正交实验设计方案,正交表应用案例,L4(23)正交表,34,设计类型辨析1,不同色谱峰进样方式测定峰面
11、积和PFIB染毒浓度,自身配对设计 ? 成组设计?,35,设计类型辨析2,研究五种消毒液对四种细菌的抑制效果。,随机区组设计,36,设计类型辨析3,BMS与对照组的年龄、性别构成比较,两因素析因设计,37,设计类型辨析4,甲乙两种方法处理的样品在不同稀释度条件下测得结果,两因素析因设计,38,设计类型辨析5,肝纤维化SSS计分值治疗前后的情况比较,具有重复测量的两因素设计,39,错误辨析 型糖尿病总组及亚组体脂参数变化,多因素非平衡实验,需重新组合分辨设计类型,40,统计分析方法的选择,实验设计类型,结果变量的性质,前提条件判断,41,定量资料,成组设计,单因素多水平设计,多因素设计,单组设计
12、,配对设计,独立性?正态性?方差齐性?,独立性?正态性?,NO 非参数检验,YES 参数检验,t检验/u检验,方差分析,秩和检验或其它,YES 参数检验,NO 非参数检验,配对t检验,t检验,42,定性资料,四格表 某病患者接受手术时间与伤口感染情况观察,成组设计2检验或Fisher精确检验,43,四格表两种培养基对同一批痰液标本同时培养的结果,配对设计配对设计 2检验,Kappa检验,44,双向无序RC表某医院3年间4种甲状腺疾病在四季中的发病人数分布,现况调查2检验或Fisher精确检验,45,等级资料,单向有序(结果变量为等级资料)RC表 3种药物治疗某病患者疗效的观察结果,单因素多水平
13、设计秩和检验、Ridit分析、有序变量的logistic回归,46,双向有序(原因和结果变量均为等级资料)且属性不同 RC表 地方性甲状腺肿患者各年龄组疗效的观察结果,47,一般来说,有以下 4 个可能的分析目的,只关心各年龄组患者治疗结果之间的差异是否具有统计学意义:可将此时的“双向有序 R C 列联表资料”视为“结果变量为有序变量的单向有序 R C 列联表资料”,选用:秩和检验、Ridit 分析和有序变量的 logistic 回归分析。若希望考察年龄与疗效之间是否存在线性相关关系,通常采用Spearman 秩相关分析方法。若 2 个有序变量之间的相关关系具有统计学意义,要进一步了解这 2
14、个有序变量之间的变化关系是呈直线关系还是呈某种曲线关系,此时宜选用线性趋势检验。若希望考察列联表中各行上的频数分布是否相同,宜选用一般2检验或 Fisher 精确检验。,48,双向有序且属性相同的 R C 表 100例脑肿瘤患者临床诊断与CT诊断的结果,目的是:2 种检测方法检测的结果之间是否具有一致性,故选用Kappa 检验。,49,高维列联表(列联表中包含的定性变量的格子数大于等于 3 ) 孕妇在 2 个诊所接受产前护理量与婴儿存活情况的观察结果,多重 logistic 回归分析方法,50,甲、乙医院用 A、B、C 3 种药医治某病的疗效观察,有序变量的多重logistic 回归分析方法,
15、51,错误辨析:多重回归分析时常犯的错误,原文题目:妇科恶性肿瘤患者的生存期预测。 作者先用单因素分析方法筛选自变量,即采用单因素方差分析,从初步调查的 19 项临床生化指标中筛选出 9 项对生存时间有显著影响的指标,再对这 9 项指标进行多重 logistic回归分析,拟合回归方程的过程中采用了“后退法”筛选,变量,最后得到包含“呼吸困难、发热、年龄、KPS 和血尿素氮”5 个自变量的 5 重 logistic 回归方程,其主要结果列在下面的表中。请问:原作者筛选变量的策略正确吗?基于此 5 重 logistic 回归方程得到的结论可信吗?为什么?正确的做法是什么?,52,肿瘤患者多因素分析
16、及回归模型,53,辨析:在分析过程中,原文作者犯了 3 个错误,筛选变量的策略错误,仅根据单因素分析中有统计学意义(即 P 0.05)的因素建立多重logistic 回归方程。仅采取“后退法”这一种方法筛选自变量建立多重回归方程,很难保证结果就是非常理想的。表中给出的结果存在过失错误或有造假嫌疑。呼吸困难这个自变量之下的“重度”所在行中 3 个“?”处应该有数据,而原表中空缺,这很可能是过失误差所致;发热这个自变量的后两档分别相对于第一档“无”对应的 P 值都大于 0.05,说明“发热”对“是否患肿瘤”这个结果变量的影响无统计学意义,不应该将其保留在最终的多重 logistic 回归方程之中。 基于此,可以认为原文 5 重 logistic 回归方程得到的结论的可信度较低。,54,正确的做法是: 多选择几种筛选自变量的方法进行变量筛选,通常应选用不少于 3 种方法筛选自变量来建立多重回归方程,并借助一些评价方法,确定其中 1 个最合适的。另外,在给出多重回归分析结果时不要漏项,尽可能提供准确、完整的信息。,55,目前,统计分析方法还有很多,现在基本上借助统计分析软件SASSPSS等完成。,56,祝大家的科研事业快马加鞭, 更进一步!,Thank You !,