收藏 分享(赏)

统计总计电子版.ppt

上传人:Facebook 文档编号:3817726 上传时间:2018-11-19 格式:PPT 页数:541 大小:6.09MB
下载 相关 举报
统计总计电子版.ppt_第1页
第1页 / 共541页
统计总计电子版.ppt_第2页
第2页 / 共541页
统计总计电子版.ppt_第3页
第3页 / 共541页
统计总计电子版.ppt_第4页
第4页 / 共541页
统计总计电子版.ppt_第5页
第5页 / 共541页
点击查看更多>>
资源描述

1、医用多元统计分析,授课对象:硕士研究生 时间:2011年3月-6月,课程名称:,任课教师:郭秀花、罗艳侠电 话:83911498-806 83911508成绩评定方法:作业+论文卷面精品课程网址:医学统计学 http:/ 生物医学科研中的统计学参考书:1.医学统计学,余松林主编,人民卫生出版社2.医学统计学,孙振球主编,人民卫生出版社3.生物医学研究的统计方法主编:方积乾,高等教育出版社,第一部分 绪论及SPSS简介,一、概述1.定义 (1)统计学 (2)医学统计学 (3)医用多元统计分析,.定义,(1)统计学(Statistics):是研究大量随机现象中数量规律的一门科学。英国不列颠百科全书

2、称为:“收集和分析数据的艺术”;郭祖超主编一书:“关于数据收集、表达和分析的普遍原理和方法”。,(2)医学统计学(Medical statistics):应用统计学的理论和方法,解决医学数字的收集、整理与分析推断的一门学科。 ()医用多元统计分析(Medical multivariate statistical analysis),多元统计分析是研究客观事物中多种指标间相互依赖、相互影响的统计规律性的一个数理统计学分支。医用多元统计分析是多元统计分析在医学领域中的应用。,、科研统计工作的步骤,(1)设计(design): 根据研究的目的,从统计学的角度对各步提前做出的周密的计划和安排。调查设计

3、 科研设计 实验设计,中国首医,Fisher在他的著作中多次强调,统计学家与科学研究者的合作应该在实验设计阶段,而不是在需要数据处理的时候。他精辟地指出:,To call in the statistician after the experiment is done may be no more than asking him to perform a postmortem examination: he may be able to say what the experiment died of.,(2)收集资料(Collection of data): 根据研究目的实验设计的要求收集准确

4、的完整的充满信息的原始资料。,(3)整理资料(Sorting data)就是将收集来的资料有目的,有计划地进行科学加工,有些资料有问题要去掉或重新审核,有些资料要归成组,以便分析。(4)分析资料(Analysis of data)就是将经过统计整理的结果,作一系列统计描述和统计推断,阐明事物的规律性。,.资料类型,(1)定量资料计量资料(measurement data):对每个观察单位用定量方法测定某项指标的数值大小所得的资料。,(2)定性资料计数资料(enumeration data)按性质或类别进行分组,然后再清点各组数目所得的资料。 等级资料(ranked data)将观察单位按某项指

5、标的等级顺序分组,再清点各组观察单位的个数所得的资料。,二、基本统计方法,.定量资料的基本统计方法有个模块: (1)统计描述 (2)区间估计 (3)假设检验 (4)相关与回归,()统计描述,平均数average,均数(mean),中位数(median),极差(range) 标准差 ( standard deviation ) 四分位数间距(quartile range),变异系数(coefficient of variation),变异指标,(2)区间估计(interval estimation),正常值(参考值)范围 (reference range),总体均数的可信区间(置信区间)(con

6、fidence bound/confidence interval,CI),正态分布( normal distribution); 置信限(confidence limit,CL),单个样本(one sample) t 检验 配对资料 (paired sample)比较的t检验 两独立样本(two independent sample)均数比较的检验 t检验(当方差不齐时),(3)假设检验(hypothesis test),t检验 (t test),【例1】已知正常人乙酰胆碱脂酶的平均值为1.44单位,现测得13例慢性气管炎患者的乙酰胆碱脂酶分别为: 1.50,2.19,2.32,2.41,2

7、.11,2.54,2.20,2.36,1.42,2.17,1.84,1.96,2.39 问:慢性气管炎患者与正常人的平均乙酰胆碱脂酶之间的有无差别?,例 从八窝大白鼠中分别选出同性别、体重相近的两只,喂以水解蛋白和酪蛋白的饲料,四周后测定其体重增加情况,结果如下:窝 编 号 1 2 3 4 5 6 7 8含酪蛋白组 82 66 74 78 82 76 73 90含水解蛋白组 15 28 29 28 24 38 21 37问:两种饲料对大白鼠体重增加量之间的差别的有无影响?,例3 今测得12名正常人和15名病毒性肝炎患者血清转铁蛋白含量,结果如下:正 常 人 265.4 271.5 284.6

8、291.3 254.8 275.9 281.7 268.6 264.1 273.2 270.8 260.5病毒性肝炎患者 235.9 215.4 251.8 224.7 228.3 231.1 253.0 218.8 233.8 230.9 240.7 221.7 256.9 260.7 224.4问:患者和健康人的转铁蛋白之间的差别是否有统计学意义?,完全随机设计(completely random design) 随机区组设计(randomized block design) 多个样本均数的两两比较(compare means between two sample in F analysi

9、s),(3)假设检验(hypothesis test),方差分析 (analysis of variance)ANOVA,例 研究单味中药对小白鼠细胞免疫机能的影响,把40只小白鼠随机分为四组,每组10只,雌雄各半,用药15d后,进行E-玫瑰结形成率测定,结果如下:对照组 14 10 12 16 13 14 12 10 13 9党参组 21 24 18 17 22 19 18 23 20 18黄芪组 24 20 22 18 17 21 18 22 19 23淫羊藿组 35 27 33 29 31 40 35 30 28 36试分析各组均数之间的差别有无统计学意义? 若P0.05,请作两两比较。

10、,例5 某研究所研制了三个降血脂中药复方制剂,现拟对三个复方与标准降脂药(安妥明)的疗效进行比较。取品种相同、健康的雄性家兔16只,按其体重大小分为四个配伍组,各药物组的动物均饲以同样高脂饮食,并每日分别灌以不同药物,第45天处死动物,观察其冠状动脉根部动脉粥样硬化斑块大小,资料见表2。试比较不同药物是否对动脉粥样硬化斑块形成的面积大小的有影响?,表2 用四种降脂药物时动物的冠状动脉硬化斑块面积 配伍组 斑 块 面 积 (cm2) 药物:安妥明组 降脂甲方组 降脂乙方组 降脂丙方组 1 0.000 0.283 0.114 0.0942 0.009 0.196 0.146 0.1313 0.00

11、3 0.217 0.158 0.0654 0.001 0.236 0.159 0.087 ,例 某医院用中药复方治疗高胆固醇血症,把12例高胆固醇患者随机分为四组,用不同疗法治疗。第一组用一般疗法,第二组在一般疗法上外加用甲药,第三组在一般疗法上外加用乙药,第四组在一般疗法上外加用甲药和乙药,一个月后观察胆固醇降低数(mg) 资料如下,问:甲、乙两药是否有降低胆固醇的作用?两药之间的无交互作用是否有统计学意义?第1组 16,25,18 第2组 56,44,42 第3组 28,31,23 第4组 64,78,80,表 甲、乙两药治疗高胆固醇血症的疗效 甲药使 胆固醇降低值(mg) 用与否 乙药使

12、用与否:不用 用 不用 16 25 18 28 31 23用 56 44 42 64 78 80 注:表10中的四个号码分别代表原题中的第一组至第四组,(4)线性相关与回归 (linear correlation and regression),相关系数r (correlation coefficient) r的假设检验,线性相关,线性回归,回归方程 (regression equation) 其中a为截距(intercept);b为回归系数(coefficient of regression),例1 某地12名一年级女大学生的体重(kg)与肺活量(L)数据见表。,表 12名一年级女大学生的体

13、重与肺活量测定值编号 体重(kg) 肺活量(L)1 42 2.552 42 2.203 46 2.754 46 2.405 46 2.806 50 2.817 50 3.418 50 3.109 52 3.4610 52 2.8511 58 3.5012 58 3.00,2.定性资料的基本统计方法有个模块: ()统计描述 ()区间估计 ()假设检验 ()相关与一致性分析,()统计描述,率(rate),比(ratio),相对数,百分比(构成比、结构相对数),相对比,动态数列的定基比、环比,例 资料见表,计算患病率及病人数百分比。,表 某市工人中冠心病调查资料 年龄 检查人数 病人数 病人数百分比

14、(%)患病率(%) 30- 850 9 40- 800 27 50- 750 54 60- 195 25 合计 2595 115,7.8 1.123.5 3.447.0 7.221.7 12.8 100.0 4.4,(2)区间估计(interval estimation),总体率的可信区间(置信区间)(confidence bound/confidence interval,CI),二项分布( binomial distribution); 置信限(confidence limit,CL),四格表资料行列表配对四格表,(3)假设检验(hypothesis test),检验,计数资料的假设检验:

15、,Chi-square test,基本公式 专用公式 校正公式 确切概率法,基本公式 专用公式 确切概率法,差异性 一致性,例1 某医院内科治疗一般类型胃溃疡病患者82例,治愈64人;治疗特殊类型胃溃疡病患者98例,治愈30人。问该医院内科疗法对两种类型胃溃疡病人治愈率有无不同?,表 两类胃溃疡病患者的疗效分析组别 治愈 未愈 合计 治愈率(%) 一般类型 64 18 82 78.05 特殊类型 30 68 98 30.61合计 94 86 180 52.22,例1 某医生用复合氨基酸胶囊治疗肝硬化病人,观察其对改善实验室指标的效果,见表。试对两组的改善及恢复正常率进行比较。 表 复合氨基酸胶

16、囊对改善实验室指标的效果 分组 改善 未改善 合计 试验组 23 2 25 对照组 11 6 17合计 34 8 42,例3. 某人用3种不同的检验方法检查结核杆菌(抗酸杆菌), 所得结果见表。问:3种方法的检出率有无差别? 表 3种不同检验方法检出结核菌的比较检验方法 阳性 阴性 合计 漂浮集菌法 30 10 40 沉淀集菌法 26 16 42 直接涂片法 11 24 35 合 计 67 50 117,例4. 为比较两种检验方法(中和法与血凝法)检测关节痛病人之抗 “O”结果,观测105例关节痛患者,结果如表。问:两种检验方法有无相关?其检验结果有无差别?表 中和法与血凝法检验结果的比较中和

17、法 血 凝 法 合计 54 8 62 4 39 43合计 58 47 105,秩和检验(rank sum test) Ridit 分析:是relative to an identified distribution 中3个字头和unit的词尾缩写而成。,(3)假设检验(hypothesis test),等级资料的假设检验:,3.非参数检验的概念,(1)参数检验(Parametric test)基于总体为某一特定分布的前提下,对参数进行的检验。如:t检验、F检验等。,(2)非参数检验(Nonparametric test)不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验。如:秩和检验、

18、Ridit等。,4.统计表与统计图 (statistical table and statistical graph),(1)统计表,组合表,简单表,(2)统计图,条图 圆图 线图 直方图 散点图 .,1.医学统计学的发展趋势 概括为:两个转化,一个工具单因素 多因素 两个转化 一元分析 多元分析国内:CHISS、SPLM、NOSA 工具是统计软件国外:SAS、SPSS、STATA,三、多元医学统计学,.割裂多指标易出现的问题,例1 引水氟化是否有致癌作用?1978年8月9号美国一著名报纸刊登了一条科技信息:某单位对美国20个城市做饮水氟化研究,10个城市的饮水氟化,而另10个城市未氟化作对照

19、,结论是:“饮水氟化有致癌作用”。但过了一个时期,该报纸又刊登了相反的文章。,原来前述论文发表后,受到美国癌肿协会和英国统计协会的怀疑,他们派人对该批数据重新做统计分析,其结论是:“饮水氟化没有发现有致癌作用,相反,却略有保护作用。两个结论差别如此之大,根源在于第一分析法完全用单因素分析法,而后一个结论则把两个城市中的种族、生活环境上的不同尽可能地扣除,再去比较两组城市的癌症患病率。,目前糖尿病在中国正处于爆发期,患者每天至少增加三千人,已经远远高于西方国家。 例2:糖尿病的致病原因的探讨。历史性肥胖;年龄;社会心理因素;遗传;饮食习惯;饮酒等喝咖啡量;下肢的大腿较长;等等。,例3携带火柴和发

20、生肺癌间的关系的研究。人们观察发现那些携带火柴的人更有可能发生肺癌。难道这表明携带火柴可能引起肺癌?!,这中间存在混杂因素-吸烟,客观事实,携带火柴不可能引起肺癌。,混杂因素的影响,携带火柴 ? 肺癌吸烟,.多元统计分析的学习方法,掌握各种统计学方法的前提条件和应用资料类型。借助统计软件(SAS,SPSS,CHISS)完成计算的程序。正确解释输出的结果。,科研需要: 意识 兴趣 积累 持久,1.曲线拟合的一般步骤,(1)绘制散点图(scatter plot)将一、一对应的n对x,y 的实际观测值,在平面直角坐标系中作出来。一般地:x为自变量(independent variable); y为应

21、变量(dependent variable)。,例1:10名患者的住院天数X与预后指数YX 2 5 7 10 14 19 26 31 34 38Y 54 50 45 37 35 25 20 16 18 13 绘制散点图。,(2)选取适当的曲线模型(model)幂、指、对三类函数曲线,多项式,图1 唐山市肾综合征出血热拟合曲线,图2 沈阳市肾综合征出血热拟合曲线,图3 济宁市肾综合征出血热拟合曲线,图4 宝鸡市肾综合征出血热拟合曲线,s形曲线,(3)求出模型中的参数估计值,一般采用最小二乘法(least square method)的判断准则:,(4)寻找较理想的拟合曲线,统计上判断方法模型中F

22、值较大,对应的P值较小;决定(确定)系数(determinate coefficient)R2较大;,结合专业知识简单、易于解释。,2.常见曲线的拟合方法,(1)线性相关与回归 (linear correlation and regression),两个变量X,Y间的直线关系用相关系数(correlation coefficient)r表示,其计算公式为:r1,其绝对值愈接近1,两个变量间的直线相关愈密切,愈接近0,线性相关愈不密切。,直线回归(linear regression)当两变量间存在着直线关系时,不仅可以用相关系数r表示变量Y与X线性相关的密切程度和方向,还可以用函数来表示:?,其

23、中:,采用最小二乘法的判断准则:设在第i个点的实际观测值为 ,由回归方程得到的预测值为:,Karl Pearson,Born: 27 March 1857 in London, England Died: 27 April 1936 in Coldharbour, Surrey, England,求出回归方程后,如果方程拟合度较好,可根据X的值来求Y预测值。,常见曲线的SPSS拟合方法,Analyze-Regression-Curve Estimation-选入dependent、X选入Indenpent-选models- Display ANOVA table-OK,若为时间序列: Anal

24、yze-Regression-Curve Estimation-选time-数据选入case labels-选models- models-Display ANOVA table-OK,例1:10名患者的住院天数X与预后指数YX 2 5 7 10 14 19 26 31 34 38Y 54 50 45 37 35 25 20 16 18 13,Dependent variable Y Method LINEARListwise Deletion of Missing DataMultiple R .96982 R Square .94055 Adjusted R Square .93312 S

25、tandard Error 3.86684Analysis of Variance:DF Sum of Squares Mean SquareRegression 1 1892.4803 1892.4803 Residuals 8 119.6197 14.9525F = 126.56649 Signif F = .0000- Variables in the Equation -Variable B SE B Beta T Sig TX -1.118619 .099431 -.969819 -11.250 .0000 (Constant) 52.106321 2.217117 23.502 .

26、0000,11种曲线模型:,(1)直线 (2)二次方程 (3)复合曲线模型 (4)等比级数曲线方程 (5)对数曲线 (6) 3次多项式,(7) S型曲线 (8)指数曲线 (9)倒数变换 (10)幂函数曲线 (11)logistic曲线,多元线性回归 (multiple linear regression),在医学实践中,常会遇到一个应变量与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关, 而且可能与病床周转次数, 床位数等有关;儿童的身高不仅与遗传有关还与生活质量,性别,地区,国别等有关;人的体表面积与体重、身高等有关。需要进行多元统计分析。,1.多元统计分析指标的量化法,在作各种

27、多元统计分析时,除定量资料的指标不需要量化外,分类(包括名义性)变量需进行量化,其方法是: (1)二分类如“性别(SEX)”这个变量,我们不能将其取值“男(或M)”、“女(或F)”直接代入回归方程中去计算,因为它的具体表现不是数据而是文字和符号,而需要用“0”、“1”分别代替两种性别,此时,就说变量SEX是一个二值变量。,(2)无序多分类,如:若设W代表血型变量,则W的状态就有4种情况,即W=A型、W=B型、W=AB型、W=O型。此时需引入3个哑变量。现假设以O型为基准,则3个哑变量X1、X2、X3可按如下方式来定义:A型X1=1、X2=0、X3=0;B型X1=0、X2=1、X3=0;AB型X

28、1=0、X2=0、X3=1;O型X1=0、X2=0、X3=0。一般情况下,若某定性变量有m个水平,就需要引入m-1个二值的哑变量。,(3)有序多分类,按照有序的顺序,从低到高(或从小到大)依次赋值:0,1,2,。如:家庭月收入情况(元):50,50-,500-,2000,10000分为5个等级,可依次赋值为:0,1,2,3,4。,多元线性回归是研究多个自变量与一个因变量之间数量关系并用方程表示出来的一种统计方法。,2.多元线性回归 (multiple linear regression),(1)概念,设研究问题中含有p个指标变量x1, x2,xp及Y, n个观察对象,其数据结构见表3。表3 多

29、元线性回归分析数据结构编号 X1 X2 . XP y1 x11 x21 x1p y12 x12 x22 x2p y2 3 x13 x23 x3p y3 n x1n x2n xnp yp,(2)数据结构,(3)多元线性回归模型,通过实验测得含有p个自变量x1,x2,x3,xp及一个因变量y的n个观察对象值, 利用最小二乘法原理, 建立多元线性回归模型:其中b0为截距, b1 ,b2 bp称为偏回归系数. bi表示当将其它p-1个变量的作用加以固定后, Xi改变1个单位时Y将改变bi个单位.,(4)多元线性回归的作用,(1) 建立回归模型:(2) 预测预报 若已知x1, x2 xp数值大小时, 通

30、过模型可以预测y的值以及估计y的变化范围;(3) 因素分析 找出对因变量y有影响的因素。,(5)前提条件,独立。n个个体之间互相独立;正态。给定X1, X2, , Xm的数值后, 相应的y值服从正态分布;等方差。当X1,X2,Xm的数值变动时,相应的y有相同的方差。,(6)回归分析的具体任务,1) 采用最小二乘法原理确定方程中系数bi i=0,1,2,3p; 2) 采用F检验对回归方程整体进行假设检验; 3) 采用t检验对方程中的每个系数bi进行假设检验。 4)结合专业给出合理的解释。,例2 测得10名女中学生体重x1(kg)、胸围x2(cm)、胸围呼吸差x3(cm)及肺活量y(ml)的测量值

31、列于下表。试建立体重、胸围、胸围呼吸差与肺活量的关系。,(7)一般多元线性回归,x1 x2 x3 y 1 35 69 0.7 1600 2 40 74 2.5 2600 3 40 64 2.0 2100 4 42 74 3.0 2650 5 37 72 1.1 2400 6 45 68 1.5 2200 7 43 78 4.3 2750 8 37 66 2.0 1600 9 44 70 3.2 2750 10 42 65 3.0 2500 ;,操作过程:Analyze-Regression-Linear-y选入Dependent-x1、x2、X3选入Independent-ok,因此,所求的多

32、元线性回归方程为:,在多元线性回归分析中是将全部自变量与Y建回归方程, 当考虑的自变量很多时,常常存在许多对因变量影响无统计学意义的变量,它们的存在一方面增加了模型的复杂性, 另一方面影响模型的效果。因此必须把它们从模型中剔除。从而优化模型。,(8)筛择变量的方法 主要有3种:,向前法(forward selection),开始方程中没有变量,自变量由少到多一个一个引入回归方程。按自变量对因变量的贡献(P值的大小)由大到小依次挑选,变量入选的条件是其P值大于规定进入方程P界值Entry, 缺省值为0.05,向前法优点:计算量小;容易找到单独效果好的变量。缺点: 只进不出;一次只能引入一个自变量

33、, 若两个变量在一起时效果好, 单独一个却效果不好, 这样的变量便无机会被选中。,后退法(backward selection),开始变量都在方程中,然后按自变量因变量的贡献(P值的大小)由小到大依次剔除,变量剔除的条件是其P值小于规定的剔除标准Removal, 缺省值 为0.1。后退法优点:1次能引入多个自变量,若两个变量在一起时效果好容易被选中。缺点:只出不进。,后退法优点:1次能引入多个自变量, 若两个变量在一起时效果好容易被选中。 缺点:只出不进。,逐步回归法(stepwise selection),将前进和后退两种方法结合起来,既考虑引入变量又考虑剔除变量。有两个界值, Entry

34、, Removal,调试法: Entry , Removal常取0.5,0.1,0.05。一般实际用时,应多次选取调整。,SPSS实现逐步回归方法:,操作过程:Analyze-Regression-Linear-y选入Dependent-x1、x2、X3选入Independent-Stepwise-options-ok,(9) 回归模型好坏的评价,1)拟合的回归方程在总体上有统计学意义 2) 决定系数R2 亦称复相关系数R2 =1-SS残/SS总= SS模/SS总, 它表示在因变量y的总变异中可由回归方程所解释部分的比例。 0R21, 越接近于1, 说明回归方程效果越好。,复相关系数是随方程中

35、的变量个数增加而增加的,为了克服这一缺点,对它进行校正Adj R2 =1-MS残/MS总, 0AdjR21, 越接近于1, 说明回归方程效果越好。,3)回归系数估计值的正负号与专业上的含义相吻合,根据回归方程计算的Y的预测值在专业上有意义。,例3 某医科大学的梁教授收集了北京博爱医院在1994年1月2002年7月期间收治的脑卒中患者462例的病历,选取了以下8个变量:年龄x1、性别x2、住院天数(LOS, Length of stay)x3、病变类型(梗塞或出血)x4、病变部位(左侧或右侧)x5、入院时的ADL值(ADL入院 )x6、发病到入院康复治疗的间隔时间x7、出院时的ADL值(ADL出

36、院)Y。应用多元线性回归分析,探讨出院时的ADL值y与7个自变量x1-x7间的联系性。,日常生活活动(activities of daily living,ADL)是人在独立生活中反复进行的、最必要的基本活动。脑卒中后患者的ADL能力会受到不同程度的影响,给家庭和社会带来了巨大的负担。,操作过程:Analyze-Regression-Linear- ADL值y选入Dependent-x1-x7选入Independent-options-ok,专业结论:,出院时的ADL值主要由年龄x1、住院天数x3、入院时的ADL值x6、发病到入院康复治疗的间隔时间x7决定,结合具体资料可知:年龄较小、住院天数

37、多、入院时功能状态好、尽早进行康复训练或治疗的患者,预期的结局越好。,复习:,1.多元统计分析中指标的量化法 2.多元线性回归分析的数据结构与模型 3.多元线性回归分析的具体任务 4.筛选变量的常用方法 5.多元线性回归分析的实现方法,.多元统计分析指标的量化法:,(1)二分类 (2)无序多分类 (3)有序多分类,.多元线性回归分析的 数据结构与模型:,.多元线性回归分析的具体任务,1) 采用最小二乘法原理确定方程中系数bi i=0,1,2,3p; 2) 采用F检验对回归方程整体进行假设检验; 3) 采用t检验对方程中的每个系数bi进行假设检验。 4)结合专业给出合理的解释。,.筛选变量的常用

38、方法,向前法(forward selection) 后退法(backward selection) 逐步回归法(stepwise selection),.多元线性回归的实现过程,操作过程:Analyze-Regression-Linear-y选入Dependent-x1、x2、X3选入Independent-Stepwise-options-ok,logistic regression analysis,第三部分 Logistic回归,内容:,(一)基本概念和原理,1.应用背景 Logistic回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或

39、多项分类的。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。,设资料中有一个因变量y、p个自变量x1, x2,xp,对每个实验对象共有n次观测结果,可将原始资料列成表1形式。,2、Logistic回归模型的数据结构,表1 Logistic回归模型的数据结构 实验对象 y X1 X2 X3 . XP 1 y1 a11 a12 a13 a1p 2 y2 a21 a22 a23 a2p 3 y3 a31 a32 a33 a3p n yn an1 an2 an3 anp ,表2 肺癌与危险因素的调查分析 例号 是否患病 性别 吸烟 年龄 地区1 0 1 0 30 02 0 0 1 46 13

40、 1 0 0 35 1 30 1 0 0 26 1 注:是否患病中,0代表否,1代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。,表3 配对资料(1:1) 对子号 病例 对照x1 x2 x3 x1 x2 x31 1 3 0 1 0 12 0 3 1 1 3 03 0 1 2 0 2 0 10 2 2 2 0 0 0 注:X1蛋白质摄入量,取值:0,1,2,3X2不良饮食习惯,取值:0,1,2,3X3精神状况 ,取值:0,1,2,3、 Logistic回归模型,令: y=1 发病(阳性、死亡、治愈等)y=0 未发病(阴性、生存、未治愈等)将发病的

41、概率记为P,它与自变量x1, x2,xp之间的Logistic回归模型为:可知,不发病的概率为:,经数学变换得:定义:为Logistic变换,即:,4、回归系数i的意义流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比。即Xi的优势比为:,对于样本资料 OR=exp( ) 95%置信区间为: 可见 是影响因素Xi增加一个单位所引起的对数优势的增量,反映了其对Y作用大小。如果要比较不同因素对Y作用大小,需要消除变量量纲的影响,为此计算标准化回归系数,5.假设检验,(1)回归方程的假设检验H0:所有 H1:某个计算统计量为:G=-2l

42、nL,服从自由度等于n-p 的 分布(2)回归系数的假设检验H0: H1:,计算统计量为:Wald,,自由度等于1。,(二) Logistic回归类型及其实例分析,1、非条件Logistic回归当研究设计为队列研究、横断面研究或成组病例对照研究时,要用非条件Logistic回归。,实例1,某研讨究者调查了30名成年人,记录了同肺癌发病的有关因素情况, 数据见表4。其中是否患病中, 0代表否, 1代表是. 性别中 1代表男, 0代表女, 吸烟中 1代表吸烟, 0代表不吸烟. 地区中, 1代表农村, 0代表城市。 试分析各因素与肺癌间的关系。,表4 肺癌与危险因素的调查分析 例号 是否患病 性别 吸烟 年龄 地区1 0 1 0 30 02 0 0 1 46 13 1 0 0 35 1 30 1 0 0 26 1 注:是否患病中,0代表否,1代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。,SPSS操作步骤:,Analyze-Regression-Binary Logistic -Dependent框(y)-Covariates框(x1,x2,)-ok,非条件Logistic回归 SPSS操作步骤:,结果表明, 性别, 吸烟, 年龄三个因素都与肺癌有关. 由于在对某一因素进行单因素分析时没有控制其它因素的干扰, 因此结果不可靠.,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中等教育 > 小学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报