1、多元统计学分类:根据数据模型,分为两种:条件 logistic 回归,用于分析配对病例对照研究数据; 非条件 logistic 回归,用于分析成组数据或非配对的病例对照研究。一、 多元 logistic 回归分析1、 条件:应变量是分类变量;自变量与应变量没有线性关系2、 原理:利用一组观测数据拟合一个 logistic 模型,然后借助这个模型来揭示总体中若干个自变量与一个应变量取每个值的概率之间的依存关系,并评估这一模型模拟相关变化规律的准确性。3、 基本思想:用模型去描述实际资料时,必须使得理论结果与实际结果尽可能一致。4、 Logistic 回归模型在医学中的应用: 筛选危险因子。常用于
2、流行病学的病因学研究中。 校正混杂因子,校正非研究因素的混杂作用。如它可以消除性别、年龄、病情等对治疗效果分析的干扰,消除年龄、职业、收入等对生活嗜好与疾病关系分析的干扰等。 预测疾病或事件发生的概率。非条件 logistic 回归模型是一个概率模型,它可用于预测事件发生的个概率,这是其它模型所不具有的特性。 将样本进行判别分类。它起的作用和判别分析一样,但它对数据的分布没有严格要求,这使其在医学研究中使用很方便。 Logistic 曲线的拟合。医学中不少指标变量之间的关系常用拟合曲线分析,如药物有效剂量估计、剂量反应的趋势分析等。二、 Cox 比例风险回归模型(各种因子对发病的影响、比较和预
3、测、结合定性定量指标信息提高实验效率、适用于任何分布的生存资料)5、 基本思想:类似 logistic 回归模型 基本方法:最大似然函数法(同 logistic 回归模型)6、 Cox 模型在医学中的应用: Cox 模型是一种多元统计方法,可分析多种因素对疾病预后或对生存时间的影响,故 Cox 模型可用来分析各种因子对发病的影响。 具有一般回归方法的特点,可用于比较和预测,在其它因素固定的情况下,它可用于某一因素不同水平的比较;在患者的各种因素已知时,可预测不同时刻的生存概率。 能将定性指标与定量指标信息相结合,提高实验效率。 与参数法相比,它不必考虑生存资料的分布,即任何分布的生存资料均可用
4、 Cox 回归分析。 在流行病学研究中,在得到回归系数 的估计值后,则在 t 时刻的相对危险度很容易估计:h(t)/h(0)=exp(x)7、 Logistic 回归分析与多元线性回归分析的异同点比较相同点:都可以利用模型来筛选危险因素;都可以校正混杂因子的影响;都可以用来预测。不同点: logistic 回归分析(概率型非线性回归) 多元线性回归分析对应变量的分布类型无要求 应变量的分布必须是正态分布应变量必须是分类型变量(二项分布) 应变量必须是连续型随机数值变量不要求自变量和应变量呈线性关系 要求自变量和应变量之间存在线性依存关系分析应变量取某个值的概率与自变量的关系 直接分析应变量与自
5、变量之间的关系Logistic 回归分析还可用于判别 分析(主成分分析和因子分析都可用于判别分析) ,且对数据分布类型无严格要求;还可用于logistic 曲线拟合。多元线性回归分析可确定多个指标变量与一个反应变量之间的线性关系;还可用于建立专家辅助诊断系统。多元线性回归分析基本原理:利用观察或收集到的应变量和自变量的一组数据建立一个应变量关于自变量的线性函数模型,并且这个模型最好地拟合了观察数据。多元线性回归模型的一个用须满足一下条件: 应变量 Y 是服从 正态分布的连续性随机变量。 Y 与 x1、x 2、x m 之间具有线性关系。 各例观察值 Yi(i=1,2 ,n)相互独立。-如果各观察
6、值之间存在关联性(共线性或多重线性关系) ,那么,多元线性回归分析就不适合应用,因为它此时已近不能真实地反映客观情况了。 K 个 自变量是 固定变量(即非随机的或无度量误差的变量)且相互独立,它们之间 K 个自变量之间不存在多重共线性。 残差 ei 是相互独立的随机变量,且服从均值为 0、方差为 2 的正态分布。多元线性回归在医学中的应用:1) 确定多个指标变量与一个反应变量之间的线性关系。2) 筛选疾病的危险因素和有利于健康的健康促进因素。筛选危险因素3) 从较易测得的自变量来推测较难测得的自变量。4) 从已知发生的 X 来预测将发生的 Y。 预测!(同 logistic 回归)5)用于建立
7、专家辅助诊断系统。校正混杂因子(预测、预报与控制A. 影响因素分析a. 控制混杂因素 b. 分析研究哪些因素影响较大 B. 估计与预测建立用于预测目的的回归方程,应选择较高 R2 值的方程 C. 统计控制 统计控制是指利用回归方程进行逆估计,即给应变量 Y 指定一个确定值或者在一定范围内波动,通过控制变量值来实现)8、 聚类分析与判别分析的区别聚类分析 判别分析聚类分析:对于总体分类未知的一群事物依照“物以类聚”思想,把性质相近的事物归入同一类,而把性质相差较大的事物归入不同类的一种统计分析方法。判别分析:是对于总体分类已知的一群事物,根据已有的分类信息把性质相近的事物归入同一类,而把性质相差
8、较大的事物归入不同类的一种统计分析方法。可对样本(Q 聚类)和指标 (R 聚类)进行分类 只能对样本进行分类事先不知道事物的类别,也不知道该分几类,缺乏先验知识 事先知道事物的类别,也知道该如何分成几类不需要分类的历史资料,能直接对样本进行分类需要分类的历史资料来建立判别函数,然后才能对样本进行分类聚类分析:聚类分析属于数据的探索性分析,解释其分析结果时须密切结合专业知识进行;聚类分析是将随机现象进行归类,发掘海量基因信息时首选。对指标归类时,能降维,从而选出有代表性的指标;对样品归类时,目的是找出样品间的共性。判别分析:可用于疾病的计算机辅助诊断研究。可用于慢性病早期预后、手术预后估计,病因
9、研究,环境污染程度的鉴定,环保措施与劳保措施的效果评价等。可分析出各种指标对判别所起作用的大小,从而可对多个指标进行筛选,使得鉴别诊断的可靠性得到提高。判别分析:1)样本的原始分类必须正确无误,否则得不到可靠的判别函数;判别指标的选择要适当,但不在多;必要时要应对判别指标进行筛选。2)判别函数的判别能力不能只由训练样本的回代情况得出结论。3) Fisher 判别、Bayes 线性判别以及二值回归对二类判别是等价的,它们都是线性判别。Logistic 回归也能用于二类判别,但它是非线性的。但常用 Fisher 判别,因为它更简单,回代率也往往更高于 Bayes 判别准则。可用于多类判别的有 Fi
10、sher 判别、 Bayes 判别、logistic 回归,但常用 Bayes 判别。聚类分析的基本思想:寻找一种能客观反映事物之间亲疏关系或者合理评价事物性质相似程度的统计量,然后根据这种统计量和规定的分类准则把事物进行分类。聚类分析方法:系统聚类法、逐步聚类法、最优分割法(有序样品的聚类)任务:寻找合理的度量事物相似性的统计量;寻找合理的分类方法。聚类分析在医学中的应用注意事项: 常用于数据的探索性分析。聚类分析的结果解释应密切结合专业知识,同时尝试用多种聚类方法分类,才能获得较理想的结论。 聚类前应对变量作预处理,剔除无效变量(变量值变化很小) 、缺失值过多的变量。一般需对变量作标准正态
11、变换或极差变换,以消除量纲和变异系数大幅度波动带来的影响。 较理想的样品分类结果应使类间差异大,类内差异较小。分类后单变量时应用方差分析,多变量时应用多元方差分析检验类间差异有无统计学意义。判别分析基本思想:同类内的样品其性质特征相似,表现在类内的离散程度应最小;不同类的样品其性质特征差异大,表现在类间的离散程度应最大,并以此为原则建立判别分类函数-Fisher 判别准则。判别分析在医学中的应用: 可用于疾病的计算机辅助诊断研究。 可用在慢性病早期预后、手术预后估计,病因研究,环境污染程度的鉴定,环保措施与劳保措施的效果评价等医学研究中。 可分析出各种指标对判别所起作用的大小,从而可对多个指标
12、进行筛选,使得鉴别诊断的可靠性得到提高。2.简述直线回归与直线相关的联系与区别主成分与 因子分析的比较:主成分分析 因子分析基本思想将彼此相关的一组指标变量转化为彼此独立的一组新指标变量,并且其中较少的几个新指标变量就能综合反映多个指标变量中所包含的主要信息,又各自带有独特的专业含义。寻找那些隐藏在可测变量中、无法直接观察到,却影响或支配可测变量的潜在因子,并估计潜在因子对可测变量的影响程度以及潜在因子之间的关联性。密切的联系在主成分分析模型两端同时乘以 A-1(即 A)则有 X= AF,此即为无特殊因子的公因子模型;另一方面,在公因子分析的约相关矩阵 R*中,如果取 hi21(i1,2,m)
13、,则因子分析的结果(主成分解)即为主成分分析的结果,此外,因子分析的主因子解也常常由主成分分析的结果作为 hi2的初始值来计算。探索性因子分析所产生的综合变量(即潜在变量),是校正了的观察变量的度量误差,因此它的分析结论更接近真实主成分分析不考虑观察变量的度量误差,直接用观察的某种线性组合来表示一个综合变量 探索性因子分析的优点是可以进行因子旋转,使得潜在因子具有更明确的实际意义,从而使用价值也更高一些不同点(对变量)主成分分析中的主成分是可以准确计算的 因子分子中各公因子的得分只能进行估计得到主成分的数学模型为:Z=AX,即主成分为原始变量的线性组合因子分析的数学模型为 X=AF+e,即原始
14、变量为公因子和特殊因子的线性组合不同点(分析重点不一致) 主成分分析重点在综合原始变量的信息 公因子分析则重在解释原始变量之间的关系降维作用(减少变量个数)可消除共线性作用(将非独立变量化为独立变量)可用于综合评价可用于判别归类应用对量表的评价(信度、效度结构效度,内容效度、反应度灵敏度)主成分分析:实际工作中,所涉及到的众多指标之间经常是有相互联系和影响的。从这一点出发,通过对原始指标的相互关系的研究,找出少数几个综合指标,这些综合指标是原始指标的线性组合,它既保留了原始指标的主要信息,且又互不相关(彼此独立) 。这样一种从众多指标之间相互关系入手,寻找少数几个综合指标用以概括原始指标信息的
15、多元统计方法就被称为主成分分析。主成份分析:对数据和变量结构进行分析处理的一种行之有效的多元统计分析方法,它可在不损失或尽量少损失原有指标信息的情况下,类 型 直线回归(线性回归) 直线相关(线性相关)方向一致:若对某组数据的相关系数记为 r,回归系数记为 b,则二者的符号方向一致。假设检验等价:对同一样本,r 和 b 经过 t 检验之后得到的值相等,即 tr=tb。联系用回归可以解释相关,决定系数 r2=SS 回 /SS 总 ,r 2越接近 1,说明相关性越好。资料要求 线性回归要求应变量 Y 是服从正态分布的随机变量 线性相关要求两个变量 X 和 Y 为服从双变量正态分布的随机变量应用目的
16、 回归分析说明 X 和 Y 之间的数量依存关系 相关分析说明 X 和 Y 之间的关联关系意义 回归系数 b 表示每增/减一个单位时,Y 平均改变 b 个单位 相关系数 r 说明具有线性相关的两个变量之间关系的密切程度和相关方向取值范围 -b+ -1r1区别单位 回归系数 b 有量纲,受 X、Y 计量单位的影响 r 无量纲,不受 X、Y 计量单位的影响将多个具有相关性的指标转换成少数几个互相独立的综合指标,即主成份。基本原理:寻找一个适当的线性或非线性变换,将若干个彼此相关的变量转变为彼此独立的新变量,然后根据新变量的方差大小,选取几个方差最大的新变量替代原变量,使得用最少的几个新变量就能综合反
17、映原变量中所包含的主要信息且又各自带有独特的专业涵义。有实际意义的主成分累积贡献率达不到 70%时,原因可能有: 样本太小; 原始资料中有很多偏态分布; 原则上不能有分类指标,但当样本提高到足够大时,允许有分类变量。确定主成分个数的准则:根据主成分累积贡献率(70%80%) 根据特征值:1主成分分析的任务:估计主成分、确定主成分个数;解释主成分的实际意义;有时还要计算主成分的得分。主成分分析在医学中的应用: 对原始指标进行综合。可以降维,直观明了。从方法学上讲,主成分分析的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原始指标所提供的信息,这就为进一步的统计分析
18、奠定了基础。 可用于判别归类。利用主成分分析还可对样品进行分类。求出主成分后,如果各主成分的专业意义较为明显,可以利用各样品的主成分得分来进行样品的分析。 可消除多元线性回归中自变量的多重线性共线性问题。原因在于各成分之间相互独立,不存在因果关系。由于一个主成分反映一个方面,所以主成分分析可用于综合评价(加权得分) 。因子分析基本思想:依据可测量指标变量之间的相关系数,从中寻找出合理的有实际意义的潜在因子,并估计出潜在因子对可测指标变量的影响程度及潜在因子之间的关联性。进行因子分析的 4 个任务: 计出载荷矩阵 A; 确定共性因子个数 m; 确定有实际意义的载荷矩阵 B; 计算因子得分。确定潜
19、在因子个数的准则: 特征根大于 1; 最大特征根之和占总特征根之和的 70%以上。因子分析的应用降维作用。可消除共线性作用。因子分析可用于综合评价(因子分析可对个体也可对群体进行评价) 。可用于判别分类,因为一个因子代表一个独立的方面(同主成分分析) 。对量表的评价:4.logistic 回归和 COX 风险模型在应用上的区别Logistic 回归模型(筛选危险因子、预测、校正混杂因子、logistic 曲线拟合、判别分析)1) (预测)可用于多因素预后分析; 2) (校正混杂因子)控制混杂因素效应; 3) (估计 OR 或 RR 值)并可进行优势比 OR 或相对危险度 RR 估计; 4) (
20、注重结果忽略过程)logistic 回归模型考虑到随访结局(生存、死亡或无效),而未考虑出现结局的时间长短; 5) (不能处理常见删失数据)但不能处理常见的删失数据。COX 比例危险率回归模型(Cox 回归具有 logistic 回归模型的所有优点)(各种因子对发病的影响、比较和预测、结合定性定量指标信息提高实验效率、适用于任何分布的生存资料)1) (能分析结局和过程出现结局的时间长短)不仅可以从结局的好坏,还可以从出现该结局的时间长短进行分析比较;2) (估计 RR 值)可以进行相对危险度即 RR 估计;3) (能处理删失数据)可以处理删失数据,特别适用于长期随访资料的分析,如肿瘤及慢性病的
21、预后分析;但是在删失数据较少或终点事件发生数较少时宜用 logistic 回归。Cox 模型:Cox 模型以半参数方式出现,适用于多种分布未知的资料和多元素分析。该模型主要能在众多预后因素共存的情况下,排除混杂因素的影响,提高预后分析质量,并能处理数据中的结尾数据。在其他因素固定的情况下,可以比较某一因素的不同水平对生存时间的影响;在病人各因素已知的情况下,可以预测不同时刻病人的生存率。Cox 模型与 logistic 回归分析相比,具有相似之处,即在估计出回归系数后,可以得到相应因素的相对危险度,但 logistic 分析时只考虑了事件的结果,而没有考虑生存时间的长短。因此,Cox 模型更多
22、地利用了资料的信息。同时,logistic 回归模型要求资料满足事件的发生率较低的假定,而 Cox 模型则不受该条件的限制。前瞻性研究中,logistic 回归设计上要求每个观察对象的观察时间长短一致,而 Cox 模型不要求。研究对象数据删失失时,用 Cox 回归处理更容易。分析题:因子分析统计模型:X 1=0.74011 1+0.48649 2+0.40054 3+ 1在初始模型分析中,算出有 3 个特征根,占总特征根之和为 86.5%,大于 70%,即大约 86.5%的总方差可由这 3 个潜在的因子所解释。通过最大方差正交旋转后,得到 8 个指标在 3 个因子上的因子载荷。根据 0.5 原则,Factor1 支配的指标有 X7,X 6,X 5,X 1,因子1 的实际意义可由前 4 个指标来解释;Factor2 支配的指标有 X4,X8,因子 2 的实际意义可由 X4,X 8指标解释;Factor3 支配的指标有X3,X 2,因子 3 的实际意义可由 X3,X 2来解释。它们没有交叉支配的现象,即每个指标只受一个潜在因子影响,且没有指标潜在因子出现,即一个潜在因子至少支配两个指标。