1、1多因素分析多因素分析温州医学院环境与公共卫生学院 叶晓蕾2n概念概念多因素分析是同时对观察对象的两个或两个以上多因素分析是同时对观察对象的两个或两个以上的变量进行分析。的变量进行分析。常用的统计分析方法有:常用的统计分析方法有:多元线性回归、多元线性回归、 Logistic回归、回归、 COX比例风险回归比例风险回归模型、因子分析、主成分分析,等。模型、因子分析、主成分分析,等。3多变量资料数据格式多变量资料数据格式例号例号 X1 X2 Xp Y1 X11 X12 X1p Y12 X21 X22 X2p Y2 n Xn1 Xn2 Xnp YnY为定量变量为定量变量 Linear Regres
2、sionY为二项分类变量为二项分类变量 Binary Logistic RegressionY为多项分类变量为多项分类变量 Multinomial Logistic RegressionY为有序分类变量为有序分类变量 Ordinal Logistic RegressionY为生存时间与生存结局为生存时间与生存结局 Cox Regression4Y, X 直线回归 Y, X1, X2, Xm 多元回归(多重回归) 第十五章第十五章 多元线性回归多元线性回归(multiple linear regressoin) P.261例: 欲研究血压受年龄、性别、体重、性格、职业(体力劳动或脑力劳动)、饮食
3、、吸烟、血脂水平等因素的影响。50为回归方程的常数项(为回归方程的常数项( constant),表示各自变量均为,表示各自变量均为 0时时 y的平的平均值;均值;m为自变量的个数;为自变量的个数;1、 2、 m为偏回归系数(为偏回归系数( Partial regression coefficient)意义:意义: 如如 1 表示在表示在 X2、 X3 X m固定条件下,固定条件下, X1 每增减一每增减一个单位对个单位对 Y 的效应(的效应( Y 增减增减 个单位)。个单位)。e为去除为去除 m个自变量对个自变量对 Y影响后的随机误差,称残差(影响后的随机误差,称残差( residual)。多
4、元回归方程的一般形式多元回归方程的一般形式一、多元回归模型一、多元回归模型6为为 y的估计值或预测值(的估计值或预测值( predicted value); b0为回归方程的常数项(为回归方程的常数项( constant),表示各自变量均为,表示各自变量均为 0时时 y的估计值;的估计值;由样本估计而得的多元回归方程:由样本估计而得的多元回归方程:b1、 b2、 bm为偏回归系数(为偏回归系数( Partial regression coefficient)意义:如意义:如 b1 表示在表示在 X2、 X3 X m固定条件下,固定条件下, X1 每增每增减一个单位对减一个单位对 Y 的效应(的
5、效应( Y 增减增减 b 个单位)。个单位)。7适用条件:适用条件:线性(线性( linear)、独立性()、独立性( independent)、正态性()、正态性( normal)、等方差()、等方差( equal variance) “LINE” 。线性线性 自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。独立性独立性 任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。正态性正态性 就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量 y均服从正均服从正态分布。即要求残差服从正态分布。常用残差图分
6、析。态分布。即要求残差服从正态分布。常用残差图分析。等方差等方差 就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量 y的方差均的方差均相同。即要求残差的方差齐性。用散点图或残差图判断。相同。即要求残差的方差齐性。用散点图或残差图判断。89( 1)因素筛选:)因素筛选: (因素分析)(因素分析)例如影响高血压的诸多因素中:例如影响高血压的诸多因素中:1)哪些是主要因素?)哪些是主要因素?2)各因素的作用大小?)各因素的作用大小?( 2)提高回归方程的估计精度)提高回归方程的估计精度多元回归比只有一个自变量的简单直线回归更多元回归比只有一个自变量的简单直线回归更能缩小应变量能缩
7、小应变量 Y对其估计值的离差,在预测和统计对其估计值的离差,在预测和统计控制方面应用的效果更好。控制方面应用的效果更好。( 3)控制混杂因素)控制混杂因素n多元线性回归除具有直线回归的基本性质外,还具有多元线性回归除具有直线回归的基本性质外,还具有以下特点(用途):以下特点(用途):10( 1)用各变量的数据建立回归方程)用各变量的数据建立回归方程( 2)对总的方程进行假设检验)对总的方程进行假设检验( 3)当总的方程有显著性意义时,应对每个自变量的)当总的方程有显著性意义时,应对每个自变量的偏回归系数再进行假设检验,若某个自变量的偏回归偏回归系数再进行假设检验,若某个自变量的偏回归系数无显著
8、性,则应把该变量剔除,重新建立不包含系数无显著性,则应把该变量剔除,重新建立不包含该变量的多元回归方程。该变量的多元回归方程。 二、多元回归分析步骤二、多元回归分析步骤对新建立的多元回归方程及偏回归系数按上述程对新建立的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意义序进行检验,直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。为止。最后得到最优方程。11例例 15-1( P.262) 27名糖尿病人的血清总胆固醇、甘油三脂、名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表
9、 15-2中中,试建立血糖与其它几项指标关系的多元线性回归方程。,试建立血糖与其它几项指标关系的多元线性回归方程。表 15-2 27名糖尿病人的血糖及有关变量的测量结果序号 i 总胆固醇 甘油三脂 胰岛素 糖化血 血 糖( mmol/L) (mmol/L) (U/ml) 红蛋白 (%) (mmol/L)X1 X2 X3 X4 Y1 5.68 1.90 4.53 8.2 11.22 3.79 1.64 7.32 6.9 8.83 6.02 3.56 6.95 10.8 12.3 26 5.84 0.92 8.61 6.4 13.327 3.84 1.20 6.45 9.6 10.412由上表得到
10、如下多元线性回归方程:1、建立回归方程、建立回归方程132、回归方程的假设检验、回归方程的假设检验 F 检验检验n 结果无显著性结果无显著性1)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变量与应变量不存在线性回归关系;2)也可能由于样本例数过少;)也可能由于样本例数过少;n 结果有显著性结果有显著性表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。H0: 1=2= m= 0H1: 1、 2、 m不等于不等于 0或不全等于或不全等于 014153、各个偏回归系数的假设检验、各个偏回归系数的假设检验 tt 检验检验n将将 总胆固
11、醇总胆固醇 (X1) 剔除。剔除。注意:注意: 通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。对于同一资料,不同自变量的对于同一资料,不同自变量的 t值可以相互比较,值可以相互比较, t的绝对的绝对值越大,或值越大,或 P越小,说明该自变量对越小,说明该自变量对 Y所起的作用越大。所起的作用越大。16n 重新建立不包含提出因素的回归方程重新建立不包含提出因素的回归方程注意:表中偏回归系数已变化。注意:表中偏回归系数已变化。17n 对新建立的回归方程进行检验对新建立的回归方程进行检验检验结果有显著性意义。检验结果有显著性意义。18n 对新方程的偏回归系数进行检验检验结果均有
12、意义,因此回归方程保留 甘油三酯 (X2)、胰岛素 (X3)和糖化血红蛋白 (X4)三个 因素。最后获得回归方程为:191、确定系数(、确定系数( R2):):意义:意义: 在在 y的总变异中,由的总变异中,由 x变量组建立的线性回归方程所能解变量组建立的线性回归方程所能解释的比例。释的比例。 01,越大越优。,越大越优。特点:特点: R2是随自变量的增加而增大。是随自变量的增加而增大。因此,因此, 在相近的情况下,以包含的自变量少者为优。在相近的情况下,以包含的自变量少者为优。三、回归方程的评价三、回归方程的评价、 R 复相关系数复相关系数 ( multiple correlation co
13、efficient) 表示表示 m个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程 度。度。 0R1。即。即 Y与与 的相关系数。的相关系数。20、校正确定系数(、校正确定系数( adjusted R-square, R2a )越大越优。越大越优。 R2a不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。 校正确定系数的计算:校正确定系数的计算:p 为方程中包含的自变量个数,为方程中包含的自变量个数, p m。 R2一定时,一定时, p R 2 aP.268 2122四、各自变量的评价四、各自变量的评价1
14、、偏回归平方和、偏回归平方和是指将某自变量是指将某自变量 xj从回归方程中剔除后所引起的从回归方程中剔除后所引起的回归平方和的减少量回归平方和的减少量 间接反应了自变量间接反应了自变量 xj对应对应变量的贡献大小。变量的贡献大小。各个自变量的偏回归平方和可以通过拟合包含不各个自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到。同自变量的回归方程计算得到。 23回归方程中包含的自变量回归方程中包含的自变量 平方和平方和SS回回 SS残残X1 、 X2 、 X3 、 X4 133.711 88.841X2 、 X3 、 X4 133.098 89.454X1 、 X3 、 X4 12
15、1.748 100.804X1 、 X2 、 X4 113.647 108.905X1 、 X2 、 X3 105.917 116.635对例对例 15-1作回归分析的部分中间结果作回归分析的部分中间结果SS回回 ( X1) =133.711 133.098=0.613SS回回 ( X2) = 133.711 121.748=11.963SS回回 ( X3) =133.711 113.647=20.064SS回回 ( X4) = 133.711 105.917=27.794242、标准化偏回归系数(、标准化偏回归系数( standardized partial regression coeff
16、icient)消除测量单位影响后的偏回归系数消除测量单位影响后的偏回归系数 标准化偏回标准化偏回归系数。归系数。n意义:意义:用以比较各自变量对应变量的影响程度大小用以比较各自变量对应变量的影响程度大小 (即相对贡献大小)。(即相对贡献大小)。25bj X 的偏回归系数 Sj 为自变量的标准差 SY 为应变量的标准差n若将各变量先经标准状态化处理后,再进行多元回归,则所得到的偏回归系数即为标准偏回归系数。 n计算:26 对血糖影响大小的顺序依次为:糖化血红蛋白 (X4)、胰岛素 (X3) 、甘油三酯 (X2)。比较糖化血红蛋白和甘油三酯的标准偏回归系数:0.413 / 0.354 =1.17(
17、倍)糖化血红蛋白对血糖的影响强度约为甘油三酯的 1.17倍。例例 15-1资料,比较各个自变量对血糖的贡献大小比较。资料,比较各个自变量对血糖的贡献大小比较。27五、自变量的筛选五、自变量的筛选基本思路:基本思路: 尽可能将回归效果显著的自变量选尽可能将回归效果显著的自变量选入方程中,作用不显著的自变量排除在外。入方程中,作用不显著的自变量排除在外。( 1)全局择优法()全局择优法( all possible subsets selection):): ( 2)逐步选择法)逐步选择法前进法前进法 ( Forward selection)后退法后退法 ( Backward elimination
18、)逐步法逐步法 ( Stepwise)281、全局择优法(最优子集回归)、全局择优法(最优子集回归)( all possible subsets selection):): 有有 m个自变量就有个自变量就有 2m-1个自变量子集。在个自变量子集。在各子集中选择最优的回归方程。各子集中选择最优的回归方程。仅适用于自变量个数不太多的情况。仅适用于自变量个数不太多的情况。292、向前筛选法、向前筛选法 ( Forward selection):): 事先给定一个入选标准,即事先给定一个入选标准,即 (通常(通常 =0.05) ,然后根据各因素偏回归平方和从大到小,依次逐个引然后根据各因素偏回归平方和
19、从大到小,依次逐个引入回归方程至无显著性自变量可以入选为止,因素一入回归方程至无显著性自变量可以入选为止,因素一旦入选便始终保留在方程中而不被剔除。旦入选便始终保留在方程中而不被剔除。局限性:后续变量的引入可能会使先进入方程的局限性:后续变量的引入可能会使先进入方程的变量变得不重要。变量变得不重要。303、向后剔除法、向后剔除法 ( Backward elimination)首先建立全部自变量的全回归方程,给定剔首先建立全部自变量的全回归方程,给定剔除标准,根据各因素偏回归平方和从小到大,依次除标准,根据各因素偏回归平方和从小到大,依次逐个将无显著性的自变量从回归方程中剔除。逐个将无显著性的自变量从回归方程中剔除。优点:考虑到了自变量的组合作用,选中的自优点:考虑到了自变量的组合作用,选中的自变量数目一般会比前进法选中的多。变量数目一般会比前进法选中的多。缺点:当自变量数目较多或有某些自变量高度缺点:当自变量数目较多或有某些自变量高度相关时,可能得不出正确的结果。相关时,可能得不出正确的结果。